CN116910662A - 基于随机森林算法的旅客异常识别方法和装置 - Google Patents

基于随机森林算法的旅客异常识别方法和装置 Download PDF

Info

Publication number
CN116910662A
CN116910662A CN202310800663.0A CN202310800663A CN116910662A CN 116910662 A CN116910662 A CN 116910662A CN 202310800663 A CN202310800663 A CN 202310800663A CN 116910662 A CN116910662 A CN 116910662A
Authority
CN
China
Prior art keywords
passenger
model
random forest
feature
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310800663.0A
Other languages
English (en)
Inventor
王驰
苗应亮
胡长柏
李胜南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maxvision Technology Corp
Original Assignee
Maxvision Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maxvision Technology Corp filed Critical Maxvision Technology Corp
Priority to CN202310800663.0A priority Critical patent/CN116910662A/zh
Publication of CN116910662A publication Critical patent/CN116910662A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于随机森林算法的旅客异常识别方法及装置,其方法包括:随机森林模型的建立步骤、随机森林模型的定时更新步骤和旅客的异常判断步骤;其中,所述随机森林模型的建立步骤中,将数据样本分类为不同异常人员类型,并对不同异常人员类型的特征数据进行相关性分析,得到不同特征与结果的相关性数值;所述旅客的异常判断步骤中,实时计算待检测旅客的特征,并将该特征与所述随机森林模型的建立步骤获得的相关性数值进行比对,以判断该待检测旅客的异常与否。本发明采用上述方案,当航班还未到达口岸时,根据预报信息提前对旅客人物画像进行分类预测,当存在人员异常时给出预警提示,可提前进行人员部署,具有很好的实用性。

Description

基于随机森林算法的旅客异常识别方法和装置
技术领域
本发明涉及电子信息技术领域,具体涉及一种基于Bagging Boosting的随机森林算法对口岸旅客进行异常识别的方法和装置。
背景技术
目前,边检工作人员对过关旅客进行证件筛查和风险识别时,主要有两类方法,一类是根据自身经验做出抉择的人工判断方法,另一类是通过计算机辅助建立专家经验库而实现的自动判断方法。
其中,人工判断存在以下不足:1、工作人员对过关旅客人员进行风险识别时存在一定的主观性,无法做到统一标准风险判断;2、工作人员风险识别经验参差不齐,不足以保证风险旅客识别率;3、人工判别效率不足,使通关查验无法持续保持高效。
自动判断方法中,口岸通过建立专家经验库,根据专家规则对风险旅客进行识别,但是专家经验库的专家经验方法存在以下缺陷:(1)专家经验法根据专家经验生成对应规则,与数据真实分布可能存在一定的差异,造成漏检或错检;(2)部分规则根据历史异常旅客特征具体值生成规则,未充分考虑特征分布完整性,仅凭特征相同进行异常判定存在漏检风险;(3)当规则中存在多条与结果不相关特征时,影响旅客异常排查效率。此外,当历史异常旅客人数达到一定数量级时,人工在数据集中寻找规律的可行性低,通过机器学习模型进行模型训练,提取客观规律的效率更加可观,且机器学习方法可计算模型准确性,通过设定阈值可筛除准确性低的模型,可优化旅客异常识别精度,但目前尚未有识别精度高的旅客异常识别方法。
发明内容
在下文中给出了关于本发明实施例的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,以下概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本申请的一个方面,提供一种基于随机森林算法的旅客异常识别方法,包括:随机森林模型的建立步骤、随机森林模型的定时更新步骤和旅客的异常判断步骤;所述随机森林模型的建立步骤中,将数据样本分类为不同异常人员类型,并对不同异常人员类型的特征数据进行相关性分析,得到不同特征与结果的相关性数值;所述旅客的异常判断步骤中,实时计算待检测旅客的特征,并将该特征与所述随机森林模型的建立步骤获得的相关性数值进行比对,以判断该待检测旅客的异常与否。
具体的,所述随机森林模型的建立步骤包括:
建立数据样本,将数据样本按照异常人员类型进行分类并获取其特征数据,形成不同异常人员类型的特征数据;
采用互信息法对不同异常人员类型的特征数据进行相关性分析,得到不同特征与输出结果的相关性数值;其中,输出结果为随机森林模型的输出,也即人员分类以及异常与否结果;随机森林模型在构建时包含输入和输出,输入为不同异常人员类型的特征数据,输出为人员异常与否;
根据相关性数值筛选出相关性数值大于0的特征集合[X0,X1,...,XM],将特征集合和标签集合[Y0,Y1,...,YM]拆分成训练集和测试集;特征集合[X0,X1,...,XM]中,Xi(1≤i≤M)表示第i个输入数据,含有n个特征;标签集合[Y0,Y1,...,YM]的数据长度与特征集合[X0,X1,...,XM]相同,标签集合[Y0,Y1,...,YM]中,Yi(1≤i≤M)为第i个输出结果,表示异常与否,取值为0(无异常)或1(异常);
将测试集代入训练好的随机森林模型,如果预测精度满足设定阈值T,则保存筛选后特征集合和随机森林模型;
随机森林模型的定时更新步骤包括定时更新特征集合和随机森林模型;
旅客的异常判断步骤,包括:
计算旅客P的特征h1、h2、h3
将旅客P的特征h1、h2、h3分别与随机森林模型中的不同异常人员类型的模型分别进行比对;
根据比对结果判断是否异常;
如有异常则当该旅客进入警示区域范围内则发出预警信号。
进一步的,将测试集代入训练好的随机森林模型,其中所述随机森林模型的训练过程包括:
记训练总样本的个数为N,则单棵决策树从N个训练集中有放回的随机抽取n个作为此单颗树的训练样例;
令训练样例的输入特征的个数为M,则每颗决策树的每个节点上进行***时,从M个输入特征里随机选择m个输入特征,然后从这个输入特征里选择一个最好的进行***;m远远小于M,m在构建决策树的过程中不会改变;
每棵树都一直这样***下去,直到该节点的所有训练样例都属于同一类,不需要剪枝;
结果判定:
①目标特征为数字类型:取t个决策树的平均值作为分类结果;
②目标特征为类别类型:少数服从多数,取分类结果最多的那个类别作为整个随机森林的分类结果。
本发明的随机森林方法为基于Bagging Boosting(将训练样本从数据集中多次抽取,构建多个弱学习器,而boosting是在训练期间迭代构建强学习器)的随机森林,所述随机森林模型的训练过程具体实现步骤如下:
1.首先从训练集中随机选取N个样本,作为Bootstrap抽样的样本集;
2.然后从所有特征中随机选取m个特征,作为当前决策树的可选特征集;
3.基于Bootstrap抽样的样本集和可选特征集,训练一个决策树;
4.根据训练出的决策树进行预测,计算预测结果与真实值之间的差距,作为下一轮训练的样本权重;
5.根据样本权重重新进行Bootstrap抽样,得到新的样本集,并基于新的样本集和可选特征集训练下一个决策树;
6.重复执行步骤4和步骤5,直到训练出指定数量的决策树;
7.最终通过投票的方式,将多个决策树的预测结果进行集成,得到最终的分类结果。
进一步的,所述异常人员类型包括涉赌涉诈人员、非法务工人员和外籍新娘。所述旅客P的特征h1、h2、h3为基于不同异常人员类型的旅客特征,具体的,所述旅客P的特征h1为相关涉赌涉诈人员的特征数据,一般为一组具有相关性的特征集;旅客P的特征h2为相关非法务工人员的特征数据,一般为一组具有相关性的特征集;旅客P的特征h3为相关外籍新娘的特征数据,一般为一组具有相关性的特征集;上述不同异常人员类型的旅客特征包括旅客基础信息、旅客出行信息、旅客非法记录、旅客在华信息等特征信息。
进一步的,将测试集代入训练好的随机森林模型,如果预测精度满足设定阈值,则得到涉赌涉诈人员特征集合f1、非法务工人员特征集合f2、外籍新娘特征集合f3、涉赌涉诈人员模型m1、非法务工人员模型m2、以及外籍新娘模型m3
进一步的,将旅客P的特征h1、h2、h3分别与随机森林模型中的不同异常人员类型的模型分别进行比对,具体包括:
将旅客P特征h1带入模型库对应模型m1进行预测,得到m1模型预测值,根据预测值判断旅客是否是涉赌涉诈人员;
将旅客P特征h2带入模型库对应模型m2进行预测,得到m2模型预测值,根据预测值判断旅客是否是非法务工人员;
将旅客P特征h3带入模型库对应模型m3进行预测,得到m3模型预测值,根据预测值判断旅客是否是外籍新娘。
进一步的,随机森林模型的定时更新步骤具体包括,遍历各异常人员类型,获取各异常人员类型对应的旅客ID,随机获取相同数量的常规人员旅客ID,将各异常人员类型对应的旅客ID和随机获取的常规人员旅客ID组成旅客训练集合;计算旅客训练集合的各类特征。其中,旅客训练集合的各类特征包括旅客基础信息、旅客出行信息、旅客非法记录和旅客在华信息特征模块。
其中,所述旅客基础信息包括国籍(中国与否)、年龄段(少年、青年、中年、老年)、证件类型、性别、人员类别、签证停留期和签证类别;所述旅客出行信息包括出入境次数、平均入境时间间隔、平均出境时间间隔、出入境次数是否匹配、平均国内停留时长、平均国外停留时长、往来地(是否包含高风险国家)以及境外轨迹(是否包含高风险国家);所述旅客非法记录包括违法违规次数、非法入境次数和非法居留次数;所述旅客在华信息包括在华停留区域(村镇、一线城市、重点城市等)、住宿(酒店、租房、居家等)、以及团聚类签证(是否申请过)。
进一步的,采用互信息法对不同异常人员类型的特征数据进行相关性分析,具体包括:
根据互信息I(X;Y)的计算公式得到不同特征与结果的相关性数值,相关性数值范围为[0,1],互信息I(X;Y)的计算公式为:
其中,p(x)和p(y)为特征X和标签Y的边际概率分布函数,p(x,y)为特征X和标签Y的联合概率分布函数。
根据本申请的另一方面,提供一种基于随机森林算法的旅客异常识别装置,包括:用于执行随机森林模型的建立步骤的第一模块、用于执行随机森林模型的定时更新步骤的第二模块和用于执行旅客的异常判断步骤的第三模块;其中,所述第一模块用于将数据样本分类为不同异常人员类型,并对不同异常人员类型的特征数据进行相关性分析,得到不同特征与结果的相关性数值;所述第三模块用于实时计算待检测旅客的特征,并将该特征与所述随机森林模型的建立步骤获得的相关性数值进行比对,以判断该待检测旅客的异常与否。
具体的,所述第一模块中,随机森林模型的建立步骤包括:
建立数据样本,将数据样本按照异常人员类型进行分类并获取其特征数据,形成不同异常人员类型的特征数据;
采用互信息法对不同异常人员类型的特征数据进行相关性分析,得到不同特征与结果的相关性数值;
根据相关性数值筛选出相关性数值大于0的特征集合[X0,X1,...,XM],将特征集合和标签集合[Y0,Y1,...,YM]拆分成训练集和测试集;特征集合[X0,X1,...,XM]中,Xi(1≤i≤M)表示第i个输入数据,含有n个特征;标签集合[Y0,Y1,...,YM]的数据长度与特征集合[X0,X1,...,XM]相同,标签集合[Y0,Y1,...,YM]中,Yi(1≤i≤M)为第i个输出结果,表示异常与否,取值为0(无异常)或1(异常);
将测试集代入训练好的随机森林模型,如果预测精度满足设定阈值T,则保存筛选后特征集合和随机森林模型;
所述第二模块中,随机森林模型的定时更新步骤包括定时更新特征集合和存储模型;
所述第三模块中,旅客的异常判断步骤,包括:
计算旅客P的特征h1、h2、h3
将旅客P的特征h1、h2、h3分别与随机森林模型中的不同异常人员类型的模型分别进行比对;
根据比对结果判断是否异常;
如有异常则当该旅客进入警示区域范围内则发出预警信号。
与现有技术相比,本发明根据旅客人物画像数据和标记数据进行特征相关性分析,结合有监督分类模型(随机森林模型),为旅客人物画像分类提供一种客观计算方法;结合数据本身和业务属性给出口岸旅客人物画像相关特征集,利于分类模型的精准度;不同标签类型数据与特征集合进行相关性分析,筛除不相关特征,减轻机器学习模型训练计算量,提高计算效率;定期根据现有数据计算各模型精确度,当精确度达到阈值要求时方可对预报信息特征进行预测,自动过滤低精度预测模型;当航班还未到达口岸时,根据预报信息提前对旅客人物画像进行分类预测,当存在人员异常时给出预警提示,可提前进行人员部署,具有很好的实用性。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附
图中:
图1为本发明的旅客异常识别方法的原理图;
图2为本发明的不同异常人员类型的特征数据集合示意图。
具体实施方式
下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
目前口岸工作人员往往根据自身经验对旅客进行主观异常判断,有存在漏检错检的可能。本发明的旅客异常识别方法可直接应用在边检过关旅客数据研判领域;本发明的方案根据异常人员特征与异常标签构建机器学习模型,对即将边检通关旅客进行异常识别,起到异常人员预警作用。
作为一个具体的实施例,参见图1,本发明的旅客异常识别方法包括:定时计算过程和触发式计算过程,其中定时计算过程包含了随机森林模型的预先建立步骤。
其中,定时计算(部署时启动初次计算、随着数据累计每周固定时间计算更新特征集合和存储模型)包括如下步骤:
步骤(1):遍历各异常人员类型i:涉赌涉诈人员、非法务工人员、外籍新娘等;
步骤(2):获取异常人员类型i对应的旅客ID,随机获取相同数量的常规人员旅客ID,组成旅客训练集合;
步骤(3):计算旅客集合各类特征,包含旅客基础信息、旅客出行信息、旅客非法记录、旅客在华信息特征模块;
①旅客基础信息:
国籍(中国与否)、年龄段(少年、青年、中年、老年)、证件类型、性别、人员类别、签证停留期、签证类别;
②旅客出行信息:出入境次数、平均入境时间间隔、平均出境时间间隔、出入境次数是否匹配、平均国内停留时长、平均国外停留时长、往来地(是否包含高风险国家)、境外轨迹(是否包含高风险国家)
③旅客非法记录:违法违规次数、非法入境次数、非法居留次数
④旅客在华信息:在华停留区域(村镇、一线城市、重点城市等)、住宿(酒店、租房、居家等)、团聚类签证(是否申请过);
步骤(4):采用互信息法对特征进行相关性分析;
评价定性自变量对定性因变量的相关性,评价类别型变量对类别型变量的相关性,互信息越大表明两个变量相关性越高,互信息为0时,两个变量相互独立。互信息的计算公式为:
其中,p(x)和p(y)为特征X和标签Y的边际概率分布函数,p(x,y)为特征X和标签Y的联合概率分布函数。直观上,互信息度量两个随机变量之间共享的信息,也可表示为由于X的引入而使Y的不确定性减少的量,这时互信息与信息增益相同。
根据互信息的计算公式最终得到不同特征与结果的相关性数值,数值分布[0,1]。
步骤(5):筛除相关性为0的特征,保留相关性大于0的特征集合[X0,X1,...,XM],将特征集合和标签集合[Y0,Y1,...,YM]拆分成训练集和测试集;特征集合[X0,X1,...,XM]中,Xi(1≤i≤M)表示第i个输入数据,含有n个特征;标签集合[Y0,Y1,...,YM]的数据长度与特征集合[X0,X1,...,XM]相同,标签集合[Y0,Y1,...,YM]中,Yi(1≤i≤M)为第i个输出结果,表示异常与否,取值为0(无异常)或1(异常);
步骤(6):随机森林模型训练过程;
关于随机:
①训练每棵树时,从全部训练样本中选取一个子集进行训练(即bootstrap取样)。用剩余的数据进行评测,评估其误差;
②在每个节点,随机选取所有特征的一个子集,用来计算最佳分割方式。
算法流程:
①训练总样本的个数为N,则单棵决策树从N个训练集中有放回的随机抽取n个作为此单颗树的训练样本(bootstrap有放回取样)。
②令训练样例的输入特征的个数为M,m远远小于M,则我们在每颗决策树的每个节点上进行***时,从M个输入特征里随机选择m个输入特征,然后从这个输入特征里选择一个最好的进行***。m在构建决策树的过程中不会改变。
注意:要为每个节点随机选出m个特征,然后选择最好的那个特征来***。决策树中***属性的度量:基尼指数。
③每棵树都一直这样***下去,直到该节点的所有训练样例都属于同一类,不需要剪枝。由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。
结果判定:
①目标特征为数字类型:取t个决策树的平均值作为分类结果。
②目标特征为类别类型:少数服从多数,取分类结果最多的那个类别作为整个随机森林的分类结果。
本发明的随机森林方法为基于Bagging Boosting(将训练样本从数据集中多次抽取,构建多个弱学习器,而boosting是在训练期间迭代构建强学习器)的随机森林,所述随机森林模型的训练过程具体实现过程如下:
过程1.首先从训练集中随机选取N个样本,作为Bootstrap抽样的样本集;
过程2.然后从所有特征中随机选取m个特征,作为当前决策树的可选特征集;过程3.基于Bootstrap抽样的样本集和可选特征集,训练一个决策树;
过程4.根据训练出的决策树进行预测,计算预测结果与真实值之间的差距,作为下一轮训练的样本权重;
过程5.根据样本权重重新进行Bootstrap抽样,得到新的样本集,并基于新的样本集和可选特征集训练下一个决策树;
过程6.重复执行过程4和过程5,直到训练出指定数量的决策树;
过程7.最终通过投票的方式,将多个决策树的预测结果进行集成,得到最终的分类结果。
本发明的随机森林模型的训练方法和常规随机森林的区别在于:
1.特征选择:常规随机森林采用随机选择m个特征(m=sqrt(p})构建多个决策树,而基于Bagging Boosting方法构建的随机森林模型则采用随机特征选择的方式(m=log_2p)构建多个决策树。具体地,对于训练集中的每个决策树,它只会从所有特征中随机选择一部分特征进行训练,而不是随机选择所有特征。
2.调整:在训练过程中,常规随机森林每个决策树的训练都是基于Bootstrap抽样的样本集进行的,而基于Bagging Boosting方法构建的随机森林模型则在每轮训练中根据当前样本的错误情况进行权重调整,以便于下一轮训练更关注错误样本,提高模型的准确性。
3.次数控制:常规随机森林的训练通常是基于事先设定的树的数量进行的,而基于Bagging Boosting方法构建的随机森林模型则在每轮迭代中根据模型的预测性能进行评估,以决定是否需要增加迭代次数。
步骤(7):将测试集代入训练好的随机森林模型,如果预测精度满足设定阈值T,则保存筛选后特征集合和随机森林模型;
步骤(8):如果预测精度均满足设定阈值,可以得到涉赌涉诈人员特征集合f1、非法务工人员特征集合f2、外籍新娘特征集合f3和涉赌涉诈人员模型m1、非法务工人员模型m2、外籍新娘模型m3
触发式计算(当预报旅客P到达前计算)包括如下步骤:
步骤(1)计算旅客P特征h1、h2、h3;特征h1为相关涉赌涉诈人员的特征数据,特征h2为相关非法务工人员的特征数据,特征h3为相关外籍新娘的特征数据;
步骤(2)将旅客P特征h1带入模型库对应模型m1进行预测,得到m1模型预测值,根据预测值可知旅客是否是涉赌涉诈人员;
步骤(3)将旅客P特征h2带入模型库对应模型m2进行预测,得到m2模型预测值,根据预测值可知旅客是否是非法务工人员;
步骤(4)将旅客P特征h3带入模型库对应模型m3进行预测,得到m3模型预测值,根据预测值可知旅客是否是外籍新娘;
步骤(5)根据以上步骤可知旅客P是否有异常,如有异常提前发出预警;
步骤(6)如旅客P预测异常,当旅客P进行过关检查时,现场工作人员对其进行重点筛查和盘问;
作为另一种实施例,本发明还提供一种基于随机森林算法的旅客异常识别装置,该装置执行上述旅客异常识别方法。
本发明的方法可直接应用在边检过关旅客数据研判领域,根据异常人员特征与异常标签构建机器学习模型,对即将边检通关旅客进行异常识别,起到异常人员预警作用。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims (10)

1.基于随机森林算法的旅客异常识别方法,其特征在于:包括:随机森林模型的建立步骤、随机森林模型的定时更新步骤和旅客的异常判断步骤;
其中,所述随机森林模型的建立步骤中,将数据样本分类为不同异常人员类型,并对不同异常人员类型的特征数据进行相关性分析,得到不同特征与结果的相关性数值;所述旅客的异常判断步骤中,实时计算待检测旅客的特征,并将该特征与所述随机森林模型的建立步骤获得的相关性数值进行比对,以判断该待检测旅客的异常与否。
2.根据权利要求1所述的旅客异常识别方法,其特征在于:
所述随机森林模型的建立步骤具体包括:
建立数据样本,将数据样本按照异常人员类型进行分类并获取其特征数据,形成不同异常人员类型的特征数据;
采用互信息法对不同异常人员类型的特征数据进行相关性分析,得到不同特征与结果的相关性数值;
根据相关性数值筛选出相关性数值大于0的特征集合,将特征集合和标签集合拆分成训练集和测试集;
将测试集代入训练好的随机森林模型,如果预测精度满足设定阈值,则保存筛选后特征集合和随机森林模型;
随机森林模型的定时更新步骤包括定时更新特征集合和存储模型;
旅客的异常判断步骤,包括:
计算旅客P的特征h1、h2、h3;所述旅客P的特征h1、h2、h3为基于不同异常人员类型的旅客特征;
将旅客P的特征h1、h2、h3分别与随机森林模型中的不同异常人员类型的模型分别进行比对;
根据比对结果判断是否异常;
如有异常则当该旅客进入警示区域范围内则发出预警信号。
3.根据权利要求2所述的旅客异常识别方法,其特征在于:所述异常人员类型包括涉赌涉诈人员、非法务工人员和外籍新娘;所述旅客P的特征h1为相关涉赌涉诈人员的特征数据,旅客P的特征h2为相关非法务工人员的特征数据,旅客P的特征h3为相关外籍新娘的特征数据。
4.根据权利要求3所述的旅客异常识别方法,其特征在于:将测试集代入训练好的随机森林模型,如果预测精度满足设定阈值,则得到涉赌涉诈人员特征集合f1、非法务工人员特征集合f2、外籍新娘特征集合f3、涉赌涉诈人员模型m1、非法务工人员模型m2、以及外籍新娘模型m3
5.根据权利要求4所述的旅客异常识别方法,其特征在于:将旅客P的特征h1、h2、h3分别与随机森林模型中的不同异常人员类型的模型分别进行比对,具体包括:
将旅客P特征h1带入模型库对应模型m1进行预测,得到m1模型预测值,根据预测值判断旅客是否是涉赌涉诈人员;
将旅客P特征h2带入模型库对应模型m2进行预测,得到m2模型预测值,根据预测值判断旅客是否是非法务工人员;
将旅客P特征h3带入模型库对应模型m3进行预测,得到m3模型预测值,根据预测值判断旅客是否是外籍新娘。
6.根据权利要求5所述的旅客异常识别方法,其特征在于:随机森林模型的定时更新步骤具体包括,遍历各异常人员类型,获取各异常人员类型对应的旅客ID,随机获取相同数量的常规人员旅客ID,将各异常人员类型对应的旅客ID和随机获取的常规人员旅客ID组成旅客训练集合;计算旅客训练集合的各类特征;其中,旅客训练集合的各类特征包括旅客基础信息、旅客出行信息、旅客非法记录和旅客在华信息特征模块。
7.根据权利要求6所述的旅客异常识别方法,其特征在于:所述旅客基础信息包括国籍、年龄段、证件类型、性别、人员类别、签证停留期和签证类别;所述旅客出行信息包括出入境次数、平均入境时间间隔、平均出境时间间隔、出入境次数是否匹配、平均国内停留时长、平均国外停留时长、往来地以及境外轨迹;所述旅客非法记录包括违法违规次数、非法入境次数和非法居留次数;所述旅客在华信息包括在华停留区域、住宿、以及团聚类签证。
8.根据权利要求6所述的旅客异常识别方法,其特征在于:采用互信息法对不同异常人员类型的特征数据进行相关性分析,具体包括:
根据互信息I(X;Y)的计算公式得到不同特征与结果的相关性数值,相关性数值范围为[0,1],互信息I(X;Y)的计算公式为:
其中,p(x)和p(y)为特征X和标签Y的边际概率分布函数,p(x,y)为特征X和标签Y的联合概率分布函数。
9.根据权利要求2所述的旅客异常识别方法,其特征在于:将测试集代入训练好的随机森林模型,其中所述随机森林模型的训练过程包括:过程1:从训练集中随机选取N个样本,作为Bootstrap抽样的样本集;
过程2:从所有特征中随机选取m个特征,作为当前决策树的可选特征集;
过程3:基于Bootstrap抽样的样本集和可选特征集,训练一个决策树;
过程4:根据训练出的决策树进行预测,计算预测结果与真实值之间的差距,作为下一轮训练的样本权重;
过程5:根据样本权重重新进行Bootstrap抽样,得到新的样本集,并基于新的样本集和可选特征集训练下一个决策树;
过程6:重复执行过程4和过程5,直到训练出指定数量的决策树;
过程7:最终通过投票的方式,将多个决策树的预测结果进行集成,得到最终的分类结果。
10.基于随机森林算法的旅客异常识别装置,其特征在于:包括:用于执行随机森林模型的建立步骤的第一模块、用于执行随机森林模型的定时更新步骤的第二模块和用于执行旅客的异常判断步骤的第三模块;其中,所述第一模块用于将数据样本分类为不同异常人员类型,并对不同异常人员类型的特征数据进行相关性分析,得到不同特征与结果的相关性数值;所述第三模块用于实时计算待检测旅客的特征,并将该特征与所述随机森林模型的建立步骤获得的相关性数值进行比对,以判断该待检测旅客的异常与否。
CN202310800663.0A 2023-07-03 2023-07-03 基于随机森林算法的旅客异常识别方法和装置 Pending CN116910662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310800663.0A CN116910662A (zh) 2023-07-03 2023-07-03 基于随机森林算法的旅客异常识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310800663.0A CN116910662A (zh) 2023-07-03 2023-07-03 基于随机森林算法的旅客异常识别方法和装置

Publications (1)

Publication Number Publication Date
CN116910662A true CN116910662A (zh) 2023-10-20

Family

ID=88355554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310800663.0A Pending CN116910662A (zh) 2023-07-03 2023-07-03 基于随机森林算法的旅客异常识别方法和装置

Country Status (1)

Country Link
CN (1) CN116910662A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172729A (zh) * 2023-11-03 2023-12-05 南通进宝机械制造有限公司 一种基于大数据的劳务分包人员管理***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172729A (zh) * 2023-11-03 2023-12-05 南通进宝机械制造有限公司 一种基于大数据的劳务分包人员管理***
CN117172729B (zh) * 2023-11-03 2024-04-05 南通进宝机械制造有限公司 一种基于大数据的劳务分包人员管理***

Similar Documents

Publication Publication Date Title
CN110796284B (zh) 细颗粒物污染等级的预测方法、装置及计算机设备
CN107528832B (zh) 一种面向***日志的基线构建与未知异常行为检测方法
CN109214274B (zh) 一种机场安保管理***
CN111081016B (zh) 一种基于复杂网络理论的城市交通异常识别方法
CN111507376B (zh) 一种基于多种无监督方法融合的单指标异常检测方法
CN109615116A (zh) 一种电信诈骗事件检测方法和检测***
CN110647539A (zh) 一种用于车辆故障的预测方法和***
CN111436944B (zh) 一种基于智能移动终端的跌倒检测方法
CN110287439A (zh) 一种基于lstm的网络行为异常检测方法
CN109194612A (zh) 一种基于深度置信网络和svm的网络攻击检测方法
CN109034036A (zh) 一种视频分析方法、教学质量评估方法及***、计算机可读存储介质
CN106874951B (zh) 一种旅客关注度评级方法及装置
CN115938095B (zh) 一种基于集成融合模型的山体滑坡监测预警方法及***
CN116910662A (zh) 基于随机森林算法的旅客异常识别方法和装置
Sethi et al. Soundscapes predict species occurrence in tropical forests
Zhu et al. Traffic monitoring and anomaly detection based on simulation of luxembourg road network
CN116933112A (zh) 一种基于dbscan的旅客异常识别方法及装置
CN109639662A (zh) 基于深度学习的机载网络入侵检测方法
CN114912678A (zh) 电网调控异常操作在线自动检测预警方法及***
CN116302809A (zh) 边缘端数据分析计算装置
CN114970977A (zh) 数字化城市空气质量监测数据的异常数据检测方法及***
CN117523499B (zh) 基于北斗定位与感知的森林防火监测方法及***
He et al. Analysis and real-time prediction of local incident impact on transportation networks
CN111667697B (zh) 异常车辆识别方法和装置、计算机可读存储介质
CN116522171A (zh) 一种基于大数据的电力现场故障分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination