CN110929633A - 基于小数据集实现涉烟车辆异常检测的方法 - Google Patents

基于小数据集实现涉烟车辆异常检测的方法 Download PDF

Info

Publication number
CN110929633A
CN110929633A CN201911135269.XA CN201911135269A CN110929633A CN 110929633 A CN110929633 A CN 110929633A CN 201911135269 A CN201911135269 A CN 201911135269A CN 110929633 A CN110929633 A CN 110929633A
Authority
CN
China
Prior art keywords
data set
matrix
label
features
small data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911135269.XA
Other languages
English (en)
Inventor
王贞
陶春和
王卫
甘小莺
尤梓荃
吴寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Third Research Institute of the Ministry of Public Security
Original Assignee
Third Research Institute of the Ministry of Public Security
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Third Research Institute of the Ministry of Public Security filed Critical Third Research Institute of the Ministry of Public Security
Priority to CN201911135269.XA priority Critical patent/CN110929633A/zh
Publication of CN110929633A publication Critical patent/CN110929633A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于小数据集实现涉烟车辆异常检测的方法,包括收集数据,构建数据集;对原始数据集进行预处理与特征提取构造特征矩阵;对得到的特征矩阵进行特征选择;通过分类器识别得到检测结果。采用了本发明的基于小数据集实现涉烟车辆异常检测的方法,通过提出的算法,快速准确的检测出嫌疑目标。使得在数据量小与标签稀少的情况下仍能取得较高的准确率,避免采用人工甄别的方式,从而在减少人力物力的同时也缓解了交通压力,并使得信息利用最大化。

Description

基于小数据集实现涉烟车辆异常检测的方法
技术领域
本发明涉及烟草领域,尤其涉及异常检测领域,具体是指一种基于小数据集实现涉烟车辆异常检测的方法。
背景技术
烟草行业是一个特殊的行业,它既与政府财政收入关系密切,又与政府监管行为紧密相关,同时又会对消费者健康造成影响。假私非卷烟或以非法手段生产,或以非法渠道进入市场流通,非法谋取暴利,严重损害消费者身心健康,更会造成国家税收大量流失,扰乱市场经济秩序,严重危害国家利益。从2016年全国查处案值5万元以上案件3884起,查获假私非卷烟29.15万件,到2018年全国查处案值5万元以上案件9100起,查获假私非卷烟55.3万件。犯罪形势愈发加剧。因此,打击假私非卷烟刻不容缓。
随着执法部门持续加大对涉烟违法运输环节打击力度,犯罪分子也在逐渐调整假私非卷烟的运输手段。传统的运输手段主要为物流寄递,但近期从物流寄递环节查获卷烟的成效来看,假私非卷烟通过物流寄递环节进行运输的占比逐渐下降。专车运输、包运团伙等违法运输正在逐渐演变为涉烟违法主要运输犯罪的手段。
针对专车运输,包运团伙的稽查,目前有两种方法。一种是执法部门依照办案经验,在各主要交通要塞高速收费站采用人工侦别方式,从车辆特征(车型,车辆是否载货)等特点判断通过车辆是否为涉烟非法运输车辆。第二种方法是收集大量正常车辆与涉烟车辆信息,利用大数据与有监督学习的方法辨别出正常车辆与涉烟车辆。
这第一种方法一方面依赖于稽查人员个人业务素质,耗时耗力。另一方面,容易影响正常车辆通行,造成交通堵塞。第二种方法需要大量的车辆信息与标签数据,成本昂贵且不现实。在现实中,面对的往往是数据量小,数据不全,标签稀少的小数据集。因此,迫切地需要引入新的思路以及技术手段进行涉烟车辆检测,利用少量数据与标签,从众多的社会车辆中快速识别出涉烟违法车辆,为涉烟案件稽查提供主动线索发现,提高信息分析效率。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足误差小、效率高、耗时低的基于小数据集实现涉烟车辆异常检测的方法。
为了实现上述目的,本发明的基于小数据集实现涉烟车辆异常检测的方法如下:
该基于小数据集实现涉烟车辆异常检测的方法,其主要特点是,所述的方法包括以下步骤:
(1)收集数据,构建数据集;
(2)对原始数据集进行预处理与特征提取构造特征矩阵;
(3)对得到的特征矩阵进行特征选择;
(4)通过分类器识别得到检测结果。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)对原数据集中的缺失值进行补全或删除缺失值,对重复ID进行合并;
(2.2)挑选相关特征,进行特征提取。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)通过少量的正向样本与负向样本构建随机森林模型;
(3.2)通过随机森林模型对特征重要性进行排序,根据排序结果,选择排名靠前的9个特征作为分类器的特征。
较佳地,所述的步骤(4)具体包括以下步骤:
(4.1)计算初始概率转移矩阵T和标签矩阵Y;
(4.2)将概率转移矩阵T与标签矩阵Y相乘,得到新的标签矩阵;
(4.3)对标签矩阵Y的每一行进行归一化,并恢复初始已有标签的样本的标签信息;
(4.4)判断标签矩阵Y是否已经收敛,如果是,则输出标签矩阵,并根据标签矩阵筛选出可疑目标;否则,继续步骤(4.2)。
采用了本发明的基于小数据集实现涉烟车辆异常检测的方法,通过提出的算法,快速准确的检测出嫌疑目标。使得在数据量小与标签稀少的情况下仍能取得较高的准确率,避免采用人工甄别的方式,从而在减少人力物力的同时也缓解了交通压力,并使得信息利用最大化。
附图说明
图1为本发明的基于小数据集实现涉烟车辆异常检测的方法的流程图。
图2为本发明的基于小数据集实现涉烟车辆异常检测的方法的标签传播计算的流程图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于小数据集实现涉烟车辆异常检测的方法,其中包括以下步骤:
(1)收集数据,构建数据集;
(2)对原始数据集进行预处理与特征提取构造特征矩阵;
(2.1)对原数据集中的缺失值进行补全或删除缺失值,对重复ID进行合并;
(2.2)挑选相关特征,进行特征提取;
(3)对得到的特征矩阵进行特征选择;
(3.1)通过少量的正向样本与负向样本构建随机森林模型;
(3.2)通过随机森林模型对特征重要性进行排序,根据排序结果,选择排名靠前的9个特征作为分类器的特征;
(4)通过分类器识别得到检测结果;
(4.1)计算初始概率转移矩阵T和标签矩阵Y;
(4.2)将概率转移矩阵T与标签矩阵Y相乘,得到新的标签矩阵;
(4.3)对标签矩阵Y的每一行进行归一化,并恢复初始已有标签的样本的标签信息;
(4.4)判断标签矩阵Y是否已经收敛,如果是,则输出标签矩阵,并根据标签矩阵筛选出可疑目标;否则,继续步骤(4.2)。
本发明的具体实施方式中,本发明所要解决的主要问题是克服目前涉烟车辆检测耗时耗力的缺点,和数据量小,标签稀少而导致准确率低的问题。提供一种基于小数据集的涉烟车辆异常检测方法,从而快速准确的识别出涉烟违法车辆,为稽查行动提供科学的决策支持,提高效率。按照本发明,提供了一种基于小数据集的涉烟车辆异常检测方法,该检测方法具体包括以下步骤:首先,通过特征提取从原始数据集构造出初步的特征矩阵。其次,通过特征选择筛选特征。最后,通过分类器识别,利用少量已有标签的车辆对无标签车辆进行预测。
图1所示是本发明的一较佳实施例的流程图。首先在步骤S1中,需要收集数据,构建数据集。在本实施例中,通过某地的两个收费站所收集的车辆信息构建本实施例的数据集。车辆会从这两个收费站进出该地区。数据集中包括收费站所记录的车辆型号,重量,车轴数,车辆颜色等信息。
在步骤S2中,需要对原始数据集进行预处理与特征提取。具体的,原数据集中包含很多缺失值与重复ID,首先需要对缺失值进行补全或删除缺失值,对重复ID进行合并。然后,根据稽查人员经验与先验知识,挑选相关特征,进行特征提取。在本实例中,考虑到异常车辆在满载违禁物品驶入该区域时,为了逃避检查会选择稽查力度宽松的夜间出行,而驶出时由于车上没有载有违禁物品,在驶出时间的选择上会与正常车辆的选择相似,因此提取了车辆i在观察期间内,每天在各个小时驶入收费站的频率,形成一个24维的特征向量[fi1,fi2,…,fi24]。此外,异常车辆会满载违禁物品驶入该区域,空载驶出该区域,因此,异常车辆的驶入单轴重会处于区间800-1200(kg)中,而驶出单轴重也会处于一个与正常车辆不同的区间。相应的,根据驶入单轴重与驶出单轴重而得到的异常车辆驶入驶出单轴重变化也会与正常车辆不同。
在步骤S3中,对S2得到的特征矩阵进行特征选择。特征选择能有效减少特征维度,降低计算复杂度。在本实例中,用随机森林算法对特征重要性进行排序,根据排序结果,选择排名靠前的9个特征作为最后输入到分类器的特征。具体的,用少量的正向样本与负向样本构建随机森林。由于随机森林算法是根据特征值***树枝,当构建好随机森林后,可以计算每个特征在树枝***时的贡献度,把特征贡献度视为特征重要程度,从而得到特征重要性排序。
在步骤S4中,利用分类器得到检测结果。具体的,通过标签传播算法利用已有标签样本来对无标签样本进行预测,利用车辆节点构建一张完全图,点与点之间均有边连接。
标签传播算法的框架如图2所示,其可具体分为如下几个步骤:
在步骤S41中,首先计算每两个点的特征的欧氏距离dii′。再定义边的权重如公式(1)所示。
Figure BDA0002279426760000041
定义一个概率传递矩阵T,让Tii′表示标签信息从节点xi′传播到xi的概率:
Figure BDA0002279426760000042
同时定义一个标签矩阵Y,其中的每个元素
Figure BDA0002279426760000043
表示节点xi被标注为类别ci∈{1,2,…,C}的概率。
在步骤S42中,概率转移矩阵T与标签矩阵Y相乘,并得到新的标签矩阵。
在步骤S43中,对标签矩阵的每一行做归一化,并将初始已有标签的样本的标签信息恢复。
在步骤S44中,判断标签矩阵Y是否已经收敛,若已达到收敛条件,则输出标签矩阵,并根据标签矩阵筛选出可疑目标,否则,跳回至步骤S42。
采用了本发明的基于小数据集实现涉烟车辆异常检测的方法,通过提出的算法,快速准确的检测出嫌疑目标。使得在数据量小与标签稀少的情况下仍能取得较高的准确率,避免采用人工甄别的方式,从而在减少人力物力的同时也缓解了交通压力,并使得信息利用最大化。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (4)

1.一种基于小数据集实现涉烟车辆异常检测的方法,其特征在于,所述的方法包括以下步骤:
(1)收集数据,构建数据集;
(2)对原始数据集进行预处理与特征提取构造特征矩阵;
(3)对得到的特征矩阵进行特征选择;
(4)通过分类器识别得到检测结果。
2.根据权利要求1所述的基于小数据集实现涉烟车辆异常检测的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)对原数据集中的缺失值进行补全或删除缺失值,对重复ID进行合并;
(2.2)挑选相关特征,进行特征提取。
3.根据权利要求1所述的基于小数据集实现涉烟车辆异常检测的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)通过少量的正向样本与负向样本构建随机森林模型;
(3.2)通过随机森林模型对特征重要性进行排序,根据排序结果,选择排名靠前的9个特征作为分类器的特征。
4.根据权利要求1所述的基于小数据集实现涉烟车辆异常检测的方法,其特征在于,所述的步骤(4)具体包括以下步骤:
(4.1)计算初始概率转移矩阵T和标签矩阵Y;
(4.2)将概率转移矩阵T与标签矩阵Y相乘,得到新的标签矩阵;
(4.3)对标签矩阵Y的每一行进行归一化,并恢复初始已有标签的样本的标签信息;
(4.4)判断标签矩阵Y是否已经收敛,如果是,则输出标签矩阵,并根据标签矩阵筛选出可疑目标;否则,继续步骤(4.2)。
CN201911135269.XA 2019-11-19 2019-11-19 基于小数据集实现涉烟车辆异常检测的方法 Pending CN110929633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911135269.XA CN110929633A (zh) 2019-11-19 2019-11-19 基于小数据集实现涉烟车辆异常检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911135269.XA CN110929633A (zh) 2019-11-19 2019-11-19 基于小数据集实现涉烟车辆异常检测的方法

Publications (1)

Publication Number Publication Date
CN110929633A true CN110929633A (zh) 2020-03-27

Family

ID=69850318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911135269.XA Pending CN110929633A (zh) 2019-11-19 2019-11-19 基于小数据集实现涉烟车辆异常检测的方法

Country Status (1)

Country Link
CN (1) CN110929633A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358203A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 图像描述语句生成模块的训练方法及装置、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392015A (zh) * 2017-07-06 2017-11-24 长沙学院 一种基于半监督学习的入侵检测方法
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN109241933A (zh) * 2018-09-21 2019-01-18 深圳市九洲电器有限公司 视频联动监控方法、监控服务器、视频联动监控***
CN109389177A (zh) * 2018-10-25 2019-02-26 长安大学 一种基于协同级联森林的隧道车辆再识别方法
CN110460605A (zh) * 2019-08-16 2019-11-15 南京邮电大学 一种基于自动编码的异常网络流量检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392015A (zh) * 2017-07-06 2017-11-24 长沙学院 一种基于半监督学习的入侵检测方法
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN109241933A (zh) * 2018-09-21 2019-01-18 深圳市九洲电器有限公司 视频联动监控方法、监控服务器、视频联动监控***
CN109389177A (zh) * 2018-10-25 2019-02-26 长安大学 一种基于协同级联森林的隧道车辆再识别方法
CN110460605A (zh) * 2019-08-16 2019-11-15 南京邮电大学 一种基于自动编码的异常网络流量检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘翱等: "基于标签传播的P2P 网络借贷平台分类" *
姚登举等: "基于随机森林的特征选择算法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358203A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 图像描述语句生成模块的训练方法及装置、电子设备

Similar Documents

Publication Publication Date Title
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及***
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN111045847B (zh) 事件审计方法、装置、终端设备以及存储介质
CN111882446A (zh) 一种基于图卷积网络的异常账户检测方法
CN110363510B (zh) 一种基于区块链的加密货币用户特征挖掘、异常用户检测方法
CN111695597B (zh) 基于改进式孤立森林算法的信贷欺诈团伙识别方法和***
CN107273387A (zh) 面向高维和不平衡数据分类的集成
CN110569904B (zh) 机器学习模型的构建方法及计算机可读存储介质
Yahaya et al. Enhancing crash injury severity prediction on imbalanced crash data by sampling technique with variable selection
CN102420723A (zh) 一种面向多类入侵的异常检测方法
WO2016177069A1 (zh) 一种管理方法、装置、垃圾短信监控***及计算机存储介质
CN114022904B (zh) 一种基于两阶段的噪声鲁棒行人重识别方法
CN112559771A (zh) 基于知识图谱的资金交易智能监测方法及监测***
CN113922985A (zh) 一种基于集成学习的网络入侵检测方法及***
CN111047173B (zh) 基于改进d-s证据理论的社团可信度评估方法
CN114385775A (zh) 一种基于大数据的敏感词识别方法
CN115600194A (zh) 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备
CN111797177A (zh) 一种用于异常金融账号检测的金融时间序列分类方法及应用
CN110929633A (zh) 基于小数据集实现涉烟车辆异常检测的方法
CN108920694B (zh) 一种短文本多标签分类方法及装置
Arya et al. Ensemble filter-based feature selection model for cyber attack detection in industrial Internet of Things
Chkirbene et al. Data augmentation for intrusion detection and classification in cloud networks
Boldt et al. Predicting burglars’ risk exposure and level of pre-crime preparation using crime scene data
Acharya et al. Efficacy of CNN-bidirectional LSTM hybrid model for network-based anomaly detection
Yang et al. Voting-based ensemble model for network anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination