CN107967323A - 基于大数据进行异常出行车辆分析的方法及*** - Google Patents

基于大数据进行异常出行车辆分析的方法及*** Download PDF

Info

Publication number
CN107967323A
CN107967323A CN201711190417.9A CN201711190417A CN107967323A CN 107967323 A CN107967323 A CN 107967323A CN 201711190417 A CN201711190417 A CN 201711190417A CN 107967323 A CN107967323 A CN 107967323A
Authority
CN
China
Prior art keywords
vehicle
data
passing
vehicles
vehicle information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711190417.9A
Other languages
English (en)
Other versions
CN107967323B (zh
Inventor
李善宝
辛国茂
马述杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taihua Wisdom Industry Group Co Ltd
Original Assignee
Taihua Wisdom Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taihua Wisdom Industry Group Co Ltd filed Critical Taihua Wisdom Industry Group Co Ltd
Priority to CN201711190417.9A priority Critical patent/CN107967323B/zh
Publication of CN107967323A publication Critical patent/CN107967323A/zh
Application granted granted Critical
Publication of CN107967323B publication Critical patent/CN107967323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于大数据进行异常出行车辆分析的方法及***,涉及大数据分析技术领域,方法包括:通过数据获取模块采集经过卡口的车辆信息数据,对车辆信息数据进行过滤,获取与指定类型车辆对应的车辆信息数据将车辆信息数据随机分配至分布式存储数据库中的若干处理节点并按照指定格式保存,针对各个卡口,将各个处理节点的车辆信息数据进行合并,积累N天的车辆信息数据,计算当前时间之前N天的过车次数平均值和过车次数对应的标准差,利用过车次数平均值和对应的标砖差进行正态分布计算,筛选出异常出行车辆。如此方案,大大降低了异常出行车辆的统计时间,提高了异常出行判定的正确率。

Description

基于大数据进行异常出行车辆分析的方法及***
技术领域
本申请涉及大数据分析技术领域,具体地说,涉及一种基于大数据进行异常出行车辆分析的方法及***。
背景技术
随着社会的发展,技术的进步,汽车逐渐走进了千家万户,拥有一辆车不再专属于一部分人,也不再是一个象征。然而技术的进步在给普通人带来方便、快捷的同时,也成为了一些不法分子犯罪的利器,当前,利用汽车作为犯罪工具的事件层出不穷:比如肇事逃逸、驾车逃窜、驾车跟踪等等。现在对车辆的排查都是事后排查,即在案件发生后根据目击者或简单的案情通过视频侦查手段去筛查嫌疑车,那么如何在事前发现嫌疑车辆,进行前期预警,也成为了继各种涉车排查技战法后的一个新课题。
在一定的时间内,非运营车辆的行踪,会呈现出重复性。其出行次数、时间段在每日都比较相似,在非节假日等特殊日期其不会无故改变固有规律。对于一辆车,基于传统的关系数据库,可以去分析其一段时间的数据,找出其行驶规律。但是对于一个中级县,每日过车数量高达几十万辆、上百万次的过车数量,这就为嫌疑车辆的前期预警计算造成较大的困难,统计时间非常漫长。
因此,如何基于大数据进行异常出行车辆的分析成为现阶段亟待解决的技术问题。
发明内容
有鉴于此,本申请所要解决的技术问题是提供了一种基于大数据进行异常出行车辆分析的方法及***,根据车辆行驶时间规律,发现筛选嫌疑车辆,能充分利用单个机器的运算能力,从而成倍、成百倍的缩短异常出行测量的统计时间。
为了解决上述技术问题,本申请有如下技术方案:
第一方面,本申请提供一种基于大数据进行异常出行车辆分析的方法,包括:
通过数据获取模块采集经过卡口的车辆信息数据,对车辆信息数据进行过滤,获取与指定类型车辆对应的车辆信息数据,所述车辆信息数据包括车牌号码、车牌颜色和过车时间,将所述车辆信息数据随机分配至分布式存储数据库中的若干处理节点,各所述处理节点将所述车辆信息数据按照“K,V(n)”的格式进行保存,其中K=车牌号码+车牌颜色,V(n)=过车时间;
针对各个卡口,将各个所述处理节点的车辆信息数据进行合并,并对相同的K值所对应的V(n)取并集,形成第一数据合集U1,并按照“K,V(n)”的格式进行存储;
积累N天的车辆信息数据,得到第二数据合集U2,并按照“K,V(n)”的格式进行存储;
根据第二数据合集U2,针对K值相同的车辆,计算当前时间之前N天的过车次数平均值和与所述过车次数对应的标准差σmax
利用N天的过车次数对应的标准差σmax和今日的过车次数Cc进行正态分布计算,对于K值相同的车辆,若则判定该车辆为正常出行车辆,否则,获取近M天的过车次数平均值和标准差σmin,若则认为与K值对应的车辆为正常出行车辆,否则认为与K值对应的车辆为异常出行车辆,其中M<N。
可选地,其中:
根据第二数据合集U2,针对K值相同的车辆,计算当前时间之前N天的过车次数平均值和与所述过车次数对应的标准差σmax,进一步为:
计算N天的过车次数平均值为由此计算到过车次数平均值其中,Ci为第i天的过车次数,1≤i≤N,根据过车次数平均值,计算从当前时间进行追溯N天的出行次数的标准差σmax,其中,
通过计算出的各σ值计算从当前时间进行追溯N天的出行次数的标准差σmax
可选地,其中:
获取与指定类型车辆对应的车辆信息数据,进一步为:获取非运营车辆对应的车辆信息数据,过滤掉运营车辆对应的车辆信息数据。
可选地,其中:
N≥30,3≤M≤5。
可选地,其中:
各所述处理节点并行工作。
第二方面,本申请提供一种基于大数据进行异常出行车辆分析的***,其特征在于,包括:
数据获取模块,用于采集经过卡口的车辆信息数据,对车辆信息数据进行过滤,获取与指定类型车辆对应的车辆信息数据,所述车辆信息数据包括车牌号码、车牌颜色和过车时间,将所述车辆信息数据随机分配至分布式存储数据库中的若干处理节点;
多个处理节点,用于将所述车辆信息数据按照“K,V(n)”的格式进行保存,其中K=车牌号码+车牌颜色,V(n)=过车时间;
过车数据整理模块,用于针对各个卡口,将各个所述处理节点的车辆信息数据进行合并,并对相同的K值所对应的V(n)取并集,形成第一数据合集U1,并按照“K,V(n)”的格式进行存储;并用于积累N天的车辆信息数据,得到第二数据合集U1,并按照“K,V(n)”的格式进行存储;
过车数据计算模块,用于根据第二数据合集U2,针对K值相同的车辆,计算当前时间之前N天的过车次数平均值和与所述过车次数对应的标准差σmax;并用于利用N天的过车次数对应的标准差σmax和今日的过车次数Cc进行正态分布计算,对于K值相同的车辆,若 则判定该车辆为正常出行车辆,否则,获取近M天的过车次数平均值和标准差σmin,若则认为与K值对应的车辆为正常出行车辆,否则认为与K值对应的车辆为异常出行车辆,其中M<N。
可选地,其中:
所述过车数据计算模块进一步用于计算N天的过车次数平均值为 由此计算到过车次数平均值其中,Ci为第i天的过车次数,1≤i≤N,根据过车次数平均值,计算从当前时间进行追溯N天的出行次数的标准差σmax,其中,
并通过计算出的各σ值计算从当前时间进行追溯N天的出行次数的标准差σmax
可选地,其中:
所述数据获取模块进一步用于获取非运营车辆对应的车辆信息数据,过滤掉运营车辆对应的车辆信息数据。
可选地,其中:
N≥30,3≤M≤5。
可选地,其中:
各所述处理节点并行工作。
与现有技术相比,本申请所述的方法及***,达到了如下效果:
第一,本发明所提供的基于大数据进行异常出行车辆分析的方法及***,利用过车次数正态分布的特性进行车辆异常出行的判定,其利用的大数据平台可以建立在廉价的商用机上,并可根据数据量的大小等实际情况确定集群的大小,能够同时并发计算海量的数据。在进行计算时,可以首先同时利用各节点机器的运算能力进行数据量较大且繁琐的计算,从而降低统计时间。
第二,本发明所提供的基于大数据进行异常出行车辆分析的方法及***,在进行异常出行判定时,可以充分考虑到了因运营车辆、节假日等特殊因素造成的影响,只保留符合条件的数据,排除繁杂数据,从而提高了异常出行判定的正确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1所示为本申请实施例中所述一种基于大数据进行异常出行车辆分析的方法的流程图;
图2所示为本申请实施例中所述一种基于大数据进行异常出行车辆分析的***的一种结构图;
图3所示为本申请实施例中所述一种基于大数据进行异常出行车辆分析的方法的另一种流程图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
本申请提供一种基于大数据进行异常出行车辆分析的方法,参见图1所示为本申请实施例中所述一种基于大数据进行异常出行车辆分析的方法的流程图,该方法包括:
步骤101、通过数据获取模块采集经过卡口的车辆信息数据,对车辆信息数据进行过滤,获取与指定类型车辆对应的车辆信息数据,车辆信息数据包括车牌号码、车牌颜色和过车时间,将车辆信息数据随机分配至分布式存储数据库中的若干处理节点,各处理节点将车辆信息数据按照“K,V(n)”的格式进行保存,其中K=车牌号码+车牌颜色,V(n)=过车时间;
步骤102、针对各个卡口,将各个处理节点的车辆信息数据进行合并,并对相同的K值所对应的V(n)取并集,形成第一数据合集U1,并按照“K,V(n)”的格式进行存储;
步骤103、积累N天的车辆信息数据,得到第二数据合集U1,并按照“K,V(n)”的格式进行存储;
步骤104、根据第二数据合集U1,针对K值相同的车辆,计算当前时间之前N天的过车次数平均值和与过车次数对应的标准差σmax
步骤105、利用N天的过车次数对应的标准差σmax和今日的过车次数Cc进行正态分布计算,对于K值相同的车辆,若 则判定该车辆为正常出行车辆,否则,获取近M天的过车次数平均值和标准差σmin,若则认为与K值对应的车辆为正常出行车辆,否则认为与K值对应的车辆为异常出行车辆,其中M<N。
具体地,上述步骤101,获取车辆信息数据后,首先分析该数据是否是运营车辆或特种车辆,如果是运营车辆或特种车辆,即将其舍弃,如果符合给定的条件,则将其按照“K,V(n)”进行保存,具体到实际应用中,可按照“List<Key,value>”的格式保存,其中Key为“车辆号码-车牌颜色”,value为车辆的过车时间,value的格式为:过车时间1,过车时间2,……过车时间n。符合过滤条件的车辆信息数据中,同一Key所对应的value中的过车时间将增加。获取各处理节点上的所有车辆信息数据后将会形成一个List<Key,value>格式的数据,暂称为NodeData(n),其中n为不同节点的编号。
上述步骤102中,针对各个卡口,将各个处理节点的车辆信息数据进行合并,在实际操作过程中,可新建一个格式为“List<Key,value>”的总体数据TotalData,其Key和value的含义和步骤101中相同。获取各个节点上已经分类统计完成的数据NodeData(1),NodeData(2),……NodeData(n),遍历这些数据,并找到不同NodeData中具有相同卡口的数据,即Key值相同的数据。将不同NodeData中具有相同Key值的数据进行合并,级相同Key值的value值按照“过车时间1,过车时间2,……过车时间n”的格式合并存放到同一个value中,当value值合并、统计完成后,将该List<Key,value>数据存储到TotalData中。最后将NodeData中Key值和其他NodeData中Key值不重复的数据存储到TotalData中,这样就得到了一个唯一的格式为List<Key,value>、存放着“车牌号码-车牌颜色”、过车时间的统计数据,即第一数据合集U1,通过其value值过车时间可以计算出其过车次数。
上述步骤103中,积累N天的车辆信息数据,可通过计算获取N天的TotalData,即第二数据合集U2,对于第N天的总体数据可以使用TotalData(N)来表示。
通过上述步骤104中,计算当前时间之前N天的过车次数平均值和与所述过车次数对应的标准差σmax;通过上述步骤105,利用N天的标准差σmax和今日的过车次数Cc进行正态分布计算,如果今日过车次数落在其正态分布内,则认为今日是正常出行,否则进行下一步判定。对于同一辆车K,其今日的过车次数为CC,如果则符合过车的正态分布,则认为是非异常出行车辆。否则计算近M天的过车分布。计算获取近M天的过车次数平均值和标准差σmin,如果则符合过车的正态分布,认为是非异常出行车辆,否则认为车辆K的今日出行为异常出行,可以进行相应的预警处理。
由于非运营车辆在一端时间内其每日的出行规律相对单一,其被卡口拍摄到的次数服从正态分布,因此本申请利用其正态分布特性进行一场出行判定。通过若干处理节点同时对车辆信息数据进行存储及处理,可基于大数据平台完成,该大数据平台可建立在廉价的商用机上,并可根据数据量的大小等实际情况确定集群的大小,能够同时并发计算海量的数据,也就是同时利用各个处理节点所对应的机器的运算能力对数据量较大的数据进行繁琐的计算,从而有利于降低统计时间。在进行异常出行判定时,首先对一个长时间范围内的出行正态分布进行判定,而后进行相近短时间内的正态分布判定,此种方式有利于提升计算的准确性,同时也有利于缩短统计时间。此外,在进行异常出行判定时,可以充分考虑因运营车辆、节假日等特殊因素造成的影响,只保留符合条件的数据,排除繁杂数据,从而提高了异常出行判定的正确率。
可选地,上述步骤104中,根据第二数据合集U2,针对K值相同的车辆,计算当前时间之前N天的过车次数平均值和与过车次数对应的标准差σmax,进一步为:
计算N天的过车次数平均值为由此计算到过车次数平均值其中,Ci为第i天的过车次数,1≤i≤N,根据过车次数平均值,计算从当前时间进行追溯N天的出行次数的标准差σmax,其中,
通过计算出的各σ值计算从当前时间进行追溯N天的出行次数的标准差σmax
具体地,上述实施例给出了计算当前时间之前N天的过车次数平均值和与过车次数对应的标准差σmax的一种计算方法,通过该方法可准确获取到当前时间之前N天的过车次数平均值和标准差。在具体进行计算时,TotalData(N)中的Key可视为一辆车,其第N天的过车次数使用Cn表示,第N-1天的过车次数使用Cn-1表示,计算时间前一天的过车次数使用C1表示。其N天的平均值为可以得到其平均值
可选地,上述步骤101中,获取与指定类型车辆对应的车辆信息数据,进一步为:获取非运营车辆对应的车辆信息数据,过滤掉运营车辆对应的车辆信息数据。考虑到运营车辆和特种车辆的特殊性,本申请在此将运营车辆和特种车辆过滤掉,仅针对非运营车辆进行数据统计。在一定的时间内,非运营车辆的行踪会呈现重复性,其出行次数、时间段在每日都比较相似,在非节假日等特殊日期不会无故改变固有规律。
可选地,N≥30,3≤M≤5。本申请追溯至少30天的车辆信息数据作为基础数据,获取到的正态分布情况更具有代表性,可较为准确的计算到异常出行车辆。在对该模型性实际测试、使用发现,对于过滤掉运营车辆、特种车辆后,每日过车200万辆次,主体车20万辆。N取30天,M取5天的数值进行计算时,每次约分析出100条异常出行数据。基于庞大的数据信息筛选得到较少的异常出行数据,能够为执法人员的后续判断提供可靠的数据基础。
可选地,本申请中的各处理节点并行工作。本申请所提供的基于大数据进行异常出行车辆分析的方法可基于各种版本的大数据平台Hadoop环境进行。每个处理节点并行对车辆信息数据进行存储和处理,执行分布式计算统计方法,大大提高了海量数据的分析效率。
需要说明的是,本申请中的数据获取模块可以是卡口、电警等监控设备,也可以是除监控设备外的其他数据获取模块,本申请对此不作具体限定。
图2所示为本申请实施例中所述一种基于大数据进行异常出行车辆分析的***的一种结构图,参见图2,本申请还提供了一种基于大数据进行异常出行车辆分析的***100,包括:
数据获取模块10,用于采集经过卡口的车辆信息数据,对车辆信息数据进行过滤,获取与指定类型车辆对应的车辆信息数据,车辆信息数据包括车牌号码、车牌颜色和过车时间,将车辆信息数据随机分配至分布式存储数据库中的若干处理节点20;
多个处理节点20,用于将车辆信息数据按照“K,V(n)”的格式进行保存,其中K=车牌号码+车牌颜色,V(n)=过车时间;
过车数据整理模块30,用于针对各个卡口,将各个处理节点20的车辆信息数据进行合并,并对相同的K值所对应的V(n)取并集,形成第一数据合集U1,并按照“K,V(n)”的格式进行存储;并用于积累N天的车辆信息数据,得到第二数据合集U1,并按照“K,V(n)”的格式进行存储;
过车数据计算模块40,用于根据第二数据合集U2,针对K值相同的车辆,计算当前时间之前N天的过车次数平均值和与过车次数对应的标准差σmax;并用于利用N天的过车次数对应的标准差σmax和今日的过车次数Cc进行正态分布计算,对于K值相同的车辆,若 则判定该车辆为正常出行车辆,否则,获取近M天的过车次数平均值和标准差σmin,若则认为与K值对应的车辆为正常出行车辆,否则认为与K值对应的车辆为异常出行车辆,其中M<N。
具体地,本申请中的数据获取模块10获取车辆信息数据后,将车辆信息数据随机分配至各处理节点20,各处理节点20首先分析该数据是否是运营车辆或特种车辆,如果是运营车辆或特种车辆,即将其舍弃,如果符合给定的条件,则将其按照“K,V(n)”进行保存,具体到实际应用中,可按照“List<Key,value>”的格式保存,其中Key为“车辆号码-车牌颜色”,value为车辆的过车时间,value的格式为:过车时间1,过车时间2,……过车时间n。符合过滤条件的车辆信息数据中,同一Key所对应的value中的过车时间将增加。过车数据整理模块30获取各处理节点20上的所有车辆信息数据后将会形成一个List<Key,value>格式的数据,暂称为NodeData(n),其中n为不同节点的编号。需要说明的是,本申请中的数据获取模块可以是卡口、电警等监控设备,也可以是除监控设备外的其他数据获取模块,本申请对此不作具体限定。
针对各个卡口,过车数据整理模块30将各个处理节点20的车辆信息数据进行合并,在实际操作过程中,可新建一个格式为“List<Key,value>”的总体数据TotalData,其Key和value的含义和步骤101中相同。获取各个节点上已经分类统计完成的数据NodeData(1),NodeData(2),……NodeData(n),遍历这些数据,并找到不同NodeData中具有相同卡口的数据,即Key值相同的数据。将不同NodeData中具有相同Key值的数据进行合并,级相同Key值的value值按照“过车时间1,过车时间2,……过车时间n”的格式合并存放到同一个value中,当value值合并、统计完成后,将该List<Key,value>数据存储到TotalData中。最后将NodeData中Key值和其他NodeData中Key值不重复的数据存储到TotalData中,这样就得到了一个唯一的格式为List<Key,value>、存放着“车牌号码-车牌颜色”、过车时间的统计数据,即第一数据合集U1,通过其value值过车时间可以计算出其过车次数。
过车数据整理模块30积累N天的车辆信息数据,可通过计算获取N天的TotalData,即第二数据合集U2,对于第N天的总体数据可以使用TotalData(N)来表示。
过车数据计算模块40计算当前时间之前N天的过车次数平均值和与所述过车次数对应的标准差σmax;通过上述步骤105,利用N天的标准差σmax和今日的过车次数Cc进行正态分布计算,如果今日过车次数落在其正态分布内,则认为今日是正常出行,否则进行下一步判定。对于同一辆车K,其今日的过车次数为CC,如果则符合过车的正态分布,则认为是非异常出行车辆。否则计算近M天的过车分布。计算获取近M天的过车次数平均值和标准差σmin,如果则符合过车的正态分布,认为是非异常出行车辆,否则认为车辆K的今日出行为异常出行,可以进行相应的预警处理。
由于非运营车辆在一端时间内其每日的出行规律相对单一,其被卡口拍摄到的次数服从正态分布,因此本申请利用其正态分布特性进行一场出行判定。通过若干处理节点20同时对车辆信息数据进行存储及处理,可基于大数据平台完成,该大数据平台可建立在廉价的商用机上,并可根据数据量的大小等实际情况确定集群的大小,能够同时并发计算海量的数据,也就是同时利用各个处理节点20所对应的机器的运算能力对数据量较大的数据进行繁琐的计算,从而有利于降低统计时间。在进行异常出行判定时,首先对一个长时间范围内的出行正态分布进行判定,而后进行相近短时间内的正态分布判定,此种方式有利于提升计算的准确性,同时也有利于缩短统计时间。此外,在进行异常出行判定时,可以充分考虑因运营车辆、节假日等特殊因素造成的影响,只保留符合条件的数据,排除繁杂数据,从而提高了异常出行判定的正确率。
可选地,本申请中的过车数据计算模块40进一步用于计算N天的过车次数平均值为由此计算到过车次数平均值其中,Ci为第i天的过车次数,1≤i≤N,根据过车次数平均值,计算从当前时间进行追溯N天的出行次数的标准差σmax,其中,
并通过计算出的各σ值计算从当前时间进行追溯N天的出行次数的标准差σmax
具体地,上述实施例给出了过车数据计算模块40计算当前时间之前N天的过车次数平均值和与过车次数对应的标准差σmax的一种计算方法,通过该方法可准确获取到当前时间之前N天的过车次数平均值和标准差。在具体进行计算时,TotalData(N)中的Key可视为一辆车,其第N天的过车次数使用Cn表示,第N-1天的过车次数使用Cn-1表示,计算时间前一天的过车次数使用C1表示。其N天的平均值为可以得到其平均值
可选地,数据获取模块10进一步用于获取非运营车辆对应的车辆信息数据,过滤掉运营车辆对应的车辆信息数据。
考虑到运营车辆和特种车辆的特殊性,本申请在此将运营车辆和特种车辆过滤掉,仅针对非运营车辆进行数据统计。在一定的时间内,非运营车辆的行踪会呈现重复性,其出行次数、时间段在每日都比较相似,在非节假日等特殊日期不会无故改变固有规律。
可选地,N≥30,3≤M≤5。
本申请追溯至少30天的车辆信息数据作为基础数据,获取到的正态分布情况更具有代表性,可较为准确的计算到异常出行车辆。在对该模型性实际测试、使用发现,对于过滤掉运营车辆、特种车辆后,每日过车200万辆次,主体车20万辆。N取30天,M取5天的数值进行计算时,每次约分析出100条异常出行数据。基于庞大的数据信息筛选得到较少的异常出行数据,能够为执法人员的后续判断提供可靠的数据基础。
可选地,各处理节点20并行工作。
本申请所提供的基于大数据进行异常出行车辆分析的方法可基于各种版本的大数据平台Hadoop环境进行。每个处理节点20并行对车辆信息数据进行存储和处理,执行分布式计算统计方法,大大提高了海量数据的分析效率。
实施例3
以下提供一种本发明基于大数据进行异常出行车辆分析的方法的应用实施例。
本发明充分考虑非运营车辆日常行驶状态以及涉案后的行驶状态,从时间维度上充分分析其反常出行行为,提出一种异常出行、涉案预警的判定方法。本发明充分考虑大数据平台的分布式计算的特性提出一种面向分布式存储的海量数据的分布式计算统计方法,该方法极大提高了海量数据的分析效率。该方法可适用于各种版本的大数据平台Hadoop环境,基于Hadoop平台的异常出行判定方法请参见图3,图3所示为本申请实施例中所述一种基于大数据进行异常出行车辆分析的方法的另一种流程图,请参见图3,该方法包括:
步骤201、收集非运营车辆的车辆信息数据,非运营车辆在一定时间内其每日的出行规律相对单一,其被卡口拍摄到的次数在一定时间内服从正态分布;
步骤202、在进行异常出行计算时,需要积累N天车辆出行的数据规律,在各个存储节点上对车辆号码、过车时间进行数据的过滤、统计,并将各个处理节点的统计数据进行归档、合并;
步骤203、计算非运营车辆前N天的出行次数的标准差σmax,其中N≥30。
步骤204、利用前N天的标准差σmax和今日的过车次数Cc进行正态分布计算,如果今日过车次数落在其正态分布内,则认为今日是正常出行,否则,计算其最近M天的标准差σmin,其中5≥M≥3。如果σmin和今日的过车次数CC进行正态分布计算,如果今日过车次数落在其正态分布内,则认为今日是正常出行,否则认为是一次异常出行。
在对该模型性实际测试、使用发现,对于刨除运营车辆、特种车辆后,每日过车200万辆次,主体车20万辆。N取30天,M取5天的数值进行计算时,每次约分析出100条异常出行数据。
通过以上各实施例可知,本申请存在的有益效果是:
第一,本发明所提供的基于大数据进行异常出行车辆分析的方法及***,利用过车次数正态分布的特性进行车辆异常出行的判定,其利用的大数据平台可以建立在廉价的商用机上,并可根据数据量的大小等实际情况确定集群的大小,能够同时并发计算海量的数据。在进行计算时,可以首先同时利用各节点机器的运算能力进行数据量较大且繁琐的计算,从而降低统计时间。
第二,本发明所提供的基于大数据进行异常出行车辆分析的方法及***,在进行异常出行判定时,可以充分考虑到了因运营车辆、节假日等特殊因素造成的影响,只保留符合条件的数据,排除繁杂数据,从而提高了异常出行判定的正确率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (10)

1.一种基于大数据进行异常出行车辆分析的方法,包括:
通过数据获取模块采集经过卡口的车辆信息数据,对车辆信息数据进行过滤,获取与指定类型车辆对应的车辆信息数据,所述车辆信息数据包括车牌号码、车牌颜色和过车时间,将所述车辆信息数据随机分配至分布式存储数据库中的若干处理节点,各所述处理节点将所述车辆信息数据按照“K,V(n)”的格式进行保存,其中K=车牌号码+车牌颜色,V(n)=过车时间;
针对各个卡口,将各个所述处理节点的车辆信息数据进行合并,并对相同的K值所对应的V(n)取并集,形成第一数据合集U1,并按照“K,V(n)”的格式进行存储;
积累N天的车辆信息数据,得到第二数据合集U2,并按照“K,V(n)”的格式进行存储;
根据第二数据合集U2,针对K值相同的车辆,计算当前时间之前N天的过车次数平均值和与所述过车次数对应的标准差σmax
利用N天的过车次数对应的标准差σmax和今日的过车次数Cc进行正态分布计算,对于K值相同的车辆,若则判定该车辆为正常出行车辆,否则,获取近M天的过车次数平均值和标准差σmin,若则认为与K值对应的车辆为正常出行车辆,否则认为与K值对应的车辆为异常出行车辆,其中M<N。
2.根据权利要求1所述基于大数据进行异常出行车辆分析的方法,其特征在于,根据第二数据合集U2,针对K值相同的车辆,计算当前时间之前N天的过车次数平均值和与所述过车次数对应的标准差σmax,进一步为:
计算N天的过车次数平均值为由此计算到过车次数平均值其中,Ci为第i天的过车次数,1≤i≤N,根据过车次数平均值,计算从当前时间进行追溯N天的出行次数的标准差σmax,其中,
<mrow> <mi>&amp;sigma;</mi> <mo>=</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <mi>C</mi> <mi>i</mi> <mo>-</mo> <mover> <mi>C</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>
通过计算出的各σ值计算从当前时间进行追溯N天的出行次数的标准差σmax
3.根据权利要求1所述基于大数据进行异常出行车辆分析的方法,其特征在于,获取与指定类型车辆对应的车辆信息数据,进一步为:获取非运营车辆对应的车辆信息数据,过滤掉运营车辆对应的车辆信息数据。
4.根据权利要求1所述基于大数据进行异常出行车辆分析的方法,其特征在于,N≥30,3≤M≤5。
5.根据权利要求1所述基于大数据进行异常出行车辆分析的方法,其特征在于,各所述处理节点并行工作。
6.一种基于大数据进行异常出行车辆分析的***,其特征在于,包括:
数据获取模块,用于采集经过卡口的车辆信息数据,对车辆信息数据进行过滤,获取与指定类型车辆对应的车辆信息数据,所述车辆信息数据包括车牌号码、车牌颜色和过车时间,将所述车辆信息数据随机分配至分布式存储数据库中的若干处理节点;
多个处理节点,用于将所述车辆信息数据按照“K,V(n)”的格式进行保存,其中K=车牌号码+车牌颜色,V(n)=过车时间;
过车数据整理模块,用于针对各个卡口,将各个所述处理节点的车辆信息数据进行合并,并对相同的K值所对应的V(n)取并集,形成第一数据合集U1,并按照“K,V(n)”的格式进行存储;并用于积累N天的车辆信息数据,得到第二数据合集U1,并按照“K,V(n)”的格式进行存储;
过车数据计算模块,用于根据第二数据合集U2,针对K值相同的车辆,计算当前时间之前N天的过车次数平均值和与所述过车次数对应的标准差σmax;并用于利用N天的过车次数对应的标准差σmax和今日的过车次数Cc进行正态分布计算,对于K值相同的车辆,若 则判定该车辆为正常出行车辆,否则,获取近M天的过车次数平均值和标准差σmin,若则认为与K值对应的车辆为正常出行车辆,否则认为与K值对应的车辆为异常出行车辆,其中M<N。
7.根据权利要求6所述基于大数据进行异常出行车辆分析的***,其特征在于,所述过车数据计算模块进一步用于计算N天的过车次数平均值为由此计算到过车次数平均值其中,Ci为第i天的过车次数,1≤i≤N,根据过车次数平均值,计算从当前时间进行追溯N天的出行次数的标准差σmax,其中,
<mrow> <mi>&amp;sigma;</mi> <mo>=</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <mi>C</mi> <mi>i</mi> <mo>-</mo> <mover> <mi>C</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>
并通过计算出的各σ值计算从当前时间进行追溯N天的出行次数的标准差σmax
8.根据权利要求6所述基于大数据进行异常出行车辆分析的***,其特征在于,所述数据获取模块进一步用于获取非运营车辆对应的车辆信息数据,过滤掉运营车辆对应的车辆信息数据。
9.根据权利要求6所述基于大数据进行异常出行车辆分析的***,其特征在于,N≥30,3≤M≤5。
10.根据权利要求6所述基于大数据进行异常出行车辆分析的***,其特征在于,各所述处理节点并行工作。
CN201711190417.9A 2017-11-24 2017-11-24 基于大数据进行异常出行车辆分析的方法及*** Active CN107967323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711190417.9A CN107967323B (zh) 2017-11-24 2017-11-24 基于大数据进行异常出行车辆分析的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711190417.9A CN107967323B (zh) 2017-11-24 2017-11-24 基于大数据进行异常出行车辆分析的方法及***

Publications (2)

Publication Number Publication Date
CN107967323A true CN107967323A (zh) 2018-04-27
CN107967323B CN107967323B (zh) 2020-08-04

Family

ID=62001565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711190417.9A Active CN107967323B (zh) 2017-11-24 2017-11-24 基于大数据进行异常出行车辆分析的方法及***

Country Status (1)

Country Link
CN (1) CN107967323B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145888A (zh) * 2018-10-26 2019-01-04 北京旷视科技有限公司 人数统计方法、装置、***、电子设备、存储介质
CN109857773A (zh) * 2018-12-21 2019-06-07 厦门市美亚柏科信息股份有限公司 一种自动分析服务号码的方法和装置
CN110164138A (zh) * 2019-05-17 2019-08-23 湖南科创信息技术股份有限公司 基于卡口对流向概率的***辆的识别方法及***、介质
CN110264722A (zh) * 2019-07-03 2019-09-20 泰华智慧产业集团股份有限公司 信息采集设备中异常设备的筛选方法及***
CN110874355A (zh) * 2019-11-28 2020-03-10 北京以萨技术股份有限公司 车辆徘徊绕圈异常行为的检测方法、***、终端及介质
CN111222666A (zh) * 2018-11-26 2020-06-02 中兴通讯股份有限公司 一种数据计算方法和装置
CN111367906A (zh) * 2019-07-23 2020-07-03 杭州海康威视***技术有限公司 异常车辆识别方法、装置、设备及计算机可读存储介质
CN111552681A (zh) * 2020-04-30 2020-08-18 山东众志电子有限公司 一种动态的基于大数据技术的场所出入次数异常计算方法
CN112116814A (zh) * 2019-06-19 2020-12-22 杭州海康威视***技术有限公司 一种异常车辆检测方法、装置及电子设备
CN112579658A (zh) * 2019-09-27 2021-03-30 深圳市赛格车圣智联科技有限公司 一种多进程分析车辆昼伏夜出的方法
CN114999171A (zh) * 2022-05-19 2022-09-02 杭州海康威视数字技术股份有限公司 一种变道监控处理方法、装置和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104167095A (zh) * 2014-08-05 2014-11-26 江苏省邮电规划设计院有限责任公司 基于智慧城市的车辆行为模式稽查方法
CN105741553A (zh) * 2016-04-28 2016-07-06 泰华智慧产业集团股份有限公司 基于动态阈值的识别车辆轨迹中停靠路段的方法
CN105976617A (zh) * 2016-03-21 2016-09-28 江苏智通交通科技有限公司 非法营运车辆检测方法和***
US9600541B2 (en) * 2014-05-02 2017-03-21 Kookmin University Industry Academy Corporation Foundation Method of processing and analysing vehicle driving big data and system thereof
CN106846801A (zh) * 2017-02-06 2017-06-13 安徽新华博信息技术股份有限公司 一种基于车辆轨迹的区域徘徊异常行为检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600541B2 (en) * 2014-05-02 2017-03-21 Kookmin University Industry Academy Corporation Foundation Method of processing and analysing vehicle driving big data and system thereof
CN104167095A (zh) * 2014-08-05 2014-11-26 江苏省邮电规划设计院有限责任公司 基于智慧城市的车辆行为模式稽查方法
CN105976617A (zh) * 2016-03-21 2016-09-28 江苏智通交通科技有限公司 非法营运车辆检测方法和***
CN105741553A (zh) * 2016-04-28 2016-07-06 泰华智慧产业集团股份有限公司 基于动态阈值的识别车辆轨迹中停靠路段的方法
CN106846801A (zh) * 2017-02-06 2017-06-13 安徽新华博信息技术股份有限公司 一种基于车辆轨迹的区域徘徊异常行为检测方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145888A (zh) * 2018-10-26 2019-01-04 北京旷视科技有限公司 人数统计方法、装置、***、电子设备、存储介质
CN111222666A (zh) * 2018-11-26 2020-06-02 中兴通讯股份有限公司 一种数据计算方法和装置
CN109857773A (zh) * 2018-12-21 2019-06-07 厦门市美亚柏科信息股份有限公司 一种自动分析服务号码的方法和装置
CN109857773B (zh) * 2018-12-21 2022-03-01 厦门市美亚柏科信息股份有限公司 一种自动分析服务号码的方法和装置
CN110164138A (zh) * 2019-05-17 2019-08-23 湖南科创信息技术股份有限公司 基于卡口对流向概率的***辆的识别方法及***、介质
CN112116814A (zh) * 2019-06-19 2020-12-22 杭州海康威视***技术有限公司 一种异常车辆检测方法、装置及电子设备
CN110264722A (zh) * 2019-07-03 2019-09-20 泰华智慧产业集团股份有限公司 信息采集设备中异常设备的筛选方法及***
CN111367906A (zh) * 2019-07-23 2020-07-03 杭州海康威视***技术有限公司 异常车辆识别方法、装置、设备及计算机可读存储介质
CN111367906B (zh) * 2019-07-23 2023-09-05 杭州海康威视***技术有限公司 异常车辆识别方法、装置、设备及计算机可读存储介质
CN112579658A (zh) * 2019-09-27 2021-03-30 深圳市赛格车圣智联科技有限公司 一种多进程分析车辆昼伏夜出的方法
CN110874355A (zh) * 2019-11-28 2020-03-10 北京以萨技术股份有限公司 车辆徘徊绕圈异常行为的检测方法、***、终端及介质
CN110874355B (zh) * 2019-11-28 2022-08-23 以萨技术股份有限公司 车辆徘徊绕圈异常行为的检测方法、***、终端及介质
CN111552681A (zh) * 2020-04-30 2020-08-18 山东众志电子有限公司 一种动态的基于大数据技术的场所出入次数异常计算方法
CN114999171A (zh) * 2022-05-19 2022-09-02 杭州海康威视数字技术股份有限公司 一种变道监控处理方法、装置和***

Also Published As

Publication number Publication date
CN107967323B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN107967323B (zh) 基于大数据进行异常出行车辆分析的方法及***
US9043079B2 (en) Generation of reference value for vehicle failure diagnosis
US20110313616A1 (en) Vehicle failure diagnostic device
CN110888884B (zh) 基于geohash匹配的车码拟合方法及***
CN103150900A (zh) 一种基于视频的交通拥堵事件自动检测方法
CN105913656B (zh) 基于分布式统计频繁过车的方法及***
CN107329977B (zh) 一种基于概率分布的假牌车二次筛选方法
CN104750800A (zh) 一种基于出行时间特征的机动车聚类方法
CN108389394B (zh) 车辆初次入城分析的方法及***
CN112730748A (zh) 一种基于工况选择的大规模筛查重型柴油车高NOx排放方法
CN106910334B (zh) 一种基于大数据预测路段状况的方法及装置
CN111241072A (zh) 一种判断数据段连续性的方法及其***
CN115880894A (zh) 一种交通状态确定方法、装置及设备
CN113806343B (zh) 一种车联网数据质量的评估方法和***
CN110751826B (zh) 车辆排队确定方法以及相关装置
CN109949030B (zh) 一种出租车绕路和计价异常的检测方法和装置
CN111369804B (zh) 一种车辆数据处理方法、装置、电子设备、存储介质
CN113779171A (zh) 对象落脚点的确定方法、装置、存储介质及电子装置
CN113160565A (zh) 一种***辆的识别方法、装置、存储介质及终端
CN112859805A (zh) 一种发动机控制器在线诊断方法及相关装置
CN114283392B (zh) 一种道路目标检测的困难样本的采集***
CN106448178B (zh) 一种***分析方法及装置
KR20190130762A (ko) 도로교통 분석 서버, 도로교통정보 분석 시스템 및 분석 방법
CN116631198B (zh) 基于物联网设备的交通综合执法研判***
CN111369803B (zh) 边际卡口的检测方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant