CN108717786A - 一种基于普适性元规则的交通事故致因挖掘方法 - Google Patents

一种基于普适性元规则的交通事故致因挖掘方法 Download PDF

Info

Publication number
CN108717786A
CN108717786A CN201810781739.9A CN201810781739A CN108717786A CN 108717786 A CN108717786 A CN 108717786A CN 201810781739 A CN201810781739 A CN 201810781739A CN 108717786 A CN108717786 A CN 108717786A
Authority
CN
China
Prior art keywords
rule
accident
meta
data
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810781739.9A
Other languages
English (en)
Other versions
CN108717786B (zh
Inventor
曾维理
赵子瑜
李娟�
任禹蒙
孙煜时
羊钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201810781739.9A priority Critical patent/CN108717786B/zh
Publication of CN108717786A publication Critical patent/CN108717786A/zh
Application granted granted Critical
Publication of CN108717786B publication Critical patent/CN108717786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0129Traffic data processing for creating historical data or processing based on historical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Analytical Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Chemical & Material Sciences (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于普适性元规则的交通事故致因挖掘方法。该方法通过读入历年交通事故信息,对数据进行预处理后,根据道路交通事故分类标准对每条事故记录进行等级划分,在此基础上运用关联规则分析方法,设置最小支持度、最小置信度和频繁指数的合理阈值,对多数据集进行阈值一致的关联规则挖掘,构建各数据集与强关联规则的二值数据集,进而提取元规则集,再集合元规则集及数据集进行二次挖掘,整合多组数据集中的元规则,得到以元胞模式输出、具有普适特征的多元规则构成的输出规则。本发明能够挖掘出传统关联规则中的隐藏关联信息,筛选有价值的规则,剔除不具有多片区普适特征的关联规则,为交通安全管理者提供决策辅助。

Description

一种基于普适性元规则的交通事故致因挖掘方法
技术领域
本发明属于交通安全技术领域,特别涉及了一种基于普适性元规则的交通事故致因挖掘方法。
背景技术
近年来,城市道路交通快速发展,城市路网规模和路网密度大幅提升,餐饮外送服务、共享单车和共享汽车以及互联网租车行业如雨后春笋般涌现而出,在欣欣向荣的背后,是城市交通面临的沉重压力,交通事故也呈上升趋势。随着当今的交通事故数据记录条件基本完善,如何有效利用此类数据,从大量的交通事故数据中发现症结是现阶段面临的主要问题。通过分析事故发生原因并找出交通事故中各个属性联系的内在规律,为决策层面提供依据,做到有的放矢,通过人为的干预和控制使交通事故发生的条件缺失从而减少交通事故发生的概率。
随着人工智能和大数据技术的发展,数据挖掘的理念和方法也开始大量应用于交通领域。关联规则挖掘方法,用于分析数据集中不同事务属性之间的关联性,是目前主流的交通事故数据挖掘手段。关联规则的挖掘算法,也是无监督学习的主要代表之一,正好符合交通事故随机性强和数据分布不均匀的特征,可以使得事务属性之间的潜在关联得以体现,进而对有价值的关联规则进行分析,做出合理决策。
现有技术中目前存在问题如下:基于交通数据挖掘得到的关联规则,通常为了保证可读性,阈值设置偏高,而交通事故中不同严重程度的事故发生的概率大小有所差别,若对整个交通数据集直接采用一致阈值的关联规则挖掘,就会导致关联规则中的部分隐藏关联无法体现;在数据属性较多的交通数据集中,关联规则里前项和后项的属性出现数量过多,互相之间没有逻辑体现,不便于决策层面的分析;单一地对数据集进行数据挖掘得到关联规则,往往没有考虑规则的普适性,得到的规则部分只适用于当前数据集,只体现了单一数据集片区的事故致因,而无法体现多片区共有的交通事故致因特征。
发明内容
为了解决上述背景技术提出的技术问题,本发明旨在提供一种基于普适性元规则的交通事故致因挖掘方法,提取具有普适特征的元规则,并通过以元规则构成的元胞模式形式输出规则,实现规则的普适性和易解释性。
为了实现上述技术目的,本发明的技术方案为:
一种基于普适性元规则的交通事故致因挖掘方法,包括以下步骤:
步骤一、数据准备
步骤1.1:读取历年交通事故信息,并将其分为事故基本信息、涉事驾驶人信息、事故车辆信息、道路条件信息和环境信息5类交通事故致因信息,且每类交通事故致因信息采用多属性描述;
步骤1.2:对读取的交通事故信息进行数据质量分析,筛选保留质量合格的属性变量;
步骤1.3:对筛选后的交通事故信息进行属性选择,将与挖掘任务不相关或者冗余的属性剔除,属性选择的目标是找出最小属性集,同时保证数据集的概率分布尽量接近利用所有属性得到的原分布;
步骤1.4:对步骤1.3得到的交通事故信息进行数据清洗,包括缺失值处理和噪声过滤;缺失值处理采用删除法,剔除5类交通事故致因信息中属性缺失度超过预设缺失阈值的信息;噪声过滤采用基于统计学方法的离群点检测算法,诊断出数据中的离群点,并删除;
步骤1.5:对连续性分布的属性进行聚类处理,同时,根据道路交通事故分类标准对每条事故进行分类;
步骤二、参数选取
步骤2.1:根据下列方法计算规则的支持度和置信度:
规则R:在交通数据集T中的支持度如下:
其中,
规则R:在交通数据集T中的置信度如下:
其中,
对于规则R:X称为规则的前件,Y称为规则的后件,规则R的支持度表示事故致因X和事故致因Y同时发生的概率,规则R的置信度表示在事故致因X发生时,事故致因Y同时发生的条件概率,当规则R的置信度大于预先设置的阈值时,认为X事件的发生诱导了Y事件的发生,置信度越大,说明两者间的联系越紧密;
步骤2.2:选择最小支持度S阈值:对不同行政区域交通数据集的不同类别事故进行区分后,根据公式(1)对不同区域的规则进行支持度计算,得到满足最小支持度阈值的关联规则数量和最小支持度阈值的关系图;通过选取不同的最小支持度阈值,以最小支持度阈值为横坐标,以满足最小支持度阈值的关联规则数量为纵坐标,得到各类事故各区域支持度阈值选取趋势图,进行最小支持度阈值选取;
步骤2.3:选择最小置信度C阈值:对不同类型下的交通事故数据集,根据公式(1)和(2)对不同区域的规则进行支持度和置信度计算,设置不同的支持度和置信度阈值进行比较分析,得到满足阈值条件的规则分布与阈值设置的气泡关系图,以权衡支持度和置信度阈值的选择范围,其中横坐标对应支持度阈值,纵坐标对应置信度阈值,气泡数量越大,表示包含的关联规则数量越多;
步骤2.4:选择频繁指数F阈值:在不同交通数据集之间,筛选普适性元规则的指标为频繁指数,根据不同数据集中分别挖掘得到的关联规则,建立基于多数据集的关联规则频繁指数表,满足频繁指数阈值的关联规则作为普适性元规则,其中,各数据集在挖掘关联规则时采取一致的支持度和置信度阈值,通过布尔变量1和0分别表示存在规则和不存在规则,规则Ri的频繁指数定义如下:
其中,pij为规则Ri在数据集Tj中的判断值,规则Ri在数据集Tj中存在,则pij取1,否则pij取0,n为数据集数量;
为了得到在多区域具有普适性的元规则,同时保证得到的普适性元规则具有分析意义,对各区域不同类型的交通事故数据集进行关联筛选,筛选出各区域中重复出现的关联规则,并以频繁指数阈值为横坐标,以强关联规则数量为纵坐标,得到各类事故的关联规则区域关联趋势图,进行频繁指数阈值选取;
步骤三、基于元规则的关联规则挖掘
步骤3.1:对多个格式相同数据集T1,T2,…,Ti设置一致的最小支持度S和最小置信度C,进行一次关联规则挖掘,得到对应的关联规则R1,R2,…,Ri
步骤3.2:根据各关联规则在不同数据集中的频繁指数,通过频繁指数F阈值筛选,提取元规则,确立元规则集;
步骤3.3:结合元规则集及数据集T1,T2,…,Ti进行二次挖掘,整合多组数据集中的元规则;
步骤3.4:根据最小支持度S和最小置信度C进行强关联规则输出,并导出基于导致交通事故类型关联因素的元规则,得到以元胞模式输出、具有普适特征的多元规则构成的输出规则;
步骤四、规则分析
根据生成的不同类型事故下的多元规则构成的强关联规则,定性和定量分析各个事故致因之间的关联性,为决策层面提供参考依据。
进一步地,在步骤1.1中,5类交通事故致因信息各自包含的属性如下:
事故基本信息包括:事故的类型、事故等级、事故伤亡人数、事故直接财产损失、事故时间和事故地点;
涉事驾驶人信息包括:驾驶人的性别、年龄、职业、驾龄,以及事故发生时的身体心理状况、事故发生前后的驾驶操作行为;
事故车辆信息包括:车辆类型、车辆安全状况和车辆驾驶性能;
道路条件信息包括:道路等级、路面形式、路面状况、安全设施和线形设计;
环境信息包括:故发生时刻道路交通状况、行车视距、天气状况、标志标线和照明。
进一步地,在步骤1.2中,通过值分析方法,保留非空占比大于70%的属性变量。
进一步地,在步骤1.4中,所述预设缺失阈值为30%。
进一步地,在步骤1.5中,对事故进行如下分类:
财产损失事故:造成车辆、货物或其他财产物品受损,或伴有人员受轻微伤;
受伤事故:造成当事人受重伤或轻伤,或能伴有财产损失;
死亡事故:造成当事人死亡,或伴有人员受伤、财产损失。
进一步地,在步骤2.2、2.3和2.4中,在选取各类阈值时,首先应保证规则的可读性,使得规则的数量保持在可读范围之内,同时应保证规则的有效性,使得规则包含的属性尽量多。
采用上述技术方案带来的有益效果:
本发明主要通过对不同数据集进行一次挖掘得到的关联规则,进行普适性分析,提取具有普适特征的规则作为元规则,再通过二次挖掘,整合多组数据集中的元规则,以元胞模式输出,得到具有普适特征的多元规则构成的输出规则。相较于传统挖掘手段得到的关联规则,本发明的优越性在于:(1)通过普适性元规则来揭示传统关联规则中的隐藏关联信息,并将信息整合于挖掘结果中显示;(2)剔除不具有多片区普适特征的关联规则,筛选有价值的普适性规则;(3)摒弃传统关联规则在决策层面的属性繁多不利于决断的缺陷,注重凸显规则前后项中属性之间的逻辑性,以更具可读性的方式对关联规则进行表示。本发明不但能挖掘出导致各类交通事故的致因,而且能够找到致因之间的关联关系,从而可以帮助交通管理部门找到最重要和最关键的干预因素,提高事故预防的效果。
附图说明
图1是本发明的方法流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明提出了一种基于普适性元规则的交通事故致因挖掘方法,如图1所示,具体步骤如下。
步骤一:数据准备
步骤1.1:读入历年交通事故信息,按事故基本信息、涉事驾驶人信息、事故车辆信息、道路条件信息和环境信息分成五方面的交通事故致因信息,实现对事故属性的多角度描述:
1)事故基本信息,包括事故的类型、事故等级、事故伤亡(受伤人数、死亡人数、重伤人数、轻伤人数)、事故直接财产损失、事故时间、事故地点等信息。该信息构成对道路交通事故本身的基本描述。
2)涉事驾驶人信息,驾驶人是事故发生的重要因素之一,包括驾驶人的性别、年龄、职业、驾龄等基本信息,以及事故发生时的身体心理状况、事故发生前后的驾驶操作行为等附属信息。
3)事故车辆信息,包括车辆类型、车辆安全状况、车辆驾驶性能等。
4)道路条件信息,道路交通事故发生地包括城市道路和公路,道路条件信息包括道路等级、路面形式、路面状况、安全设施、线形设计等。
5)环境信息,包括事故发生时刻道路交通状况、行车视距、天气状况、标志标线、照明等,这些都将直接或间接地影响交通事故的发生。
步骤1.2:对交通事故数据信息进行数据质量分析。通过值分析方法,将非空占比大于70%的属性变量纳入下一轮的数据样本的变量体系。
步骤1.3:对筛选后的交通事故数据信息进行属性选择,将可能与挖掘任务不相关,或者是冗余的属性剔除。属性选择的目标是找出最小属性集,同时保证数据集的概率分布尽可能地接近使用所有属性得到的原分布。其优势在于减少了出现在发现模式上的属性数目,使得模式更易于理解。
步骤1.4:对保留的事故致因信息进行数据清洗。主要进行缺失值处理和噪声过滤。首先进行缺失值处理。由于缺失数据表征的是事故的独立个体信息,在各起事故之间不存在明显的相关性,所以该类缺失数据在理论上是无法通过后期分析进行弥补的,故使用删除法进行数据清洗,剔除5类交通事故致因信息属性缺失度超过30%的事故信息,提高数据质量和挖掘价值。然后进行噪声过滤,此处采用基于统计学方法的离群点检测算法。由于交通事故数据是独立个体信息,同时在各起事故之间不存在明显的相关性,且具有高度的随机性,所以该类缺失数据在理论上是无法通过回归法分析进行平滑处理的,所以对于诊断出的离群点,予以删除处理。
步骤1.5:对连续性属性进行数据规约。为了在后续数据挖掘过程中,能够分类概括各类交通事故的特点以及把注意力放在某一个特定的类上以作进一步分析,对连续性分布的属性进行聚类处理。同时,为了方便数据挖掘结果直观呈现导致各类交通事故的关联因素信息,根据道路交通事故分类标准,基于每条事故记录的死亡人数、轻伤人数和重伤人数以及财产损失,对每条事故进行分类:
a)财产损失事故。造成车辆、货物或其他财产物品受损,可伴有人员受轻微伤;
b)受伤事故。造成当事人受重伤或轻伤,可伴有财产损失;
c)死亡事故。造成当事人死亡,可伴有人员受伤、财产损失。
步骤二:参数选取
步骤2.1:根据下列公式计算规则的支持度和置信度。
规则R:在交通数据集T中的支持度如下:
其中,
规则R:在交通数据集T中的置信度如下:
其中,
对于规则R:X称为规则的前件,Y称为规则的后件,规则R的支持度表示事故致因X和事故致因Y同时发生的概率,规则R的置信度表示在事故致因X发生时,事故致因Y同时发生的条件概率,当规则R的置信度大于预先设置的阈值时,认为X事件的发生诱导了Y事件的发生,置信度越大,说明两者间的联系越紧密。
步骤2.2:选择最小支持度S阈值:对不同行政区域交通数据集的不同类别事故进行区分后,根据公式(1)对不同区域的规则进行支持度计算,得到满足最小支持度阈值的关联规则数量和最小支持度阈值的关系图;通过选取不同的最小支持度阈值,以最小支持度阈值为横坐标,以满足最小支持度阈值的关联规则数量为纵坐标,得到各类事故各区域支持度阈值选取趋势图,进行最小支持度阈值选取。
步骤2.3:选择最小置信度C阈值:对不同类型下的交通事故数据集,根据公式(1)和(2)对不同区域的规则进行支持度和置信度计算,设置不同的支持度和置信度阈值进行比较分析,得到满足阈值条件的规则分布与阈值设置的气泡关系图,以权衡支持度和置信度阈值的选择范围,其中横坐标对应支持度阈值,纵坐标对应置信度阈值,气泡数量越大,表示包含的关联规则数量越多。
步骤2.4:选择频繁指数F阈值:在不同交通数据集之间,筛选具有普适特征的元规则的指标为频繁指数,根据不同数据集中分别挖掘得到的关联规则,建立基于多数据集的关联规则频繁指数表,满足频繁指数阈值的关联规则作为普适性元规则,其中,各数据集在挖掘关联规则时采取一致的支持度和置信度阈值,通过布尔变量1和0分别表示存在规则和不存在规则,规则Ri的频繁指数定义如下:
其中,pij为规则Ri在数据集Tj中的判断值,规则Ri在数据集Tj中存在,则pij取1,否则pij取0,n为数据集数量。
为了得到在多区域具有普适性的元规则,同时保证得到的普适性元规则具有分析意义,对各区域不同类型的交通事故数据集进行关联筛选,筛选出各区域中重复出现的关联规则,并以频繁指数阈值为横坐标,以强关联规则数量为纵坐标,得到各类事故的关联规则区域关联趋势图,进行频繁指数阈值选取。
在选取各类阈值时,首先应保证规则的可读性,使得规则的数量保持在可读范围之内(一般为200条以下),同时应保证规则的有效性,使得规则包含的属性尽量多。
步骤三:基于元规则的关联规则挖掘
步骤3.1:对多个格式相同数据集T1,T2,…,Ti设置一致的最小支持度S和最小置信度C,进行一次关联规则挖掘,得到对应的关联规则R1,R2,…,Ri
步骤3.2:根据各关联规则在不同数据集中的频繁指数,通过频繁指数F阈值筛选,提取元规则,确立元规则集。
步骤3.3:结合元规则集及数据集T1,T2,…,Ti进行二次挖掘,整合多组数据集中的元规则。
步骤3.4:关联规则生成。根据最小支持度S和最小置信度C进行强关联规则输出,并导出基于导致交通事故类型关联因素的元规则,得到以元胞模式输出、具有普适特征的多元规则构成的输出规则,是形如的规则模板,表示事故致因P1,...,Pi,Pj,...,Pk的发生诱导了事故致因Q(Y)的发生,在事故致因P1,...,Pi,Pj,...,Pk中,事故致因P1,...,Pi的发生诱导了事故致因Pj,...,Pk的发生。选取元胞模式作为输出模式,主要考虑到元胞模式的包裹式特征,可以使输出的规则既包含元规则,也能包含单一属性,共同构成输出规则,使输出规则包络信息更完整,更具可分析性。其通过不同数据集中挖掘得到的关联规则进行筛选,之后以元胞组的形式呈现于关联规则的前项和后项,其包含了属性与属性,属性与规则,规则与规则三种形式。在实际应用中,通过考虑影响因素之间的关联规则,只要控制较少的影响因素,即可达到对交通事故的预防。
步骤四:规则分析
根据步骤三生成的不同类型事故下的多元规则构成的强关联规则,定性和定量分析各个事故致因之间的关联性,为决策层面提供参考依据。
举例而言,以深圳市2014-2016年交通事故数据信息为研究对象,对深圳市各交通事故类型的致因进行挖掘分析,在本实施方式中,关联规则的最小支持度S、最小置信度C和频繁指数F的阈值分别设为:S≥30%,C≥70%,F≥55%,得到各交通事故类型下的关联规则结果,如下表所示:
表1深圳市交通事故关联规则结果(部分)
对关联规则结果进行分析,可提供如下建议:天气方面,天气情况晴朗时,驾驶员更容易因随意变更车道而引发事故,而天气情况为雨时,不与前车保持安全距离及不安全驾驶则成为了导致事故的主要交通行为,且事故多发时段位于17:00-19:59,事故区域为宝安区,故考虑从天气、时间和地点入手,行特定天气下的时段交通广播提醒投放,从而加强驾驶人员的安全防护意识。驾驶员方面,年龄在19至23以及30至35岁的驾驶员是第1类事故(财产损失事故)的高发群体,但是其关联特征不同。年龄在19至23岁的驾驶员有大概率发生编号1225的驾驶行为,即驾车时有其他妨碍安全驾驶的行为,此类行为大概率导致第1类事故的发生,而标志标线不完善是此类行为的主要致因。而年龄在30至35岁的驾驶员发生第1类事故的主要违法行为为1094,即不与前车保持安全距离,且事故地点多发于一般城市道路。考虑到19至23年龄段多为刚从驾校毕业的新晋驾驶员,建议驾校培训中加强对于学员交通安全行为意识的培训,管理中要重视司机年龄群体差异,重点加强新手的管理。而年龄段在24至29岁之间的驾驶员,大多数刚积累了4至6年的驾龄,是安全意识环节最薄弱的时间段,故建议在第一批驾驶证到期更换时可适当进行交通安全驾驶教育并结合实际案例进行安全意识加强培养,考虑到受众群体太大,故可采用网络答题、网络视频等方式进行安全教育,同时将安全教育合格通过纳入第一批驾驶证更换的条件范围内。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种基于普适性元规则的交通事故致因挖掘方法,其特征在于,包括以下步骤:
步骤一、数据准备
步骤1.1:读取历年交通事故信息,并将其分为事故基本信息、涉事驾驶人信息、事故车辆信息、道路条件信息和环境信息5类交通事故致因信息,且每类交通事故致因信息采用多属性描述;
步骤1.2:对读取的交通事故信息进行数据质量分析,筛选保留质量合格的属性变量;
步骤1.3:对筛选后的交通事故信息进行属性选择,将与挖掘任务不相关或者冗余的属性剔除,属性选择的目标是找出最小属性集,同时保证数据集的概率分布尽量接近利用所有属性得到的原分布;
步骤1.4:对步骤1.3得到的交通事故信息进行数据清洗,包括缺失值处理和噪声过滤;缺失值处理采用删除法,剔除5类交通事故致因信息中属性缺失度超过预设缺失阈值的信息;噪声过滤采用基于统计学方法的离群点检测算法,诊断出数据中的离群点,并删除;
步骤1.5:对连续性分布的属性进行聚类处理,同时,根据道路交通事故分类标准对每条事故进行分类;
步骤二、参数选取
步骤2.1:根据下列方法计算规则的支持度和置信度:
规则在交通数据集T中的支持度如下:
其中,
规则在交通数据集T中的置信度如下:
其中,
对于规则X称为规则的前件,Y称为规则的后件,规则R的支持度表示事故致因X和事故致因Y同时发生的概率,规则R的置信度表示在事故致因X发生时,事故致因Y同时发生的条件概率,当规则R的置信度大于预先设置的阈值时,认为X事件的发生诱导了Y事件的发生,置信度越大,说明两者间的联系越紧密;
步骤2.2:选择最小支持度S阈值:对不同行政区域交通数据集的不同类别事故进行区分后,根据公式(1)对不同区域的规则进行支持度计算,得到满足最小支持度阈值的关联规则数量和最小支持度阈值的关系图;通过选取不同的最小支持度阈值,以最小支持度阈值为横坐标,以满足最小支持度阈值的关联规则数量为纵坐标,得到各类事故各区域支持度阈值选取趋势图,进行最小支持度阈值选取;
步骤2.3:选择最小置信度C阈值:对不同类型下的交通事故数据集,根据公式(1)和(2)对不同区域的规则进行支持度和置信度计算,设置不同的支持度和置信度阈值进行比较分析,得到满足阈值条件的规则分布与阈值设置的气泡关系图,以权衡支持度和置信度阈值的选择范围,其中横坐标对应支持度阈值,纵坐标对应置信度阈值,气泡数量越大,表示包含的关联规则数量越多;
步骤2.4:选择频繁指数F阈值:在不同交通数据集之间,筛选普适性元规则的指标为频繁指数,根据不同数据集中分别挖掘得到的关联规则,建立基于多数据集的关联规则频繁指数表,满足频繁指数阈值的关联规则作为普适性元规则,其中,各数据集在挖掘关联规则时采取一致的支持度和置信度阈值,通过布尔变量1和0分别表示存在规则和不存在规则,规则Ri的频繁指数定义如下:
其中,pij为规则Ri在数据集Tj中的判断值,规则Ri在数据集Tj中存在,则pij取1,否则pij取0,n为数据集数量;
为了得到在多区域具有普适性的元规则,同时保证得到的普适性元规则具有分析意义,对各区域不同类型的交通事故数据集进行关联筛选,筛选出各区域中重复出现的关联规则,并以频繁指数阈值为横坐标,以强关联规则数量为纵坐标,得到各类事故的关联规则区域关联趋势图,进行频繁指数阈值选取;
步骤三、基于元规则的关联规则挖掘
步骤3.1:对多个格式相同数据集T1,T2,…,Ti设置一致的最小支持度S和最小置信度C,进行一次关联规则挖掘,得到对应的关联规则R1,R2,…,Ri
步骤3.2:根据各关联规则在不同数据集中的频繁指数,通过频繁指数F阈值筛选,提取元规则,确立元规则集;
步骤3.3:结合元规则集及数据集T1,T2,…,Ti进行二次挖掘,整合多组数据集中的元规则;
步骤3.4:根据最小支持度S和最小置信度C进行强关联规则输出,并导出基于导致交通事故类型关联因素的元规则,得到以元胞模式输出、具有普适特征的多元规则构成的输出规则;
步骤四、规则分析
根据生成的不同类型事故下的多元规则构成的强关联规则,定性和定量分析各个事故致因之间的关联性,为决策层面提供参考依据。
2.根据权利要求1所述基于普适性元规则的交通事故致因挖掘方法,其特征在于,在步骤1.1中,5类交通事故致因信息各自包含的属性如下:
事故基本信息包括:事故的类型、事故等级、事故伤亡人数、事故直接财产损失、事故时间和事故地点;
涉事驾驶人信息包括:驾驶人的性别、年龄、职业、驾龄,以及事故发生时的身体心理状况、事故发生前后的驾驶操作行为;
事故车辆信息包括:车辆类型、车辆安全状况和车辆驾驶性能;
道路条件信息包括:道路等级、路面形式、路面状况、安全设施和线形设计;
环境信息包括:故发生时刻道路交通状况、行车视距、天气状况、标志标线和照明。
3.根据权利要求1所述基于普适性元规则的交通事故致因挖掘方法,其特征在于,在步骤1.2中,通过值分析方法,保留非空占比大于70%的属性变量。
4.根据权利要求1所述基于普适性元规则的交通事故致因挖掘方法,其特征在于,在步骤1.4中,所述预设缺失阈值为30%。
5.根据权利要求1所述基于普适性元规则的交通事故致因挖掘方法,其特征在于,在步骤1.5中,对事故进行如下分类:
财产损失事故:造成车辆、货物或其他财产物品受损,或伴有人员受轻微伤;
受伤事故:造成当事人受重伤或轻伤,或能伴有财产损失;
死亡事故:造成当事人死亡,或伴有人员受伤、财产损失。
6.根据权利要求1所述基于普适性元规则的交通事故致因挖掘方法,其特征在于,在步骤2.2、2.3和2.4中,在选取各类阈值时,首先应保证规则的可读性,使得规则的数量保持在可读范围之内,同时应保证规则的有效性,使得规则包含的属性尽量多。
CN201810781739.9A 2018-07-17 2018-07-17 一种基于普适性元规则的交通事故致因挖掘方法 Active CN108717786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810781739.9A CN108717786B (zh) 2018-07-17 2018-07-17 一种基于普适性元规则的交通事故致因挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810781739.9A CN108717786B (zh) 2018-07-17 2018-07-17 一种基于普适性元规则的交通事故致因挖掘方法

Publications (2)

Publication Number Publication Date
CN108717786A true CN108717786A (zh) 2018-10-30
CN108717786B CN108717786B (zh) 2022-06-17

Family

ID=63914019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810781739.9A Active CN108717786B (zh) 2018-07-17 2018-07-17 一种基于普适性元规则的交通事故致因挖掘方法

Country Status (1)

Country Link
CN (1) CN108717786B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410588A (zh) * 2018-12-20 2019-03-01 湖南晖龙集团股份有限公司 一种基于交通大数据的交通事故演化分析方法
CN110263709A (zh) * 2019-06-19 2019-09-20 百度在线网络技术(北京)有限公司 驾驶决策挖掘方法和装置
CN110442620A (zh) * 2019-08-05 2019-11-12 赵玉德 一种大数据探索和认知方法、装置、设备以及计算机存储介质
CN110825777A (zh) * 2019-11-11 2020-02-21 云南电网有限责任公司电力科学研究院 一种园区道路劣化因果分析方法
CN111144772A (zh) * 2019-12-30 2020-05-12 交通运输部公路科学研究所 一种基于数据挖掘的道路运输安全风险实时评估方法
CN111459994A (zh) * 2020-03-06 2020-07-28 中国科学院计算技术研究所 一种面向残疾人大数据的分析方法及***
CN112597236A (zh) * 2020-12-04 2021-04-02 河南大学 一种基于概念格的关联规则的优化方法及可视化展示方法
CN113077625A (zh) * 2021-03-24 2021-07-06 合肥工业大学 一种道路交通事故形态预测方法
CN113792193A (zh) * 2021-08-27 2021-12-14 武汉理工大学 一种面向内河航标的事故数据挖掘方法与***
CN115794801A (zh) * 2022-12-23 2023-03-14 东南大学 一种挖掘自动驾驶事故致因链式关系的数据分析方法
CN116384820A (zh) * 2023-03-31 2023-07-04 四川省自然资源科学研究院(四川省生产力促进中心) 一种企业的科技创新能力评估方法、***、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011060723A1 (zh) * 2009-11-19 2011-05-26 北京世纪高通科技有限公司 基于关联规则的道路交通事故数据挖掘方法及装置
CN103455563A (zh) * 2013-08-15 2013-12-18 国家电网公司 一种适用于智能变电站一体化监控***的数据挖掘方法
CN103488802A (zh) * 2013-10-16 2014-01-01 国家电网公司 一种基于粗糙集关联规则的超高压电网故障规则挖掘方法
CN104298778A (zh) * 2014-11-04 2015-01-21 北京科技大学 一种基于关联规则树的轧钢产品质量的预测方法及***
CN104464344A (zh) * 2014-11-07 2015-03-25 湖北大学 一种车辆行驶路径预测方法及***
US20160061625A1 (en) * 2014-12-02 2016-03-03 Kevin Sunlin Wang Method and system for avoidance of accidents
CN106383920A (zh) * 2016-11-28 2017-02-08 东南大学 一种基于关联规则的重特大交通事故致因识别方法
CN107610421A (zh) * 2017-09-19 2018-01-19 合肥英泽信息科技有限公司 一种地质灾害预警分析***及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011060723A1 (zh) * 2009-11-19 2011-05-26 北京世纪高通科技有限公司 基于关联规则的道路交通事故数据挖掘方法及装置
CN103455563A (zh) * 2013-08-15 2013-12-18 国家电网公司 一种适用于智能变电站一体化监控***的数据挖掘方法
CN103488802A (zh) * 2013-10-16 2014-01-01 国家电网公司 一种基于粗糙集关联规则的超高压电网故障规则挖掘方法
CN104298778A (zh) * 2014-11-04 2015-01-21 北京科技大学 一种基于关联规则树的轧钢产品质量的预测方法及***
CN104464344A (zh) * 2014-11-07 2015-03-25 湖北大学 一种车辆行驶路径预测方法及***
US20160061625A1 (en) * 2014-12-02 2016-03-03 Kevin Sunlin Wang Method and system for avoidance of accidents
CN107430006A (zh) * 2014-12-02 2017-12-01 凯文·孙林·王 避免事故的方法和***
CN106383920A (zh) * 2016-11-28 2017-02-08 东南大学 一种基于关联规则的重特大交通事故致因识别方法
CN107610421A (zh) * 2017-09-19 2018-01-19 合肥英泽信息科技有限公司 一种地质灾害预警分析***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
左艇 等: "基于关联规则方法对不同地区乌头组反药的临床调查研究和配伍特点分析", 《中国中药杂志》 *
张春生: "大数据环境下相容数据集的关联规则数据挖掘", 《微电子学与计算机》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410588A (zh) * 2018-12-20 2019-03-01 湖南晖龙集团股份有限公司 一种基于交通大数据的交通事故演化分析方法
CN109410588B (zh) * 2018-12-20 2022-03-15 湖南晖龙集团股份有限公司 一种基于交通大数据的交通事故演化分析方法
CN110263709B (zh) * 2019-06-19 2021-07-16 百度在线网络技术(北京)有限公司 驾驶决策挖掘方法和装置
CN110263709A (zh) * 2019-06-19 2019-09-20 百度在线网络技术(北京)有限公司 驾驶决策挖掘方法和装置
CN110442620A (zh) * 2019-08-05 2019-11-12 赵玉德 一种大数据探索和认知方法、装置、设备以及计算机存储介质
CN110442620B (zh) * 2019-08-05 2023-08-29 赵玉德 一种大数据探索和认知方法、装置、设备以及计算机存储介质
CN110825777A (zh) * 2019-11-11 2020-02-21 云南电网有限责任公司电力科学研究院 一种园区道路劣化因果分析方法
CN111144772A (zh) * 2019-12-30 2020-05-12 交通运输部公路科学研究所 一种基于数据挖掘的道路运输安全风险实时评估方法
CN111144772B (zh) * 2019-12-30 2023-11-21 交通运输部公路科学研究所 一种基于数据挖掘的道路运输安全风险实时评估方法
CN111459994A (zh) * 2020-03-06 2020-07-28 中国科学院计算技术研究所 一种面向残疾人大数据的分析方法及***
CN112597236A (zh) * 2020-12-04 2021-04-02 河南大学 一种基于概念格的关联规则的优化方法及可视化展示方法
CN112597236B (zh) * 2020-12-04 2022-10-25 河南大学 一种基于概念格的关联规则的优化方法及可视化展示方法
CN113077625A (zh) * 2021-03-24 2021-07-06 合肥工业大学 一种道路交通事故形态预测方法
CN113077625B (zh) * 2021-03-24 2022-03-15 合肥工业大学 一种道路交通事故形态预测方法
CN113792193A (zh) * 2021-08-27 2021-12-14 武汉理工大学 一种面向内河航标的事故数据挖掘方法与***
CN113792193B (zh) * 2021-08-27 2023-02-28 武汉理工大学 一种面向内河航标的事故数据挖掘方法与***
CN115794801A (zh) * 2022-12-23 2023-03-14 东南大学 一种挖掘自动驾驶事故致因链式关系的数据分析方法
CN115794801B (zh) * 2022-12-23 2023-08-15 东南大学 一种挖掘自动驾驶事故致因链式关系的数据分析方法
CN116384820A (zh) * 2023-03-31 2023-07-04 四川省自然资源科学研究院(四川省生产力促进中心) 一种企业的科技创新能力评估方法、***、设备及介质

Also Published As

Publication number Publication date
CN108717786B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN108717786A (zh) 一种基于普适性元规则的交通事故致因挖掘方法
CN104268599B (zh) 一种基于车辆轨迹时空特征分析的黑车智能发现方法
CN108717790B (zh) 一种基于卡口车牌识别数据的车辆出行分析方法
CN108090429B (zh) 一种分级前脸卡口车型识别方法
CN108596409B (zh) 提升交通危险人员事故风险预测精度的方法
CN110119676A (zh) 一种基于神经网络的驾驶员疲劳检测方法
CN106383920B (zh) 一种基于关联规则的重特大交通事故致因识别方法
CN106384100A (zh) 一种基于部件的精细车型识别方法
CN109408557B (zh) 一种基于多重对应和K-means聚类的交通事故成因分析方法
CN109086808B (zh) 基于随机森林算法的交通高危人员识别方法
CN110458082A (zh) 一种城市管理案件分类识别方法
CN109409337A (zh) 基于卷积神经网络的渣土车特征识别方法
CN109191828B (zh) 基于集成学习的交通参与者事故风险预测方法
CN107577702A (zh) 一种社交媒体中交通信息的辨别方法
CN103927875B (zh) 基于视频的交通溢流状态识别方法
Anderson Crime Statistics and the ‘Problem of Crime’in Scotland
Kim et al. Hit-and-run crashes: use of rough set analysis with logistic regression to capture critical attributes and determinants
CN108510168A (zh) 基于交通事故关联规则的营运车辆路径规划方法
CN109101568B (zh) 基于XgBoost算法的交通高危人员识别方法
CN109614496A (zh) 一种基于知识图谱的低保鉴别方法
CN110263074A (zh) 一种基于lle和k均值法挖掘违法事故对应关系的方法
CN109063751A (zh) 基于梯度提升决策树算法的交通高危人员识别方法
CN105654118A (zh) 民航旅客关系分类方法
Mudgal et al. Mining of the correlations for fatal road accident using graph-based fuzzified FP-growth algorithm
CN112070419A (zh) 汽车驾驶潜在危险情景风险度量化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant