CN110399364B - 一种基于多种公路检测器数据的数据融合方法 - Google Patents
一种基于多种公路检测器数据的数据融合方法 Download PDFInfo
- Publication number
- CN110399364B CN110399364B CN201910626614.3A CN201910626614A CN110399364B CN 110399364 B CN110399364 B CN 110399364B CN 201910626614 A CN201910626614 A CN 201910626614A CN 110399364 B CN110399364 B CN 110399364B
- Authority
- CN
- China
- Prior art keywords
- data
- vehicle
- station
- fused
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/015—Detecting movement of traffic to be counted or controlled with provision for distinguishing between two or more types of vehicles, e.g. between motor-cars and cycles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于多种公路检测器数据的数据融合方法,根据不同公路检测器数据字段的特征及含义,构建了以交调站为核心的数据融合流程;并创新地提出了两阶段融合方法,在践行数据驱动理念实现站点数据自分类之外,运用站点分类再对应法、流量对应法等进行了融合质量评估,实现不同站点核心信息与交调数据的融合任务,并剔除站点数据异常值,从而在提高数据一体化程度的同时为日后的公路数据融合工作奠定基础。
Description
技术领域
本发明涉及公路检测器数据融合技术领域,更具体的说是涉及一种基于多种公路检测器数据的数据融合方法。
背景技术
随着我国公路使用调查及监控的信息化增强与智能化提升,各省份逐渐配套了集合测量交通组成、流量速度、轴载等多方位、多角度的公路交通运行特征数据采集设备,并逐渐形成了以高速公路收费数据、实时监控数据、RFID技术采集数据、“两客一危”卫星定位数据、治超信息***数据和手机信息***数据六位一体的公路检测数据体系。这六种数据在重点测量某一指标同时积累了较为相似的测量结果如流量、车速等如表1所示,为多种数据间的数据融合提供了基础条件。
表1六种公路测量数据重点测量指标表
在全国加快公路测量设备部署同时,我国各产业发展迅猛也对各级政府部门围绕公路进行月度、季度的分析要求提出了新要求,促进了数据融合理念的进一步发展。在这样的背景下,我国形成了“以国家级交调站、收费站、重点车辆检测器为主,以省内配套多方位检测器为辅”的公路基础检测设施建设特色。
通过发挥这一特色并坚持“丰富化数据体系,集约化交通评价”原则,可有效利用数据间的精度互查、精髓提炼作用,保障多角度、多方位评价道路使用情况同时,将省内配套检测器数据、全国高速公路收费数据、全国重点营运车辆联网联控***数据汇总于国家级公路交通情况调查站之上。这一趋势将促进公路检测体系典型化与全面化并重发展,积极发挥大数据对公路管理的指导作用,提高管理效率的同时提升数据统一化程度。
因此,如何依托于多种公路检测器数据进行数据融合是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于多种公路检测器数据的数据融合方法,能够实现不同站点信息与交调站数据的融合任务,在提高数据一体化程序的同时为日后的公路数据融合工作奠定基础。
为了实现上述目的,本发明采用如下技术方案:
一种基于多种公路检测器数据的数据融合方法,包括:
数据采集:采集交调站数据集和待融合站点数据集;
数据拓展:对车辆特征信息不明显的待融合站点数据集进行特征拓展;
数据清洗:对交调站数据集和待融合站点数据集进行数据清洗;
构建再分类数据集和预处理:对于不同检测站点组成的待融合站点数据集,从中提取不同的关键字段和对应的数据组成再分类数据集,对再分类数据集进行归一化和多重共线性检验与降维处理,并进行数据标准化处理;
车辆类别再分类和效果评价:对经过数据标准化处理的再分类数据集,根据OPTICS方法计算每条数据的可达距离,并根据可达距离分布图选择参数,基于选定的参数进行再分类,完成车辆再分类,得到再分类结果;对再分类结果进行评估,根据评估结果决定是否进行后续的融合;
融合效果评价:根据待融合站点再分类结果,以及交调站数据集与待融合站点数据集之间的关联字段,使用相关性检测完成融合效果评价,并结合道路特征和所在地用地属性进行解释;
交调站数据补充:根据待融合站点数据集的车辆特征,在选定数据融合时间的粒度后,完成交调站数据补充工作。
优选的,所述的车辆特征信息不明显具体包括:
对于取自公路桥梁检测器的待融合站点数据集,表现出总轴距准确但各轴轴距错误明显;对于取自公路桥梁检测器数据的待融合站点数据集,因受桥梁限速导致速度字段不能成为明显区分车辆特征的字段;对于取自公路桥梁检测器数据的待融合站点数据集,仅存在车货总重、轴重、总轴距描述车辆特征;对于取自治超数据的待融合站点数据集,仅存在车货总重、轴重和治超标重字段描述车辆特征。
优选的,数据拓展步骤具体包括:
对于车辆特征信息不明显的待融合站点数据集,通过二次计算补充车辆特征描述指标,计算指标包括:车辆首轴轴重占车货总重百分比、车辆末轴轴重占车货总重百分比、车辆首轴轴重与某轴轴重比,并为待融合站点数据集中的每条数据加上上述三个特征值;
其中,车辆首轴轴重占车货总重百分比=N轴车的第1轴轴重/车货总重;
车辆末轴轴重占车货总重百分比=N轴车的第N轴轴重/车货总重;
车辆首轴轴重与某轴轴重比=N轴车的第1轴轴重/N轴车的第N轴轴重。
优选的,在数据清洗步骤中,数据清洗针对如下错误:车辆测量轴数和车辆测量轴重个数不等、车辆测量轴数与车辆测量轴距个数不对应和车辆测量车货总重与车辆测量轴重加和不等。
优选的,在构建再分类数据集和预处理步骤中,采用主成分分析法进行降维,提取的主成分个数标准为方差贡献率至少超过90%。
优选的,所述根据OPTICS方法计算每条数据的可达距离,并根据可达距离分布图选择参数,基于选定的参数进行再分类,并得到再分类结果具体包括:
S1:根据待融合站点类别确定参数的经验范围,给定OPTICS算法初始参数:搜索半径∈和类别最小车辆数M;
S2:计算待融合站点数据集中每个车辆在给定搜索半径∈和类别最小车辆数M下的可达距离,并按照搜索顺序绘制可达距离分布图;
S3:根据可达距离分布图,判断最佳再分类类别个数,选择新的搜索半径∈;
S4:根据搜索半径∈′和类别最小车辆数M,对再分类数据集进行划分并对划分结果进行评估,效果较好则接受此划分结果,算法停止;否则返回S1并在选参经验范围内修正搜索半径∈和类别最小车辆数Μ,重复S1到S4步骤,直到划分效果较好或无法有效划分停止循环,得到再分类结果。
优选的,再分类过程中对某些待融合站点能够筛查出错误记录数据。对于以收费数据为代表的静态检测数据而言,其误差率相对较低,故在再分类过程中会得到包含极低错误测量数据(千分之一左右)的有效再分类类别;对以桥梁检测器数据、治超数据为代表的动态检测数据而言,其误差率相对较高,故在再分类过程中会得到一类错误测量数据组成的错误数据类别和若干类的有效再分类类别,其中错误数据类别可揭示检测器运行状态并辅助管理者进行进一步维修。一般这类错误数据可以通过搜索半径和类别最小车辆数这两个参数在不断的循环优化的过程中剔除掉,本发明中以下所述的再分类结果都是指有效再分类类别。
优选的,对再分类结果进行评估的具体步骤包括:根据再分类类别内及类别间的车辆轴数与车货总重是否符合逻辑来进行评估。
优选的,在融合效果评价步骤中,在当前公路检测器建设背景下,关联字段包括:车辆流量。
优选的,所述的融合效果评价的过程依据待融合站点数据集中是否拥有原始分类字段而不同:
若待融合数据集中含有原始分类字段,则按照再分类结果,在参考待融合站点数据集原始分类字段的基础上,依据再分类类别和交调站车辆类别间的逻辑关系进行配对,并使用流量相关性进行检验;
若待融合数据集中没有原始分类字段,则按照再分类类别与交调站车辆类别字段间的逻辑关系进行配对,并使用流量相关性进行检验;同时,结合待融合站点和交调站之间的道路地理特点、周边用地属性特点及获得的出行特点,综合评价其数据融合效果。
优选的,在交调站数据补充步骤中,融合时间的粒度根据待融合站点数据集数据时间粒度决定最小粒度,并在最小粒度的倍数下进行数据融合。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多种公路检测器数据的数据融合方法,具有如下优点:
(1)本发明结合现存多种公路检测器数据特点,针对各检测器间车辆分类标准不同、某些检测器缺少车辆分类字段等挑战运用了数据特征驱动的自分类OPTICS算法,在发挥数据驱动理念的同时取得了稳定的算法表现,打破了检测器间测量逻辑不同、分类逻辑不同的壁垒,提高了本发明技术方案的可行性与适用性;
(2)本发明提出了两阶段融合方法,保障待融合站点与交调站数据独立处理的同时搭建起流量相关性的验证桥梁,并采用待融合站点再分类消除检测器间分类壁垒,提高流量相关性分析针对性的同时增强发明可操作性;
(3)本发明对待融合检测器数据质量适应性较好,且对是否含有车辆分类字段没有强制要求,增强了算法的适用范围;同时,发明在完成数据融合的目标外可对检测器错误数据进行提示,辅助管理人员展开后续设备维护工作。
因此,综上所述,本发明提供的基于多种公路检测器数据的数据融合方法因其较广的适应性可在多种场景下完成数据融合任务,还能发掘各检测器的测量错误,从而为管理人员维护工作开展指导,其可行性与适用性可胜任我国公路数据融合初级阶段的任务要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的基于多种公路检测器数据的数据融合方法的简明流程图;
图2为本发明提供的基于多种公路检测器数据的数据融合方法的操作流程图;
图3为本发明提供的待融合站点与国家级交调站点的地理关系图;
图4为本发明提供的待融合站点提炼的再分类数据集字段相关性表格;
图5为本发明提供的再分类数据集降维碎石图;
图6为本发明提供的OPTICS算法指示的再分类数据集中每条数据的可达距离图;
图7为本发明提供的再分类数据集分类效果图;
图8为本发明提供的将待融合站点数据集核心字段融合至交调站后的融合结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1和附图2,本发明实施例公开了一种基于多种公路检测器数据的数据融合方法,包括:
数据采集:采集交调站数据集和待融合站点数据集;
具体包括:根据检测器类别提取不同有效字段及对应的原始数据集:从国家级公路交通情况调查站提取记录周期、站点信息、行驶方向、车辆流量作为交调站数据集;按需从国家级(省级)高速公路收费站、公路桥梁检测器及治超检测器(高速预检称重器或超限检测器)提取记录时间、站点信息、车辆外在信息、车辆载重信息、车辆附加信息作为待融合站点数据集。
由于国家级交调站自有***且能够描述道路途径车辆的数量及速度,国家级交调站是多种公路检测器数据融合的核心,一来可发挥国家已有***的作用并提高信息集成性,二来可将国家级或省设收费站、桥梁检测器及治超站数据在空间临近的情况下附加至国家级交调站以提高数据利用效率。按照当前公路交调站建设情况,交调站数据集需包含的核心字段如下表所示:
表1交调站数据集包含的核心字段
在现行公路数据检测器建设背景下,待融合站点多为国家级(省级)高速公路收费站、公路桥梁检测器及治超检测器,其中治超检测器又可分为移动检测的高速预检称重器和静止检测的超限检测器,二者除测量准确度外存在较为一致的检测字段。由于不同检测站点获得的数据不同且数据时间粒度不同,按照当前公路检测站点配套情况并受益于通用检测要求的数据保障,待融合站点数据集按照检测器不同所需包含的核心字段不同,典型待融合站点的核心字段如下表所示:
表2待融合站点数据集包含的核心字段
其中,治超数据可以是某一地点治超站检测数据与治超站预检数据合并集,但需要依据车牌号码进行筛重处理,车牌号码重复时以治超站检测数据为主。
数据拓展:对车辆特征信息不明显的待融合站点数据集进行特征拓展;
对于车辆特征信息不明显的待融合站点数据集,通过二次计算补充车辆特征描述指标,计算指标主要为“车辆首轴轴重占车货总重百分比”、“车辆末轴轴重占车货总重百分比”、“车辆首轴轴重与某轴轴重比”,并为待融合站点数据集中的每条数据加上以上三个特征值。
车辆特征信息不明显主要有以下特征:对于桥梁检测器数据表现出总轴距准确但各轴轴距错误明显;对于桥梁检测器数据,因受桥梁限速导致速度字段不能成为明显区分车型字段;对于桥梁检测器数据仅能使用车货总重、轴重、总轴距,对于治超数据仅能使用车货总重、轴重和治超标重。
所述的三个特征值计算方法如下:
车辆首轴轴重占车货总重百分比=N轴车的第1轴轴重/车货总重;
车辆末轴轴重占车货总重百分比=N轴车的第N轴轴重/车货总重;
车辆首轴轴重与某轴轴重比=N轴车的第1轴轴重/N轴车的第N轴轴重。
数据清洗:对交调站数据集和待融合站点数据集进行数据清洗;
剔除或恢复车辆测量轴数和车辆测量轴重个数不等的数据;剔除或恢复车辆测量轴数与车辆测量轴距个数不对应的数据;剔除或恢复车辆测量车货总重与车辆测量轴重加和不等的数据。
构建再分类数据集和预处理:对于不同检测站点组成的待融合站点数据集,从中提取不同的关键字段和对应的数据组成再分类数据集,对再分类数据集进行归一化和多重共线性检验与降维处理,并进行数据标准化处理;消除字段量纲影响,剔除冗余信息的同时降低算法难度并提高算法速度,大幅增强结果可读性。
再分类数据集对于不同待融合站点数据集而言构成不同,具体构成如下表所示。其中“车辆首轴轴重占车货总重百分比”简称为“首轴重比”、“车辆末轴轴重占车货总重百分比”简称为“末轴重比”、“车辆首轴轴重与某轴轴重比”简称为“首末轴重比”:
表3不同待融合站点数据再分类数据集的关键字段
其中,采用主成分分析法进行降维处理,并且提取主成分个数标准为方差贡献率至少超过90%,所得的降维数据集为后续算法输入集。
车辆类别再分类和效果评价:对经过数据标准化处理的再分类数据集,根据OPTICS方法计算每条数据的可达距离,并根据可达距离分布图选择参数,基于选定的参数进行再分类,完成车辆再分类,得到再分类结果;对再分类结果进行评估,根据评估结果决定是否进行后续的融合;
所述OPTICS算法为对输入参数不敏感的基于DBSCAN的改进算法,具体包括:
S1:根据待融合站点类别确定参数的经验范围,给定OPTICS算法初始参数:搜索半径∈和类别最小车辆数M;
S2:计算待融合站点数据集中每个车辆在给定搜索半径∈和类别最小车辆数M下的可达距离,并按照搜索顺序绘制可达距离分布图;
S3:根据可达距离分布图,判断最佳再分类类别个数,选择新的搜索半径∈′;
S4:根据搜索半径∈′和类别最小车辆数M,对再分类数据集进行划分并对划分结果进行评估,效果较好则接受此划分结果,算法停止;否则返回S1并在选参经验范围内修正搜索半径∈和类别最小车辆数Μ,重复S1到S4步骤,直到划分效果较好或无法有效划分停止循环,得到再分类结果。
再分类结果评估步骤主要根据类别中及类别间的车辆轴数与车货总重关系是否符合逻辑确定,即不同类别间轴数与重量应顺序排列;即不同类别间轴数与车货总重应顺序升序排列、同一类别内轴数与车货总重应较为一致;特别的,若待融合站点数据集来自收费数据,则再分类结果评估可分析再分类类别与原始车辆类别间的对应关系,即再分类某类别所含车辆的原始车辆类别字段应集中且连续,不应掺杂过多差异较大的原始车辆类别字段。
融合效果评价:根据待融合站点再分类结果,以及交调站数据集与待融合站点数据集之间的关联字段,使用相关性检测完成融合效果评价,并结合道路特征和所在地用地属性进行解释;
融合效果评价的过程依据待融合站点数据集中是否拥有原始分类字段而不同:
若待融合数据集中含有原始分类字段,则按照再分类结果,在参考待融合站点数据集原始分类字段的基础上,依据再分类类别和交调站车辆类别间的逻辑关系进行配对,并使用流量相关性进行检验;
若待融合数据集中没有原始分类字段,则按照再分类类别与交调站车辆类别字段间的逻辑关系进行配对,并使用流量相关性进行检验;同时,结合待融合站点和交调站之间的道路地理特点、周边用地属性特点及获得的出行特点,综合评价其数据融合效果。
其中,关联字段在当前公路检测器建设背景下为车辆流量。具体而言,交调站数据集已经按照上文所述的9个车辆类别统计给定时间粒度下的车辆流量;待融合站点数据集可在给定时间粒度的前提下,通过计算时间段内的数据个数得到车辆流量。由于待融合站点和交调站通常处在地理位置接近但不为同一断面的位置,故在当前检测器可获得的检测字段下,车辆流量是唯一可作为关联字段的字段,但不排除未来检测技术发展后出现新的关联字段。
交调站数据补充:根据待融合站点数据集的车辆特征,例如:如轴载,在选定数据融合时间的粒度后,完成交调站数据补充工作。
待融合站点数据集的车辆特征对于不同待融合站点而言不同,其能融合至国家级公路交通情况调查站的信息也会不同,具体如下表所示。
数据融合时间粒度要依据待融合站点数据集数据时间粒度决定最小粒度,并在最小粒度的倍数下进行数据融合,以确保融合准确性。
表4待融合站点数据集的车辆特征对于不同待融合站点可融合信息
下面结合具体实例来进一步说明本发明提供的基于多种公路检测器数据的数据融合方法。
在本实施例中,以待融合站点数据为收费数据为例,开展与国家级公路交通情况调查站的数据融合示例。同时,为了方便本发明的参数理解及算法体现,对各个步骤中的具体基础数据进行具体说明。
待融合站点数据示例为204国道东台收费站在2017年12月21日的全天数据,包括,每条数据对应一辆车辆的收费数据。通用的收费数据集的数据结构请参见表5。
表5通用的收费数据集数据结构
国家级公路交通情况调查站示例为盐城G204安时公路交调站在2017年12月21日的全天数据,记录间隔为小时,包括。通用的国家级交调站数据集的数据结构请参见表6,其与收费站的地理关系如图3所示。
表6通用的国家级交调站数据集数据结构
数据融合过程主要包括以下几步:
1、采集交调站数据集和待融合站点数据集。
采集交调站数据集是从国家级公路交通情况调查站标准数据集中提取核心数据集作为交调站数据集。由于发明涉及数据融合核心为国家级交调站,故其采集字段较为统一,实践中都可提取以下字段作为交调站数据集:观测日期、小时、观测站编号、观测站名称、行驶方向、中小客流量、大客车流量、小货车流量、中货车流量、大货车流量、特大货流量、集装箱流量。由于摩托车和拖拉机受公路管理因素影响较大且情况复杂,同时流量一般仅占万分之一,故在此不提取入交调站数据集。
待融合站点数据集是依据待融合站点类别,从原始数据集中提取核心数据并作为待融合站点数据集的过程。由于发明展示例为收费站数据,故在此以收费数据为例。实践中可能出现收费数据字段与展示数据集的些许出入,但依据国家管理规定,其至少也应该包括组成收费数据集的基本字段:通行时间、收费站编号、车道号、车辆类型、轴数、实际总重、收费标重、通行时间、应缴金额。由于在实践中,收费站的收费标重和治超标重保持一致,在此为体现收费站特色选择收费标重字段,实践中也可选择治超标重字段,二者选其一即可。
2、数据拓展及对数据进行清洗
由于示例融合过程为交调站数据与收费数据融合,收费数据中存在“轴数、实际总重、收费标重、通行时间、应缴金额”共5种描述车辆特性的字段,故在此无需进行数据拓展。同时,由于收费数据为静止采集,且国家收费***运行已久,故不进行数据清洗工作。
本发明所述的数据拓展及数据清洗主要是对于桥梁检测器数据和治超数据而言,其中治超数据又包含治超预检数据和治超精确检测、治超检测数据。以桥梁检测器数据为例,发明使用的数据集多为桥梁荷载导出数据,其主要包含的字段如表7所示,其中能够进行数据清洗并且有效描述车辆特性、不发生多重共线性影响的原有字段组仅为“轴数”和“总重”(其中由于我国要求公路桥梁段限速,导致速度字段不能描述车辆特征),故此时需进行数据拓展工作,计算“总轴距”、“车辆首轴轴重占车货总重百分比”、“车辆末轴轴重占车货总重百分比”、“车辆首轴轴重与某轴轴重比”四大描述车辆特征的字段,其计算方式如前文所述。
表7典型的桥梁检测器数据集数据结构
同时,对于桥梁检测器数据与部分治超数据而言,其检测方式为瞬时检测,其中轴重、轴距及车货总重测量容易受路面质量、车辆运行状态、天气原因等多方面影响从而导致测量失误,同时其修复难度也较大,故需要开展数据清洗工作。除此之外,治超站数据由于车辆超载倾向较大,具体轴重测量时可能受车辆上称状态、检测设备运行状态、天气原因等多因素影响,从而也需开展数据清洗工作。数据清洗工作的原则如前文所述。
3、构建再分类数据集并进行数据预处理
构建再分类数据集是在经过前两步骤处理后,将后续再分类算法使用的字段结合成数据集的过程。由于示例数据融合涉及的是收费数据,故选取“轴数、实际总重、收费标重、通行时间、应缴金额”作为再分类数据集。
数据预处理主要分为两小步,其中第一步的目的是剔除冗余字段,第二步的目的是降低数据维度,两步骤一起降低了算法难度并提高了算法速度,大幅增强结果可读性。
在第一步中,主要需围绕再分类数据集的相关性和多重共线性展开分析。由于本示例中收费数据量很大,且收费数据本身具有很好的代表性,故在遵循上述再分类数据集构建规则下,本步结果可应用到全国所有收费站:再分类数据集中三个字段间表现出超过0.8的较高相关性如图4所示,提示需进行降维工作;再分类数据集中不存在共线性关系。
在第二步中,首先需围绕降维所需的主成分个数展开建模,其具体结果如图5所示,提示保留2个主成分;然后需要根据算法给出的主成分组成系数表开展降维工作,后进行数据标准化工作消除量纲影响。最终得到的降维数据集称为再分类数据集。
5、待融合站点车辆类别再分类及其效果评价
构建再分类数据集是在多个该类站点按照本发明进行多次融合试验下总结出的模型参数范围下,通过OPTICS算法揭示的每条数据可达距离分布图及其具体值的指示,确定最优参数后进行的再分类过程。
在上文流程的指导下,可在实验参数的基础下得到OPTICS算法揭示的每条数据可达距离分布图如图6所示,此时可科学优化参数,并得到数据集的再分类如图7所示。
再分类效果评价是在得到再分类结果后,利用待融合站点数据自由的特征字段,依据递进逻辑、混淆矩阵(若待融合站点数据存在类别字段)判断再分类效果的过程。
由于示例数据融合为收费数据与交调站数据的融合过程,且收费数据中存在“车辆类型”字段,这一字段与交调站的分类方法不同,但其可为再分类效果评价进行指导;同时,收费数据也具有和桥梁检测器数据与治超数据相同的轴数及车货总重字段,故也可使用类别间在该字段组上的递进逻辑进行检测。在此为体现收费数据的特殊性,以前者评价方法进行评价,其结果如表8,其中簇1、簇2、簇3的名字是在人为给定且需进行后续步骤验证融合效果,准确度是收费数据分类字段和再分类结果间的混淆度。
表8收费站再分类混淆矩阵统计表(单位:辆)
6、利用交调站与待融合站点关联字段进行融合效果评价
进行融合效果评价的关键是寻找交调站与待融合站点的关联字段,在现有公路检测器数据背景下,这一关联字段更多集中在流量上,且交调站拥有自己的车辆分类方法及其各类车流量统计、待融合站点通过第五步车辆类别再分类的步骤也拥有了数据驱动下的车辆分类结果,故可利用流量相关性来推测两站点间的类别对应关系。
在第五步再分类的混淆矩阵指示下,可按照逻辑得出收费数据再分类和交调站分类之间的对应关系表9所示。
表9收费站与交调站最优分类对应关系表
这一过程在桥梁检测器和治超站上也是可以实施的,在发明实际应用中,第五步可有效将相同轴数、不同类型的车辆进行区分并再分类,即使缺少原始数据集中的分类字段,仍可进行融合效果评价。
在依据逻辑及第五步的再分类及其评价过程,确定待分类站点再分类类别与交调站车辆类别的对应关系表后,可利用流量这一关联字段的相关性判断其融合效果。需要注意的是,由于融合站点间都会存在地理位置上的差异,故引入道路特征与用地属性分析至关重要,这一过程可邀请交通行业专家参与进行数据融合质量评估。
表10收费站与交调站最优分类对应关系可靠性表(单位:辆)
比较项目 | 交调站 | 收费站 | 比例 | 差异率 |
总流量 | 6354 | 4112 | 154.5% | - |
客车流量 | 2188 | 1388 | 157.6% | - |
货车流量 | 4166 | 2724 | 152.9% | - |
簇1对应关系 | 2188 | 1388 | 157.6% | +2.0% |
簇2对应关系 | 2218 | 1279 | 173.4% | +12.3% |
簇3对应关系 | 1923 | 1447 | 132.9% | -16.3% |
从表10并结合待融合站点间的地理特点可以看出,交调站与收费站之间存在省道引流,同时周围镇中存在工厂等用地属性影响,但在这些影响下,待融合站点再分类类别与交调站类别之间如表9的对应关系在相关性上仍与总流量的相关性比较相似,且误差都保持在了15%左右,故融合效果较为合理。
7、使用待融合站点车辆特征完成交调站数据补充工作
在融合效果较为合理下,可将待融合站点的关键字段补充至国家级交调站数据集中。需要注意的是,在完成数据补充工作之前,需确定数据补充的最小时间粒度。由于示例中使用的是收费数据且当前国内收费数据最小时间粒度都是以天为单位,交调站车辆流量等信息统计时间可以为5分钟、1小时、1天等时间粒度,故收费数据与交调数据的最小粒度需以收费数据为本即天为单位,且在融合站点间检测数据支持的情况下,最终数据融合时间粒度可为自然天的任意倍。在示例中,以一天的数据为例,进行交调站数据补充工作展示。
通过将收费数据与交调数据的有机融合,可在丰富交调站数据的同时发挥国家级交调站***统一化优势,在丰富交调***内容的同时兼顾其余检测器数据积累,真正实现了公路数据的典型化与全面化并重发展,其融合结果示例图如图8所示,融合结果表如表11所示,其中图8再次生动的表明了发明的准确性和可靠性。
表11基于收费站数据的交调站点数据补充结果(周期:日)
需要注意的是,当前桥梁检测器收费数据与治超数据这种静态检测数据不同,具有车速这一字段,但其受到公路桥梁段限速导致速度不能很好区分不同车辆类型。所以,在现有条件下,虽然交调站也按照自己的车辆分类统计了不同的车辆速度,但不能成为与待融合站点的关联字段,这一劣势可能会在日后更高级的检测设备及其检测数据出现后得到改变,从而让速度成为下一个具有桥梁作用的融合关联字段。
本发明为基于多种公路检测器数据的数据融合方法,其具有适用范围大、操作性强、容错率高及准确度高等特点。
(1)本发明结合现存多种公路检测器数据特点,针对各检测器间车辆分类标准不同、某些检测器缺少车辆分类字段等挑战运用了数据特征驱动的自分类OPTICS算法,在发挥数据驱动理念的同时取得了稳定的算法表现,打破了检测器间测量逻辑不同、分类逻辑不同的壁垒,提高了本发明技术方案的可行性与适用性;
(2)本发明提出了两阶段融合方法,保障待融合站点与交调站数据独立处理的同时搭建起流量相关性的验证桥梁,并采用待融合站点再分类消除检测器间分类壁垒,提高流量相关性分析针对性的同时增强发明可操作性;
(3)本发明对待融合检测器数据质量适应性较好,且对是否含有车辆分类字段没有强制要求,增强了算法的适用范围;同时,发明在完成数据融合的目标外可对检测器错误数据进行提示,辅助管理人员展开后续设备维护工作。
本发明提出的两阶段式再分类对应法考虑了多种公路检测器的实际数据特点,针对各检测器间车辆分类标准不同、某些检测器缺少车辆分类字段等挑战,发挥数据驱动,取得了稳定的算法表现,打破了检测器间测量逻辑不同、分类逻辑不同的壁垒,提高了本发明技术方案的可行性与适用性;同时,围绕不同检测器数据特点设计的流量相关性的验证桥梁也为验证融合效果提供了指导;最后,发明就适用性进行优化,对是否含有车辆分类字段没有强制要求,且能够辅助从业人员在完成数据融合的目标外筛查错误检测数据,帮助行业开展后续设备维护工作。该发明提供的基于多种公路检测器数据的数据融合方法因其较广的适应性可在多种场景下完成数据融合任务,还能发掘各检测器的测量错误从而为管理人员维护工作开展指导,其可行性与适用性可胜任我国公路数据融合初级阶段的任务要求。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种基于多种公路检测器数据的数据融合方法,其特征在于,包括:
数据采集:采集交调站数据集和待融合站点数据集;
数据拓展:对车辆特征信息不明显的待融合站点数据集进行特征拓展;
数据清洗:对交调站数据集和待融合站点数据集进行数据清洗;
构建再分类数据集和预处理:对于不同检测站点组成的待融合站点数据集,从中提取不同的关键字段和对应的数据组成再分类数据集,对再分类数据集进行归一化和多重共线性检验与降维处理,并进行数据标准化处理;在构建再分类数据集和预处理步骤中,采用主成分分析法进行降维,提取的主成分个数标准为方差贡献率至少超过90%;
车辆类别再分类和效果评价:对经过数据标准化处理的再分类数据集,根据OPTICS方法计算每条数据的可达距离,得到可达距离分布图,并根据可达距离分布图选择参数,基于选定的参数进行再分类,并得到再分类结果;对再分类结果进行评估,根据评估结果决定是否进行后续的融合;
所述根据OPTICS方法计算每条数据的可达距离,并根据可达距离分布图选择参数,基于选定的参数进行再分类,并得到再分类结果具体包括:
S1:根据待融合站点类别确定参数的经验范围,给定OPTICS算法初始参数:搜索半径∈和类别最小车辆数M;
S2:计算待融合站点数据集中每个车辆在给定搜索半径∈和类别最小车辆数M下的可达距离,并按照搜索顺序绘制可达距离分布图;
S3:根据可达距离分布图,判断最佳再分类类别个数,选择新的搜索半径∈′;
S4:根据搜索半径∈′和类别最小车辆数M,对再分类数据集进行划分并对划分结果进行评估,效果较好则接受此划分结果,算法停止;否则返回S1并在选参经验范围内修正搜索半径∈和类别最小车辆数M,重复S1到S4步骤,直到划分效果较好或无法有效划分停止循环,得到再分类结果;
融合效果评价:根据待融合站点再分类结果,以及交调站数据集与待融合站点数据集之间的关联字段,使用相关性检测完成融合效果评价,并结合道路特征和所在地用地属性进行解释;
交调站数据补充:根据待融合站点数据集的车辆特征,在选定数据融合时间的粒度后,完成交调站数据补充工作。
2.根据权利要求1所述的一种基于多种公路检测器数据的数据融合方法,其特征在于,所述车辆特征信息不明显具体包括:
对于取自公路桥梁检测器的待融合站点数据集,表现出总轴距准确但各轴轴距错误明显;对于取自公路桥梁检测器数据的待融合站点数据集,因受桥梁限速导致速度字段不能成为明显区分车辆特征的字段;对于取自公路桥梁检测器数据的待融合站点数据集,仅存在车货总重、轴重、总轴距描述车辆特征;对于取自治超数据的待融合站点数据集,仅存在车货总重、轴重和治超标重字段描述车辆特征。
3.根据权利要求1所述的一种基于多种公路检测器数据的数据融合方法,其特征在于,数据拓展步骤具体包括:
对于车辆特征信息不明显的待融合站点数据集,通过二次计算补充车辆特征描述指标,计算指标包括:车辆首轴轴重占车货总重百分比、车辆末轴轴重占车货总重百分比、车辆首轴轴重与某轴轴重比,并为待融合站点数据集中的每条数据加上上述三个特征值;
其中,车辆首轴轴重占车货总重百分比=N轴车的第1轴轴重/车货总重;
车辆末轴轴重占车货总重百分比=N轴车的第N轴轴重/车货总重;
车辆首轴轴重与某轴轴重比=N轴车的第1轴轴重/N轴车的第N轴轴重。
4.根据权利要求1所述的一种基于多种公路检测器数据的数据融合方法,其特征在于,在数据清洗步骤中,数据清洗针对如下错误:车辆测量轴数和车辆测量轴重个数不等、车辆测量轴数与车辆测量轴距个数不对应和车辆测量车货总重与车辆测量轴重加和不等。
5.根据权利要求1所述的一种基于多种公路检测器数据的数据融合方法,其特征在于,对再分类结果进行评估的具体步骤包括:根据再分类类别内及类别间的车辆轴数与车货总重是否符合逻辑来进行评估。
6.根据权利要求1所述的一种基于多种公路检测器数据的数据融合方法,其特征在于,在融合效果评价步骤中,在当前公路检测器建设背景下,关联字段包括:车辆流量。
7.根据权利要求1所述的一种基于多种公路检测器数据的数据融合方法,其特征在于,所述的融合效果评价的过程依据待融合站点数据集中是否拥有原始分类字段而不同:
若待融合数据集中含有原始分类字段,则按照再分类结果,在参考待融合站点数据集原始分类字段的基础上,依据再分类类别和交调站车辆类别间的逻辑关系进行配对,并使用流量相关性进行检验;
若待融合数据集中没有原始分类字段,则按照再分类类别与交调站车辆类别字段间的逻辑关系进行配对,并使用流量相关性进行检验;同时,结合待融合站点和交调站之间的道路地理特点、周边用地属性特点及获得的出行特点,综合评价其数据融合效果。
8.根据权利要求1所述的一种基于多种公路检测器数据的数据融合方法,其特征在于,在交调站数据补充步骤中,融合时间的粒度根据待融合站点数据集数据时间粒度决定最小粒度,并在最小粒度的倍数下进行数据融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626614.3A CN110399364B (zh) | 2019-07-11 | 2019-07-11 | 一种基于多种公路检测器数据的数据融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626614.3A CN110399364B (zh) | 2019-07-11 | 2019-07-11 | 一种基于多种公路检测器数据的数据融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110399364A CN110399364A (zh) | 2019-11-01 |
CN110399364B true CN110399364B (zh) | 2022-06-03 |
Family
ID=68325343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910626614.3A Active CN110399364B (zh) | 2019-07-11 | 2019-07-11 | 一种基于多种公路检测器数据的数据融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399364B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340415B (zh) * | 2020-02-14 | 2024-01-09 | 北京航空航天大学 | 一种基于货运轨迹数据的车辆自发编队模式挖掘方法 |
CN112164223B (zh) * | 2020-02-27 | 2022-04-29 | 浙江恒隆智慧科技集团有限公司 | 基于云平台的智能交通信息处理方法及装置 |
CN112269850B (zh) * | 2020-11-10 | 2024-05-03 | 中煤航测遥感集团有限公司 | 地理数据处理方法、装置、电子设备及存储介质 |
CN116597404B (zh) * | 2023-05-06 | 2024-04-09 | 浙江大学 | 基于多源传感器融合的可持续道路异常检测方法与*** |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104658252B (zh) * | 2015-02-10 | 2017-05-17 | 交通运输部科学研究院 | 基于多源数据融合的高速公路交通运行状态的评估方法 |
CN108010316A (zh) * | 2017-11-15 | 2018-05-08 | 上海电科智能***股份有限公司 | 一种基于路网模型的道路交通多源数据融合处理方法 |
CN108492557A (zh) * | 2018-03-23 | 2018-09-04 | 四川高路交通信息工程有限公司 | 基于多模型融合的高速公路拥堵等级判断方法 |
CN109118789B (zh) * | 2018-08-24 | 2020-11-06 | 交通运输部规划研究院 | 公路交调站多源数据融合方法及装置 |
CN109658150A (zh) * | 2018-12-19 | 2019-04-19 | 中化资本有限公司 | 产品价格的预测方法、装置、计算机设备及存储介质 |
-
2019
- 2019-07-11 CN CN201910626614.3A patent/CN110399364B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110399364A (zh) | 2019-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399364B (zh) | 一种基于多种公路检测器数据的数据融合方法 | |
CN111833604B (zh) | 基于驾驶行为特征提取的车辆载重状态识别方法及装置 | |
CN110807919A (zh) | 基于过车数据的城市路网交通运行态势评价方法 | |
CN110413855B (zh) | 一种基于出租车下客点的区域出入口动态提取方法 | |
CN115691120A (zh) | 一种基于高速公路流水数据的拥堵识别方法及*** | |
Cui et al. | Identifying accident black spots based on the accident spacing distribution | |
CN107273605A (zh) | 基于多重分类器***的实测轴载谱确定方法 | |
CN114912689A (zh) | 基于地图网格索引和xgboost的超限车辆目的地预测方法及*** | |
CN113095387B (zh) | 基于联网车载adas的道路风险识别方法 | |
CN112767686B (zh) | 一种基于多源数据融合的公路网汽车排放估算方法 | |
CN112508336B (zh) | 一种基于结构方程模型的空间与环境效能关联测度方法 | |
Adey et al. | Estimating, and setting targets for, the resilience of transport infrastructure | |
CN116702000B (zh) | 一种基于多层数据融合的路面质量动态监测与评估方法 | |
CN116502960A (zh) | 一种车站区域tod发展潜力评估方法、***和电子设备 | |
CN103700264B (zh) | 基于etc收费数据的高速公路路段行程速度计算方法 | |
CN114416686B (zh) | 一种车辆设备指纹carid识别***及识别方法 | |
CN109146241A (zh) | 一种数据驱动的城市公交线路健康诊断方法 | |
CN112729863B (zh) | 一种车辆实测道路选择方法 | |
Deneke et al. | Transportation mode choice behavior with multinomial logit model: work and school trips | |
Wang et al. | Macroscopic Relationship between Traffic Condition and Fuel Consumption for an Urban Road Network: Case Study of Beijing | |
CN110956808A (zh) | 一种基于非全样定位数据的重型货车交通流量预测方法 | |
Jin et al. | Research and application of load spectrum technology of reliability running test method for vehicle | |
CN117994225B (zh) | 一种多元路面定期检测数据处理方法及处理*** | |
Peng et al. | Development of an Urban Traffic Safety Evaluation System Based on the Matter Element Method | |
Du | Risk assessment method of driving safety in civil construction site based on AHP. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |