CN115936242B - 空气质量与交通状况的溯源关系数据获取方法及装置 - Google Patents

空气质量与交通状况的溯源关系数据获取方法及装置 Download PDF

Info

Publication number
CN115936242B
CN115936242B CN202211675618.9A CN202211675618A CN115936242B CN 115936242 B CN115936242 B CN 115936242B CN 202211675618 A CN202211675618 A CN 202211675618A CN 115936242 B CN115936242 B CN 115936242B
Authority
CN
China
Prior art keywords
data
air quality
model
prediction
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211675618.9A
Other languages
English (en)
Other versions
CN115936242A (zh
Inventor
谭云舸
安刚
卓流艺
孙明生
秦东明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3Clear Technology Co Ltd
Original Assignee
3Clear Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3Clear Technology Co Ltd filed Critical 3Clear Technology Co Ltd
Priority to CN202211675618.9A priority Critical patent/CN115936242B/zh
Publication of CN115936242A publication Critical patent/CN115936242A/zh
Application granted granted Critical
Publication of CN115936242B publication Critical patent/CN115936242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种空气质量与交通状况的溯源关系数据获取方法及装置。本申请实施例提供的空气质量与交通状况的溯源关系数据获取方法,利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量短时预测数据,根据目标区域的交通数据生成区域特征聚类结果,对空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果,利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据。本申请实施例提供的空气质量与交通状况的溯源关系数据获取方法,获得的空气质量和交通状况的溯源关系数据,准确度较高,能够为工作人员提供可靠数据参考,有效辅助工作人员确定空气质量和交通状况之间的溯源关系。

Description

空气质量与交通状况的溯源关系数据获取方法及装置
技术领域
本申请涉及空气质量监测技术领域,具体涉及一种空气质量与交通状况的溯源关系数据获取方法及装置。
背景技术
相关技术中的空气质量预报和溯源模型主要可分为物理模型和统计模型两大类,用于对空气质量预测结果进行溯源,获取空气质量与造成污染的因素之间的溯源关系数据,从而供工作人员参考,以确定造成空气污染的源头。通过相关技术中的空气质量预报和溯源模型所获得的空气质量与交通状况的溯源关系的数据准确度不够高,无法为工作人员提供可靠数据参考,该技术问题亟待解决。
发明内容
本申请的目的是提供一种空气质量与交通状况的溯源关系数据获取方法及装置,以解决相关技术存在的所获得的空气质量与交通状况的溯源关系的数据准确度不够高、无法为工作人员提供可靠数据参考的技术问题。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种空气质量与交通状况的溯源关系数据获取方法,包括:
利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量短时预测数据;
根据所述目标区域的交通数据生成区域特征聚类结果;
对所述空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果;
利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据。
在本申请的一些实施例中,所述利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量预测数据,包括:
利用数据集构建工具从时间步长、时间粒度和数据维度三个维度生成所述空气质量监测数据的数据集;
将所述空气质量监测数据的数据集输入所述预设的短时时序预测模型,得到空气质量短时预测数据。
在本申请的一些实施例中,所述预设的短时时序预测模型的构建方法,包括:
利用时序模型和深度学习模型构建基本模型;
利用决策树和线性回归对所述空气质量监测数据的数据集进行权重排序;
根据先验信息设置筛选规则和参数范围;
利用所述筛选规则和参数范围以及模型池进行模型融合,得到短时时序预测模型。
在本申请的一些实施例中,所述模型池包括单变量时序预测模型、多变量时序预测模型、周期时序预测模型和非时序预测中的至少一种。
在本申请的一些实施例中,所述根据所述目标区域的交通数据生成区域特征聚类结果,包括:
采集所述目标区域的交通数据;
计算所述交通数据的路网点距离;
围绕站点根据所述路网点距离筛选路网点;
针对所述路网点构建区域聚类,得到区域特征聚类结果。
在本申请的一些实施例中,所述预设的第一解释器包括依次连接的LIME模型和SHAP模型;
所述利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据,包括:
将所述拟合结果输入所述预设的第一解释器进行解释,得到与所述空气质量和所述交通状况相对应的影响因子和置信度输出。
在本申请的一些实施例中,所述方法还包括:
将所述空气质量短时预测数据输入预设的第二解释器进行处理,获得对应于所述空气质量短时预测数据的影响因子和置信度输出。
根据本申请实施例的另一个方面,提供一种空气质量与交通状况的溯源关系数据获取装置,包括:
空气质量监测数据处理模块,用于利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量短时预测数据;
区域特征聚类结果生成模块,用于根据所述目标区域的交通数据生成区域特征聚类结果;
拟合模块,用于对所述空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果;
溯源关系数据获取模块,用于利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据。
根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述任一项所述的空气质量与交通状况的溯源关系数据获取方法。
根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述任一项所述的空气质量与交通状况的溯源关系数据获取方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的空气质量与交通状况的溯源关系数据获取方法,利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量短时预测数据,根据目标区域的交通数据生成区域特征聚类结果,对空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果,利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据,该溯源关系数据的准确度较高,能够为工作人员提供可靠数据参考,有效辅助工作人员确定空气质量和交通状况之间的溯源关系。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请的一个实施例的空气质量与交通状况的溯源关系数据获取方法流程图。
图2示出了本申请一个具体示例的空气质量与交通状况的溯源关系数据获取方法流程图。
图3示出了一个具体示例中空气质量和交通状况的溯源关系数据的界面图。
图4示出了一个具体示例中窗口尺寸和预测步长的误差关系图。
图5示出了本申请一个具体示例中的解释步骤的示意图。
图6示出了本申请的一个实施例的空气质量与交通状况的溯源关系数据获取装置结构框图。
图7示出了本申请一个实施例的电子设备结构框图。
图8示出了本申请一个实施例的计算机可读存储介质示意图。
本申请的目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
在相关技术的技术方案中,空气质量预报和溯源模型主要可分为物理模型和统计模型。空气质量预报和溯源模型中的大型空气预测模型例如NAQPMS、CMAQ等,对数据源种类和质量以及处理设备要求高,灵活性差,无法根据小范围地区局部特征进行调整。小型数值模拟模型例如高斯扩散模型等,多采用理想环境假设,仅纳入数量较少的变量,在实际使用中面对复杂情况误差较大。统计模型中各类模型的重点为拟合数据在时空尺度上变化的模式规律,但由于空气质量的影响因素极多,从时序角度来说空气质量数据不具有稳定性,此类模型可以在空气质量平稳状态下得到精度尚可的预测结果,但在短时突变和长时段预测的场景下表现不佳,所获得的空气质量与交通状况的溯源关系的数据准确度不够高。
本申请实施例提供的空气质量与交通状况的溯源关系数据获取方法,利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量短时预测数据,根据目标区域的交通数据生成区域特征聚类结果,对空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果,利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据,该溯源关系数据的准确度较高,能够为工作人员提供可靠数据参考,有效辅助工作人员确定空气质量和交通状况之间的溯源关系,解决了相关技术中存在的所获得的空气质量与交通状况的溯源关系的数据准确度不够高、无法为工作人员提供可靠数据参考的技术问题。
参考图1所示,本申请的一个实施例提供了一种空气质量与交通状况的溯源关系数据获取方法,包括步骤S10至S40:
S10、利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量短时预测数据。
参考图2所示,在一个具体示例中,利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量预测数据,包括:利用数据集构建工具从时间步长、时间粒度和数据维度三个维度生成所述空气质量监测数据的数据集;将所述空气质量监测数据的数据集输入所述预设的短时时序预测模型,得到空气质量短时预测数据。
沿用图2所示的示例,预设的短时时序预测模型的构建方法,包括:利用时序模型和深度学习模型构建基本模型;利用决策树和线性回归对所述空气质量监测数据的数据集进行权重排序;根据先验信息设置筛选规则和参数范围;利用所述筛选规则和参数范围以及模型池进行模型融合,得到短时时序预测模型。
在一种实施方式中,模型池包括单变量时序预测模型、多变量时序预测模型、周期时序预测模型和非时序预测中的至少一种。利用筛选规则和参数范围与模型池中的模型进行模型融合,即得到短时时序预测模型。
目标区域的空气质量监测数据可以通过空气质量数据采集模块接入各地大气监测站点数据进行采集,空气质量监测数据包括AQI等空气质量数据和温湿度等气象数据,采样频率为每小时一次。
在一个具体示例中,数据集构建工具可以从时间步长、时间粒度、数据维度三个维度进行数据集生成,并匹配模型需要得输入格式。
基本模型库,可以包括时序模型、机器学习模型和深度学习模型。时序模型包括ARIMA等基于数据自相关的传统时序模型,机器学习模型包括广义线性模型、树型和集成型等统计机器学习模型。深度学习模型包括RNN、LSTM等深度学习神经网络模型。模型属性中内置数据匹配规则,根据先验知识确定各超参数的取值范围,采用网格搜索进行训练。
例如,时序模型主要为基于各类基于序列自相关性的线性模型。以自回归滑动平均模型ARMA为例,原理为使用历史数据和误差的线性组合估计未来数据,其数学表达式如下,其中c为偏置系数,∈t为t时刻的随机误差,p为自回归阶数,q表示滑动平均阶数,xt表示t时刻的输入,和φi为计算得到的回归系数:
深度学习模型以RNN为例,RNN多个运算层和非线性输入序列组成,每层的输出同时作为下一层的输入参与计算,其中每层的数学表达式如下,ht为t时刻的隐藏状态,xt为t时刻的输入,ht-1为上一层,即t-1时刻的隐藏状态,tanh为非线性激活函数,WihT和bih为当前层xt对应的权重矩阵和偏置量,WhhT和bhh为当前层ht-1对应的权重矩阵和偏置量:
ht=anh(xtWih T+bih+ht-1Whh T+bhh)。
在本示例中,组合匹配模块用于对数据集合模型进行不同维度的组合。组合方式大致包含四类,单变量时序预测,利用目标变量的历史数值预测未来数值;多变量时序预测,在单变量预测基础上引入与目标变量相关的外生变量,包括但不限于污染物数据、交通数据和气象数据等;周期时序预测,用于对目标变量的周期性特征进行检测和模拟;非时序预测,使用除去时间特征的其它特征,例如空间变量等,对目标变量进行预测。
本示例中,获取空气质量,以预测PM2.5为例:单变量时序预测,例如用本周七天的PM2.5数值预测下周的PM2.5数值;多变量时序预测,是考虑PM2.5不仅跟自身的历史数值有关,还可能跟比如PM10,工业生产,季节等其他因素有关,于是用多个因素的序列去预测PM2.5;周期预测是指,PM2.5每周或者每月可能保持一种循环的变动规律,尝试根据这种规律去对未来的PM2.5进行预测;非时序预测也就是传统监督学习,例如用交通数据来预测空气质量,需要找到交通和空气质量的关系,然后先预测交通,再预测空气质量。
变动规律的一个例子例如每天早晚高峰前后可能会出现一个污染峰值,这就是每天的循环;每周中可能周一、周末会出现峰值,这是每周的循环。这段整体是说空气的变化存在多种不同的模式,每种模型适合的模式不同,因此罗列适合各种的模型,只要有一部分能完成匹配即可。
用交通数据来预测空气质量有两种方式,一种是从时间上找规律,就是时间序列,另一种是从其它相关的变量上找规律,就是监督学习,其它变量取决于具体项目所提供的数据。
在一个具体示例中,利用筛选规则和参数范围与模型池中的模型进行模型融合得到短时时序预测模型可以通过模型融合迭代模块来实现。具体地,模型融合迭代模块使用评估模块对模型性能进行计算,其中分为趋势误差计算和数值误差计算两部分,趋势误差采用二分类评价指标ROC-AUC,数值误差采用MSE。模型融合采用投票制,具体方法为选择基模型中指标最优的模型,遍历添加第二个模型,选取最优的组合。符合条件的模型重新加入模型池,重复上述进程直到融合模型的指标提升低于设定阈值,得到的融合模型即短时时序预测模型。
训练基本模型,按照精度最高到低排序,精度高于筛选阈值的模型加入最终的输出模型集,精度低于阈值的模型组合后进行融合训练,输出的结果重复上述步骤,最终得到一个达标的模型集合。另外,即便精度相同的模型波动规律也存在区别,模型集合会划定一个区间范围,以增强整体预测的鲁棒性;另一方面,如果空气质量的趋势脱离了该范围,则说明空气质量有较大可能出现异常。
训练基本模型,利用训练集构造函数,达到的效果是根据模型的输入格式,转换原始数据,而模型本身还是调用现有的模型。融合训练主要利用bagging和voting,结合预置的规则之后便可自行调整参数和迭代。
上述模块均为单线程进行,基模型训练过程统计模型训练的时间成本,在模型融合遍历之前对训练时间进行估算,排除时间开销较大的情况。时间成本考虑两个方面,预测预报的时效性,预测预报的时间密度。
基本模型的运算时间计算,设置三个采样比例,默认为1%、5%和10%,完成三组训练后对数据量和训练时间的关系进行插值,估算全部数据的计算时间;同时设置时间阈值,如1%的数据量运算时间超出阈值,则另外两个采样比例会缩小;模型融合为基本模型的线性组合,时间成本为基本模型的简单和,总时间开销由模型数量和超参数网格搜索的密度共同决定,可通过上述估算得到。
总时间开销可以根据平时测试来获取,可以在机器上运行一个测试,得到基础模型的时间基线,基础模型数据量和维度对时间的影响,可以预置公式,也可以多项式插值估算,这里都很简单。融合后的模型上面提过,由于希望模型融合能自动进行,选择的融合方法主要是线性方法,训练时间是基本模型的简单和,只需要计算融合了多少个模型,再乘上是用了多少组参数即可。
短时时序预测模型的评价指标用来衡量模型的预测结果和真实数据的接近程度,通常采用某种距离度量的均值,其中平均绝对值误差MAE和均方误差MSE为最常用的两种评价指标,其数学表达式如下,其中y表示目标特征真实值,表示模型对目标特征的预测值,nsamples代表样本数量:
S20、根据所述目标区域的交通数据生成区域特征聚类结果。
沿用图2所示的示例,根据所述目标区域的交通数据生成区域特征聚类结果,包括:采集所述目标区域的交通数据;计算所述交通数据的路网点距离;围绕站点根据所述路网点距离筛选路网点;针对所述路网点构建区域聚类,得到区域特征聚类结果。
目标区域的交通数据的采集可以包括:交通流数据采集模块对交通大数据(百度/高德地图实时拥堵系数、多源多频次浮动车GPS数据、地磁断面检测数据、视频卡口识别数据)进行多源数据融合处理,得到某省某市主要交通干道在不同路段、不同时段的不同车型的流量数据,即城市动态交通流量数据,并获取路段的平均速度,采样频率为每小时采样一次。
在一个具体示例中,区域聚类的过程可以包括以下内容:
距离计算可以使用不同的采样点选择方式来实现,例如中点、端点、随机点,不同的距离计算方式,例如直线距离、垂直距离,计算不同条件下路网到兴趣点的距离数值,并进行经纬度数据的矫正。依照距离数值,基于空气站点不同的距离范围进行点筛选。以道路数据估算站点数据,需要注意的是道路是线段的形式,而这些线段不是等长,划分依据也不明确,单纯采用点到直线的垂直距离误差较大,所以距离计算上会采用多种方法来平衡。筛选过程相对简单,距离空气站点较远的道路对站点的影响也更小,例如可以取1km、3km和5km这三个距离来进行计算;本实施例的技术方案中,以3km距离为例,选择道路中点到站点距离小于3km的道路,然后计算端点、垂直距离和随机点,对候选道路进行补充,避免遗漏。
聚类区域生成方式采用的无监督方式,包括层次聚类、密度聚类、谱聚类等多种方法对路网点进行分类并生成决策边界,构建区域排放特征聚类。对同聚类点进行采样,使用包括中心点,随机采样等方法,提取数个具有代表性的区域类别点。这步本质上是数据预处理,经过上一步的距离筛选,围绕一个空气站点依然有上千个对应的道路线段,这种情况没办法进一步计算;聚类在这起到降维的作用,具体步骤上比较特殊的有多个方法对同一区域进行投票决定最终分类,使用物理距离作为约束使得最终区域尽可能为一个凸集。采样方法上,由于第一步中代入了距离因素,在第一步得到的子集上,抛弃距离因素再做一次聚类,以这一步聚类的结果作为最终的采样依据,可以取中心点、重心或随机点。
例如用72小时的数据预测未来1小时的数据,现在空气站点周围假设有5000个交通采样点,数据就是一个72行5000列的表,而一般来说模型需要行数是列数的10倍以上,那5000列显然不满足,需要压缩到比如说10列一下,这是降维的需求。
降维以后得到10个以内的区域,区域内的点都有类似的特征;一般来说无监督的方法都会基于距离,在这个例子中既包含空间距离,也包含交通特征的数值,可以根据实际需要进行组合,所以用多个模型,平摊误差,这是为什么用多模型投票;距离约束主要是说,上面的结果可能会产生不连续的区域,这方面也是用现有的算法,保证区域边界上任意两点的两线都在区域内部。
本实施例中模型拟合的过程包括,根据交通数据的周期特征预测未来时间内采样点的数值,对齐短时预测模块的预测数值,进行有监督学习模型的构建。这一步骤的主要目的是服务于对经过充分训练的模型进行解释,得到一个区域权重作为归因的依据。
S30、对所述空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果。
可以通过拟合模型对所述空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果。拟合模型可以是由广义线性模型、集成树模型和多层感知机模型组合而成的。
广义线性模型用于将预测变量转化为特征的线性组合。以最小二乘线性回归为例,其数学表达式如下,其中xp表示特征向量,wp表示该特征向量所对应的权重,表示对目标值的预测。实际的预测结果为各特征向量的加权求和,其中权重便是影响因子:
本实施例中所采用的集成树模型,基于树的模型和预设规则,在特征中寻找截断值对数据进行分割。以决策树为例,其数学表达式如下,其中H代表某种信息密度衡量标准,例如Gini指数,θ表示***节点,tm为***节点对应的坐标,x表示特征向量,y代表预测值,Q表示***后的特征子集,G(Qm,)表示当前节点***前后的信息密度变化即损失函数,left代表决策树的左侧分支,right代表决策树的右侧分支,m代表节点的***次数,n代表样本数量。解释器中使用不同的节点***标准,对特征的重要性进行衡量:
θ*=argminθG(Qm,)。
S40、利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据。
在一种实施方式中,预设的第一解释器包括依次连接的LIME模型和SHAP模型;利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据,包括:将所述拟合结果输入所述预设的第一解释器进行解释,得到与所述空气质量和所述交通状况相对应的影响因子和置信度输出。
LIME模型是一种局部解释模型,使用可解释简单模型对黑盒模型进行局部模拟,使用简单模型的影响因子对黑盒进行解释。LIME的数学表达式如下,其中实例x的解释模型是模型,例如线性回归模型,最小化损失L测量了解释g与原始模型f的预测的接近程度,而模型复杂度Ω()保持较低水平,例如偏好较少的特征,表示正则化参数,对复杂度函数进行矫正。G是可能的解释函数族,例如所有可能的线性回归模型。接近度πx定义了考虑解释时实例x附近的邻域大小。
具体步骤包括:针对已经训练完毕的模型,扰动数据集并获得新点的黑盒预测,根据新样本和目标模型的接近程度对其进行加权;在新数据集上训练加权的可解释模型,通过解释局部模型来解释预测:
SHAP模型引用了博弈论中Shapley值概念。Shapley值通过特征子集S中特征的值函数定义,每个特征值的Shapley值表示其对总预测的贡献,目标值为所有可能的特征值组合加权求和;数学表达式如下,其中S是模型中使用的特征的子集,x是要解释的实例的特征值的向量,M是特征的数量,N为全体特征的集合,i为全体特征的任意子集;fx(S)是对集合S中的特征值的预测,它将集合S中未包含的特征边缘化,/>表示对应X向量下函数的真实值,EX表示全体X向量下函数值的期望:
在一个具体示例中,空气质量和交通状况的溯源关系数据的界面图参考图3所示。
在本申请的一些实施例中,所述方法还包括:将所述空气质量短时预测数据输入预设的第二解释器进行处理,获得对应于所述空气质量短时预测数据的影响因子和置信度输出。
本申请实施例提供的空气质量与交通状况的溯源关系数据获取方法,能够为工作人员提供可靠数据参考,提高空气质量与交通状况的溯源关系数据的数据准确度,能够避免决策人员错误估计数据的可靠程度。
针对相关技术中存在的在短时突变和长时段预测的场景下表现不佳的技术缺陷,本实施例中的预测模型训练方法,根据应用实际情况平衡运算成本和预测精度;实际训练中输出数个最优模型,保证模型的泛化能力同时避免过拟合。
在使用统计模型进行预测时,需要考虑模型复杂度和解释性的平衡, 因此模型的选择范围有很大限制,具体表现为,有溯源需求的模型往往采用结构简单的线性模型,预测精度上限低;无溯源需求模型常采用复杂结构带来精度提升,但其内部为黑盒无法解释,实际使用中对模型的可靠性无法验证, 同时高复杂度模型需要具有同等复杂度的数据集才能充分训练,常规生产条件下获取稳定可靠的多源数据难度较大。针对该缺陷,本实施例中采用了基于多个解释器融合的模型解释方法,在对各类主流模型具有解释性的前提下,通过计算影响因子的稳定性,输出解释置信度。
空间地理处理方法中,实际使用中数据点在空间上的分布密度较小,多数方案使用插值方法对整个空间网格进行估计,而估计值的误差难以衡量。该估计值常作为中间量被应用于进一步预测,可能会导致误差的进一步积累,且该类误差较难排查。本实施例中采用了基于无监督学习模型融合的区域划分方法,同时在***流程中避免使用估计值进行二次预测。
本实施例中主要涉及四种数据采集方法,历史数据库,例如UCI主题数据库和ECMWF的滞后更新数据库;实时监测数据,例如空气监测站点,气象监测站点;大规模多源数据,例如地图、天气等服务商提供的API接口;网络数据爬取,来源于网络的其它多源异构或非结构化数据。本技术方案中用到数据大致分为空气天气数据和其他数据。空气数据有两个来源,一是站点的实时数据,准确度高,时间跨度例如大约五年以内,能同步更新;二是基金或科研项目提供的长期数据集,时间跨度较长,往往超过三十年。其他数据源主要以交通数据为主,也是两个来源,一是高德地图提供的接口,准确度较高,但历史数据获取困难;另一个来源就是网络搜集,包括***数据、新闻数据等等。
本实施例中主要使用三种数据划分方法对数据集进行划分,分别为按步长、按粒度、按特征三种标准,同时包括特征组合。以按小时统计的包含AQI和其它六项污染物数值的空气数据为例,按步长划分指将一定区间,例如以12小时为窗口滑动选择数据,每个窗口内的数据生成新的数据行;按粒度划分指按一定的数据密度,例如以6小时为最小间隔对数据进行欠采样;按特征划分指在7项特征中进行筛选,可能采用全部、部分构建数据集。图4所示为一个具体示例中窗口尺寸和预测步长的误差关系图。
沿用上述的例子,解释归因模块采用广义线性模型、集成树模型、LIME模型和SHAP模型四大类解释器,针对单个模型提供不少于三种解释方法。参考图5所示,本实施例中的解释步骤包括:筛选训练模型中性能最优的k个模型,每个模型匹配符合条件的最大数量解释器(如图5中所示的解释器集合1、解释器集合2、……以及解释器集合k),输出影响因子;对各组影响因子均值、方差和相关性进行统计,假设影响因子的分布符合正态分布,根据偏离程度过滤不稳定结果,输出预测范围和置信度。具体地,从解释器中输出的数据依次经过影响因子统计检验、稳定影响因子输出以及影响因子置信度评估的步骤。
在本实施例中,数据集划分加模型池组合进行以时序预测为主的自动机器学习;基于多模型预测结果波动程度的模型可靠性衡量;基于多个无监督模型融合的交通模式识别和区域划分;多解释器融合以及模型影响因子置信度的计算方法。
本申请实施例的技术方案中采用了充足测试数据带来的先验知识,包括以下几方面:时序模型预测准确性基线、异常值的判断标准和处理、模型训练的最佳参数确定范围。带来的优点和相关技术预测更注重结果准确性相比,本实例充分考虑了计算效率的问题,在测试中排除了大量不必要计算,缩小了自动机器学习中不可避免的大范围枚举成本。
本实施例的技术方案的模型训练和融合不同于相关技术中的多任务学习方案,本实施例的技术方案没有采用相关技术中罗列穷尽的方法,目前条件下采用相关技术中基于统计方法的空气预测方案无法解决突变和长时间预测的准确率。本实施例的技术方案输出多模型提高对数据异常的抗干扰能力,带来相对稳定和准确的输出结果。在极端情况下,例如出现短时大范围数据波动,相关技术中均无法准确预测,本实施例的技术方案能够通过不同模型产生的异向波动提供进行概率更高的预警。
本申请实施例的技术方案具有更合理的区域划分模式。相关技术中采用网格或按行政区域等预划分方式,这类做法可能在预测中引入错误的先验知识,造成预测误差;同时采用插值等数据填补方法获取空间数据进行二次预测,经过验证此类方法误差较大,不能满足预报预警需求。本实施例的技术方案不直接对具体数值进行预测,而是对具有共同行为模式的区域进行分类,在类别数量足够使用的前提下获得更精准可用的区域决策边界。
注重解释器的解释性,确保更佳的稳定性。相关技术中的预测方案中往往没能注意模型的可解释性,造成两种极端现象,一种是仅使用简单线性模型保证模型可解释,另一种是模型过于复杂完全不可解释。本实施例的技术方案中结合了各类主流的模型解释器,实现了包括深度神经网络在内的可解释性。此外,对于解释器的可靠性,本实施例的技术方案采用多种解释器的影响因子的稳定性来确定解释的置信度。
参考图6所示,本申请的另一个实施例提供了一种空气质量与交通状况的溯源关系数据获取装置,包括:
空气质量监测数据处理模块,用于利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量短时预测数据;
区域特征聚类结果生成模块,用于根据所述目标区域的交通数据生成区域特征聚类结果;
拟合模块,用于对所述空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果;
溯源关系数据获取模块,用于利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据。
在一种实施方式中,所述利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量预测数据,包括:
利用数据集构建工具从时间步长、时间粒度和数据维度三个维度生成所述空气质量监测数据的数据集;
将所述空气质量监测数据的数据集输入所述预设的短时时序预测模型,得到空气质量短时预测数据。
在一种实施方式中,所述预设的短时时序预测模型的构建方法,包括:
利用时序模型和深度学习模型构建基本模型;
利用决策树和线性回归对所述空气质量监测数据的数据集进行权重排序;
根据先验信息设置筛选规则和参数范围;
利用所述筛选规则和参数范围以及模型池进行模型融合,得到短时时序预测模型。
在一种实施方式中,所述模型池包括单变量时序预测模型、多变量时序预测模型、周期时序预测模型和非时序预测中的至少一种。
在一种实施方式中,所述根据所述目标区域的交通数据生成区域特征聚类结果,包括:采集所述目标区域的交通数据;计算所述交通数据的路网点距离;围绕站点根据所述路网点距离筛选路网点;针对所述路网点构建区域聚类,得到区域特征聚类结果。
在一种实施方式中,所述预设的第一解释器包括依次连接的LIME模型和SHAP模型;所述利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据,包括:将所述拟合结果输入所述预设的第一解释器进行解释,得到与所述空气质量和所述交通状况相对应的影响因子和置信度输出。
在一种实施方式中,该装置还可以包括:空气质量短时预测数据解释处理模块,用于将所述空气质量短时预测数据输入预设的第二解释器进行处理,获得对应于所述空气质量短时预测数据的影响因子和置信度输出。
本申请的另一个实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述任一项实施方式的空气质量与交通状况的溯源关系数据获取方法。
参考图7所示,电子设备10可以包括:处理器100,存储器101,总线102和通信接口103,处理器100、通信接口103和存储器101通过总线102连接;存储器101中存储有可在处理器100上运行的计算机程序,处理器100运行该计算机程序时执行本申请前述任一实施方式所提供的方法。
其中,存储器101可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还可以包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器101用于存储程序,处理器100在接收到执行指令后,执行该程序,前述本申请实施例任一实施方式揭示的方法可以应用于处理器100中,或者由处理器100实现。
处理器100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器,可以包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101,处理器100读取存储器101中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述任一实施方式的空气质量与交通状况的溯源关系数据获取方法。参考图8所示,其示出的计算机可读存储介质为光盘20,其上存储有计算机程序(即程序产品),该计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
术语“模块”并非意图受限于特定物理形式。取决于具体应用,模块可以实现为硬件、固件、软件和/或其组合。此外,不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示例一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (8)

1.一种空气质量与交通状况的溯源关系数据获取方法,其特征在于,包括:
利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量短时预测数据;
根据所述目标区域的交通数据生成区域特征聚类结果;
对所述空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果;
利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据;
所述根据所述目标区域的交通数据生成区域特征聚类结果,包括:
采集所述目标区域的交通数据;
计算所述交通数据的路网点距离;
围绕站点根据所述路网点距离筛选路网点;
针对所述路网点构建区域聚类,得到区域特征聚类结果;
所述针对所述路网点构建区域聚类,得到区域特征聚类结果,包括:采用无监督方式对路网点进行分类并生成决策边界,构建区域排放特征聚类;
所述预设的短时时序预测模型的构建方法,包括:
利用时序模型和深度学习模型构建基本模型;
利用决策树和线性回归对所述空气质量监测数据的数据集进行权重排序;
根据先验信息设置筛选规则和参数范围;
利用所述筛选规则和参数范围以及模型池进行模型融合,得到短时时序预测模型;所述模型融合包括趋势误差计算和数值误差计算。
2.根据权利要求1所述的方法,其特征在于,所述利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量预测数据,包括:
利用数据集构建工具从时间步长、时间粒度和数据维度三个维度生成所述空气质量监测数据的数据集;
将所述空气质量监测数据的数据集输入所述预设的短时时序预测模型,得到空气质量短时预测数据。
3.根据权利要求1所述的方法,其特征在于,所述模型池包括单变量时序预测模型、多变量时序预测模型、周期时序预测模型和非时序预测中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述预设的第一解释器包括依次连接的LIME模型和SHAP模型;
所述利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据,包括:
将所述拟合结果输入所述预设的第一解释器进行解释,得到与所述空气质量和所述交通状况相对应的影响因子和置信度输出。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述空气质量短时预测数据输入预设的第二解释器进行处理,获得对应于所述空气质量短时预测数据的影响因子和置信度输出。
6.一种空气质量与交通状况的溯源关系数据获取装置,其特征在于,包括:
空气质量监测数据处理模块,用于利用预设的短时时序预测模型处理目标区域的空气质量监测数据,得到空气质量短时预测数据;
区域特征聚类结果生成模块,用于根据所述目标区域的交通数据生成区域特征聚类结果;
拟合模块,用于对所述空气质量短时预测数据和所述区域特征聚类结果进行拟合,得到拟合结果;
溯源关系数据获取模块,用于利用预设的第一解释器处理所述拟合结果,获得空气质量和交通状况的溯源关系数据;
所述区域特征聚类结果生成模块,进一步具体用于:
采集所述目标区域的交通数据;
计算所述交通数据的路网点距离;
围绕站点根据所述路网点距离筛选路网点;
针对所述路网点构建区域聚类,得到区域特征聚类结果;
所述针对所述路网点构建区域聚类,得到区域特征聚类结果,包括:采用无监督方式对路网点进行分类并生成决策边界,构建区域排放特征聚类;
所述预设的短时时序预测模型的构建模块,用于:
利用时序模型和深度学习模型构建基本模型;
利用决策树和线性回归对所述空气质量监测数据的数据集进行权重排序;
根据先验信息设置筛选规则和参数范围;
利用所述筛选规则和参数范围以及模型池进行模型融合,得到短时时序预测模型;所述模型融合包括趋势误差计算和数值误差计算。
7.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5中任一所述的空气质量与交通状况的溯源关系数据获取方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-5中任一所述的空气质量与交通状况的溯源关系数据获取方法。
CN202211675618.9A 2022-12-26 2022-12-26 空气质量与交通状况的溯源关系数据获取方法及装置 Active CN115936242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211675618.9A CN115936242B (zh) 2022-12-26 2022-12-26 空气质量与交通状况的溯源关系数据获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211675618.9A CN115936242B (zh) 2022-12-26 2022-12-26 空气质量与交通状况的溯源关系数据获取方法及装置

Publications (2)

Publication Number Publication Date
CN115936242A CN115936242A (zh) 2023-04-07
CN115936242B true CN115936242B (zh) 2023-11-17

Family

ID=86700557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211675618.9A Active CN115936242B (zh) 2022-12-26 2022-12-26 空气质量与交通状况的溯源关系数据获取方法及装置

Country Status (1)

Country Link
CN (1) CN115936242B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333201B (zh) * 2023-11-28 2024-02-23 山东恒信科技发展有限公司 一种原料油原料溯源管理方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701274A (zh) * 2017-05-24 2018-10-23 北京质享科技有限公司 一种城市小尺度空气质量指数预测方法与***
CN113222442A (zh) * 2021-05-25 2021-08-06 东莞理工学院 实时交通大气污染排放清单计算方法以及决策辅助方法
CN115168749A (zh) * 2022-07-12 2022-10-11 清华大学 大气污染源溯源方法、装置、电子设备及存储介质
CN115204411A (zh) * 2022-06-22 2022-10-18 杭州博盾习言科技有限公司 基于决策树和lime模型的解释方法、***、设备和介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468371B2 (en) * 2018-09-22 2022-10-11 Securonix, Inc. Prediction explainer for ensemble learning
WO2022081713A1 (en) * 2020-10-14 2022-04-21 Feedzai - Consultadoria E Inovação Tecnológica, S.A. A model-agnostic approach to interpreting sequence predictions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701274A (zh) * 2017-05-24 2018-10-23 北京质享科技有限公司 一种城市小尺度空气质量指数预测方法与***
CN113222442A (zh) * 2021-05-25 2021-08-06 东莞理工学院 实时交通大气污染排放清单计算方法以及决策辅助方法
CN115204411A (zh) * 2022-06-22 2022-10-18 杭州博盾习言科技有限公司 基于决策树和lime模型的解释方法、***、设备和介质
CN115168749A (zh) * 2022-07-12 2022-10-11 清华大学 大气污染源溯源方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于RNN模型的工业机器人故障可跟踪预测方法;李丹婷;《计算机网络》;68-71 *

Also Published As

Publication number Publication date
CN115936242A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Shi et al. Predicting origin-destination flow via multi-perspective graph convolutional network
CN109670277B (zh) 一种基于多模态数据融合与多模型集成的旅行时间预测方法
CN111368095B (zh) 基于水利知识-事理耦合网络的决策支持***架构与方法
Ren et al. Mtrajrec: Map-constrained trajectory recovery via seq2seq multi-task learning
CN110570651A (zh) 一种基于深度学习的路网交通态势预测方法及***
Tang et al. Joint modeling of dense and incomplete trajectories for citywide traffic volume inference
CN115578852B (zh) 一种基于dstgcn的交通预测方法
CN110310474A (zh) 一种基于时空残差网络的车流量预测方法及装置
Bao et al. Spatial–temporal complex graph convolution network for traffic flow prediction
CN112365708B (zh) 基于多图卷积网络的景区交通量预测模型建立和预测方法
CN109615860A (zh) 一种基于非参数贝叶斯框架的信号交叉口状态估计方法
CN113808396B (zh) 基于交通流量数据融合的交通速度预测方法和***
CN116681176B (zh) 一种基于聚类和异构图神经网络的交通流预测方法
CN115759488B (zh) 一种基于边缘计算的碳排放监测预警分析***及其方法
CN115936242B (zh) 空气质量与交通状况的溯源关系数据获取方法及装置
CN114944053A (zh) 一种基于时空超图神经网络的交通流预测方法
CN111311907B (zh) 基于元胞传输模型的不确定基本图参数辨识的识别方法
CN117236674A (zh) 城市河网水动力精准调控和水环境提升方法及***
CN108053646B (zh) 基于时间敏感特征的交通特征获取方法、预测方法及***
CN112101132B (zh) 一种基于图嵌入模型和度量学习的交通状况预测方法
CN117370813A (zh) 一种基于k线模式匹配算法的大气污染深度学习预测方法
CN116166642A (zh) 基于引导信息的时空数据填补方法、***、设备及介质
CN115063972A (zh) 基于图卷积和门控循环单元的交通速度预测方法和***
CN115186927A (zh) 一种基于数值天气预报和模型融合的风向预测方法及***
Mustafi et al. Fuzzy-based missing value imputation technique for air pollution data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant