CN111461163B - 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 - Google Patents

城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 Download PDF

Info

Publication number
CN111461163B
CN111461163B CN202010116723.3A CN202010116723A CN111461163B CN 111461163 B CN111461163 B CN 111461163B CN 202010116723 A CN202010116723 A CN 202010116723A CN 111461163 B CN111461163 B CN 111461163B
Authority
CN
China
Prior art keywords
area
population
concentration
data
residential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010116723.3A
Other languages
English (en)
Other versions
CN111461163A (zh
Inventor
王坤
张丽君
秦耀辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202010116723.3A priority Critical patent/CN111461163B/zh
Publication of CN111461163A publication Critical patent/CN111461163A/zh
Application granted granted Critical
Publication of CN111461163B publication Critical patent/CN111461163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种城市内部PM2.5浓度模拟和人口暴露度评估方法和装置,先建立缓冲区,通过缓冲区以随机森林模型模拟预测居住区的PM2.5浓度,并将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,以保证PM2.5浓度预测的准确性,本申请的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置具有预测结果准确,适用性高的优点。

Description

城市内部PM2.5浓度模拟和人口暴露度评估方法和装置
技术领域
本发明涉及地理信息技术和大数据分析领域,特别涉及一种基于土地利用随机森林(land use random forest,LURF)模型和地理空间大数据的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置。
背景技术
目前,地面PM2.5监测站、遥感卫星影像、PM2.5地面监测站和遥感影像的混合模型、LUR模型广泛应用于地表PM2.5的浓度模拟。但是地面PM2.5监测站分布稀疏,并不能完全揭示PM2.5浓度的空间异质性,导致内城PM2.5模拟的精度相对较低。遥感影像的气溶胶数据分辨率较低,亦不能应用于微观尺度层面。PM2.5地面监测站和遥感影像的混合模型在一定程度上减少了粗糙度,但是不能体现出特定地区时间的连续性,两者存在同一时间上的空间不一致性。LUR模型广泛用于城市市域尺度,主要依赖于PM2.5浓度与其他自变量的高度重要性和逐步回归模型,而自变量也会产生不稳定的模型估计和方差膨胀,也不能解释所有变量对PM2.5的重要性,以及每个变量对PM2.5的贡献度。居住区尺度的人口估算是污染物人口暴露的关键。现有技术对居住区尺度的人口测算主要采用人口经济普查和调查问卷等数据,这些普查数据时间周期较长,花费成本较高。近年来随着机器学习和大数据的发展和应用,为城市内部的PM2.5浓度模拟和人口暴露评估提供了条件。
发明内容
本发明的主要目的是提供一种基于随机森林模型和地理空间大数据的城市内部PM2.5浓度模拟和人口暴露评估方法,能从微观上较为准确的模拟城市内部的PM2.5和人口暴露评估。
本发明所采用的技术方案是:
一种城市内部PM2.5浓度模拟和人口暴露度评估方法,包括以下步骤:
S1:获得特定区域内PM2.5浓度监测数据,获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练;
S2:以特定区域中的居住区为中心设定步骤S1中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将第二缓冲区域内的建成环境数据输入到步骤S1中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
S3:将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进入步骤S4,否则,则返回步骤S1中调整第一缓冲区域大小或者调整建成环境数据的种类;
S4:统计或者估算居住区中的人口数量MPopulation
S5:根据居住区内的人口数量和居住区的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人口数;NPM2.5为居住区的PM2.5浓度值。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法,
步骤S1中设定若干不同大小的第一缓冲区域和/或选取不同种类和数量的建成环境数据,以训练得到若干个不同的随机森林模型;
步骤S2中第二缓冲区域也被设定成与第一缓冲区域对应大小的若干个,建成环境数据的种类和数量也与步骤S1中的建成环境数据相同;
步骤S3中将所有随机森林模型预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,筛选出精度最高的随机森林模型。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法,建成环境数据包括土地利用混合度、居住区面积、人口平均密度、绿地面积、道路交叉口、水体面积和餐饮数量。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法,土地利用混合度
Figure GDA0002529282410000031
其中,Vj为区域单元范围j中的土地利用混合度,Mij为区域单元范围j中i类POI类型所占的比例,Nj为区域单元范围j中POI类型的数量。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法,POI类型为居住用地、公共管理与公共服务用地、商业服务业设施用地、工业用地、物流仓储用地、道路与交通设施用地、公用设施用地或者绿地与广场用地。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法,步骤S3中预测的精度采用十倍交叉验证和均方误差的值、均方根误差的值进行对比验证。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法,经过步骤S3的检验后,还通过随机森林模型对不同种类的建成环境对PM2.5浓度的重要性进行检测和排序。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法,S4步骤中根据人均住房建筑面积数据,结合居住区楼层高度和底面积对居住区中的人口数量估测:
Figure GDA0002529282410000041
其中,MPopulation为居住区的人口数,F为楼层层数,S为建筑的底面积,Harea为人均住房建筑面积。
优选地,本发明的城市内部PM2.5浓度模拟和人口暴露度评估方法,还包括将步骤S5中得到人口暴露度值根据居住区位置标识到地图上以进行空间可视化的步骤。
本发明还包括一种城市内部PM2.5浓度模拟和人口暴露度评估装置,包括:
模型训练模块:用于获得特定区域内PM2.5浓度监测数据,获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练;
数据预测模块:用于以特定区域中的居住区为中心设定模型训练模块中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将第二缓冲区域内的建成环境数据输入到模型训练模块中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
精度筛查模块:用于将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进入人口数量获取模块,否则,则返回模型训练模块中调整第一缓冲区域大小或者调整建成环境数据的种类;
人口数量获取模块:用于统计或者估算居住区中的人口数量MPopulation
人口暴露强度计算模块:用于根据居住区内的人口数量和居住区的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人口数;NPM2.5为居住区的PM2.5浓度值。
本发明的有益效果是:
本申请的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置,先建立缓冲区,通过缓冲区以随机森林模型模拟预测居住区的PM2.5浓度,并将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,以保证PM2.5浓度预测的准确性,本申请的城市内部PM2.5浓度模拟和人口暴露度评估方法和装置具有预测结果准确,适用性高的优点。
附图说明
下面结合附图和实施例对本申请的技术方案进一步说明。
图1为本发明实施例中城市内部PM2.5浓度模拟和人口暴露度评估方法的流程图;
图2为本发明实施例中POI数据分布的类型和数量结果图;
图3为本发明实施例中社区尺度的人口数量估测结果图;
图4为本发明实施例中土地利用随机森林回归模型模拟城市内部PM2.5浓度结果图;
图5为本发明实施例中建成环境对PM2.5贡献度的重要性测度结果图;
图6为本发明实施例中土地利用随机森林模型预测的精度验证结果图;
图7为本发明实施例中居住区的人口暴露度可视化图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本申请的技术方案。
实施例1
本实施例提供一种城市内部PM2.5浓度模拟和人口暴露度评估方法,如图1所示,包括以下步骤:
S1:获得特定区域内PM2.5浓度监测数据,获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练;每个特定区域(比如一座城市)会有很多监测点,每个监测点都会设定圆形的第一缓冲区域,使整座城市尽量被第一缓冲区域覆盖,但是,由于监测点毕竟有限,很多区域没有办法全面覆盖,通过下面的步骤就是为了将未覆盖区域也预测出其PM2.5的值,如果某个地点被两个以上的第一缓冲区域所覆盖,那该地点可以取多个监测点监测数据的平均值,但通过调整第一缓冲区域大小尽可能地避免第一缓冲区域重叠;第一缓冲区域可以设定为2000m、1000m、800m、500m、300m等等。
PM2.5浓度监测数据可以通过Python语言在全国空气质量监测数据网站上获得所在区域PM2.5浓度监测数据,获取的属性包括城市、监测点名称、监测点编码、经度、纬度和PM2.5浓度值。
S2:以特定区域中的居住区为中心设定S1步骤中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将第二缓冲区域内的建成环境数据输入到S1步骤中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
建成环境数据包括土地利用混合度、居住区面积、人口平均密度、绿地面积、道路交叉口、水体面积和餐饮数量。
土地利用混合度以熵值表示:
Figure GDA0002529282410000081
S为土地利用混合度熵值,n为土地利用类型数量,ρi为第i类土地面积所占的比例,
Figure GDA0002529282410000082
也可以直接定义土地利用混合度
Figure GDA0002529282410000083
其中,Vj为区域单元范围j中的土地利用混合度,Mij为区域单元范围j中i类POI类型所占的比例,Nj为区域单元范围j中POI类型的数量。
土地利用类型/POI类型为居住用地、公共管理与公共服务用地、商业服务业设施用地、工业用地、物流仓储用地、道路与交通设施用地、公用设施用地或者绿地与广场用地(根据2012年起实施的《城市用地分类与规划建设用地标准》划分)。土地利用混合度数据中,可以基于网络地图开发平台,采用Python语言编写的程序,获取所在区域的POIs数据集,POI(Point of Interest)是在空间上显示各种设施的点,根据POIs数据集确定每类土地面积所占的比例。
在居住区数据中,同样,基于网络地图开发平台,采用Python编写的程序,获取了所在区域的居住区围栏数据,并和所在区域的规划图进行对照增补,确定居住区范围和面积。
在人口平均密度数据中,根据人均住房建筑面积,结合获取的居住区楼层高度和底面积进行估算得到。
绿地面积数据,绿地使用遥感影像数据进行监督分类提取得到,通过ENVI5.3软件进行提取每个缓冲区的绿地面积。
道路交叉口数据,可以提取所在区域的道路矢量数据,包括国道、省道、行人道路、市区一级道路、市区二级道路、县道、乡道和其他道路,根据Arcgis10.3软件进行道路交叉口相交提取获得。
水体面积数据,水体面积的提取采用高精度卫星影像进行人工矢量化识别提取,通过ENVI5.3进行提取每个缓冲区的水体面积。
餐饮数据,可基于网络地图开发平台,采用Python编写的程序,获取了所在区域的餐饮点数据。
随机森林是一种机器学习算法,能够对相关分类或回归树进行统计预测,也能处理非线性关系和交互作用的效果。随机森林模型相比传统统计方法(如:一般线性回归模型和普通克里金插值等),有较好的预测性能。随机森林模型能够捕捉预测因子与小样本训练数据之间复杂的非线性关系,因此,土地利用模型和随机森林回归模型的结合,能够提高土地利用模型的准确性和精密度,从而更好的模拟PM2.5的浓度值。随机森林回归模型采用R语言编写的程序进行模拟,设定ntree=1000,mtry=6。PM2.5模拟的空间数据分析用Arcgis10.3执行。
S3:将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进入步骤S4,否则,则返回步骤S1步骤调整第一缓冲区域大小或者调整建成环境数据的种类;(居住区中实际测得的PM2.5的值是指被某个监测点为中心设定的第一缓冲区域所覆盖的居住区,以该监测点数据为该居住区中实际测得的PM2.5的值,本步骤中,进行精度验证,选取的居住区一定要被某个监测点为中心设定的第一缓冲区域所覆盖)
随机森林模型(LURF)预测的精度验证。采用十倍交叉验证和均方误差的值、均方根误差的值进行对比验证。对于十倍交叉验证,基于Weka开源机器学习平台或Python语言进行执行。
均方误差(MSE)值的大小,可以用来表示PM2.5浓度的预测值和PM2.5实际监测数据的精度程度。MSE的值越小说明预测模型解释能力越好,反之越差。
Figure GDA0002529282410000101
其中,N是样本个数,Pn表示模型模拟后PM2.5的预测值,Mn表示PM2.5的实际监测值。
而均方根误差(RMSE)是均方误差的算术平方根,其表达式为:
Figure GDA0002529282410000102
S4:根据人均住房建筑面积数据,结合居住区楼层高度和底面积对居住区中的人口数量估测:
Figure GDA0002529282410000103
其中,MPopulation为居住区的人口数,F为楼层层数,S为建筑的底面积,Harea为人均住房建筑面积;人口数量也可以根据统计数据直接得到;
S5:根据居住区内的人口数量,和居住区的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人口数;NPM2.5为居住区的PM2.5浓度值。
经过步骤S3的检验后,还通过随机森林模型对不同种类的建成环境对PM2.5浓度的重要性进行检测和排序。对不同种类的建成环境进行重要性排序可以明确是何种的建成环境更加影响PM2.5浓度。在随机森林模型中的相对重要性(Im)是根据该变量用于***的次数和相关的平方误差减少来评估的,在对相对重要性值进行按比例划分。所有变量的重要性按照从上到下顺序排列,横轴代表重要性的大小。
Figure GDA0002529282410000111
其中,K为随机森林模型中树的总数,
Figure GDA0002529282410000112
是变量Xm对k树重要性的平方。
还包括将步骤S5中得到人口暴露度值根据居住区位置标识到地图上以进行空间可视化的步骤,生成各种可视化图形以便于更好地表示出人口暴露度值的分布。
本实施例还提供一种城市内部PM2.5浓度模拟和人口暴露度评估装置,包括:
模型训练模块:用于获得特定区域内PM2.5浓度监测数据,获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练;
数据预测模块:用于以特定区域中的居住区为中心设定模型训练模块中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将第二缓冲区域内的建成环境数据输入到模型训练模块中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
精度筛查模块:用于将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进入人口数量获取模块,否则,则返回模型训练模块中调整第一缓冲区域大小或者调整建成环境数据的种类;
人口数量获取模块:用于统计或者估算居住区中的人口数量MPopulation
人口暴露强度计算模块:用于根据居住区内的人口数量和居住区的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人口数;NPM2.5为居住区的PM2.5浓度值。
人口暴露强度是有PM2.5浓度值和人口密度共同作用产生的,人类活动的影响产生了PM2.5,同时,PM2.5又反作用于人类,对人类的健康生活产生威胁。
对于城市内城的人口暴露而言(如图7),尤其是老城区,紧凑的城市形态结构布局,城市内部人口密度大,人类活动影响较为剧烈,道路车辆拥挤,更容易产生PM2.5,人口暴露存在较大风险,因此,要发展多中心的城市结构,平衡城市内部人口密度,疏解交通流,缓解机动车尾气排放对PM2.5的影响。
实施例2
本实施例提供一种城市内部PM2.5浓度模拟和人口暴露度评估方法,如图2所示,包括以下步骤:
S1:获得特定区域内PM2.5浓度监测数据,获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值,以监测点为中心设定若干不同大小的第一缓冲区域,将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训练数据输入到若干个随机森林模型中进行训练;
S2:以特定区域中的居住区为中心设定S1步骤中第一缓冲区域大小对应的若干不同大小的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将第二缓冲区域内的建成环境数据输入到S1步骤中对应的随机森林模型中预测得到居住区的PM2.5浓度;
S3:将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,晒选出精度最大时的随机森林模型;
S1-S3步骤中,也可以调整建成环境数据种类和数量来训练得到不同的随机森林模型;
S4:根据人均住房建筑面积数据,结合居住区楼层高度和底面积对居住区中的人口数量估测:
Figure GDA0002529282410000141
其中,MPopulation为居住区的人口数,F为楼层层数,S为建筑的底面积,Harea为人均住房建筑面积;
S5:根据居住区内的人口数量,和居住区的PM2.5值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人口数;NPM2.5为精度最大的随机森林模型所预测的居住区的PM2.5浓度值。
随机森林模型(LURF)预测的精度验证:
比较了春季两种模型的精度(如图6),LUR模型和LURF模型预测的PM2.5浓度和实际观测值的R2分别为0.64和0.5071,而LUR模型和LURF模型预测的PM2.5浓度和实际观测值的MSE和RMSE也分别为164.75、132.07和12.83、11.49,尽管LUR模型的R2比LURF模型的R2高,而LURF模型的MSE和RMSE都要比LUR模型低很多。在样本量中,LURF模型有较好的精度,适用性也更广泛。
在十倍交叉验证春季PM2.5浓度准确性上,如表1所示,LUR模型十倍交叉验证和LURF模型十倍交叉验证的相关系数分别是0.9639和0.956,而在平均绝对误差和均方根误差方面,LURF模型都比LUR模型要低,也说明LURF模型在预测PM2.5浓度方面有较高精确性。
表1 LUR模型和LURF模型的十倍交叉验证比较
Figure GDA0002529282410000151
从上图可以使用随机森林模型本身的模型精度仅更准确,再通过步骤S3的阈值筛选,或者通过对比精度筛选出精度最高的模型的方式,可以进一步提高模型的准确性,使得
以上述依据本申请的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项申请技术思想的范围内,进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,包括以下步骤:
S1:获得特定区域内PM2.5浓度监测数据,获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练;
S2:以特定区域中的居住区为中心设定步骤S1中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将第二缓冲区域内的建成环境数据输入到步骤S1中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
S3:将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进入步骤S4,否则,则返回步骤S1中调整第一缓冲区域大小或者调整建成环境数据的种类;
S4:统计或者估算居住区中的人口数量MPopulation
S5:根据居住区内的人口数量和居住区的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人口数;NPM2.5为居住区的PM2.5浓度值。
2.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,
步骤S1中设定若干不同大小的第一缓冲区域和/或选取不同种类和数量的建成环境数据,以训练得到若干个不同的随机森林模型;
步骤S2中第二缓冲区域也被设定成与第一缓冲区域对应大小的若干个,建成环境数据的种类和数量也与步骤S1中的建成环境数据相同;
步骤S3中将所有随机森林模型预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,筛选出精度最高的随机森林模型。
3.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,建成环境数据包括土地利用混合度、居住区面积、人口平均密度、绿地面积、道路交叉口、水体面积和餐饮数量。
4.根据权利要求3所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,土地利用混合度
Figure FDA0002391716170000021
其中,Vj为区域单元范围j中的土地利用混合度,Mij为区域单元范围j中i类POI类型所占的比例,Nj为区域单元范围j中POI类型的数量。
5.根据权利要求4所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,
POI类型为居住用地、公共管理与公共服务用地、商业服务业设施用地、工业用地、物流仓储用地、道路与交通设施用地、公用设施用地或者绿地与广场用地。
6.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,步骤S3中预测的精度采用十倍交叉验证和均方误差的值、均方根误差的值进行对比验证。
7.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,经过步骤S3的检验后,还通过随机森林模型对不同种类的建成环境对PM2.5浓度的重要性进行检测和排序。
8.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,S4步骤中根据人均住房建筑面积数据,结合居住区楼层高度和底面积对居住区中的人口数量估测:
Figure FDA0002391716170000031
其中,MPopulation为居住区的人口数,F为楼层层数,S为建筑的底面积,Harea为人均住房建筑面积。
9.根据权利要求1所述的城市内部PM2.5浓度模拟和人口暴露度评估方法,其特征在于,还包括将步骤S5中得到人口暴露度值根据居住区位置标识到地图上以进行空间可视化的步骤。
10.一种城市内部PM2.5浓度模拟和人口暴露度评估装置,其特征在于,包括:
模型训练模块:用于获得特定区域内PM2.5浓度监测数据,获取的数据包括特定区域所在城市、监测点的经度、监测点的纬度和监测点检测到的PM2.5浓度值,以监测点为中心设定第一缓冲区域,将第一缓冲区域标定为监测点相同的PM2.5浓度值,获取第一缓冲区域内的建成环境数据,以PM2.5浓度值作为因变量,建成环境数据作为自变量作为训练数据输入到随机森林模型中进行训练;
数据预测模块:用于以特定区域中的居住区为中心设定模型训练模块中第一缓冲区域大小相同的第二缓冲区域,获取第二缓冲区域内的建成环境数据,将第二缓冲区域内的建成环境数据输入到模型训练模块中训练得到的随机森林模型中预测得到居住区的PM2.5浓度;
精度筛查模块:用于将预测得到的居住区的PM2.5浓度与居住区中实际测得的PM2.5的值进行比较确定预测的精度,当精度大于设定的阈值时则进入人口数量获取模块,否则,则返回模型训练模块中调整第一缓冲区域大小或者调整建成环境数据的种类;
人口数量获取模块:用于统计或者估算居住区中的人口数量MPopulation
人口暴露强度计算模块:用于根据居住区内的人口数量和居住区的PM2.5浓度值进行人口暴露强度的计算,人口暴露强度为:
PEj=MPopulation×NPM2.5
其中,PEj为j居住区的人口暴露强度;MPopulation为居住区的人口数;NPM2.5为居住区的PM2.5浓度值。
CN202010116723.3A 2020-02-25 2020-02-25 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置 Active CN111461163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010116723.3A CN111461163B (zh) 2020-02-25 2020-02-25 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010116723.3A CN111461163B (zh) 2020-02-25 2020-02-25 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置

Publications (2)

Publication Number Publication Date
CN111461163A CN111461163A (zh) 2020-07-28
CN111461163B true CN111461163B (zh) 2023-03-24

Family

ID=71685059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010116723.3A Active CN111461163B (zh) 2020-02-25 2020-02-25 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置

Country Status (1)

Country Link
CN (1) CN111461163B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114166708A (zh) * 2021-11-25 2022-03-11 泛测(北京)环境科技有限公司 颗粒物传输贡献分析方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108871286A (zh) * 2018-04-25 2018-11-23 中国科学院遥感与数字地球研究所 空间大数据协同的城市建成区人口密度估算方法和***
WO2018214060A1 (zh) * 2017-05-24 2018-11-29 北京质享科技有限公司 一种城市小尺度空气质量指数预测方法与***
CN110766257A (zh) * 2018-07-28 2020-02-07 华中科技大学 一种评估人群空气污染物短期暴露浓度的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566067B2 (en) * 2009-05-29 2013-10-22 Daniel P. Johnson Method of modeling the socio-spatial dynamics of extreme urban heat events

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018214060A1 (zh) * 2017-05-24 2018-11-29 北京质享科技有限公司 一种城市小尺度空气质量指数预测方法与***
CN108871286A (zh) * 2018-04-25 2018-11-23 中国科学院遥感与数字地球研究所 空间大数据协同的城市建成区人口密度估算方法和***
CN110766257A (zh) * 2018-07-28 2020-02-07 华中科技大学 一种评估人群空气污染物短期暴露浓度的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
土地利用回归模型在大气NO_2浓度空间分布模拟中的应用;钟佩等;《环境与健康杂志》;20180420(第04期);全文 *
土地利用回归模型模拟京津冀PM_(2.5)浓度空间分布;许刚等;《干旱区资源与环境》;20161015(第10期);全文 *
城市规划中人口空间分布模拟方法研究;肖荣波等;《中国人口.资源与环境》;20110615(第06期);全文 *

Also Published As

Publication number Publication date
CN111461163A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
Aburas et al. Land suitability analysis of urban growth in Seremban Malaysia, using GIS based analytical hierarchy process
Elbir A GIS based decision support system for estimation, visualization and analysis of air pollution for large Turkish cities
Sahsuvaroglu et al. A land use regression model for predicting ambient concentrations of nitrogen dioxide in Hamilton, Ontario, Canada
Rahmani et al. Modeling of road-traffic noise with the use of genetic algorithm
Nong et al. Urban growth pattern modeling using logistic regression
Duyzer et al. Representativeness of air quality monitoring networks
Paas et al. A comparison of model performance between ENVI-met and Austal2000 for particulate matter
Madsen et al. Modeling the intra-urban variability of outdoor traffic pollution in Oslo, Norway—A GA2LEN project
Piersanti et al. Spatial representativeness of air quality monitoring stations: a grid model based approach
Díaz-Pacheco et al. The importance of scale in land use models: Experiments in data conversion, data resampling, resolution and neighborhood extent
Tayyebi et al. A spatial logistic regression model for simulating land use patterns: a case study of the Shiraz Metropolitan area of Iran
Venegas et al. A simple model for calculating air pollution within street canyons
Li et al. Estimating urban ultrafine particle distributions with gaussian process models
CN111461163B (zh) 城市内部pm2.5浓度模拟和人口暴露度评估方法和装置
Wang et al. Hybrid model for prediction of carbon monoxide and fine particulate matter concentrations near a road intersection
CN112148821B (zh) 一种城市混合职住空间计算方法和***
Santos et al. A proposed methodology for the assessment of arsenic, nickel, cadmium and lead levels in ambient air
Moral et al. Mapping and hazard assessment of atmospheric pollution in a medium sized urban area using the Rasch model and geostatistics techniques
Sefidi et al. Analysis of urban growth pattern using logistic regression modeling, spatial autocorrelation and fractal analysis Case study: Ahvaz city
Lange et al. Machine-learning models to replicate large-eddy simulations of air pollutant concentrations along boulevard-type streets
Borowska-Stefańska et al. The Effect of COVID-19 Pandemic on Emitted PM2. 5 in Urban Road Networks: Using Loop Data and Kriging Method for Passenger Cars in the Central Part of the City of Lodz
de Haan et al. Modification of an operational dispersion model for urban applications
Johansson et al. Evaluation of air quality using dynamic land-use regression and fusion of environmental information
Millar et al. Evaluating human exposure to fine particulate matter part II: Modeling
Moghaddam et al. Urban simulation using neural networks and cellular automata for land use planning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant