CN110716998B - 一种精细尺度人口数据空间化方法 - Google Patents

一种精细尺度人口数据空间化方法 Download PDF

Info

Publication number
CN110716998B
CN110716998B CN201910678328.1A CN201910678328A CN110716998B CN 110716998 B CN110716998 B CN 110716998B CN 201910678328 A CN201910678328 A CN 201910678328A CN 110716998 B CN110716998 B CN 110716998B
Authority
CN
China
Prior art keywords
land
population
data
village
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910678328.1A
Other languages
English (en)
Other versions
CN110716998A (zh
Inventor
王艳慧
赵文吉
张建辰
齐文平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN201910678328.1A priority Critical patent/CN110716998B/zh
Publication of CN110716998A publication Critical patent/CN110716998A/zh
Application granted granted Critical
Publication of CN110716998B publication Critical patent/CN110716998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种精细尺度人口数据空间化方法,包括如下步骤:一)从***待处理区土地利用现状图层中调取土地利用数据;提取出待处理区的行政村边界图层;进行编行码匹配,建立地理信息空间数据库,计算该土地利用类型指数;采用双侧检验的皮尔逊(pearson)相关系数,分析各个村的土地利用类型指数与人口密度的相关关系;二)分别选取IDW方法、多元回归方法和BP神经网络方法对人口数据进行空间化,并选择精度最高的方法进行最终人口数据空间化;三)精度验证。

Description

一种精细尺度人口数据空间化方法
技术领域
本发明涉及利用电脑技术对指定的地域进行人口数据分析和模拟的技术领域,尤其涉及一种解决精细尺度人口数据空间化方法。
背景技术
在利用电脑技术对指定地域的人口分布及其相关研究中,常常会遇到小尺度上人口数据部分缺失问题。当前由于村级人口数据获取的成本和技术受限,很多情况下难以获取全员数据,存在村级人口数据的缺失问题。而村级人口空间化能更好的模拟人口在精细尺度上的分布状况。尽管大尺度人口空间化的研究虽有很多,但这些方法无法直接应用于村级精细尺度人口的拟合。关于人口尤其村级人口空间化的研究,现有文献还鲜有涉及。
人口空间化研究是人口空间化的前提。在人口分布及其相关研究中,针对待处理区域精细尺度上(如村级)人口数据部分缺失问题,需要利用已知区域的村级人口数据模拟待处理区未知的其它位置(行政村)的人口数据,使人口地图能较客观精细地反映出整个待处理区人口分布的相对稀密状态。国内外学者对人口空间化进行了大量的研究,但针对小尺度上人口空间化方法的研究还较少,具体表现在:人口分布问题涉及人口学、经济学、地理学、社会学等多个学科,传统的人口数据主要来源于人口普查,而且是以县级行政区划为基本单元的统计数据集,但在实际应用时存在数据空间分辨率低、不准确以及更新周期长等问题。由于人口的分布受各种复杂因素的影响,体现出极其随机的分布规律,给人口空间分布的研究造成了一定的难度。
通过计算机对人口进行空间分布模拟,是目前的研究方向。
发明内容
为解决传统方法的局限性,本发明提供了一种精细尺度人口数据空间化方法。
一种精细尺度人口数据空间化方法,包括如下步骤:
一)11)、从***储存的待处理区土地利用现状图层中调取土地利用数据,按照第二次全国土地调查土地分类标准,把土地利用数据所指代土地分为8类: 01耕地、02园地、03林地、04草地、20城镇村及工矿用地、10交通运输用地、 11水域及水利设施用地、12其他用地,之后进入步骤12);
12)、从***储存的待处理区土地利用现状图层中提取出待处理区的行政村边界图层,图层包含的基本属性字段包括行政村名称、行政村区划代码,将行政村边界图层作为空间数据,将行政区划代码作为匹配标识关键字段,将行政村社会统计数据作为属性数据导入到行政村图层属性中,基于“行政区划代码”公共字段完成空间数据与属性数据的匹配,行政村社会统计数据集合包括行政区划代码字段;之后进入步骤13);
13)、进行编行码匹配,建立地理信息空间数据库,地理信息空间数据库包含空间数据和属性数据,空间数据包括土地利用现状数据、行政村边界数据,属性数据包括行政村的社会统计数据;对土地利用现状图层与行政村边界图层进行叠加分析,提取并统计出各村各种土地类型的面积,用每种土地利用类型的面积除以行政村的面积,再乘以100%,即得到该土地利用类型指数;
采用双侧检验的皮尔逊(pearson)相关系数,分析各个村的土地利用类型指数与人口密度的相关关系,计算公式如下:
rxy为皮尔逊(pearson)相关系数;Xi代表土地利用指数的值,i指的是第几种土地类型,土地类型的顺序可设,代表了土地利用指数值的平均值;
Yi代表的是人口密度的值,i指的是第几个行政村的人口密度值,各行政村的标号顺序可自设,代表人口密度值的平均值;
rxy即土地利用指数样本的值Xi与人口密度样本的值Yi这两个要素的皮尔逊(pearson)相关系数,rxy的值在[-1,1]之间:rxy>0表示两个要素存在正相关型;rxy<0 表示两个要素之间存在负相关性;rxy的绝对值越接近1,则表示两要素之间的关系越密切,越密切代表两者直接的相关性越大;反之,若rxy绝对值越接近0,则表示两者之间关系越不密切;
在0.01显著性水平下,通过检验的土地利用指数为耕地指数、林地指数、城镇村及工矿用地指数和交通用地指数,说明01耕地、03林地、20城镇村及工矿用地、10交通用地是影响人口分布的主要因素;
二)分别选取IDW方法、多元回归方法和BP神经网络方法对人口数据进行空间化,并选择精度最高的方法进行最终人口数据空间化;
在进行人口数据空间化操作之前,首先将待计算处理的地域划分为 500m×500m的格网,然后以格网作为基本空间单元进行人口数据空间化;
人口数据空间化的方法有三种,分别为IDW方法、多元回归方法和BP神经网络方法:
21)在IDW插值方法中,把未通过0.01显著性水平检验的土地利用类型的人口密度设为0,设置栅格图像的空间分辨率与格网单元大小保持一致;
22)在多元回归方法中,把土地利用类型通过划分到每个格网中,选取人口密度值为因变量,耕地指数、林地指数、城镇村及工矿用地指数、交通用地指数为自变量,根据多元线性回归方程计算出每个格网的人口数目,然后以行政村为单位汇总得到缺失的村人口数;
多元线性回归方程公式如下:y1=β01X112X213X314X41
其中,y1为因变量,即人口密度值;β0为回归常数,X11、X21、X31、X41为自变量,X11为耕地指数、X21为林地指数、X31为城镇村及工矿用地指数、X41为交通用地指数,β1、β2、β3、β4为4个自变量的回归系数;ε为随机误差;
23)在BP神经网络方法中,采用的BP神经网络具有3层:一个输入层,一个中间隐含层,一个输出层;输入层包含4个输入节点,分别输入耕地指数、林地指数、城镇村及工矿用地指数、交通用地指数;中间隐含层的激励函数采用Sigmoid函数;输出层的输出结点为人口密度;
三)精度验证;随机抽取30个村作为检验样本,跟这30个村的人口实测数据,采用3种不同方法的实验模拟结果进行比较分析,误差的计算方法如下:
其中EP为人口误差百分比,popo为步骤二)三种模型方法中每一种方法模拟出的人口数据值,popt为村实际调查统计人口数目;
最后选取误差值最小的那种方法得到的数据结果作为最终结果。
所述的精细尺度人口数据空间化方法,其中:
所述的IDW方法以插值点与样本点间的距离为权重进行加权平均,所述的样本点是指取一个村的中心点作为该村的位置,以计算距离,该样本点坐标为(Xs,Ys),s=1,2,...,m,s表示序号,代表第s个控制点,控制点指的就是被用来计算的样本点,该样本点的属性值就是该村的人口估计数据值Zs,离插值点越近的样本点赋予的权重越大:设平面上分布一系列离散的样本点,各样本点的横、纵坐标和人口数据值用(Xs,Ys,Zs)表示,根据插值点周围离散点的值,通过距离加权求样本点的人口数据Z0,则
其中,Z0为插值点0的估计人口值,即为模拟人口数据值popo;Zs为控制点s的实际统计人口值;ds为控制点s与插值点0间的距离;m为在上述估计中用到的控制点的数目;k为指定的幂,幂参数k可以控制所述的控制点s对插值点0的影响,幂参数k的值取0.5到3。
所述的精细尺度人口数据空间化方法,其中:
所述的多元回归方法具体如下:
设置人口模型为:y1=β01X112X213X314X41
其中,y1为因变量,即人口值;β0为回归常数,因考虑到“无土地则无人口”现实情况,建模时β0设为0;X11、X21、X31、X41为自变量,X11为耕地面积、X21为林地面积、X31为城镇村及工矿用地面积、X41为交通用地面积,β1、β2、β3、β4为4个自变量的回归系数;ε为随机误差;
首先根据包含人口数据的格网数据构建多元线性回归模型,格网数据包括因变量y1和自变量X11、X21、X31、X41,得到四个自变量的回归系数β1、β2、β3、β4,然后将包含人口数据的格网的自变量X11、X21、X31、X41,代入到模型中,计算得到格网的人口数据y1,进而得到该行政村的模拟人口数据值popo
所述的精细尺度人口数据空间化方法,其中:所述的BP网络神经计算处理步骤如下:
41)网络构建:将计算的耕地指数、森林指数、城镇村及工矿用地指数作为输入节点,将人口密度作为输出节点,构建包含4个输入结点、一个输出结点、一个中间隐含层的3层BP神经网络模型;
行政村一种土地利用类型的面积与该村的总面积的百分比值称为该种土地利用类型指数,该指数反映的是该村的土地利用状况;
42)神经网络训练:首先设定初始的学习速率为0.01,学习终止误差为10-5,网络训练最大次数为5000,中间层的激励函数采用Sigmoid函数;以待处理区已知村的土地利用指数和统计人口数作为学习样本进行训练,为了消除量纲的影响,使得结果更精确,对所有的土地利用指数和统计人口数进行归一化处理;在训练中,信号由输入层经各隐含层向输出层完成前向传播,误差信号从输出层经各隐含层,最后回到输入层逐层修正各连接权,随着这种误差逆传播训练的不断修正,网络对输入模式响应的正确率也将不断提高;本技术方案对隐含层的结点分别选取5-12个节点数目,进行神经网络设计;
归一化处理的计算公式:
式中,V表示经归一化处理后的土地利用指数/统计人口数值,v*表示处理前的土地利用指数/统计人口数,max和min表示土地利用指数/统计人口数的最大值和最小值;
43)确实人口数据计算:根据训练好的神经网络,把待处理区缺失村的数据作为测试数据进行人口模拟,得到模拟人口数据值popo
本发明提供的精细尺度人口数据空间化方法,利用计算机技术解决了精细尺度人口数据缺失的村级人口空间化难题,分别选取IDW方法、多元回归方法和BP神经网络方法对人口数据进行空间化,并选择精度最高的方法进行最终人口数据空间化,从而大大提高最终人口数据空间化的精确度。
附图说明
图1为本发明技术方案所处理的黔江区概况图;
图2为本技术方案中三种方法人口模拟误差分布范围统计示意图;
图3为临界值与模型可靠度曲线示意图;
图4为抽样样本比例与模型可靠度曲线示意图;
图5为黔江区分布图;
图6为黔江区人口500*500m格网分布图。
具体实施方式
本发明精细尺度人口数据空间化方法,包括如下步骤:
一)11)、从待处理区土地利用现状图层中调取土地利用数据,按照第二次全国土地调查土地分类标准,把土地利用数据所指代土地分为8类:01耕地、 02园地、03林地、04草地、20城镇村及工矿用地、10交通运输用地、11水域及水利设施用地、12其他用地,之后进入步骤12);
12)、提取出待处理区的行政村边界图层,图层包含的基本属性字段包括行政村名称、行政村区划代码,将行政村边界图层作为空间数据,将行政区划代码作为匹配标识关键字段,将行政村社会统计数据作为属性数据导入到行政村图层属性中,基于“行政区划代码”公共字段完成空间数据与属性数据的匹配,行政村社会统计数据集合包括行政区划代码字段;之后进入步骤13);
13)、进行编行码匹配,建立地理信息空间数据库,地理信息空间数据库包含空间数据和属性数据,空间数据包括土地利用现状数据、行政村边界数据,属性数据包括行政村的社会统计数据;对土地利用现状图层与行政村边界图层进行叠加分析,提取并统计出各村各种土地类型的面积,用每种土地利用类型的面积除以行政村的面积,再乘以100%,即得到该土地利用类型指数;
采用双侧检验的皮尔逊(pearson)相关系数,分析各个村的土地利用类型指数与人口密度的相关关系,计算公式如下:
rxy为皮尔逊(pearson)相关系数;Xi代表土地利用指数的值,i指的是第几种土地类型,土地类型的顺序可自设,代表了土地利用指数值的平均值;
Yi代表的是人口密度的值,i指的是第几个行政村的人口密度值,各行政村的标号顺序可自设,代表人口密度值的平均值;
rxy即土地利用指数样本的值Xi与人口密度样本的值Yi这两个要素的皮尔逊(pearson)相关系数,rxy的值在[-1,1]之间:rxy>0表示两个要素存在正相关型;rxy<0 表示两个要素之间存在负相关性;rxy的绝对值越接近1,则表示两要素之间的关系越密切,越密切代表两者直接的相关性越大;反之,若rxy绝对值越接近0,则表示两者之间关系越不密切;
在0.01显著性水平下,通过检验的土地利用指数为耕地指数、林地指数、城镇村及工矿用地指数和交通用地指数,说明01耕地、03林地、20城镇村及工矿用地、10交通用地是影响人口分布的主要因素;
二)分别选取IDW方法、多元回归方法和BP神经网络方法对人口数据进行空间化,并选择精度最高的方法进行最终人口数据空间化;
在进行人口数据空间化操作之前,首先将待计算处理的地域划分为 500m×500m的格网,然后以格网作为基本空间单元进行人口数据空间化;
人口数据空间化的方法包括IDW方法、多元回归方法和BP神经网络方法:
21)在IDW插值方法中,把未通过0.01显著性水平检验的土地利用类型的人口密度设为0,设置栅格图像的空间分辨率与格网单元大小保持一致;
22)在多元回归方法中,把土地利用类型通过划分到每个格网中,选取人口密度值为因变量,耕地指数、林地指数、城镇村及工矿用地指数、交通用地指数为自变量,根据多元线性回归方程计算出每个格网的人口数目,然后以行政村为单位汇总得到缺失的村人口数;
多元线性回归方程公式如下:y1=β01X112X213X314X41
其中,y1为因变量,即人口密度值;β0为回归常数,X11、X21、X31、X41为自变量,X11为耕地指数、X21为林地指数、X31为城镇村及工矿用地指数、X41为交通用地指数,β1、β2、β3、β4为4个自变量的回归系数;ε为随机误差;
23)在BP神经网络方法中,采用的BP神经网络具有3层:一个输入层,一个中间隐含层,一个输出层;输入层包含4个输入节点,分别输入耕地指数、林地指数、城镇村及工矿用地指数、交通用地指数;中间隐含层的激励函数采用Sigmoid函数;输出层的输出结点为人口密度;
三)精度验证;
随机抽取30个村作为检验样本,跟这30个村的人口实测数据,采用3种不同方法的实验模拟结果进行比较分析,误差的计算方法如下:
其中EP为人口误差百分比,popo为步骤二)三种模型方法中每一种方法模拟出的人口数据值,popt为村实际调查统计人口数目;
最后选取误差值最小的那种方法得到的数据结果作为最终结果。
所述的IDW方法以插值点与样本点间的距离为权重进行加权平均,所述的样本点是指取一个村的中心点作为该村的位置,以计算距离,该样本点坐标为(Xs,Ys),s=1,2,...,m,s表示序号,代表第s个控制点,控制点指的就是被用来计算的样本点,该样本点的属性值就是该村的人口估计数据值Zs,离插值点越近的样本点赋予的权重越大:设平面上分布一系列离散的样本点,各样本点的横、纵坐标和人口数据值用(Xs,Ys,Zs)表示,根据插值点周围离散点的值,通过距离加权求样本点的人口数据Z0,则
其中,Z0为插值点0的估计人口值,即为模拟人口数据值popo;Zs为控制点s的实际统计人口值;ds为控制点s与插值点0间的距离;m为在上述估计中用到的控制点的数目;k为指定的幂,幂参数k可以控制所述的控制点s对插值点0的影响,幂参数k的值取0.5到3。
所述的多元回归方法具体如下:
设置人口模型为:y1=β01X112X213X314X41
其中,y1为因变量,即人口值;β0为回归常数,因考虑到“无土地则无人口”现实情况,建模时β0设为0;X11、X21、X31、X41为自变量,X11为耕地面积、X21为林地面积、X31为城镇村及工矿用地面积、X41为交通用地面积,β1、β2、β3、β4为4个自变量的回归系数;ε为随机误差;
首先根据包含人口数据的格网数据,格网数据包括因变量y1和自变量X11、 X21、X31、X41,利用SPSS软件构建多元线性回归模型,得到四个自变量的回归系数β1、β2、β3、β4,然后将包含人口数据的格网的自变量X11、X21、X31、 X41,代入到模型中,计算得到格网的人口数据y1,进而得到该行政村的模拟人口数据值popo
所述的BP网络神经计算处理步骤如下:
41)网络构建:将计算的耕地指数、森林指数、城镇村及工矿用地指数作为输入节点,将人口密度作为输出节点,构建包含4个输入结点、一个输出结点、一个中间隐含层的3层BP神经网络模型;
行政村一种土地利用类型的面积与该村的总面积的百分比值称为该种土地利用类型指数,该指数反映的是该村的土地利用状况;
42)神经网络训练:首先设定初始的学习速率为0.01,学习终止误差为10-5,网络训练最大次数为5000,中间层的激励函数采用Sigmoid函数;以待处理区已知村的土地利用指数和统计人口数作为学习样本进行训练,为了消除量纲的影响,使得结果更精确,对所有的土地利用指数和统计人口数进行归一化处理;在训练中,信号由输入层经各隐含层向输出层完成前向传播,误差信号从输出层经各隐含层,最后回到输入层逐层修正各连接权,随着这种误差逆传播训练的不断修正,网络对输入模式响应的正确率也将不断提高;本技术方案对隐含层的结点分别选取5-12个节点数目,进行神经网络设计;归一化处理的计算公式:式中,V表示经归一化处理后的土地利用指数/统计人口数值, v*表示处理前的土地利用指数/统计人口数,max和min表示土地利用指数/统计人口数的最大值和最小值;
43)确实人口数据计算:根据训练好的神经网络,把待处理区缺失村的数据作为测试数据进行人口模拟,得到模拟人口数据值popo
以下是本方案在研究阶段的研究实现过程和对具体地域的分析过程、结果:
如图1,重庆市黔江区是“新纲要”中武陵山片区“六中心四轴线”中六个城市之一,并且是重庆市主要的少数民族聚居地之一,研究其贫困村的空间分布与村级致贫因素具有重要意义。黔江区辖30个街道镇乡、218个村(社区),总人口约54万人,其中以土家族、苗族为主的少数民族人口占73%。
本实施例所用的数据主要来源于两个方面:地理空间数据和社会统计数据。地理空间数据包括空间分辨率为90m的ASTER GDEM和2011年黔江区1:10 000土地利用数据,社会经济统计数据主要依据黔江区***2011年发布的村级建档立卡人口统计数据。样本空间单元为黔江区214个行政村,随机选取30个村作为模型精度检验样本。本技术方案对原始数据进行了地理配准、矢量化、数据查漏和剔除粗差等预处理。
首先使用土地利用数据,并根据第二次全国土地调查土地分类标准,把土地利用分为8类。利用ArcGIS9.3软件提取出待处理区的行政村边界,然后与社会统计数据进行编码匹配,建立数据库。分别统计各村各个土地类型的面积,用某种土地利用类型的面积除以行政村的面积,再乘以100%,即得到该土地利用类型指数。在SPSS软件中,采用双侧检验的皮尔逊(pearson)相关系数,分析各个村的土地利用指数与人口密度的相关关系。分析结果见表1。由表1可以看出,在0.01显著性水平下,通过检验的指数为耕地指数、林地指数、城镇村及工矿用地指数和交通用地指数,说明耕地,林地,城镇村及工矿用地,交通用地是影响人口分布的主要因素。
表1土地利用类型和人口密度的相关系数
**表示在0.01显著性水平下通过检验
本技术方案在兼顾模型效率的基础上,选取80%作为人口空间化模拟可靠度的最低值,即在黔江区建立500×500m的格网对人口进行空间化。采用随机抽样方式,抽取30个行政村作为样本点,其分布见图1。利用叠加分析和面积占优法对格网所属村进行赋值,获取验证村模拟的人口数据,并与实际统计人口进行比较分析。表6为不同方法模拟结果与实际人口的误差的统计结果。以误差百分比为10%为界线,可以得到OLS的可靠度为50%,GWR为60%,MGWR为72.3%,MGWR-SL为83.3%。
表6不同方法模拟结果与实际人口的误差
上述研究得出在10%临界值条件和抽样比例一定下,MWGR-SL模型的效果最好。接来下主要探讨不同的临界值和不同的抽样样本比例下,MWGR-SL模型的可靠度。通过MWGR-SL模型获得30个村的模拟结果,以不同的误差百分比作为临界值,可以得到相应的模型可靠度,采用六次多项式拟合,得到不同临界值的模型可靠度,如图3。从图3可以看出,模型可靠度在临界值0-10%之间增长较快,在10%以后增加变缓慢,说明人口的误差集中在10%以内。在以10%作为误差百分比为临界值时,通过随机选取验证村的方法,建立MGWR-SL模型,统计抽样样本比例与模型可靠度关系,采用四次拟合可以得到抽样样本比例与模型可靠度的关系,如图4。由图4可知,随着抽样比例的增高模型可靠度增加,当样本村的抽样比例为80%时,模型可靠度达到80%以上,模型拟合结果比较理想。
计算各行政村贫困发生率Moran′s I指数为0.49,Z值为11.91,此结果在0.01 的显著性水平下通过检验,说明黔江区的人口分布呈现集聚的空间正相关性,这为基于MGWR-SL模型结果的有效性提供了必要的保障。
通过MGWR-SL模型得出500×500m格网的经济状况分布图(图5)和人口分布图 (图6)。
针对小尺度上人口数据缺失的问题,本技术方案以土地利用作为人口空间分布的依据,在对比不同的人口空间化方法的基础上,从区域属性和人口属性对致贫因素进行选取,构建MGWR-SL方法,模拟黔江区村级人口的空间分布。结果如下:(1)与IDW、格网方法相比,BP神经网络的精度最高。格网尺度从 1000m降到50m时,BP模型的可靠度从75.3%增加到85.3%(2)以10%为临界值, MGWR-SL方法模拟可靠度为83.3%,人口模拟误差绝对值小于5%,整体上模型的误差绝对值小于3%。在进行小尺度人文数据空间化建模时,综合考虑变量之间的空间异质性和自相关性,可以有效提升模型的精度。(3)在今后的工作中,可以进一步实地统计格网内的人口对模型的可靠度进行检验。在进行小尺度回归统计建模时,可以考虑把更多的空间计量模型和地理加权模型结合起来,并对估计参数进行检验是该类模型以后研究的重点。
经实际检验,利用计算机技术,本技术方案提出的空间化方法可提高模拟人口数据的精度,解决了无法实地考察以及实地考察情况下各种原因造成人口数据不准确的难题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (1)

1.一种精细尺度人口数据空间化方法,其特征在于,包括如下步骤:
一)
11)、从***储存的待处理区土地利用现状图层中调取土地利用数据,按照第二次全国土地调查土地分类标准,把土地利用数据所指代土地分为8类:01耕地、02园地、03林地、04草地、20城镇村及工矿用地、10交通运输用地、11水域及水利设施用地、12其他用地,之后进入步骤12);
12)、提取出待处理区的行政村边界图层,图层包含的基本属性字段包括行政村名称、行政村区划代码,将行政村边界图层作为空间数据,将行政区划代码作为匹配标识关键字段,将行政村社会统计数据作为属性数据导入到行政村图层属性中,基于“行政区划代码”公共字段完成空间数据与属性数据的匹配,行政村社会统计数据集合包括行政区划代码字段;之后进入步骤13);
13)、进行编行码匹配,建立地理信息空间数据库,地理信息空间数据库包含空间数据和属性数据,空间数据包括土地利用现状数据、行政村边界数据,属性数据包括行政村的社会统计数据;对土地利用现状图层与行政村边界图层进行叠加分析,提取并统计出各村各种土地类型的面积,用每种土地利用类型的面积除以行政村的面积,再乘以100%,即得到该土地利用类型指数;
采用双侧检验的皮尔逊(pearson)相关系数,分析各个村的土地利用类型指数与人口密度的相关关系,计算公式如下:
其中:rxy为皮尔逊(pearson)相关系数;
Xi代表土地利用指数的值,i指的是第几种土地类型,土地类型的顺序可自设,代表了土地利用指数值的平均值;
Yi代表的是人口密度的值,i指的是第几个行政村的人口密度值,各行政村的标号顺序可自设,代表人口密度值的平均值;
rxy即土地利用指数样本的值Xi与人口密度样本的值Yi这两个要素的皮尔逊(pearson)相关系数,rxy的值在[-1,1]之间:rxy>0表示两个要素存在正相关型;rxy<0表示两个要素之间存在负相关性;rxy的绝对值越接近1,则表示两要素之间的关系越密切,越密切代表两者直接的相关性越大;反之,若rxy绝对值越接近0,则表示两者之间关系越不密切;
在0.01显著性水平下,通过检验的土地利用指数为耕地指数、林地指数、城镇村及工矿用地指数和交通用地指数,说明01耕地、03林地、20城镇村及工矿用地、10交通用地是影响人口分布的主要因素;
二)
分别选取IDW方法、多元回归方法和BP神经网络方法对人口数据进行空间化,并选择精度最高的方法进行最终人口数据空间化;
在进行人口数据空间化操作之前,首先将待计算处理的地域划分为500m×500m的格网,然后以格网作为基本空间单元进行人口数据空间化;
人口数据空间化的方法有三种,分别为IDW方法、多元回归方法和BP神经网络方法:
21)在IDW插值方法中,把未通过0.01显著性水平检验的土地利用类型的人口密度设为0,设置栅格图像的空间分辨率与格网单元大小保持一致;
22)在多元回归方法中,把土地利用类型通过划分到每个格网中,选取人口密度值为因变量,耕地指数、林地指数、城镇村及工矿用地指数、交通用地指数为自变量,根据多元线性回归方程计算出每个格网的人口数目,然后以行政村为单位汇总得到缺失的村人口数;
所述多元线性回归方程公式如下:
y1=β01X112X213X314X41
其中,y1为因变量,即人口密度值;β0为回归常数,X11、X21、X31、X41为自变量,X11为耕地指数、X21为林地指数、X31为城镇村及工矿用地指数、X41为交通用地指数,β1、β2、β3、β4为4个自变量的回归系数;ε为随机误差;
23)在BP神经网络方法中,采用的BP神经网络具有3层:一个输入层,一个中间隐含层,一个输出层;输入层包含4个输入节点,分别输入耕地指数、林地指数、城镇村及工矿用地指数、交通用地指数;中间隐含层的激励函数采用Sigmoid函数;输出层的输出结点为人口密度;
三)精度验证
随机抽取30个村作为检验样本,跟这30个村的人口实测数据,采用3种不同方法的实验模拟结果进行比较分析,误差的计算方法如下:
其中EP为人口误差百分比,popo为步骤二)三种模型方法中每一种方法模拟出的人口数据值,popt为村实际调查统计人口数目;
最后选取误差值最小的那种方法得到的数据结果作为最终结果;
所述的IDW方法以插值点与样本点间的距离为权重进行加权平均,所述的样本点是指取一个村的中心点作为该村的位置,以计算距离,该样本点坐标为(Xs,Ys),s=1,2,...,m,s表示序号,代表第s个控制点,控制点指的就是被用来计算的样本点,该样本点的属性值就是该村的人口估计数据值Zs,离插值点越近的样本点赋予的权重越大:设平面上分布一系列离散的样本点,各样本点的横、纵坐标和人口数据值用(Xs,Ys,Zs)表示,根据插值点周围离散点的值,通过距离加权求样本点的人口数据Z0,则
其中,Z0为插值点0的估计人口值,即为模拟人口数据值popo;Zs为控制点s的实际统计人口值;ds为控制点s与插值点0间的距离;m为在上述估计中用到的控制点的数目;k为指定的幂,幂参数k可以控制所述的控制点s对插值点0的影响,幂参数k的值取0.5到3;
所述的多元回归方法具体如下:
设置人口模型为:
y1=β01X112X213X314X41
其中,y1为因变量,即人口值;β0为回归常数,因考虑到“无土地则无人口”现实情况,建模时β0设为0;X11、X21、X31、X41为自变量,X11为耕地面积、X21为林地面积、X31为城镇村及工矿用地面积、X41为交通用地面积,β1、β2、β3、β4为4个自变量的回归系数;ε为随机误差;
首先根据包含人口数据的格网数据,格网数据包括因变量y1和自变量X11、X21、X31、X41,构建多元线性回归模型,得到四个自变量的回归系数β1、β2、β3、β4,然后将包含人口数据的格网的自变量X11、X21、X31、X41,代入到模型中,计算得到格网的人口数据y1,进而得到该行政村的模拟人口数据值popo
所述的BP神经网络计算处理步骤如下:
41)网络构建:将计算的耕地指数、森林指数、城镇村及工矿用地指数作为输入节点,将人口密度作为输出节点,构建包含4个输入结点、一个输出结点、一个中间隐含层的3层BP神经网络模型;
行政村一种土地利用类型的面积与该村的总面积的百分比值称为该种土地利用类型指数,该指数反映的是该村的土地利用状况;
42)神经网络训练:首先设定初始的学习速率为0.01,学习终止误差为10-5,网络训练最大次数为5000,中间层的激励函数采用Sigmoid函数;以待处理区已知村的土地利用指数和统计人口数作为学习样本进行训练,对所有的土地利用指数和统计人口数进行归一化处理;在训练中,信号由输入层经各隐含层向输出层完成前向传播,误差信号从输出层经各隐含层,最后回到输入层逐层修正各连接权;对隐含层的结点分别选取5-12个节点数目,进行神经网络设计;
归一化处理的计算公式:
式中,V表示经归一化处理后的土地利用指数/统计人口数值,v*表示处理前的土地利用指数/统计人口数,max和min表示土地利用指数/统计人口数的最大值和最小值;
43)确实人口数据计算:根据训练好的神经网络,把待处理区缺失村的数据作为测试数据进行人口模拟,得到模拟人口数据值popo
CN201910678328.1A 2019-07-25 2019-07-25 一种精细尺度人口数据空间化方法 Active CN110716998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910678328.1A CN110716998B (zh) 2019-07-25 2019-07-25 一种精细尺度人口数据空间化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910678328.1A CN110716998B (zh) 2019-07-25 2019-07-25 一种精细尺度人口数据空间化方法

Publications (2)

Publication Number Publication Date
CN110716998A CN110716998A (zh) 2020-01-21
CN110716998B true CN110716998B (zh) 2023-11-24

Family

ID=69210161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910678328.1A Active CN110716998B (zh) 2019-07-25 2019-07-25 一种精细尺度人口数据空间化方法

Country Status (1)

Country Link
CN (1) CN110716998B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488413A (zh) * 2020-12-11 2021-03-12 重庆邮电大学 基于awa-drcn的人口空间化方法
CN115238584B (zh) * 2022-07-29 2023-07-11 湖南大学 一种基于多源大数据的人口分布识别方法
CN117688120B (zh) * 2024-02-02 2024-04-19 中国测绘科学研究院 基于多源数据精细划分公开人口空间数据集的方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108871286A (zh) * 2018-04-25 2018-11-23 中国科学院遥感与数字地球研究所 空间大数据协同的城市建成区人口密度估算方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170212992A1 (en) * 2016-01-26 2017-07-27 Northwestern University Systems and methods for generating high resolution probabilistic raster maps for electronic health record and other data associated with a geographical region

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108871286A (zh) * 2018-04-25 2018-11-23 中国科学院遥感与数字地球研究所 空间大数据协同的城市建成区人口密度估算方法和***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
基于GIS的人口空间离散化方法及其应用――以北方地区为例;唐奇;许新宜;俞淞;信达;;北京师范大学学报(自然科学版)(第06期);全文 *
基于土地利用的中国人口密度模拟;田永中,陈述彭,岳天祥,朱莉芬,王英安,范泽孟,马胜男;地理学报(第02期);全文 *
基于神经网络和GIS的广西都安县人口数据空间化研究;黄河清;王有亮;胡宝清;李玲;;测绘与空间地理信息(第06期);全文 *
山地丘陵区社会经济数据空间化模型构建及应用;翁才银;信桂新;杨庆媛;;西南大学学报(自然科学版)(第09期);全文 *
聊城市人口密度空间化方法探讨与运用;李明杰;钱乐祥;陈健飞;肖燕;彭军超;;广州大学学报(自然科学版)(第02期);全文 *

Also Published As

Publication number Publication date
CN110716998A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
Allen et al. Quantifying uncertainty in high-resolution coupled hydrodynamic-ecosystem models
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
CN110716998B (zh) 一种精细尺度人口数据空间化方法
CN110619432A (zh) 一种基于深度学习的特征提取水文预报的方法
CN110503267B (zh) 基于时空尺度自适应模型的城市侵财案件预测***及预测方法
Qin et al. Noisesense: A crowd sensing system for urban noise mapping service
CN106021290A (zh) 一种基于多尺度地理信息的社交网络关联挖掘方法
CN108627798A (zh) 基于线性判别分析和梯度提升树的wlan室内定位算法
Liang et al. Modeling and regionalization of China’s PM2. 5 using spatial-functional mixture models
CN111523088A (zh) 一种基于dpsir模型的生态环境评价方法
CN112954623A (zh) 一种基于手机信令大数据的居民入住率估算方法
CN115456695A (zh) 一种店铺选址的分析方法、装置、***及介质
CN114398951A (zh) 一种基于随机森林和众源地理信息的土地利用变化驱动因子挖掘方法
Wang et al. Two-dimension monthly river flow simulation using hierarchical network-copula conditional models
CN113901348A (zh) 一种基于数学模型的钉螺分布影响因素识别与预测方法
CN109977131A (zh) 一种房型匹配***
CN106844626B (zh) 利用微博关键词和位置信息模拟空气质量的方法及***
CN102880753B (zh) 基于分形维数的土地利用空间特征尺度转换方法
US20120084249A1 (en) Method for pollen-based geolocation
Ye et al. A study of destination selection model based on link flows
CN114611832B (zh) 一种基于贝叶斯多模型集对分析的海水入侵预测方法
Abujayyab et al. A new framework for geospatial site selection using artificial neural networks as decision rules: a case study on landfill sites
CN115879594A (zh) 一种基于地理探测器的城市定居人口分布趋势预测方法
CN110852597B (zh) 基于生成对抗网络的用电高峰时段居民负荷占比计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant