CN107887026B - 一种基于环境危险要素的组件式癌症智能制图***及方法 - Google Patents

一种基于环境危险要素的组件式癌症智能制图***及方法 Download PDF

Info

Publication number
CN107887026B
CN107887026B CN201711052882.6A CN201711052882A CN107887026B CN 107887026 B CN107887026 B CN 107887026B CN 201711052882 A CN201711052882 A CN 201711052882A CN 107887026 B CN107887026 B CN 107887026B
Authority
CN
China
Prior art keywords
cancer
distribution
environmental risk
monitoring data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711052882.6A
Other languages
English (en)
Other versions
CN107887026A (zh
Inventor
廖一兰
王劲峰
陈万青
张宁旭
李东岳
曾红梅
夏昌发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Geographic Sciences and Natural Resources of CAS filed Critical Institute of Geographic Sciences and Natural Resources of CAS
Priority to CN201711052882.6A priority Critical patent/CN107887026B/zh
Publication of CN107887026A publication Critical patent/CN107887026A/zh
Application granted granted Critical
Publication of CN107887026B publication Critical patent/CN107887026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种基于环境危险要素的组件式癌症智能制图***及方法,制图***包括制图数据筛选及建库模块、地域分区模块、制图模型选择模块、癌症分布制图模块。制图方法首先进行制图环境危险要素和数据筛选,建立制图数据库;然后通过用户选择,对需制图区域地域分区,或者直接不分区;接着确定最优癌症空间制图方法;最后利用选取的最优癌症空间制图方法后,根据用户选择,生成需制图区域的癌症分布图和制图误差分布图。本发明可有效解决传统仅基于癌症调查数据的癌症分布制图模式的单一性、不准确性等,可用于对我国传统癌症制图模式进行补充和优化,解决现有的癌症分布图缺乏统一的制图标准的问题,促进癌症制图朝着标准化的方向发展。

Description

一种基于环境危险要素的组件式癌症智能制图***及方法
技术领域
本发明涉及一种癌症智能制图***及方法,尤其涉及一种基于环境危险要素的组件式癌症智能制图***及方法。
背景技术
癌症是严重威胁人类健康和社会发展的重大疾病。根据2012年世界癌症报告,2012年中国新增癌症病例约占全球的20%,癌症死亡病例约占全球25%,2012年中国新增癌症病例306万例,癌症死亡220万例。发病率最高的癌症依次为肺癌、胃癌、肝癌、直肠癌和食道癌。预计到2020年,中国每年癌症新发和死亡病例将达到388万和276万。2004-2005年全国第三次死因回顾抽样调查结果显示,中国癌症死亡居全死因的第二位,占全部死亡的22.3%;而在城市地区,癌症已经成为第一位死亡原因。我国地域广大,自然地理环境和居民生活习惯也各有特点,因此,各地区癌症分布情况也存在差异。基于癌症日常监测数据精确估计我国人群主要癌症的地理分布情况,能为政府优化防治资源、卫生行政部门制定防治规划、医疗及相关机构开展癌症综合防治研究与实践,提供基本参考信息。在癌症制图过程中,无可避免地会遇到多个难题,诸如:如何准确地寻找影响癌症发病或死亡风险空间分布的环境危险要素,如何精确建立其和癌症发病或死亡监测数据之间的数学关系表达式,如何高效率地同时进行多个地区的癌症精细制图等。国内外很多癌症制图方法中是通过建立环境危险要素和癌症发病或死亡监测数据之间线性或非线性关系模型或者规则的方法来实现环境危险要素选取和癌症制图的。但是现有癌症制图方法都有一定的适用范围,方法制图精度受癌症空间分布特征,监测数据的代表性和环境危险因素影响机制等多个方面的影响。而且由于不同地区不同种类的癌症致病机理、环境危险因素以及风险人群等方面大相径庭,因此很难以单一方法来反映多个地区癌症发病或死亡情况的空间分布格局和规律。另外现有的已生产出来的癌症数据缺乏统一的制图标准,无论是投影、坐标***,还是地图专题和符号类型,随意性大。
发明内容
本发明的技术解决问题是:本发明提供一种集合环境危险要素选择、分区选择、制图模型选择功能的组件式癌症智能制图***及方法,基于癌症日常监测数据,结合社会经济、医疗卫生和地理环境等要素,快速、智能、准确地绘制癌症的发病或死亡的空间分布图,而且生成估计误差分布图,可有效解决传统仅基于癌症监测数据的癌症分布制图模式的单一性、不准确性等问题。另外本发明确定了统一的癌症空间分布图的结构与图层配合方案,图例***及表达方式,对我国传统癌症制图模式进行补充和优化,解决现有的癌症分布图缺乏统一的制图标准的问题,促进癌症制图朝着标准化的方向发展。
本发明的技术解决方案为:一种基于环境危险要素的组件式癌症智能制图***及方法,其充分利用与癌症有关的社会经济和地理环境危险要素,对癌症发病数/率或死亡数/率分布进行准确估计。
本发明提供了一种基于环境危险要素的组件式癌症智能制图***,包括:制图数据筛选及建库模块、地域分区模块、制图模型选择模块、癌症分布制图模块。其中,
制图数据筛选及建库模块:在需制图区域社会经济要素、地理环境要素和医疗卫生要素中选取与需制图的癌症的发病或死亡风险相关的环境危险要素;再将癌症发病或死亡监测数据和所选择的环境危险要素数据按照癌症种类进行融合,删除其中的噪声、空缺、逻辑错误的数据,建立癌症制图数据库;最后根据癌症制图数据库中癌症的发病或死亡监测数据与环境危险要素数据的相关关系和各种数据是否有着相同的空间分布格局即是否存在空间一致性分析来确定最终进行癌症制图所需的环境危险要素;
地域分区模块:用于基于癌症致病机理和/或癌症数据分布对需制图区域进行分区;其中,基于癌症致病机理进行分区,即从癌症发病或死亡风险相关的环境危险要素分布出发,按照环境危险要素不同子类型区对需制图区域分区;基于癌症数据分布进行分区,即根据癌症监测数据在与癌症发病或死亡风险不相关但空间分布较一致的环境危险要素不同子类型区之间所表现出来的数值差异,选择癌症监测数据在子类型区之间的数值差异最大所对应的环境危险要素分区方式对需制图区域分区;如果用户选择多个分区方式,地域分区模块会自主比较不同分区方式下癌症发病或死亡监测数据在各子类型区之间的数值差异,将差异最大的那种分区方式确定为癌症制图的最终地域分区方式;最终,用户在地域分区模块得到多个子类型区域;其中,当选择跳过该地域分区模块时,制图***默认为是对不分区情况下的需制图区域进行制图;
制图模型选择模块:用于为地域分区方式下各子类型区域或者不分区情况下整个需制图区域选择不同癌症制图模型,并且综合各种癌症监测数据的空间分布特征和制图数据筛选及建库模块中确定的环境危险要素对癌症发病或死亡风险的影响向用户推荐地域分区方式下各子类型区域或者整个需制图区域的癌症默认最优制图模型;其中,制图模型选择模块的模型库中包括了大量适用于不同空间分布特征和环境危险要素影响形式的制图模型;
癌症分布制图模块:制图模型选择模块选取合适的癌症制图模型后,癌症分布制图模块则根据用户选择,生成需制图区域的癌症发病数/率或死亡数/率分布图和制图误差分布图。
相应地,本发明还提供了一种基于环境危险要素的组件式癌症智能制图***的制图方法,包括如下步骤:
制图数据筛选及建库步骤,在需制图区域社会经济要素、地理环境要素和医疗卫生要素中选取可能与需制图的癌症的发病或死亡风险相关的环境危险要素;再将癌症发病或死亡监测数据和所选择的环境危险要素数据进行融合并去噪,由此建立癌症制图数据库;最后根据癌症制图数据库中癌症的发病或死亡监测数据与环境危险要素数据的相关关系和各种数据是否存在一致的空间分布格局分析来确定最终进行癌症制图所需的环境危险要素;
地域分区步骤,基于癌症致病机理和/或癌症数据分布对需制图区域进行分区;其中,基于癌症致病机理进行分区,即从癌症发病或死亡风险相关的环境危险要素分布出发,按照环境危险要素不同子类型区对需制图区域分区;基于癌症数据分布进行分区,即根据癌症监测数据在与癌症发病或死亡风险不相关但空间分布较一致的环境危险要素不同子类型区之间所表现出来的数值差异,选择差异最大所对应的环境危险要素分区方式对需制图区域分区;当选择多个分区方式时,则自主比较不同分区方式下癌症发病或死亡监测数据的在各子类型区之间的数值差异,将差异最大的那种分区方式确定为癌症制图的最终地域分区方式;
制图模型选择步骤,综合各种癌症监测数据的空间分布特征和制图数据筛选及建库模块中确定的环境危险要素对癌症发病或死亡风险的影响,基于包括大量适用于不同空间分布特征和环境危险要素影响形式的制图模型的模型库,为地域分区方式下各子类型区域或者不分区情况下整个需制图区域选择默认最优癌症制图模型;
癌症分布制图步骤,选取合适的癌症制图模型后,根据用户选择,生成需制图区域的癌症发病数/率或死亡数/率分布图和制图误差分布图。
上述基于环境危险要素的组件式癌症智能制图***的制图方法,还包括以下优先的技术特征:
其所述的子类型区域最优制图模型的确定步骤包括:在通过地域分区步骤确定了分区后,制图模型选择步骤在各子类型区域中对癌症监测数据的空间分布特征和环境危险要素对癌症发病或死亡风险的影响评估;然后制图模型选择步骤从模型库中自动选取适用于此种空间分布特征和环境危险要素影响形式下的不同制图模型,分别进行制图,并通过交叉验证进行精度评价,最终以精度最高的方法作为此子类型区域中最优制图模型。
其所述的癌症分布图的生成步骤包括:生成需制图区域的不同人群譬如城/乡、男/女或不同年龄组人群的需制图癌症的发病数/率或死亡数/率分布数据,或者将不同人群癌症分布数据结果按照人群构成比例生成该需制图区域的全人群的该癌症的发病数/率或死亡数/率分布数据,同时癌症分布制图步骤利用交叉验证方法生成制图误差数据;确定癌症分布图的图层配合方案、图例及表达方式,以一定的不同点线符号或文字来表示行政单元或者分区边界地物要素,采用色差来表示癌症发病数/率或死亡数/率、相对误差的癌症发病率、死亡率的等级,绘制癌症发病数/率或死亡数/率分布图和制图误差分布图,最终质检定稿后印刷出图。
其所述的基于癌症致病机理进行分区的步骤如下:
步骤(1)、通过相关性分析确定与癌症发病或死亡风险相关的环境危险要素;
步骤(2)、对于每一个筛选出的环境危险要素,按照同一子类型区域中癌症监测数据数值差异最小,不同子类型区域之间差异最大为原则进行分区;首先设定预期的该环境危险要素的分区数目;然后随机划分相应数目的危险要素数值区间作为初始分区,由计算初始分区下所有数值区间对应的子类型区域中癌症监测数据之间的数值差异性大小q;
Figure BDA0001453297790000041
其中,公式(1)中的N代表整个需制图区域的所有癌症监测点的数量,Nh是某环境危险要素的子类型区域h(h=1,…,L)里的癌症监测点的数量,L是该环境危险要素的分区数目,σ2是整个需制图区域的所有癌症监测数据之间的数值差异大小,σh 2是子类型h区域内的癌症监测数据之间的数值差异大小,q∈[0,1],q越大表明不同子类型区域中癌症监测数据之间的数值差异越大,分区效果越好;之后在初始分区每个数值区间的界线值的基础上分别加随机数进行分区调整,并计算q值的变化;若调整分区下的q值大于初始分区的q值,那么将调整分区作为当前最优分区,接着在当前最优分区的每个数值区间的界线值的基础上分别加随机数再次进行分区调整;分类调整如此循环多次,直到调整数次达到设定的迭代次数。最终q值最大的最优分区作为该要素的分区结果;
步骤(3)、比较所有所选的环境危险要素的类型子区域中癌症监测数据之间的数值差异性大小q,q值最大所对应的某种环境危险要素分区,作为最终的基于癌症发病机理的分区方式。
其所述的基于癌症数据分布进行分区的步骤如下:
步骤(1)、选择与癌症发病或死亡的不相关但空间分布较一致的环境危险要素,逐一与癌症监测数据进行空间叠加,由此实现基于每个所选环境危险要素的癌症监测数据空间分区;
步骤(2)、比较所有所选的环境危险要素的子类型区域中癌症监测数据之间的数值差异性大小q,q值最大所对应的某种环境危险要素分区,作为最终的基于癌症数据分布的分区方式。
其所述的制图模型选择的步骤还包括如下步骤:
步骤(1)、若用户选择跳过地域分区的步骤,那么直接评价整个需制图区域中癌症监测数据的空间分布特征和环境危险要素对癌症发病或死亡风险的影响;否则根据地域分区步骤中的分区结果,分别评价在该分区方式下各子类型区域中癌症监测数据的空间分布特征和环境危险要素对癌症发病或死亡风险的影响;包括如下步骤a、步骤b、步骤c:
步骤a、根据每个子类型区域中癌症监测数据的空间分布,利用公式(2)评价癌症监测数据在该子类型区域中是否存在空间聚集,即越相近的癌症监测点上的监测值越相似,反之相隔越远的癌症监测点上的监测值差距越大,公式如下:
Figure BDA0001453297790000051
其中:
Figure BDA0001453297790000052
公式(2)中n代表该子类型区域中癌症监测点个数,xi和xj分别为癌症监测点i和j上的监测值;
Figure BDA0001453297790000053
表示所有监测点的均值;空间权重矩阵Wij用来度量两个癌症监测点位置之间的空间邻近程度,矩阵中元素取值有多种方式;最常用的是0/1方式,即矩阵中元素值为0则代表癌症监测点i和j之间空间不相邻,元素值为1则代表癌症监测点i和j之间空间相邻;另外空间权重矩阵元素值也可以是与癌症监测点i和j之间空间距离相关的数值;空间相关性指标I值越大,说明该子类型区域中癌症监测数据存在着越发明显的空间聚集现象;
步骤b、通过相关性分析确定分区方式下各子类型区域中各种环境危险要素对癌症发病或死亡风险的影响;某种环境危险要素的相关性指标值越大,说明该种环境危险要素对癌症发病或死亡风险的影响越大;
步骤c、按照与地域分区步骤中空间分区相同的方法,基于各种环境危险要素和癌症监测数据分布,确定各子类型区域的分区方式,由此计算得到每个子类型区域中癌症监测数据的区块分布差异性大小q值;
步骤(2)、综合考虑确定分区方式下各子类型区域或者整个需制图区域内癌症监测数据空间分布的聚集情况、区块分布差异情况和环境危险要素影响情况,在此基础上形成癌症监测数据空间分布特征和环境危险要素对癌症发病或死亡风险的影响形式的不同情况组合的制图模型库;根据不同情况组合从制图模型库中自动筛选出适用于不同情况组合的不同制图模型;若癌症监测数据没有存在显著的空间聚集现象和区块分布差异特征但环境危险要素与癌症监测数据具有显著相关性,则结合环境危险要素选用线性回归方法或用于构建关系方程式的智能算法等模型;若癌症监测数据存在显著的空间聚集现象,则选用兼容空间邻接关系的系列模型;若癌症监测数据的区块分布存在明显的差异,则选用兼容监测数据所属区块属性的系列模型;若癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异,则选用兼容空间邻接关系和所属区块属性的模型组合。
步骤(3)、利用k-1交叉验证方法,计算确定分区方式下各子类型区域或者整个需制图区域内不同模型的制图结果的精度R2
Figure BDA0001453297790000061
公式(3)中xi *代表癌症监测点i上的监测值与所有监测点均值之差,xi'代表癌症监测点i上的监测值与制图模型得到的癌症监测点i上的计算值之差,,n代表该子类型区域或者整个需制图区域内癌症监测点个数;最终选择精度值R2最大所对应的制图模型,为该子类型区域或者整个需制图区域最优的制图方法。
所述步骤(2)中形成的不同情况组合的制图模型库包括以下八种情况:当环境危险要素与癌症监测数据具有显著相关性时,一、癌症监测数据没有存在显著的空间聚集现象和区块分布差异特征;二、癌症监测数据只存在显著的空间聚集现象但无区块分布差异特征;三、癌症监测数据只具有区块分布差异特征但不存在显著的空间聚集现象;四、癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异;当环境危险要素与癌症监测数据没有有显著相关性时,五、癌症监测数据没有存在显著的空间聚集现象和区块分布差异特征;六、癌症监测数据只存在显著的空间聚集现象但无区块分布差异特征;七、癌症监测数据只具有区块分布差异特征但不存在显著的空间聚集现象;八、癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异。显著是统计学里对结果具有统计学意义的说法。
本发明与现有技术相比的优点在于:本发明克服了单一方法难以精准拟合估计多个地区癌症发病或死亡情况的空间分布格局和规律的缺点,综合考虑癌症空间分布特征和环境危险因素影响机制等多方面的影响,集成环境危险要素选择、分区选择、制图模型选择多项功能,以组件形式实现快速、智能、准确地癌症制图,成功地实现了癌症制图过程的自动化。另外本发明统一制定了癌症地图制作生产规范,使得癌症地图的编制逐渐向规范化、标准化方向发展。生产的模式化可实现多个地区不同时期不同癌种发病或死亡情况的智能表达。
附图说明
图1为本发明的一种基于环境要素的组件式癌症制图***及方法的流程图。
图2为中国大陆(除台湾省和南海诸岛)2005女性肺癌死亡率估计分布图。
图3为中国大陆(除台湾省和南海诸岛)2005女性肺癌死亡率估计的相对误差分布图。
具体实施方式
下面以“中国大陆(除台湾省和南海诸岛)2005年女性肺癌死亡率分布的组件式制图”为具体实例,具体介绍本发明中基于环境要素的组件式癌症制图***及方法的具体实施步骤,如图1所示,模块的具体实现过程如下:
1.制图数据筛选及建库模块
在中国大陆(除台湾省和南海诸岛)的社会经济要素、地理环境要素和医疗卫生要素中选取可能与中国大陆2005年女性肺癌死亡率相关的环境危险要素;再将中国大陆2005年女性肺癌死亡率监测数据和所选择的可能的环境危险要素数据进行融合,然后处理其中机制未明的区域异常值、空缺、负值等数据,由此建立癌症制图数据库;利用癌症制图数据库中中国大陆2005年女性癌症死亡率与环境危险要素的相关关系和空间分布一致性即是否存在相同的空间分布格局来最终确定国民生产总值、女性受教育程度、非农业人口比重、女性吸烟率、女性饮酒率、女性的肉类摄入量、女性蔬菜水果摄入量、女性超重率、高程、人口密度、超过60岁人口所占比例、空气中细颗粒物浓度、第二产业所占比重、植被覆盖率等要素为进行中国大陆2005年女性肺癌死亡率分布制图所需的环境危险要素;
2.地域分区模块
由于癌症致病机制因地而异,所以在制图数据筛选及建库模块确定了环境危险要素之后,通过地域分区模块分别基于癌症致病机理和癌症数据分布对需制图区域进行分区。基于癌症致病机理分区,即从中国大陆2005年女性肺癌死亡风险相关的环境危险要素分布出发,按照环境危险要素不同子类型区对需制图区域分区;基于癌症数据分布分区,则是在与中国大陆2005年女性肺癌死亡风险不相关但空间分布较一致的环境危险要素不同子类型区之间所表现出来的数值差异,选择差异最大所对应的环境危险要素分区方式对需制图区域分区。选择多个分区方式后,地域分区模块自主比较不同分区方式下中国大陆2005年女性肺癌死亡率监测数据的数值空间分布差异,最终将差异最大的城市群分区确定为中国大陆2005年女性肺癌死亡率制图的最终地域分区方式。
基于癌症发病机理分区步骤如下:
步骤(1)、通过相关性分析,确定将与中国大陆2005年女性肺癌死亡风险最相关的高程要素的分布作为基于癌症发病机理分区的标准;
步骤(2)、高程数据是连续型数值数据,按照同一子类型区域中癌症监测数据数值差异最小,不同子类型区域之间差异最大为原则进行分区。首先设定预期的按照高程分区的数目为5到10个区;然后随机划分相应数目的高程值区间作为初始分区,由计算初始分区下所有数值区间对应的子类型区域中中国大陆2005年女性肺癌死亡率监测数据数值之间的差异性大小q;
Figure BDA0001453297790000081
其中,N代表整个需制图区域的所有癌症监测点的数量(N=218),Nh是某环境危险要素的子类型h(h=1,…,L)区域里的癌症监测点的数量,L是该环境危险要素的分区数目,σ2是整个需制图区域的所有癌症监测数据数值之间的差异大小,σh 2是子类型h区域内的癌症监测数据数值之间的差异大小,q∈[0,1],q越大表明不同子类型区域中癌症监测数据数值之间的差异越大,分区效果越好。之后在初始分区每个数值区间的界线值的基础上分别加随机数进行分区调整,并计算q值的变化。若调整分区下的q值大于初始分区的q值,那么将调整分区作为当前最优分区,接着在当前最优分区的每个数值区间的界线值的基础上分别加随机数再次进行分区调整。分类调整如此循环多次,直到调整数次达到设定的迭代次数300次。最终获得q值最大为0.323的最优分为9区作为高程的分区结果。
步骤(3)、q值最大所对应的高程数值分段区间分别为<31.25米,31.25-48.45米,48.45-53.97米,53.97-292.78米,292.78-325.48米,325.48-1558.15米,1558.15-2063.23米,2063.23-2439.24米,>2439.24米,这9个区间所对应的子类型区域分区作为最终的基于癌症发病机理分区方式。
基于癌症数据本身分布分区步骤如下:
步骤(1)、选择与中国大陆2005年女性肺癌死亡率风险不相关但空间分布较一致的流域、气候带和城市群要素,流域、气候带和城市群要素数据均是类型数据,逐一与中国大陆2005年女性肺癌死亡率监测数据进行空间叠加,由此实现基于流域、气候带和城市群要素的癌症监测数据空间分区;
步骤(2)、比较流域、气候带和城市群的子类型区域中中国大陆2005年女性肺癌死亡率监测数据数值之间的差异性大小q,得到按照流域分区的q值为0.302,按照气候带分区的q值为0.183,按照城市群分区的q值为0.377,q值最大所对应的城市群分区作为最终的基于癌症数据本身分布的分区方式。
在得到的两种分区方式中分区子类型中癌症监测数据数值之间的差异性最大的那种分区方式将作为缺省最优分区方式。比较基于癌症发病机理的高程分区和基于癌症数据本身分布的城市群分区各自的q值,按照城市群分区的q值最大,为0.377,因此将城市群分区确定为中国大陆2005年女性肺癌死亡率制图的缺省最优分区方式。
3.制图模型选择模块
综合中国大陆2005年女性肺癌死亡率监测数据的空间分布特征和制图数据筛选及建库模块中确定的环境危险要素对中国大陆2005年女性肺癌死亡风险的影响推荐确定城市群分区方式下各子类型区域的默认最优癌症制图方法;中国大陆2005年女性肺癌死亡率监测数据空间分布特征和环境危险要素相关性分析结果表明中国大陆2005年女性肺癌死亡率监测数据既显示出一定的聚集特征又在区块分布上有较大的差异,从模型库中自动选取适用于此种空间分布特征和环境危险要素影响形式下的克里格方法和多水平模型结合的方法与三明治方法两种模型对中国大陆2005年女性肺癌死亡率分布分别进行制图,并通过交叉验证进行精度评价,最终以精度最高的克里格方法和多水平模型结合的方法进行中国大陆2005年女性肺癌死亡率的分布制图。
制图模型选择模块具体实现过程如下:
步骤(1)、确定按照城市群分区后,计算在该分区方式下城市群内外部子类型区域中癌症监测数据的空间分布特征和环境危险要素对癌症发病或死亡风险的影响。其步骤如下:
步骤a、根据每个子类型区域中癌症监测数据的空间分布,利用公式(2)评价癌症监测数据在该子类型区域中是否存在空间聚集,即越相近的癌症监测点上的监测值越相似,反之相隔越远的癌症监测点上的监测值差距越大,公式如下:
Figure BDA0001453297790000091
其中:
Figure BDA0001453297790000092
式中n代表该子类型区域中癌症监测点个数,xi和xj分别为癌症监测点i和j上的监测值,
Figure BDA0001453297790000093
表示所有监测点的均值,空间权重矩阵Wij用来度量两个癌症监测点位置之间的空间邻近程度,矩阵中元素取值有多种方式,案例中用的是0/1方式,即矩阵中元素值为0则代表癌症监测点i和j之间空间不相邻,元素值为1则代表癌症监测点i和j之间空间相邻。最后计算得到城市群内部子类型区域的空间相关性指标I值为0.305,城市群外部子类型区域的空间相关性指标I值为0.041,说明中国大陆2005年女性肺癌死亡率监测数据在城市群内部子类型区域存在着明显的空间聚集现象;
步骤b、通过相关性分析确定分区方式下各子类型区域中各种环境危险要素对癌症发病或死亡风险的影响。某种环境危险要素的相关性指标值越大,说明该种环境危险要素对癌症发病或死亡风险的影响越大。
步骤c、按照与地域分区模块中空间分区相同的方法,基于各种环境危险要素和癌症监测数据分布,确定各子类型区域的分区方式,由此计算得到中国大陆2005年女性肺癌死亡率监测数据的区块分布差异性大小q值为0.377。
步骤(2)、综合考虑确定分区方式下各子类型区域或者整个需制图区域内癌症监测数据空间分布的聚集情况、区块分布差异情况和环境危险要素影响情况,在此基础上形成癌症监测数据空间分布特征和环境危险要素对癌症发病或死亡风险的影响形式的不同情况组合的制图模型库;根据不同情况组合从制图模型库中自动筛选出适用于不同情况组合的不同制图模型;若癌症监测数据没有存在显著的空间聚集现象和区块分布差异特征但环境危险要素与癌症监测数据具有显著相关性,则结合环境危险要素选用线性回归方法或用于构建关系方程式的智能算法等模型;若癌症监测数据存在显著的空间聚集现象,则选用兼容空间邻接关系的系列模型;若癌症监测数据的区块分布存在明显的差异,则选用兼容监测数据所属区块属性的系列模型;若癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异,则选用兼容空间邻接关系和所属区块属性的模型组合。中国大陆2005年女性肺癌死亡率监测数据与环境危险要素具有显著相关性,且在城市群内部存在显著的空间聚集现象,城市群内部和外部区块之间又具有显著差异,因此模块推荐使用适合于环境危险要素与癌症监测数据具有显著相关性且癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异的克里格方法和多水平模型结合的方法与三明治方法的两种模型对中国大陆2005年女性肺癌死亡率制图。所述步骤(2)中形成的不同情况组合的制图模型库包括以下八种情况:当环境危险要素与癌症监测数据具有显著相关性时,一、癌症监测数据没有存在显著的空间聚集现象和区块分布差异特征;二、癌症监测数据只存在显著的空间聚集现象但无区块分布差异特征;三、癌症监测数据只具有区块分布差异特征但不存在显著的空间聚集现象;四、癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异;当环境危险要素与癌症监测数据没有显著相关性时,五、癌症监测数据没有存在显著的空间聚集现象和区块分布差异特征;六、癌症监测数据只存在显著的空间聚集现象但无区块分布差异特征;七、癌症监测数据只具有区块分布差异特征但不存在显著的空间聚集现象;八、癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异。
步骤(3)、利用k-1交叉验证方法,计算确定分区方式下各子类型区域或者整个需制图区域内不同模型的制图结果的精度R2
Figure BDA0001453297790000111
xi *代表癌症监测点i上的监测值与所有监测点均值之差,xi'代表癌症监测点i上的监测值与制图模型得到的癌症监测点i上的计算值之差,,n代表该子类型区域或者整个需制图区域内癌症监测点个数,为218个。计算后利用克里格方法和多水平模型结合的方法做出的R2值为0.688,利用三明治方法做出的R2值为0.612,模块最终选择精度值R2最大所对应的克里格方法和多水平模型结合的制图模型为整个需制图区域最优的制图方法。
4.癌症分布制图模块
制图模型选择模块选取合适的癌症制图方法后,分别生成中国大陆2005年城乡女性肺癌死亡率分布数据,将城乡女性肺癌死亡率分布数据按照城乡女性人口比例生成中国大陆2005年女性肺癌死亡率分布数据,同时利用交叉验证方法生成制图误差数据;确定中国大陆2005年女性肺癌死亡率分布图的图层配合方案、图例及表达方式,以一定的不同点线符号或文字来表示行政单元或者分区边界地物要素,采用色差来表示中国大陆2005年女性肺癌死亡率、相对误差的等级,绘制中国大陆2005年女性肺癌死亡率分布图和估计误差分布图,最终质检定稿后印刷出图。
实现过程如下:
步骤(1)、制图模型选择模块选取合适的癌症制图方法后,生成中国大陆2005年城乡女性肺癌死亡率分布数据,然后将中国大陆2005年城乡女性肺癌死亡率分布数据结果按照城乡女性人口构成比例生成中国大陆2005年女性肺癌死亡率分布数据,同时模块利用交叉验证方法生成制图误差数据;
步骤(2)、确定癌症分布图的图层配合方案、图例及表达方式。图面内容为中国大陆2005年女性肺癌死亡率区县数据和省级行政单元边界数据,15级色差法表示的中国大陆2005年女性肺癌死亡率区县数据图层位于第一层面,以图斑内部无填充形式表示的省级行政单元边界位于第二层面,以一定的线符号来表示行政单元,绘制中国大陆2005年女性肺癌死亡率分布估计图,如图2所示;用5级色差法表示的中国大陆2005年女性肺癌死亡率监测点的误差分布图层位于第一层面,以图斑内部无填充形式表示的中国省级行政区域层位于第二层面,以一定的线符号来表示行政单元,绘制中国大陆2005年女性肺癌死亡率分布估计误差分布图,如图3所示;整个分布图采用中英文注记方式,以经纬网为基本控制网,最终质检定稿后印刷出图。
表1组件式癌症制图***所用的色系、图例设置及字形定义
Figure BDA0001453297790000121
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (8)

1.一种基于环境危险要素的组件式癌症智能制图***,其特征在于:包括制图数据筛选及建库模块、地域分区模块、制图模型选择模块、癌症分布制图模块,其中:
制图数据筛选及建库模块:在需制图区域社会经济要素、地理环境要素和医疗卫生要素中选取与需制图的癌症的发病或死亡风险相关的环境危险要素;再将癌症发病或死亡监测数据和所选择的环境危险要素数据按照癌症种类进行融合,删除其中的噪声、空缺、逻辑错误的数据,建立癌症制图数据库;最后根据癌症制图数据库中癌症的发病或死亡监测数据与环境危险要素数据的相关关系和各种数据是否有着相同的空间分布格局即是否存在空间一致性分析来确定最终进行癌症制图所需的环境危险要素;
地域分区模块:用于基于癌症致病机理和/或癌症数据分布对需制图区域进行分区;其中,基于癌症致病机理进行分区,即从癌症发病或死亡风险相关的环境危险要素分布出发,按照环境危险要素不同子类型区对需制图区域分区;基于癌症数据分布进行分区,即根据癌症监测数据在与癌症发病或死亡风险不相关但空间分布格局较一致的环境危险要素的不同子类型区之间所表现出来的数值差异,选择癌症监测数据在子类型区之间的数值差异最大所对应的环境危险要素分区方式对需制图区域分区;如果用户选择多个分区方式,地域分区模块会自主比较不同分区方式下癌症发病或死亡监测数据在各子类型区之间的数值差异,将差异最大的那种分区方式确定为癌症制图的最终地域分区方式;最终,用户在地域分区模块得到需制图区域的多个子类型区域;其中,当选择跳过该地域分区模块时,制图***默认为是对不分区情况下的需制图区域进行制图;
制图模型选择模块:用于为地域分区方式下各子类型区域或者不分区情况下整个需制图区域选择不同癌症制图模型,并且综合各种癌症监测数据的空间分布特征和制图数据筛选及建库模块中确定的环境危险要素对癌症发病或死亡风险的影响向用户推荐地域分区方式下各子类型区域或者整个需制图区域的癌症默认最优制图模型;其中,制图模型选择模块的模型库中包括了大量适用于不同空间分布特征和环境危险要素影响形式的制图模型;
癌症分布制图模块:制图模型选择模块选取合适的癌症制图模型后,癌症分布制图模块根据用户选择,生成需制图区域的癌症发病数/率或死亡数/率分布图和制图误差分布图。
2.一种基于权利要求1所述组件式癌症智能制图***的制图方法,其特征在于:包括如下步骤:
制图数据筛选及建库步骤,在需制图区域社会经济要素、地理环境要素和医疗卫生要素中选取可能与需制图的癌症的发病或死亡风险相关的环境危险要素;再将癌症发病或死亡监测数据和所选择的环境危险要素数据进行融合并去噪,由此建立癌症制图数据库;最后根据癌症制图数据库中癌症的发病或死亡监测数据与环境危险要素数据的相关关系和各种数据是否存在一致的空间分布格局分析来确定最终进行癌症制图所需的环境危险要素;
地域分区步骤,基于癌症致病机理和/或癌症数据分布对需制图区域进行分区;其中,基于癌症致病机理进行分区,即从癌症发病或死亡风险相关的环境危险要素分布出发,按照环境危险要素不同子类型区对需制图区域分区;基于癌症数据分布进行分区,即根据癌症监测数据在与癌症发病或死亡风险不相关但空间分布较一致的环境危险要素不同子类型区之间所表现出来的数值差异,选择数值差异最大所对应的环境危险要素分区方式对需制图区域分区;当选择多个分区方式时,则自主比较不同分区方式下癌症发病或死亡监测数据在各子类型区之间的数值差异,将数值差异最大的分区方式确定为癌症制图的最终地域分区方式;
制图模型选择步骤,综合各种癌症监测数据的空间分布特征和制图数据筛选及建库模块中确定的环境危险要素对癌症发病或死亡风险的影响,基于包括大量适用于不同空间分布特征和环境危险要素影响形式的制图模型的模型库,为地域分区方式下各子类型区域或者不分区情况下整个需制图区域选择默认最优癌症制图模型;
癌症分布制图步骤,选取合适的癌症制图模型后,根据用户选择,生成需制图区域的癌症发病数/率或死亡数/率分布图和制图误差分布图。
3.根据权利要求2所述的制图方法,其特征在于:子类型区域的最优癌症制图模型的确定步骤包括:在通过地域分区步骤确定了分区后,制图模型选择步骤在各子类型区域中对癌症监测数据的空间分布特征和环境危险要素对癌症发病或死亡风险的影响评估;然后制图模型选择步骤从模型库中自动选取适用于此种空间分布特征和环境危险要素影响形式下的不同制图模型,分别进行制图,并通过交叉验证进行精度评价,最终以精度最高的方法作为此子类型区域中最优制图模型。
4.根据权利要求2所述的制图方法,其特征在于:所述癌症分布图的生成步骤包括:生成需制图区域的不同人群的需制图癌症的发病数/率或死亡数/率分布数据,所述不同人群为按照城乡划分、男女划分或不同年龄组划分的人群,或者将不同人群癌症分布数据结果按照人群构成比例生成该需制图区域的全人群的该癌症的发病数/率或死亡数/率分布数据,同时癌症分布制图步骤利用交叉验证方法生成制图误差数据;确定癌症分布图的图层配合方案、图例及表达方式,以一定的不同点线符号或文字来表示行政单元或者分区边界地物要素,采用色差来表示癌症发病数/率或死亡数/率、相对误差的癌症发病率、死亡率的等级,绘制癌症发病数/率或死亡数/率分布图和制图误差分布图,最终质检定稿后印刷出图。
5.根据权利要求2所述的制图方法,其特征在于:基于癌症致病机理进行分区的步骤包括:
步骤(1)、通过相关性分析确定与癌症发病或死亡风险相关的环境危险要素;
步骤(2)、对于每一个筛选出的环境危险要素,按照同一子类型区域中癌症监测数据数值差异最小,不同子类型区域之间差异最大为原则进行分区;首先设定预期的该环境危险要素的分区数目;然后随机划分相应数目的危险要素数值区间作为初始分区,由计算初始分区下所有数值区间对应的子类型区域中癌症监测数据之间的数值总差异性大小q;
Figure FDA0003494757040000031
其中,公式(1)中的N代表整个需制图区域的所有癌症监测点的数量,Nh是某环境危险要素的子类型区域h里的癌症监测点的数量,L是该环境危险要素的分区数目,σ2是整个需制图区域的所有癌症监测数据之间的数值差异大小,σh 2是子类型h区域内的癌症监测数据之间的数值差异大小,q∈[0,1],q越大表明不同子类型区域中癌症监测数据之间的数值总差异越大,分区效果越好;之后在初始分区每个数值区间的界线值的基础上分别加随机数进行分区调整,并计算q值的变化;若调整分区下的q值大于初始分区的q值,那么将调整分区作为当前最优分区,接着在当前最优分区的每个数值区间的界线值的基础上分别加随机数再次进行分区调整;分类调整如此循环多次,直到调整数次达到设定的迭代次数;最终q值最大的最优分区作为该要素的分区结果;
步骤(3)、比较所有所选的环境危险要素的类型子区域中癌症监测数据之间的数值差异性大小q,q值最大所对应的某种环境危险要素分区,作为最终的基于癌症发病机理的分区方式。
6.根据权利要求2所述的制图方法,其特征在于:基于癌症数据分布进行分区的步骤包括:
步骤(1)、选择与癌症发病或死亡的不相关但空间分布较一致的环境危险要素,逐一与癌症监测数据进行空间叠加,由此实现基于每个所选环境危险要素的癌症监测数据空间分区;
步骤(2)、比较所有所选的环境危险要素的子类型区域中癌症监测数据之间的数值差异性大小q,q值最大所对应的某种环境危险要素分区,作为最终的基于癌症数据分布的分区方式。
7.根据权利要求2所述的制图方法,其特征在于:所述制图模型选择的步骤还包括如下步骤:
步骤(1)、若用户选择跳过地域分区的步骤,那么直接评价整个需制图区域中癌症监测数据的空间分布特征和环境危险要素对癌症发病或死亡风险的影响;否则根据地域分区步骤中的分区结果,分别评价在该分区方式下各子类型区域中癌症监测数据的空间分布特征和环境危险要素对癌症发病或死亡风险的影响;包括如下步骤a、步骤b、步骤c:
步骤a、根据每个子类型区域中癌症监测数据的空间分布,利用公式(2)评价癌症监测数据在该子类型区域中是否存在空间聚集,即越相近的癌症监测点上的监测值越相似,反之相隔越远的癌症监测点上的监测值差距越大,公式如下:
Figure FDA0003494757040000041
其中:
Figure FDA0003494757040000042
公式(2)中n代表该子类型区域中癌症监测点个数,xi和xj分别为癌症监测点i和j上的监测值;
Figure FDA0003494757040000043
表示所有监测点的均值;空间权重矩阵Wij用来度量两个癌症监测点位置之间的空间邻近程度,矩阵中元素取值有多种方式;最常用的是0/1方式,即矩阵中元素值为0则代表癌症监测点i和j之间空间不相邻,元素值为1则代表癌症监测点i和j之间空间相邻;另外空间权重矩阵元素值也可以是与癌症监测点i和j之间空间距离相关的数值;空间相关性指标I值越大,说明该子类型区域中癌症监测数据存在着越发明显的空间聚集现象;
步骤b、通过相关性分析确定分区方式下各子类型区域中各种环境危险要素对癌症发病或死亡风险的影响;某种环境危险要素的相关性指标值越大,说明该种环境危险要素对癌症发病或死亡风险的影响越大;
步骤c、按照与地域分区步骤中空间分区相同的方法,基于各种环境危险要素和癌症监测数据分布,确定各子类型区域的分区方式,由此计算得到每个子类型区域中癌症监测数据的区块分布差异性大小q值;
步骤(2)、综合考虑确定分区方式下各子类型区域或者整个需制图区域内癌症监测数据空间分布的聚集情况、区块分布差异情况和环境危险要素影响情况,在此基础上形成癌症监测数据空间分布特征和环境危险要素对癌症发病或死亡风险的影响形式的不同情况组合的制图模型库;根据不同情况组合从制图模型库中自动筛选出适用于不同情况组合的不同制图模型;若癌症监测数据没有存在显著的空间聚集现象和区块分布差异特征但环境危险要素与癌症监测数据具有显著相关性,则结合环境危险要素选用线性回归方法或用于构建关系方程式的智能算法等模型;若癌症监测数据存在显著的空间聚集现象,则选用兼容空间邻接关系的系列模型;若癌症监测数据的区块分布存在明显的差异,则选用兼容监测数据所属区块属性的系列模型;若癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异,则选用兼容空间邻接关系和所属区块属性的模型组合;
步骤(3)、利用k-1交叉验证方法,计算确定分区方式下各子类型区域或者整个需制图区域内不同模型的制图结果的精度R2
Figure FDA0003494757040000051
公式(3)中xi *代表癌症监测点i上的监测值与所有监测点均值之差,xi'代表癌症监测点i上的监测值与制图模型得到的癌症监测点i上的计算值之差,n代表该子类型区域或者整个需制图区域内癌症监测点个数;最终选择精度值R2最大所对应的制图模型,为该子类型区域或者整个需制图区域最优的制图方法。
8.根据权利要求7所述的制图方法,其特征在于:所述步骤(2)中形成的不同情况组合的制图模型库包括以下八种情况:当环境危险要素与癌症监测数据具有显著相关性时,一、癌症监测数据没有存在显著的空间聚集现象和区块分布差异特征;二、癌症监测数据只存在显著的空间聚集现象但无区块分布差异特征;三、癌症监测数据只具有区块分布差异特征但不存在显著的空间聚集现象;四、癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异;当环境危险要素与癌症监测数据没有显著相关性时,五、癌症监测数据没有存在显著的空间聚集现象和区块分布差异特征;六、癌症监测数据只存在显著的空间聚集现象但无区块分布差异特征;七、癌症监测数据只具有区块分布差异特征但不存在显著的空间聚集现象;八、癌症监测数据既存在显著的空间聚集现象又在区块分布上具有显著差异。
CN201711052882.6A 2017-11-01 2017-11-01 一种基于环境危险要素的组件式癌症智能制图***及方法 Active CN107887026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711052882.6A CN107887026B (zh) 2017-11-01 2017-11-01 一种基于环境危险要素的组件式癌症智能制图***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711052882.6A CN107887026B (zh) 2017-11-01 2017-11-01 一种基于环境危险要素的组件式癌症智能制图***及方法

Publications (2)

Publication Number Publication Date
CN107887026A CN107887026A (zh) 2018-04-06
CN107887026B true CN107887026B (zh) 2022-04-05

Family

ID=61783323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711052882.6A Active CN107887026B (zh) 2017-11-01 2017-11-01 一种基于环境危险要素的组件式癌症智能制图***及方法

Country Status (1)

Country Link
CN (1) CN107887026B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477533A (zh) * 2008-12-23 2009-07-08 中国科学院地理科学与资源研究所 地理格网下不易获取地理要素空间渐变信息的数字制图方法
CN104537254A (zh) * 2015-01-07 2015-04-22 中国科学院地理科学与资源研究所 一种基于社会统计数据的精细化制图方法
CN106202883A (zh) * 2016-06-28 2016-12-07 成都中医药大学 一种基于大数据分析建立疾病云图的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082362A1 (en) * 2008-09-17 2010-04-01 Baker Salsbury Method and Apparatus for Assessing Salient Characteristics of a Community

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477533A (zh) * 2008-12-23 2009-07-08 中国科学院地理科学与资源研究所 地理格网下不易获取地理要素空间渐变信息的数字制图方法
CN104537254A (zh) * 2015-01-07 2015-04-22 中国科学院地理科学与资源研究所 一种基于社会统计数据的精细化制图方法
CN106202883A (zh) * 2016-06-28 2016-12-07 成都中医药大学 一种基于大数据分析建立疾病云图的方法

Also Published As

Publication number Publication date
CN107887026A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
Yu et al. Object-based spatial cluster analysis of urban landscape pattern using nighttime light satellite images: A case study of China
Zahedi et al. Groundwater quality classification derivation using multi-criteria-decision-making techniques
Miller et al. Digital classification of hillslope position
Libohova et al. Geomorphons: Landform and property predictions in a glacial moraine in Indiana landscapes
Bielecka A dasymetric population density map of Poland
Jiang et al. Box-counting dimension of fractal urban form: stability issues and measurement design
Pisati Exploratory spatial data analysis using Stata
Pavía et al. Can dasymetric mapping significantly improve population data reallocation in a dense urban area?
CN107330734A (zh) 基于Co‑location模式和本体的商业地址选择方法
Ließ et al. Machine learning with GA optimization to model the agricultural Soil-landscape of Germany: An approach involving soil functional types with their multivariate parameter distributions along the depth profile
Pisati Spatial Data Analysis in Stata an Overview
Haining Spatial autocorrelation and the quantitative revolution
Laurent et al. Soil texture derived from topography in North-eastern Amazonia
Angeles et al. Fractal analysis of tidal channels in the Bahıa Blanca Estuary (Argentina)
Sepehri et al. Assessment of drainage network analysis methods to rank sediment yield hotspots
Zhang et al. Novel shape indices for vector landscape pattern analysis
CN107887026B (zh) 一种基于环境危险要素的组件式癌症智能制图***及方法
Omar et al. Modelling land-use and land-cover changes using Markov-CA, and multiple decision making in Kirkuk city
Dadfar Suitablity analysis of a new high school in the city of Calabasas
Zhang Classification of Urban Land Use Based on Graph Theory and Geographic Information System.
Ferreira et al. Methods to calculate urban surface parameters and their relation to the LCZ classification
Long et al. Mapping parcel-level urban areas for a large geographical area
Li Monitoring and analysis of urban growth process using Remote Sensing, GIS and Cellular Automata modeling: A case study of Xuzhou city, China
Williams et al. Pattern analysis based on type, orientation, size, and shape
Bersimis et al. Detecting and interpreting clusters of economic activity in rural areas using scan statistic and LISA under a unified framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant