CN115099450A - 基于融合模型的家庭碳排放监测核算平台 - Google Patents
基于融合模型的家庭碳排放监测核算平台 Download PDFInfo
- Publication number
- CN115099450A CN115099450A CN202210430826.6A CN202210430826A CN115099450A CN 115099450 A CN115099450 A CN 115099450A CN 202210430826 A CN202210430826 A CN 202210430826A CN 115099450 A CN115099450 A CN 115099450A
- Authority
- CN
- China
- Prior art keywords
- carbon emission
- family
- carbon
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于融合模型的家庭碳排放监测方法,包括如下步骤:S1、建立数据库和预测模型,针对CFPS数据,用Lasso算法提取特征;S2、利用XGBoost预测的融合模型进行调参,并针对高碳排放、低碳排放进行分类预测,分别按不同模型进行计算;S3、计算生成用户的碳排放数据。本发明混合了网络模型结构,输入家庭特征可以预测未来家庭碳排放,实现了家庭碳排放的核算与监测。相较于其他的基于预测模型,本发明的集成学习预测准确率更优,实现了家庭排名、家庭减排和家庭碳排放的核算,有助于激励用户低碳生活并完成家庭碳排放动态的监测核算。本发明提出的Lasso‑XGBoost融合模型能够更好的对家庭碳排放分类预测。该融合模型的个体学习器准确性高、多样性大,融合较好。
Description
技术领域
本发明涉及碳排放监测技术领域,特别涉及一种家庭碳排放监测方法及装置。
背景技术
将“互联网+”手段引入碳排放的数据收集和平台构建成为趋势,数据收集单元和数据集的大小显得十分关键,同时对于数据的处理方式和预测模型将影响最终分析结果的精度。
实现家庭各项活动的全产业链的直接和间接碳排放核算与实施监测预警。碳排放一直是衡量环境影响的主要变量。家庭所需商品和服务的能源消费包含在各个行业的投入与生产的当中。家庭的各项消费行为都直接或者间接地消耗能源。在中国,随着经济的发展和结构性变化,家庭消费在整体的资源消耗中所占的比重和影响在逐年扩大。2018年后工业部门环保监测要求趋严,相应碳排放增速放缓,家庭作为消费需求端的碳排放相应措施值得关注,家庭部门具有较大的减碳潜力。
文献调研显示:适合大样本预测的特征分析方法具有显著的特性,且在具体算法模型的应用时需要根据研究框架进行改良。比如Zhao研究发现因为电池的低比例训练数据产生的过度拟合问题,传统的XGBoost(极限梯度提升)和人工神经网络(ArtificialNeural Network,ANN)等分析模型的平均绝对百分比误差(Mean Absolute PercentageError,MAPE)偏高,因此需要对其进行改良和优化才能进行电动车背后的能源需求的大规模预测的应用。
学者对家庭碳排放预测时通常采用情景模拟假设,基于较多的限制条件。如假定中等收入群体比例扩大后直接按照比例重新计算家庭消费额,预测的基准情景设置较为死板且容易因为假设错误而导致预测误差。学者主要使用计量模型为基础的预测,提出减少家庭碳足迹(Household Carbon Emissions,HCEs)和采用更环保的生活方式选择。然而估计这些行动的实际减少碳排放的成效需要同时考虑生活方式选择和家庭特征。因此,机器学习模型比普通计量模型更适用于大规模的分类回归预测,能够减少计量模型大量假设带来的不确定性的同时,增加预测的准确性,但是需要较大样本量的时序序列。
集成学习主要是通过对权重网络结果进行调整,但是针对只有5期面板的深度学习模型应该考虑分类对家庭个体造成的影响太具有瞬时性,而LSTM模型侧重于长期模型,因此不适用。已公布的发明:“碳数据处理、交互与展示方法、电子设备以及存储介质”申请号:CN202210012605.7,中提出由于能源处理链路能够良好地反映碳足迹的特征。而且数据收集的渠道包含了用户的单车数据等等转化的碳排量,但是其对于用户的碳减排激励没有以家庭为单位,且没有涉及未来碳排放预测。
需要说明的是,在上述背景技术部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于克服上述背景技术的缺点,提供一种家庭碳排放监测方法及装置,以提高对家庭未来碳排放预测的准确率。
为实现上述目的,本发明采用以下技术方案:
一种基于融合模型的家庭碳排放监测方法,包括如下步骤:
S1、建立数据库和预测模型,针对CFPS数据,用Lasso算法提取特征;
S2、利用XGBoost预测的融合模型进行调参,并针对高碳排放、低碳排放进行分类预测,分别按不同模型进行计算;
S3、计算生成用户的碳排放数据:通过收集的家庭消费数据,通过投入产出矩阵的系数的转化和一次二次能源的碳排放因子的结合,计算出家庭在各大类消费的碳排放,加总为当年家庭碳排放。
在一些实施例中,步骤S1中,所述模型为多区域投入产出模型,结合多地区投入产出分析框架,其模型嵌入了不同地区的生产和服务在另一地区的消费的跨区域碳排放,和不同地区的家庭间的相互作用。
在一些实施例中,
所述多区域投入产出模型中,其具体公式如下:
其中A表示投入产出的系数矩阵,地区内行业n个,s代表地区,X代表投入,y 代表需求。
在一些实施例中,
家庭消费碳排放系数公式如下:
其中,ECHj表示不同种类消费部门碳排放量,OPHj表示消费部门的销售产值,I为单位向量矩阵,A为区域间投入产出表的系数矩阵;
就此对消费碳排放和直接碳排放进行加总得到的家庭碳排放,单位为kg。
在一些实施例中,
除对CFPS原有数据收集整理外,还获取用户自愿输入的数据。
在一些实施例中,
包括根据用户自愿输入的数据,对低碳行为激励的步骤,或者在生成家庭碳减排量数据的同时生成排名。
在一些实施例中,
步骤S1中,Lasso模型的目标函数中,其带有惩罚项的损失函数如下:
其中m是样本数,k是参数,yi是家庭所有因变量,λ是惩罚项权重,wo表示权重,wj表示参数的惩罚项,xij包含了所有的协变量;
Lasso损失函数的惩罚项删掉了部分特征,剔除后的特征进行XGBoost进行碳排放高低的预测。
在一些实施例中,
步骤S2中,XGboost预测函数如下:
XGBoost可以实现针对家庭特征的碳排放高低预测。
在一些实施例中,
步骤S1中,所述模型是基于CFPS训练好的一个LASSO-XGBOOST集成学习的模型。
在一些实施例中,
所述训练过程包括:首先通过对家庭碳排放历史数据进行时序特征分析,提取基于历史数据的特征指标,用于深入挖掘家庭中历史数据的特性,基于特性指标及历史数据构建模型的输入数据集,然后基于深度学习算法通过多任务学习理论计及多元耦合信息,实现对家庭碳排放短期预测模型的训练。
一种基于融合模型的家庭碳排放监测装置,包括处理器和存储器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序可被所述处理器处理以执行上述的方法。
本发明具有如下有益效果:
本发明提出的一种家庭碳排放监测方法,混合了网络模型结构,输入家庭特征可以预测未来家庭碳排放,实现了家庭碳排放的核算与监测。本发明提出的 Lasso-XGBoost融合模型能够更好的对家庭碳排放分类预测。该融合模型的个体学习器准确性高、多样性大,融合较好。Lasso采用套索回归多次迭代,不显著的协变量如果被提前过滤,使用L1范数进行收缩惩罚,选择使MSPE(纯均方误差)最小的λ, XGBoost先通过Lasso进行特征筛选后再进行预测,结果更加正则化。相较于其他的基于预测模型,本发明的集成学习预测准确率更优。
此外,在一些实施例中,此方法实现了家庭排名、家庭减排和家庭碳排放的核算,有助于激励用户低碳生活并完成家庭碳排放动态的监测核算。
附图说明
图1是本发明实施例中家庭碳排放数据库的工作示意图;
图2是本发明实施例中针对高碳排放家庭进行碳减排行为鼓励的示意图;
图3是本发明实施例中Lasso-XGBoost融合模型的工作原理图;
图4a是本发明实施例中针对城市样本的预测结果的融合模型混淆矩阵图;
图4b是本发明实施例中针对农村样本的预测结果的融合模型混淆矩阵图;
图5a是本发明实施例中针对城市样本的KNN聚类图;
图5b是本发明实施例中针对农村样本的KNN聚类图;
图6a是本发明实施例中针对城市样本的决策树回归ROC曲线图;
图6b是本发明实施例中针对农村样本的决策树回归ROC曲线图;
图7a是本发明实施例中小程序app的排行榜界面示意图;
图7b是本发明实施例中小程序app的碳积分界面示意图;
图7c是本发明实施例中小程序app的我的界面示意图;
图8是本发明实施例中产品前后端分离架构的工作流程图;
图9是本发明实施例中小程序app的我的碳足迹界面示意图;
图10是本发明实施例中小程序app的数据采集界面示意图;
图11是本发明实施例中的家庭碳排放监测核算的算法流程图;
图12是本发明实施例中的家庭碳排放监测核算的系数计算流程图。
具体实施方式
以下对本发明的实施方式做详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
本发明的发明构思如下:
本发明实施例提供一种基于融合模型的家庭碳排放监测方法及装置,使用多个向量表示用户的不同层面的特征。设计了两个基于核算与激励的模块,并尝试在交互过程中非侵入地结合用户数据和已有数据库,完成了对传统产品的性能超越。设计融合模块通过考虑最近交互的项来平衡,这个模块能够计算不同兴趣向量的召回数量,并且不需要目标项目的参与。因此,本发明提出的Lasso-XGBoost融合网络能够更好的分类预测。
通过市场调研,中国目前的低碳知识科普主要渠道汇总成3个,中学课堂语文课本会笼统提倡“低碳生活”,学术论文知识点也被可视化成海报进行宣传。市面上产品更多关注个体而非家庭行为。目前实现盈利的碳排放相关互联网产品主要集中在企业间碳税、碳交易等碳金融领域而较少关注家庭消费的碳排放。
中国家庭追踪调查(China Family Panel Studies,CFPS)本身针对固定13000户家庭统计了5年,因此已有数据库。但因为只有5年是短面板,针对只有5期面板的深度学***均了。
本发明对区域内建筑场所的碳排放总量进行分类汇总后分析,可模拟出不同情景下的碳排放趋势,提出的碳减排方案可提高政府的管理效率。
本发明实施例中提供了一种基于Lasso(Least absolute shrinkage andselection operator,套索算法)-XGBoost(eXtreme Gradient Boosting,极限梯度提升)融合模型的家庭碳排放核算、分类与预测方法,属于数据处理技术领域,具体包括:提取多个家庭特征;根据全部家庭之间的对比构建特征方程,并利用Lasso方法实现特征筛选,根据全部特征构建数据库。数据库连入sql(Structured Query Language,结构化查询语言)数据库可以随时增改和提取分析。
融合模型作为模型集成的一种方式也在实际的能源经济领域得到运用,使用Lasso进行特征筛选的融合模型比原算法本身在训练集和测试集上都具备更高的预测准确率,因此具备较好的外推性。
XGBoost适用于分类预测问题,其中输入被分配类或标签。它们也适用于回归预测问题,其中在给定一组输入的情况下预测实值数量。原有数据库中的时间序列预测问题的滞后观察也可以减少到长行数据并馈,本发明混合了网络模型结构,输入家庭特征可以预测未来家庭碳排放,通过数据库交互完成家庭碳排放核算与预测。相较于其他的基于预测模型,集成学***台收集数据更新数据库,同时可以作为新的数据集用来测试深度学习模型预测的准确率,因此本发明的集成学习预测准确率更优。
原有的宏观数据求平均得到的家庭碳排放数值不能代表个体,而中国的微观普查数据设计能源消耗的数据库不多,采用的是IO-EA-支出方法(投入产出消费支出法),是一种结合了住户调查数据和投入产出模型分析的计算消费数据背后的能源强度的方法,可以较为有效的核算家庭碳排放。该分析结构展示了中国各个家庭消费部门的产业链之间的相互作用,主要体现在经济转化和生产消耗两个方面。同时,本研究结合多地区投入产出分析框架,其模型嵌入了不同地区的生产和服务在另一地区的消费的跨区域碳排放,考虑了不同地区的家庭间的相互作用,是对原本的微观数据的有效补充。在多区域投入产出IO模型中,即25省分别的IO,同时考虑省际间的碳排放转移。 A表示投入产出的系数矩阵,地区内行业n个,s代表地区,X代表投入,y代表需求,其具体公式如下:
结合中国碳核算数据库(China Emission Accounts and Datasets,CEADs)和《IPCC 温室气体排放清单指南》的2010年-2018年数据,得到了中国家庭追踪调查(ChinaFamily Panel Studies,CFPS)覆盖的中国25省的分行业碳排放清单。根据国家***公布的城乡居民消费价格指数分项指数,将八年的支出和收入值调整为2010年不变价格。再结合投入产出表进行转化,最终得到对应的家庭消费碳排放系数ACE,公式如下:
其中,ECHj表示不同种类消费部门碳排放量,所计算的部门直接能耗数据及还参考了2010年-2018年的《中国能源统计年鉴》,OPHj表示消费部门的销售产值,I为单位向量矩阵,A为区域间投入产出表的系数矩阵,分别参考2010、2012、2017年中国31省市区域间投入产出表。
完成家庭碳排放核算后建立家庭碳排放数据库,如图1所示,家庭碳排放数据库包括碳排放数据获取单元和碳排放数据分析单元;碳排放数据获取单元除对CFPS原有数据收集整理外,以小程序为平台可以获取用户自愿输入的数据,且通过低碳行为激励等方式或者家庭碳减排量的数据同时生成排名;碳排放数据分析单元包括单个家庭碳排放核算和融合模型分析,汇总了影响家庭碳排放的多个因素,包括家庭人口、房屋面积、在家吃饭人数、家庭总收入等等。通过与KNN(K近邻)、DT(决策树)等多个机器学习模型结果对比分析,如下表1所示,发现Lasso-XGBoost融合模型效果最优,故选用。
表1
CFPS分为城市和农村两个样本5年一起测算,比较精确率、准确率、召回率、F1 和ROC等多个指标。家庭碳排放按照中位数分成高碳排放(用1表示)和低碳排放(用 0表示)两类,对于二分类问题的主要模型评估的指标公式如下,其中support列为每个标签的出现次数,根据均值计算出的真例被预测为真例定义成TP,假例预测结果真例成为TN,假例被预测为真例是FP,真例被预测为假例被称为FN。宏平均是分别对每个类别求平均,微平均不区分样本类别,加权平均考虑了不同标签数量Support 的分布。精准率和召回率受超参数的调节互相牵制的,精准率高了,召回率就低,两者需要达到平衡。
同时对家庭关系库和用户个体数据匹配作为测试集进行检验。本产品的后端碳数据处理平台可以为家庭提供碳账户及其对应的数据处理服务,比如管理源数据采集设备、编辑碳排放主体信息,浏览实时碳排放记录,进行定时的激励和一定根据家庭特征的调整。
通过碳排放量预测模块对未来排放情况进行二分类预测,得到家庭碳排放的高低,针对高碳排放家庭进行碳减排行为鼓励(比如步行鼓励),如图2所示,根据微信运动每日步行的步数就可以预测出家庭碳排放减少的量。并经数据检测及分析预测结果中的异常情况,最后通过小程序界面实时展示采集的数据、碳排放实时计算结果、异常情况分析结果。
本发明实施例提供的一种基于融合模型的家庭碳排放监测***,包括采集模块、数据模块、显示模块、公共模块。采集模块用于界面的展示以及输入信息,和记录家庭的所有消费数据;数据模块进行数据传输、数据存储和数据处理;显示模块实现人机交互功能;公共模块可以对比自己和他人的碳足迹并进行碳排放排名。产品的公共模块与城市地铁平台数据相连,对低碳出行里程进行记录和对减排行为进行激励。
Lasso(Least absolute shrinkage and selection operator,套索算法)-XGBoost(eXtreme Gradient Boosting,极限梯度提升)融合模型
本发明实施例提供的Lasso-XGBoost融合模型是基于CFPS训练好的一个 LASSO-XGBOOST集成学习的模型,实现对家庭碳排放短期预测模型的训练。该模型的工作原理如图3所示,首先,输入所有的CFPS特征,使用Lasso回归模型带有惩罚项的损失函数进行特征筛选,筛选出来的特征放入XGBoost预测未来碳排放量的高还是低,其中高碳排量为1,低碳排放为0,按照家庭碳排放的中值转化为二分类问题,由于城市农村家庭碳排放具有显著不同因此分为农村城市两个样本,分别采取模型预测。在调参过程中,因为参数n_estimators越大模型学习能力越强但是也容易过拟合,所以根据学习曲线选择准确率最高的参数n-estimators为100;训练集中的eta(EstimatedTime ofArrival,预计到达时间)在0-1中取值,建立评分函数通过time函数计算运行时间调节learning rate(学习率)看运行时间和模型是否收敛,最后计算出eta为0.1。
Lasso-XGBoost融合模型混淆矩阵
使用Lasso进行特征筛选后的XGBoost结果明显变好,融合模型更能抓住影响家庭碳排放的关键因素并且预测准确率也更高。分别针对城市和农村样本的预测,其中0 表示低碳排放,1表示高碳排放。混淆矩阵(也称为错误矩阵)允许可视化树,分别针对城市和农村样本的预测结果的混淆矩阵如图4a(城市样本)和图4b(农村样本),其中0表示低碳排放,1表示高碳排放。根据颜色的深浅表示预测的准确率,可见在城市样本中模型中绝大多数的高碳排放都被准确预测出,相较而言农村样本中绝大多数低碳排放被精准预测。
本模型利用了五折交叉验证方法来优化模型,将数据每次按照7:3的比例划分训练集和测试集,且划分数据不重复,一共轮流操作5次,最后的误差为十次交叉验证的误差平均值,这样能够提减少异常数据对家庭碳排放预测结果的影响。根据中位数将家庭碳排放分为高和低两份,并将总样本随机分为70%作为"训练集",30%作为"测试集",并在样本大小为13798,13473,12881,13516和13863的训练集重采样中应用了五倍交叉验证。XGBoost树89.46%在准确度方面也优于决策树68.71%。
K近邻模型
对中国家庭追踪调查(CFPS)原数据库的大量类别属性进行了独热编码完成了基础的数据分析,将大量数值转化为字符串,无序类别如果分布比较扭曲也进行了特殊处理每列的均值填充空值,使用log1p对所有特征的数值归一化。在KNN模型运行后发现K=5,使用了切比雪夫距离得到了城市和农村样本的影响因素的聚类图,如图5a(城市样本)和图5b(农村样本)所示。
聚类的依据主要是分别通过城市和农村家庭样本的特征计算出个样本间的切比雪夫距离,进而判断相似程度,默认类群中的最长的节点之间的距离从而进行比较和合并,最终切分3类形成3个聚类群,整体计算结果的距离如x轴显示均不超过30,反映了样本群之间的差异并不明显。结合预测结果分析可以发现:燃料类型,以反映家庭的直接能源消费结构。从交通运输的角度来看,汽车数量对家庭碳排放有显着的正向影响,在行为方面,收入越高,家庭成员精神面貌指数越低,特定家庭的人均排放量就越高。在住房条件方面,城市等级越高,人均排放量就越高。
虽然在城市样本中是否用于汽车和总支出被划分为一类,但是农村中汽车单列,因此综合考量,在后续建立数据库时,汽车与是否外出务工、在家吃饭人数一起被划分到了家庭活动类。指示函数表明KNN算法对异常值并不敏感但对局部结构非常敏感。因此还需尝试其他模型。
决策树回归ROC曲线
决策树作为监督学习算法中主要用于分类预测的一种无需任何前提假设的方法,适用于根据能源需求的关键影响因子进行家庭分类和回归,比普通计量多元回归一般能够得到更高的准确度,更适用于二元分类问题。树的模型根据信息增益理论依次递归分割数据直到满足条件获熵值而到达的叶节点,递归的分割与***针对连续变量和分类变量分别采用回归树和分类树。分类树最大化熵值(Entropy)而回归树调节均方误差(Mean SquaredError)。
与回归分析不同,基于树的方法旨在识别样本的不同子组。它的等级性质不允许估计单个自变量的净效应。为了说明这一点,收入、外出就餐、抵押贷款和教育与能源需求相关,在线性回归中具有统计显著性。然而,与收入和心理健康相比,它们在预测树木模型中的能量需求方面不那么重要。树模型的一个优点是树很容易解释并产生一组规则,这些规则可以可视化为从树根到其中一个叶子的每条路径都可以转换为清晰的规则,从而提高了用户的可理解性以及可能的准确性。
决策树模型可以根据其与预测输出的相关性在大量输入属性中识别。基于从经典统计检验中获得的调整的p值,重要性度量不做任何回归分析的高斯性,线性或独立性的假设,并且能够检测多变量效应,即仅通过与他人的相互作用而相关的属性。
经济学中结合了自上而下和自下而上方法,是微观6万条数据与宏观25个投入产出表37个部门一一匹配。2018年后工业部门环保监督要求趋严,相应碳排放增速放缓,家庭作为消费需求端的碳排放相应措施值得关注,家庭部门具有较大的减碳潜力。研究的难点包括家庭不是一个完全封闭的经济体,个体偏好难以定量。
对变量标准化消除量纲影响,针对中位数分类碳排放为高低两类进行二元预测。敏感性和特异性的综合评判如图6a(城市样本)和图6b(农村样本)所示,其两个坐标轴合围曲线下的面积的大小用于选择最佳模型,其中y轴表示真阳率(TPR)表示模型灵敏度,x轴则展示假阳率(FPR)。城市样本的AUC值0.963略大于农村样本的 AUC的0.945,但是两个模型均大于了0.9,因此大样本前提下决策树模型在城乡样本中的应用均显示出了较高的准确性。虽然决策树可解释性优良,但是因为训练集递归的特征密集而容易过拟合。因此还需要其他模型对比。
在许多预测问题中,数据中存在缺失值,这将影响方法的预测准确性。据信,与单一技术相比,使用混合方法可以具有更好的预测性能。决策树是单个树,而XGBoost 树属于具有多个树的集成学习。尽管决策树算法在提供人类可读的分类规则方面是有效的,但它们也是"贪婪的",导致具有低偏差但高方差的过度拟合训练集,并且通常比集成学习更糟糕。在可伸缩性方面,决策树不能只与一棵树并行化,但XGBoost树可以并行化,以便在集群上每个处理器运行一棵树。虽然决策树的解释能力优于XGBoost,但是XGBoost的缺点是很难解释能量需求和预测因子之间的关系,而调查或可视化森林中所有树木的结构在大规模家庭样本探索中是不切实际的。因此,运用机器学习融合模型,提出基于Lasso-XGBoost模型对中国家庭的碳排放实现分析,提高家庭碳排放分类、驱动因素分析和预测的准确率。
综上所述,决策树虽然结果直观形象具备较强可解释性,但是因为训练集递归的特征密集而容易过拟合,使得测试结果的精度变低。而K近邻模型使用聚类方式对局部具体数据依赖过高,因此本研究引入Lasso-XGBoost融合模型。
基于Lasso的特征选择
线性回归模型被广泛用于估计协变量对给定因变量的影响。但是对于具有大量协变量的模型,诸如决策树等模型很容易导致过度拟合和多重共线性等问题,中国家庭追踪调查(CFPS)的调查数据产生的家庭碳排放模型中的数据稀疏,只有一小部分自变量在模型中起重要作用.Lasso采用套索回归多次迭代,不显著的协变量如果被提前过滤,将提高模型性能。Lasso模型的目标函数优化了协变量的截距和系数,其带有惩罚项的损失函数如下:
其中m是样本数,k是参数,yi是家庭所有因变量,λ是惩罚项权重,wo表示权重、wj表示参数的惩罚项,xij包含了所有的协变量;Lasso损失函数的惩罚项删掉了部分特征,剔除后的特征进行XGBoost进行碳排放高低的预测。
Lasso系数筛选过程中各个lambda值(惩罚值)对应的统计量(似然偏差值),找到似然偏差值最小的对应的lambda值(惩罚值),从而确认各个变量对应的系数(如果系数不为0,则对应的变量纳入到模型中)。
极限梯度提升XGBoost
XGBoost是一种集成了多棵决策树的加法模型:以前一棵的残差数据建立后一棵树。在选择树的节点时计算所涉及的(及经过Lasso模型筛选过的)特征被分割点分割后,其中损失函数L是未知量,XGBoost极限梯度提升具备可扩展的缓存访问等功能,不仅通过套袋相互独立构建了多个树类似随机森林,还在此基础上增加了一个新树,通过提升来补充已经构建的树,因此高效,灵活和可移植。预测函数如下:
其中Yi为对i个样本的预测值,fi(xi)表示通过i棵树对第i个样本进行预测,k表示K棵树。
在此基础上设计app(application,手机软件),如图7a、图7b、图7c所示,app 包含排行榜、碳积分、我的三个界面,其中计算器按钮可以链接“家庭碳排放”小程序,两者后台可以同时通过云服务器进行数据共享与分析,计算家庭减排量。app自动计算的该家庭的减排量,与小程序计算的碳排放量一起生成该家庭的user数据库到后端,与sql中的cfps数据库一起进行分析,初步形成一体化平台。对于碳减排量,app 中我的碳足迹界面如图9所示,根据1度电=0.78kg碳排放,行走1公里可以减少30g 碳排放等数据,设定该家庭步行1公里,参与签到打卡节省一度电活动,并分享app 收获100精力值兑换0.91kg碳排放,生成了家庭的碳减排量8.74kg形成记录,每天的碳排数据加总得到年减排数据。以碳排放源为用能设备为例,源数据采集设备可采集用能设备的用能量,例如智能水表采集的碳排放源数据为用水量,app中数据采集的界面如图10所示,但是通过相应经济部门的碳足迹核算方法,得到源数据背后的碳排放值。需要进一步说明的是,家庭既可以是碳排放源也可以是碳减排源,取决于对家庭作为一个单元的排名产生的心理暗示的行为激励。产品使用了前后端分离架构,前端 VUE框架,后端Fastapi框架,如图8所示。
实施例1:
如图11所示,本发明实施例提供一种基于融合模型的家庭碳排放监测方法,监测指的是家庭碳排放的高低和排名的一种生成,同时如果有家庭特征变化,根据模型可以预测家庭碳排放高低。图12是其中的系数计算流程图。
该方法包括家庭碳排放核算和二分类预测两部分,其中家庭碳排放核算部分包括如下步骤:
E1、在CFPS官网获取2010-2018的5年数据;
E2、对5年数据先进行Stata软件处理,再通过append、merge指令将家庭与个人数据匹配、面板数据(Panel Data)跨年整合,最后通过python特征工程进行数据清洗,变量合成22个变量;
E3、在CFPS官网获取2010-2018的消费8类数据;
E4、将消费8类数据先进行矩阵计算,再通过MRIO(Multi Regional InputOutput,多区域投入产出)投入产出表系数转化,将消费部门与经济部门对应后核算出6万家庭的碳排放,并与步骤E2中的22个变量一一对应;
二分类预测部分包括如下步骤:
E5、将城市家庭和农村家庭的样本分类进行讨论;
E6、通过Lasso进行特征提取,并删掉工资收入、燃料费、取暖费、电费、养老金五个特征,将剩下水源分类、做饭燃料、邻里和谐程度、是否外出务工、家庭是否拥有汽车、政府补贴、在家吃饭人数、家庭成员精神面貌、家庭面积、家庭成员间和谐程度、家庭人口规模、家庭总收入、家庭总支出13个核心变量;
E7、因为通过与KNN(K近邻)、DT(决策树)等多个机器学习模型结果对比分析,发现Lasso-XGBoost融合模型的F1、精确率、准确率、召回率和ROC 等多个指标优于KNN(K近邻)、DT(决策树)等多个机器学习模型,因此选用Lasso-XGBoost融合模型进行预测未来碳排放量的高还是低(二分类问题),并利用了五折交叉验证方法来优化模型,将数据每次按照7:3的比例划分训练集和测试集,根据学习曲线选择准确率最高的参数n-estimators为100,通过time 函数计算出eta为0.1;
E8、将步骤E6中的13个核心变量放到XGBoost,HPO(Hyper-parameteroptimization,超参数优化)调参,实现对家庭碳排放高低二分类预测。
该方法具体说明如下:
CFPS公开网络可下载的数据库中下载2010-2018年数据,2020年无家庭和成人数据故不使用,根据文献调研选择22种变量,并对跨年数据进行整合和进行家庭与个人的匹配,将跨年变量编码名整合如表2所示。
表2
同时,CFPS除了包含家庭特征还包含家庭的消费(每年家庭平均在不同类别的支出),家庭的消费包括8大类消费,如表3所示。经整理整合后与投入产出IO表对应可以得到单个家庭的碳排放,62000个家庭都可以据此算出每个家庭的家庭碳排放。
表3
分类 | 具体包含 |
食品 | 伙食费、外出就餐费 |
衣着 | 衣裤鞋帽 |
居住 | 物业、住房维修、房租 |
生活用品 | 家具、耐用品、家电、汽车购置费、日用品 |
交通通信 | 邮电通讯、交通通讯、本地交通费 |
文教娱乐 | 文化、教育、旅游 |
医疗 | 医疗及保健 |
其他 | 给亲戚经济帮助、社会捐助等等 |
整合后每个类别从IO表中对应一个系数,
其中A表示投入产出的系数矩阵,地区内行业n个,s代表地区,X代表投入,y 代表需求。
投入产出模型矩阵系数内嵌入了不同地区的生产和服务在另一地区消费的跨区域碳排放,考虑了不同地区的家庭间的相互作用。
比如2010年的25个省的各投入产出表与CFPS家庭八大类对应。
表4为消费部门与经济部门的协调矩阵。
表4
家庭消费碳排放系数ACE公式如下:
其中,ECHj表示不同种类消费部门碳排放量,OPHj表示消费部门的销售产值,I为单位向量矩阵,A为区域间投入产出表的系数矩阵。
从而对每一年的25省协调求平均值得到每个家庭的系数,家庭8大类消费乘以系数得到家庭当年碳排放。转化后得到其对应碳排放数据,2010年的计算出的是系数Ace 为食品(food)0.11,衣着(dress)0.24,居住(house)0.51,耐用品(daily)0.31,医疗(med)0.07,交通(trco)0.19,教育文化娱乐(eec)0.23,其他(other)0.07,详细数据如表5所示,
表5
食品 | 衣着 | 居住 | 耐用品 | 医疗 | 交通 | 教育文化娱乐 | 其他 |
14210 | 3000 | 2430 | 2600 | 1000 | 600 | 5000 | 2000 |
具体计算过程如下: 14210*0.11+3000*0.24+2430*0.51+2600*0.31+1000*0.07+600*0.19+5000*0.23+2000*0. 07=4972.1kg
计算结果得到2010年这个家庭碳排放量为4972.1kg。
这里完成了家庭碳排放核算,接下来是根据家庭特征预测。
同时,本身的数据库基于CFPS训练好了一个LASSO-XGBOOST集成学习的模型可以用来预测未来碳排放量的高还是低(二分类问题),训练模型先通过Lasso,Lasso 筛选去掉了工资收入、燃料费、取暖费、电费、养老金5个特征通过惩罚项损失函数计算,
其带有惩罚项的损失函数如下:
其中m是样本数,k是参数,yi是家庭所有因变量,λ是惩罚项权重,wo表示权重,wj表示参数的惩罚项,xij包含了所有的协变量。
CFPS本身有的家庭和个人特征根据文献选出了22个,家庭编码、省份、年份、城乡分类,没有被看作是简单的特征纳入预测模型而是单独考虑。删除工资收入、燃料费、取暖费、电费、养老金这五个变量后,将剩下的水源分类、做饭燃料、邻里和谐程度、是否外出务工、家庭是否拥有汽车、政府补贴、在家吃饭人数、家庭成员精神面貌、家庭面积、家庭成员间和谐程度、家庭人口规模、家庭总收入、家庭总支出这13个核心变量放到XGBoost。
表6
考虑到作为收缩估计量的Lasso存在偏差(bias),汇报了“Post Lasso”估计量的结果,即仅使用Lasso进行变量筛选,不在表内的工资收入、燃料费、取暖费、电费、养老金五个变量被剔除,Lasso系数表如表6所示。
同时工资收入与被纳入考虑的家庭总收入重合,家庭总收入不仅包含了工资收入、利息收入等多项收入。而养老金也是政府补贴的一部分,政府补贴还包含了土地征收、住房拆迁等。故删除这些特征并没有影响相应社会因素在最终预测中的反应。
XGboost预测函数如下:
XGBoost可以实现针对家庭特征的碳排放高低预测。
本发明实施例提供的模型可以实现在新的数据集的迁移,因为如果已知2030年的家庭特征,可以预测2030年家庭碳排放。
应用:
现有的app等产品都是单独收集数据、或者针对个人收集数据,没有对产业链数据进行saas整合和区块链同步,因此分析单一,得到的减碳激励的实效不够。
本发明实施例还提供一种基于深度学习的家庭碳排放监测激励***,包括数据库核算与分析***,用户交互与激励***,家庭碳排放游戏***,通过saas(Software as aService,软件服务化)区块链实现链接。用户减少的碳排放对应成实质奖励如央行数字货币,或虚拟奖励如精力值等。
本发明实施例还提供一基于家庭各项结构特征来预测碳排放的***,包括适当的滑动窗口对历史数据遍历,提取变化趋势,得到包含多时间尺度的家庭特征指标。通过深入挖掘家庭中历史数据的特性,基于特性指标的输入数据集,然后实现对家庭碳排放预测模型的训练。类似企业的碳排放用于碳交易以及碳税研究,家庭为单位的碳排放在传统思路上面临着计算上的挑战,甚至计算可能需要在交互式场景、诸如在浏览时实行。本发明提供了一种***和算法,以便向客户呈现家庭所有直接间接消费与产品背后的全生命周期的的碳排放分类与提示,同时对低碳行为进行奖励与互动宣传。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明的背景部分可以包含关于本发明的问题或环境的背景信息,而不一定是描述现有技术。因此,在背景技术部分中包含的内容并不是申请人对现有技术的承认。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离专利申请的保护范围的情况下,可以在本文中进行各种改变、替换和变更。
Claims (11)
1.一种基于融合模型的家庭碳排放监测方法,其特征在于,包括如下步骤:
S1、建立数据库和预测模型,针对CFPS数据,用Lasso算法提取特征;
S2、利用XGBoost预测的融合模型进行调参,并针对高碳排放、低碳排放进行分类预测,分别按不同模型进行计算;
S3、计算生成用户的碳排放数据:通过收集的家庭消费数据,通过投入产出矩阵的系数的转化和一次二次能源的碳排放因子的结合,计算出家庭在各大类消费的碳排放,加总为当年家庭碳排放。
2.如权利要求1所述的家庭碳排放监测方法,其特征在于,步骤S1中,所述模型为多区域投入产出模型,结合多地区投入产出分析框架,其模型嵌入了不同地区的生产和服务在另一地区的消费的跨区域碳排放,和不同地区的家庭间的相互作用。
5.如权利要求1所述的家庭碳排放监测方法,其特征在于,除对CFPS原有数据收集整理外,还获取用户自愿输入的数据。
6.如权利要求5所述的家庭碳排放监测方法,其特征在于,还包括根据用户自愿输入的数据,对低碳行为激励的步骤,或者在生成家庭碳减排量数据的同时生成排名。
9.如权利要求1所述的家庭碳排放监测方法,其特征在于,步骤S1中,所述模型是基于CFPS训练好的一个LASSO-XGBOOST集成学习的模型。
10.如权利要求1所述的家庭碳排放监测方法,其特征在于,所述训练过程包括:首先通过对家庭碳排放历史数据进行时序特征分析,提取基于历史数据的特征指标,用于深入挖掘家庭中历史数据的特性,基于特性指标及历史数据构建模型的输入数据集,然后基于深度学习算法通过多任务学习理论计及多元耦合信息,实现对家庭碳排放短期预测模型的训练。
11.一种基于融合模型的家庭碳排放监测装置,包括处理器和存储器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序可被所述处理器处理以执行如权利要求1-10所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210430826.6A CN115099450A (zh) | 2022-04-22 | 2022-04-22 | 基于融合模型的家庭碳排放监测核算平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210430826.6A CN115099450A (zh) | 2022-04-22 | 2022-04-22 | 基于融合模型的家庭碳排放监测核算平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115099450A true CN115099450A (zh) | 2022-09-23 |
Family
ID=83287753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210430826.6A Pending CN115099450A (zh) | 2022-04-22 | 2022-04-22 | 基于融合模型的家庭碳排放监测核算平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115099450A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579902A (zh) * | 2023-04-07 | 2023-08-11 | 南京电力设计研究院有限公司 | 数字化园区电碳数据映射方法、***、设备及存储介质 |
CN116827971A (zh) * | 2023-08-29 | 2023-09-29 | 北京国网信通埃森哲信息技术有限公司 | 基于区块链的碳排放数据存储与传输方法、装置与设备 |
CN117060596A (zh) * | 2023-10-12 | 2023-11-14 | 国网甘肃省电力公司张掖供电公司 | 一种基于物联网的碳排放电力监测***及方法 |
-
2022
- 2022-04-22 CN CN202210430826.6A patent/CN115099450A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579902A (zh) * | 2023-04-07 | 2023-08-11 | 南京电力设计研究院有限公司 | 数字化园区电碳数据映射方法、***、设备及存储介质 |
CN116579902B (zh) * | 2023-04-07 | 2023-12-12 | 南京电力设计研究院有限公司 | 数字化园区电碳数据映射方法、***、设备及存储介质 |
CN116827971A (zh) * | 2023-08-29 | 2023-09-29 | 北京国网信通埃森哲信息技术有限公司 | 基于区块链的碳排放数据存储与传输方法、装置与设备 |
CN116827971B (zh) * | 2023-08-29 | 2023-11-24 | 北京国网信通埃森哲信息技术有限公司 | 基于区块链的碳排放数据存储与传输方法、装置与设备 |
CN117060596A (zh) * | 2023-10-12 | 2023-11-14 | 国网甘肃省电力公司张掖供电公司 | 一种基于物联网的碳排放电力监测***及方法 |
CN117060596B (zh) * | 2023-10-12 | 2024-01-12 | 国网甘肃省电力公司张掖供电公司 | 一种基于物联网的碳排放电力监测***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Straka et al. | Predicting popularity of electric vehicle charging infrastructure in urban context | |
Yoo et al. | Variable selection for hedonic model using machine learning approaches: A case study in Onondaga County, NY | |
CN115099450A (zh) | 基于融合模型的家庭碳排放监测核算平台 | |
CN103714261B (zh) | 二阶段混合模型的智能辅助医疗决策支持方法 | |
Li et al. | Energy data generation with wasserstein deep convolutional generative adversarial networks | |
Wang et al. | Forecasting power demand in China with a CNN-LSTM model including multimodal information | |
CN116681176B (zh) | 一种基于聚类和异构图神经网络的交通流预测方法 | |
Zhang | Sales forecasting of promotion activities based on the cross-industry standard process for data mining of E-commerce promotional information and support vector regression | |
CN114529154A (zh) | 人口规模预测指标体系的构建方法、预测方法、装置及*** | |
CN114841492A (zh) | 一种传统村落保护价值的评估方法 | |
Zhang et al. | A segmented evaluation model for building energy performance considering seasonal dynamic fluctuations | |
Sagi et al. | Uncovering the shape of neighborhoods: harnessing data analytics for a smart governance of urban areas | |
Wang et al. | Computer supported data-driven decisions for service personalization: a variable-scale clustering method | |
Feng | Data analysis and prediction modeling based on deep learning in E-commerce | |
Xu et al. | MM-UrbanFAC: Urban functional area classification model based on multimodal machine learning | |
Cheng et al. | Modeling mode choice behavior incorporating household and individual sociodemographics and travel attributes based on rough sets theory | |
Wang et al. | Stacking Based LightGBM-CatBoost-RandomForest Algorithm and Its Application in Big Data Modeling | |
Freitas et al. | Characterizing the perception of urban spaces from visual analytics of street-level imagery | |
Li et al. | Intelligent Fuzzy Optimization Algorithm of Data Mining Based on BP Neural Network. | |
Zhao et al. | Logistic regression analysis of targeted poverty alleviation with big data in mobile network | |
Mahyoub et al. | AIRBNB Price Prediction Using Machine Learning | |
Luo et al. | Analysis and research on sustainable development factors of the sports industry based on chaos theory | |
Chen et al. | A research on the Taipei MRT passenger traffic prediction model | |
Olszewski et al. | Solving smart city revitalisation problems with geoparticipation process and fuzzy methods | |
Ge et al. | Guangdong–Hong Kong–Macao Greater Bay Area public goods supply governance research based on data mining algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |