CN110837921A - 基于梯度提升决策树混合模型的房地产价格预测研究方法 - Google Patents

基于梯度提升决策树混合模型的房地产价格预测研究方法 Download PDF

Info

Publication number
CN110837921A
CN110837921A CN201911039088.7A CN201911039088A CN110837921A CN 110837921 A CN110837921 A CN 110837921A CN 201911039088 A CN201911039088 A CN 201911039088A CN 110837921 A CN110837921 A CN 110837921A
Authority
CN
China
Prior art keywords
real estate
estate price
model
decision tree
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911039088.7A
Other languages
English (en)
Inventor
张新生
迟依涵
何思宇
张琪
蔡宝泉
王旭业
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN201911039088.7A priority Critical patent/CN110837921A/zh
Publication of CN110837921A publication Critical patent/CN110837921A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于梯度提升决策树混合模型的房地产价格预测研究方法,包括以下步骤:1)获取网络搜索数据及房地产价格数据;2)通过计算斯皮尔曼相关系数及时差相关分析从网络搜索数据及房地产价格数据筛选出与房地产价格具有高度相关性的先行关键词;3)建立长短期记忆模型,通过长短期记忆模型进行房地产价格预测;4)建立支持向量回归模型,再利用支持向量回归模型预测房地产价格;5)将步骤3)得到的房地产价格的预测值及步骤4)得到的房地产价格的预测值作为梯度提升决策树混合模型的原始样本集,利用梯度提升决策树混合模型进行预测融合,该方法能够较为准确的预测房地产价格。

Description

基于梯度提升决策树混合模型的房地产价格预测研究方法
技术领域
本发明属于房地产领域,涉及一种基于梯度提升决策树混合模型的房地产价格预测研究方法。
背景技术
互联网的快速发展推动了大数据时代的到来,从多个方面对人们的活动和决策产生巨大影响,大量消费者做出决策前习惯利用搜索引擎检索有效信息。截止2018年12月,我国网民数量高达8.29亿人,互联网普及率59.2%,且网民数量仍逐年递增。近年来,互联网逐步应用于多个社会经济领域,其中也包括房地产业。房地产业作为我国国民经济的支柱型产业,在我国国民经济发展中始终处于至关重要的地位,其中最令人关注的就是房地产价格。自我国停止住房分配以来,房地产价格持续高速上涨,我国政府虽然出台了多项政策抑制房地产价格的快速增长,但收效甚微。因此,研究房地产价格的影响因素和对房地产价格进行预测成为当今学者关注的重点问题。目前关于房地产价格的研究数据主要来源于历年统计年鉴和国家***,其数据的时效性和真实性较低,影响了研究结果的准确性。基于此,诸多学者以时效性较高的网络搜索数据作为预测房地产价格研究数据,以提高预测结果的真实性和时效性,如“白丽娟,闫相斌,金家华.基于搜索关键词关注度的商品房价格指数预测[J].预测,2015,34(4):65-70.”一文中作者以网络搜索数据作为房地价格指数预测的研究数据,研究表明以网络搜索数据作为研究数据预测房地产价格可以提高模型的拟合度和时效性。
目前关于房地产价格预测的研究中,大多采用的研究方法为计量经济模型、一般均衡模型和机器学习。如“张所地,范新英.基于面板分位数回归模型的收入、利率对房价的影响关系研究[J].数理统计与管理,2015,34(6):1057-1065.”一文中作者利用面板分位数回归模型研究了房地产价格的影响因素和波动趋势。“原鹏飞,魏巍贤.房地产价格波动经济影响的一般均衡研究[J].管理科学学报,2012,15(3):30-43.”一文中作者采用一般均衡模型研究了生产、贸易等经济因素与房地产价格的关系。但是诸多学者认为基于计量经济模型对房地产价格与各影响因素之间相关性的研究由于脱离微观基础而不适用于中长期分析。并且房地产价格预测研究中大部分数据难以获取,数据波动较大,采用一般均衡模型同样会影响预测准确性和拟合度。因此作者采用机器学习方法中的长短期记忆模型、支持向量回归模型分别预测房地产价格,再利用梯度提升决策树混合模型将以上两个模型的预测结果进行预测融合,以获取最优预测结果。前人在应用机器学习方法预测房地产价格也做了很多相关工作。如“梁坤,聂会星,徐枞巍.基于支持向量机的北京市房地产价格指数预测[J].合肥工业大学学报(自然科学版),2011,34(4):588-592.”利用支持向量机模型预测房地产价格指数,研究表明该方法能较好地处理复杂的房地产数据,具有较高的泛化能力和很好的预测精度。“章伟.粗糙集BP神经网络在房地产价格预测中的应用[J].计算机仿真,2011,28(7):365-368.”研究表明该模型在预测房地产价格时比传统的BP神经网络模型计算速度更快,预测精度更高。
以上是机器学习方法在房地产价格预测研究领域所取得的成果,但是这些模型都仍然存在一定损失函数,影响了预测结果,并且在筛选数据时只考虑了变量之间的相关性,忽略了时间序列数据的时滞性,预测准确性较差。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于梯度提升决策树混合模型的房地产价格预测研究方法,该方法能够较为准确的预测房地产价格。
为达到上述目的,本发明所述的基于梯度提升决策树混合模型的房地产价格预测研究方法包括以下步骤:
1)获取网络搜索数据及房地产价格数据;
2)通过计算斯皮尔曼相关系数及时差相关分析从网络搜索数据及房地产价格数据筛选出与房地产价格具有高度相关性的先行关键词;
3)利用步骤2)得到的与房地产价格具有高度相关性的先行关键词建立长短期记忆模型,通过长短期记忆模型进行房地产价格预测,得房地产价格的预测值;
4)利用步骤2)得到的与房地产价格具有高度相关性的先行关键词建立支持向量回归模型,再利用支持向量回归模型预测房地产价格,得房地产价格的预测值;
5)将步骤3)得到的房地产价格的预测值及步骤4)得到的房地产价格的预测值作为梯度提升决策树混合模型的原始样本集,利用梯度提升决策树混合模型进行预测融合,得基于梯度提升决策树混合模型的房地产价格预测值。
网络搜索数据为通过百度指数工具获取与房地产价格相关的网络搜索关键词的搜索量;
步骤2)中的斯皮尔曼相关系数的数学表达式为:
Figure BDA0002252354500000041
其中,ρS为斯皮尔曼相关系数,n为样本数量;
时差相关分析的数学表达式为:
Figure BDA0002252354500000042
时间序列y为基准指标,时间序列x为分析指标,l为时差数,rl为时差相关系数,nl为样本个数。
步骤4)中,给定训练样本集D={(xi,yi),i=1,2,…,m},其中,xi∈RN为输入值,yi∈R为对应的目标值,m为样本数,N为样本集的维数,在样本空间中,训练样本集的拟合关系为:ω为法向量,
Figure BDA0002252354500000044
为非线性变换函数;b为阈值向量;
向支持向量回归模型中引入高斯核函数
Figure BDA0002252354500000045
其中,
Figure BDA0002252354500000046
σ为函数的宽度参数;
得支持向量回归模型的最终表达式为:
Figure BDA0002252354500000047
其中,αi
Figure BDA0002252354500000048
为拉格朗日乘子,为高斯核函数,b为阈值向量,m为样本数量。
长短期记忆模型中的输入门It、遗忘门Ft、输出门Ot及记忆单元
Figure BDA00022523545000000410
的数学表达式为:
Figure BDA0002252354500000051
Figure BDA0002252354500000052
Figure BDA0002252354500000053
Figure BDA0002252354500000054
其中,σ为sigmoid函数,tanh为双曲正切函数,W1 i、W1 f、W1 o及W1 c为Xt的权重,
Figure BDA0002252354500000055
Figure BDA0002252354500000056
为Ht-1的权重,bi、bf、bo及bc为偏置条件;
利用长短期记忆模型预测t+1时刻的房地产价格的预测值
Figure BDA0002252354500000057
其中,
Figure BDA0002252354500000058
W2为输出层和隐层之间的权重矩阵,Ht为t时刻隐层的输出结果,b为输出层的偏项。
将长短期记忆模型的预测值和支持向量回归模型的预测值作为梯度提升决策树混合模型中第一棵回归树的训练目标;将第一棵回归树的预测值与房地产价格实际值的残差作为第二棵回归树的训练目标;将房地产价格的实际值与第一棵回归树和第二棵回归树预测值之间的残差作为第三棵回归树的训练目标,最后将每一棵回归树的训练结果进行迭代,得梯度提升决策树混合模型的最终预测值;
给定训练集样本D={(x1,y1),(x2,y2)…(xi,yi),i=1,2.…m},其中,xi为长短期记忆模型和支持向量回归模型的预测值,yi为房地产价格的实际值,给定损失函数为L,最大迭代次数为T,梯度提升决策树混合模型输出的房地产价格预测值为f(x);
给定初始化弱学习器
Figure BDA0002252354500000059
m为样本数,γ为损失函数最小的常数值,yi为房地产价格实际值;
计算迭代t次后第i个样本的损失函数负梯度
Figure BDA0002252354500000061
其中,L为损失函数,yi为房地产价格实际值,ft-1(x)为梯度提升决策树混合模型迭代t-1次时的房地产价格预测值;
计算叶节点区域最佳拟合值
Figure BDA0002252354500000062
其中,γ为损失函数最小的常数值,L为损失函数,yi为房地产价格实际值,ft-1(x)为梯度提升决策树混合模型迭代t-1次时的房地产价格预测值;
得梯度提升决策树混合模型所输出的房地产价格预测值其中,T为最大迭代次数,J为回归树的叶子节点的个数,γtj为迭代t次的第j个样本的损失函数最小值,I(x∈Rtj)为示性函数。
本发明具有以下有益效果:
本发明所述的基于梯度提升决策树混合模型的房地产价格预测研究方法在具体操作时,利用网络搜索数据预测房地产价格,通过斯皮尔曼相关分析和时差相关分析筛选出与房地产价格具有高度相关性的先行关键词,在进行房地产价格预测时,先利用长短期记忆模型和支持向量回归模型分别预测房地产价格,最后建立梯度迭代决策树混合模型,将长短期记忆模型和支持向量回归模型的预测结果进行预测融合,以降低误差,继而提高预测房地产价格的准确性,本发明不仅解决了以往研究中数据时效性低和数据缺失的缺点,还解决了以往研究中损失函数较高、模型拟合度较低的缺点,能够实现对房地产价格的准确预测。通过模型的检验可知,利用梯度提升决策树混合模型进行预测融合后的预测结果明显优于长短期记忆模型和支持向量回归模型的预测结果,利用梯度提升决策树混合模型进行预测融合后的MSE值为0.10,NMSE值为0.02,准确性较高,为房地产价格的调控提供有力的技术支撑。
附图说明
图1为本发明的流程图;
图2为长短期记忆模型记忆单元的结构图;
图3为梯度提升决策树混合模型的运算流程图;
图4为基于长短期记忆模型的房地产价格预测图;
图5为基于支持向量回归模型的房地产价格预测图;
图6为梯度提升决策树混合模型的损失函数和迭代次数变化图;
图7为基于梯度提升决策树混合模型的房地产价格预测图;
图8为长短期记忆模型、支持向量回归模型和梯度提升决策树混合模型预测值对比图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
参考图1,本发明所述的基于梯度提升决策树混合模型的房地产价格预测研究方法包括以下步骤:
1)获取网络搜索数据及房地产价格数据;
其中,网络搜索数据为通过百度指数工具获取与房地产价格相关的网络搜索关键词的搜索量;
2)通过计算斯皮尔曼相关系数及时差相关分析从网络搜索数据及房地产价格数据筛选出与房地产价格具有高度相关性的先行关键词;
步骤2)中的斯皮尔曼相关系数的数学表达式为:
Figure BDA0002252354500000081
其中,ρS为斯皮尔曼相关系数,n为样本数量,Ri和Si分别为xi和yi的秩次,当0.7<|ρs|≤1时,变量间为极强相关;当0.4<|ρs|≤0.7时,变量间为强相关;当0.2<|ρs|≤0.4时,变量间为弱相关;当0<|ρs|≤0.2时,变量间为极弱相关。
时差相关分析的数学表达式为:
Figure BDA0002252354500000082
时间序列y为基准指标,时间序列x为分析指标,l为时差数,rl为时差相关系数,nl为样本个数,当l<0时表示表示超前,当l>0时表示滞后。
3)利用步骤2)得到的与房地产价格具有高度相关性的先行关键词建立长短期记忆模型,通过长短期记忆模型进行房地产价格预测,得房地产价格的预测值;
该长短期记忆模型记忆单元结果如图2所示,长短期记忆模型中的输入门It、遗忘门Ft、输出门Ot及记忆单元
Figure BDA0002252354500000083
的数学表达式为:
Figure BDA0002252354500000084
Figure BDA0002252354500000085
Figure BDA0002252354500000086
Figure BDA0002252354500000087
其中,σ为sigmoid函数,tanh为双曲正切函数,W1 i、W1 f、W1 o及W1 c为Xt的权重,
Figure BDA0002252354500000091
为Ht-1的权重,bi、bf、bo及bc为偏置条件;
计算t时刻记忆线输出Ct,将t-1时刻的记忆线输出Ct-1通过遗忘门和输入门处理输出Ct,其数学表达式为:
Figure BDA0002252354500000093
式中It为t时刻输入门输出结果;
Figure BDA0002252354500000094
为t时刻记忆单元输出结果;Ft为t时刻遗忘门输出结果;Ct-1为t-1时刻的记忆线输出结果。
计算t时刻隐层的输出结果Ht,将t-1时刻的输入输出线所输出的Ht-1通过输出门处理,参考记忆线在该时刻的输出Ct,得隐层的输出结果Ht,其数学表达式为:Ht=Ot×tanh(Ct),其中,Ot为t时刻输出门输出结果;Ct为t时刻记忆线输出结果;tanh为双曲正切函数。
利用长短期记忆模型预测t+1时刻的房地产价格的预测值其中,
Figure BDA0002252354500000096
W2为输出层和隐层之间的权重矩阵,Ht为t时刻隐层的输出结果,b为输出层的偏项。
4)利用步骤2)得到的与房地产价格具有高度相关性的先行关键词建立支持向量回归模型,再利用支持向量回归模型预测房地产价格,得房地产价格的预测值;
给定训练样本集D={(xi,yi),i=1,2,…,m},其中,xi∈RN为输入值,yi∈R为对应的目标值,m为样本数,N为样本集的维数,在样本空间中,训练样本集的拟合关系为:
Figure BDA0002252354500000097
ω为法向量,
Figure BDA0002252354500000098
为非线性变换函数;b为阈值向量,求解该公式即也要求解出ω、
Figure BDA0002252354500000099
和b。
依据结构风险最小化原则,引入惩罚参数C及非负的松弛变量ξi、ξi *,因此求解上述公式转化为以下有约束的最优化问题:
Figure BDA0002252354500000101
Figure BDA0002252354500000102
其中,ω成为回归系数;C为惩罚参数;ξi
Figure BDA0002252354500000103
为非负的松弛变量;
Figure BDA0002252354500000104
为非线性变换函数;b为阈值向量;ε为损失边界,为了求解该公式,引入拉格朗日乘子α、α*,得其拉格朗日方程式为:
Figure BDA0002252354500000105
其中,ω成为回归系数;b为阈值向量;ε为损失边界;αi为拉格朗日乘子;m为样本数量;
Figure BDA0002252354500000107
为非线性变换函数。在根据Wolfe对偶定理,将该公式转换为拉格朗日对偶问题,其数学表达式为:
Figure BDA0002252354500000109
其中,m为样本数量;
Figure BDA00022523545000001010
为非线性变换函数;ε为损失边界;
Figure BDA00022523545000001011
为拉格朗日乘子,该公式为凸二次规划问题,可行域为非空,一定存在全局最优解,求解凸二次规划问题,得最优拉格朗日乘子为
Figure BDA00022523545000001012
由最优解构造预测函数为:
Figure BDA00022523545000001013
其中,αi
Figure BDA00022523545000001014
为拉格朗日乘子;m为样本数量;为非线性变换函数;
Figure BDA00022523545000001016
表示高维空间中的内积运算。
为了减少内积的运算量,并且把低维空间中非线性不可预测问题转化为高维空间中的线性可预测问题,向支持向量回归模型中引入高斯核函数
Figure BDA0002252354500000111
其中,
Figure BDA0002252354500000112
σ为函数的宽度参数;
得支持向量回归模型的最终表达式为:
Figure BDA0002252354500000113
其中,αi为拉格朗日乘子,为高斯核函数,b为阈值向量,m为样本数量。
5)将步骤3)得到的房地产价格的预测值及步骤4)得到的房地产价格的预测值作为梯度提升决策树混合模型的原始样本集,利用梯度提升决策树混合模型进行预测融合,得基于梯度提升决策树混合模型的房地产价格预测值。
将长短期记忆模型的预测值和支持向量回归模型的预测值作为梯度提升决策树混合模型中第一棵回归树的训练目标;将第一棵回归树的预测值与房地产价格实际值的残差作为第二棵回归树的训练目标;将房地产价格的实际值与第一棵回归树和第二棵回归树预测值之间的残差作为第三棵回归树的训练目标,最后将每一棵回归树的训练结果进行迭代,得梯度提升决策树混合模型的最终预测值;
给定训练集样本D={(x1,y1),(x2,y2)…(xi,yi),i=1,2.…m},其中,xi为长短期记忆模型和支持向量回归模型的预测值,yi为房地产价格的实际值,给定损失函数为L,最大迭代次数为T,梯度提升决策树混合模型输出的房地产价格预测值为f(x);
给定初始化弱学习器
Figure BDA0002252354500000116
m为样本数,γ为损失函数最小的常数值,yi为房地产价格实际值;
计算迭代t次后第i个样本的损失函数负梯度
Figure BDA0002252354500000117
其中,L为损失函数,yi为房地产价格实际值,ft-1(x)为梯度提升决策树混合模型迭代t-1次时的房地产价格预测值;
计算叶节点区域最佳拟合值
Figure BDA0002252354500000121
其中,γ为损失函数最小的常数值,L为损失函数,yi为房地产价格实际值,ft-1(x)为梯度提升决策树混合模型迭代t-1次时的房地产价格预测值;
得梯度提升决策树混合模型所输出的房地产价格预测值其中,T为最大迭代次数,J为回归树的叶子节点的个数,γtj为迭代t次的第j个样本的损失函数最小值,I(x∈Rtj)为示性函数。
通过计算均方误差(MSE)和标准平均方差(NMSE)评估模型稳定性和拟合度,其数学表达式为:
Figure BDA0002252354500000123
Figure BDA0002252354500000124
其中,n为样本量,yi为房地产价格实际值,为房地产价格预测值,
Figure BDA0002252354500000126
为房地产价格实际值的平均值,当MSE值越小,模型的稳定性越好;当NMSE值越小,模型的拟合度越高。
本发明说明书中未作详细描述的内容属于本领域专业技术人员周知的现有公开技术,并且以上实施方式仅用于说明本发明,而并非对本发明的限制。尽管为说明目的公开了本发明的相关实施例和附图,但是本领域的技术人员可以理解;在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化、修改都是可能的。因此,所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定,而不应局限于最佳实施例和附图所公开的内容。

Claims (6)

1.一种基于梯度提升决策树混合模型的房地产价格预测研究方法,其特征在于,包括以下步骤:
1)获取网络搜索数据及房地产价格数据;
2)通过计算斯皮尔曼相关系数及时差相关分析从网络搜索数据及房地产价格数据筛选出与房地产价格具有高度相关性的先行关键词;
3)利用步骤2)得到的与房地产价格具有高度相关性的先行关键词建立长短期记忆模型,通过长短期记忆模型进行房地产价格预测,得房地产价格的预测值;
4)利用步骤2)得到的与房地产价格具有高度相关性的先行关键词建立支持向量回归模型,再利用支持向量回归模型预测房地产价格,得房地产价格的预测值;
5)将步骤3)得到的房地产价格的预测值及步骤4)得到的房地产价格的预测值作为梯度提升决策树混合模型的原始样本集,利用梯度提升决策树混合模型进行预测融合,得基于梯度提升决策树混合模型的房地产价格预测值。
2.根据权利要1所述的基于梯度提升决策树混合模型的房地产价格预测研究方法,其特征在于,网络搜索数据为通过百度指数工具获取与房地产价格相关的网络搜索关键词的搜索量。
3.根据权利要1所述的基于梯度提升决策树混合模型的房地产价格预测研究方法,其特征在于,步骤2)中的斯皮尔曼相关系数的数学表达式为:
Figure FDA0002252354490000011
其中,ρS为斯皮尔曼相关系数,n为样本数量;
时差相关分析的数学表达式为:
时间序列y为基准指标,时间序列x为分析指标,l为时差数,rl为时差相关系数,nl为样本个数。
4.根据权利要1所述的基于梯度提升决策树混合模型的房地产价格预测研究方法,其特征在于,步骤4)中,给定训练样本集D={(xi,yi),i=1,2,…,m},其中,xi∈RN为输入值,yi∈R为对应的目标值,m为样本数,N为样本集的维数,在样本空间中,训练样本集的拟合关系为:
Figure FDA0002252354490000022
ω为法向量,
Figure FDA0002252354490000023
为非线性变换函数;b为阈值向量;
向支持向量回归模型中引入高斯核函数
Figure FDA0002252354490000024
其中,
Figure FDA0002252354490000025
σ为函数的宽度参数;
得支持向量回归模型的最终表达式为:
Figure FDA0002252354490000026
其中,αi
Figure FDA0002252354490000027
为拉格朗日乘子,
Figure FDA0002252354490000028
为高斯核函数,b为阈值向量,m为样本数量。
5.根据权利要1所述的基于梯度提升决策树混合模型的房地产价格预测研究方法,其特征在于,长短期记忆模型中的输入门It、遗忘门Ft、输出门Ot及记忆单元
Figure FDA0002252354490000029
的数学表达式为:
Figure FDA00022523544900000210
Figure FDA00022523544900000212
Figure FDA0002252354490000031
其中,σ为sigmoid函数,tanh为双曲正切函数,W1 i、W1 f、W1 o及W1 c为Xt的权重,
Figure FDA0002252354490000032
为Ht-1的权重,bi、bf、bo及bc为偏置条件;
利用长短期记忆模型预测t+1时刻的房地产价格的预测值
Figure FDA0002252354490000034
其中,
Figure FDA0002252354490000035
W2为输出层和隐层之间的权重矩阵,Ht为t时刻隐层的输出结果,b为输出层的偏项。
6.根据权利要1所述的基于梯度提升决策树混合模型的房地产价格预测研究方法,其特征在于,
将长短期记忆模型的预测值和支持向量回归模型的预测值作为梯度提升决策树混合模型中第一棵回归树的训练目标;将第一棵回归树的预测值与房地产价格实际值的残差作为第二棵回归树的训练目标;将房地产价格的实际值与第一棵回归树和第二棵回归树预测值之间的残差作为第三棵回归树的训练目标,最后将每一棵回归树的训练结果进行迭代,得梯度提升决策树混合模型的最终预测值;
给定训练集样本D={(x1,y1),(x2,y2)…(xi,yi),i=1,2.…m},其中,xi为长短期记忆模型和支持向量回归模型的预测值,yi为房地产价格的实际值,给定损失函数为L,最大迭代次数为T,梯度提升决策树混合模型输出的房地产价格预测值为f(x);
给定初始化弱学习器m为样本数,γ为损失函数最小的常数值,yi为房地产价格实际值;
计算迭代t次后第i个样本的损失函数负梯度
Figure FDA0002252354490000037
其中,L为损失函数,yi为房地产价格实际值,ft-1(x)为梯度提升决策树混合模型迭代t-1次时的房地产价格预测值;
计算叶节点区域最佳拟合值
Figure FDA0002252354490000041
其中,γ为损失函数最小的常数值,L为损失函数,yi为房地产价格实际值,ft-1(x)为梯度提升决策树混合模型迭代t-1次时的房地产价格预测值;
得梯度提升决策树混合模型所输出的房地产价格预测值其中,T为最大迭代次数,J为回归树的叶子节点的个数,γtj为迭代t次的第j个样本的损失函数最小值,I(x∈Rtj)为示性函数。
CN201911039088.7A 2019-10-29 2019-10-29 基于梯度提升决策树混合模型的房地产价格预测研究方法 Pending CN110837921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911039088.7A CN110837921A (zh) 2019-10-29 2019-10-29 基于梯度提升决策树混合模型的房地产价格预测研究方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911039088.7A CN110837921A (zh) 2019-10-29 2019-10-29 基于梯度提升决策树混合模型的房地产价格预测研究方法

Publications (1)

Publication Number Publication Date
CN110837921A true CN110837921A (zh) 2020-02-25

Family

ID=69575825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911039088.7A Pending CN110837921A (zh) 2019-10-29 2019-10-29 基于梯度提升决策树混合模型的房地产价格预测研究方法

Country Status (1)

Country Link
CN (1) CN110837921A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414972A (zh) * 2020-03-30 2020-07-14 王雁 一种基于XGBoost的眼屈光矫正多源数据自动分类方法
CN111476605A (zh) * 2020-04-08 2020-07-31 东北农业大学 猪肉价格预测预警***
CN112006697A (zh) * 2020-06-02 2020-12-01 东南大学 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN112382091A (zh) * 2020-11-11 2021-02-19 北京世纪高通科技有限公司 一种道路积水预警方法及装置
CN112488352A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于梯度提升回归的房价区间预测方法及***
CN112785342A (zh) * 2021-01-28 2021-05-11 中国工商银行股份有限公司 房地产动态估值方法及装置
WO2022224204A1 (en) * 2021-04-23 2022-10-27 BricksNData Pty Ltd System and method for estimating asset value at a point in time

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243563A (zh) * 2015-10-21 2016-01-13 百度在线网络技术(北京)有限公司 预测商品价格的方法和装置
CN108537377A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于网络搜素指数的房价预测方法
CN110245802A (zh) * 2019-06-20 2019-09-17 杭州安脉盛智能技术有限公司 基于改进梯度提升决策树的卷烟空头率预测方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243563A (zh) * 2015-10-21 2016-01-13 百度在线网络技术(北京)有限公司 预测商品价格的方法和装置
CN108537377A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于网络搜素指数的房价预测方法
CN110245802A (zh) * 2019-06-20 2019-09-17 杭州安脉盛智能技术有限公司 基于改进梯度提升决策树的卷烟空头率预测方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高佳玲: "基于网络搜索关键词的住宅价格指数预测研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414972A (zh) * 2020-03-30 2020-07-14 王雁 一种基于XGBoost的眼屈光矫正多源数据自动分类方法
CN111414972B (zh) * 2020-03-30 2023-09-05 王雁 一种基于XGBoost的眼屈光矫正多源数据自动分类方法
CN111476605A (zh) * 2020-04-08 2020-07-31 东北农业大学 猪肉价格预测预警***
CN112006697A (zh) * 2020-06-02 2020-12-01 东南大学 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN112488352A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于梯度提升回归的房价区间预测方法及***
CN112382091A (zh) * 2020-11-11 2021-02-19 北京世纪高通科技有限公司 一种道路积水预警方法及装置
CN112785342A (zh) * 2021-01-28 2021-05-11 中国工商银行股份有限公司 房地产动态估值方法及装置
WO2022224204A1 (en) * 2021-04-23 2022-10-27 BricksNData Pty Ltd System and method for estimating asset value at a point in time

Similar Documents

Publication Publication Date Title
CN110837921A (zh) 基于梯度提升决策树混合模型的房地产价格预测研究方法
Tung et al. Binary classification and data analysis for modeling calendar anomalies in financial markets
Pravallika et al. Prediction of temperature anomaly in Indian Ocean based on autoregressive long short-term memory neural network
Zaidan et al. Predicting atmospheric particle formation days by Bayesian classification of the time series features
CN111428419A (zh) 悬浮泥沙浓度预测方法、装置、计算机设备和存储介质
CN114330937A (zh) 一种隐含碳排放量核算方法、设备及存储介质
Gai et al. A water quality assessment method based on an improved grey relational analysis and particle swarm optimization multi-classification support vector machine
Tang et al. Forecasting annual foreign tourist arrivals to China by incorporating firefly algorithm into fractional non-homogenous discrete Grey model
Zhong et al. Construction project risk prediction model based on EW-FAHP and one dimensional convolution neural network
Xie et al. Knowledge-embedded meta-learning model for lift coefficient prediction of airfoils
Cai [Retracted] Deep Learning‐Based Economic Forecasting for the New Energy Vehicle Industry
Wang et al. Cloud computing and extreme learning machine for a distributed energy consumption forecasting in equipment-manufacturing enterprises
Song et al. Calibration of agent-based model using reinforcement learning
Guo et al. Mobile user credit prediction based on lightgbm
Zhang et al. Application of improved least squares support vector machine in the forecast of daily water consumption
Wang et al. Precipitation prediction in several Chinese regions using machine learning methods
Dhar et al. Quantitative rainfall prediction: deep neural network-based approach
Mao et al. The impact of R&D on GDP study based on grey delay Lotka-Volterra model
Bakumenko et al. Synthesis method of robust neural network models of systems and processes
Miao et al. Research on the Construction of English Teachers’ Classroom Teaching Ability System Based on Artificial Intelligence
Wen et al. CosNAS: Enhancing estimation on cosmological parameters via neural architecture search
Zhang et al. Prediction of pork prices based on SVM
Li et al. Prediction of Multistation GNSS Vertical Coordinate Time Series Based on XGBoost Algorithm
Hapsari et al. Fractional Gradient Based Optimization for Nonlinear Separable Data
Pasaribu et al. Forecast Analysis of Gross Regional Domestic Product based on the Linear Regression Algorithm Technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200225

RJ01 Rejection of invention patent application after publication