CN109345035A - 房屋价值预测方法、装置、计算机设备和存储介质 - Google Patents
房屋价值预测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109345035A CN109345035A CN201811289877.1A CN201811289877A CN109345035A CN 109345035 A CN109345035 A CN 109345035A CN 201811289877 A CN201811289877 A CN 201811289877A CN 109345035 A CN109345035 A CN 109345035A
- Authority
- CN
- China
- Prior art keywords
- index
- value
- house
- prediction
- room rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010801 machine learning Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 49
- 108090000623 proteins and genes Proteins 0.000 claims description 63
- 238000012360 testing method Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 25
- 238000011002 quantification Methods 0.000 claims description 13
- 238000013139 quantization Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及智慧城市技术领域,应用于房地产行业,特别涉及一种房屋价值预测方法、装置、计算机设备和存储介质,其一方面基于房价前瞻预测因子体系,准确获取影响房屋价值的指标以及房屋价值指数,并进行量化和标准化,确保变量和样本的准确;另一方面,选择不同的机器学***均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型,实现对房屋价值的准确预测。
Description
技术领域
本申请涉及前瞻预测技术领域,特别是涉及一种房屋价值预测方法、装置、计算机设备和存储介质。
背景技术
在实际生活中,房价已经成为人们日常生活的关注重点,房价的变动牵动着各行各业以及普通百姓的心,不论是从事房地产开发、房地产金融以及建筑等行业的专业人员还是普通百姓都希望能够对未来房价走势有一个比较准确的前瞻预测。
传统的房价预测多数是专业的估价师基于近段时间来某个地区基础房价、房源供需关系、政策以及自身经验给出房价预测。这种方式,一般会严重依赖于估价师的主观判断以及经验,针对同一区域的房价,不同的估价师最终得出房价预测可能不同。
可见传统的房价预测方法均在极大局限性,其房价预测结果不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确预测房价的房屋价值预测方法、装置、计算机设备和存储介质。
一种房屋价值预测方法,所述方法包括:
获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系;
根据房价前瞻预测因子体系,提取影响房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化和标准化,从量化和标准化后的指标和房屋价值指数中筛选出符合预设规则的变量和样本;
提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型;
选取筛选出的变量和样本中第二部分数据为测试数据,对所述不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
在其中一个实施例中,所述提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型包括:
对提取筛选出的变量和样本中所有指标进行分组配置,根据分组情况,从筛选出的变量和样本中获取每个分组对应的入模指标的训练数据;
通过每个分组对应的入模指标的训练数据,对多个预设机器学习方法进行训练,构建不同的房价前瞻模型;
所述选取筛选出的变量和样本中第二部分数据为测试数据,对所述不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型包括:
根据所述分组情况,从筛选出的变量和样本中获取每个分组对应的入模指标的测试数据;
通过每个分组对应的入模指标的测试数据,对各机器学习方法对应的房价前瞻模型的准确性进行测试;
计算各房价前瞻模型对应的测试结果的平均误差,选取平均误差最小的算法对应的房价前瞻预测模型作为最优房价前瞻模型。
在其中一个实施例中,所述获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系之前,还包括:
获取各区域房屋价值历史数据;
从所述各区域房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
构建房价前瞻预测因子体系,房价前瞻预测因子包括主因子、附属于所述主因子的从因子、附属于所述从因子的次因子以及表征所述次因子的指标,所述主因子包括宏观经济指标主因子、中观经济指标主因子、城市规划主因子、舆论影响主因子以及政策法规主因子。
在其中一个实施例中,所述宏观经济指标主因子包括世界经济指标、国民经济指标、货币银行、房地产及建筑业以及金融市场的从因子;中观经济指标主因子包括城市经济、城市生活、房地产及建筑业以及二手房市场的从因子;城市规划主因子包括待预测区域城市规划的从因子;舆论影响主因子自包括主流媒体、互联网门户和论坛、自媒体以及搜索引擎热度的从因子;政策法规主因子包括国家政策和待预测区域的城市政策的从因子。
在其中一个实施例中,对提取的指标和房屋价值指数进行量化处理之前,还包括:
识别提取的指标和房屋价值指数中主观因素;
针对所述主观因素分别建立独立的模型,在所述独立模型中将主观因素对应情况划分为多种类型;
针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;
对提取的指标和房屋价值指数进行量化处理包括:
根据所述赋值规则,对提取的指标和房屋价值指数进行量化处理。
在其中一个实施例中,对提取的指标和房屋价值指数进行标准化处理包括:
根据预设的缺失值填补规则,对所述指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;
针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;
根据变频处理后的指标,确定指标对应的衍生指标;
对所述衍生指标进行指标转化,将指标转化后的所述衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
在其中一个实施例中,所述预设的缺失值填补规则为:对于缺失率小于或等于预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺失值填补;对于缺失率大于所述预设阈值的指标予以剔除。
一种房屋价值预测装置,所述装置包括:
因子体系获取模块,用于获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系;
数据提取模块,用于根据房价前瞻预测因子体系,提取影响房屋价值的指标以及房屋价值指数;
数据处理模块,用于对提取的指标和房屋价值指数进行量化和标准化,从量化和标准化后的指标和房屋价值指数中筛选出符合预设规则的变量和样本;
模型训练模块,用于提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型;
模型优化模块,用于选取筛选出的变量和样本中第二部分数据为测试数据,对所述不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的方法的步骤。
上述房屋价值预测方法、装置、计算机设备和存储介质,一方面,基于房价前瞻预测因子体系,准确获取影响房屋价值的指标以及房屋价值指数,并进行量化和标准化,确保变量和样本的准确;另一方面,选择不同的机器学***均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型,实现对房屋价值的准确预测。
附图说明
图1为一个实施例中房屋价值预测方法的流程示意图;
图2为另一个实施例中房屋价值预测方法的流程示意图;
图3为房价前瞻预测因子体系架构示意图;
图4为一个实施例中房屋价值预测装置的结构框图;
图5为另一个实施例中房屋价值预测装置的结构框图;
图6为应用上述房屋价值预测方法的实验结果对比图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种房屋价值预测方法,包括以下步骤:
S100:获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系。
待预测区域是指本次房屋价值预测的目标区域,该区域可以是某一个行政区域,例如北京、上海、广州等。该区域还可以是一个较小范围,例如某个小区等。待预测区域房屋价值历史数据可以是在日常记录中终端采集发送至服务器累积下来的数据,可以是服务器通过互联网等手段获取外部已有对应的数据。基于房屋价值历史数据可以构建出房价前瞻预测因子体系,该因子体系是预先构建的,可以先基于不同区域的房屋价值历史数据构建对应的房价前瞻预测因子体系,整个构建可以基于统一的架构。
更进一步来说,如图2所示,在其中一个实施例中,步骤S100之前还包括:
S120:获取各区域房屋价值历史数据。
S140:从各区域房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数。
S160:构建房价前瞻预测因子体系。
如图3所示,房价前瞻预测因子体系包含有主因子、附属于主因子的从因子、附属于从因子的次因子以及表征次因子的指标,主因子包括宏观经济指标主因子、中观经济指标主因子、城市规划主因子、舆论影响主因子以及政策法规主因子。主因子、次因子、从因子之间具有一定的从属关联性,从因子最终由最底层的指标表征。
S200:根据房价前瞻预测因子体系,提取影响房屋价值的指标以及房屋价值指数。
在房价前瞻预测因子体系中携带有大量影响房屋价值的指标以房屋价值指数,影响房屋价值的指标包括有:各类宏观经济指标,例如GDP、CPI、PMI、人均可支配收入等;中观经济指标,例如各城市(区)城市化率、地铁里程、人均住房面积以及商品房待售面积等;政策法规例如房地产限售限购政策、首套房利率政策、城市中长期发展规划等。房屋价值指数具体可以是房价,其可以包括挂盘和交易价格。宏观经济指标主因子包括世界经济指标、国民经济指标、货币银行、房地产及建筑业以及金融市场的从因子;中观经济指标主因子包括城市经济、城市生活、房地产及建筑业以及二手房市场的从因子;城市规划主因子包括待预测区域城市规划的从因子;舆论影响主因子自包括主流媒体、互联网门户和论坛、自媒体以及搜索引擎热度的从因子;政策法规主因子包括国家政策和待预测区域的城市政策的从因子。非必要的,为了确保后续房屋价值预测的准确性,可以获取近段时间内的待预测区域房屋价值历史数据,例如获取最近1年、获取最近6个月等时间内的待预测区域房屋价值历史数据,针对获取的数据还可以基于时间合理排布对应的指标,例如以月为依据。如以“居住人口”这一指标为例,该指标的历史值为[h1、h2、…、hi、…],其中,hi表示在预设时间内的第i个月的居住人口数。房屋价值指数可以简单的理解为房价。
S300:对提取的指标和房屋价值指数进行量化和标准化,从量化和标准化后的指标和房屋价值指数中筛选出符合预设规则的变量和样本。
进行量化的目的是将提取的指标和房屋价值指数中主观因素参数量化为方便处理的数据。进行标准化的目的是将去除提取的指标和房屋价值指数中异常值、趋势以及季节影响。对提取的指标和房屋价值指数进行量化和标准化进一步除去数据中主观因素、异常值、趋势以及季节性参数,为后续客观预测房屋价值提供可靠的数据基础。筛选出符合预设规则具体可以基于大数据分析的方式,从量化和标准化处理后的指标和房屋价值指数中筛选出来。筛选出的变量和样本作为下一步的训练数据。需要指出的时,这个筛选过程可以根据实际情况需要选择一定数量的变量和样本。当实际情况需要比较高要求、覆盖全面的房价前瞻预测结果时,可以选择尽量多一些变量好样本作为训练数据;当实际情况需要比较低要求、覆盖一定内容的房价前瞻预测结果时,可以选择少量变量好样本作为训练数据,减少后续训练的数据处理量。具体来说,上述预设规则可以是符合经济学逻辑的规则。
S400:提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型。
预设机器学习方法是预先选定的机器气人学习方法,其具有不断学习能力,能够基于训练数据,训练出合理的模型。具体来说,预设机器学习方法可以包括线性回归、Lasso、岭回归(Ridge Regression)、随机森林、K近邻算法(kNeighbour Regression)、决策树、支持向量机回归(SVR)、梯度增强回归(GradientBoostingRegressor)模型以及XGBoost算法。
S500:选取筛选出的变量和样本中第二部分数据为测试数据,对不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
基于上述机器学***均误差,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
上述房屋价值预测方法,一方面,基于房价前瞻预测因子体系,准确获取影响房屋价值的指标以及房屋价值指数,并进行量化和标准化,确保变量和样本的准确;另一方面,选择不同的机器学***均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型,实现对房屋价值的准确预测。
在其中一个实施例中,提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型包括:对提取筛选出的变量和样本中所有指标进行分组配置,根据分组情况,从筛选出的变量和样本中获取每个分组对应的入模指标的训练数据;通过每个分组对应的入模指标的训练数据,对多个预设机器学习方法进行训练,构建不同的房价前瞻模型;
选取筛选出的变量和样本中第二部分数据为测试数据,对不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学***均误差,选取平均误差最小的算法对应的房价前瞻预测模型作为最优房价前瞻模型。
具体来说,可以对筛选出的变量和样本中的所有指标进行分组配置,根据分组情况,分别从筛选出的变量和样本中获取每个分组对应的入模指标的训练数据和测试数据;通过每个分组对应的入模指标的训练数据,对多个预设机器学***均误差,选取平均误差最小的算法对应的房价前瞻预测模型作为最优房价前瞻模型。
在其中一个实施例中,对提取的指标和房屋价值指数进行量化处理之前,还包括:
识别提取的指标和房屋价值指数中主观因素;针对主观因素分别建立独立的模型,在独立模型中将主观因素对应情况划分为多种类型;针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;对提取的指标和房屋价值指数进行量化处理包括:根据赋值规则,对提取的指标和房屋价值指数进行量化处理。
以政策法规为例,构建独立的政策法规模型,根据政策背景和新政策本身,将政策背景分为宽松、收紧、由松转紧、由紧转松4类,新政策对应高度宽松、宽松、收紧、高度收紧四类,基于各类政策最终影响房屋价值走向的历史经验,分别给各类政策对应的指标值,得到赋值规则。当需要指标和房屋价值指数进行量化处理时,根据上述赋值规则,对提取的指标和房屋价值指数分别赋值,以实现量化处理。
步骤一:根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集。
某些指标存在数据缺失的情况,对于这种情况根据预先设定的缺失值填补规则以及已有数据进行缺失值调补,补齐数据集。具体来说,对于缺失率小于或等于预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺失值填补;对于缺失率大于预设阈值的指标予以剔除。在实际应用中,对于缺失率小于或等于30%的预设指标而言,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺失值填补;及对于缺失率大于30%的预设指标而言,(在考察其余可获得数据源均无法填补的情况下),对该指标予以剔除。当因子缺失为指标周期性缺失,例如每年1月份、2月份数据周期性缺失。由于该缺失情况与***统计工作周期相关,因此,为了消除春节日期不固定因素带来的影响,增强数据的可比性,需对1月份、2月份的确实指标进行填补。若该指标为累计值,则以当年度3月份数据的三分之一、三分之二分别作该年1月份、2月份数据缺失值填补;若该指标为当月发生值,则以该年3月份值作当年度1、2月份缺失值填补。当因子缺失的指标缺失数较少、无规律性,若该指标为累计值,则根据缺失当月前后一个月数据进行线性插值填补缺失;若该指标为当月实际发生值,则以距离缺失月最近6个月均值作填补。针对部分特殊指标,如施工面积,由于该指标性质的特殊性,采用该年度平均增长率倒推缺失值。
步骤二:针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理。
将季度、年度的指标通过线性插值的方法转化为月度数据,实现预设指标的变频处理,便于后续计算衍生指标。例如,“GDP”这一指标为季度数据,“常住人口”这一指标为年度数据,通常使用连续两个季度或者两个年度的历史数据进行线性插值,计算得出每个月的数据。
步骤三:根据变频处理后的指标,确定指标对应的衍生指标。
一般房屋价值相关的因子体系涉及的衍生指标共计24个,可直接从数据源获取的共计13个,剩余11各衍生指标主要是由现有某几个指标相除、相减等方法获得。例如:“常住人口/户籍人口比”这个指标由“常住人口”和“户籍人口”这两个指标衍生得到。
步骤四:对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
衍生指标生成完毕,即形成了指标转化前数据集的宽表。基于此,再对其作指标转化,指标转化方式包括:3个月环比、一年同比、标准化以及原始值。例如,对于房交易量指标,会使用3个月环比,累积值数据(例如,销售面积),会使用一年同比,指标本身为比率,会使用原始值。需要说明的是,在指标转化过程中,部分需同比转化的指标,由于原始数据起始时间的局限性,会出现转化后数据缺失的情况,该类指标缺失可以指标转化后数据的中位数作缺失值进行填补。
在其中一个实施例中,预设的缺失值填补规则为:对于缺失率小于或等于预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺失值填补;对于缺失率大于预设阈值的指标予以剔除。
非必要的,针对每个机器学***均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
应该理解的是,虽然图1和图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1和图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图4所示,一种房屋价值预测装置,装置包括:
因子体系获取模块100,用于获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系;
数据提取模块200,用于根据房价前瞻预测因子体系,提取影响房屋价值的指标以及房屋价值指数;
数据处理模块300,用于对提取的指标和房屋价值指数进行量化和标准化,从量化和标准化后的指标和房屋价值指数中筛选出符合预设规则的变量和样本;
模型训练模块400,用于提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型;
模型优化模块500,用于选取筛选出的变量和样本中第二部分数据为测试数据,对不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
上述房屋价值预测装置,一方面,基于房价前瞻预测因子体系,准确获取影响房屋价值的指标以及房屋价值指数,并进行量化和标准化,确保变量和样本的准确;另一方面,选择不同的机器学***均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型,实现对房屋价值的准确预测。
在其中一个实施例中,模型训练模块400还用于对提取筛选出的变量和样本中所有指标进行分组配置,根据分组情况,从筛选出的变量和样本中获取每个分组对应的入模指标的训练数据;通过每个分组对应的入模指标的训练数据,对多个预设机器学习方法进行训练,构建不同的房价前瞻模型;
模型优化模块500,还用于根据分组情况,从筛选出的变量和样本中获取每个分组对应的入模指标的测试数据;通过每个分组对应的入模指标的测试数据,对各机器学***均误差,选取平均误差最小的算法对应的房价前瞻预测模型作为最优房价前瞻模型。
如图5所示,在其中一个实施例中,上述房屋价值预测装置还包括:
因子体系构建模块120,用于获取各区域房屋价值历史数据,从各区域房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数,构建房价前瞻预测因子体系,房价前瞻预测因子包括主因子、附属于主因子的从因子、附属于从因子的次因子以及表征次因子的指标,主因子包括宏观经济指标主因子、中观经济指标主因子、城市规划主因子、舆论影响主因子以及政策法规主因子。
在其中一个实施例中,宏观经济指标主因子包括世界经济指标、国民经济指标、货币银行、房地产及建筑业以及金融市场的从因子;中观经济指标主因子包括城市经济、城市生活、房地产及建筑业以及二手房市场的从因子;城市规划主因子包括待预测区域城市规划的从因子;舆论影响主因子自包括主流媒体、互联网门户和论坛、自媒体以及搜索引擎热度的从因子;政策法规主因子包括国家政策和待预测区域的城市政策的从因子。
在其中一个实施例中,上述房屋价值预测装置还包括赋值模块,用于识别提取的指标和房屋价值指数中主观因素;针对主观因素分别建立独立的模型,在独立模型中将主观因素对应情况划分为多种类型;针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;数据处理模块600还用于根据赋值规则,对提取的指标和房屋价值指数进行量化处理。
在其中一个实施例中,数据处理模块600还用于根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;根据变频处理后的指标,确定指标对应的衍生指标;对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
在其中一个实施例中,预设的缺失值填补规则为:对于缺失率小于或等于预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺失值填补;对于缺失率大于预设阈值的指标予以剔除。
关于房屋价值预测装置的具体限定可以参见上文中对于房屋价值预测方法的限定,在此不再赘述。上述房屋价值预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在实际应用,以本申请构建的房价前瞻预测模型对武汉市某一区域房价进行预测,其得到的实验结果图6所示。基于图6可见本申请房价前瞻预测模型可以准确对武汉市某一区域房价进行预测。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储房价前瞻预测因子体系以及机器学习方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种房屋价值预测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系;
根据房价前瞻预测因子体系,提取影响房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化和标准化,从量化和标准化后的指标和房屋价值指数中筛选出符合预设规则的变量和样本;
提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型;
选取筛选出的变量和样本中第二部分数据为测试数据,对不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对提取筛选出的变量和样本中所有指标进行分组配置,根据分组情况,从筛选出的变量和样本中获取每个分组对应的入模指标的训练数据;通过每个分组对应的入模指标的训练数据,对多个预设机器学***均误差,选取平均误差最小的算法对应的房价前瞻预测模型作为最优房价前瞻模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取各区域房屋价值历史数据;从各区域房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;构建房价前瞻预测因子体系,房价前瞻预测因子包括主因子、附属于主因子的从因子、附属于从因子的次因子以及表征次因子的指标,主因子包括宏观经济指标主因子、中观经济指标主因子、城市规划主因子、舆论影响主因子以及政策法规主因子。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
识别提取的指标和房屋价值指数中主观因素;针对主观因素分别建立独立的模型,在独立模型中将主观因素对应情况划分为多种类型;针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;根据赋值规则,对提取的指标和房屋价值指数进行量化处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;根据变频处理后的指标,确定指标对应的衍生指标;对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系;
根据房价前瞻预测因子体系,提取影响房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化和标准化,从量化和标准化后的指标和房屋价值指数中筛选出符合预设规则的变量和样本;
提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型;
选取筛选出的变量和样本中第二部分数据为测试数据,对不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对提取筛选出的变量和样本中所有指标进行分组配置,根据分组情况,从筛选出的变量和样本中获取每个分组对应的入模指标的训练数据;通过每个分组对应的入模指标的训练数据,对多个预设机器学***均误差,选取平均误差最小的算法对应的房价前瞻预测模型作为最优房价前瞻模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取各区域房屋价值历史数据;从各区域房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;构建房价前瞻预测因子体系,房价前瞻预测因子包括主因子、附属于主因子的从因子、附属于从因子的次因子以及表征次因子的指标,主因子包括宏观经济指标主因子、中观经济指标主因子、城市规划主因子、舆论影响主因子以及政策法规主因子。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
识别提取的指标和房屋价值指数中主观因素;针对主观因素分别建立独立的模型,在独立模型中将主观因素对应情况划分为多种类型;针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;根据赋值规则,对提取的指标和房屋价值指数进行量化处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;根据变频处理后的指标,确定指标对应的衍生指标;对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种房屋价值预测方法,所述方法包括:
获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系;
根据房价前瞻预测因子体系,提取影响房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化和标准化,从量化和标准化后的指标和房屋价值指数中筛选出符合预设规则的变量和样本;
提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型;
选取筛选出的变量和样本中第二部分数据为测试数据,对所述不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
2.根据权利要求1所述的方法,其特征在于,所述提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型包括:
对提取筛选出的变量和样本中所有指标进行分组配置,根据分组情况,从筛选出的变量和样本中获取每个分组对应的入模指标的训练数据;
通过每个分组对应的入模指标的训练数据,对多个预设机器学习方法进行训练,构建不同的房价前瞻模型;
所述选取筛选出的变量和样本中第二部分数据为测试数据,对所述不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型包括:
根据所述分组情况,从筛选出的变量和样本中获取每个分组对应的入模指标的测试数据;
通过每个分组对应的入模指标的测试数据,对各机器学习方法对应的房价前瞻模型的准确性进行测试;
计算各房价前瞻模型对应的测试结果的平均误差,选取平均误差最小的算法对应的房价前瞻预测模型作为最优房价前瞻模型。
3.根据权利要求1所述的方法,其特征在于,所述获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系之前,还包括:
获取各区域房屋价值历史数据;
从所述各区域房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
构建房价前瞻预测因子体系,房价前瞻预测因子包括主因子、附属于所述主因子的从因子、附属于所述从因子的次因子以及表征所述次因子的指标,所述主因子包括宏观经济指标主因子、中观经济指标主因子、城市规划主因子、舆论影响主因子以及政策法规主因子。
4.根据权利要求3所述的方法,其特征在于,所述宏观经济指标主因子包括世界经济指标、国民经济指标、货币银行、房地产及建筑业以及金融市场的从因子;中观经济指标主因子包括城市经济、城市生活、房地产及建筑业以及二手房市场的从因子;城市规划主因子包括待预测区域城市规划的从因子;舆论影响主因子自包括主流媒体、互联网门户和论坛、自媒体以及搜索引擎热度的从因子;政策法规主因子包括国家政策和待预测区域的城市政策的从因子。
5.根据权利要求1所述的方法,其特征在于,对提取的指标和房屋价值指数进行量化处理之前,还包括:
识别提取的指标和房屋价值指数中主观因素;
针对所述主观因素分别建立独立的模型,在所述独立模型中将主观因素对应情况划分为多种类型;
针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;
对提取的指标和房屋价值指数进行量化处理包括:
根据所述赋值规则,对提取的指标和房屋价值指数进行量化处理。
6.根据权利要求1所述的方法,其特征在于,对提取的指标和房屋价值指数进行标准化处理包括:
根据预设的缺失值填补规则,对所述指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;
针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;
根据变频处理后的指标,确定指标对应的衍生指标;
对所述衍生指标进行指标转化,将指标转化后的所述衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
7.根据权利要求6所述的方法,其特征在于,所述预设的缺失值填补规则为:对于缺失率小于或等于预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺失值填补;对于缺失率大于所述预设阈值的指标予以剔除。
8.一种房屋价值预测装置,其特征在于,所述装置包括:
因子体系获取模块,用于获取根据待预测区域房屋价值历史数据构建的房价前瞻预测因子体系;
数据提取模块,用于根据房价前瞻预测因子体系,提取影响房屋价值的指标以及房屋价值指数;
数据处理模块,用于对提取的指标和房屋价值指数进行量化和标准化,从量化和标准化后的指标和房屋价值指数中筛选出符合预设规则的变量和样本;
模型训练模块,用于提取筛选出的变量和样本第一部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法预测模型训练,构建不同的房价前瞻预测模型;
模型优化模块,用于选取筛选出的变量和样本中第二部分数据为测试数据,对所述不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法预测模型对应的房价前瞻预测模型为最优房价前瞻预测模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811289877.1A CN109345035A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811289877.1A CN109345035A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109345035A true CN109345035A (zh) | 2019-02-15 |
Family
ID=65312679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811289877.1A Pending CN109345035A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109345035A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872003A (zh) * | 2019-03-06 | 2019-06-11 | 中国科学院软件研究所 | 对象状态预测方法、***、计算机设备及存储介质 |
CN113177806A (zh) * | 2021-05-18 | 2021-07-27 | 中移(上海)信息通信科技有限公司 | 一种信息处理方法、装置及设备 |
CN113962744A (zh) * | 2021-10-29 | 2022-01-21 | 重庆汇集源科技有限公司 | 房地产租金动态监测*** |
-
2018
- 2018-10-31 CN CN201811289877.1A patent/CN109345035A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872003A (zh) * | 2019-03-06 | 2019-06-11 | 中国科学院软件研究所 | 对象状态预测方法、***、计算机设备及存储介质 |
CN109872003B (zh) * | 2019-03-06 | 2021-08-13 | 中国科学院软件研究所 | 对象状态预测方法、***、计算机设备及存储介质 |
CN113177806A (zh) * | 2021-05-18 | 2021-07-27 | 中移(上海)信息通信科技有限公司 | 一种信息处理方法、装置及设备 |
CN113962744A (zh) * | 2021-10-29 | 2022-01-21 | 重庆汇集源科技有限公司 | 房地产租金动态监测*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376936A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109523068A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
Petrović-Ranđelović et al. | Market size as a determinant of the foreign direct investment inflows in the Western Balkans countries | |
CN109345035A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN110060144A (zh) | 额度模型训练方法、额度评估方法、装置、设备及介质 | |
CN112446534B (zh) | 一种输变电工程的建设工期预测方法和装置 | |
CN107346502A (zh) | 一种基于大数据的迭代产品销售预测方法 | |
JP7304698B2 (ja) | 水需要予測方法およびシステム | |
CN109635996A (zh) | 房价走势前瞻模型构建方法、装置及存储介质 | |
CN110110886A (zh) | 信息预测方法、装置、计算机设备和存储介质 | |
Gao et al. | Strategic decision-support modeling for robust management of the food–energy–water nexus under uncertainty | |
CN109242578A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN114202179A (zh) | 目标企业的识别方法以及装置 | |
CN109325811A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109583940A (zh) | 小区房源价值参数估计方法以及装置 | |
CN111460260A (zh) | 多类型数据的数据处理***、方法及介质 | |
CN110580542A (zh) | 一种用电量预测方法和装置 | |
CN110084400A (zh) | 信息预测方法、装置、计算机设备和存储介质 | |
Brzezicka et al. | The applicability of the speculative frame method for detecting disturbances on the real estate market: evidence from Poland | |
CN110110885A (zh) | 信息预测方法、装置、计算机设备和存储介质 | |
CN109544215A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109543904A (zh) | 医疗数据预测方法、装置、计算机设备和存储介质 | |
CN109492806A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109214603A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN113298575A (zh) | 一种商标价值批量评估的方法、***、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190215 |
|
WD01 | Invention patent application deemed withdrawn after publication |