CN109376936A - 房屋价值预测方法、装置、计算机设备和存储介质 - Google Patents
房屋价值预测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109376936A CN109376936A CN201811289837.7A CN201811289837A CN109376936A CN 109376936 A CN109376936 A CN 109376936A CN 201811289837 A CN201811289837 A CN 201811289837A CN 109376936 A CN109376936 A CN 109376936A
- Authority
- CN
- China
- Prior art keywords
- index
- value
- house
- data
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000011002 quantification Methods 0.000 claims abstract description 14
- 238000013139 quantization Methods 0.000 claims abstract description 11
- 230000001932 seasonal effect Effects 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 25
- 238000010801 machine learning Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 8
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0278—Product appraisal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Operations Research (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及智慧城市技术领域,应用于房地产行业,特别涉及一种房屋价值预测方法、装置、计算机设备和存储介质,其中,方法包括:从房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数,对提取的指标和房屋价值指数进行量化和标准化处理,筛选出符合经济学逻辑的变量和样本,提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值指数为预测目标,构建房价前瞻预测模型进行房屋价值预测。整个过程中,对获取的影响房屋价值的指标以及房屋价值指数进行量化处理和标准化,去除异常值、趋势以及季节性影响因素影响,准确获取训练数据,可以实现对房屋价值准确预测。
Description
技术领域
本申请涉及前瞻预测技术领域,特别是涉及一种房屋价值预测方法、装置、 计算机设备和存储介质。
背景技术
在实际生活中,房价已经成为人们日常生活的关注重点,房价的变动牵动 着各行各业以及普通百姓的心,不论是从事房地产开发、房地产金融以及建筑 等行业的专业人员还是普通百姓都希望能够对未来房价走势有一个比较准确的 前瞻预测。
传统的房价预测多数是专业的估价师基于近段时间来某个地区基础房价、 房源供需关系、政策以及自身经验给出房价预测。这种方式,一般会严重依赖 于估价师的主观判断以及经验,针对同一区域的房价,不同的估价师最终得出 房价预测可能不同。
可见传统的房价预测方法均在极大局限性,其房价预测结果不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种房屋价值预测方法、装置、 计算机设备和存储介质。
一种房屋价值预测方法,所述方法包括:
获取待预测区域房屋价值历史数据,从所述房屋价值历史数据中提取影响 房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化处理,并对提取的指标和房屋价值 指数进行标准化处理;
从量化和标准化后的指标和房屋价值指数中筛选出符合经济学逻辑的变量 和样本;
提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值 指数为预测目标,构建房价前瞻预测模型。
在其中一个实施例中,所述提取的指标和房屋价值指数去除异常值、趋势 以及季节性影响因素进行标准化处理包括:
根据预设的缺失值填补规则,对所述指标中存在缺失的指标进行缺失值填 补,得到缺失值填补完毕的数据集;
针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变 频处理;
根据变频处理后的指标,确定指标对应的衍生指标;
对所述衍生指标进行指标转化,将指标转化后的所述衍生指标及对应的变 频处理后的指标进行合并,得到标准化处理后的指标。
在其中一个实施例中,所述预设的缺失值填补规则为:对于缺失率小于或 等于预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标进 行缺失值填补;对于缺失率大于所述预设阈值的指标予以剔除
在其中一个实施例中,所述对指标进行变频处理包括:
获取指标中的季度指标和年度指标;
将所述季度指标和所述年度指标通过线性插值的方法转化为月度数据。
在其中一个实施例中,所述根据变频处理后的指标,确定指标对应的衍生 指标包括:
获取预设房价前瞻预测因子体系;
根据所述预设房价前瞻预测因子体系,获取衍生指标数据;
从所述衍生指标数据中识别可以直接获取的指标数据以及需由其他指标运 算方法的指标数据,确定各指标对应的衍生指标。
在其中一个实施例中,所述提取筛选出的变量和样本中部分数据为训练数 据,以待预测区域房屋价值指数为预测目标,构建房价前瞻预测模型包括:
提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值 指数为预测目标,分别通过多个预设机器学习方法训练,构建不同的房价前瞻 预测模型;
所述提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋 价值指数为预测目标,分别通过多个预设机器学习方法训练,构建不同的房价 前瞻预测模型之后,还包括:
选取筛选出的变量和样本中另一部分数据为测试数据,对所述不同的房价 前瞻预测模型进行测试,选择平均误差最小的机器学习方法对应的房价前瞻预 测模型为最优房价前瞻预测模型。
一种房屋价值预测装置,所述装置包括:
数据获取模块,用于获取待预测区域房屋价值历史数据,从所述房屋价值 历史数据中提取影响房屋价值的指标以及房屋价值指数;
数据处理模块,用于对提取的指标和房屋价值指数进行量化处理,并对提 取的指标和房屋价值指数进行标准化处理;
筛选模块,用于从量化和标准化后的指标和房屋价值指数中筛选出符合经 济学逻辑的变量和样本;
模型构建模块,用于提取筛选出的变量和样本中部分数据为训练数据,以 待预测区域房屋价值指数为预测目标,构建房价前瞻预测模型。
在其中一个实施例中,所述数据处理模块还用于根据预设的缺失值填补规 则,对所述指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数 据集;针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行 变频处理;根据变频处理后的指标,确定指标对应的衍生指标;对所述衍生指 标进行指标转化,将指标转化后的所述衍生指标及对应的变频处理后的指标进 行合并,得到标准化处理后的指标。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序, 所述处理器执行所述计算机程序时实现如个述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处 理器执行时实现如上述的方法的步骤。
上述房屋价值预测方法、装置、计算机设备和存储介质,从房屋价值历史 数据中提取影响房屋价值的指标以及房屋价值指数,对提取的指标和房屋价值 指数进行量化处理,并对提取的指标和房屋价值指数进行标准化处理,筛选出 符合经济学逻辑的变量和样本,提取筛选出的变量和样本中部分数据为训练数 据,以待预测区域房屋价值指数为预测目标,构建房价前瞻预测模型进行房屋 价值预测。整个过程中,对获取的影响房屋价值的指标以及房屋价值指数进行 量化处理和标准化,去除异常值、趋势以及季节性影响因素影响,准确获取训 练数据,可以实现对房屋价值准确预测。
附图说明
图1为一个实施例中房屋价值预测方法的流程示意图;
图2为另一个实施例中房屋价值预测方法的流程示意图;
图3为一个实施例中房屋价值预测装置的结构框图;
图4为另一个实施例中房屋价值预测装置的结构框图;
图5为应用上述房屋价值预测方法的实验结果对比图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅 用以解释本申请,并不用于限定本申请。
如图1所示,一种房屋价值预测方法,方法包括:
S200:获取待预测区域房屋价值历史数据,从房屋价值历史数据中提取影 响房屋价值的指标以及房屋价值指数。
待预测区域是指本次房屋价值预测的目标区域,该区域可以是某一个行政 区域,例如北京、上海、广州等。该区域还可以是一个较小范围,例如某个小 区等。待预测区域房屋价值历史数据可以是在日常记录中终端采集发送至服务 器累积下来的数据,可以是服务器通过互联网等手段获取外部已有对应的数据。 在房屋价值历史数据中提取影响房屋价值的指标和房屋价值指数,影响房屋价 值的指标包括有:各类宏观经济指标,例如GDP、CPI、PMI、人均可支配收入 等;中观经济指标,例如各城市(区)城市化率、地铁里程、人均住房面积以 及商品房待售面积等;政策法规例如房地产限售限购政策、首套房利率政策、 城市中长期发展规划等。房屋价值指数具体可以是房价,其可以包括挂盘和交 易价格。非必要的,为了确保后续房屋价值预测的准确性,可以获取近段时间 内的待预测区域房屋价值历史数据,例如获取最近1年、获取最近6个月等时 间内的待预测区域房屋价值历史数据,针对获取的数据还可以基于时间合理排 布对应的指标,例如以月为依据。如以“居住人口”这一指标为例,该指标的 历史值为[h1、h2、…、hi、…],其中,hi表示在预设时间内的第i个月的居住 人口数。
S400:对提取的指标和房屋价值指数进行量化处理,并对提取的指标和房 屋价值指数进行标准化处理。
进行量化处理的目的是将提取的指标和房屋价值指数中主观因素参数量化 为方便处理的数据。进行标准化处理的目的是将去除提取的指标和房屋价值指 数中异常值、趋势以及季节影响。对提取的指标和房屋价值指数进行量化处理 和标准化进一步除去数据中主观因素、异常值、趋势以及季节性参数,为后续 客观预测房屋价值提供可靠的数据基础。
S600:从量化和标准化后的指标和房屋价值指数中筛选出符合经济学逻辑 的变量和样本。
筛选出符合经济学逻辑具体可以基于大数据分析的方式,从量化和标准化 处理后的指标和房屋价值指数中筛选出来。筛选出的变量和样本作为下一步的 训练数据。需要指出的时,这个筛选过程可以根据实际情况需要选择一定数量 的变量和样本。当实际情况需要比较高要求、覆盖全面的房价前瞻预测结果时, 可以选择尽量多一些变量好样本作为训练数据;当实际情况需要比较低要求、 覆盖一定内容的房价前瞻预测结果时,可以选择少量变量好样本作为训练数据, 减少后续训练的数据处理量。
S800:提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房 屋价值指数为预测目标,构建房价前瞻预测模型。
预设机器学习方法是预先选定的机器气人学习方法,其具有不断学习能力, 能够基于训练数据,训练出合理的模型。具体来说,预设机器学习方法可以包 括线性回归、Lasso、岭回归(Ridge Regression)、随机森林、K近邻算法(k Neighbour Regression)、决策树、支持向量机回归(SVR)、梯度增强回归 (GradientBoostingRegressor)模型以及XGBoost算法。选择上述任意一款机器 学习方法,以待预测区域房屋价值指数为预测目标,以筛选出的变量和样本为 训练数据进行训练,构建房价前瞻预测模型,基于构建的房价前瞻预测模型对 待预测区域房屋价值进行预测。
上述房屋价值预测方法,从房屋价值历史数据中提取影响房屋价值的指标 以及房屋价值指数,对提取的指标和房屋价值指数进行量化处理,并对提取的 指标和房屋价值指数进行标准化处理,筛选出符合经济学逻辑的变量和样本, 提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值指数 为预测目标,构建房价前瞻预测模型进行房屋价值预测。整个过程中,对获取 的影响房屋价值的指标以及房屋价值指数进行量化处理和标准化,去除异常值、 趋势以及季节性影响因素影响,准确获取训练数据,可以实现对房屋价值准确 预测。
在其中一个实施例中,提取的指标和房屋价值指数去除异常值、趋势以及 季节性影响因素进行标准化处理包括:
步骤一:根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失 值填补,得到缺失值填补完毕的数据集。
某些指标存在数据缺失的情况,对于这种情况根据预先设定的缺失值填补 规则以及已有数据进行缺失值调补,补齐数据集。具体来说,对于缺失率小于 或等于预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标 进行缺失值填补;对于缺失率大于预设阈值的指标予以剔除。在实际应用中, 对于缺失率小于或等于30%的预设指标而言,根据指标性质及指标缺失情况, 对存在缺失值的指标进行缺失值填补;及对于缺失率大于30%的预设指标而言, (在考察其余可获得数据源均无法填补的情况下),对该指标予以剔除。当因子 缺失为指标周期性缺失,例如每年1月份、2月份数据周期性缺失。由于该缺失 情况与***统计工作周期相关,因此,为了消除春节日期不固定因素带来的 影响,增强数据的可比性,需对1月份、2月份的确实指标进行填补。若该指标 为累计值,则以当年度3月份数据的三分之一、三分之二分别作该年1月份、2 月份数据缺失值填补;若该指标为当月发生值,则以该年3月份值作当年度1、 2月份缺失值填补。当因子缺失的指标缺失数较少、无规律性,若该指标为累计 值,则根据缺失当月前后一个月数据进行线性插值填补缺失;若该指标为当月 实际发生值,则以距离缺失月最近6个月均值作填补。针对部分特殊指标,如 施工面积,由于该指标性质的特殊性,采用该年度平均增长率倒推缺失值。
步骤二:针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指 标进行变频处理。
将季度的指标和年度的指标通过线性插值的方法转化为月度数据,实现预 设指标的变频处理,便于后续计算衍生指标。例如,“GDP”这一指标为季度数 据,“常住人口”这一指标为年度数据,通常使用连续两个季度或者两个年度的 历史数据进行线性插值,计算得出每个月的数据。
步骤三:根据变频处理后的指标,确定指标对应的衍生指标。
一般房屋价值相关的因子体系涉及的衍生指标共计24个,可直接从数据源 获取的共计13个,剩余11各衍生指标主要是由现有某几个指标相除、相减等 方法获得。例如:“常住人口/户籍人口比”这个指标由“常住人口”和“户籍人 口”这两个指标衍生得到。具体来说,上述步骤包括:获取预设房价前瞻预测 因子体系;根据预设房价前瞻预测因子体系,获取衍生指标数据;从衍生指标 数据中识别可以直接获取的指标数据以及需由其他指标运算方法的指标数据, 确定各指标对应的衍生指标。其中房价前瞻预测因子体系是预先构建的,在房 价前瞻预测因子体系中携带有大量影响房屋价值的指标以房屋价值指数,影响房屋价值的指标包括有:各类宏观经济指标,例如GDP、CPI、PMI、人均可支 配收入等;中观经济指标,例如各城市(区)城市化率、地铁里程、人均住房 面积以及商品房待售面积等;政策法规例如房地产限售限购政策、首套房利率 政策、城市中长期发展规划等。房屋价值指数具体可以是房价,其可以包括挂 盘和交易价格。宏观经济指标主因子包括世界经济指标、国民经济指标、货币 银行、房地产及建筑业以及金融市场的从因子;中观经济指标主因子包括城市 经济、城市生活、房地产及建筑业以及二手房市场的从因子;城市规划主因子包括待预测区域城市规划的从因子;舆论影响主因子自包括主流媒体、互联网 门户和论坛、自媒体以及搜索引擎热度的从因子;政策法规主因子包括国家政 策和待预测区域的城市政策的从因子。
步骤四:对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变 频处理后的指标进行合并,得到标准化处理后的指标。
衍生指标生成完毕,即形成了指标转化前数据集的宽表。基于此,再对其 作指标转化,指标转化方式包括:3个月环比、一年同比、标准化以及原始值。 例如,对于房交易量指标,会使用3个月环比,累积值数据(例如,销售面积), 会使用一年同比,指标本身为比率,会使用原始值。需要说明的是,在指标转 化过程中,部分需同比转化的指标,由于原始数据起始时间的局限性,会出现 转化后数据缺失的情况,该类指标缺失可以指标转化后数据的中位数作缺失值 进行填补。
如图2所示,在其中一个实施例中,步骤S800包括:提取筛选出的变量和 样本中部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通 过多个预设机器学习方法训练,构建不同的房价前瞻预测模型;
步骤S800之后还包括:
S900:选取筛选出的变量和样本中另一部分数据为测试数据,对不同的房 价前瞻预测模型进行测试,选择平均误差最小的机器学习方法对应的房价前瞻 预测模型为最优房价前瞻预测模型。
机器学***均误差,选择平均误差最小的机器学习方法对应 的房价前瞻预测模型为最优房价前瞻预测模型。
更进一步来说,可以根据预设短名单生成规则筛选出符合经济学逻辑的变 量和样本。短名单生成规则是结合房地产行业专家经验和已有房地产模型讨论 生成的。根据该短名单生成规则,从提取的指标中筛选出预设数量的指标生成 短名单,例如可以选取53个指标中重要程度为高的指标作为模型训练短名单, 根据每个指标的最佳滞后期数据生成样本数据集,用于机器学习建模训练。需 要指出的是,样本数据集中包括有训练数据和测试数据,训练数据用于机器学 习建模训练,测试数据用于测试建立好的模型是否预测准确。
在其中一个实施例中,上述步骤S900包括:
d1、对短名单中的所有指标进行分组配置,根据分组情况,依次从样本数 据集中获取每个分组对应的入模指标的训练集、测试集。
d2、利用每个分组对应的入模指标的训练集,对预设的机器学习方法进行 训练,构建房价前瞻模型。
d3、利用每个分组对应的入模指标的测试集,对各机器学习方法对应的房 价前瞻模型的准确性进行测试。
d4、计算各房价前瞻模型对应的测试结果的平均误差(RMSE),选取平均 误差(RMSE)最小的算法对应的房价前瞻预测模型作为最优房价前瞻模型。
首先,对短名单进行分组配置,每个分组的入模指标数量控制在有且仅有 一个,由于不同城市其数据质量不尽相同,若分组内所有指标均无数据,则该 组指标数量为零。例如,在分组配置过程中,根据指标类型进行分组:中观、 宏观、衍生等。其中,训练模型组合的数量为所有分组中选取1个指标的遍历。 比如,若A组有3个指标,B组有2个指标,则组合数为3*2=6,共6种,组 合指标有2个。基于模型所有的组合数,将对每个组合分别采用9种机器学***均误差(RMSE)最小的算法对应的房价前瞻预测模型作为 最优房价前瞻模型。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显 示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明 确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以其它的顺序 执行。而且,图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这 些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执 行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步 骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行
如图3所示,一种房屋价值预测装置,装置包括:
数据获取模块200,用于获取待预测区域房屋价值历史数据,从房屋价值历 史数据中提取影响房屋价值的指标以及房屋价值指数;
数据处理模块400,用于对提取的指标和房屋价值指数进行量化处理,并对 提取的指标和房屋价值指数进行标准化处理;
筛选模块600,用于从量化和标准化后的指标和房屋价值指数中筛选出符合 经济学逻辑的变量和样本;
模型构建模块800,用于提取筛选出的变量和样本中部分数据为训练数据, 以待预测区域房屋价值指数为预测目标,构建房价前瞻预测模型。
上述房屋价值预测装置,数据获取模块200从房屋价值历史数据中提取影 响房屋价值的指标以及房屋价值指数,数据处理模块400对提取的指标和房屋 价值指数进行量化处理,并对提取的指标和房屋价值指数进行标准化处理,筛 选模块600筛选出符合经济学逻辑的变量和样本,模型构建模块800提取筛选 出的变量和样本中部分数据为训练数据,以待预测区域房屋价值指数为预测目 标,构建房价前瞻预测模型进行房屋价值预测。整个过程中,对获取的影响房 屋价值的指标以及房屋价值指数进行量化处理和标准化,去除异常值、趋势以 及季节性影响因素影响,准确获取训练数据,可以实现对房屋价值准确预测。
在其中一个实施例中,数据处理模块400还用于根据预设的缺失值填补规 则,对指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集; 针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处 理;根据变频处理后的指标,确定指标对应的衍生指标;对衍生指标进行指标 转化,将指标转化后的衍生指标及对应的变频处理后的指标进行合并,得到标 准化处理后的指标。
在其中一个实施例中,预设的缺失值填补规则为:对于缺失率小于或等于 预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺 失值填补;对于缺失率大于预设阈值的指标予以剔除
在其中一个实施例中,数据处理模块400还用于获取指标中的季度指标和 年度指标;将季度指标和年度指标通过线性插值的方法转化为月度数据。
在其中一个实施例中,数据处理模块400还用于获取预设房价前瞻预测因 子体系;根据预设房价前瞻预测因子体系,获取衍生指标数据;从衍生指标数 据中识别可以直接获取的指标数据以及需由其他指标运算方法的指标数据,确 定各指标对应的衍生指标。
在其中一个实施例中,模型构建模块800还用于提取筛选出的变量和样本 中部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多 个预设机器学***均误差最小 的机器学习方法对应的房价前瞻预测模型为最优房价前瞻预测模型。
关于房屋价值预测装置的具体限定可以参见上文中对于房屋价值预测方法 的限定,在此不再赘述。上述房屋价值预测装置中的各个模块可全部或部分通 过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算 机设备中的处理器中,也可以软件形式存储于计算机设备中的存储器中,以便 于处理器调用执行以上各个模块对应的操作。
在实际应用,以本申请构建的房价前瞻预测模型对杭州市某一区域房价进 行预测,其得到的实验结果图5所示。基于图5可见本申请房价前瞻预测模型 可以准确对杭州市某一区域房价进行预测。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器, 其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、 存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控 制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失 性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存 储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用 于存储各区域房屋价值历史数据以及数据。该计算机设备的网络接口用于与外 部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种房屋价 值预测方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在 存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以 下步骤:
获取待预测区域房屋价值历史数据,从房屋价值历史数据中提取影响房屋 价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化处理,并对提取的指标和房屋价值 指数进行标准化处理;
从量化和标准化后的指标和房屋价值指数中筛选出符合经济学逻辑的变量 和样本;
提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值 指数为预测目标,构建房价前瞻预测模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补, 得到缺失值填补完毕的数据集;针对缺失值填补完毕的数据集,根据预设的指 标变频规则,对指标进行变频处理;根据变频处理后的指标,确定指标对应的 衍生指标;对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频 处理后的指标进行合并,得到标准化处理后的指标。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取指标中 的季度指标和年度指标;将季度指标和年度指标通过线性插值的方法转化为月 度数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设房 价前瞻预测因子体系;根据预设房价前瞻预测因子体系,获取衍生指标数据; 从衍生指标数据中识别可以直接获取的指标数据以及需由其他指标运算方法的 指标数据,确定各指标对应的衍生指标。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值 指数为预测目标,分别通过多个预设机器学***均误差最小的机器学习方法对应的房价前瞻 预测模型为最优房价前瞻预测模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,计算机程序被处理器执行时实现以下步骤:
获取待预测区域房屋价值历史数据,从房屋价值历史数据中提取影响房屋 价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化处理,并对提取的指标和房屋价值 指数进行标准化处理;
从量化和标准化后的指标和房屋价值指数中筛选出符合经济学逻辑的变量 和样本;
提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值 指数为预测目标,构建房价前瞻预测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补, 得到缺失值填补完毕的数据集;针对缺失值填补完毕的数据集,根据预设的指 标变频规则,对指标进行变频处理;根据变频处理后的指标,确定指标对应的 衍生指标;对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频 处理后的指标进行合并,得到标准化处理后的指标。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取指标 中的季度指标和年度指标;将季度指标和年度指标通过线性插值的方法转化为 月度数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预设 房价前瞻预测因子体系;根据预设房价前瞻预测因子体系,获取衍生指标数据; 从衍生指标数据中识别可以直接获取的指标数据以及需由其他指标运算方法的 指标数据,确定各指标对应的衍生指标。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值 指数为预测目标,分别通过多个预设机器学***均误差最小的机器学习方法对应的房价前瞻 预测模型为最优房价前瞻预测模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非 易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方 法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存 储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非 易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限, RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器 总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述 实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特 征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但 并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普 通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进, 这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要 求为准。
Claims (10)
1.一种房屋价值预测方法,所述方法包括:
获取待预测区域房屋价值历史数据,从所述房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化处理,并对提取的指标和房屋价值指数进行标准化处理;
从量化和标准化后的指标和房屋价值指数中筛选出符合经济学逻辑的变量和样本;
提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值指数为预测目标,构建房价前瞻预测模型。
2.根据权利要求1所述的方法,其特征在于,所述提取的指标和房屋价值指数去除异常值、趋势以及季节性影响因素进行标准化处理包括:
根据预设的缺失值填补规则,对所述指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;
针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;
根据变频处理后的指标,确定指标对应的衍生指标;
对所述衍生指标进行指标转化,将指标转化后的所述衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
3.根据权利要求2所述的方法,其特征在于,所述预设的缺失值填补规则为:对于缺失率小于或等于预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺失值填补;对于缺失率大于所述预设阈值的指标予以剔除。
4.根据权利要求2所述的方法,其特征在于,所述对指标进行变频处理包括:
获取指标中的季度指标和年度指标;
将所述季度指标和所述年度指标通过线性插值的方法转化为月度数据。
5.根据权利要求2所述的方法,其特征在于,所述根据变频处理后的指标,确定指标对应的衍生指标包括:
获取预设房价前瞻预测因子体系;
根据所述预设房价前瞻预测因子体系,获取衍生指标数据;
从所述衍生指标数据中识别可以直接获取的指标数据以及需由其他指标运算方法的指标数据,确定各指标对应的衍生指标。
6.根据权利要求1所述的方法,其特征在于,所述提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值指数为预测目标,构建房价前瞻预测模型包括:
提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型;
所述提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值指数为预测目标,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型之后,还包括:
选取筛选出的变量和样本中另一部分数据为测试数据,对所述不同的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法对应的房价前瞻预测模型为最优房价前瞻预测模型。
7.一种房屋价值预测装置,其特征在于,所述装置包括:
数据获取模块,用于获取待预测区域房屋价值历史数据,从所述房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
数据处理模块,用于对提取的指标和房屋价值指数进行量化处理,并对提取的指标和房屋价值指数进行标准化处理;
筛选模块,用于从量化和标准化后的指标和房屋价值指数中筛选出符合经济学逻辑的变量和样本;
模型构建模块,用于提取筛选出的变量和样本中部分数据为训练数据,以待预测区域房屋价值指数为预测目标,构建房价前瞻预测模型。
8.根据权利要求7所述的装置,其特征在于,所述数据处理模块还用于根据预设的缺失值填补规则,对所述指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;根据变频处理后的指标,确定指标对应的衍生指标;对所述衍生指标进行指标转化,将指标转化后的所述衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811289837.7A CN109376936A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811289837.7A CN109376936A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109376936A true CN109376936A (zh) | 2019-02-22 |
Family
ID=65391388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811289837.7A Pending CN109376936A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376936A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109935338A (zh) * | 2019-03-07 | 2019-06-25 | 平安科技(深圳)有限公司 | 基于机器学习的数据预测处理方法、装置和计算机设备 |
CN110110901A (zh) * | 2019-04-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 数据预测方法、装置、计算机设备和存储介质 |
CN112183861A (zh) * | 2020-09-28 | 2021-01-05 | 辽宁省肿瘤医院 | 基于lasso回归预测治疗费用的方法 |
CN113177806A (zh) * | 2021-05-18 | 2021-07-27 | 中移(上海)信息通信科技有限公司 | 一种信息处理方法、装置及设备 |
CN113962744A (zh) * | 2021-10-29 | 2022-01-21 | 重庆汇集源科技有限公司 | 房地产租金动态监测*** |
CN113988639A (zh) * | 2021-10-29 | 2022-01-28 | 重庆汇集源科技有限公司 | 资产价值动态管理*** |
CN114119062A (zh) * | 2021-10-11 | 2022-03-01 | 深圳市房帮帮互联网科技有限公司 | 一种基于多变量的房地产自动估价方法 |
CN116308441A (zh) * | 2023-03-07 | 2023-06-23 | 太原科技大学 | 一种具有变量选择能力的房屋价格预测方法 |
WO2024021630A1 (zh) * | 2022-07-27 | 2024-02-01 | 京东城市(北京)数字科技有限公司 | 一种计算指标数据的方法和装置 |
-
2018
- 2018-10-31 CN CN201811289837.7A patent/CN109376936A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109935338A (zh) * | 2019-03-07 | 2019-06-25 | 平安科技(深圳)有限公司 | 基于机器学习的数据预测处理方法、装置和计算机设备 |
CN110110901A (zh) * | 2019-04-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 数据预测方法、装置、计算机设备和存储介质 |
CN112183861A (zh) * | 2020-09-28 | 2021-01-05 | 辽宁省肿瘤医院 | 基于lasso回归预测治疗费用的方法 |
CN112183861B (zh) * | 2020-09-28 | 2024-01-26 | 辽宁省肿瘤医院 | 基于lasso回归预测治疗费用的方法 |
CN113177806A (zh) * | 2021-05-18 | 2021-07-27 | 中移(上海)信息通信科技有限公司 | 一种信息处理方法、装置及设备 |
CN114119062A (zh) * | 2021-10-11 | 2022-03-01 | 深圳市房帮帮互联网科技有限公司 | 一种基于多变量的房地产自动估价方法 |
CN113962744A (zh) * | 2021-10-29 | 2022-01-21 | 重庆汇集源科技有限公司 | 房地产租金动态监测*** |
CN113988639A (zh) * | 2021-10-29 | 2022-01-28 | 重庆汇集源科技有限公司 | 资产价值动态管理*** |
WO2024021630A1 (zh) * | 2022-07-27 | 2024-02-01 | 京东城市(北京)数字科技有限公司 | 一种计算指标数据的方法和装置 |
CN116308441A (zh) * | 2023-03-07 | 2023-06-23 | 太原科技大学 | 一种具有变量选择能力的房屋价格预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376936A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109523068A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109272364A (zh) | 自动估值模型建模方法 | |
CN109345035A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN105678414A (zh) | 对资源消耗量进行预测的数据处理方法 | |
CN112712203A (zh) | 一种配电网日最高负荷预测方法和*** | |
CN109635996A (zh) | 房价走势前瞻模型构建方法、装置及存储介质 | |
CN114398669A (zh) | 基于隐私保护计算和跨组织的联合信用评分方法及装置 | |
CN114529154A (zh) | 人口规模预测指标体系的构建方法、预测方法、装置及*** | |
CN109325811A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109242578A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109583940A (zh) | 小区房源价值参数估计方法以及装置 | |
Brzezicka et al. | The applicability of the speculative frame method for detecting disturbances on the real estate market: evidence from Poland | |
CN109544215A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN110580542A (zh) | 一种用电量预测方法和装置 | |
CN110084400A (zh) | 信息预测方法、装置、计算机设备和存储介质 | |
CN109492806A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109214603A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN112434019A (zh) | 应用于户变关系变更的历史电量溯源清洗方法及电力中心 | |
CN113298575A (zh) | 一种商标价值批量评估的方法、***、设备及存储介质 | |
Malgarini et al. | Re-engineering the ISAE manufacturing survey | |
CN114154768A (zh) | 天然气需求预测方法、装置、电子设备及介质 | |
CN110969297A (zh) | 基于后向间隔偏最小二乘法的电力负荷预测方法及装置 | |
CN111797924A (zh) | 一种基于聚类算法的三维度园区画像方法及*** | |
Sinitsyna et al. | Some practical aspects of electric power consumption time series analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |