CN115526434B - 对象信息预测方法、装置、计算机设备和存储介质 - Google Patents
对象信息预测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115526434B CN115526434B CN202211381657.8A CN202211381657A CN115526434B CN 115526434 B CN115526434 B CN 115526434B CN 202211381657 A CN202211381657 A CN 202211381657A CN 115526434 B CN115526434 B CN 115526434B
- Authority
- CN
- China
- Prior art keywords
- prediction
- model
- decision tree
- information
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000003066 decision tree Methods 0.000 claims abstract description 405
- 238000007499 fusion processing Methods 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 description 11
- 238000011002 quantification Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000005034 decoration Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013210 evaluation model Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 238000009435 building construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000013485 heteroscedasticity test Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种对象信息预测方法、装置、计算机设备、存储介质和计算机程序产品,可用于大数据技术领域。该方法包括:获取待预测对象的对象特征数据、区域标识和当前预测时间;确定与区域标识和当前预测时间均匹配的目标对象信息预测模型;目标对象信息预测模型包括多个决策树模型;分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到待预测对象的各个初始预测信息;根据各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行融合处理,得到待预测对象的综合预测信息;对综合预测信息进行修正,得到待预测对象的当前预测信息。采用本方法,能够提高对象信息预测准确率。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种对象信息预测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的发展,出现了通过模型预测对象信息的技术。比如,通过模型预测出特定区域的对象对应的对象信息,来辅助用户对对象的选择。
传统技术中,在预测特定区域的对象对应的对象信息时,一般是将该对象的全部对象特征数据输入到单个决策树模型中,通过该决策树模型输出该对象的对象信息。但是,单个决策树模型关注的对象特征有限,仅仅通过单个决策树模型对对象的全部对象特征进行处理,容易导致预测得到的对象信息不准确,从而造成对象信息预测准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高对象信息预测准确率的对象信息预测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种对象信息预测方法。所述方法包括:
获取待预测对象的对象特征数据、区域标识和当前预测时间;
确定与所述区域标识和所述当前预测时间均匹配的目标对象信息预测模型;所述目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同;
分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述待预测对象的各个初始预测信息;
根据所述各个决策树模型对应的模型重要性参数,对所述待预测对象的各个初始预测信息进行融合处理,得到所述待预测对象的综合预测信息;所述各个决策树模型对应的模型重要性参数,根据所述各个决策树模型的训练数据的误差量确定;
对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息。
在其中一个实施例中,所述分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述待预测对象的各个初始预测信息,包括:
分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述各个决策树模型中对应的匹配节点;
根据所述各个决策树模型中的匹配节点的对象预测信息,得到所述待预测对象的各个初始预测信息。
在其中一个实施例中,所述确定与所述区域标识和所述当前预测时间均匹配的目标对象信息预测模型,包括:
从训练完成的对象信息预测模型中,确定与所述区域标识匹配的初始对象信息预测模型;每个初始对象信息预测模型匹配有对应的基准预测时间;
从所述初始对象信息预测模型中,筛选出对应的基准预测时间与所述当前预测时间匹配的目标对象信息预测模型。
在其中一个实施例中,每个训练完成的对象信息预测模型通过下述方式训练得到:
获取同一个区域标识的样本对象的样本对象特征数据;每个样本对象的资源转移时间均位于已确定的基准预测时间之前的预设时间范围内;
根据所述样本对象特征数据,得到多份决策树基准数据表;每份决策树基准数据表包含所述样本对象中的部分样本对象的目标对象特征数据,每份决策树基准数据表中的目标对象特征数据对应的对象特征组合不同;
根据所述多份决策树基准数据表,构建多个决策树模型;
确定各个决策树模型对应的误差量;
根据所述各个决策树模型对应的误差量,确定所述各个决策树模型对应的模型重要性参数;
根据所述各个决策树模型对应的模型重要性参数,对所述各个决策树模型进行融合处理,得到对应的对象信息预测模型。
在其中一个实施例中,所述确定各个决策树模型对应的误差量,包括:
分别将所述样本对象中与所述各个决策树模型的决策树基准数据表中的样本对象不同的目标样本对象的目标对象特征数据,输入所述各个决策树模型中,得到各个所述目标对象的初始预测信息;
分别根据各个所述目标对象的初始预测信息和实际预测信息之间的差异,得到所述各个决策树模型对应的误差量。
在其中一个实施例中,所述根据所述各个决策树模型对应的误差量,确定所述各个决策树模型对应的模型重要性参数,包括:
获取所述各个决策树模型对应的误差量中的中位数,作为所述各个决策树模型的目标误差量;
获取与所述各个决策树模型的目标误差量对应的模型预测精准度;
对与所述各个决策树模型的目标误差量对应的模型预测精准度进行归一化处理,得到所述各个决策树模型对应的模型重要性参数。
在其中一个实施例中,所述对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息,包括:
获取所述目标对象信息预测模型的历史对象信息预测模型输出的所述待预测对象的历史综合预测信息;
根据所述历史综合预测信息,对所述综合预测信息进行修正,得到修正后的综合预测信息,作为所述待预测对象的当前预测信息。
第二方面,本申请还提供了一种对象信息预测装置。所述装置包括:
数据获取模块,用于获取待预测对象的对象特征数据、区域标识和当前预测时间;
模型确定模块,用于确定与所述区域标识和所述当前预测时间均匹配的目标对象信息预测模型;所述目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同;
初始预测模块,用于分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述待预测对象的各个初始预测信息;
综合预测模块,用于根据所述各个决策树模型对应的模型重要性参数,对所述待预测对象的各个初始预测信息进行融合处理,得到所述待预测对象的综合预测信息;所述各个决策树模型对应的模型重要性参数,根据所述各个决策树模型的训练数据的误差量确定;
信息修正模块,用于对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待预测对象的对象特征数据、区域标识和当前预测时间;
确定与所述区域标识和所述当前预测时间均匹配的目标对象信息预测模型;所述目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同;
分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述待预测对象的各个初始预测信息;
根据所述各个决策树模型对应的模型重要性参数,对所述待预测对象的各个初始预测信息进行融合处理,得到所述待预测对象的综合预测信息;所述各个决策树模型对应的模型重要性参数,根据所述各个决策树模型的训练数据的误差量确定;
对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待预测对象的对象特征数据、区域标识和当前预测时间;
确定与所述区域标识和所述当前预测时间均匹配的目标对象信息预测模型;所述目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同;
分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述待预测对象的各个初始预测信息;
根据所述各个决策树模型对应的模型重要性参数,对所述待预测对象的各个初始预测信息进行融合处理,得到所述待预测对象的综合预测信息;所述各个决策树模型对应的模型重要性参数,根据所述各个决策树模型的训练数据的误差量确定;
对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待预测对象的对象特征数据、区域标识和当前预测时间;
确定与所述区域标识和所述当前预测时间均匹配的目标对象信息预测模型;所述目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同;
分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述待预测对象的各个初始预测信息;
根据所述各个决策树模型对应的模型重要性参数,对所述待预测对象的各个初始预测信息进行融合处理,得到所述待预测对象的综合预测信息;所述各个决策树模型对应的模型重要性参数,根据所述各个决策树模型的训练数据的误差量确定;
对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息。
上述对象信息预测方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待预测对象的对象特征数据、区域标识和当前预测时间,并确定与区域标识和当前预测时间均匹配的目标对象信息预测模型;目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同;然后分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到待预测对象的各个初始预测信息;接着根据各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行融合处理,得到待预测对象的综合预测信息;各个决策树模型对应的模型重要性参数,根据各个决策树模型的训练数据的误差量确定;最后对综合预测信息进行修正,得到待预测对象的当前预测信息。这样,通过与待预测对象的区域标识和当前预测时间均匹配的目标对象信息预测模型中的各个决策树模型,对待预测对象的对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据进行处理,得到待预测对象的各个初始预测信息;综合考虑了待预测对象的区域标识和当前预测时间、不同决策树模型以及不同决策树模型所对应的对象特征组合,避免了通过单个决策树模型预测的对象信息的准确率较低的缺陷,有利于提高对象信息预测准确率;同时,利用各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行融合处理,并对得到的综合预测信息进行修正,有利于提高得到的当前预测信息的准确率,进一步提高了对象信息预测准确率。
附图说明
图1为一个实施例中对象信息预测方法的流程示意图;
图2为一个实施例中房价预测界面的示意图;
图3为一个实施例中决策树模型T1的结构示意图;
图4为一个实施例中对象信息预测模型的训练步骤的流程示意图;
图5为另一个实施例中对象信息预测方法的流程示意图;
图6为一个实施例中对象信息预测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种对象信息预测方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的***,并通过终端和服务器之间的交互实现。本实施例中,该方法包括以下步骤:
步骤S101,获取待预测对象的对象特征数据、区域标识和当前预测时间。
其中,待预测对象是指需要预测出对象信息的对象,比如需要预测出房价的房屋。需要说明的是,本申请中涉及的对象具体是指房屋,涉及的对象信息具体是指房价。
其中,对象特征数据是指待预测对象的对象特征所对应的数据,具体是指房屋特征数据,比如客厅数量、房间数量、楼层、房屋朝向等。需要说明的是,对象特征用于表征对象的特征信息,具体包括基础特征和衍生特征;比如,针对房屋,基础特征具体是指客厅数量、卫生间数量、厨房数量、电梯数量、户数、楼层总数、房屋年限、房间数量、楼盘类型、楼层、电梯情况、建筑类型、建筑结构、建筑面积、房屋朝向、装修情况、成交时间、成交总价等。衍生特征具体是指梯户比例、户梯比例、房屋成交日期(房屋挂牌日期)与训练数据中最早的房屋成交日期的间隔周数、评估基准日与房屋成交日期(房屋挂牌日期)之间的时间差、建筑面积的对数、建筑面积的对数的平方、建筑面积与房间数量的比值、建筑面积与房间数量的乘积、房间数量的平方、客厅数量的平方、卫生间数量的平方、厨房数量的平方、成交单价等。
需要说明的是,通过引入衍生特征,可以增强对象特征的丰富性,有利于从多个维度去衡量待预测对象的对象信息。
其中,区域标识是指待预测对象所属区域的标识信息,比如小区名称、楼盘名称等。
其中,当前预测时间是指当前对待预测对象进行预测的时间,比如2022年10月18日。需要说明的是,在预测对象信息时,通过引入当前预测时间,可以从预先训练的对象信息预测模型中,选择出对应的基准预测时间与该当前预测时间匹配的目标对象信息预测模型,从而通过满足当前预测时间的目标对象信息预测模型对待预测对象进行预测,从而提高了对象信息预测的时效性和准确率。
具体地,服务器响应于针对待预测对象的对象信息预测请求,获取待预测对象的对象标识(比如楼栋号和房间号)、区域标识和当前预测时间;根据待预测对象的对象标识和区域标识,查询存储有多个与对象标识和区域标识匹配的对象特征数据的数据库,得到与待预测对象的对象标识和区域标识均匹配的对象特征数据,作为待预测对象的对象特征数据,便于后续根据待预测对象的对象特征数据、区域标识和当前预测时间,预测出待预测对象的当前预测信息,比如当前房价。需要说明的是,服务器也可以通过大数据技术,获取待预测对象的对象特征数据。
举例说明,参考图2,在房价预测场景中,用户通过登录终端进入房价预测页面,在房价预测页面上输入或者选择小区名称、楼栋号和房号,比如小区A、3栋和1901,并点击“现在估价”按钮,触发生成房价预测请求,并通过终端将房价预测请求发送至对应的服务器;服务器对接收到的房价预测请求进行解析,得到小区名称、楼栋号、房号和当前预测时间,从数据库中获取与小区名称、楼栋号和房号均对应的房屋特征数据,并结合小区名称和当前预测时间,预测出小区A中3栋1901的当前房价,并显示在房价预测页面上。
步骤S102,确定与区域标识和当前预测时间均匹配的目标对象信息预测模型;目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同。
其中,对象信息预测模是指房价预测模型,由多个不同深度和层次的决策树模型构成;每个决策树模型也能够预测出房价。每个对象信息预测模型匹配有对应的区域标识和基准预测时间,表示该对象信息预测模型是针对哪个区域(比如哪个小区、哪个楼盘)的,而且该对象信息预测模型是利用资源转移时间(比如房屋成交时间)在基准预测时间之前的预设时间段(比如半年)内的该区域标识对应区域中的样本对象的样本对象特征数据训练得到的。举例说明,假设房价预测模型的区域标识为A,基准预测时间为2022年4月18日,说明该房价预测模型是利用房屋成交时间在2022年4月18日之前的半年内的小区A的房屋对应的房屋特征数据训练得到的。也就是说,针对同一个区域标识,基准预测时间越靠近当前预测时间,房价预测的时效性和准确性越高。
其中,与区域标识和当前预测时间均匹配的目标对象信息预测模型,是指对应的区域标识与待预测对象的区域标识相同,且对应的基准预测时间与当前预测时间匹配(比如对应的基准预测时间与当前预测时间相同、对应的基准预测时间与当前预测时间之间的时间差小于预设时间差等)的对象信息预测模型。
其中,在同一个对象信息预测模型中,每个决策树模型对应的对象特征组合均不同,但对应的对象特征组合所包括的对象特征的数量相同。比如,针对房价预测场景,在同一个房价预测模型中,决策树模型T1、决策树模型T2、决策树模型T3和决策树模型T4对应的房屋特征的数量均为2,但决策树模型T1对应的房屋特征组合为客厅数量和卫生间数量,决策树模型T2对应的房屋特征组合为卫生间数量和厨房数量,决策树模型T3对应的房屋特征组合为电梯数量和户数,决策树模型T4对应的房屋特征组合为楼层总数和房屋年限。
具体地,服务器从预先训练的对象信息预测模型中,筛选出对应的区域标识与待预测对象的区域标识相同,且对应的基准预测时间与当前预测时间匹配的对象信息预测模型,作为目标对象信息预测模型。
举例说明,假设当前预测时间为2022年4月18日,小区标识为A,则服务器从预先训练的房价预测模型中,筛选出小区标识也为A,且基准预测时间为2022年4月18日或者与2022年4月18日相隔一周或者一个月的房价预测模型,作为目标房价预测模型。
进一步地,目标对象信息预测模型通过下述方式预先训练得到:针对已确定的基准预测时间和区域标识,服务器获取资源转移时间均位于已确定的基准预测时间之前的预设时间范围内的该区域标识对应区域中的样本对象的样本对象特征数据;根据样本对象特征数据,得到多份决策树基准数据表;每份决策树基准数据表包含样本对象中的部分样本对象的目标对象特征数据,每份决策树基准数据表中的目标对象特征数据对应的对象特征组合不同;根据多份决策树基准数据表,构建多个决策树模型;确定各个决策树模型对应的误差量;根据各个决策树模型对应的误差量的中位数,确定各个决策树模型对应的模型重要性参数(比如决策树权重);根据各个决策树模型对应的模型重要性参数,对各个决策树模型进行融合处理,得到融合处理后的模型,作为目标对象信息预测模型。
需要说明的是,假设服务器在预先训练的对象信息预测模型中,没有查找到与区域标识和当前预测时间均匹配的目标对象信息预测模型的情况下,可以通过上述训练方式,实时训练得到目标对象信息预测模型。
步骤S103,分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到待预测对象的各个初始预测信息。
其中,初始预测信息是指初始预测房价,也可以是指初始预测房价的对数。需要说明的是,由于房价金额较大,为便于弹性分析和消除可能存在的异方差性,取房价的对数,可以形成被解释量。
具体地,服务器先从待预测对象的对象特征数据中,筛选出与各个决策树模型的对象特征组合匹配的对象特征数据,并分别将与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型中,通过各个决策树模型对对应的对象特征组合的对象特征数据进行预测分析,得到待预测对象的各个初始预测信息。
举例说明,服务器将待预测房屋的客厅数量和卫生间数量输入到决策树模型T1中,将卫生间数量和厨房数量输入到决策树模型T2中,将电梯数量和户数输入到决策树模型T3中,以及楼层总数和房屋年限输入到决策树模型T4中,得到待预测房屋的4个初始预测房价。
步骤S104,根据各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行融合处理,得到待预测对象的综合预测信息;各个决策树模型对应的模型重要性参数,根据各个决策树模型的训练数据的误差量确定。
其中,决策树模型的模型重要性参数,用于衡量决策树模型的重要程度,比如预测准确度,具体是指决策树模型的决策树权重。决策树模型对应的模型重要性参数,根据决策树模型的训练数据的误差量的中位数确定;比如,若决策树模型的训练数据的误差量的中位数越大,则该决策树模型对应的模型重要性参数越小;若决策树模型的训练数据的误差量的中位数越小,则该决策树模型对应的模型重要性参数越大。
需要说明的是,在同一个对象信息预测模型中,各个决策树模型的模型重要性参数之和为1。
其中,决策树模型的训练数据,是指资源转移时间在基准预测时间之前的预设时间段(比如近半年)内的对应区域的样本对象的对象特征数据。
其中,训练数据的误差量,是指训练数据中的样本对象的初始预测信息和实际预测信息之间的差异的绝对值,与该样本对象的实际预测信息之间的比值。
其中,对待预测对象的各个初始预测信息进行融合处理,是指对待预测对象的各个初始预测信息进行加权求和处理。
其中,综合预测信息是指综合预测房价,也可以是指综合预测房价的对数。
具体地,服务器先获取各个决策树模型的训练数据的误差量,然后获取各个决策树模型的训练数据的误差量的中位数或者平均数,作为各个决策树模型的训练数据的目标误差量;根据各个决策树模型的训练数据的目标误差量,查询误差量与模型重要性参数的对应关系,确定各个决策树模型对应的模型重要性参数;然后,根据各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行加权求和处理,得到处理后的预测信息,作为待预测对象的综合预测信息。
举例说明,假设目标房价预测模型包括n个决策树模型,对应的初始预测房价分别为P1、P2、P3、P4……Pn-1、Pn,对应的决策树权重分别是W1、W2、W3、W4……Wn-1、Wn,则待预测房屋的综合预测房价为P1×W1+P2×W2+P3×W3+P4×W4+……+Pn-1×Wn-1+Pn×Wn。
步骤S105,对综合预测信息进行修正,得到待预测对象的当前预测信息。
其中,当前预测信息是指当前预测房价,比如300万。
具体地,服务器根据线性对数回归模型对待预测对象的综合预测信息进行修正,得到修正后的预测信息,作为待预测对象的当前预测信息。
举例说明,综合预测信息是指综合预测房价的对数,那么服务器可以通过线性对数回归模型对综合预测房价的对数进行修正,即获取综合预测房价的对数的反对数,得到综合预测房价,作为待预测房屋的当前预测房价。
进一步地,在得到待预测对象的当前预测信息之后,服务器可以根据待预测对象的当前预测信息,生成待预测对象的风险预警信息,并将风险预警信息发送至对应的用户终端。比如,当前预测房价相对于基准价的偏离百分比大于预设阈值,说明当前预测房价出现异常,则弹出风险预警信息,以告知用户当前预测房价可能不准确。
进一步地,服务器还可以根据待预测对象的对象特征数据、区域标识、当前预测信息和风险预警信息,生成待预测对象的对象报告或者对象画像,并将待预测对象的对象报告或者对象画像发送至对应的用户终端,以供用户查看房屋的相关信息。
进一步地,服务器通过对象信息预测模型,可以同时实现批量对象的对象信息的预测目的,比如同时输出多个房屋的当前预测房价。
上述对象信息预测方法中,通过获取待预测对象的对象特征数据、区域标识和当前预测时间,并确定与区域标识和当前预测时间均匹配的目标对象信息预测模型;目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同;然后分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到待预测对象的各个初始预测信息;接着根据各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行融合处理,得到待预测对象的综合预测信息;各个决策树模型对应的模型重要性参数,根据各个决策树模型的训练数据的误差量确定;最后对综合预测信息进行修正,得到待预测对象的当前预测信息。这样,通过与待预测对象的区域标识和当前预测时间均匹配的目标对象信息预测模型中的各个决策树模型,对待预测对象的对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据进行处理,得到待预测对象的各个初始预测信息;综合考虑了待预测对象的区域标识和当前预测时间、不同决策树模型以及不同决策树模型所对应的对象特征组合,避免了通过单个决策树模型预测的对象信息的准确率较低的缺陷,有利于提高对象信息预测准确率;同时,利用各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行融合处理,并对得到的综合预测信息进行修正,有利于提高得到的当前预测信息的准确率,进一步提高了对象信息预测准确率。
在一个实施例中,上述步骤S103,分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到待预测对象的各个初始预测信息,具体包括如下内容:分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到各个决策树模型中对应的匹配节点;根据各个决策树模型中的匹配节点的对象预测信息,得到待预测对象的各个初始预测信息。
其中,每个决策树模型中包括多个叶子节点,每个叶子节点对应一个对象预测信息,比如预测房价。举例说明,如图3所示,在针对房屋特征组合为房间数和朝向的决策树模型T1中,叶子节点Y2对应的预测房价为P2,叶子节点Y4对应的预测房价为P4,叶子节点Y6对应的预测房价为P6,叶子节点Y7对应的预测房价为P7。
其中,决策树模型中的匹配节点,是指决策树模型中与待预测对象的相应对象特征数据匹配的叶子节点。
具体地,服务器从待预测对象的对象特征数据中,筛选出与各个决策树模型的对象特征组合匹配的对象特征数据;然后将与各个决策树模型的对象特征组合匹配的对象特征数据输入到各个决策树模型中,通过各个决策树模型从对应的叶子节点中,确认出与输入的对象特征数据匹配的叶子节点,作为各个决策树模型中的匹配节点;获取各个决策树模型中的匹配节点的对象预测信息,作为待预测对象的各个初始预测信息。
举例说明,待预测房屋的房屋特征数据中包括房间数、卫生间数、楼层、建筑面积、朝向、装修情况、梯户比例、配备电梯等,而目标房价预测模型中包括4个决策树模型,分别为决策树模型T1、决策树模型T2、决策树模型T3和决策树模型T4,对应的房屋特征组合分别为房间数和朝向、卫生间数和楼层、建筑面积和装修情况、梯户比例和配备电梯,则服务器将房间数和朝向所对应的数据输入到决策树模型T1中进行预测分析,将卫生间数和楼层所对应的数据输入到决策树模型T2中进行预测分析,将建筑面积和装修情况所对应的数据输入到决策树模型T3中进行预测分析,以及将梯户比例和配备电梯所对应的数据输入到决策树模型T4中进行预测分析,得到待预测房屋的4个初始预测房价或者4个初始预测房价的对数。
如图3所示,在针对房屋特征组合为房间数和朝向的决策树模型T1中,与待预测房屋匹配的叶子节点为Y2,而叶子节点Y2对应的预测房价为P2,说明通过决策树模型T1输出的待预测房屋的初始预测房价为P2。
在本实施例中,分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到待预测对象的各个初始预测信息;这样,综合考虑多个决策树模型,以及与各个决策树模型的对象特征组合匹配的对象特征数据,有利于充分利用各个决策树模型的关注特征,进一步提高了得到的对象预测信息的准确率。
在一个实施例中,上述步骤S102,确定与区域标识和当前预测时间均匹配的目标对象信息预测模型,具体包括如下内容:从训练完成的对象信息预测模型中,确定与区域标识匹配的初始对象信息预测模型;每个初始对象信息预测模型匹配有对应的基准预测时间;从初始对象信息预测模型中,筛选出对应的基准预测时间与当前预测时间匹配的目标对象信息预测模型。
其中,基准预测时间是指评估基准日。比如,区域标识为A的对象信息预测模型是利用资源转移时间在2022年4月1日的前6个月内的区域标识A所属区域中的对象所对应的对象特征数据训练得到的,那么该对象信息预测模型的基准预测时间是指2022年4月1日。
具体地,服务器从训练完成的对象信息预测模型中,筛选出对应的区域标识与待预测对象的区域标识相同的对象信息预测模型,作为初始对象信息预测模型;从初始对象信息预测模型中,筛选出对应的基准预测时间与待预测对象的当前预测时间相同的初始对象信息预测模型,作为目标对象信息预测模型;或者,从初始对象信息预测模型中,筛选出对应的基准预测时间与待预测对象的当前预测时间之间的时间差小于预设时间差的初始对象信息预测模型,作为目标对象信息预测模型。
在本实施例中,先从训练完成的对象信息预测模型中,确定与区域标识匹配的初始对象信息预测模型,再从初始对象信息预测模型中,筛选出对应的基准预测时间与当前预测时间匹配的目标对象信息预测模型;这样,综合考虑区域标识以及基准预测时间与当前预测时间匹配之间的匹配情况,有利于提高对象信息的预测准确率和预测时效性,避免了确定的对象信息预测模型是采用资源转移时间(比如成交时间)与当前预测时间之间偏差较大的训练数据训练得到,导致得到的对象信息预测准确率较低的缺陷。
在一个实施例中,如图4所示,每个训练完成的对象信息预测模型通过下述步骤训练得到:
步骤S401,获取同一个区域标识的样本对象的样本对象特征数据;每个样本对象的资源转移时间均位于已确定的基准预测时间之前的预设时间范围内。
其中,样本对象是指样本房屋,样本对象特征数据是指样本房屋特征数据。资源转移时间是指房屋成交时间。预设时间范围可以是指3个月、半年等。
步骤S402,根据样本对象特征数据,得到多份决策树基准数据表;每份决策树基准数据表包含样本对象中的部分样本对象的目标对象特征数据,每份决策树基准数据表中的目标对象特征数据对应的对象特征组合不同。
其中,不同决策树基准数据表对应不同的对象特征组合,比如决策树基准数据表1对应的对象特征组合为房间数和朝向,决策树基准数据表2对应的对象特征组合为卫生间数和楼层,决策树基准数据表3对应的对象特征组合为建筑面积和装修情况,决策树基准数据表4对应的对象特征组合为梯户比例和配备电梯。
步骤S403,根据多份决策树基准数据表,构建多个决策树模型。
其中,每份决策树基准数据表,对应生成一个决策树模型。
步骤S404,确定各个决策树模型对应的误差量。
其中,决策树模型对应的误差量,是指决策树模型的训练数据的误差量。需要说明的是,假设决策树模型的训练数据为10个样本对象,则该决策树模型的训练数据的误差量也为10个。
需要说明的是,决策树模型的训练数据是按照预设时间范围选取的,会根据选择的基准预测时间的不同而发生变化,说明决策树模型对应的误差量也是变化的,进而说明决策树模型对应的模型重要性参数是动态变化的。
步骤S405,根据各个决策树模型对应的误差量,确定各个决策树模型对应的模型重要性参数。
步骤S406,根据各个决策树模型对应的模型重要性参数,对各个决策树模型进行融合处理,得到对应的对象信息预测模型。
具体地,服务器从数据库中获取同一个区域标识,且资源转移时间均位于已确定的基准预测时间之前的预设时间范围内的样本对象的样本对象特征数据;每次从样本对象特征数据中筛选出部分样本对象的特征数据,且该特征数据中只包括部分对象特征的特征数据,从而得到多份决策树基准数据表;分别根据每份决策树基准数据表,生成对应的决策树结构,作为对应的决策树模型;将样本对象特征数据中除决策树基准数据表中的样本对象之外的目标样本对象的部分特征数据作为训练数据,输入到对应的决策树模型中,得到目标样本对象的初始预测信息;根据目标样本对象的初始预测信息和实际预测信息之间的差异的绝对值,与该目标样本对象的实际预测信息之间的比值,得到各个决策树模型对应的误差量;根据各个决策树模型对应的误差量的中位数,查询误差量与模型重要性参数的对应关系,得到各个决策树模型对应的模型重要性参数;根据各个决策树模型对应的模型重要性参数,对各个决策树模型进行融合处理,得到融合处理后的模型,作为对应的对象信息预测模型。
在本实施例中,根据同一个区域标识,且资源转移时间均位于已确定的基准预测时间之前的预设时间范围内的样本对象的样本对象特征数据,构建得到多份决策树基准数据表,并根据多份决策树基准数据表,构建多个决策树模型以及确定各个决策树模型对应的模型重要性参数,最后根据各个决策树模型对应的模型重要性参数,对各个决策树模型进行融合处理,得到对应的对象信息预测模型;实现了构建由多个决策树模型融合而成的对象信息预测模型的目的;同时,综合利用了多个决策树模型以及各个决策树模型对应的模型重要性参数,有利于提高通过对象信息预测模型输出的对象信息的准确率。
在一个实施例中,上述步骤S404,确定各个决策树模型对应的误差量,具体包括如下内容:分别将样本对象中与各个决策树模型的决策树基准数据表中的样本对象不同的目标样本对象的目标对象特征数据,输入各个决策树模型中,得到各个目标对象的初始预测信息;分别根据各个目标对象的初始预测信息和实际预测信息之间的差异,得到各个决策树模型对应的误差量。
其中,实际预测信息是指实际房价,也可以是指实际预测房价的对数。
其中,目标样本对象是指样本对象中与决策树模型的决策树基准数据表中的样本对象不同的样本对象。
其中,目标对象特征是指目标对象的对象特征中,与决策树模型的决策树基准数据表对应的对象特征相同的对象特征,具体是指构建决策树模型所选取的对象特征。目标对象特征数据是指目标对象特征所对应的特征数据。举例说明,总的对象特征为房间数、卫生间数、楼层、建筑面积、朝向、装修情况、梯户比例、配备电梯;而决策树模型T1的决策树基准数据表对应的对象特征组合为房间数和朝向,那么目标对象特征也为房间数和朝向。
具体地,服务器分别从样本对象中,筛选出与各个决策树模型的决策树基准数据表中的样本对象不同的样本对象,作为各个决策树模型的目标样本对象;分别从样本对象的对象特征中,筛选出与各个决策树模型的决策树基准数据表对应的对象特征相同的对象特征,作为各个决策树模型的目标样本对象的目标对象特征;获取各个决策树模型的目标样本对象的目标对象特征对应的特征数据,作为各个决策树模型的目标样本对象的目标对象特征数据;分别将各个决策树模型的目标样本对象的目标对象特征数据,输入到各个决策树模型中,得到各个目标样本对象的初始预测信息;获取各个目标样本对象的实际预测信息,分别根据各个目标样本对象的初始预测信息和实际预测信息之间的差异的绝对值,与各个目标样本对象的实际预测信息之间的比值,得到各个决策树模型对应的误差量。
举例说明,服务器通过方式“误差量=|(对象的初始预测信息-对象的实际预测信息)/对象的实际预测信息|”,计算各个决策树模型对应的误差量。比如,样本对象包括样本对象1、样本对象2、样本对象3、样本对象4、样本对象5和样本对象6,决策树模型T1是根据样本对象1、样本对象2的房间数和朝向构建得到的,那么目标样本对象是指样本对象3、样本对象4、样本对象5、样本对象6,目标对象特征是指房间数和朝向,那么分别将样本对象3、样本对象4、样本对象5、样本对象6的房间数和朝向,输入到决策树模型T1中,可以得到样本对象3、样本对象4、样本对象5、样本对象6的初始预测房价;接着通过上述公式,可以得到样本对象3、样本对象4、样本对象5、样本对象6所对应的误差量,作为决策树模型T1对应的误差量。
在本实施例中,分别将样本对象中与各个决策树模型的决策树基准数据表中的样本对象不同的目标样本对象的目标对象特征数据,输入各个决策树模型中,得到各个目标对象的初始预测信息,进而得到各个决策树模型对应的误差量;这样,通过获取各个决策树模型对应的误差量,有利于综合考量各个决策树模型的预测准确率,便于后续准确确定各个决策树模型的模型重要性参数,使得对象信息的预测更加准确。
在一个实施例中,上述步骤S405,根据各个决策树模型对应的误差量,确定各个决策树模型对应的模型重要性参数,具体包括如下内容:获取各个决策树模型对应的误差量中的中位数,作为各个决策树模型的目标误差量;获取与各个决策树模型的目标误差量对应的模型预测精准度;对与各个决策树模型的目标误差量对应的模型预测精准度进行归一化处理,得到各个决策树模型对应的模型重要性参数。
其中,模型预测精准度用于衡量决策树模型对对象信息的预测精准度。
具体地,服务器分别从各个决策树模型对应的误差量中,筛选出中位数,作为各个决策树模型的目标误差量;分别根据各个决策树模型的目标误差量,查询误差量与模型预测精准度的对应关系,得到与各个决策树模型的目标误差量对应的模型预测精准度;根据归一化指令,对与各个决策树模型的目标误差量对应的模型预测精准度进行归一化处理,得到各个决策树模型对应的模型重要性参数。
举例说明,服务器可以通过公式“wi=(1-Emi)/[(1-Em1)+(1-Em2)+(1-Em3)+……+(1-Emn-1)+(1-Emn)]”,计算得到各个决策树模型对应的模型重要性参数;其中,i=1,2,3……n,是指决策树模型的序号,Emi是指第i个决策树模型的误差量的中位数,wi是指第i个决策树模型的模型重要性参数,即决策树权重。
举例说明,假设有4个决策树模型,分别是决策树模型T1、决策树模型T2、决策树模型T3和决策树模型T4,对应的误差量的中位数分别为L1、L2、L3和L4,则决策树模型T1、决策树模型T2、决策树模型T3和决策树模型T4对应的决策树权重分别是:(1-L1)/[(1-L1)+(1-L2)+(1-L3)+(1-L4)]、(1-L2)/[(1-L1)+(1-L2)+(1-L3)+(1-L4)]、(1-L3)/[(1-L1)+(1-L2)+(1-L3)+(1-L4)]和(1-L4)/[(1-L1)+(1-L2)+(1-L3)+(1-L4)]。
在本实施例中,通过综合衡量各个决策树模型对应的误差量,有利于准确确定各个决策树模型对应的模型重要性参数,便于后续根据各个决策树模型对应的模型重要性参数,对各个决策树模型输出的初始预测信息进行融合处理,进一步提高了对象信息的预测准确率。
在一个实施例中,上述步骤S105,对综合预测信息进行修正,得到待预测对象的当前预测信息,具体包括如下内容:获取目标对象信息预测模型的历史对象信息预测模型输出的待预测对象的历史综合预测信息;根据历史综合预测信息,对综合预测信息进行修正,得到修正后的综合预测信息,作为待预测对象的当前预测信息。
其中,目标对象信息预测模型的历史对象信息预测模型,是指与目标对象信息预测模型的区域标识相同,且与目标对象信息预测模型的基准预测时间的上一个基准预测时间匹配的对象信息预测模型。基准预测时间的上一个基准预测时间是指基准预测时间的前一天、基准预测时间在上个月中的对应时间等。举例说明,目标对象信息预测模型是针对小区A,基准预测时间是2022年4月18日,则历史对象信息预测模型也是针对小区A,基准预测时间是2022年4月17日或者是基准预测时间是2022年3月18日。
需要说明的是,历史对象信息预测模型对应的重要性参数(比如权重)大于目标对象信息预测模型对应的重要性参数。
具体地,服务器从预先训练的对象信息预测模型中,筛选出对应的区域标识与目标对象信息预测模型的区域标识相同的第一对象信息预测模型;从第一对象信息预测模型中,筛选出与目标对象信息预测模型的基准预测时间的上一个基准预测时间匹配的对象信息预测模型,作为目标对象信息预测模型的历史对象信息预测模型;将待预测对象的对象特征数据输入到历史对象信息预测模型中,得到待预测对象的历史综合预测信息(具体过程跟通过目标对象信息预测模型输出待预测对象的综合预测信息相同);获取历史对象信息预测模型的重要性参数和目标对象信息预测模型的重要性参数,对历史综合预测信息和综合预测信息进行融合处理,得到融合处理后的综合预测信息;假设融合处理后的综合预测信息不是对数形式,则直接将融合处理后的综合预测信息确认为待预测对象的当前预测信息;假设融合处理后的综合预测信息是对数形式,则获取融合处理后的综合预测信息的反对数,得到待预测对象的当前预测信息。
举例说明,服务器可以通过公式“P=(P1×W1+P2×W2)/(W1+W2)”计算待预测对象的当前预测信息;其中,P是指当前预测信息,P1是指历史对象信息预测模型输出的历史综合预测信息,P2是指目标对象信息预测模型输出的综合预测信息,W1是指历史对象信息预测模型的重要性参数(即权重),W2是指目标对象信息预测模型的重要性参数(即权重)。
在本实施例中,根据目标对象信息预测模型的历史对象信息预测模型输出的待预测对象的历史综合预测信息,对综合预测信息进行修正,得到修正后的综合预测信息,作为待预测对象的当前预测信息;这样,综合考虑历史对象信息预测模型输出的历史综合预测信息和目标对象信息预测模型输出的综合预测信息,有利于提高当前预测信息的确定准确率,进一步提高了对象信息预测准确率。
在一个实施例中,如图5所示,提供了另一种对象信息预测方法,以该方法应用于服务器为例进行说明,包括以下步骤:
步骤S501,获取待预测对象的对象特征数据、区域标识和当前预测时间。
步骤S502,从训练完成的对象信息预测模型中,确定与区域标识匹配的初始对象信息预测模型;每个初始对象信息预测模型匹配有对应的基准预测时间。
步骤S503,从初始对象信息预测模型中,筛选出对应的基准预测时间与当前预测时间匹配的目标对象信息预测模型;目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同。
步骤S504,分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到各个决策树模型中对应的匹配节点。
步骤S505,根据各个决策树模型中的匹配节点的对象预测信息,得到待预测对象的各个初始预测信息。
步骤S506,根据各个决策树模型的训练数据的误差量,确定各个决策树模型对应的模型重要性参数。
步骤S507,根据各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行融合处理,得到待预测对象的综合预测信息。
步骤S508,获取目标对象信息预测模型的历史对象信息预测模型输出的待预测对象的历史综合预测信息。
步骤S509,根据历史综合预测信息,对综合预测信息进行修正,得到修正后的综合预测信息,作为待预测对象的当前预测信息。
上述对象信息预测方法中,综合考虑了待预测对象的区域标识和当前预测时间、不同决策树模型以及不同决策树模型所对应的对象特征组合,避免了通过单个决策树模型预测的对象信息的准确率较低的缺陷,有利于提高对象信息预测准确率;利用各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行融合处理,并对得到的综合预测信息进行修正,有利于提高得到的当前预测信息的准确率,进一步提高了对象信息预测准确率。
在一个实施例中,为了更清晰阐明本申请实施例提供的对象信息预测方法,以下以一个具体的实施例对该对象信息预测方法进行具体说明。在一个实施例中,提供了一种基于决策树算法的房屋价格预测方法,通过采集房地产的房屋数据和成交信息;将房屋数据进行去重清洗;将清洗后的房屋数据输入到特征体系中,提取房屋数据的房屋特征,并量化房屋特征得到房屋特征向量,通过组合房屋特征变量构建多种决策树,并形成决策树数组,再通过计算每个决策树的权重值,最后组合成房屋价格评估模型;将房屋特征向量和当前评估时间输入到房屋价格评估模型中,以得到实时的房屋估价;特别是在不同时间进行房屋评估,可以有效提高房屋估价的客观性和准确性;该基于决策树算法的房屋价格预测方法,具体包括如下步骤:
步骤一,采集同一地区6个月内的房屋成交数据和房屋挂牌数据,构建基础数据库。
步骤二,对基础数据库中的房屋所属小区和楼盘进行划分,以及整理出小区和楼盘的信息表,地理区域范围以楼盘为颗粒度进行建模;理论上讲,地理区域范围越小,住房市场行情的同质性就越强,模型给出的估值结果越接近实际成交价格,故所选择的地理区域范围有较多的近期成交个案数据做支撑。
步骤三,数据清洗、数据处理以及数据量化。
以楼盘为模型单位,选取出该楼盘6个月内成交的房屋数据,对房屋数据进行清洗,通过量化房屋特征因素中的建筑年代、建筑类型、建筑结构、楼高、电梯状况、梯户比例、户型结构、建筑面积、套内面积、房数、客厅数量、卫生间数量、厨房数量、房屋面积、所属楼层、装修情况、朝向、房屋年限、产权年限、成交单价、成交时间等,清洗和量化规则如下:
1、客厅数量,量化方法:若不为空值,则直接使用客厅的数值;否则,设置为1000,或者选取该组训练数据中客厅数量的平均值;
2、卫生间数量,量化方法:若不为空值,则直接使用卫生间的数值;否则,设置为1000;
3、厨房数量,量化方法:若不为空值,则直接使用厨房的数值;否则,设置为1000,或者选取该组训练数据中厨房数量的平均值;
4、电梯数量,量化方法:若不为空值,则直接使用电梯的数值;否则,设置为1000,或者选取该组训练数据中电梯数量的平均值;
5、户数,量化方法:若不为空值,则直接使用户数的数值;否则,设置为1000,或者选取该组训练数据中户数的平均值;
6、楼层总数,量化方法:若不为空值,则直接使用楼层总数的数值,否则,设置为该组数据中楼层总数的众数值;
7、房屋年限,量化方法:若不为空值,则直接使用房屋年限的数值,否则,设置为1000;
8、房间数量,量化方法:若不为空值,则直接使用房间数量的数值,否则,设置为0;
9、楼盘类型,量化方法:1代表同楼盘,2代表同小区;
10、楼层,量化方法:低楼层赋值为1,中楼层赋值为2,高楼层赋值为3,地下赋值为-1,其他类型为0;
11、楼层总数,量化方法:若不为空值,则直接使用楼层总数的数值,若为空值,则选取该组训练数据中楼层总数的平均值;
12、电梯情况,指是否有电梯的情况,量化方法:0代表无电梯,1代表有电梯;
13、建筑类型,分为塔楼、板楼、塔板结合、平房四种类型,量化方法:每一种类型都为一种属性,使用0和1代表是否属于该属性;
14、建筑结构,分为砖混、钢混、框架结构、砖楼四种类型,量化方法:每一种类型都为一种属性,使用0和1代表是否属于该属性;
15、建筑面积,量化方法:直接使房屋的建筑面积的数值,不允许有空值或数值为0;
16、房屋年限,是指楼栋建成的年份时间,量化方法:若不为空值,则直接使用楼栋建成的年份数值;否则,设置为该组数据中楼栋建成的年份数值的众数值;
17、房屋朝向,根据房屋正门的坐落方向可分为:东、南、西、北、西南、西北、东北、东南、南北、东西等类型,量化方法:每一种朝向都为一种属性,使用0和1代表是否属于该种属性;
18、装修情况,分为精装、简装、毛坯三种类型,量化方法:每一种类型都为一种属性,使用0和1代表是否属于该种属性;
19、成交时间,是指房屋成交的日期,量化方法:直接使用该房屋成交时间的数值;
20、成交总价,是指房屋成交的总价,量化方法:直接使用该房屋成交总价的数值;
21、楼盘类型,根据楼盘归属划分为第三方总楼盘、周边5km以内楼盘等类型,分别用1~3表示;
以下为部分衍生特征属性:
28、梯户比例,户梯比=电梯数/户数;
29、户梯比例,户梯比=户数/电梯数;
30、基准日与成交最早的个案间隔周数,[房屋成交日期(房屋挂牌日期) -训练数据中最早的成交日期]/7;
31、时间差,评估基准日和成交日期的差值必须为正整数,时间差=评估基准日-房屋成交日期(房屋挂牌日期);
32、建筑面积的对数,log(建筑面积);
33、建筑面积的对数的平方,(log(建筑面积))²;
34、建筑面积与房屋数的比值,建筑面积/房屋数;
35、建筑面积与房屋数的乘积,建筑面积×房屋数;
36、房屋数量的平方,房屋数量的平方后的数值;
37、客厅数量的平方,客厅数量的平方后的数值;
38、卫生间数量的平方,卫生间数量的平方后的数值;
39、厨房数量的平方,厨房数量的平方后的数值;
40、成交单价,是指房屋成交的单价,量化方法:使用成交总价除以房屋建筑面积所得数值。
需要说明的是,假设部分房屋属性数据缺失,会选取训练数据中该特征的中位数或众数来做插值,不一定全都是设置为1000。
步骤四,字段的初步筛选。
将清洗和处理后的数据进行每个特征属性值的分组聚合,统计出每个属性的不同值的数量,若属性只有1种数值,则剔除该特征属性;另外,有效房屋特征的个数不得小于5,否则该模型无效。
步骤五,特征工程。
将已经清洗完成的数据进行n次的迭代处理,其中每次迭代打乱特征属性顺序和数据顺序,然后从中以3:1的比例提取训练数据和测试数据,以及取随机的1/3的特征属性,最后获得n组的训练数据集和测试数据集的集合。
步骤六,创建分类树。
对步骤五中清洗完成的成交数据进行个案和特征两维的随机抽样,为了更好的评判数据的变化度,以及估值和真实值之差平方的期望,决策树算法中最优划分属性采用的是均方误差划分,生成n个分类树基准数据表,其中每个基准数据表可生成一个对应的分类树,共同组成房屋价格评估模型的随机森林。
需要说明的是,一个基准数据表,对应地生成一棵分类树,树上的每一个非叶节点(包括根节点),代表对基准数据表中的住宅按照表中的某一个特征进行分类的依据。例如,假定“朝向”是基准数据表里面抽取到的一个特征,一个非叶节点可能代表的就是“是否南向”这一分类。这一节点定义分类树的两个子树(分叉):一个代表“南向”,另一个代表“其他朝向”。树上的每一个叶节点则代表基准数据表中那些特征。
步骤七,对决策树进行评分。
从步骤六得到的n个分类树中,找到叶节点位置及其对应的成交价,计算这个成交价与住房实际成交价的离差。这个差异越小,分类树的评分越高。
第j个房屋的误差量emj的计算公式为:emj=|(vj-pj)/ pj |,j=1,2,3……m;其中,j是指房屋的序号,vj是指第j个房屋的预估成交价格,pj是指第j个房屋的实际成交价格。
定义第i个分类树的误差量中位数为Emi,那么误差量中位数被用来计算与其具有负相关关系的分类树权重,具体计算公式为:wi=(1-Emi)/[(1-Em1)+(1-Em2)+(1-Em3)+……+(1-Emn-1)+(1-Emn),i=1,2,3……n;其中,1-Emi是衡量分类树精确度的一个指标,wi是指第i个分类树的权重,i是指分类树的序号。
步骤八,进行价格评估。
当利用步骤七创建好的随机森林对楼盘的一个房屋进行估值时,使用的随机森林中的每一棵分类树都会给出一个估值,如果需要估值的房屋的某个特征值遗失,会使用成交数据表中该特征值的中位数或众数来做插值(即替代),得到的单个估值结果与相应的分类树权重相乘后,再相加,可以得到最终分类树评估结果,之后会使用线性回归模型对当前估值结果进行修正。
加权平均估值的计算方式为:V0=(V1w1+V2w2+V3w3+……+Viwi+……+ Vn-1wn-1+Vnwn)/(w1+w2+w3+……+wi+……+ wn-1+ wn);其中,V0是指加权平均估值,Vi是指第i个分类树输出的估值结果,wi是指第i个分类树的分类树权重,i是指分类树的序号。
步骤九,估值试调。
(1)估值平滑。采用平滑方法,对房屋价格评估模型得出的估值进行平滑调整,将房屋价格评估模型的当前估价值原始数据与之前一次或几次迭代的估值结果进行混合。这种混合,可以通过计算加权算数平均方法来实现,对前一期的估值赋予较大的权数。例如,如果房屋价格评估模型是进行每日更新,***对昨日的平滑估值赋予49倍的权重,则今日平滑估值=(昨日平滑估值×49+今日估值)/50。同样,若房屋价格评估模型是每月进行更新,则***对上月的平滑估值赋予对应的权重。
(2)估值异常提示。通过设定阈值的方法,通过预先给楼盘设定一个基准价,如果房屋价格评估模型的估值与基准价偏离的百分比超过预先设定的阈值,即估值出现异常,则房屋智估估价***会弹出警示条,告知用户估值可能不准确。
(3)评估模型数据约束。由于使用的房屋价格评估模型是用住房特征的子集建立起来的,应该单独出来,使用其他估值模型对该特征子集的数据进行建模,此处使用线性回归模型。之后,***会使用线性回归模型对当前估值结果进行修正。
上述基于决策树算法的房屋价格预测方法,建模的地理区域范围可以按照小区、板块、街区、行政区、城市、甚至省或国家等不同颗粒度的地理范围逐渐扩大。理论上讲,地理区域越小,住房市场行情的同质性就越强,故该申请中建模采用以楼盘为颗粒度,构建房屋特征因素体系以及相应的量化方法,相比于一般的决策树评估价格常用的房屋特征变量,该申请中特征属性中还加入了评估基准日与成交或挂牌最早的个案间隔周数与时间差这两个特征属性,让所选择的地区有较多的近期成交个案数据做支撑,使得评估结果更接近真实成交价格。另外,该算法中使用迭代多次(比如1000次)的方法,获得多种(比如1000种)尽可能包含不同特征变量组合的决策树组,利用误差值中位数组来计算每颗决策树的权重,使用该方法评估出来的结果相比于单个决策树评估,更能避免受到评估人员主观因素的影响,从而提高了房屋估价的客观性、准确性和时效性,也为之后的按小区为单位生成模型提供了可能性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的对象信息预测方法的对象信息预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个对象信息预测装置实施例中的具体限定可以参见上文中对于对象信息预测方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种对象信息预测装置,包括:数据获取模块610、模型确定模块620、初始预测模块630、综合预测模块640和信息修正模块650,其中:
数据获取模块610,用于获取待预测对象的对象特征数据、区域标识和当前预测时间。
模型确定模块620,用于确定与区域标识和当前预测时间均匹配的目标对象信息预测模型;目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同。
初始预测模块630,用于分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到待预测对象的各个初始预测信息。
综合预测模块640,用于根据各个决策树模型对应的模型重要性参数,对待预测对象的各个初始预测信息进行融合处理,得到待预测对象的综合预测信息;各个决策树模型对应的模型重要性参数,根据各个决策树模型的训练数据的误差量确定。
信息修正模块650,用于对综合预测信息进行修正,得到待预测对象的当前预测信息。
在一个实施例中,初始预测模块630,还用于分别将对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到各个决策树模型,得到各个决策树模型中对应的匹配节点;根据各个决策树模型中的匹配节点的对象预测信息,得到待预测对象的各个初始预测信息。
在一个实施例中,模型确定模块620,还用于从训练完成的对象信息预测模型中,确定与区域标识匹配的初始对象信息预测模型;每个初始对象信息预测模型匹配有对应的基准预测时间;从初始对象信息预测模型中,筛选出对应的基准预测时间与当前预测时间匹配的目标对象信息预测模型。
在一个实施例中,对象信息预测装置还包括模型训练模块,用于获取同一个区域标识的样本对象的样本对象特征数据;每个样本对象的资源转移时间均位于已确定的基准预测时间之前的预设时间范围内;根据样本对象特征数据,得到多份决策树基准数据表;每份决策树基准数据表包含样本对象中的部分样本对象的目标对象特征数据,每份决策树基准数据表中的目标对象特征数据对应的对象特征组合不同;根据多份决策树基准数据表,构建多个决策树模型;确定各个决策树模型对应的误差量;根据各个决策树模型对应的误差量,确定各个决策树模型对应的模型重要性参数;根据各个决策树模型对应的模型重要性参数,对各个决策树模型进行融合处理,得到对应的对象信息预测模型。
在一个实施例中,模型训练模块,还用于分别将样本对象中与各个决策树模型的决策树基准数据表中的样本对象不同的目标样本对象的目标对象特征数据,输入各个决策树模型中,得到各个目标对象的初始预测信息;分别根据各个目标对象的初始预测信息和实际预测信息之间的差异,得到各个决策树模型对应的误差量。
在一个实施例中,模型训练模块,还用于获取各个决策树模型对应的误差量中的中位数,作为各个决策树模型的目标误差量;获取与各个决策树模型的目标误差量对应的模型预测精准度;对与各个决策树模型的目标误差量对应的模型预测精准度进行归一化处理,得到各个决策树模型对应的模型重要性参数。
在一个实施例中,信息修正模块650,还用于获取目标对象信息预测模型的历史对象信息预测模型输出的待预测对象的历史综合预测信息;根据历史综合预测信息,对综合预测信息进行修正,得到修正后的综合预测信息,作为待预测对象的当前预测信息。
上述对象信息预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储对象特征数据等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象信息预测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (8)
1.一种对象信息预测方法,其特征在于,所述方法包括:
获取待预测对象的对象特征数据、区域标识和当前预测时间;所述待预测对象为房屋;所述对象特征数据至少包括所述房屋的建筑面积和套内面积;其中,获取所述待预测对象的对象特征数据,包括:展示对象信息预测页面,根据用户在所述对象信息预测页面输入或选择的对象标识和区域标识,查询存储有多个与对象标识和区域标识匹配的对象特征数据的数据库,得到所述待预测对象的对象特征数据;所述对象标识包括楼栋号和房间号;
确定与所述区域标识和所述当前预测时间均匹配的目标对象信息预测模型;所述目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同;其中,每个对象信息预测模型匹配有对应的区域标识和基准预测时间,所述基准预测时间是指评估基准日;
分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述待预测对象的各个初始预测信息;
根据所述各个决策树模型对应的模型重要性参数,对所述待预测对象的各个初始预测信息进行融合处理,得到所述待预测对象的综合预测信息;所述各个决策树模型对应的模型重要性参数,根据所述各个决策树模型的训练数据的误差量中的中位数确定;所述融合处理为对所述待预测对象的各个初始预测信息进行加权求和处理;所述训练数据的误差量是指训练数据中的样本对象的初始预测信息和实际预测信息之间的差异的绝对值与该样本对象的实际预测信息之间的比值;
对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息,将所述当前预测信息显示在所述对象信息预测页面上;
其中,所述对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息,包括:
从预先训练的对象信息预测模型中,筛选出对应的区域标识与所述目标对象信息预测模型的区域标识相同,且对应的基准预测时间与所述目标对象信息预测模型的基准预测时间的上一个基准预测时间匹配的对象信息预测模型,作为所述目标对象信息预测模型的历史对象信息预测模型;将所述待预测对象的对象特征数据输入到所述历史对象信息预测模型中,得到所述待预测对象的历史综合预测信息;获取所述历史对象信息预测模型的重要性参数和所述目标对象信息预测模型的重要性参数;根据所述历史对象信息预测模型的重要性参数和所述目标对象信息预测模型的重要性参数,对所述历史对象信息预测模型输出的所述历史综合预测信息和所述目标对象信息预测模型输出的所述综合预测信息进行融合处理,得到融合处理后的综合预测信息,作为所述待预测对象的当前预测信息;其中,所述历史对象信息预测模型的重要性参数大于所述目标对象信息预测模型的重要性参数;所述预测信息是指房价信息;
其中,每个训练完成的对象信息预测模型通过以下方式训练得到:
获取同一个区域标识的样本对象的样本对象特征数据;每个样本对象的资源转移时间均位于已确定的基准预测时间之前的预设时间范围内;根据所述样本对象特征数据,得到多份决策树基准数据表;每份决策树基准数据表包含所述样本对象中的部分样本对象的目标对象特征数据,每份决策树基准数据表中的目标对象特征数据对应的对象特征组合不同;根据所述多份决策树基准数据表,构建多个决策树模型;确定各个决策树模型对应的误差量;根据所述各个决策树模型对应的误差量的中位数,确定所述各个决策树模型对应的模型重要性参数;根据所述各个决策树模型对应的模型重要性参数,对所述各个决策树模型进行融合处理,得到对应的对象信息预测模型。
2.根据权利要求1所述的方法,其特征在于,所述分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述待预测对象的各个初始预测信息,包括:
分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述各个决策树模型中对应的匹配节点;
根据所述各个决策树模型中的匹配节点的对象预测信息,得到所述待预测对象的各个初始预测信息。
3.根据权利要求1所述的方法,其特征在于,所述确定与所述区域标识和所述当前预测时间均匹配的目标对象信息预测模型,包括:
从训练完成的对象信息预测模型中,确定与所述区域标识匹配的初始对象信息预测模型;每个初始对象信息预测模型匹配有对应的基准预测时间;
从所述初始对象信息预测模型中,筛选出对应的基准预测时间与所述当前预测时间匹配的目标对象信息预测模型。
4.根据权利要求1所述的方法,其特征在于,所述确定各个决策树模型对应的误差量,包括:
分别将所述样本对象中与所述各个决策树模型的决策树基准数据表中的样本对象不同的目标样本对象的目标对象特征数据,输入所述各个决策树模型中,得到各个所述目标对象的初始预测信息;
分别根据各个所述目标对象的初始预测信息和实际预测信息之间的差异,得到所述各个决策树模型对应的误差量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述各个决策树模型对应的误差量的中位数,确定所述各个决策树模型对应的模型重要性参数,包括:
获取所述各个决策树模型对应的误差量中的中位数,作为所述各个决策树模型的目标误差量;
获取与所述各个决策树模型的目标误差量对应的模型预测精准度;
对与所述各个决策树模型的目标误差量对应的模型预测精准度进行归一化处理,得到所述各个决策树模型对应的模型重要性参数。
6.一种对象信息预测装置,其特征在于,所述装置包括:
数据获取模块,用于获取待预测对象的对象特征数据、区域标识和当前预测时间;所述待预测对象为房屋;所述对象特征数据至少包括所述房屋的建筑面积和套内面积;其中,获取所述待预测对象的对象特征数据,包括:展示对象信息预测页面,根据用户在所述对象信息预测页面输入或选择的对象标识和区域标识,查询存储有多个与对象标识和区域标识匹配的对象特征数据的数据库,得到所述待预测对象的对象特征数据;所述对象标识包括楼栋号和房间号;
模型确定模块,用于确定与所述区域标识和所述当前预测时间均匹配的目标对象信息预测模型;所述目标对象信息预测模型包括多个决策树模型,每个决策树模型对应的对象特征组合不同;其中,每个对象信息预测模型匹配有对应的区域标识和基准预测时间,所述基准预测时间是指评估基准日;
初始预测模块,用于分别将所述对象特征数据中与各个决策树模型的对象特征组合匹配的对象特征数据,输入到所述各个决策树模型,得到所述待预测对象的各个初始预测信息;
综合预测模块,用于根据所述各个决策树模型对应的模型重要性参数,对所述待预测对象的各个初始预测信息进行融合处理,得到所述待预测对象的综合预测信息;所述各个决策树模型对应的模型重要性参数,根据所述各个决策树模型的训练数据的误差量中的中位数确定;所述融合处理为对所述待预测对象的各个初始预测信息进行加权求和处理;所述训练数据的误差量是指训练数据中的样本对象的初始预测信息和实际预测信息之间的差异的绝对值与该样本对象的实际预测信息之间的比值;
信息修正模块,用于对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息,将所述当前预测信息显示在所述对象信息预测页面上;
其中,所述对所述综合预测信息进行修正,得到所述待预测对象的当前预测信息,包括:
从预先训练的对象信息预测模型中,筛选出对应的区域标识与所述目标对象信息预测模型的区域标识相同,且对应的基准预测时间与所述目标对象信息预测模型的基准预测时间的上一个基准预测时间匹配的对象信息预测模型,作为所述目标对象信息预测模型的历史对象信息预测模型;将所述待预测对象的对象特征数据输入到所述历史对象信息预测模型中,得到所述待预测对象的历史综合预测信息;获取所述历史对象信息预测模型的重要性参数和所述目标对象信息预测模型的重要性参数;根据所述历史对象信息预测模型的重要性参数和所述目标对象信息预测模型的重要性参数,对所述历史对象信息预测模型输出的所述历史综合预测信息和所述目标对象信息预测模型输出的所述综合预测信息进行融合处理,得到融合处理后的综合预测信息,作为所述待预测对象的当前预测信息;其中,所述历史对象信息预测模型的重要性参数大于所述目标对象信息预测模型的重要性参数;所述预测信息是指房价信息;
其中,每个训练完成的对象信息预测模型通过以下方式训练得到:
获取同一个区域标识的样本对象的样本对象特征数据;每个样本对象的资源转移时间均位于已确定的基准预测时间之前的预设时间范围内;根据所述样本对象特征数据,得到多份决策树基准数据表;每份决策树基准数据表包含所述样本对象中的部分样本对象的目标对象特征数据,每份决策树基准数据表中的目标对象特征数据对应的对象特征组合不同;根据所述多份决策树基准数据表,构建多个决策树模型;确定各个决策树模型对应的误差量;根据所述各个决策树模型对应的误差量的中位数,确定所述各个决策树模型对应的模型重要性参数;根据所述各个决策树模型对应的模型重要性参数,对所述各个决策树模型进行融合处理,得到对应的对象信息预测模型。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211381657.8A CN115526434B (zh) | 2022-11-07 | 2022-11-07 | 对象信息预测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211381657.8A CN115526434B (zh) | 2022-11-07 | 2022-11-07 | 对象信息预测方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115526434A CN115526434A (zh) | 2022-12-27 |
CN115526434B true CN115526434B (zh) | 2023-07-28 |
Family
ID=84705372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211381657.8A Active CN115526434B (zh) | 2022-11-07 | 2022-11-07 | 对象信息预测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115526434B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106067077A (zh) * | 2016-06-01 | 2016-11-02 | 新奥泛能网络科技股份有限公司 | 一种基于神经网络的负荷预测方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108053071A (zh) * | 2017-12-21 | 2018-05-18 | 宇星科技发展(深圳)有限公司 | 区域空气污染物浓度预测方法、终端及可读存储介质 |
US11315175B2 (en) * | 2018-12-28 | 2022-04-26 | The Beekin Company Limited | Predicting real estate tenant occupancy |
KR20210082110A (ko) * | 2019-12-24 | 2021-07-02 | 탱커주식회사 | 실거래가 예측을 위한 시계열 추세 예측 학습 모델을 이용한 부동산 자산 추정 서비스 제공 시스템 |
CN112382407A (zh) * | 2020-11-12 | 2021-02-19 | 平安科技(深圳)有限公司 | 一种风险管控方法、装置、电子设备和存储介质 |
CN114444788A (zh) * | 2022-01-17 | 2022-05-06 | 北京卡路里信息技术有限公司 | Ftp的预测方法和装置、存储介质及处理器 |
CN114880635A (zh) * | 2022-05-03 | 2022-08-09 | 上海淇玥信息技术有限公司 | 集成提升树构建的模型的用户安全等级识别方法、***、电子设备及介质 |
-
2022
- 2022-11-07 CN CN202211381657.8A patent/CN115526434B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106067077A (zh) * | 2016-06-01 | 2016-11-02 | 新奥泛能网络科技股份有限公司 | 一种基于神经网络的负荷预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115526434A (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stanton et al. | Inside the integrated assessment models: Four issues in climate economics | |
Antuchevičiene et al. | Multiple criteria construction management decisions considering relations between criteria | |
Kizielewicz et al. | Comparison of Fuzzy TOPSIS, Fuzzy VIKOR, Fuzzy WASPAS and Fuzzy MMOORA methods in the housing selection problem | |
Ghavami et al. | An intelligent spatial land use planning support system using socially rational agents | |
Liu et al. | A special Partial Least Squares (PLS) path decision modeling for bid evaluation of large construction projects | |
Dede et al. | Convergence properties and practical estimation of the probability of rank reversal in pairwise comparisons for multi-criteria decision making problems | |
CN108647987A (zh) | 房屋资产估价方法 | |
CN115409671B (zh) | 社区居民人口微观数据合成方法、装置、终端及存储介质 | |
CN117096875B (zh) | 一种基于Spatio-Temporal Transformer模型的短期负荷预测方法及*** | |
Febrita et al. | Data-driven fuzzy rule extraction for housing price prediction in Malang, East Java | |
Dini et al. | Water distribution network quality model calibration: a case study–Ahar | |
Xu et al. | Office property price index forecasting using neural networks | |
CN110137951B (zh) | 基于节点电价的市场分区方法及装置 | |
CN114065646B (zh) | 基于混合优化算法的能耗预测方法、云计算平台及*** | |
Xiong et al. | The housing demand analysis and prediction of the real estate based on the AWGM (1, N) model | |
Khabarov et al. | Heuristic model of the composite quality index of environmental assessment | |
CN115526434B (zh) | 对象信息预测方法、装置、计算机设备和存储介质 | |
Zhang et al. | RSVRs based on feature extraction: a novel method for prediction of construction projects’ costs | |
CN112039111A (zh) | 一种新能源微电网参与电网调峰能力的方法及*** | |
Tehrani et al. | Baseline load forecasting using a Bayesian approach | |
CN110060086A (zh) | 一种基于Web云服务中用户可信度的在线预测方法 | |
Novak et al. | A Bayesian model for forecasting hierarchically structured time series | |
Soltani et al. | The non-linear dynamics of South Australian regional housing markets: A machine learning approach | |
Lasota et al. | A method for merging similar zones to improve intelligent models for real estate appraisal | |
El‐Sawalhi et al. | Forecasting contractor performance using a neural network and genetic algorithm in a pre‐qualification model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |