CN111310122A - 一种模型的数据处理方法、电子设备及存储介质 - Google Patents

一种模型的数据处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN111310122A
CN111310122A CN202010082777.2A CN202010082777A CN111310122A CN 111310122 A CN111310122 A CN 111310122A CN 202010082777 A CN202010082777 A CN 202010082777A CN 111310122 A CN111310122 A CN 111310122A
Authority
CN
China
Prior art keywords
models
data set
training
data
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010082777.2A
Other languages
English (en)
Inventor
喻颍杰
尚毛毛
张卫华
杨丛丛
杨豫萍
董大为
***
康敏华
李楠
周晴
王业帅
杭玢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Economic Research Institute Of Development And Reform Commission Of Guangxi Zhuang Autonomous Region
Beijing Hongtianyu Technology Co Ltd
Original Assignee
Economic Research Institute Of Development And Reform Commission Of Guangxi Zhuang Autonomous Region
Beijing Hongtianyu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Economic Research Institute Of Development And Reform Commission Of Guangxi Zhuang Autonomous Region, Beijing Hongtianyu Technology Co Ltd filed Critical Economic Research Institute Of Development And Reform Commission Of Guangxi Zhuang Autonomous Region
Priority to CN202010082777.2A priority Critical patent/CN111310122A/zh
Publication of CN111310122A publication Critical patent/CN111310122A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Mathematical Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种模型的数据处理方法,包括:确定原始数据集;利用所述原始数据集训练至少三种模型,并评估,得到至少三个原始准确度指标;根据所述至少三个原始准确度指标创建评估基准;根据所述原始数据集确定标准数据集;利用所述标准数据集训练所述至少三种模型,并评估,得到至少三个标准准确度指标;根据所述至少三个标准准确度指标,在所述至少三种模型中确定至少两种待定模型;根据所述评估基准,对所述至少两种待定模型进行参数优化,得到至少两个优化模型;在所述至少两个优化模型中确定被选模型。

Description

一种模型的数据处理方法、电子设备及存储介质
技术领域
本申请属于计算机算法领域,特别涉及一种模型的数据处理方法、一种电子设备及一种存储介质。
背景技术
本申请的发明人发现传统的经济分析主要依靠结构化数据,这些数据最明显的缺陷就是具有很强的时滞性。例如,政府公布的季度GDP往往会有一个月的滞后期,而反映全面经济社会状况的统计年鉴的滞后期会达到三个月左右,这对及时了解宏观经济形势、预测与预警都是非常不利的。
为了解决上述问题,则需引入大数据算法对经济数据进行分析和预测。而在大数据算法中如何选定模型则成为一个难题。
发明内容
本申请旨在提供一种模型的数据处理方法、一种电子设备及一种存储介质。
本申请的一个实施例提供了一种模型的数据处理方法,包括:确定原始数据集;利用所述原始数据集训练至少三种模型,并评估,得到至少三个原始准确度指标;根据所述至少三个原始准确度指标创建评估基准;根据所述原始数据集确定标准数据集;利用所述标准数据集训练所述至少三种模型,并评估,得到至少三个标准准确度指标;根据所述至少三个标准准确度指标,在所述至少三种模型中确定至少两种待定模型;根据所述评估基准,对所述至少两种待定模型进行参数优化,得到至少两个优化模型;在所述至少两个优化模型中确定被选模型。
本申请的另一实施例提供了一种电子设备,包括处理器和存储器,以及存储于所述存储器的所述处理器可执行的程序,当所述程序被执行时,所述处理器执行前述任意一种方法。
本申请的另一实施例提供了一种存储介质,储存处理器可执行的程序,当所述程序被执行时,所述处理器执行前述任意一种方法。
利用上述方法、电子设备及存储介质,可以通过多个候选模型进行多次训练、评估和筛选。最终可以得到效果最佳的被选模型。
利用上述方法,可以获取及时性的数据,结合人工智能机器学习算法对数据进行分析和预测,既能有效利用经济理论解释经济问题,又能通过大数据获取的数据信息突破传统统计数据存在的问题,有效提高宏观经济预测和分析的效果,为宏观经济预测和分析带来新的突破。
通过上述方法可以利用互联网数据结合传统统计数据,联合建立的指标体系,可以更准确实时的对下一季度的增速进行预测。并且通过机器学习方法,使得模型有着更强的泛化性,抗干扰能力强,准确度高,稳定性强,而且可以通过互联网指标对一些传统数据无法描述的市场环境变化有着量化描述,侧面反映出例如中美贸易战等带来的影响,使得整体预测更加具有实时性。
附图说明
图1示出了本申请的一个实施例模型的数据处理方法的流程示意图。
图2示出了本申请的另一实施例模型的数据处理方法的流程示意图。
图3示出了示例实施例中原始数据的数据直方示意图。
图4示出了示例实施例中原始数据的数据密度分布示意图。
图5示出了示例实施例中原始数据的数据箱型示意图。
图6示出了示例实施例中原始数据的数据相关性示意图。
图7示出了示例实施例中新增企业数与同比增速之间的先导性分析示意图。
图8示出了示例实施例中工业资源与同比增速之间的先导性分析示意图。
图9示出了示例实施例中新增个体商户数与同比增速之间的先导关系示意图。
图10示出了示例实施例中原始准确度指标的均方误差统计示意图。
图11示出了示例实施例中标准准确度指标的均方误差统计示意图。
图12示出根据一示例性实施例的一种电子设备的框图。
具体实施方式
以下是通过特定的具体实施例来说明本发明所公开有关“一种模型的数据处理方法、电子设备及存储介质”的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
本申请旨在提供一种模型的数据处理方法、一种电子设备及一种存储介质。
本申请的一个实施例提供了一种模型的数据处理方法,包括:确定原始数据集;利用所述原始数据集训练至少三种模型,并评估,得到至少三个原始准确度指标;根据所述至少三个原始准确度指标创建评估基准;根据所述原始数据集确定标准数据集;利用所述标准数据集训练所述至少三种模型,并评估,得到至少三个标准准确度指标;根据所述至少三个标准准确度指标,在所述至少三种模型中确定至少两种待定模型;根据所述评估基准,对所述至少两种待定模型进行参数优化,得到至少两个优化模型;在所述至少两个优化模型中确定被选模型。
本申请的另一实施例提供了一种电子设备,包括处理器和存储器,以及存储于所述存储器的所述处理器可执行的程序,当所述程序被执行时,所述处理器执行前述任意一种方法。
本申请的另一实施例提供了一种存储介质,储存处理器可执行的程序,当所述程序被执行时,所述处理器执行前述任意一种方法。
利用上述方法、电子设备及存储介质,可以通过多个候选模型进行多次训练、评估和筛选。最终可以得到效果最佳的被选模型。
利用上述方法,可以获取及时性的数据,结合人工智能机器学习算法对数据进行分析和预测,既能有效利用经济理论解释经济问题,又能通过大数据获取的数据信息突破传统统计数据存在的问题,有效提高宏观经济预测和分析的效果,为宏观经济预测和分析带来新的突破。
通过上述方法可以利用互联网数据结合传统统计数据,联合建立的指标体系,可以更准确实时的对下一季度的增速进行预测。并且通过机器学习方法,使得模型有着更强的泛化性,抗干扰能力强,准确度高,稳定性强,而且可以通过互联网指标对一些传统数据无法描述的市场环境变化有着量化描述,侧面反映出例如中美贸易战等带来的影响,使得整体预测更加具有实时性。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,本申请的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。本申请的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本申请。如在本申请说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本申请说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
图1示出了本申请的一个实施例模型的数据处理方法的流程示意图。
如图1所示,方法1000可以包括S110、S120、S130、S140、S150、S160、S170和S180。
其中在S110中,可以确定原始数据集。可以通过人工方式从公开的数据源中获取原始数据,也可以利用计算机或者计算机网络自动地获取原始数据,并对原始数据进行数据整理得到原始数据的数据库,即原始数据集。可选地,可以利用爬虫技术在网络中获取原始数据,也可以利用分布式网络的各个终端节点获取原始数据,还可以利用云端服务器与终端用户的通信获取原始数据。
如图1所示,在S120中,可以利用原始数据集训练至少三种模型,并评估,得到至少三个原始准确度指标。可选地,可以先选择至少三种模型作为候选模型。可选地,候选模型可以包括:线性回归、岭回归、套索回归、弹性网络回归、支持向量机、随机森林、极端随机树、xgboost、GBDT、AdaBoost中的至少三种。
可选地,把原始数据集分成训练数据集和评估数据集。可以利用训练数据集训练前述至少三种模型,并对训练结果进行评估得到至少三个原始准确度指标。可选地,原始准确度可以是前述训练结果的均方误差。
可选地,可以把原始数据集分成多个部分,并把其中至少一个部分作为评估数据集,同时把其他的部分作为训练数据集。可以利用该训练数据集训练模型,以及利用该评估数据集评估训练结果,得到一个评估结果,并把该评估结果作为原始准确度指标。
进一步地,可以轮流至少一个部分作为评估数据集,同时把轮流把剩下的部分作为训练数据集。可以轮流利用每组训练数据集和评估数据集训练模型,以及评估训练结果,得到多个评估结果。可以根据该多个评估结果确定每种模型对应的原始准确度指标。比如,该多个评估结果可以是多个均方误差,原始准确度指标可以是该多个均方误差的均值。
进一步地,可以把原始数据集平均分成十个部分,轮流把其中任意一个部分作为评估数据集,同时把其他的部分作为训练数据集。根据每组训练数据集和评估数据集,训练模型和评估训练结果,即十折交叉验证法。
如图1所示,在S130中,可以根据该至少三个原始准确度指标创建评估基准。可以把该至少三个原始准确度指标作为评估基准。也可以把根据该至少三个原始准确度指标进行的某种计算的计算结果作为评估基准。
如图1所示,在S140中,可以根据原始数据集确定标准数据集。可选地,可以对原始数据集中的数据进行数据尺度的统一化处理。也可以对原始数据进行其他方式的线性变换。对数据标准化时,为了防止数据泄露,采用Pipeline来标准化数据和对模型进行评估。
如图1所示,在S150中,可以利用标准数据集训练该至少三种模型,并评估,得到至少三个标准准确度指标。把标准数据集分成训练数据集和评估数据集。可以利用该训练数据集训练该至少三种模型,并利用该评估数据集对训练结果进行评估,得到该至少三种模型每个种模型对应的标准准确度指标。可选地,可以利用十折交叉验证法分离标准数据集,训练模型,以及评估训练结果。
如图1所示,在S160中,可以根据该至少三个标准准确度指标,在该至少三种模型中确定至少两种待定模型。可选地,可以根据该至少三种模型中每种模型对应的标准准确度指标,确定至少两种待定模型。可选地,可以选择最佳的至少两个标准准确度指标对应的模型作为待定模型。
如图1所示,在S170中,可以根据评估基准,对该至少两种待定模型进行参数优化,得到至少两个优化模型。可选地,可以以评估基准为基础分别对该至少两种待定模型进行参数优化,得到每种模型的优化模型。可选地,可以利用网格搜索算法对该至少两种待定模型进行参数优化,得到至少两个优化模型。
如图1所示,在S180中,在该至少两个优化模型中确定被选模型。可选地,可以评估该至少两个优化模型,得到该至少两个优化模型中每个优化模型对应的优化准确度指标。可选地,可以选择最佳优化准确度指标对应的优化模型为被选模型。可选地,该优化准确度指标可以是每个优化模型的均方误差。
图2示出了本申请的另一实施例模型的数据处理方法的流程示意图。
如图2所示,方法2000可以包括:S205、S210、S220、S230、S240、S250、S260、S270和S280。
其中在S205中,可以采集原始数据。表1示出了示例实施例中的原始数据。如示例实施例所示,待选模型可以用于预测规模以上工业增加值,该原始数据集可以包括与工业增加值相关的数据。
表1
Figure BDA0002380899440000061
Figure BDA0002380899440000071
如示例实施例所示,该原始数据可以包括:工业用电、工业企业所得税、工业企业增值税、PMI指数、汽车产量、电解铝产量、铝材产量、十种有色金属产量、氧化铝产量、钢材产量、水泥产量、发电量、个体工商户数、批发零售业新增企业数、住宿餐饮业新增企业数、建筑业新增企业个数、农林牧副渔新增企业个数、制造业新增企业个数、租赁合同商务服务新增企业个数及工业增加值同比增速中的至少一项。也可以包括上述各项的细分项目。可选地,原始数据也可以不限于上述数据类别。可选地,原始数据可以包括年度数据、季度数据、月度数据以及其他数据。可选地,原始数据可以包括不定周期的数据。
如图2所示,在S210中,可以对原始数据进行分析整理得到原始数据集。可以通过描述性统计来分析原始数据,并通过可视化信息展示原始数据的分析结果。以加强用户对原始数据的理解,便于构建合适的模型。
图3示出了示例实施例中原始数据的数据直方示意图。图4示出了示例实施例中原始数据的数据密度分布示意图。图5示出了示例实施例中原始数据的数据箱型示意图。
描述性统计包括统计原始数据的最大值、最小值、中位值和四分位值等。以分析原始数据分布和数据结构。如图描述性统计也可以包括分析数据的分布情况。
可选地,描述性统计可以包括统计原始数据的数据分布情况。如图3所示,可选地,可以利用直方示意图展示原始数据的数据分布情况。如示例实施例所示,有些数据成指数分布如Enterprises;有些数据特征呈双峰分布,如AluminumOxide和Steels。如图4所示,可选地,也可以利用密度分布示意图展示原始数据的数据分布特征。利用密度分布示意图可以比直方示意图更加平滑。可选地,描述性统计可以分析原始数据的数据偏态分布。如图5所示,可选地,可以利用数据箱型示意图展示原始数据的数据偏态分布。
图6示出了示例实施例中原始数据的数据相关性示意图。
进一步地,还可以分析数据指标之间的两两关联关系。其中,每两个数据指标之间的关联关系可以是一个数值。每两个数据指标之间的关联关系也可以是一组数值,比如可以是一系列时间节点中,每个时间节点对应的数据指标之间度关系。如图6所示,可选地,每两个数据指标之间的关联关系也可以用图来表示。
可选地,在S210中还可以对原始数据进行数据预处理。其中数据预处理可以包括清洗数据和特征衍生。清洗数据可以包括针对统计数据,通过删除空缺数据、异常数值来处理原始数据。可以利用各行业工商注册新增企业特征(包括个体工商户、批发零售业、住宿餐饮业、建筑业、农林牧渔、制造业、租赁和商务服务等新增企业个数)衍生出新的指标--新增企业指标;利用各类工业产品特征(包括发电量、汽车、电解铝、铝材、十种有色重金属、氧化铝、钢材、水泥等产量)衍生出新的指标--工业资源指标;相关性较高的“个体工商业户数”特征衍生新指标--新个体工商业户。
图7示出了示例实施例中新增企业数与同比增速之间的先导性分析示意图。图8示出了示例实施例中工业资源与同比增速之间的先导性分析示意图。图9示出了示例实施例中新增个体商户数与同比增速之间的先导关系示意图。
如图2所示,可选地,在S210还可以包括对指标之间的先导关系分析。如图7、图8、图9所示,新增企业数、新增工业资源和新增个体商户数这3个指标与下月“工业增加值增速(月度)”均具有较高的相关性,皮尔逊相关系数分别为0.98、0.96和0.86;同时从其与“工业增加值增速(月度)”的增幅关系可以看出,“新增企业”与“工业资源”指标对“工业增加值增速(月度)”具有一定的先导性。
如图2所示,在S220中,可以确定十种待选模型为:线性回归(LR)、岭回归(RIDGE)、套索回归(LASSO)、弹性网络回归(EN)、支持向量机(SVM)、随机森林(RFR)、极端随机树(ETR)、xgboost(XGB)、GBDT(GBR)、AdaBoost(ABR)。待选模型的种类和数量也可以不以此为限。
可以把S210中得到的原始数据集分成训练数据集和评估数据集。可以利用训练前述十种待选模型,并利用评估数据集对训练结果进行评估得到十种待选模型的原始准确度指标。可选地,原始准确度指标可以是训练结果的均方误差(MSE)。
在S220中,可选地,可以利用原始数据集分离出来的训练数据集对十种待选模型,利用每种待选模型的预设默认训练参数进行模型训练。如示例实施例所示,十种待选模型的原始准确度指标可以如下所示。
LR:-49.458561(49.693290)
Ridge:-49.456994(49.695623)
LASSO:-47.962319(49.706692)
EN:-48.747337(49.954865)
SVM:-81.629725(49.751904)
RFR:-47.443491(40.450092)
ETR:-41.751627(34.196770)
ABR:-42.452201(37.206723)
GBR:-57.325249(73.926423)
XGB:-55.308945(62.236916)
图10示出了示例实施例中原始准确度指标的均方误差统计示意图。
如图2所示,在S220中,可选地,可以利用十折交叉分离验证法确定训练数据集和评估数据集。比如,可以把原始数据集平均分成十个部份,可以轮流把每一部分作为评估数据集,剩下的作为训练数据集,从而可以得到十组训练数据集和评估数据集。可以分别用每个分组的训练数据集训练模型,并用评估数据集评估训练结果,从而得到十个均方误差(MSE)。可以对上述十个均方误差进行分析,得到原始准确度指标的均方误差统计示意图,如图10所示。
如图2所示,在S230中,可选地,可以根据前述十种待选模型的准确度指标确定评估基准。可选地,可以把在S220中得到的,前述十种待选模型中每个模型的均方误差作为评估基准。也可以根据前述十种待选模型中每个模型的均方误差进行计算的计算结果作为评估基准。比如可以把每种模型的十个均方误差的均值、最大值、最小值等作为评估基准。
如图2所示,在S240中,可以根据原始数据集建立标准数据集。可以对原始数据集中的每个数据进行标准化处理,同一各个指标数据之间的取值范围。在S240中可以采用Pipeline来进行数据的标准化处理。
如图2所示,在S250中,可以利用标准数据集训练前述十种待选模型,并评估,得到十个标准准确度指标。S250的执行过程与S220相似,不做赘述。
如示例实施例所示,在S250中,10种模型训练结果的均方误差可以如下所示:
ScalerLR:-49.458561(49.693290)
ScalerRIDGE:-48.259370(49.158078)
ScalerLASSO:-42.222034(37.662790)
ScalerEN:-47.131189(41.963870)
ScalerSVM:-46.693213(30.796697)
ScalerRFR:-46.057714(35.396472)
ScalerETR:-41.115216(39.916171)
ScalerABR:-39.881764(35.669335)
ScalerGBR:-56.378297(71.365000)
ScalerXGB:-55.310488(62.237158)
图11示出了示例实施例中标准准确度指标的均方误差统计示意图。
如图11所示,在S250中,示例实施例的十折交叉分离验证结果。可选地,标准准确度指标可以包括图11所示的十折交叉分离验证结果。
如图2所示,在S260中可以根据标准准确的指标在前述十种模型中确定2种待定模型。可选地,可以在前述十种模型中选择标准准确度指标最佳的2中模型作为待定模型。如图11所示,示例实施例中的AdaBoost(ABR)模型具有最优的MSE,其次是极端随机树回归(ETR)模型。因此,可以选择AdaBoost(ABR)模型和极端随机树回归(ETR)模型作为两种待定模型。
如图2所示,在S270中,可以以前述评估基准为参照,分别对AdaBoost(ABR)模型和极端随机树回归(ETR)模型进行训练参数优化。比如,在示例实施例中,可以对极端随机树(ETR)选择主要参数n_estimators、max_depth进行调整,结果如下:
最优(MSE):-30.135471988372101使用{'n_estimators':20,max_depth':6}
可以对AdaBoost(ABR)选择n_estimators、和learning_rate三个参数进行调整,结果如下:
最优:-34.960919707149943使用{'learning_rate':0.3,'n_estimators':30}
两种模型的优化结果对比结果如表2所示。
表2
模型名称 MSE(评估数据集)
极端随机树(ETR) 27.98
AdaBoost(ABR) 30.26
如图2所示,在S280中,可以在两个优化模型确定最终的被选模型。如表2所示,示例实施例中的极端随机树(ETR)模型对样本数据具有更好的拟合效果,因此,可以选择极端随机树(ETR)作为该项目最终被选模型。
图12示出根据一示例性实施例的一种电子设备的框图。
下面参照图12来描述根据本申请的这种实施方式的电子设备200。图12显示的电子设备200仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同***组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书描述的根据本申请各种示例性实施方式的方法。例如,所述处理单元210可以执行如图1-11中至少一项所示的方法。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
本领域技术人员可以理解,本申请的技术方案可实施为***、方法或计算机程序产品。因此,本申请可表现为完全硬件的实施例、完全软件的实施例(包括固件、常驻软件、微码等)或将软件和硬件相结合的实施例的形式,它们一般可被称为“电路”、“模块”或“***”。此外,本申请可表现为计算机程序产品的形式,所述计算机程序产品嵌入到任何有形的表达介质中,所述有形的表达介质具有嵌入到所述介质中的计算机可用程序代码。
参照根据本申请实施例的方法、装置(***)和计算机程序产品的流程图和/或框图来描述本申请。可以理解的是,可由计算机程序指令执行流程图和/或框图中的每个框、以及流程图和/或框图中的多个框的组合。这些计算机程序指令可提供给通用目的计算机、专用目的计算机或其它可编程数据处理装置的处理器,以使通过计算机或其它可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个框或多个框中指明的功能/动作的装置。
这些计算机程序指令还可存储于能够指导计算机或其它可编程数据处理装置以特定的方式实现功能的计算机可读介质中,以使存储于计算机可读介质中的指令产生包括实现流程图和/或框图中的一个框或多个框中指明的功能/动作的指令装置。
利用上述方法、电子设备及存储介质,可以通过多个候选模型进行多次训练、评估和筛选。最终可以得到效果最佳的被选模型。
利用上述方法,可以获取及时性的数据,结合人工智能机器学习算法对数据进行分析和预测,既能有效利用经济理论解释经济问题,又能通过大数据获取的数据信息突破传统统计数据存在的问题,有效提高宏观经济预测和分析的效果,为宏观经济预测和分析带来新的突破。
通过上述方法可以利用互联网数据结合传统统计数据,联合建立的指标体系,可以更准确实时的对下一季度的增速进行预测。并且通过机器学习方法,使得模型有着更强的泛化性,抗干扰能力强,准确度高,稳定性强,而且可以通过互联网指标对一些传统数据无法描述的市场环境变化有着量化描述,侧面反映出例如中美贸易战等带来的影响,使得整体预测更加具有实时性。
计算机程序指令还可加载到计算机或其它可编程数据处理装置上,以引起在计算机上或其它可编程装置上执行一连串的操作步骤,以产生计算机实现的过程,从而使在计算机或其它可编程装置上执行的指令提供用于实现流程图和/或框图中的一个框或多个框中指明的功能/动作的过程。
附图中的流程图和框图示出根据本申请的多个实施例的***、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上,流程图或框图中的每个框可表示一个模块、区段或代码的一部分,其包括一个或多个用于实现特定逻辑功能的可执行指令。还应注意,在一些可替代性实施中,框中标注的功能可以不按照附图中标注的顺序发生。例如,根据所涉及的功能性,连续示出的两个框实际上可大致同时地执行,或者这些框有时以相反的顺序执行。还可注意到,可由执行特定功能或动作的专用目的的基于硬件的***、或专用目的硬件与计算机指令的组合来实现框图和/或流程图示图中的每个框、以及框图和/或流程图示图中的多个框的组合。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明仅用于帮助理解本申请的方法及其核心思想。同时,本领域技术人员依据本申请的思想,基于本申请的具体实施方式及应用范围上做出的改变或变形之处,都属于本申请保护的范围。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种模型的数据处理方法,包括:
确定原始数据集;
利用所述原始数据集训练至少三种模型,并评估,得到至少三个原始准确度指标;
根据所述至少三个原始准确度指标创建评估基准;
根据所述原始数据集确定标准数据集;
利用所述标准数据集训练所述至少三种模型,并评估,得到至少三个标准准确度指标;
根据所述至少三个标准准确度指标,在所述至少三种模型中确定至少两种待定模型;
根据所述评估基准,对所述至少两种待定模型进行参数优化,得到至少两个优化模型;
在所述至少两个优化模型中确定被选模型。
2.根据权利要求1所述的方法,其中,利用所述原始数据集训练至少三种模型,并评估,得到至少三个原始准确度指标,包括:
根据所述原始数据集确定训练数据集和评估数据集;
利用所述训练数据集训练所述至少三种模型;
利用所述原始数据集训练至少三种模型,并评估,得到至少三个原始准确度指标,包括:
利用所述评估数据集评估利用所述原始数据集训练的所述至少三种模型。
3.根据权利要求2所述的方法,其中,所述根据所述原始数据集确定训练数据集和评估数据集,包括:
采用十折交叉验证法确定训练数据集和评估数据集。
4.根据权利要求1所述的方法,其中,
所述至少三个原始准确度指标包括,利用所述原始数据集训练的所述至少三种模型的均方误差;
所述至少三个标准准确度指标包括,利用所述标准数据集训练的所述至少三种模型的均方误差。
5.根据权利要求1所述的方法,其中,根据所述评估基准,对所述至少两种待定模型进行参数优化,得到至少两个优化模型,包括:
利用网格搜索算法对所述至少两种待定模型进行参数优化,得到至少两个优化模型。
6.根据权利要求1所述的方法,其中,在所述至少两个优化模型中确定被选模型,包括:
评估所述至少两个优化模型,得到至少两个优化准确度指标;
选择所述至少两个优化模型中所述优化准确度指标最优的模型作为所述被选模型。
7.根据权利要求6所述的方法,其中,所述至少两个优化准确度指标包括,所述至少两个优化模型的均方误差。
8.根据权利要求1所述的方法,其中,所述至少三种模型选自包括线性回归、岭回归、套索回归、弹性网络回归、支持向量机、随机森林、极端随机树、xgboost、GBDT、AdaBoost的组。
9.根据权利要求1所述的方法,其中采用处理后的工业增加值相关的指标数据作为原始数据集,所述方法还包括:
利用被选模型预测规上工业增速。
10.一种电子设备,包括处理器和存储器,以及存储于所述存储器的所述处理器可执行的程序,当所述程序被执行时,所述处理器执行权利要求1-8中至少一项所述的方法。
CN202010082777.2A 2020-02-07 2020-02-07 一种模型的数据处理方法、电子设备及存储介质 Pending CN111310122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010082777.2A CN111310122A (zh) 2020-02-07 2020-02-07 一种模型的数据处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010082777.2A CN111310122A (zh) 2020-02-07 2020-02-07 一种模型的数据处理方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111310122A true CN111310122A (zh) 2020-06-19

Family

ID=71146952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010082777.2A Pending CN111310122A (zh) 2020-02-07 2020-02-07 一种模型的数据处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111310122A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861264A (zh) * 2020-07-31 2020-10-30 华中科技大学 一种基于数据挖掘和智能算法预测混凝土耐久性方法
CN113707320A (zh) * 2021-08-30 2021-11-26 安徽理工大学 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法
WO2023030282A1 (en) * 2021-09-02 2023-03-09 Huawei Technologies Co., Ltd. Methods and devices for assessing generalizability of benchmarks

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861264A (zh) * 2020-07-31 2020-10-30 华中科技大学 一种基于数据挖掘和智能算法预测混凝土耐久性方法
CN113707320A (zh) * 2021-08-30 2021-11-26 安徽理工大学 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法
CN113707320B (zh) * 2021-08-30 2023-08-11 安徽理工大学 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法
WO2023030282A1 (en) * 2021-09-02 2023-03-09 Huawei Technologies Co., Ltd. Methods and devices for assessing generalizability of benchmarks

Similar Documents

Publication Publication Date Title
US10606862B2 (en) Method and apparatus for data processing in data modeling
AU2018101946A4 (en) Geographical multivariate flow data spatio-temporal autocorrelation analysis method based on cellular automaton
US11308418B2 (en) Automatic selection of variables for a machine-learning model
Kuravsky et al. A numerical technique for the identification of discrete-state continuous-time Markov models
US20190251458A1 (en) System and method for particle swarm optimization and quantile regression based rule mining for regression techniques
CN111310122A (zh) 一种模型的数据处理方法、电子设备及存储介质
US20150120263A1 (en) Computer-Implemented Systems and Methods for Testing Large Scale Automatic Forecast Combinations
US8170894B2 (en) Method of identifying innovations possessing business disrupting properties
CN110717535B (zh) 一种基于数据分析处理***的自动建模方法及***
CN107729241B (zh) 一种基于变异体分组的软件变异测试数据进化生成方法
Chen et al. Optimal variability sensitive condition-based maintenance with a Cox PH model
CN110825522A (zh) Spark参数自适应优化方法及***
Nicholson et al. Optimal network flow: A predictive analytics perspective on the fixed-charge network flow problem
CN111476274B (zh) 一种大数据预测分析的方法、***、装置及存储介质
US20200050982A1 (en) Method and System for Predictive Modeling for Dynamically Scheduling Resource Allocation
CN111339163B (zh) 获取用户流失状态的方法、装置、计算机设备和存储介质
Bidyuk et al. An Approach to Identifying and Filling Data Gaps in Machine Learning Procedures
Almomani et al. Selecting a good stochastic system for the large number of alternatives
CN115409541A (zh) 基于数据血缘的卷烟品牌数据处理方法
CA3177037A1 (en) Forecasting based on bernoulli uncertainty characterization
KR20230052010A (ko) Ai 기반 모델 선택 알고리즘을 이용한 수요 예측 방법
Cherukuri et al. Control Spare Parts Inventory Obsolescence by Predictive Modelling
CN113191540A (zh) 一种产业链路制造资源的构建方法及装置
Sedano et al. The application of a two-step AI model to an automated pneumatic drilling process
Kolinski et al. The assessment of the economic efficiency of production process-simulation approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 259, 1st Floor, Bowangyuan Podium, Yangfangdian, Haidian District, Beijing 100038

Applicant after: Beijing hongtianyu Technology Co.,Ltd.

Applicant after: Guangxi Zhuang Autonomous Region Macroeconomic Research Institute

Address before: No. 259, 1st Floor, Bowangyuan Podium, Yangfangdian, Haidian District, Beijing 100038

Applicant before: Beijing hongtianyu Technology Co.,Ltd.

Applicant before: Economic Research Institute of development and Reform Commission of Guangxi Zhuang Autonomous Region

Address after: 6/F, West Building, Guangxi Development Building, 111-1 Minzu Avenue, Nanning, Guangxi Zhuang Autonomous Region 530012

Applicant after: Guangxi Zhuang Autonomous Region Macroeconomic Research Institute

Applicant after: Beijing hongtianyu Technology Co.,Ltd.

Address before: No. 259, 1st Floor, Bowangyuan Podium, Yangfangdian, Haidian District, Beijing 100038

Applicant before: Beijing hongtianyu Technology Co.,Ltd.

Applicant before: Guangxi Zhuang Autonomous Region Macroeconomic Research Institute

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200619