CN110414627A - 一种模型的训练方法及相关设备 - Google Patents

一种模型的训练方法及相关设备 Download PDF

Info

Publication number
CN110414627A
CN110414627A CN201910728772.XA CN201910728772A CN110414627A CN 110414627 A CN110414627 A CN 110414627A CN 201910728772 A CN201910728772 A CN 201910728772A CN 110414627 A CN110414627 A CN 110414627A
Authority
CN
China
Prior art keywords
model
factor
data
group
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910728772.XA
Other languages
English (en)
Inventor
甘伟
陈联忠
徐明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiahesen Health Technology Co Ltd
Original Assignee
Beijing Jiahesen Health Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiahesen Health Technology Co Ltd filed Critical Beijing Jiahesen Health Technology Co Ltd
Priority to CN201910728772.XA priority Critical patent/CN110414627A/zh
Publication of CN110414627A publication Critical patent/CN110414627A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种模型的训练方法及相关设备,用于提高模型的准确率以及减少模型训练的时间。该方法包括:确定N个预测主题,其中,N为大于或等于1的正整数;对所述N个预测主题对应的数据进行因素标注,得到N组标注因素,所述N个预测主题与所述N组标注因素相对应;对所述N组标注因素进行预处理,得到所述N个关键数据集;对所述N个关键数据集中每个关键数据集进行单因素分析,得到N组目标因素,所述N组目标因素与所述N个预测主题具有关联关系;通过至少一个模型算法分别对所述N组目标因素进行训练,得到所述N个预测主题分别对应的至少一个模型。

Description

一种模型的训练方法及相关设备
技术领域
本申请涉及模型训练领域,尤其涉及一种模型的训练方法及相关设备。
背景技术
随着网络的进步,社会各界科研人员已逐步意识到数据应用的重要性,开始挖掘数据潜在的海量应用价值。功能强大的数据挖掘工具,可以提升数据结果的可信度和减少研究人员的难度,提高研究效率。R既是一种编程语言,又是一种集多种算法和功能的软件,具有开源,免费和非商业化的特征,该软件集成了大量常用的数据挖掘和分析算法,包括分类算法,回归算法,神经网络等等,用户可以根据需求调整算法参数,还包括可视化分析功能,能满足绝大部分的分析需求,还可以根据特定的业务需求,创新编写新算法,因此可将其封装集成用于模型的训练。
现有模型训练过程中的训练数据有限,且训练数据过多的依赖于人工处理,另外,在模型优化过程中,需要反复执行该过程。其带来的关键问题如下:
现有的数据存在获取周期长,变量有限、干扰因素多等缺陷,传统研究中一般使用统计学方法,多数是研究单一因素对研究目的影响,较少解释多因素之间的关联。另外,预测模型需要不断进行调优,若后期结果偏离预期,则需要扩大样本量或增加新关键词输入,而这就需要不断反复执行以上过程,延长整个研究实施产出周期。
发明内容
本申请提供了一种模型的训练方法及相关设备,可以提高模型的准确率,减少模型训练的时间。
本申请实施例第一方面提供一种模型的训练方法,所述方法包括:
确定N个预测主题,其中,N为大于或等于1的正整数;
对所述N个预测主题对应的数据进行因素标注,得到N组标注因素,所述N个预测主题与所述N组标注因素相对应;
对所述N组标注因素进行预处理,得到所述N个关键数据集;
对所述N个关键数据集中每个关键数据集进行单因素分析,得到N组目标因素,所述N组目标因素与所述N个预测主题具有关联关系;
通过至少一个模型算法分别对所述N组目标因素进行训练,得到所述N个预测主题分别对应的至少一个模型。
可选地,所述对所述N组标注因素进行预处理,得到N组目标因素,所述N组目标因素与所述N个预测主题具有关联关系包括:
将所述N组标注因素进行数据整合,得到N个整合数据集;
将所述N个整合数据集进行数据清洗,得到N个清洗后的数据集;
对所述N个清洗后的数据集进行优化处理,以得到所述N个关键数据集。
可选地,所述对所述N个关键数据集中每个关键数据集进行单因素分析,得到所述N组目标因素包括:
确定所述每个关键数据集中每个关键数据的数据类型;
根据所述每个关键数据的数据类型确定单因素分析模型;
根据与所述每个关键数据的数据类型对应的所述单因素分析模型对所述每个关键数据进行分析,得到所述N组目标因素。
可选地,所述方法还包括:
判断所述至少一个模型中每个模型的预测准确率是否达到第一预设值;
若所述至少一个模型中存在预测准确率未达到所述第一预设值的第一模型时,则对所述第一模型执行相应的调优操作,直至所述第一模型的预测准确率达到所述第一预设值。
可选地,所述方法还包括:
接收目标操作指令,所述目标操作指令为目标预测主题对应的操作指令,所述目标预测主题包含于所述N个预测主题;
响应所述操作指令,并根据所述操作指令从所述至少一个模型中选择第二模型;
基于所述第二模型对所述目标预测主题进行预测,得到预测结果。
本申请实施例第二方面提供了一种模型的训练装置,包括:
确定单元,用于确定N个预测主题,其中,N为大于或等于1的正整数;
标注单元,用于对所述N个预测主题对应的数据进行因素标注,得到N组标注因素,所述N个预测主题与所述N组标注因素相对应;
预处理单元,用于对所述N组标注因素进行预处理,得到所述N个关键数据集;
分析单元,用于对所述N个关键数据集中每个关键数据集进行单因素分析,得到N组目标因素,所述N组目标因素与所述N个预测主题具有关联关系;
训练单元,用于通过至少一个模型算法分别对所述N组目标因素进行训练,得到所述N个预测主题分别对应的至少一个模型。
可选地,所述预处理单元具体用于:
将所述N组标注因素进行数据整合,得到N个整合数据集;
将所述N个整合数据集进行数据清洗,得到N个清洗后的数据集;
对所述N个清洗后的数据集进行优化处理,以得到所述N个关键数据集。
可选地,所述分析单元具体用于:
确定所述每个关键数据集中每个关键数据的数据类型;
根据所述每个关键数据的数据类型确定单因素分析模型;
根据与所述每个关键数据的数据类型对应的所述单因素分析模型对所述每个关键数据进行分析,得到所述N组目标因素。
可选地,所述装置还包括:
判断单元,所述判断单元用于:
判断所述至少一个模型中每个模型的预测准确率是否达到第一预设值;
若所述至少一个模型中存在预测准确率未达到所述第一预设值的第一模型时,则对所述第一模型执行相应的调优操作,直至所述第一模型的预测准确率达到所述第一预设值。
可选地,所述装置还包括:
接收单元,用于接收目标操作指令,所述目标操作指令为目标预测主题对应的操作指令,所述目标预测主题包含于所述N个预测主题;
选择单元,用于响应所述操作指令,并根据所述操作指令从所述至少一个模型中选择第二模型;
预测单元,用于基于所述第二模型对所述目标预测主题进行预测,得到预测结果。
本申请实施例第四方面提供了一种计算机装置,其包括至少一个连接的处理器、存储器和收发器,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的操作。
本申请实施例第五方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述各方面所述的操作。
综上所述,可以看出,本申请提供的实施例中,相对于现有技术来说,首先,在训练数据的获取以及预处理的过程中不需要复杂的人工处理,其次,对N个关键数据集中的因素进行单因素分析,排除单因素分析不相关的因素,减少模型训练的时间,最后采用多种模型进行训练,得到每个预测主题对应的多个预测模型,根据不同的预测主题选择更加优秀的训练模型。本申请提供的实施例可以提高模型的准确率,减少模型训练的时间。
附图说明
图1为本申请实施例提供的模型的训练方法的流程示意图;
图2为本申请实施例提供的模型的训练装置的虚拟结构示意图;
图3为本申请实施例提供的服务器的硬件结构示意图。
具体实施方式
本申请供了一种模型的训练方法及相关设备,可以提高模型的准确率,减少模型训练的时间。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个***中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
目前来说,在训练模型的过程中,存在的问题是,现有的训练数据有限,且训练数据依赖于人工处理,在模型的优化的过程中,需要反复执行该过程,这样就会导致现有的训练数据存在获取周期长,变量有限,干扰因素多等缺陷,传统研究中一般使用统计学方法,多数是研究单一因素对研究目的影响,较少解释多因素之间的关键,另外训练好的模型需要不断的进行调试,若后期结果偏离预期,则需要扩大样本量或增加新关键词的输入,而这就需要不断反复执行获取训练数据以及通过训练数据训练模型的过程,延长整个研究实施产出周期。
首先对本申请中涉及的一些算法以及方法进行说明:
单因素分析:单因素分析是分析单一自变量对因变量的差异,最常用的统计方法包括t检验、卡方检验、方差分析等等。
多重线性回归:多重线性回归(Multiple Linear Regression,MLR)是简单线性回归的推广,研究一个因变量与多个自变量之间的依存关系。多重线性回归用回归方程描述一个因变量与多个自变量的依存关系。多重线性回归的模型为:
y=β01x1+…+βpxp+ε;
y是因变量,x1,…,xp为自变量,β0是常数项,β1,…,βp为回归系数,ε是随机误差。
人工神经网络:人工神经网络(Artificial Neural Network,ANN)是一个非线性的数据建模工具,被广泛应用于模式识别和预测等问题。由输入层和输出层、一个或多个隐藏层构成神经元,神经元之间的连接赋予相关的权重,训练学习算法在迭代过程中不断自我调整权重,从而使得预测误差最小化并给出预测精度,因而可将人工神经网络用于对预测主题的影响因素的建模,实现预测主题及其影响因素之间的关系拟合。
下面从模型的训练装置的角度对本申请实施例提供的模型的训练方法进行说明,该模型的训练装置可以为服务器也可以为服务器中的服务单元,具体不做限定。
请参阅图1,图1为本申请实施例提供的模型的训练方法的流程示意图,包括:
101、确定N个预测主题。
本实施例中,模型的训练装置可以首先确定N个预测主题,其中,N为大于或等于1的正整数。也就是说,在开始训练之前,模型的训练装置可以首先需要训练的模型的应用场景,例如预测用户去银行办理某项业务的等待时长、或预测用户超市购物买单时的等待时长或者预测用户去医院看某科室的等待时长等等应用场景,具体不做限定。
102、对N个预测主题对应的数据进行因素标注,得到N组标注因素。
本实施例中,模型的训练装置可以首先获取N个预测主题对应的数据,之后对N个预测主题对应的数据进行关键词标注,得到N组标注因素,其中,该N个预测主题与N组标注因素相对应,也就是说,一个预测主题对应一组关键因素。例如影响用户去银行办理某项业务的等待时长的因素可能包括:用户的基本信息(如性别、民族、国籍、年龄、婚姻状况以及是否是会员用户等信息)、用户需要办理的业务信息、在用户之前等待的人数、在用户之前等待的人员办理的业务类型、银行的服务人员的数量以及服务人员的效率等等因素。
103、对N组标注因素进行预处理,得到N个关键数据集。
本实施例中,模型的训练装置在得到N组标注因素之后,可以对N组标注因素进行预处理,得到N个关键数据集。具体的:
将N组标注因素进行数据整合,得到N个整合数据集;
将N个整合数据集进行数据清洗,得到N个清洗后的整合数据集;
对N个清洗后的数据集进行数据优化处理,以得到N个关键数据集。
也就是说,首先,由于在获取N个预测主题对应的数据时,可能是通过不同的路径获取得到的数据,不同路径获取的数据可能存在一些数据结构上的差异,因此需要对N组标注因素进行数据整合,也就是将多个路径中的因素合并到一起;其次,在得到N个整合数据集之后,可以对N个整合数据集进行数据清洗,数据清洗的过程一般包括:剔除、逻辑运算、格式转换、二次计算等等,剔除一般采用逻辑可查的方法,撰写逻辑判断规则:例如用户的年龄不能为负数,等待的人数不能为负数等等,将这些异常的数据筛选出来删除;逻辑运算:是指按照一定的逻辑规则,生成新的字段;二次计算:一般去银行办理业务时会给一个编号,有时会给出前面等待的人数,若没有,可以根据一定的数学计算出来,例如可以通过用户的编号与当前正在办理业务的编号计算出在用户之前办理业务的人数;最后,在对数据进行清洗之后,可以对N个清洗后的数据集进行数据优化处理,得到N个关键数据集。
需要说明的是,对N个清洗后的数据进行优化处理是可选步骤,可以判断是否需要对N个清洗后的数据进行缺失值填补、数据降维以及数据平衡,若需要,则可以执行该步骤,若N个清洗后的数据并不存在缺失值、数据量较小且数据比较平衡,则无需执行,具体不做限定。下面对缺失值填补、数据降维以及数据平衡进行说明:
在需要对N个清洗后的数据集进行缺失值填补时,可以采用多重填补法、回归填补法和/或期望最大法对N个清洗后的数据集进行缺失值填补,得到N个关键数据集,具体如下:
多重填补法:
通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。对于单调缺失的模式,有多种方法可供选择,一般连续型变量采用预测均数匹配(PMM),二分类变量采用Logistic回归,无序多分类变量采用多项Logistic回归,有序多分类采用有序Logistic回归,R采用mice函数,返回没有缺失值的数据集。
回归填补法:
基于完整的数据集,建立回归方程,对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计,具体操作如下:
1、缺失值所在的变量,作为因变量Y,其他变量作为自变量X,构建多元线性回归和逻辑回归(根据因变量的特征选取),R中采用lm和glm函数。
2、获取模型后,带入各个自变量对应的属性值,就能得到缺失值。
期望最大化法(EM):
该法的主要特征是每一次迭代由两步组成:第一步利用数据的已有信息,求缺失数据的期望值,称为E步;第二步假定缺失值被替代的基础上做出最大似然估计,称为M步;如此迭代直至收敛,并以最终缺失数据的期望值作为其估计值。该方法适用于大样本。R中采用的函数是amelia,返回没有缺失值的数据集。
需要说明的是,可以通过上述三种缺失值填补的方法综合进行填补,也可以单独选在一个进行填补,具体不做限定,只要能对N个清洗后的数据集中每个数据集的缺失值进行填补即可。
当需要对N个清洗后的数据集进行降维时,可以运用主成分分析法或者逻辑回归法进行数据降维,得到N个关键数据集,下面对主成分分析法进行说明,具体操作如下:
假设N个清洗后的数据集中每个清洗后的数据中共计含有n个变量,先做KMO(Kaiser-Meyer-Olkin)检验,得到KMO值大于0.5,说明这n个变量间具有一定的强相关性,适合做主成分分析,再做Bartlett’s球形检验,得到p,若p<0.01,说明变量间并不是相互独立的,而是具有一定的相关性,可以进一步做因子分析。
利用R中princomp函数和summary函数,得到因子载荷矩阵和主成分贡献率,得到个因子的特征根,查看因子特征根大于第二预设值(例如1)的主成分,特征根的大小代表了特征变量对整个数据集(也即每个清洗后的数据)的贡献度,由n个主成分并计算出大于第二预设值的主成分的累计贡献率。
若累计贡献率没有达到第三预设值(例如85%),则从整体数据集(N个清洗后的数据集)的累计贡献率角度出发,提取累计贡献率大于第三预设值的属性,做为数据集的主成分,此时得到的主成分是m个,一般m会大于n,此时完成高维的降维处理。
当需要对N个清洗后的数据集进行数据平衡时,可以通过SMOTE算法平衡N个清洗后的数据集中的每个数据集,R中采用ubBalance函数,函数中的type=“ubSMOTE”即可,原理是通过欧氏距离计算并人工合成新的少量类变量,添加到每个数据集中,从而达到扩充少数类变量的目的。
104、对N个关键数据集中每个关键数据集进行单因素分析,得到N组目标因素。
本实施例中,当得到N个关键数据集之后,可以分别对N个关键数据集中每个关键数据集进行单因素分析,得到N组目标目标因素,具体如下:
确定每个关键数据集中每个关键数据的数据类型;
根据每个关键数据的数据类型确定单因素分析模型;
根据与每个关键数据的数据类型对应的单因素分析模型对每个关键数据进行分析,得到N组目标因素。
也就是说,对每个关键数据集进行单因素分析,以找到与预测主题相关的因素,排除单因素分析后与预测主题不相关的因素。根据标注的关键因素的数据类型,选择合适的统计学方法和单因素分析的P值分析标注的关键因素与预测主题是否单因素相关。其中,P值可自由选择,一般统计分析时选择P值等于0.2(当然也可以是其他的数值,具体不做限定),可根据变量多少以及精确度自由选择,单因素分析后筛选出与预测主题时间相关的自变量X1,X2,X3,......,Xp(计算出的P值≤预定的P值)。
需要说明的是,根据自变量(也即标注的关键因素)的数据类型,并根据数据类型选择不同的单因素分析模型进行单因素分析,如自变量因素是连续型变量(数值类型的因素,如年龄等),用相关系数分析,如变量是分类型变量(不是数值类型的数据,如性别,只有男和女,属于2分类型变量),用T检验、秩和检验或方差分析等。
105、通过至少一个模型算法分别对N个组目标因素进行训练,得到N个预测主题分别对应的至少一个模型。
本实施例中,可以通过多重线性回归以及人工神经网络分别对N组目标因素进行训练,得到N个预测主题分别对应的至少一个模型,例如通过多重线性回归对N组目标因素进行训练,构建N个线性回归模型,通过人工神经网络对N组目标因素进行训练,构建N个人工神经网络模型,也就是说,N个预测主题中的每个预测主题都对应了至少一个模型。下面分别进行说明:
构建线性回归模型:
y=β01x1+…+βpxp+ε;
y是因变量(即预测主题),x1,…,xp为自变量(也即N组目标因素),β0是常数项,β1,…,βp为回归系数(也即自变量对预测主题在线性回归模型的影响强度),ε是随机误差。迭代执行上述公式,直至β0,β1,…,βp收敛或者达到预设的迭代次数。
构建人工神经网路:将N组目标因素利用梯度下降反向传播算法进行训练迭代,若人工神经网络的模型参数收敛或达到预设的迭代次数,则训练完成,完成构建模型。
需要说明的是,在构建完成线性回归模型以及人工神经网络之后,可以分别判断至少一个模型中每个模型的预测准确率是否达到第一预设值,若至少一个模型中存在预测准确率未达到第一预设值的第一模型时,则对第一模型进行相应的调优操作,直至第一模型的预测准确率达到第一预设阈值。也就是说,可以在模型训练时,将N组目标因素中70%的数据作为训练数据,30%的数据作为测试数据,通过训练数据构建模型,通过测试数据对模型进行测试,如果预测准确度未达到第一预设值,则重复执行步骤102至步骤105,调整标注的关键因素,纳入更多更重要的因素,比如漏掉了更为关键的因素,之后对关键因素进行预处理以及单因素分析,并训练,直至至少一个模型中所有的模型的预测准确率均达到预设值。
在一个实施例中,判断至少一个模型中的每个模型的预测准确率是否达到第一预设值包括:
判断至少一个模型中每个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数是否达到其对应的预设值;
若至少一个模型中每个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数达到其对应的预设值,则确定至少一个模型中每个模型的预测准确率达到第一预设值;
若至少一个模型中每个模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积和/或Kappa系数未达到其对应的预设值,则确定至少一个模型中存在预测准确率未达到第一预设值的第一模型。
也就是说,可以提前设置模型的准确度、灵敏度、特异度、召回率、F值、ROC曲线面积以及Kappa系数对应的各自的预设值,之后进行判断来确定至少一个模型中的每个模型的预测准确率是否达到第一预设值。
需要说明的是,在模型训练完成之后,可以根据用户的操作指令选择不同的模型,具体的:
接收目标操作指令,目标操作指令为目标预测主题对应的操作指令,目标预测主题包含于N个预测主题;
响应操作指令,并根据操作指令从至少一个模型中选择第二模型;
基于第二模型对目标预测主题进行预测,得到预测结果。
由于在训练时,训练得到了N个预测主题对应的至少一个模型,也就是说,每个主题都会对应至少一个模型,即可以根据用户的选择来确定模型,以完成目标预测主题的预测,得到预测结果。
此处具体不限定目标操作指令的操作方式,例如文字操作、声音操作或手势操作等等。
综上所述,可以看出,本申请提供的实施例中,相对于现有技术来说,首先,在训练数据的获取以及预处理的过程中不需要复杂的人工处理,其次,对N个关键数据集中的因素进行单因素分析,排除单因素分析不相关的因素,减少模型训练的时间,最后采用多种模型进行训练,得到每个预测主题对应的多个预测模型,根据不同的预测主题选择更加优秀的训练模型。本申请提供的实施例可以提高模型的准确率,减少模型训练的时间。
上面从模型的训练方法的角度对本申请实施例进行描述,下面从模型的训练装置的角度对本申请实施例进行描述。
请参阅图2,图2为本申请实施例中模型的训练装置的虚拟结构示意图,该模型的训练装置包括:
确定单元201,用于确定N个预测主题,其中,N为大于或等于1的正整数;
标注单元202,用于对所述N个预测主题对应的数据进行因素标注,得到N组标注因素,所述N个预测主题与所述N组标注因素相对应;
预处理单元203,用于对所述N组标注因素进行预处理,得到所述N个关键数据集;
分析单元204,用于对所述N个关键数据集中每个关键数据集进行单因素分析,得到N组目标因素,所述N组目标因素与所述N个预测主题具有关联关系;
训练单元205,用于通过至少一个模型算法分别对所述N组目标因素进行训练,得到所述N个预测主题分别对应的至少一个模型。
可选地,所述预处理单元203具体用于:
将所述N组标注因素进行数据整合,得到N个整合数据集;
将所述N个整合数据集进行数据清洗,得到N个清洗后的数据集;
对所述N个清洗后的数据集进行优化处理,以得到所述N个关键数据集。
可选地,所述分析单元204具体用于:
确定所述每个关键数据集中每个关键数据的数据类型;
根据所述每个关键数据的数据类型确定单因素分析模型;
根据与所述每个关键数据的数据类型对应的所述单因素分析模型对所述每个关键数据进行分析,得到所述N组目标因素。
可选地,所述装置还包括:
判断单元206,所述判断单元206用于:
判断所述至少一个模型中每个模型的预测准确率是否达到第一预设值;
若所述至少一个模型中存在预测准确率未达到所述第一预设值的第一模型时,则对所述第一模型执行相应的调优操作,直至所述第一模型的预测准确率达到所述第一预设值。
可选地,所述装置还包括:
接收单元207,用于接收目标操作指令,所述目标操作指令为目标预测主题对应的操作指令,所述目标预测主题包含于所述N个预测主题;
选择单元208,用于响应所述操作指令,并根据所述操作指令从所述至少一个模型中选择第二模型;
预测单元209,用于基于所述第二模型对所述目标预测主题进行预测,得到预测结果。
综上所述,可以看出,本申请提供的实施例中,相对于现有技术来说,首先,在训练数据的获取以及预处理的过程中不需要复杂的人工处理,其次,对N个关键数据集中的因素进行单因素分析,排除单因素分析不相关的因素,减少模型训练的时间,最后采用多种模型进行训练,得到每个预测主题对应的多个预测模型,根据不同的预测主题选择更加优秀的训练模型。本申请提供的实施例可以提高模型的准确率,减少模型训练的时间。
上面从模块化功能实体的角度对本申请实施例中的模型的训练装置进行了描述,下面从硬件处理的角度分别对本申请实施例中的服务器进行描述。
图3是本发明实施例提供的一种服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作***341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由模型的训练装置所执行的步骤可以基于该图3所示的服务器结构。
本申请实施例还提供了一种计算机存储介质,其上存储有程序,该程序被处理器执行时实现所述模型的训练方法。
本申请实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述模型的训练方法。
本申请实施例还提供了一种终端设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述所述模型的训练方法的步骤。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行上述所述模型的训练方法的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种模型的训练方法,其特征在于,包括:
确定N个预测主题,其中,N为大于或等于1的正整数;
对所述N个预测主题对应的数据进行因素标注,得到N组标注因素,所述N个预测主题与所述N组标注因素相对应;
对所述N组标注因素进行预处理,得到所述N个关键数据集;
对所述N个关键数据集中每个关键数据集进行单因素分析,得到N组目标因素,所述N组目标因素与所述N个预测主题具有关联关系;
通过至少一个模型算法分别对所述N组目标因素进行训练,得到所述N个预测主题分别对应的至少一个模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述N组标注因素进行预处理,得到N组目标因素,所述N组目标因素与所述N个预测主题具有关联关系包括:
将所述N组标注因素进行数据整合,得到N个整合数据集;
将所述N个整合数据集进行数据清洗,得到N个清洗后的数据集;
对所述N个清洗后的数据集进行优化处理,以得到所述N个关键数据集。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述N个关键数据集中每个关键数据集进行单因素分析,得到所述N组目标因素包括:
确定所述每个关键数据集中每个关键数据的数据类型;
根据所述每个关键数据的数据类型确定单因素分析模型;
根据与所述每个关键数据的数据类型对应的所述单因素分析模型对所述每个关键数据进行分析,得到所述N组目标因素。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
判断所述至少一个模型中每个模型的预测准确率是否达到第一预设值;
若所述至少一个模型中存在预测准确率未达到所述第一预设值的第一模型时,则对所述第一模型执行相应的调优操作,直至所述第一模型的预测准确率达到所述第一预设值。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
接收目标操作指令,所述目标操作指令为目标预测主题对应的操作指令,所述目标预测主题包含于所述N个预测主题;
响应所述操作指令,并根据所述操作指令从所述至少一个模型中选择第二模型;
基于所述第二模型对所述目标预测主题进行预测,得到预测结果。
6.一种模型的训练装置,其特征在于,包括:
确定单元,用于确定N个预测主题,其中,N为大于或等于1的正整数;
标注单元,用于对所述N个预测主题对应的数据进行因素标注,得到N组标注因素,所述N个预测主题与所述N组标注因素相对应;
预处理单元,用于对所述N组标注因素进行预处理,得到所述N个关键数据集;
分析单元,用于对所述N个关键数据集中每个关键数据集进行单因素分析,得到N组目标因素,所述N组目标因素与所述N个预测主题具有关联关系;
训练单元,用于通过至少一个模型算法分别对所述N组目标因素进行训练,得到所述N个预测主题分别对应的至少一个模型。
7.根据权利要求6所述的装置,其特征在于,所述预处理单元具体用于:
将所述N组标注因素进行数据整合,得到N个整合数据集;
将所述N个整合数据集进行数据清洗,得到N个清洗后的数据集;
对所述N个清洗后的数据集进行优化处理,以得到所述N个关键数据集。
8.根据权利要求6或7所述的装置,其特征在于,所述分析单元具体用于:
确定所述每个关键数据集中每个关键数据的数据类型;
根据所述每个关键数据的数据类型确定单因素分析模型;
根据与所述每个关键数据的数据类型对应的所述单因素分析模型对所述每个关键数据进行分析,得到所述N组目标因素。
9.一种计算机装置,其特征在于,所述装置包括:
至少一个处理器、存储器和收发器;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-5中任一项所述的方法的步骤。
10.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5中任一所述的方法的步骤。
CN201910728772.XA 2019-08-07 2019-08-07 一种模型的训练方法及相关设备 Pending CN110414627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910728772.XA CN110414627A (zh) 2019-08-07 2019-08-07 一种模型的训练方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910728772.XA CN110414627A (zh) 2019-08-07 2019-08-07 一种模型的训练方法及相关设备

Publications (1)

Publication Number Publication Date
CN110414627A true CN110414627A (zh) 2019-11-05

Family

ID=68366496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910728772.XA Pending CN110414627A (zh) 2019-08-07 2019-08-07 一种模型的训练方法及相关设备

Country Status (1)

Country Link
CN (1) CN110414627A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242182A (zh) * 2020-01-03 2020-06-05 联想(北京)有限公司 数据处理方法、装置及电子设备
CN111613289A (zh) * 2020-05-07 2020-09-01 浙江大学医学院附属第一医院 个体化药物剂量预测方法、装置、电子设备及存储介质
CN112365384A (zh) * 2021-01-14 2021-02-12 北京新唐思创教育科技有限公司 目标事件结果指标权重、影响因素值确定方法及相关装置
CN112529450A (zh) * 2020-12-18 2021-03-19 未鲲(上海)科技服务有限公司 指标分析方法、装置、设备及可读存储介质
CN112686291A (zh) * 2020-12-24 2021-04-20 深圳力维智联技术有限公司 水质的预测方法、装置、***及计算机可读存储介质
WO2021135546A1 (zh) * 2020-07-17 2021-07-08 平安科技(深圳)有限公司 深度神经网络的解释方法、装置、终端及存储介质
CN118051654A (zh) * 2024-04-15 2024-05-17 北京嘉和海森健康科技有限公司 一种数据分析方法、装置、电子设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650920A (zh) * 2017-02-19 2017-05-10 郑州大学 一种基于优化极限学习机的预测模型
CN106897566A (zh) * 2017-02-28 2017-06-27 北京积水潭医院 一种风险预估模型的构建方法及装置
CN107704495A (zh) * 2017-08-25 2018-02-16 平安科技(深圳)有限公司 主题分类器的训练方法、装置及计算机可读存储介质
CN108564237A (zh) * 2017-12-13 2018-09-21 ***股份有限公司 一种容量评估模型建立方法、容量评估方法及装置
CN109190110A (zh) * 2018-08-02 2019-01-11 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、***及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650920A (zh) * 2017-02-19 2017-05-10 郑州大学 一种基于优化极限学习机的预测模型
CN106897566A (zh) * 2017-02-28 2017-06-27 北京积水潭医院 一种风险预估模型的构建方法及装置
CN107704495A (zh) * 2017-08-25 2018-02-16 平安科技(深圳)有限公司 主题分类器的训练方法、装置及计算机可读存储介质
CN108564237A (zh) * 2017-12-13 2018-09-21 ***股份有限公司 一种容量评估模型建立方法、容量评估方法及装置
CN109190110A (zh) * 2018-08-02 2019-01-11 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、***及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋万清 等: "《数据挖掘》", 31 January 2019, 中国铁道出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242182A (zh) * 2020-01-03 2020-06-05 联想(北京)有限公司 数据处理方法、装置及电子设备
CN111613289A (zh) * 2020-05-07 2020-09-01 浙江大学医学院附属第一医院 个体化药物剂量预测方法、装置、电子设备及存储介质
CN111613289B (zh) * 2020-05-07 2023-04-28 浙江大学医学院附属第一医院 个体化药物剂量预测方法、装置、电子设备及存储介质
WO2021135546A1 (zh) * 2020-07-17 2021-07-08 平安科技(深圳)有限公司 深度神经网络的解释方法、装置、终端及存储介质
CN112529450A (zh) * 2020-12-18 2021-03-19 未鲲(上海)科技服务有限公司 指标分析方法、装置、设备及可读存储介质
CN112686291A (zh) * 2020-12-24 2021-04-20 深圳力维智联技术有限公司 水质的预测方法、装置、***及计算机可读存储介质
CN112365384A (zh) * 2021-01-14 2021-02-12 北京新唐思创教育科技有限公司 目标事件结果指标权重、影响因素值确定方法及相关装置
CN118051654A (zh) * 2024-04-15 2024-05-17 北京嘉和海森健康科技有限公司 一种数据分析方法、装置、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN110414627A (zh) 一种模型的训练方法及相关设备
Xiao et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction
Huang et al. Forecasting container throughput of Qingdao port with a hybrid model
Jun et al. Modeling a combined forecast algorithm based on sequence patterns and near characteristics: An application for tourism demand forecasting
CN110008259A (zh) 可视化数据分析的方法及终端设备
WO2019017983A1 (en) METHOD AND SYSTEM FOR AUTOMATED CONSTRUCTION, VALIDATION AND SELECTION OF BEST WORKING MODELS
CN110428015A (zh) 一种模型的训练方法及相关设备
CN111612528A (zh) 用户分类模型的确定方法、装置、设备及存储介质
CN110457369A (zh) 一种模型的训练方法及相关设备
WO2022083624A1 (zh) 一种模型的获取方法及设备
CN112036483B (zh) 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质
Ren et al. AI-based fashion sales forecasting methods in big data era
Liu et al. A multi-objective model for discovering high-quality knowledge based on data quality and prior knowledge
CN111143685A (zh) 一种推荐***的构建方法及装置
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
Nuñez-Piña et al. Modeling of throughput in production lines using response surface methodology and artificial neural networks
Soliman et al. A hybrid analytical hierarchical process and deep neural networks approach for classifying breast cancer
Hodashinsky Methods for improving the efficiency of swarm optimization algorithms. A survey
Rodríguez-Rueda et al. Origin–Destination matrix estimation and prediction from socioeconomic variables using automatic feature selection procedure-based machine learning model
CN114820199A (zh) 金融衍生品价格的预测方法、预测装置、存储介质和设备
Ghimire et al. Machine learning-based prediction models for budget forecast in capital construction
Wu Evaluation model of product shape design scheme based on fuzzy genetic algorithm mining spatial association rules
Chakrapani et al. Predicting performance analysis of system configurations to contrast feature selection methods
Maknickiene et al. Investigation of Prediction Capabilities using RNN Ensembles.
CN113988464B (zh) 基于图神经网络的网络链路属性关系预测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105

RJ01 Rejection of invention patent application after publication