CN111950706A - 基于人工智能的数据处理方法、装置、计算机设备及介质 - Google Patents

基于人工智能的数据处理方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN111950706A
CN111950706A CN202010798027.5A CN202010798027A CN111950706A CN 111950706 A CN111950706 A CN 111950706A CN 202010798027 A CN202010798027 A CN 202010798027A CN 111950706 A CN111950706 A CN 111950706A
Authority
CN
China
Prior art keywords
fitting
data
sample set
training sample
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010798027.5A
Other languages
English (en)
Inventor
张巧丽
林荣吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010798027.5A priority Critical patent/CN111950706A/zh
Publication of CN111950706A publication Critical patent/CN111950706A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种基于人工智能的数据处理方法、装置、计算机设备及介质,包括:采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据,并根据多个分箱数据构建训练样本集;采用预设的多个拟合函数对训练样本集进行拟合计算得到每个拟合函数对应的拟合误差,并选取最小的拟合误差对应的拟合函数为目标拟合函数;切分训练样本集得到多个子训练样本集,采用目标拟合函数对多个子训练样本集进行拟合计算得到多个第一拟合参数;根据多个第一拟合参数计算测试样本集的多个第二拟合参数;根据多个第二拟合参数及目标拟合函数所述测试样本集的目标变量。本发明能够将原始数据处理为稳定的数据,且保留了数据的多样性。

Description

基于人工智能的数据处理方法、装置、计算机设备及介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的数据处理方法、装置、计算机设备及介质。
背景技术
在训练集和预测集存在较长时间间隔的模型预测场景中,例如,在保险代理人留存预测场景中,训练集和预测集的时间间隔可长达一年,数据的分布和模型的预测能力会随着时间发生一定的波动,此类不稳定数据的存在导致模型预测风险加大。
发明人在实现本发明的过程中发现,现有技术中为了降低模型预测的风险,利用特征选择的方式剔除不稳定的数据,或者信息平滑化处理,虽然能够降低模型的预测风险,但由于剔除的这些不稳定的数据中仍存在有利于模型预测的信息,因此,损失了信息的多样性,导致模型的预测精度也随之降低。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的数据处理方法、装置、计算机设备及介质,能够将原始数据处理为稳定的数据,且保留了数据的多样性。
本发明第一方面提供一种基于人工智能的数据处理方法,所述方法包括:
采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据,并根据所述多个分箱数据构建训练样本集;
采用预设的多个拟合函数对所述训练样本集进行拟合计算得到每个拟合函数对应的拟合误差,并选取最小的拟合误差对应的拟合函数为目标拟合函数;
切分所述训练样本集得到多个子训练样本集,采用所述目标拟合函数对所述多个子训练样本集进行拟合计算得到多个第一拟合参数;
根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数;
根据所述多个第二拟合参数及所述目标拟合函数计算所述测试样本集的目标变量。
根据本发明的一个可选的实施例,所述采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据包括:
创建第一滑动窗口;
采用所述第一滑动窗口在所述原始数据中进行无重叠滑动,将每次滑动时所述第一滑动窗口对应的原始数据放入一个分箱中,得到多个分箱数据。
根据本发明的一个可选的实施例,所述根据所述多个分箱数据构建训练样本集包括:
计算每一个分箱数据中的多个指标变量的第一平均值及多个目标变量的第二平均值;
将每一个分箱数据对应的第一平均值及第二平均值作为一个训练样本;
基于所述多个分箱数据对应的训练样本构建训练样本集。
根据本发明的一个可选的实施例,所述根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数包括:
将每个第一拟合参数按照时间顺序进行排序;
根据排序后的第一拟合参数计算参数拟合函数;
根据所述参数拟合函数及所述测试样本集的采集时间计算第二拟合参数。
根据本发明的一个可选的实施例,所述方法还包括:
计算所述每个子训练样本集中空值样本占正样本的第一比例;
将所述多个第一比例按照时间顺序进行排序,并根据排序后的多个第一比例计算比例拟合函数;
根据所述比例拟合函数及所述测试样本集的采集时间计算第二比例;
根据所述第二比例确定所述测试样本集中正样本中的空值样本的数量。
根据本发明的一个可选的实施例,在所述根据所述多个第二拟合参数计算所述测试样本集的目标变量之后,所述方法还包括:
基于所述训练样本集训练机器学习模型;
基于所述测试样本集的目标变量计算所述机器学习模型的风险损失值;
判断所述风险损失值是否大于预设损失阈值;
当确定所述风险损失值大于所述预设损失阈值时,采用第二等频分箱模型对所述原始数据进行分箱处理得到多个分箱数据,并重复上述过程直至风险损失值小于所述预设损失阈值,得到机器学习模型。
根据本发明的一个可选的实施例,在所述采用等频分箱模型对原始数据进行分箱处理之前,所述方法还包括:
对所述原始数据进行排序并获取排序在预设第一分位的第一数据及排序在预设第二分位的第二数据;
使用所述第一数据更新所述预设第一分位之前的原始数据,及使用所述第二数据更新所述预设第二分位之后的原始数据,得到更新数据;
获取所述更新数据中的最小数据,并使用所述最小数据对所述更新数据中的每一个数据进行数据平移,得到目标数据。
本发明的第二方面提供一种基于人工智能的数据处理装置,所述装置包括:
分箱处理模块,用于采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据,并根据所述多个分箱数据构建训练样本集;
第一拟合模块,用于采用预设的多个拟合函数对所述训练样本集进行拟合计算得到每个拟合函数对应的拟合误差,并选取最小的拟合误差对应的拟合函数为目标拟合函数;
第二拟合模块,用于切分所述训练样本集得到多个子训练样本集,采用所述目标拟合函数对所述多个子训练样本集进行拟合计算得到多个第一拟合参数;
参数计算模块,用于根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数;
第三拟合模块,用于根据所述多个第二拟合参数及所述目标拟合函数计算所述测试样本集的目标变量。
本发明的第三方面提供一种计算机设备,所述计算机设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的基于人工智能的数据处理方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能的数据处理方法。
综上所述,本发明所述的基于人工智能的数据处理方法、装置、计算机设备及介质,通过对原始数据进行分箱处理,使得每个分箱数据能够具有相同的比重,从而使得基于分箱数据构建的训练样本集的分布是均匀的;通过对训练样本集进行整体拟合,从多个拟合函数中选取出具有最佳拟合效果的拟合函数,再通过具有最佳效果的拟合函数对各个子训练样本集进行拟合时,也能具有较佳的拟合效果,从而得到能够拟合出测试样本集的目标变量的拟合参数,利用了指标变量的变化趋势,使得测试样本集变换后的指标变量与目标变量之间的关系在跨时间上更加稳定;通过指标变换解决指标的不稳定问题而非删除指标,保留了指标集的丰富度,使得基于变换后的指标变量训练得到的机器学习模型的预测风险降低,性能稳定。
附图说明
图1是本发明实施例一提供的基于人工智能的数据处理方法的流程图。
图2是本发明实施例二提供的基于人工智能的数据处理装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
基于人工智能的数据处理方法由计算机设备执行,相应的,基于人工智能的数据处理装置运行于计算机设备中。
图1是本发明实施例一提供的基于人工智能的数据处理方法的流程图。所述的基于人工智能的数据处理方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据,并根据所述多个分箱数据构建训练样本集。
其中,所述等频分箱模型用以保证每个分箱中的数据的数量相同,从而保证每个分箱中的数据具有相同的比重。基于多个分箱数据构建训练样本集,并以此预测出测试样本集的目标变量,并基于测试样本集的目标变量训练机器学习模型,不仅能够保留测试样本集中的信息的多样性,还能保证测试样本集与训练样本集之间的稳定性,降低模型的预测风险的同时提高模型的预测精度。
在一个可选的实施例中,所述采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据包括:
创建第一滑动窗口;
采用所述第一滑动窗口在所述原始数据中进行无重叠滑动,将每次滑动时所述第一滑动窗口对应的原始数据放入一个分箱中,得到多个分箱数据。
该可选的实施例中,所述第一滑动窗口的大小为N*N,N可以为1000。设置第一滑动窗口能够确保每个分箱中的数据是等量的,从而确保后续进行函数拟合时,每个分箱中的数据具有相同的比重。
需要说明的是,若是原始数据已经经过了排序处理,则计算机设备对原始数据进行分箱处理时,不需要进行排序;若是原始数据未经过排序处理,则计算机设备首先需对原始数据按照从大到小或者从小到大的顺序进行排序,经过排序后的原始数据再进行分箱处理时,能够有效的保证分箱数据的变化趋势具有一致性。
在一个可选的实施例中,所述根据所述多个分箱数据构建训练样本集包括:
计算每一个分箱数据中的多个指标变量的第一平均值及多个目标变量的第二平均值;
将每一个分箱数据对应的第一平均值及第二平均值作为一个训练样本;
基于所述多个分箱数据对应的训练样本构建训练样本集。
其中,所述指标变量是指原始数据本身,例如,点击率,浏览率等。所述目标变量是指基于所述原始数据得到的一些考核数据,例如,留存率,业绩高低等。指标变量与目标变量之间具有线性相关性。
示例性的,假设有60万个原始数据,计算机设备将这60万个原始数据进行分箱处理得到1万个分箱,其中,每个分箱中包括60个原始数据。针对任意一个分箱数据,计算分箱数据中的60个原始数据的指标变量的第一平均值及目标变量的第二平均值,则将所述第一平均值及所述第二平均值作为一个训练样本,从而可以构建出包括1万个训练样本的训练样本集。
S12,采用预设的多个拟合函数对所述训练样本集进行拟合计算得到每个拟合函数对应的拟合误差,并选取最小的拟合误差对应的拟合函数为目标拟合函数。
所述计算机设备中预先设置有多个不同类型的拟合函数,例如,第一类拟合函数y=a*x+b,第二类拟合函数y=ax^2+b,第三类拟合函数y=a*log(x)+b。
针对每一个预设的拟合函数,采用最小二乘法对所述训练样本集进行拟合,并计算得到拟合误差。其中,所述拟合误差可以包括,但不限于:平均绝对差,均方根差等。
拟合误差越大,表明对应的拟合函数不能对所述训练样本集进行较好的拟合,那么使用该拟合函数拟合测试样本集时,得到的误差也会较大;拟合误差越小,表明对应的拟合函数能够对所述训练样本集进行较好的拟合,从而使用所述拟合函数拟合测试样本集时,得到的误差也会较小。
S13,切分所述训练样本集得到多个子训练样本集,采用所述目标拟合函数对所述多个子训练样本集进行拟合计算得到多个第一拟合参数。
本实施例中,可以按照所述训练样本集的采集时间来进行切分,例如,按照训练样本集的采集月份来对所述训练样本集进行切分得到多个子训练样本集。示例性的,假设采集2020年1月-6月的训练样本集,将1月份的训练样本集作为第一个子训练样本集,将2月份的训练样本集作为第二个子训练样本集,以此内推,将6月份的训练样本集作为第六个子训练样本集。
先对所述训练样本集进行整体拟合,从多个拟合函数中选取出拟合效果最佳的拟合函数,再使用拟合效果最佳的拟合函数对每一个子训练样本集进行拟合,能够确保对每一个子训练样本集的拟合效果,且确保子训练样本集与整体训练样本集具有相同的变化趋势。
示例性的,假设选取的拟合函数为y=a*log(x)+b,则采用最小二乘法对每一个子训练样本集进行拟合,对应得到第一拟合参数a和b。假如有6个子训练样本集,则能够得到6个第一拟合参数a及6个第一拟合参数b。
S14,根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数。
根据多个子训练样本集对应的第一拟合参数,可确定多个第一拟合参数的变化趋势,所述变化趋势可以单调递增,单调递减,周期性变化,跳跃性变化等,根据多个第一拟合参数的变化趋势能够预测出测试样本集的多个第二拟合参数。
在一个可选的实施例中,所述根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数包括:
将每个第一拟合参数按照时间顺序进行排序;
根据排序后的第一拟合参数计算参数拟合函数;
根据所述参数拟合函数及所述测试样本集的采集时间计算第二拟合参数。
示例性的,假设按照月份将训练样本集切分为6个子训练样本集,每个训练样本集的第一比例及第一拟合参数如下所示:
第1月份的子训练样本集对应第一比例C1,第一拟合参数A1和B1;
第2月份的子训练样本集对应第一比例C2,第一拟合参数A2和B2;
第3月份的子训练样本集对应第一比例C3,第一拟合参数A3和B3;
第4月份的子训练样本集对应第一比例C4,第一拟合参数A4和B4;
第5月份的子训练样本集对应第一比例C5,第一拟合参数A5和B5;
第6月份的子训练样本集对应第一比例C6,第一拟合参数A6和B6。
将月份作为X,将月份对应的第一比例作为Y,可以得到6个点(1,C1)、(2,C2)、(3,C3)、(4,C4)、(5,C5)、(6,C6),采用最小二乘算法根据这6个点拟合出比例拟合函数,从而将月份7输入所述比例拟合函数中得到比例C7,作为测试样本集的第二比例;同理,以1-6月份的第一拟合参数A1-A6拟合出参数拟合函数,从而根据参数拟合函数拟合出7月份的参数A7,作为测试样本集的第二拟合参数;以1-6月份的第一拟合参数B1-B6拟合出参数拟合函数,从而根据参数拟合函数拟合出7月份的参数B7,作为测试样本集的另一个第二拟合参数。
S15,根据所述多个第二拟合参数及所述目标拟合函数计算所述测试样本集的目标变量。
在计算得到测试样本集对应的多个第二拟合参数及测试样本集的指标变量,即可采用所述目标拟合函数根据所述多个第二拟合参数及测试样本集的指标变量计算得到测试样本集的目标变量,从而实现了根据将测试样本集这一未来需要进行预测的样本进行了空间映射,找到了稳定性较强的新的变量(目标变量)。
在一个可选的实施例中,所述方法还包括:
计算所述每个子训练样本集中空值样本占正样本的第一比例;
将所述多个第一比例按照时间顺序进行排序,并根据排序后的多个第一比例计算比例拟合函数;
根据所述比例拟合函数及所述测试样本集的采集时间计算第二比例;
根据所述第二比例确定所述测试样本集中正样本中的空值样本的数量。
将所述子训练样本集中目标变量为第一变量的训练样本作为正样本,将所述子训练样本集中目标变量为第二变量的训练样本作为负样本。例如,目标变量为高业绩或者低业绩,将高业绩对应的训练样本作为正样本,将低业绩对应的训练样本作为负样本。由于正样本中某些指标变量的值是缺省的,对于缺省的值,由于无法进行空间映射,因此,需要计算空值样本占正样本的比例,以此来确定每个子训练样本集中空值样本的比例的变化趋势,从而预测出测试样本集中空值样本的比例,进而预测出测试样本集中正样本中空值样本的数量。
在一个可选的实施例中,在所述根据所述多个第二拟合参数计算所述测试样本集的目标变量之后,所述方法还包括:
基于所述训练样本集训练机器学习模型;
基于所述测试样本集的目标变量计算所述机器学习模型的风险损失值;
判断所述风险损失值是否大于预设损失阈值;
当确定所述风险损失值大于所述预设损失阈值时,采用第二等频分箱模型对所述原始数据进行分箱处理得到多个分箱数据,并重复上述过程直至风险损失值小于所述预设损失阈值,得到机器学习模型。
该可选的实施例中,先初始化深度神经网络(例如,CNN)框架,再将所述训练样本集作为入参输入初始化的深度神经网络中进行训练并输出预测值。深度神经网络包括多个网络层,所述多个网络层中包括风险损失层,所述风险损失层可以采用softmax函数作为损失函数。通过softmax函数计算深度神经网络输出的预测值与所述目标变量之间的差值得分风险损失值。
其中,采用第二等频分箱模型对所述原始数据进行分箱处理得到多个分箱数据的过程包括创建第二滑动窗口,并采用所述第二滑动窗口在所述原始数据中进行无重叠滑动,将每次滑动时第二滑动窗口对应的原始数据放入一个分箱中,得到多个分箱数据。
其中,所述第一滑动窗口的宽度大于所述第二滑动窗口的宽度,通过对所述原始数据进行不断的分箱,并拟合出最佳的测试样本集的目标变量,使得训练得到的机器学习模型在训练样本集上表现性能较佳,在测试样本集上的性能也表现较佳,降低了机器学习模型的预测风险,提高了机器学习模型的性能。所述机器学习模型可以为低业绩预测模型,或者代理人留存预测模型。
在一个可选的实施例中,在所述采用等频分箱模型对原始数据进行分箱处理之前,所述方法还包括:
对所述原始数据进行排序并获取排序在预设第一分位的第一数据及排序在预设第二分位的第二数据;
使用所述第一数据更新所述预设第一分位之前的原始数据,及使用所述第二数据更新所述预设第二分位之后的原始数据,得到更新数据;
获取所述更新数据中的最小数据,并使用所述最小数据对所述更新数据中的每一个数据进行数据平移,得到目标数据。
其中,对所述原始数据进行排序的方式可以按照从大到小进行排序,也可以按照从小到大进行排序。所述预设第一分位与所述预设第二分位之和为1,示例性的,所述预设第一分位可以为0.1%,所述预设第二分位可以为99.9%。
将预设第一分位之前的原始数据使用所述第一数据进行替换或者覆盖以实现对所述预设第一分位之前的原始数据的更新,将预设第二分位之后的原始数据使用所述第二数据进行替换或者覆盖以实现对所述预设第一分位之后的原始数据的更新,从而实现对整个原始数据的清洗,剔除掉原始数据中的极大数据及极小数据,减少极大数据及极小数据对原始数据的整体稳定性分布。
使用所述最小数据对所述更新数据中的每一个数据进行数据平移是指将每一个数据与最小数据相减,以此能够确保目标数据中的所有数据均为非负数据,从而确保拟合时的单调性。
应当理解的是,在对原始数据进行数据清洗和平移处理得到目标数据之后,采用所述等频分箱模型对所述目标数据进行分箱处理得到多个分箱数据。
综上所述,本发明通过对原始数据进行分箱处理,使得每个分箱数据能够具有相同的比重,从而使得基于分箱数据构建的训练样本集的分布是均匀的;通过对训练样本集进行整体拟合,从多个拟合函数中选取出具有最佳拟合效果的拟合函数,再通过具有最佳效果的拟合函数对各个子训练样本集进行拟合时,也能具有较佳的拟合效果,从而得到能够拟合出测试样本集的目标变量的拟合参数,利用了指标变量的变化趋势,使得测试样本集变换后的指标变量与目标变量之间的关系在跨时间上更加稳定;通过指标变换解决指标的不稳定问题而非删除指标,保留了指标集的丰富度;基于变换后的指标变量训练得到的机器学习模型的预测风险降低,性能稳定。从而将机器学习模型应用在实际业务中时,具有较高的准确率。
需要强调的是,为进一步保证上述机器学习模型的私密性和安全性,上述机器学习模型可存储于区块链的节点中。
图2是本发明实施例二提供的基于人工智能的数据处理装置的结构图。
在一些实施例中,所述的基于人工智能的数据处理装置20可以包括多个由计算机程序段所组成的功能模块。所述的基于人工智能的数据处理装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于人工智能的数据处理的功能。
本实施例中,所述的基于人工智能的数据处理装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:分箱处理模块201、第一拟合模块202、第二拟合模块203、参数计算模块204、第三拟合模块205、空值计算模块206、模型训练模块207及数据清洗模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述分箱处理模块201,用于采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据,并根据所述多个分箱数据构建训练样本集。
其中,所述等频分箱模型用以保证每个分箱中的数据的数量相同,从而保证每个分箱中的数据具有相同的比重。基于多个分箱数据构建训练样本集,并以此预测出测试样本集的目标变量,并基于测试样本集的目标变量训练机器学习模型,不仅能够保留测试样本集中的信息的多样性,还能保证测试样本集与训练样本集之间的稳定性,降低模型的预测风险的同时提高模型的预测精度。
在一个可选的实施例中,所述分箱处理模块201采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据包括:
创建第一滑动窗口;
采用所述第一滑动窗口在所述原始数据中进行无重叠滑动,将每次滑动时所述第一滑动窗口对应的原始数据放入一个分箱中,得到多个分箱数据。
该可选的实施例中,所述第一滑动窗口的大小为N*N,N可以为1000。设置第一滑动窗口能够确保每个分箱中的数据是等量的,从而确保后续进行函数拟合时,每个分箱中的数据具有相同的比重。
需要说明的是,若是原始数据已经经过了排序处理,则计算机设备对原始数据进行分箱处理时,不需要进行排序;若是原始数据未经过排序处理,则计算机设备首先需对原始数据按照从大到小或者从小到大的顺序进行排序,经过排序后的原始数据再进行分箱处理时,能够有效的保证分箱数据的变化趋势具有一致性。
在一个可选的实施例中,所述分箱处理模块201根据所述多个分箱数据构建训练样本集包括:
计算每一个分箱数据中的多个指标变量的第一平均值及多个目标变量的第二平均值;
将每一个分箱数据对应的第一平均值及第二平均值作为一个训练样本;
基于所述多个分箱数据对应的训练样本构建训练样本集。
其中,所述指标变量是指原始数据本身,例如,点击率,浏览率等。所述目标变量是指基于所述原始数据得到的一些考核数据,例如,留存率,业绩高低等。指标变量与目标变量之间具有线性相关性。
示例性的,假设有60万个原始数据,计算机设备将这60万个原始数据进行分箱处理得到1万个分箱,其中,每个分箱中包括60个原始数据。针对任意一个分箱数据,计算分箱数据中的60个原始数据的指标变量的第一平均值及目标变量的第二平均值,则将所述第一平均值及所述第二平均值作为一个训练样本,从而可以构建出包括1万个训练样本的训练样本集。
所述第一拟合模块202,用于采用预设的多个拟合函数对所述训练样本集进行拟合计算得到每个拟合函数对应的拟合误差,并选取最小的拟合误差对应的拟合函数为目标拟合函数。
所述计算机设备中预先设置有多个不同类型的拟合函数,例如,第一类拟合函数y=a*x+b,第二类拟合函数y=ax^2+b,第三类拟合函数y=a*log(x)+b。
针对每一个预设的拟合函数,采用最小二乘法对所述训练样本集进行拟合,并计算得到拟合误差。其中,所述拟合误差可以包括,但不限于:平均绝对差,均方根差等。
拟合误差越大,表明对应的拟合函数不能对所述训练样本集进行较好的拟合,那么使用该拟合函数拟合测试样本集时,得到的误差也会较大;拟合误差越小,表明对应的拟合函数能够对所述训练样本集进行较好的拟合,从而使用所述拟合函数拟合测试样本集时,得到的误差也会较小。
所述第二拟合模块203,用于切分所述训练样本集得到多个子训练样本集,采用所述目标拟合函数对所述多个子训练样本集进行拟合计算得到多个第一拟合参数。
本实施例中,可以按照所述训练样本集的采集时间来进行切分,例如,按照训练样本集的采集月份来对所述训练样本集进行切分得到多个子训练样本集。示例性的,假设采集2020年1月-6月的训练样本集,将1月份的训练样本集作为第一个子训练样本集,将2月份的训练样本集作为第二个子训练样本集,以此内推,将6月份的训练样本集作为第六个子训练样本集。
先对所述训练样本集进行整体拟合,从多个拟合函数中选取出拟合效果最佳的拟合函数,再使用拟合效果最佳的拟合函数对每一个子训练样本集进行拟合,能够确保对每一个子训练样本集的拟合效果,且确保子训练样本集与整体训练样本集具有相同的变化趋势。
示例性的,假设选取的拟合函数为y=a*log(x)+b,则采用最小二乘法对每一个子训练样本集进行拟合,对应得到第一拟合参数a和b。假如有6个子训练样本集,则能够得到6个第一拟合参数a及6个第一拟合参数b。
所述参数计算模块204,用于根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数。
根据多个子训练样本集对应的第一拟合参数,可确定多个第一拟合参数的变化趋势,所述变化趋势可以单调递增,单调递减,周期性变化,跳跃性变化等,根据多个第一拟合参数的变化趋势能够预测出测试样本集的多个第二拟合参数。
在一个可选的实施例中,所述参数计算模块204根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数包括:
将每个第一拟合参数按照时间顺序进行排序;
根据排序后的第一拟合参数计算参数拟合函数;
根据所述参数拟合函数及所述测试样本集的采集时间计算第二拟合参数。
示例性的,假设按照月份将训练样本集切分为6个子训练样本集,每个训练样本集的第一比例及第一拟合参数如下所示:
第1月份的子训练样本集对应第一比例C1,第一拟合参数A1和B1;
第2月份的子训练样本集对应第一比例C2,第一拟合参数A2和B2;
第3月份的子训练样本集对应第一比例C3,第一拟合参数A3和B3;
第4月份的子训练样本集对应第一比例C4,第一拟合参数A4和B4;
第5月份的子训练样本集对应第一比例C5,第一拟合参数A5和B5;
第6月份的子训练样本集对应第一比例C6,第一拟合参数A6和B6。
将月份作为X,将月份对应的第一比例作为Y,可以得到6个点(1,C1)、(2,C2)、(3,C3)、(4,C4)、(5,C5)、(6,C6),采用最小二乘算法根据这6个点拟合出比例拟合函数,从而将月份7输入所述比例拟合函数中得到比例C7,作为测试样本集的第二比例;同理,以1-6月份的第一拟合参数A1-A6拟合出参数拟合函数,从而根据参数拟合函数拟合出7月份的参数A7,作为测试样本集的第二拟合参数;以1-6月份的第一拟合参数B1-B6拟合出参数拟合函数,从而根据参数拟合函数拟合出7月份的参数B7,作为测试样本集的另一个第二拟合参数。
所述第三拟合模块205,用于根据所述多个第二拟合参数及所述目标拟合函数计算所述测试样本集的目标变量。
在计算得到测试样本集对应的多个第二拟合参数及测试样本集的指标变量,即可采用所述目标拟合函数根据所述多个第二拟合参数及测试样本集的指标变量计算得到测试样本集的目标变量,从而实现了根据将测试样本集这一未来需要进行预测的样本进行了空间映射,找到了稳定性较强的新的变量(目标变量)。
所述空值计算模块206,用于计算所述每个子训练样本集中空值样本占正样本的第一比例;将所述多个第一比例按照时间顺序进行排序,并根据排序后的多个第一比例计算比例拟合函数;根据所述比例拟合函数及所述测试样本集的采集时间计算第二比例;根据所述第二比例确定所述测试样本集中正样本中的空值样本的数量。
将所述子训练样本集中目标变量为第一变量的训练样本作为正样本,将所述子训练样本集中目标变量为第二变量的训练样本作为负样本。例如,目标变量为高业绩或者低业绩,将高业绩对应的训练样本作为正样本,将低业绩对应的训练样本作为负样本。由于正样本中某些指标变量的值是缺省的,对于缺省的值,由于无法进行空间映射,因此,需要计算空值样本占正样本的比例,以此来确定每个子训练样本集中空值样本的比例的变化趋势,从而预测出测试样本集中空值样本的比例,进而预测出测试样本集中正样本中空值样本的数量。
所述模型训练模块207,用于在所述根据所述多个第二拟合参数计算所述测试样本集的目标变量之后,训练机器学习模型。
在一个可选的实施例中,所述模型训练模块207训练机器学习模型包括:
基于所述训练样本集训练机器学习模型;
基于所述测试样本集的目标变量计算所述机器学习模型的风险损失值;
判断所述风险损失值是否大于预设损失阈值;
当确定所述风险损失值大于所述预设损失阈值时,采用第二等频分箱模型对所述原始数据进行分箱处理得到多个分箱数据,并重复上述过程直至风险损失值小于所述预设损失阈值,得到机器学习模型。
该可选的实施例中,先初始化深度神经网络(例如,CNN)框架,再将所述训练样本集作为入参输入初始化的深度神经网络中进行训练并输出预测值。深度神经网络包括多个网络层,所述多个网络层中包括风险损失层,所述风险损失层可以采用softmax函数作为损失函数。通过softmax函数计算深度神经网络输出的预测值与所述目标变量之间的差值得分风险损失值。
其中,采用第二等频分箱模型对所述原始数据进行分箱处理得到多个分箱数据的过程包括创建第二滑动窗口,并采用所述第二滑动窗口在所述原始数据中进行无重叠滑动,将每次滑动时第二滑动窗口对应的原始数据放入一个分箱中,得到多个分箱数据。
其中,所述第一滑动窗口的宽度大于所述第二滑动窗口的宽度,通过对所述原始数据进行不断的分箱,并拟合出最佳的测试样本集的目标变量,使得训练得到的机器学习模型在训练样本集上表现性能较佳,在测试样本集上的性能也表现较佳,降低了机器学习模型的预测风险,提高了机器学习模型的性能。所述机器学习模型可以为低业绩预测模型,或者代理人留存预测模型。
所述数据清洗模块208,用于在所述采用等频分箱模型对原始数据进行分箱处理之前,对所述原始数据进行清洗与平移。
在一个可选的实施例中,所述数据清洗模块208对所述原始数据进行清洗与平移包括:
对所述原始数据进行排序并获取排序在预设第一分位的第一数据及排序在预设第二分位的第二数据;
使用所述第一数据更新所述预设第一分位之前的原始数据,及使用所述第二数据更新所述预设第二分位之后的原始数据,得到更新数据;
获取所述更新数据中的最小数据,并使用所述最小数据对所述更新数据中的每一个数据进行数据平移,得到目标数据。
其中,对所述原始数据进行排序的方式可以按照从大到小进行排序,也可以按照从小到大进行排序。所述预设第一分位与所述预设第二分位之和为1,示例性的,所述预设第一分位可以为0.1%,所述预设第二分位可以为99.9%。
将预设第一分位之前的原始数据使用所述第一数据进行替换或者覆盖以实现对所述预设第一分位之前的原始数据的更新,将预设第二分位之后的原始数据使用所述第二数据进行替换或者覆盖以实现对所述预设第一分位之后的原始数据的更新,从而实现对整个原始数据的清洗,剔除掉原始数据中的极大数据及极小数据,减少极大数据及极小数据对原始数据的整体稳定性分布。
使用所述最小数据对所述更新数据中的每一个数据进行数据平移是指将每一个数据与最小数据相减,以此能够确保目标数据中的所有数据均为非负数据,从而确保拟合时的单调性。
应当理解的是,在对原始数据进行数据清洗和平移处理得到目标数据之后,采用所述等频分箱模型对所述目标数据进行分箱处理得到多个分箱数据。
综上所述,本发明通过对原始数据进行分箱处理,使得每个分箱数据能够具有相同的比重,从而使得基于分箱数据构建的训练样本集的分布是均匀的;通过对训练样本集进行整体拟合,从多个拟合函数中选取出具有最佳拟合效果的拟合函数,再通过具有最佳效果的拟合函数对各个子训练样本集进行拟合时,也能具有较佳的拟合效果,从而得到能够拟合出测试样本集的目标变量的拟合参数,利用了指标变量的变化趋势,使得测试样本集变换后的指标变量与目标变量之间的关系在跨时间上更加稳定;通过指标变换解决指标的不稳定问题而非删除指标,保留了指标集的丰富度;基于变换后的指标变量训练得到的机器学习模型的预测风险降低,性能稳定。从而将机器学习模型应用在实际业务中时,具有较高的准确率。
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的计算机设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于人工智能的数据处理方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的数据处理方法的全部或者部分步骤;或者实现基于人工智能的数据处理装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于人工智能的数据处理方法,其特征在于,所述方法包括:
采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据,并根据所述多个分箱数据构建训练样本集;
采用预设的多个拟合函数对所述训练样本集进行拟合计算得到每个拟合函数对应的拟合误差,并选取最小的拟合误差对应的拟合函数为目标拟合函数;
切分所述训练样本集得到多个子训练样本集,采用所述目标拟合函数对所述多个子训练样本集进行拟合计算得到多个第一拟合参数;
根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数;
根据所述多个第二拟合参数及所述目标拟合函数计算所述测试样本集的目标变量。
2.如权利要求1所述的基于人工智能的数据处理方法,其特征在于,所述采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据包括:
创建第一滑动窗口;
采用所述第一滑动窗口在所述原始数据中进行无重叠滑动,将每次滑动时所述第一滑动窗口对应的原始数据放入一个分箱中,得到多个分箱数据。
3.如权利要求1所述的基于人工智能的数据处理方法,其特征在于,所述根据所述多个分箱数据构建训练样本集包括:
计算每一个分箱数据中的多个指标变量的第一平均值及多个目标变量的第二平均值;
将每一个分箱数据对应的第一平均值及第二平均值作为一个训练样本;
基于所述多个分箱数据对应的训练样本构建训练样本集。
4.如权利要求1所述的基于人工智能的数据处理方法,其特征在于,所述根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数包括:
将每个第一拟合参数按照时间顺序进行排序;
根据排序后的第一拟合参数计算参数拟合函数;
根据所述参数拟合函数及所述测试样本集的采集时间计算第二拟合参数。
5.如权利要求1至4中任意一项所述的基于人工智能的数据处理方法,其特征在于,所述方法还包括:
计算所述每个子训练样本集中空值样本占正样本的第一比例;
将所述多个第一比例按照时间顺序进行排序,并根据排序后的多个第一比例计算比例拟合函数;
根据所述比例拟合函数及所述测试样本集的采集时间计算第二比例;
根据所述第二比例确定所述测试样本集中正样本中的空值样本的数量。
6.如权利要求5所述的基于人工智能的数据处理方法,其特征在于,在所述根据所述多个第二拟合参数计算所述测试样本集的目标变量之后,所述方法还包括:
基于所述训练样本集训练机器学习模型;
基于所述测试样本集的目标变量计算所述机器学习模型的风险损失值;
判断所述风险损失值是否大于预设损失阈值;
当确定所述风险损失值大于所述预设损失阈值时,采用第二等频分箱模型对所述原始数据进行分箱处理得到多个分箱数据,并重复上述过程直至风险损失值小于所述预设损失阈值,得到机器学习模型。
7.如权利要求1至4中任意一项所述的基于人工智能的数据处理方法,其特征在于,在所述采用等频分箱模型对原始数据进行分箱处理之前,所述方法还包括:
对所述原始数据进行排序并获取排序在预设第一分位的第一数据及排序在预设第二分位的第二数据;
使用所述第一数据更新所述预设第一分位之前的原始数据,及使用所述第二数据更新所述预设第二分位之后的原始数据,得到更新数据;
获取所述更新数据中的最小数据,并使用所述最小数据对所述更新数据中的每一个数据进行数据平移,得到目标数据。
8.一种基于人工智能的数据处理装置,其特征在于,所述装置包括:
分箱处理模块,用于采用第一等频分箱模型对原始数据进行分箱处理得到多个分箱数据,并根据所述多个分箱数据构建训练样本集;
第一拟合模块,用于采用预设的多个拟合函数对所述训练样本集进行拟合计算得到每个拟合函数对应的拟合误差,并选取最小的拟合误差对应的拟合函数为目标拟合函数;
第二拟合模块,用于切分所述训练样本集得到多个子训练样本集,采用所述目标拟合函数对所述多个子训练样本集进行拟合计算得到多个第一拟合参数;
参数计算模块,用于根据所述多个第一拟合参数计算测试样本集的多个第二拟合参数;
第三拟合模块,用于根据所述多个第二拟合参数及所述目标拟合函数计算所述测试样本集的目标变量。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于人工智能的数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于人工智能的数据处理方法。
CN202010798027.5A 2020-08-10 2020-08-10 基于人工智能的数据处理方法、装置、计算机设备及介质 Pending CN111950706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010798027.5A CN111950706A (zh) 2020-08-10 2020-08-10 基于人工智能的数据处理方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010798027.5A CN111950706A (zh) 2020-08-10 2020-08-10 基于人工智能的数据处理方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN111950706A true CN111950706A (zh) 2020-11-17

Family

ID=73332750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010798027.5A Pending CN111950706A (zh) 2020-08-10 2020-08-10 基于人工智能的数据处理方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN111950706A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836765A (zh) * 2021-03-01 2021-05-25 深圳前海微众银行股份有限公司 分布式学习的数据处理方法、装置、电子设备
CN113742193A (zh) * 2021-09-13 2021-12-03 上海晓途网络科技有限公司 一种数据分析方法、装置、电子设备及存储介质
CN113780583A (zh) * 2021-09-18 2021-12-10 中国平安人寿保险股份有限公司 模型训练监控方法、装置、设备及存储介质
CN116610897A (zh) * 2023-07-14 2023-08-18 矿冶科技集团有限公司 一种尾矿库泄流数据拟合方法、***、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836765A (zh) * 2021-03-01 2021-05-25 深圳前海微众银行股份有限公司 分布式学习的数据处理方法、装置、电子设备
CN112836765B (zh) * 2021-03-01 2023-12-22 深圳前海微众银行股份有限公司 分布式学习的数据处理方法、装置、电子设备
CN113742193A (zh) * 2021-09-13 2021-12-03 上海晓途网络科技有限公司 一种数据分析方法、装置、电子设备及存储介质
CN113780583A (zh) * 2021-09-18 2021-12-10 中国平安人寿保险股份有限公司 模型训练监控方法、装置、设备及存储介质
CN116610897A (zh) * 2023-07-14 2023-08-18 矿冶科技集团有限公司 一种尾矿库泄流数据拟合方法、***、设备及存储介质
CN116610897B (zh) * 2023-07-14 2023-10-17 矿冶科技集团有限公司 一种尾矿库泄流数据拟合方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
US11392843B2 (en) Utilizing a machine learning model to predict a quantity of cloud resources to allocate to a customer
CN111950706A (zh) 基于人工智能的数据处理方法、装置、计算机设备及介质
CN110245023B (zh) 分布式调度方法及装置、电子设备以及计算机存储介质
CN111950738A (zh) 机器学习模型优化效果评估方法、装置、终端及存储介质
US10719639B2 (en) Massively accelerated Bayesian machine
US10635986B2 (en) Information processing system and information processing method
CN111768096A (zh) 基于算法模型的评级方法、装置、电子设备及存储介质
CN113157379A (zh) 集群节点资源调度方法及装置
CN113282795A (zh) 数据结构图生成及更新方法、装置、电子设备及存储介质
CN111694844A (zh) 基于配置算法的企业运行数据分析方法、装置及电子设备
CN117193975A (zh) 任务调度方法、装置、设备及存储介质
CN112598135A (zh) 模型训练处理方法、装置、计算机设备及介质
CN112102011A (zh) 基于人工智能的用户等级预测方法、装置、终端及介质
CN115187134A (zh) 基于网格的配电网规划方法、装置及终端设备
CN112818028B (zh) 数据指标筛选方法、装置、计算机设备及存储介质
CN114444782A (zh) 企业资产的管理方法、装置、存储介质及计算机设备
CN117130888A (zh) 基于历史数据和机器学习的服务器自动调优方法及***
US20230267007A1 (en) System and method to simulate demand and optimize control parameters for a technology platform
US11782923B2 (en) Optimizing breakeven points for enhancing system performance
CN115796398A (zh) 基于电力物资的需求智能分析方法、***、设备及介质
CN115827179A (zh) 一种物理机设备的算力调度方法、装置、设备及存储介质
CN115271821A (zh) 网点分布处理方法、装置、计算机设备及存储介质
CN114968336A (zh) 应用灰度发布方法、装置、计算机设备及存储介质
CN113918296A (zh) 模型训练任务调度执行方法、装置、电子设备及存储介质
CN114971053A (zh) 低压台区网络线损率在线预测模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination