CN113570064A - 利用复合机器学习模型来执行预测的方法及*** - Google Patents

利用复合机器学习模型来执行预测的方法及*** Download PDF

Info

Publication number
CN113570064A
CN113570064A CN202110773264.0A CN202110773264A CN113570064A CN 113570064 A CN113570064 A CN 113570064A CN 202110773264 A CN202110773264 A CN 202110773264A CN 113570064 A CN113570064 A CN 113570064A
Authority
CN
China
Prior art keywords
features
prediction
machine learning
feature
data record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110773264.0A
Other languages
English (en)
Inventor
杨强
戴文渊
陈雨强
郭夏玮
涂威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202110773264.0A priority Critical patent/CN113570064A/zh
Publication of CN113570064A publication Critical patent/CN113570064A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了一种利用复合机器学习模型来执行预测的方法及***,其中,所述复合机器学习模型包括至少两种类型的子模型,所述方法包括:(A)获取预测数据记录;(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;(C)将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。通过这种方式,能够有效地融合多种类型的子模型来协同工作,充分发挥各个子模型的优势以取得较好的综合机器学习效果。

Description

利用复合机器学习模型来执行预测的方法及***
本申请是申请日为2017年05月05日、申请号为201710311433.2、题为“利用复合机器学习模型来执行预测的方法及***”的专利申请的分案申请。
技术领域
本发明的示例性实施例总体说来涉及人工智能领域,更具体地说,涉及一种利用复合机器学习模型来执行预测的方法及***以及一种训练复合机器学习模型的方法及***。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从海量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的训练和/或预测样本,以有助于训练出机器学习模型和/或利用训练好的机器学习模型来执行预估。
这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。通过对数据记录的属性信息进行诸如特征工程等处理,可产生包括各种特征的机器学习样本。
在实际的机器学习应用中,数据记录的属性信息在形式或含义等方面各有特点,相应地,所产生的特征也在形式或含义等方面存在各种差异,这使得单个机器学习样本中往往存在不同情况的特征。
然而,由于应用机器学习技术的场景必然会面临计算资源有限、样本数据不足、特征处理脱离应用场景等客观问题,所以现实中难以找到一种机器学习模型,使其能够在各种特征上均具有适当的表现。例如,在现有技术中,存在利用线性模型和神经网络模型来融合训练广度和训练深度的方案(请参见Google的论文“Wide&Deep Learning forRecommender Systems”),但是上述方案存在训练复杂、计算复杂度高、参数调节困难等缺陷,在工业中的应用受到很大限制。
发明内容
本发明的示例性实施例旨在克服单一机器学习模型无法较好地适用于不同情况下的特征的缺陷。
根据本发明的示例性实施例,提供一种利用复合机器学习模型来执行预测的方法,其中,所述复合机器学习模型包括至少两种类型的子模型,所述方法包括:(A)获取预测数据记录;(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;以及(C)将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
可选地,在所述方法中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。
可选地,在所述方法中,所述子模型包括至少一个上下层嵌套的复合子模型。
可选地,在所述方法中,所述子模型还包括至少一个线性子模型和/或至少一个决策树子模型。
可选地,在所述方法中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
可选地,在所述方法中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的决策树特征子集和预测样本的线性特征子集。
可选地,在所述方法中,决策树特征子集涵盖取值为连续值的全部特征,并且,线性特征子集涵盖取值为非连续值的全部特征;或者,决策树特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,线性特征子集涵盖其余取值为非连续值的特征。
可选地,在所述方法中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的决策树特征子集和预测样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述方法中,决策树特征子集涵盖全部非缺失特征,并且,线性特征子集涵盖全部缺失特征和全部非缺失特征;或者,一部分决策树特征子集涵盖全部非缺失特征,其余决策树特征子集涵盖至少一部分缺失特征,线性特征子集涵盖全部非缺失特征和其余缺失特征,并且,在步骤(C)中,所述其余决策树特征子集被丢弃。
可选地,在所述方法中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。
可选地,在所述方法中,上层特征子集涵盖取值为连续值的全部特征,并且,下层特征子集涵盖取值为非连续值的全部特征;或者,上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集涵盖其余取值为非连续值的特征。
可选地,在所述方法中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述方法中,上层特征子集涵盖全部非缺失特征,并且,下层特征子集涵盖全部缺失特征和全部非缺失特征。
可选地,在所述方法中,复合机器学习模型的以下项目之中的至少一个在训练过程中被配置:子模型总数、子模型类型、子模型参数、子模型参数变化方式。
根据本发明的另一示例性实施例,提供一种利用复合机器学习模型来执行预测的***,其中,所述复合机器学习模型包括至少两种类型的子模型,所述***包括:预测数据记录获取装置,用于获取预测数据记录;预测特征子集产生装置,用于基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;以及预测装置,用于将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
可选地,在所述***中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。
可选地,在所述***中,所述子模型包括至少一个上下层嵌套的复合子模型。
可选地,在所述***中,所述子模型还包括至少一个线性子模型和/或至少一个决策树子模型。
可选地,在所述***中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
可选地,在所述***中,预测特征子集产生装置基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的决策树特征子集和预测样本的线性特征子集。
可选地,在所述***中,决策树特征子集涵盖取值为连续值的全部特征,并且,线性特征子集涵盖取值为非连续值的全部特征;或者,决策树特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,线性特征子集涵盖其余取值为非连续值的特征。
可选地,在所述***中,预测特征子集产生装置基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的决策树特征子集和预测样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述***中,决策树特征子集涵盖全部非缺失特征,并且,线性特征子集涵盖全部缺失特征和全部非缺失特征;或者,一部分决策树特征子集涵盖全部非缺失特征,其余决策树特征子集涵盖至少一部分缺失特征,线性特征子集涵盖全部非缺失特征和其余缺失特征,并且,预测装置丢弃所述其余决策树特征子集。
可选地,在所述***中,预测特征子集产生装置基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。
可选地,在所述***中,上层特征子集涵盖取值为连续值的全部特征,并且,下层特征子集涵盖取值为非连续值的全部特征;或者,上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集涵盖其余取值为非连续值的特征。
可选地,在所述***中,预测特征子集产生装置基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述***中,上层特征子集涵盖全部非缺失特征,并且,下层特征子集涵盖全部缺失特征和全部非缺失特征。
可选地,在所述***中,复合机器学习模型的以下项目之中的至少一个在训练过程中被配置:子模型总数、子模型类型、子模型参数、子模型参数变化方式。
根据本发明的另一示例性实施,提供一种利用复合机器学习模型来执行预测的计算机可读介质,其中,所述复合机器学习模型包括至少两种类型的子模型,其中,在所述计算机可读介质上记录有用于执行以下步骤的计算机程序:(A)获取预测数据记录;(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;以及(C)将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
可选地,在所述计算机可读介质中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。
可选地,在所述计算机可读介质中,所述子模型包括至少一个上下层嵌套的复合子模型。
可选地,在所述计算机可读介质中,所述子模型还包括至少一个线性子模型和/或至少一个决策树子模型。
可选地,在所述计算机可读介质中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
可选地,在所述计算机可读介质中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的决策树特征子集和预测样本的线性特征子集。
可选地,在所述计算机可读介质中,决策树特征子集涵盖取值为连续值的全部特征,并且,线性特征子集涵盖取值为非连续值的全部特征;或者,决策树特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,线性特征子集涵盖其余取值为非连续值的特征。
可选地,在所述计算机可读介质中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的决策树特征子集和预测样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述计算机可读介质中,决策树特征子集涵盖全部非缺失特征,并且,线性特征子集涵盖全部缺失特征和全部非缺失特征;或者,一部分决策树特征子集涵盖全部非缺失特征,其余决策树特征子集涵盖至少一部分缺失特征,线性特征子集涵盖全部非缺失特征和其余缺失特征,并且,在步骤(C)中,所述其余决策树特征子集被丢弃。
可选地,在所述计算机可读介质中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。
可选地,在所述计算机可读介质中,上层特征子集涵盖取值为连续值的全部特征,并且,下层特征子集涵盖取值为非连续值的全部特征;或者,上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集涵盖其余取值为非连续值的特征。
可选地,在所述计算机可读介质中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述计算机可读介质中,上层特征子集涵盖全部非缺失特征,并且,下层特征子集涵盖全部缺失特征和全部非缺失特征。
可选地,在所述计算机可读介质中,复合机器学习模型的以下项目之中的至少一个在训练过程中被配置:子模型总数、子模型类型、子模型参数、子模型参数变化方式。
根据本发明的另一示例性实施,提供一种利用复合机器学习模型来执行预测的计算装置,其中,所述复合机器学习模型包括至少两种类型的子模型,其中,所述计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)获取预测数据记录;(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;以及(C)将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
可选地,在所述计算装置中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。
可选地,在所述计算装置中,所述子模型包括至少一个上下层嵌套的复合子模型。
可选地,在所述计算装置中,所述子模型还包括至少一个线性子模型和/或至少一个决策树子模型。
可选地,在所述计算装置中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
可选地,在所述计算装置中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的决策树特征子集和预测样本的线性特征子集。
可选地,在所述计算装置中,决策树特征子集涵盖取值为连续值的全部特征,并且,线性特征子集涵盖取值为非连续值的全部特征;或者,决策树特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,线性特征子集涵盖其余取值为非连续值的特征。
可选地,在所述计算装置中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的决策树特征子集和预测样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述计算装置中,决策树特征子集涵盖全部非缺失特征,并且,线性特征子集涵盖全部缺失特征和全部非缺失特征;或者,一部分决策树特征子集涵盖全部非缺失特征,其余决策树特征子集涵盖至少一部分缺失特征,线性特征子集涵盖全部非缺失特征和其余缺失特征,并且,在步骤(C)中,所述其余决策树特征子集被丢弃。
可选地,在所述计算装置中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。
可选地,在所述计算装置中,上层特征子集涵盖取值为连续值的全部特征,并且,下层特征子集涵盖取值为非连续值的全部特征;或者,上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集涵盖其余取值为非连续值的特征。
可选地,在所述计算装置中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述计算装置中,上层特征子集涵盖全部非缺失特征,并且,下层特征子集涵盖全部缺失特征和全部非缺失特征。
可选地,在所述计算装置中,复合机器学习模型的以下项目之中的至少一个在训练过程中被配置:子模型总数、子模型类型、子模型参数、子模型参数变化方式。
根据本发明的另一示例性实施例,提供一种训练复合机器学习模型的方法,其中,所述复合机器学习模型包括至少两种类型的子模型,所述方法包括:(a)获取训练数据记录;(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及(c)根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。
可选地,在所述方法中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。
可选地,在所述方法中,所述子模型包括至少一个上下层嵌套的复合子模型。
可选地,在所述方法中,所述子模型还包括至少一个线性子模型和/或至少一个决策树子模型。
可选地,在所述方法中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
可选地,在所述方法中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的决策树特征子集和训练样本的线性特征子集。
可选地,在所述方法中,决策树特征子集涵盖取值为连续值的全部特征,并且,线性特征子集涵盖取值为非连续值的全部特征;或者,决策树特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,线性特征子集涵盖其余取值为非连续值的特征。
可选地,在所述方法中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的决策树特征子集和训练样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述方法中,决策树特征子集涵盖全部非缺失特征,并且,线性特征子集涵盖全部缺失特征和全部非缺失特征;或者,一部分决策树特征子集涵盖全部非缺失特征,其余决策树特征子集涵盖至少一部分缺失特征,并且,线性特征子集涵盖全部非缺失特征和其余缺失特征。
可选地,在所述方法中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。
可选地,在所述方法中,上层特征子集涵盖取值为连续值的全部特征,并且,下层特征子集涵盖取值为非连续值的全部特征;或者,上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集涵盖其余取值为非连续值的特征。
可选地,在所述方法中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述方法中,上层特征子集涵盖全部非缺失特征,并且,下层特征子集涵盖全部缺失特征和全部非缺失特征。
可选地,在所述方法中,在步骤(c)中,配置复合机器学习模型的以下项目之中的至少一个:子模型总数、子模型类型、子模型参数、子模型参数变化方式。
可选地,在所述方法中,复合机器学习模型包括多个线性子模型,并且,在步骤(c)中,每轮训练出所述复合机器学习模型的一个线性子模型或一个决策树子模型;或者,复合机器学习模型包括单个线性子模型,并且,在步骤(c)中,每轮更新所述单个线性子模型的系数或每轮训练出所述复合机器学习模型的一个决策树子模型。
可选地,在所述方法中,在步骤(c)中,利用所述单个线性子模型在上一轮更新后的系数来热启动当前轮更新。
可选地,在所述方法中,在步骤(c)中,针对每一轮迭代,选择性地或固定地对作为整体的至少一部分线性子模型的系数和/或至少一部分决策树子模型的叶子节点的系数应用权重校正。
可选地,在所述方法中,在步骤(c)中,将复合机器学习模型参数、线性子模型参数和/或决策树子模型参数设置为逐渐变化。
根据本发明的另一示例性实施例,提供一种训练复合机器学习模型的***,其中,所述复合机器学习模型包括至少两种类型的子模型,所述***包括:训练数据记录获取装置,用于获取训练数据记录;训练特征子集产生装置,用于基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及训练装置,用于根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。
可选地,在所述***中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。
可选地,在所述***中,所述子模型包括至少一个上下层嵌套的复合子模型。
可选地,在所述***中,所述子模型还包括至少一个线性子模型和/或至少一个决策树子模型。
可选地,在所述***中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
可选地,在所述***中,训练特征子集产生装置基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的决策树特征子集和训练样本的线性特征子集。
可选地,在所述***中,决策树特征子集涵盖取值为连续值的全部特征,并且,线性特征子集涵盖取值为非连续值的全部特征;或者,决策树特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,线性特征子集涵盖其余取值为非连续值的特征。
可选地,在所述***中,训练特征子集产生装置基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的决策树特征子集和训练样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述***中,决策树特征子集涵盖全部非缺失特征,并且,线性特征子集涵盖全部缺失特征和全部非缺失特征;或者,一部分决策树特征子集涵盖全部非缺失特征,其余决策树特征子集涵盖至少一部分缺失特征,并且,线性特征子集涵盖全部非缺失特征和其余缺失特征。
可选地,在所述***中,训练特征子集产生装置基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。
可选地,在所述***中,上层特征子集涵盖取值为连续值的全部特征,并且,下层特征子集涵盖取值为非连续值的全部特征;或者,上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集涵盖其余取值为非连续值的特征。
可选地,在所述***中,训练特征子集产生装置基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述***中,上层特征子集涵盖全部非缺失特征,并且,下层特征子集涵盖全部缺失特征和全部非缺失特征。
可选地,在所述***中,训练装置配置复合机器学习模型的以下项目之中的至少一个:子模型总数、子模型类型、子模型参数、子模型参数变化方式。
可选地,在所述***中,复合机器学习模型包括多个线性子模型,并且,训练装置每轮训练出所述复合机器学习模型的一个线性子模型或一个决策树子模型;或者,复合机器学习模型包括单个线性子模型,并且,训练装置每轮更新所述单个线性子模型的系数或每轮训练出所述复合机器学习模型的一个决策树子模型。
可选地,在所述***中,训练装置利用所述单个线性子模型在上一轮更新后的系数来热启动当前轮更新。
可选地,在所述***中,训练装置针对每一轮迭代,选择性地或固定地对作为整体的至少一部分线性子模型的系数和/或至少一部分决策树子模型的叶子节点的系数应用权重校正。
可选地,在所述***中,训练装置将复合机器学习模型参数、线性子模型参数和/或决策树子模型参数设置为逐渐变化。
根据本发明的另一示例性实施例,提供一种训练复合机器学习模型的计算机可读介质,其中,所述复合机器学习模型包括至少两种类型的子模型,其中,在所述计算机可读介质上记录有用于执行以下步骤的计算机程序:(a)获取训练数据记录;(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及(c)根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。
可选地,在所述计算机可读介质中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。
可选地,在所述计算机可读介质中,所述子模型包括至少一个上下层嵌套的复合子模型。
可选地,在所述计算机可读介质中,所述子模型还包括至少一个线性子模型和/或至少一个决策树子模型。
可选地,在所述计算机可读介质中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
可选地,在所述计算机可读介质中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的决策树特征子集和训练样本的线性特征子集。
可选地,在所述计算机可读介质中,决策树特征子集涵盖取值为连续值的全部特征,并且,线性特征子集涵盖取值为非连续值的全部特征;或者,决策树特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,线性特征子集涵盖其余取值为非连续值的特征。
可选地,在所述计算机可读介质中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的决策树特征子集和训练样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述计算机可读介质中,决策树特征子集涵盖全部非缺失特征,并且,线性特征子集涵盖全部缺失特征和全部非缺失特征;或者,一部分决策树特征子集涵盖全部非缺失特征,其余决策树特征子集涵盖至少一部分缺失特征,并且,线性特征子集涵盖全部非缺失特征和其余缺失特征。
可选地,在所述计算机可读介质中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。
可选地,在所述计算机可读介质中,上层特征子集涵盖取值为连续值的全部特征,并且,下层特征子集涵盖取值为非连续值的全部特征;或者,上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集涵盖其余取值为非连续值的特征。
可选地,在所述计算机可读介质中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述计算机可读介质中,上层特征子集涵盖全部非缺失特征,并且,下层特征子集涵盖全部缺失特征和全部非缺失特征。
可选地,在所述计算机可读介质中,在步骤(c)中,配置复合机器学习模型的以下项目之中的至少一个:子模型总数、子模型类型、子模型参数、子模型参数变化方式。
可选地,在所述计算机可读介质中,复合机器学习模型包括多个线性子模型,并且,在步骤(c)中,每轮训练出所述复合机器学习模型的一个线性子模型或一个决策树子模型;或者,复合机器学习模型包括单个线性子模型,并且,在步骤(c)中,每轮更新所述单个线性子模型的系数或每轮训练出所述复合机器学习模型的一个决策树子模型。
可选地,在所述计算机可读介质中,在步骤(c)中,利用所述单个线性子模型在上一轮更新后的系数来热启动当前轮更新。
可选地,在所述计算机可读介质中,在步骤(c)中,针对每一轮迭代,选择性地或固定地对作为整体的至少一部分线性子模型的系数和/或至少一部分决策树子模型的叶子节点的系数应用权重校正。
可选地,在所述计算机可读介质中,在步骤(c)中,将复合机器学习模型参数、线性子模型参数和/或决策树子模型参数设置为逐渐变化。
根据本发明的另一示例性实施例,提供一种训练复合机器学习模型的计算装置,其中,所述复合机器学习模型包括至少两种类型的子模型,其中,所述计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(a)获取训练数据记录;(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及(c)根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。
可选地,在所述计算装置中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。
可选地,在所述计算装置中,所述子模型包括至少一个上下层嵌套的复合子模型。
可选地,在所述计算装置中,所述子模型还包括至少一个线性子模型和/或至少一个决策树子模型。
可选地,在所述计算装置中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
可选地,在所述计算装置中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的决策树特征子集和训练样本的线性特征子集。
可选地,在所述计算装置中,决策树特征子集涵盖取值为连续值的全部特征,并且,线性特征子集涵盖取值为非连续值的全部特征;或者,决策树特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,线性特征子集涵盖其余取值为非连续值的特征。
可选地,在所述计算装置中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的决策树特征子集和训练样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述计算装置中,决策树特征子集涵盖全部非缺失特征,并且,线性特征子集涵盖全部缺失特征和全部非缺失特征;或者,一部分决策树特征子集涵盖全部非缺失特征,其余决策树特征子集涵盖至少一部分缺失特征,并且,线性特征子集涵盖全部非缺失特征和其余缺失特征。
可选地,在所述计算装置中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。
可选地,在所述计算装置中,上层特征子集涵盖取值为连续值的全部特征,并且,下层特征子集涵盖取值为非连续值的全部特征;或者,上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集涵盖其余取值为非连续值的特征。
可选地,在所述计算装置中,在步骤(b)中,基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
可选地,在所述计算装置中,上层特征子集涵盖全部非缺失特征,并且,下层特征子集涵盖全部缺失特征和全部非缺失特征。
可选地,在所述计算装置中,在步骤(c)中,配置复合机器学习模型的以下项目之中的至少一个:子模型总数、子模型类型、子模型参数、子模型参数变化方式。
可选地,在所述计算装置中,复合机器学习模型包括多个线性子模型,并且,在步骤(c)中,每轮训练出所述复合机器学习模型的一个线性子模型或一个决策树子模型;或者,复合机器学习模型包括单个线性子模型,并且,在步骤(c)中,每轮更新所述单个线性子模型的系数或每轮训练出所述复合机器学习模型的一个决策树子模型。
可选地,在所述计算装置中,在步骤(c)中,利用所述单个线性子模型在上一轮更新后的系数来热启动当前轮更新。
可选地,在所述计算装置中,在步骤(c)中,针对每一轮迭代,选择性地或固定地对作为整体的至少一部分线性子模型的系数和/或至少一部分决策树子模型的叶子节点的系数应用权重校正。
可选地,在所述计算装置中,在步骤(c)中,将复合机器学习模型参数、线性子模型参数和/或决策树子模型参数设置为逐渐变化。
在根据本发明示例性实施例的利用复合机器学习模型来执行预测的方法及***以及训练复合机器学习模型的方法及***中,构成复合机器学习模型的子模型被配置为根据梯度提升框架训练而成,并且,每个子模型作用于各自的样本特征子集,通过这种方式,能够有效地融合多种类型的子模型来协同工作,充分发挥各个子模型的优势以取得较好的综合机器学习效果。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1示出根据本发明的示例性实施例的利用复合机器学习模型来执行预测的***的框图;
图2示出根据本发明的示例性实施例的利用复合机器学习模型来执行预测的方法的流程图;
图3示出根据本发明的示例性实施例的训练复合机器学习模型的***的框图;以及
图4示出根据本发明的示例性实施例的训练复合机器学习模型的方法的流程图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善***自身的性能。在计算机***中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,应注意,本发明的示例性实施例对能够适用于梯度提升框架的具体机器学习算法并不进行特定限制。此外,还应注意,在训练和应用复合机器学习模型的过程中,还可利用统计算法、业务规则和/或专家知识等,以进一步提高机器学习的效果。
具体说来,本发明的示例性实施例涉及复合机器学习模型的训练和预估,其中,所述复合机器学习模型具有至少两种类型的子模型,这些子模型具有各自的特征子集且根据梯度提升框架训练而成。相应地,本发明的示例性实施例需针对数据记录进行特定方式的特征子集划分处理,并将划分出的特征子集应用于相应的子模型。
图1示出根据本发明的示例性实施例的利用复合机器学习模型来执行预测的***的框图。具体说来,所述预测***可用于针对预测样本,利用复合机器学习模型来给出其关于特定业务问题(即,预测目标)的预测结果,其中,所述复合机器学习模型包括至少两种类型的子模型。
这里,复合机器学习模型的子模型在类型上不受限制,任何能够根据梯度提升框架训练为复合结构的机器学习模型均可作为根据本发明示例性实施例的子模型。在复合机器学习模型的训练过程中,可通过设置相应的配置项来完成各个子模型的训练。作为示例,复合机器学习模型的以下项目之中的至少一个在训练过程中被配置:子模型总数、子模型类型、子模型参数、子模型参数变化方式。
作为示例,所述子模型可包括至少一个线性子模型和至少一个决策树子模型。其中,线性子模型的类型为线性模型,而决策树子模型的类型为决策树模型。具体说来,线性模型具有简单、训练速度快等特点,其可以容纳高维度高样本数的大数据集,但是作为线性分类器,这类模型无法抓取特征之间的非线性信息,而模型复杂度较低使其在面对诸如连续特征的情况时,往往无法取得较好的效果。另一方面,决策树模型具有很强的非线性,更容易提取特征的交互性(interaction)。使用集成框架将决策树模型进行集成(例如梯度提升决策树(Gradient Boosting Decision Tree),灵活性更强,经过正确调参(parametertuning)后往往能获得更好的分类效果。然而,其内存占用大,速度慢,对于大数据(高维度,多样本)训练集与测试集难以运行,尤其是对于存在大量作了一位有效编码(one-hotencoding)的离散特征的数据集,往往会有极其高的维度,使训练和调参变得十分困难,反而不如线性模型。
通过将线性子模型和决策树子模型按照梯度提升框架训练为复合机器学习模型,不仅能够充分发挥两种模型的优势,而且与工业界已经采用的联合训练线性模型与神经网络的方式相比,在调参难度和训练速度方面都具有明显的改进。
如上所述,根据本发明示例性实施例的子模型并不受限于上述两种,作为示例,所述子模型可包括至少一个上下层嵌套的复合子模型。也就是说,由上层模型部分和下层模型部分基于嵌套结构训练而成的复合结构模型可作为根据本发明示例性实施例的复合机器学习模型的一个子模型。作为示例,所述复合子模型的上层模型可以为一个决策树模型部分,并且,所述复合子模型的下层模型可以为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
可选地,包含复合子模型的这种复合机器学习模型可还进一步包括至少一个线性子模型和/或至少一个决策树子模型。
图1所示的***可全部通过计算机程序以软件方式来实现,也可由专门的硬件装置来实现,还可通过软硬件结合的方式来实现。相应地,组成图1所示的***的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块,也可以是依靠硬件结构来实现所述功能的通用或专用器件,还可以是运行有相应计算机程序的处理器等。
如图1所示,预测数据记录获取装置100用于获取预测数据记录。这些预测数据记录可由任何方以任何方式来产生,例如,可以是客户手动填写的数据、客户在线提交的数据、预先存储或生成的数据、也可以是从外部接收的数据。这些数据的属性信息可涉及客户自身的信息,例如,身份、学历、职业、资产、联系方式等信息。或者,这些数据的属性信息也可涉及业务相关项目的信息,例如,关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意,本发明的示例性实施例中提到的数据的属性可涉及任何对象或事务在某方面的表现或性质,而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。实际上,任何能够通过对其进行机器学习的信息数据均可应用于本发明的示例性实施例。
预测数据记录获取装置100可获取不同来源(例如,来源于数据提供商的数据、来源于互联网(例如,社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等)的结构化或非结构化数据,例如,文本数据或数值数据等。这些数据可通过输入装置输入到预测数据记录获取装置100,或者由预测数据记录获取装置100根据已有的数据来自动生成,或者可由预测数据记录获取装置100从网络上(例如,网络上的存储介质(例如,数据仓库))获得,此外,诸如服务器的中间数据交换装置可有助于预测数据记录获取装置100从外部数据源获取相应的数据。这里,获取的数据可被预测数据记录获取装置100中的文本分析模块等数据转换模块转换为容易处理的格式。应注意,预测数据记录获取装置100可被配置为由软件、硬件和/或固件组成的各个模块,这些模块中的某些模块或全部模块可被集成为一体或共同协作以完成特定功能。
预测特征子集产生装置200用于基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集。具体说来,预测特征子集产生装置200可通过对预测数据记录的属性信息进行筛选、分组或进一步附加处理等而得到多个特征,并通过对所述多个特征进行各种划分而得到多组特征(其中,每个特征可被划分到一个或多个组中),每组特征可作为预测样本的一个特征子集,这里,预测样本与预测数据记录对应,通常可作为机器学习模型的直接输入。应注意,上述特征子集可包括一部分特征,或者,可包括全部特征,或者,可不包括任何特征。根据本发明的示例性实施例,预测特征子集产生装置200可按照任何适当的方式来生成特征子集,例如,可考虑属性信息的内容、含义、取值连续性、取值范围、取值空间规模、缺失性、重要性等因素,或者,可结合复合机器学习模型中的子模型特点等。
预测装置300用于将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
具体说来,预测装置300可有区别地向每个子模型提供一个或多个特征子集,这里,所有子模型得到的特征子集并不完全相同,而任意两个子模型(不论是属于同种类型的子模型还是不同类型的子模型)可被提供完全相同、部分相同或完全不同的特征子集。也就是说,复合机器学习模型的各个子模型针对其被提供的特征子集来执行预估,相应地,可综合所有子模型的预估结果而得到复合机器学习模型针对预测样本整体的预测结果。
特别地,预测装置300可丢弃某些特征子集,即,不将这些特征子集提供给相应的子模型,由此导致所述相应的子模型不工作或仅提供预设的默认值。
以下将参照图2来描述根据本发明的示例性实施例的利用复合机器学习模型来执行预测的方法的流程图。这里,作为示例,图2所示的方法可由图1所示的预测***来执行,也可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图2所示的方法。
为了描述方便,假设图2所示的方法由图1所示的预测***来执行,如图所示,在步骤S100中,由预测数据记录获取装置100获取预测数据记录。
这里,作为示例,每条预测数据记录可对应于关于特定预测问题的一个待预测项(例如,事件或对象),相应地,预测数据记录可包括反映事件或对象在某方面的表现或性质(即,属性)的各种属性信息。通过对这些属性信息进行相应的筛选、分组或处理,可进一步获取用于进行机器学习的样本特征。这里,预测数据记录获取装置100可通过手动、半自动或全自动的方式来采集数据,作为示例,预测数据记录获取装置100可批量地采集数据。
预测数据记录获取装置100可通过输入装置(例如,工作站)接收用户手动输入的预测数据记录。此外,预测数据记录获取装置100可通过全自动的方式从数据源***地取出预测数据记录,例如,通过以软件、固件、硬件或其组合实现的定时器机制来***地请求数据源并从响应中得到所请求的数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式,其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下,可在没有人工干预的情况下自动进行数据采集,但应注意,在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了定时器机制。在这种情况下,在接收到特定的用户输入的情况下,才产生提取数据的请求。每次获取数据时,优选地,可将捕获的数据存储在非易失性存储器中。作为示例,可利用数据仓库来存储在获取期间采集的数据。可选地,可借助硬件集群(诸如Hadoop集群)对采集到的数据进行存储和/或后续处理,例如,存储、分类和其他离线操作。此外,也可对采集的数据进行在线的流处理。
作为示例,预测数据记录获取装置100中可包括文本分析模块等数据转换模块,用于将文本等非结构化数据转换为更易于使用的结构化数据以进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、可疑交易报告等。
接下来,在步骤S200中,由预测特征子集产生装置200基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集。
这里,在将预测数据记录转换为可直接输入模型的相应预测样本的过程中,可基于各属性信息来生成预测样本的各个特征。根据本发明的示例性实施例,预测样本可具有多个特征子集,使得每个子模型能够具有各自的特征子集。
预测特征子集产生装置200可采用任何适当的方式,基于预测数据记录的属性信息来产生预测样本的相应特征,并将这些特征按照特定方式组合为各个特征子集。
例如,预测特征子集产生装置200可基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的决策树特征子集和预测样本的线性特征子集。
具体说来,在生成了预测样本的各个特征之后,可相应地确定每个特征的取值为连续值还是非连续值(即,离散值),或者,可相应地确定每个特征的取值空间规模(例如,性别特征可对应二维特征空间)等。在此基础上,可按照特定的划分方式来产生各个特征子集。
作为示例,对于决策树子模型而言,其特征子集可仅包括至少一部分连续值特征,在这种情况下,每个决策树子模型的特征子集可包括完全相同、部分相同或完全不同的连续值特征;作为示例,所有决策树子模型的特征子集作为整体可涵盖取值为连续值的一部分或全部特征。
此外,对于决策树子模型而言,其特征子集除了包括至少一部分连续值特征之外,还可包括一部分非连续值特征,在这种情况下,可考虑非连续值特征的取值空间规模、特征子集的特征总数等因素来确定将被包括在决策树特征子集中的非连续值特征。也就是说,每个决策树子模型的特征子集可包括完全相同、部分相同或完全不同的连续值特征或非连续值特征;作为示例,所有决策树子模型的特征子集作为整体可涵盖至少一部分连续值特征连同一部分非连续值特征。
作为示例,对于线性子模型而言,其特征子集可仅包括至少一部分非连续值特征,在这种情况下,每个线性子模型的特征子集可包括完全相同、部分相同或完全不同的非连续值特征;作为示例,所有线性子模型的特征子集作为整体可涵盖取值为非连续值的一部分或全部特征。
此外,对于线性子模型而言,其特征子集除了包括至少一部分非连续值特征之外,还可包括一部分连续值特征。也就是说,每个线性子模型的特征子集可包括完全相同、部分相同或完全不同的连续值特征或非连续值特征;作为示例,所有线性子模型的特征子集作为整体可涵盖至少一部分非连续值特征连同一部分连续值特征。
这里,可协同地生成决策树特征子集和线性特征子集。根据本发明的示例性实施例,决策树特征子集和线性特征子集可涵盖完全不同的特征,也可涵盖至少一部分相同的特征。作为示例,决策树特征子集可涵盖取值为连续值的全部特征,相应地,线性特征子集可涵盖取值为非连续值的全部特征;作为另一示例,决策树特征子集可涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,相应地,线性特征子集可涵盖其余取值为非连续值的特征。
此外,预测特征子集产生装置200可基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的决策树特征子集和预测样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
具体说来,在机器学习模型的实际应用场景中,训练数据记录中的某些属性信息常常没有出现在预测数据记录中,预测样本中基于这样的缺失属性信息而生成的特征即为缺失特征(其中,缺失属性信息可被设为零值),相反,没有以缺失属性信息为依据的特征即为非缺失特征。应理解,这种特征的缺失性会导致预测结果的偏差(bias),而根据本发明的示例性实施例,可通过将缺失特征和非缺失特征划分到适当的特征子集来有效地消除上述偏差。
作为示例,对于决策树子模型而言,其特征子集可仅包括至少一部分非缺失特征,在这种情况下,每个决策树子模型的特征子集可包括完全相同、部分相同或完全不同的非缺失特征;作为示例,所有决策树子模型的特征子集作为整体可涵盖一部分非缺失特征或全部非缺失特征。
此外,对于决策树子模型而言,其特征子集除了包括至少一部分非缺失特征之外,还可包括一部分缺失特征,在这种情况下,某些决策树子模型的特征子集可仅包括非缺失特征,而其余决策树子模型的特征子集可包括至少一部分缺失特征,也就是说,每个决策树子模型的特征子集可包括完全相同、部分相同或完全不同的缺失特征或非缺失特征;这里,对于那些特征子集涉及缺失特征的决策树子模型而言,在预测过程中,可禁止这些决策树子模型工作或仅提供预设的默认值作为它们的模型输出。
作为示例,对于线性子模型而言,其特征子集可包括至少一部分缺失特征,在这种情况下,每个线性子模型的特征子集可包括完全相同、部分相同或完全不同的缺失特征;作为示例,所有线性子模型的特征子集作为整体可涵盖一部分缺失特征或全部缺失特征。
此外,对于线性子模型而言,其特征子集除了包括至少一部分缺失特征之外,还可包括至少一部分非缺失特征,在这种情况下,所有线性子模型的特征子集作为整体可涵盖预测样本的一部分特征或所有特征。
这里,可协同地生成决策树特征子集和线性特征子集。根据本发明的示例性实施例,决策树特征子集和线性特征子集可涵盖完全不同的特征,也可涵盖至少一部分相同的特征。作为示例,决策树特征子集可涵盖全部非缺失特征,相应地,线性特征子集可涵盖全部缺失特征和全部非缺失特征;作为另一示例,一部分决策树特征子集可涵盖全部非缺失特征,其余决策树特征子集可涵盖至少一部分缺失特征,相应地,线性特征子集可涵盖全部非缺失特征和其余缺失特征,在这种情况下,在后续的预测步骤中,所述其余决策树特征子集被丢弃。
此外,预测特征子集产生装置200可基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。
作为示例,对于上层模型(例如,单个决策树模型部分)而言,其特征子集可仅包括至少一部分连续值特征,即,上层模型的特征子集可涵盖取值为连续值的一部分或全部特征。
此外,对于上层模型而言,其特征子集除了包括至少一部分连续值特征之外,还可包括一部分非连续值特征,在这种情况下,可考虑非连续值特征的取值空间规模、特征子集的特征总数等因素来确定将被包括在特征子集中的非连续值特征。
作为示例,对于下层模型(多个线性子模型)而言,其特征子集可仅包括至少一部分非连续值特征,在这种情况下,每个下层模型的特征子集可包括完全相同、部分相同或完全不同的非连续值特征;作为示例,所有下层模型的特征子集作为整体可涵盖取值为非连续值的一部分或全部特征。
此外,对于下层模型而言,其特征子集除了包括至少一部分非连续值特征之外,还可包括一部分连续值特征。也就是说,每个下层模型的特征子集可包括完全相同、部分相同或完全不同的连续值特征或非连续值特征;作为示例,所有下层模型的特征子集作为整体可涵盖至少一部分非连续值特征连同一部分连续值特征。
这里,可协同地生成上层特征子集和下层子集。根据本发明的示例性实施例,上层特征子集和下层特征子集可涵盖完全不同的特征,也可涵盖至少一部分相同的特征。作为示例,上层特征子集可涵盖取值为连续值的全部特征,相应地,下层特征子集可涵盖取值为非连续值的全部特征;作为另一示例,上层特征子集可涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,相应地,下层特征子集可涵盖其余取值为非连续值的特征。
此外,预测特征子集产生装置200可基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
作为示例,对于上层模型而言,其特征子集可仅包括至少一部分非缺失特征,即,上层模型的特征子集可涵盖一部分非缺失特征或全部非缺失特征。
作为示例,对于下层模型而言,其特征子集可包括至少一部分缺失特征,在这种情况下,每个下层的特征子集可包括完全相同、部分相同或完全不同的缺失特征;作为示例,所有下层模型的特征子集作为整体可涵盖一部分缺失特征或全部缺失特征。
此外,对于下层模型而言,其特征子集除了包括至少一部分缺失特征之外,还可包括至少一部分非缺失特征,在这种情况下,所有下层模型的特征子集作为整体可涵盖预测样本的所有特征。
这里,可协同地生成上层特征子集和下层特征子集。根据本发明的示例性实施例,上层特征子集和下层特征子集可涵盖完全不同的特征,也可涵盖至少一部分相同的特征。作为示例,上层子集可涵盖全部非缺失特征,相应地,下层特征子集可涵盖全部缺失特征和全部非缺失特征。
应注意,预测特征子集产生装置200在产生特征子集时,可依据任何与属性信息、子模型或数据等有关的因素,本发明的示例性实施例并不限制特征子集的具体产生方式。
此外,在基于属性信息来产生特征的过程中,不仅可进行属性信息的筛选或分组,还可对筛选或分组得到的属性信息进行进一步处理,即,作为可选方式,预测特征子集产生装置200可对获取的预测数据记录进行特征工程处理,例如,预测特征子集产生装置200可对预测数据记录的原始属性信息进行诸如离散化、字段组合、提取部分字段值、取整等各种特征工程的处理,并将处理后的特征按照特定规则组合为各个特征子集。
在步骤S300中,由预测装置300将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果。
这里,复合机器学习模型可保存在图1所示的***之中,或者,复合机器学习模型可保存在图1所示的***之外;作为示例,可由预测装置300或其他装置读取所述复合机器学习模型,使得预测装置300可直接将特征子集提供给读取出的复合机器学习模型。
另外,复合机器学习模型也可始终位于图1所示的***之外,而由预测装置300直接或经由其他装置将特征子集提供给位于外部的复合机器学习模型。在这种情况下,预测装置300还可从外部接收复合机器学习模型的预测结果。
在梯度提升框架下,各个子模型的预测结果被叠加,作为可选方式,叠加结果可经过预先定义的变换以得到最终的预测结果。作为示例,所述变换可与损失函数相关,例如,分类问题中在使用log-loss这一损失函数时,所述变换可以是sigmoid函数。
以下结合图3和图4来描述根据本发明的示例性实施例的训练复合机器学习模型的***及其训练方法。
这里所述的复合机器模型可包括至少两种不同类型的子模型,并且,根据梯度提升框架来训练所述子模型。如上所述,每种子模型在数量上可以是一个或多个,不同种类或同一种类的子模型可具有完全相同、部分相同或完全不同的特征子集,
作为示例,所述子模型可包括至少一个线性子模型和至少一个决策树子模型。作为另一示例,所述子模型可包括至少一个上下层嵌套的复合子模型;可选地,在这种情况下,所述子模型可还包括至少一个线性子模型和/或至少一个决策树子模型。这里,可考虑到模型、样本、特征、预测问题等来设计复合子模型的上层模型和下层模型,例如,所述复合子模型的上层模型可以为一个决策树模型部分,并且,所述复合子模型的下层模型可以为至少一个线性模型部分,其中,每个线性模型部分可对应于决策树模型部分的一个叶子节点。
具体说来,图3示出根据本发明的示例性实施例的训练复合机器学习模型的***的框图。图3所示的训练***可全部通过计算机程序以软件方式来实现,也可由专门的硬件装置来实现,还可通过软硬件结合的方式来实现。相应地,组成图3所示的***的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块,也可以是依靠硬件结构来实现所述功能的通用或专用器件,还可以是运行有相应计算机程序的处理器等。
如图3所示,训练数据记录获取装置1000用于获取训练数据记录。这里,训练数据记录获取装置1000可采用各种适当的方式来离线或在线地获取训练数据记录。根据本发明的示例性实施例,训练数据记录获取装置1000可采用与预测数据记录获取装置100类似的方式来执行操作,只不过两者获取的具体数据不同,因此这里将不再对其进行详细描述。由训练数据记录获取装置1000获取的训练数据记录除了包括各种属性信息之外,还包括该条数据记录相对于预测问题的标记(label)。
训练特征子集产生装置2000用于基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集。这里,训练特征子集产生装置2000可按照任何适当的方式来生成特征子集,例如,可考虑属性信息的内容、含义、取值连续性、取值范围、取值空间规模、缺失性、重要性等因素,或者,可结合复合机器学习模型中的子模型特点等。根据本发明的示例性实施例,训练特征子集产生装置2000可按照与预测特征子集产生装置200对应的方式来生成训练样本的各个特征,即,训练样本与特征样本在特征和特征子集方面均具有对应性。应理解,由于实践中预测数据记录相对于训练数据记录可能会存在一些缺失的属性信息,因此,在预测特征子集产生装置200生成与缺失属性信息有关的特征时,预测数据记录中的相应缺失属性信息而被设为零值。
训练装置3000用于根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。这里,训练装置3000可基于载入的模型训练配置来逐轮地训练出复合机器学习模型所包括的子模型。具体说来,在首轮训练时,训练装置3000可根据配置的参数来执行初始化处理,其中,本轮模型的初始值可被设置为零。在每一轮训练时,可根据载入的模型训练配置来确定本轮所训练的子模型的类型以及相应的特征子集划分。在训练出所有的子模型之后,可相应地得到复合机器学习模型,该复合机器学习模型可被存储在图3的***中以便后续使用,或者,可将训练出的复合机器学习模型提供给外部***或装置。
以下将参照图4来描述根据本发明的示例性实施例的训练复合机器学习模型的方法的流程图。这里,作为示例,图4所示的方法可由图3所示的训练***来执行,也可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图4所示的方法。
为了描述方便,假设图4所示的方法由图3所示的训练***来执行,如图所示,在步骤S1000中,由训练数据记录获取装置1000获取训练数据记录。这里,可按照与步骤S100类似的方式来执行步骤S1000,只不过在这两个步骤中获取的具体数据不同,例如,训练数据记录除了包括各种属性信息之外,还包括该条数据记录相对于预测问题的标记(label)。
接下来,在步骤S2000中,由训练特征子集产生装置2000基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集。
例如,在步骤S2000中,训练特征子集产生装置2000可基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的决策树特征子集和训练样本的线性特征子集。
相应地,决策树特征子集可涵盖取值为连续值的全部特征,并且,线性特征子集可涵盖取值为非连续值的全部特征;或者,决策树特征子集可涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,线性特征子集可涵盖其余取值为非连续值的特征。
又例如,在步骤S2000中,训练特征子集产生装置2000可基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的决策树特征子集和训练样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
这里,应理解,所谓缺失指的是某些属性信息在训练数据记录中存在而在预测数据记录中缺失,因此,缺失属性信息在预测数据记录中被设置为零值,而在训练数据记录中则可具有实际值。相应地,训练样本的缺失特征或非缺失特征也仅仅是沿用了与预测样本的缺失特征或非缺失特征同样的说法而已,不代表训练样本的这些特征本身具有缺少的属性信息。
相应地,决策树特征子集可涵盖全部非缺失特征,并且,线性特征子集可涵盖全部缺失特征和全部非缺失特征;或者,一部分决策树特征子集可涵盖全部非缺失特征,其余决策树特征子集可涵盖至少一部分缺失特征,并且,线性特征子集可涵盖全部非缺失特征和其余缺失特征。
又例如,在步骤S2000中,训练特征子集产生装置2000可基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。
相应地,上层特征子集可涵盖取值为连续值的全部特征,并且,下层特征子集可涵盖取值为非连续值的全部特征;或者,上层特征子集可涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集可涵盖其余取值为非连续值的特征。
又例如,在步骤S2000中,训练特征子集产生装置2000可基于训练数据记录的属性信息来生成训练样本的特征,并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
相应地,上层特征子集可涵盖全部非缺失特征,并且,下层特征子集可涵盖全部缺失特征和全部非缺失特征。
应理解,可按照与步骤S200对应的方式来执行步骤S2000,这里将不再赘述某些重复内容和细节。
在步骤S3000中,训练装置3000可根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。
具体说来,训练装置3000可配置复合机器学习模型的以下项目之中的至少一个:子模型总数、子模型类型、子模型参数、子模型参数变化方式。所形成的模型训练配置可用于指导后续针对各个子模型的每轮训练。特别地,在该步骤中,可将复合机器学习模型参数、线性子模型参数和/或决策树子模型参数设置为逐渐变化。通过这种参数自适应(parameter adaptation),可允许模型总体参数(如学习率)和子模型参数(如线性模型迭代轮数,正则化系数,决策树深度等)进行逐渐变化。
这里,梯度提升框架下的复合机器学习模型可表示为多个弱分类器的拼接结果,该结果可对应于一个相对较强的分类器。
假设复合机器学习模型表示为F,输入训练样本表示为x,其中,F可由K个作为弱分类器的子模型f组成。相应地,可按照以下的等式1来构建复合机器学习模型F:
Figure BDA0003154708540000231
根据本发明的示例性实施例,每个子模型的输入可对应于特征子集,该特征子集可看做通过对输入样本进行特征变换(例如,Φk())而获得,也就是说,等式1限定的复合机器学习模型可表示为如以下的等式2所示:
Figure BDA0003154708540000232
也就是说,在本发明的示例性实施例中,每个子模型为fkk(x))。相应地,每一轮可训练出一个相应的子模型,或者,每一轮可进行一次系数更新。
例如,复合机器学习模型可包括多个线性子模型,相应地,在步骤S3000中,每轮训练出所述复合机器学习模型的一个线性子模型或一个决策树子模型;或者,复合机器学习模型可包括单个线性子模型,相应地,在步骤S3000中,每轮更新所述单个线性子模型的系数或每轮训练出所述复合机器学习模型的一个决策树子模型。
具体说来,假设已经完成了m个子模型的训练,可相应地得到由m个子模型构成的复合机器学习模型
Figure BDA0003154708540000233
假设存在N(N为大于1的整数)个训练样本组成的训练样本集D={(xi,yi)|i=1,2,…,N},其中,xi指示第i个训练样本,yi为xi的标记,此外,假设损失函数为l,则Fm(x)在训练样本集D上的总损失可表示为下面的等式3:
Figure BDA0003154708540000234
在以下描述中,可省略上述表达式中的D,仅写为L(Fm)。
在当前已经训练出m个子模型的情况下,可通过最小化函数来获得第m+1个子模型fm+1,即:
Figure BDA0003154708540000235
一般来说,上述最小化没有闭式解,因此,需要针对不同类型的f进行相应的迭代处理。
例如,当fm+1是决策树子模型时,可参照Xgboost的方式来进行求解。
具体说来,可在第m个分类器处进行二阶展开,从而得到以下等式:
Figure BDA0003154708540000241
在上述等式中,gi=l′(Fm(xi),yi)且hi=l″(Fm(xi),yi),分别是l(·,yi)在Fm(xi)处的一阶和二阶导数。对于决策树子模型的求解,可采8800用贪婪(Greedy)算法。具体说来,可首先假设树的结构已知,在上式中代入fm+1的表达式,可求得叶子节点权重的最优值以及对应的损失值的表达式,然后通过迭代对树的叶子节点进行***,并通过损失值的最大下降来选择最合适的切分特征以及切分点,并在一定条件后停止。
又例如,当fm+1是线性子模型时,根据本发明的示例性实施例,复合机器学习模型可包括单个线性子模型,其中,所述单个线性子模型的系数在训练过程中被迭代地更新。具体说来,由于线性模型的特点,多个线性子模型可由单个线性子模型来替代,其中,每增加一个线性子模型可看做单个线性子模型的系数更新。特别地,利用所述单个线性子模型在上一轮更新后的系数来热启动当前轮更新。在这种情况下,用
Figure BDA0003154708540000242
来表示复合机器学习模型:
Figure BDA0003154708540000243
在上式中,fk表示除了线性子模型以外的其他子模型,wTx部分指示线性子模型,相应地,可按照下面的等式来更新线性子模型的系数:
Figure BDA0003154708540000244
在上式中,λ、γ是正则化系数(regularizer coefficient),用来控制线性子模型的复杂度。这里,可以使用FTRL-Proximal算法来迭代求解w。此外,可使用之前更新的w来热启动(warm-start)本轮更新以加快收敛。
此外,也可每轮训练出一个新的线性子模型。在这种情况下,只需要在上述单个线性子模型学习完成后,设置fk+1(x)=(w*)Tx。
又例如,当fm+1是上下层嵌套的复合子模型,且上层模型为决策树模型部分,下层模型为至少一个线性模型部分时,可理解:对于决策树模型部分而言,落在同一个叶子节点上的样本的输出值是完全相同的,而如果把这个常数输出值替换成一个线性模型部分,就可得到一个上下层嵌套的复合子模型。具体来说,假设输入训练样本表示为x,则复合子模型可以表示为:
Figure BDA0003154708540000245
在上式中,vj是第j个叶子节点上的线性权重向量,bj(x)是一个指示函数,只有x在第j个叶子节点上的时候输出1,其他时候输出0。该复合子模型的训练方法分成两步,第一步是生成一个决策树模型,第二步是在生成的模型的基础上求解对应的权重向量。根据本发明的示例性实施例,上层模型部分和下层模型部分可分别对应不同的特征子集(即,特征变换结果),相应地,Φt可表示输入决策树模型部分的特征变换,Φl表示输入线性模型部分的特征变换。
为了描述方便,假设将复合子模型简化为:
Figure BDA0003154708540000246
首先,可采用如上所述的决策树子模型训练方法来获得作为第m+1个子模型的一棵决策树模型∑jαm+1,jbm+1,j(x),其中,αm+1,j是第j个叶子节点上的权重,然后,根据下式来计算权重向量最优解:
Figure BDA0003154708540000251
这里,
Figure BDA0003154708540000252
Figure BDA0003154708540000253
是正则化系数,同样地,上式可采用FTRL-Proximal来求解。
以上列出了某些子模型的训练方式,然而,应理解,本发明的示例性实施例并不受限于上述示例。
此外,作为示例,在S3000中,针对每一轮迭代,可选择性地或固定地对作为整体的至少一部分线性子模型的系数和/或至少一部分决策树子模型的叶子节点的系数应用权重校正(weight correction)。具体说来,根据本发明的示例性实施例,可通过应用权重校正来提高算法的收敛速度。一般情况下,已经训练完成的子模型都可以表示为(变换后的)特征的加权和,例如,对于线性子模型,被加权求和的特征即为原输入特征;对于决策树子模型,被加权求和的特征为一组0-1变量组成的特征,其用来表示样本所在的叶子位置,权重就是叶子节点权重;对于复合子模型,被加权求和的特征为一组0-1变量与原特征共同组成的特征,用来指示叶子位置以及原特征,权重则是对应叶子上的权重的并集。通过上述方式,已经训练完成的子模型整体可被视为一个大的线性模型,对此,可加入正则项,从而基于FTRL-Proximal算法来进行迭代更新。
应理解,在每一轮中,可选择性地进行权重校正,例如,可设置为每两轮或三轮训练后进行一次权重校正。此外,每次权重校正时,既可针对一部分子模型,也可针对全部子模型,例如,可固定其中任意个子模型,并校正其余子模型,相应地,可配置成全校正(fullycorrection),也可以配置成部分校正(partial correction)。
应理解,图1和图3所示出的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的单元或模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
以上参照图1和图2描述了根据本发明示例性实施例的利用复合机器学习模型来执行预测的***和方法。应理解,上述预测方法可通过记录在计算可读介质上的程序来实现,相应地,根据本发明的示例性实施例,可提供一种利用复合机器学习模型来执行预测的介质,其中,所述复合机器学习模型包括至少两种类型的子模型,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:(A)获取预测数据记录;(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;以及(C)将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
以上参照图3和图4描述了根据本发明示例性实施例的训练复合机器学习模型的***和方法。应理解,上述训练方法可通过记录在计算可读介质上的程序来实现,相应地,根据本发明的示例性实施例,可提供一种训练复合机器学习模型的介质,其中,所述复合机器学习模型包括至少两种类型的子模型,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:(a)获取训练数据记录;(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及(c)根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1到图4进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的预测***或训练***可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个***通过专门的软件包(例如,lib库)而被调用,以实现相应的预测功能。
另一方面,图1或图3所示的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
这里,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行利用复合机器学习模型来执行预测的方法和/或训练所述复合机器学习模型的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制***或***管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的预测方法和训练方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的预测方法和/或训练方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
具体说来,如上所述,根据本发明示例性实施例的利用复合机器学习模型来执行预测的计算装置可包括存储部件和处理器,其中,所述复合机器学习模型包括至少两种类型的子模型,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)获取预测数据记录;(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;(C)将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
应注意,以上已经结合图1和图2描述了根据本发明示例性实施例的利用复合机器学习模型来执行预测的各处理细节,这里将不再赘述计算装置执行各步骤时的处理细节。
另外,根据本发明示例性实施例的训练复合机器学习模型的计算装置可包括存储部件和处理器,其中,所述复合机器学习模型包括至少两种类型的子模型,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(a)获取训练数据记录;(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及(c)根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。
应注意,以上已经结合图3和图4描述了根据本发明示例性实施例的训练复合机器学习模型的各处理细节,这里将不再赘述计算装置执行各步骤时的处理细节。
以上已经描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,并且本发明也不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种利用复合机器学习模型来执行预测的方法,其中,所述复合机器学习模型包括至少两种类型的子模型,所述方法包括:
(A)获取预测数据记录;
(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;以及
(C)将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,
其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
2.如权利要求1所述的方法,其中,所述子模型包括至少一个线性子模型和至少一个决策树子模型。
3.如权利要求1所述的方法,其中,所述子模型包括至少一个上下层嵌套的复合子模型。
4.如权利要求3所述的方法,其中,所述复合子模型的上层模型为一个决策树模型部分,并且,所述复合子模型的下层模型为至少一个线性模型部分,其中,每个线性模型部分对应于决策树模型部分的一个叶子节点。
5.如权利要求2所述的方法,其中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的决策树特征子集和预测样本的线性特征子集。
6.如权利要求2所述的方法,其中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的决策树特征子集和预测样本的线性特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
7.如权利要求4所述的方法,其中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。
8.一种利用复合机器学习模型来执行预测的***,其中,所述复合机器学习模型包括至少两种类型的子模型,所述***包括:
预测数据记录获取装置,用于获取预测数据记录;
预测特征子集产生装置,用于基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;以及
预测装置,用于将预测样本的多个特征子集分别提供给复合机器学习模型所包括的子模型,以得到复合机器学习模型针对预测样本的预测结果,
其中,在所述复合机器学习模型中,所述子模型根据梯度提升框架训练而成。
9.一种训练复合机器学习模型的方法,其中,所述复合机器学习模型包括至少两种类型的子模型,所述方法包括:
(a)获取训练数据记录;
(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及
(c)根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。
10.一种训练复合机器学习模型的***,其中,所述复合机器学习模型包括至少两种类型的子模型,所述***包括:
训练数据记录获取装置,用于获取训练数据记录;
训练特征子集产生装置,用于基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及
训练装置,用于根据梯度提升框架来训练复合机器学习模型所包括的子模型,其中,每个子模型基于各自的特征子集来进行训练。
CN202110773264.0A 2017-05-05 2017-05-05 利用复合机器学习模型来执行预测的方法及*** Pending CN113570064A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110773264.0A CN113570064A (zh) 2017-05-05 2017-05-05 利用复合机器学习模型来执行预测的方法及***

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710311433.2A CN107169573A (zh) 2017-05-05 2017-05-05 利用复合机器学习模型来执行预测的方法及***
CN202110773264.0A CN113570064A (zh) 2017-05-05 2017-05-05 利用复合机器学习模型来执行预测的方法及***

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201710311433.2A Division CN107169573A (zh) 2017-05-05 2017-05-05 利用复合机器学习模型来执行预测的方法及***

Publications (1)

Publication Number Publication Date
CN113570064A true CN113570064A (zh) 2021-10-29

Family

ID=59813042

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110773264.0A Pending CN113570064A (zh) 2017-05-05 2017-05-05 利用复合机器学习模型来执行预测的方法及***
CN201710311433.2A Pending CN107169573A (zh) 2017-05-05 2017-05-05 利用复合机器学习模型来执行预测的方法及***

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710311433.2A Pending CN107169573A (zh) 2017-05-05 2017-05-05 利用复合机器学习模型来执行预测的方法及***

Country Status (1)

Country Link
CN (2) CN113570064A (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107845116B (zh) * 2017-10-16 2021-05-25 北京京东尚科信息技术有限公司 生成平面图像的压缩编码的方法和装置
CN109754105B (zh) * 2017-11-07 2024-01-05 华为技术有限公司 一种预测方法及终端、服务器
CN110147489B (zh) * 2017-11-27 2022-04-19 上海尚往网络科技有限公司 互联网用户信息预测方法
CN116882520A (zh) * 2017-12-20 2023-10-13 第四范式(北京)技术有限公司 针对预定预测问题的预测方法及***
CN107977683B (zh) * 2017-12-20 2021-05-18 南京大学 基于卷积特征提取和机器学习的联合sar目标识别方法
CN108665091A (zh) * 2018-04-07 2018-10-16 深圳供电局有限公司 一种基于机器学习的物资智能调度方法
CN108763314B (zh) * 2018-04-26 2021-01-19 深圳市腾讯计算机***有限公司 一种兴趣推荐方法、装置、服务器及存储介质
CN110414690A (zh) * 2018-04-28 2019-11-05 第四范式(北京)技术有限公司 利用机器学习模型执行预测的方法及装置
CN108921300A (zh) * 2018-06-21 2018-11-30 第四范式(北京)技术有限公司 执行自动机器学习的方法和装置
WO2020011068A1 (zh) * 2018-07-10 2020-01-16 第四范式(北京)技术有限公司 用于执行机器学习过程的方法和***
CN109102017B (zh) * 2018-08-09 2021-08-03 百度在线网络技术(北京)有限公司 神经网络模型处理方法、装置、设备及可读存储介质
CN109284313B (zh) * 2018-08-10 2021-08-27 深圳前海微众银行股份有限公司 基于半监督学习的联邦建模方法、设备及可读存储介质
CN109255442B (zh) * 2018-09-27 2022-08-23 北京百度网讯科技有限公司 基于人工智能的控制决策模块的训练方法、设备及可读介质
CN110968887B (zh) * 2018-09-28 2022-04-05 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和***
CN109558941A (zh) * 2018-11-16 2019-04-02 创新奇智(广州)科技有限公司 一种模型训练方法、存储介质及电子设备
CN109710925A (zh) * 2018-12-12 2019-05-03 新华三大数据技术有限公司 命名实体识别方法及装置
CN111523673B (zh) * 2019-02-01 2021-07-27 创新先进技术有限公司 模型训练方法、装置及***
CN110032551B (zh) * 2019-03-12 2023-07-25 创新先进技术有限公司 模型生成***、方法及预测***
CN111832591B (zh) * 2019-04-23 2024-06-04 创新先进技术有限公司 机器学习模型训练方法及装置
CN110210626A (zh) * 2019-05-31 2019-09-06 京东城市(北京)数字科技有限公司 数据处理方法、装置和计算机可读存储介质
CN112101562B (zh) * 2019-06-18 2024-01-30 第四范式(北京)技术有限公司 机器学习建模过程的实现方法和***
CN110647998B (zh) * 2019-08-12 2022-11-25 北京百度网讯科技有限公司 自动机器学习实现方法、***、设备及存储介质
CN110795424B (zh) * 2019-09-30 2024-05-14 北京淇瑀信息科技有限公司 特征工程变量数据请求处理方法、装置及电子设备
CN115423190A (zh) * 2019-11-27 2022-12-02 第四范式(北京)技术有限公司 训练模型的方法及***和预测序列数据的方法及***
US11544632B2 (en) * 2019-11-27 2023-01-03 Oracle International Corporation Non-intrusive load monitoring using ensemble machine learning techniques
CN111738534B (zh) * 2020-08-21 2020-12-04 支付宝(杭州)信息技术有限公司 多任务预测模型的训练、事件类型的预测方法及装置
US11797274B2 (en) * 2021-06-22 2023-10-24 Altered State Machine Limited Interoperable composite data units for use in distributed computing execution environments
CN115618218A (zh) * 2021-06-28 2023-01-17 京东科技控股股份有限公司 用于训练模型的方法、装置、设备以及存储介质
CN114493052B (zh) * 2022-04-08 2022-10-11 南方电网数字电网研究院有限公司 多模型融合自适应新能源功率预测方法和***
CN115392489A (zh) * 2022-10-31 2022-11-25 北京亿赛通科技发展有限责任公司 异常用户检测方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810117B (zh) * 2012-06-29 2016-02-24 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
JP5676692B2 (ja) * 2013-06-18 2015-02-25 ヤフー株式会社 機械学習装置、機械学習方法、およびプログラム
CN104850531A (zh) * 2014-02-19 2015-08-19 日本电气株式会社 一种建立数学模型的方法和装置
EP3110968B1 (en) * 2014-02-24 2019-04-17 Children's Hospital Medical Center Methods and compositions for personalized pain management
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN105677353A (zh) * 2016-01-08 2016-06-15 北京物思创想科技有限公司 特征抽取方法、机器学习方法及其装置

Also Published As

Publication number Publication date
CN107169573A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
CN113570064A (zh) 利用复合机器学习模型来执行预测的方法及***
US10958748B2 (en) Resource push method and apparatus
US11397887B2 (en) Dynamic tuning of training parameters for machine learning algorithms
CN107273979B (zh) 基于服务级别来执行机器学习预测的方法及***
EP4145308A1 (en) Search recommendation model training method, and search result sorting method and device
CN113610240A (zh) 利用嵌套机器学习模型来执行预测的方法及***
US10452992B2 (en) Interactive interfaces for machine learning model evaluations
CN113610239B (zh) 针对机器学习的特征处理方法及特征处理***
WO2019047790A1 (zh) 生成机器学习样本的组合特征的方法及***
AU2020385264B2 (en) Fusing multimodal data using recurrent neural networks
US20190057284A1 (en) Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及***
WO2019015631A1 (zh) 生成机器学习样本的组合特征的方法及***
US11734937B1 (en) Creating text classification machine learning models
CN116757297A (zh) 用于选择机器学习样本的特征的方法及***
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
CN111797927A (zh) 用于确定机器学习样本的重要特征的方法及***
CN111783893A (zh) 生成机器学习样本的组合特征的方法及***
CN114298323A (zh) 生成机器学习样本的组合特征的方法及***
CN116882520A (zh) 针对预定预测问题的预测方法及***
US20240193485A1 (en) System and method of operationalizing automated feature engineering
JP2024516656A (ja) 産業特定機械学習アプリケーション
US20230169389A1 (en) Domain adaptation
JP2023533962A (ja) インテリジェントな親和性ベースのフィールド更新の実行
US20240046292A1 (en) Intelligent prediction of lead conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination