CN107273979B - 基于服务级别来执行机器学习预测的方法及*** - Google Patents

基于服务级别来执行机器学习预测的方法及*** Download PDF

Info

Publication number
CN107273979B
CN107273979B CN201710427869.8A CN201710427869A CN107273979B CN 107273979 B CN107273979 B CN 107273979B CN 201710427869 A CN201710427869 A CN 201710427869A CN 107273979 B CN107273979 B CN 107273979B
Authority
CN
China
Prior art keywords
machine learning
learning model
basic
service level
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710427869.8A
Other languages
English (en)
Other versions
CN107273979A (zh
Inventor
陈雨强
戴文渊
杨强
罗远飞
涂威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201710427869.8A priority Critical patent/CN107273979B/zh
Publication of CN107273979A publication Critical patent/CN107273979A/zh
Application granted granted Critical
Publication of CN107273979B publication Critical patent/CN107273979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了一种基于服务级别来执行机器学习预测的方法及***,包括:(a)获取预测数据记录;(b)基于预测数据记录的属性信息来生成与服务级别对应的机器学习模型的预测样本,其中,基本机器学习模型的预测样本包括基本特征子集,或者,增强机器学习模型的预测样本包括基本特征子集和至少一个附加特征子集;(c)将预测样本提供给机器学习模型,以得到针对预测样本的预测结果,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型。由于针对服务级别来生成相应的机器学习样本,进而根据相应的特征设计和模型框架来实现机器学习,因此,可灵活有效地提供机器学习服务。

Description

基于服务级别来执行机器学习预测的方法及***
技术领域
本发明的示例性实施例总体说来涉及人工智能领域,更具体地说,涉及一种基于服务级别来执行机器学习预测的方法及***和一种基于服务级别来训练机器学习模型的方法及***。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,为了从海量数据中挖掘出价值,机器学习技术被应用于互联网、金融、安防等各种领域的具体场景中。
实践中,在提供机器学习应用的相关服务时,可从任何一个或多个方面来衡量这种服务的质量,比如,机器学习模型预测的准确性、稳定性、时效性、资源消耗性等等。与服务质量相关的因素很多,各因素之间的关系也比较复杂,往往需要综合考虑各个因素,例如,机器学习模型的模型算法、相关的数据规模、可利用的计算资源等。
在机器学习技术中,需要基于数据记录来产生适用于机器学习的训练和/或预测样本。这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。通过对数据记录的属性信息进行诸如特征工程等处理,可产生包括各种特征的机器学习样本。
数据记录的属性信息在形式或含义等方面各有特点,相应地,所产生的特征也会在形式或含义等方面存在各种差异。这种差异会直接影响到机器学习的服务质量,然而技术人员却难以有效地把握或利用这种影响。
因此,如何有效灵活地提供机器学习服务成为本领域关注的技术问题。
发明内容
本发明的示例性实施例旨在克服现有机器学习模型难以有效灵活地提供机器学习服务的问题。
根据本发明的示例性实施例,提供一种基于服务级别来执行机器学习预测的方法,包括:(a)获取预测数据记录;(b)基于预测数据记录的属性信息来生成与服务级别对应的机器学习模型的预测样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的预测样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的预测样本包括基本特征子集和至少一个附加特征子集;以及(c)将预测样本提供给与服务级别对应的机器学习模型,以得到针对预测样本的预测结果,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
可选地,在所述方法中,与服务级别对应的机器学习模型为预先基于所述服务级别训练出的唯一机器学习模型。
可选地,在所述方法中,与服务级别对应的机器学习模型为从预先基于多个服务级别训练出的多个机器学习模型之中选取的与所述服务级别对应的一个机器学习模型。
可选地,在所述方法中,服务级别用于衡量机器学习服务的至少一个方面相关。
可选地,在所述方法中,服务级别与机器学习模型的模型算法、数据规模和/或计算资源相关。
可选地,在所述方法中,通过由用户确定所述服务级别来选取与所述服务级别对应的机器学习模型;或者,通过自动确定所述服务级别来选取与所述服务级别对应的机器学习模型。
可选地,在所述方法中,附加特征基于基本特征而产生。
根据本发明的另一示例性实施例,提供一种基于服务级别来执行机器学习预测的介质,其中,在所述计算机可读介质上记录有用于执行上述任一方法的计算机程序。
根据本发明的另一示例性实施例,提供一种基于服务级别来执行机器学习预测的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行上述任一方法。
根据本发明的另一示例性实施例,提供一种基于服务级别来训练机器学习模型的方法,包括:(A)获取训练数据记录;(B)基于训练数据记录的属性信息来生成与服务级别对应的机器学习模型的训练样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的训练样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的训练样本包括基本特征子集和至少一个附加特征子集;以及(C)利用生成的训练样本来训练与服务级别对应的机器学习模型,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
可选地,在所述方法中,针对多个服务级别之中选择的服务级别来执行所述方法,以得到唯一机器学习模型。
可选地,在所述方法中,针对多个服务级别之中的每个服务级别来分别执行所述方法,以得到多个机器学习模型。
可选地,在所述方法中,在步骤(C)中,在训练增强机器学习模型的情况下,通过固定其中已经训练出的基本机器学习模型和附加子模型来依次训练剩余附加子模型。
可选地,在所述方法中,服务级别用于衡量机器学习服务的至少一个方面。
可选地,在所述方法中,服务级别与机器学习模型的模型算法、数据规模和/或计算资源相关。
可选地,在所述方法中,附加特征基于基本特征而产生。
可选地,在所述方法中,基本机器学习模型和各个附加子模型分别基于相同或不同的训练数据记录训练而成。
根据本发明的另一示例性实施例,提供一种基于服务级别来训练机器学习模型的介质,其中,在所述计算机可读介质上记录有用于执行上述任一方法的计算机程序。
根据本发明的另一示例性实施例,提供一种基于服务级别来训练机器学习模型的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行上述任一方法。
根据本发明的另一示例性实施例,提供一种基于服务级别来执行机器学习预测的***,包括:预测数据记录获取装置,用于获取预测数据记录;预测样本产生装置,用于基于预测数据记录的属性信息来生成与服务级别对应的机器学习模型的预测样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的预测样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的预测样本包括基本特征子集和至少一个附加特征子集;以及预测装置,用于将预测样本提供给与服务级别对应的机器学习模型,以得到针对预测样本的预测结果,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
可选地,在所述***中,与服务级别对应的机器学习模型为预先基于所述服务级别训练出的唯一机器学习模型。
可选地,在所述***中,与服务级别对应的机器学习模型为从预先基于多个服务级别训练出的多个机器学习模型之中选取的与所述服务级别对应的一个机器学习模型。
可选地,在所述***中,服务级别用于衡量机器学习服务的至少一个方面相关。
可选地,在所述***中,服务级别与机器学习模型的模型算法、数据规模和/或计算资源相关。
可选地,在所述***中,通过由用户确定所述服务级别来选取与所述服务级别对应的机器学习模型;或者,通过自动确定所述服务级别来选取与所述服务级别对应的机器学习模型。
可选地,在所述***中,附加特征基于基本特征而产生。
根据本发明的另一示例性实施例,提供一种基于服务级别来训练机器学习模型的***,包括:训练数据记录获取装置,用于获取训练数据记录;训练样本产生装置,用于基于训练数据记录的属性信息来生成与服务级别对应的机器学习模型的训练样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的训练样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的训练样本包括基本特征子集和至少一个附加特征子集;以及训练装置,用于利用生成的训练样本来训练与服务级别对应的机器学习模型,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
可选地,在所述***中,所述***针对多个服务级别之中选择的服务级别来执行处理,以得到唯一机器学习模型。
可选地,在所述***中,所述***针对多个服务级别之中的每个服务级别来分别执行处理,以得到多个机器学习模型。
可选地,在所述***中,训练装置在训练增强机器学习模型的情况下,通过固定其中已经训练出的基本机器学习模型和附加子模型来依次训练剩余附加子模型。
可选地,在所述***中,服务级别用于衡量机器学习服务的至少一个方面。
可选地,在所述***中,服务级别与机器学习模型的模型算法、数据规模和/或计算资源相关。
可选地,在所述***中,附加特征基于基本特征而产生。
可选地,在所述***中,基本机器学习模型和各个附加子模型分别基于相同或不同的训练数据记录训练而成。
在根据本发明示例性实施例的基于服务级别来执行机器学习预测和/或训练机器学习模型的方法及***中,针对服务级别来生成相应的机器学习样本,进而根据相应的特征设计和模型框架来实现机器学习,从而灵活有效地提供机器学习服务。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1示出根据本发明示例性实施例的基于服务级别来执行机器学习预测的***的框图;
图2示出根据本发明示例性实施例的基于服务级别来执行机器学习预测的方法的流程图;
图3示出根据本发明示例性实施例的基于服务级别来训练机器学习模型的***的框图;以及
图4示出根据本发明示例性实施例的基于服务级别来训练机器学习模型的方法的流程图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善***自身的性能。在计算机***中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式。根据本发明的示例性实施例,与机器学习应用场景相关的过程(例如,训练机器学习模型、提供机器学习预测结果、接收机器学习预测结果等过程)整体上可作为一种或多种机器学习服务,这里,所述机器学习服务可在线提供,也可离线提供。应注意,本发明的示例性实施例在训练和应用机器学习模型的过程中,还可利用统计算法、业务规则和/或专家知识等,以进一步提高机器学习的效果。
具体说来,本发明的示例性实施例涉及在机器学习服务中训练和/或利用机器学习模型,其中,基于服务级别来处理属性信息以生成各特征子集,进而基于相应的提升框架来训练机器学习模型或利用机器学习模型提供服务。这里,服务级别用于衡量机器学习服务的至少一个方面,例如,准确性、稳定性、时效性、资源消耗性等等。作为示例,服务级别可以与机器学习模型的模型算法、数据规模和/或计算资源等因素相关。根据本发明的示例性实施例,在服务级别被设定之后,可相应地确定机器学习模型的构成子模型以及相应的特征子集。这里,服务级别的具体划分方式并不受限,任何能够对服务质量进行区别的方式均可应用于本发明的示例性实施例。
图1示出根据本发明示例性实施例的基于服务级别来执行机器学习预测的***的框图。具体说来,所述预测***可用于针对预测样本,利用相应的机器学习模型来给出其关于特定业务问题(即,预测目标)的预测结果,其中,所述机器学习模型对应于服务级别而具备相应的一个或多个子模型,即,基本机器学习模型或附加子模型,这些子模型类型相同且遵循提升框架(例如,梯度提升框架等)。
这里,构成机器学习模型的基本机器学习模型或附加子模型在具体类型上不受限制,任何能够根据提升框架训练为复合结构的模型类型均可作为根据本发明示例性实施例的子模型。例如,基本机器学习模型和附加子模型可以是线性模型(例如,对数几率回归模型等)。
如上所述,根据本发明的示例性实施例,机器学习模型本身对应于服务级别,具体说来,针对特定服务级别,将利用相应的机器学习模型来执行预测,其中,所述机器学习模型具有基于提升框架的一个或多个子模型。应理解,与不同服务级别对应的机器学习模型在子模型的个数或每个子模型对应的特征子集等方面存在差异,通过这种方式,能够有效灵活地提供各种服务级别的机器学习服务。
图1所示的***可全部通过计算机程序以软件方式来实现,也可由专门的硬件装置来实现,还可通过软硬件结合的方式来实现。相应地,组成图1所示的***的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块,也可以是依靠硬件结构来实现所述功能的通用或专用器件,还可以是运行有相应计算机程序的处理器等。
图1所示,预测数据记录获取装置100用于获取预测数据记录。这些预测数据记录可由任何方以任何方式来产生,例如,可以是在线生成或收集的数据、预先生成或存储的数据、也可以是从外部接收的数据。这些数据的属性信息可涉及客户信息,例如,身份、学历、职业、资产、联系方式等信息。或者,这些数据的属性信息也可涉及业务相关项目的信息,例如,关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意,本发明的示例性实施例中提到的数据的属性可涉及任何对象或事务在某方面的表现或性质,而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。实际上,任何能够通过对其进行机器学习的信息数据均可应用于本发明的示例性实施例。
预测数据记录获取装置100可获取不同来源(例如,来源于数据提供商的数据、来源于互联网(例如,社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等)的结构化或非结构化数据,例如,文本数据或数值数据等。这些数据可通过输入装置输入到预测数据记录获取装置100,或者由预测数据记录获取装置100根据已有的数据来自动生成,或者可由预测数据记录获取装置100从网络上(例如,网络上的存储介质(例如,数据仓库))获得,此外,诸如服务器的中间数据交换装置可有助于预测数据记录获取装置100从外部数据源获取相应的数据。这里,获取的数据可被预测数据记录获取装置100中的文本分析模块等数据转换模块转换为容易处理的格式。应注意,预测数据记录获取装置100可被配置为由软件、硬件和/或固件组成的各个模块,这些模块中的某些模块或全部模块可被集成为一体或共同协作以完成特定功能。
预测样本产生装置200用于基于预测数据记录的属性信息来生成与服务级别对应的机器学习模型的预测样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的预测样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的预测样本包括基本特征子集和至少一个附加特征子集。
在预测***中,可采用任何适当的方式来确定服务级别,作为示例,服务级别可以是与模型训练一致的预设值,例如,假设在训练阶段仅得到与特定服务级别对应的机器学习模型,则在执行预测时,也需要利用所述特定服务级别来生成相应的预测样本,进而得到所述机器学习模型的预测结果。相应地,在这种情况下,在预测***中与服务级别对应的机器学习模型为预先基于所述服务级别训练出的唯一机器学习模型。
作为另一示例,可在预测***中独立确定服务级别,例如,假设在训练阶段得到与多个服务级别对应的多个机器学***台等软件***的交互接口来指定服务级别;或者,通过自动确定所述服务级别来选取与所述服务级别对应的机器学习模型,作为示例,可通过综合考虑影响服务级别的因素(例如,预测数据记录规模、计算资源、响应时间等)来自动确定适合的服务级别。
这里,取决于机器学习模型所对应的服务级别,预测样本产生装置200所产生的预测样本可仅包括基本特征子集(在服务级别为基本服务级别的情况下);或者,除了基本特征子集之外,预测样本可进一步包括一个或多个附加特征子集(在服务级别为增强服务级别的情况下),可以看出,预测样本中的附加特征子集整体上对应于某种具体的增强服务级别,也就是说,不同增强服务级别下的预测样本的附加特征子集整体上存在差异,例如,附加特征子集的数量不同、至少一部分附加特征子集的特征并不相同等。
作为示例,预测样本产生装置200可通过对预测数据记录的属性信息进行筛选、分组或进一步附加处理等而得到多个特征,并通过对所述多个特征进行划分而得到预测样本的基本特征子集和/或附加特征子集(其中,每个特征可被划分到一个或多个子集中),这里,预测样本与预测数据记录对应,通常可作为机器学习模型的直接输入。根据本发明的示例性实施例,预测样本产生装置200可按照任何适当的方式来生成特征子集,例如,可考虑属性信息的内容、含义、取值连续性、取值范围、取值空间规模、缺失性、重要性等因素,或者,可结合增强机器学习模型中的子模型特点等。通过附加特征子集的设计,可利用基于提升框架训练出的增强机器学习模型来提供各种非基本级别的机器学习服务。
作为示例,预测样本产生装置200可基于基本特征子集中的基本特征来产生附加特征子集中的附加特征,也就是说,附加特征基于基本特征而产生。例如,预测样本产生装置200可将基本特征的组合作为附加特征。这里,预测样本产生装置200可通过对基本特征进行任何适当的变换来得到附加特征。相应地,随着附加特征经由附加子模型而引入到机器学习中,能够有效地影响机器学习预测服务的级别。
预测装置300用于将预测样本提供给与服务级别对应的机器学习模型,以得到针对预测样本的预测结果。这里,预测装置300可将预测样本的各个特征子集对应地提供给机器学习模型的各个子模型,例如,将基本特征子集提供给基本机器学习模型,将附加特征子集提供给相应的附加子模型。也就是说,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。特别地,假设所述与服务级别对应的机器学习模型为增强机器学习模型,则增强机器学习模型可包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型。
具体说来,预测装置300可向机器学习模型的每个子模型(即,基本机器学习模型或附加子模型)分别提供预测样本中相应的特征子集,这里,任意两个子模型可被提供完全相同、部分相同或完全不同的特征子集。也就是说,机器学习模型的各个子模型针对其被提供的特征子集来执行预估,相应地,可综合所有子模型的预估结果而得到机器学习模型整体针对预测样本的预测结果。特别地,预测装置300可丢弃某些特征子集,即,不将这些特征子集提供给相应的子模型,由此导致所述相应的子模型不工作或仅提供预设的默认值。
以下将参照图2来描述根据本发明示例性实施例的基于服务级别来执行机器学习预测的方法的流程图。这里,作为示例,图2所示的方法可由图1所示的预测***来执行,也可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图2所示的方法。
为了描述方便,假设图2所示的方法由图1所示的预测***来执行,如图所示,在步骤S100中,由预测数据记录获取装置100获取预测数据记录。
这里,作为示例,每条预测数据记录可对应于关于特定预测问题的一个待预测项(例如,事件或对象),相应地,预测数据记录可包括反映事件或对象在某方面的表现或性质(即,属性)的各种属性信息。通过对这些属性信息进行相应的筛选、分组或处理,可进一步获取用于进行机器学习的样本特征。这里,预测数据记录获取装置100可通过手动、半自动或全自动的方式来采集数据,作为示例,预测数据记录获取装置100可批量地采集数据。
预测数据记录获取装置100可通过输入装置(例如,工作站)接收用户手动输入的预测数据记录。此外,预测数据记录获取装置100可通过全自动的方式从数据源***地取出预测数据记录,例如,通过以软件、固件、硬件或其组合实现的定时器机制来***地请求数据源并从响应中得到所请求的数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式,其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下,可在没有人工干预的情况下自动进行数据采集,但应注意,在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了定时器机制。在这种情况下,在接收到特定的用户输入的情况下,才产生提取数据的请求。每次获取数据时,优选地,可将捕获的数据存储在非易失性存储器中。作为示例,可利用数据仓库来存储在获取期间采集的数据。可选地,可借助硬件集群(诸如Hadoop集群)对采集到的数据进行存储和/或后续处理,例如,存储、分类和其他离线操作。此外,也可对采集的数据进行在线的流处理。
作为示例,预测数据记录获取装置100中可包括文本分析模块等数据转换模块,用于将文本等非结构化数据转换为更易于使用的结构化数据以进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、可疑交易报告等。
接下来,在步骤S200中,由预测样本产生装置200基于预测数据记录的属性信息来生成与服务级别对应的机器学习模型的预测样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的预测样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的预测样本包括基本特征子集和至少一个附加特征子集。
这里,在将预测数据记录转换为可直接输入与服务级别相应的机器学习模型的预测样本的过程中,可基于各属性信息来生成预测样本的各个特征子集中的基本特征或附加特征。根据本发明的示例性实施例,预测样本可具有多个特征子集,每个子模型具有各自的特征子集。
如上所述,服务级别可以是预设好的级别,或者,服务级别可从多个候选级别中进行选取。在这种情况下,预测样本产生装置200还需根据用户指示或根据应用情景来选择预测时所使用的服务级别。在服务级别被确定的情况下,相应的机器学习模型得以确定或选中。
此外,预测样本产生装置200可采用任何适当的方式,基于预测数据记录的属性信息来产生预测样本的相应特征,并将这些特征按照特定方式组合为各个特征子集。应注意,预测样本产生装置200在产生特征子集时,可依据任何与属性信息、子模型或数据等有关的因素,以使得基于各个特征子集的子模型在提升框架下相应地影响机器学习服务的质量,因此,本发明的示例性实施例并不限制特征子集的具体产生方式。
这里,在基于属性信息来产生特征的过程中,不仅可进行属性信息的筛选或分组,还可对筛选或分组得到的属性信息进行进一步处理,即,作为可选方式,预测样本产生装置200可对获取的预测数据记录进行特征工程处理,例如,预测样本产生装置200可对预测数据记录的原始属性信息进行诸如离散化、字段组合、提取部分字段值、取整等各种特征工程的处理,并将处理后的特征按照特定规则组合为各个特征子集。
作为示例,预测样本产生装置200在产生预测样本的过程中,可基于基本特征来产生附加特征。这里,预测样本产生装置200可通过对至少一个基本特征执行诸如离散化、特征组合、提取部分字段值、取整等来产生附加特征。例如,预测样本产生装置200可通过对基本特征进行组合来产生附加特征,这里,在组合基本特征的同时,作为可选方式,还可执行其他额外的处理。
在步骤S300中,由预测装置300将预测样本提供给与服务级别对应的机器学习模型,以得到针对预测样本的预测结果,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
这里,机器学习模型可保存在图1所示的预测***之中,或者,机器学习模型可保存在图1所示的预测***之外;作为示例,可由预测装置300或其他装置读取所述机器学习模型,使得预测装置300可直接将预测样本提供给读取出的机器学习模型的子模型(即,基本特征模型或附加子模型)。
另外,机器学习模型也可始终位于图1所示的预测***之外,而由预测装置300直接或经由其他装置将训练样本提供给位于外部的机器学习模型。在这种情况下,预测装置300还可从外部接收机器学习模型的预测结果。
在提升框架下,各个子模型的预测结果被叠加,作为可选方式,叠加结果可经过预先定义的变换以得到最终的预测结果。通过这种方式,可经由特征子集的设计,在提升框架下,经由不同的子模型构成来提供特定级别的机器学习服务。
以下结合图3和图4来描述根据本发明示例性实施例的基于服务级别来训练机器学习模型的***及其训练方法。
根据本发明的示例性实施例,所述机器学习模型可包括基本机器学习模型,或者,还可额外包括与基本机器学习模型相同类型的附加子模型,并且,根据提升框架来训练作为子模型的基本机器学习模型和附加子模型。这里,子模型在数量上可以是一个或多个,不同子模型可具有完全相同、部分相同或完全不同的特征子集。
具体说来,图3示出根据本发明示例性实施例的基于服务级别来训练机器学习模型的***的框图。图3所示的训练***可全部通过计算机程序以软件方式来实现,也可由专门的硬件装置来实现,还可通过软硬件结合的方式来实现。相应地,组成图3所示的训练***的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块,也可以是依靠硬件结构来实现所述功能的通用或专用器件,还可以是运行有相应计算机程序的处理器等。
如图3所示,训练数据记录获取装置1000用于获取训练数据记录。这里,训练数据记录获取装置1000可采用各种适当的方式来离线或在线地获取训练数据记录。根据本发明的示例性实施例,训练数据记录获取装置1000可采用与预测数据记录获取装置100类似的方式来执行操作,只不过两者获取的具体数据不同,因此这里将不再对其进行详细描述。在有监督学习的情况下,由训练数据记录获取装置1000获取的训练数据记录除了包括各种属性信息之外,还包括该条数据记录相对于预测问题的标记(label)。
训练样本产生装置2000用于基于训练数据记录的属性信息来生成与服务级别对应的机器学习模型的训练样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的训练样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的训练样本包括基本特征子集和至少一个附加特征子集。这里,训练样本产生装置2000可按照任何适当的方式来生成特征子集,例如,可考虑属性信息的内容、含义、取值连续性、取值范围、取值空间规模、缺失性、重要性等因素,或者,可结合机器学习模型中的子模型特点等,使得基于特征子集的各个子模型能够有效地从某个或某些方面来影响机器学习服务的级别。根据本发明的示例性实施例,训练样本产生装置2000可按照与预测样本产生装置200对应的方式来生成训练样本的各个特征,即,训练样本与特征样本在特征和特征子集方面均具有对应性。应理解,由于实践中预测数据记录相对于训练数据记录可能会存在一些缺失的属性信息,因此,在预测样本产生装置200生成与缺失属性信息有关的特征时,预测数据记录中的相应缺失属性信息可被设为零值或默认值。
根据本发明的示例性实施例,各个子模型之间基于提升框架训练而成,相应地,各个子模型分别对应于训练样本中的相应特征子集来进行训练。
由此可见,基本机器学习模型和各个附加子模型可分别基于相同或不同的训练数据记录训练而成。例如,所有子模型均可基于全体训练数据记录训练而成,或者,也可分别基于从全体训练数据记录中采样的一部分训练数据记录训练而成。作为示例,可根据预设的采样策略为每个子模型分配相应的训练数据记录,例如,可将较多的训练数据记录分配给基本机器学习模型,而将较少的训练数据记录分配给附加子模型,这里,不同子模型分配的训练数据记录之间可具有一定比例的交集或者完全没有交集。通过根据采样策略来确定各个子模型所使用的训练数据记录,可进一步提升整个机器学习模型的效果。
训练装置3000用于利用生成的训练样本来训练与服务级别对应的机器学习模型,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
具体说来,训练装置3000可根据提升框架(例如,梯度提升框架)来训练机器学习模型所包括的类型相同的各个子模型(即,基本机器学习模型和附加子模型),其中,每个子模型基于各自的特征子集来进行训练。这里,训练装置3000可基于载入的模型训练配置来逐阶段(stage)地训练出机器学习模型所包括的子模型。具体说来,在首阶段训练基本机器学习模型时,训练装置3000可根据配置的参数来执行初始化处理。此外,在后续每一阶段训练附加子模型时,可根据载入的模型训练配置来确定本阶段所训练的子模型的特征子集划分。在训练出所有的子模型之后,可相应地得到完整的机器学习模型,该机器学习模型可被存储在图3的***中以便后续使用,或者,可将训练出的机器学习模型提供给外部***或装置。
作为示例,在训练增强机器学习模型的情况下,训练装置3000可通过固定其中已经训练出的基本机器学习模型和附加子模型来依次训练剩余附加子模型。也就是说,对于已经训练出来的子模型,可固定这些子模型的系数,使得在训练后续的子模型时,能够节省运算量。
以下将参照图4来描述根据本发明示例性实施例的基于服务级别来训练机器学习模型的方法的流程图。这里,作为示例,图4所示的方法可由图3所示的训练***来执行,也可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图4所示的方法。
为了描述方便,假设图4所示的方法由图3所示的训练***来执行,如图所示,在步骤S1000中,由训练数据记录获取装置1000获取训练数据记录。这里,可按照与步骤S100类似的方式来执行步骤S1000,只不过在这两个步骤中获取的具体数据不同,例如,在有监督学习的情况下,训练数据记录除了包括各种属性信息之外,还包括该条数据记录相对于预测问题的标记(label)。
接下来,在步骤S2000中,由训练样本产生装置2000基于训练数据记录的属性信息来生成与服务级别对应的机器学习模型的训练样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的训练样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的训练样本包括基本特征子集和至少一个附加特征子集。应理解,可按照与步骤S200对应的方式来执行步骤S2000,只是在训练样本中除了特征子集之外,还需要包括相应的标记,因此,这里将不再赘述某些重复内容和细节。
在步骤S3000中,训练装置3000可利用生成的训练样本来训练与服务级别对应的机器学习模型,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
具体说来,训练装置3000可配置机器学习模型的以下项目之中的至少一个:子模型总数、子模型参数、子模型参数变化方式。所形成的模型训练配置可用于指导后续针对各个子模型的每阶段训练。特别地,在该步骤中,可将子模型参数设置为逐渐变化。通过这种参数自适应(parameter adaptation),可允许模型总体参数(如学习率)和子模型参数(如线性模型迭代轮数、正则化系数等)进行逐渐变化。
这里,训练装置3000可首先利用由基本特征子集连同标记组成的训练样本来训练得到基本机器学习模型。
在此基础上,提升框架下的增强机器学习模型可表示为基本机器学习模型和至少一个附加子模型的拼接结果,该结果可对应于一个相对较强的模型。这里,基本机器学习模型对应于基本服务级别,而不同增强机器学习模型由于其中所包括的附加子模型整体上各不相同,所以对应于各自的增强服务级别。
作为示例,在训练得出基本机器学习模型之后,进一步训练增强机器学习模型之中的各个附加子模型的过程均可抽象为在已经训练好的子模型的基础上,根据提升框架来依次训练后续的附加子模型的过程。此处,已经训练好的子模型可以是基本机器学习模型,也可以是基本机器学习模型和附加子模型的集合。
假设增强机器学习模型表示为F,这里,F可由m个子模型f组成(此处,将基本机器学习模型和附加子模型统一用符号f表示),假设输入数据记录表示为x,在经过相应的样本产生装置的处理之后,第k个子模型对应的样本部分的特征为xk。相应地,可按照以下的等式1来构建增强机器学习模型F:
Figure BDA0001316648140000161
根据本发明的示例性实施例,每个子模型的输入可对应于特征子集,该特征子集可看做通过对输入数据记录进行特征变换(例如,Φk())而获得,即xk=Φk(x)。也就是说,等式1限定的增强机器学习模型可表示为如以下的等式2所示:
Figure BDA0001316648140000162
也就是说,在本发明的示例性实施例中,每个子模型为fkk(x))。相应地,每一阶段可训练出一个相应的子模型。
具体说来,假设已经完成了m个子模型的训练,可相应地得到由m个子模型构成的机器学习模型
Figure BDA0001316648140000163
假设存在基于N(N为大于1的整数)个训练数据记录得到的训练样本集D={(Φ(xi),yi)|i=1,2,…,N},其中,xi指示第i个训练数据记录,Φ(xi)为相应的训练样本特征,yi为xi的标记,此外,假设损失函数为l,则Fm(x)在训练样本集D上的总损失可表示为下面的等式3:
Figure BDA0001316648140000164
在以下描述中,可省略上述表达式中的D,仅写为L(Fm)。
在当前已经训练出m个子模型的情况下,可通过最小化函数来获得第m+1个子模型fm+1,即:
Figure BDA0001316648140000165
一般来说,上述最小化没有闭式解,因此,需要针对不同类型的f进行相应的迭代处理。
作为示例,假设子模型均为线性子模型(例如,对数几率回归模型),增强机器学习模型可表示为:
Figure BDA0001316648140000171
在上式中,fk表示已经训练完成的各个线性子模型,
Figure BDA0001316648140000172
部分指当前需要训练的线性子模型。相应地,可按照下面的等式来更新当前线性子模型的系数:
Figure BDA0001316648140000173
在上式中,
Figure BDA0001316648140000174
为xi经训练样本产生装置后,产生的对应第k个子模型的训练样本特征;λ、γ是正则化系数(regularizer coefficient),用来控制线性子模型的复杂度。这里,可以使用FTRL-Proximal算法来迭代求解wm+1
以上列出了子模型的示例性训练方式,然而,应理解,本发明的示例性实施例并不受限于上述示例。例如,在训练机器学习模型时,各个子模型不必受限于在同样的训练数据空间中进行训练,也就是说,各个子模型可基于各自的训练数据空间。这样,每个子模型所基于的训练数据记录可以完全相同、部分相同或完全不同。
本领域技术人员可采用任何适当的方式,依次训练出增强机器学习模型所包括的各个子模型。对于某个增强机器学习模型而言,其所包含的一个或多个附加子模型整体上可体现出相应的服务级别。不同增强机器学习模型的服务级别差异主要源于各自的附加子模型部分存在区别。
根据本发明的示例性实施例,可仅针对预设的某个服务级别来训练与其相应的唯一机器学习模型(基本机器学习模型或增强机器学习模型),即,针对多个服务级别之中选择的服务级别来执行模型训练方法,以得到唯一机器学习模型。或者,也可针对多个服务级别分别训练出多个机器学习模型(包括基本机器学习模型和/或至少一个增强机器学习模型),即,针对多个服务级别之中的每个服务级别来分别执行模型训练方法,以得到多个机器学习模型。
如上所述,在训练增强机器学习模型的情况下,可通过固定其中已经训练出的基本机器学习模型和附加子模型来依次训练剩余附加子模型。因此,在训练多个增强机器学习模型的情况下,对于具有共同被固定子模型的训练任务而言,可以容易地执行并行训练,以进一步提高运算效率。
应理解,图1和图3所示出的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的单元或模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
以上参照图1和图2描述了根据本发明示例性实施例的基于服务级别来执行机器学习预测的***和方法。应理解,上述预测方法可通过记录在计算可读介质上的程序来实现,相应地,根据本发明的示例性实施例,可提供一种基于服务级别来执行机器学习预测的介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:(a)获取预测数据记录;(b)基于预测数据记录的属性信息来生成与服务级别对应的机器学习模型的预测样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的预测样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的预测样本包括基本特征子集和至少一个附加特征子集;以及(c)将预测样本提供给与服务级别对应的机器学习模型,以得到针对预测样本的预测结果,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
以上参照图3和图4描述了根据本发明示例性实施例的基于服务级别来训练机器学习模型的***和方法。应理解,上述训练方法可通过记录在计算可读介质上的程序来实现,相应地,根据本发明的示例性实施例,可提供一种基于服务级别来训练机器学习模型的介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:(A)获取训练数据记录;(B)基于训练数据记录的属性信息来生成与服务级别对应的机器学习模型的训练样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的训练样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的训练样本包括基本特征子集和至少一个附加特征子集;以及(C)利用生成的训练样本来训练与服务级别对应的机器学习模型,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1到图4进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的预测***或训练***可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个***通过专门的软件包(例如,lib库)而被调用,以实现相应的预测功能。
另一方面,图1或图3所示的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
这里,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行利用机器学习模型来执行预测的方法和/或训练所述机器学习模型的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制***或***管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的预测方法和训练方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的预测方法和/或训练方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
具体说来,如上所述,根据本发明示例性实施例的基于服务级别来执行机器学习预测的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(a)获取预测数据记录;(b)基于预测数据记录的属性信息来生成与服务级别对应的机器学习模型的预测样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的预测样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的预测样本包括基本特征子集和至少一个附加特征子集;以及(c)将预测样本提供给与服务级别对应的机器学习模型,以得到针对预测样本的预测结果,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
应注意,以上已经结合图1和图2描述了根据本发明示例性实施例的基于服务级别来执行机器学习预测的各处理细节,这里将不再赘述计算装置执行各步骤时的处理细节。
另外,根据本发明示例性实施例的基于服务级别来训练机器学习模型的计算装置可包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)获取训练数据记录;(B)基于训练数据记录的属性信息来生成与服务级别对应的机器学习模型的训练样本,其中,与服务级别之中的基本服务级别对应的基本机器学习模型的训练样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的训练样本包括基本特征子集和至少一个附加特征子集;以及(C)利用生成的训练样本来训练与服务级别对应的机器学习模型,其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
应注意,以上已经结合图3和图4描述了根据本发明示例性实施例的基于服务级别来训练机器学习模型的各处理细节,这里将不再赘述计算装置执行各步骤时的处理细节。
以上已经描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,并且本发明也不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (34)

1.一种由计算装置基于服务级别来执行机器学习预测的方法,包括:
(a)获取预测数据记录;
(b)基于预测数据记录的属性信息来生成与服务级别对应的机器学习模型的预测样本,其中,服务级别与机器学习模型的模型算法、数据规模和/或计算资源相关,与服务级别之中的基本服务级别对应的基本机器学习模型的预测样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的预测样本包括基本特征子集和至少一个附加特征子集;以及
(c)将预测样本提供给与服务级别对应的机器学习模型,以得到针对预测样本的预测结果,
其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
2.如权利要求1所述的方法,其中,与服务级别对应的机器学习模型为预先基于所述服务级别训练出的唯一机器学习模型。
3.如权利要求1所述的方法,其中,与服务级别对应的机器学习模型为从预先基于多个服务级别训练出的多个机器学习模型之中选取的与所述服务级别对应的一个机器学习模型。
4.如权利要求1所述的方法,其中,服务级别用于衡量机器学习服务的至少一个方面相关。
5.如权利要求3所述的方法,其中,通过由用户确定所述服务级别来选取与所述服务级别对应的机器学习模型;或者,通过自动确定所述服务级别来选取与所述服务级别对应的机器学习模型。
6.如权利要求1所述的方法,其中,附加特征基于基本特征而产生。
7.如权利要求1所述的方法,其中,所述预测数据记录为互联网、金融或安防领域的数据,以及所述预测数据记录包括如下中的一种或多种:来源于数据提供商的数据、来源于互联网的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据和来源于信用机构的数据,其中,所述属性信息包括:客户信息和/或业务相关项目的信息。
8.一种基于服务级别来执行机器学习预测的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如权利要求1到7中的任一权利要求所述的方法的计算机程序。
9.一种基于服务级别来执行机器学习预测的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如权利要求1到7中的任一权利要求所述的方法。
10.一种由计算装置基于服务级别来训练机器学习模型的方法,包括:
(A)获取训练数据记录;
(B)基于训练数据记录的属性信息来生成与服务级别对应的机器学习模型的训练样本,其中,服务级别与机器学习模型的模型算法、数据规模和/或计算资源相关,与服务级别之中的基本服务级别对应的基本机器学习模型的训练样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的训练样本包括基本特征子集和至少一个附加特征子集;以及
(C)利用生成的训练样本来训练与服务级别对应的机器学习模型,
其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
11.如权利要求10所述的方法,其中,针对多个服务级别之中选择的服务级别来执行所述方法,以得到唯一机器学习模型。
12.如权利要求10所述的方法,其中,针对多个服务级别之中的每个服务级别来分别执行所述方法,以得到多个机器学习模型。
13.如权利要求10所述的方法,其中,在步骤(C)中,在训练增强机器学习模型的情况下,通过固定其中已经训练出的基本机器学习模型和附加子模型来依次训练剩余附加子模型。
14.如权利要求10所述的方法,其中,服务级别用于衡量机器学习服务的至少一个方面。
15.如权利要求10所述的方法,其中,附加特征基于基本特征而产生。
16.如权利要求13所述的方法,其中,基本机器学习模型和各个附加子模型分别基于相同或不同的训练数据记录训练而成。
17.如权利要求10所述的方法,其中,所述训练数据记录为互联网、金融或安防领域的数据,以及所述训练数据记录包括如下中的一种或多种:来源于数据提供商的数据、来源于互联网的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据和来源于信用机构的数据,其中,所述属性信息包括:客户信息和/或业务相关项目的信息。
18.一种基于服务级别来训练机器学习模型的介质,其中,在所述计算机可读介质上记录有用于执行如权利要求10到17中的任一权利要求所述的方法的计算机程序。
19.一种基于服务级别来训练机器学习模型的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如权利要求10到17中的任一权利要求所述的方法。
20.一种基于服务级别来执行机器学习预测的***,包括:
预测数据记录获取装置,用于获取预测数据记录;
预测样本产生装置,用于基于预测数据记录的属性信息来生成与服务级别对应的机器学习模型的预测样本,其中,服务级别与机器学习模型的模型算法、数据规模和/或计算资源相关,与服务级别之中的基本服务级别对应的基本机器学习模型的预测样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的预测样本包括基本特征子集和至少一个附加特征子集;以及
预测装置,用于将预测样本提供给与服务级别对应的机器学习模型,以得到针对预测样本的预测结果,
其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
21.如权利要求20所述的***,其中,与服务级别对应的机器学习模型为预先基于所述服务级别训练出的唯一机器学习模型。
22.如权利要求20所述的***,其中,与服务级别对应的机器学习模型为从预先基于多个服务级别训练出的多个机器学习模型之中选取的与所述服务级别对应的一个机器学习模型。
23.如权利要求20所述的***,其中,服务级别用于衡量机器学习服务的至少一个方面相关。
24.如权利要求22所述的***,其中,通过由用户确定所述服务级别来选取与所述服务级别对应的机器学习模型;或者,通过自动确定所述服务级别来选取与所述服务级别对应的机器学习模型。
25.如权利要求20所述的***,其中,附加特征基于基本特征而产生。
26.如权利要求20所述的***,其中,所述预测数据记录为互联网、金融或安防领域的数据,以及所述预测数据记录包括如下中的一种或多种:来源于数据提供商的数据、来源于互联网的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据和来源于信用机构的数据,其中,所述属性信息包括:客户信息和/或业务相关项目的信息。
27.一种基于服务级别来训练机器学习模型的***,包括:
训练数据记录获取装置,用于获取训练数据记录;
训练样本产生装置,用于基于训练数据记录的属性信息来生成与服务级别对应的机器学习模型的训练样本,其中,服务级别与机器学习模型的模型算法、数据规模和/或计算资源相关,与服务级别之中的基本服务级别对应的基本机器学习模型的训练样本包括基本特征子集,或者,与服务级别之中的增强服务级别对应的增强机器学习模型的训练样本包括基本特征子集和至少一个附加特征子集;以及
训练装置,用于利用生成的训练样本来训练与服务级别对应的机器学习模型,
其中,增强机器学习模型包括基本机器学习模型以及与基本机器学习模型类型相同且根据提升框架训练而成的至少一个附加子模型,其中,基本机器学习模型对应于基本特征子集,附加子模型对应于附加特征子集。
28.如权利要求27所述的***,其中,所述***针对多个服务级别之中选择的服务级别来执行处理,以得到唯一机器学习模型。
29.如权利要求27所述的***,其中,所述***针对多个服务级别之中的每个服务级别来分别执行处理,以得到多个机器学习模型。
30.如权利要求27所述的***,其中,训练装置在训练增强机器学习模型的情况下,通过固定其中已经训练出的基本机器学习模型和附加子模型来依次训练剩余附加子模型。
31.如权利要求27所述的***,其中,服务级别用于衡量机器学习服务的至少一个方面。
32.如权利要求27所述的***,其中,附加特征基于基本特征而产生。
33.如权利要求30所述的***,其中,基本机器学习模型和各个附加子模型分别基于相同或不同的训练数据记录训练而成。
34.如权利要求27所述的***,其中,所述训练数据记录为互联网、金融或安防领域的数据,以及所述训练数据记录包括如下中的一种或多种:来源于数据提供商的数据、来源于互联网的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据和来源于信用机构的数据,其中,所述属性信息包括:客户信息和/或业务相关项目的信息。
CN201710427869.8A 2017-06-08 2017-06-08 基于服务级别来执行机器学习预测的方法及*** Active CN107273979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710427869.8A CN107273979B (zh) 2017-06-08 2017-06-08 基于服务级别来执行机器学习预测的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710427869.8A CN107273979B (zh) 2017-06-08 2017-06-08 基于服务级别来执行机器学习预测的方法及***

Publications (2)

Publication Number Publication Date
CN107273979A CN107273979A (zh) 2017-10-20
CN107273979B true CN107273979B (zh) 2020-12-01

Family

ID=60066046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710427869.8A Active CN107273979B (zh) 2017-06-08 2017-06-08 基于服务级别来执行机器学习预测的方法及***

Country Status (1)

Country Link
CN (1) CN107273979B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416363A (zh) * 2018-01-30 2018-08-17 平安科技(深圳)有限公司 机器学习模型的生成方法、装置、计算机设备及存储介质
CN110188910B (zh) * 2018-07-10 2021-10-22 第四范式(北京)技术有限公司 利用机器学习模型提供在线预测服务的方法及***
CN110766164A (zh) * 2018-07-10 2020-02-07 第四范式(北京)技术有限公司 用于执行机器学习过程的方法和***
US11094317B2 (en) * 2018-07-31 2021-08-17 Samsung Electronics Co., Ltd. System and method for personalized natural language understanding
CN111832735B (zh) * 2019-04-18 2024-06-18 第四范式(北京)技术有限公司 基于模板来执行机器学习过程的方法和***
CN111985637A (zh) * 2019-05-21 2020-11-24 苹果公司 具有多个处理任务的条件执行的机器学习模型
CN111523676B (zh) * 2020-04-17 2024-04-12 第四范式(北京)技术有限公司 辅助机器学习模型上线的方法及装置
CN115618218A (zh) * 2021-06-28 2023-01-17 京东科技控股股份有限公司 用于训练模型的方法、装置、设备以及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2953959C (en) * 2014-06-30 2021-02-02 Amazon Technologies, Inc. Feature processing recipes for machine learning
WO2017040663A1 (en) * 2015-09-01 2017-03-09 Skytree, Inc. Creating a training data set based on unlabeled textual data
CN105760950B (zh) * 2016-02-05 2018-09-11 第四范式(北京)技术有限公司 提供或获取预测结果的方法、装置以及预测***
CN106407999A (zh) * 2016-08-25 2017-02-15 北京物思创想科技有限公司 结合规则来进行机器学习的方法及***
CN106503787B (zh) * 2016-10-26 2019-02-05 腾讯科技(深圳)有限公司 一种获取游戏数据的方法及电子设备

Also Published As

Publication number Publication date
CN107273979A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107273979B (zh) 基于服务级别来执行机器学习预测的方法及***
US11379755B2 (en) Feature processing tradeoff management
US20230126005A1 (en) Consistent filtering of machine learning data
US11386128B2 (en) Automatic feature learning from a relational database for predictive modelling
US10452992B2 (en) Interactive interfaces for machine learning model evaluations
CN113570064A (zh) 利用复合机器学习模型来执行预测的方法及***
US11100420B2 (en) Input processing for machine learning
US11182691B1 (en) Category-based sampling of machine learning data
EP3161635B1 (en) Machine learning service
US10963810B2 (en) Efficient duplicate detection for machine learning data sets
US10339465B2 (en) Optimized decision tree based models
CN106067080B (zh) 提供可配置工作流能力
CN107871166B (zh) 针对机器学习的特征处理方法及特征处理***
US10078843B2 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
CN111797928A (zh) 生成机器学习样本的组合特征的方法及***
WO2019015631A1 (zh) 生成机器学习样本的组合特征的方法及***
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及***
CN113610240A (zh) 利用嵌套机器学习模型来执行预测的方法及***
CN104937544B (zh) 用于计算任务结果的方法、计算机可读介质和计算机***
CN116757297A (zh) 用于选择机器学习样本的特征的方法及***
CN113822440A (zh) 用于确定机器学习样本的特征重要性的方法及***
CN111797927A (zh) 用于确定机器学习样本的重要特征的方法及***
CN111783893A (zh) 生成机器学习样本的组合特征的方法及***
KR20200029387A (ko) 캐시 최적화 및 효율적인 프로세싱을 위한 데이터 집성 방법
CN114298323A (zh) 生成机器学习样本的组合特征的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant