CN112149838A - 实现自动构建模型的方法、装置、电子设备和存储介质 - Google Patents

实现自动构建模型的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112149838A
CN112149838A CN202010917901.2A CN202010917901A CN112149838A CN 112149838 A CN112149838 A CN 112149838A CN 202010917901 A CN202010917901 A CN 202010917901A CN 112149838 A CN112149838 A CN 112149838A
Authority
CN
China
Prior art keywords
data
model
online
application
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010917901.2A
Other languages
English (en)
Inventor
张世健
周振华
王明
石光川
张陈丞
章进洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202010917901.2A priority Critical patent/CN112149838A/zh
Publication of CN112149838A publication Critical patent/CN112149838A/zh
Priority to PCT/CN2021/116497 priority patent/WO2022048648A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例涉及实现自动构建模型的方法、装置、电子设备和存储介质。实现自动构建模型的方法包括:基于指定业务场景的指定任务,获取指定任务的相关数据;响应指定任务的AI应用创建指令,获取AI应用配置信息;基于AI应用配置信息,创建AI应用;其中,AI应用为服务程序实例,至少用于基于相关数据和AI应用配置信息进行模型方案探索,得到模型方案;响应AI应用的启动指令,将AI应用部署上线,以获取指定任务的线上相关数据;其中,AI应用还用于基于线上相关数据和模型方案,进行模型自学习,得到在线模型。可见,对于不具有机器学习专业知识的人员,能够通过指定业务场景、任务和AI应用配置信息,实现模型自动构建,降低模型构建成本。

Description

实现自动构建模型的方法、装置、电子设备和存储介质
技术领域
本公开实施例涉及机器学习技术领域,具体涉及一种实现自动构建模型的方法、装置、电子设备和非暂态计算机可读存储介质。
背景技术
目前,机器学习模型的构建主要是由专业建模人员通过手动编写代码或者使用图形化界面(如DAG,Directed Acyclic Graph,有向无环图)的方式来实现,然而,这两种实现方式均需要投入很高的人力成本和时间成本,才能得到一个比较满意的模型,不利于模型的大规模探索和应用,因此,有必要提供一种实现自动构建模型的方案。
发明内容
本公开实施例的一个目的是提供一种实现自动构建模型的新方案。
第一方面,本公开实施例提出一种实现自动构建模型的方法,所述方法包括:
基于指定业务场景的指定任务,获取所述指定任务的相关数据;
响应所述指定任务的人工智能应用创建指令,获取人工智能应用配置信息;
基于所述人工智能应用配置信息,创建人工智能应用;其中,所述人工智能应用为第一服务程序实例,至少用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;
响应所述人工智能应用的启动指令,将所述人工智能应用部署上线,以获取所述指定任务的线上相关数据;其中,所述人工智能应用还用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
在一些实施例中,所述方法还包括:将所述在线模型部署上线,以提供针对所述指定任务的批量预估服务。
在一些实施例中,所述将所述在线模型部署上线包括:将所述在线模型替换已部署上线的机器学习模型。
在一些实施例中,所述批量预估服务包括:提供一个批量预估服务接口,基于所述批量预估服务接口获取所述指定任务的待预估批量数据,并基于所述待预估批量数据输出批量预估结果。
在一些实施例中,所述基于指定业务场景的指定任务,获取所述指定任务的相关数据包括:获取所述指定任务的相关数据定义;基于所述相关数据定义与所述指定业务场景进行数据对接,获取所述指定任务的相关数据。
在一些实施例中,所述指定任务的相关数据定义包括多个数据表、每个所述数据表包括的字段、所述多个数据表之间的数据关系。
在一些实施例中,所述获取所述指定任务的相关数据,包括:基于所述指定任务的相关数据定义,创建所述相关数据定义对应的数据接口,通过所述数据接口获取所述指定任务的相关数据;其中,所述数据接口以动态数据表或数据组为接口,或,所述数据接口为封装接口,所述封装接口是将动态数据表和数据组封装得到的统一接口。
在一些实施例中,所述响应所述指定任务的人工智能应用创建指令之前,所述方法还包括:提供用户界面,基于所述用户界面接收用户输入的指定业务场景和指定任务,以及基于所述用户界面接收用户触发的人工智能应用创建指令,所述人工智能应用创建指令与用户输入的指定业务场景和指定任务相对应。
在一些实施例中,所述基于所述人工智能应用配置信息,创建人工智能应用包括:将所述人工智能应用配置信息、第二服务程序实例和第三服务程序实例打包为人工智能应用;其中,所述第二服务程序实例用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述第三服务程序实例用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
在一些实施例中,所述人工智能应用配置信息包括如下中的一种或多种:
模型方案探索和模型自学习所使用的业务数据;
模型方案探索和模型自学习所使用的数据范围;
模型方案探索和模型自学习的算力等级;
模型的评估数据范围;
模型的评估指标;
模型是否自动上线;
是否使用模型方案探索得到的离线模型。
在一些实施例中,所述相关数据包括:请求数据、曝光数据和反馈数据。
在一些实施例中,所述获取所述指定任务的相关数据后,所述方法还包括:将所述相关数据中的请求数据和曝光数据进行拼接,得到行为数据;
相应地,所述人工智能应用,用于基于所述行为数据、所述反馈数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案。
在一些实施例中,所述获取所述指定任务的相关数据后,所述方法还包括:将所述相关数据积累到第一数据库;相应地,所述人工智能应用,用于基于所述第一数据库中积累的相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数;相应地,所述将所述人工智能应用部署上线包括:将探索得到的模型方案部署上线。
在一些实施例中,所述将探索得到的模型方案部署上线后,所述模型方案基于所述指定任务的线上相关数据生成中间数据;所述人工智能应用还用于将所述中间数据回流到所述第一数据库中。
在一些实施例中,所述人工智能应用,用于基于所述线上相关数据、所述模型方案和所述第一数据库中的中间数据,进行模型自学习,得到在线模型。
在一些实施例中,所述在线模型通过训练离线模型得到;其中,所述离线模型为所述模型方案探索的过程中产生的模型,且将探索得到的模型方案部署上线时,还将所述离线模型部署上线。
在一些实施例中,所述在线模型为基于所述模型方案中的模型算法和模型的超参数生成的模型;且将探索得到的模型方案部署上线时,没有将离线模型部署上线。
第二方面,本公开实施例还提出一种实现自动构建模型的装置,所述装置包括:
场景模块,用于基于指定业务场景的指定任务,获取所述指定任务的相关数据;
人工智能应用模块,用于响应所述指定任务的人工智能应用创建指令,获取人工智能应用配置信息;基于所述人工智能应用配置信息,创建人工智能应用;其中,所述人工智能应用为第一服务程序实例,至少用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;响应所述人工智能应用的启动指令,将所述人工智能应用部署上线,以获取所述指定任务的线上相关数据;其中,所述人工智能应用还用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
在一些实施例中,所述人工智能应用模块还用于:将所述在线模型部署上线,以提供针对所述指定任务的批量预估服务。
在一些实施例中,所述人工智能应用模块将所述在线模型部署上线包括:将所述在线模型替换已部署上线的机器学习模型。
在一些实施例中,所述人工智能应用模块还用于提供一个批量预估服务接口;所述在线模型部署上线后,基于所述批量预估服务接口获取所述指定任务的待预估批量数据,并基于所述待预估批量数据输出批量预估结果。
在一些实施例中,所述场景模块用于:获取所述指定任务的相关数据定义;基于所述相关数据定义与所述指定业务场景进行数据对接,获取所述指定任务的相关数据。
在一些实施例中,所述指定任务的相关数据定义包括多个数据表、每个所述数据表包括的字段、所述多个数据表之间的数据关系。
在一些实施例中,所述场景模块获取所述指定任务的相关数据,包括:基于所述指定任务的相关数据定义,创建所述相关数据定义对应的数据接口,通过所述数据接口获取所述指定任务的相关数据;其中,所述数据接口以动态数据表或数据组为接口,或,所述数据接口为封装接口,所述封装接口是将动态数据表和数据组封装得到的统一接口。
在一些实施例中,所述人工智能应用模块,还用于:响应所述指定任务的人工智能应用创建指令之前,提供用户界面,基于所述用户界面接收用户输入的指定业务场景和指定任务,以及基于所述用户界面接收用户触发的人工智能应用创建指令,所述人工智能应用创建指令与用户输入的指定业务场景和指定任务相对应。
在一些实施例中,所述人工智能应用模块基于所述人工智能应用配置信息,创建人工智能应用包括:将所述人工智能应用配置信息、第二服务程序实例和第三服务程序实例打包为人工智能应用;其中,所述第二服务程序实例用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述第三服务程序实例用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
在一些实施例中,所述人工智能应用配置信息包括如下中的一种或多种:
模型方案探索和模型自学习所使用的业务数据;
模型方案探索和模型自学习所使用的数据范围;
模型方案探索和模型自学习的算力等级;
模型的评估数据范围;
模型的评估指标;
模型是否自动上线;
是否使用模型方案探索得到的离线模型。
在一些实施例中,所述相关数据包括:请求数据、曝光数据和反馈数据。
在一些实施例中,所述场景模块,还用于获取所述指定任务的相关数据后,将所述相关数据中的请求数据和曝光数据进行拼接,得到行为数据;相应地,所述人工智能应用,用于基于所述行为数据、所述反馈数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案。
在一些实施例中,所述场景模块还用于获取所述指定任务的相关数据后,将所述相关数据积累到第一数据库;相应地,所述人工智能应用,用于基于所述第一数据库中积累的相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数;相应地,所述人工智能应用模块将所述人工智能应用部署上线包括:将探索得到的模型方案部署上线。
在一些实施例中,所述人工智能应用模块将探索得到的模型方案部署上线后,所述模型方案基于所述指定任务的线上相关数据生成中间数据;所述人工智能应用还用于将所述中间数据回流到所述第一数据库中。
在一些实施例中,所述人工智能应用,用于基于所述线上相关数据、所述模型方案和所述第一数据库中的中间数据,进行模型自学习,得到在线模型。
在一些实施例中,所述在线模型通过训练离线模型得到;其中,所述离线模型为所述模型方案探索的过程中产生的模型,且将探索得到的模型方案部署上线时,还将所述离线模型部署上线。
在一些实施例中,所述在线模型为基于所述模型方案中的模型算法和模型的超参数生成的模型;且将探索得到的模型方案部署上线时,没有将离线模型部署上线。
第三方面,本公开实施例还提出一种电子设备,包括:处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如第一方面任一实施例的方法步骤。
第四方面,本公开实施例还提出一种非暂态计算机可读存储介质,用于存储程序或指令,所述程序或指令使计算机执行如第一方面任一实施例的方法步骤。
可见,本公开的至少一个实施例中,对于不具有机器学习专业知识的人员,能够通过指定业务场景、任务和人工智能应用配置信息,实现模型自动构建,降低模型构建成本。
在一些实施例中,通过对业务场景的数据进行管理(包括但不限于场景拼接等),得到能够复用的用于模型构建的数据。
在一些实施例中,通过将构建的模型部署上线,可提供针对指定任务的批量预估服务。另外,利用获取的线上数据、探索得到的模型方案和批量预估服务产生的中间数据,可进行模型自学习,实现模型自动迭代更新。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种实现自动构建模型的示例性应用场景图;
图2是本公开实施例提供的一种场景模块的示例性框图;
图3是本公开实施例提供的一种人工智能应用模块的示例性框图;
图4是本公开实施例提供的一种AI应用提供批量预估服务的示例性架构图;
图5是本公开实施例提供的一种电子设备的示例性框图;
图6是本公开实施例提供的一种实现自动构建模型的方法的示例性流程图;
图7是本公开实施例提供的一种自学习模型效果的示例性监控界面图;
图8是本公开实施例提供的一种批量预估打分结果的示例性分布图;
图9是本公开实施例提供的一种反馈数据的示例性分布图;
图10是本公开实施例提供的一种模型效果的示例性变化图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
由于目前机器学习模型的构建主要是由专业建模人员来完成,而专业建模人员的培养成本较大,导致专业建模人员的缺口在短期内无法得到快速弥补,不利于机器学习模型的大规模探索和应用。
另外,模型上线一段时间后,模型的预估效果会衰减,因此又需要专业建模人员进行重新建模调优,即每隔一段时间周期就需要重复的人员投入,使得建模越多,人员成本越高。因此,如何实现模型自动迭代更新,以确模型保预估效果,也是亟需解决的问题。
为此,本公开实施例提供一种实现自动构建模型的方案,非专业建模人员可以指定业务场景、任务和人工智能(AI,Artificial Intelligence)应用配置信息,进而该方案可基于AI应用配置信息自动创建AI应用,AI应用可以基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案;该方案可将AI应用部署上线,AI应用可以基于获取的线上相关数据和探索的模型方案,进行模型自学习,得到在线模型。一方面,该方案可以实现模型构建过程全自动化,进而降低建模成本;另一方面,该方案可以进行模型自学习,实现模型自动迭代更新,确保模型预估效果。在没有专业建模人员和机器学习知识储备的情况下,也能低门槛地构建出模型和应用。
图1为本公开实施例提供的一种实现自动构建模型的示例性应用场景图。如图1所示,实现自动构建模型的装置可与业务场景进行数据对接,实现自动构建模型,其中,业务场景可由用户指定,更进一步地,用户还可指定在该业务场景下的任务(可以理解为待解决的业务问题),也即,同一业务场景下,可以有多个任务,针对每个任务,实现自动构建模型的装置可以创建对应的AI应用,例如,一个任务创建一个AI应用;不同任务创建不同的AI应用。AI应用用于处理对应的任务,例如实时预估任务或批量预估任务。其中,实时预估是接收到一个预估请求就进行预估;而批量预估是非实时预估,通过定时或事件触发地以批量的方式进行预估,例如,在满足预设的批量预估条件时,才对多个预估请求进行批量预估,例如,当预估请求积累预设条数,才进行批量预估。
在图1中,实现自动构建模型的装置可包括但不限于场景模块11和人工智能应用模块12。
场景模块11,用于实现场景定义。在一些实施例中,场景定义可由用户完成,例如,在什么业务场景下解决什么业务问题,业务问题可以是决策类机器学习问题。相应地,场景模块11接收用户输入的场景定义信息。在一些实施例中,场景模块11可提供用户界面,用户通过用户界面输入场景定义信息,以指定业务场景和指定任务。在一些实施例中,场景定义信息可包括但不限于以下一个或多个:场景名称、任务名称、任务ID、任务的相关数据定义等。不同任务的相关数据定义不同。在一些实施例中,相关数据定义可以为数据表模式(Schema)定义。在一些实施例中,Schema定义包括但不限于以下一个或多个:一个或多个数据表的名称、每个数据表包括的字段、多个数据表之间的数据关系。
在一些实施例中,场景模块11,还用于数据接入。例如,场景模块11基于指定业务场景的指定任务,获取指定任务的相关数据。在一些实施例中,相关数据可包括但不限于:请求数据、曝光数据和反馈数据。
例如,业务场景为***电话营销场景,需要解决的业务问题为如何在打同样数量电话的情况下获得更多的***订单。业务问题可转换成找到更有可能会办***的客户,给这些客户打电话。定义业务问题就是找到X和Y,X即一次电话营销行为,Y即打完电话后客户是否办了***。定义业务问题后,即可进行场景定义。
场景定义信息可包括但不限于:
1)场景的名称、备注等基本信息。用于识别和区分场景。
2)定义相关数据。相关数据包括但不限于:请求数据、曝光数据、反馈数据和业务数据。请求数据是指发送给AI应用的信息,例如召回了一万个客户作为候选集,结合其他信息想要通过AI应用来帮忙判断每个客户实际可能会办理***的概率,这一万条数据就是请求数据;经由AI应用预估后,实际进行电话营销时不会一万个客户都打电话,业务方只会选择更有可能会办理***的客户去进行电话营销,可能只选中了100条,这100条就是曝光数据;最后,打完电话后客户实际有没有办理***则是反馈数据。除了请求数据、曝光数据和反馈数据外,场景中可能还包含业务数据,业务数据是其他可能有助于提升AI应用预估效果的信息,例如客户的基本信息、客户的交易流水记录、客户的征信记录等BO(Business Object)数据。其中,业务数据可能没有,也可能有多个。
a)定义各个相关数据流(请求数据流、曝光数据流、反馈数据流和业务数据流)的Schema,例如,每个数据流中都包含哪些字段,具体需要配置的信息包括字段名、字段类型和字段备注(可选填)等。
b)需要指出的是,在获取请求数据和曝光数据后,会根据请求数据和曝光数据以内连接(inner join)的方式构造出行为数据,行为数据可用于后续模型方案探索和模型自学习。
3)定义数据描述信息和各个数据表之间的关系。具体地:
a)定义行为数据的时间字段。在行为数据中选择一个时间类型字段作为主时间字段,这个时间字段应为行为的实际发生时间。
b)定义反馈数据的反馈字段(label)及类型。在反馈数据中选出其中的label字段,对于二分类场景来说label就是表示正负样本的1或0,在回归场景中label是一个表示实际情况的连续值,比如PM2.5的数值。在选出label字段后还需要选择label属于什么类型,是二分类还是回归,或者是多分类。
c)定义行为数据和反馈数据的拼接字段。定义行为数据和反馈数据各自以什么字段为关联key来进行拼接,其中拼接key还能支持多组key,即在多个字段均相等的情况下才认为某条行为数据是和某条反馈数据相对应。
d)定义各个数据中字段的标记类型和是否使用。对于某种字段类型,为了自动建模能够正确识别业务含义以取得更好的效果,需要用户来指定具体的标记类型,比如对于int类型字段,是连续类型还是离散类型,这会决定自动建模算法对于该列数据做怎样的数据变化策略。另外,还需要标记每一列数据是否在模型方案探索中使用,因为实际业务场景中,可能会存在某些字段是无意义的字段,可以不纳入学习,或者某些字段与label是存在强相关,不应纳入学习,所以需要在使用过程中进行标注。
e)定义数据表之间的关系。需要定义行为数据与业务数据之间是怎样的数据关系,方便自动建模时能够完成多表的自动建模。关系类型包含但不限于1:1、1:N,其中,在1:N的关系类型中,还需要指定副表(假设表A和表B,表B的数据会被拼到表A中去,那么表B称之为表A的副表)的表类型,是事件表还是切片表。数据表拼接不仅支持行为表与业务数据表连接,也支持业务数据表与业务数据表之间直接进行连接。
完成以上定义后,可以正式创建一个业务场景。业务场景创建后,实现自动构建模型的装置会自动启动一个数据拼接任务,用以将请求数据和曝光数据拼接出行为数据,以备后续模型方案探索和模型自学习使用。
人工智能应用模块12,用于实现AI应用配置。在一些实施例中,AI应用配置可由用户完成,例如,使用哪些业务数据参与模型方案探索和模型自学习,又例如,模型自学习所使用的数据范围。相应地,人工智能应用模块12可接收用户输入的AI应用配置信息。在一些实施例中,人工智能应用模块12可提供用户界面,用户通过用户界面输入AI应用配置信息。
在一些实施例中,从用户角度来看,用户在进行场景定义后,会想要创建对应的AI应用,因此,人工智能应用模块12可提供用户界面,基于用户界面接收用户触发的AI应用创建指令,AI应用创建指令与用户输入的指定业务场景和指定任务相对应。在用户触发了AI应用创建的指令后,例如,用户点击了“AI应用创建”按钮,那么人工智能应用模块12可响应AI应用创建指令,显示用户界面,以通过该用户界面获取用户输入的AI应用配置信息。
在一些实施例中,AI应用配置信息可包括但不限于如下中的一种或多种:
模型方案探索和模型自学习所使用的业务数据;
模型方案探索和模型自学习所使用的数据范围;
模型方案探索和模型自学习的算力等级;
模型的评估数据范围;
模型的评估指标;
模型是否自动上线;
是否使用模型方案探索得到的离线模型。
其中,算力等级可以理解为模型方案探索和模型自学习的复杂度。算力等级越高,模型方案探索和模型自学习会在更宽阔的搜索空间进行搜索,模型自学习得到的模型的预估效果越好。
其中,模型的评估数据范围指定了用于评估模型自学习产出的模型的数据范围。
其中,模型的评估指标例如为AUC(Area Under Curve)值等。
其中,模型是否自动上线,指定了模型自学习不断迭代更新产生的模型是否自动上线。若设置模型自动上线,则模型自学习产生的模型效果优于已部署上线的模型时,会将模型自学习产生的模型自动上线。若设置模型不自动上线,则只能通过手动方式上线模型自学习产出的模型。
其中,是否使用模型方案探索得到的离线模型,指定了是否将离线模型上线,若不使用离线模型,只将模型方案上线后,模型方案不会输出预估结果,向业务场景输出的是一个默认预估结果(例如,默认预测值),默认预测值例如为0.5,需要等待模型自学习产出模型并上线后,才能由模型输出预估结果。若使用离线模型,也即将模型方案上线的同时,还将离线模型上线,离线模型可以输出预估结果,但是由于模型方案探索使用的数据可能与线上数据存在差异,因此,离线模型的预估效果可能较差。
在一些实施例中,人工智能应用模块12,还用于创建AI应用。例如,人工智能应用模块12基于AI应用配置信息,创建人工智能应用;其中,AI应用为第一服务程序实例,至少用于基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。模型方案是用于建模的多种策略的集合,例如包括但不限于:如何筛选数据、如何构建特征,如何调优模型超参数、如何选择模型、如何训练模型等策略。在一些实施例中,人工智能应用模块12创建AI应用后,可显示用户界面,以提示用户AI应用创建完成,用户可以触发AI应用启动的指令,例如,用户可点击用户界面上的“AI应用启动”按钮。
在一些实施例中,人工智能应用模块12,还用于部署AI应用上线。例如,人工智能应用模块12可响应AI应用的启动指令,将AI应用部署上线,以使AI应用获取指定任务的线上相关数据;其中,AI应用还用于基于线上相关数据和探索得到的模型方案,进行模型自学习,得到在线模型。其中,模型自学习可以定时或事件触发地使用线上相关数据进行模型自动学习,使得最新的数据信息和业务变化也能被模型学习到,确保自学习模型效果持续良好。
图2为本公开实施例提供的一种场景模块20的示例性框图。在一些实施例中,场景模块20可以实现为图1中的场景模块11或者场景模块11的一部分。
如图2所示,场景模块20可划分为多个单元,例如包括但不限于:数据接入单元21、场景拼表单元22和数据管理单元23。
数据接入单元21,用于与业务场景进行数据对接。在一些实施例中,数据接入单元21可基于指定业务场景的指定任务,获取指定任务的相关数据。在一些实施例中,数据接入单元21可获取指定任务的相关数据定义,进而基于相关数据定义与指定业务场景进行数据对接,获取指定任务的相关数据。
在一些实施例中,数据接入单元21可基于指定任务的相关数据定义,创建相关数据定义对应的数据接口,进而通过数据接口获取指定任务的相关数据。其中,数据接口以动态数据表或数据组为接口,或,数据接口为封装接口,封装接口是将动态数据表和数据组封装得到的统一接口。
在一些实施例中,数据接口以动态数据表或数据组为接口。数据接入单元21以动态数据表或数据组作为数据存储载体,动态数据表是指在数据表创建完成后仍然可以往其中增加数据(append)的数据表,数据组是指一系列同构(数据字段相同)数据切片的组合,新增数据时通过往数据组中新增数据切片的形式来实现数据的append。本实施例中,用户需要使用更多的数据来进行训练或预估时,是以对应的动态数据表或数据组为接口,导入数据。导入数据的方式包括但不限于单次导入、定时导入和流式导入的一种或多种。其中,流式导入例如为Kafka(分布式发布订阅消息***)导入等。从数据源上,支持本地导入、数据库导入、FTP(File Transfer Protocol,文件传输协议)导入、HDFS(Hadoop DistributedFile System,Hadoop分布式文件***)导入、hive(基于Hadoop的数据仓库工具)导入等多种方式,满足不同业务场景的数据导入需求。
在一些实施例中,数据接口为封装接口,封装接口是将动态数据表和数据组封装得到的统一接口。本实施例中,通过将动态数据表和数据组封装为统一的数据接口,不对用户暴露底层数据存储实现,提高用户的使用体验。例如,通过封装接口,对用户只需暴露请求(Request)数据、曝光(Impression)数据、反馈数据和业务数据四类数据接口,用户只需要感知这四个数据接口,不用再感知里面具体对应的数据组是什么。
场景拼接单元22,用于将相关数据中的请求数据和曝光数据进行拼接,得到行为数据。在一些实施例中,场景拼接单元22根据请求数据和曝光数据以内连接(inner join)的方式构造出行为数据(也可以称为样本数据)。
在一些实施例中,场景拼接单元22可使用过滤器(filter)进行处理和压平(flatten)处理请求数据和曝光数据,构造出行为数据。
例如,场景拼接单元22可使用过滤器(filter)基于曝光数据对请求数据进行过滤,得到交集数据;进而通过压平(flatten)处理交集数据得到行为数据。例如,曝光数据有10条数据,请求数据有12条数据,曝光数据和请求数据有10条相同数据,场景拼接单元22通过filter过滤,得到这10条相同数据即为交集数据,把不同数据滤除掉,进而通过压平(flatten)处理交集数据(这10条相同数据)得到行为数据。
数据管理单元23,用于管理第一数据库中的数据和第二数据库中的数据。在一些实施例中,第一数据库为离线数据库。例如,离线数据库可以为分布式文件存储***(HDFS,Hadoop Distributed File System),还可以为其他离线数据库。在一些实施例中,第二数据库为在线数据库,例如实时特征存储引擎(RtiDB),也可以为其他在线数据库。
在一些实施例中,数据管理单元23可将数据接入单元21获取的指定任务的相关数据积累到第一数据库。在一些实施例中,数据管理单元23可将场景拼表单元22得到的行为数据积累到第一数据库中。在一些实施例中,数据管理单元23可将图1中人工智能应用模块12探索模型方案过程中产生的中间数据回流到第一数据库中。其中,中间数据可以为预估样本的宽表特征数据。在一些实施例中,数据管理单元23可将线上相关数据存储到第二数据库中。
在一些实施例中,场景模块20中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如数据接入单元21、场景拼表单元22和数据管理单元23中的至少两个单元可以实现为一个单元;数据接入单元21、场景拼表单元22或数据管理单元23也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图3为本公开实施例提供的一种人工智能应用模块30的示例性框图。在一些实施例中,人工智能应用模块30可以实现为图1中的人工智能应用模块12或者人工智能应用模块12的一部分。
如图3所示,人工智能应用模块30可划分为多个单元,例如包括但不限于:应用配置单元31、应用创建单元32和应用上线单元33。
应用配置单元31,用于实现AI应用配置。在一些实施例中,应用配置单元31可接收用户输入的AI应用配置信息。在一些实施例中,响应指定任务的AI应用创建指令,获取AI应用配置信息。在一些实施例中,应用配置单元31提供用户界面,以用户界面接收用户触发的AI应用创建指令,当用户触发了AI应用创建指令后,应用配置单元31响应指定任务的AI应用创建指令,显示用户界面,以通过该用户界面获取用户输入的AI应用配置信息。
应用创建单元32,用于创建AI应用。在一些实施例中,应用创建单元32基于AI应用配置信息,创建人工智能应用;其中,AI应用为第一服务程序实例,至少用于基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。其中,模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数。
在一些实施例中,AI应用可基于第一数据库中的数据(例如请求数据、样本数据、反馈数据、业务数据、曝光数据中一个或多个)进行模型方案探索,得到模型方案。模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数。特征工程方案至少具有拼表功能。特征工程方案还可以具有其他功能,例如从数据中提取特征以供模型算法或模型使用。模型算法可以为目前常用的机器学习算法,例如有监督学习算法,包括但不限于:LR(Logistic Regression,逻辑回归)、GBDT(Gradient Boosting Decision Tree,梯度提升迭代决策树)、DeepNN(Deep Neural Network,深度神经网络)等。模型的超参数是在机器学习之前预先设置的用于辅助模型训练的参数,例如聚类算法中的类别个数、梯度下降法的步长、神经网络的层数、训练神经网络的学习速率等。
在一些实施例中,AI应用在探索模型方案时,可生成至少两个模型方案,其中,不同模型方案之间至少有一个方案子项不同。在一些实施例中,指定机器学习应用基于第一数据库中的数据分别采用至少两个模型方案进行模型训练,可得到模型本身的参数,其中模型本身的参数例如:神经网络中的权重、支持向量机中的支持向量、线性回归或逻辑回归中的系数等。在一些实施例中,AI应用可基于机器学习模型评价指标,对至少两个模型方案所分别训练出的模型进行评价,进而基于评价结果从至少两个模型方案中进行选择,得到探索到的模型方案。其中机器学习模型评价指标例如为AUC(Area Under Curve)值等。
在一些实施例中,AI应用可基于第一数据库中积累的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。在一些实施例中,AI应用可基于第一数据库中积累的行为数据、反馈数据和AI应用配置信息进行模型方案探索,得到模型方案。
在一些实施例中,应用创建单元32可将AI应用配置信息、第二服务程序实例和第三服务程序实例打包为AI应用。其中,第二服务程序实例用于基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。其中,第三服务程序实例用于基于指定任务的线上相关数据和探索得到的模型方案,进行模型自学习,得到在线模型。
应用上线单元33,用于部署AI应用上线。在一些实施例中,应用上线单元33可响应AI应用的启动指令,将AI应用部署上线,以使AI应用获取指定任务的线上相关数据,进而AI应用的第三服务程序实例基于指定任务的线上相关数据和探索得到的模型方案,进行模型自学习,得到在线模型。
在一些实施例中,应用上线单元33可将AI应用的第二服务程序实例探索得到的模型方案部署上线。相应地,部署上线的模型方案可基于指定任务的线上相关数据生成中间数据。在一些实施例中,AI应用的第三服务程序实例可基于指定任务的线上相关数据、第二服务程序实例探索得到的模型方案和模型方案生成的中间数据,进行模型自学习,得到在线模型。
在一些实施例中,应用上线单元33将模型方案部署上线时,还将模型方案探索过程中得到的离线模型部署上线,离线模型是基于第一数据库(即离线数据库)中积累的指定业务场景的指定任务的相关数据训练得到,并且离线模型部署上线后是对指定业务场景的相关数据进行预估服务,因此,虽然线上线下特征计算得到的数据可能不一致,但仍实现了线上线下数据同源。
在一些实施例中,AI应用的第三服务程序实例通过训练离线模型得到在线模型;其中,离线模型为AI应用的第二服务程序实例探索模型方案的过程中产生的模型,且应用上线单元33将模型方案部署上线时,还将离线模型部署上线。在一些实施例中,AI应用的第三服务程序实例通过模型方案中的模型算法和模型的超参数训练离线模型,更新离线模型本身的参数取值,得到在线模型。
在一些实施例中,应用上线单元33仅将模型方案部署上线,而没有将模型方案探索过程中得到的离线模型部署上线,可避免离线模型直接部署上线后由于线上特征计算和线下特征计算得到的数据存在不一致,导致部署上线的离线模型的预估效果较差的问题。另外,由于仅将模型方案部署上线,没有将离线模型部署上线,因此在并不会生成预估结果,当接收到请求数据时,向业务场景输出的是默认的预估结果,业务场景接收到默认的预估结果后不予理会。
在一些实施例中,AI应用的第三服务程序实例可基于指定任务的线上相关数据、基于第二服务程序实例探索得到的模型方案中的模型算法和模型的超参数、以及模型方案生成的中间数据,进行模型自学习,生成在线模型;且应用上线单元33将模型方案部署上线时,没有将离线模型部署上线。
在一些实施例中,应用上线单元33可将在线模型部署上线,以使在线模型提供针对指定任务的批量预估服务。在一些实施例中,应用上线单元33可提供一个批量预估服务接口,该批量预估服务接口用于获取指定任务的待批量预估数据。相应地,部署上线的在线模型可通过该批量预估服务接口获取待批量预估数据(多条请求数据),并基于待预估批量数据输出批量预估结果。
在一些实施例中,以一条请求数据为例,在线模型接收到一条请求数据时,基于部署上线的模型方案中的特征工程方案,利用第二数据库中的数据和接收的请求数据进行线上实时特征计算,得到预估样本的特征数据。在一些实施例中,在线模型接收到请求数据时,基于部署上线的模型方案中的特征工程方案,对第二数据库中的数据和接收的请求数据进行拼表和线上实时特征计算得到宽表特征数据,得到的预估样本的特征数据为宽表特征数据。
在一些实施例中,在线模型可基于部署上线的模型方案得到预估样本的特征数据(或宽表特征数据),拼接特征数据和反馈数据生成带特征和反馈的样本数据,样本数据还可包括其他数据,例如时间戳数据等。在一些实施例中,在线模型拼接特征数据和反馈数据之前,拼接特征数据和曝光数据,得到带曝光数据的特征数据;进而拼接带曝光数据的特征数据和反馈数据,生成带曝光、特征和反馈的样本数据。在一些实施例中,在线模型将带特征和反馈的样本数据回流到第一数据库中,以便进行模型自学习,模型自学习得到的在线模型可部署上线,保证模型自学习用到的数据和特征工程方案分别与模型在线预估服务用到的数据和特征工程方案是一致的,实现模型自学习效果和模型预估效果一致性。
在一些实施例中,AI应用的第三服务程序实例进行模型自学习的过程为:基于带特征和反馈的样本数据,通过模型方案中的模型算法和模型的超参数进行训练,得到在线模型。
在一些实施例中,指定机器学习应用将探索得到的模型方案部署上线包括:将探索得到的模型方案替换已部署上线的模型方案。
在一些实施例中,应用上线单元33可将在线模型替换已部署上线的机器学习模型;或,将在线模型部署上线,并与已部署上线的机器学习模型共同提供针对指定任务的批量预估服务。
在一些实施例中,人工智能应用模块30中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如应用配置单元31、应用创建单元32和应用上线单元33中的至少两个单元可以实现为一个单元;应用配置单元31、应用创建单元32或应用上线单元33也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图4为本公开实施例提供的一种AI应用提供批量预估服务的实例性架构图。如图4所示,AI应用至少具有两个功能:模型方案探索和模型自学习。在一些实施例中,AI应用可以为图1中实现自动构建模型的装置创建的AI应用,且在部署AI应用上线后,将AI应用探索得到的模型方案也部署上线,并将AI应用通过模型自学习得到的在线模型也部署上线。
结合图4,AI应用提供批量预估服务的过程描述如下:
在定义业务场景后,可与业务场景进行数据对接,实现数据管理,数据管理例如为图2所示的数据管理单元23的功能。当AI应用上线后,AI应用的第二服务程序实例可基于进行模型方案探索,得到模型方案,进而可将模型方案部署上线提供批量预估服务(实质上不会输出批量预估结果,输出的是默认预估结果,因此图中用虚线表示),模型方案会将中间数据回流。AI应用的第三服务程序实例可基于回流的中间数据和模型方案,进行模型自学习,产出在线模型,进而可将在线模型部署上线提供批量预估服务。
可将,图4中,数据管理、模型自学习、批量预估服务构成小闭环;数据管理、模型方案探索、批量预估服务构成大闭环。其中,小闭环保证模型自学习用到的数据和特征工程方案分别与批量预估服务用到的数据和特征工程方案相同,实现模型自学习效果和模型预估效果一致性。大闭环保证模型方案探索用到的数据(简称线下数据)和批量预估服务用到的数据(简称线上数据)是同源的,实现了线下线上的数据同源。
图5是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中,图1中实现自动构建模型的装置可以设置于电子设备中或实现为电子设备。
如图5所示,电子设备包括:至少一个处理器51、至少一个存储器52和至少一个通信接口53。电子设备中的各个组件通过总线***54耦合在一起。通信接口53,用于与外部设备之间的信息传输。可理解地,总线***54用于实现这些组件之间的连接通信。总线***54除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图5中将各种总线都标为总线***54。
可以理解,本实施例中的存储器52可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器52存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作***和应用程序。
其中,操作***,包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础任务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用任务。实现本公开实施例提供的实现自动构建模型的方法的程序可以包含在应用程序中。
在本公开实施例中,处理器51通过调用存储器52存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器51用于执行本公开实施例提供的实现自动构建模型的方法各实施例的步骤。
本公开实施例提供的实现自动构建模型的方法可以应用于处理器51中,或者由处理器51实现。处理器51可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开实施例提供的实现自动构建模型的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器52,处理器51读取存储器52中的信息,结合其硬件完成方法的步骤。
图6为本公开实施例提供的一种实现自动构建模型的方法的示例性流程图。该方法的执行主体为电子设备,为便于描述,以下实施例中以电子设备为执行主体说明实现自动构建模型的方法的流程。
如图6所示,在步骤601中,电子设备基于指定业务场景的指定任务,获取指定任务的相关数据。
在一些实施例中,电子设备可获取指定任务的相关数据定义,进而基于相关数据定义与指定业务场景进行数据对接,获取指定任务的相关数据。
在一些实施例中,指定任务的相关数据定义可包括但不限于:多个数据表、每个数据表包括的字段、多个数据表之间的数据关系。
在一些实施例中,电子设备可基于指定任务的相关数据定义,创建相关数据定义对应的数据接口,通过数据接口获取指定任务的相关数据;其中,数据接口以动态数据表或数据组为接口,或,数据接口为封装接口,封装接口是将动态数据表和数据组封装得到的统一接口。
在一些实施例中,电子设备在获取指定任务的相关数据后,将相关数据积累到第一数据库。
在一些实施例中,指定任务的相关数据可包括但不限于:请求数据、曝光数据和反馈数据。在一些实施例中,电子设备获取指定任务的相关数据后,还将相关数据中的请求数据和曝光数据进行拼接,得到行为数据。电子设备可将行为数据积累到第一数据库中。
在步骤602中,电子设备响应指定任务的AI应用创建指令,获取AI应用配置信息。
在一些实施例中,电子设备响应指定任务的AI应用创建指令之前,还提供用户界面,进而基于用户界面接收用户输入的指定业务场景和指定任务,以及基于用户界面接收用户触发的AI应用创建指令,其中,AI应用创建指令与用户输入的指定业务场景和指定任务相对应。
在一些实施例中,电子设备响应指定任务的AI应用创建指令之后,还提供用户界面,进而基于用户界面接收用户输入的AI应用配置信息。
在一些实施例中,AI应用配置信息可包括但不限于如下中的一种或多种:
模型方案探索和模型自学习所使用的业务数据;
模型方案探索和模型自学习所使用的数据范围;
模型方案探索和模型自学习的算力等级;
模型的评估数据范围;
模型的评估指标;
模型是否自动上线;
是否使用模型方案探索得到的离线模型。
在步骤603中,电子设备基于AI应用配置信息,创建AI应用;其中,AI应用为第一服务程序实例,至少用于基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。在一些实施例中,AI应用可基于第一数据库中积累的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。在一些实施例中,AI应用可基于第一数据库中的行为数据、相关数据中的反馈数据和AI应用配置信息进行模型方案探索,得到模型方案。
在一些实施例中,模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数。
在一些实施例中,电子设备将AI应用配置信息、第二服务程序实例和第三服务程序实例打包为AI应用;其中,第二服务程序实例用于基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案;其中,第三服务程序实例用于基于指定任务的线上相关数据和模型方案,进行模型自学习,得到在线模型。
在步骤604中,电子设备响应AI应用的启动指令,将AI应用部署上线,以获取指定任务的线上相关数据;其中,AI应用还用于基于线上相关数据和模型方案,进行模型自学习,得到在线模型。
在一些实施例中,电子设备将AI应用部署上线后,还可将AI应用(或AI应用的第二服务程序实例)探索得到的模型方案部署上线。
在一些实施例中,电子设备将模型方案部署上线后,模型方案可基于指定任务的线上相关数据生成中间数据,相应地,AI应用可将中间数据回流到第一数据库中。在一些实施例中,AI应用(或AI应用的第三服务程序实例)可基于指定任务的线上相关数据、模型方案和第一数据库中的中间数据,进行模型自学习,得到在线模型。
在一些实施例中,在线模型通过训练离线模型得到,也即AI应用(或AI应用的第三服务程序实例)通过训练离线模型得到在线模型;其中,离线模型为AI应用(或AI应用的第二服务程序实例)探索模型方案的过程中产生的模型,且电子设备将探索得到的模型方案部署上线时,还将离线模型部署上线。
在一些实施例中,AI应用(或AI应用的第三服务程序实例)可基于指定任务的线上相关数据、基于第二服务程序实例探索得到的模型方案中的模型算法和模型的超参数、以及模型方案生成的中间数据,进行模型自学习,生成在线模型;且电子设备将探索得到的模型方案部署上线时,没有将离线模型部署上线。
在一些实施例中,电子设备可将在线模型部署上线,以使在线模型提供针对指定任务的批量预估服务。在一些实施例中,电子设备可将在线模型替换已部署上线的机器学习模型;或,将在线模型部署上线,并与已部署上线的机器学习模型共同提供针对指定任务的批量预估服务。
在一些实施例中,电子设备可提供一个批量预估服务接口,相应地,在线模型可基于批量预估服务接口获取指定任务的待预估批量数据,并基于待预估批量数据输出批量预估结果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员能够理解,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。另外,本领域技术人员能够理解,说明书中所描述的实施例均属于可选实施例。
本公开实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如实现自动构建模型的方法各实施例的步骤,为避免重复描述,在此不再赘述。
图7是本公开实施例提供的一种自学习模型效果的示例性监控界面图。其中,自学习模型可以理解为AI应用通过模型自学习得到的模型。图7中,自学习模型效果的监控界面可以显示自学习模型效果的变化趋势,例如图7中的自学习模型AUC(简称自学习AUC)变化曲线。图7中,自学习模型效果的监控界面还可以显示自学习模型和批量预估所使用模型(应用模型)的效果对比。横坐标是时间,纵坐标是模型效果。图7中,自学习模型效果的监控界面还可以显示AI应用当前模型自学习的状态。
图8是本公开实施例提供的一种批量预估打分结果的示例性分布图。图8中,横坐标是行为发生时间(可以理解为批量预估发生的时间),纵坐标是预测值(也即批量预估打分结果)。图8以箱型图的方式来呈现每一天的预测值分布情况,同时会生成一条预测均值的曲线,来表示每一天预测值的均值。
图9是本公开实施例提供的一种反馈数据的示例性分布图,横坐标为行为发生时间(可以理解为获取反馈数据的时间),纵坐标为数据所占比例,分别表示反馈数据中反馈值为1、反馈值为0以及反馈数据还未到达的数据各自所占的比例。
图10是本公开实施例提供的一种批量预估所使用模型(应用模型)效果的示例性变化图,横坐标为行为发生时间(可以理解为计算应用模型AUC的时间),纵坐标为应用模型效果。本实施例中,以每天的数据来统计当天的模型指标,比如二分类场景中统计AUC。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种实现自动构建模型的方法,其特征在于,所述方法包括:
基于指定业务场景的指定任务,获取所述指定任务的相关数据;
响应所述指定任务的人工智能应用创建指令,获取人工智能应用配置信息;
基于所述人工智能应用配置信息,创建人工智能应用;其中,所述人工智能应用为第一服务程序实例,至少用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;
响应所述人工智能应用的启动指令,将所述人工智能应用部署上线,以获取所述指定任务的线上相关数据;其中,所述人工智能应用还用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述在线模型部署上线,以提供针对所述指定任务的批量预估服务。
3.根据权利要求2所述的方法,其特征在于,所述将所述在线模型部署上线包括:
将所述在线模型替换已部署上线的机器学习模型。
4.根据权利要求2所述的方法,其特征在于,所述批量预估服务包括:提供一个批量预估服务接口,基于所述批量预估服务接口获取所述指定任务的待预估批量数据,并基于所述待预估批量数据输出批量预估结果。
5.根据权利要求1所述的方法,其特征在于,所述基于指定业务场景的指定任务,获取所述指定任务的相关数据包括:
获取所述指定任务的相关数据定义;
基于所述相关数据定义与所述指定业务场景进行数据对接,获取所述指定任务的相关数据。
6.根据权利要求5所述的方法,其特征在于,所述指定任务的相关数据定义包括多个数据表、每个所述数据表包括的字段、所述多个数据表之间的数据关系。
7.根据权利要求5所述的方法,其特征在于,所述获取所述指定任务的相关数据,包括:基于所述指定任务的相关数据定义,创建所述相关数据定义对应的数据接口,通过所述数据接口获取所述指定任务的相关数据;
其中,所述数据接口以动态数据表或数据组为接口,或,所述数据接口为封装接口,所述封装接口是将动态数据表和数据组封装得到的统一接口。
8.一种实现自动构建模型的装置,其特征在于,所述装置包括:
场景模块,用于基于指定业务场景的指定任务,获取所述指定任务的相关数据;
人工智能应用模块,用于响应所述指定任务的人工智能应用创建指令,获取人工智能应用配置信息;基于所述人工智能应用配置信息,创建人工智能应用;其中,所述人工智能应用为第一服务程序实例,至少用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;响应所述人工智能应用的启动指令,将所述人工智能应用部署上线,以获取所述指定任务的线上相关数据;其中,所述人工智能应用还用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。
CN202010917901.2A 2020-09-03 2020-09-03 实现自动构建模型的方法、装置、电子设备和存储介质 Pending CN112149838A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010917901.2A CN112149838A (zh) 2020-09-03 2020-09-03 实现自动构建模型的方法、装置、电子设备和存储介质
PCT/CN2021/116497 WO2022048648A1 (zh) 2020-09-03 2021-09-03 实现自动构建模型的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010917901.2A CN112149838A (zh) 2020-09-03 2020-09-03 实现自动构建模型的方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112149838A true CN112149838A (zh) 2020-12-29

Family

ID=73891038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010917901.2A Pending CN112149838A (zh) 2020-09-03 2020-09-03 实现自动构建模型的方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN112149838A (zh)
WO (1) WO2022048648A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570457A (zh) * 2021-06-28 2021-10-29 交通银行股份有限公司 一种基于自修复建模的反洗钱***及其方法
WO2022048648A1 (zh) * 2020-09-03 2022-03-10 第四范式(北京)技术有限公司 实现自动构建模型的方法、装置、电子设备和存储介质
CN114385733A (zh) * 2021-12-31 2022-04-22 上海柯林布瑞信息技术有限公司 Etl过程中数据模型统一创建方法和装置
CN114385876A (zh) * 2022-01-13 2022-04-22 北京九章云极科技有限公司 一种模型搜索空间生成方法、装置及***
WO2024140353A1 (zh) * 2022-12-27 2024-07-04 华为技术有限公司 模型使用方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232741A1 (en) * 2017-02-15 2018-08-16 Salesforce.Com, Inc. Methods and apparatus for using artificial intelligence entities to provide information to an end user
CN110503208A (zh) * 2019-08-26 2019-11-26 第四范式(北京)技术有限公司 多模型探索中的资源调度方法和资源调度装置
CN111008707A (zh) * 2019-12-09 2020-04-14 第四范式(北京)技术有限公司 自动化建模方法、装置及电子设备
CN111209931A (zh) * 2019-12-23 2020-05-29 深圳智链物联科技有限公司 数据处理方法、平台、终端设备及存储介质
CN111444170A (zh) * 2018-12-28 2020-07-24 第四范式(北京)技术有限公司 基于预测业务场景的自动机器学习方法和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10621218B2 (en) * 2015-03-30 2020-04-14 Avaya Inc. Systems and methods for compiling and dynamically updating a collection of frequently asked questions
CN107908743B (zh) * 2017-11-16 2021-12-03 百度在线网络技术(北京)有限公司 人工智能应用构建方法和装置
CN111046152B (zh) * 2019-10-12 2023-09-29 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN112149838A (zh) * 2020-09-03 2020-12-29 第四范式(北京)技术有限公司 实现自动构建模型的方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232741A1 (en) * 2017-02-15 2018-08-16 Salesforce.Com, Inc. Methods and apparatus for using artificial intelligence entities to provide information to an end user
CN111444170A (zh) * 2018-12-28 2020-07-24 第四范式(北京)技术有限公司 基于预测业务场景的自动机器学习方法和设备
CN110503208A (zh) * 2019-08-26 2019-11-26 第四范式(北京)技术有限公司 多模型探索中的资源调度方法和资源调度装置
CN111008707A (zh) * 2019-12-09 2020-04-14 第四范式(北京)技术有限公司 自动化建模方法、装置及电子设备
CN111209931A (zh) * 2019-12-23 2020-05-29 深圳智链物联科技有限公司 数据处理方法、平台、终端设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022048648A1 (zh) * 2020-09-03 2022-03-10 第四范式(北京)技术有限公司 实现自动构建模型的方法、装置、电子设备和存储介质
CN113570457A (zh) * 2021-06-28 2021-10-29 交通银行股份有限公司 一种基于自修复建模的反洗钱***及其方法
CN114385733A (zh) * 2021-12-31 2022-04-22 上海柯林布瑞信息技术有限公司 Etl过程中数据模型统一创建方法和装置
CN114385876A (zh) * 2022-01-13 2022-04-22 北京九章云极科技有限公司 一种模型搜索空间生成方法、装置及***
CN114385876B (zh) * 2022-01-13 2022-09-13 北京九章云极科技有限公司 一种模型搜索空间生成方法、装置及***
WO2024140353A1 (zh) * 2022-12-27 2024-07-04 华为技术有限公司 模型使用方法及相关设备

Also Published As

Publication number Publication date
WO2022048648A1 (zh) 2022-03-10

Similar Documents

Publication Publication Date Title
CN112149838A (zh) 实现自动构建模型的方法、装置、电子设备和存储介质
CN112036577B (zh) 基于数据形式的应用机器学习的方法、装置和电子设备
US10878324B2 (en) Problem analysis and priority determination based on fuzzy expert systems
CN111414233A (zh) 一种在线模型推理***
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
US10037536B2 (en) Method and apparatus for autonomous services composition
WO2021228264A1 (zh) 一种应用机器学习的方法、装置、电子设备及存储介质
CN110781180B (zh) 一种数据筛选方法和数据筛选装置
US20210334593A1 (en) Recommending scripts for constructing machine learning models
CN106528169A (zh) 一种基于AnGo动态演化模型的Web***开发可复用方法
CN110633959A (zh) 基于图结构的审批任务创建方法、装置、设备及介质
CN110532056A (zh) 一种应用于用户界面中的控件识别方法及装置
CN111125518A (zh) 家电信息推荐的***及方法
US9369536B1 (en) Event-based user behavior timeline, predictions, and recommendations
CN115237295A (zh) 一种可视化拖拽生成流程图的方法、电子设备及介质
CN112395108A (zh) 一种bim元件模型的调用方法及装置
CN109284324A (zh) 基于Apache Oozie框架处理大数据的流程任务的调度装置
JP5206268B2 (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
CN114675819A (zh) Rpa组件的推荐方法、装置、设备和可读存储介质
US20220214864A1 (en) Efficient deployment of machine learning and deep learning model's pipeline for serving service level agreement
CN114329128A (zh) 标注数据的获取方法、装置、计算机设备和存储介质
CN112925813A (zh) 基于混合编排的数据处理方法、装置、***和存储介质
CN114443831A (zh) 应用机器学习的文本分类方法、装置和电子设备
WO2022037689A1 (zh) 一种基于数据形式的数据处理方法和应用机器学习的方法
CN112598323B (zh) 跨业务域流程监控方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination