CN111860854A - 模型特征管理***、模型特征管理方法及存储介质 - Google Patents

模型特征管理***、模型特征管理方法及存储介质 Download PDF

Info

Publication number
CN111860854A
CN111860854A CN201911244850.5A CN201911244850A CN111860854A CN 111860854 A CN111860854 A CN 111860854A CN 201911244850 A CN201911244850 A CN 201911244850A CN 111860854 A CN111860854 A CN 111860854A
Authority
CN
China
Prior art keywords
model
feature
data
model feature
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911244850.5A
Other languages
English (en)
Other versions
CN111860854B (zh
Inventor
郄小虎
易国强
史兴胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201911244850.5A priority Critical patent/CN111860854B/zh
Publication of CN111860854A publication Critical patent/CN111860854A/zh
Application granted granted Critical
Publication of CN111860854B publication Critical patent/CN111860854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种模型特征管理***、模型特征管理方法及存储介质。其中,模型特征管理***包括:部署模块,被配置为获取模型特征数据和模型特征配置,为模型特征配置部署模型特征数据,并根据部署信息生成存储日志;管理平台,被配置为生成模型特征配置,并向部署模块提供模型特征配置,以及从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。通过本发明的技术方案,对场景中各模型特征进行有效管理,无需人工参与,实现特征数据核验或案例数据分析。

Description

模型特征管理***、模型特征管理方法及存储介质
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种模型特征管理***、模型特征管理方法及计算机可读存储介质。
背景技术
网约车的出行场景离不开机器学习算法的应用,其中机器学习算法实现的基本流程主要包含:问题定义、数据集划分、特征工程、模型训练、模型评估、模型部署几个部分。通常在明确了所需解决的问题后,在理解业务场景的基础上,通过多种途径获取所需的离线特征数据,并使用系列清洗与预处理手段获得模型训练所需特征数据,经过多次的模型训练、效果评估与优化,最终得到符合预期的模型。然后就需要以工程服务的形式将模型部署到线上以提供预测服务,现有技术在模型部署环节,缺乏对模型特征的统一管理,查看工程服务日志,人工逐个比对线上特征数据与线下特征数据是否一致,以及比对模型的输出是否符合预期,易用性差且无法为场景中模型所使用特征提供完备的解释。另外,缺少对模型配置的版本管理机制,无法快速有效的还原历史模型的预测场景,为案例分析等功能提供支持。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个方面在于提出了一种模型特征管理***。
本发明的另一个方面在于提出了一种模型特征管理方法。
本发明的再一个方面在于提出了一种计算机可读存储介质。
有鉴于此,根据本发明的一个方面,提出了一种模型特征管理***,包括:部署模块,被配置为获取模型特征数据和模型特征配置,为模型特征配置部署模型特征数据,并根据部署信息生成存储日志;管理平台,被配置为生成模型特征配置,并向部署模块提供模型特征配置,以及从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。
本发明提供的模型特征管理***,管理平台生成模型特征配置并向部署模块提供模型特征配置,部署模块为模型特征配置部署模型特征数据,并根据部署信息生成存储日志,进一步地,管理平台从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。其中,部署信息可包括所使用的模型、中间特征、模型输出、策略逻辑等信息,特征数据核验是指在算法模型提供线上预测服务时,需要对模型的线上特征数据输入和模型离线训练的特征数据输入做比对,核验线上线下所获取的特征数据是否存在差异。案例数据分析是指追踪并分析异常案例的详细数据、中间特征、模型输出、策略逻辑等信息。通过本发明的技术方案,对场景中各模型特征进行有效管理,无需人工参与,实现特征数据核验或案例数据分析。
根据本发明的上述模型特征管理***,还可以具有以下技术特征:
在上述技术方案中,还包括:存储模块,被配置为从管理平台获取模型特征配置,结合模型特征数据的数据源,按照目录路径的结构对不同工程场景对应的模型特征配置进行存储,并向部署模块提供模型特征配置。
在该技术方案中,使用etcd作为存储服务,etcd提供了一种可靠的数据配置存储和更新机制,便于服务工程的远程配置加载和更新,其中etcd是一个Go语言开发的轻量、可靠、持久存储的分布式key-value数据库。明确模型所需的每一个特征的数据获取来源,考虑不同数据源获取模型特征数据的方式及差异,存储结构模拟目录路径的设计方式,分别存储各服务工程下各场景对应的模型特征配置。对于模型特征配置的更新,则可以基于模拟目录路径的结构设计进行某一范围的监听,比如监听某一key,则当此目录下所有key保存的value存在变更时都能被监听方(模型配置模块)捕获,从而实现多粒度的实时更新。
在上述任一技术方案中,存储模块,被配置为构建用于存储模型特征的特征库和特征组。
在该技术方案中,构建特征库和特征组,方便特征的复用,并且能够为对每一个特征进行详细的解释提供基础。
在上述任一技术方案中,模型特征数据包括第一类模型特征数据,模型特征管理***还包括:第一特征获取模块,被配置为从第一特征数据源获取第一类模型特征数据。
在该技术方案中,在相关技术中的提供模型线上预测服务的工程准备环节,通常需要按照最终训练得到的模型的输入特征,逐个匹配到线上各已有特征服务中提供的特征项,若线上已有特征服务无匹配特征,则需要额外提出此项特征的线上特征服务需求,或者调整模型的输入特征,重新训练模型并评估。对于已有特征服务无法提供模型所需特征的问题,通过第一特征获取模块快速接入第一特征数据源,即特征的原始业务数据源,从而获取所需特征数据供工程服务使用,而无需额外提出此项特征的线上特征服务需求或调整模型的特征输入重新训练评估模型。
在上述任一技术方案中,模型特征数据包括第二类模型特征数据,部署模块包括:第二特征获取模块,被配置为从第二特征数据源获取第二类模型特征数据。
在该技术方案中,第二特征获取模块实现了灵活从第二特征数据源,即各个已有特征数据源中获取特征的功能,避免了每个工程服务中重复的编写此部分的代码,统一规范特征的获取。
在上述任一技术方案中,部署模块还包括:特征聚合模块,被配置为对第一类模型特征数据和第二类模型特征数据进行数据处理;特征更新模块,被配置为对进行数据处理后的第一类模型特征数据和第二类模型特征数据进行数据更新;模型配置模块,被配置为获取模型特征配置,以及监听模型特征配置的变更。
在该技术方案中,特征聚合模块实现对模型特征数据的加工与处理(例如特征数据的离散化、日期的格式化),以符合模型的特征输入需要;特征更新模块是解决对从各数据源中获取的模型特征数据在经过一系列业务处理后需要更新回写的问题,例如在加工和处理的过程中产生了新的模型特征数据,则进行模型特征数据的更新;模型配置模块采用远程配置加载的方式获取本工程服务中各模型的特征配置,同时监听存储模块中存储的模型特征配置的变更,当有模型特征配置变更的业务需求时,无需进行工程开发与服务发布,便能实时更新提升需求响应效率。
在上述任一技术方案中,管理平台包括:模型特征配置管理模块,被配置为结合特征库和特征组,生成模型特征配置;特征字典模块,被配置为提供特征解释视图;特征数据核验模块,被配置为根据部署信息进行特征数据核验;案例数据分析模块,被配置为根据部署信息进行案例数据分析。
在该技术方案中,模型特征配置管理模块将工程中各场景使用的模型特征配置信息统一管理起来,当新建一个工程场景时,即可参考已有场景的模型特征配置信息,结合特征库和特征组,快速生成场景需要的模型特征配置,并下发至存储模块中;特征字典模块提供一个多条件查询的特征解释视图,对模型中所用到的每一个特征进行详细的解释,包括线上的特征名、释义、关联的离线特征表、特征字段等信息;特征数据核验模块则提供一个可视化的界面快速高效的核验在模型部署环节中特征一致性的问题;案例数据分析模块通过界面方便研发和产品能快速地追踪到异常案例的详细数据、中间特征、模型输出、策略逻辑等信息。
根据本发明的另一个方面,提出了一种模型特征管理方法,用于如上述任一技术方案的模型特征管理***,模型特征管理方法包括:获取工程场景建立指令,根据工程场景建立指令生成工程场景的模型特征配置;获取模型特征数据,为模型特征配置部署模型特征数据,并得到部署信息;根据部署信息进行特征数据核验或案例数据分析。
本发明提供的模型特征管理方法,当新建一个工程场景时,即可参考已有场景的模型特征配置信息,快速生成场景需要的模型特征配置,为模型特征配置部署模型特征数据,并根据部署信息生成存储日志,进一步地,从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。其中,部署信息可包括所使用的模型、中间特征、模型输出、策略逻辑等信息,特征数据核验是指在算法模型提供线上预测服务时,需要对模型的线上特征数据输入和模型离线训练的特征数据输入做比对,核验线上线下所获取的特征数据是否存在差异。案例数据分析是指追踪并分析异常案例的详细数据、中间特征、模型输出、策略逻辑等信息。通过本发明的技术方案,对场景中各模型特征进行有效管理,无需人工参与,实现特征数据核验或案例数据分析。
根据本发明的上述模型特征管理方法,还可以具有以下技术特征:
在上述技术方案中,还包括:结合模型特征数据的数据源,按照目录路径的结构对不同服务工程中不同场景对应的模型特征配置进行存储。
在该技术方案中,使用etcd作为存储服务,etcd提供了一种可靠的数据配置存储和更新机制,便于服务工程的远程配置加载和更新,其中etcd是一个Go语言开发的轻量、可靠、持久存储的分布式key-value数据库。明确模型所需的每一个特征的数据获取来源,考虑不同数据源获取模型特征数据的方式及差异,存储结构模拟目录路径的设计方式,分别存储各服务工程下各场景对应的模型特征配置。对于模型特征配置的更新,则可以基于模拟目录路径的结构设计进行某一范围的监听,比如监听某一key,则当此目录下所有key保存的value存在变更时都能被监听方(模型配置模块)捕获,从而实现多粒度的实时更新。
在上述任一技术方案中,还包括:构建用于存储模型特征的特征库和特征组。
在该技术方案中,构建特征库和特征组,方便特征的复用,并且能够为对每一个特征进行详细的解释提供基础。
在上述技术方案中,模型特征数据包括第一类模型特征数据和第二类模型特征数据,获取模型特征数据的步骤,具体包括:从第一特征数据源获取第一类模型特征数据,以及从第二特征数据源获取第二类模型特征数据。
在该技术方案中,在相关技术中的提供模型线上预测服务的工程准备环节,通常需要按照最终训练得到的模型的输入特征,逐个匹配到线上各已有特征服务中提供的特征项,若线上已有特征服务无匹配特征,则需要额外提出此项特征的线上特征服务需求,或者调整模型的输入特征,重新训练模型并评估。对于已有特征服务无法提供模型所需特征的问题,通过快速接入第一特征数据源,即特征的原始业务数据源,从而获取所需特征数据供工程服务使用,而无需额外提出此项特征的线上特征服务需求或调整模型的特征输入重新训练评估模型。并且,实现了灵活从第二特征数据源,即各个已有特征数据源中获取特征的功能,避免了每个工程服务中重复的编写此部分的代码,统一规范特征的获取。
在上述任一技术方案中,还包括:对第一类模型特征数据和第二类模型特征数据进行数据处理;对进行数据处理后的第一类模型特征数据和第二类模型特征数据进行数据更新。
在该技术方案中,对模型特征数据进行加工与处理(例如特征数据的离散化、日期的格式化),以符合模型的特征输入需要;并且能够解决对从各数据源中获取的模型特征数据在经过一系列业务处理后需要更新回写的问题,例如在加工和处理的过程中产生了新的模型特征数据,则进行模型特征数据的更新。
在上述任一技术方案中,还包括:监听模型特征配置的变更。
在该技术方案中,监听存储的模型特征配置的变更,当有模型特征配置变更的业务需求时,无需进行工程开发与服务发布,便能实时更新提升需求响应效率。
在上述任一技术方案中,根据工程场景建立指令生成工程场景的模型特征配置的步骤,具体包括:根据工程场景建立指令,结合特征库和特征组生成工程场景的模型特征配置。
在该技术方案中,将工程中各场景使用的模型特征配置信息统一管理起来,当新建一个工程场景时,即可参考已有场景的模型特征配置信息,结合特征库和特征组,快速生成场景需要的模型特征配置。
根据本发明的再一个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的模型特征管理方法。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现如上述任一技术方案的模型特征管理方法的步骤,因此该计算机可读存储介质包括上述任一技术方案的模型特征管理方法的全部有益效果。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的第一个实施例的模型特征管理***的示意框图;
图2示出了本发明的第二个实施例的模型特征管理***的示意框图;
图3示出了本发明的第三个实施例的模型特征管理***的示意框图;
图4示出了本发明的第四个实施例的模型特征管理***的示意框图;
图5示出了本发明的第五个实施例的模型特征管理***的示意框图;
图6示出了本发明的一个实施例的基于etcd的多版本模型特征管理***的架构图;
图7示出了本发明的一个实施例的模型特征配置存储结构的示意图;
图8示出了本发明的一个实施例的特征库和特征组的示意图;
图9示出了本发明的一个实施例的特征数据核验的流程示意图;
图10示出了本发明的一个实施例的模型特征管理方法的流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出一种模型特征管理***,通过以下实施例对该模型特征管理***进行详细说明。
实施例一,图1示出了本发明的第一个实施例的模型特征管理***100的示意框图。其中,该模型特征管理***100包括:
部署模块102,被配置为获取模型特征数据和模型特征配置,为模型特征配置部署模型特征数据,并根据部署信息生成存储日志;
管理平台104,被配置为生成模型特征配置,并向部署模块102提供模型特征配置,以及从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。
本发明提供的模型特征管理***,管理平台104生成模型特征配置并向部署模块102提供模型特征配置,部署模块102为模型特征配置部署模型特征数据,并根据部署信息生成存储日志,进一步地,管理平台104从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。其中,部署信息可包括所使用的模型、中间特征、模型输出、策略逻辑等信息,特征数据核验是指在算法模型提供线上预测服务时,需要对模型的线上特征数据输入和模型离线训练的特征数据输入做比对,核验线上线下所获取的特征数据是否存在差异。案例数据分析是指追踪并分析异常案例的详细数据、中间特征、模型输出、策略逻辑等信息。通过本发明的实施例,对场景中各模型特征进行有效管理,无需人工参与,实现特征数据核验或案例数据分析。
实施例二,图2示出了本发明的第二个实施例的模型特征管理***100的示意框图。其中,该模型特征管理***100包括:
部署模块102,被配置为获取模型特征数据和模型特征配置,为模型特征配置部署模型特征数据,并根据部署信息生成存储日志;
存储模块106,被配置为从管理平台104获取模型特征配置,结合模型特征数据的数据源,按照目录路径的结构对不同工程场景对应的模型特征配置进行存储,并向部署模块102提供模型特征配置;
管理平台104,被配置为生成模型特征配置,并向部署模块102提供模型特征配置,以及从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。
在该实施例中,使用etcd作为存储服务,etcd提供了一种可靠的数据配置存储和更新机制,便于服务工程的远程配置加载和更新,其中etcd是一个Go语言开发的轻量、可靠、持久存储的分布式key-value数据库。明确模型所需的每一个特征的数据获取来源,考虑不同数据源获取模型特征数据的方式及差异,存储结构模拟目录路径的设计方式,分别存储各服务工程下各场景对应的模型特征配置。对于模型特征配置的更新,则可以基于模拟目录路径的结构设计进行某一范围的监听,比如监听某一key,则当此目录下所有key保存的value存在变更时都能被监听方(模型配置模块)捕获,从而实现多粒度的实时更新。
在上述任一实施例中,存储模块106,被配置为构建用于存储模型特征的特征库和特征组。
在该实施例中,构建特征库和特征组,方便特征的复用,并且能够为对每一个特征进行详细的解释提供基础。
实施例三,图3示出了本发明的第三个实施例的模型特征管理***100的示意框图。其中,该模型特征管理***100包括:
第一特征获取模块108,被配置为从第一特征数据源获取第一类模型特征数据;
部署模块102,部署模块102包括:第二特征获取模块1022,被配置为从第二特征数据源获取第二类模型特征数据,部署模块102被配置为向模型特征配置部署第一类模型特征数据和第二类模型特征数据,并根据部署信息生成存储日志;
存储模块106,被配置为从管理平台104获取模型特征配置,结合模型特征数据的数据源,按照目录路径的结构对不同工程场景对应的模型特征配置进行存储,并向部署模块102提供模型特征配置;
管理平台104,被配置为生成模型特征配置,并向部署模块102提供模型特征配置,以及从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。
在该实施例中,在相关技术中的提供模型线上预测服务的工程准备环节,通常需要按照最终训练得到的模型的输入特征,逐个匹配到线上各已有特征服务中提供的特征项,若线上已有特征服务无匹配特征,则需要额外提出此项特征的线上特征服务需求,或者调整模型的输入特征,重新训练模型并评估。对于已有特征服务无法提供模型所需特征的问题,通过第一特征获取模块108快速接入第一特征数据源,即特征的原始业务数据源,从而获取所需特征数据供工程服务使用,而无需额外提出此项特征的线上特征服务需求或调整模型的特征输入重新训练评估模型。
第二特征获取模块1022实现了灵活从第二特征数据源,即各个已有特征数据源中获取特征的功能,避免了每个工程服务中重复的编写此部分的代码,统一规范特征的获取。
实施例四,图4示出了本发明的第四个实施例的模型特征管理***100的示意框图。其中,该模型特征管理***100包括:
第一特征获取模块108,被配置为从第一特征数据源获取第一类模型特征数据;
部署模块102,部署模块102包括:第二特征获取模块1022,被配置为从第二特征数据源获取第二类模型特征数据;特征聚合模块1024,被配置为对第一类模型特征数据和第二类模型特征数据进行数据处理;特征更新模块1026,被配置为对进行数据处理后的第一类模型特征数据和第二类模型特征数据进行数据更新;模型配置模块1028,被配置为获取模型特征配置,以及监听模型特征配置的变更;部署模块102被配置为向模型特征配置部署第一类模型特征数据和第二类模型特征数据,并根据部署信息生成存储日志;
存储模块106,被配置为从管理平台104获取模型特征配置,结合模型特征数据的数据源,按照目录路径的结构对不同工程场景对应的模型特征配置进行存储,并向部署模块102提供模型特征配置;
管理平台104,被配置为生成模型特征配置,并向部署模块102提供模型特征配置,以及从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。
在该实施例中,特征聚合模块1024实现对模型特征数据的加工与处理(例如特征数据的离散化、日期的格式化),以符合模型的特征输入需要;特征更新模块1026是解决对从各数据源中获取的模型特征数据在经过一系列业务处理后需要更新回写的问题,例如在加工和处理的过程中产生了新的模型特征数据,则进行模型特征数据的更新;模型配置模块1028采用远程配置加载的方式获取本工程服务中各模型的特征配置,同时监听存储模块106中存储的模型特征配置的变更,当有模型特征配置变更的业务需求时,无需进行工程开发与服务发布,便能实时更新提升需求响应效率。
实施例五,图5示出了本发明的第五个实施例的模型特征管理***100的示意框图。其中,该模型特征管理***100包括:
第一特征获取模块108,被配置为从第一特征数据源获取第一类模型特征数据;
部署模块102,部署模块102包括:第二特征获取模块1022,被配置为从第二特征数据源获取第二类模型特征数据;特征聚合模块1024,被配置为对第一类模型特征数据和第二类模型特征数据进行数据处理;特征更新模块1026,被配置为对进行数据处理后的第一类模型特征数据和第二类模型特征数据进行数据更新;模型配置模块1028,被配置为获取模型特征配置,以及监听模型特征配置的变更;部署模块102被配置为向模型特征配置部署第一类模型特征数据和第二类模型特征数据,并根据部署信息生成存储日志;
存储模块106,被配置为从管理平台104获取模型特征配置,结合模型特征数据的数据源,按照目录路径的结构对不同工程场景对应的模型特征配置进行存储,并向部署模块102提供模型特征配置;
管理平台104,被配置为生成模型特征配置,并向部署模块102提供模型特征配置,以及从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析;其中,管理平台104具体包括:模型特征配置管理模块1042,被配置为结合特征库和特征组,生成模型特征配置;特征字典模块1044,被配置为提供特征解释视图;特征数据核验模块1046,被配置为根据部署信息进行特征数据核验;案例数据分析模块1048,被配置为根据部署信息进行案例数据分析。
在该实施例中,模型特征配置管理模块1042将工程中各场景使用的模型特征配置信息统一管理起来,当新建一个工程场景时,即可参考已有场景的模型特征配置信息,结合特征库和特征组,快速生成场景需要的模型特征配置,并下发至存储模块106中;特征字典模块1044提供一个多条件查询的特征解释视图,对模型中所用到的每一个特征进行详细的解释,包括线上的特征名、释义、关联的离线特征表、特征字段等信息;特征数据核验模块1046则提供一个可视化的界面快速高效的核验在模型部署环节中特征一致性的问题;案例数据分析模块1048通过界面方便研发和产品能快速地追踪到异常案例的详细数据、中间特征、模型输出、策略逻辑等信息。
实施例六,本发明提出了一种基于etcd的多版本模型特征管理***,对场景中各模型特征进行有效管理,为特征数据核验、模型预测场景的还原、案例分析提供基础支撑。本发明给出的基于etcd的多版本模型特征管理***的整体技术架构如图6所示,该***包括:
在线特征服务602(以下简称dlamp),用以解决模型部署时,已有特征服务无法提供模型所需特征的问题,通过dlamp快速接入特征的原始业务数据源,从而产出所需特征供工程服务使用,而无需调整模型的特征输入,重新训练评估。
模型部署的工程服务604,加入了特征服务SDK(以下简称aladdin)。aladdin封装了特征获取模块6042、特征聚合模块6044、特征更新模块6046、模型配置模块6048,其中特征获取模块6042主要实现了灵活从各已有特征数据源中获取特征的功能,避免了每个工程服务中重复的编写此部分的代码,统一规范特征的获取,已有特征数据源包括特征平台、Dufe(Ddict/RT)、OFS、Http API等;特征聚合模块6044主要实现对特征的加工与处理(如特征的离散化、日期的格式化)以符合模型的特征输入需要;特征更新模块6046主要是解决对从各数据源中获取的特征在经过一系列业务处理后需要更新回写的问题;模型配置模块6048主要采用远程配置加载的方式获取本工程服务中各模型的特征配置,同时监听配置的变更,当有模型配置变更的业务需求时,无需进行工程开发与服务发布,便能实时更新提升需求响应效率。aladdin的设计方便了工程服务的简易使用,无需关注特征的获取与处理过程,使之更多关注在业务逻辑的实现。
模型特征配置存储服务606,方案中使用了etcd作为存储服务,etcd提供了一种可靠的数据配置存储和更新机制,便于服务工程的远程配置加载和更新,etcd是一个Go语言开发的轻量、可靠、持久存储的分布式key-value数据库。在设计上,需要明确模型所需的每一个特征数据获取来源,考虑不同数据源获取特征的方式及差异,同时尽可能的考虑设计结构的复用性和可扩展性。其中,较为关键的点在于数据存储结构的设计,如图7所示,存储key使用模拟目录路径的设计方式,分别存储各服务工程下各场景对应的特征配置。如图8所示,同时构建特征库和特征组,方便特征的复用与特征字典的管理。对于配置的实时更新,则可以基于key的目录路径模拟设计进行某一范围的监听,比如监听前缀为project/{projectId}/{sceneId}/config的key,则当此目录下所有key保存的value存在变更时都能被监听方捕获,从而实现多粒度的实时更新。另外,利用etcd的MVCC(Multi-VersionConcurrency Control,多版本并发控制)机制,维护模型配置的多个版本,为案例分析及模型预测场景的还原提供技术基础。
管理平台608,主要包含模型特征配置管理模块6082、特征字典模块6084、特征数据核验模块6086、案例分析模块6088等。模型特征配置管理将工程中各场景使用的模型配置信息统一管理起来,当新建一个工程场景时,即可参考已有场景的特征配置信息,结合公共的特征库和特征组,快速生成场景需要的特征配置,并下发至指定的工程服务中;特征字典提供一个多条件查询的特征视图,从特征使用方的角度对模型中所用到的每一个特征进行详细的解释,包含如线上的特征名、释义、关联的离线特征表、特征字段等信息;特征数据核验则主要提供一个可视化的界面快速高效的核验在模型部署环节中特征一致性的问题;案例分析期望通过界面方便研发、产品能快速的追踪到异常案例的详细数据、中间特征、模型输出、策略逻辑等信息。
特征数据核验模块6086的核验流程如图9所示,具体包括:在管理平台608的界面上进行手动触发任务,或者自动定时的进行任务触发,配置一些输出的参数,在一定的场景下(例如乘客取消订单)比对一些时间范围,查找该场景下用到的模型和模型下的特征,作为模型特征的数据特征配置。核验逻辑指具体的业务逻辑代码,业务逻辑代码可以调用计算服务进行对数据进行计算,产出的核验结果在管理平台608进行界面展示,或者邮件监控、告警。计算的数据包括离线特征数据和预发/在线特征数据,离线特征数据来自由策略/模型分析产出存储在离线宽表里。预发/在线特征数据来自ES(日志存储),其中,预发环境和在线环境指的是模型部署的工程服务604。
本发明第二方面的实施例,提出一种模型特征管理方法,用于如上述任一实施例的模型特征管理***,图10示出了本发明的一个实施例的模型特征管理方法的流程示意图。其中,该模型特征管理方法包括:
步骤102,获取工程场景建立指令,根据工程场景建立指令生成工程场景的模型特征配置;
步骤104,获取模型特征数据,为模型特征配置部署模型特征数据,并得到部署信息;
步骤106,根据部署信息进行特征数据核验或案例数据分析。
本发明提供的模型特征管理方法,当新建一个工程场景时,即可参考已有场景的模型特征配置信息,快速生成场景需要的模型特征配置,为模型特征配置部署模型特征数据,并根据部署信息生成存储日志,进一步地,从存储日志中获取部署信息,并根据部署信息进行特征数据核验或案例数据分析。其中,部署信息可包括所使用的模型、中间特征、模型输出、策略逻辑等信息,特征数据核验是指在算法模型提供线上预测服务时,需要对模型的线上特征数据输入和模型离线训练的特征数据输入做比对,核验线上线下所获取的特征数据是否存在差异。案例数据分析是指追踪并分析异常案例的详细数据、中间特征、模型输出、策略逻辑等信息。通过本发明的实施例,对场景中各模型特征进行有效管理,无需人工参与,实现特征数据核验或案例数据分析。
在上述实施例中,还包括:结合模型特征数据的数据源,按照目录路径的结构对不同服务工程中不同场景对应的模型特征配置进行存储。
在该实施例中,使用etcd作为存储服务,etcd提供了一种可靠的数据配置存储和更新机制,便于服务工程的远程配置加载和更新,其中etcd是一个Go语言开发的轻量、可靠、持久存储的分布式key-value数据库。明确模型所需的每一个特征的数据获取来源,考虑不同数据源获取模型特征数据的方式及差异,存储结构模拟目录路径的设计方式,分别存储各服务工程下各场景对应的模型特征配置。对于模型特征配置的更新,则可以基于模拟目录路径的结构设计进行某一范围的监听,比如监听某一key,则当此目录下所有key保存的value存在变更时都能被监听方(模型配置模块)捕获,从而实现多粒度的实时更新。
在上述任一实施例中,还包括:构建用于存储模型特征的特征库和特征组。
在该实施例中,构建特征库和特征组,方便特征的复用,并且能够为对每一个特征进行详细的解释提供基础。
在上述实施例中,模型特征数据包括第一类模型特征数据和第二类模型特征数据,步骤104中,获取模型特征数据的步骤,具体包括:从第一特征数据源获取第一类模型特征数据,以及从第二特征数据源获取第二类模型特征数据。
在该实施例中,在相关技术中的提供模型线上预测服务的工程准备环节,通常需要按照最终训练得到的模型的输入特征,逐个匹配到线上各已有特征服务中提供的特征项,若线上已有特征服务无匹配特征,则需要额外提出此项特征的线上特征服务需求,或者调整模型的输入特征,重新训练模型并评估。对于已有特征服务无法提供模型所需特征的问题,通过快速接入第一特征数据源,即特征的原始业务数据源,从而获取所需特征数据供工程服务使用,而无需额外提出此项特征的线上特征服务需求或调整模型的特征输入重新训练评估模型。并且,实现了灵活从第二特征数据源,即各个已有特征数据源中获取特征的功能,避免了每个工程服务中重复的编写此部分的代码,统一规范特征的获取。
在上述任一实施例中,还包括:对第一类模型特征数据和第二类模型特征数据进行数据处理;对进行数据处理后的第一类模型特征数据和第二类模型特征数据进行数据更新。
在该实施例中,对模型特征数据进行加工与处理(例如特征数据的离散化、日期的格式化),以符合模型的特征输入需要;并且能够解决对从各数据源中获取的模型特征数据在经过一系列业务处理后需要更新回写的问题,例如在加工和处理的过程中产生了新的模型特征数据,则进行模型特征数据的更新。
在上述任一实施例中,还包括:监听模型特征配置的变更。
在该实施例中,监听存储的模型特征配置的变更,当有模型特征配置变更的业务需求时,无需进行工程开发与服务发布,便能实时更新提升需求响应效率。
在上述任一实施例中,步骤102中,根据工程场景建立指令生成工程场景的模型特征配置,具体包括:根据工程场景建立指令,结合特征库和特征组生成工程场景的模型特征配置。
在该实施例中,将工程中各场景使用的模型特征配置信息统一管理起来,当新建一个工程场景时,即可参考已有场景的模型特征配置信息,结合特征库和特征组,快速生成场景需要的模型特征配置。
本发明第三方面的实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的模型特征管理方法。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现如上述任一实施例的模型特征管理方法的步骤,因此该计算机可读存储介质包括上述任一实施例的模型特征管理方法的全部有益效果。
在本说明书的描述中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,除非另有明确的规定和限定;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种模型特征管理***,其特征在于,包括:
部署模块,被配置为获取模型特征数据和模型特征配置,为所述模型特征配置部署所述模型特征数据,并根据部署信息生成存储日志;
管理平台,被配置为生成所述模型特征配置,并向所述部署模块提供所述模型特征配置,以及从所述存储日志中获取所述部署信息,并根据所述部署信息进行特征数据核验或案例数据分析。
2.根据权利要求1所述的模型特征管理***,其特征在于,还包括:
存储模块,被配置为从所述管理平台获取所述模型特征配置,结合所述模型特征数据的数据源,按照目录路径的结构对不同工程场景对应的所述模型特征配置进行存储,并向所述部署模块提供所述模型特征配置。
3.根据权利要求2所述的模型特征管理***,其特征在于,
所述存储模块,还被配置为构建用于存储模型特征的特征库和特征组。
4.根据权利要求1至3中任一项所述的模型特征管理***,其特征在于,所述模型特征数据包括第一类模型特征数据,所述模型特征管理***还包括:
第一特征获取模块,被配置为从第一特征数据源获取所述第一类模型特征数据。
5.根据权利要求4所述的模型特征管理***,其特征在于,所述模型特征数据包括第二类模型特征数据,所述部署模块包括:
第二特征获取模块,被配置为从第二特征数据源获取所述第二类模型特征数据。
6.根据权利要求5所述的模型特征管理***,其特征在于,所述部署模块还包括:
特征聚合模块,被配置为对所述第一类模型特征数据和所述第二类模型特征数据进行数据处理;
特征更新模块,被配置为对进行数据处理后的所述第一类模型特征数据和所述第二类模型特征数据进行数据更新;
模型配置模块,被配置为获取所述模型特征配置,以及监听所述模型特征配置的变更。
7.根据权利要求3所述的模型特征管理***,其特征在于,所述管理平台包括:
模型特征配置管理模块,被配置为结合所述特征库和所述特征组,生成所述模型特征配置;
特征字典模块,被配置为提供特征解释视图;
特征数据核验模块,被配置为根据所述部署信息进行特征数据核验;
案例数据分析模块,被配置为根据所述部署信息进行案例数据分析。
8.一种模型特征管理方法,其特征在于,用于如权利要求1至7中任一项所述的模型特征管理***,所述模型特征管理方法包括:
获取工程场景建立指令,根据所述工程场景建立指令生成所述工程场景的模型特征配置;
获取模型特征数据,为所述模型特征配置部署所述模型特征数据,并得到部署信息;
根据所述部署信息进行特征数据核验或案例数据分析。
9.根据权利要求8所述的模型特征管理方法,其特征在于,还包括:
结合所述模型特征数据的数据源,按照目录路径的结构对不同服务工程中不同场景对应的所述模型特征配置进行存储。
10.根据权利要求8所述的模型特征管理方法,其特征在于,还包括:
构建用于存储模型特征的特征库和特征组。
11.根据权利要求8至10中任一项所述的模型特征管理方法,其特征在于,所述模型特征数据包括第一类模型特征数据和第二类模型特征数据,获取模型特征数据的步骤,具体包括:
从第一特征数据源获取所述第一类模型特征数据,以及从第二特征数据源获取所述第二类模型特征数据。
12.根据权利要求11所述的模型特征管理方法,其特征在于,还包括:
对所述第一类模型特征数据和所述第二类模型特征数据进行数据处理;
对进行数据处理后的所述第一类模型特征数据和所述第二类模型特征数据进行数据更新。
13.根据权利要求8至10中任一项所述的模型特征管理方法,其特征在于,还包括:
监听所述模型特征配置的变更。
14.根据权利要求10所述的模型特征管理方法,其特征在于,根据所述工程场景建立指令生成所述工程场景的模型特征配置的步骤,具体包括:
根据所述工程场景建立指令,结合所述特征库和所述特征组生成所述工程场景的模型特征配置。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求8至14中任一项所述的模型特征管理方法。
CN201911244850.5A 2019-12-06 2019-12-06 模型特征管理***、模型特征管理方法及存储介质 Active CN111860854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911244850.5A CN111860854B (zh) 2019-12-06 2019-12-06 模型特征管理***、模型特征管理方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911244850.5A CN111860854B (zh) 2019-12-06 2019-12-06 模型特征管理***、模型特征管理方法及存储介质

Publications (2)

Publication Number Publication Date
CN111860854A true CN111860854A (zh) 2020-10-30
CN111860854B CN111860854B (zh) 2024-05-07

Family

ID=72970773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911244850.5A Active CN111860854B (zh) 2019-12-06 2019-12-06 模型特征管理***、模型特征管理方法及存储介质

Country Status (1)

Country Link
CN (1) CN111860854B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656263A (zh) * 2021-08-20 2021-11-16 重庆紫光华山智安科技有限公司 一种数据处理方法、***、存储介质及终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100036751A1 (en) * 2008-08-08 2010-02-11 Erik Eidt Architecture For Instantiating Information Technology Services
CN106055609A (zh) * 2016-05-25 2016-10-26 北京小米移动软件有限公司 nginx日志监控方法、装置、消息分布***及信息处理的装置
US20170178027A1 (en) * 2015-12-16 2017-06-22 Accenture Global Solutions Limited Machine for development and deployment of analytical models
WO2017118597A1 (en) * 2016-01-04 2017-07-13 Groundlion Nv Computer-implemented method for complex dynamic case management
CN107357856A (zh) * 2017-06-29 2017-11-17 广西电网有限责任公司 基于电网全景业务模型数据集成及数据服务的实现方法
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务***
CN109615265A (zh) * 2018-12-26 2019-04-12 北京寄云鼎城科技有限公司 基于集成开发***的工业数据分析方法、装置与电子设备
CN110377294A (zh) * 2019-07-23 2019-10-25 上海金融期货信息技术有限公司 一种基于DevOps的多环境配置***和方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100036751A1 (en) * 2008-08-08 2010-02-11 Erik Eidt Architecture For Instantiating Information Technology Services
US20170178027A1 (en) * 2015-12-16 2017-06-22 Accenture Global Solutions Limited Machine for development and deployment of analytical models
WO2017118597A1 (en) * 2016-01-04 2017-07-13 Groundlion Nv Computer-implemented method for complex dynamic case management
CN106055609A (zh) * 2016-05-25 2016-10-26 北京小米移动软件有限公司 nginx日志监控方法、装置、消息分布***及信息处理的装置
CN107357856A (zh) * 2017-06-29 2017-11-17 广西电网有限责任公司 基于电网全景业务模型数据集成及数据服务的实现方法
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务***
CN109615265A (zh) * 2018-12-26 2019-04-12 北京寄云鼎城科技有限公司 基于集成开发***的工业数据分析方法、装置与电子设备
CN110377294A (zh) * 2019-07-23 2019-10-25 上海金融期货信息技术有限公司 一种基于DevOps的多环境配置***和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨洪娇;: "基于Hadoop的高校网络日志分析平台设计与实现", 数码世界, no. 08 *
汤网祥;王金华;赫凌俊;李敏敬;: "大规模软件***日志汇集服务平台设计与实现", 计算机应用与软件, no. 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656263A (zh) * 2021-08-20 2021-11-16 重庆紫光华山智安科技有限公司 一种数据处理方法、***、存储介质及终端
CN113656263B (zh) * 2021-08-20 2023-05-12 重庆紫光华山智安科技有限公司 一种数据处理方法、***、存储介质及终端

Also Published As

Publication number Publication date
CN111860854B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
Van der Aalst et al. Prom: The process mining toolkit
US8195709B2 (en) Comparison of models of a complex system
US11201865B2 (en) Change monitoring and detection for a cloud computing environment
CN107317724A (zh) 基于云计算技术的数据采集***及方法
CN108399082B (zh) 一种持续集成流水线的生成方法和***
CN111459763A (zh) 跨kubernetes集群监控***及方法
US11561950B2 (en) System and method for facilitating an objective-oriented data structure and an objective via the data structure
CN110188135A (zh) 文件生成方法及设备
Rabiser et al. A domain analysis of resource and requirements monitoring: Towards a comprehensive model of the software monitoring domain
WO2019209231A2 (en) System and method for creating recommendation of splitting and merging microservice
CN106528169A (zh) 一种基于AnGo动态演化模型的Web***开发可复用方法
Batyuk et al. Streaming process discovery for lambda architecture-based process monitoring platform
CN110569113A (zh) 分布式任务的调度方法及***、计算机可读存储介质
CN111860854A (zh) 模型特征管理***、模型特征管理方法及存储介质
Ferreira et al. A scalable and automated machine learning framework to support risk management
US11630844B2 (en) System and method for augmenting synced data across multiple systems to facilitate data cleansing
Stieler et al. Git workflow for active learning-a development methodology proposal for data-centric AI projects
Arcelli et al. Applying model differences to automate performance-driven refactoring of software models
Cherdsakulwong et al. Impact Analysis of Test Cases for Changing Inputs or Outputs of Functional Requirements
CN110209409A (zh) 一种应用产品的定制方法、***及存储介质
Raval et al. An effective high utility itemset mining algorithm with big data based on MapReduce framework
Jordan et al. Automated Integration of Heteregeneous Architecture Information into a Unified Model
CN109522098A (zh) 分布式数据库中的事务处理方法、装置、***和储存介质
El Baz et al. HPC applications deployment on distributed heterogeneous computing platforms via OMF, OML and P2PDC
da Silva et al. Using dynamic workflows for coordinating self-adaptation of software systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant