CN109685089B - 评估模型性能的***及方法 - Google Patents

评估模型性能的***及方法 Download PDF

Info

Publication number
CN109685089B
CN109685089B CN201710971628.XA CN201710971628A CN109685089B CN 109685089 B CN109685089 B CN 109685089B CN 201710971628 A CN201710971628 A CN 201710971628A CN 109685089 B CN109685089 B CN 109685089B
Authority
CN
China
Prior art keywords
model
evaluation
performance
task
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710971628.XA
Other languages
English (en)
Other versions
CN109685089A (zh
Inventor
谢慧霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710971628.XA priority Critical patent/CN109685089B/zh
Publication of CN109685089A publication Critical patent/CN109685089A/zh
Application granted granted Critical
Publication of CN109685089B publication Critical patent/CN109685089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开一种评估模型性能的***及方法。涉及计算机信息处理技术领域,所述***包括:模型管理模块,用于根据预定的模型注册协议对所述模型进行注册,并提供统一的模型调用接口;数据管理模块,用于储存模型数据,所述模型数据包括训练数据与测试数据;以及性能评估模块,用于通过所述模型调用接口获取所述模型,并通过所述模型数据对所述模型进行性能评估。本申请公开的评估模型性能的***及方法,能够自动化对模型进行评估,减少人力投入,降低人力成本。

Description

评估模型性能的***及方法
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种评估模型性能的***及方法。
背景技术
机器学习是人工智能的核心,一般情况下,机器学习通过机器内部对不同问题建立的不同数学模型实现其预测功能。机器学习的一般流程如下:设计模型、训练模型、验证模型、评估模型、更新模型/上线模型。模型性能评估是其中重要的一环,它指示训练的模型的成功程度。如何实现模型性能评估可持续化,及时调整模型对应参数及算法是一项重要的任务。
现有模型性能评估测试的步骤如下:1、人工制定模型,选择数据集;2、将数据集划分为两部分:训练集与验证集;3、使用训练集对模型进行训练;4、训练完成后,使用验证集对模型进行验证;5、对模型在测试集上的性能进行评估。
现有技术的缺点如下:1、模型训练和验证由同一组人执行,存在性能数据造假的可能,数据可信度低;2、全程需人工参与,手动运行模型,当模型数量较多时,评估工作量巨大;3、评估开始后,无法预测评估完成时间,需人工检测是否完成,存在延时可能性,不能及时获取评估结果;4、当数据集或者算法更新时,需人工重新评估模型,不能主动重新评估,无法持续追踪模型性能变化,监控变化趋势,进行异常预警。
因此,需要一种新的评估模型性能的***及方法。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种评估模型性能的***及方法,能够自动化对模型进行评估,减少人力投入,降低人力成本。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种评估模型性能的***,该***包括:模型管理模块,用于根据预定的模型注册协议对所述模型进行注册,并提供统一的模型调用接口;数据管理模块,用于储存模型数据,所述模型数据包括训练数据与测试数据;以及性能评估模块,用于通过所述模型调用接口获取所述模型,并通过所述模型数据对所述模型进行性能评估。
在本公开的一种示例性实施例中,还包括:规则设置模块,用于储存模型处理规则与告警规则,其中所述模型处理规则包括预定时间处理规则。
在本公开的一种示例性实施例中,还包括:推送任务模块,用于执行推送任务,所述推送任务包括告警推送任务,评估报告任务。
在本公开的一种示例性实施例中,还包括:评估任务模块,用于通过所述规则设置模块的规则对所述模型的性能评估的结果进行分析处理,并在所述模型的评估结果满足告警条件时,调用所述推送任务模型进行告警信息推送。
在本公开的一种示例性实施例中,所述模型管理模块包括:模型发布子模块,用于记录所述模型的历史信息与发布信息,在满足预定条件时创建模型评估任务;以及模型接口子模块,用于根据已储存的模型的相关信息,提供已储存的所述模型的模型调用接口。
在本公开的一种示例性实施例中,所述性能评估模块包括:评估算法子模块,用于提供模型的评估算法;以及模型评估子模块,用于通过所述模型的评估算法对所述模型进行评估分析。
在本公开的一种示例性实施例中,所述训练数据与所述测试数据为1:1关系,且来自同一批数据集。
根据本发明的一方面,提出一种评估模型性能的方法,该方法包括:获取待评估的模型;模型评估***通过预定的评估算法对所述模型自动进行性能评估;以及根据所述模型的性能评估结果进行后续处理。
在本公开的一种示例性实施例中,还包括:检测预定参数,在预定参数状态更新时,自动对所述模型进行性能评估,所述预定参数包括模型变更参数与算法变更参数。
在本公开的一种示例性实施例中,所述模型评估***通过预定的评估算法对所述模型自动进行性能评估,包括:模型评估***通过准确率算法对所述模型自动进行性能评估。
在本公开的一种示例性实施例中,所述根据所述模型的性能评估结果进行后续处理,包括:根据所述性能评估结果判断是否满足告警条件;在满足所述告警条件时,推送告警消息至用户。
在本公开的一种示例性实施例中,所述根据所述模型的性能评估结果进行后续处理,还包括:通过评估结果生成评估报告;推送所述评估报告至用户。
根据本发明的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本发明的一方面,提出一种计算机可读介质,其上存储有计算机程序,其特征在于,程序被处理器执行时实现如上文中的方法。
根据本发明的评估模型性能的***及方法,能够自动化对模型进行评估,减少人力投入,降低人力成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种评估模型性能的***的架构图。
图2是根据一示例性实施例示出的一种评估模型性能的***的框图。
图3是根据另一示例性实施例示出的一种评估模型性能的***框图。
图4是根据一示例性实施例示出的一种评估模型性能的方法的流程图。
图5是根据另一示例性实施例示出的一种评估模型性能的方法的流程图。
图6是根据一示例性实施例示出的一种电子设备的框图。
图7是根据一示例性实施例示出的一种计算机可读介质示意图。
具体实施例
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的,因此不能用于限制本发明的保护范围。
下面结合附图对本公开示例实施方式进行详细说明。
图1是根据一示例性实施例示出的一种评估模型性能的***的架构图。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所提交的模型评估测试请求进行处理。后台管理服务器可以对接收到的信息查询请求等数据进行分析等处理,并将处理结果(例如评估结果)反馈给终端设备。
需要说明的是,本申请实施例所提供的模型评估方法一般由服务器105执行,相应地,评估结果一般发送至客户端101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据一示例性实施例示出的一种评估模型性能的***的框图。
其中,模型管理模块202用于根据预定的模型注册协议对所述模型进行注册,并提供统一的模型调用接口。进一步,可例如模型管理模块202主要负责模型的管理工作,模型管理模块202中储存统一模型注册协议,开发人员按照对应协议进行模型注册,当模型变更发布后记录发布信息,模型管理模块202还可例如存储模型预测接口地址信息。
模型管理模块202还可例如包括:模型发布子模块,用于记录所述模型的历史信息与发布信息,在满足预定条件时创建模型评估任务;以及模型接口子模块,用于根据已储存的模型的相关信息,提供已储存的所述模型的模型调用接口。
数据管理模块204用于储存模型数据,所述模型数据包括训练数据与测试数据。可例如,数据管理模块204用于模型评估中数据的储存管理,可例如由测试人员上传。为了降低由数据原因导致的评估性能误差,可例如将模型对应的数据集分为训练集(训练数据)与测试集(测试数据)。训练数据:训练集内数据用于训练模型。测试数据:测试集内数据用于验证模型,评估模型性能,测试数据与训练数据为1:1关系,来自同一批数据集。
性能评估模块206用于通过所述模型调用接口获取所述模型,并通过所述模型数据对所述模型进行性能评估。性能评估模块206遍历任务中的所有模型,调用模型对应的模型预测接口获取预测结果,可例如,使用评估算法分析预测结果进而对模型进行性能评估。
性能评估模块206可例如包括评估算法子模块,用于提供模型的评估算法;以及模型评估子模块,用于通过所述模型的评估算法对所述模型进行评估分析。
根据本发明的评估模型性能的***,通过将模型训练与模型评估隔离开,提供一个单独的模型评估***,能够提升数据可信度,通过用户指定规则自动化执行模型性能评估,能够自动化对模型进行评估,减少人力投入,降低人力成本。
在本公开的一种示例性实施例中,还包括:规则设置模块,用于储存模型处理规则与告警规则,其中所述模型处理规则包括预定时间处理规则。其中,可例如,模型处理规则包括:引擎检测任务调度规则与时间的匹配关系,当到达调度规则的指定时间时,通知执行引擎执行评估任务。告警规则包括:模型评估完成后,规则引擎检测评估结果与告警规则是否匹配,匹配则通知执行引擎执行告警任务。
在本公开的一种示例性实施例中,还包括:推送任务模块,用于执行推送任务,所述推送任务包括告警推送任务,评估报告任务。其中,告警推送任务可例如包括:邮件引擎:推送评估报告和告警邮件。短信引擎:推送告警短信。告警邮件:当模型评估结果匹配告警规则后,根据任务配置的告警接收邮箱生成告警邮件。告警短信:当模型评估结果匹配告警规则后,根据任务配置的告警接收手机号生成告警短信。
评估报告任务,可例如包括:根据任务内的模型评估结果生成对应评估报告,报告中展示任务下的模型、模型详细评估结果、模型评估趋势。
根据本发明的评估模型性能的***,评估完成后自动生成评估结果邮件,同步发送,降低评估结果获取延时性。
在本公开的一种示例性实施例中,还包括:评估任务模块,用于通过所述规则设置模块的规则对所述模型的性能评估的结果进行分析处理,并在所述模型的评估结果满足告警条件时,调用所述推送任务模型进行告警信息推送。其中,可例如评估任务管理主要用于评估任务的配置,任务队列管理和评估结果管理,评估任务可例如由测试人员创建。任务配置:包含任务名称、任务关联模型、任务调度规则、告警规则、结果接收人。任务与模型呈现1:N关系,任务执行规则指定任务的具体执行时间,是否重复执行,可采用类似Cron表达式的方式。告警规则设定当评估结果达到指定状态或阈值时,进行告警。结果接收人指定评估报告及告警信息的接收者,配置手机短信、邮件。
根据本发明的评估模型性能的***,根据用户设定的告警规则(如波动幅度),降低因数据原因造成的评估结果误报可能性。
图3是根据另一示例性实施例示出的一种评估模型性能的***框图。
如图3所示,评估模型性能的***包括:模型管理模块302用于模型的管理工作,统一模型注册协议,开发人员按照对应协议进行模型注册,当模型变更发布后记录发布信息,存储模型预测接口地址信息。
模型注册协议3022约定模型的注册方式,对模型如何绑定至***做出明确规定。根据协议规定的方式***可以获取模型信息。
模型发布管理3024当模型发布时,记录模型历史信息及发布信息,主动创建模型评估任务。
模型寻址服务3026传入模型信息,返回模型对应的预测接口,***调用预测接口获取模型预测结果。
数据集管理模块304用于模型评估,主要由测试人员上传。为了降低由数据原因导致的评估性能误差,将模型对应的数据集分为训练节与测试集。训练集管理:训练集内数据用于训练模型。测试集管理:测试集内数据用于验证模型,评估模型性能,与训练集为1:1关系,来自同一批数据集。
评估任务管理306用于评估任务的配置,任务队列管理和评估结果管理。评估任务多由测试人员创建。
任务配置3062包含任务名称、任务关联模型、任务调度规则、告警规则、结果接收人。任务与模型呈现1:N关系,任务执行规则指定任务的具体执行时间,是否重复执行,可采用类似Cron表达式的方式。告警规则设定当评估结果达到指定状态或阈值时,进行告警。结果接收人指定评估报告及告警信息的接收者,配置手机短信、邮件。Cron表达式是一个表达时间维度的字符串,由6个(或7个)由空格分隔的字符组成,可表示一个时间点或者一个时间范围。针对不同的定时任务框架会有不同的语法格式。
任务队列管理3064评估任务创建完成后,将对应任务推送评估任务队列。
评估结果管理3066任务执行完成后,根据用户配置的告警规则,结果接收人信息,进行评估报告、告警信息的推送。
规则引擎模块308包含对任务调度规则和告警规则的检测。
任务调度规则3082引擎检测任务调度规则与时间的匹配关系,当到达调度规则的指定时间时,通知执行引擎执行评估任务。
告警规则3084模型评估完成后,规则引擎308检测评估结果与告警规则是否匹配,匹配则通知执行引擎执行告警任务。
评估任务队列310用于存储待执行的评估任务。
执行引擎312遍历评估任务队列310,使用规则引擎308进行任务调度规则检测,满足执行条件后执行评估任务。评估任务完成后,生成任务评估报告,***推送任务队列310;使用规则引擎308进行告警规则匹配,满足告警条件后执行告警任务,生成告警信息,***推送任务队列314。
模型评估3124遍历任务中的所有模型,调用模型对应的模型预测接口获取预测结果,使用评估算法分析预测结果进而对模型进行性能评估可例如使用准确率算法对模型进行评估。
推送任务队列314存储待推送的评估报告及告警信息。
推送引擎316遍历推送任务队列,执行对应推送任务。推送任务包括评估报告:根据任务内的模型评估结果生成对应评估报告,报告中展示任务下的模型、模型详细评估结果、模型评估趋势。
邮件引擎3162推送评估报告和告警邮件。当模型评估结果匹配告警规则后,根据任务配置的告警接收邮箱生成告警邮件。
短信引擎3164推送告警短信。当模型评估结果匹配告警规则后,根据任务配置的告警接收手机号生成告警短信。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。
图4是根据一示例性实施例示出的一种评估模型性能的方法的流程图。
如图4所示,在S402中,获取待评估的模型。模型可例如为机器学习之后得到的模型。可例如通过开发人员上传待评估的模型。
在S404中,模型评估***通过预定的评估算法对所述模型自动进行性能评估。可例如,模型评估***通过准确率算法对所述模型自动进行性能评估。
在S406中,根据所述模型的性能评估结果进行后续处理。包括:根据所述性能评估结果判断是否满足告警条件;在满足所述告警条件时,推送告警消息至用户。还包括:通过评估结果生成评估报告;推送所述评估报告至用户。
根据本发明的评估模型性能的方法,通过将模型训练与模型评估隔离开,提供一个单独的模型评估***,提升数据可信度,通过按照用户指定规则自动化执行模型性能评估,降低人工参与度,节约人力资源,通过评估完成后自动生成评估结果邮件,同步发送,降低评估结果获取延时性。
在本公开的一种示例性实施例中,还包括:检测预定参数,在预定参数状态更新时,自动对所述模型进行性能评估,所述预定参数包括模型变更参数与算法变更参数。
根据本发明的评估模型性能的方法,数据集或算法更新时,自动重新评估模型,对模型进行持续观察,实现模型性能趋势分析,获取推算正常范围内抖动百分比。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
图5是根据另一示例性实施例示出的一种评估模型性能的方法的流程图。
在S502中,开发人员注册模型。还可例如指定模型对应的通讯协议及预测接口。
在S504中,变更模型。
在S506中,测试人员上传数据集。测试人员上传数据集,拆分为训练集及测试集,匹配对应模型。
在S508中,创建任务。测试选择模型后,指定模型的告警规则(告警阈值、告警接收人(邮箱&手机号))、任务执行规则,创建测试任务。任务执行规则采用Cron表达式规则,用户一次可选择一个或多个模型,或者所有模型。
在S510中,生成任务队列。通过Worker执行任务,规则引擎定时轮询任务,生成任务队列,存在到达任务执行时间或未完成的任务时,生成待执行任务列表。Worker是任务执行者,还可以通过其他常见的定时任务的各种形式,如Java Timer,Quartz等来实现上述功能。
在S512中,遍历任务队列。
在S514中,遍历模型。遍历待执行任务列表,当任务未被锁定且未暂停时,遍历任务中的模型,根据协议调用对应接口进行模型预测,执行模型性能评估。
在S516中,生成评估结果。对每个模型进行性能评估前,锁定任务,评估完成后解锁任务。任务整体成功后生成评估结果邮件,***推送任务队列;当评估结果匹配告警规则时,生成告警邮件和告警短信,***推送任务队列。a)根据设定的执行规则,一条测试任务可以多次执行,有多条测试记录,分别对应不同的评估结果。b)任务执行期间用户可以选择是否暂停任务,用户选择暂停后,自动化测试模块检测到任务暂停信息,即暂停对此条任务下模型的评估。已暂停的任务可进行恢复操作。c)用户可随时编辑修改任务信息,不影响当前正在进行模型评估的测试任务。
在S518中,生成评估报告。
在S520中,生成告警邮件及短信。
在S522中,发送报告及告警信息。推送引擎定时轮询推送任务队列,当存在待推送任务时,主动进行信息推送。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图6是根据一示例性实施例示出的一种电子设备的框图。
下面参照图6来描述根据本发明的这种实施方式的电子设备200。图6显示的电子设备200仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同***组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图4中所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述电子处方流转处理方法。
图7是根据一示例性实施例示出的一种计算机可读介质示意图。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取待评估的模型;模型评估***通过预定的评估算法对所述模型自动进行性能评估;以及根据所述模型的性能评估结果进行后续处理。
通过以上的详细描述,本领域的技术人员易于理解,根据本发明实施例的评估模型性能的***及方法具有以下优点中的一个或多个。
根据一些实施例,本发明通过模型训练与模型评估隔离的方式,能够降低人为数据造假风险,提升数据可信度
根据一些实施例,本发明的***可以自动执行模型性能评估,减少人力投入,降低人力成本
根据一些实施例,本发明的***可以监测模型状态或数据状态,当数据集或者模型更新后,自动对模型进行评估,持续追踪模型性能变化,实现模型性能趋势分析,快速定位模型缺点,尽可能缩短了模型上线前的训练时间
以上具体地示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本发明可实施的范畴。

Claims (13)

1.一种评估模型性能的***,其特征在于,包括:
模型管理模块,用于根据预定的模型注册协议对所述模型进行注册,并提供统一的模型调用接口;
数据管理模块,用于储存模型数据,所述模型数据包括训练数据与测试数据;
规则设置模块,用于储存模型处理规则与告警规则,其中所述模型处理规则包括预定时间处理规则;以及
性能评估模块,用于通过所述模型调用接口获取所述模型,并通过所述模型数据对所述模型进行性能评估。
2.如权利要求1所述的***,其特征在于,还包括:
推送任务模块,用于执行推送任务,所述推送任务包括告警推送任务,评估报告任务。
3.如权利要求2所述的***,其特征在于,还包括:
评估任务模块,用于通过所述规则设置模块的规则对所述模型的性能评估的结果进行分析处理,并在所述模型的评估结果满足告警条件时,调用所述推送任务模型进行告警信息推送。
4.如权利要求1所述的***,其特征在于,所述模型管理模块包括:
模型发布子模块,用于记录所述模型的历史信息与发布信息,在满足预定条件时创建模型评估任务;以及
模型接口子模块,用于根据已储存的模型的相关信息,提供已储存的所述模型的模型调用接口。
5.如权利要求1所述的***,其特征在于,所述性能评估模块包括:
评估算法子模块,用于提供模型的评估算法;以及
模型评估子模块,用于通过所述模型的评估算法对所述模型进行评估分析。
6.如权利要求1所述的***,其特征在于,所述训练数据与所述测试数据为1:1关系,且来自同一批数据集。
7.一种评估模型性能的方法,其特征在于,包括:
获取待评估的模型;
模型评估***通过预定的评估算法对所述模型自动进行性能评估;以及
根据所述模型的性能评估结果进行后续处理。
8.如权利要求7所述的方法,其特征在于,还包括:
检测预定参数,在预定参数状态更新时,自动对所述模型进行性能评估,所述预定参数包括模型变更参数与算法变更参数。
9.如权利要求7所述的方法,其特征在于,所述模型评估***通过预定的评估算法对所述模型自动进行性能评估,包括:
模型评估***通过准确率算法对所述模型自动进行性能评估。
10.如权利要求7所述的方法,其特征在于,所述根据所述模型的性能评估结果进行后续处理,包括:
根据所述性能评估结果判断是否满足告警条件;
在满足所述告警条件时,推送告警消息至用户。
11.如权利要求10所述的方法,其特征在于,所述根据所述模型的性能评估结果进行后续处理,还包括:
通过评估结果生成评估报告;
推送所述评估报告至用户。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求7-11中任一所述的方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求7-11中任一所述的方法。
CN201710971628.XA 2017-10-18 2017-10-18 评估模型性能的***及方法 Active CN109685089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710971628.XA CN109685089B (zh) 2017-10-18 2017-10-18 评估模型性能的***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710971628.XA CN109685089B (zh) 2017-10-18 2017-10-18 评估模型性能的***及方法

Publications (2)

Publication Number Publication Date
CN109685089A CN109685089A (zh) 2019-04-26
CN109685089B true CN109685089B (zh) 2020-12-22

Family

ID=66184072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710971628.XA Active CN109685089B (zh) 2017-10-18 2017-10-18 评估模型性能的***及方法

Country Status (1)

Country Link
CN (1) CN109685089B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928907A (zh) * 2019-11-18 2020-03-27 第四范式(北京)技术有限公司 目标任务处理方法、装置及电子设备
CN112925558B (zh) * 2019-12-09 2022-05-17 支付宝(杭州)信息技术有限公司 模型联合训练方法及装置
CN111144738A (zh) * 2019-12-24 2020-05-12 太平金融科技服务(上海)有限公司 信息处理方法、装置、计算机设备和存储介质
CN111581272B (zh) * 2020-05-25 2023-08-29 泰康保险集团股份有限公司 处理数据的***、方法、设备和计算机可读介质
CN111767948B (zh) * 2020-06-22 2023-08-08 北京百度网讯科技有限公司 一种模型拦截方法、装置、电子设备及存储介质
CN112130865A (zh) * 2020-09-30 2020-12-25 北京明略昭辉科技有限公司 一种模型管理方法、***
CN113271236A (zh) * 2021-06-11 2021-08-17 国家计算机网络与信息安全管理中心 一种引擎评估方法、装置、设备及存储介质
CN113554357A (zh) * 2021-09-22 2021-10-26 北京国研科技咨询有限公司 基于大数据的信息化项目成本评估方法和电子设备
CN114860402B (zh) * 2022-05-10 2023-10-20 北京百度网讯科技有限公司 调度策略模型训练方法、调度方法、装置、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006042358A1 (en) * 2004-10-22 2006-04-27 In The Chair Pty Ltd A method and system for assessing a musical performance
CN101021810A (zh) * 2007-03-08 2007-08-22 山东浪潮齐鲁软件产业股份有限公司 软件***性能评估方法
CN101482891A (zh) * 2008-01-08 2009-07-15 富士通株式会社 性能评估模拟
CN104200087A (zh) * 2014-06-05 2014-12-10 清华大学 用于机器学习的参数寻优及特征调优的方法及***
CN106169096A (zh) * 2016-06-24 2016-11-30 山西大学 一种机器学习***学习性能的评估方法
CN106250987A (zh) * 2016-07-22 2016-12-21 无锡华云数据技术服务有限公司 一种机器学***台
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236552A1 (en) * 2003-05-22 2004-11-25 Kimberly-Clark Worldwide, Inc. Method of evaluating products using a virtual environment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006042358A1 (en) * 2004-10-22 2006-04-27 In The Chair Pty Ltd A method and system for assessing a musical performance
CN101021810A (zh) * 2007-03-08 2007-08-22 山东浪潮齐鲁软件产业股份有限公司 软件***性能评估方法
CN101482891A (zh) * 2008-01-08 2009-07-15 富士通株式会社 性能评估模拟
CN104200087A (zh) * 2014-06-05 2014-12-10 清华大学 用于机器学习的参数寻优及特征调优的方法及***
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面
CN106169096A (zh) * 2016-06-24 2016-11-30 山西大学 一种机器学习***学习性能的评估方法
CN106250987A (zh) * 2016-07-22 2016-12-21 无锡华云数据技术服务有限公司 一种机器学***台

Also Published As

Publication number Publication date
CN109685089A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109685089B (zh) 评估模型性能的***及方法
CN110851342A (zh) 故障预测方法、装置、计算设备以及计算机可读存储介质
JP6355683B2 (ja) リスク早期警報方法、装置、記憶媒体およびコンピュータプログラム
Kaufman et al. Democratizing online controlled experiments at Booking. com
CN113157545A (zh) 业务日志的处理方法、装置、设备及存储介质
US11720825B2 (en) Framework for multi-tenant data science experiments at-scale
US20200240875A1 (en) Method and system for predicting failures in diverse set of asset types in an enterprise
US11132179B1 (en) Microapp functionality recommendations with cross-application activity correlation
US20180143897A1 (en) Determining idle testing periods
US10372572B1 (en) Prediction model testing framework
US20210365762A1 (en) Detecting behavior patterns utilizing machine learning model trained with multi-modal time series analysis of diagnostic data
US11541919B1 (en) Automated positive train control event data extraction and analysis engine and method therefor
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN112882948A (zh) 一种应用的稳定性测试方法、装置、***及存储介质
CN116662193A (zh) 页面测试方法和装置
WO2022022572A1 (en) Calculating developer time during development process
US11782938B2 (en) Data profiling and monitoring
CN111767290B (zh) 用于更新用户画像的方法和装置
CN114461499A (zh) 异常信息检测模型的构建方法和灰度环境异常检测方法
CN109960659B (zh) 用于检测应用程序的方法和装置
CN114036054A (zh) 代码质量评价方法、装置、设备、介质和程序产品
CN113918525A (zh) 数据交换调度方法、***、电子设备、介质及程序产品
Brozek et al. Application of mobile devices within distributed simulation-based decision making
CN113127362A (zh) 对象测试方法、对象测试装置、电子设备及可读存储介质
US11169905B2 (en) Testing an online system for service oriented architecture (SOA) services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant