CN113139660A

CN113139660A - 模型推理方法、装置、电子设备及存储介质

Info

Publication number: CN113139660A
Application number: CN202110499196.3A
Authority: CN
Inventors: 赵二城
Original assignee: Capitalonline Data Service Co ltd
Current assignee: Capitalonline Data Service Co ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-20

Abstract

本公开提供了一种模型推理方法、装置、电子设备及存储介质，涉及模型推理领域。具体实现方案为：使用应用容器引擎镜像启动预置的人工智能模型；根据输入数据的类型和推理需求，在该预置的人工智能模型中确定多个目标模型；设置该多个目标模型的优先级；根据该优先级运行该多个目标模型进行推理，得到推理结果。本公开实施例优化了推理过程的整体操作，提升模型推理效率，基于不同的场景和具体推理需求，灵活选择用于推理的模型，并自动设置推理过程中模型执行的优先级，使得整个模型推理过程更加精准、高效。

Description

模型推理方法、装置、电子设备及存储介质

技术领域

本公开涉及模型推理的技术领域，尤其涉及一种模型推理方法、装置、电子设备及存储介质。

背景技术

随着公有云逐渐成为人工智能(Artificial Intelligence，简称AI)在各行业中落地部署的重要载体，AIaaS(AI as a Service，简称为“人工智能云服务”)方案的整体工作效能正获得越来越多的关注。本领域技术人员一直着手开发性能更优、扩展性更强、部署更便捷且总拥有成本(Total Cost of Ownership，TCO)更低的人工智能云服务方案。作为人工智能能力输出的关键环节，人工智能模型的部署推理效率会对方案的整体性能表现产生直接影响，但现有技术中常用的模型部署工具，并不能在越来越多样化的应用场景中对不同深度学习框架提供支持，也很难更有针对性地对推理实施优化。

发明内容

本公开提供了一种用于模型推理方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种模型推理方法，包括：

使用应用容器引擎镜像启动预置的人工智能模型；

根据输入数据的类型和推理需求，在该预置的人工智能模型中确定多个目标模型；

设置该多个目标模型的优先级；

根据该优先级运行该多个目标模型进行推理，得到推理结果。

根据本公开的另一方面，提供了一种模型推理装置，包括：

启动模块，用于使用应用容器引擎镜像启动预置的人工智能模型；

确定模块，用于根据输入数据的类型和推理需求，在该预置的人工智能模型中确定多个目标模型；

设置模块，用于设置该多个目标模型的优先级；

推理模块，用于根据该优先级运行该多个目标模型进行推理，得到推理结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术解决了如何使用应用容器引擎实施模型推理的问题，利用应用容器引擎优化了推理过程的整体操作、提升模型推理效率；通过在镜像中启动预置的人工智能模型，保证该模型不易被篡改，提高安全性；基于不同的场景和具体推理需求，灵活选择用于推理的模型，并自动设置推理过程中模型执行的优先级，确定推理的执行框架，从而使得整个模型推理过程更加精准、高效。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的模型推理方法的流程示意图；

图2是根据本公开一实施例的模型处理步骤示意图；

图3是根据本公开一实施例的模型处理平台示意图；

图4是根据本公开一实施例的确定多个目标模型的流程示意图；

图5是根据本公开一实施例的设置优先级的流程示意图；

图6是根据本公开一实施例的模型推理实现步骤示意图；

图7是根据本公开一实施例的一种模型推理装置的框图；

图8是根据本公开一实施例的确定模块的框图；

图9是根据本公开一实施例的设置模块的框图；

图10是用来实现本公开一实施例的模型推理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在现有技术中，进行模型推理一般通过如下两种方式：

第一种，在物理机上进行模型的推理，在该方式下，将推理所需的模型、训练需要的相关数据以及推理过程中需要的程序安装在单独的物理机上，以使物理机可执行推理服务，但是，单独配置一个专门的物理机，会使得物理机中大量的GPU资源被浪费，且拷贝要训练的模型及训练相关数据都需要时间，导致推理总体效率和资源利用率较低。

第二种，在虚拟机上进行模型的推理，在该方式下，将推理所需的模型、相关数据以及推理过程中需要的程序安装在虚拟机平台上，可供多个连接到平台的终端使用，但是，部署在平台上的推理服务仅能在平台内部使用，适用范围仍然受到限制。

Docker是一种开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的Linux或Windows机器上，也可以实现虚拟化。本公开中，在一些可能实现的方式中，可以将推理所需的模型、相关数据以及推理过程中需要的程序安装在Docker上，然后用谷歌开发的容器集群管理***K8S进行管理，K8S可以在Docker技术的基础上，为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一些列完整功能，提高了大规模容器管理的便捷性。

根据本公开的实施例，提供了一种模型推理方法，图1是根据本公开实施例的模型推理方法的流程示意图，如图1所示，该方法包括：

S101、使用应用容器引擎镜像启动预置的人工智能模型；

示例性地，应用容器引擎可以是Docker，也可以是其余基于Linux内核分组控制机制(Control Groups)的容器工具；预置的人工智能模型，具体指的是已经训练好并经过转化后的存储在应用容器引擎中的人工智能模型。

图2是根据本公开一实施例的模型处理步骤示意图。如图2所示，模型处理的过程依次包括模型训练、模型输出、模型转化、模型启动、模型推理和反馈用户的步骤。其中，模型训练是指根据具体需求，利用样本数据训练并最终确定模型中的各项参数，得到一个训练好的人工智能模型，此训练过程主要依赖caffe、Tensorflow、MxNet等软件；模型输出是在训练之后，将训练好的模型输出；模型转化具体是指通过OpenVINO^TMModel对训练好的模型进行转化，此步骤主要目的是将模型的性能优化，保证其可以兼容英特尔的中央处理器(CPU)平台；模型启动如上一段中所述，由应用容器引擎镜像启动已经训练并转化好的预置模型。

图3是根据本公开以实施例的模型处理平台示意图，如图3所述，模型处理平台主要提供以下几种功能：接口输入、模型监控、模型调度、模型管理、实施推理、硬件资源。其中，接口输入功能负责远程接收或发送与模型推理过程相关的数据；模型调度负责调度模型，实施推理负责并行执行多个模型的推理；硬件资源负责提供训练过程中所需的硬件；模型监控，具体用于监控整个推理过程运行时的各项数据，包括中央处理器(CPU)、图形处理器(GPU)、虚拟图形处理器(VGPU)内存等硬件资源的使用参数，执行的流程状态等；转化后的模型被存储在Docker中，由Docker模型处理平台提供的模型管理功能负责管理。模型管理功能将训练好的多个模型进行分类管理，并负责将接收到的最新版模型对已有的模型进行更新。

一示例中，在进行推理工作之前，通过K8S以镜像的方式启动存储在Docker中的，已经训练并转化好的模型。利用Docker以镜像的方式启动模型而不是直接使用模型，增加了安全性，即使在推理的过程中发生了恶意入侵导致模型被修改，也会通过镜像隔离，保护原始模型的安全，最大程度限制被攻击的程度和范围。

S102、根据输入数据的类型和推理需求，在该预置的人工智能模型中确定多个目标模型；

示例性地，如图3所示，客户端发起推理请求，通过Docker的接口输入相关数据和推理需求，其中，输入数据是推理所需的场景数据，具体可包括图像数据、视频数据、音频数据等；推理需求是实施推理的最终目标，可以通过挖掘输入数据获得，也可以由客户端直接输入获得，具体地，如输入的数据都是人类肖像图片，结合之前的推理历史，可以挖掘出推理需求是人脸检测或人脸关键点检测；或者由客户端直接输入明确的推理目标，如直接告知本次推理的目的是得到人脸检测模型。根据输入数据的类型和推理需求，从预置的多个模型中，筛选出相关模型作为目标模型，用于实施推理。

图4是根据本公开一实施例的确定多个目标模型的流程示意图。如图4所示，在一些实施方式中，上述步骤S102中根据输入数据的类型和推理需求，在该预置的人工智能模型中确定多个目标模型的过程具体包括：

S201、根据输入数据的类型，在该预置的人工智能模型中确定与该类型对应的模型；

S202、在确定的模型中选出与推理需求匹配的多个目标模型。

示例性地，可以先根据输入数据的类型，在预置的人工智能模型中确定与该类型对应的模型，包括直接处理该类型数据的模型和间接处理该类型数据的模型；比如，如果输入的数据类型是图片，可以在预置的人工智能模型中确定涉及图片处理的模型，比如建筑物识别模型、人像抠图模型、头部识别模型等等；同理，如果输入的数据类型是视频，则在预置的人工智能模型中先找到直接进行视频处理的模型，如视频转图像模型、视频融合模型等，再进一步根据前述模型的输出结果找出间接处理视频的模型，如视频转图像模型会根据视频获得图像，再匹配出涉及图像的处理模型，比如建筑物识别模型、人像抠图模型、头部识别模型等，将上述直接处理视频和间接处理视频的模型综合起来作为与输入数据类型对应的模型。接下来，在选出的与输入数据类型对应的模型中，进一步选出与推理需求匹配的多个目标模型，比如，推理需求是从图片中抠取人物头像，则选出人像抠图模型、头部识别模型作为匹配的目标模型；如推理需求是从视频中进行人像抠图，则选出视频转图像模型以及人像抠图模型作为匹配的目标模型。根据输入数据的类型确定与该类型对应的模型，可以快速、高效地圈定训练过程中可能涉及到的模型，再从中筛选出与推理需求匹配的多个目标模型，可以准确地筛选出用于推理的目标模型。该筛选方法可以较为精准、快速地根据具体需求筛选出用于推理的相关模型，提升了整个推理过程的效率。

一示例中，如输入数据包括视频文件且推理需求明确为人脸识别，则在预置人工智能模型中选出和输入数据类型相关的视频文件处理模型，以及对应推理需求的人脸识别模型，然后根据该视频文件处理模型的输出数据特征和该人脸识别模型的输入数据特征，找出用于衔接上述两个模型的中间处理模型，比如，视频文件处理模型的输出数据是将视频按照每一帧切分成多个图片，人脸识别模型输入的是包含人物头部的图片，那么就找出一个或多个中间处理模型，将视频文件切分后的图片输入这些中间处理模型，可以获得包含人物头部的图片。本示例中，在已经确定输入文件类型是视频文件，且推理需求明确为人脸识别的情况下，根据输入文件类型和推理需求筛选出相关模型，再寻找能衔接这两类模型的中间处理模型，利用此方法，可以快速、准确梳理出整个推理过程中所涉及的模型，并将其用于之后的推理。

S103、设置该多个目标模型的优先级；

示例性地，在获得多个目标模型之后，需要排列这些目标模型在推理过程中的使用顺序，并以此确定出优先级。

图5是根据本公开一实施例的设置优先级的流程示意图。如图5所示，在一些实施方式中，上述步骤S103中设置多个目标模型的优先级的过程具体包括：

S301、解析出多个目标模型的输入数据和输出数据的特征；

S302、根据该输入数据和输出数据的特征，确定该多个目标模型的优先级。

示例性地，可以通过解析出多个目标模型的输入数据和输出数据特征，进行优先级排序。比如，解析模型1、模型2和模型3的输入输出数据特征，将输入数据相同的模型1和模型2设置为相同的优先级；模型3的输入数据是模型1和模型2的输出数据，所以将模型3设置为下一个优先级，如此根据每一个模型的输入输出数据特征设置优先级。再比如，已获得的目标模型包括视频切分模型、图片分类模型和人像抠图模型，解析出该视频切分模型的输入数据是视频数据，输出数据是图片；图片分类模型输入数据是图片，输出数据是具备某一类具体特征的图片，比如包含人物的图片；人像抠图模型的输入数据是包含人物的图片，输出是具体抠出的人物；根据上述多个目标模型的输入输出特征，确定执行优先级是视频切分模型最高，然后是图片分类模型，最后是人像抠图模型。采用此方法，可以快速地对多个模型进行优先级排序，并考虑到可能存在多个模型并列执行的情况，基于排序结果确定出针对特定场景的模型推理执行框架，比起现有技术中固定框架的模式更加灵活，更好地支持不同场景下不同需求的推理过程。

一示例中，在输入数据包括视频文件且推理需求明确为人脸识别的情况下，在已经选出视频文件处理模型、中间处理模型以及人脸识别模型之后，根据模型的输入输出数据特征将前述多个模型进行排序，根据前序结果标定优先级。需要强调的是，可能有多个中间处理模型对应相同的优先级。

S104、根据该优先级运行该多个目标模型进行推理，得到推理结果。

图6为本公开实施例的一种模型推理实现步骤示意图，如图6所示，确定优先级之后，将通过接口获得的数据作为输入，按照优先级依次选取已经确定出的多个目标模型进行推理，得到推理结果后，通过接口反馈给客户端。具体地，执行推理的过程中，根据已经设置好的优先规则，先将通过接口获得的数据同时输入模型1和2，模型1输出数据1，模型2输出数据2，将该输出的数据1和数据2继续输入模型3，输出数据3，该数据3即是本次推理的最终结果，可以通过接口反馈给用户，以便于用户判断推理过程是否合理、成功。可以看出，在执行过程中，如果有多个模型具有相同的优先级，则并列执行。根据已经设置好的优先级执行推理，对于具备同样优先级的模型并列执行，可以加速推理过程。

本公开实施例通过使用容器引擎镜像启动预置的人工智能模型，借助Docker平台和高性能K8S管理***，提供高性能、可扩展、易部署和更具成本优势的人工智能模型部署，是提升公有云上人工智能云服务竞争力，提升人工智能应用推广效果的重要策略。根据客户端输入数据的类型和推理需求，在预置的人工智能模型中确定多个目标模型，然后根据目标模型的输入输出特征自动设置执行优先级，并根据该优先级执行推理，对具备同样优先级的模型并列执行。本公开可以根据具体场景和具体需求，灵活选择对应的模型并设置模型执行的优先级，摆脱了现有技术中固定训练流程框架的束缚，使得整个模型推理过程更加快速、精准和高效。

另外，本公开实施例在平台上导入了OpenVINO^TMModel Server，用于在推理前对模型实施转化，进一步提升模型的快速部署及推理效率。使用OpenVINO^TMModel Server在推理前对模型实施转化，不仅可以并行转化多个模型，同时在检测时延等关键性能指标上也有更为出色的表现，大大提升了人工智能模型的整体产出性能。

图7是根据本公开一实施例的一种模型推理装置10的框图。该装置可以包括：

启动模块11，用于使用应用容器引擎镜像启动预置的人工智能模型；

确定模块12，用于根据输入数据的类型和推理需求，在该预置的人工智能模型中确定多个目标模型；

设置模块13，用于设置该多个目标模型的优先级；

推理模块14，用于根据该优先级运行该多个目标模型进行推理，得到推理结果。

图8是根据本公开一实施例的确定模块12的框图。该模块可以包括：

类型对应单元21，用于根据输入数据的类型，在该预置的人工智能模型中确定与该类型对应的模型；

需求匹配单元22，用于在确定的模型中选出与推理需求匹配的多个目标模型。

在一种实施方式中，该类型对应单元21用于：

在输入数据的类型包括图片的情况下，在该预置的人工智能模型中选出图片处理模型；

在输入数据的类型包括视频的情况下，在该预置的人工智能模型中选出视频处理模型。

图9是根据本公开一实施例的设置模块13的框图。该模块可以包括：

解析单元31，用于解析出该多个目标模型的输入数据和输出数据的特征；

优先级设置单元32，用于根据该输入数据和输出数据的特征，设置该多个目标模型的优先级。

在一种实施方式中，该推理模块14用于：

按照该优先级的先后顺序，运行该多个目标模型进行推理，得到推理结果，其中具有相同优先级的目标模型并列执行。

在一种实施方式中，确定模块12具体用于：

若输入数据包括视频文件且推理需求为人脸识别，则在该预置人工智能模型中选出视频文件处理模型、人脸识别模型，以及用于衔接该视频文件处理模型和人脸识别模型的至少一个中间处理模型。

在一种实施方式中，设置模块13具体用于：

分别解析出该人脸识别模型、视频文件处理模型以及至少一个中间处理模型的输入数据和输出数据的特征；

根据该输入数据和输出数据的特征，确定该人脸识别模型、视频文件处理模型以及至少一个中间处理模型的执行顺序；

根据该执行顺序确定该人脸识别模型、视频文件处理模型以及至少一个中间处理模型的优先级。

本公开中启动模块利用应用容器引擎镜像启动预置的人工智能模型，保证模型不易被篡改；确定模块根据具体的输入数据类型和推理需求，确定目标模型，即根据不同的推理场景需求，灵活选择用于推理的模型；设置模块设置模型执行的优先级，推理模型根据优先级进行推理得到结果，整个训练过程快速、精准、高效。

本公开实施例各装置中的各单元或模块的具体功能可以参见上述方法实施例中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序来执行各种适当的动作和处理。在RAM1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM1002以及RAM1003通过总线1004彼此相连。输入输出(I/O)接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如模型推理方法。例如，在一些实施例中，方法确定多个匹配的目标模型可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的确定多个匹配的目标模型的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定多个匹配的目标模型。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型推理方法，包括：

使用应用容器引擎镜像启动预置的人工智能模型；

根据输入数据的类型和推理需求，在所述预置的人工智能模型中确定多个目标模型；

设置所述多个目标模型的优先级；

根据所述优先级运行所述多个目标模型进行推理，得到推理结果。

2.根据权利要求1所述的方法，其中，所述根据输入数据的类型和推理需求，在所述预置的人工智能模型中确定多个目标模型，包括：

根据输入数据的类型，在所述预置的人工智能模型中确定与所述类型对应的模型；

在确定的模型中选出与推理需求匹配的多个目标模型。

3.根据权利要求2所述的方法，其中，所述根据输入数据的类型，在所述预置的人工智能模型中确定与该类型对应的模型，包括：

在输入数据的类型包括图片的情况下，在所述预置的人工智能模型中选出图片处理模型；

在输入数据的类型包括视频的情况下，在所述预置的人工智能模型中选出视频处理模型。

4.根据权利要求1所述的方法，其中，所述设置所述多个目标模型的优先级，包括：

解析出所述多个目标模型的输入数据和输出数据的特征；

根据所述输入数据和输出数据的特征，确定所述多个目标模型的优先级。

5.根据权利要求1所述的方法，其中，根据所述优先级运行所述多个目标模型进行推理，得到推理结果，包括：

按照所述优先级的先后顺序，运行所述多个目标模型进行推理，得到推理结果，其中具有相同优先级的目标模型并列执行。

6.根据权利要求1所述的方法，其中，所述根据输入数据的类型和推理需求，在所述预置的人工智能模型中确定多个目标模型，包括：

若输入数据包括视频文件且推理需求为人脸识别，则在所述预置人工智能模型中选出视频文件处理模型、人脸识别模型，以及用于衔接所述视频文件处理模型和人脸识别模型的至少一个中间处理模型。

7.根据权利要求6所述的方法，其中，所述设置所述多个目标模型的优先级，包括：

分别解析出所述人脸识别模型、视频文件处理模型以及至少一个中间处理模型的输入数据和输出数据的特征；

根据所述输入数据和输出数据的特征，确定所述人脸识别模型、视频文件处理模型以及至少一个中间处理模型的执行顺序；

根据所述执行顺序确定所述人脸识别模型、视频文件处理模型以及至少一个中间处理模型的优先级。

8.一种模型推理装置，包括：

确定模块，用于根据输入数据的类型和推理需求，在所述预置的人工智能模型中确定多个目标模型；

设置模块，用于设置所述多个目标模型的优先级；

推理模块，用于根据所述优先级运行所述多个目标模型进行推理，得到推理结果。

9.根据权利要求8所述的装置，其中，所述确定模块包括：

类型对应单元，用于根据输入数据的类型，在所述预置的人工智能模型中确定与该类型对应的模型；

需求匹配单元，用于在确定的模型中选出与推理需求匹配的多个目标模型。

10.根据权利要求9所述的装置，其中，所述类型对应单元用于：

11.根据权利要求8所述的装置，其中，所述设置模块包括：

解析单元，用于解析出所述多个目标模型的输入数据和输出数据的特征；

优先级设置单元，用于根据所述输入数据和输出数据的特征，设置所述多个目标模型的优先级。

12.根据权利要求8所述的装置，其中，所述推理模块用于：

13.根据权利要求8所述的装置，其中，所述确定模块具体用于：

14.根据权利要求13所述的装置，其中，所述设置模块具体用于：

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。