CN114565102A

CN114565102A - 部署机器学习模型的方法、电子设备和计算机程序产品

Info

Publication number: CN114565102A
Application number: CN202011364629.6A
Authority: CN
Inventors: 刘金鹏; 李锦�
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-05-31
Also published as: US20220172044A1

Abstract

本公开的实施例涉及部署机器学习模型的方法、电子设备和计算机程序产品。该方法包括：按照开放神经网络交换格式获取机器学习模型；利用多级中间表示方法将所述机器学习模型转换为中间表示；以及利用所述中间表示，将与所述机器学习模型相关联的计算部署到至少一个计算设备。使用本公开的技术方案，可以允许对任何机器学习模型进行部署，可以支持将机器学习模型部署到人和计算设备，也可以允许将更繁重的机器学习任务部署到具有更高性能的计算设备，从而能够便捷并且合理地进行机器学习模型部署，不仅能够提高机器学习模型部署的效率和效果，也有助于提高机器学习模型的计算执行效率，从而能够提高与机器学习模型相关联的用户体验。

Description

部署机器学习模型的方法、电子设备和计算机程序产品

技术领域

本公开的实施例总体上涉及人工智能领域，具体地涉及部署机器学习模型的方法、电子设备和计算机程序产品。

背景技术

近年来，随着人工智能技术的进步，机器学***台。边缘节点能够提供存储、计算、联网等资源，从而可以将部分关键业务应用下沉到接入网络边缘，以减少网络传输和多级转发带来的宽度和时延损耗。

机器学习模型可以被部署在边缘节点上。然而，由于边缘节点的计算资源限制和存储资源限制等原因，在边缘节点上部署机器学习模型存在无法针对多个机器学习模型通用、与机器学习模型相关联的计算调度困难、大量重复参数占据边缘节点存储资源等问题。在这种情况下，不仅会影响机器学习模型部署的效率和效果，也会影响机器学习模型计算的执行效率，进而会影响与机器学习模型相关联的用户体验。

发明内容

本公开的实施例提供了部署机器学习模型的方法、电子设备和计算机程序产品。

在本公开的第一方面中，提供了一种部署机器学习模型的方法。该方法包括：按照开放神经网络交换格式获取机器学习模型；利用多级中间表示方法将所述机器学习模型转换为中间表示；以及利用所述中间表示，将与所述机器学习模型相关联的计算部署到至少一个计算设备。

在本公开的第二方面中，提供了一种电子设备。该电子设备包括：至少一个处理单元；以及至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行动作，所述动作包括：按照开放神经网络交换格式获取机器学习模型；利用多级中间表示方法将所述机器学习模型转换为中间表示；以及利用所述中间表示，将与所述机器学习模型相关联的计算部署到至少一个计算设备。

在本公开的第三方面中，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行使得机器执行根据本公开的第一方面所描述的方法的任意步骤。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的实施例的关键特征或必要特征，也无意限制本公开的实施例的范围。

附图说明

通过结合附图对本公开的示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开的示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了根据本公开的实施例的设备和/或方法可以在其中被实施的示例环境100的示意图；

图2示出了根据本公开的实施例的部署机器学习模型的方法200的流程图；

图3示出了根据本公开的实施例的部署机器学习模型的方法300的流程图；

图4示出了根据本公开的实施例的部署机器学习模型的方法400的流程图；以及

图5示出了可以用来实施本公开的实施例的示例设备500的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以按照各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，例如，“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

用于机器学习技术的深度学习框架运行时具有三个组件，分别是编译器前端、编译器后端以及执行器。编译器前端将与机器学习模型相关联的程序编译为静态或者动态的计算图，并且生成用于代表生成的计算图的想关联的中间表示。编译器后端基于所生成的计算图，生成用于调度器和内核计算的代码。执行器将在主中央处理单元中执行用于调度器的代码以执行深度学习计算。

由此可见，在深度学习框架运行时中，只有编译器前端被实际联系到深度学习。一旦编译器前端将与机器学习模型相关联的程序编译成计算图和深度学习中间表示，则编译器后端和调度器与深度学习领域特定知识并无关联。

此外，在用于推理的深度学习网络计算模型中，一些参数在推理期间并不会被改变，并且在深度学习网络计算模型的某些层之间流动的动态数据的大小远小于参数的大小。因此，实际上，这些参数对于深度学习网络计算模型的所有输入样本都可以被重复使用。

在传统方案中，大多数深度学习框架最初都是为了在云中训练模型而被设计的。尽管某些深度学习框架也被设计用于推理，但它们是针对单次而被设计的，而不是被涉及用于在流传输并且连续的输入上执行推理。同时，这两种框架都是利用前端、后端和调度器而被实现的，而前端、后端和调度器被混合在一起并且紧密结合在一起，即使只有前端被连接到深度学习网络和算法。因此，传统技术中的深度学习框架存在许多不足。

在传统的深度学习框架中，终端用户必须在应用的生命周期中在不同框架之间切换。由于框架的例如应用编程接口和模型格式的前端以及例如受支持的计算设备的后端都对程序员不开放，因此此类框架的用户必须在不同框架之间切换。例如，他们必须使用例如图形处理单元GPU的专用处理单元作为加速器在一个框架中训练模型，然后将这个预先训练的模型转换到另一框架中，并且最后将其部署到又一框架中进行推理。然后，由于存在大量神经网络模型以及大量边缘节点或物联网设备，这样的过程将非常耗时且无意义。

在这样的深度学习框架中，在推理中根本不存在并行计算。这是因为所有框架都在使用数据并行性来加速模型的训练。数据并行性可以起作用的原因是，在训练过程中，整个数据集将被分成小批处理，并且每个小批处理将在不同的计算节点上被训练，并且当不同的小批处理在不同的训练中时，梯度将被夸大。这意味着，对于单个计算节点，每个样本的计算实际上是一个一个地被执行的，并且它们之间没有任何并行计算。然而，如上所述，对于边缘节点中的推理，每个推理都是基于来自流传输输入的单个样本而被执行的，并且每个样本彼此都不相关。因此，不存在数据并行性。

在这样的情况下，用户无法定制计算计划。这是因为前端、后端和调度器被紧密地联系在一起，因此用户不容易定制调度器以例如使用模型并行性或管道并行性、而不是数据并行性来更有效地组织计算。

同时，用户无法调度不同计算设备中的计算。例如，框架通常需要针对计算指定例如中央处理单元、专用处理单元或者其他加速器的目标设备，否则框架将自动针对用户选择一个目标设备。一旦指定了目标设备，框架将在该设备中执行所有计算，即使某些计算并不适合此类设备。例如，填充计算仅将图像的某些像素从某些存储位置复制到其他存储位置。如果在中央处理单元的主存储器中执行这样的计算，它将更加高效。但是一旦指定了专用处理单元，该框架无论如何都会盲目地在专用处理单元上执行填充。

此外，用户无法优化参数移动。例如，边缘节点上的推理应用通常将在流传输输入上执行网络计算。这意味着可以将一些模型参数保留在加速器设备内存中，以针对不同输入样本的推论进行性能优化。然而，在当前框架的一些实现中，对于每次计算，调度器都会当在设备中进行计算之前将固定参数从中央处理单元复制到专用处理单元，并且在计算之后将计算结果从专用处理单元复制回中央处理单元。在当前框架的另一些实现中，函数的输入和输出将被始终保留在专用处理单元中，以避免参数在中央处理单元和专用处理单元之间移动。然而，对于第一类实现，参数移动将花费很长时间，在最坏的情况下，可能需要将计算结果从专用处理单元复制回中央处理单元，并立即将其从中央处理单元复制回专用处理单元。对于第二类实现，如果很长时间不使用某些参数，则可能浪费非常宝贵的专用处理单元存储器，并且在某些情况下，模型可能太大而无法放入单个专用处理单元或单个计算节点中。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的实施例提出了一种部署机器学习模型的方案。该方案提供了一种在边缘节点上构建开放和动态的推理深度学习框架的解决方案，该框架可以接受来自任何框架的任何模型以部署到例如中央处理单元、专用处理单元、诸如现场可编程门阵列和专用集成电路的专有加速器之类的任何目标设备上，并且可以利用行业中的开放、成熟的构建块来动态地改变并行性、参数移动和计算执行跨加速器的调度。概括而言，利用开放的前端，框架可以接受由任何框架预先准备的任何模型，并将支持来自任何提供方的更多的加速器。利用定制的、更灵活的调度器，框架将允许更繁重的深度学习任务被定制到具有更高性能的基础设施配置。

在本公开的实施例中，以边缘节点为例进行说明，但本公开的保护范围并不限于此，而是可以适用于能够提供计算服务的各种计算节点。

图1示出了根据本公开的实施例的设备和/或方法可以在其中被实施的示例环境100的示意图。根据本公开的实施例，图1中的示例环境100包括具有开放神经网络交换模块111和多级中间表示模块112的电子设备110、机器学习模型120以及计算设备130。电子设备110可以包括具有计算能力、并且能够支持开放神经网络交换模块111和多级中间表示模块112的操作的任何设备、单元、模块或者***等。

在图1中的示例环境100中，机器学习模型120作为输入被输入到电子设备110。而后，电子设备110通过其所包括的开放神经网络交换模块111和多级中间表示模块112对机器学习模型120进行处理，以确定需要被部署的、与机器学习模型120相关联的计算。之后，电子设备110将所确定的计算部署到计算设备130。

应当理解，示例环境100仅仅是示例性而不是限制性的，并且其是可扩展的。例如，示例环境100中可以包括更多的作为输入的机器学习模型120和更多的电子设备110，从而使得可以通过例如并行计算和分布式计算来利用更多的电子设备110、针对更多的机器学习模型120、更为高效地实现本公开的部署机器学习模型的技术方案。此外，计算设备130可以包括多个计算设备，从而使得电子设备110可以将与机器学习模型120相关联的计算部署到多个计算设备。

在图1中的示例环境100中，机器学习模型120向电子设备110的输入以及电子设备110向计算设备130部署机器学习模型120相关联的计算等数据传输和通信可以通过网络来进行。

图2示出了根据本公开的实施例的部署机器学习模型的方法200的流程图。方法200可以由图1中所示的电子设备110来实现，也可以由其他适当的设备来实现。应当理解，部署机器学习模型的方法200还可以包括未示出的附加步骤和/或可以省略所示出的步骤，本公开的实施例的范围在此方面不受限制。

在框202，电子设备110使用其所包括的开放神经网络交换模块111，按照开放神经网络交换格式获取机器学习模型120。根据本公开的实施例，使用开放神经网络交换模块111作为前端，可以按照开放神经网络交换格式接受来自任何框架的任何机器学习模型。开放神经网络交换模块111定义了一组通用的计算应用编程接口，机器学习和深度学习模型的构建块，以及一种通用的文件格式，以使得人工智能的开发人员能够使用具有各种框架、工具、运行时和编译器的模型。开放神经网络交换模块111作为翻译器工作，它的前端可以将在一个框架中定义的模型和计算计算应用编程接口转换为它的内部模型格式和计算应用编程接口，并且它的后端可以将它的内部模型格式和计算应用编程接口转换为模型和计算应用编程接口。因此，可以转换并在一个框架中使用在另一框架中定义的模型。然而，由于开放神经网络交换模块111并不具有如传统的机器学习框架中的编译器后端，因此在本公开的框架中用作前端。

在框204，电子设备110使用其所包括的多级中间表示模块112，利用多级中间表示方法将在框202接收到的机器学习模型120转换为中间表示。根据本公开的实施例，多级中间表示模块112可以包括表示格式和编译器实用程序的库，其位于模型表示和生成特定于硬件的代码的低级编译器或者执行器之间，并且可以被用于生成硬件特定的代码。通过将其他深度学习框架中的其他中间表示定义为同源语(dialect)，多级中间表示模块112实际上是开放的。通过在多级中间表示模块112中实现预定义，可以将新的中间表示集成到多级中间表示模块112中，然后可以利用多级中间表示模块112生成的工具和库。

在框206，电子设备110利用在框204转换的中间表示，将与机器学习模型120相关联的计算部署到计算设备130。根据本公开的实施例，多级中间表示模块112被集成到低级虚拟机中。低级虚拟机可以包括模块化和可重用编译器和工具链技术的集合，其后端可以用于生成用于所有流行目标设备的代码。因此，电子设备110可以通过利用在框204转换的中间表示生成用于作为目标设备的计算设备130的代码、并且将这些代码部署到计算设备130，来实现将与机器学习模型120相关联的计算部署到计算设备130。

根据本公开的实施例，可以将开放神经网络交换格式转变为多级中间表示格式，并且可以通过低级虚拟机来为多级中间表示格式生成代码。此外，用户也可以定制后端以生成用于它们的诸如现场可编程门阵列和专用集成电路的专有加速器的代码。因此，根据本公开的实施例，计算设备130可以包括以下至少一项：中央处理单元、专用处理单元以及诸如现场可编程门阵列和专用集成电路的专有加速器。

图3示出了根据本公开的实施例的部署机器学习模型的方法300的流程图。方法300同样可以由图1中所示的电子设备110来实现，也可以由其他适当的设备来实现。应当理解，部署机器学习模型的方法300还可以包括未示出的附加步骤和/或可以省略所示出的步骤，本公开的实施例的范围在此方面不受限制。部署机器学习模型的方法300是部署机器学习模型的方法200的具体实施方式。

在框302，电子设备110使用其所包括的开放神经网络交换模块111，按照开放神经网络交换格式获取机器学习模型120。框302所涉及的动作的具体内容与框202中所涉及的动作相同，在此不再赘述。

在框304，电子设备110使用其所包括的多级中间表示模块112，利用多级中间表示方法将在框302接收到的机器学习模型120转换为中间表示。框304所涉及的动作的具体内容与框204中所涉及的动作相同，在此不再赘述。

在框306，电子设备110确定与机器学习模型120相关联的计算的多个部分所对应的设备类型。根据本公开的实施例，与机器学习模型120相关联的计算的多个部分所对应的设备类型可以包括以下至少一项：中央处理单元、专用处理单元以及诸如现场可编程门阵列和专用集成电路的专有加速器。

在框308，电子设备110基于计算设备130所包括的多个计算设备的类型以及在框306所确定的与机器学习模型120相关联的计算的多个部分所对应的设备类型，将与机器学习模型120相关联的计算的多个部分部署到计算设备130所包括的多个计算设备中的一个或多个计算设备。根据本公开的实施例，可以通过定义用于计算的应用编程接口的形式来部署与机器学习模型120相关联的计算的多个部分。

例如，当计算设备130的设备类型是中央处理单元时，则意味着计算设备130上没有加速器，因此将在中央处理单元上调度所有计算。

当该设备类型是专用处理单元时，则针对开放神经网络交换模块111定义的应用编程接口包括以下情况：对于适合在专用处理单元上执行的计算，在后端代码生成阶段，可以将它们链接到适合于专用处理单元的诸如cuDNN应用编程接口、cuBLAS应用编程接口或CUDA应用编程接口的应用编程接口，或者，如果此类应用编程接口不可用，则可以针对它们生成例如CUDA函数之类的函数，以便这些计算在专用处理单元中执行；对于不适合在专用处理单元上执行的计算，在后端代码生成阶段，可以将它们链接到用于中央处理单元的例如GEMM或Eigen的库。或者，如果此类应用编程接口不可用，则为它们生成中央处理单元函数，以便这些计算在中央处理单元中执行。

当该设备类型是诸如现场可编程门阵列和专用集成电路的专有加速器时，则在后端代码生成阶段，如果计算是由计算设备实现的，则可以将计算链接到由专有加速器的供应方提供的设备库，否则，可以生成用于它的中央处理单元功能。

在框310，电子设备110获取与机器学习模型120相关联的计算图。根据本公开的实施例，计算图表示与机器学习模型120相关联的计算的多个部分之间的依赖性。

在框312，电子设备110基于在框310获取的计算图和在框304转换的中间表示，确定关联于与机器学习模型120相关联的计算的多个部分的参数。

在框314，电子设备110确定在框312确定的参数中是否有至少一个参数和与机器学习模型120相关联的计算的多个部分中的至少两个部分相关联。当电子设备110确定该参数中有至少一个参数与该计算的多个部分中的至少两个部分相关联时，方法300前进到框316；当电子设备110确定该参数中没有参数与该计算的多个部分中的至少两个部分相关联时，方法300前进到框318。

在框316，电子设备110存储与该至少一个参数相关联的数据以用于由与机器学习模型120相关联的计算的该至少两个部分使用。

根据本公开的实施例，框312至框316中所涉及的动作涉及使得在计算的多个部分中均能被使用的参数的数据可以被重用，例如，通过智能调度计算中所涉及的参数，这例如可以通过以下方式而被实现：首先，解析计算图和机器学习模型文件，将参数绑定到每次计算；而后，根据用户选择哪种并行性算法来调度计算，如果用户选择默认数据并行性，则基于由用户、中央处理单元或者中央处理单元和指定的加速器指定的目标设备来将所有计算调度到本地计算设备或者计算节点中，如果用户选择流水线并行性，则将所有计算与所有中央处理单元内核和/或所有加速器一起调度到本地计算设备或者计算节点中，如果用户选择模型并行性，则将所有计算调度到具有所有中央处理单元内核和/或所有加速器的群集的计算设备或者计算节点中；接着，对参数进行调度，如果已将计算调度到中央处理单元中，则为输入参数和该计算的计算结果分配主存储器，并将该计算的参数复制到中央处理单元的主存储器中，如果已将计算调度到加速器中，则为输入参数和该计算的计算结果分配设备存储器，并将该计算的参数复制到设备存储器中。

在框318，电子设备110基于在框310获取的计算图和在框304转换的中间表示，并行地执行与机器学习模型120相关联的计算的多个部分。根据本公开的实施例，如果在框316存储与该至少一个参数相关联的数据，则在执行与机器学习模型120相关联的计算时，当需要对输入或输出的参数进行计算时，可以先查询例如可以在主存储器或设备存储器中注册的参数分配表。如果参数已经被存储，则可以直接使用存储器中的与参数相关联的数据，从而使得在针对不同输入样本的计算中，可以共享一部分被共用的参数。

根据本公开的一些实施例，在框318具体采用的并行性算法，例如，默认数据并行性，流水线并行性或模型并行性，可以响应于接收到针对并行执行与机器学习模型120相关联的计算的多个部分的用户指示而被确定。根据本公开的另一些实施例，在框318具体采用的并行性算法可以基于关于并行执行的预先配置而被确定。

根据本公开的实施例，不同的并行性算法也可以基于所实现的不同的调度器而被确定。例如，为了在根据本公开的框架内实现不同的调度器，可以基于由电子设备110或者具体为开放神经网络交换模块111获取的与机器学习模型120相关联的计算图，以及基于关于所有计算的编译的二进制文件。这些编译的二进制文件基于要被部署计算的计算设备，并且基于多级中间表示模块112中的计算定义的语义和语法。

在框320，电子设备110确定计算设备130所包括的多个计算设备中是否有计算设备的配置被改变。当电子设备110确定计算设备130所包括的多个计算设备中有计算设备的配置被改变时，方法300前进到框322。

在框322，电子设备110基于在框320确定的被改变的配置来将与机器学习模型120相关联的计算重新部署到计算设备130所包括的多个计算设备。

根据本公开的实施例，框320和框322中所涉及的动作涉及当已经被部署了与机器学习模型120相关联的计算的计算设备由于硬件或者软件的变化而导致配置改变时，在计算设备130所包括的多个计算设备之间重新部署与机器学习模型120相关联的计算，以实现基于被改变的配置来更为合理地分配在各个计算设备上要执行的计算。

图4示出了根据本公开的实施例的部署机器学习模型的方法400的流程图。方法400同样可以由图1中所示的电子设备110来实现，也可以由其他适当的设备来实现。应当理解，部署机器学习模型的方法400还可以包括未示出的附加步骤和/或可以省略所示出的步骤，本公开的实施例的范围在此方面不受限制。部署机器学习模型的方法400是部署机器学习模型的方法200的具体实施方式。

在框402，电子设备110使用其所包括的开放神经网络交换模块111，按照开放神经网络交换格式获取机器学习模型120。框402所涉及的动作的具体内容与框202中所涉及的动作相同，在此不再赘述。

在框404，电子设备110使用其所包括的多级中间表示模块112，利用多级中间表示方法将在框402接收到的机器学习模型120转换为中间表示。框404所涉及的动作的具体内容与框204中所涉及的动作相同，在此不再赘述。

在框406，电子设备110利用在框204转换的中间表示，将与机器学习模型120相关联的计算部署到计算设备130。框406所涉及的动作的具体内容与框206中所涉及的动作相同，在此不再赘述。

在框408，电子设备110并行地执行在框406所部署的、与机器学习模型120相关联的计算和与另一机器学习模型相关联的计算。根据本公开的实施例，该另一机器学习模型由电子设备110使用其所包括的开放神经网络交换模块111，按照开放神经网络交换格式被获取，已由电子设备110使用其所包括的多级中间表示模块112，利用多级中间表示方法转换为另一中间表示，并且与该另一机器学习模型相关联的计算已被电子设备110利用所转换的另一中间表示部署到计算设备130。

通过根据本公开的实施例的部署机器学习模型的方法400，可以实现由至少一个计算设备并行地执行被部署到它们的，与多个机器学习模型120相关联的多个计算。

以上参考图1到图4描述了根据本公开的实施例的设备和/或方法可以在其中被实施的示例环境100、根据本公开的实施例的部署机器学习模型的方法200、根据本公开的实施例的部署机器学习模型的方法300以及根据本公开的实施例的部署机器学习模型的方法400的相关内容。应当理解，上述描述是为了更好地展示本公开的实施例中所记载的内容，而不是以任何方式进行限制。

应当理解，本公开的实施例以及各个附图中所采用的各种元件的数目和物理量的大小仅为举例，而并不是对本公开的实施例的保护范围的限制。上述数目和大小可以根据需要而被任意设置，而不会对本公开的实施例的正常实施产生影响。

通过以上参考图1到图4的描述，根据本公开的实施例的技术方案相对于传统方案具有诸多优点。

例如，使用本公开的技术方案，可以实现边缘节点上的开放、动态的推理深度学习框架。对于推理深度学习框架的开放性，框架前端可以接受来自所有框架的所有模型，后端可以在具有或者不具有针对专用设备的定制后端的情况下，针对所有目标设备生成代码，并且调度器可以由用户定制或选择。对于推理深度学习框架的动态性，一旦边缘节点的硬件配置改变，框架后端可以及时和适当地生成用于改变配置的计算设备的代码，并且可以通过调度器来实现在运行时选择不同的并行化。

利用本公开的技术方案，用户仅需要提供模型以及这一模型时从哪个框架预先训练的，然后框架可以将其部署到任何设备上的任何平台上。同时，提供了利用模型的流水线并行化和模型并行化，从而可以在单个边缘节点上工作或者跨多个边缘节点工作。此外，通过在框架中提供动态可插可拔的调度器，用户可以动态地改变在框架中使用的默认并行化算法。再者，可以基于计算的特性来跨不同计算设备调度所有计算，以用于性能优化。更进一步地，可以基于计算调度来调度所有模型预先训练的参数，从而使得可以针对不同输入样本在不同计算和推理之间共享这些参数，以节省参数移动的成本并且同时节省设备存储器。

利用本公开的技术方案，利用开放的前端，框架可以接受由任何框架预先训练的模型，以充当尽可能多的客户端；利用开放的后端，框架将支持来自更多提供方的加速器，并且将在提供方之间鼓励更友好的竞争，从而使得提供方在它们的硬件购买期间的运营成本可以被降低；利用开放的调度器，框架将允许更繁重的深度学习任务被定制到具有更高性能的基础设施配置，因此提供方的资本支出也可以被降低。

图5图示出了可以用来实施本公开的实施例的示例设备500的示意性框图。根据本公开的实施例，图1中的电子设备110可以由设备500来实施。如图所示，设备500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的例如方法200、方法300和方法400的各个过程和处理可由处理单元501执行。例如，在一些实施例中，方法200、方法300和方法400可以被实现为计算机软件程序，其被有形地包含于例如存储单元508的机器可读介质中。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时，可以执行上文描述的方法200、方法300和方法400的一个或多个动作。

本公开的实施例可以涉及方法、设备、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的实施例的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是、但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的作为非穷举的列表的更具体的示例包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、例如通过光纤电缆的光脉冲的通过波导或其他传输媒介传播的电磁波、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开的实施例的操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以例如利用因特网服务提供方来通过因特网连接连接到外部计算机。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的实施例的各个方面。

这里参照根据本公开的实施例的方法、设备/***和计算机程序产品的流程图和/或框图描述了本公开的实施例的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种部署机器学习模型的方法，包括：

按照开放神经网络交换格式获取机器学习模型；

利用多级中间表示方法将所述机器学习模型转换为中间表示；以及

利用所述中间表示，将与所述机器学习模型相关联的计算部署到至少一个计算设备。

2.根据权利要求1所述的方法，还包括：

获取与所述机器学习模型相关联的计算图，所述计算图表示与所述机器学习模型相关联的所述计算的多个部分之间的依赖性；以及

基于所述计算图和所述中间表示，并行地执行所述计算的所述多个部分。

3.根据权利要求2所述的方法，还包括：

基于所述计算图和所述中间表示，确定与所述计算的所述多个部分相关联的参数；以及

如果确定所述参数中的至少一个参数与所述多个部分中的至少两个部分相关联，则存储与所述至少一个参数相关联的数据以用于由所述计算的所述至少两个部分使用。

4.根据权利要求2所述的方法，其中并行地执行所述多个部分包括：

响应于接收到针对并行执行所述多个部分的用户指示，并行地执行所述多个部分；或者

基于关于并行执行的预先配置，并行地执行所述多个部分。

5.根据权利要求1所述的方法，还包括：

并行地执行所述计算和与另一机器学习模型相关联的计算，所述另一机器学习模型按照所述开放神经网络交换格式被获取，并且已被利用所述多级中间表示方法转换为另一中间表示，与所述另一机器学习模型相关联的计算已被利用所述另一中间表示部署到所述至少一个计算设备。

6.根据权利要求1所述的方法，其中所述至少一个计算设备包括多个计算设备，并且将与所述机器学习模型相关联的所述计算部署到所述至少一个计算设备包括：

确定与所述机器学习模型相关联的所述计算的多个部分所对应的设备类型；以及

基于所述多个计算设备的类型以及所确定的所述设备类型，将所述计算的所述多个部分部署到所述多个计算设备中的一个或多个计算设备。

7.根据权利要求1所述的方法，其中所述至少一个计算设备包括以下至少一项：

中央处理单元；以及

专用处理单元。

8.根据权利要求1所述的方法，其中所述至少一个计算设备包括多个计算设备，所述方法还包括：

如果所述多个计算设备之一的配置被改变，则基于被改变的所述配置来将所述计算重新部署到所述多个计算设备。

9.一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行动作，所述动作包括：

按照开放神经网络交换格式获取机器学习模型；

10.根据权利要求9所述的电子设备，其中所述操作还包括：

11.根据权利要求10所述的电子设备，其中所述操作还包括：

12.根据权利要求10所述的电子设备，其中并行地执行所述多个部分包括：

基于关于并行执行的预先配置，并行地执行所述多个部分。

13.根据权利要求9所述的电子设备，其中所述操作还包括：

并行地执行所述计算和与另一机器学习模型相关联的计算，所述另一机器学习模型按照所述开放神经网络交换格式被获取，并且已被利用所述多级中间表示设备转换为另一中间表示，与所述另一机器学习模型相关联的计算已被利用所述另一中间表示部署到所述至少一个计算设备。

14.根据权利要求9所述的电子设备，其中所述至少一个计算设备包括多个计算设备，并且将与所述机器学习模型相关联的所述计算部署到所述至少一个计算设备包括：

15.根据权利要求9所述的电子设备，其中所述至少一个计算设备包括以下至少一项：

中央处理单元；以及

专用处理单元。

16.根据权利要求9所述的电子设备，其中所述至少一个计算设备包括多个计算设备，并且所述操作还包括：

17.一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行使得机器执行根据权利要求1至8中的任一项所述的方法的步骤。