CN114048030A

CN114048030A - 调度算子的方法和装置

Info

Publication number: CN114048030A
Application number: CN202111323084.9A
Authority: CN
Inventors: 张留杰; 刘红雨; 蓝翔; 王欢; 刘铁星; 陈秋良
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-15
Anticipated expiration: 2041-11-09
Also published as: CN114048030B; CN114936096A

Abstract

本公开提供了一种调度算子的方法和装置，计算机技术领域，尤其涉及任务调度领域。具体实现方案包括：确定与正在执行的目标任务中包括的两个或更多个算子相关的算子信息；以及根据算子信息对两个或更多个算子进行调度，其中，算子信息指示两个或更多个算子中包括的算子是异步算子还是同步算子。

Description

调度算子的方法和装置

技术领域

本公开涉及计算机技术领域，尤其涉及任务调度领域，具体涉及一种调度算子的方法和装置。

背景技术

在各种计算机应用场景中，例如在深度学习框架中，执行器是一个核心组件，用于调度和执行深度学习模型中包含的各个算子。一个良好设计的执行器，可以支持多种硬件设备，覆盖广泛的深度学习模型使用场景，高效地完成算子的调度和执行。

随着硬件芯片的蓬勃发展，以及前沿深度学习模型的不断加深，使深度学习框架的执行器对硬件的横向扩展性、算子执行效率等方面需求更高。但不同硬件设备的架构设计、执行机制(例如，流(stream)的设计)上存在一定的差异性。此外，不同领域的深度学习模型结构也不同，如自然语言处理(NLP)领域的模型更“宽”，而视觉领域(CV)的模型更“深”，因此对执行器的调度策略要求也不尽相同。

发明内容

本公开提供了一种用于调度算子的方法、装置、电子设备以及存储介质。

根据本公开的第一方面，提供了一种调度算子的方法，包括：确定与正在执行的目标任务中包括的两个或更多个算子相关的算子信息；以及根据所述算子信息对所述两个或更多个算子进行调度，其中，所述算子信息指示所述两个或更多个算子中包括的算子是异步算子还是同步算子。

根据本公开的第二方面，提供了一种算子调度装置，包括：确定单元，被配置为确定与正在执行的目标任务中包括的两个或更多个算子相关的算子信息；以及调度单元，被配置为根据所述算子信息对所述两个或更多个算子进行调度，其中，所述算子信息指示所述两个或更多个算子中包括的算子是异步算子还是同步算子。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了一种关于算子序列的执行顺序的示例示意图；

图2示出了一种关于算子序列的执行流程的示例示意图；

图3示出了根据本公开实施例的调度算子的方法的流程图；

图4示出了根据本公开实施例的根据算子信息为内核分配流的方法的流程图；

图5示出了根据本公开实施例的为与算子相对应的内核分配多个流的场景的示意图；

图6示出了根据本公开实施例的根据算子信息为算子指派线程的方法的流程图；

图7示出了根据本公开实施例的为算子指派线程的场景的示意图；

图8示出了根据本公开另一实施例的为算子指派线程的方法的流程图；

图9示出了根据本公开另一实施例的为算子指派线程的场景的示意图；

图10示出了根据本公开另一实施例的调度算子的方法的流程图；

图11示出了根据本公开实施例的提供针对不同硬件设备的统一接口的示意图；

图12示出了根据本公开实施例的算子调度装置的框图；以及

图13示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

图1示出了一种关于算子序列的执行顺序的示例示意图。

如图1所示，电子设备中的执行器正在执行的目标任务包括由多个算子feed_op、OP2、OP3、OP4、OP5、OP6、OP7构成的算子序列。这里，算子指执行器正在执行的目标任务(例如，深度学习模型)中的独立的逻辑计算单元。一般而言，一个目标任务可以看作是多个算子组合而成(例如视觉领域中的卷积算子Conv2D、Conv3D)。每个算子可以具有固定的输入变量(又称为张量)、计算内核(kernel)、输出变量。内核是一个算子在硬件设备上的逻辑计算实现。为了支持多种硬件设备(例如，英伟达的GPU(CUDA)、AMD公司的ROCM硬件(HIP)、异腾芯片(NPU)、百度昆仑芯片(XPU)等硬件设备)，一个算子可以包括多内核，每个内核表示某种特定硬件设备上的具体实现。结合硬件来讲，算子首先要在中央处理单元CPU(又称主机Host端)上执行，然后根据当前的硬件设备类型(例如CUDA设备)，调用不同的内核来实现，从而发送一个对应的内核API(应用程序接口)到流上。根据一些实施例，一个算子也可以对应多个内核，并且每个内核对应一种硬件设备。

如图1中所示，在目标任务开始时，算子feed_op接收需要处理的数据。然后，执行器根据如图1所示的拓扑图的顺序依次执行算子OP2、OP3、OP4、OP5、OP6、OP7。在算子之间还可以存在变量的拷贝操作(又称为拷贝内核)，例如从CPU拷贝到图形处理单元GPU(CPU-＞GPU)、从GPU拷贝到CPU(GPU-＞CPU)或者从GPU拷贝到GPU(GPU-＞GPU)。

在执行器执行算子序列中的当前算子时，一般涉及如下步骤。首先，执行器接收输入变量，该变量数据可以是上一个算子的输出变量，也可以是经拷贝的变量。然后，执行器申请输出变量的内存或显存。接着，执行与当前算子对应的针对特定硬件设备的计算内核，如CPU内核或者GPU内核等。最后，将由计算内核输出的变量提供给下一个算子。

目前，与任务执行相关的硬件平台(例如加速硬件平台)大多引入了流的机制，即同时支持多个流并行执行，以最大化硬件设备的加速效率。现有的执行器只使用了一个或少数几个流，且在算子层面缺乏对流的分析，未有效地将各个算子分配到合适的流中，因此无法实现最佳的流并行执行效率。

图2示出了一种关于算子序列的执行流程的示例示意图。

如图2所示，在主机(Host)端处，由多个算子feed_op、OP2、OP3、OP4、OP5、H2D(Hostto Device，主机到设备)、OP6、OP7构成的算子序列被指派给一个Host端线程执行。相应地，与该多个算子相对应的计算内核Kernel 2、Kernel 3、Kernel 5、Kernel 6以及拷贝内核CPU-＞GPU、GPU-＞CPU、GPU-＞GPU被分配在一个Kernel(内核)流中。

根据后续算子是否需要等待当前算子执行完成后再开始执行，可以将算子分为异步算子和同步算子。异步算子表示CPU端(即主机端)在执行完当前算子代码后，会发送一个计算内核到流上，并且可以在该计算内核未开始执行时就继续下一个算子的执行。同步算子表示CPU端在执行当前算子时，必须等待与该当前算子的计算内核执行完毕后，才能执行下一个算子。如图2中所示，白色方框表示同步算子，灰色方框表示异步算子。因此，对于同步算子而言，可能会产生同步阻塞情况，阻碍单线程执行后续算子。

图3示出了根据本公开实施例的调度算子的方法300的流程图。

如图3所示，在步骤S310，确定与正在执行的目标任务中包括的两个或更多个算子相关的算子信息。算子信息可以指示两个或更多个算子中包括的算子是异步算子还是同步算子。

在步骤S320，根据算子信息对两个或更多个算子进行调度。根据本公开的实施例，对两个或更多个算子进行调度可以包括以下操作之一或者其组合：为与两个或更多个算子相对应的两个或更多个内核分配流；以及为两个或更多个算子指派线程。

根据本公开的实施例，相对于将所有内核都分配到单个流中的方案(以下简称为“单流方案”)，通过分析目标任务中的算子类型，将与算子相对应的内核分配到多个不同的流中，可以最大化地利用硬件设备的并行执行优势，有效地提升算子的执行效率。此外，相对于将所有算子都指派到单线程中的方案(以下简称为“单线程方案”)，通过分析目标任务中的算子类型，将算子指派到不同线程中，可以有效地避免单线程中部分同步算子的阻塞问题。

图4示出了根据本公开实施例的根据算子信息为内核分配流的方法的流程图。

如图4所示，在步骤S421，将与两个或更多个算子相对应的两个或更多个内核中的第一内核分配到第一流中。第一内核可以与两个或更多个算子中的异步算子相对应，并且可以包括例如计算内核。

在步骤S422，将与两个或更多个内核中的第二内核分配到第二流中。第二内核可以与两个或更多个算子中的同步算子相对应，并且可以包括例如拷贝内核。根据一个实施例，可以根据第二内核的类型对第二流进行进一步的划分。例如，可以将从设备A到设备B的拷贝内核分配到第三流中，并且可以将从设备B到设备A的拷贝内核分配到第四流中。

根据本公开的实施例，相对于单流方案，通过分析目标任务中的算子类型，将与算子相对应的内核分配到多个不同的流中，可以最大化地利用硬件设备的并行执行优势，有效地提升算子的执行效率。

图5示出了根据本公开实施例的为与算子相对应的内核分配多个流的场景的示意图。

根据本公开的实施例，由于在不同硬件设备上的算子的类型(即，算子是同步算子还是异步算子)不同，因此可以根据指示算子是同步算子还是异步算子的算子信息，为与算子相对应的内核分配流。例如，GPU上的计算内核与异步算子相对应，因此，可以将GPU上的计算内核分配到单独的流中以按顺序执行。此外，变量的跨设备拷贝操作(又称为跨设备拷贝内核)与同步算子相对应，会导致在内核流中的等待操作，从而产生阻塞情况。因此，可以将跨设备拷贝内核分配到另一单独的流中以按顺序执行。

如图5所示，在硬件设备端上执行的流包括Kernel流、D2H(设备到主机拷贝)流和H2D(主机到设备拷贝)流。Host端线程包括多个算子，其中白色方框feed_op、OP4、H2D表示同步算子，灰色方框OP2、OP3、OP5、OP6、OP7表示异步算子。可以将与异步算子相对应的计算内核Kernel 2、Kernel 3、Kernel 5、Kernel 6分配到第一流中。例如，可以将计算内核Kernel 2、Kernel3、Kernel 5、Kernel 6分配到Kernel流中。在计算内核中还可以存在同一设备内的拷贝内核，例如，GPU-＞GPU拷贝内核。另外，可以将与同步算子相对应的跨设备拷贝内核CPU-＞GPU、GPU-＞CPU分配到第二流中。根据一些实施例，可以根据跨设备拷贝内核的类型(例如，是CPU-＞GPU还是GPU-＞CPU)对第二流进行进一步的划分。例如，可以将跨设备拷贝内核GPU-＞CPU分配到第三流(例如D2H流)中，并且可以将跨设备拷贝内核CPU-＞GPU分配到第四流(例如H2D流)中。

图6示出了根据本公开实施例的根据算子信息为算子指派线程的方法的流程图。

如图6所示，在步骤S621，在算子信息指示由两个或更多个算子构成的算子序列中的至少一个第一算子是异步算子的情况下，将至少一个第一算子指派到第一线程中。在一个实施例中，第一线程可以包括由第一线程组成的线程池，例如异步线程池。

在步骤S622，在算子信息指示由两个或更多个算子构成的算子序列中的至少一个第二算子是同步算子的情况下，将至少一个第二算子指派到第二线程中。在一个实施例中，第二线程可以包括由第二线程组成的线程池，例如同步线程池。

根据本公开的实施例，相对于单线程方案，通过分析目标任务中的算子类型，将算子指派到不同线程中，可以有效地避免单线程中部分同步算子的阻塞问题。

图7示出了根据本公开实施例的为算子指派线程的场景的示意图。

根据本公开的实施例，不仅可以根据指示算子是同步算子还是异步算子的算子信息，在硬件设备端为与算子相对应的内核分配流，也可以根据该算子信息，在主机端为算子指派线程。

在执行器执行目标任务时，目标任务包括的算子数目、类型和执行的硬件设备是已知的、固定的。因此，执行器在执行目标任务时可以进行以下分析操作：通过分析算子序列中的每个算子应在哪种硬件设备上执行，选择与该硬件设备相对应的内核；分析每个内核要被分配到哪个流中；在执行了算子序列中的当前算子后，分析要为该当前算子的后续算子指派哪个线程(即，是将后续算子指派给当前线程执行，还是指派给另一个线程执行)；在执行了当前算子后，分析要回收哪些变量的显存。

如图7所示，可以根据指示算子是同步算子还是异步算子的算子信息，在主机端为算子指派线程。例如，在主机端执行的线程可以包括两个线程，线程1和线程2。在由两个或更多个算子构成的算子序列中的第一算子OP2、OP3、OP5、OP6、OP7是异步算子的情况下，可以将第一算子OP2、OP3、OP5、OP6、OP7指派到线程1中。另外，在算子序列中的第二算子feed_op、OP4、H2D是同步算子的情况下，可以将第二算子feed_op、OP4、H2D指派到线程2中。

本领域技术人员应理解，在主机端执行的线程包括两个线程仅是示例，在主机端执行的线程也可以包括三个或更多个线程。

根据一些实施例，如上所述的分析操作可以在执行器执行时仅运行一次，后续的每个迭代执行都复用该分析操作的结果直接执行，从而最大化地减少执行器的重复分析工作，提升执行效率。

图8示出了根据本公开另一实施例的为算子指派线程的方法的流程图。

在步骤S821，确定算子信息指示由两个或更多个算子构成的算子序列中的当前算子是异步算子还是同步算子。

如果在步骤S821确定算子信息指示由两个或更多个算子构成的算子序列中的当前算子是异步算子，则在步骤S822，确定当前算子的后续算子是异步算子还是同步算子。

在算子信息指示当前算子的后续算子是异步算子的情况下，在步骤S823，将当前算子的后续算子保留在当前线程中。

在算子信息指示当前算子的后续算子是同步算子的情况下，在步骤S824，将当前算子的后续算子指派到与所述当前线程不同的至少一个第三线程中。在一个实施例中，在所述后续算子的数目大于1的情况下，可以将所述后续算子中的每个算子以一对一的方式指派到至少一个第三线程中的每个线程中。

返回步骤S821，如果在步骤S821确定算子信息指示由两个或更多个算子构成的算子序列中的当前算子是同步算子，则在步骤S825，确定当前算子的后续算子是异步算子还是同步算子。

如果在步骤S825确定当前算子的后续算子是同步算子，则在步骤S826，确定算子序列中当前算子的后续算子的数目。如果在步骤S826确定后续算子的数目大于1，则在步骤S827，将当前算子的后续算子之一保留在当前线程中，并将该后续算子中的其他算子指派到与当前线程不同的至少一个第四线程中。在一个实施例中，在该其他算子的数目大于1的情况下，可以将该其他算子中的每个算子以一对一的方式指派到至少一个第四线程中的每个线程中。如果在步骤S826确定后续算子的数目等于1，则在步骤S828，将当前算子的后续算子保留在当前线程中。

如果在步骤S825确定当前算子的后续算子是同步算子，则在步骤S829，将当前算子的后续算子指派到与当前线程和第四线程不同的第五线程中。

根据本公开的实施例，可以在最大化多线程调度的优势的同时，减小了过多的添加任务操作的额外开销，也减小了线程休眠和重复唤醒的成本，提升了执行器的调度效率。

图9示出了根据本公开另一实施例的为算子指派线程的场景的示意图。

在多线程调度方案中，如果算子序列中的当前算子的后续算子产生了新的算子，则将产生的新算子都添加到其他线程，从而导致产生额外开销。

由于诸如GPU等图形加速硬件可能存在资源有限的问题，根据本公开实施例，可以将算子序列中作为异步算子的当前算子的后续异步算子留在当前线程执行，而将当前算子的后续同步算子指派给新的线程执行。如图5中所示，灰色方框GPU 1、GPU 2、GPU 3、GPU 4、GPU 5、GPU 6、GPU 7表示在GPU上执行的异步算子。可以将灰色方框指示的算子GPU 1至GPU7都指派给异步线程或者异步线程池。

对于CPU上的执行的同步算子，可以将算子序列中作为同步算子的当前算子的后续同步算子之一留在当前线程执行，而将后续同步算子中的其他同步算子都指派给新的线程去执行。需要说明的是，本文中描述的“后续算子”指的是紧接在当前算子后执行的算子。

如图9所示，当算子序列中的异步算子GPU 1的后续算子仅包括一个异步算子GPU2时，可以将异步算子GPU 2留在当前线程执行。当算子序列中的异步算子GPU 2的后续算子包括一个异步算子GPU 3和一个同步算子D2H 1时，可以将异步算子GPU 3留在当前线程执行，并且通过添加任务AddTask操作将同步算子D2H 1指派给同步线程2。当算子序列中的异步算子GPU 4的后续算子仅包括一个同步算子D2H 2时，可以通过添加任务AddTask操作将同步算子D2H2指派给同步线程1。并且，可以将同步算子D2H2后续的同步算子CPU8保留在当前的同步线程1中。

对于同步算子CPU2，由于其后续算子包括两个同步算子，即H2D1和CPU 3，因此可以将这两个同步算子H2D 1和CPU 3之一(例如，H2D 1)保留在当前的同步线程2中，并且通过添加任务AddTask操作将另一同步算子CPU 3指派给新的同步线程3。对于同步算子H2D1，由于其后续算子是异步算子GPU 5，因此可以通过添加任务AddTask操作将异步算子GPU5添加到异步线程中。对于同步算子CPU 3，由于其后续算子包括两个同步算子，即CPU 4和CPU 5，因此可以将这两个同步算子CPU 4和CPU 5之一(例如，CPU 4)保留在当前的同步线程3中，并且通过添加任务AddTask操作将另一同步算子CPU 5指派给新的同步线程4。并且，可以将同步算子CPU 5下游的同步算子CPU 6和CPU 7保留在同步线程4中。

对于异步算子GPU 5，可以将其下游的异步算子GPU 6和GPU 7保留在异步线程中。而当异步算子GPU 7的后续算子仅包括一个同步算子D2H 3时，可以通过添加任务AddTask操作将同步算子D2H 3指派给同步线程2。并且，可以将同步算子D2H 3的后续同步算子CPU9保留在同步线程2中。

虽然图9中示出了当前算子的后续算子包括一个或两个算子，但是根据需要，后续算子也可以包括三个或更多个算子。对于后续算子包括三个或更多个算子的情况，其调度方式与参照图9所描述的相同，为了简洁不再进行赘述。

图10示出了根据本公开另一实施例的调度算子的方法1000的流程图。

图10所示的步骤S1010和S1020与图3中的步骤S310和S320相同，为了简洁，将省略对其的重复描述。

在步骤S 1030，通过将电子设备的硬件设备层中包括的多个硬件设备注册在电子设备的注册管理器中，来在框架上层与硬件设备层之间提供统一接口。在一个实施例中，框架上层可以包括例如执行器、训练器、预测器和算子。硬件设备可以包括例如HIP、CUDA、NPU、XPU和CPU，其中，HIP和CUDA采用相同的事件机制CUDAEvent，而NPU、XPU和CPU分别采用与其相对应的事件机制NPUEvent、XPUEvent和CPUEvent。

根据本公开的实施例，通过提供统一接口，统一了应用框架中与不同硬件设备相关的模块接口(包括但不限于流接口、事件接口等)，并提供了便捷式的新硬件注册管理机制，方便对新兴硬件设备的横向扩展。

图11示出了根据本公开实施例的提供针对不同硬件设备的统一接口的示意图。

目前常用的硬件设备包括英特尔的CPU、英伟达的GPU(CUDA)、AMD公司的ROCM硬件(HIP)、异腾芯片(NPU)、百度昆仑芯片(XPU)等。不同硬件设备对流和事件(Event)机制的接口形态和支持度各不相同，比如CPU设备不支持流和事件机制。

在一个实施例中，可以在电子设备的框架上层与硬件设备层之间提供统一接口。如图11中所示，可以在框架上层和与底层硬件设备相关联的底层事件层之间提供中间代理层。框架上层可以包括例如执行器、训练器、预测器和算子。硬件设备可以包括例如HIP、CUDA、NPU、XPU和CPU，其中，HIP和CUDA采用相同的事件机制CUDAEvent，而NPU、XPU和CPU分别采用与其相对应的事件机制NPUEvent、XPUEvent和CPUEvent。

在一个实施例中，可以通过将硬件设备层中包括的多个硬件设备注册在电子设备的注册管理器中，来在电子设备的框架上层与硬件设备层之间提供统一接口。

图12示出了根据本公开实施例的算子调度装置1200的框图。

如图12所示，算子调度装置1200包括确定单元1210和调度单元1220。

确定单元1210被配置为确定与正在执行的目标任务中包括的两个或更多个算子相关的算子信息。算子信息可以指示两个或更多个算子中包括的算子是异步算子还是同步算子。

调度单元1220根据算子信息对两个或更多个算子进行调度。根据本公开的实施例，对两个或更多个算子进行调度可以包括以下操作之一或者其组合：为与两个或更多个算子相对应的两个或更多个内核分配流；以及为两个或更多个算子指派线程。

在一个实施例中，算子调度装置1200还可以包括接口提供单元，其被配置为通过将电子设备的硬件设备层中包括的多个硬件设备注册在电子设备的注册管理器中，来在框架上层与硬件设备层之间提供统一接口。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如算子调度方法。例如，在一些实施例中，算子调度方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的算子调度方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行算子调度方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括两个或更多个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、两个或更多个输入装置、和两个或更多个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该两个或更多个输入装置、和该两个或更多个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种调度算子的方法，包括：

确定与正在执行的目标任务中包括的两个或更多个算子相关的算子信息；以及

根据所述算子信息对所述两个或更多个算子进行调度，

其中，所述算子信息指示所述两个或更多个算子中包括的算子是异步算子还是同步算子。

2.根据权利要求1所述的方法，其中，根据所述算子信息对所述两个或更多个算子进行调度包括：

根据所述算子信息，为与所述两个或更多个算子相对应的两个或更多个内核分配流。

3.根据权利要求2所述的方法，其中，根据所述算子信息为与所述两个或更多个算子相对应的两个或更多个内核分配流包括：

将所述两个或更多个内核中的第一内核分配到第一流中；以及

将所述两个或更多个内核中的第二内核分配到第二流中，

其中所述第一内核与所述两个或更多个算子中的异步算子相对应，所述第二内核与所述两个或更多个算子中的同步算子相对应。

4.根据权利要求1所述的方法，其中，根据所述算子信息对所述两个或更多个算子进行调度包括：

根据所述算子信息，为所述两个或更多个算子指派线程。

5.根据权利要求4所示的方法，其中，为所述两个或更多个算子指派线程包括：

在所述算子信息指示由所述两个或更多个算子构成的算子序列中的至少一个第一算子是异步算子的情况下，将所述至少一个第一算子指派到第一线程中；

在所述算子信息指示由所述两个或更多个算子构成的算子序列中的至少一个第二算子是同步算子的情况下，将所述至少一个第二算子指派到第二线程中。

6.根据权利要求4所述的方法，其中，为所述两个或更多个算子指派线程包括：

在所述算子信息指示由所述两个或更多个算子构成的算子序列中的当前算子是异步算子的情况下，确定当前算子的后续算子是异步算子还是同步算子；

在所述算子信息指示当前算子的后续算子是异步算子的情况下，将当前算子的后续算子保留在当前线程中；以及

在所述算子信息指示当前算子的后续算子是同步算子的情况下，将当前算子的后续算子指派到与所述当前线程不同的至少一个第三线程中。

7.根据权利要求6所述的方法，其中，将当前算子的后续算子指派到与所述当前线程不同的至少一个第三线程中包括：

在所述算子序列中，所述后续算子的数目大于1的情况下，将所述后续算子中的每个算子以一对一的方式指派到所述至少一个第三线程中的每个线程中。

8.根据权利要求4所述的方法，其中，为所述两个或更多个算子指派线程包括：

在所述算子信息指示由所述两个或更多个算子构成的算子序列中的当前算子是同步算子的情况下，确定当前算子的后续算子是异步算子还是同步算子；

在确定当前算子的后续算子是同步算子的情况下，则：

确定所述算子序列中当前算子的后续算子的数目；

在当前算子的后续算子的数目等于1的情况下，将当前算子的后续算子保留在当前线程中；以及

在当前算子的后续算子的数目大于1的情况下，将当前算子的后续算子之一保留在当前线程中，并将该后续算子中的其他算子指派到与所述当前线程不同的至少一个第四线程中；以及

在确定当前算子的后续算子是异步算子的情况下，将当前算子的后续算子指派到与所述当前线程和所述第四线程不同的第五线程中。

9.根据权利要求8所述的方法，其中，将当前算子的后续算子中的其他算子指派到与所述当前线程不同的至少一个第四线程中包括：

在所述其他算子的数目大于1的情况下，将所述其他算子中的每个算子以一对一的方式指派到所述至少一个第四线程中的每个线程中。

10.根据权利要求1所述的方法，其中，所述方法应用于电子设备中，所述电子设备包括框架上层和硬件设备层，所述方法还包括：

通过以下操作，在所述框架上层与所述硬件设备层之间提供统一接口：将所述硬件设备层中包括的多个硬件设备注册在所述电子设备的注册管理器中。

11.一种算子调度装置，包括：

确定单元，被配置为确定与正在执行的目标任务中包括的两个或更多个算子相关的算子信息；以及

调度单元，被配置为根据所述算子信息对所述两个或更多个算子进行调度，

12.一种电子设备，包括：

两个或更多个处理器；以及

与所述两个或更多个处理器通信连接的存储器；其中，

所述存储器存储有可被所述两个或更多个处理器执行的指令，所述指令被所述两个或更多个处理器执行，以使所述两个或更多个处理器能够执行权利要求1-10中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

14.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。