CN116243983A

CN116243983A - 处理器、集成电路芯片、指令处理方法、电子设备和介质

Info

Publication number: CN116243983A
Application number: CN202310341078.9A
Authority: CN
Inventors: 代亚东; 王京
Original assignee: Kunlun Core Beijing Technology Co ltd
Current assignee: Kunlun Core Beijing Technology Co ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-09

Abstract

本公开提供了一种处理器、集成电路芯片、指令处理方法、电子设备、存储介质以及程序产品，涉及计算机技术领域，尤其涉及芯片技术领域和处理器技术领域。具体实现方案为：处理器包括：多个协处理器；至少一个处理器核，配置为生成多个第一指令和多个第二指令；以及指令调度单元，配置为将多个第一指令依次发送给多个协处理器，并在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器；其中，至少一个目标第一指令为多个第一指令中被优先执行的至少一个第一指令，目标第二指令为多个第二指令中被优先执行的第二指令，目标协处理器为执行至少一个目标第一指令的协处理器。

Description

处理器、集成电路芯片、指令处理方法、电子设备和介质

技术领域

本公开涉及计算机技术领域，尤其涉及芯片技术领域和处理器技术领域。

背景技术

由于同一程序包括的多个指令之间存在依赖关系，处理器中用于处理多个指令的多个协处理器之间的操作也会相应地具有依赖关系。

在面对待处理的多个程序时，为了避免这种依赖关系被破坏，在确定前一个程序被协处理器处理完成时，才可以开始处理下一个的程序。但这导致协处理器的利用率下降。

发明内容

本公开提供了一种处理器、集成电路芯片、指令处理方法、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种处理器，包括：多个协处理器；至少一个处理器核，配置为生成多个第一指令和多个第二指令；以及指令调度单元，配置为将多个第一指令依次发送给多个协处理器，并在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器；其中，至少一个目标第一指令为多个第一指令中被优先执行的至少一个第一指令，目标第二指令为多个第二指令中被优先执行的第二指令，目标协处理器为执行至少一个目标第一指令的协处理器。

根据本公开的另一方面，提供了一种集成电路芯片，包括：本公开实施例所示的处理器。

根据本公开的另一方面，提供了一种指令处理方法，包括：生成多个第一指令和多个第二指令；将多个第一指令依次发送给多个协处理器；以及在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器；其中，至少一个目标第一指令为多个第一指令中被优先执行的至少一个第一指令，目标第二指令为多个第二指令中被优先执行的第二指令，目标协处理器为执行至少一个目标第一指令的协处理器。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例所示的方法。

根据本公开实施例的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例所示的方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现本公开实施例所示方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的处理器的结构示意图；

图2示意性示出了根据本公开另一实施例的处理器的结构示意图；

图3示意性示出了一种示例的指令执行过程的示意图；

图4A示意性示出了根据本公开实施例的指令调度过程的示意图；

图4B示意性示出了根据本公开实施例的指令执行过程的示意图；

图5A示意性示出了根据本公开另一实施例的指令调度过程的示意

图

图5B示意性示出了根据本公开另一实施例的指令执行过程的示意图；

图6示意性示出了根据本公开实施例的集成电路芯片的结构示意图；

图7示意性示出了根据本公开实施例的指令处理方法的流程图；以及

图8示意性示出了可以用来实施本公开的实施例的示例电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种处理器包括：多个协处理器；至少一个处理器核，配置为生成多个第一指令和多个第二指令；以及指令调度单元，配置为将多个第一指令依次发送给多个协处理器，并在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器；其中，至少一个目标第一指令为多个第一指令中被优先执行的至少一个第一指令，目标第二指令为多个第二指令中被优先执行的第二指令，目标协处理器为执行至少一个目标第一指令的协处理器。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

以下将结合图1对处理器的结构进行描述。

图1示意性示出了根据本公开实施例的处理器的结构示意图。

如图1所示，处理器100包括多个协处理器110、至少一个处理器核120和指令调度单元130。多个协处理器110包括协处理器110_1、协处理器110_2和协处理器110_3。在本公开的实施例中，图1示出的多个协处理器110包括的协处理器的数量和至少一个处理器核120包括的处理器核的数量均为示意性说明。

例如，处理器100可以为异构处理器，多个协处理器110和处理器核120形成异构处理器。

例如，多个协处理器120可以分别协助主处理器处理特定任务，多个协处理器120之间可以使用特定的地址空间实现数据交换。

例如，至少一个处理器120可以为中央处理器(Central Processing Unit，CPU)或微控制单元(Micro controller Unit，MCU)。至少一个处理器核120可以形成处理器100的主处理器。在至少一个处理器核120包括一个处理器核的情况下，处理器100的主处理器为单核处理器。在至少一个处理器核120包括多个处理器核的情况下，处理器100的主处理器为多核处理器。主处理器可以调用协处理器，使协处理器协助处理特定任务。

根据本公开的实施例，至少一个处理器核120生成多个第一指令和多个第二指令。例如，多个第一指令可以为第一程序的多个指令，多个第二指令可以为第二程序的多个指令，第一程序和第二程序可以为相互独立的两个程序。例如，第一程序和第二程序可以分别为两个计算任务，两个计算任务之间相互独立。

例如，至少一个处理器核120可以基于第一计算请求，生成第一程序，第一程序包括多个第一指令。至少一个处理器核120还可以基于第二计算请求，生成第二程序，第二程序包括多个第二指令。在确定至少一个处理器核120包括多个处理器核的情况下，多个处理器核可以基于第一计算请求分别生成多个第一指令，以及多个处理器核还可以基于第二计算请求分别生成多个第二指令。例如，第一计算请求可以包括图像压缩请求，第一程序可以包括图像压缩任务，多个第一指令可以包括指示处理图像的多个指令。第二计算请求可以包括语音识别请求，第二程序可以包括语音识别任务，多个第二指令可以包括指示解析语音的多个指令。第一程序的执行过程和第二程序的执行过程彼此独立。

多个第二指令中每个第二指令的执行过程与多个第一指令中每个第一指令的执行过程彼此独立。例如，多个第二指令的执行过程可以独立于多个第一指令的执行过程及执行结果实现。

例如，主处理器可以为用于深度学习的加速器或处理器。多个协处理器110可以分别用于卷积模块、全连接模块、池化模块和激活模块中的一个或多个，主处理器可以通过调用卷积模块、全连接模块、池化模块和激活模块来处理基于神经网络的计算任务。例如，主处理器还可以为用于大数据处理的加速器或处理器。多个协处理器110可以分别用于过滤模块、连接模块、排序模块和聚合模块中的一个或多个，主处理器可以通过调用过滤模块、连接模块、排序模块和聚合模块来处理基于大数据的计算任务。

根据本公开的实施例，指令调度单元130将多个第一指令依次发送给多个协处理器110，并在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器。例如，至少一个目标第一指令为多个第一指令中被优先执行的至少一个第一指令，目标第二指令为多个第二指令中被优先执行的第二指令，目标协处理器为执行至少一个目标第一指令的协处理器。

例如，多个第一指令可以包括第一指令0、第一指令1和第一指令2。指令调度单元130可以将第一指令0、第一指令1和第一指令2分别发送给协处理器110_1、协处理器110_2、协处理器110_3。根据第一指令0、第一指令1和第一指令2之间的依赖关系，多个第一指令的执行过程可以包括协处理器110_1执行第一指令0，得到第一执行结果0。协处理器110_2基于第一执行结果0，执行第一指令1，得到第一执行结果1。协处理器110_3基于第一执行结果1，执行第一指令2，得到第一执行结果2。此时，由于第一指令1和第一指令2的执行过程是基于第一指令0的执行结果实现的，可以认为第一指令0为多个第一指令中被优先执行的目标第一指令。例如，在确定多个第一指令包括多个第一指令0的情况下，至少一个目标第一指令包括多个第一指令0。

例如，多个第二指令可以包括第二指令0、第二指令1和第二指令2。根据第二指令0、第二指令1和第二指令2之间的依赖关系，多个第二指令的执行过程可以包括协处理器110_1执行第二指令0，得到第二执行结果0。协处理器110_2基于第二执行结果0，执行第二指令1，得到第二执行结果1。协处理器110_3基于第二执行结果1，执行第二指令2，得到第二执行结果2。此时，由于第二指令1和第二指令2的执行过程是基于第二指令0的执行结果实现的，可以认为第二指令0为多个第二指令中被优先执行的目标第二指令。

协处理器110_1用于执行第一指令0和第二指令0，协处理器110_1可以为目标协处理器。

在确定多个第一指令中的第一指令0已经被执行完成的情况下，仅协处理器110_2和协处理器110_3继续参与第一程序的后续处理过程，协处理器110_1不参与第一指令1和第一指令2的执行过程，指令调度单元130认为协处理器110_1对于第一程序进入空闲状态，协处理器110_1与协处理器110_2以及协处理器110_3关于第一程序的依赖关系接解除。为了提高协处理器的利用率，指令调度单元130可以将第二指令0发送给协处理器110_1。由于协处理器110_1不再参与第一程序的后续处理过程，协处理器110_1执行第二指令0，不会破坏多个第一指令之间的依赖关系以及协处理器110_2与协处理器110_3之间的依赖关系，从而确保第一程序可以被处理完成。

根据本公开的实施例，在处理器100处理第一程序的过程中，利用指令调度单元确定第一程序中多个第一指令的执行状态和多个协处理器的运行状态，在不影响第一程序的处理过程的情况下，通过处于空闲状态的协处理器提前开始处理第二程序的多个第二指令，可以提高协处理器的利用率。此外，无需等待第一程序的处理过程，提前开始处理第二程序，可以加快第二程序的处理进度。

根据本公开的实施例，在将目标第二指令发送给目标协处理器≥前，指令调度单元130还可以在确定至少一个目标第一指令被执行完成的情况下，获取与后序指令相关的第一访存地址和与目标第二指令的相关的第二访存地址；以及在确定第一访存地址和第二访存地址不相同的情况下，将目标第二指令发送给目标协处理器。后序指令为多个第一指令中至少一个目标第一指令的至少一个后序第一指令。

根据本公开的实施例，在确定第一访存地址与第二访存地址存在相同地址的情况下，指令调度单元130修改第二访存地址，使第二访存地址与第一访存地址不相同。

例如，在确定多个第一指令中的第一指令0已经被执行完成的情况下，指令调度单元130可以获取与第一指令1、第一指令2以及第二指令0相关的访存地址。例如，与第一指令1相关的第一访存地址1包括第一指令1的读取地址、第一指令1对应操作数的读取地址和第一指令1的第一执行结果1的写入地址。与第一指令2相关的第一访存地址2包括第一指令2的读取地址、第一指令2对应操作数的读取地址和第一指令2的第一执行结果2的写入地址。与第二指令0相关的第二访存地址0包括第二指令0的读取地址、第二指令0对应操作数的读取地址和第二指令0的第二执行结果0的写入地址。

例如，在确定第一访存地址1以及第一访存地址2均与第二访存地址0不相同的情况下，指令调度单元130认为第一访存地址1以及第一访存地址2均与第二访存地址0不冲突，第二指令0的执行过程不会影响第一指令1以及第一指令2的执行过程。在这种情况下，指令调度单元130可以将第二指令0发送给协处理器110_1，从而避免第二指令0的执行过程影响第一程序的处理过程。

例如，在确定第一访存地址1与第二访存地址0存在相同地址和/或第一访存地址2与第二访存地址0存在相同地址的情况下，指令调度单元130认为第一访存地址1和/或第一访存地址2与第二访存地址0存在地址冲突，第二指令0的执行过程会影响第一指令1和/或第一指令2的执行过程。在这种情况下，指令调度单元130可以修改第二访存地址0，使第二访存地址0与第一访存地址1以及第一访存地址2均不相同，从而避免第二指令0的执行过程影响第一指令1和第一指令2的执行过程。

例如，第一访存地址1包括地址0～100，第二访存地址0包括地址50～150。由于在确定第一访存地址1与第二访存地址0存在相同地址100～150，在执行第二指令0时，会出现读取操作数错误或写入执行结果错误的现象，也会导致第一指令1的执行过程出现读取操作数错误或写入执行结果错误的现象。由于第一指令1可能处于正在被执行的状态，指令调度单元130可以从存储器中确定一段空闲存储区域，并将第二访存地址0进行偏移，使第二访存地址0偏移至空闲存储区域。例如在确定地址101～201的区域为空闲存储区域的情况下，将第二访存地址0偏移至地址101～201。此时，第二指令0的执行过程可以基于地址101～201实现。例如，存储器可以为内存、缓存或外部存储器，访存地址为存储器中存储区域的地址。

根据本公开的实施例，为了避免正在被执行的第一指令的执行过程受到影响，在将目标第二指令发送给目标协处理器之前，利用指令调度单元将目标第二指令的访存地址与第一程序中正在被执行以及未被执行的指令的访存地址进行对比，对发生地址冲突的目标第二指令的访存地址进行修改，使得协处理器可以基于修改后的访存地址执行目标第二指令，提高协处理器的利用率。

以下将结合图2对本公开提供的处理器的结构进行描述。

图2示意性示出了根据本公开另一实施例的处理器的结构示意图。

如图2所示，处理器200包括多个协处理器210、多个处理器核220、指令调度单元230和内存240。多个协处理器210和多个处理器核220分别与图1所示的多个协处理器110和至少一个处理器和120类似，为了简明，对于类似的部分本公开在此处不再赘述。

根据本公开的实施例，多个协处理器210包括协处理器0、协处理器1和协处理器2。多个处理器核220包括处理器核0、处理器核1和处理器核2。在本公开的实施例中，图2示出的多个协处理器210包括的协处理器的数量和多个处理器核220包括的处理器核的数量均为示意性说明。

根据本公开的实施例，指令调度单元230包括至少一个缓存器231和预取单元232。

根据本公开的实施例，至少一个缓存器231分别存储来自至少一个处理器核210的多个第一指令和多个第二指令。根据多个第一指令的执行顺序，预取单元232将至少一个缓存器中231的多个第一指令依次发送给多个协处理器210中对应的协处理器；获取多个协处理器210中多个第一指令的执行状态；以及根据执行状态，在确定至少一个目标第一指令被目标协处理器执行完成的情况下，将目标第二指令发送给目标协处理器。

如图2所示，在确定至少一个缓存器231包括多个缓存器的情况下，至少一个缓存器231可以包括缓存器0、缓存器1和缓存器2，图2示出的多个缓存器包括的缓存器的数量均为示意性说明，缓存器的数量与处理器核的数量可以相同，多个缓存器可以与多个处理器核一一对应。缓存器的数量与协处理器的数量可以相同，也可以相同。

例如，缓存器0、缓存器1和缓存器2可以分别与处理器核0、处理器核1和处理器核2一一对应。缓存器0可以存储处理器核0生成的指令，缓存器1可以存储处理器核1生成的指令，缓存器2可以存储处理器核2生成的指令。

例如，多个第一指令的执行顺序可以为表征多个第一指令之间的依赖关系。例如，多个第一指令包括第一指令0、第一指令1和第一指令2，根据第一指令0、第一指令1和第一指令2之间的依赖关系，多个第一指令的执行顺序为第一指令0→第一指令1→第一指令2。

处理器核0、处理器核1和处理器核2可以依次生成第一指令0、第一指令1和第一指令2，并将第一指令0、第一指令1和第一指令2依次写入对应的缓存器0、缓存器1和缓存器2中。

根据执行顺序，预取单元232将缓存器中0中的第一指令0发送给协处理器0，协处理器0可以用于执行多个指令中被第一个执行的指令。在确定协处理器0执行第一指令0，得到第一执行结果0的情况下，预取单元232将缓存器中1中的第一指令1发送给协处理器1，协处理器1可以用于执行多个指令中被第二个执行的指令。在确定协处理器1执行第一指令1，得到第一执行结果1的情况下，预取单元232将缓存器中2中的第一指令2发送给协处理器2，协处理器2可以用于执行多个指令中被第三个执行的指令。

例如，第一执行结果0、第一执行结果1和第一执行结果2可以被写入对应的协处理器写入内存240。例如，内存240可以为静态随机存取存储器(Static Random-AccessMemory，SRAM)。

根据本公开的实施例，在确定多个第一指令均被写入至少一个缓存器231的情况下，至少一个处理器核220生成多个第二指令，并将多个第二指令写入至少一个缓存器231。

例如，多个第二指令包括第二指令0、第二指令1和第二指令2，在确定第一指令0、第一指令1和第一指令2被依次写入对应的缓存器0、缓存器1和缓存器2的情况下，处理器核0、处理器核1和处理器核2可以依次生成第二指令0、第二指令1和第二指令2，并将第二指令0、第二指令1和第二指令2依次写入对应的缓存器0、缓存器1和缓存器2中。

例如，在确定多个第一指令均被写入对应的缓存器的情况下，处理器核开始生成多个第二指令，可以确保在处理第一程序时，第一程序包括的多个第一指令均可以被发送给到对应的协处理器中，也便于预取单元232可以获取第一程序包括的所有第一指令的执行状态。

例如，多个第二指令的执行顺序也可以为第一个被执行的指令为第二指令0→第二指令1→第二指令2。

例如，缓存器0、缓存器1和缓存器2可以分别包括一个指令队列，指令队列用于存储对应处理器核生成的指令。在缓存器0的指令队列的第一指令0被发送给协处理器0的情况下，第二指令0位于缓存器0的指令队列的出口，第二指令0处于可以被读取的状态。

此时，第二指令0对应的协处理器0为目标协处理器，预取单元232可以获取多个协处理器210中多个第一指令的执行状态，确定协处理器0是否已经完成对第一指令0的执行。

在确定第一指令0已经被协处理器0执行完成且多个第一指令中仅剩第一指令1和第一指令2未被执行完成的情况下，预取单元232认为协处理器0对于第一程序进入空闲状态。在确定与第一指令1相关的访存地址以及与第一指令2相关的访存地址与第二指令0的相关访存地址均不相同的情况下，为了提高协处理器的利用率，预取单元232可以将第二程序的第二指令0发送给协处理器0，使协处理器0开始执行第二指令0。

根据本公开的实施例，在处理第一程序的过程中，在不影响第一程序的处理过程的情况下，预取单元232预先通过对于第一程序处于空闲状态的协处理器0提前开始执行第二程序的第二指令0，可以加快第二程序的处理进度，提高协处理器的利用率。

根据本公开的实施例，内存240可以存储至少一个目标第一指令的至少一个执行结果。协处理器在确定至少一个执行结果与至少一个目标第一指令的后序指令均不相关的情况下，从内存240中删除至少一个执行结果。

例如，在协处理器0执行第一指令0，得到第一执行结果0的情况下，协处理器0可以将第一执行结果0写入内存240中。第一执行结果0被写入内存240的地址为与第一指令0相关的访存地址。

由于第一指令1的执行过程涉及第一执行结果0，因此第一执行结果0被写入内存240的地址也为与第一指令1相关的访存地址。此时，在协处理器0对第一指令0完成执行的情况下，协处理器0可以从内存240中删除第一指令0和第一指令1对应操作数，从而释放第一指令0和对应操作数占用的内存空间。

在确定协处理器1对第一指令1完成执行且第一指令2的执行过程不使用第一执行结果0的情况下，协处理器1可以从内存240中删除第一执行结果0，从而释放第一执行结果0占用的内存空间。

例如，在确定第一执行结果0的写入地址与第二指令0的相关访存地址存在相同的地址，预取单元232可以延迟将第二指令0发送给协处理器0。在确定第一执行结果0占用的内存空间被释放的情况下，预取单元232将第二指令0发送给协处理器0。

通过缓存器对处理器核生成的指令进行缓存，并利用预取单元对多个指令的执行状态进行监测。在确定多个协处理器中存在空闲状态的协处理器以及确定第二程序中优先执行的第二指令与第一程序中未完成执行的第一指令之间不存在访存地址冲突的情况下，及时利用空闲状态的协处理器执行第二程序中优先执行的第二指令，加快第二程序的执行进程，提高协处理器的利用率。此外，缓存器和预取单元产生的硬件资源开销小，不影响协处理器和处理器核的运行性能。

以下将结合图3、图4A、图4B、图5A和图5B对本公开提供的处理器的指令执行过程进行描述。

需要说明的是，处理器执行的第一程序为程序0，处理器执行的第二程序为程序1。第一程序包括的第一指令0、第一指令1和第一指令2分别为指令I0_0、指令I0_1和指令I0_2。第二程序包括的第二指令0、第二指令1和第二指令2分别为指令I1_0、指令I1_1和指令I1_2。多个缓存器包括缓存器0、缓存器1和缓存器2，多个协处理器包括协处理器0、协处理器1和协处理器2。多个指令、多个缓存器与多个协处理器之间的对应关系与图2示出的实施例类似，为了简明，本公开在此处不再赘述。

图3示意性示出了一种示例的指令执行过程的示意图。

如图3所示，该指令执行过程300包括：

处理器核将程序0的指令I0_0发送给协处理器0，当协处理器0完成对指令I0_0的执行时，协处理器0向处理器核发送对应的同步指令S0_0，同步指令S0_0可以指示处理器核可以控制与协处理器0具有依赖关系的协处理器1开始执行指令I0_1。

处理器核将程序0的指令I0_1发送给协处理器1，当协处理器1完成对指令I0_1的执行时，协处理器1向处理器核发送对应的同步指令S0_1，同步指令S0_1可以指示处理器核可以控制与协处理器1具有依赖关系的协处理器2开始执行指令I0_2。

处理器核将程序0的指令I0_2发送给协处理器2，当协处理器2完成对指令I0_2的执行时，协处理器2向处理器核发送对应的同步指令S0_2，同步指令S0_2可以指示协处理器完成了对程序0的处理。

在处理器核将程序0的指令I0_2发送给协处理器2时，处理器核确定程序0的最后一个指令I0_2由协处理器2执行，此时在确定与程序1相关的访存地址与程序0相关的多个访存地址不相同的情况下，处理器核可以开始执行程序1。处理器核将程序1的指令I1_0发送给协处理器0，当协处理器0完成对指令I1_0的执行时，协处理器0向处理器核发送对应的同步指令S1_0，同步指令S1_0可以指示处理器核可以控制与协处理器0具有依赖关系的协处理器1开始执行指令I1_1。

程序1的后续执行过程与程序0的执行过程类似，为了简明，本公开在此处不再赘述。

在图3示出的指令执行过程中，由于指令I0_0、指令I0_1和指令I0_2之间存在依赖关系，处理器核不能在生成指令I0_2后，立刻将指令I0_2发送给对应的协处理器2，从而导致处理器核发送指令I1_0的时刻延后。如图3所示，在协处理器1执行指令I0_1时，协处理器0的运行过程存在空泡310，这表示协处理器0对于程序0处于空闲状态，因此协处理器0的利用率下降。

图4A示意性示出了根据本公开实施例的指令调度过程的示意图。

如图4A所示，在指令调度过程400a中，指令I0_0被存储在缓存器0的指令队列410中，指令I0_1被存储在缓存器1的指令队列420中和指令I0_2被存储在缓存器2的指令队列430中。

在协处理器0完成对指令I0_0的执行时，协处理器0将同步指令S0_0写入指令队列410，指令调度单元将同步指令S0_0同步到指令队列420中。响应于同步指令S0_0，协处理器1开始执行来自指令队列420的指令I0_1。

此时，指令调度单元还可以获取指令队列410、指令队列420和指令队列430中正在被执行的指令和未被执行的指令。在确定指令队列410、指令队列420和指令队列430均不包括指令I0_0且指令I1_0与指令I0_1以及指令I0_2不存在访存地址冲突的情况下，指令调度单元可以将指令队列410中的指令I1_0发送给协处理器0，协处理器0开始执行指令I1_0，开始处理程序1。

在协处理器1完成对指令I0_1的执行时，协处理器1将同步指令S0_1写入指令队列420，指令调度单元将同步指令S0_1同步到指令队列430中。响应于同步指令S0_1，协处理器2开始执行来自指令队列430的指令I0_2。

此时，在协处理器0完成对指令I1_0的执行时，指令调度单元还可以获取指令队列410、指令队列420和指令队列430中正在被执行的指令和未被执行的指令。在确定指令队列410、指令队列420和指令队列430均不包括指令I0_1且指令I1_1与指令I0_2不存在访存地址冲突的情况下，指令调度单元可以将指令队列410中的指令I1_1发送给协处理器1，协处理器1开始执行指令I1_1。

图4B示意性示出了根据本公开实施例的指令执行过程的示意图。图4B示出了图4A中指令队列多个指令的执行流程。

如图4B所示，该指令执行过程400b包括：

处理器核向指令调度单元发送程序0，程序0包括指令I0_0、指令I0_1和指令I0_2。在处理器核已经将程序0的指令I0_0、指令I0_1和指令I0_2均发送给指令调度单元的情况下，处理器核可以向指令调度单元发送程序1，程序1包括指令I1_0、指令I1_1和指令I1_2。

指令调度单元将指令I0_0发送给协处理器0，开始处理程序0。当协处理器0完成对指令I0_0的执行时，协处理器0向指令调度单元发送对应的同步指令S0_0。响应于同步指令S0_0，指令调度单元将指令I0_1发送给协处理器1。当协处理器1完成对指令I0_1的执行时，协处理器1向指令调度单元发送对应的同步指令S0_1。

在指令调度单元向发送给协处理器1的指令I0_1同时，在确定指令I0_0被处理完成且指令I1_0与指令I0_1以及指令I0_2不存在访存地址冲突的情况下，指令调度单元可以将指令I1_0发送给协处理器0，协处理器0开始执行指令I1_0，开始处理程序1。当协处理器0完成对指令I1_0的执行时，协处理器0向指令调度单元发送对应的同步指令S1_0。

响应于同步指令S0_1，指令调度单元将指令I0_2发送给协处理器2，当协处理器2完成对指令I0_2的执行时，协处理器2向指令调度单元发送对应的同步指令S0_2。

在指令调度单元向发送给协处理器2的指令I0_2同时，响应于同步指令S1_0，在确定指令I0_1被处理完成且指令I1_1与指令I0_2不存在访存地址冲突的情况下，指令调度单元可以将指令I1_1发送给协处理器1，协处理器1开始执行指令I1_1。当协处理器1完成对指令I1_1的执行时，协处理器1向指令调度单元发送对应的同步指令S1_1。

图5A示意性示出了根据本公开另一实施例的指令调度过程的示意图。

如图5A所示，在指令调度过程500a中，缓存器0的指令队列510存储了指令I0_0，缓存器1的指令队列520存储了指令I0_0和指令I0_1，缓存器2的指令队列530存储了指令I0_2。

在协处理器0完成对指令队列510中的指令I0_0的同时，指令调度单元获取指令队列510、指令队列520和指令队列530中正在被执行的指令和未被执行的指令。在确定指令队列520包括指令I0_0的情况下，指令调度单元将指令队列520中的指令I0_0发送给协处理器0，协处理器0执行指令I0_0。

在协处理器0执行指令队列520中的指令I0_0的同时，指令调度单元可以将指令队列520中的指令I0_1发送给协处理器1，协处理器1开始执行指令I0_1。

在协处理器0完成对指令队列520中的指令I0_0的同时，指令调度单元可以获取指令队列510、指令队列520和指令队列530中正在被执行的指令和未被执行的指令。在确定指令队列510、指令队列520和指令队列530均不包括指令I0_0且指令I1_0与指令I0_1以及指令I0_2不存在访存地址冲突的情况下，指令调度单元可以将指令队列510中的指令I1_0发送给协处理器0，协处理器0开始执行指令I1_0，从而开始处理程序1。

程序0的后续执行过程和程序1的后续执行过程与图4A和图4B所示的实施例类似，为了简明，本公开在此处不再赘述。

图5B示意性示出了根据本公开另一实施例的指令执行过程的示意图。图5B示出了图5A中指令队列多个指令的执行流程。

如图5B所示，该指令执行过程500b包括：

在指令调度单元向发送给协处理器1的指令I0_1同时，在确定指令调度单元中还存在未被执行的指令I0_0的情况下，指令调度单元可以将未被执行的指令I0_0再次发送给协处理器0，协处理器0执行指令I0_0。

在确定第二个指令I0_0被处理完成且指令I1_0与指令I0_2不存在访存地址冲突的情况下，指令调度单元可以将指令I1_0发送给协处理器0，协处理器0开始执行指令I1_0，提高协处理器0的利用率。

根据本公开实施例，利用指令调度单元，对处理器核发送给的指令进行缓存，并根据程序0的多个指令的执行状态，对程序0中未被执行的指令和程序1中未被执行的多个指令进行调度。充分利用处于空闲状态的协处理器执行未被执行的指令，使得在协处理器0完成对指令I0_0的情况下，协处理器0可以与协处理器1同步执行下一个指令，减少协处理器的空闲时间，提高协处理器的利用率和加快程序的处理进度。

以下将结合图6对本公开提供的集成电路芯片进行描述。

图6示意性示出了根据本公开实施例的集成电路芯片的结构示意图。

集成电路芯片600包括根据本公开任一实施例的处理器610。例如，集成电路芯片600可以包括如图1所示的处理器100。

根据本公开的实施例，集成电路芯片600中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例集成电路芯片600中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者集成电路芯片600中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

以下将结合图7对本公开提供的指令处理方法进行描述。

图7示意性示出了根据本公开实施例的指令处理方法的流程图。

如图7所示，该指令处理方法700包括操作S710至操作S730。

在操作S710，生成多个第一指令和多个第二指令。

然后，在操作S720，将多个第一指令依次发送给多个协处理器。

然后，在操作S730，确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器。

根据本公开的实施例，至少一个目标第一指令为多个第一指令中被优先执行的至少一个第一指令，目标第二指令为多个第二指令中被优先执行的第二指令，目标协处理器为执行至少一个目标第一指令的协处理器。

根据本公开的实施例，操作S710可以由图1所示实施例中的至少一个处理器核120执行，操作S720至操作S730可以由图1所示实施例中的指令调度单元130执行。

根据本公开的实施例，操作S730在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器，包括：在确定至少一个目标第一指令被执行完成的情况下，获取与后序指令相关的第一访存地址和与目标第二指令的相关的第二访存地址，后序指令为多个第一指令中至少一个目标第一指令的至少一个后序第一指令；以及在确定第一访存地址和第二访存地址不相同的情况下，将目标第二指令发送给目标协处理器。

根据本公开的实施例，操作S730在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器，还包括：在确定第一访存地址与第二访存地址存在相同地址的情况下，修改第二访存地址，使第二访存地址与第一访存地址不相同。

根据本公开的实施例，多个第一指令和多个第二指令可以存储在至少一个缓存器中。操作S730在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器，还包括：根据多个第一指令的执行顺序，将至少一个缓存器中的多个第一指令依次发送给多个协处理器中对应的协处理器；获取多个协处理器中多个第一指令的执行状态；以及根据执行状态，在确定至少一个目标第一指令被目标协处理器执行完成的情况下，将目标第二指令发送给目标协处理器。

例如，在确定多个第一指令均被写入至少一个缓存器的情况下，至少一个处理器核生成多个第二指令，并将多个第二指令写入至少一个缓存器。

根据本公开的实施例，可以通过内存存储至少一个目标第一指令的至少一个执行结果。在确定至少一个执行结果与至少一个目标第一指令的后序指令均不相关的情况下，从内存中删除至少一个执行结果。

根据本公开的实施例，多个第二指令中每个第二指令的执行过程与多个第一指令中每个第一指令的执行过程彼此独立。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示意性示出了可以用来实施本公开的实施例的示例电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如芯片验证方法。例如，在一些实施例中，芯片验证方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的芯片验证方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行指令处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种处理器，包括：

多个协处理器；

至少一个处理器核，配置为生成多个第一指令和多个第二指令；以及

指令调度单元，配置为将所述多个第一指令依次发送给所述多个协处理器，并在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器；

其中，所述至少一个目标第一指令为所述多个第一指令中被优先执行的至少一个第一指令，所述目标第二指令为所述多个第二指令中被优先执行的第二指令，所述目标协处理器为执行所述至少一个目标第一指令的协处理器。

2.根据权利要求1所述的处理器，其中，所述指令调度单元还配置为：

在确定所述至少一个目标第一指令被执行完成的情况下，获取与后序指令相关的第一访存地址和与所述目标第二指令的相关的第二访存地址，所述后序指令为所述多个第一指令中所述至少一个目标第一指令的至少一个后序第一指令；以及

在确定所述第一访存地址和所述第二访存地址不相同的情况下，将所述目标第二指令发送给所述目标协处理器。

3.根据权利要求2所述的处理器，其中，所述指令调度单元还配置为：

在确定所述第一访存地址与所述第二访存地址存在相同地址的情况下，修改所述第二访存地址，使所述第二访存地址与所述第一访存地址不相同。

4.根据权利要求1所述的处理器，其中，所述指令调度单元包括：

至少一个缓存器，配置为分别存储来自所述至少一个处理器核的所述多个第一指令和所述多个第二指令；以及

预取单元，配置为：

根据所述多个第一指令的执行顺序，将所述至少一个缓存器中的所述多个第一指令依次发送给所述多个协处理器中对应的协处理器；

获取所述多个协处理器中所述多个第一指令的执行状态；以及

根据所述执行状态，在确定所述至少一个目标第一指令被所述目标协处理器执行完成的情况下，将所述目标第二指令发送给所述目标协处理器。

5.根据权利要求4所述的处理器，其中，所述至少一个处理器核还配置为：

在确定所述多个第一指令均被写入所述至少一个缓存器的情况下，生成所述多个第二指令；以及

将所述多个第二指令写入所述至少一个缓存器。

6.根据权利要求1所述的处理器，还包括：

内存，配置为存储所述至少一个目标第一指令的至少一个执行结果；

其中，协处理器在确定所述至少一个执行结果与所述至少一个目标第一指令的后序指令均不相关的情况下，从所述内存中删除所述至少一个执行结果。

7.根据权利要求1～6任一项所述的处理器，其中，所述多个第二指令中每个第二指令的执行过程与所述多个第一指令中每个第一指令的执行过程彼此独立。

8.一种集成电路芯片，包括：

权利要求1～7中任一项所述的处理器。

9.一种指令处理方法，包括：

生成多个第一指令和多个第二指令；

将所述多个第一指令依次发送给多个协处理器；以及

在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器；

10.根据权利要求9所述的方法，其中，所述在确定至少一个目标第一指令被执行完成的情况下，将目标第二指令发送给目标协处理器，包括：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求9～10中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求9～10中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求9～10中任一项所述方法的步骤。