CN103744639A

CN103744639A - 数据访问和置换单元

Info

Publication number: CN103744639A
Application number: CN201310617531.0A
Authority: CN
Inventors: S.诺尔斯; S.菲利克斯
Original assignee: Nvidia Technology UK Ltd
Current assignee: Nvidia Technology UK Ltd
Priority date: 2005-04-08
Filing date: 2006-04-06
Publication date: 2014-04-23
Also published as: JP2008535115A; WO2006106342A8; US20060227966A1; TWI476681B; TW200701059A; JP5047944B2; EP1866744A2; CN101208658A; CA2600744A1; BRPI0609742A2; WO2006106342A2; US7933405B2; KR20070118623A; WO2006106342A3

Abstract

本发明提供数据访问和置换单元。按照本发明的实施例，公开了数据处理单元、操作数据处理单元的方法、计算机程序产品和指令。在按照本发明的一个实施例中，提供了用于计算机处理器的数据处理单元，数据处理单元包括深度寄存器访问机制，它能够对所访问的计算机处理器的寄存器文件中至少一个数据运算对象执行置换运算，置换运算是与(i)用于数据运算对象的寄存器访问和(ii)对运算对象执行数据处理运算串行地执行的。

Description

数据访问和置换单元

本申请是申请人艾色拉公司、申请日2006年4月6日的同名中国专利申请2006800112405的分案申请。

技术领域

本发明涉及用于计算机处理器的数据处理单元、操作该数据处理单元的方法、利用用于计算机处理器的指令组的计算机程序产品、和指令。

背景

数字信号处理应用代码典型地通常把数据向量与系数向量组合在一起来对向量执行算术处理。一个普通的例子是卷积处理，但其它向量处理也共享类似的特性。数据与系数向量的大小是变化的，并且常常是相当长的，所以，由机器严格完成向量功能通常是不实际的。已经发现，代之以由机器直接对较小的向量块进行运算的方法是实际的。

在一个已知的方法中，单指令多数据（SIMD）技术把被包含在指令中的单个运算施加到一个或多个短数据向量的每个元素上。SIMD机器的寄存器被设计成保持这样的短的数据向量；例如，64比特寄存器可以包含四个16比特数据单元，它们形成短向量或较长向量的一部分。SIMD技术通过提高处理器的每个周期的运算，成为提高数字信号处理器性能的有效的方式。

所以，数字信号处理程序典型地使用短向量SIMD机器来执行长向量运算。为了做到这一点，程序结构常常必须把算术运算与向量置换运算相交织。例如，为了从算法中较长的向量收集元素以作为运算对象而提供到机器的短向量数据通道；或为了把来自短向量运算的最终得到的元素分配到长向量结果中的不同的位置，向量置换可能是必须的。

概要

按照本发明的一方面，提供了用于计算机处理器的数据处理单元，该数据处理单元包括寄存器访问装置，它能够响应于数据访问指令对从计算机处理器的寄存器文件中所访问的至少一个数据运算对象执行置换运算，置换运算与用于数据运算对象的寄存器访问和对数据运算对象执行数据处理操作串行地执行。

优选地，数据处理单元能够对单个向量寄存器运算对象执行置换运算。优选地，它还能够对多个向量寄存器运算对象执行组合置换运算。更优选地，对所述多个向量寄存器运算对象的组合置换运算可以与对单个向量寄存器运算对象的置换运算同时发生。在优选实施例中，数据处理单元因此能够对第一和第二运算对象或运算对象组执行不同的置换运算。寄存器访问装置优选地能够根据被发布到计算机处理器的单个程序指令执行与寄存器访问串行的置换运算。在优选实施例中，数据处理单元能够对单个数据处理指令的数据运算对象执行多个接连的运算。

在所公开的实施例中，置换运算在数据处理运算之前执行。然而，本领域技术人员将会看到，按照本发明的数据处理单元可以代之以在数据处理运算执行之后执行置换运算。在某些实施例中，硬件提供第一置换运算，它在执行数据处理运算之前执行，以及提供第二置换运算，它在执行数据处理运算之后执行。

优选地，置换运算的类型是根据数据处理指令的运算码部分从多个置换运算类型中选择的。所执行的数据处理运算可以从一个或多个算术运算、逻辑运算、随后的置换运算、和处理器存储器读出或写入操作中进行选择。

在所公开的实施例中，寄存器访问装置包括寄存器文件读出级和纵横复接器级（这里也称为纵横开关级）。在这种情形下，寄存器访问装置包括一组纵横控制输入，用于确定从多种置换运算的类型中选择的置换运算的类型。多种置换运算的类型可包括滚动置换、分类置换、改组(shuffle)置换、广播(broadcast)置换、选择置换、和另一种类型的置换。置换运算的类型可以根据指令的运算码部分从多种置换运算类型中进行选择。即，在指令中的置换运算码由译码器进行译码，译码器把一组控制输入提供到寄存器访问装置的相关的输入端。

在某些实施例中，执行通道包括SIMD（单指令多数据）电路。

寄存器访问装置典型地能够对第一对源运算对象执行第一种类型的置换运算，和对至少一个第二源运算对象执行第二种类型的置换运算。在优选实施例中，执行单元能够实施单指令多数据执行。例如，第一种类型的置换运算可包括来自包含滚动置换、分类置换、和改组置换的组中的置换，第二种类型的置换运算可包括广播置换，而第一和第二种置换运算的结果都被提供到SMID执行通道。

优选实施例在以下方面找到具体的应用，即需要数据处理单元执行来自一个包含快速傅利叶变换、Viterbi编码、Turbo编码、有限冲击响应滤波器算法或另一种通信算法的组的算法的至少一部分。

虽然不打算作为限制，但公开的实施例的第一和第二种类型的置换运算包括具有一个或两个64比特数据寄存器源变元的运算。例如第一种类型的置换运算允许滚动运算，以便从两个64比特源数值形成单个64比特结果，该64比特结果相应于向左滚动整数个16比特半字段的源数值。在另一个例子中，第一种类型的置换运算允许分类运算，以便从两个64比特源数值形成单个64比特结果，该64比特结果是可被选择作为分类结果的最高位或最低位64比特。第二种类型的置换运算可以允许广播运算，该运算能够在64比特结果中在四个16比特的通路（lane）上重复所选择的16比特的半个字。

按照本发明的另一方面，提供了用于对计算机处理器数据处理单元进行操作的方法，该方法包括响应于数据访问指令对由计算机处理器的寄存器文件所访问的多个数据运算对象中至少一个数据运算对象执行置换运算，置换运算与(i)访问寄存器以得到数据运算对象和(ii)对数据运算对象执行数据处理运算串行地执行。

按照本发明的另一方面，提供了计算机程序产品，它包括程序代码装置，后者包括指令序列，其中该计算机程序产品适合于在计算机上运行，以使得可执行单个数据访问指令，从而使得对于所访问的至少一个数据运算对象，执行由数据访问指令的至少一个部分所确定的那种类型的置换运算，该置换运算与(i)访问寄存器以得到数据运算对象和(ii)对于数据运算对象执行数据处理运算是串行地执行的。

按照本发明的另一方面，提供了一种方法，包括响应于单个指令而执行串行化的寄存器访问、向量置换和数据处理运算的执行。

按照本发明的另一方面，提供了计算机处理器，包括，以串行连接方式的寄存器访问单元、向量置换能力、和至少一个执行通道，该设备还包括译码单元，用来响应单个指令以控制访问至少一个向量运算对象，有选择地置换至少一个向量运算对象，以及执行至少一个另外的运算。

按照本发明的另一方面，提供了指令，其中包括：数据访问运算码部分，它规定一种类型的数据访问；置换运算码部分，它规定一种类型的置换运算；执行运算码部分，它规定另一个运算；以及至少一个数据运算对象源指定。

按照本发明的另一方面，提供了用于计算机的数据处理单元，它包括：寄存器文件；寄存器访问与置换装置，它能够根据数据访问指令访问在所述寄存器文件中的至少一个数据运算对象，所述寄存器访问与置换装置包括置换电路，用来根据所述指令的置换运算码部分而选择地置换所述所访问的数据运算对象；以及数据执行通道，它被安排成与所述寄存器访问与置换装置串联，所述数据执行通道用来根据所述指令的执行运算码部分以便对所述选择地置换的数据运算对象执行运算。

在优选实施例中，所述寄存器访问与置换装置包括被连接在所述寄存器文件与所述执行通道之间的译码器寄存器文件读出（和写入）级。优选地，所述寄存器访问与置换装置包括被连接在所述译码器寄存器文件读出级与所述执行通道之间的至少一个复接器级。典型地，所述寄存器访问与置换装置还包括被连接在所述译码器寄存器文件读出级与所述执行通道之间的列复接器级。更优选地，所述寄存器访问与置换装置还包括被连接在所述译码器寄存器文件读出级与所述执行通道之间的纵横复接器级。在优选实施例中，纵横复接器级被连接在所述列复接器级与所述执行通道之间。

按照本发明的另一方面，置换控制输入被提供到一个或多个所述译码器寄存器文件读出级、所述复接器级、所述列复接器级、和所述纵横复接器级。

按照本发明的另一方面，旁路电路被连接在所述执行通路的输出端与所述寄存器访问与置换装置的输入端之间。

在具体的优选实施例中，数据处理单元包括第一和第二寄存器访问与置换装置。第一寄存器访问与置换装置可被安排成访问第一和第二运算对象和执行从一个或多个滚动、分类和改组中选择的置换。第二寄存器访问与置换装置可被安排成访问至少一个另外的运算对象和执行广播置换。

在以上的实施例中，第一和第二寄存器访问与置换装置每个包括以下的一个或多个级：(i)连接在所述寄存器文件与所述执行通道之间的译码器寄存器文件读出级；以及(ii)连接在所述译码器寄存器文件读出级与所述执行通道之间的至少一个复接器级。优选地，复接器级包括以下的一个或多个级：(i)连接在所述译码器寄存器文件读出级与执行通道之间的列复接器级；以及(ii)连接在所述列复接器级与所述执行通道之间的纵横复接器级。

本发明的另一方面提供数据访问和置换电路，它能够响应单个指令而访问和选择地置换数据运算对象并把所述选择地置换的运算对象提供到SIMD执行通道。

本发明的附加优点和新颖的特性，部分地将在接着的说明中阐述，和部分地对于本领域技术人员在阅读下面的说明和附图后将变得很明白；或通过本发明的实践而学到。

附图简述

为了更好地了解本发明，和为了显示本发明可以如何付诸实践，现在将参考仅仅作为例子的附图，图上：

图1显示包括置换单元的现有技术设备的基本结构；

图2显示按照本发明的实施例成行置换的寄存器访问的基本体系结构；

图3A到3C显示按照本发明的实施例可用于执行可以“成行”执行的、所谓的“滚动”或“滑动窗口”置换的示例性操作；

图4A和4B显示按照本发明的实施例可用于“成行”执行广播置换的示例性操作；

图5到8显示按照本发明的实施例可以“成行”执行的示例性的所谓的“改组”或“交织”的操作；

图9到11显示按照本发明的实施例可以“成行”执行的示例性的所谓的“分类”或“去交织”的操作；

图12A-12C和13显示按照本发明的实施例支持图5A到8的改组操作的子寄存器访问模式子组；

图14显示按照本发明的实施例支持图9A到11的分类操作的子寄存器访问模式和其它类似的模式。

图15显示按照本发明的实施例其中可以使用成行置换的计算机***的结构性框图；

图16显示按照本发明的实施例能够成行置换的处理器数据通道的框图；

图17和18显示按照本发明的实施例用于实施图16的寄存器访问功能的示例性硬件；

图19是显示按照本发明的实施例实现各种类型的置换的图17上可能的复接器控制输入的表；以及

图20显示可以按照本发明的实施例使用的通用指令格式。

详细说明

在按照本发明的实施例中，SIMD处理器通过使用由单个指令驱动的两级数据通道，在寄存器访问期间以算术运算来顺序执行某些类型的向量置换。这种类型的操作在这里被称为“成行（in line）”操作。因此处理器消除了或减小了对于被包括在程序中与SIMD存储器访问、逻辑、和算术指令并列的明显置换指令的需要。相反，每个指令可以规定SIMD操作和要在SIMD操作之前所施加的相关运算对象的置换（如果需要的话）。所以，程序的大小被减小，而设备性能提高。

与按照本发明的实施例中SIMD处理器在寄存器访问期间以算术运算执行成行置换相对比，现有技术的SIMD处理器需要被包括在程序中的与相关的算术运算并列的明显置换指令。现有技术SIMD处理器的基体体系结构与按照本发明的实施例之间的对比可以从图1和2看到。图1显示现有技术SIMD处理器的基本体系结构，其中来自寄存器文件101的数据由互相并行地排列的置换单元102或执行单元103使用。正如可以看到的，由置换单元102置换的数据在它以后可被执行单元103作为运算对象使用之前，必须沿通道104被反馈到寄存器文件。相反，图2显示按照本发明的实施例的体系结构，其中来自寄存器文件201的运算对象被传送通过被置换单元202，然后置换单元202把所置换的运算对象直接馈送到执行单元203。在本发明的实施例中，在把所置换的运算对象提供到执行单元之前，不需要把所置换的运算对象送回到寄存器文件。图1的现有技术处理器的并行体系结构102-103因此由图2的实施例的串行体系结构202-203替代，正如在下面看到的，该串行体系结构可以通过使用图16-18的硬件实施。按照本发明的实施例的串行体系结构具有许多性能优点，特别是对信号处理算法，这种算法使用数据运算对象的经常的置换，以便把机器硬件的短向量宽度与在处理器存储器或寄存器文件中较长的向量宽度匹配。在流水线处理器中，可能有由于置换与SIMD执行的串行化造成的附加滞后的代价，但信号处理程序可被组织成使得这种附加滞后不会抵消本发明的实施例的性能优点。寄存器访问、向量置换和执行（尤其是SIMD执行）的串行化在这里有时被称为“深度寄存器访问”。

在按照本发明的实施例中，成行向量置换可被施加到可以是数据处理指令的指令的一个或多个运算对象。在使用具有两个源运算对象和一个结果运算对象的指令的SIMD设备中，把某些类型的置换加到一个源运算对象而把不同类型的置换加到另一个源运算对象是特别有利的。

按照本发明的实施例，发现有三类顺序置换对数字信号处理是特别有用的：广播、滚动和分类。第四类置换，被称为改组置换，可以经常用作为分类的替代（要对发布的算法或它的数据作某些重新安排），但最终比起分类置换还是不太有利的：因为它需要更灵活的寄存器文件访问能力。无论如何，改组这种类型有时可以在本发明的实施例中找到应用。

在第一类顺序置换中，按照本发明的实施例提供成行的广播置换。这个实施例对于执行诸如有限冲击响应（FIR）滤波器那样的卷积处理是特别有用，它典型地把单个系数单元与长数据向量的每个单元相组合。为了有效地使用机器的短向量（例如，SIMD）寄存器，每个寄存器装入了几个这样的系数单元。所以，广播置换的目的是从短向量寄存器运算对象中提取单个元素，并把它复制到被传送到SIMD执行单元的短向量的所有元素中。

在第二类顺序置换中，按照本发明的实施例提供成行的滚动置换。这个实施例对于执行诸如某些FIR滤波器那样的“滑动窗口”算法是特别有用的。在这样的滤波器中，两个长向量按元素被成对组合；然后一个向量移动一个元素的位置，并重复进行按元素成对的运算；然后，向量再次被移位，并重复进行按元素成对的运算；依此类推。在常规的设备中，当系数的数目很大和要被滤波的数据向量很大时，系数和数据向量必须存放在处理器的外部存储器中，而不是在寄存器中。对于SIMD设备，这样的“滑动窗口”算法通常是指处理器能够按任意向量元素对准（“非对准”访问）从存储器装载短向量，例如，按16比特对准的64比特字。在传统的设备中，这意味着，随着滑动窗口移过短向量的宽度，每个元素必须从外部存储器被装载多次（例如，对于64比特字以16比特对准四次）。因为外部存储器装载数量很大，所以，在功率和存储器带宽方面常规的技术是昂贵的。而且，要设计能够进行非对准访问的存储器***通常是更困难和昂贵的。

作为对比，按照本发明的实施例的滚动置换允许重复的和***的非对准访问外部存储器被少得多的对准的存储器访问所替代。在滚动置换实施例中，短向量运算对象是从寄存器文件中两个相邻短向量的级联中提取的。所以，这种类型的置换运算需要读出两个相邻的寄存器值，然后施加置换，以便提取单个短向量，后者被传送到执行单元。例如，两个64比特寄存器值（每个包含4个元素向量，每个元素16比特）可以一起滚动，以便使用图3A-C所示的变换之一来形成64比特的单个4元素向量。代替重复处理外部存储器，这时处理器访问寄存器文件，它通常有更多的可用带宽，以及每次访问的功耗较低。而且，因为它不需要支持非对准访问，处理器存储器***可以被简化。

在第三类顺序置换中，按照本发明的实施例提供成行的分类和或改组置换。在改组置换中，两个向量的元素被交织；而在分类置换中，偶数和奇数元素被分开（去交织）。这些类型的置换在快速傅利叶变换、Viterbi、和Turbo码算法、以及其它通用算法中找到应用。通常，编程员可以选择安排一种算法以便主要或全部使用分类而不用改组，或反之亦然。

在按照本发明的实施例的成行分类置换中，一个长向量的两个短向量段从两个相邻的寄存器读出，并应用分类运算以便把它们组合成一个短向量运算对象，以用于以后的SIMD算术运算。无论被分类的长向量的有效长度是多少，要被组合的两个短向量段总是可以方便地被安排在相邻的寄存器中。这个特性不会自然地适用于改组，正如通过比较图14与图12A-13而可以看到的。所以，改组通常需要读出两个非相邻的寄存器值（分开的程度取决于长向量的大小），使得分类更优于改组，如前所述。但是，它可以简化编程员的工作，使其能够使用改组和分类的自由混合，这样，访问非相邻的寄存器对的外加复杂性在本发明的某些实施例中可以被证明是正当的。

按照本发明的实施例，把数据寄存器作为源运算对象使用的数据处理指令使用成行置换运算（被称为深度寄存器访问运算），以便对当寄存器被读出时产生的数值执行选择的置换运算。在优选实施例中，专门的汇编语言语义被用来表示由深度寄存器访问执行的置换和表示它使用哪些寄存器。深度寄存器访问有两种形式，对被发送到执行单元的每个数据运算对象具有一种形式；第一种形式被表示为DRA₀访问，以及第二种形式被表示为DRA₁访问。每个数据寄存器源可被看作为由多个通路宽度元素组成的短向量，例如4行，每行16比特，包括一个64比特寄存器源。寄存器源及其组成单元都可被称为“运算对象”，这取决于上下文。在DRA₀访问中，置换运算对于寄存器源的元素的改组和分类、以及多倍的元素（通路）宽度的元素滚动，都是可用的。改组和分类分别是指来自一个或两个寄存器源的通路宽度元素的交织与去交织。滚动是指来自两个寄存器源的级联的通路宽度元素的相邻的寄存器宽度组的选择。在DRA₁访问中，对于把从选择的通路中挑选的元素广播到寄存器运算对象的所有的通路，置换运算是可用的。

表1详细列出按照本发明的实施例的DRA₀运算的例子，它可被用于对第一数据寄存器源变元执行滚动和分类置换。在表1上，用于第一个64比特数值, Value0, 的寄存器通路被标号为0,1,2,3，其中通路0表示Value0的最低位比特0到15，通路1表示比特16到31，通路2表示比特32到47，通路3表示比特48到63；而用于第二个64比特数值Value1的寄存器通路被标号为A,B,C,D，其中通路A表示Value1的最低位比特0到15，通路B表示比特16到31，通路C表示比特32到47，通路D表示比特48到63。所显示的置换组利用寄存器$di和$dj，其中i=0..63以及j=((i+1)%64)。表1的各列显示对于DRA₀运算的汇编语义、意义、通路、和操作。

表1：DRA₀运算

DRA0 汇编语义	意义	行	运算
				$Di:$Dj:ROLL_3H	滚动3行	C,B,A,3	Roll3Half(value0,value1)
$Di:$Dj:ROLL_2H	滚动2行	B,A,3,2	Roll2Half(value0,value1)
				$Di:$Dj:ROLL_1H	滚动1行	A,3,2,1	Roll1Half(value0,value1)
$Di:$Dj:SORT_4MH	分类半数值的最高位字节	D,B,3,1	Sort4MHalf(value0,value1)
				$Di:$Dj:SORT_4LH	分类半数值的最低位字节	C,A,2,0	Sort4LHalf(value0,value1)

图3A到3C显示按照本发明的实施例的表1的置换运算。如图3A到3C所示，表1上的Roll3Half, Roll2Half, 和Roll1Half运算取两个64比特值，和形成相应于源数值（分别）向左滚动三个、两个、或一个16比特字段的单个64比特结果。术语半（或半个字）按惯例是指16比特值。在表1上的Sort4Mhalf和Sort4Lhalf运算把两个64比特值组合成一个64比特结果，从而(分别)产生最高位或最低位64比特结果。表1的分类置换以图9的方式用图形表示。

下面的表2详细列出按照本发明的实施例的DRA₁运算的例子，它可被用于对于第二数据寄存器源变元执行广播置换。在表2上，用于64比特数值value的寄存器通路的标号为0,1,2, 和3，其中通路0表示value的最低位比特0到15，通路1表示比特16到31，通路2表示比特32到47，通路3表示比特48到63。所显示的置换组利用寄存器$di，其中i=0…63。表2的各列显示对DRA₁运算的汇编语义、意义、通路、和操作。

表2：DRA₁运算

DRA1 汇编语义	意义	行	运算
				$Di:BCAST_3H	广播行3	3,3,3,3	BcastHalf(SelectHalf(value,3))
$Di:BCAST_2H	广播行2	2,2,2,2	BcastHalf(SelectHalf(value,2))
				$Di:BCAST_1H	广播行1	1,1,1,1	BcastHalf(SelectHalf(value,1))
$Di:BCAST_0H	广播行0	0,0,0,0	BcastHalf(SelectHalf(value,0))
				$Di:BCAST_1W	广播字1	3,2,3,2	BcastWord(SelectWord(value,1))
$Di:BCAST_0W	广播字0	1,0,1,0	BcastWord(SelectWord(value,0))

图4A和4B显示按照本发明的实施例的表2的置换运算。如图4A所示，在表2上的BCastHalf运算选择四个可能的16比特半字源数值中的一个数值，以及把它复制到结果中的四个16比特通路中。如图4B所示，在表2上的BCastWord运算选择两个可能的字源数值中的一个数值，以及把它复制成横跨结果中的两个32比特通路。

通过扩展表1和2的运算，图5A到11显示可以按照本发明的实施例执行的成行的改组和分类置换的例子。

图5A到8显示对被存储在64比特寄存器的阵列中的16比特元素的向量的改组，它可以按照本发明的实施例“成行”地执行。图5A显示用于对两个向量进行交织的改组，每个向量包含两个16比特元素；图5B和5C显示用于对两个向量进行交织的改组的替换的表示，每个向量包含四个16比特元素；图6A和6B显示用于对两个向量进行交织的改组的替换的表示，每个向量包含八个16比特元素；图7显示用于对两个向量进行交织的改组，每个向量包含十六个16比特元素；以及图8显示用于对两个向量进行交织的改组，每个向量包含三十二个16比特元素。

图9A到11显示对被存储在64比特寄存器的阵列中的16比特元素的向量的分类，它可以按照本发明的实施例“成行”地执行。图9A显示用于对两个向量进行去交织的分类，每个向量包含两个16比特元素；图9B和9C显示用于对两个向量进行去交织的分类的替换的表示，每个向量包含四个16比特元素；图10A和10B显示用于对两个向量进行去交织的分类的替换的表示，每个向量包含八个16比特元素；以及图11显示用于对两个向量进行去交织的分类，每个向量包含十六个16比特元素。

图12A-12C和13显示按照本发明的实施例的支持图5A到8的改组运算的子寄存器访问模式组。图12A显示用于改组具有两个16比特元素的向量的子寄存器访问模式，如图5A所示；图12B显示用于改组具有四个16比特元素的向量的子寄存器访问模式，如图5B和5C所示；图12C显示用于改组具有八个16比特元素的向量的子寄存器访问模式，如图6A和6B所示；以及图13显示用于改组具有十六个16比特元素的向量的子寄存器访问模式，如图7所示。在图12A到13的每个图上，需要访问在每个图的左半部分上表示的两个寄存器中的四个寄存器单元（即，图12A上的单元1218-1221，图12B上的单元1201-1204，图12C上的单元1210-1213，和图13上的单元1314-1317），或需要访问在每个图的右半部分上表示的、两个寄存器中的四个寄存器单元（即，图12A上的单元1222-1225，图12B上的单元1205-1208，图12C上的单元1226-1229，和图13上的单元1330-1333）。另外，在每个图上的箭头1209、1234和1335表示相对于阵列基元的对每个子寄存器访问模式的对准范围。

图14显示按照本发明的实施例的支持图9A到11的分类运算的子寄存器访问模式。对于图9A到11的所有的分类运算，只需要一种模式。只需要访问四个单元1401-1404，或访问四个单元1405-1408。因为源寄存器总是是相邻的，与一个跨越的寄存器对（诸如上面提到的改组所要求的）情形相比，相关性检验是更简单的，寄存器访问也是这样。

图15显示按照本发明的实施例的可以使用成行置换的计算机***的体系结构性框图。取指令单元1502从指令存储器1501得到指令，并把它们传送到指令译码单元1503。指令译码单元1503译码指令的各个分量，包括与该或每个运算对象有关的位置信息，并据此提供控制输出。指令译码单元1503从指令中得到将要供该指令的操作使用的至少一个运算对象的地址；并且该地址被用来1508从寄存器文件1504得到相应的数据。指令译码单元1503还从指令中得到置换操作码，它可被用来1507确定由置换单元1505对于由同一个指令从寄存器文件1504得到的数据所执行的置换运算的性质。指令译码单元1503还从指令中得到一个执行操作码，它可被用来1509确定由SIMD执行单元1506对经由置换单元1505提供的向量运算对象的每个元素所执行的运算的性质。因此，数据访问的类型和位置、在访问的向量元素上置换的特性、和对置换过的向量的元素随后执行的SIMD运算的性质在单个指令中被规定。

图16显示按照本发明的实施例的其中可以使用成行的置换的、相应于图15上的寄存器文件1504、置换单元1505、和执行单元1506的组合的处理器数据通道1610的框图。在本实施例中，使用数据寄存器作为源运算对象的数据处理指令可使用深度寄存器访问设备1646A,B来对在寄存器被读出时产生的数值执行选择的置换运算。

在本例中，图16的实施例的处理器数据通道1610被形成流水线，以使得在由环路包围的每个通道上有至少一组流水线寄存器，该环路经由旁路复接器1647通过深度寄存器访问块1646A和1646B以及通过执行通路1626-1629从执行通路传送输出Z0-Z3。本领域技术人员将会看到，可以使用任何适当的流水线方案。

在图16的实施例的读出单元1632中，三个64比特短向量寄存器数值从数据寄存器文件1638被读出，并由按照指令中的置换操作码实施上述各种成行的置换运算的深度寄存器访问单元1646A和1646B来对其进行置换，以便形成两个64比特向量运算对象1639和1640。这两个被置换的向量运算对象按通路方式被传递到三个SIMD执行通路1626-1629，以用于按照在指令中的执行操作码进一步处理。按通路方式的结果Z0-Z3共同形成单个64比特结果向量，它经由写通道1641被返回而写入到寄存器文件1638，以及可以任选地被直接旁路到深度寄存器访问单元1646A和1646B，以用于立即执行随后的流水线操作。

按照本发明的实施例，将会看到可以对于图16的数据处理单元作出修改。例如，可以使用任何数目的SIMD执行通路1626-1629；这些通路可以对任何宽度的运算对象进行运算；而且置换单元可以对对象子组进行置换运算，而不一定需要置换所有的运算对象。另外，置换不一定必须是所显示的那些，而也可以是它们的组合；或这样的置换的选择和集合；或其它类型的置换。另外，置换运算可以由处在执行行1626-1629下面的单元执行。这样的“后执行”置换单元可以单独地使用或除了在数据执行（诸如借助深度寄存器访问装置1646）之前被执行的、至今描述的“预执行”置换以外被使用。在由“后执行”置换单元置换后，运算对象然后被写回到寄存器文件1638，或经由复接器1647被旁路。此外，用于成行置换单元的控制信息可以从所存储的“配置”数据中部分地或全部地得到，而不是从逐个周期地发布的指令中载送的信息得到。这样的配置信息可以在例如程序控制下被上载到处理器控制寄存器，以及然后可以在多个处理器周期内把静态“伪指令”提供到置换单元，直至新的配置被上载为止，或直至可以超过静态配置信息的特定指令被发布为止。

图17和18显示按照本发明的实施例的用于实施图16的深度寄存器访问功能1626A和1646B和用于读出图16的寄存器1638的示例性硬件。图17显示使用深度寄存器访问以便从数据寄存器文件1638获取示例性64比特向量SRC0的硬件；而图18显示使用深度寄存器访问以便从数据寄存器文件16468获取示例性64比特向量SRC1的硬件。在图17和18中，在1773,1774的Index0和在1875,1876的Index1，每个指向数据寄存器文件1638中的64比特向量。数据寄存器文件1638包含64个向量（在本例中），这样，Index0和Index1的每个包括6比特，其在图17和18上编号为0到5。图17和18的译码器1777和1878是简单的32行输出1行的译码器，而访问64个16比特的字是安排成成对的32行。译码器1777和1878是寄存器文件读出级1779, 1880的一部分，它们后面是列复接器级1781，1882以及运算对象纵横开关级1783，1884，后者分别具有64或32根交叉线。图17的输入端1785提供深度寄存器访问的使能信号，这些访问使用对所访问数据向量的滚动和分类置换；附加的纵横控制输入端1787必须适当地设置，以便按照图19的表确定所使用的深度寄存器访问的类型。按照本发明的实施例，输入Xbar0_ctl3, Xbar0_ctl2, 和Xbar0_ctl1, Xbar0_ct10以及控制输入1785的数值确定深度寄存器访问是否为正常的访问，或深度寄存器访问是否涉及到诸如滚动或分类置换那样的置换。图18的输入端1886为使用对访问的数据向量的广播置换的深度寄存器访问提供使能信号，并为正常的寄存器访问（即，不用置换的访问）提供使能信号。图17和18的输出1788和1889分别是64比特向量SRC0和SRC1的4个通路。这些输出通常被表示为图16上的置换的输出1639和1640，其显示每个四元素向量的一个元素如何按通路方式提供到SIMD电路。

在图17的输入另外地显示一个单元1796，它只是一个5比特加法器，用来执行以32为模的算术运算并在溢出事件时能够返绕（Wrapping）；以及显示一个被连接到列复接器级的控制输入逻辑级1799，该级支持对第一深度寄存器访问单元1646A中可得到的不同类型的置换运算进行选择。在所公开的实施例的功能方面在图17与18之间的这些和其它最小差别是本领域技术人员容易理解的。

按照本发明的实施例，由图17和18的硬件使用来控制要被使用的深度寄存器访问类型的输入的数值（诸如图19的Xbar0输入的数值，或用于控制图17和18的复接器的其它输入），可以由指令中预定位置处的代码值确定。即，在指令分组中预定的比特位置处的指定的比特可被使用来确定在指令中要被使用的深度寄存器访问的类型。因此，例如，图15的实施例的指令译码单元1503可以使用在指令的特定的字段中找到的或与其它指令信息相组合地被编码的置换运算码的值，来控制图17或18的纵横中的复接器选择。指定的比特的数值可被译码，并可能与被存储在处理器中的其它配置信息相组合，以便来确定图19的Xbar0输入的数值，从而确定该指令要使用深度寄存器访问的哪种形式，诸如要施加的分类、滚动、广播、或改组的类型。例如，图20显示可以按照本发明的实施例所使用的通用指令格式，不过将会看到，也可以使用其它的指令格式。指令2001包括字段2002，它包括规定执行操作的类型（例如，装载、存储、SIMD加法、SIMD乘法等）的比特；字段2003，它包括规定要施加的置换的类型（例如，分类、滚动、广播等）的比特；以及字段2004，规定源在寄存器文件中运算对象和结果的位置。

因此可以看到，图16到19的实施例显示在寄存器文件、置换单元、和执行单元之间的串行的、成行连接；这与图2的实施例上所显示的方式是类似的。具体地，参照图16到18，相应于图2的寄存器文件201的图16的数据寄存器文件读出1638，与相应于图2的置换单元202的深度寄存器访问装置1646A和1646B串行地放置；它又与一起相应于图2的执行单元203的SIMD执行行1626-1629串联。本领域技术人员将会看到，虽然以上描述了被认为是最好的模式以及执行本发明的其它适当的模式，但本发明不应当限于在优选实施例的说明中公开的具体的设备配置或方法。本领域技术人员将会看到，本发明具有宽广的应用范围，以及实施例允许在不背离本发明概念下的各种各样的修改。

Claims

1.一种用于计算机的数据处理单元，包括：

寄存器文件；

寄存器访问和置换单元，它能够根据单个数据访问指令而访问在所述寄存器文件中的至少一个数据运算对象，所述寄存器访问和置换单元包括置换电路，用来根据所述单个数据访问指令的置换操作码部分而选择地置换所述访问的数据运算对象；以及

数据执行单元，被安排成与所述寄存器访问和置换单元串联，所述数据执行单元用来根据所述单个数据访问指令的执行操作码部分对所述选择地置换的数据运算对象执行运算。

2.如在权利要求1中的数据处理单元，其中所述寄存器访问和置换单元包括被连接在所述寄存器文件与所述执行单元之间的译码器寄存器文件读出级。

3.如在权利要求2中的数据处理单元，其中所述寄存器访问和置换单元包括被连接在所述译码器寄存器文件读出级与所述执行单元之间的至少一个复接器级。

4.如在权利要求3中的数据处理单元，其中置换控制输入被提供到所述复接器级。

5.如在权利要求2中的数据处理单元，其中所述寄存器访问和置换单元还包括被连接在所述译码器寄存器文件读出级与所述执行单元之间的列复接器级。

6.如在权利要求5中的数据处理单元，其中置换控制输入被提供到所述列复接器级。

7.如在权利要求2中的数据处理单元，其中所述寄存器访问和置换单元包括被连接在所述译码器寄存器文件读出级与所述执行单元之间的纵横复接器级。

8.如在权利要求7中的数据处理单元，其中置换控制输入被提供到所述纵横复接器级。

9.如在权利要求2中的数据处理单元，其中置换控制输入被提供到所述译码器寄存器文件读出级。

10.如在权利要求1中的数据处理单元，包括被连接在所述执行单元的输出端与所述寄存器文件访问和置换单元的输入端之间的旁路电路。

11.如在权利要求1中的数据处理单元，包括第一和第二寄存器访问和置换电路。

12.如在权利要求11中的数据处理单元，其中所述第一寄存器访问和置换电路被安排成访问第一和第二运算对象，以及执行从滚动、分类、改组中的一个或多个中选择的置换。

13.如在权利要求11中的数据处理单元，其中所述第二寄存器访问和置换电路被安排成访问至少一个运算对象，以及执行广播置换。

14.如在权利要求11中的数据处理单元，其中所述第一和第二寄存器访问和置换电路的每个包括以下的一个或多个：

(i) 被连接在所述寄存器文件与所述执行单元之间的译码器寄存器文件读出级；

(ii) 被连接在所述译码器寄存器文件读出级与所述执行单元之间的至少一个复接器级。

15.如在权利要求14中的数据处理单元，其中所述至少一个复接器级包括以下的一个或多个：

(i) 被连接在所述译码器寄存器文件读出级与执行单元之间的列复接器级；以及

(ii) 被连接在所述列复接器级与所述执行单元之间的纵横复接器级。

16.如在权利要求1中的数据处理单元，其中所述执行单元包括单指令多数据电路。

17.一种用于计算机处理器的数据处理单元，包括以串联连接方式的寄存器访问单元、向量置换电路、和至少一个执行单元；该数据处理单元还包括译码单元，用来响应单个指令而控制对至少一个向量运算对象的访问、选择置换至少一个向量运算对象、以及执行至少一个另外的操作。

18.一种操作用于计算机处理器的数据处理单元的方法，该方法包括：

响应单个数据访问指令，由所述计算机处理器的所述数据处理单元对从计算机处理器的寄存器文件访问的至少一个数据运算对象执行置换运算，置换运算是与(i)访问寄存器以得到所述至少一个数据运算对象和(ii)对所述至少一个数据运算对象执行数据处理运算串行地执行的；以及

由所述计算机处理器的所述数据处理单元根据单个数据访问指令执行与访问寄存器串行的置换运算。

19.按照权利要求18的方法，其中置换运算是对单个向量寄存器运算对象执行的。

20.按照权利要求18的方法，其中置换运算是对多个向量寄存器运算对象执行的。

21.按照权利要求18的方法，还包括：

对单个指令的数据运算对象执行多个接连的数据处理运算。

22.按照权利要求18的方法，其中置换运算在执行数据处理运算之前执行。

23.按照权利要求18的方法，其中置换运算在执行数据处理运算之后执行。

24.按照权利要求18的方法，其中第一置换运算在执行数据处理运算之前执行和第二置换运算在执行数据处理运算之后执行。

25.按照权利要求18的方法，还包括：

根据所述指令的操作码部分从多个置换运算类型中选择置换运算的类型。

26.按照权利要求18的方法，还包括从以下的运算中选择执行的数据处理运算：算术运算、逻辑运算、随后的置换运算、和处理器存储器读出或写入操作。

27.按照权利要求18的方法，还包括使用一组置换控制输入以便至少部分地确定从多个置换运算类型中选择的置换运算的类型。

28.按照权利要求27的方法，其中可用的多个置换运算类型包括从以下置换中选择的一个或多个：滚动置换、分类置换、改组置换、广播置换、选择置换、和另外的类型的置换。

29.按照权利要求18的方法，还包括根据数据处理指令的操作码部分来确定一组置换控制输入的数值。

30.按照权利要求18的方法，其中数据处理单元实施单指令多数据执行。

31.按照权利要求18的方法，其中执行置换和数据处理运算包括执行来自一个组中的算法的至少一个部分，该组包括：快速傅利叶变换；Viterbi编码；Turbo编码；有限冲击响应滤波器算法；另一个通信算法。

32.按照权利要求18的方法，其中第一类型的置换运算是对于第一源运算对象对执行的，和第二类型的置换运算是对于第二源运算对象执行的。

33.按照权利要求32的方法，其中执行第一类型的置换运算包括执行来自一个包含滚动置换和分类置换的组的置换。

34.按照权利要求32的方法，其中执行第二类型的置换运算包括执行广播置换。

35.按照权利要求32的方法，其中执行该第一和第二类型的置换运算中的一个或多个包括使用64比特数据寄存器源变元。

36.按照权利要求35的方法，其中执行第一类型的置换运算允许执行滚动运算，以便从两个64比特源数值形成单个64比特结果，该64比特结果相应于源数值滚动了16比特元素的一个整数。

37.按照权利要求35的方法，其中执行第一类型的置换运算允许执行分类运算，以便从两个64比特源数值形成单个64比特结果，该64比特结果可选择为最高位或最低位64比特分类结果。

38.按照权利要求35的方法，其中执行第一类型的置换运算包括执行改组运算，以用于交织两个向量，每个向量包含16比特元素的一个整数。

39.按照权利要求35的方法，其中16比特元素的整数是2的整数幂。

40.按照权利要求35的方法，其中执行第二类型的置换运算允许执行广播运算，该运算能够在64比特结果中在多个16比特通路上重复16比特的半字。

41.一种用于计算机的数据处理单元，包括：

寄存器文件；

寄存器访问和置换单元，它能够根据单个数据访问指令而访问在所述寄存器文件中的至少一个数据运算对象，所述寄存器访问和置换单元包括第一和第二寄存器访问和置换电路，用来根据所述单个数据访问指令的置换操作码部分而选择地置换所述访问的至少一个数据运算对象，所述第一寄存器访问和置换电路被安排成访问第一和第二运算对象以及执行从滚动、分类、改组中的一个或多个中选择的置换，以及所述第二寄存器访问和置换电路被安排成访问至少一个运算对象以及执行广播置换；以及

42.一种操作用于计算机处理器的数据处理单元的方法，该方法包括：

由所述计算机处理器的所述数据处理单元根据单个数据访问指令执行与访问寄存器串行的置换运算，其中第一类型的置换运算是对于第一源运算对象对执行的，和第二类型的置换运算是对于第二源运算对象执行的。