TW470914B

TW470914B - Executing partial-width packed data instructions

Info

Publication number: TW470914B
Application number: TW088105137A
Authority: TW
Inventors: Patrice Roussel; Ticky Thakkar
Original assignee: Intel Corp
Priority date: 1998-03-31
Filing date: 1999-05-03
Publication date: 2002-01-01
Also published as: US6230253B1; GB9907221D0; CN1595390A; CN100367269C; US20020010847A1; DE19914617C2; US20050216706A1; HK1027402A1; CN100385432C; GB2339040A; CN1595389A; CN1244675A; GB2339040C; SG85630A1; US7467286B2; DE19914617A1; GB2339040B; CN1286002C; US6970994B2

Description

470914 A7 B7 五、發明說明（1 執行部份寬度緊縮型資料指令本發明一般而言係關於電腦系統的領域。更明確而士， = —種方法及裝置，用以藉由利用S細㈣的 ,备有效率地執行部份寬度緊縮型資料指令，如無向量緊縮型資料指令。、多媒體應用，如2D/3D緣圖、影像處理、視訊壓縮/解壓鈿、浯骨識別演算法及聲音操控，經常需要於大量的資料項上執行相同的運算（稱爲"資料呼行"）。每一種多媒體應用土式通g使用一種或多種需要許多浮點或整數運算的演算法，如ADD或MULTIPLY (以下以MUL表示）。藉由提供執行後會使處理器在多資料項上平行執行相同運算的巨集 4曰令單才曰令多負料技術，如Pentium®處理器架構及令集所採用者，已對多媒體應用的效能有明顯的改善（Pentium®clara，CAiIntel公司的柱册商標）。經濟部智慧財產局員工消費合作社印製 SIMD技術特別適用於提供緊縮型資料格式的系統。在糸縮型貝料格式中’將暫存器中的位元組依邏輯方式分成許多固定大小的資料元，每一資料元代表個別的不同値。例如，一個64-位元之暫存器可分解成4個16-位元的資料元，每一 16-位元之資料元代表個別不同的立元値。然後緊縮型資料指令可分別平行操控這些緊縮型資料型態中的每一資料元。 -4 本紙張尺度適用中國國家標準（CNS)A4規¥^210 X 297公爱） 470914 A7 B7 五、發明說明（2 ) 經濟部智慧財產局員工消費合作社印製參考圖1 ’所示爲一緊縮型資料指令之舉例。此例中， :緊縮型ADD指令（例如，一 SIMD ADD )將一個緊縮型資料運算元X與另一個緊縮型資料運算元γ相加，結果產生緊縮型資料 Ζ，即 Χ〇+γ〇=ζ〇、Χι+Υι=Ζι、χ2+γ尸^及 f+Y3=Z3。將許多資料元緊縮在一個暫存器或記憶體中且採用平行硬體執行使SIMD架構能夠同時執行多個運算，使得效能顯著地改善。例如，此例中，在前述獲得單一果的時間中，可獲·得4個分別的結果。雖然SIMD架構有很大的優點，仍有些情況只需要傳個別結果給緊縮型資料元的某一_子集合。本發明提供-種執行無向量緊縮型資料指令的方法置。根據本發明之-觀念，一個處理器包含多個暫暫存咨更名單S連結至該多個暫存器，—解碼“ 該暫存器更名單元，而一部份寬度執 ϋ、〜土哭献士 w 丨刀見度執仃早兀連結至此解碼 =子$更名單元提供—架構式暫存器標案以便错存狄縮型資料運算元，每-運算元包含多個資料 == 〜、使其把夠將弟一組及第二組指令解碼，此 ι集指足架構式暫存器構案中的—個或多個。 :組指令中的每_指令指定要在所有資料元件上執= 异’料資料元件儲存於—個或更多指定的 ^ =，第二组指令集中的每一指令僅指定要在資科、。相术5上執行的運算，該等資料元件儲存於— ％〈予的暫存器中。部份寬度執行單元之組態係規劃;= 結回第運相定 I J----一---------裝 (請先閱讀背面之注意事項HI寫本頁> 5-

470914 、發明說明（3 經濟部智慧財產局員工消費合作社印製組或第二組指令集所指定的運算。藉由附圖及詳細説明，本發清楚呈現。發月I其它特性及優點將更能簡要説明本發明以舉例方式説明，但 ih 1不限於所參考的附圖，圖中 /考數子與相似元件互相參照。其中· 圖:説明-緊縮型綱指令將來自第—個資料運算元盘弟二個緊縮型資料.運算元的對應資料元相加。 ’、圖2 A爲一簡化的方塊圖，根攄 — ^很據本發明疋一具體實施例况明一不範的電腦系統。 _ 圖2 β爲一簡化的方塊圖，根 ^ ηπ _ 很艨本發明炙一具體實施例沉月一組示範的邏輯暫存器。圖2C爲一簡化的方塊圖，根據本發明之另一具體實施例說明一組示範的邏輯暫存器。圖3爲一流程圖，根據本發明之一具體實施例説明指之執行。圖4根據本發明各種具體實施例，概念地說明執行部寬度緊縮型資料指令的結果。 —圖5Α根據本發明之一具體實施例，概念地説明用於行全寬度緊縮型資料指令及部份寬度緊縮型資料指人的路。 > ' ' 圖5Β根據本發明之另一具體實施例，概念地説明用執行全寬度緊縮型資料指令及部份寬度緊縮型資料指人電路。曰7 令份執電於的 • n n 1 I n (請先閱讀背面之注意事項Hi：寫本頁) 訂/ _ ;線· 6- 470914 A7 B7 五、發明說明（4 ) 圖5 C根據本發明又另一具體實施例，概念地説明用於執行全寬度緊縮型資料指令及部份寬度緊縮型資料指令的電路。圖6根據使用SIMD之處理器範例，説明一個ADD執行單元及一個MUL執行型單元，其分別能夠以4個個別的ADD 執行單元及4個個別的MUL執行單元的方式運算。圖7A-7B概念地説明以”交錯”方式分別執行的一個全寬度緊縮型資料運算、及一個部份寬度緊縮型資料運算。圖8 A概念地説明處理器内的熏路，其從邏輯暫存器存取全寬度運算元而同時在運算元二半寬度上執行運算。圖8B爲一時序圖，進一步説明圖8A之電路。圖9概念地説明一無次序管道（out-of-order pipeline )之具體實施例，藉由將一個巨集指令（macro instruction )轉換成多個微指令（micro instructions )以''交錯"的方式執行運算元之運算，其中每一微指令處理運算元全寬度之一部份。圖10爲一時序圖，進一步説明圖9之電路。圖1 1爲一方塊圖，根據本發明之一具體實施例，説明可用以完成解碼程序之解碼邏輯。發明之詳細説明經濟部智慧財產局員工消費合作社印製 I n n n n I * I (請先閱讀背面之注意事項寫本頁) i線· 本文説明一種用以執行部份寬度緊縮型資料指令之方法及裝置。此處所謂”全寬度緊縮型資料指令”係指一種在一個或多個資料運算元之所有資料元上運算的緊縮型資料指令（例如SIMD指令）。相反地，所謂”部份寬度資料指令 ’’係廣義地指設計用以僅在一個或多個緊縮型資料運算元本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 470914 A7 B7 五、發明說明（5 ) 之資料元子集合上運算並傳回一緊縮型資料結果（例如，至緊縮型資料暫存器）的緊縮型資料指令。例如，一無向量SIMD指令可能僅需要緊縮型資料運算元最不重要數對間的運算結果。此例中，由於緊縮型資料結果之其餘資料元對無向量SIMD指令無影響，故它們會被忽略（即其餘資料元被忽視（don't cares ))。根據本發明之各種具體實施例，可將執行單元之組態規劃成能夠有效率地調節全寬度緊縮型資料指令（例如，SIMD指-令I及一組部份寬度緊縮型資料指令（例如，無向量SIMD_指令）。在下述詳細説明中，爲作解釋詳述許多特定細節提供對本發明之完全了解。然而，對於熟知此技藝者而言，顯然不須要這些特定細節即可實作本發明。在其它例子中，常見的裝置、結構、介面及程序並未晝出或以方塊圖的形式表示。 ’部份寬度緊縮型資料指令之調整經濟部智慧財產局員工消費合作社印製 -I H ϋ ϋ I ϋ a— n I * I I (請先閱讀背面之注意事項m寫本頁) -丨線- 無向量架構（例如，單一指令單一資料（SISD )架構）在單精度浮點資料、雙精度浮點資料及整數資料上作無向量運算，考量爲該架構所撰寫的軟體數量時，有需要爲程式開發者提供將其軟體接上支援像是SIMD架構之緊縮型資料指令的選項，而不需要重寫其軟體或學習新指令。藉由提供部份寬度緊縮型資料指令，一簡單的解譯可將舊的無向量程式碼轉換成無向量緊縮型資料程式碼。例如，編譯器將能夠很容易地從無向量程式碼產生無向量SIMD指令。然後，由於開發者暸解其程式中可利用SIMD指令加以最 -8- 本紙張尺度適用中國國家標準（CNS)A4規格（210 x 297公釐） 470914 A7 B7 五、發明說明（6 ) 佳化的邵份，他們可以逐漸利用緊縮型資料指令的優點。當然，使用SIMD技術的電腦系統亦可能利用支援犯0指令而維持與舊系統相容。然而，本文所討論之許多最近的

架構改進及其它因素對於開發者在轉移至且在發揮SIMD 的技術上而言，有很大的幫助，即使剛開始只有使用盔向量SIMD指令。另一提供部份寬度緊縮型資料指令之調整，爲許多可利用僅在全寬度運算K子集合上運算而獲致的優點，這些，點包括降低電力消耗、增加速度、清楚的異常模型及容 f加大。如下所述，根據連同部喻寬度緊縮型資料指令所提么、的扎“，可藉由選擇性地關掉那些並非執行電流運轉所需的硬體，以節省電力。經濟部智慧財產局員工消費合作社印製另個不希望強制緊縮型資料指令傳回個別結果給每一資料=的情況，包括在一提供部份寬度硬體的環境中作算數運算。由於成本及/或模子的限制，通常不會完全支援特定的算數運算，如除法。本質上，除法是很長的運算，即使是應用了全寬度硬體（例如，執行單元與資料元間一 =一的對應）。因此，在一個僅支援全寬度緊縮型資料運算而提供部份寬度硬體的環境中，還會更長。如以下將更詳細义說明所述，部份寬度緊縮型資料運算，例如部份寬度緊縮型資料除法運算，可選擇性地允許其運算元之某部份繞過除法硬體。以此種方式，則僅在緊縮型資料運中t資料元子集合上作運算不會招致效能上的懲罰。此外與外來資料元有關所引起的例外可能造成開發者 -9- 470914

經濟部智慧財產局員工消費合作社印製五、發明說明（7 ) 混淆及/或SISD與SIMD機器之間不相容。因此，最好僅向那些指令所要運算的資料元報告有異常發生。藉由將例外條件之觸發限制在關於要運算的資料元所引起者，部分寬度緊縮型資料指令之支援使得一可預測的異常模型可以獲致’否則其中由外來資料元產生的例外有可能造成混滑或 SISD與SIMD機器之間不相容。最後，在目標緊縮型資料運算元之一部份不會因爲執行 / 緊縮型資料運算而，毁損的具體實_施例—中，部份寬度緊縮型資料指令有效地提供額外暫存空間以儲存資料。例如，若要在^縮型資料的較低位元邵份來行運算，則資料可儲存在較南位元部份，反之亦同。二個電腦系統實例圖2 A爲一簡化之方塊圖，説明根據本發明具體實施例之電腦系統實例。在此處所述之具體實施例中，電腦系統 200包含一個處理器205、一個儲存裝置21〇及一匯流排 215。處理器2〇5以匯流排215連接至儲存裝置。此外，還有些使用者輸入/輸出裝置，例如一個鍵盤220及—個顯示器225，亦皆連接至匯流排215。電腦系統2〇〇亦可經由' 匯流排215連接至網路230。處理器205代表任何架構型式之中央處理單元，例如CISC、RISC、VLIW或混合架構二此外，處理器205可應用於一個或多個晶片上·。儲存裝置 210代表一個或多個儲存資料的機器。例如，儲存裝罾 210可能包括唯讀記憶體、隨機存取記憶體、磁碟儲存媒體、光學儲存媒體、快閃（flash)記憶體裝置及/或其它機 -10- ^紙張尺度適用中國國家標準（CNS)A4規格（21Q x 297公爱）--- ---”---1·--------裝------》1 訂； (請先閱讀背面之注意事項寫本頁) .線· 470914 A7 B7 五、發明說明（8 ) 器可讀的媒體。匯流排21 5代表一種或多種匯流排（例如， AGP、PCI、ISA、X-Bus、EISA、VESA 等）及橋接器（亦稱爲匯流排控制器）。雖然此具體實施例以單顆處理器之電腦系統説明，但應了解本發明可應用於多處理器之電腦系統。此外，雖然本具體實施例以3 2位元及6 4位元相關的電腦系統説明，但本發明並不限於此種電腦系統。圖2 A附帶説明處理器205包含一指令集單元260。當然，處理器205包含額外電路；-然而、，此種電路對於了解本發明並非必要。指令集單元2_60包含用以解碼或執行一或多組指令集的硬體及/或勃體-。在所述之具體實施例中，指令集單元260包含一個解碼/執行單元275。解碼單元將處理器205所收到的指令解碼成一個或多個微指令。執行單元回應從解碼單元收到的指令執行適當的運算。解碼單元可利用許多不同的機制（例如，查詢表、硬體實作’、PLA等）加以實作。經濟部智慧財產局員工消費合作社印製 —*T n n I n I * t (請先閱讀背面之注意事項寫本頁) 線· 本例所示之解碼/執行單元275包含一個指令集280，指令集280同時包括全寬度緊縮型資料指令及部份寬度緊縮型資料指令。此等緊縮型資料指令在執行時可能致使處理器2 0 5執行全部/部份寬度緊縮型浮點運算及/或全部/部份寬度緊縮型整數運算。除緊縮型資料指令以外，指令集 280包含現有微處理器中所具有的其它指令。在本例之一具體實施例中，處理器205支援相容於Intel 32位元架構 (IA-32)及/或Intel 64位元架構（IA-64)之指令集。記憶體單元285亦包含於指令集單元260。記憶體單元 -11 - 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 470914 A7 經濟部智慧財產局員工消費合作社印製五、發明說明（9 ) 285可包括一組或多組架構暫存器（亦稱爲邏輯暫存器）， ^理詻205利用該等暫存器儲存資訊，包括浮點資料及緊 & $ '序點資料。此外，尚可包含其它邏輯暫存器以儲存整 ⑯只料*縮型整數資料及各種控制資料，如堆疊頂部指払或類似資料。本文以架構暫存器及邏輯暫存器等名詞表 ^種類型的概念，其中指令指定一個含有單一運算元之儲存區。因此，邏輯暫存器可用在一個使用任何數目之所熱知技術的硬體中，包括專屬〜實體暫存器、一個或多㈣使用暫存备更名機制（將於下文詳述）的動態配置實體暫存，等。總之，邏輯暫存器代表緊龙型資料指令所能定址最小儲存單元。在所述（具體實施例中，儲存裝置21〇中存有電腦系 200執仃所用之作業系統23 5及緊縮型資料常式“ο。緊土貝料系式240爲-循序指令，可能包含一個或多個緊 •^貝料扣令，如播向量SIMD指令或simd指令。如以下一部詳述，有些情況，包括速度、電力消.耗及例外處理需要僅在-個緊縮型資料運算元或_對緊縮型資料運算中的資料元子集合上執行運算（或爲其傳回個別結果）。此，處理器205最好能夠分辨全寬度緊緒型資料指令及份寬度緊縮型資料指令並適當地執行之。圖2B爲-簡化方塊圖，根據本發明之— 明邏輯暫存器之實例。在太你丨士 J κ 在本例中，記憶體285包含多個向量浮點暫存器291 ( —盔向吾嶄六w ”、、穴里暫存器檔）及多個緊縮型浮點暫存器292 (—緊縮型資料暫存 > 土斤 %孖姦檔）。捭向量浮點暫存眾個的統縮縮進元因部説無 n I n n n tn If I I (請先閱讀背面之注意事項HI寫本頁) 訂；丨線· 12 表紙張尺度_巾關家鮮(c兩ΰΓ規格(210τ^^ 470914 五、發明說明（1〇

=91 (例如暫存器R。·叫可在執料點指令時作爲一堆A 參考用暫存器樓以便也現有良且炊；現有馬intei架構所窝之軟體相容。 ;二，二另:具體實施例中，暫存器291可视爲在所述之具體實施例中，每—緊縮型浮點暫存器 '!如XMMG_XMM7)被用作單—128位元之邏輯暫存器。炊可使用較寬或較有的暫存器以便符合使用較;、或較少資料元或較大或較小資料元之實作例。此外， =多或較少之緊繪型浮點暫存.器292。與無向量浮點；，备291相似，當緊縮型浮點指令執行時，緊縮型浮存器292可用作堆疊參考用暫存_或平坦暫存器檔。經濟部智慧財產局員工消費合作社印制农資爲-簡化方塊圖’根據本發明之另一具體實施例况明邏輯暫存态（實例。在本例中’記憶體單元加包厶多個無向量浮點暫存器291 (_無向量暫存器檔）及多個^ 縮型浮點暫存器292 (-緊縮型資料暫存器槽）。炊而，在所述之具體實施例中，每一緊縮型浮點暫存器（例如 XMMq-XMM7)被用作相對應之一對高2 9 3及低之暫存器 294。如下文將詳細討論者，爲指令解碼的目的，最好爲緊縮型浮點暫存器將邏輯暫存器之位址空間組織起來使得該對高及^低暫存器相差一個單一位元。例如，χΜΜ。-ΧΜΜ7之咼及低位元部份可利用MSb加以區分。最好是，每一緊縮型浮點暫存器291之寬度足以容納4個3 2位元的單精度浮點資料元。然而，如上所述，可使用較寬或較窄之暫存器以便符合使用較多或較少資料元或較大或較小料元之實作例。此外，雖然本例中每一邏輯緊縮型浮點 13- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 470914 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明說明（11 ) 存器292包含相對應之一對6 4位元暫存器，但在另一具體實施例中，每一緊縮型浮點暫存器可包含任何數目之暫存器。指令執行概觀在説明可用以實作本發明具體實施例之電腦系統之後，現在將説明指令之執行。圖3之流程圖説明根據本發明具體實施例之指令執行。於步驟310，處理器205收到一假指令。於步驟32Ό，視指令型式、部份寬度緊縮型資料指_令（例如，無向量SIMD指令）或全寬度緊縮型資料指令（例-如，SIMD指令）而定，程序以步驟330或步驟340繼續。通常，在解碼單元中，指令之型式係根據包含在指令中的資訊決定。例如，資訊可包含在附加於opcode之前置碼或後繼碼或以直接値提供以表示相關的運算是否會在緊縮型資料運算元之資料元的全部或子集合上執行。以此方式，相同的opcode可用於全寬度緊縮型資料運算，亦可用於部份寬度緊縮型資料運算。或者，一組opcode可用於部份寬度緊縮型資料運算而另一組opcode可用於全寬度緊縮型資料運算。總之，若指令是傳統的全寬度緊縮型資料指令，則在步驟330，一緊縮型資料之結果係藉由執行運算元中每一資料元上的指令所指定的運算以決定之。然而，-若指令是部份寬度緊縮型資料指令，則在步驟340，結果的第一部份係藉由執行資料元子集合上的指令所指定的運算加以決定而結果的其餘部份被設爲一個或更多的預定値。在某一具 -14- (請先閱讀背面之注意1 事項寫本頁) 裝一線· 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 470914 A7 B7 五、發明說明（12 二:施例中，該預定値是其中—個運算元中對應之資料元牵二3F即’貝料兀可從其中_個運算元的資料元"傳送" ^縮型資料結果中的對應資料元。在另—具體實施例 ^結果《其餘部份中的資科元全被清除（設爲。將資中-個運算元傳送至結果的執行邏輯實例及清除〜果中資料元的邏輯實例如下所述。 =4概念地説明根據本發明各種具體實施例執行部份寬指令的結果啊中，執行單元於兩個邏輯存㈣〇及的資料元上執行運算。執行單元44〇包含電路及邏輯’用以執行指令听指定的運算。此外，執訂 =:40可包含選擇電路，使執行單元44〇能夠以部份寬度糸縮型資料模式或全寬度緊縮型資料模式運算。例二，執仃早兀可包含用以將資料元從邏輯來源暫存器〇、420其中之_傳給邏輯目標暫存器43〇的傳送電路，線 ==邏輯目標暫存器43。之一個或多個資科元的清除毛“寺。料應用其它各種技術影響運算的結果 ^將運异的輸入之-強逅設爲一預定値’例如會造成運算執仃其怪等函數的値或會傳送算數運算而

的値（例如，安靜_非數字（細侧+number，QN^M 在所示實例中’僅第一對資料元(χ。及γ〇)之運儲存於邏輯目標暫存器伽。假設執行單元彻包。白及重則邏輯目標暫存器伽的其餘資料元會被設爲來來源暫存器410之相對資料元的値（例如&、χ Χι)。雖然邏輯目標暫存器43〇以分開的方式表示，3但很1 2 1 _ -15- 2 G氏張尺度適用^ii?T?NS)A4規格⑽X 297公i 經濟部智慧財產局員工消費合作社印製 470914 A7 " "" ^ -------—7 —____ 五、發明說明（13 ) 玷是，L同時可作爲邏輯來源暫存器41〇、42〇之 -因此，應了解在此情況下將邏輯目標暫存器430的資一又爲來自邏輯來源暫存器410、420之一可能等於什 =也/又作。例如，在邏輯來源暫存器4ι〇既是邏輯來源又是目標暫存器的情況下，各種具體實施例可單純地不要接觸要被傳送的一個或多個資料元。或者，執行單元440可包含清除邏輯。因此，資料元結，不必要的値會故清除，而不是從其中一個邏輯來源暫存，傳送至邏輯目標暫存器43〇。再強調一次，本例中，僅第對貝料元（χ〇及Y〇)之運算結-果z〇儲存於邏輯目標暫存器430。邏輯目標暫存器43〇之其餘資料元皆被"清除，, (例如，設爲"〇”，或視情況設爲任何其它預定値）。金^寬度硬體圖5 A-5C分別概念地説明執行單元54〇、56〇及58〇，它們暨可執行全寬度緊縮型資料亦能執行部份寬度緊縮型資料指令。包含於於圖5A及5C之執行單元中的選擇邏輯代表示範的傳送邏輯，而圖5 B之選擇邏輯爲典型可使用的清除邏輯。在所述之具體實施例中，每一執行單元54〇、 560及580包含適當的邏輯、電路及/或韌體以便同時執行運算57〇、571和572於運算元（X及γ)之全寬度上。現在請參考圖5 A，執行單元5 4 0包含選擇邏輯（例如，多功器（MUXes) 555-55?)用以在運算570所產生的値與來自其中一個運算元的對應資料元之間作選擇。可，例如利用指出目前將要執行的運算是全寬度緊縮型資料運算或是 .It — 丨卜 — — — — — — I- --- (請先閱讀背面之注意事項m'寫本頁) ΤΓ丨訂7 · 線- -16-

470914 A7 B7 五、發明說明（14 ) (請先閱讀背面之注意事項寫本頁) 部分寬度緊縮型資料運算的訊號，對MUXes 555-557加以控制。在另一可行的具體實施例中，可藉由加入額外的 MUX給資料元〇及/或獨立控制每一 MUX而更有彈性。有各種可能的方法可提供MUX控制。根據一具體實施例，此種控制可從指令本身產生或導出或以直接値提供。例如，可使用一與指令有關的4位元直接値使MUXes 555-557能夠被軟體直接控制。與直接値之一對應的MUXes會用於選擇運算結果、，而與零對應者t用於選擇傳送資料。當然，以較多或較少位元表示直_接値會使各種應用達到較高或較低的解析度。 - 現在請參考圖5 B，執行單元540包括選擇邏輯（例如， MUXes 565-567)用以在運算571產生的値與一預定値（例如0)之間作選擇。同上，MUXes 565-567可在正常控制下或獨立控制。經濟部智慧財產局員工消費合作社印製 ’圖5 C之傳送邏輯（例如MUXes 575_576 )在運算元之一的資料元與一恆等函數値590之間作選擇。通常恆等函數値 590之選擇係使得，在恆等函數値590及資料元之間執行運算572的結果是資料元的値。例如，若運算572爲乘法運算，則恆等函數値590會是1。同理，若運算爲加法運算，則悝等函數値590會是0。以此方式，可藉由使對應的MUX 575-577輸出恆等函數値590，選擇性-地將資料元的値傳送至邏輯目標暫存器430。在前述之具體實施例中，電路係以使部分寬度運算在最不重要資料元部分執行的方式燒死。應了解該運算亦可在 -17- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 470914 A7 B7 五、發明說明（15 ) 與所述不同的資料元部分執行。此外，如前所述，可利用將所有運算與MUX或其類似者相連而非僅與圖5A-5C所示運算的子集合相連，將所要運算的資料元作成能夠以軟體作組態規劃的形式。此外，雖然本例所述之傳送及清除邏輯爲兩種選項，用於處理與被忽略之運算對應的資料元結果，另一具體實施例可使用其它技術。例如，QNaN可爲一結果會被忽略之運算的其中一個運算元的輸入。以此方式，與1985年3甩2 1日出版之压^私std_ 754-198.5，IEEE 754標準符合的算數運算將傳播一 NaN至結果而不會觸發算數例外。雖然在運算元之全寬可平行處理以前，前述之具體實施例並未達到明顯的速度增加，但應了解可藉由關掉那些結果會被忽略的運算以減少電力消耗。因此，可明顯地節省電力。此外，藉助使用QNaN及/或恆等函數値，可藉由避免例外被不是部分寬度緊縮型資料運算之一部份的資料元所觸發而維持一可預測的異常模型。因此，獲得的例外限制在部分寬度緊縮型資料運算元所要運算的相關資料元引起的例外。經濟部智慧財產局員工消費合作社印製圖6所示爲一目前處理器，其使用可用以執行全寬度緊縮型指令算數邏輯單元(ALU)。圖6之卿包含在運；元全寬（即所彳資料元）上執行運算户斤需要的電路。圖明則可包含一個或多個不同型式的執行單元。此例中，兩種不同型式的執行單元’分別用以執行不同型式的運异（例如，某些ALU使用個別單元執行伽及祖 -18 經濟部智慧財產局員工消費合作社印製 470914 A7 __ B7 五、發明說明（16 ) 運算）。ADD執行單元及MUL執行單元分別能以4個個別的ADD執行單元及4個個別的MUL執行單元的方式運算。或者，ALU單元可包含一個或多個壘乘（Muhiply Accumulate，MAC)單元，每一單元能夠執行多種型式的運算。雖然下列例子假設使用ADD和MUL執行單元及浮點運算’但應了解亦可使用其它執行單元，例如mac及/ 或整數運算。此外，最好採用部分寬度之應用例（例如，一個不含執行單元與資料元間二對二對應之應用例）及附加邏輯以協調如下所述執行單元之再利用。部分寬度硬體及"交錯埶杆” - 圖7A-7B分別概念地説明要以，，交錯”方式執行的全寬度緊縮型資料運算及部分寬度緊縮型資料運算。在此具體實施例的情況下，"交錯執行"係指，將指令之每一運算元分解成個別區段並使用相同硬體循序處理每一區段的程序。如圖7A-7B所示，兩種情況中，緊縮型資料運算元皆被分解成一個’’南階區段’’（資料元3及2 )及一個"低階區段"（資料tl 1及0 )。在圖7 A之例子中，低階區段係在高階區段延遲時處理。之後，處理高階區段且得到全寬度結果。在圖7 B之例子中，低階區段被處理，而高階區段處理與否則視實際作法而定。例如，若對應的結果會被設爲零’則高階區段可能不需要處理。此外，應了-解，若高階資料區段未被處理，則可同時於高階及低階資料區段兩者上作運算。同理，在一全寬度應用例中（例如，一個含執行單元與資料元間一對一對應之應用例），高階及低階資 -19- 本紙張尺度適用中國國家標準（CNS)A4規格（210 x 297公釐） -------^---------裝·-- (請先閱讀背面之注意事項me寫本頁) 訂/ --線· 470914 A7 B7 發明說明（17 經濟部智慧財產局員工消費合作社印製料區段可同時或以如圖7A的方式處理。此外’雖然以下之且轉每彳丨、昍、 . ，、丘只！l以僅具有ADD及MUL·執行單兀說明t，但亦可其食刑々士此丁平再匕型式〈執行單元，如MAC。有许多万法可達到指令之交 r > pl ^ ^ ^ /sr 人釦執行，以下將説明兩個示施例以說明本發明之此觀念。特別是，所述兩種示範具體實施例皆收到_如n 自收到相同的巨集指令，此指令指含有128位元運算元的邏輯暫存器。運ΐ第… 體實施例中-，每-指明含有⑽位暫存器的巨集指令.造成運算元之全寬從實m 秦存器被存取。從暫存11存取料寬之暫存器以後，運算元被分解錢冑以階⑽Ηπ，使驗似彡工相同的硬體循序執行。所得到的半寬度結果被集合並同寫入單一邏輯暫存器中。相反地，在第二個示範的具體實施例中，每-指明含有 128位元運算元之暫在哭沾括口々巨木扣令至少被分解成兩個微指令，每一微指令僅運篡於搔嘗—、丄今 ' 逑异於運异半寬度上。此種型式之分解在SIMD架構中县死处aa m . ^ 再甲疋可旎的，因爲每一運算元相互獨立（無關）。雖然第二具體實施例之作法能夠以任何行微指令(爲-依序或無序之執行模型），但微指令會分別造成巨集指令所指明的運算獨立地或個別地於運算元之低或高階區段上執行。此外，每一微指令會造成_丰的結運算元被寫入巨集指令所指明的單一目標邏輯暫存器。雖然所述具體實施例中，128位元運算元被分解成兩區段，其它具體實施例可使用較大或較小之運算元且明元體以時果個 /或

--L---L---------裝--- (請先閱讀背面之注意事項H寫本頁) 訂；· · --線· 470914 A7 B7 五、發明說明（18 ) 孩等運算凡分解成兩個區段以上。此外，雖然此二具體實施例係以交錯執行加以說明，其它具體實施例可適用其它技術。 ~第一個彔節且體實施例圖8 A根據第一個具體實施例，概念地説明一處理器中的電路，它從邏輯暫存器存取運算元全寬但一次僅於運算元半寬度上執行運算。此具體實施例假設處理器引擎每一時脈週期能夠處理、一個指令。舉^列說g月，假設執行下列指令序列：ADD X，γ; MUL A，B。於時間T，128位元之X及 128位元之Y經由埠i及2從其個別之實體暫存器被擷取出來。X及Y之低階資料元，即較低的6 4個位元，皆被傳入多工器802及804中然後至執行單元處理。高階資料區段’ X及Y的64個較高位元被保留在延遲元mi及M2中。於時間T+1，X及Y之高階資料區段從延遲元M1 被

讀出並傳入多工器8〇2及8〇4，然後至執行單元處理。通常’延遲元件Μ 1及Μ 2中，儲存高階資料區段的延遲機構允許Ν位元（此例Ν = 64 )硬體處理2 Ν位元的資料。然後得自執行單元的低階結果會保留於延遲元M3中直到高階結果已就緒。兩種程序之結果皆經由埠3寫回暫存器樓 800。請回想部分寬度緊縮型資料運算的情況，低或高階結果的一個或多個資料元可強制設爲預定値（例如，〇、X 或Υ其中之一的資料元的値，等），而不是ADD或MUL運算的結果。繼續討論本例，於時間T+1，MUL指令亦已開始。因 -21 - 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） (請先閱讀背面之注意事項^?^寫本頁) 裝經濟部智慧財產局員工消費合作社印製 470914 A7 B7 五、發明說明（19 ) (請先閱讀背面之注意事項寫本頁) 此，於時間T+1，每一 A與B之128位元可能經由埠1及2各自從其暫存器被擷取出來。A及B之低階資料區段，即較低的6 4個位元，皆可傳入多工器806及808。在X及Y的高階位元從延遲元Ml及M2移出並傳入多工器806及808之後，A及B之高階位元可保存於延遲元Ml及M2中。兩種處理步驟皆經由埠3寫回暫存器檔800。因此，根據本發明之具體實施例，僅提供含一半硬體的執行單元（例如，兩個單精度ADD執i于單元及兩個單精度 MUL執行單元），而不是目前處理器中同時處理運算元全寬度所需之執行單元。此具體實施例利用統計分析，説明多媒體應用使用大約百分之五十之ADD指令及百分之五十之MUL指令。根據這些統計數字，此具體實施例假設多媒體指令通常遵循下列方式：ADD，MUL，ADD， MUL等。藉由以前述方式使用ADD及MUL執行單元，本發明可對執行單元作最佳的利用，因此能夠有相當於目前處理器的速度，但成本更低。經濟部智慧財產局員工消費合作社印製圖8B之時序圖進一步説明圖8A之電路。更特定地，如圖8 B所示，當指令·· ADD X，Y”於時間T發出，兩個ADD 執行單元首先會在低階資料區段或圖1中兩個較低的緊縮型資料元，即X〇Y〇及XiYi，上執行ADD。於時間T+1，相同的執行單元在取自運算元的其餘兩個資料元上執行 ADD運算，且加上高階資料元之後續兩個資料元，即 X2Y2和X3Y3。雖然前述具體實施例以ADD及MUL運算使用兩個執行單元加以説明，但其它具體實施例可能使用任 -22- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 470914 A7 B7 經濟部智慧財產局員工消費合作社印制衣五、發明說明（20 ) 何數目之執行單元且/或以交錯方式執行任何數目的不同運算。根據本具體實施例，可使用64位元硬體處理128位元資料。一 128位元暫存器可分解爲4個3 2位元的單元，每一單元代表個別的3 2位元値。於時間T，兩個ADD執行單元首先執行ADD於兩個低位元値上，接著於時間T+1時執行 ADD於高階的3 2位元値上。在MUL運算的情況，MUL執行單元以相同的方式運算。此種以可用的6 4位元硬體處理128位元資料的能力使硬體製造商獲得成本明顯降低的利益。 — 如前述，根據本發明，ADD及MUL執行單元係用以在後續時脈週期再執行令一個ADD或MUL運算。當然，在部分寬度緊縮型資料指令的情況，會再使用執行單元但運算不必再次執行，因爲供給執行單元的電力可選擇性地關掉。總之，如前述，爲使此''再使用”或”交錯執行”能有效地執行，此具體實施例利用多媒體應用之統計行爲。若第一個ADD指令之後跟隨著第二個ADD指令，則可利用排程單元延遲第二ADD指令使ADD執行單元能夠完成第一個ADD指令，或更特定地，完成第一個指令的高階資料區段。然後可開始執行第二個ADD指令。或者，在一無序處理器中，排程單元可決定指令流再啦下的MUL 指令可無序地執行。若是如此，則排程單元可通知MUL 執行單元開始處理MUL指令。若時間T+1時無有效的MUL 指令可處理，則排程器不會在第一個ADD指令之後發出 -23- (請先閱讀背面之注意事項寫本頁) 裝 . 線· 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 470914 A7 經濟部智慧財產局員工消費合作社印製 L、發明說明（21 ) 指令’因此使細執行單元在㈣第：個趣指令之前有足夠時間完成第一個add指令。本發明尚有另一具體實施例，藉由在半時脈週期於相同的執行單元上執行指令，而非全時脈週期，使背 ADD或隱指令能夠發出。於半時脈週期執行指令有效地"加倍推動··硬體，即使硬體變成兩倍快。以此方式，每一時脈週期期間’ ADD及MUL執行單元皆可用以處理新的指令。加倍报動的硬體使硬遺單元的效率是單—推動之硬體的兩倍，單一推動之硬體僅在全時脈週期上執行。然而加倍推動之硬體需要更大量妁硬體以便有效地在半脈週期上處理指令。、應了解上述指引及後附之申請專利範圍能夠涵蓋本發明 t修改及變化而不偏離本發明之精神及範圍。例如，雖然以上僅説明2個執行單元，但可提供任何數目的邏輯單元0 交錯執行"的第二個示範具體實施例根據本發明之另一具體實施例，運算元全寬之交錯執行係藉由將一全寬度巨集指令轉換成至少兩個微指令而丁成，每一微指令僅於運算元半寬上運算。如以下將進— 詳述者，當巨集指令指明一部份寬度緊縮型資料運算，利用除去不需用以決定部分寬度結果的微指令達到較佳效能。以此方式，可減少處理器資源之限制且處理器不被典關緊要的微指令佔用。雖然以下所述係根據特定的存器更名法44寫’但應了解，亦可使用其它符合本發明達步可的必之 I L---K--------裝--- (請先閱讀背面之注意事項寫本頁) 訂一 --線-

-24- 本紙張尺度適財關家鮮（CNS)A4—祕（2K) xliTTF 470914 A7 ------ --------------- 五、發明說明（22 ) 暫存器更名機制。下述之暫存器更名法假設使用暫存器別名表、紀錄缓衝區及間置緩衝區，如美國專利號碼 5,446,912所詳述。亦可應用其它可用之暫存器更名法，如美國專利號碼5，197，132所述者。圖9概念地説明—管線之具體實施例，該管線以"交錯" 万式在運算元上執行運算，係利用將—巨集指令轉換成多個微指令，每-微指令處理運算元全寬的—部份。請注意，管線之其它各階段，例如prefetch階段，並未畫出以免不必要地模糊本發明。如圖示，在管線的解碼階段，收到-全寬巨集指令，指明邏輯來.源暫存器，每—暫存器儲存—全寬運算元（例如，128位元）^舉例説明，所述運算元爲128位元緊縮型浮點資料運算元。此例中，處理器支援用以儲存緊縮型浮點資料的γ邏輯暫存器。巨集指令被轉換成微指令，即—"高階運算"及一，，低階運算"，每一微指令造成巨集指令之運算在運算元的半寬度(例如，“ 位元）上執行。 …：後4兩個半寬度微指令進人管線的暫存器更名階段。暫存杏更名階段包含各種暫存器對應關係及重整暫存器。母一微指令之邏輯來源係指向暫存器對應表（例如，RAT) 中特定⑽項的指標。然後暫存器對應表中的記綠項指向 ROB或閒置暫存器中物理來源位置的位置。根據一具體實她例’馬配合上述之半寬度高階及低階運算，提供一用於緊縮型浮點資料、具有Y*2記錄項的RAT。因此，例如，建八有1 6 ”己錄項的RAT，每一記綠項定以"高"或，，低 it·---r,------!裳·！ (請先閱讀背面之注咅？事項寫本頁) 訂一 --線· 經濟部智慧財產局員工消費合作社印製 -25- 470914 A7 五、發明說明（23 ) 位址’而非具有8個邏輯暫存器的rat。每一記錄項標 I I K---!_!!11>1--I (請先閱讀背面之注意事項In'寫本頁) 不一個對應至128位元邏輯暫存器之高位元或低位元部分的6 4位元來源。因此每一鬲階或低階微指令在對應於個別運算元之暫存器的對應表中有關聯的記錄項。接著，微指令進入排程階段（對於無次序處理器而言）或執行階段（對於依序處理器而呂）。母一微指令擷取並個別處理丨28位元運算元之6 4 位70區段。其中二個運算（例如』氐階運算）首先由6 4位元硬體單兀執行。然後同一硬體單元會執行高階運算。應了解零或更多指令可在低階及高階運算之間執行。 ί線. 雖然前述具體實施例説明被分解成兩個微指令的巨集指令，但其它具體實施例可將巨集指令分解成更多的微指令。雖然圖9所示，緊縮型浮點資料傳回至具有丫”個㈠位兀暫存器的閒置暫存器檔，每一暫存器標示爲低或高，但其它具體實施例可使用具有¥個128位元暫存器之閒置暫存益檔。此外，雖然所述之具體實施例有一個具備重整緩衝區及間置暫存器檔的暫存器更名機制，但其它具體實施例可使用任何種類的暫存器更名機制。例如，美國專利經濟部智慧財產局員工消費合作社印製號碼5J97J32之暫存器更名機制使用後用歷史記錄及備份對應。圖10之時序圖進一步說明圖9所示之具體實-例。於時間 τ，一巨集指令"ADD X，γ"進入圖9所示管線之解碼階段。舉例説明，此處之巨集指令爲一 128位元之指令。此 128位το之巨集指令被轉換成2個64位元的微指令，即高 -26-

:ί γΗ"與低階運算"ADD k、"。然後每 q u的_個區段，此資料包含兩例如，於時間T，低階運苴 , ^ Μ運异可由-個64位元的執行單元執元埶：：f —不同的時間(例如，時間位執仃早凡執行高階運算。現有現有的邏輯暫存器對瘫乏林^ 版使其在緊缩型浮點/卜，加人—新的對應，以便處理現在請參考圖U，此圖説明I據本發明之具體實施例 :使㈣解碼邏輯。簡言之，在所述具體實施例中：數個解碼备111G、112G及113G各別擬取—巨集指令換成-微指令。當然，並非每—巨集指令之執行皆需= 個微指令。因此，通常僅有微指令的子集合等餘階段處理。 ' 經濟部智慧財產局員工消費合作社印製如則所述，可利用兩個半寬度的微指令（例如，一高階運算及一低階運算）實作緊縮型資料運算。本具體實施例有一特點爲，兩個微指令皆可由同一個解碼器產生，而不疋像先則處理器應用所需，以兩個解碼器獨立將巨集指令解碼而產生冑階及低階運算。此射，此係丨複製邏輯 1150完成，複製邏輯1150複製高階或低階運算並繼之適當地修正形成之運算以建立其餘的運算。很重要的一點是，如前所述，藉由仔細地將暫存器的位址空間編碼，可將微指令所參照的暫存器（例如，邏輯來源及目標暫存器）作成相差一個單一位元。結果，修正邏輯116〇的最簡單形式可能包含一個或多個反向器用以將適當的位元反向而自 -27- 470914 A7 B7 25 ) 五、發明說明低階運算產生高階運算，反之亦同。不論如何，複製的微指令會接著被傳至多工器117〇。多工器117〇亦會擷取解碼器1120所產生的微指令。此例中，多工器，在有效的解碼器1180之控制下，輸出複製的微指令給緊縮型資料運算 (包括部分寬度資料運算）且輸出從解碼器1120擷取的微指令給緊縮型資料運算之外的運算。因此，將〇pc〇de對應作最佳化有利於簡化複製邏輯1丨5〇對緊縮型資料運算的偵貝J例如’若僅需·要檢查巨集指，令之一小部份以分辨緊縮型資料運算與其它運算，則有效性解碼器i丨8〇可使用較少的電路。經濟部智慧財產局員工消費合社印製在一傳送來源資料元給邏輯目標暫存器以便執行部分寬度糸縮型資料運算的應用例中，除了與圖5 A及5 c所述相似的選擇性邏輯以外，尚可加入用以除去（"刪除（km )·，） ^階或低階運算之一的邏輯。最好是，考慮效能，儘早在吕線中刪除無關緊要的微指令。前述刪除動作可根據所述之具te μ施例，利用從微指令長度決定電路！丨9〇輸出的微指令選擇訊號加以完成。微指令長度決定邏輯1190檢查巨集指令的一部份並產生微指令選擇訊號，此訊號標示一個或多個朝管線下方繼績進行之微指令的—個特別組合。若爲典向量SIMD指令，則僅高階或低階運算結果可繼續進行Y例如，微指令選擇訊號可表示爲位元遮罩，標示出 f5二爲；令要維持，而哪些要刪除。或者，微指令選擇訊號可僅只從一預定起始點標示所要維持或刪除的微指令數目。冗成前述刪除動作所需要的邏輯視引導微指令通過管 -28-

470914 A7 B7 五、發明說明（26 ) 經濟部智慧財產局員工消費合作社印製餘部分的引導機構會有所不同。例待處理中’則可加入操控待處理微指令m: 的邏輯，使得無效的微指、及表尾扣榼耷。铼少甘—加人 7破後、.，貝產生的有效微指令覆易見的㈣於普遍熟知此技藝者而言是顯而时雖然爲求精簡，在所述具體實施例中，—次僅解碼—個早-巨集指令加以説明，在其它具體實施例中，可同時解碼多個巨集指令。，此外’應了解雀指令複製較上述具體實施例所述者有更廣泛之適用性。例如，以相似於上述具體實施例的方式，全寬度及部分寬度緊縮型資料巨集指令可利用同一種解碼器加以解碼。若以前置字元區別全寬度及部分寬度緊縮型資料巨集指令，解碼器可單純地忽略該前置4·元並以相同方式將兩種型式之指令解碼。然後，可修改微運算結果中適當的位元以便選擇性地使資料元的全部或子集合可被處理。以此方式，全寬度緊縮型資料微運算可從部分寬度緊縮型資料微運算產生，反之亦同，因而降低解碼器的複雜性。因此，本文發表一種有效地執行部分寬度緊縮型資料指令的方法及裝置。本文所述之特定配置及方法只不過説明了本發明之原理。熟知此技藝者可作許多型式及細節的修改而不超出本發明之範圍。雖然本發明以一幹定之較佳具體實施例説明，不應將其視爲限制。更確實地説，本發明僅受限於後附之申請專利範圍。 29- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）閱面之項

訂線 t, C C 7 4 煩讀委員明示年7月/σηι·所提之經濟部中央標準局員工消費合作社印製第88105137號專利申請案中文說明書修正頁(90年7月） A7 B7 p年/月/出丨1^正補充五、發明説明（）元件符號說明 200 電腦系統 570，571、572 運算 205 處理器 575、576、577 多工器(MUXes) 210 儲存裝置 590 恨等函數值 215 滙流排 605 發出埠 220 鍵盤 800 暫存器檔 225 顯示器 802、804、806、808 多工器 230 網路 1110 、 1120 、 1130 解碼器 235 作業系統 1150複製邏輯 240 緊縮型資料常式 1160修正邏輯 260 指令集單元 1170 多工器 275 解碼/執行單元 1180有效性解碼器 280 指令集 1190微指令長度決定邏輯 285 記憶體單元 Ml、M2 延遲元件 291 無向量浮點暫存器 292 緊縮型浮點暫存器 293 南之暫存為 294 低之暫存器 410、 420 邏輯來源暫存器 430 邏輯目標暫存器 440 執行單元 540、 560、580 執行單元 555-557 多工器（MUXes) 565-567 選擇邏輯（MUXes) - 29a- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X 297公釐）

Claims

470914 弟881〇5丨37號專利申請案文申請專利範圍修正本(9〇年7月、 A8 B8 C8 D8 ~— 修正補充申請專利範圍年/月 > 日一種處理器，包含：多個暫存器；暫存益更名單元耦合至該多個暫存器，提供一架構暫存器構以儲存緊縮型資料運算元，每—所述之緊縮型資料運算元之每一運算元具有多個資料元；二解碼器，’連接至該暫存器更名單元，用以將第一組及第一組札令解碼，每一組指令指定架構暫存器中之一個：多個暫存器’第一組指令中的每一指令指定要在所有資料几件上執行的運算，該等資料元件儲存於一個或 f多指定的暫存器中，第二組指令集中的每-指令僅指足要在資料元之子集合上執行的運算，該等資料元件儲存於一個或更多指定的暫存器中；及部分寬度執行單元，連接至解碼器用以執行該第一或第二組指令所指定的運算。 2. 如申請專利範園第！項之處理器，其中該資料元之子集合儲存在指定的一個或多個包含對應之最不重的暫存器。 3. 如申請專利範圍第丨項之處理器，尚包含一執行單元，視所指定的運算與該第—或第二組指令有關，選擇性地在指定的-個或多個暫存器中的一個或多個資料元上執行運算。 4. 如申請專利範圍第3項之處理器，其中該執行單元尚包含多個多工器’可在指定運算的結果及預定值之間：：擇0 本紙張尺歧財S Η家榡準（CNS ) Α·Μ 210X297公董)" 470914

申請專利範圍 5·如申請專利範圍第3項之處ΐ器‘其中該執行單元尚包含多個多工器’可在-個或多個資料元中的_資料元或一用以輸入至指定運算的恆等函數之間作選擇。 6· —種方法，包含下列步驟：接收-個早-巨集指令，其在一緊縮型資料暫存器構案中指定至少兩個邏輯暫存器，其中該兩個邏輯暫存器分別儲存具有對應資料元之一第一緊縮型運算元及第二緊縮型運算元；及，在不同時間’從第-及第二組緊縮型資料元獨立地在第一及第二組多個對應的資料元上作運算。其運算係，使用該同一電路獨立產生第一及第二組多個結果資料元：在該第一及第二組多個對應的資料元中，執行該單一巨集指令所指足的運算於至少一雙對應的資料元上，以產生該第一及第二組多個資料元結果之一組資料元；及將該第一及第二組多個結果資料元的其餘結果資料元設定為一個或多個預定值；及將邊第一及弟一組多個結果資料元儲存在一單一邏輯暫存器中成為一第三緊縮型資料運算元。 7·如申請專利範圍第6項之方法，其中該一個或多個預定值包括來自該第一緊縮型資料運算元或該第二緊縮型資料運算元的資料元值。 8.如申請專利範圍第6項之方法，其中該一個或多個預定值包括零。 -2 - 本紙張尺度適用中國國家標準（CNS ) Μ規格（210Χ297公釐） ---------裝------訂^------線 (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 470914 六、申請專利範圍

經濟部中央標準局員工消費合作社印裝 9·如申睛專利範圍第6項之方法，中值包括一非數^ t u其中孩一個或多個預定非數子（not+number，NaN)指標。 10. —種處理器，包含： 71!體/用以儲存具有—第—多數資料元件之-第 Π型；料運算元以及具有-第二多數資料元件之：弟一 I、縮資料運算元；運:邵=度緊縮資料指令’用以指定第—緊縮型資科斑第二…以及用以指定要於第-/、一厂貝料運算兀足對應資料元件對之一子集人執行之一第一運算；口解碼姦，連接至記憶體以接收部分寬度緊縮型才曰令且將部分寬度緊縮型資料指令解碼；及 -部分寬度執行單元連接至解碼器料元件對之子集合上之運算。愿只 η·如申請專利範圍第10項之處理器，其中該解碼器符一將邵分寬度緊縮型資料指令轉成—第一微指令與一第二微指令之解碼器’第一微指令則對應於該縮型資料運算元之至少一對應資料元件對之—第：子】合γ且第二微指令則對應於該第一與該第二緊縮型資料運算元之至少一對應資料元件對之一第二子集合，及其中該部分寬度執行單元係一執行由該第一子集合上該第-微指令所指定-運算元之部分寬度執行單元。 12·如申請專利範圍第1 1項之處理器，尚包含一埠，用以接收該第-子集合之至少一資料元件且不接收該第二子集 3- 本纸張尺度逋用中國國家標準（CNS ) Α4規格（210X297/^) ^1 ^ -------^ (請先閎讀背面之注意事踴再填寫本頁) 470914 A8 B8 C8 D8 正 '申請專利範圍合之一資料元件。一― 13·如申請專利範圍第U項之處理器，其中該處理器係一用以消除該第二微指令之處理器·，及其中該處理器係一用以將對應於該第二子集合之至少一結果資料元件置定為一預定值之處理器。 14_如申請專利範圍第11項之處理器，尚包含延遲電路，用以延遲該第二子集合上運算之執行；及其中該部分宽度執行單元係一於延遲之後用以執行由該第二子集合上該第二部分寬度微指令所指定一運算之部分寬度執行單元。 15-如申請專利範圍第10項之處理器，尚包含與該記憶體連接而接收該第一緊縮型資料運算元之一第一埠，及與該冗憶體連接而實質上同時接收該第二緊縮型資料運算元之一第二埠；尚包含分解電路，用以將該第一緊縮型資料運算元分解成包含至少一資料元件之一第一子集合與包含至少一 '貝料元件之一第二子集合，及將該第二緊縮型資料運算元分解成包含至少一資料元件之一第三子集合與包含至少一資料元件之一第四子集合；及其中該部分寬度執行單元係執行該第一與第三子集合至少一對應資料元件對上之該第一運算以產生至少一結果資料元件之一部分寬度執行單元。 16如申請專利範圍第丨5項之處理器，尚包含用以延遲該第二子集合與用以延遲該第四子集合之延遲電路；及 4- ^紙張尺度適用赠) I «~1Τ"*------,4t (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 7 經濟部中央標準局舅工消費合作社印製 4 9 4 8 88 8 ABCD 六、申請專利範圍厂一..................~—Ί丄丨:丨 \ I 、： ! : 其中於該延遲之後，該部分寬度執行單元係執行該第二與該第四子集合至少一對應資料元件對上之該第一運算以產生至少一另外結果資料元件之一部分寬度執行單元。 17·如申請專利範圍第丨5項之處理器，其中該部分寬度執行單元係一部分寬度執行單元，藉由將該至少一另外結果資料元件設定為一預定值而產生對應於該第二與該^四子集合之至少一另外結果資料元件。 18_如申請專利範圍第15項之處理器，其中該部分寬度執行單元係於一半時脈週期上執行該緊縮型資料指令與—第二類似緊縮型資料指令之一部分免度執行單元。 19如申請專利範圍第15項之處理器，其中該部分寬度執行單元係一 64位元部分寬度執行單元，且其中該第一與今弟一緊縮型資料運算元係128位元運算元。 20· —種方法，包含接收一緊縮型資料指令，其指定具有多數資料元件之一第一全寬度緊縮型資料運算元以及具有對應多數資= 元件之一第二全寬度緊縮型資料運算元之記憶體位置；實質上同時自該記憶體位置存取該第一全寬度緊縮型資料運算元與該第二全寬度緊縮型資料運算元；土分解該第一全寬度緊縮型資料運算元為資料元件之〜第一子集合與資料元件之一第二子集合以及分解該第二全寬度緊縮型資料運算元為資料元件之一第三子集合與資料元件之一第四子集合； ^ -5- 本紙張尺度逋用中國國家榡準（CNS ) Μ規格（210X 297公釐） ---------裝-----1訂--------線 (請先閲讀背面之注意事項再填寫本頁，> 470914 A8 B8 C8 D8 申請專利範圍 ρ年7月~ |修正補充執行由資料元件該第一與第三子集合上該緊縮型資料指令所指定之一運算以產生一第一結果一或多資料元件；延遲資料元件之該第二與第四子集合；於該延遲之後，執行由資料元件該第二與第四子集合上該緊縮型資料指令所指定之一運算以產生一第二結果一或多資料元件；及將該第一與第二結果資料元件存於一共同之緊縮型資料運算元内。 21. 如申請專利範圍第2 0項之方法，其中執行由第二與第四子集合上巨集指令所指定之一運算包含將一資料元件設定為一預定值。 22. 如申請專利範圍第2 0項之方法，其中該分解包含將一 1 2 8位元緊縮型資料運算元分解成兩低位階資料元件之一 64位元段與兩高位階資料元件之一 64位元段。 23. —種處理器，包含：一緊縮型資料指令，於至少一緊縮型資料運算元之多數資料元件上指定一運算；經濟部中央標準局員工消費合作社印裂 (請先閲讀背面之注意事項再填寫本頁) 一解碼器，對應於該緊縮型資料指令而產生一第一微指今與一第二微指令，該第一微指令指定一第一運算且該第二微指令指定一第二運算；一執行單元，執行由多數緊縮型資料元件之僅僅一子集合上之該第一微指令所指定之一運算；及電路，用以消除該第二微指令。 6 本紙浪尺度適用中國國家標準（CNS ) A4说格（210X297公釐） 470914

24·如申請專利範圍第2 3項之g理器-，其中該解碼器係建立孩第二微指令之一解碼器，藉複製該第一微指令以建立一複製品且修飾該複製品以建立該第二微指令。 25·如申請專利範圍第2 4項之處理器，其中該執行單元係將一結果緊縮型資料運算元之一資料元件設定為一預定值之一執行單元。 26，一種方法，包含：接收一緊縮型資料指令以指明一第一緊縮型資料運算元與一第二緊縮型資料運算元之記憶體位置；將違縮型資料指令轉換成一第一緊縮型資料微指令與一第二緊縮型資料微指令；執行該第一緊縮型資料微指令，包括自該第一與第二縮型資料運算元包含至少一對應資料元件對之該第一與該第二緊縮型資料運算元存取僅僅資料元件之一子集合，且令由該緊縮型資料指令所指定之一運算於該子集合上執行，以產生一結果一或多資料元件；及經濟部中央標準局員工消費合作社印製執行該第二緊縮型資料微指令，包括自該第一與第二聚縮型^料運算元包含至少一對應資料元件對之該第一與該第二緊縮型資料運算元存取僅僅資料元件之一子集合h且令由該緊縮型資料指令所指定之—運算分開地於 ί亥子集合上執行，以產生一或多另外資料元件。 27·如申請專利範圍第2 6項之處理器，其中執行該第二緊縮型資料微指令包括將一或多另外資料元件之一資料元件置定為一預定值。本紙張尺度適用中國國家標準（CNS ) Α4規格（210Χ297公釐） A8 B8 〜^^__ C8 二 --------------D8 穴、申請專利範圍二'... 2g » 申叫專利範圍第2 6項之處理器，尚包含：將結果一或多資料元件寫至一結果緊縮型資料運算 A ;及將結果一或多另外資料元件寫至相同之結果緊縮型資枓運算元。、 •=申請專利範圍第2 6項之處理器，其中執行該第二緊縮土貝料微指令係相對於執行該第一緊縮型資料微指令而延遲。 30·—種處理器，包含： ~記憶體，用以儲存一第一緊縮型資料運算元與一第二緊縮型資料運算元；指令’用以指明該第一緊縮型資料運算元與該第二焦、、宿型：貝料運算元，且用以指明欲於一該第一緊縮型資料運算元與該第二緊縮型資料運算元上執行之運算。解碼器裝置’用以將該指令解碼；及執行裝置，用以執行該指令。 Μ·如申請專利範圍第3 〇項之處理器，其中該解碼器裝置係用以將指令解碼成其指明僅於該第一與該第二緊縮型 '貝料運算元之一部分上運算之一第一微指令之解碼器裝置’、以及其指明僅於該第一與該第二緊縮型資料運算元之不同部分上運算之一第二微指令。 32·如申請專利範圍第3 〇項之處理器，其中該執行裝置係一用以執行由該第一與該第二緊縮型資料運算元對應資料元件對之一第一子集合上指令所指明之運算之執行裝 -8- 本紙張;Clii用巾關家揉準（CNS ) Α4· ( 21()><297公董)' ----- (請先閲讀背面之注意事項再填寫本頁) •裝‘ 訂線輕濟部中央榡隼局員工消費合作社印策 470914 A8 B8 C8 D8 f〇 7 /<, 申請專利範圍置，且於一延遲之後，用以執行由該第一與該第二緊縮型資料運算元對應資料元件對之一第二子集合上指令裝置所指明之運算。 ---------裝------訂J------線 (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標隼局員工消費合作社印製本紙張尺度適用中國國家標準（CNS ) A4規格（210X297公釐）