TW201805802A

TW201805802A - 一種運算裝置及其操作方法

Info

Publication number: TW201805802A
Application number: TW106126469A
Authority: TW
Inventors: 發明人放棄姓名表示權
Original assignee: 上海寒武紀信息科技有限公司
Priority date: 2016-08-05
Filing date: 2017-08-04
Publication date: 2018-02-16
Also published as: CN107688466A; CN112214244A; EP3495947A4; CN107688466B; EP3495947A1; US20190235871A1; TWI752068B; KR20190032282A; WO2018024094A1; CN111857822A; EP3495947B1; KR102467544B1; CN111857822B

Abstract

一種運算裝置及其操作方法，裝置包括指令模塊、數據模塊及運算模塊，指令模塊對指令進行操作，包括指令緩存、指令處理、判斷依賴關係等，數據模塊對數據進行操作，包括從內存中讀出或寫入數據和向運算模塊輸入運算數據等，運算模塊用於根據指令對數據進行相關運算。本發明能夠在執行指令時，根據待運算數據的長度和運算模塊的規模進行相應調整，提升了包含大量向量計算任務的執行性能，具有指令結構簡潔、數據運算靈活高效等優點。

Description

一種運算裝置及其操作方法

本發明屬於計算機領域，具體涉及一種運算裝置及其操作方法。

隨著大數據時代的來臨，與向量運算的相關應用也日益增加，參與運算的數據量不斷增大，數據規格和維度不斷擴增，運算形式也逐漸增多，一方面，運算單元的規模難以隨著數據量的大幅度提升而大幅度擴大，這就使得運算時如何調控運算數據提出了要求；另一方面，這些運算不再局限於在統一規格的數據間進行，而是有很大一部分運算是不同規格或不同維度的數據間進行，這就為運算裝置的靈活性提出了更高的要求。

在現有技術中，一種進行向量運算的已知方案是使用通用處理器（central processing unit，CPU）或圖形處理器（graphics processing unit，GPU），然而，這種方法或者因其結構更適應於標量運算，進行向量運算時效率較低；或者，因其片上緩存太小，無法滿足高效完成大規模向量運算的要求。在另一種現有技術中，使用專門定制的向量運算裝置來進行向量計算，即使用定制的存儲單元和處理單元進行向量運算。然而，目前已有的專用向量運算裝置受限於寄存器堆，只能支持相同長度的向量運算，靈活性不足。

除此之外，上述裝置對應的指令集，只能執行相同長度的數據的運算，且受限於存儲器的規模和運算單元的規模。對於不同長度的數據和不滿足運算單元規模的數據，一種方式是採用多條指令對數據進行依次調用，另一種方式是採用循環指令的方式進行反復調用。這不僅使得指令集的結構複雜，指令隊列冗長，且執行效率低下，而且運行時限制多、靈活性差，無法為大規模的向量運算提供便利。

本發明的目的在於，提供一種運算裝置及其操作方法，用於根據指令高效靈活地執行相同規模或不同規模的數據的運算，解決了當前越來越多的算法包含大量相同規模或不同規模數據的運算問題，降低了運算單元規模。

本發明提供一種運算裝置，裝置包括指令模塊、數據模塊和運算模塊，其中：

指令模塊用於緩存指令，並向數據模塊及運算模塊提供指令；

數據模塊用於根據指令模塊中的指令，向運算模塊提供運算數據；

運算模塊用於根據指令模塊中的指令及數據模塊提供的運算數據，進行運算。

進一步，指令模塊包括指令緩存單元、指令處理單元、依賴關係處理單元、存儲隊列單元，其中：

指令緩存單元用於存儲待執行的指令，指令處理單元用於從指令緩存單元獲取指令，並對該指令進行處理，依賴關係處理單元用於判斷該指令與前一正在執行的指令是否訪問相同的數據：

如果是，依賴關係處理單元將該指令存放至所述存儲隊列單元，待前一正在執行的指令執行完畢後，再將該指令提供給運算模塊；

否則，直接將該指令提供給運算模塊。

進一步，指令處理單元包括：

取指部分，用於從指令緩存單元中獲取指令；

譯碼部分，用於對獲取的指令進行譯碼；

指令隊列部分，用於對譯碼後的指令進行順序存儲。

進一步，數據模塊包括數據I/O單元和數據暫存單元，其中，數據I/O單元用於直接從內存中讀取運算數據，數據暫存單元用於存儲運算數據，並對該運算數據進行調整後，提供至運算模塊。

進一步，數據暫存單元用於對運算數據進行調整後，提供至運算模塊，包括：

當參與運算的兩個運算數據長度均小於等於運算模塊的運算規模時，數據暫存單元直接將該兩個運算數據提供至運算模塊；

當參與運算的兩個運算數據長度均大於運算模塊的運算規模時，將每個運算數據拆分為多個長度均小於等於所述運算規模的子運算數據，並將該子運算數據分多次提供至所述運算模塊；

當參與運算的兩個運算數據中，一個運算數據長度大於運算模塊的運算規模，另一個運算數據長度小於等於運算模塊的運算規模時，將長度大於運算規模的運算數據拆分為多個長度均小於等於運算規模的子運算數據，並將該多個子運算數據和長度小於等於運算規模的運算數據分多次提供至所述運算模塊。

進一步，運算數據為向量，運算模塊用於執行向量邏輯運算或向量四則運算。

本發明還提供一種運算裝置的操作方法，方法包括：

S1，緩存指令於指令模塊中；

S2，將指令模塊中的指令提供至數據模塊，數據模塊根據該指令向運算模塊提供運算數據；

S3，將指令模塊中的指令提供至運算模塊，運算模塊根據該指令及運數據模塊提供的運算數據，進行運算。

進一步，指令模塊包括指令緩存單元、指令處理單元、依賴關係處理單元、存儲隊列單元，所述步驟S1包括：

S11，在指令緩存單元存儲待執行的指令；

S12，指令處理單元從指令緩存單元獲取指令，並對該指令進行處理；

S13，依賴關係處理單元判斷該指令與前一正在執行的指令是否訪問相同的數據，如果是，依賴關係處理單元將該指令存放至所述存儲隊列單元，待前一正在執行的指令執行完畢後，再將該指令提供給運算模塊，否則，直接將該指令提供給運算模塊。

進一步，指令處理單元包括取指部分、譯碼部分和指令隊列部分，其中，步驟S12包括：

S121，取指部分從指令緩存單元中獲取指令；

S122，譯碼部分對獲取的指令進行譯碼；

S123，指令隊列部分對譯碼後的指令進行順序存儲。

進一步，數據模塊包括數據I/O單元和數據暫存單元，其中，步驟S2包括：

S21，數據I/O單元直接從內存中讀取運算數據，並存儲於數據暫存單元；

S22，數據暫存單元對存儲的運算數據進行調整後，提供至運算模塊。

進一步，步驟S22包括：

本發明提供的運算裝置及其操作方法，能夠在僅發送一條指令的情況下，將運算數據從內存中讀取後暫存在數據暫存單元上，數據暫存單元根據運算數據的長度，對運算數據進行調整後提供至運算模塊，從而能夠支持不同長度數據的運算，降低了運算單元規模。另外，本發明採用依賴關係處理單元解決數據存儲中的相關性問題，從而提升了包含大量計算任務的執行性能。而且，本發明採用的指令具有精簡的格式，使得指令集結構簡單、使用方便、支持靈活的數據長度和運算規模。

為使本發明的目的、技術方案和優點更加清楚明白，以下結合具體實施例，並參照圖式，對本發明進一步詳細說明。

本發明可以應用於以下（包括但不限於）場景中：數據處理、機器人、電腦、打印機、掃描儀、電話、平板電腦、智能終端、手機、行車記錄儀、導航儀、傳感器、攝像頭、雲端服務器、相機、攝像機、投影儀、手錶、耳機、移動存儲、可穿戴設備等各類電子產品；飛機、輪船、車輛等各類交通工具；電視、空調、微波爐、冰箱、電飯煲、加濕器、洗衣機、電燈、燃氣灶、油煙機等各類家用電器；以及包括核磁共振儀、超音波、心電圖儀等各類醫療設備。

圖1是本發明提供的運算裝置的結構示意圖，如圖1所示，裝置包括指令模塊10、數據模塊20和運算模塊30。指令模塊10用於緩存指令，並向數據模塊20及運算模塊30提供指令。指令模塊10中的指令控制數據模塊20的數據流的方向，數據模塊20的數據會影響指令模塊10中對依賴關係的處理，同時，指令模塊10中的指令控制運算模塊30的具體運算，運算模塊30的運算是否完成會控制指令模塊10是否讀取新的指令；數據模塊20為運算模塊30提供具體的運算數據，運算模塊30會將運算結果送回數據模塊20進行保存。

圖2是本發明提供的裝置的指令模塊的示意圖。如圖2所示，指令模塊10包括指令緩存單元11、指令處理單元12、依賴關係處理單元13和存儲隊列單元14。其中，指令處理單元12又分為三個部分：取指部分121、譯碼部分122和指令隊列部分123。指令緩存單元11用於在指令執行過程中緩存該指令，當一條指令執行完之後，如果該指令同時也是指令緩存單元11中未被提交指令中最早的一條指令，該指令將被提交，一旦提交，該條指令進行的操作對裝置狀態的改變將無法撤銷。取指部分121用於從指令緩存單元11中取出下一條將要執行的指令，並將該指令傳給譯碼部分122；譯碼部分122用於對指令進行譯碼，並將譯碼後指令傳給指令隊列123；指令隊列部分123用於對譯碼後的指令進行順序存儲。依賴關係處理單元13用於處理當前指令與前一條指令可能存在的數據依賴關係，例如，在從數據模塊20中訪問數據時，前後指令可能會訪問同一塊存儲空間中的數據，如果前一條指令未執行完畢，就對該數據進行操作的話，會影響該數據的一致性，從而導致運算結果的正確性。因此，當前指令如果被依賴關係處理單元13檢測到與之前的指令的數據存在依賴關係，該指令必須在存儲隊列單元14內等待至依賴關係被消除，其中，存儲隊列單元14是一個有序隊列，與之前指令在數據上有依賴關係的指令被存儲在該隊列內直至依賴關係被消除。

圖3是本發明中數據模塊的結構示意圖。如圖3所示，數據模塊20由兩部分組成，即數據I/O單元21和數據暫存單元22。數據I/O單元21用於與內存進行交互，即能夠直接從內存中讀取數據或直接將數據寫入內存中。數據暫存單元22由高速暫存存儲器（Scratchpad Memory）組成，其中該存儲器可以通過各種不同存儲器件（（靜態隨機存取存儲器（static random access memory，SRAM）、增強動態隨機存取存儲器（enhanced dynamic random access memory，eDRAM）、動態隨機存取存儲器（Dynamic Random Access Memory，DRAM）、憶阻器、3D-DRAM或非易失存儲等）實現。數據暫存單元22能夠存儲不同大小的運算數據，如各種規模的向量數據。數據I/O單元21根據指令將必要的運算數據讀取出來，並暫存在數據暫存單元22上，由於採用高速暫存存儲器，從而使得可以存儲不同長度的運算數據，同時，在運算過程中，數據暫存單元22可以根據運算單元30的規模和運算數據的長度，對運算數據進行調整後，提供至運算模塊30。

具體地，當參與運算的兩個運算數據長度均小於等於運算模塊的運算規模時，數據暫存單元22直接將該兩個運算數據提供至運算模塊30。舉例來說，運算單元30是的運算規模是一次性處理兩組向量的運算，每組向量包括4個元素，如（A1，A2，A3，A4）和（B1，B2，B3，B4）之間的運算是該運算單元30的運算規模；兩個運算數據均是小於4個元素的向量，如（A1，A2，A3）和（B1，B2），此時，可直接將（A1，A2，A3）和（B1，B2）提供至運算模塊30進行運算。

當參與運算的兩個運算數據長度均大於運算模塊的運算規模時，數據暫存單元22將每個運算數據拆分為多個長度均小於等於運算規模的子運算數據，並將該子運算數據分多次提供至運算模塊。舉例來說，運算單元30的運算規模是一次性可處理兩組向量運算的運算規模，其中每組向量包括4個元素，如（A1，A2，A3，A4）和（B1，B2，B3，B4）之間的運算是該運算單元30的運算規模；兩個運算數據均大於運算規模，如（A1，A2，A3，A4，A5）和（B1，B2，B3，B4，B5），此時，可將（A1，A2，A3，A4，A5）拆分為D1（A1，A2，A3，A4）和D2（A5），將（B1，B2，B3，B4，B5）拆分為d1（B1，B2，B3，B4）和d2（B5），然後分兩次提供至運算單元30中，其中，第一次提供D1（A1，A2，A3，A4）和d1（B1，B2，B3，B4）進行運算，第二次提供D2（A5）和d2（B5）。上述例子是將大於運算規模的運算數據均拆分為2段，每次提供相應段的子運算數據。在兩個運算數據的拆分的段數不一致時，例如，第一個運算數據拆分為3段，表示為D1、D2、D3，第二個運算數據拆分為2段，表示為d1和d2，則分3次向運算單元提供第一個運算數據D1、D2、D3，並且這3次需要循環提供第二個運算數據d1和d2，即第一次提供D1和d1，第二次提供D2和d2，第三次提供D3和d1，又比如，第一個運算數據拆分為5段，表示為D1、D2、D3、D4、D5，第二個運算數據拆分為3段，表示為d1、d2和d3，則分5次向運算單元提供運算數據，即第一次提供D1和d1，第二次提供D2和d2，第三次提供D3和d3，第四次提供D4和d1，第五次提供D5和d2。

當參與運算的兩個運算數據中，一個運算數據長度大於運算模塊的運算規模，另一個運算數據長度小於等於運算模塊的運算規模時，將長度大於運算規模的運算數據拆分為多個長度均小於等於運算規模的子運算數據，並將該多個子運算數據和長度小於等於運算規模的運算數據分多次提供至所述運算模塊。簡要舉例來說，第一個運算數據長度大於運算規模，拆分為3段D1、D2和D3，第二個運算數據小於等於運算規模，無需拆分，表示為d，則分3次向運算單元提供第一、第二運算數據，即第一次提供D1和d，第二次提供D2和d，第三次提供D3和d。

總的來說，數據暫存單元22對運算數據的調整是指，當運算數據長度不大於運算單元的運算規模時，可以通過該存儲器直接將待運算的數據送入運算單元30中；否則，每一次運算，將符合運算單元30運算規模的數據送入運算單元30中，運算完畢或者該批數據進入下一級流水線之後，該存儲器向運算單元30中送入新一批符合運算單元30運算規模的數據進行運算。另外，當兩個待運算的數據長度相同時，則直接或拆分後送入運算單元30中進行運算；否則，長度較大的數據分段後按順序讀取，長度較小的數據分段後循環讀取，直至運算結束。

圖4是本發明提供的裝置的運算模塊的結構示意圖。如圖4所示，運算模塊由若干種不同的運算部件組成，如向量加法部件、向量減法部件、向量邏輯與部件、向量點積部件等等。每種部件有若干個。利用這些運算部件，運算模塊能夠支持多種向量運算。

圖5是本發明中支持不同長度運算數據的指令的方法流程圖。執行該指令的過程包括：

S1，指令處理單元12中的取指部分121從指令緩存單元11中取出一條向量運算指令，並將該指令送往指令處理單元中的譯碼部分122。

S2，譯碼部分122對指令進行譯碼，將指令根據自定義的指令規則拆分為操作碼和各個不同的操作域。這裡採用的自定義的指令規則是指令包含操作碼和至少一個操作域，操作碼定義向量運算的類型，操作域中保存待運算的數據值、數據存儲的地址、數據的長度或是運算結果保存地址等，具體操作域的含義根據操作碼的不同而不同。而後，將該運算指令送往指令隊列部分123。

S3，在指令隊列部分123中，根據該指令的操作碼和操作域獲取待運算的數據，送往依賴關係處理單元13對數據依賴關係進行分析和判斷。

S4，在依賴關係處理單元14中，分析該指令與前面的尚未執行結束的指令在數據上是否存在依賴關係。若無依賴關係，則無需等待，否則將該條指令存儲在存儲隊列單元中，等待至其與前面的未執行結束的指令在數據上不再存在依賴關係為止。將指令送往運算單元30。

S5，當指令送往運算單元30準備運算時，數據模塊20中的數據暫存單元22根據數據的長度和運算單元30的規模對數據進行調整，即當向量長度不大於運算單元30的運算規模時，可以直接將待運算的向量送入運算單元30中；否則，每一次運算，將符合運算單元30運算規模的數據送入運算單元30中，運算完畢後，向運算單元30中送入新一批符合運算規模的數據進行運算，直至運算結束。當兩個待運算的向量長度相同時，則直接送入運算單元中進行運算；否則，長度較大的向量按順序讀取，長度較小的向量循環讀取，直至運算結束。若待運算的向量同時需要根據運算單元規模進行調整，又需要對長度進行調整，則保證長度較大的向量按順序讀取，長度較小的向量循環讀取的順序，依次讀取符合運算規模的數據即可。

S6，運算完成後，將結果寫回至數據暫存單元22中的指定地址，同時提交指令緩存單元11中的該指令。

為使該過程更加清楚明白，以下提供一具體實施例，並參照圖式，對本流程進一步詳細說明。

實施例一

本實施例描述了採用運算裝置進行向量間與運算的具體過程，首先，本實施例中向量間與運算指令格式為：

假定寄存器每個地址能夠存儲16位數據，運算單元內包含4個間與運算器，每個運算器可以同時執行16位數據的間與運算。以運算指令VAV 00001 01000 01001 01000 10001為例，該指令表示向量0和向量1執行VAV運算，即向量間與運算。具體的，向量間與運算的過程包括：

S1，指令處理單元11中的取指部分121從指令緩存單元11中取出一條向量運算指令，即VAV 00001 01000 01001 01000 10001，並將該指令送往指令處理單元12中的譯碼部分122。

S2，譯碼部分122對指令進行譯碼，得到該指令操作碼VAV，表示執行向量間與運算，有五個操作域，分別表示待運算向量vin0的起始地址和長度，向量vin1的起始地址和長度、運算結果的存儲地址，將該運算指令送往指令隊列部分123。

S3，在指令隊列部分123中，根據該指令的操作碼和操作域獲取待運算的數據。該指令操作碼為VAV，即執行向量間與邏輯運算，由操作域1、2、3、4處獲得待運算的數據地址和數據長度，即向量vin0的起始地址00001、向量vin0的長度01000、向量vin1的起始地址01001、向量vin1的長度01000。即向量vin0從地址為00001處開始，讀取長度為8個地址長度的數據，即地址為00001~01000的數據；向量vin1從地址為01001處開始，同樣，也讀取長度為8個地址長度的數據。而後，送往依賴關係處理單元13對數據依賴關係進行分析和判斷。

S4，在依賴關係處理單元123中，分析該指令與前面的尚未執行結束的指令在數據上是否存在依賴關係。若無依賴關係，則無需等待，否則將該條指令存儲在存儲隊列單元14中，等待至其與前面的未執行結束的指令在數據上不再存在依賴關係為止。將指令送往運算單元30。

S5，數據模塊20中數據I/O單元21事先從外部的內存中獲取數據，並將獲取的數據存儲於數據暫存單元22。當指令送往運算單元30準備運算時，數據暫存單元22根據指令所指示的數據地址，找到相應的數據並提供至運算單元30，在提供前，數據暫存單元22根據數據的長度和運算單元30的運算規模對數據進行調整。這裡，運算單元30一次只能夠處理4組16位向量的間與運算，所以，第一次送入運算單元30的數據為vin0所指的前4個地址長度的數據和vin1所指的前4個地址長度的數據，即地址為00001~00100和01001~01100的數據進行運算。待運算完畢，載入vin0和vin1各自的後4個地址長度的數據進行運算，即地址為00101~01000和01101~10000的數據進行間與運算。

S6，運算完成後，將結果寫回至數據暫存單元22中的指定地址10001處，同時提交指令緩存單元中的該向量間與邏輯指令。

實施例二

本實施例描述了採用運算裝置進行向量加法運算的具體過程，首先，本實施例，定義向量加法運算指令格式為：

假定寄存器每個地址能夠存儲16位數據，運算單元內包含4個加法運算器，每個運算器可以同時執行16位數據的加法運算。VA 00001 01000 01001 00010 10001為例，該指令表示向量0和向量1執行VA運算，即向量加法運算。運算裝置執行該向量加法指令的過程包括：

S1，指令處理單元12中的取指部分121從指令緩存單元11中取出一條向量運算指令，即VA 00001 01000 01001 00010 10001，並將該指令送往指令處理單元中的譯碼部分12。

S2，譯碼部分12對指令進行譯碼，得到該指令操作碼VA，表示執行向量加法運算，有五個操作域，分別表示待運算向量vin0的起始地址和長度，向量vin1的起始地址和長度、運算結果的存儲地址，將該運算指令送往指令隊列部分123。

S3，在指令隊列部分123中，根據該指令的操作碼和操作域獲取待運算的數據。該指令操作碼為VA，即執行向量加法運算，由操作域1、2、3、4處獲得待運算的數據地址和數據長度，即向量vin0的起始地址00001、向量vin0的長度01000、向量vin1的起始地址01001、向量vin1的長度00010。即向量vin0從地址為00001處開始，讀取長度為8個地址長度的數據，即地址為00001~01000的數據；向量vin1從地址為01001處開始，讀取長度為2個地址長度的數據。而後，送往依賴關係處理單元13對數據依賴關係進行分析和判斷。

S4，在依賴關係處理單元13中，分析該指令與前面的尚未執行結束的指令在數據上是否存在依賴關係。若無依賴關係，則無需等待，否則將該條指令存儲在存儲隊列單元中，等待至其與前面的未執行結束的指令在數據上不再存在依賴關係為止。將指令送往運算單元。

S5，依賴關係不存在後，該條向量加法指令被送往運算單元30。運算單元30根據所需數據的地址和長度從數據暫存單元22中取出需要的向量，然後在運算單元中完成加法運算。這裡，因為運算單元30一次只能夠處理4組16位向量的加法運算，所以不能一次將所有數據全部發送至運算單元進行運算，而是需要分多次進行。又因為vin0和vin1長度不同，vin1長度較短，故運算時，需要循環讀取vin1的數據。如圖6所示，第一次送入運算單元30的數據為vin0所指的前4個地址長度的數據和vin1所指的2個地址長度的數據，即發送的數據為地址為00001~00100和01001~01010的數據，其中進行運算的數據的對應關係為：地址為00001處的數據與地址為01001處的數據進行加法運算、地址為00010處的數據與地址為01010處的數據進行加法運算、地址為00011處的數據與地址為01001處的數據進行加法運算、地址為00100處的數據與地址為01010處的數據進行加法運算。待運算完畢，第二次送入運算單元30的數據為vin0所指的後4個地址長度的數據和vin1所指的2個地址長度的數據，即地址為00101~01000和01001~01010的數據進行加法運算，運算時的對應關係為地址為00101處的數據與地址為01001處數據進行加法運算、地址為00110處的數據與地址為01010處的數據進行加法運算、地址為00111處內的數據與地址為01001處的數據進行加法運算、地址為01000 處的數據與地址為01010處的數據進行加法運算。

S6，運算完成後，將結果寫回至數據暫存單元22中的指定地址10001處，同時提交指令緩存單元11中的該向量加法指令。

以上所述的具體實施例，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施例而已，並不用於限制本發明，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。

10‧‧‧指令模塊
11‧‧‧指令緩存單元
12‧‧‧指令處理單元
121‧‧‧取指部分
122‧‧‧譯碼部分
123‧‧‧指令隊列部分
13‧‧‧依賴關係處理單元
14‧‧‧存儲隊列單元
20‧‧‧數據模塊
21‧‧‧數據I/O單元
22‧‧‧數據暫存單元
30‧‧‧運算模塊
S1、S2、S3、S4、S5、S6‧‧‧步驟
Vin0、Vin1‧‧‧向量

圖1是本發明提供的運算裝置的結構示意圖。

圖2是本發明中指令模塊的結構示意圖。

圖3是本發明中數據模塊的結構示意圖。

圖4是本發明中運算模塊的結構示意圖。

圖5是本發明中支持不同長度運算數據的指令的方法流程圖。

圖6是本發明實施例提供的不同長度運算向量進行運算時，循環讀取較短向量進行運算的運算關係示意圖。

10‧‧‧指令模塊

20‧‧‧數據模塊

30‧‧‧運算模塊

Claims

一種運算裝置，其中，裝置包括ㄧ指令模塊、ㄧ數據模塊和ㄧ運算模塊，其中：所述指令模塊用於緩存ㄧ指令，並向所述數據模塊及所述運算模塊提供所述指令；所述數據模塊用於根據所述指令模塊中的所述指令，向所述運算模塊提供ㄧ運算數據；以及所述運算模塊用於根據所述指令模塊中的所述指令及所述數據模塊提供的所述運算數據，進行運算。
根據申請專利範圍第1項所述的運算裝置，其中，所述指令模塊包括ㄧ指令緩存單元、ㄧ指令處理單元、ㄧ依賴關係處理單元、ㄧ存儲隊列單元，其中：所述指令緩存單元用於存儲待執行的所述指令，所述指令處理單元用於從所述指令緩存單元獲取所述指令，並對所述指令進行處理，所述依賴關係處理單元用於判斷所述指令與前一正在執行的指令是否訪問相同的數據：如果是，所述依賴關係處理單元將所述指令存放至所述存儲隊列單元，待前一正在執行的指令執行完畢後，再將所述指令提供給所述運算模塊；以及否則，直接將所述指令提供給所述運算模塊。
根據申請專利範圍第2項所述的運算裝置，其中，所述指令處理單元包括：ㄧ取指部分，用於從所述指令緩存單元中獲取所述指令；ㄧ譯碼部分，用於對獲取的所述指令進行譯碼；以及ㄧ指令隊列部分，用於對譯碼後的所述指令進行順序存儲。
根據申請專利範圍第1項所述的運算裝置，其中，所述數據模塊包括ㄧ數據I/O單元和ㄧ數據暫存單元，其中，所述數據I/O單元用於直接從內存中讀取所述運算數據，所述數據暫存單元用於存儲所述運算數據，並對所述運算數據進行調整後，提供至所述運算模塊。
根據申請專利範圍第4項所述的運算裝置，其中，所述數據暫存單元用於對所述運算數據進行調整後，提供至所述運算模塊，包括：當參與運算的兩個所述運算數據長度均小於等於所述運算模塊的ㄧ運算規模時，所述數據暫存單元直接將兩個所述運算數據提供至所述運算模塊；當參與運算的兩個所述運算數據長度均大於所述運算模塊的所述運算規模時，將每個所述運算數據拆分為多個長度均小於等於所述運算規模的ㄧ子運算數據，並將所述子運算數據分多次提供至所述運算模塊；以及當參與運算的兩個所述運算數據中，一個所述運算數據長度大於所述運算模塊的所述運算規模，另一個所述運算數據長度小於等於所述運算模塊的所述運算規模時，將長度大於所述運算規模的所述運算數據拆分為多個長度均小於等於所述運算規模的所述子運算數據，並將多個所述子運算數據和長度小於等於所述運算規模的所述運算數據分多次提供至所述運算模塊。
根據申請專利範圍第1項所述的運算裝置，其中，所述運算數據為向量，所述運算模塊用於執行向量邏輯運算或向量四則運算。
一種運算裝置的操作方法，所述運算裝置為申請專利範圍第1-6任意一項所述的運算裝置，其中，方法包括： S1，緩存ㄧ指令於ㄧ指令模塊中； S2，將所述指令模塊中的所述指令提供至ㄧ數據模塊，所述數據模塊根據所述指令向ㄧ運算模塊提供ㄧ運算數據；以及 S3，將所述指令模塊中的所述指令提供至所述運算模塊，所述運算模塊根據所述指令及所述數據模塊提供的所述運算數據，進行運算。
根據申請專利範圍第7項所述的運算裝置的操作方法，其中，所述指令模塊包括ㄧ指令緩存單元、ㄧ指令處理單元、ㄧ依賴關係處理單元、ㄧ存儲隊列單元，所述步驟S1包括： S11，在所述指令緩存單元存儲待執行的所述指令； S12，所述指令處理單元從所述指令緩存單元獲取所述指令，並對所述指令進行處理；以及 S13，所述依賴關係處理單元判斷所述指令與前一正在執行的指令是否訪問相同的數據，如果是，所述依賴關係處理單元將所述指令存放至所述存儲隊列單元，待前一正在執行的指令執行完畢後，再將所述指令提供給所述運算模塊，否則，直接將所述指令提供給所述運算模塊。
根據申請專利範圍第8項所述的運算裝置的操作方法，其中，所述指令處理單元包括ㄧ取指部分、ㄧ譯碼部分和ㄧ指令隊列部分，其中，所述步驟S12包括： S121，所述取指部分從所述指令緩存單元中獲取所述指令； S122，所述譯碼部分對獲取的所述指令進行譯碼；以及 S123，所述指令隊列部分對譯碼後的所述指令進行順序存儲。
根據申請專利範圍第7項所述的運算裝置的操作方法，其中，所述數據模塊包括ㄧ數據I/O單元和ㄧ數據暫存單元，其中，所述步驟S2包括： S21，所述數據I/O單元直接從內存中讀取所述運算數據，並存儲於所述數據暫存單元；以及 S22，所述數據暫存單元對存儲的所述運算數據進行調整後，提供至所述運算模塊。
根據申請專利範圍第10項所述的運算裝置的操作方法，其中，所述步驟S22包括：當參與運算的兩個所述運算數據長度均小於等於所述運算模塊的ㄧ運算規模時，所述數據暫存單元直接將兩個所述運算數據提供至所述運算模塊；當參與運算的兩個所述運算數據長度均大於所述運算模塊的所述運算規模時，將每個所述運算數據拆分為多個長度均小於等於所述運算規模的ㄧ子運算數據，並將所述子運算數據分多次提供至所述運算模塊；以及當參與運算的兩個所述運算數據中，一個所述運算數據長度大於所述運算模塊的所述運算規模，另一個所述運算數據長度小於等於所述運算模塊的所述運算規模時，將長度大於所述運算規模的所述運算數據拆分為多個長度均小於等於所述運算規模的所述子運算數據，並將多個所述子運算數據和長度小於等於所述運算規模的所述運算數據分多次提供至所述運算模塊。
根據申請專利範圍第7項所述的運算裝置的操作方法，其中，所述運算數據為向量，所述運算模塊用於執行向量邏輯運算或向量四則運算。