TWI797985B

TWI797985B - 卷積運算的執行方法

Info

Publication number: TWI797985B
Application number: TW111104810A
Authority: TW
Inventors: 陳中和; 吳庭嘉; 蕭承志; 王祥宇; 黃瀚群
Original assignee: 國立成功大學
Priority date: 2021-02-10
Filing date: 2022-02-09
Publication date: 2023-04-01
Also published as: US20220269752A1; TW202232345A

Abstract

一種卷積運算的執行方法，包括：根據特徵圖塊將具有N個通道的輸入圖像分成第一圖塊至第X圖塊；依序對N個通道的輸入圖像的第一圖塊至N個通道的輸入圖像的第X圖塊裡的資料進行卷積運算，並將運算結果儲存為輸出資料；對每一圖塊，透過一卷積核映射該圖塊裡的資料，並且對該圖塊的該映射資料進行乘積累加運算，其中每完成一次乘積累加運算便移動卷積核以改變該圖塊的該映射資料，並對改變的該映射資料進行乘積累加運算，直到該圖塊裡的所有資料完成乘積累加運算，以完成該圖塊的卷積運算。

Description

卷積運算的執行方法

相關申請的交叉引用：

本申請要求如下申請的優先權：2021年02月10日提出申請號為63/147,804的美國臨時案。上述美國臨時案整體以引用方式併入本文中。

本發明係關於一種卷積運算的執行方法，且特別是有關於一種重複使用資料的卷積運算的執行方法。

卷積神經網路(Convolutional Neural Network, CNN)是深層神經網路的一種，其使用卷積層對輸入進行過濾，以獲得有用訊息。卷積層的過濾器可根據所學習的參數進行修改，以萃取得到特定工作的最有用訊息。卷積神經網路通常可適用於分類、偵測與辨識，例如影像分類、醫學影像分析及影像/視訊辨識。

現行有很多用於神經網路的加速器，例如，Eyeriss、張量處理單元(Tensor Processing Unit，TPU)、DianNao家族、Angel Eye和EIE。然而，對於部分加速器、張量處理單元、DaDianNao和EIE來說，由於它們需要大容量的晶載記憶體(On-Chip Memory)，不然就是需要進行大量的晶外記憶體(Off-Chip Memory)的存取，因此並不適用於低端邊緣設備。雖然Eyeriss和Angel Eye支持多元大小的檔案管理器(filer)，但由於處理單元的架構設計或乘積累加運算單元(Multiply-Accumulate Unit，MAC)上的過濾器映射(filter mapping)，導致乘積累加運算單元的利用率較低。

有鑑於此，本揭示內容提供一種卷積運算的執行方法，在執行過程中對於部分的輸入圖像、權重值和輸出圖像的資料進行重複使用，避免了從晶外記憶體或晶內記憶體重複存取相同的資料，從而提高效能。

本揭示內容的一態樣在於提供一種卷積運算的執行方法，卷積運算的執行方法由包括多個處理單元與控制器的卷積運算單元執行。卷積運算的執行方法包括以下步驟。透過控制器根據尺寸為T×T的一特徵圖塊將具有N個通道的一輸入圖像分成一第一圖塊至一第X圖塊共X個圖塊，其中每一該X個圖塊包括I _j(1,1)～I _j(T,T)共T×T個資料，其中j為對應的通道且1 ≤ j ≤ N。透過該等處理單元依序對該N個通道的該輸入圖像的該第一圖塊至該N個通道的該輸入圖像的該第X圖塊裡的資料進行卷積運算，並將運算結果儲存為輸出資料。其中，對每一圖塊，透過尺寸為A×A的一卷積核映射該圖塊裡的資料，並且對該圖塊的該映射資料進行乘積累加運算，其中每完成一次該卷積核所映射的A×A個資料的乘積累加運算便移動該卷積核以改變該圖塊的該映射資料，並對改變的該映射資料進行乘積累加運算，直到該圖塊裡的所有資料完成乘積累加運算，從而完成該圖塊的卷積運算，且所有輸出資料形成輸出圖像，其中1 ≤ A ≤ T。

在本揭示內容的一些實施例中，在A=3的情況下，對每一圖塊，用於進行乘積累加運算的該映射資料為I _j(p, q)、I _j((p+1), q) 、I _j((p+2), q) 、I _j(p, (q+1)) 、I _j((p+1), (q+1)) 、I _j((p+2), (q+1)) 、I _j(p, (q+2)) 、I _j(p+1), (q+2)) 、I _j((p+2), (q+2))，其中1 ≤ p ≤ (T-2)，1 ≤ q ≤ (T-2)；其中當p=1, q=1時，進行第一次乘積累加運算。

在本揭示內容的一些實施例中，當p≠(T-2)時，每完成一次乘積累加運算，移動該卷積核使得p的值加1，直到p = (T-2)。

在本揭示內容的一些實施例中，當p=(T-2)且q=K時，在完成該映射資料為I _j((T-2), K)、I _j((T-1), K) 、I _j(T, K)、I _j((T-2), (K+1))、I _j((T-1), (K+1)) 、I _j(T, (K+1))、I _j((T-2), (K+2))、I _j((T-1), (K+2)) 、I _j(T, (K+2))的乘積累加運算後，移動該卷積核使得p=1且q=K+1，其中1 ≤ K ≤ (T-2)。

在本揭示內容的一些實施例中，當p=(T-2)且q=(T-2)時，在完成該映射資料為I _j((T-2), (T-2))、I _j((T-1), (T-2)) 、I _j(T, (T-2))、I _j((T-2), (T-1))、I _j((T-1), (T-1)) 、I _j(T, (T-1))、I _j((T-2), T)、I _j((T-1), T) 、I _j(T, T)的乘積累加運算後，完成該圖塊裡的所有資料的乘積累加運算，不再移動該卷積核。

在本揭示內容的一些實施例中，進行卷積運算的順序為依序對該第一通道至該第N通道的該輸入圖像的該第W圖塊進行卷積運算直到該N個通道的該輸入圖像的該第W圖塊皆完成卷積運算後才對該第一通道至該第N通道的該輸入圖像的第(W+1)圖塊依序進行卷積運算，其中1 ≤ W ≤ X。

在本揭示內容的一些實施例中，其中該等處理單元的每一者包括Y個乘積累加運算單元用以進行乘積累加運算，在A=5且Y ＜ 25的情況下，對每一圖塊，用於進行乘積累加運算的該映射資料為I _j(p, q)～I _j((p+4), (q+4))共25個，其中1 ≤ p ≤ (T-4)，1 ≤ q ≤ (T-4)；當p≠(T-4)時，則對該25個映射資料中的第一個至第Y個連續的映射資料進行乘積累加運算，並在完成該乘積累加運算後，移動該卷積核使得p的值加1，並對改變的該25個映射資料中的第一個至第Y個連續的映射資料進行乘積累加運算，直到p = (T-4)。

在本揭示內容的一些實施例中，當p=(T-4)且q=K時，在完成該25個映射資料中的第一個至第Y個連續的映射資料的乘積累加運算後，移動該卷積核使得p=1且q=K+1，並對改變的該25個映射資料中的第一個至第Y個連續的映射資料進行乘積累加運算，其中1 ≤ K ≤ (T-4)。

在本揭示內容的一些實施例中，當p=(T-4)且q=(T-4)時，在完成該25個映射資料中的第一個至第Y個連續的映射資料的乘積累加運算後，在(25-Y) ＞ Y的情況下，移動該卷積核使得p=1且q=1，並在每次移動該卷積核後，對改變的該25個映射資料中的第(Y+1)個至第2Y個連續的映射資料進行乘積累加運算。

在本揭示內容的一些實施例中，當p=(T-4)且q=(T-4)時，在完成該25個映射資料中的第一個至第Y個連續的映射資料的乘積累加運算後，在(25-Y) ＜ Y的情況下，移動該卷積核使得p=1且q=1，並在每次移動該卷積核後，對改變的該25個映射資料中的第(Y+1)個至第25個連續的映射資料以及第一預設資料至第Z預設資料共Z個預設資料進行乘積累加運算，其中Z= (2Y-25)。

在本揭示內容的一些實施例中，其中該等處理單元的每一者包括Y個乘積累加運算單元用以進行乘積累加運算，在A=1且1＜ Y ＜ N的情況下，用於進行乘積累加運算的該映射資料為第一通道至第Y通道的該輸入圖像的相同位置的資料I _j(p, q)～I _Y(p, q) ，其中1 ≤ p ≤ T，1 ≤ q ≤ T。

在本揭示內容的一些實施例中，當p≠ T 時，每完成一次卷積核所映射的Y個資料的乘積累加運算，移動該卷積核使得p的值加1，直到p = T。

在本揭示內容的一些實施例中，當p=T且q=K時，在完成該Y個映射資料I _j(T, K)～ I _Y(T, K)的乘積累加運算後，移動該卷積核使得p=1且q=K+1，其中1 ≤ K ≤ (T-1)。

在本揭示內容的一些實施例中，當p=T且q=T時，在完成該Y個映射資料I _j(T, T)～I _Y(T, T)的乘積累加運算後，在(N-Y) ＞ Y的情況下，移動該卷積核使得p=1且q=1，並且用於進行乘積累加運算的該映射資料為第(Y+1)通道至第2Y通道的該輸入圖像的相同位置的資料I _(Y+1)(p, q)～I _Y(p, q)。

在本揭示內容的一些實施例中，當p=T且q=T時，在完成該Y個映射資料I _j(T, T)～I _Y(T, T)的乘積累加運算後，在(N-Y) ＜ Y的情況下，移動該卷積核使得p=1且q=1，並且用於進行乘積累加運算的該映射資料為第(Y+1)通道至第N通道的該輸入圖像的相同位置的資料I _(Y+1)(p, q)～I _N(p, q)以及第一預設資料至第F資料共F個預設資料，其中F = 2Y-N。

在本揭示內容的一些實施例中，每完成一次該卷積核所映射的的資料的乘積累加運算後，將完成的乘積累加運算結果與一部分和值以得到該運算結果，並將該部分和值的值更新為該運算結果的值。

綜上所述，透過本揭示內容的卷積運算的執行方法，在執行過程中對於部分的輸入圖像、權重值和輸出圖像的資料進行重複使用，避免了從晶外記憶體或晶內記憶體重複存取相同的資料，從而最大限度地提高效能，因此可實現較佳的乘積累加運算單元利用率和減少從晶外記憶體存取資料的時間，從而提升了卷積運算單元的效能。

為了讓本發明之上述及其他目的、特徵、優點能更明顯易懂，下文將特舉本發明較佳實施例，並配合所附圖式，作詳細說明如下。

如第1圖所示，第1圖是根據本發明一實施例繪示的一種卷積運算單元100的架構示意圖。卷積運算單元100可包括處理單元陣列(Processing unit array)110、記憶體單元130以及控制器150。處理單元陣列110包括多個一維的處理單元(Processing unit)111，其分別配置根據控制器150所接收的來自中央處理單元170的指令進行卷積運算，例如第2圖所示的卷積運算的執行方法200。在一實施例中，每個處理單元111皆包括多個乘積累加運算單元(Multiply-Accumulate Unit，MAC) (圖未繪示)用以執行乘積累加運算。記憶體單元130為晶載記憶體(On-Chip Memory)，其包括輸入資料記憶體131、權重記憶體133及輸出資料記憶體135。輸入資料記憶體131配置為根據控制器150所接收的來自中央處理單元170的指令存取儲存在卷積運算單元100外部的晶外記憶體(Off-Chip Memory)190的所需進行卷積運算的輸入資料(例如輸入圖像(Input Image))。權重記憶體133配置為根據控控制器150所接收的來自中央處理單元170的指令存取儲存在卷積運算單元100外部的晶外記憶體190的所需進行卷積運算的卷積核(Kernel)K1～K32，其中卷積核根據尺寸(size)的不同而包括不同數量的權重值(weight)。輸出資料記憶體135配置為儲存經由處理單元陣列110進行卷積運算後所得到的運算結果，即第一輸出資料～第三十二輸出資料，這些輸出資料可形成對應的輸出圖像(Output Image)。

在一實施例中，卷積運算單元100和晶外記憶體190之間還配置有第一緩衝器(buffer)191、第二緩衝器193和第三緩衝器195。用於進行卷積運算所需的輸入資料可先由第一緩衝器191對晶外記憶體190進行存取並儲存在第一緩衝器191，而輸入資料記憶體131可直接從第一緩衝器191存取這些資料。用於進行卷積運算所需的卷積核/權重值可先由第二緩衝器193對晶外記憶體190進行存取並儲存在第二緩衝器193，而權重記憶體133可直接從第二緩衝器191存取這些卷積核/權重值。輸出資料記憶體135可將處理單元陣列110進行卷積運算後所得到的輸出圖像先儲存在第三緩衝器195，而第三緩衝器195再將這些結果資料儲存在晶外記憶體190。

請一併參照第2圖，第2圖是根據本發明一實施例繪示的卷積運算的執行方法200的流程圖。在本實施例中，卷積運算的執行方法200透過卷積運算單元100執行。在本實施例中，處理單元陣列110所包括的處理單元111的數量可為32個，可一次平行執行32個卷積運算，並且產生32個輸出資料。每個處理單元111可包括9個乘積累加運算單元，亦即，卷積運算單元100包括288個乘積累加運算單元。卷積核的數量同樣為32個(例如K1～K32)，分別對應32個處理單元111。每個卷積核根據其尺寸包含不同數量的權重值，且每個卷積核裡的權重值彼此不一定相同。

在卷積運算的執行方法200的過程中，其對於部分的輸入圖像、權重值和輸出圖像的資料進行重複使用，避免了從晶外記憶體或晶內記憶體重複存取相同的資料，從而最大限度地提高效能，因此可實現較佳的乘積累加運算單元的利用率和減少從晶外記憶體進行資料存取的時間，從而提升卷積運算單元100的效能。

卷積運算的執行方法200包括步驟S210～S250，其中根據卷積核的尺寸的不同，步驟中的細節會有些不同，其將進一步於之後說明。在步驟S210中，透過控制器150根據尺寸為T×T的特徵圖塊(Feature Tile)將具有N個通道的輸入圖像(Input Image)分成第一圖塊至第X圖塊，共X個圖塊，其中每個圖塊包括I _j(1,1)～I _j(T,T)共T×T個資料，其中j為對應的通道且1 ≤ j ≤ N (可參考第3A圖)。在步驟S230中，透過處理單元111依序對N個通道的輸入圖像的第一圖塊至N個通道的輸入圖像的第X圖塊裡的資料進行卷積運算，並將運算結果儲存為輸出資料。在步驟S250中，對每一圖塊，透過尺寸為A×A的卷積核映射圖塊裡的資料，並且對圖塊的映射資料進行乘積累加運算。其中，每完成一次卷積核所映射的A×A個資料的乘積累加運算便移動該卷積核以改變該圖塊的映射資料，並對改變的映射資料進行乘積累加運算，直到該圖塊裡的所有資料完成乘積累加運算，從而完成該圖塊的卷積運算，且所有輸出資料形成輸出圖像，其中1 ≤ A ≤ T。

請一併參照第3A圖-第3H圖，第3A圖-第3H圖分別是根據本發明的第一實施例的卷積運算的執行方法200的對應步驟的示意圖。由於本實施例的每個處理單元111包括9個乘積累加運算單元，可平行進行一組3×3卷積核的乘積累加運算，因此較佳的卷積核尺寸為3×3(亦即，包含9個權重值)，但對於不同尺寸的卷積核本揭示內容亦有對應的優化流程，將於之後進一步敘述。現在先對本實施例中的尺寸為3×3的卷積核進行說明。

如第3A圖所示，對應於步驟S210，將尺寸為H×L×N的輸入圖像根據尺寸為T×T的特徵圖塊的分成多個圖塊，其中H為輸入圖像的高度、L為輸入圖像的寬度、N為輸入圖像的通道(channel)(或稱深度)。因此，對於每一個通道(即第一通道至第N通道)的H×L的輸入圖像，皆可分成相同數量(例如X個)且尺寸為T×T的圖塊。在本實施例中，特徵圖塊的尺寸為52×52(即T=52)。

接著，對應於步驟S230和步驟S250，如第3B圖至第3F圖所示。當輸入圖像的尺寸為H×L×N，則對於第一通道的輸入圖像來說，其包括了I ₁(1, 1)～I ₁(L, H)共H×L個待運算的資料。對於第N通道的輸入圖像來說，其包括了I _N(1, 1)～I _N(L, H)共H×L個待運算的資料。由於先前根據T×T的特徵圖塊將H×L×N的輸入圖像分成多個圖塊，則每個通道的第一圖塊包括了I _j(1,1)～I _j(T,T) 共T×T個待運算的資料，j為通道且1 ≤ j ≤ N。類似地，每個通道的第二個圖塊包括了I _j(T+1,1)～I _j(2T,2T)待運算的資料，以此類推。

在一實施例中，由於每個輸入圖像的尺寸可能不同，導致根據尺寸為T×T的特徵圖塊所分成的所有圖塊中的部分圖塊無法全部包含輸入圖像的資料。因此，對於被分成的圖塊對應沒包含輸入圖像的資料的位置(或是像素)，則這些位置的資料會被填入預設資料。在一實施例中，預設資料為0。

舉例來說，對於尺寸為10×10的輸入圖像，其可包含I _j(1,1)～I _j(10,10)共100個輸入資料。若特徵圖塊的尺寸為3×3，則可以分成16個圖塊，其中第4個圖塊僅包含了輸入圖像的I _j(10, 1)、I _j(10, 2)、I _j(10, 3)共3個資料分別對應於第4個圖塊的(1,1), (1,2), (1,3)的位置，而對應於第4個圖塊的(2,1), (2,2), (2,3), (3,1), (3,2), (3,3)的位置的資料則皆為0。類似地，對於第16個圖塊，僅包含了輸入圖像的一個資料I _j(10, 10)對應於第16個圖塊的(1,1)的位置，而對應於第16個圖塊的剩餘位置的資料則皆為0。

接著，如第3B圖所示，透過卷積核映射圖塊裡的資料，並且對所述圖塊裡的映射資料進行乘積累加運算。在本實施例中，卷積核的尺寸為3×3，因此映射資料可為I _j(p, q)、I _j((p+1), q) 、I _j((p+2), q) 、I _j(p, (q+1)) 、I _j((p+1), (q+1)) 、I _j((p+2), (q+1)) 、I _j(p, (q+2)) 、I _j(p+1), (q+2)) 、I _j((p+2), (q+2))共9筆資料，其中1 ≤ p ≤ (T-2)，1 ≤ q ≤ (T-2)。一般來說，第一次乘積累加運算的進行通常是對圖塊的第一個資料(亦即，I _j(1,1))依序開始進行，因此第一圖塊裡的第一筆被卷積核所映射的資料可為I ₁(1,1)、I ₁(2,1)、I ₁(3,1)、I ₁(1,2)、I ₁(2,2)、I ₁(3,2)、I ₁(1,3)、I ₁(2,3)、I ₁(3,3)，亦即p=1且 q=1。這九個資料均會傳送到處理單元陣列110裡的32個處理單元111進行運算，其中每個處理單元111會利用9個乘積累加運算單元根據對應的卷積核K1～K32裡的權重值對這9個資料分別進行乘法後再相加(即乘積累加運算)。在一些實施例中，在完成乘積累加運算後，處理單元111會進一步將乘積累加運算結果和部分和值Psum相加後所得到的運算結果作為輸出資料儲存在輸出資料記憶體135，並將部分和值Psum的值更新為所得到的運算結果的值。在本實施例中，對於第一通道的輸入圖像來說，其對應的第一輸出結果如下： P ₀=I ₁(1,1)*W0+I ₁(2,1)*W1+I ₁(3,1)*W2+I ₁(1,2)*W3+I ₁(2,2)*W4+I ₁(3,2)*W5+I ₁(1,3)*W6+I ₁(2,3)*W7+I ₁(3,3)*W8+Psum 由於部分和值Psum在此之前並未有進行運算，因此預設為0。由於有32個處理單元111，因此此9筆資料會同時運算並得到32個第一輸出資料P ₀。

接著，如第3C圖至第3D圖所示，當p≠(T-2)時，每完成一次乘積累加運算，移動該卷積核使得p的值加1，直到p = (T-2)。具體來說，將卷積核於第一圖塊右移一個資料單位使其映射的資料右移一個單位，並對改變的9筆映射資料進行乘積累加運算。如第3C圖所示，此時所映射的9個資料分別為I ₁(2,1)、I ₁(3,1)、I ₁(4,1)、I ₁(2,2)、I ₁(3,2)、I ₁(4,2)、I ₁(2,3)、I ₁(3,3)、I ₁(4,3)。由於卷積核僅右移一個單位，本次運算的部分輸入資料與前次運算的部分輸入資料相同，因此只需要存取新增的資料(即I ₁(4,1)、I ₁(4,2)、I ₁(4,3))即可。此外，這9筆資料同樣傳送到每個處理單元111，同樣由相同的卷積核裡的權重值進行運算，因此不需要再重新存取卷積核裡的權重值。同樣地，處理單元111對這9筆資料完成乘積累加運算後的結果再與部分和值Psum(此時為前一次的運算結果)相加，所得到的運算結果作為第一通道的輸出圖像的第二輸出資料P ₁，並且同樣將部分和值Psum的值更新為現在的運算結果的值。換句話說，透過更新部分和值Psum，輸出資料亦重複使用，而不必再存取前一次的運算結果。

接著，如第3E圖所示，當p=(T-2)且q=K時，在完成該映射資料為I _j((T-2), K)、I _j((T-1), K) 、I _j(T, K)、I _j((T-2), (K+1))、I _j((T-1), (K+1)) 、I _j(T, (K+1))、I _j((T-2), (K+2))、I _j((T-1), (K+2)) 、I _j(T, (K+2))的乘積累加運算後，移動卷積核使得p=1且q=K+1，其中1 ≤ K ≤ (T-2)。具體來說，當卷積核所映射的圖塊的三行資料(例如，I ₁(1,1)～I ₁(T,1)、I ₁(1,2)～I ₁(T,2)、I ₁(1,3)～I ₁(T,3))都完成乘積累加運算時，便移動卷積核至下一行的資料，亦即，將卷積核下移一個資料單位並回到圖塊的第一列至第三列。

根據上述的規則右移或下移卷積核，直到p=(T-2)且q=(T-2)時，如第3F圖所示，此時卷積核所映射的資料為第一圖塊裡最後一筆待運算的資料，因此，在完成該映射資料為I _j((T-2), (T-2))、I _j((T-1), (T-2)) 、I _j(T, (T-2))、I _j((T-2), (T-1))、I _j((T-1), (T-1)) 、I _j(T, (T-1))、I _j((T-2), T)、I _j((T-1), T) 、I _j(T, T)的乘積累加運算後，第一圖塊裡的所有資料的乘積累加運算便已完成，也就是第一圖塊已完成卷積運算，因此不須再移動卷積核。此時，處理單元111可產生第2704輸出資料(T=52的情況下)，並且根據先前所產生的所有輸出資料可形成輸出圖像。

接著，如第3G圖所示，在完成了第一通道的輸入圖像的第一圖塊的卷積運算後，接著根據上述的規則依序對第二通道的輸入圖像的第一圖塊裡進行卷積運算，直到第N通道的輸入圖像的第一圖塊完成卷積運算。當N個通道的的輸入圖像的第一圖塊料皆完成卷積運算後，接著回到第一通道的輸入圖像，並根據上述的規則依序對第二圖塊進行卷積運算(如第3H圖所示)，直到N個通道的輸入圖像的所有圖塊皆完成卷積運算。

簡言之，在卷積核的尺寸(即權重值的數量)等於每個處理單元111所包括的乘積累加運算單元的數量的情況，進行卷積運算的順序為依序對該第一通道至該第N通道的該輸入圖像的該第W圖塊進行卷積運算直到該N個通道的該輸入圖像的該第W圖塊皆完成卷積運算後才對該第一通道至該第N通道的該輸入圖像的第(W+1)圖塊依序進行卷積運算，其中1 ≤ W ≤ X。

透過上述的方法，在運算過程中對於部分的輸入圖像、權重值和輸出圖像的資料進行重複使用，避免了從晶外記憶體或晶內記憶體重複存取相同的資料，從而最大限度地提高效能，因此可實現較佳的乘積累加運算單元利用率和減少從晶外記憶體存取資料的時間，從而提升了卷積運算單元100的效能。

請參考第4A圖～第4F圖，第4A圖～第4F圖分別是根據本發明的第二實施例的卷積運算的執行方法200的對應步驟的示意圖。在本實施例中，卷積核的尺寸為5×5。為了方便說明，本示例顯示的T為6，但實際上應為52。

如圖4A所示，同樣地，根據特徵圖塊的尺寸將每個通道的輸入圖像的資料分成多個圖塊，對於每個通道的輸入圖像的第一圖塊來說，由於卷積核的尺寸為5×5，因此映射資料為I _j(p, q)～I _j((p+4), (q+4))共25個，其中1 ≤ p ≤ (T-4)，1 ≤ q ≤ (T-4)。需注意的是，在本實施例中因為卷積核的尺寸為5×5，因此每個卷積核包括25個權重值W0～W24。然而，由於本實施例中每個處理單元111包括的乘積累加運算單元的數量(例如Y個，Y=9)小於權重值的數量，因此並無法同一時間對這25個資料進行乘積累加運算。在一實施例中，從這25個映射資料挑選9個映射資料來進行運算。

因此，在本實施例中，如第4A圖所示，對25個映射資料中的第一個至第Y個連續的映射資料(在本例中即第一個至第九個映射資料)進行乘積累加運算，並在完成該乘積累加運算後，移動卷積核使得p的值加1(亦即，將卷積核右移一個資料單位)，如第4B圖所示，並對改變的25個映射資料中同樣的第一個至第Y個連續的映射資料進行乘積累加運算，直到p = (T-4)。

須說明的是，對於第4A圖所選出的9個資料分別對應到權重值W0～W8。然而，若是要從接下來的9個資料進行運算(如第4E圖所示)，則所述9個資料對應到的權重值為W9～W17，意味著必須要重新從晶外記憶體190或是第二緩衝器193存取這些權重值為W9～W17，導致等待資料存取的時間變長，造成效能降低。因此在本實施例中，針對卷積核的尺寸大於處理單元的乘積累加運算單元的數量的情況下，並不等到卷積核所映射的所有資料完成乘積累加運算後才移動卷積核，而是每完成一次乘積累加運算後便移動卷積核，以避免等待存取新的權重值的時間。

接著，如第4C圖所示，當p=(T-4)且q=K時，在完成該次的乘積累加運算後，移動該卷積核使得p=1且q=K+1(亦即，將卷積核下移一個資料單位並回到第一列)，並對改變的該25個映射資料中的第一個至第Y個連續的映射資料進行乘積累加運算，其中1 ≤ K ≤ (T-4)。

當p=(T-4)且q=(T-4)時，在完成該次的乘積累加運算後，在(25-Y) ＞ Y的情況下，移動該卷積核使得p=1且q=1，並在每次移動該卷積核後，對改變的該25個映射資料中的第(Y+1)個至第2Y個連續的映射資料進行乘積累加運算。具體來說，當卷積核裡剩下的尚未運算的權重值的數量(即(25-Y))還大於乘積累加運算單元的數量(Y)的情況下，仍然無法一次完成剩下的映射資料的運算，因此此時便回到最初的25個映射資料並對第(Y+1)個至第2Y個連續的映射資料(本例中為第10個至第18個映射資料)進行乘積累加運算，並根據上述的規則移動卷積核。

當p=(T-4)且q=(T-4)時，在完成該次的乘積累加運算後，在(25-Y) ＜ Y的情況下，移動卷積核使得p=1且q=1，並在每次移動該卷積核後，對改變的該25個映射資料中的第(Y+1)個至第25個連續的映射資料以及第一預設資料至第Z預設資料共Z個預設資料進行乘積累加運算，其中Z= (2Y-25)。具體來說，當卷積核裡剩下的尚未運算的權重值的數量(即(25-Y))已經小於乘積累加運算單元的數量(Y)的情況下，便可一次完成剩下的映射資料的運算，然而有可能乘積累加運算單元的數量會大於剩下的權重值的數量，為了避免部分的乘積累加運算單元沒有使用到，在這樣的情況下便會提供預設資料給部分的乘積累加運算單元，預設資料的數量為Z個，且值預設為0，其中Z = 乘積累加運算單元的數量(Y)減去尚未計算的權重值的數量。

同樣地，在完成了第一通道的輸入圖像的第一圖塊裡的所有資料的乘積累加運算後，也就是完成第一圖塊的卷積運算，接著根據上述的規則依序對第二通道的輸入圖像的第一圖塊進行卷積運算，直到第N通道的輸入圖像的第一圖塊皆完成卷積運算。當N個通道的的輸入圖像的第一圖塊皆完成卷積運算後，接著回到第一通道的輸入圖像，並根據上述的規則依序對第二圖塊進行卷積運算，直到N個通道的輸入圖像的所有圖塊皆完成卷積運算。

簡言之，在卷積核的尺寸大於每個處理單元111所包括的乘積累加運算單元的數量的情況，進行卷積運算的順序為依序對該第一通道至該第N通道的該輸入圖像的該第W圖塊進行卷積運算直到該N個通道的該輸入圖像的該第W圖塊皆完成卷積運算後才對該第一通道至該第N通道的該輸入圖像的第(W+1)圖塊依序進行卷積運算，其中1 ≤ W ≤ X。

第3A圖至第3H圖示出了卷積核的尺寸(即權重值的數量)等於每個處理單元111所包括的乘積累加運算單元的數量的情況。第4A圖至第4F圖示出了卷積核的尺寸大於每個處理單元111所包括的乘積累加運算單元的數量的情況。以下將針對卷積核的尺寸小於每個處單元111所包括的乘積累加運算單元的數量的情況。

請參考第5A圖～第5D圖，第5A圖～第5D圖分別是根據本發明的第三實施例的卷積運算方法200的對應步驟的示意圖。在本實施例中，卷積核的尺寸為1×1。

如圖5A所示，由於卷積核包括的權重值只有1個，因此此時若根據上述方法由處理單元111的多個乘積累加運算單元同時對卷積核所映射的資料進行運算，會造成大量的乘積累加運算單元沒有利用到，效能大幅降低。因此，在本實施例中，卷積核所映射的資料包括第一通道至第Y通道的輸入圖像的相同位置的資料I _j(p, q)～I _Y(p, q) ，其中1 ≤ p ≤ T，1 ≤ q ≤ T，且Y為每個處理單元111所包括的乘積累加運算單元的數量。當p≠ T 時，每完成一次該卷積核所映射的Y個資料的乘積累加運算後，移動卷積核使得p的值加1，直到p = T。例如，在本例中，Y = 9，因此進行第一次運算的映射資料為I ₁(1,1)～I ₉(1,1)，而進行第一次運算的映射資料為I ₁(2,1)～I ₉(2,1)，以此類推。

當p = T且q = K時，在完成映射資料為I _j(T, K)、I _(j+1)(T, K) 、I _(j+2)(T, K)、…、I _Y(T, K)的乘積累加運算後，移動卷積核使得p=1且q=K+1，其中1 ≤ K ≤ (T-1)。

當p = T且q = T時，在完成該映射資料為I _j(T, K)、I _(j+1)(T, K) 、I _(j+2)(T, K)、…、I _Y(T, K)的乘積累加運算後，在(N-Y) ＞ Y的情況下，移動卷積核使得p=1且q=1，並且用於進行乘積累加運算的映射資料為第(Y+1)通道至第2Y通道的輸入圖像的相同位置的資料I _(Y+1)(p, q)～I _2Y(p, q)。當剩下的尚未進行運算的通道的輸入圖像的數量還大於乘積累加運算單元的數量的情況下，由於無法一次完成剩下的輸入圖像的相同位置的資料的運算，因此便繼續依序從第(Y+1)通道至第2Y通道的輸入圖像的相同位置的資料I _(Y+1)(p, q)～I _Y(p, q)進行乘積累加運算。

另一方面，在(N-Y) ＜ Y的情況下(例如本例，N=13且Y=9)，由於剩下的尚未進行運算的通道的輸入圖像的數量已經小於乘積累加運算單元的數量，因此可一次可完成剩下的通道的輸入圖像的相同位置的資料的運算。然而，類似於卷積核的尺寸為5×5的情況，在此例中，剩下的通道數可能小於乘積累加運算單元的數量，為了避免部分的乘積累加運算單元沒有使用到，因此在這樣的情況下便會提供預設資料給部分的乘積累加運算單元，預設資料的數量為F個，且值預設為0，其中F = 乘積累加運算單元的數量(Y)減去尚未計算的通道的數量(N-Y)，例如，在本例中，F =5。

請參照第6A圖～第6C圖。第6A圖是根據本發明的一些實施例的對YOLOv3-tiny使用卷積運算的執行方法200的實驗結果，第6B圖是根據本發明的一些實施例的對VGG16使用卷積運算的執行方法200的實驗結果，第6C圖是根據本發明的一些實施例的對AlexNet使用卷積運算的執行方法200的實驗結果。從第6B圖跟第6C圖可清楚看出，在卷積核的尺寸為3×3或更高的情況下(亦即，權重值的數量等於或大於每個處理單元所包括的乘積累加運算單元的數量)，使用卷積運算方法200的處理單元和乘積累加運算單元的使用率幾乎都接近100%，因此處理器的使用率可提升到幾乎上限，得以被有效地運用。從第6A圖則可發現，即便是卷積核的尺寸為1×1(亦即，權重值的數量小於每個處理單元所包括的乘積累加運算單元的數量)，累加運算單元的使用率從11.11%提升至98%以上，使用率是大幅度地提升。

綜上所述，透過本發明的卷積運算方法200，在執行過程中對於部分的輸入圖像、權重值和輸出圖像的資料進行重複使用，避免了從晶外記憶體或晶內記憶體重複存取相同的資料，從而最大限度地提高效能，因此可實現較佳的乘積累加運算單元利用率和減少從晶外記憶體存取資料的時間，從而提升了卷積運算單元100的效能。

雖然本發明已以較佳實施例揭露，然其並非用以限制本發明，任何熟習此項技藝之人士，在不脫離本發明之精神和範圍內，當可作各種更動與修飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者爲準。

100:卷積運算單元 110:處理單元陣列 111:處理單元 130:晶載記憶體 131:輸入資料記憶體 133:權重記憶體 135:輸出資料記憶體 150:控制器 170:中央處理單元 190:晶外記憶體 191:第一緩衝器 193:第二緩衝器 195:第三緩衝器 K1～K32:卷積核 200:卷積運算的執行方法 S210、S230、S250:步驟

第1圖是根據本發明一實施例繪示的一種卷積運算單元的架構示意圖。第2圖是根據本發明一實施例繪示的卷積運算的執行方法的流程圖。第3A圖～第3H圖分別是根據本發明的第一實施例的卷積運算的執行方法的對應步驟的示意圖。第4A圖～第4F圖分別是根據本發明的第二實施例的卷積運算的執行方法的對應步驟的示意圖。第5A圖～第5D圖分別是根據本發明的第三實施例的卷積運算的執行方法的對應步驟的示意圖第6A圖是根據本發明的一些實施例的對YOLOv3-tiny使用卷積運算的執行方法的實驗結果。第6B圖是根據本發明的一些實施例的對VGG16使用卷積運算的執行方法的實驗結果。第6C圖是根據本發明的一些實施例的對AlexNet使用卷積運算的執行方法的實驗結果。

200:卷積運算的執行方法

S210、S230、S250:步驟

Claims

一種卷積運算的執行方法，由一卷積運算單元執行，該卷積運算單元包括多個處理單元與一控制器，其中該卷積運算的執行方法包括：透過該控制器根據尺寸為T×T的一特徵圖塊將具有N個通道的一輸入圖像分成一第一圖塊至一第X圖塊共X個圖塊，其中每一該X個圖塊包括I_j(1,1)~I_j(T,T)共T×T個資料，其中j為對應的通道且1
j
N；及透過該等處理單元依序對該N個通道的該輸入圖像的該第一圖塊至該N個通道的該輸入圖像的該第X圖塊裡的資料進行卷積運算，並將運算結果儲存為輸出資料；其中對每一圖塊，透過尺寸為A×A的一卷積核映射該圖塊裡的資料，並且對該圖塊的該映射資料進行乘積累加運算，其中每完成一次該卷積核所映射的A×A個資料的乘積累加運算便移動該卷積核以改變該圖塊的該映射資料，並對改變的該映射資料進行乘積累加運算，直到該圖塊裡的所有資料完成乘積累加運算，從而完成該圖塊的卷積運算，且所有輸出資料形成輸出圖像，其中1
A
T；其中在A=3的情況下，對每一圖塊，用於進行乘積累加運算的該映射資料為I_j(p,q)、I_j((p+1),q)、I_j((p+2),q)、I_j(p,(q+1))、I_j((p+1),(q+1))、I_j((p+2),(q+1))、I_j(p,(q+2))、I_j(p+1),(q+2))、I_j((p+2),(q+2))，其中1
p
(T-2)，1
q
(T-2)；其中當p=1,q=1時，進行第一次乘積累加運算。
如請求項1所述的卷積運算的執行方法，當p≠(T-2)時，每完成一次乘積累加運算，移動該卷積核使得p的值加1，直到p=(T-2)。
如請求項2所述的卷積運算的執行方法，當p=(T-2)且q=K時，在完成該映射資料為I_j((T-2),K)、I_j((T-1),K)、I_j(T,K)、I_j((T-2),(K+1))、I_j((T-1),(K+1))、I_j(T,(K+1))、I_j((T-2),(K+2))、I_j((T-1),(K+2))、I_j(T,(K+2))的乘積累加運算後，移動該卷積核使得p=1且q=K+1，其中1
K
(T-2)。
如請求項3所述的卷積運算的執行方法，當p=(T-2)且q=(T-2)時，在完成該映射資料為I_j((T-2),(T-2))、I_j((T-1),(T-2))、I_j(T,(T-2))、I_j((T-2),(T-1))、I_j((T-1),(T-1))、I_j(T,(T-1))、I_j((T-2),T)、I_j((T-1),T)、I_j(T,T)的乘積累加運算後，完成該圖塊裡的所有資料的乘積累加運算，不再移動該卷積核。
如請求項1所述的卷積運算的執行方法，其中進行卷積運算的順序為依序對該第一通道至該第N通道的該輸入圖像的該第W圖塊進行卷積運算直到該N個通道的該輸入圖像的該第W圖塊皆完成卷積運算後才對該第一通道至該第N通道的該輸入圖像的第(W+1)圖塊依序進行卷積運算，其中1
W
X。
一種卷積運算的執行方法，由一卷積運算單元執行，該卷積運算單元包括多個處理單元與一控制器，其中該卷積運算的執行方法包括：透過該控制器根據尺寸為T×T的一特徵圖塊將具有N個通道的一輸入圖像分成一第一圖塊至一第X圖塊共X個圖塊，其中每一該X個圖塊包括I_j(1,1)~I_j(T,T)共T×T個資料，其中j為對應的通道且1
j
N；及透過該等處理單元依序對該N個通道的該輸入圖像的該第一圖塊至該N個通道的該輸入圖像的該第X圖塊裡的資料進行卷積運算，並將運算結果儲存為輸出資料；其中對每一圖塊，透過尺寸為A×A的一卷積核映射該圖塊裡的資料，並且對該圖塊的該映射資料進行乘積累加運算，其中每完成一次該卷積核所映射的A×A個資料的乘積累加運算便移動該卷積核以改變該圖塊的該映射資料，並對改變的該映射資料進行乘積累加運算，直到該圖塊裡的所有資料完成乘積累加運算，從而完成該圖塊的卷積運算，且所有輸出資料形成輸出圖像，其中1
A
T；其中該等處理單元的每一者包括Y個乘積累加運算單元用以進行乘積累加運算，在A=5且Y<25的情況下，對每一圖塊，用於進行乘積累加運算的該映射資料為I_j(p,q)~I_j((p+4),(q+4))共25個，其中1
p
(T-4)，1
q
(T-4)；當p≠(T-4)時，則對該25個映射資料中的第一個至第Y個連續的映射資料進行乘積累加運算，並在完成該乘積累加運算後，移動該卷積核使得p的值加1，並對改變的該25個映射資料中的第一個至第Y個連續的映射資料進行乘積累加運算，直到p=(T-4)。
如請求項6所述的卷積運算的執行方法，當p=(T-4)且q=K時，在完成該25個映射資料中的第一個至第Y個連續的映射資料的乘積累加運算後，移動該卷積核使得p=1且q=K+1，並對改變的該25個映射資料中的第一個至第Y個連續的映射資料進行乘積累加運算，其中1
K
(T-4)。
如請求項7所述的卷積運算的執行方法，當p=(T-4)且q=(T-4)時，在完成該25個映射資料中的第一個至第Y個連續的映射資料的乘積累加運算後，在(25-Y)>Y的情況下，移動該卷積核使得p=1且q=1，並在每次移動該卷積核後，對改變的該25個映射資料中的第(Y+1)個至第2Y個連續的映射資料進行乘積累加運算。
如請求項8所述的卷積運算的執行方法，當p=(T-4)且q=(T-4)時，在完成該25個映射資料中的第一個至第Y個連續的映射資料的乘積累加運算後，在(25-Y)<Y的情況下，移動該卷積核使得p=1且q=1，並在每次移動該卷積核後，對改變的該25個映射資料中的第(Y+1)個至第25個連續的映射資料以及第一預設資料至第Z預設資料共Z個預設資料進行乘積累加運算，其中Z=2Y-25。
如請求項6所述的卷積運算的執行方法，其中進行卷積運算的順序為依序對該第一通道至該第N通道的該輸入圖像的該第W圖塊進行卷積運算直到該N個通道的該輸入圖像的該第W圖塊皆完成卷積運算後才對該第一通道至該第N通道的該輸入圖像的第(W+1)圖塊依序進行卷積運算，其中1
W
X。
一種卷積運算的執行方法，由一卷積運算單元執行，該卷積運算單元包括多個處理單元與一控制器，其中該卷積運算的執行方法包括：透過該控制器根據尺寸為T×T的一特徵圖塊將具有N個通道的一輸入圖像分成一第一圖塊至一第X圖塊共X個圖塊，其中每一該X個圖塊包括I_j(1,1)~I_j(T,T)共T×T個資料，其中j為對應的通道且1
j
N；及透過該等處理單元依序對該N個通道的該輸入圖像的該第一圖塊至該N個通道的該輸入圖像的該第X圖塊裡的資料進行卷積運算，並將運算結果儲存為輸出資料；其中對每一圖塊，透過尺寸為A×A的一卷積核映射該圖塊裡的資料，並且對該圖塊的該映射資料進行乘積累加運算，其中每完成一次該卷積核所映射的A×A個資料的乘積累加運算便移動該卷積核以改變該圖塊的該映射資料，並對改變的該映射資料進行乘積累加運算，直到該圖塊裡的所有資料完成乘積累加運算，從而完成該圖塊的卷積運算，且所有輸出資料形成輸出圖像，其中1
A
T；其中該等處理單元的每一者包括Y個乘積累加運算單元用以進行乘積累加運算，在A=1且1<Y<N的情況下，用於進行乘積累加運算的該映射資料為第一通道至第Y通道的該輸入圖像的相同位置的資料I_j(p,q)~I_Y(p,q)，其中1
p
T，1
q
T。
如請求項11所述的卷積運算的執行方法，當p≠T時，每完成一次該卷積核所映射的Y個資料的乘積累加運算，移動該卷積核使得p的值加1，直到p=T。
如請求項12所述的卷積運算的執行方法，當p=T且q=K時，在完成該Y個映射資料I_j(T,K)~I_Y(T,K)的乘積累加運算後，移動該卷積核使得p=1且q=K+1，其中1
K
(T-1)。
如請求項13所述的卷積運算的執行方法，當p=T且q=T時，在完成該Y個映射資料I_j(T,T)~I_Y(T,T)的乘積累加運算後，在(N-Y)>Y的情況下，移動該卷積核使得p=1且q=1，並且用於進行乘積累加運算的該映射資料為第(Y+1)通道至第2Y通道的該輸入圖像的相同位置的資料I_(Y+1)(p,q)~I_2Y(p,q)。
如請求項13所述的卷積運算的執行方法，當p=T且q=T時，在完成該Y個映射資料I_j(T,T)~I_Y(T,T)的乘積累加運算後，在(N-Y)<Y的情況下，移動該卷積核使得p=1且q=1，並且用於進行乘積累加運算的該映射資料為第(Y+1)通道至第N通道的該輸入圖像的相同位置的資料I_(Y+1)(p,q)~I_N(p,q)以及第一預設資料至第F資料共F個預設資料，其中F=2Y-N。
如請求項1、6或11所述的卷積運算的執行方法，其中每完成一次該卷積核所映射的的資料的乘積累加運算後，將完成的乘積累加運算結果與一部分和值以得到該運算結果，並將該部分和值的值更新為該運算結果的值。