TW202137040A - 無資料對抗式知識蒸餾的方法及系統 - Google Patents

無資料對抗式知識蒸餾的方法及系統 Download PDF

Info

Publication number
TW202137040A
TW202137040A TW110109481A TW110109481A TW202137040A TW 202137040 A TW202137040 A TW 202137040A TW 110109481 A TW110109481 A TW 110109481A TW 110109481 A TW110109481 A TW 110109481A TW 202137040 A TW202137040 A TW 202137040A
Authority
TW
Taiwan
Prior art keywords
output
generator
network
data
teacher
Prior art date
Application number
TW110109481A
Other languages
English (en)
Inventor
崔志煥
正元 李
哈米 莫斯塔法 伊爾
崔裕鎭
Original Assignee
南韓商三星電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/021,686 external-priority patent/US20210295173A1/en
Application filed by 南韓商三星電子股份有限公司 filed Critical 南韓商三星電子股份有限公司
Publication of TW202137040A publication Critical patent/TW202137040A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種無資料對抗式知識蒸餾的方法及系統。方法包含:在產生器處接收隨機輸入;在產生器處產生接收到的隨機輸入的合成輸出;在教師網路處接收合成輸出;在學生網路處接收合成輸出;最小化教師網路的輸出與學生網路的輸出之間的距離的最大值;以及約束產生器。

Description

無資料對抗式知識蒸餾的方法及系統
本揭露大體上是關於使用知識蒸餾的神經網路。 [優先權]
本申請案是基於2020年3月23日申請的且申請序列號為第62/993,258號的美國臨時專利申請案且主張所述美國臨時專利申請案的優先權,其全部內容以引用之方式併入本文中。
深度學習目前在各種電腦視覺任務中引領許多效能突破。深度學習的現代化效能伴隨著過度參數化的深度神經網路,其使得能夠在對極大資料集進行訓練時針對目標任務自動地擷取資料的有用表示(特徵)。運用隨機梯度下降的深度神經網路的最佳化框架近來已運用使用專門用於矩陣/張量運算的硬體單元(諸如圖形處理單元(graphical processing unit;GPU))的反向傳播技術而變得極為快速且高效。經驗表明,過度參數化的益處是深度學習的巨大成功的關鍵因素,但經過良好訓練的高準確度模型一經發現,其在各種推理平台上的部署就面臨不同要求及挑戰。特定而言,為將經過預先訓練的模型部署於諸如行動器件或邊緣器件的資源受限平台上,運算成本及記憶要求為需謹慎考慮高效推理的關鍵因素。因此,模型壓縮(亦稱作網路壓縮)為用於研發高效推理模型的重要程序。
根據一個實施例,一種無資料對抗式知識蒸餾的方法包含:在產生器處接收隨機輸入;在產生器處產生接收到的隨機輸入的合成輸出;在教師網路處接收合成輸出;在學生網路處接收合成輸出;最小化教師網路的輸出與學生網路的輸出之間的距離的最大值;以及約束產生器。
根據一個實施例,一種無資料對抗式知識蒸餾的系統包含:記憶體;及處理器,所述處理器組態成在產生器處接收隨機輸入;在產生器處產生接收到的隨機輸入的合成輸出;在教師網路處接收合成輸出;在學生網路處接收合成輸出;最小化教師網路的輸出與學生網路的輸出之間的距離的最大值;且約束產生器。
在下文中,參考隨附圖式詳細地描述本揭露的實施例。應注意,儘管相同元件在不同圖式中繪示,但所述相同元件將利用相同附圖標號表示。在以下描述中,僅提供諸如詳細組態及組件的特定細節來輔助對本揭露的實施例的整體理解。因此,對於所屬領域中具有通常知識者而言應顯而易見的是,可在不脫離本揭露的範疇的情況下對本文中所描述的實施例進行各種改變及修改。此外,出於清楚及簡明起見,省略對熟知功能及構造的描述。下文所描述的術語為考慮到本揭露中的功能而定義的術語,且可根據使用者、使用者的意圖或習慣而不同。因此,應基於貫穿本說明書的內容來判定術語的定義。
本揭露可具有各種修改以及各種實施例,下文參考隨附圖式詳細地描述各種實施例當中的實施例。然而,應理解,本揭露不限於實施例,但本揭露包含在本揭露的範疇內的所有修改、等效物以及替代例。
儘管包含諸如第一、第二等的序數詞的術語可用於描述各種元件,但結構元件並不受所述術語限制。術語僅用於將一個元件與另一元件區分開。舉例而言,在不脫離本揭露的範疇的情況下,可將第一結構元件稱作第二結構元件。類似地,亦可將第二結構元件稱作第一結構元件。如本文中所使用,術語「及/或」包含一或多個相關聯項中的任一項及所有組合。
如本文所使用的術語僅用於描述本揭露的各種實施例,但不意欲限制本揭露。除非上下文另有明確指示,否則單數形式意欲包含複數形式。在本揭露中,應理解,術語「包含」或「具有」指示特徵、數字、步驟、操作、結構元件、部分或其組合的存在,且並不排除一或多個其他特徵、數字、步驟、操作、結構元件、部分或其組合的存在或添加機率。
除非另有不同定義,否則本文中所使用的所有術語皆具有與在本揭露所屬的領域中具有通常知識者所理解的含義相同的含義。諸如在常用辭典中所定義的彼等術語的術語應被解釋為具有與相關技術領域中的上下文含義相同的含義,且除非在本揭露中明確定義,否則不應被解釋為具有理想或過度形式化的含義。
根據一個實施例的電子器件可為各種類型的電子器件中的一種。電子器件可包含例如攜帶型通信器件(例如智慧型手機)、電腦、攜帶型多媒體器件、攜帶型醫療器件、相機、可穿戴式器件或家用電器。根據本揭露的一個實施例,電子器件不限於上文所描述的電子器件。
本揭露中所使用的術語並不意欲限制本揭露,但意欲包含對應實施例的各種改變、等效物或替代。關於對隨附圖式的描述,類似附圖標號可用於指代類似元件或相關元件。除非相關上下文另外明確指示,否則對應於項的名詞的單數形式可包含事物中的一或多者。如本文中所使用,如「A或B」、「A及B中的至少一者」、「A或B中的至少一者」、「A、B或C」、「A、B以及C中的至少一者」以及「A、B或C中的至少一者」的此類片語中的每一者可包含在片語中的對應一者中共同列舉的項的所有可能組合。如本文中所使用,諸如「第1」、「第2」、「第一」以及「第二」的術語可用於區分對應組件與另一組件,但並不意欲在其他態樣(例如重要性或次序)中限制組件。意欲在具有或不具有術語「以操作方式」或「以通信方式」的情況下,若將一個元件(例如第一元件)稱為「與」另一元件(例如第二元件)「耦接」、「耦接至」另一元件、「與」另一元件「連接」或「連接至」另一元件,則指示元件可與另一元件直接(例如有線)、無線或經由第三元件耦接。
如本文中所使用,術語「模組」可包含實施於硬體、軟體或韌體中的單元,且可與其他術語互換地使用,所述其他術語例如「邏輯」、「邏輯區塊」、「部分」以及「電路系統」。模組可為用以執行一或多個功能的單個一體式組件或其最小單元或部分。舉例而言,根據一個實施例,模組可以特殊應用積體電路(application-specific integrated circuit;ASIC)的形式實施。
模型壓縮包含諸如權重精簡、網路量化以及蒸餾至具有更高效架構的網路的各種方法。權重精簡及網路量化在不更改網路架構的情況下減小運算成本以及儲存器/記憶體大小。權重精簡藉由如下操作來壓縮模型:藉由將冗餘權重設定為零而將所述冗餘權重自所述權重精簡完全移除,因此可跳過對於精簡後的權重的運算以及記憶。網路量化藉由量化減小用於權重及啟動的記憶體佔據面積且通常緊接著用於壓縮的無損源寫碼。此外,卷積及全連接層可運用低精確度定點操作(諸如8位元定點操作)來實施,以降低時延且提高功率效率。另一方面,可將網路架構修改為更簡單且更容易地實施於目標平台上。舉例而言,可削減每一層中的層數目及/或通道數目。可用如同在MobileNet中的更高效的深度方向可分離卷積替代習知空間域卷積。
知識蒸餾(Knowledge distillation;KD)為用以在較大的經過預先訓練的「教師」模型的指導下訓練較小「學生」網路的知識傳送框架。現有模型壓縮方法(包含KD)的一個問題為現有模型壓縮方法是在可在壓縮程序期間存取原始訓練資料的較強假設下研發出的。隨著資料集變得更大,資料集的分佈亦變得更昂貴且更困難。另外,資料私密及安全性已成為深度學習中的主要問題中的一者,且關於安全性及私密的所得規定及順應性要求使藉由原始模型訓練機的資料共用及藉由模型壓縮器的資料收集兩者複雜化,諸如在醫學及生物測定資料的情況下。因此,強烈需要在不存取原始或甚至替代的資料集的情況下壓縮經過預先訓練的模型。
本發明系統及方法包含對抗式知識蒸餾框架,當原始訓練資料的損耗不可存取時,所述對抗式知識蒸餾框架經由對抗式學習來最小化最壞情況的可能損耗(最大損耗)。在考慮到任何元資料的情況下,系統及方法利用所述元資料為產生器提供輔助損耗以最小化對抗式學習框架。為避免製造用以共用的新元資料的額外努力,使用儲存於批量歸一化層中的統計來約束產生器以產生模仿原始訓練資料的合成樣本。此外,系統及方法藉由使用多個產生器來使用各種合成樣本。系統及方法亦可同時對多個學生執行對抗式KD。
無資料對抗式知識蒸餾的系統及方法可最小化教師輸出與學生輸出之間的庫貝克-李柏(Kullback-Leibler;KL)散度的最大值。在用於訓練產生器以產生對抗式影像的最大化步驟中,系統及方法約束產生器以藉由匹配來自教師的批量歸一化層的統計;促進每一樣本的輸出類別分佈(softmax輸出)的較小熵且促進對每一批量求平均值的輸出類別分佈(softmax輸出)的較大熵來產生與原始資料類似的合成影像。系統及方法藉由使用兩種高斯(Gaussian)分佈的KL散度來匹配批量歸一化層輸入的平均值與方差。在針對KD之最小化步驟中,除了最小化教師softmax輸出與學生softmax輸出之間的KL散度之外,亦可視情況匹配中間層輸出。
本發明系統及方法使用多個產生器及多個學生以在對抗式知識蒸餾中產生器各種合成影像,藉由使學生成為量化教師來執行運用對抗式知識蒸餾的無資料網路量化且藉由使學生成為較小大小的網路來執行運用對抗式知識蒸餾的無資料網路壓縮。
在考慮到任何元資料的情況下,系統及方法利用所述元資料為產生器提供額外約束以符合對抗式學習框架。為避免製造用以共用的新元資料的額外努力,系統及方法使用儲存於批量歸一化層中的統計來訓練產生器以產生模仿原始訓練資料的合成樣本。針對產生器添加輔助損耗,系統及方法約束產生器,因此所述產生器產生合成影像,所述合成影像產生與原始資料類似的教師方面的統計,所述統計有助於極小化最大值最佳化(minimax optimization)避開與原始資料極為不同的任何對抗式樣本且產生更佳的蒸餾效能(減小因擬合針對不接近原始資料集的「壞」實例的模型而導致的損耗)。
系統及方法利用批量歸一化統計來約束產生器。此外,為匹配平均值與方差,系統及方法使用兩種高斯分佈的KL散度,所述KL散度為按比例歸一化的距離量測(亦即,標準差)。
穩健最佳化為解決最佳化問題中的資料不確定性的最佳化子場。在此框架下,假設目標及約束函數屬於稱作「不確定性集合」的某些集合。目標為做出無論約束變得如何仍可行且對於最壞情況目標函數為最佳的決策。在不提供資料的情況下,無資料KD的問題用公式表示為穩健最佳化問題,而可基於經過預先訓練的教師使用其批量歸一化層處的統計來約束不確定性集合。
產生欺騙經過預先訓練的模型的合成資料與對抗式攻擊問題密切相關。在對抗式攻擊中,亦存在兩種方法。第一,直接在影像域中產生對抗式影像;及第二,使用產生器產生對抗式影像。
包含一系列卷積層的產生器網路可用作可針對如先前的影像產生施加的良好正則項。因此,利用產生器,而非添加任何先前正則化,所述正則化用於在無產生器的情況下獲得合成影像。
對抗式學習用於生成對抗式網路(Generative adversarial network;GAN)中。模式塌陷為GAN中的熟知問題中的一者。克服模式塌陷的簡單但有效的方式為引入多個產生器及/或多個鑑別器。使用多個產生器及/或多個學生(學生可充當鑑別器)有助於產生各種樣本且避免吾等無資料KD網路的過度擬合。
圖1示出根據實施例的無資料對抗式KD網路的圖式。網路100包含產生器102、學生104以及教師106。教師106包含卷積層110、批量歸一化層112、修正線性單元(rectified linear unit;ReLU)層114以及softmax層116。網路最小化教師106輸出與學生104輸出之間的KL散度的最大值。在用於訓練產生器102以產生對抗式影像的最大化步驟中,約束產生器102以藉由匹配來自教師106的批量歸一化層112的統計來產生與原始資料類似的合成影像。
圖2示出根據實施例的用於無資料對抗式知識蒸餾的方法的流程圖200。在步驟202處,系統在產生器處接收隨機輸入。在步驟204處,系統運用產生器產生接收到的隨機輸入的合成輸出。合成輸出可與用於訓練教師的原始資料類似。在步驟206處,系統在教師網路及學生網路處接收合成輸出。在步驟208處,系統最小化教師網路的輸出與學生網路的輸出之間的距離的最大值。距離可為KL散度。在步驟210處,系統約束產生器。可藉由匹配至少一個批量歸一化層的平均值與方差來約束產生器。
下文描述KD無資料模型壓縮。
Figure 02_image001
為用於分類的通用非線性神經網路,將所述通用非線性神經網路設計成產生輸入
Figure 02_image003
的標籤
Figure 02_image005
在標籤集合
Figure 02_image007
上的類別機率分佈
Figure 02_image009
(亦即,
Figure 02_image011
)。
Figure 02_image013
為用於輸入
Figure 02_image003
的集合
Figure 02_image007
上的獨熱編碼實況標籤
Figure 02_image005
。網路
Figure 02_image001
運用機率分佈
Figure 02_image015
的經標記資料集(稱作訓練資料集)進行預先訓練,如在等式(1)中:
Figure 02_image017
(1)
其中,
Figure 02_image019
實際上為相對於訓練資料集的經驗期望值,且
Figure 02_image021
代表庫貝克-李柏(KL)散度。KL散度的最小化等效於交叉熵的最小化,給定分佈
Figure 02_image015
稱作「學生」的另一神經網路
Figure 02_image023
與稱作的「教師」的經過預先訓練的網路
Figure 02_image001
相比可能較小且不太複雜。學生亦產生其對於輸入
Figure 02_image003
的類別機率分佈的估計,使得
Figure 02_image026
。KD建議藉由以下最佳化學生,如在等式(2)中:
Figure 02_image027
(2)
其中
Figure 02_image029
。為簡單起見,省略溫度參數,所述溫度參數可在等式(2)的第二KL散度項中的
Figure 02_image031
Figure 02_image023
的softmax之前應用。
如等式(2)中所繪示,在針對關於
Figure 02_image015
的期望值給出訓練資料集的假設下,形成原始KD。然而,共用較大資料集是昂貴的且有時因私密及安全性問題甚至是不可能的。因此,設計一種在訓練資料集為不可存取的,但僅給出經過預先訓練的教師的情況下的KD方法受到關注。
穩健最佳化建議在資料不確定性下運用對抗式學習最小化最壞情況情形(最大損耗)的可能損耗,所述最壞情況情形與在不提供用於最佳化的訓練資料集時遇到的情況類似。為在KD中採用穩健極小化最大值最佳化(已知為對抗式學習),引入產生器網路
Figure 02_image033
,所述產生器網路
Figure 02_image033
用於產生至KD的輸入的合成對抗式資料。接著,使用極小化最大值方法,由等式(3)給出無資料對抗式KD:
Figure 02_image035
(3)
對於
Figure 02_image037
,其中
Figure 02_image039
為針對產生器的經過預先訓練的教師可基於產生器輸出而提供的額外或輔助損耗。在等式(3)中,
Figure 02_image041
對應於步驟202及步驟204,
Figure 02_image043
對應於步驟206,極小化最大值操作對應於步驟208,且
Figure 02_image045
對應於步驟210。將等式(2)與等式(1)進行比較,省略與實況標記有關的第一KL散度項,如在等式(4)中。
Figure 02_image047
(4)
若存在經最佳化以準確模仿訓練資料,使得
Figure 02_image049
的產生器
Figure 02_image051
,則等式(4)簡化為等式(5)。
Figure 02_image053
(5)
然而,不存在對原始訓練資料的存取,且無法找到最佳產生器
Figure 02_image051
。替代地,藉由對等式(3)中的極小化最大值問題進行求解來最小化
Figure 02_image055
的上限,從而運用產生器的輔助損耗
Figure 02_image039
向產生器提供一些約束,以產生與原始訓練資料類似的資料。
在等式(3)的最大化步驟中針對產生器考慮了以下三個輔助損耗項以使得產生器基於教師儘可能多地產生與原始資料類似的「良好」對抗式樣本。第一項包含批量歸一化統計。批量歸一化層含有層輸入的平均值及方差,其可用作代理以證實產生器輸出與原始訓練資料類似。兩種高斯分佈的KL散度可用於匹配儲存於浴槽歸一化層中的平均值及方差(所述平均值及方差是自原始資料獲得的)與運用產生器輸出獲得的經驗統計。
另一輔助損耗項包含個例類別熵。若教師經過足夠良好地訓練以用於準確分類,則只有在教師的類別分佈輸出(亦即,softmax輸出)產生較小熵時,產生器輸出受到關注(一種類別的機率應為較高的;若一種類別具有機率1,則使熵最小化為零)。亦即,較小熵為針對每一取樣z
Figure 02_image057
所需的。
第三輔助損耗項包含批量類別熵。假設每種種類以類似機率出現於資料集中,針對任何批量求平均值的類別機率分佈應傾向於均勻分佈,其中使熵最大化為
Figure 02_image059
。亦即,較高熵為
Figure 02_image061
所需的。
Figure 02_image063
Figure 02_image065
表示儲存於通道c的批量歸一化層l 中的平均值與方差,所述通道c的批量歸一化層l 是根據原始訓練資料而習得。
Figure 02_image067
Figure 02_image069
為針對來自產生器
Figure 02_image071
的合成樣本計算的對應平均值與方差。 產生器的輔助損耗
Figure 02_image039
由等式(6)給出:
Figure 02_image073
(6)
其中H表示熵,且
Figure 02_image075
為兩種高斯分佈的KL散度,其可表示為等式(7)。
Figure 02_image077
(7)
若等式(3)中
Figure 02_image079
,則方案減少對抗式信念匹配。添加輔助損耗,約束產生器,因此其產生合成影像,所述合成影像在教示中產生與原始資料類似的統計,所述統計有助於極小化最大值最佳化避開與原始資料極為不同的任何對抗式樣本且產生更佳的蒸餾效能。系統及方法利用批量歸一化統計來約束產生器。為匹配平均值與方差,使用兩種高斯分佈的KL散度,所述KL散度為按比例歸一化的距離量測。
系統及方法訓練無資料KD框架中的多個產生器以增加所產生樣本的多樣性。使用多個鑑別器可減少GAN中的模式塌陷問題。以極小化最大值最佳化最大化教師與學生之間的平均KL散度。獲取平均值不僅使用隨機梯度下降減少極小化最大值最佳化中的雜訊,而且亦導引產生器產生更佳的對抗式樣本,所述對抗式樣本與每一學生平均而言匹配不佳。運用多個產生器及多個學生的最終目標由等式(8)給出:
Figure 02_image081
(8)
其中
Figure 02_image083
為第i個學生且
Figure 02_image085
為第j個產生器,其中
Figure 02_image087
Figure 02_image089
在升溫階段,專門訓練產生器以最小化輔助損耗,因此其輸出在饋送給教師時匹配批量歸一化統計及熵約束。此預先訓練程序減少無資料KD的早期步驟中的不可靠樣本的產生。此外,更新學生的頻率高於產生器減少落入極小化最大值最佳化中的任一局部最大值中的幾率。在最小化步驟中,吾人可另外匹配中間層輸出。藉由使學生成為教師的量化版本來實施無資料網路量化。
上述演算法展現於表1中。 [表1]
演算法1無資料對抗式知識蒸餾
產生器更新間隔:m ≥ 1 針對產生器的升溫訓練(視情況選用): 對於n :1至N warm-up ,執行 對於j :1至G ,執行
Figure 02_image091
循環結束 循環結束 對抗式知識蒸餾:對於 n :1 N 執行 最大化: n = 0 modm 對於 j :1 G執行
Figure 02_image093
對於 i :1 S 執行
Figure 02_image095
循環結束
Figure 02_image097
循環結束 若出現以下情況則結束: 最小化
Figure 02_image099
對於 j :1 G執行
Figure 02_image101
Figure 02_image103
 ← 串接
Figure 02_image105
循環結束 對於i :1至S ,執行
Figure 02_image107
循環結束 循環結束
圖3示出根據實施例的無資料對抗式KD網路的圖式。網路300包含產生器302、學生基幹網路304、第一教師基幹網路306以及第二教師基幹網路308。網路300亦包含鑑別器310、具有第一softmax層314的第一完全連接層312以及具有第二softmax層318的第二完全連接層316。作為替代實施例,除了來自批量歸一化層的統計之外或替代來自批量歸一化層的統計,系統及方法可使用根據原始模型訓練機或資料所有者提供的任何元資料。舉例而言,一些中間層處的特徵圖的平均值與協方差可由原始模型所有者收集且可作為元資料而提供以用於模型的壓縮及/或量化。
提供元資料,可產生GAN,所述GAN匹配儲存於元資料中的統計及來自產生器輸出的統計。舉例而言,吾人可將最終全連接層輸入特徵圖模型化為高斯混合且使元資料儲存高斯混合參數。接著,GAN經訓練以產生與教師處的元資料相同的分佈。
在圖3中,
Figure 02_image109
表示至產生器302的隨機輸入。產生器302利用隨機輸入
Figure 02_image109
產生合成影像
Figure 02_image111
。當將合成影像
Figure 02_image111
饋入至教師306及學生304中時,其產生
Figure 02_image113
Figure 02_image115
作為分別至最末完全連接層312及最末完全連接層316的輸入特徵圖。元資料儲存
Figure 02_image117
的高斯混合參數,其中
Figure 02_image119
為運用原始訓練資料
Figure 02_image121
獲得的輸入特徵圖。為產生與原始資料類似的合成資料,藉由最小化等式(9)來匹配所述合成資料在教師308方面的統計。
Figure 02_image123
(9)
此可由GAN藉由使用等式(10)中的極小化最大值最佳化來執行。
Figure 02_image125
(10)
在此框架中,引入鑑別器310,所述鑑別器310評估來自產生器輸出的教師特徵圖是否具有與儲存於元資料中的統計類似的統計。在訓練GAN之後,產生器302用於產生合成資料且對KD使用所述合成資料。當提供元資料時,輔助損耗項可包含至元資料的距離,諸如延森-香農(Jensen-Shannon;JS)散度。
圖4示出根據一個實施例的網路環境400中的電子器件401的方塊圖。參考圖4,網路環境400中的電子器件401可經由第一網路498(例如短程無線通信網路)與電子器件402通信,或經由第二網路499(例如長程無線通信網路)與電子器件404或伺服器408通信。電子器件401可經由伺服器408與電子器件404通信。電子器件401可包含處理器420、記憶體430、輸入器件450、聲音輸出器件455、顯示器件460、音訊模組470、感測器模組476、介面477、觸覺模組479、相機模組480、功率管理模組488、電池489、通信模組490、用戶識別模組(subscriber identification module;SIM)496或天線模組497。在一個實施例中,可自電子器件401中省略組件中的至少一者(例如顯示器件460或相機模組480),或可將一或多個其他組件添加至電子器件401。在一個實施例中,組件中的一些可實施為單一積體電路(integrated circuit;IC)。舉例而言,可將感測器模組476(例如指紋感測器、虹膜感測器或照度感測器)嵌入於顯示器件460(例如顯示器)中。
處理器420可執行例如軟體(例如程式440)以控制與處理器420耦接的電子器件401的至少一個其他組件(例如硬體組件或軟體組件),且可執行各種資料處理或運算。作為資料處理或運算的至少一部分,處理器420可在揮發性記憶體432中加載自另一組件(例如感測器模組476或通信模組490)接收到的命令或資料,處理儲存於揮發性記憶體432中的命令或資料,且將所得資料儲存於非揮發性記憶體434中。處理器420可包含主處理器421(例如中央處理單元(central processing unit;CPU)或應用程式處理器(application processor;AP))以及輔助處理器423(例如圖形處理單元(graphics processing unit;GPU)、影像訊號處理器(image signal processor;ISP)、感測器集線器處理器或通信處理器(communication processor;CP)),所述輔助處理器423可獨立於主處理器421操作或與主處理器421結合操作。另外或替代地,輔助處理器423可用以消耗比主處理器421更少的功率,或執行特定功能。輔助處理器423可實施為與主處理器421分離,或實施為主處理器421的一部分。
輔助處理器423可在主處理器421處於非作用(例如休眠)狀態下時替代主處理器421或在主處理器421處於作用狀態(例如執行應用程式)中時與主處理器421一起控制與電子器件401的組件當中的至少一個組件(例如顯示器件460、感測器模組476或通信模組490)有關的功能或狀態中的至少一些。根據一個實施例,輔助處理器423(例如影像訊號處理器或通信處理器)可實施為另一組件(例如相機模組480或通信模組490)的與輔助處理器423在功能上有關的部分。
記憶體430可儲存由電子器件401的至少一個組件(例如處理器420或感測器模組476)使用的各種資料。各種資料可包含例如軟體(例如程式440)及用於與其相關的命令的輸入資料或輸出資料。記憶體430可包含揮發性記憶體432或非揮發性記憶體434。
程式440可作為軟體儲存於記憶體430中,且可包含例如作業系統(operating system;OS)442、中間軟體444或應用程式446。
輸入器件450可自電子器件401的外部(例如使用者)接收待由電子器件401的其他組件(例如處理器420)使用的命令或資料。輸入器件450可包含例如麥克風、滑鼠或鍵盤。
聲音輸出器件455可將聲音訊號輸出至電子器件401的外部。聲音輸出器件455可包含例如揚聲器或接收器。揚聲器可用於通用目的,諸如播放多媒體或錄音,且接收器可用於接收來電通話。根據一個實施例,接收器可實施為與揚聲器分離,或實施為揚聲器的一部分。
顯示器件460可將資訊在視覺上提供至電子器件401的外部(例如使用者)。顯示器件460可包含例如顯示器、全息圖器件或投影儀以及控制電路系統,所述控制電路系統用以控制顯示器、全息圖器件以及投影儀中的對應一者。根據一個實施例,顯示器件460可包含用以偵測觸摸的觸摸電路系統或用以量測由觸摸引發的力的強度的感測器電路系統(例如壓力感測器)。
音訊模組470可將聲音轉換成電訊號,且反之亦然。根據一個實施例,音訊模組470可經由輸入器件450獲得聲音,或經由聲音輸出器件455或外部電子器件402的頭戴式耳機輸出聲音,所述外部電子器件402與電子器件401直接(例如有線)或無線耦接。
感測器模組476可偵測電子器件401的操作狀態(例如功率或溫度)或電子器件401外部的環境狀態(例如使用者的狀態),且接著產生對應於所偵測狀態的電訊號或資料值。感測器模組476可包含例如手勢感測器、陀螺儀感測器、大氣壓感測器、磁感測器、加速度感測器、握持感測器、接近感測器、顏色感測器、紅外(infrared;IR)感測器、生物測定感測器、溫度感測器、濕度感測器或照度感測器。
介面477可支援待用於將與外部電子器件402直接(例如有線)或無線耦接的電子器件401的一或多個指定協定。根據一個實施例,介面477可包含例如高清晰度多媒體介面(high definition multimedia interface;HDMI)、通用串列匯流排(universal serial bus;USB)介面、安全數位(secure digital;SD)卡介面或音訊介面。
連接端子478可包含連接器,電子器件401可經由所述連接器與外部電子器件402實體地連接。根據一個實施例,連接端子478可包含例如HDMI連接器、USB連接器、SD卡連接器或音訊連接器(例如頭戴式耳機連接器)。
觸覺模組479可將電訊號轉換成機械刺激(例如振動或移動)或電刺激,所述機械刺激或電刺激可由使用者經由觸覺或運動感覺辨識。根據一個實施例,觸覺模組479可包含例如馬達、壓電式元件或電刺激器。
相機模組480可捕獲靜態影像或移動影像。根據一個實施例,相機模組480可包含一或多個透鏡、影像感測器、影像訊號處理器或閃光燈。
功率管理模組488可管理供應至電子器件401的功率。功率管理模組488可實施為例如功率管理積體電路(power management integrated circuit;PMIC)的至少一部分。
電池489可將功率供應至電子器件401的至少一個組件。根據一個實施例,電池489可包含例如不可再充電的一次電池、可再充電的二次電池或燃料電池。
通信模組490可支援在電子器件401與外部電子器件(例如電子器件402、電子器件404或伺服器408)之間建立直接(例如有線)通信通道或無線通信通道,且經由所建立的通信通道執行通信。通信模組490可包含可獨立於處理器420(例如AP)操作的一或多個通信處理器,且支援直接(例如有線)通信或無線通信。根據一個實施例,通信模組490可包含無線通信模組492(例如蜂巢式通信模組、短程無線通信模組或全球導航衛星系統(global navigation satellite system;GNSS)通信模組)或有線通信模組494(例如區域網路(local area network;LAN)通信模組或電源線通信(power line communication;PLC)模組)。此等通信模組中的對應一者可經由第一網路498(例如短程通信網路,諸如BluetoothTM 、無線保真(Wi-Fi)直接或紅外資料協會(Infrared Data Association;IrDA)標準)或第二網路499(例如長程通信網路,諸如蜂巢式網路、網際網路或電腦網路(例如LAN或廣域網路(wide area network;WAN))與外部電子器件通信。此等各種類型的通信模組可實施為單一組件(例如單一IC),或可實施為彼此分離的多個組件(例如多個IC)。無線通信模組492可使用儲存於用戶識別模組496中的用戶資訊(例如國際行動用戶識別碼(international mobile subscriber identity;IMSI))在通信網路(諸如第一網路498或第二網路499)中識別及驗證電子器件401。
天線模組497可將訊號或功率傳輸至電子器件401的外部(例如外部電子器件)或自電子裝置401的外部(例如外部電子器件)接收訊號或功率。根據一個實施例,天線模組497可包含一或多個天線,且可例如藉由通信模組490(例如無線通信模組492)自所述一或多個天線中選擇適合於在通信網路中所使用的通信方案的至少一個天線,所述通信網路諸如第一網路498或第二網路499。接著可經由所選擇的至少一個天線在通信模組490與外部電子器件之間傳輸或接收訊號或功率。
上述組件中的至少一些可相互耦接且在其間經由周邊間通信方案(例如匯流排、通用輸入及輸出(general purpose input and output;GPIO)、串列周邊介面(serial peripheral interface;SPI)或行動產業處理器介面(mobile industry processor interface;MIPI))傳達訊號(例如命令或資料)。
根據一個實施例,可經由與第二網路499耦接的伺服器408在電子器件401與外部電子器件404之間傳輸或接收命令或資料。電子器件402及電子器件404中的每一者可為與電子器件401相同類型或不同類型的器件。可在外部電子器件402、外部電子器件404或外部電子器件408中的一或多者處執行待在電子器件401處執行的操作中的所有或一些。舉例而言,若電子器件401應自動地或回應於來自使用者或另一器件的請求而執行功能或服務,則替代執行功能或服務或除了執行功能或服務之外,電子器件401可請求一或多個外部電子器件執行功能或服務的至少一部分。接收請求的一或多個外部電子器件可執行所請求的功能或服務的至少一部分或與所述請求相關的額外功能或額外服務,且將執行的結果傳送至電子器件401。電子器件401可在進一步處理結果或不進一步處理結果的情況下提供結果作為對請求的回復的至少一部分。為此,可使用例如雲計算、分怖式計算或主從式計算技術。
一個實施例可實施為包含一或多個指令的軟體(例如程式440),所述一或多個指令儲存於可由機器(例如電子器件401)讀取的儲存媒體(例如內部記憶體436或外部記憶體438)中。舉例而言,電子器件401的處理器可調用儲存於儲存媒體中的一或多個指令中的至少一者,且在處理器的控制下在使用一或多個其他組件或不使用一或多個其他組件的情況下執行所述一或多個指令中的至少一者。因此,可操作機器以根據所調用的至少一個指令來執行至少一個功能。一或多個指令可包含由編譯器產生的程式碼或可由解譯器執行的程式碼。機器可讀儲存媒體可以非暫時性儲存媒體的形式提供。術語「非暫時性」指示儲存媒體為有形器件,且不包含訊號(例如電磁波),但此術語不在資料半永久地儲存於儲存媒體中的情況與資料暫時地儲存於儲存媒體中的情況之間進行區分。
根據一個實施例,本揭露的方法可包含於且提供於電腦程式產品中。電腦程式產品可作為產品在賣方與買方之間交易。電腦程式產品可以機器可讀儲存媒體(例如緊密光碟唯讀記憶體(compact disc read only memory;CD-ROM))的形式分佈,或經由應用程式商店(例如Play StoreTM )在線分佈(例如下載或上傳),或在兩個使用者器件(例如智慧型電話)之間直接分佈。若在線分佈,則電腦程式產品的至少一部分可暫時地產生或至少暫時地儲存於機器可讀儲存媒體(諸如製造商的伺服器、應用程式商店的伺服器或中繼伺服器的記憶體)中。
根據一個實施例,上述組件中的每一組件(例如模組或程式)可包含單一實體或多個實體。可省略上述組件中的一或多者,或可添加一或多個其他組件。可替代地或另外,可將多個組件(例如模組或程式)整合至單個組件中。在此情況下,積體組件仍可以與在整合之前藉由多個組件中的對應一者執行多個組件中的每一者的一或多個功能相同或類似的方式來執行多個組件中的每一者的一或多個功能。藉由模組、程式或另一組件執行的操作可依序、並行、重複或試探性地進行,或操作中的一或多者可以不同次序執行或被省略,或可添加一或多個其他操作。
儘管已在本揭露的詳細描述中描述本揭露的某些實施例,但可在不背離本揭露的範疇的情況下以各種形式修改本揭露。因此,不應僅僅基於所描述的實施例來判定本揭露的範疇,而應基於隨附申請專利範圍以及其等效者來判定本揭露的範疇。
100、300:網路 102、302:產生器 104:學生 106:教師 110:卷積層 112:批量歸一化層 114:修正線性單元層 116:softmax層 200:流程圖 202、204、206、208、210:步驟 304:學生基幹網路 306:第一教師基幹網路 308:第二教師基幹網路 310:鑑別器 312:第一完全連接層 314:第一softmax層 316:第二完全連接層 318:第二softmax層 400:網路環境 401、402、404:電子器件 408:伺服器 420:處理器 421:主處理器 423:輔助處理器 430:記憶體 432:揮發性記憶體 434:非揮發性記憶體 436:內部記憶體 438:外部記憶體 440:程式 442:作業系統 444:中間軟體 446:應用程式 450:輸入器件 455:聲音輸出器件 460:顯示器件 470:音訊模組 476:感測器模組 477:介面 478:連接端子 479:觸覺模組 480:相機模組 488:功率管理模組 489:電池 490:通信模組 492:無線通信模組 494:有線通信模組 496:用戶識別模組 497:天線模組 498:第一網路 499:第二網路N :隨機輸入 X:原始訓練資料
Figure 02_image127
:合成影像 Z、
Figure 02_image113
Figure 02_image115
:輸入特徵圖
本揭露的某些實施例的以上及其他態樣、特徵以及優點將根據結合隨附圖式進行的以下詳細描述而更顯而易見,在隨附圖式中: 圖1示出根據實施例的無資料對抗式KD網路的圖式。 圖2示出根據實施例的用於無資料對抗式知識蒸餾的方法的流程圖。 圖3示出根據實施例的無資料對抗式KD網路的圖式。 圖4示出根據一個實施例的網路環境中的電子器件的方塊圖。
200:流程圖
202、204、206、208、210:步驟

Claims (20)

  1. 一種無資料對抗式知識蒸餾的方法,包括: 在產生器處接收隨機輸入; 在所述產生器處產生接收到的所述隨機輸入的合成輸出; 在教師網路處接收所述合成輸出; 在學生網路處接收所述合成輸出; 最小化所述教師網路的輸出與所述學生網路的輸出之間的距離的最大值;以及 約束所述產生器。
  2. 如請求項1所述的方法,其中約束所述產生器是基於輔助損耗項而執行。
  3. 如請求項2所述的方法,其中在提供元資料時,所述輔助損耗項包含至所述元資料的距離。
  4. 如請求項3所述的方法,其中所述元資料為描述運用所述教師網路中的原始訓練資料獲得的特徵圖的高斯混合參數。
  5. 如請求項2所述的方法,其中所述輔助損耗項包含來自所述教師網路的至少一個批量歸一化層的匹配統計。
  6. 如請求項5所述的方法,其中約束所述產生器包含匹配所述至少一個批量歸一化層的平均值與方差。
  7. 如請求項6所述的方法,其中匹配所述至少一個批量歸一化層的所述平均值與所述方差利用兩種高斯分佈的KL散度來執行。
  8. 如請求項2所述的方法,其中所述輔助損耗項包含個例類別熵。
  9. 如請求項2所述的方法,其中所述輔助損耗項包含批量類別熵。
  10. 如請求項1所述的方法,其中最小化所述教師網路的所述輸出與所述學生網路的所述輸出之間的所述距離的所述最大值包含匹配中間層輸出。
  11. 一種無資料對抗式知識蒸餾的系統,包括: 記憶體;以及 處理器,組態成: 在產生器處接收隨機輸入; 在所述產生器處產生接收到的所述隨機輸入的合成輸出; 在教師網路處接收所述合成輸出; 在學生網路處接收所述合成輸出; 最小化所述教師網路的輸出與所述學生網路的輸出之間的距離的最大值;以及 約束所述產生器。
  12. 如請求項11所述的系統,其中所述處理器組態成基於輔助損耗項來約束所述產生器。
  13. 如請求項12所述的系統,當提供元資料時,所述輔助損耗項包含至所述元資料的距離。
  14. 如請求項13所述的系統,其中所述元資料為描述運用所述教師網路中的原始訓練資料獲得的特徵圖的高斯混合參數。
  15. 如請求項12所述的系統,其中所述輔助損耗項包含來自所述教師網路的至少一個批量歸一化層的匹配統計。
  16. 如請求項15所述的系統,其中所述處理器組態成藉由匹配所述至少一個批量歸一化層的平均值與方差來約束所述產生器。
  17. 如請求項16所述的系統,其中匹配所述至少一個批量歸一化層的所述平均值與所述方差利用兩種高斯分佈的KL散度來執行。
  18. 如請求項12所述的系統,其中所述輔助損耗項包含個例類別熵。
  19. 如請求項12所述的系統,其中所述輔助損耗項包含批量類別熵。
  20. 如請求項11所述的系統,其中所述處理器組態成最小化所述教師網路的所述輸出與所述學生網路的所述輸出之間的所述距離的所述最大值包含匹配中間層輸出。
TW110109481A 2020-03-23 2021-03-17 無資料對抗式知識蒸餾的方法及系統 TW202137040A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202062993258P 2020-03-23 2020-03-23
US62/993,258 2020-03-23
US17/021,686 US20210295173A1 (en) 2020-03-23 2020-09-15 Method and apparatus for data-free network quantization and compression with adversarial knowledge distillation
US17/021,686 2020-09-15

Publications (1)

Publication Number Publication Date
TW202137040A true TW202137040A (zh) 2021-10-01

Family

ID=77552788

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110109481A TW202137040A (zh) 2020-03-23 2021-03-17 無資料對抗式知識蒸餾的方法及系統

Country Status (2)

Country Link
DE (1) DE102020135017A1 (zh)
TW (1) TW202137040A (zh)

Also Published As

Publication number Publication date
DE102020135017A1 (de) 2021-09-23

Similar Documents

Publication Publication Date Title
US11423312B2 (en) Method and apparatus for universal pruning and compression of deep convolutional neural networks under joint sparsity constraints
TWI813802B (zh) 藉由共用表示進行多個隨機變數之間的隨機性推斷的方法及系統
US9992641B2 (en) Electronic device, server, and method for outputting voice
US20220067582A1 (en) Method and apparatus for continual few-shot learning without forgetting
US20220138633A1 (en) Method and apparatus for incremental learning
KR20210119298A (ko) 적대적 지식 증류법으로 데이터 프리 네트워크 양자화 및 압축을 위한 방법 및 장치
US20220058507A1 (en) Method and apparatus for federated learning
US11341699B1 (en) Systems and methods for synthetic image generation
US11681756B2 (en) Method and electronic device for quantifying user interest
US20210225320A1 (en) Electronic device and screen refresh method thereof
US20220093116A1 (en) Transformer with gaussian weighted self-attention for speech enhancement
US20230214713A1 (en) Method and apparatus for communication efficient federated learning with global model compression
US20230334318A1 (en) Method and apparatus for data efficient semantic segmentation
US20230232075A1 (en) Electronic device for providing content recommendation service, and method therefor
US20230106213A1 (en) Machine learning model compression using weighted low-rank factorization
TW202137040A (zh) 無資料對抗式知識蒸餾的方法及系統
US20220039754A1 (en) Electronic device for recommending contents
CN112035649B (zh) 问答模型处理方法、装置、计算机设备及存储介质
CN113537470A (zh) 模型量化方法及装置、存储介质及电子设备
TWI843848B (zh) 用於語音增強的高斯加權自注意的方法以及系統
US20220092383A1 (en) System and method for post-training quantization of deep neural networks with per-channel quantization mode selection
US20240241513A1 (en) Method and apparatus for updating predictive model predicting product failure
CN113569052A (zh) 知识图谱的表示学习方法及装置