TWI754446B

TWI754446B - 維持模型推論品質之系統及其方法

Info

Publication number: TWI754446B
Application number: TW109138630A
Authority: TW
Inventors: 林信宏
Original assignee: 中華電信股份有限公司
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-02-01
Also published as: TW202219845A

Abstract

本發明揭露一種維持模型推論品質之系統及其方法，係令比較處理單元從推論資訊庫中擷取推論資料集，以比較推論模型的訓練資料集與推論資料集兩者的對應特徵欄位來進行資料分佈一致性檢定，再依據資料分佈一致性檢定的結果判斷推論模型的訓練資料集與推論資料集的對應特徵欄位的資料分佈是否一致。當資料分佈不一致時，由比較處理單元從歷史的訓練資料集中找出與推論資料集相似分佈的訓練資料集，以依據相似分佈的訓練資料集將已訓練完成的歷史模型部署至模型伺服單元而更新或取代推論模型來提供推論服務，俾維持模型推論品質。

Description

維持模型推論品質之系統及其方法

本發明係關於一種模型推論品質之技術，特別是指一種維持模型推論品質之系統及其方法。

機器學習模型的各式應用已隨著資料收容完備與商業需求增進而日漸廣泛，資料分析師除了具有各種行業領域的知識外，亦必須熟悉各種演算法以訓練出適合產業應用的推論模型，進而將推論模型部署至伺服主機以提供資訊系統的推論服務。而且，在冗長的模型供應鏈上，使用者要面對的是模型訓練演算法的選擇、模型訓練參數的記錄管理、以及模型上線服務後的比較和更新。

惟，習知技術中模型的訓練產生大多由使用者選擇演算法、手動調整參數、反覆訓練，再以評估指標選擇最佳的機器學習模型，但模型訓練參數與評估指標並無記錄於系統中。同時，推論模型於部署上線後，提供資訊系統呼叫使用時，可能會因資料隨時間變化而影響模型推論的效能，故除了提早預警模型推論效能不足外，必須有方法置換或更新推論模型以維持對於真實情境的預測能力。

又，習知技術中大多以推論模型的準確率指標判斷推論模型的效能是否符合需求，而推論模型的準確率的計算皆需要等待實際值產生後才能與推論模型的預測值作比較，如果推論模型的準確率下降則利用新進資料重新訓練推論模型，再將推論模型部署上線以提供應用，故習知技術對於模型推論品質屬於事後被動處理且無法及時維持。

另外，習知技術以模型績效指標或模型健康度等檢驗推論模型的效能，當推論模型的效能低於設定預期時，僅能以新進資料重新訓練推論模型，再將推論模型重新上線以提供推論服務。

因此，如何提供一種創新之模型推論品質之技術，以解決例如上述習知技術的一或多個問題，已成為本領域技術人員之一大研究課題。

本發明提供一種創新之維持模型推論品質之系統及其方法，利用推論模型的訓練資料集與推論資料集進行分佈一致的比較，或比較推論資料集與歷史資料集的特徵欄位，或者提升對於模型品質判斷的時效性，抑或者節省重新訓練推論模型的時間。

本發明中維持模型推論品質之系統包括：推論資訊庫與模型版本資訊庫，係分別儲存有推論資料集與訓練資料集；模型伺服單元，係用以部署推論模型；以及比較處理單元，係設定比較週期，以於推論資料集的資料累積時間達到所設定的比較週期時，由比較處理單元從推論資訊庫中擷取推論資料集，以供比較處理單元比較模型伺服單元中所部署的推論模型的訓練資料集與從推論資訊庫中所擷取的推論資料集兩者的對應特徵欄位以進行兩者的資料分佈一致性檢定，再由比較處理單元依據資料分佈一致性檢定的結果判斷推論模型的訓練資料集與推論資料集兩者的對應特徵欄位的資料分佈是否一致，當該資料分佈不一致時，由比較處理單元從模型版本資訊庫所儲存的歷史的訓練資料集中找出與推論資料集相似分佈的訓練資料集，以依據相似分佈的訓練資料集將已訓練完成的歷史模型從模型版本資訊庫中部署至模型伺服單元，進而將已訓練完成的歷史模型更新或取代模型伺服單元中的推論模型來提供推論服務，俾維持模型推論品質。

本發明中維持模型推論品質之方法包括：令比較處理單元設定比較週期，以於推論資料集的資料累積時間達到所設定的比較週期時，由比較處理單元從推論資訊庫中擷取推論資料集；令比較處理單元比較模型伺服單元中所部署的推論模型的訓練資料集與從推論資訊庫中所擷取的推論資料集兩者的對應特徵欄位以進行兩者的資料分佈一致性檢定，再由比較處理單元依據資料分佈一致性檢定的結果判斷推論模型的訓練資料集與推論資料集兩者的對應特徵欄位的資料分佈是否一致；以及當該資料分佈不一致時，由比較處理單元從模型版本資訊庫所儲存的歷史的訓練資料集中找出與推論資料集相似分佈的訓練資料集，以依據相似分佈的訓練資料集將已訓練完成的歷史模型從模型版本資訊庫中部署至模型伺服單元，進而將已訓練完成的歷史模型更新或取代模型伺服單元中的推論模型來提供推論服務，俾維持模型推論品質。

為讓本發明之上述特徵與優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點，且此等特徵及優點將部分自所述描述內容可得而知，或可藉由對本發明之實踐習得。應理解，前文一般描述與以下詳細描述二者均僅為例示性及解釋性的，且不欲約束本發明所欲主張之範圍。

1:維持模型推論品質之系統

10:模型版本資訊庫

20:比較處理單元

30:模型伺服單元

40:模型應用單元

50:推論資訊庫

AX:訓練資料集

BX:歷史資料集

C:推論資料

CX:推論資料集

D:模型元資料

M:推論模型

N:歷史模型

S1至S7:步驟

圖1為本發明中維持模型推論品質之系統的架構示意圖；以及

圖2為本發明中維持模型推論品質之系統及其方法的流程示意圖。

以下藉由特定的具體實施形態說明本發明之實施方式，熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其它優點與功效，亦可因而藉由其它不同的具體等同實施形態加以施行或運用。

圖1為本發明中維持模型推論品質之系統1的架構示意圖。如圖所示，維持模型推論品質之系統1至少包括互相連接或通訊之一模型版本資訊庫10(或稱模型資訊庫)、一比較處理單元20、一模型伺服單元30(或稱模型推論單元)、一模型應用單元40與一推論資訊庫50。

在一實施例中，比較處理單元20可為處理器(如中央處理器/微處理器)、處理晶片、處理電路、處理軟體(處理程式)、比較器、比較電路、比較軟體(比較程式)等，模型伺服單元30可為伺服主機、模型伺服器等，模型應用單元40可為模型應用軟體(模型應用程式)、應用程式介面等。模型版本資訊庫10或推論資訊庫50可利用關聯式資料庫(Relational Database)、物件導向資料庫(Object-oriented Database)、階層式資料庫、網路式資料庫等各式資料庫予以實作，或者單純利用檔案系統予以實作。但是，本發明並不以此為限。

比較處理單元20係設定比較週期，以於推論資料集CX的資料累積時間達到所設定的比較週期時，由比較處理單元20從推論資訊庫50中擷取推論資料集CX。比較處理單元20亦可比較模型伺服單元30中所部署的推論模型M的訓練資料集AX與從推論資訊庫50中所擷取的推論資料集CX兩者的對應特徵欄位以進行兩者的資料分佈一致性檢定，再由比較處理單元20依據資料分佈一致性檢定的結果判斷推論模型M的訓練資料集AX與推論資料集CX兩者的對應特徵欄位的資料分佈是否一致。如果推論模型M的訓練資料集AX與推論資料集CX兩者的資料分佈不一致，則比較處理單元20可從模型版本資訊庫10所儲存的歷史的訓練資料集AX中找出與推論資料集CX相似分佈的訓練資料集AX，以依據相似分佈的訓練資料集AX將已訓練完成的歷史模型N從模型版本資訊庫10中部署至模型伺服單元30，進而將已訓練完成的歷史模型N更新或取代模型伺服單元30中的推論模型M來提供推論服務，俾維持模型推論品質。

申言之，模型版本資訊庫10係儲存訓練完成的歷史模型N(如歷史推論模型)、模型元資料D、訓練資料集AX與歷史資料集BX等，且已訓練完成的推論模型M可上線至模型伺服單元30(模型推論單元)以提供推論服務。模型應用單元40係透過應用程式介面將推論資料C(如特徵資料)傳送至模型伺服單元30，以由模型伺服單元30將推論資料C(如特徵資料)儲存至推論資訊庫50並將推論結果回覆予模型應用單元40。比較處理單元20係擷取(如定期擷取)推論資訊庫50中的推論資料集CX來與模型版本資訊庫10中的訓練資料集AX及歷史資料集BX進行各特徵資料分佈比較與資料集整合比較，以依據比較結果決定是否更新推論模型M。

在推論模型M完成訓練後，將訓練資料集AX(如模型訓練資料集)、模型元資料D與訓練參數儲存於模型版本資訊庫10。當推論模型M部署於模型伺服單元30(模型推論單元)後，模型伺服單元30可持續將欲預測的推論資料C(如特徵資料)儲存於推論資訊庫50，且比較處理單元20可定期比較歷史的訓練資料集AX(如模型訓練資料集)。若欲預測的推論資料C(如特徵資料)與推論模型M(如目前的推論模型)於訓練時採用的資料集的分佈不一致，則代表推論模型M(如目前的推論模型)必須更新，故可從模型版本資訊庫10中提取適合或相似分佈的資料集所訓練出的推論模型M以逕行部署至模型伺服單元30(模型推論單元)。因此，本發明不需等待實際值產生後再計算實際值與預測值的差異，即可主動判斷推論模型M(如目前的推論模型)是否適合目前的推論資料C(如特徵資料)。同時，本發明可以不需要重新訓練推論模型M，即能重複利用已訓練的歷史模型N(如歷史推論模型)並及時於模型伺服單元30中部署上線。而且，本發明對於模型推論品質屬於主動判斷且及時維持，亦有利於節省重新訓練推論模型M的時間。

由於推論模型M是以訓練資料集AX的特徵資料進行訓練，如果欲推論的推論資料C(如特徵資料)與訓練資料集AX的分佈狀況有所差異(即資料分佈不一致)，則推論模型M推論出的預測值必定會偏離實際值(即產生預測不準確，正確率下降的情形)。因此，本發明可以比較訓練資料與推論資料C(如特徵資料)的特徵分佈情況來判斷推論模型M是否適合新進資料，進而改善習知技術以預測值及實際值計算模型正確率或健康度相關指標來判斷推論模型品質的方式。

習知技術的推論模型完成訓練後，如果推論模型的效能指標達到一定或可接受的門檻值，即會將推論模型部署並提供上線預測服務，然而訓練模型所使用的資料乃基於過去收集累積的，隨著推論預測持續發生，新進資料亦持續進入，但推論模型是否適合新進資料，則必須等待新進資料對應的實際值與預測值進行比較才可得知。例如，在習知技術中，工廠透過加工機具的特徵資料預測製成品的公差，但加工需要一段時間，加工完成才知道成品的實際公差與預測公差之間的誤差，若等到實際公差量測出來，發現超出容許值才汰換模型，工廠的產線已經生產許多公差不符的半成品，且累積損失大量的生產成本(包含於物料及生產時間)。因此，本發明利用資料分佈的檢驗方法，提供不需等待實際值即可檢驗推論模型M是否適合新進資料，提升判斷推論模型M是否適合的時效性。同時，本發明檢驗推論模型M與訓練資料的分佈，如果資料分佈不一致代表推論結果會產生誤差，亦即推論模型M的品質產生變異，需要從歷史模型N(如歷史推論模型)中尋找訓練資料與推論資料分佈相符的模型進行替換，以維持推論模型M的品質。

推論模型的訓練過程相當繁瑣且耗時，經常需要反覆的利用不同的訓練資料集以找到效能最佳的模型係數，但習知技術僅儲存已訓練模型的健康度相關指標紀錄，故僅能提醒使用者達到正確率下降的告警，而無法自動尋找適合推論資料的歷史模型並進一步的替換推論模型。因此，本發明比較歷史的訓練資料集AX與推論模型M的特徵分佈，當目前於模型伺服單元30中部署上線的推論模型M的資料特徵差異過大時，可以從歷史的訓練資料集AX中找出分佈較為類似的已訓練完成的推論模型M，自動將已訓練完成的推論模型M於模型伺服單元30中進行部署並提供上線服務，以利降低推論模型M之重新訓練的時間成本。又，當推論模型M於模型伺服單元30中部署應用後，本發明的模型伺服單元30係持續擷取欲預測的推論資料C(如特徵資料)並記錄於推論資訊庫50中，以定期與歷史的訓練資料集AX比較，若推論模型M的準確度下降至低於門檻值，且欲預測的推論資料C(如特徵資料)與過去的資料集相似，則從模型版本資訊庫10中提取相似(適合)的資料集所訓練出的推論模型M以逕行部署至模型伺服單元30，不需要進行重新訓練即能重複使用歷史模型N(如歷史推論模型)。

圖2為本發明中維持模型推論品質之系統1及其方法的流程示意圖，並參閱圖1予以說明。

如圖2之步驟S1所示，設定比較週期、歷史資料區間與門檻值(包括次數門檻值)。比較處理單元20係事先設定比較週期，隨著推論資料C(如特徵資料)持續儲存至推論資訊庫50，當推論資料集CX或推論資料C(如特徵資料)的資料累積時間達到比較週期時，比較處理單元20係透過後續步驟進行特徵資料的比較。由於推論模型M在訓練時會將訓練資料集AX記錄於模型版本資訊庫10(模型資訊庫)中，全部比較需要大量的時間，故比較處理單元20需先設定比較的歷史資料區間，以依據所設定的歷史資料區間從歷史的訓練資料集AX中找出與推論模型M最相似的歷史訓練資料。另外，比較處理單元20需設定比較的門檻值，亦即接受資料是否一致的顯著水準，門檻值愈高，拒絕資料分佈為一致的機率愈高，而門檻值愈低，拒絕資料分佈為一致的機率愈低，在一實施例中，係依據嚴謹程度選擇門檻值為例如0.05,0.01,0.001等，且可依統計檢定的一般原則設定門檻值。

如圖2之步驟S2所示，儲存訓練資料集AX與模型元資料D至模型版本資訊庫10。在推論模型M完成訓練後，將訓練資料集AX與模型元資料D(如模型建立時間、模型訓練演算法、模型標籤、模型特徵、模型評估指標、訓練完成的模型等)儲存於模型版本資訊庫10，以利後續查詢歷史模型N(如歷史推論模型)時使用，且模型版本資訊庫10可利用市面上適合的各型資料庫予以實作。又，有別於習知技術僅儲存訓練後的推論模型的模型元資料而未儲存訓練資料集，本發明將訓練資料集AX亦儲存於模型版本資訊庫10，後續僅需查詢比較，如有相似資料分佈的推論模型M即可於模型伺服單元30中部署上線，不須重新訓練推論模型M，能發揮節省時間之功效。

如圖2之步驟S3所示，模型伺服單元30(模型推論單元)儲存推論資料C(如特徵資料)至推論資訊庫50。模型伺服單元30可在推論資訊庫50中持續儲存多個推論資料C(如特徵資料)以組成推論資料CX，推論資料C是使用者透過模型應用單元40傳送至模型伺服單元30的特徵資料，再由模型伺服單元30進行預測推論。儲存推論資料C(如特徵資料)是為了提供後續與推論模型M(如目前的推論模型)的訓練資料及歷史模型 N(如歷史推論模型)的訓練資料進行比較，故本發明不需等待實際值發生後再與預測結果進行比較，僅需使用推論資料C(如特徵資料)，因而較習知技術更快速又簡便。

如圖2之步驟S4所示，提取設定區間的歷史資料集BX與推論資訊庫50中的推論資料集CX。當推論資料集CX的資料累積時間達到上述步驟S1中所設定的比較週期時，比較處理單元20可從推論資訊庫50中擷取上述步驟S3中所儲存(定期儲存)的推論資料集CX，亦可從模型版本資訊庫10中擷取上述步驟S1中所設定的歷史資料區間的歷史資料集BX的特徵欄位(如各特徵欄位)，再由比較處理單元20比較推論資料集CX與歷史資料集BX兩者的特徵欄位(如各特徵欄位)。

因各推論資料(特徵資料)的分佈互不相同，即並非全部的推論資料C(如特徵資料)都屬於常態分佈，無法同時一次檢定，故本發明提出二階段(或稱二步驟)的檢定方式以解決此問題，如下列圖2之步驟S5及步驟S6所述。

如圖2之步驟S5所示，各特徵資料分佈比較。比較處理單元20係比較模型伺服單元中的推論模型M(如目前的推論模型)的訓練資料集AX與上述步驟S4中從推論資訊庫50中所擷取的推論資料集CX兩者的對應特徵欄位以進行兩者的資料分佈一致性檢定(如KS(Kolmogorov-Smirnov；柯爾莫哥洛夫-斯米爾諾夫)檢定)，再由比較處理單元20依據資料分佈一致性檢定的結果判斷或得知推論模型M(如目前的推論模型)的訓練資料集AX與推論資料集CX兩者的對應特徵欄位的資料分佈是否一致。比較處理單元20將推論模型M的訓練資料集AX與推論資料集CX兩者的對應特徵欄位進行資料分佈一致性檢定(如KS檢定)後，會得到兩者的對應特徵欄位的p_i值(如統計值)，其中i為正整數。如果p_i值(如統計值)小於上述步驟S1中所設定的門檻值，表示兩者的對應特徵欄位的資料分佈是不一致的；反之，如果p_i值(如統計值)大於或等於門檻值，表示兩者的對應特徵欄位的資料分佈是一致的。

接著，比較處理單元20係對上述步驟S4中所擷取的歷史的訓練資料集AX與推論資料集CX(如目前的推論資料集)兩者的對應特徵欄位進行資料分佈一致性檢定(如KS檢定)，以由比較處理單元20依據資料分佈一致性檢定的結果判斷(得知)歷史的訓練資料集AX與推論資料集CX兩者的對應特徵欄位的資料分佈是否一致。如果p_i值(如統計值)小於門檻值，表示兩者的對應特徵欄位的資料分佈是不一致的；反之，如果p_i值(如統計值)大於或等於門檻值，表示兩者的對應特徵欄位的資料分佈是一致的。惟，本發明不限於使用KS檢定方法，其它資料分佈一致性檢定的方法，如Mann-Whitney(曼-惠特尼；簡稱MW)、Kruskal-Wallis(克拉斯卡-瓦歷斯；簡稱KW)...等資料分佈檢定方法，也可以採用。

如圖2之步驟S6所示，資料集整合比較。在上述步驟S5中，比較處理單元20針對推論模型M(如目前的推論模型)與歷史的訓練資料集AX及推論資料集CX比較各特徵資料分佈的一致性，此時僅知悉各特徵欄位的資料分佈的統計值。因此，在步驟S6中，比較處理單元20係針對所有特徵欄位進行檢驗，透過在步驟S5中得到各特徵欄位分佈一致性的p_i值(如統計值)，比較處理單元20再比較推論模型M(如目前的推論模型)的訓練資料集AX與推論資料集CX兩者的對應特徵欄位的p_i值(如統計值)與門檻值以計算p_i小於門檻值的次數，再進行次數檢驗(如二項分配檢定)而得到p_j值(如統計次數)，其中j為正整數。如果p_j(如統計次數)小於上述步驟S1中所設定的門檻值(如次數門檻值)，表示推論模型M(如目前的推論模型)的訓練資料集AX與推論資料集CX兩者的整體資料分佈是不一致的；反之，如果p_j值(如統計次數)大於或等於門檻值(如次數門檻值)，表示推論模型M(如目前的推論模型)的訓練資料集AX與推論資料集CX兩者的整體資料分佈是一致的。惟，本發明不限於使用二項分配檢定方法，其它次數檢定的方法，如符號檢定、Wilcoxon(魏克生)符號等級檢定...等次數檢定方法，也可以採用。

由上述步驟S3至步驟S6的說明可知，本發明僅需要欲推論的推論資料C(如特徵資料)，不需要等待實際值，故本發明能改善習知技術需要仰賴模型預測值與實際值計算準確率之缺點，亦能在推論品質的判斷上提升時效性。

如圖2之步驟S7所示，更新推論模型M。如果推論模型M(如目前的推論模型)的訓練資料集AX與推論資料集CX兩者的資料分佈不一致，則比較處理單元20係從模型版本資訊庫10所儲存的歷史的訓練資料集AX中找出與推論資料集CX相似分佈的訓練資料集AX，以依據相似分佈的訓練資料集AX將已訓練完成的歷史模型N(如歷史推論模型)從模型版本資訊庫10中部署至模型伺服單元30(模型推論單元)，進而將已訓練完成的歷史模型N更新或取代模型伺服單元30中的推論模型M(如目前的推論模型)來提供推論服務，俾維持模型推論品質。因此，本發明能部署推論模型M與訓練資料分佈一致的已訓練的歷史模型N(如歷史推論模型)，不需以新進的模型重新訓練推論模型M，在維持模型推論品質的情況下，有利於節省重新訓練模型的時間。

以下提供兩個實施例加以說明之。

第一實施例：習知技術以模型績效指標或模型健康度等檢驗推論模型的效能，當推論模型的效能低於設定預期時，僅能以新進資料重新訓練推論模型，再將推論模型重新上線以提供推論服務。相對地，本發明能直接比對過去的歷史訓練資料與新進資料的分佈，如果資料分佈一致，則可以直接從模型版本資訊庫10(模型資料庫)取用已完成訓練的推論模型M來提供上線服務，從而節省如資料科學家重新訓練推論模型M的時間。

第一實施例係假設資料科學家將訓練房價預測的推論模型M，使用迴歸(regression)演算法進行多次的模型訓練後，提供推論模型M(如迴歸預測模型)的推論服務。

如圖2之步驟S1所示，設定比較週期、歷史資料區間與門檻值。將推論資料集CX與推論模型M(如目前的推論模型)的訓練資料集AX及歷史資料集BX(如全部歷史資料集)進行比較前，需先設定比較週期、歷史資料區間與門檻值。例如，在第一實施例中，比較週期設定為推論模型M累積20筆即觸發比較；由於歷史資料集BX眾多，逐一比較相對耗時，故需先行設定比較的歷史資料區間，第一實施例設定比較前一已訓練的推論模型M的歷史資料；接著，設定門檻值，例如門檻值為0.05。

如圖2之步驟S2所示，儲存訓練資料集AX與模型元資料D至模型版本資訊庫10。例如，第一實施例將訓練房價預測的推論模型M，而影響房價的因素的資料有十二項，分別標記為X₁,X₂,X₃,X₄,X₅,X₆,X₇, X₈,X₉,X₁₀,X₁₁,X₁₂，因此以蒐集的資料建立推論模型M，資料如下表1所載。

表1：

對應的房價AY=[24,21.6,34.7,33.4,36.2,28.7,22.9,27.1, 16.5,18.9,15,18.9,21.7,20.4,18.2,19.9,23.1,17.5,20.2,18.2]，訓練完成的推論模型M稱為推論模型M1。資料科學家將另一已訓練完成的推論模型(稱為推論模型M2)存放於模型版本資訊庫10中，假設推論模型M2係透過下表2所載之資料進行機器學習訓練。完成訓練過程後，模型伺服單元30中用以上線提供推論服務的是推論模型M1。

表2：

如圖2之步驟S3所示，模型伺服單元30(模型推論單元)可儲存推論資料C(如特徵資料)至推論資訊庫50。推論模型M1於模型伺服單元30中上線服務後，陸續有推論資料C(如特徵資料)透過模型應用單元40進入模型伺服單元30以進行推論，這些推論資料C(如特徵資料)也持續被蒐集儲存於推論資訊庫50中，資料如下表3所載。

表3：

如圖2之步驟S4所示，從模型版本資訊庫10提取所設定的歷史資料區間的歷史資料集BX，並從推論資訊庫50擷取目前的推論資料集CX。例如，在第一實施例中，上線的推論模型M的訓練資料集AX為[AX₁,AX₂,AX₃,AX₄,AX₅,AX₆,AX₇,AX₈,AX₉,AX₁₀,AX₁₁,AX₁₂]；歷史資料集BX為[BX₁,BX₂,BX₃,BX₄,BX₅,BX₆,BX₇,BX₈,BX₉,BX₁₀,BX₁₁,BX₁₂]；推論資料集CX為[CX₁,CX₂,CX₃,CX₄,CX₅,CX₆,CX₇,CX₈,CX₉,CX₁₀,CX₁₁,CX₁₂]等資料。

如圖2之步驟S5所示，各特徵資料分佈比較。比較處理單元20可擷取資料集對應的特徵欄位並檢驗其資料分佈是否相似，比較訓練資料集[AX_i]與推論資料集[CX_i]，透過資料分佈一致性檢定(如KS核定)獲得p值，結果如下表4所載。

表4：

本發明之資料分佈一致性檢定(如KS檢定)可利用各式統計軟體或以程式計算獲得。如果資料分佈一致性檢定(如KS檢定)所得的p值小於門檻值(即顯著水準)，例如門檻值為0.05，則代表兩個母體的資料分佈不一致。在第一實施例中，上線的推論模型M的訓練資料集AX與推論資料集CX的十二項特徵中有十項特徵是分佈不一致的，確定產生特徵飄移的現象，亦即目前上線的推論模型M已經不適合目前的推論資料集CX。

接著，檢驗歷史資料集BX如[BX₁,BX₂,BX₃,BX₄,BX₅,BX₆,BX₇,BX₈,BX₉,BX₁₀,BX₁₁,BX₁₂]與推論資料集CX如[CX₁,CX₂,CX₃,CX₄,CX₅,CX₆,CX₇,CX₈,CX₉,CX₁₀,CX₁₁,CX₁₂]，可得p值的結果如下表5所載。在表5中，十二個特徵比較後，所有p值皆未小於0.05，表示推論資料集CX與歷史資料集BX的十二個特徵的資料分佈是一致的。

表5：

如圖2之步驟S6所示，資料集整合比較。對所有特徵欄位進行次數計算並檢驗，由於推論模型M(如目前的推論模型)的訓練資料集AX與推論資料集CX的特徵資料經資料分佈一致性檢定(如KS檢定)後，p值大於0.05的次數t=2，總特徵數n=12，計算統計值SB為二項分配SB~B(12,2,0.5)，其累積機率分佈為

，透過計算或查表(如下表6)可得SB~B(12,2,0.5)=0.019281<0.05，因此可得知推論模型M(如目前的推論模型)的訓練資料集AX與推論資料集CX的各相對應特徵資料的分佈是不一致的，確定產生資料飄移的現象。而且，歷史資料集BX與推論資料集CX的特徵資料經資料分佈一致性檢定(如KS檢定)後，p值大於0.05的次數t=12，總特徵數n=12，計算統計值SB為二項分配SB~B(12,12,0.5)，其累積機率分佈為

q^n-x，透過計算或查表(如下表6)可得SB~B(12,12,0.5)=1>0.05，因此可得知歷史資料集BX與推論資料集CX的整體資料(各相對應特徵資料)的分佈是趨於一致的。

表6：

如圖2之步驟S7所示，更新推論模型M。由於推論模型M(如目前的推論模型)的訓練資料集[AX_i]與推論資料集[CX_i]的資料分佈不一致，而歷史資料集[BX_i]與推論資料集[CX_i]的各相對應特徵資料的分佈是趨於一致的，目前的推論資料C(如特徵資料)更適合使用歷史資料訓練的推論模型M2進行推論，因此將推論模型M2從模型版本資訊庫10中部署至模型伺服單元30(模型推論單元)以取代推論模型M1，從而完成更新推論模型M以提供予模型應用單元40呼叫使用。

依據訓練資料集AX如[AX₁,AX₂,AX₃,AX₄,AX₅,AX₆,AX₇,AX₈,AX₉,AX₁₀,AX₁₁,AX₁₂]得出推論模型M1為Y_ModeA=21.34277+0.168947X₁+0.312266X₂+0.005807X₃+0X₄+8.46927X₅-0.06841X₆-2.80617X₇+3.069507X₈-0.14161X₉+0X₁₀-0.0087X₁₁-0.085X₁₂，歷史資料集BX如[BX₁,BX₂,BX₃,BX₄,BX₅,BX₆,BX₇,BX₈,BX₉,BX₁₀,BX₁₁, BX₁₂]得出推論模型M2為Y_ModeB=50.18587+136.6193X₁-0.02561X₂-0.31037X₃-36.7141X₄+10.07272X₅-0.0793X₆-0.87524X₇+0.401028X₈-0.0216X₉-0.47391X₁₀-0.11378X₁₁-1.09101X₁₂，目前新進的推論資料集CX如[CX₁,CX₂,CX₃,CX₄,CX₅,CX₆,CX₇,CX₈,CX₉,CX₁₀,CX₁₁,CX₁₂]，以推論模型M1進行新進資料的推論得到評估指標如MAPE(mean absolute percentage error；平均絕對百分比誤差)為0.4742，而以推論模型M2獲得之MAPE(平均絕對百分比誤差)為0.1459。因此，實際上驗證將推論模型M更換為已訓練的歷史模型N的MAPE(平均絕對百分比誤差)確實獲得提升。

第一實施例使用推論資料C(如特徵資料)進行資料分佈檢驗，若資料分佈不一致，則表示推論模型M不適合目前的推論資料C(如特徵資料)，不需要等待真實的實際資料再計算模型正確率才更換模型。又，本發明檢驗過去已訓練完成的歷史模型N中選擇適合當前推論資料分佈的模型直接更新部署推論模型M，而不須重新訓練新模型，節省訓練模型的成本並具有時效性。

第二實施例：本發明的推論模型M不僅可用於迴歸預測模型(見第一實施例)，亦能用於假設資料科學家將訓練顧客金融風險分類預測的二元分類模型(見第二實施例)，但不以此為限。

如圖2之步驟S1所示，設定比較週期、歷史資料區間與門檻值。將推論資料集CX與推論模型M(如目前的推論模型)的訓練資料集AX及歷史資料集BX(如全部歷史資料集)進行比較前，需先設定比較週期、歷史資料區間與門檻值。例如，在第二實施例中，比較週期設定為推論模型M累積20筆即觸發比較；由於歷史資料集BX眾多，逐一比較相對耗時，故需先行設定比較的歷史資料區間，第二實施例設定比較前一已訓練的推論模型的歷史資料；接著，設定門檻值，例如門檻值為0.05。

如圖2之步驟S2所示，儲存訓練資料集AX與模型元資料D至模型版本資訊庫10。例如，第二實施例將訓練顧客金融風險分類預測的推論模型M，而影響風險分類的因素是由顧客資料蒐集的資料有十一項，分別標記為X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀,X₁₁，因此以蒐集的資料建立推論模型M，資料如下表7所載。

表7：

對應的風險分類AY=[1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0]，訓練完成的推論模型M稱為推論模型M1。資料科學家將另一已訓練完成的推論模型M(稱為推論模型M2)存放於模型版本資訊庫10中，假設推論模型M2係透過下表8所載之資料進行機器學習訓練。完成訓練過程後，模型伺服單元30中用以上線提供推論服務的是推論模型M1。

表8：

如圖2之步驟S3所示，模型伺服單元30(模型推論單元)可儲存推論資料C(如特徵資料)至推論資訊庫50。推論模型M1於模型伺服單元30中上線服務後，陸續有推論資料C(如特徵資料)透過模型應用單元40進入模型伺服單元30以進行推論，這些推論資料C(如特徵資料)也持續被蒐集儲存於推論資訊庫50中，資料如下表9所載。

表9：

如圖2之步驟S4所示，從模型版本資訊庫10提取所設定的歷史資料區間的歷史資料集BX，並從推論資訊庫50中擷取目前的推論資料集CX。例如，在第二實施例中，上線的推論模型M的訓練資料集AX為[AX₁,AX₂,AX₃,AX₄,AX₅,AX₆,AX₇,AX₈,AX₉,AX₁₀,AX₁₁]；歷史資料集BX為[BX₁,BX₂,BX₃,BX₄,BX₅,BX₆,BX₇,BX₈,BX₉,BX₁₀,BX₁₁]；推論資料集CX為[CX₁,CX₂,CX₃,CX₄,CX₅,CX₆,CX₇,CX₈,CX₉,CX₁₀,CX₁₁]等資料。

如圖2之步驟S5所示，各特徵資料分佈比較。比較處理單元20執行區域資料比較，擷取資料集對應的特徵欄位並檢驗其資料分佈是否相似，比較訓練資料集[AX_i]與推論資料集[CX_i]，透過資料分佈一致性檢定(如KS核定)獲得p值，結果如下表10所載。

表10：

本發明之資料分佈一致性檢定(如KS檢定)可利用各式統計軟體或以程式計算獲得。如果資料分佈一致性檢定(如KS檢定)所得的p值小於門檻值(即顯著水準)，例如門檻值為0.05，則代表兩個母體的資料分佈不一致。在第二實施例中，上線的推論模型M的訓練資料集AX與推論資料集CX的十一項特徵中有十項特徵是分佈不一致的，確定產生特徵飄移的現象，亦即目前上線的推論模型M已經不適合目前的推論資料集CX。

接著，檢驗歷史資料集BX如[BX₁,BX₂,BX₃,BX₄,BX₅,BX₆,BX₇,BX₈,BX₉,BX₁₀,BX₁₁]與推論資料集CX如[CX₁,CX₂,CX₃,CX₄,CX₅,CX₆,CX₇,CX₈,CX₉,CX₁₀,CX₁₁]，可得p值的結果如下表11所載。在表11中，十一個特徵比較後，僅有一個特徵的p值小於0.05，表示推論資料集CX與歷史資料集BX的十一個特徵的資料分佈是一致的。

表11：

如圖2之步驟S6所示，資料集整合比較。對所有特徵欄位進行次數計算並檢驗，由於推論模型M(如目前的推論模型)的訓練資料集AX與推論資料集CX的特徵資料經資料分佈一致性檢定(如KS檢定)後，p值大於0.05的次數t=1，總特徵數n=11，計算統計值SB為二項分配SB~B(11,1,0.5)，其累積機率分佈為

，透過計算或查表(如下表12)可得SB~B(11,1,0.5)=0.005859<0.05，因此可得知推論模型M(如目前的推論模型)的訓練資料集AX與推論資料集CX的整體資料分佈是不一致的，確定產生資料飄移的現象。而且，歷史資料集BX與推論資料集CX的特徵資料經資料分佈一致性檢定(如KS檢定)後，p值大於0.05的次數t=10，總特徵數n=11，計算統計值SB為二項分配SB~B(11,10,0.5)，其累積機率分佈為

，透過計算或查表(如下表12)可得SB~B(11,10,0.5)=0.99915>0.05，因此可得知歷史資料集BX與推論資料集CX的整體資料(各相對應特徵資料)的分佈是趨於一致的。

表12：

依據訓練資料集AX如[AX₁,AX₂,AX₃,AX₄,AX₅,AX₆,AX₇,AX₈,AX₉,AX₁₀,AX₁₁]透過羅吉斯分類演算法訓練出推論模型M1，歷史資料集BX如[BX₁,BX₂,BX₃,BX₄,BX₅,BX₆,BX₇,BX₈,BX₉,BX₁₀,BX₁₁]訓練出推論模型M2，目前新進的推論資料集CX如[CX₁,CX₂,CX₃,CX₄,CX₅,CX₆,CX₇,CX₈,CX₉,CX₁₀,CX₁₁]，以推論模型M1進行新進資料的推論得到分類模型正確率評估指標(Category accuracy；CA)為0.7，而以推論模型M2對新進資料分類獲得之CA為0.8。因此，實際上驗證將推論模型M更換為已訓練的歷史模型N後的正確率確實獲得提升。

第二實施例說明透過比較資料集特徵的分佈判斷目前上線服務的推論模型M是否適合目前的推論資料C(如特徵資料)，不需要等待實際的標籤資料即可判斷模型推論品質。如果上線的推論模型M的訓練資料集與推論資料集CX的特徵資料分佈不一致，表示模型推論品質下降，需要更新推論模型M。又，本發明能從已訓練的歷史模型N尋找適合目前的推論資料C(如特徵資料)的推論模型M，如果推論資料與歷史模型N的訓練資料分佈一致，即可將此歷史模型N於模型伺服單元30中部署上線服務，而不需重新訓練新模型，以利節省時間及訓練成本。

綜上所述，本發明中維持模型推論品質之系統及其方法係至少具有下列特色、優點或技術功效。

一、本發明係利用推論模型的訓練資料集與推論資料集進行分佈一致的比較，以判斷推論模型是否適用於新進資料的分佈，有別於習知技術以準確度指標判斷推論模型的健康度。

二、本發明係(定期)比較推論資料集與歷史資料集的特徵欄位，且比較方式僅需推論資料(特徵資料)，而不需要等待實際值，故更快速又簡便。

三、因各推論資料(特徵資料)的分佈互不相同，即並非全部的推論資料(特徵資料)都屬於常態分佈，無法同時一次檢定，故本發明提出二階段(或二步驟)的檢定方式以解決此問題。

四、本發明改善習知技術於模型上線後需要回收真實的實際資料才能判斷模型誤差程度的缺點，能提升對於模型品質判斷的時效性。

五、本發明係從歷史的訓練資料集(如模型訓練資料集)中提取適合新進資料的推論模型，不須重新訓練推論模型即可更新推論模型，節省重新訓練推論模型的時間。

六、本發明應用之產業為例如製造業、金融業、服務業等各種的產業；同時，本發明應用之產品為例如機器學習平台、深度學習平台等各種的產品，但不以此為限。

上述實施形態僅例示性說明本發明之原理、特點及其功效，並非用以限制本發明之可實施範疇，任何熟習此項技藝之人士均能在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。任何使用本發明所揭示內容而完成之等效改變及修飾，均仍應為申請專利範圍所涵蓋。因此，本發明之權利保護範圍應如申請專利範圍所列。