TWI474210B

TWI474210B - A method of applying a genetic algorithm to automatically group and filter the independent variables to synchronize the regression model parameters

Info

Publication number: TWI474210B
Application number: TW101144015A
Authority: TW
Original assignee: Nat Taichung University Science & Technology
Priority date: 2012-11-23
Filing date: 2012-11-23
Publication date: 2015-02-21
Also published as: TW201421275A

Description

一種應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法

本發明係有關於一種應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法。

迴歸分析是社會科學領域非常重要的工具，在許多情境下常需要針對收集的案例進行分群來建立因果模式，不過目前常見的軟體(如SPSS,Statistica等)並未提供同時進行分群與迴歸模型參數估計的功能。因此吾人往往必須先利用某些分群模式(如群集分析)先對案例進行分群，再逐群建立迴歸模型，並校估其參數。由於分群與迴歸模型之參數校估並非同時進行，因此所得的模型並無法保證是最適解。此外，在嘗試建立各分群之迴歸模型時，往往需耗費大量時間來剔除不適用的案例、選取適合的自變數、以及判斷模型參數的合理性。

目前在分群的技術方面除了多變量分析領域的群集分析外，在專家系統領域方面，案例式推論(Case-Based Reasoning,CBR)技術也可以用來進行案例篩選與分群。如Kuncheva與Jain(1999)提出同步最佳化案例與特徵選擇方法，Ahn、Kim與Han(2007)應用CBR技術於顧客分群的問題。不過並未見有將CBR應用於自動分群並同步建立迴歸模型且校估其參數的文獻，而此即為本發明欲解決之課題。

本發明乃是結合基因演算法、CBR技術與迴歸模型來進行分群並同步建立各分群之迴歸模型且校估出其參數。分群群數與因變數(可以設定複數個因變數)是事先設定，但各群體之自變數則事先不知，藉此來找出更準確的分群準則，以找出適用於各分群的關鍵自變數。

基此，本發明之主要目的在於提供一種應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法，其可找出更準確的分群準則，以找出適用於各分群的關鍵自變數。

為了達成前述目的，依據本發明所提供之一種應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法，包含有下列步驟：A)定義染色體結構及編碼：定義基因演算法中的染色體結構及編碼，各該染色體包含了案例、案例所歸屬的群體、自變數以及自變數所歸屬的群體；其中，案例或自變數所歸屬的群體係分別以一預定編碼格式表示，此外，一該案例所歸屬的群體係為複數群體中的一個或不屬於任何群體(即所歸屬的群體為零個)，該一該自變數係歸屬零個以上的群體；B)產生初始族群：以隨機的方法產生預定數量的第0代染色體，並定義為一上一代族群；C)進行基因操作來產生新的子代：在基因操作時係對該上一代族群的染色體進行選擇、交配及突變，進而產生下一代的染色體，進而定義為一下一代族群； D)對步驟C)中所產生的該下一代族群的染色體進行解碼：在解碼後，即可得知各該案例被分在哪個群體，而各個群體使用了哪些自變數，並將這些解碼後的案例資料依其所歸屬的群體而分為複數個資料集；E)進行迴歸模型參數校估並計算適應值(Fitness Value)：將各該資料集導入迴歸模型中進行參數校估，並據以計算出適應值；以及F)是否滿足一停止條件？若是，則擷取具有最佳的適應值之染色體及其所對應的族群，將分群結果儲存並結束；若否，則將步驟C)中所產生的該下一代族群視為上一代族群，再回到步驟C)。

較佳地，在步驟A)中，該案例所歸屬的群體係以整數編碼來表示其所歸屬之群體代碼；該自變數所歸屬的群體係以二進位編碼的各個位數來對應該自變數所歸屬的各該群體。

較佳地，在步驟C)之前還更包含有一步驟C0)：在對上一代族群的染色體進行選擇、交配及突變前，先評估該上一代族群中每一個染色體的適應值；若有染色體是非可行解(Infeasible Solution)，則重新產生染色體，或修改該染色體使其為可行解。

較佳地，在步驟C)中產生下一代族群稱為演化一代；於步驟F)中，該停止條件係指演化的代數達到使用者所設定的代數。

較佳地，在步驟E)中，該適應值之計算，乃是依據各分群之迴歸模型的調整後判定係數來計算，並有整體模式與加權平均模式兩種計算方式可以選擇。

較佳地，在步驟E)中，如果任一分群的迴歸模型，其自變數係數符號與預先輸入的判斷準則(有正號、負號、與不確定三種)不同，則重設此模式之調整後判定係數為0。

為了詳細說明本發明之構造及特點所在，茲舉以下之較佳實施例並配合圖式說明如後，其中：

如第一圖所示，本發明一較佳實施例所提供之一種應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法，主要包含有下列步驟：

A)定義染色體結構及編碼：定義基因演算法中的染色體結構及編碼，各該染色體包含了案例(或亦可稱為樣本)、案例所歸屬的群體、自變數以及自變數所歸屬的群體；其中，案例係以對應於廠商為例，而自變數則以對應於績效指標為例，案例或自變數所歸屬的群體係分別以一預定編碼格式表示，此外，一該案例所歸屬的群體係為複數群體中的一個或不歸屬於任何群體(即所歸屬的群體為零個)，該一該自變數係歸屬零個以上的群體。於本實施例中，各該案例所歸屬的群體係以整數編碼來表示其所歸屬的群體代碼；一該自變數所歸屬的群體係以二進位編碼的各個位數來對應該自變數所歸屬的各該群體。

B)產生初始族群：以隨機的方法產生預定數量的第0代染色體，並定義為一上一代族群。

舉例而言，假設有10個案例(I)，5個自變數(F)，分為2個群體，將染色體設為5條，則可以表1表示。

上述表1中，分群的總數係為2，而案例選擇的編碼值即為0、1或2，分別表示該案例被分類為不選取、第一群或第二群。

以染色體5為例，其案例歸屬的群體代碼可為0~2，而I₂ 的基因值為2，即表示案例2被分類到群體2。由上述表1可知染色體1的案例1被分類到群體1，案例2被分類到群體2，案例3則為不選取(即不分類到任一群體)。

再說明自變數(F)的選取狀態，在上述表1中，在分群的總數為2的狀況下，自變數選擇的編碼值係設為0~3，共4種。由於十進位數值在電腦中實際是以二進位的方式存在，因此利用二進位的編碼方式可以使用電腦記憶體內部的1 bit(即一個位數)來表示其自變數是否被某群體所選取，以及是哪幾個群體選取該自變數。其中在二進位編碼中的1表示該群體被選取，而0表示該群體未被選取。自變數的選取狀態以下述表2為例。

參閱表1配合表2可知，染色體5中的自變數F₃ 的值是2，由表2得知整數2的二進位值是10，則表示該自變數F₃ 被群體2所選取，群體1則不採用該自變數F₃ 。再看自變數F₁ ，其值為0，代表未被選取。F₂ 的值為1即表示被群體1所選取。F₄ 的值為3即表示被群體1及群體2所選取。

由此可見，藉由上述表1即可得知哪些案例被分在第幾群，以及各群體各自使用了哪些自變數。

C0)先評估該上一代族群中的每一個染色體的適應值。若有染色體是非可行解，則重新產生染色體，或修改該染色體使其為可行解。於本實施例中係以重新產生染色體為例。(此步驟於第一圖中未示)

C)進行基因操作來產生新的子代：在基因操作時係對該上一代族群的染色體進行選擇、交配及突變，進而產生下一代的染色體，進而定義為一下一代族群。此步驟中產生下一代族群的動作係稱為演化一代。

D)對步驟C)中所產生的該下一代族群的染色體進行解碼：在解碼後，即可得知各該案例被分在哪個群體，而各個群體使用了哪些自變數，並將這些解碼後的資料依其所歸屬的群體而分為複數個資料集。

E)進行迴歸模型參數校估並計算適應值(Fitness Value)：將各該資料集導入迴歸模型中進行參數校估，並據以計算出適應值。於本實施例中，該適應值之計算，乃是依據各分群之迴歸模型的調整後判定係數來計算，並有整體模式與加權平均模式兩種計算方式可以選擇。整體模式之適應值計算方式係適用在每個案例均等價(即重要性相同)的情況，加權平均模式適應值的計算方式則適用於希望各分群所建立的因果模式均具有不錯的解釋能力，不至於有太偏向某一分群的情況。

如果任一分群的迴歸模型，其自變數係數符號與預先輸入的判斷準則(有正號、負號、與不確定三種)不同，則重設此模式之調整後判定係數為0。

迴歸模型的調整後判定係數(adjusted R² )以下述式1表示。

計算適應值的方式，茲參閱表3說明如下：

由上述表3可知，表1中的染色體5的各個案例以及自變數的分群的狀態係整理於表3。

第一群(具有I₁ 、I₅ 、I₆ 、I₈ 、I₁₀ 五個案例，以F₂ 、F₄ 、F₅ 為自變數)與第二群(具有I₂ 、I₄ 、I₇ 、I₉ 四個案例，以F₃ 、F₄ 為自變數)分別進行迴歸分析的結果假設如下述表4所示。

整體模式適應值的計算係將所有分群彙整看成一個整體，然後使用上述的式1來加以計算，其計算式如下：

以上述表4為例，整體模式適應值為：

加權平均模式適應值的計算則是以各分群的案例數為權重，對各分群的Adj.-R² 進行加權平均來作為適應值。

以上述表4為例，加權平均模式適應值為：

F)是否滿足一停止條件？若是，則擷取具有最佳的適應值之染色體及其所對應的族群，將分群結果儲存並結束；若否，則將步驟C)中所產生的該下一代族群視為上一代族群，再回到步驟C)。於本實施例中，該停止條件係指演化的代數達到使用者所設定的代數。

藉由上述步驟可知，在滿足停止條件後，即會擷取出最佳的適應值及其所對應的族群，並且結束演化。如此一來，可藉此找到歷代中具有最佳適應值的某條染色體，再由該染色體解碼後之案例以及自變數來找到最準確的分群準則。在本實施例中，由於案例係以對應於廠商為例，而自變數則以對應於績效指標為例，因此可以藉由本發明之技術來找出適用於各分群廠商的關鍵自變數(即績效指標)。可以類推得知的是，當使用本發明之技術來應用於其他課題時，亦可以藉由本發明之分群及自變數萃取的方法來同步求得最佳之各分群因果模型參數，並節省大量的人力操作與試誤時間。

由此可見，本發明結合了基因演算法、CBR技術與迴歸模型來進行分群並同步建立各分群迴歸模型。藉由事先設定分群群數，但各群體之自變數則先不預設立場其歸屬於哪個群體，藉此來找出更準確的分群準則，進而找出適用於各分群的關鍵自變數。

第一圖係本發明一較佳實施例之流程圖。

Claims

一種應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法，包含有下列步驟：A)定義染色體結構及編碼：定義基因演算法中的染色體結構及編碼，各該染色體包含了案例、案例所歸屬的群體、自變數以及自變數所歸屬的群體；其中，案例或自變數所歸屬的群體係分別以一預定編碼格式表示，此外，一該案例所歸屬的群體係為複數群體中的一個或不歸屬於任何群體，一該自變數係歸屬零個以上的群體；B)產生初始族群：以隨機的方法產生預定數量的第0代染色體，並定義為一上一代族群；C)進行基因操作來產生新的子代：在基因操作時係對該上一代族群的染色體進行選擇、交配及突變，進而產生下一代的染色體，進而定義為一下一代族群；D)對步驟C)中所產生的該下一代族群的染色體進行解碼：在解碼後，即可得知各該案例被分在哪個群體，而各個群體使用了哪些自變數，並將這些解碼後的案例資料依其所歸屬的群體而分為複數個資料集；E)進行迴歸模型參數校估並計算適應值(Fitness Value)：將各該資料集導入迴歸模型中進行參數校估，並據以計算出適應值；以及F)是否滿足一停止條件？若是，則擷取具有最佳的適應值之染色體及其所對應的族群，將分群結果儲存並結束；若否，則將步驟C)中所產生的該下一代族群視為上一代族群，再回到步驟C)。
依據申請專利範圍第1項所述之應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法，其中：在步驟A)中，該案例所歸屬的群體係以整數編碼來表示其所歸屬之群體代碼；該自變數所歸屬的群體係以二進位編碼的各個位數來對應該自變數所歸屬的各該群體。
依據申請專利範圍第1項所述之應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法，其中：在步驟C)之前還更包含有一步驟C0)：在對上一代族群的染色體進行選擇、交配及突變前，先評估該上一代族群中每一個染色體的適應值；若有染色體是非可行解(Infeasible Solution)，則重新產生染色體，或修改該染色體使其為可行解。
依據申請專利範圍第1項所述之應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法，其中：在步驟C)中產生下一代族群稱為演化一代；於步驟F)中，該停止條件係指演化的代數達到使用者所設定的代數。
依據申請專利範圍第1項所述之應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法，其中：在步驟E)中，該適應值之計算，乃是依據各分群之迴歸模型的調整後判定係數來計算，並有整體模式與加權平均模式兩種計算方式可以選擇。
依據申請專利範圍第1項所述之應用基因演算法來自動分群並篩選自變數以同步進行迴歸模型參數校估之方法，其中：在步驟E)中，如果任一分群的迴歸模型，其自變數係數符號與預先輸入的判斷準則(有正號、負號、與不確定三種)不同，則重設此模式之調整後判定係數為0。