TWI735942B

TWI735942B - 基於機器學習預測與防範網路通訊設備發生障礙之系統及方法

Info

Publication number: TWI735942B
Application number: TW108132058A
Authority: TW
Inventors: 吳銘晏; 林裕祥; 曾則翔; 許真民
Original assignee: 中華電信股份有限公司
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2021-08-11
Also published as: TW202112103A

Abstract

本發明揭露一種基於機器學習預測與防範網路通訊設備發生障礙之系統及方法。首先，收集網路通訊設備之效能管理(PM)資料、組態管理(CM)資料與障礙事件，將效能管理(PM)資料與組態管理(CM)資料轉換成關鍵績效指標(KPI)，再以關鍵績效指標(KPI)作為輸入因子及以障礙事件作為輸出結果來建置機器學習模型作為障礙診斷模型。然後，將依據新效能管理(PM)資料與新組態管理(CM)資料轉換而成之新關鍵績效指標(KPI)輸入障礙診斷模型以預測或診斷網路通訊設備發生障礙之可能性，進而調整網路通訊設備之設備參數以防範障礙之發生。

Description

基於機器學習預測與防範網路通訊設備發生障礙之系統及方法

本發明是關於一種預測與防範網路通訊設備發生障礙之技術，特別是指一種基於機器學習預測與防範網路通訊設備發生障礙之系統及方法。

以往小型基地台(Small Cell)設備發生障礙時，由小型基地台設備本身發送障礙事件與告警至網管系統，以便通知維運人員查測小型基地台設備發生障礙之根源。又，在小型基地台設備發生障礙之前，網管系統亦會收集小型基地台設備之效能及組態等資訊，這些資訊皆為時序性資料，亦即有時間相依的特性，且小型基地台設備發生障礙之原因也與小型基地台設備之效能及組態的改變有相當程度的關係。

在一現有技術中，提出一種電信網路障礙根源分析的系統與方法，其主要應用資訊分享技術於網路障礙根源分析，先利用分散各地的網管人員作為網路問題的觀測點，並藉由自動關聯、收集與分享網管人員的動態與網路障礙維修紀錄，以達到網路障礙根源分析目的。然而，此現有技術必須基於傳統規則模式(Rule-Based)，並主要由網管人員需要定期回報障礙資訊與維修紀錄，以致無法達到智慧維運(AIOps)之目標。

因此，如何提供一種新穎或創新之預測與防範網路通訊設備(如小型基地台設備)發生障礙之技術，實已成為本領域技術人員之一大研究課題。

本發明提供一種新穎或創新之基於機器學習預測與防範網路通訊設備發生障礙之系統及方法，能快速預測或診斷網路通訊設備是否發生障礙。

本發明之基於機器學習預測與防範網路通訊設備發生障礙之系統包括：至少一網路通訊設備；一網管模組，係收集來自網路通訊設備之效能管理(Performance Management；PM)資料、組態管理(Configuration Management；CM)資料與障礙事件；以及一診斷模組，係將網管模組所收集之網路通訊設備之效能管理(PM)資料與組態管理(CM)資料計算出或轉換成相應之關鍵績效指標(Key Performance Indicator；KPI)，且診斷模組以關鍵績效指標(KPI)作為輸入因子及以障礙事件作為輸出結果來建置機器學習模型作為障礙診斷模型，其中，診斷模組係將由網路通訊設備之新效能管理(PM)資料與新組態管理(CM)資料計算出或轉換而成之新關鍵績效指標(KPI)輸入障礙診斷模型，以由診斷模組透過障礙診斷模型利用新關鍵績效指標(KPI)預測或診斷網路通訊設備是否可能發生障礙，俾於預測或診斷出網路通訊設備可能發生障礙時，由診斷模組調整網路通訊設備之設備參數以防範或防止網路通訊設備發生障礙。

本發明之基於機器學習預測與防範網路通訊設備發生障礙之方法包括：令一網管模組收集來自至少一網路通訊設備之效能管理(PM)資料、組態管理(CM)資料與障礙事件；令一診斷模組將網管模組所收集之網路通訊設備之效能管理(PM)資料與組態管理(CM)資料計算出或轉換成相應之關鍵績效指標(KPI)，且令診斷模組以關鍵績效指標(KPI)作為輸入因子及以障礙事件作為輸出結果來建置機器學習模型作為障礙診斷模型；以及令診斷模組將由網路通訊設備之新效能管理(PM)資料與新組態管理(CM)資料計算出或轉換而成之新關鍵績效指標(KPI)輸入障礙診斷模型，以令診斷模組透過障礙診斷模型利用新關鍵績效指標(KPI)預測或診斷網路通訊設備是否可能發生障礙，俾於預測或診斷出網路通訊設備可能發生障礙時，令診斷模組調整網路通訊設備之設備參數以防範或防止網路通訊設備發生障礙。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點，且此等特徵及優點將部分自所述描述內容可得而知，或可藉由對本發明之實踐習得。本發明之特徵及優點借助於在申請專利範圍中特別指出的元件及組合來認識到並達到。應理解，前文一般描述與以下詳細描述二者均僅為例示性及解釋性的，且不欲約束本發明所欲主張之範圍。

1‧‧‧基於機器學習預測與防範網路通訊設備發生障礙之系統

10‧‧‧網路通訊設備

20‧‧‧網管模組

21‧‧‧伺服器

22‧‧‧資料庫

30‧‧‧診斷模組

31‧‧‧權重評估演算法

40‧‧‧障礙診斷模型

50‧‧‧用戶設備

60‧‧‧安全閘道器

70‧‧‧演進節點B閘道器

80‧‧‧核心網路

90‧‧‧關鍵績效指標(KPI)公式資料庫

100‧‧‧機器學習模型架構

101‧‧‧障礙事件日誌

102‧‧‧障礙標籤

103‧‧‧PM與CM資料

104‧‧‧關鍵績效指標(KPI)

105‧‧‧新PM與CM資料

106‧‧‧新關鍵績效指標(KPI)

110‧‧‧資料集

111‧‧‧訓練資料集

112‧‧‧驗證資料集

120‧‧‧機器學習模型

121‧‧‧softmax演算法

122‧‧‧退出層

CM‧‧‧組態管理(資料)

IPSec‧‧‧網際網路安全協定(連接介面)

KPI‧‧‧關鍵績效指標

PM‧‧‧效能管理(資料)

S1‧‧‧連接介面

S11至S15、S21至S24‧‧‧步驟

WAN‧‧‧廣域網路

第1圖為本發明之基於機器學習預測與防範網路通訊設備發生障礙之系統及其網路通訊設備之網路架構之示意圖；第2圖為本發明之網路通訊設備及其網路架構中有關網路障礙特徵之示意圖；第3圖為本發明之基於機器學習預測與防範網路通訊設備發生障礙之系統之實施例示意圖；第4圖為本發明之機器學習模型架構及其機器學習模組之示意圖；第5A圖為本發明之基於機器學習預測與防範網路通訊設備發生障礙之方法中有關障礙診斷模型之建置流程圖；第5B圖為本發明之基於機器學習預測與防範網路通訊設備發生障礙之方法中有關網路通訊設備之障礙診斷流程圖；第6A圖、第6B圖與第6C圖分別為本發明中第一測試案例之模型驗證準確率、模型驗證精確率與模型驗證招回率之曲線圖；以及第7A圖、第7B圖與第7C圖分別為本發明中第二測試案例之模型驗證準確率、模型驗證精確率與模型驗證招回率之曲線圖。

以下藉由特定的具體實施形態說明本發明之實施方式，熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其他優點與功效，亦可因而藉由其他不同的具體等同實施形態加以施行或應用。

第1圖為本發明之基於機器學習預測與防範網路通訊設備發生障礙之系統1及其網路通訊設備10之網路架構之示意圖。同時，基於機器學習預測與防範網路通訊設備發生障礙之系統1之主要技術內容如下，其餘技術內容相同於第2圖至第7C圖之說明，於此不再重覆敘述。

如第1圖所示，基於機器學習預測與防範網路通訊設備發生障礙之系統1主要包括至少一(如複數)網路通訊設備10、一網管模組20、一診斷模組30與一關鍵績效指標(KPI)公式資料庫90(見第3圖)，亦可進一步包括複數用戶設備(UE)50、至少一安全閘道器(Security Gateway；SecGW)60、至少一演進節點B閘道器(eNode Gateway)70與一核心網路80。例如，網路通訊設備10可為小型基地台(Small Cell)設備，亦可為無線基地台(Wi-Fi AP)設備或家庭閘道器(Home Gateway)設備等用戶端設備(Customer Premise Equipment；CPE)。網管模組20可為EMS(Element Management System；網元管理系統)網管模組或EMS網管系統，並具有伺服器21與資料庫22(見第3圖)。診斷模組30可為診斷伺服器(Diagnosis Server；DS)，並具有權重評估演算法31。但是，本發明並不以此為限。

網管模組20可收集來自網路通訊設備10之效能管理(PM)資料、組態管理(CM)資料與障礙事件。診斷模組30可將網管模組20所收集之網路通訊設備10之效能管理(PM)資料與組態管理(CM)資料計算出或轉換成相應之關鍵績效指標(KPI)，且診斷模組30能以關鍵績效指標(KPI)作為輸入因子及以障礙事件作為輸出結果來建置機器學習模型120(見第4圖)作為障礙診斷模型40。同時，診斷模組30可將由網路通訊設備10之新效能管理(PM)資料與新組態管理(CM)資料計算出或轉換而成之新關鍵績效指標(KPI)輸入障礙診斷模型40，以由診斷模組30透過障礙診斷模型40利用新關鍵績效指標(KPI)預測或診斷網路通訊設備10是否可能發生障礙，俾於預測或診斷出網路通訊設備10可能發生障礙時，由診斷模組30調整網路通訊設備10之設備參數以防範或防止網路通訊設備10發生障礙。

網路通訊設備10可透過例如廣域網路(Wide Area Network；WAN)之網路連接至安全閘道器(SecGW)60，並由安全閘道器(SecGW)60透過例如S1連接介面或IPSec(Internet Protocol Security；網際網路安全協定)連接介面以連接至演進節點B閘道器70，再由演進節點B閘道器70透過例如S1連接介面延伸至例如EPC(Evolved Packet Core；演進封包核心)網路之核心網路80。

網管模組20(如EMS網管模組或EMS網管系統)透過通訊協定納管所有網路通訊設備10(如小型基地台設備)之供裝、監控、參數設定或(及)關鍵績效指標(KPI)之管理等網管功能，以由網路通訊設備10(如小型基地台設備)固定每一段時間(如每15分鐘)上傳效能管理(PM)資料、組態管理(CM)資料、設備紀錄(Log)至網管模組20，再由診斷模組30依據效能管理(PM)資料、組態管理(CM)資料與3GPP定義之LTE(Long Term Evolution；長期演進技術)關鍵績效指標(KPI)規範計算各網路通訊設備10的關鍵績效指標(KPI)。

再者，第5代(5G)網路之建置初期為加強服務涵蓋範圍，並提供穩定與高效的無線網路環境，採用例如長期演進技術(LTE)之小型基地台設備等網路通訊設備10扮演著重要的角色。又，有鑑於全球部署之網路通訊設備10(如小型基地台設備)有大量增加趨勢，當網路通訊設備10發生障礙時，電信營運商需要立即找出障礙點，並派工排除問題，以確保其服務正常運作。然而，網路通訊設備10之障礙發生因素繁多，且障礙點可能來自網路通訊設備10本身、演進節點B閘道器70或核心網路80，亦或是網路通訊設備10彼此之間的通訊網路障礙。所以，在最短時間內找出網路通訊設備10之障礙發生原因，將有效幫助電信營運商改善用戶體驗。

因此，本發明能在初始階段介接網路通訊設備10之資訊，並大量收集網路通訊設備10之效能管理(PM)資料、組態管理(CM)資料、設備紀錄(Log)與障礙事件等資訊，以運用如第4圖所示之機器學習模型120(例如包括複數遞歸神經網路(Recurrent Neural Network；RNN)層與複數神經元之遞歸神經網路模型)建構機器學習模型架構(如遞歸神經網路架構)，再計算最適的類別權重或時序權重，進而快速診斷網路通訊設備10發生障礙之機率。

又，隨著無線網路架構的演進，網路通訊設備10(如小型基地台設備)之間的資料路由與交換將愈來愈複雜。因此，網路通訊設備10之障礙診斷若以傳統規則模式(Rule-Based)進行，將耗時大量時間追查每個節點之狀況。是以，本發明採用新興的機器學習模型120(見第4圖)或機器學習技術，將有助於例如電信營運商在第5代(5G)網路或更先進網路中，藉由診斷模組建立知識基礎模式(Knowledge-Based)之障礙診斷方法，以達成智慧維運(Artificial Intelligence for IT Operations；AIOps)之目標。

另外，本發明提供或設計有關障礙事件之權重評估演算法31，能在不平衡的網路通訊設備10之資料集中提升模型學習準確率。因此，本發明能用於各種網路通訊設備10之障礙偵測與預防，以減少電信運營商在網路通訊設備10之維運成本與時間。

第2圖為本發明之網路通訊設備10(如小型基地台設備)及其網路架構中有關網路障礙特徵之示意圖。如圖所示，網路通訊設備10可包括例如下列11項障礙事件：[1]設備之PCI(Peripheral Component Interconnect；週邊構件互連)衝突、[2]設備未取得PCI(週邊構件互連)、[3]設備之CPU(Central Processing Unit；中央處理器)負載過高、[4]設備之記憶體負載過高、[5]設備之溫度超過臨界值、[6]設備之時間同步失敗、[7]設備之IP(Internet Protocol；網際網路協定)位址衝突、[8]設備之MAC(Media Access Control；媒體存取控制)位址衝突、[9]設備之韌體更新失敗或遺失、[10]設備交遞(Handover)之X2連接介面斷線、[11]設備上傳PM(效能管理)資料、組態管理(CM)資料失敗。上述11項障礙事件皆為網路通訊設備10(如小型基地台設備)本身所產生的障礙事件日誌101或事件紀錄日誌(見第4圖)，這些障礙事件將嚴重影響網路通訊設備10提供網路服務(如無線網路服務)之品質，甚至使得網路通訊設備10無法提供網路服務。

網管模組20(如EMS網管模組或EMS網管系統)納管網路通訊設備10(如小型基地台設備)可包括例如下列4項障礙事件：[1]設備之供裝失敗、[2]設備之參數取得失敗、[3]設備之參數設定失敗、[4]設備之災防告警系統(Public Warning System；PWS)之參數設定失敗。上述4項障礙事件皆為網管模組20(如EMS網管模組或EMS網管系統)針對設備管理所產生的障礙事件日誌101或事件紀錄日誌(見第4圖)，雖不影響網路通訊設備10提供網路服務(如無線網路服務)，但卻無法即時監控與優化網路通訊設備10之效能管理(PM)資料之參數。

在網路(如廣域網路或局部網路)之安全閘道器(SecGW)60中，可包括例如下列3項障礙事件：[1]IPSec(網際網路安全協定)通道(Tunnel)建置失敗、[2]S1-MME(Mobility Management Entity；移動管理實體)連接介面斷線、[3]IPSec通道出現意外斷線。上述3項障礙事件皆為網路通訊設備10(如小型基地台設備)連接安全閘道器(SecGW)60所產生的障礙事件日誌101或事件紀錄日誌(見第4圖)，這些障礙事件將嚴重影響網路通訊設備10提供網路服務。

第3圖為本發明之基於機器學習預測與防範網路通訊設備發生障礙之系統1之實施例示意圖。如圖所示，網路通訊設備10(如小型基地台設備)定期透過通訊協定將效能管理(PM)資料與組態管理(CM)資料傳送至網管模組20(如EMS網管模組或EMS網管系統)之伺服器21(如自動組態伺服器(Auto Configuration Server,ACS))，以將效能管理(PM)資料與組態管理(CM)資料儲存於網管模組20(或伺服器21)之資料庫22(如ACS資料庫)中，且網路通訊設備10將所發生有關障礙事件之障礙事件日誌101(事件紀錄日誌)一併轉發至網管模組20以記錄於伺服器21或資料庫22中。

又，網管模組20之伺服器21接收例如約二百多個效能管理(PM)資料與組態管理(CM)資料之參數，並透過表現層狀態轉換應用程式介面(Representational State Transfer Application Programming Interface；Rest API)將效能管理(PM)資料與組態管理(CM)資料之參數傳送至診斷模組30(如診斷伺服器)，且由診斷模組30透過關鍵績效指標(KPI)公式資料庫90將效能管理(PM)資料與組態管理(CM)資料之參數計算出或轉換成相應之關鍵績效指標(KPI)，以依據關鍵績效指標(KPI)呈現網路通訊設備10(如小型基地台設備)之無線網路品質資訊。而且，診斷模組30(如診斷伺服器)記錄所有設備每一段時間(如每15分鐘)的89項關鍵績效指標(KPI)與事件日誌，同時進行設備發生障礙診斷之資料前處理、合併、模型建置與障礙預測。

下列表1為本發明之關鍵績效指標(KPI)與公式。在第3圖所示網路通訊設備10(如小型基地台設備)之關鍵績效指標(KPI)與障礙事件日誌101(事件紀錄日誌)之資料處理中，網路通訊設備10之無線網路品質資訊可由例如89項關鍵績效指標(KPI)呈現，亦可包括時間與設備識別碼(ID)。每一項關鍵績效指標(KPI)皆有相對應之公式，而公式內之參數即為網路通訊設備10定期帶上來之效能管理(PM)資料與組態管理(CM)資料之參數。

下列表2為本發明之障礙事件日誌之內容。舉例而言，設備的障礙事件日誌可分為18種障礙類別，每一筆障礙事件日誌被記錄於第3圖所示資料庫22(如ACS資料庫)中，且診斷模組30(如診斷伺服器)會定期讀取資料庫22之最新日誌。從障礙事件日誌之內容可得知障礙發生之日期時間(例如2018-06-23 09：05：18)、設備識別碼(例如B22539-LTE)與事件內容(例如發生來自ip…之s1連接介面斷線)。從上述關鍵績效指標(KPI)之資訊與障礙事件日誌之內容，可以由障礙發生之日期時間與設備識別碼(ID)合併二者資料。此外，倘若同一個設備在一段時間(如15分鐘)內發生二筆障礙，則合併的過程將會有二筆相同的關鍵績效指標(KPI)之資訊分別對應二筆障礙事件日誌之內容。

在資料前處理部分，第3圖所示網路通訊設備10帶上來之效能管理(PM)資料與組態管理(CM)資料之參數偶爾會造成少數參數在計算關鍵績效指標(KPI)時，使關鍵績效指標(KPI)之分母為0，以致計算結果錯誤。因此，診斷模組30可依據各別的障礙事件類別，採用各個障礙事件類別之各項關鍵績效指標(KPI)之平均數、眾數或零填補關鍵績效指標(KPI)之空值。另外，診斷模組30可採用歸一化(Normalization)來優化關鍵績效指標(KPI)之數值，因有些關鍵績效指標(KPI)之數值極大，如上行(Uplink)吞吐量與下行(Downlink)吞吐量(例如以Kbit為單位)；或者，診斷模組30 對於有些關鍵績效指標(KPI)之數值是簡單以真假值(如True：1或Flase：0)表示，可將每項關鍵績效指標(KPI)之數值縮放至[0,1]之間，以加速後續模型收斂。然後，診斷模組30可透過標籤編碼(Label Encoding)與一獨熱編碼(One Hot Encoding)將解析後有關網路通訊設備10之(如18+1類)障礙事件類別與正常類別轉換成(如N*19維)多維之矩陣。

本發明從多個關鍵績效指標(KPI)之間的數值變化發現單一障礙事件可同時與多個關鍵績效指標(KPI)之數值變化產生連動。例如，若第2圖所示某一網路通訊設備10(如小型基地台設備)連接安全閘道器(SecGW)60後，突然發生S1-MME(S1-移動管理實體)連接介面斷線，此時設備的S1連接介面所接收之位元組(Bytes received of S1 link interface)之訊務量將會降低，而設備的可用率(Availability Rate)也將降低，但因網路通訊設備10(如小型基地台設備)上仍有相關用戶設備50(見第1圖)持續連線，故用戶設備50之連接數量仍維持不變，故從上述資訊中得知關鍵績效指標(KPI)之間的數值變化與障礙事件有關連存在。所以，本發明之診斷模組30採用例如長短期記憶(Long Short-Term Memory,LSTM)模型作為基礎，以找出關鍵績效指標(KPI)之間的關聯性，進而建置第4圖所示具有機器學習模型120(如遞歸神經網路模型)之機器學習模型架構100(如遞歸神經網路模型架構)。

第4圖為本發明之機器學習模型架構100(如遞歸神經網路模型架構)及其機器學習模型120(如遞歸神經網路模型)之示意圖。如圖所示，在機器學習模型架構100中，可將障礙事件日誌101(事件紀錄日誌)經資料處理(如前處理或合併)以產生障礙標籤102後傳送至資料集110，並將效能管理(PM)資料與組態管理(CM)資料103經資料處理(如前處理或合併)以產生關鍵績效指標(KPI)104後傳送至資料集110。

又，經資料處理後的資料集110分為訓練資料集111與驗證資料集112，可藉由訓練資料集111對例如二層長短期記憶(LSTM)之遞歸神經網路(RNN)進行預訓練，再加入例如四層神經網路(Neural Network；NN)，接著由softmax演算法121分析出例如18種障礙類別與正常(normal)類別。在機器學習模型120之訓練過程中，可藉由驗證資料集112驗證機器學習模型120之準確率(accuracy)，並在多回合的迭代訓練後，將每個隱藏層(如二層遞歸神經網路(RNN)加上四層神經網路(NN)共六個隱藏層)加入退出層(dropout layer)122中，以防止機器學習模型120之過度擬合(overfitting)。然後，由診斷模組30依據新效能管理(PM)資料與新組態管理(CM)資料105所產生新關鍵績效指標(KPI)106之資訊驗證機器學習模型120之準確率。

下列表3為本發明第1圖中有關障礙事件之權重評估演算法31。舉例而言，設備發生障礙共分為18種類別，而每一種障礙發生之次數並非相同，因此在調和第4圖所示機器學習模型120(如遞歸神經網路模型)之訓練過程中，可由診斷模組30使用權重評估演算法31來優化或調整每一種障礙事件發生之類別權重，以提高分類準確率。

例如，在上述表3與第1圖有關障礙事件之權重評估演算法31中，可定義class_sampleSize代表每一項障礙類別之發生次數，total_sample代表總次數，mu代表在class_sampleSize中擁有最多次數佔total_sample的比例(即

)。每個障礙事件類別之類別權重為

，且類別權重之數值最小為1，並以log作為權重評估的正規化。權重評估演算法31主要表示當某一類障礙事件發生次數愈多時，機器學習模型120之訓練過程中，障礙事件之類別權重愈小；反之，當某一類障礙事件發生次數愈少時，機器學習模型120之訓練過程中，障礙事件之類別權重愈大。例如，class_sampleSize={c0：2813,c1：78,c2：1014,c3：510,c4：7914,c5：348}，total_sample=12677，mu=12677/7914=1.6018，

，並依此類推c1至c5的權重，其中c0至c5表示類別。

下列以一個具體實施例說明本發明之運作方式。首先，如第 1圖所示網路通訊設備10之網路架構，以監管網路通訊設備10(如小型基地台設備)為例，假設某一電信運營商目前部署約750個網路通訊設備10於全台地區，包括全台之超商、宴會廳、高鐵、醫院與警察局等公共場所。同時，網路通訊設備10(如小型基地台設備)透過網路(如廣域網路)之連接至安全閘道器(SecGW)60，並由網管模組20(如EMS網管模組或EMS網管系統)透過通訊協定納管網路通訊設備10之供裝、監控、參數設定或(及)關鍵績效指標(KPI)之管理等功能。

接著，如第3圖所示網路通訊設備10(如小型基地台設備)之網路架構。網路通訊設備10每一段時間(如每15分鐘)透過通訊協定傳送效能管理(PM)資料與組態管理(CM)資料至網管模組20之伺服器21(如自動組態伺服器(ACS))以儲存於資料庫22中，並將設備所發生有關障礙事件之障礙事件日誌一併轉發至伺服器21以記錄於資料庫22(如ACS資料庫)。又，伺服器21接收例如約二百多個效能管理(PM)資料與組態管理(CM)資料之參數，以由表現層狀態轉換應用程式介面(Rest API)傳送效能管理(PM)資料與組態管理(CM)資料之參數至診斷模組30(如診斷伺服器)，且由診斷模組30將效能管理(PM)資料與組態管理(CM)資料之參數透過關鍵績效指標(KPI)公式資料庫90轉換成關鍵績效指標(KPI)，以依據關鍵績效指標(KPI)呈現網路通訊設備10(如小型基地台設備)之無線網路品質資訊。然後，診斷模組30記錄所有設備每一段時間(如每15分鐘)的89項關鍵績效指標(KPI)與事件日誌，同時進行設備發生障礙診斷之資料前處理、合併、機器學習模型120(見第4圖)之建置與障礙預測。

此具體實施例收集107年5月1日至8月30日(共計123 日)，有關設備的效能管理(PM)資料、組態管理(CM)資料、設備紀錄(Log)、設備發生的障礙事件日誌(障礙事件紀錄)等資料。這些資料於第4圖所示診斷模組30(如診斷伺服器)經關鍵績效指標(KPI)計算、資料處理與合併後，例如共有5,050,010筆關鍵績效指標(KPI)之資訊，每一筆關鍵績效指標(KPI)之資訊具有89個關鍵績效指標(KPI)，其中的10,986筆關鍵績效指標(KPI)之資訊有障礙事件紀錄。

如第4圖所示之機器學習模型架構100(如遞歸神經網路模型架構)。例如，訓練資料集111在107年5月1日至8月15日，共有4,099,340筆關鍵績效指標(KPI)之資訊及9,834筆障礙事件紀錄。驗證資料集112在107年8月16日至8月30日，共有891,815筆關鍵績效指標(KPI)之資訊及1,053筆障礙事件紀錄。測試資料集在107年8月31日，共有58,855筆關鍵績效指標(KPI)之資訊及99筆障礙事件紀錄。機器學習模型120之歷元(Epoch)約1000次，批量大小(Batch Size)約128至256，機器學習模型120之隱藏層之激活函數(activation function)採用ReLU(Rectified Linear Unit；修正線性單元)與softmax演算法121，各隱藏層約有64至128個神經元，最後分為19種類別(包括18種障礙類別與1種正常類別)，其中網路通訊設備10(如小型基地台設備)之障礙項目如第2圖所示。

第5A圖為本發明之基於機器學習預測與防範網路通訊設備發生障礙之方法中有關障礙診斷模型40之建置流程圖，且一併參閱第1圖。在第5A圖之障礙診斷模型40之建置流程中，由第1圖所示網管模組20收集網路通訊設備10之效能管理(PM)資料、組態管理(CM)資料、設備紀錄(Log)與障礙事件等設備資訊，再由第1圖所示診斷模組30(如診斷伺服器)依據效能管理(PM)資料與組態管理(CM)資料計算出或轉換成例如LTE關鍵績效指標(KPI)之關鍵績效指標(KPI)，以進一步建置障礙診斷模型40。

舉例而言，在第5A圖之步驟S11中，由第1圖所示網管模組20(如EMS網管模組或EMS網管系統)收集來自網路通訊設備10(如小型基地台設備)之效能管理(PM)資料、組態管理(CM)資料、設備紀錄(Log)與障礙事件等設備資訊。接著，在第5A圖之步驟S12中，由第1圖所示診斷模組30(如診斷伺服器)連接或通訊網管模組20，以將來自網路通訊設備10之效能管理(PM)資料與組態管理(CM)資料等設備資訊，透過例如3GPP規範之LTE關鍵績效指標(KPI)計算出或轉換成相應之關鍵績效指標(KPI)。然後，在第5A圖之步驟S13、步驟S14及步驟S15中，由診斷模組30建立有關障礙事件之權重評估演算法31以計算或調整障礙事件之權重，並由診斷模組30以關鍵績效指標(KPI)作為輸入因子及以障礙事件作為輸出結果來建置機器學習模型作為障礙診斷模型40，再由診斷模組30輸出障礙診斷模型40。

第5B圖為本發明之基於機器學習預測與防範網路通訊設備發生障礙之方法中有關網路通訊設備10之障礙診斷流程圖，且一併參閱第1圖。在第5B圖之網路通訊設備10之障礙診斷流程中，由網管模組20收集來自網路通訊設備10之新效能管理(PM)資料與新組態管理(CM)資料，以由診斷模組30將新效能管理(PM)資料與新組態管理(CM)資料計算出或轉換成相應之新關鍵績效指標(KPI)，再將新關鍵績效指標(KPI)輸入障礙診斷模型40。然後，由診斷模組30透過障礙診斷模型40利用新關鍵績效指標(KPI)預測或診斷網路通訊設備10是否可能發生或出現障礙，俾於預測或診斷出網路通訊設備10可能發生或出現障礙時，由診斷模組30調整網路通訊設備10之設備參數，例如調整用戶設備50之連線數上限來減少網路通訊設備10之負載，以防範或防止網路通訊設備10發生障礙。

舉例而言，在第5B圖之步驟S21中，由第1圖所示網管模組20(如EMS網管模組或EMS網管系統)收集來自網路通訊設備10(如小型基地台設備)之效能管理(PM)資料、組態管理(CM)資料、設備紀錄(Log)與障礙事件等設備資訊。接著，在第5B圖之步驟S22中，由第1圖所示診斷模組30(如診斷伺服器)連接或通訊網管模組20，以將來自網路通訊設備10之效能管理(PM)資料與組態管理(CM)資料等設備資訊，透過例如3GPP規範之LTE關鍵績效指標(KPI)計算出或轉換成相應之關鍵績效指標(KPI)。然後，在第5B圖之步驟S23及步驟S24中，由診斷模組30輸入網路障礙特徵至障礙診斷模型40，並在發生障礙時，由診斷模組30依據障礙診斷模型40預防網路通訊設備10之障礙與調整網路通訊設備10之設備參數。

第6A圖、第6B圖與第6C圖分別為本發明中第一測試案例之模型驗證準確率(accuracy)、模型驗證精確率(precision)與模型驗證招回率(recall)之曲線圖，第7A圖、第7B圖與第7C圖分別為本發明中第二測試案例之模型驗證準確率、模型驗證精確率與模型驗證招回率之曲線圖。同時，此具體實施例可分為二種測試案例，第6A圖至第6C圖所示第一測試案例未採用本發明中有關障礙事件之權重評估演算法(即未調整障礙事件之權重)，第7A圖至第7C圖所示第二測試案例有採用本發明中有關障礙事件之權重評估演算法(即有調整障礙事件之權重)。

第一測試案(未採用本發明之權重評估演算法來調整障礙事件之權重)在次數1000時，第6A圖所示之模型驗證準確率於點A1達到98.3%(即0.983)，第6B圖所示之模型驗證精確率於點A2達到27.5%(即0.275)，第6C圖所示之模型驗證招回率於點A3達到98%(即0.98)，且F1分數(F1-Scroe)為42.95。反之，第二測試案(有採用本發明之權重評估演算法來調整障礙事件之權重)在次數1000時，第7A圖所示之模型驗證準確率於點B1達到96%(即0.96)，第7B圖所示之模型驗證精確率於點B2達到53.5%，第7C圖所示之模型驗證招回率於點B3達到92.2%，且F1分數為67.66。從上述測試結果來看，第7A圖至第7C圖所示第二測試案有採用本發明之權重評估演算法以調整障礙事件之權重時，模型驗證精確率大幅提升26%，而模型驗證準確率與模型驗證招回率雖較第一測試案有小幅下降2%至6%，但皆仍維持在90%以上，且F1分數提升24.71。因此，第一測試案與第二測試案之測試結果可參閱下列表4所示。

綜上，本發明之基於機器學習預測與防範網路通訊設備發生障礙之系統及方法可至少具有下列特色、優點或技術功效。

一、本發明採用新興的機器學習技術，將有助於例如電信營運商在第5代(5G)網路或更先進網路中建立知識基礎模式之障礙診斷方法，以達成智慧維運(AIOps)之目標，俾預測與防範網路通訊設備發生障礙。

二、本發明能在初始階段介接網路通訊設備之資訊，並大量收集網路通訊設備之效能管理(PM)資料、組態管理(CM)資料、設備紀錄(Log)與障礙事件等資訊，以建構機器學習模型(如遞歸神經網路模型)和計算最適的類別權重，進而快速預測或診斷網路通訊設備是否發生障礙或其機率。

三、本發明提供或設計有關障礙事件之權重評估演算法，能在不平衡的網路通訊設備之資料集中提升模型學習準確率。而且，在調和機器學習模型(如遞歸神經網路模型)之訓練過程中，使用權重評估演算法能優化或調整每一種障礙事件發生之類別權重，以提高分類準確率。

四、本發明能用於各種網路通訊設備之障礙偵測與預防，以減少例如電信運營商在網路通訊設備之維運成本與時間。

五、本發明可能應用之產業為電信產業、通訊產業等，且可能應用之產品為網路管理服務與系統、通訊設備管理服務與系統等。

上述實施形態僅例示性說明本發明之原理、特點及其功效，並非用以限制本發明之可實施範疇，任何熟習此項技藝之人士均能在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。任何運用本發明所揭示內容而完成之等效改變及修飾，均仍應為申請專利範圍所涵蓋。因此，本發明之權利保護範圍，應如申請專利範圍所列。