TW201513605A - 多層級聯業務監控系統及方法 - Google Patents

多層級聯業務監控系統及方法 Download PDF

Info

Publication number
TW201513605A
TW201513605A TW102127070A TW102127070A TW201513605A TW 201513605 A TW201513605 A TW 201513605A TW 102127070 A TW102127070 A TW 102127070A TW 102127070 A TW102127070 A TW 102127070A TW 201513605 A TW201513605 A TW 201513605A
Authority
TW
Taiwan
Prior art keywords
abnormal
node
name
software system
person
Prior art date
Application number
TW102127070A
Other languages
English (en)
Inventor
Chung-I Lee
Yi-Guo Wang
Jian Huang
Hong-Bo Liang
Zheng-Lai Ding
Qian-Cheng Ma
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Publication of TW201513605A publication Critical patent/TW201513605A/zh

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一種多層級聯業務監控系統及方法,該系統用於:掃描資料中心的設備,以獲取資料中心中每個設備的運行資訊;根據每個設備的運行資訊判斷資料中心上是否有設備出現異常;當資料中心有設備出現異常時,通知管理上述異常設備的負責人;根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人。

Description

多層級聯業務監控系統及方法
本發明涉及一種虛擬機控制系統及方法,尤其是關於一種多層級聯業務監控系統及方法。
資料中心(data center),通常包括幾台乃至上萬台設備,也稱為設備農場(server farm),指用於安置電腦系統及相關部件的設施,例如,電信和儲存系統。通常,資料中心包含冗餘和備用電源,冗餘資料通信連接,環境控制(例如空調、滅火器)和安全設備,其中,資料中心中最重要的設備為用於儲存資料的設備。所述設備上安裝有一個或多個虛擬機,每個虛擬機上還安裝有一個或多個軟體系統(例如,電子簽名系統等),為了確保資料中心上的設備及軟體的正常運行,需要對資料中心上的設備及軟體進行監控,然而,常規的監控一般集中在對設備和軟體直接監控上(即,一對一的監控),無法實現設備或軟體上部署的業務邏輯進行監控,即無法實現對相互關聯的設備的監控,也無法實現對相互關聯的軟體系統之間的監控。
鑒於以上內容,有必要提供一種多層級聯業務監控系統及方法,其可以實現對相互關聯的設備的監控,同時實現對相互關聯的軟體系統之間的監控,在資料中心的設備出現異常時及時通知相關負責人,讓相關負責人及時瞭解情況,從而縮短維護設備的等待時間。
一種多層級聯業務監控系統,該系統運行於監控電腦中,該系統包括:掃描模組,用於掃描資料中心的設備,以獲取資料中心中每個設備的運行資訊;判斷模組,用於根據每個設備的運行資訊判斷資料中心上是否有設備出現異常;通知模組,用於當資料中心有設備出現異常時,通知管理上述異常設備的負責人;查找模組,用於根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人。
一種多層級聯業務監控方法,該方法包括:掃描資料中心的設備,以獲取資料中心中每個設備的運行資訊;根據每個設備的運行資訊判斷資料中心上是否有設備出現異常;當資料中心有設備出現異常時,通知管理上述異常設備的負責人;根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人。
相較於習知技術,本發明提供的多層級聯業務監控系統及方法,其可以實現對相互關聯的設備的監控,同時實現對相互關聯的軟體系統之間的監控,在資料中心的設備出現異常時及時通知相關負責人,讓相關負責人及時瞭解情況,從而縮短維護設備的等待時間。
10‧‧‧用戶端
20‧‧‧監控電腦
30‧‧‧資料庫
40‧‧‧網路
50‧‧‧資料中心
500‧‧‧設備
200‧‧‧多層級聯業務監控系統
210‧‧‧掃描模組
220‧‧‧判斷模組
230‧‧‧通知模組
240‧‧‧查找模組
250‧‧‧儲存器
260‧‧‧處理器
圖1係本發明多層級聯業務監控系統較佳實施例的應用環境圖。
圖2係本發明監控電腦較佳實施例的結構示意圖。
圖3係本發明多層級聯業務監控方法較佳實施例的流程圖。
圖4係本發明多層級聯業務監控方法中步驟S40中根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人的細化流程圖。
圖5係本發明邏輯樹的示意圖。
參閱圖1所示,係本發明多層級聯業務監控系統200較佳實施例的應用環境圖。該多層級聯業務監控系統200應用於監控電腦20中。該監控電腦20與資料中心(Data Center)50透過網路40進行通信連接。
所述網路40可以是網際網路、局域網路或者其他通訊網路。
所述資料中心50包括多個設備500(圖中以四個為例),所述設備500為伺服器。在本實施例中,所述伺服器稱為Host主機,每個Host主機上安裝有一個或多個虛擬機。所述虛擬機上安裝有一個或多個軟體系統(例如,證書驗證系統、密碼保護系統)。需要說明的是,所述軟體系統之間是以邏輯樹的方式關聯的,在邏輯樹中,每一個軟體系統的名稱對應一個節點,節點可以有子節點,多個節點可以擁有同一個子節點,如圖5所示為節點所組成的某一個邏輯樹,其中,節點A包括兩個子節點A1和A2,子節點A1進一步包括下一層的子節點A11,節點B包括兩個子節點B1和B2,子節點B2包括下一層的子節點B21,其中,A2和B1共同包括下一層的子節點C。根據邏輯樹的關係圖,可以透過某一個子節點一直找到最上層的節點,也可以一直找到最底層的節點。軟體系統可以安裝在同一個設備500的同一個虛擬機中,也可以安裝在同一個設備的不同虛擬機中,還可以安裝在不同設備500的虛擬機中,舉例而言,邏輯樹中A的兩個子節點A1和A2所對應的軟體系統可以安裝於同一個設備500的同一個虛擬機中,也可以安裝於同一設備500的不同虛擬機中,還可以分別安裝於兩個不同的設備500的虛擬機中。
所述監控電腦20用於監控資料中心50中設備500的運行情況,當設備500出現異常時,通知相關負責人(例如,負責管理資料中心50的負責人、負責管理設備500的負責人、負責在設備500上安裝虛擬機的負責人、負責對虛擬機上所安裝的軟體系統進行維護的負責人、及使用該軟體系統的用戶)。
此外,所述資料中心50還包括有一個或多個環境儀器(例如,溫度感測器、濕度感測器、風扇、變壓器、電壓電流偵測儀等儀器),所述監控電腦20還會監控所述環境儀器的運行情況,當環境儀器上的數值超過設定的值(例如,溫度感測器上的溫度超過七十度)或者環境儀器無法工作時,通知相關負責人(例如,負責管理資料中心50的負責人或負責維修環境儀器的負責人)。具體而言,監控電腦20與環境儀器透過簡單網路管理協定(SNMP,Simple Network Management Protocol)建立通信連接,並及時獲取環境儀器上的資料(例如,溫度、濕度、電流、電壓等),透過對所獲取的資料進行分析以判斷環境儀器是否出現異常。
所述監控電腦20透過一個資料庫連接與資料庫30連接。其中,所述資料庫連接可為一開放式資料庫連接(Open Database Connectivity, ODBC),或Java資料庫連接(Java Database Connectivity, JDBC)。所述資料庫30用於儲存資料中心50中設備500的名稱、每個設備500上安裝的虛擬機名稱、每個虛擬機上安裝的軟體系統的名稱及邏輯樹。所述資料庫30還儲存有負責管理資料中心50的負責人的聯繫資訊、負責管理設備500的負責人的聯繫資訊、負責在設備500上安裝虛擬機的負責人的聯繫資訊、負責對虛擬機上所安裝的軟體系統進行維護的負責人的聯繫資訊、及使用該軟體系統的用戶的聯繫資訊。所述聯繫資訊包括,但不限於,郵箱位址、電話號碼等資訊。
在此需說明的是,資料庫30可獨立於監控電腦20,也可位於監控電腦20內。所述資料庫30可存於監控電腦20的硬碟或者快閃儲存器盤中。從系統安全性的角度考慮,本實施例中的資料庫30獨立於監控電腦20。
此外,用戶端10用於提供一個互動式介面給用戶,便於用戶進行操作並將操作過程中的各種資料存於監控電腦20中。該用戶端10可以是個人電腦、筆記型電腦、手機、平板電腦以及其他任意能與監控電腦20連接的設備。
參閱圖2所示,係本發明監控電腦20較佳實施例的結構示意圖。該監控電腦20還包括儲存器250、處理器260。所述多層級聯業務監控系統200包括掃描模組210、判斷模組220、通知模組230及查找模組240。模組210至240的程式化代碼儲存於儲存器250中,處理器260執行這些程式化代碼,實現多層級聯業務監控系統200提供的上述功能。
所述掃描模組210用於掃描資料中心50的設備500,以獲取資料中心50中每個設備500的運行資訊。具體而言,掃描模組210調用HttpClient控制項,以獲取資料中心50中每個設備500的運行資訊,所述運行資訊包括CPU使用率、風扇速度狀態、硬碟使用率、硬碟狀態、記憶體狀態等資訊。
所述判斷模組220用於根據每個設備500的運行資訊判斷資料中心50上是否有設備500出現異常。具體而言,根據獲取的每一個設備500的運行資訊與設備500正常運行時的運行資訊進行比較,從而判斷設備500是否出現異常。例如,若獲取某一個設備500的CPU使用率為95%,而該設備500正常運行時的CPU使用率要求低於85%,則判斷模組220判斷該設備500出現異常。此外,由於資料中心50中的設備500可能相互關聯,若有一個設備500出現異常,也會影響與其關聯的設備500的運行,因此,資料庫30中還儲存有設備500之間的多個關系列表,每個關系列表中包含多個相互關聯的設備500,在每個關系列表中,若某一個設備500出現異常,則該關系列表中的其他設備500也認定為出現異常。為了方便描述,出現異常的設備500稱為異常設備500。
所述通知模組230用於通知管理上述異常設備500的負責人。具體而言,通知模組230從資料庫30中透過該異常設備500的名稱,找到該負責管理該異常設備500的負責人的聯繫資訊,並用郵件或短信的方式發送提示資訊給該負責人。
所述查找模組240用於根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人。所述根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人的具體實施方式將在圖4中做詳細描述。
參閱圖3所示,係本發明多層級聯業務監控方法較佳實施例的流程圖。
步驟S10,掃描模組210掃描資料中心50的設備500,以獲取資料中心50中每個設備500的運行資訊。具體而言,掃描模組210調用HttpClient控制項,以獲取資料中心50中每個設備500的運行資訊,所述運行資訊包括CPU使用率、風扇速度狀態、硬碟使用率、硬碟狀態、記憶體狀態等資訊。
步驟S20,判斷模組220根據每個設備500的運行資訊判斷資料中心50上是否有設備500出現異常。此外,由於資料中心50中的設備500可能相互關聯,若有一個設備500出現異常,也會影響與其關聯的設備500的運行,因此,資料庫30中還儲存有設備500之間的多個關系列表,每個關系列表中包含多個相互關聯的設備500,在每個關系列表中,若某一個設備500出現異常,則該關系列表中的其他設備500也認定為出現異常。為了方便描述,出現異常的設備500稱為異常設備500。。若資料中心50沒有設備500出現異常,流程返回步驟S10。若判斷資料中心50有設備500出現異常,流程進入步驟S30。
步驟S30,通知模組230通知管理上述異常設備500的負責人。具體而言,通知模組230從資料庫30中透過該異常設備500的名稱,找到該負責管理該異常設備500的負責人的聯繫資訊,並用郵件或短信的方式發送提示資訊給該負責人。
步驟S40,查找模組240根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人。所述根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人的具體實施方式將在圖4中做詳細描述。
參閱圖4所示,是本發明圖3的步驟S40中根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人的細化流程圖。
步驟S410,查找模組240根據異常設備500的名稱獲取該異常設備500上軟體系統的名稱。具體而言,查找模組240在資料庫30中查找異常設備500上的軟體系統的名稱。
步驟S420,查找模組240根據該異常設備500上軟體系統的名稱及邏輯樹獲取其他受影響的軟體系統的名稱。根據邏輯樹獲取其他受影響的軟體系統的名稱的方式如下:第一步:在邏輯樹中找到該異常設備500上軟體系統的名稱所對應的節點,第二步:向上查找,即獲取該節點上一層的節點,並透過遞迴的方式一直獲取到該節點對應的根節點,第三步:向下查找,即獲取該節點下一層的節點,並透過遞迴的方式一直獲取到該節點最底層的節點,由於每個節點對應一個軟體系統的名稱,透過所查找到的節點即可獲取其他受影響的軟體系統的名稱。舉例而言,如圖5所示,假設獲取的軟體系統的名稱在邏輯樹中對應的節點為A2,則查找模組240根據邏輯樹找到該節點A2上一層的節點A,及該節點A2下一層的節點C,需要說明的是,若節點A還有上一層節點,則透過遞迴的方式繼續向上查找,直到所獲取的節點沒有上一層節點,同理可知,若節點C還有下一層節點,則透過遞迴的方式繼續向下查找,直到所獲取的節點沒有下一層節點。
步驟S430,查找模組240根據所有獲取的軟體系統的名稱通知管理上述軟體系統的負責人。具體而言,假設查找到的節點為A、A2及C,則通知管理上述三個節點所對應的軟體系統的負責人。
最後所應說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照以上較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換,而不脫離本發明技術方案的精神和範圍。
10‧‧‧用戶端
20‧‧‧監控電腦
30‧‧‧資料庫
40‧‧‧網路
50‧‧‧資料中心
500‧‧‧設備
200‧‧‧多層級聯業務監控系統

Claims (12)

  1. 一種多層級聯業務監控系統,該系統運行於監控電腦中,該系統包括:
    掃描模組,用於掃描資料中心的設備,以獲取資料中心中每個設備的運行資訊;
    判斷模組,用於根據每個設備的運行資訊判斷資料中心是否有設備出現異常;
    通知模組,用於當資料中心有設備出現異常時,通知管理上述異常設備的負責人;及
    查找模組,用於根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人。
  2. 如申請專利範圍第1項所述之多層級聯業務監控系統,所述設備的運行資訊包括CPU使用率、風扇速度狀態、硬碟使用率、硬碟狀態及記憶體狀態。
  3. 如申請專利範圍第1項所述之多層級聯業務監控系統,所述判斷設備出現異常的方式是根據獲取的每一個設備的運行資訊與設備正常運行時的運行資訊進行比較,從而判斷設備是否出現異常。
  4. 如申請專利範圍第1項所述之多層級聯業務監控系統,所述資料庫中儲存有多個關系列表,每個關系列表中包含多個相互關聯的設備,在每個關系列表中,若某一個設備出現異常,則該關系列表中的其他設備也認定為出現異常。
  5. 如申請專利範圍第1項所述之多層級聯業務監控系統,所述根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人的具體實施方式如下:
    根據異常設備的名稱獲取該異常設備上軟體系統的名稱;
    根據該異常設備上軟體系統的名稱及邏輯樹獲取其他受影響的軟體系統的名稱;及
    根據所有獲取的軟體系統的名稱通知管理上述軟體系統的負責人。
  6. 如申請專利範圍第5項所述之多層級聯業務監控系統,所述根據該異常設備上軟體系統的名稱及邏輯樹獲取其他受影響的軟體系統的名稱的方式如下:
    在邏輯樹中找到該異常設備上軟體系統的名稱所對應的節點,該邏輯樹中的每個節點對應一個軟體系統的名稱;
    透過遞迴方式向上查找,獲取該節點上一層的節點,直到獲取到該節點對應的根節點;及
    透過遞迴方式向下查找,獲取該節點下一層的節點,直到獲取到該節點最底層的節點。
  7. 一種多層級聯業務監控方法,該方法包括:
    掃描資料中心的設備,以獲取資料中心中每個設備的運行資訊;
    根據每個設備的運行資訊判斷資料中心是否有設備出現異常;
    當資料中心有設備出現異常時,通知管理上述異常設備的負責人;及
    根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人。
  8. 如申請專利範圍第7項所述之多層級聯業務監控方法,所述設備的運行資訊包括CPU使用率、風扇速度狀態、硬碟使用率、硬碟狀態及記憶體狀態。
  9. 如申請專利範圍第7項所述之多層級聯業務監控方法,所述判斷設備出現異常的方式是根據獲取的每一個設備的運行資訊與設備正常運行時的運行資訊進行比較,從而判斷設備是否出現異常。
  10. 如申請專利範圍第7項所述之多層級聯業務監控方法,所述資料庫中儲存有多個關系列表,每個關系列表中包含多個相互關聯的設備,在每個關系列表中,若某一個設備出現異常,則該關系列表中的其他設備也認定為出現異常。
  11. 如申請專利範圍第7項所述之多層級聯業務監控方法,所述根據異常設備的名稱查找到受該異常設備影響的軟體系統,並通知與所述軟體系統相關的負責人的具體實施方式如下:
    根據異常設備的名稱獲取該異常設備上軟體系統的名稱;
    根據該異常設備上軟體系統的名稱及邏輯樹獲取其他受影響的軟體系統的名稱;及
    根據所有獲取的軟體系統的名稱通知管理上述軟體系統的負責人。
  12. 如申請專利範圍第11項所述之多層級聯業務監控方法,所述根據該異常設備上軟體系統的名稱及邏輯樹獲取其他受影響的軟體系統的名稱的方式如下:
    在邏輯樹中找到該異常設備上軟體系統的名稱所對應的節點,該邏輯樹中的每個節點對應一個軟體系統的名稱;
    透過遞迴方式向上查找,獲取該節點上一層的節點,直到獲取到該節點對應的根節點;及
    透過遞迴方式向下查找,獲取該節點下一層的節點,直到獲取到該節點最底層的節點。
TW102127070A 2013-06-28 2013-07-29 多層級聯業務監控系統及方法 TW201513605A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310263788.0A CN104253715A (zh) 2013-06-28 2013-06-28 多层级联业务监控***及方法

Publications (1)

Publication Number Publication Date
TW201513605A true TW201513605A (zh) 2015-04-01

Family

ID=52188281

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102127070A TW201513605A (zh) 2013-06-28 2013-07-29 多層級聯業務監控系統及方法

Country Status (2)

Country Link
CN (1) CN104253715A (zh)
TW (1) TW201513605A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598764B (zh) * 2015-10-14 2019-12-03 北京国双科技有限公司 异常处理方法和装置
CN109558292A (zh) * 2017-09-26 2019-04-02 阿里巴巴集团控股有限公司 一种监控方法及装置
CN108628720A (zh) * 2018-05-02 2018-10-09 济南浪潮高新科技投资发展有限公司 一种级联场景下设备监控***及方法
CN111490900B (zh) * 2020-03-30 2022-12-16 中移(杭州)信息技术有限公司 网关故障定位方法、装置和网关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547120A (zh) * 2003-12-10 2004-11-17 沈阳东软软件股份有限公司 网络监视管理***
EP2262172A1 (en) * 2009-06-10 2010-12-15 Alcatel Lucent Method and scout agent for building a source database
CN101778017B (zh) * 2010-01-05 2012-05-23 中国工商银行股份有限公司 一种大型机联机交易的故障事件处理方法及服务器
CN102693177B (zh) * 2011-03-23 2015-02-04 ***通信集团公司 虚拟机故障诊断方法、处理方法及其装置和***

Also Published As

Publication number Publication date
CN104253715A (zh) 2014-12-31

Similar Documents

Publication Publication Date Title
JP6959736B2 (ja) ネットワーク障害のトラブルシューティング・オプションの識別
US10860311B2 (en) Method and apparatus for drift management in clustered environments
US8880907B2 (en) Method and system for determining physical location of equipment
US9071535B2 (en) Comparing node states to detect anomalies
WO2020029407A1 (zh) 告警数据的管理方法、装置、计算机设备及存储介质
JP4410804B2 (ja) 分散ネットワーク環境におけるシステム管理方法、情報処理装置及びプログラム
JP5542398B2 (ja) 障害の根本原因解析結果表示方法、装置、及びシステム
JP2009048611A (ja) アソシエーションルールマイニングを使用してコンピュータ環境内の計算エンティティ向けコンフィギュレーションルールを生成するための方法及び装置
US11656928B2 (en) Detecting datacenter mass outage with near real-time/offline using ml models
US11329869B2 (en) Self-monitoring
US8949653B1 (en) Evaluating high-availability configuration
US10185614B2 (en) Generic alarm correlation by means of normalized alarm codes
CN113535474B (zh) 异构云存储集群故障自动修复的方法、***、介质及终端
TW201513605A (zh) 多層級聯業務監控系統及方法
US20140282581A1 (en) Method and apparatus for providing a component block architecture
CN113076112A (zh) 数据库部署的方法、装置及电子设备
US20180123917A1 (en) System and method for monitoring multiple terminal devices
JP2011180805A (ja) 運用管理装置、運用管理方法、運用管理プログラム
WO2022134352A1 (zh) 服务器硬件状态监控方法、装置、电子设备及介质
US12047442B1 (en) Configuring a replacement node using a configuration backup of a failed node being replaced
CN115801588A (zh) 网络连接的动态拓扑处理方法及***
TW202325070A (zh) 相關於網路分析的方法及裝置
JP2010066993A (ja) ネットワーク監視装置及び監視方法
TW201118561A (en) A event management system an a method of the server therefore
BR112016020189B1 (pt) Método e sistema de resolução que facilita resolução de falhas de rede em centro de dados