TWI770749B - 一種巡檢方法及裝置 - Google Patents

一種巡檢方法及裝置 Download PDF

Info

Publication number
TWI770749B
TWI770749B TW109147101A TW109147101A TWI770749B TW I770749 B TWI770749 B TW I770749B TW 109147101 A TW109147101 A TW 109147101A TW 109147101 A TW109147101 A TW 109147101A TW I770749 B TWI770749 B TW I770749B
Authority
TW
Taiwan
Prior art keywords
model
training
mobile device
management device
time slice
Prior art date
Application number
TW109147101A
Other languages
English (en)
Other versions
TW202132989A (zh
Inventor
楊潔
何東杰
Original Assignee
大陸商中國銀聯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商中國銀聯股份有限公司 filed Critical 大陸商中國銀聯股份有限公司
Publication of TW202132989A publication Critical patent/TW202132989A/zh
Application granted granted Critical
Publication of TWI770749B publication Critical patent/TWI770749B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C1/00Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people
    • G07C1/20Checking timed patrols, e.g. of watchman
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Testing Or Measuring Of Semiconductors Or The Like (AREA)
  • Transplanting Machines (AREA)
  • Indicating And Signalling Devices For Elevators (AREA)

Abstract

一種巡檢方法及裝置,用以提高巡檢效率。其中方法包括:模型管理設備向各個行動設備發送模型訓練指示,以指示各個行動設備按照對應的巡檢路線在機房中行進時採集訓練資料,基於本地模型和訓練資料訓練得到中間模型並上報給模型管理設備,如此,模型管理設備可以基於各個中間模型的模型參數訓練得到識別模型,該識別模型用於確定機房的健康狀態。通過將中間模型的訓練過程放置在行動設備側執行,使得行動設備可以僅上報中間模型的模型參數給模型管理設備,而無需上報全量的訓練資料,該方式有助於節省通信消耗,有效提高巡檢效率。

Description

一種巡檢方法及裝置
本發明屬於影像處理技術領域,尤其關於一種巡檢方法及裝置。
互聯網資料中心(internet data center,IDC)機房是在互聯網通信線路和頻寬資源的基礎上建立的標準化的機房環境。IDC機房可以容納多種類型的設備,比如伺服器、監控設備、管理設備或安全設備等。在實際操作中,通常需要對IDC機房進行巡檢,比如採集設備上的信號燈的圖像以識別設備上的信號燈的狀態、採集設備的圖像以識別設備的類型、採集氣味資料和/或溫度資料以分析機房環境。在對IDC機房中的設備進行巡檢時,如何有效地對巡檢資料進行識別,對於維護機房安全、及時排查故障是非常重要的。
在一種現有的實現方式中,各個行動設備從機房中採集訓練資料並上報給伺服器進行集中訓練,伺服器訓練得到識別模型後,將識別模型下發給各個行動設備,以由各個行動設備使用識別模型對採集到的巡檢資料進行識別,完成對機房的巡檢。然而,所述種方式需要各個行動設備將訓練資料上報給伺服器,而訓練資料(比如圖像、氣味或溫度)一般會對應較大的資料量,因此這種巡檢方式會存在較大的通信消耗,導致巡檢效率較低。
綜上,目前亟需一種巡檢方法,用以解決現有技術採用伺服器集中訓練識別模型所導致的通信消耗大、巡檢效率低的技術問題。
本發明提供一種巡檢方法及裝置,用以解決現有技術採用伺服器集中訓練識別模型所導致的通信消耗大、巡檢效率低的技術問題。
第一方面,本發明提供一種巡檢方法,該方法應用於模型管理設備,該方法包括:模型管理設備向各個行動設備發送模型訓練指示,以指示各個行動設備按照各自的巡檢路線在機房中行進時採集訓練資料、以及基於本地模型和訓練資料訓練得到中間模型並上報給模型管理設備,如此,模型管理設備在接收到各個行動設備上報的中間模型的模型參數之後,可以基於各個行動設備上報的中間模型的模型參數訓練得到識別模型,該識別模型用於確定機房的健康狀態。
在上述設計中,通過中間模型的訓練過程放置在行動設備側執行,使得行動設備可以僅上報中間模型的模型參數給模型管理設備,而無需上報全量的訓練資料,由於模型參數相對於訓練資料來說具有較小的資料量,因此所述種巡檢方式可以較好地節省通信消耗,有效提高巡檢效率。且,通過在行動設備的巡檢過程中使用識別模型確定機房的健康狀態,有助於實現模型訓練和模型識別的聯合操作,進一步提高巡檢效率。
在一種可能的實現方式中,識別模型是指當前時間片對應的識別模型,在這種情況下,模型管理設備在向各個行動設備發送模型訓練指示之前,還可以從機房的全部行動設備中選取出當前時間片所對應的行動設備,以作為執行當前時間片對應的模型訓練的各個行動設備。通過將整個時間維度上的模型訓練分解為多個時間片分別執行,並在每個時間片中選取部分行動設備作為訓練設備,能夠有效分配並均勻利用訓練資料和行動設備,避免在訓練模型的過程中出現由於資料過大而造成參數反覆運算無法收斂的問題,提高識別模型的準確性。
在一種可能的實現方式中,模型訓練指示用於指示各個行動設備循環按照各自的巡檢路線在機房中行進時採集訓練資料,以及指示各個行動設備基於本地模型和訓練資料訓練得到中間模型並上報給模型管理設備。在這種情況下,模型管理設備每接收到設定數量的模型參數,則可以至少基於所述設定數量的模型參數構建得到綜合模型參數,然後將綜合模型參數下發給各個行動設備,以使各個行動設備基於綜合模型參數更新本地模型。當某一綜合模型參數對應的模型滿足當前時間片的結束條件時,模型管理設備可以向各個行動設備發送模型訓練結束指令。其中,所述綜合模型參數對應的模型即為識別模型。上述實現方式在每個時間片內執行多次模型綜合操作,並在每次模型綜合操作中使用設定數量的模型參數得到綜合模型參數,而不使用全部行動設備的模型參數進行綜合,能在使用盡可能多的模型參數得到綜合模型參數的同時,相容部分行動設備故障的情況,有助於保證模型訓練的順利進行。
在一種可能的實現方式中,模型管理設備可以是指伺服器。在這種情況下,模型管理設備在基於各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還可以判斷識別模型是否滿足模型訓練的結束條件,若不滿足,則可以從機房的全部行動設備中選取下一時間片對應的行動設備,並向下一時間片對應的行動設備發送模型訓練指示,若滿足,則可以將識別模型作為目標識別模型。通過將伺服器作為模型管理設備,不僅能對各個行動設備的模型訓練過程進行統一管理,還能有效降低行動設備的壓力,提高行動設備訓練中間模型的效率。且,通過在每個時間片啟動時重新選取執行訓練的行動設備,還能有效分配行動設備的資源,充分考慮到不同行動設備的差異,提高識別模型的準確性。
在一種可能的實現方式中,模型管理設備可以是指行動設備。在這種情況下,模型管理設備在基於各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還可以判斷識別模型是否滿足模型訓練的結束條件。若不滿足,則可以通過與其他行動設備的通信選取某一行動設備作為下一時間片對應的模型管理設備,並向下一時間片對應的模型管理設備發送模型啟動指示,以指示下一時間片對應的模型管理設備從其它行動設備中選取下一時間片對應的其它行動設備並向下一時間片對應的其它行動設備發送模型訓練指示。若滿足,則可以將識別模型作為目標識別模型。通過將行動設備作為模型管理設備,可以無需再額外設置伺服器,從而有助於降低模型訓練的成本。且,通過在每個時間片啟動時重新選取執行訓練的行動設備,還能有效分配行動設備的資源,充分考慮到不同行動設備的差異,提高識別模型的準確性。
第二方面,本發明提供一種巡檢方法,該方法應用於行動設備,該方法包括:行動設備接收模型管理設備發送的模型訓練指示,根據模型訓練指示,按照對應的巡檢路線在機房中行進時採集訓練資料,然後基於本地模型和訓練資料訓練得到行動設備對應的中間模型,並將中間模型的模型參數上報給模型管理設備,以使模型管理設備基於各個行動設備上報的中間模型的模型參數訓練得到識別模型。其中,該識別模型用於確定機房的健康狀態。
在一種可能的實現方式中,行動設備根據模型訓練指示,可以循環執行如下操作:按照巡檢路線在機房中行進並採集訓練資料,基於本地模型和訓練資料訓練得到行動設備對應的中間模型,將中間模型的模型參數上報給模型管理設備。其中,在每次循環中,行動設備在將中間模型的模型參數上報給模型管理設備之後,還可以接收模型管理設備發送的綜合模型參數,然後使用綜合模型參數更新本地模型。
在一種可能的實現方式中,行動設備使用綜合模型參數更新本地模型之後,還可以按照巡檢路線在機房中行進並採集待識別資料,然後使用更新後的本地模型對待識別資料進行識別,以確定機房的健康狀態。如此,通過在巡檢過程中聯合執行訓練、優化和識別操作,能夠實現邊訓練模型、邊優化模型、邊識別模型的效果,提高訓練和識別的效率。且,通過使用即時優化後的模型進行識別,還能提高識別的效果。
第三方面,本發明提供一種巡檢裝置,該裝置包括:收發模組,用於向各個行動設備發送模型訓練指示,以及接收各個行動設備上報的中間模型的模型參數;其中該模型訓練指示用於各個行動設備按照各自的巡檢路線在機房中行進時採集訓練資料,以及指示各個行動設備基於本地模型和訓練資料訓練得到中間模型;訓練模組,用於基於各個行動設備上報的中間模型的模型參數訓練得到識別模型。其中,識別模型用於確定機房的健康狀態。
在一種可能的實現方式中,識別模型可以為當前時間片對應的識別模型。在這種情況下,在收發模組向各個行動設備發送模型訓練指示之前,訓練模組還可以從機房的全部行動設備中選取出當前時間片對應的行動設備,作為在當前時間片內執行訓練的各個行動設備。
在一種可能的實現方式中,模型訓練指示用於各個行動設備循環按照各自的巡檢路線在機房中行進並採集訓練資料,基於本地模型和訓練資料訓練得到中間模型並上報。在這種情況下,訓練模組具體用於:每接收到設定數量的模型參數,則至少基於設定數量的模型參數構建得到綜合模型參數;收發模組具體用於:將綜合模型參數下發給各個行動設備,以及當某一綜合模型參數對應的模型滿足當前時間片的結束條件時,向各個行動設備發送模型訓練結束指令,以指示所述綜合模型參數對應的模型即為識別模型。其中,綜合模型參數用於各個行動設備更新本地模型。
在一種可能的實現方式中,所述巡檢裝置為伺服器。在這種情況下,訓練模組在基於各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還可以判斷識別模型是否滿足模型訓練的結束條件,若不滿足,則可以從機房的全部行動設備中選取下一時間片對應的行動設備,並向下一時間片對應的行動設備發送模型訓練指示,若滿足,則可以將識別模型作為目標識別模型。
在一種可能的實現方式中,所述巡檢裝置為行動設備。在這種情況下,訓練模組在基於各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還可以判斷識別模型是否滿足模型訓練的結束條件,若不滿足,則可以通過與其他行動設備的通信選取某一行動設備作為下一時間片對應的模型管理設備,並向下一時間片對應的模型管理設備發送模型啟動指示,以指示下一時間片對應的模型管理設備從其它行動設備中選取下一時間片對應的其它行動設備並向下一時間片對應的其它行動設備發送模型訓練指示;若滿足,則可以將識別模型作為目標識別模型。
第四方面,本發明提供的一種巡檢裝置,該裝置包括:收發模組,用於接收模型管理設備發送的模型訓練指示;訓練模組,用於根據模型訓練指示,按照對應的巡檢路線在機房中行進時採集訓練資料,基於本地模型和訓練資料訓練得到行動設備對應的中間模型;收發模組,還用於將中間模型的模型參數上報給模型管理設備。其中,各個行動設備上報的中間模型的模型參數用於模型管理設備訓練得到識別模型,識別模型用於確定機房的健康狀態。
在一種可能的實現方式中,訓練模組可以根據模型訓練指示,循環執行如下操作:按照巡檢路線在機房中行進並採集訓練資料,基於本地模型和訓練資料訓練得到行動設備對應的中間模型。相應地,收發模組可以根據模型訓練指示,循環執行如下操作:將中間模型的模型參數上報給模型管理設備。在每次循環中,在收發模組將中間模型的模型參數上報給模型管理設備之後:收發模組還可以接收模型管理設備發送的綜合模型參數,訓練模組還可以使用綜合模型參數更新本地模型。
在一種可能的實現方式中,所述裝置還可以包括識別模組。在訓練模組使用綜合模型參數更新本地模型之後,識別模組可以按照巡檢路線在機房中行進時採集待識別資料,使用更新後的本地模型對待識別資料進行識別,以確定機房的健康狀態。
第五方面,本發明提供一種計算設備,包括至少一個處理器以及至少一個記憶體,其中,該記憶體存儲有電腦程式,當該程式被該處理器執行時,使得該處理器執行上述第一方面或第二方面任意所述的巡檢方法。
第六方面,本發明提供一種電腦可讀存儲介質,其存儲有可由計算設備執行的電腦程式,當該程式在該計算設備上運行時,使得該計算設備執行上述第一方面或第二方面任意所述的巡檢方法。
本發明的這些實現方式或其他實現方式在以下實施例的描述中會更加簡明易懂。
為利 貴審查委員了解本發明之技術特徵、內容與優點及其所能達到之功效,茲將本發明配合附圖及附件,並以實施例之表達形式詳細說明如下,而其中所使用之圖式,其主旨僅為示意及輔助說明書之用,未必為本發明實施後之真實比例與精準配置,故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的申請範圍,合先敘明。
在本發明的描述中,需要理解的是,術語「中心」、「橫向」、「上」、「下」、「左」、「右」、「頂」、「底」、「內」、「外」等指示的方位或位置關係為基於圖式所示的方位或位置關係,僅是為了便於描述本發明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本發明的限制。
圖1為本發明實施例提供的一種IDC機房的結構示意圖,如圖1所示,IDC機房中可以設置有至少一排機櫃,比如機櫃101-機櫃106,機櫃101-機櫃104可以並列設置,機櫃105和機櫃106可以並列設置,每排機櫃上可以設置有多台設備,比如伺服器設備、資料獲取設備、監控設備或溫控設備等。
本發明實施例中,機櫃可以為單層結構,多台設備並列放置在單層結構上。或者,機櫃也可以為多層結構,多台設備分別放置在多層結構上,每層結構上可以並列放置一台或多台設備,具體不作限定。
基於圖1所示意的IDC機房,圖2為本發明實施例提供的一種巡檢系統的系統架構示意圖,如圖2所示,該系統架構中包括模型管理設備110和至少一個行動設備,比如行動設備121、行動設備122和行動設備123。其中,模型管理設備110可以與任一行動設備連接,比如可以通過有線方式連接,也可以通過無線方式連接,具體不作限定。
本發明實施例中,各個行動設備可以部署在同一IDC機房中,也可以部署在不同的IDC機房中。若每個IDC機房中部署一個行動設備,則該行動設備可以負責巡檢整個IDC機房。若每個IDC機房中部署多個行動設備,則每個行動設備可以負責巡檢IDC機房中的一片區域,多台行動設備共同完成對整個IDC機房的巡檢操作。
需要說明的是,本發明實施例中的巡檢方法可以用於對一個IDC機房進行巡檢,也可以用於對多個IDC機房進行巡檢,具體不作限定。
基於圖2所示意的系統架構,圖3為本發明實施例提供的一種巡檢方法對應的流程示意圖,該方法可以適用於模型管理設備和行動設備,如圖2所示意出的模型管理設備110、以及行動設備121-行動設備123中的一個或多個。如圖3所示,該方法包括: 步驟301,模型管理設備向各個行動設備發送模型訓練指示。
在一種可能的實現方式中,目標識別模型可以經由多個時間片訓練得到,在任一時間片中,模型管理設備可以先從機房的全部行動設備中選取出所述時間片對應的行動設備,再向所述時間片對應的行動設備發送模型訓練指示。相應地,接收到模型訓練指示的行動設備可以聯合模型管理設備進行模型訓練,以更新上一時間片對應的識別模型,得到所述時間片對應的識別模型。而未接收到模型訓練指示的行動設備可以只執行識別操作,而不參與所述時間片內的模型訓練。
如此,按照上述實現方式,步驟301所述的各個行動設備可以為任一時間片對應的行動設備。
具體實施中,選取任一時間片對應的行動設備的方式可以有多種,比如可以隨機選取固定數量或亂數量的行動設備作為任一時間片對應的行動設備,或者也可以輪流選取固定數量或亂數量的行動設備作為任一時間片對應的行動設備,或者還可以選取處理能力較強的固定數量或亂數量的行動設備作為任一時間片對應的行動設備,具體不作限定。
在一個示例中,可以從全部行動設備中選取設定比例的行動設備作為任一時間片對應的行動設備。其中,設定比例可以由本領域具通常知識者根據經驗進行設置,比如可以設置為50%-80%,以在保留大部分訓練資料的特徵的同時,避免訓練資料過多所造成的過擬合,提高識別模型的精度。
在所述實現方式中,通過設置多個時間片,並在每個時間片中選取部分行動設備參與模型訓練,能夠有效分配並均勻利用訓練資料和行動設備。如此,訓練資料的均勻分配能夠避免訓練模型時出現由於資料過大而造成參數反覆運算無法收斂的問題。行動設備的均勻分配能夠提高模型管理設備應對行動設備故障的能力,提高訓練識別模型的可用性。
步驟302,行動設備根據模型訓練指示,按照巡檢路線在機房中行進時採集訓練資料,基於本地模型和訓練資料訓練得到行動設備對應的中間模型。
在一種可能的實現方式中,模型管理設備發送的模型訓練指示用於指示行動設備循環執行如下操作:按照巡檢路線在機房中行進時採集訓練資料,基於本地模型和訓練資料訓練得到行動設備對應的中間模型,將中間模型上報給模型管理設備。如此,在任一時間片內,針對於接收到模型訓練指示的任一行動設備,所述行動設備可以不斷採集訓練資料,每採集到固定數量的訓練資料後,就可以使用採集到的這些訓練資料對本地模型進行訓練,得到所述行動設備對應的中間模型,並上報給模型管理設備。其中,固定數量可以是1,也可以是大於1的任意整數,不作限定。其中,訓練資料可以由本領域具通常知識者根據需要進行設置,比如可以為機房設備圖像、信號燈圖像、溫度資訊或氣味資訊中的任意一項或任意多項,不作限定。
本發明實施例中,優化本地模型的方式可以為:先使用本地模型對各個訓練資料進行預測,得到各個訓練資料的預測標籤,再根據各個訓練資料的預測標籤與真實標籤的匹配程度,從各個訓練資料中確定出預測標籤正確的訓練資料的數量以及預測標籤錯誤的訓練資料的數量,根據這些數量計算得到損失函數,最後根據損失函數調整本地模型的模型參數以得到中間模型。
相應地,在採集訓練資料時,行動設備可以按照固定頻率來採集訓練資料,也可以先採集連續資料,再按照固定頻率從連續資料中截取訓練資料,將截取的訓練資料中每個固定時段內的訓練資料作為一次訓練資料,不作限定。舉例來說,當訓練資料為設備圖像,固定時段為1分鐘時,若固定頻率為6毫秒/每次,則:行動設備可以每隔6毫秒拍攝得到一張設備圖像,然後將每個1分鐘的時段內拍攝得到的600張設備圖像作為一個訓練資料;也可以先錄製時長為1分鐘(或者更長)的設備視頻,再從設備視頻中每隔6毫秒截取一張設備圖像,每次從截取的設備圖像中選取600張連續的設備圖像作為一個訓練資料。
需要說明的是,上述的固定數量僅是一種示例性的說明,並不構成對本方案的限定。在具體實施中,行動設備也可以在每採集到固定時段的訓練資料後使用採集到的這些訓練資料對本地模型進行訓練,或者行動設備也可以在每採集到亂數量或隨機時段的訓練資料後使用採集到的這些訓練資料對本地模型進行訓練,具體不作限定。
本發明實施例中,行動設備的本地模型可以為初始模型、上一時間片對應的識別模型和綜合模型參數對應的模型中的任意一種。在第一時間片的模型訓練的啟動階段,行動設備中的本地模型為初始模型。在其它時間片的模型訓練的啟動階段,行動設備中的本地模型為上一時間片對應的識別模型。在任一時間片的模型訓練的執行階段,行動設備的本地模型為綜合模型參數對應的模型。
具體實施中,初始模型可以由模型管理設備或任一行動設備訓練得到。以模型管理設備訓練初始模型為例,具體實施中:模型管理設備可以先獲取初始訓練資料,然後使用初始訓練資料訓練得到初始模型,再將初始模型的模型參數下發給機房中的全部行動設備。其中,初始訓練資料可以通過多種方式獲取,比如可以通過網路下載,也可以在第一時間片之前從機房中採集,還可以從協力廠商模型管理設備獲取,不作限定。
相應地,針對於未接收到模型訓練指示的任一行動設備,所述行動設備可以處於等候狀態,而不參與所述時間片對應的識別模型訓練。在下一時間片時,若所述行動設備接收到模型訓練指示,則所述行動設備可以參與下一時間片對應的識別模型訓練,若還是未接收到模型訓練指示,則所述行動設備可以繼續處於等候狀態。
步驟303,行動設備將中間模型的模型參數上報給模型管理設備。
此處,中間模型的模型參數可以包括梯度和損失值,還可以包括其它資訊,不作限定。
具體實施中,行動設備可以先對中間模型的模型參數進行壓縮,再將壓縮包上報給模型管理設備,以減少通信消耗,降低資料傳輸耗費的時間,提高巡檢效率。或者,行動設備還可以對壓縮包進行加密操作,並將加密後的壓縮包上報給模型管理設備,以提高傳輸過程中資料的安全性。
步驟304,模型管理設備基於各個行動設備對應的中間模型的模型參數訓練得到識別模型。
本發明實施例中,模型管理設備可以為伺服器,也可以為行動設備。當模型管理設備為伺服器時,模型管理設備可以直接使用當前時間片對應的其它行動設備發送的各個中間模型的模型參數計算得到綜合模型參數。當模型管理設備為行動設備時,模型管理設備除了可以向當前時間片對應的其它行動設備發送模型訓練指令之外,還可以使用訓練資料訓練得到模型管理設備對應的中間模型,從而基於當前時間片對應的其它行動設備的模型參數和模型管理設備對應的中間模型的模型參數計算得到綜合模型參數。
具體實施中,針對於任一時間片,模型管理設備可以採用多種方式訓練得到所述時間片對應的識別模型。比如,模型管理設備可以在接收到所述時間片對應的全部或大部分行動設備發送的模型參數後,即使用全部或大部分行動設備對應的模型參數訓練得到所述時間片對應的識別模型。或者,模型管理設備也可以先指示所述時間片對應的行動設備獨自執行多次模型訓練以得到每個行動設備對應的多個模型參數,再使用各個行動設備對應的各個模型參數訓練得到所述時間片對應的識別模型,不作限定。
在一種可能的實現方式中,模型管理設備可以採用如下方式訓練得到任一時間片對應的識別模型: 步驟a,模型管理設備每接收到設定數量的模型參數,即可根據設定數量的模型參數計算得到綜合模型參數。
具體實施中,由於模型訓練指示用於指示各個行動設備循環執行採集訓練資料、訓練中間模型以及中間模型的模型參數上報的操作,因此模型管理設備可以持續不斷的接收到各個行動設備發送的模型參數。當每接收到設定數量的模型參數時,模型管理設備可以根據本次接收到的設定數量的模型參數計算得到一個綜合模型參數。此處,設定數量可以由本領域具通常知識者根據經驗進行設置,比如可以設置為略小於所述時間片對應的行動設備的總數量,以在使用盡可能多的模型參數得到綜合模型參數的同時,相容部分行動設備故障的情況,保證模型訓練的順利進行。
具體實施中,模型管理設備計算得到綜合模型參數的方式可以有多種,比如可以將設定數量的模型參數(以及模型管理設備的模型參數)的平均參數作為綜合模型參數,或者也可以將設定數量的模型參數(以及模型管理設備的模型參數)的加權平均參數作為綜合模型參數,或者還可以先從設定數量的模型參數(以及模型管理設備的模型參數)中篩除不滿足要求的模型參數,再將滿足要求的模型參數的平均參數或加權平均參數作為綜合模型參數,不作限定。
步驟b,模型管理設備將綜合模型參數下發給機房中的全部行動設備。
在一個示例中,機房中的任一行動設備還可以在行進過程中採集待識別資料,並使用本地模型對待識別資料進行識別,以完成在巡檢過程中對機房的識別操作。其中,識別操作可以由識別指令觸發,也可以按照設定週期執行,不作限定。
相應地,模型管理設備在每個時間片的訓練過程中,還可以將綜合模型參數下發給機房中的全部行動設備。而機房中的任一行動設備(未接收到模型訓練指示的行動設備或接收到模型訓練指示的行動設備)接收到綜合模型參數後,還可以使用綜合模型參數更新本地模型。如此,針對於後續採集到的任一待識別資料,行動設備可以使用更新後的模型對待識別資料進行識別,從而能夠在巡檢過程中執行訓練、優化和識別的聯合操作,實現邊訓練模型、邊優化模型、邊識別資料的效果,提高訓練和識別的效率。且,通過使用即時優化後的模型進行識別,還能提高識別的效果。
步驟c,模型管理設備確定綜合模型參數是否滿足當前時間片對應的結束條件,若滿足,則執行步驟d1,若不滿足,則執行步驟d2。
其中,任一時間片對應的結束條件可以為設定時段未接收到模型參數、模型訓練次數大於或等於設定次數、模型訓練時間大於或等於設定時間中的任意一項或任意多項。
步驟d1,模型管理設備確定當前時間片的模型訓練已結束,綜合模型參數即為當前時間片對應的識別模型的模型參數,綜合模型參數對應的模型即為當前時間片對應的識別模型,因此模型管理設備可以向當前時間片對應的各個行動設備發送模型訓練結束指令。
步驟d2,模型管理設備確定當前時間片的模型訓練還未結束,綜合模型參數不是當前時間片對應的識別模型參數,綜合模型參數對應的模型不是當前時間片對應的識別模型,因此模型管理設備可以不作特殊處理。由於當前時間片對應的各個行動設備重複執行採集訓練資料、訓練中間模型和上報模型參數的操作,因此模型管理設備可以重複執行步驟a至步驟d1或步驟a至步驟d2,直至型管理設備確定當前時間片的模型訓練已結束。
本發明實施例中,在確定當前時間片對應的識別模型後,模型管理設備還可以獲取各個行動設備使用當前時間片對應的識別模型的識別效果,並確定識別效果是否滿足模型訓練的結束條件。若是,則模型管理設備可以將當前時間片對應的識別模型作為目標識別模型,並向當前時間片對應的各個行動模型發送模型訓練結束指令。若否,則模型管理設備可以啟動下一時間片的模型訓練。
在一個示例中,在需要增加新的巡檢區域或巡檢機房時,模型管理設備可以先跟新的巡檢區域或巡檢機房中的行動設備建立通信連接,再將模型管理設備中存儲的最新模型參數下發給新接取的行動設備,以便於新接取的行動設備使用最新模型參數進行識別。相應地,在下一時間片啟動時,模型管理設備可以重新從全部設備(包括新接取的行動設備)中選取下一時間片對應的行動設備,並聯合執行下一時間片的模型訓練,從而快速實現對新巡檢區域的巡檢操作,提高協同訓練過程的靈活性。
本發明實施例中,模型管理設備可以為伺服器或行動設備,當模型管理設備不同時,啟動下一時間片的模型訓練的方式也不同,具體為: 當模型管理設備為伺服器時,模型管理設備可以與機房中的每個行動設備通信連接,而機房中的各個行動設備之間可以不通信連接。具體實施中,模型管理設備若確定啟動下一時間片的模型訓練,則可以先從全部行動設備中選取部分行動設備作為下一時間片對應的行動設備,然後再聯合下一時間片對應的行動設備訓練得到下一時間片對應的識別模型。
當模型管理設備為行動設備時,機房中的任意兩個行動設備可以通信連接,如此,機房中的各個行動設備可以構成去中心化分散式集群。具體實施中,若確定啟動下一時間片的模型訓練,則全部行動設備可以先通過通信交互選擇某一行動設備作為下一時間片對應的模型管理設備,再經由下一時間片對應的模型管理設備從其它行動設備中選取部分行動設備作為下一時間片對應的其他行動設備,然後下一時間片對應的模型管理設備再聯合下一時間片對應的其它行動設備訓練得到下一時間片對應的識別模型。其中,選取下一時間片對應的模型管理設備的方式可以有多種,比如可以採用投票方式將得票數最多的行動設備作為下一時間片對應的模型管理設備,或者也可以將計算能力最強的行動設備作為下一時間片對應的模型管理設備,或者還可以輪流或隨機選取未做過模型管理設備的行動設備作為下一時間片對應的模型管理設備,不作限定。
為了便於理解,下面分別描述採用伺服器作為模型管理設備和採用行動設備作為模型管理設備時巡檢方法的具體實現過程。
圖4為本發明實施例提供的一種巡檢方法對應的交互流程示意圖,該方法可以適用於模型管理設備和行動設備,如圖2所示意出的模型管理設備110和行動設備121-行動設備123。在該示例中,模型管理設備可以是指伺服器。如圖4所示,該方法包括: 步驟401,模型管理設備使用初始訓練資料訓練得到初始模型。
步驟402,模型管理設備將初始模型的模型參數下發給機房的全部行動設備。
步驟403,模型管理設備從機房的全部行動設備中選取當前時間片對應的行動設備。
步驟404,模型管理設備向當前時間片對應的行動設備發送模型訓練指示。
步驟405,針對於當前時間片對應的任一行動設備(即接收到模型訓練指示的任一行動設備),該行動設備根據模型訓練指示,循環執行如下操作:按照該行動設備對應的巡檢路線在機房中行進時採集訓練資料,基於本地模型和訓練資料進行模型訓練,得到行動設備對應的中間模型。
其中,本地模型可以為初始模型、上一時間片對應的識別模型和綜合模型參數對應的模型中的任意一項或任意多項。若當前時間片為第一時間片,且所述次訓練為第一時間片中的第一次訓練,則本地模型為初始模型。若當前時間片為第一時間片之後的任一時間片,且所述次訓練為任一時間片中的第一次訓練,則本地模型為上一時間片對應的識別模型。若當前時間片不為任一時間片中的第一次訓練,則本地模型為綜合模型參數對應的模型。
相應地,針對於不是當前時間片的任一行動設備(即未接收到模型訓練指示的任一行動設備),所述行動設備不參與當前時間片的模型訓練,但是可以執行識別操作。比如在機房中按照對應的巡檢路線行進時,還可以採集待識別資料,然後使用本地模型對待識別資料進行識別操作,或者也可以執行模型更新操作,比如在機房中按照對應的巡檢路線行進時,還可以同採集訓練資料,使用訓練資料更新行動設備的本地模型,並使用本地模型對待識別資料進行識別操作。
步驟406,當前時間片對應的任一行動設備按照模型訓練指示,循環上報中間模型的模型參數給模型管理設備。
步驟407,模型管理設備每接收到設定數量的模型參數,即根據設定數量的模型參數計算得到綜合模型參數。
步驟408,模型管理設備將綜合模型參數下發給機房中的全部行動設備。
步驟409,機房中的任一行動設備接收到模型管理設備發送的綜合模型參數後,使用綜合模型參數更新本地模型,以使用更新後的本地模型對巡檢路線上採集到的待識別資料進行識別操作。其中,機房中的任一行動設備可以為當前時間片對應的任一行動設備,也以為任一其它行動設備,如未接收到模型訓練指示的任一行動設備。
步驟410,模型管理設備判斷綜合模型參數對應的模型是否滿足當前時間片的結束條件,若是,則執行步驟411,若否,則執行步驟407。
其中,當前時間片的結束條件可以為訓練次數大於或等於預設訓練次數、訓練時長大於或等於預設訓練時長、綜合模型參數對應的模型效果滿足預設模型效果、設定時長內未接收到行動設備發送的模型參數中的任意一項或任意多項,不作限定。
步驟411,模型管理設備向當前時間片對應的行動設備發送模型訓練結束指令。
步驟412,模型管理設備確定綜合模型參數對應的模型為當前時間片對應的識別模型,判斷當前時間片對應的識別模型是否滿足模型訓練的結束條件,若是,則執行步驟413,若否,則執行步驟414。
其中,模型訓練的結束條件可以為模型效果滿足預設效果、模型訓練時長大於或等於預設時長、時間片數量大於或等於預設時間片數量中的任意一項或任意多項,不作限定。
舉例來說,若模型訓練的結束條件為模型效果滿足預設效果,則模型管理設備可以獲取各個行動設備(當前時間片對應的行動設備,或者還包括其它行動設備)使用當前時間片對應的識別模型執行識別操作的識別效果,然後根據各個行動設備的識別效果得到綜合識別效果。若綜合識別效果未達到預設效果,則確定當前時間片對應的識別模型不滿足模型訓練的結束條件。若綜合識別效果已達到預設效果,則確定當前時間片對應的識別模型滿足模型訓練的結束條件。
步驟413,模型管理設備將當前時間片對應的識別模型作為目標識別模型,結束模型訓練。
步驟414,模型管理設備確定當前時間片的模型訓練結束,將下一時間片作為當前時間片,並執行步驟403,以啟動下一時間片的模型訓練。
本發明實施例中,通過將伺服器作為模型管理設備,能通過伺服器對各個行動設備的模型訓練過程進行統一管理,這不僅有助於降低行動設備的壓力,還能提高行動設備訓練中間模型的效率。且,通過在每個時間片啟動時重新選取執行訓練的行動設備,能夠有效分配行動設備,充分考慮到不同行動設備的差異,提高識別模型的準確性。
圖5為本發明實施例提供的又一種巡檢方法對應的交互流程示意圖,該方法適用於模型管理設備和行動設備,如圖2所示意的模型管理設備110和行動設備121-行動設備123。其中,該示例中的模型管理設備可以是指行動設備。如圖5所示,該方法包括: 步驟501,任一行動設備使用初始訓練資料訓練得到初始模型。
步驟502,任一行動設備將初始模型的模型參數同步給機房中的其它行動設備,如除任一行動設備以外的其它行動設備。
步驟503,機房中的各個行動設備進行通信交互,從各個行動設備中選取出某一行動設備作為當前時間片對應的模型管理設備。
此處,選取的方式可以有多種:比如可以設置任意兩個行動設備相互發送各自的資源佔用情況,通過各個行動設備對資源佔用率最低的行動設備進行共識,以選取出處理能力最強的行動設備作為模型管理設備;或者可以為各個行動設備設置編號,每個行動設備均保存有其它行動設備的編號和國際互聯協議(Internet Protocol,IP)位址的對應關係,當某一行動設備執行完對應時間片的模型訓練後,可以查詢所述對應關係確定下一編號的行動設備的IP位址,然後向下一編號的行動設備的IP位址發送指令,所述指令用於指示下一編號的行動設備啟動下一時間片的模型訓練,等等。
步驟504,當前時間片對應的模型管理設備從其它行動設備(即除當前時間片對應的模型管理設備以外的行動設備)中選取出當前時間片對應的其它行動設備。
步驟505,當前時間片對應的模型管理設備向當前時間片對應的其它行動設備發送模型訓練指示。
步驟506,針對於當前時間片對應的任一其它行動設備,該行動設備接收到模型訓練指示後,根據模型訓練指示,循環執行:按照對應的巡檢路線在機房中行進時採集訓練資料,並基於本地模型和訓練資料進行模型訓練,得到行動設備對應的中間模型。
相應地,當前時間片對應的模型管理設備也循環執行:按照對應的巡檢路線在機房中行進時採集訓練資料,並基於本地模型和訓練資料進行模型訓練,得到當前時間片對應的模型管理設備對應的中間模型。
步驟507,當前時間片對應的任一其它行動設備循環執行:將中間模型的模型參數同步給當前時間片對應的模型管理設備。
步驟508,當前時間片對應的模型管理設備每接收到設定數量的模型參數,即根據當前時間片對應的模型管理設備訓練得到的中間模型的模型參數和設定數量的模型參數計算得到綜合模型參數。
步驟509,當前時間片對應的模型管理設備將綜合模型參數下發給機房中的各個行動設備。
步驟510,機房中的任一行動設備使用綜合模型參數更新本地模型,並使用更新後的本地模型對對應的巡檢路線上採集到的待識別資料進行識別操作,確定機房的健康狀態。
步驟511,當前時間片對應的模型管理設備判斷綜合模型參數對應的模型是否滿足當前時間片的結束條件,若是,則執行步驟512,若否,則執行步驟508。
步驟512,當前時間片對應的模型管理設備向當前時間片對應的其它行動設備發送模型訓練結束指令。
步驟513,當前時間片對應的模型管理設備確定綜合模型參數對應的模型為當前時間片對應的識別模型,判斷當前時間片對應的識別模型是否滿足模型訓練的結束條件,若是,則執行步驟514,若否,則執行步驟515。
步驟514,當前時間片對應的模型管理設備將當前時間片對應的識別模型作為目標識別模型。
步驟515,當前時間片對應的模型管理設備確定當前時間片的模型訓練結束,將下一時間片作為當前時間片,執行步驟503。
其中,執行步驟503的方式可以有多種。比如當前時間片對應的模型管理設備可以向其它行動設備(除當前時間片對應的模型管理設備之外的行動設備)發送交互指令,該交互指令用於任一行動設備向其它行動設備發送各自的資源佔用情況,通過各個行動設備對資源佔用率最低的行動設備進行共識,以選取出處理能力最強的行動設備作為模型管理設備。或者,當前時間片對應的模型管理設備可以向下一編號的行動設備的IP位址發送啟動指令,該啟動指令用於指示下一編號的行動設備啟動下一時間片的模型訓練,等等,不作限定。
本發明實施例中,通過將行動設備作為模型管理設備,可以無需再額外設置伺服器,從而可以降低模型訓練的成本。且,通過在每個時間片啟動時重新選取執行訓練的行動設備,能夠有效分配行動設備,充分考慮到不同行動設備的差異,提高識別模型的準確性。
需要說明的是,圖4和圖5中的步驟編號僅為執行流程的一種示例,並不構成對各個步驟的執行先後順序的限定,比如步驟409或步驟510可以發生在流程中的任一時刻,不作限定。
本發明的上述實施例中,模型管理設備向各個行動設備發送模型訓練指示,以使各個行動設備根據模型訓練指示按照各自的巡檢路線在機房中行進時採集訓練資料,並基於本地模型和所述訓練資料訓練得到中間模型並上報給模型管理設備,如此,模型管理設備在接收各個行動設備上報的中間模型的模型參數後,可以基於各個行動設備上報的中間模型的模型參數訓練得到識別模型,所述識別模型用於確定機房的健康狀態。本發明實施例中,通過將中間模型的訓練過程放置在行動設備側執行,使得行動設備可以僅上報中間模型的模型參數給模型管理設備,而無需上報全量的訓練資料,由於模型參數相對於訓練資料來說具有較小的資料量,因此所述種方式可以節省通信消耗,提高巡檢效率。且,通過在行動設備的巡檢過程中使用識別模型確定機房的健康狀態,實現了模型訓練和模型識別的聯合操作,有助於進一步提高巡檢效率。
針對上述方法流程,本發明實施例還提供一種巡檢裝置,該裝置的具體內容可以參照上述方法實施。
圖6為本發明實施例提供的一種巡檢裝置的結構示意圖,如圖6所示,該裝置包括: 收發模組601,用於向各個行動設備發送模型訓練指示,以及接收該各個行動設備上報的中間模型的模型參數;其中,該模型訓練指示用於:該各個行動設備按照各自的巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到中間模型並上報; 訓練模組602,用於基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型,該識別模型用於確定該機房的健康狀態。
可選地,該識別模型為當前時間片對應的識別模型。在這種情況下,在該收發模組601向各個行動設備發送模型訓練指示之前,該訓練模組602還用於:從機房的全部行動設備中選取出當前時間片對應的行動設備,作為該各個行動設備。
可選地,該模型訓練指示用於:該各個行動設備循環按照各自的巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到中間模型並上報。在這種情況下,該訓練模組602具體用於:每接收到設定數量的模型參數,則至少基於該設定數量的模型參數構建得到綜合模型參數。對應的,該收發模組601具體用於:將該綜合模型參數下發給該各個行動設備,當某一綜合模型參數對應的模型滿足當前時間片的結束條件時,向該各個行動設備發送模型訓練結束指令,該綜合模型參數對應的模型即為該識別模型。其中,該綜合模型參數用於該各個行動設備更新本地模型。
可選地,該裝置為伺服器。在這種情況下,該訓練模組602基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還用於:判斷該識別模型是否滿足該模型訓練的結束條件;若不滿足,則從該機房的全部行動設備中選取下一時間片對應的行動設備,向該下一時間片對應的行動設備發送模型訓練指示;若滿足,則將該識別模型作為目標識別模型。
可選地,該裝置為行動設備。在這種情況下,該訓練模組602基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還用於:判斷該識別模型是否滿足該模型訓練的結束條件;若不滿足,則通過與其他行動設備的通信選取某一行動設備作為下一時間片對應的模型管理設備,向該下一時間片對應的模型管理設備發送模型啟動指示,以指示該下一時間片對應的模型管理設備從其它行動設備中選取下一時間片對應的其它行動設備並向該下一時間片對應的其它行動設備發送模型訓練指示;若滿足,則將該識別模型作為目標識別模型。
圖7為本發明實施例提供的一種巡檢裝置的結構示意圖,如圖7所示,該裝置包括: 收發模組701,用於接收模型管理設備發送的模型訓練指示; 訓練模組702,用於根據該模型訓練指示,按照對應的巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到行動設備對應的中間模型; 該收發模組701,還用於將該中間模型的模型參數上報給該模型管理設備。
其中,該各個行動設備上報的中間模型的模型參數用於該模型管理設備訓練得到識別模型,該識別模型用於確定該機房的健康狀態。
可選地,該訓練模組702具體用於:根據該模型訓練指示,循環執行:按照巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到該行動設備對應的中間模型。該收發模組701具體用於:根據該模型訓練指示,循環執行:將該中間模型的模型參數上報給該模型管理設備。其中,在每次循環中,在該收發模組701將該中間模型的模型參數上報給該模型管理設備之後:該收發模組701還用於接收該模型管理設備發送的綜合模型參數,該訓練模組702還用於使用該綜合模型參數更新該本地模型。
可選地,該裝置還包括識別模組703。在該訓練模組702使用該綜合模型參數更新該本地模型之後,該識別模組703用於:按照該巡檢路線在該機房中行進時採集待識別資料,使用更新後的本地模型對該待識別資料進行識別,以確定該機房的健康狀態。
從上述內容可以看出:本發明的上述實施例中,模型管理設備向各個行動設備發送模型訓練指示,以指示各個行動設備根據模型訓練指示按照各自的巡檢路線在機房中行進時採集訓練資料,並基於本地模型和所述訓練資料訓練得到中間模型並上報給模型管理設備,如此,模型管理設備在接收各個行動設備上報的中間模型的模型參數後,可以基於各個行動設備上報的中間模型的模型參數訓練得到識別模型。其中,識別模型用於確定機房的健康狀態。本發明實施例中,通過將中間模型的訓練過程放置在行動設備側執行,使得行動設備可以僅上報中間模型的模型參數給模型管理設備,而無需上報全量的訓練資料,由於模型參數相對於訓練資料來說具有較小的資料量,因此所述種方式可以節省通信消耗,提高巡檢效率。且,通過在行動設備的巡檢過程中使用識別模型確定機房的健康狀態,實現了模型訓練和模型識別的聯合操作,有助於進一步提高巡檢效率。
基於相同的技術構思,本發明實施例提供了一種計算設備,如圖8所示,包括至少一個處理器801,以及與至少一個處理器連接的記憶體802,本發明實施例中不限定處理器801與記憶體802之間的具體連接介質,圖8中處理器801和記憶體802之間通過匯流排連接為例。匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。
在本發明實施例中,記憶體802存儲有可被至少一個處理器801執行的指令,至少一個處理器801通過執行記憶體802存儲的指令,可以執行上述任意步驟所述的巡檢方法。
其中,處理器801是計算設備的控制中心,可以利用各種介面和線路連接計算設備的各個部分,通過運行或執行存儲在記憶體802內的指令以及調用存儲在記憶體802內的資料,從而實現資料處理。可選的,處理器801可包括一個或多個處理單元,處理器801可集成應用處理器和調製解調處理器,其中,應用處理器主要處理作業系統、使用者介面和應用程式等,調製解調處理器主要處理下發指令。可以理解的是,上述調製解調處理器也可以不集成到處理器801中。在一些實施例中,處理器801和記憶體802可以在同一晶片上實現,在一些實施例中,它們也可以在獨立的晶片上分別實現。
處理器801可以是通用處理器,例如中央處理器(CPU)、數位訊號處理器、專用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件,可以實現或者執行本發明實施例中公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者任何常規的處理器等。結合巡檢實施例所公開的方法的步驟可以直接體現為硬體處理器執行完成,或者用處理器中的硬體及軟體模組組合執行完成。
記憶體802作為一種非揮發性電腦可讀存儲介質,可用於存儲非揮發性軟體程式、非揮發性電腦可執行程式以及模組。記憶體802可以包括至少一種類型的存儲介質,例如可以包括快閃記憶體、硬碟、多媒體卡、卡型記憶體、隨機訪問記憶體(Random Access Memory,RAM)、靜態隨機訪問記憶體(Static Random Access Memory,SRAM)、可程式設計唯讀記憶體(Programmable Read Only Memory,PROM)、唯讀記憶體(Read Only Memory,ROM)、帶電可擦除可程式設計唯讀記憶體(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性記憶體、磁片、光碟等等。記憶體802是能夠用於攜帶或存儲具有指令或資料結構形式的期望的程式碼並能夠由電腦存取的任何其他介質,但不限於此。本發明實施例中的記憶體802還可以是電路或者其它任意能夠實現存儲功能的裝置,用於存儲程式指令和/或資料。
基於同一發明構思,本發明實施例還提供了一種電腦可讀存儲介質,其存儲有可由計算設備執行的電腦程式,當所述程式在所述計算設備上運行時,使得所述計算設備執行圖3至圖5任意所述的巡檢方法。
本領域內具通常知識者應明白,本發明的實施例可提供為方法、或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用存儲介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些電腦程式指令也可存儲在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得存儲在所述電腦可讀記憶體中的指令產生包括指令裝置的製造品,所述指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
以上僅為本發明之較佳實施例,並非用來限定本發明之實施範圍,如果不脫離本發明之精神和範圍,對本發明進行修改或者等同替換,均應涵蓋在本發明申請專利範圍的保護範圍當中。
101:機櫃 102:機櫃 103:機櫃 104:機櫃 105:機櫃 106:機櫃 110:模型管理設備 121:行動設備 122:行動設備 123:行動設備 601:收發模組 602:訓練模組 701:收發模組 702:訓練模組 703:識別模組 801:處理器 802:記憶體 301-304:步驟 401-414:步驟 501-515:步驟
圖1為本發明實施例提供的一種IDC機房的結構示意圖; 圖2為本發明實施例提供的一種巡檢系統的系統架構示意圖; 圖3為本發明實施例提供的一種巡檢方法對應的流程示意圖; 圖4為伺服器作為模型管理設備時巡檢方法對應的交互流程示意圖; 圖5為行動設備作為模型管理設備時巡檢方法對應的交互流程示意圖; 圖6為本發明實施例提供的一種巡檢裝置的結構示意圖; 圖7為本發明實施例提供的另一種巡檢裝置的結構示意圖; 圖8為本發明實施例提供的一種計算設備的結構示意圖。
301-304:步驟

Claims (16)

  1. 一種巡檢方法,應用於模型管理設備,該方法包括:向各個行動設備發送模型訓練指示;該模型訓練指示用於該各個行動設備按照各自的巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到中間模型;接收該各個行動設備上報的中間模型的模型參數;基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型;向該機房中的全部行動設備發送該識別模型的模型參數,該識別模型的模型參數用於該全部行動設備更新本地模型,以及按照該巡檢路線在該機房中行進時採集待識別資料,使用更新後的本地模型對該待識別資料進行識別,以確定該機房的健康狀態;其中,該識別模型為當前時間片對應的識別模型;該向各個行動設備發送模型訓練指示之前,還包括:從機房的全部行動設備中選取出當前時間片對應的行動設備,作為該各個行動設備。
  2. 如申請專利範圍第1項所述之巡檢方法,該模型訓練指示用於該各個行動設備循環按照各自的巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到中間模型並上報;該接收該各個行動設備上報的中間模型的模型參數,基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型,包括:每接收到設定數量的模型參數,則至少基於該設定數量的模型參 數構建得到綜合模型參數,將該綜合模型參數下發給該各個行動設備;該綜合模型參數用於該各個行動設備更新本地模型;當某一綜合模型參數對應的模型滿足當前時間片的結束條件時,向該各個行動設備發送模型訓練結束指令,該綜合模型參數對應的模型即為該識別模型。
  3. 如申請專利範圍第1或2項所述之巡檢方法,該模型管理設備為伺服器;該基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還包括:判斷該識別模型是否滿足該模型訓練的結束條件,若不滿足,則從該機房的全部行動設備中選取下一時間片對應的行動設備,向該下一時間片對應的行動設備發送模型訓練指示;若滿足,則將該識別模型作為目標識別模型。
  4. 如申請專利範圍第1或2項所述之巡檢方法,該模型管理設備為行動設備;該基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還包括:判斷該識別模型是否滿足該模型訓練的結束條件,若不滿足,則通過與其他行動設備的通信選取某一行動設備作為下一時間片對應的模型管理設備,向該下一時間片對應的模型管理設備發送模型啟動指示;該模型啟動指示用於該下一時間片對應的模型管理設備從其它行動設備中選取下一時間片對應的其它行動設備,向 該下一時間片對應的其它行動設備發送模型訓練指示;若滿足,則將該識別模型作為目標識別模型。
  5. 一種巡檢方法,應用於行動設備,該行動設備為當前時間片對應的行動設備,該當前時間片對應的行動設備是模型管理設備從機房的全部行動設備中選取出的,該方法包括:接收模型管理設備發送的模型訓練指示;根據該模型訓練指示,按照對應的巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到該行動設備對應的中間模型;將該中間模型的模型參數上報給該模型管理設備;該各個行動設備上報的中間模型的模型參數用於該模型管理設備訓練得到識別模型,該識別模型為該當前時間片對應的識別模型;接收該模型管理設備發送的該識別模型的模型參數;使用該識別模型的模型參數更新本地模型,按照該巡檢路線在該機房中行進時採集待識別資料,使用更新後的本地模型對該待識別資料進行識別,以確定該機房的健康狀態。
  6. 如申請專利範圍第5項所述之巡檢方法,該根據該模型訓練指示,按照巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到該行動設備對應的中間模型,將該中間模型的模型參數上報給該模型管理設備,包括:根據該模型訓練指示,循環執行:按照巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到該行動設備 對應的中間模型,將該中間模型的模型參數上報給該模型管理設備;其中,在每次循環中,該將該中間模型的模型參數上報給該模型管理設備之後,還包括:接收該模型管理設備發送的綜合模型參數;使用該綜合模型參數更新該本地模型。
  7. 如申請專利範圍第6項所述之巡檢方法,該使用該綜合模型參數更新該本地模型之後,還包括:按照該巡檢路線在該機房中行進時採集待識別資料,使用更新後的本地模型對該待識別資料進行識別,以確定該機房的健康狀態。
  8. 一種巡檢裝置,該裝置包括:收發模組,用於向各個行動設備發送模型訓練指示;該模型訓練指示用於該各個行動設備按照各自的巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到中間模型;以及,接收該各個行動設備上報的中間模型的模型參數;訓練模組,用於基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型;該收發模組,還用於向該機房中的全部行動設備發送該識別模型的模型參數,該識別模型的模型參數用於該全部行動設備更新本地模型,以及按照該巡檢路線在該機房中行進時採集待識別資料,使用更新後的本地模型對該待識別資料進行識別,以確定該 機房的健康狀態;其中,該識別模型為當前時間片對應的識別模型;該收發模組向各個行動設備發送模型訓練指示之前,該訓練模組還用於:從機房的全部行動設備中選取出當前時間片對應的行動設備,作為該各個行動設備。
  9. 如申請專利範圍第8項所述之巡檢裝置,該模型訓練指示用於該各個行動設備循環按照各自的巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到中間模型並上報;該訓練模組具體用於:每接收到設定數量的模型參數,則至少基於該設定數量的模型參數構建得到綜合模型參數;該收發模組具體用於:將該綜合模型參數下發給該各個行動設備;該綜合模型參數用於該各個行動設備更新本地模型;以及,當某一綜合模型參數對應的模型滿足當前時間片的結束條件時,向該各個行動設備發送模型訓練結束指令,該綜合模型參數對應的模型即為該識別模型。
  10. 如申請專利範圍第8或9項所述之巡檢裝置,該裝置為伺服器;該訓練模組基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還用於:判斷該識別模型是否滿足該模型訓練的結束條件,若不滿足,則從該機房的全部行動設備中選取下一時間片對應的行動設備,向該下一時間片對應的行動設備發送模型訓練指示;若滿足,則將 該識別模型作為目標識別模型。
  11. 如申請專利範圍第8或9項所述之巡檢裝置,該裝置為行動設備;該訓練模組基於該各個行動設備上報的中間模型的模型參數訓練得到識別模型之後,還用於:判斷該識別模型是否滿足該模型訓練的結束條件,若不滿足,則通過與其他行動設備的通信選取某一行動設備作為下一時間片對應的模型管理設備,向該下一時間片對應的模型管理設備發送模型啟動指示;該模型啟動指示用於該下一時間片對應的模型管理設備從其它行動設備中選取下一時間片對應的其它行動設備,向該下一時間片對應的其它行動設備發送模型訓練指示;若滿足,則將該識別模型作為目標識別模型。
  12. 一種巡檢裝置,該裝置為當前時間片對應的行動設備,該當前時間片對應的行動設備是模型管理設備從機房的全部行動設備中選取出的,該裝置包括:收發模組,用於接收模型管理設備發送的模型訓練指示;訓練模組,用於根據該模型訓練指示,按照對應的巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到該行動設備對應的中間模型;該收發模組,還用於將該中間模型的模型參數上報給該模型管理設備;該各個行動設備上報的中間模型的模型參數用於該模型管理設備訓練得到識別模型,該識別模型為該當前時間片對應的識 別模型;以及,接收該模型管理設備發送的該識別模型的模型參數;該訓練模組,還用於使用該識別模型的模型參數更新本地模型,按照該巡檢路線在該機房中行進時採集待識別資料,使用更新後的本地模型對該待識別資料進行識別,以確定該機房的健康狀態。
  13. 如申請專利範圍第12項所述之巡檢裝置,該訓練模組具體用於:根據該模型訓練指示,循環執行:按照巡檢路線在機房中行進時採集訓練資料,基於本地模型和該訓練資料訓練得到該行動設備對應的中間模型;該收發模組具體用於:根據該模型訓練指示,循環執行:將該中間模型的模型參數上報給該模型管理設備;其中,在每次循環中,該收發模組將該中間模型的模型參數上報給該模型管理設備之後,還用於:接收該模型管理設備發送的綜合模型參數;該訓練模組還用於:使用該綜合模型參數更新該本地模型。
  14. 如申請專利範圍第13項所述之巡檢裝置,該裝置還包括識別模組,該訓練模組使用該綜合模型參數更新該本地模型之後,該識別模組用於:按照該巡檢路線在該機房中行進時採集待識別資料,使用更新後的本地模型對該待識別資料進行識別,以確定該機房的健康狀態。
  15. 一種計算設備,包括至少一個處理器以及至少一個記憶體,其中,該記憶體存儲有電腦程式,當該程式被該處理器執行時,使得該處理器執行如申請專利範圍第1至7項中任一項所述之巡檢方法。
  16. 一種電腦可讀存儲介質,其存儲有可由計算設備執行的電腦程式,當該程式在該計算設備上運行時,使得該計算設備執行如申請專利範圍第1至7項中任一項所述之巡檢方法。
TW109147101A 2020-02-20 2020-12-31 一種巡檢方法及裝置 TWI770749B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010103868.X 2020-02-20
CN202010103868.XA CN111352799A (zh) 2020-02-20 2020-02-20 一种巡检方法及装置

Publications (2)

Publication Number Publication Date
TW202132989A TW202132989A (zh) 2021-09-01
TWI770749B true TWI770749B (zh) 2022-07-11

Family

ID=71192396

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109147101A TWI770749B (zh) 2020-02-20 2020-12-31 一種巡檢方法及裝置

Country Status (3)

Country Link
CN (1) CN111352799A (zh)
TW (1) TWI770749B (zh)
WO (1) WO2021164404A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111352799A (zh) * 2020-02-20 2020-06-30 ***股份有限公司 一种巡检方法及装置
CN114434456A (zh) * 2022-01-19 2022-05-06 山东新一代信息产业技术研究院有限公司 一种机房巡检机器人及其巡检方法
CN116887290A (zh) * 2022-03-28 2023-10-13 华为技术有限公司 一种用于机器学习模型训练的通信方法及装置
CN116841301B (zh) * 2023-09-01 2024-01-09 杭州义益钛迪信息技术有限公司 巡检机器人巡检模型训练方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201816625A (zh) * 2016-10-26 2018-05-01 先智雲端數據股份有限公司 用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統
CN109711556A (zh) * 2018-12-24 2019-05-03 中国南方电网有限责任公司 机巡数据处理方法、装置、网级服务器和省级服务器
CN110298185A (zh) * 2019-06-28 2019-10-01 北京金山安全软件有限公司 一种模型训练方法、装置、电子设备及存储介质
CN110442457A (zh) * 2019-08-12 2019-11-12 北京大学深圳研究生院 基于联邦学习的模型训练方法、装置及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089587A1 (en) * 2016-09-26 2018-03-29 Google Inc. Systems and Methods for Communication Efficient Distributed Mean Estimation
CN110309847B (zh) * 2019-04-26 2021-09-17 深圳前海微众银行股份有限公司 一种模型压缩方法及装置
CN110334633A (zh) * 2019-06-27 2019-10-15 北京御航智能科技有限公司 识别巡检数据并更新识别模型的方法、装置及存储介质
CN110490738A (zh) * 2019-08-06 2019-11-22 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构
CN110766169A (zh) * 2019-10-31 2020-02-07 深圳前海微众银行股份有限公司 强化学习的迁移训练优化方法、装置、终端及存储介质
CN111352799A (zh) * 2020-02-20 2020-06-30 ***股份有限公司 一种巡检方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201816625A (zh) * 2016-10-26 2018-05-01 先智雲端數據股份有限公司 用於延長雲端服務系統中磁碟預期壽命值的方法及使用該方法的系統
CN109711556A (zh) * 2018-12-24 2019-05-03 中国南方电网有限责任公司 机巡数据处理方法、装置、网级服务器和省级服务器
CN110298185A (zh) * 2019-06-28 2019-10-01 北京金山安全软件有限公司 一种模型训练方法、装置、电子设备及存储介质
CN110442457A (zh) * 2019-08-12 2019-11-12 北京大学深圳研究生院 基于联邦学习的模型训练方法、装置及服务器

Also Published As

Publication number Publication date
WO2021164404A1 (zh) 2021-08-26
CN111352799A (zh) 2020-06-30
TW202132989A (zh) 2021-09-01

Similar Documents

Publication Publication Date Title
TWI770749B (zh) 一種巡檢方法及裝置
CN109936486B (zh) 基于区块链的自动拨测方法、装置、设备和存储介质
CN104765641B (zh) 一种作业调度方法及***
CN108055144A (zh) 一种网络设备的监控方法及***
CN110784929B (zh) 一种接入资源分配方法、装置、设备及***
CN113568743A (zh) 物联网设备的管理方法、装置、介质及电子设备
CN111861221A (zh) 设备故障信息的推送方法和装置、存储介质及电子装置
CN109801180A (zh) 经编机的物联智能信息管理***及控制方法
CN105515977A (zh) 获取网络中传输路径的方法、装置和***
CN111753875A (zh) 一种电力信息***运行趋势分析方法、装置及存储介质
CN111447097A (zh) 一种云平台资源调度管理方法及***
CN110830587B (zh) 一种数据传输方法、装置、设备和存储介质
CN110138603A (zh) 一种监控物联网设备的方法及装置
CN110855481B (zh) 数据采集***及方法
CN113535232B (zh) 暖通云边协同***
CN208459843U (zh) 汽车制造设备的批处理数据处理装置及监控***
CN105357026B (zh) 一种资源信息收集方法和计算节点
CN106502856A (zh) 一种信息处理方法及装置
Mamatas et al. Towards an information management overlay for emerging networks
CN117762591A (zh) 任务控制方法、任务控制装置、计算机设备和存储介质
CN113114480B (zh) 一种数据的上报方法及相关设备
Pournaras et al. On-demand self-adaptive data analytics in large-scale decentralized networks
CN115426363B (zh) 智能板材加工工厂的数据采集方法及终端
CN116418840A (zh) 物联网***、物联网信息处理方法和装置及存储介质
CN108989116A (zh) 大数据收集分析***及方法