TWI816303B

TWI816303B - 智慧型監控系統及其方法

Info

Publication number: TWI816303B
Application number: TW111105786A
Authority: TW
Inventors: 呂木天; 楊富順; 邱又予
Original assignee: 慧友電子股份有限公司
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2023-09-21
Also published as: TW202335479A

Abstract

本發明為一種智慧型監控系統及其方法，係包括有至少一設備端、至少一伺服器端、至少一卷積神經網路(CNN)及至少一網路，而該卷積神經網路(CNN)係將不同性質的應用抽取出共通的部份來進行構建為至少一基礎網路，其中該卷積神經網路(CNN)之基礎網路係設置於該設備端上，且透過該設備端進行該基礎網路的運算，再將不同性質的應用抽取出剩餘的部份來進行構建為至少一應用網路，其中該卷積神經網路(CNN)之應用網路係設置於該伺服器端上，且透過該伺服器端進行該應用網路的運算，並透過該網路傳輸該設備端之基礎網路的運算、該伺服器端之應用網路的運算、編碼影像串流及解碼影像串流，使具有適應式應用的效能。

Description

智慧型監控系統及其方法

本發明係有關於一種智慧型監控系統及其方法，尤指一種具有適應式應用效能，而適用於監控系統或是類似之監控設備。

傳統的監控系統，通常係由多隻攝影機搭配一監控主機(DVR/NVR)，並透過電纜或網路的方式將監控影像傳遞到監控主機，而監控主機的功能除了接收即時的影像串流外還需要儲存及播放供監控人員即時監看。

而使用人力長時間監看多個影像串流之過程相當耗費精神也容易出錯，因此發展出了智慧型監控系統，導入人工智能幫助監控過程，當有可疑的人、事、物或是行為的時候會自動發出警示，協助監控人員進行後續行為。

目前的智慧型監控系統較常的作法是將人工智慧的軟/硬體安裝在監控主機端，在收到各個影像串流的時候進行推論(inference)，在不正常行為發生時發出警訊。其缺點為將所有運算負載加諸於監控主機，監控主機效能的瓶頸會卡在運行的部份。

另一種作法則是將人工智慧的推論部份轉移到攝影機(邊緣設備)，而攝影機將擷取的影像串流連同人工智慧的推論結果一併傳回監控主機進行儲存以及播放。其缺點為攝影機要負擔全部的人工智慧推論計算過程，對硬體的需求較大，另單一攝影機僅乘載一種人工智慧推論，無法輕易改變亦或是同時間乘載多種人工智慧推論。

因此，本發明人有鑑於上述缺失，期能提出一種具有適應式應用效能的智慧型監控系統及其方法，令使用者可輕易完成操作及安裝，乃潛心研思、設計組製，以提供使用者便利性，為本發明人所欲研發之發明動機者。

本發明之主要目的，在於提供一種智慧型監控系統及其方法，係包括有至少一設備端、至少一伺服器端、至少一卷積神經網路(CNN)及至少一網路，而該卷積神經網路(CNN)係將不同性質的應用抽取出共通的部份來進行構建為至少一基礎網路，其中該卷積神經網路(CNN)之基礎網路係設置於該設備端上，且透過該設備端進行該基礎網路的運算，再將不同性質的應用抽取出剩餘的部份來進行構建為至少一應用網路，其中該卷積神經網路(CNN)之應用網路係設置於該伺服器端上，且透過該伺服器端進行該應用網路的運算，並透過該網路傳輸該設備端之基礎網路的運算、該伺服器端之應用網路的運算、編碼影像串流及解碼影像串流，使具有適應式應用的效能，進而增加整體之實用性。

本發明之另一目的，在於提供一種智慧型監控系統及其方法，透過該設備端之基礎網路係於後端串聯一卷積神經網路(CNN)壓縮網路，並形成一新基礎網路，以將運算後結果進行壓縮(encode)，且經由該網路傳輸至該伺服器端，而該伺服器端之應用網路係於前端串聯一卷積神經網路(CNN)解壓縮網路，並形成一新應用網路，以將接收到壓縮(encode)的運算後結果進行解壓縮(decode)來還原該運算後結果，再傳輸至該伺服器端，使具有降低重複運算及節省能源消耗之效果，並能達到平衡運算效能的分配，進而增加整體之效能性。

為了能夠更進一步瞭解本發明之特徵、特點和技術內容，請參閱以下有關本發明之詳細說明與附圖，惟所附圖式僅提供參考與說明用，非用以限制本發明。

10:設備端

101:第一設備端

102:第二設備端

11:運算處理單元

20:伺服器端

201:第一伺服器端

202:第二伺服器端

21:運算處理單元

30:卷積神經網路(CNN)

31:基礎網路

32:應用網路

40:網路

50:卷積神經網路(CNN)壓縮網路

60:新基礎網路

70:卷積神經網路(CNN)解壓縮網路

80:新應用網路

S100:抽取共通為基礎網路

S110:設置於設備端

S120:基礎網路運算

S130:抽取剩餘為應用網路

S140:設置於伺服器端

S150:應用網路運算

S160:網路傳輸運算

第1圖係為本發明之主要架構系統示意圖。

第2圖係為本發明之卷積神經網路(CNN)架構示意圖。

第3圖係為本發明之基礎網路與應用網路主要實施示意圖。

第4圖係為本發明之新基礎網路與新應用網路實施示意圖。

第5圖係為本發明之主要步驟流程示意圖。

請參閱第1~5圖，係為本發明實施例之示意圖，而本發明之智慧型監控系統及其方法的最佳實施方式係適用於監控系統或是類似之監控設備，使具有適應式應用的效能，且具有降低重複運算及節省能源消耗之效果，並能達到平衡運算效能的分配。

而本發明之智慧型監控系統，主要係設有至少一設備端10、至少一伺服器端20、至少一卷積神經網路(CNN)30及至少一網路40(如第1圖及第2圖所示)，其中該伺服器端20係為監控主機(如第3圖所示)，而該監控主機係為數位影像錄影機(Digital Video Recorder,DVR) 或是網路影像錄影機(Network Video Recorder,NVR)之其中任一(圖未示)，以能進行後續監控資料之儲存及分析，該伺服器端20亦可以是伺服器，以用來進行監控資料之儲存。另該設備端10係為攝影機(如第3圖所示)、邊緣設備之其中任一，該攝影機亦可為監視器、監視攝影機、智能攝像機或是其他監控器材，而該設備端10係設有至少一鏡頭(如第3圖所示)，並透過該鏡頭進行物件偵測，且能攝錄影像，其中該物件偵測係為人車偵測、物品偵測、動作偵測之其中任一，也可以是其他用途偵測或追蹤，不以本發明為限。

另該卷積神經網路(Convolutional Neural Networks,CNN)30係為二維卷積神經網路，以透過該二維卷積神經網路30進行影像識別，且該卷積神經網路(CNN)30主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形，該部分功能主要由池化層(Max Pooling Layer)實現，而該卷積神經網路(CNN)30的基本結構包括兩層，其一為特徵提取層，也就是卷積層(Convolutional Layer)，每個神經元的輸入與前一層的區域性接受域相連，並提取該區域性的特徵。一旦該區域性特徵被提取後，它與其它特徵間的位置關係也隨之確定下來；其二是特徵對映層，網路的每個計算層由多個特徵對映組成，每個特徵對映是一個平面，平面上所有神經元的權值相等。

再者，該設備端10係設有一運算處理單元11，並進行編碼影像串流，而該伺服器端20係設有一運算處理單元21，並進行解碼影像串流(如第1圖所示)，其中該運算處理單元11、21係為中央處理器(CPU)、圖形處理器(GPU)、硬體加速器(hardware accelerator)之其中任一，而該硬體加速器(hardware accelerator)係為單晶片系統(SoC)、現場可程式化邏輯閘陣列處理器(FPGA)、特殊應用積體電路處理器(AISC)之其中任一，並透過該運算處理單元11、21來進行影像運算處理，但不以本發明之內容及圖式為限，也可以是其他具有影像處理的運算單元或是影像加速器等來協助該運算處理單元11、21進行處理影像工作及功能。

而本發明主要實施例乃是以物件偵測為例，該物件偵測在人工智慧技術的影像類別中是最重要的技術，針對單一影像此技術可以進行物件分類以及定位，其結果也能很好的被後續分析技術所使用。因此，本發明之設備端10與該伺服器端20係透過至少一網路40來形成連接，其中該網路40之一端係連接該設備端10，而該網路40之另一端係連接該伺服器端20(如第1圖所示)，以能進行影像或是資料的傳輸。

再者，本發明主要是透過該卷積神經網路(CNN)30將不同性質的應用抽取出共通的部份來進行構建為至少一基礎網路31(如第2圖所示)，其中該卷積神經網路(CNN)30之基礎網路31係設置於該設備端10上(如第1圖所示)，且透過該設備端10進行該基礎網路31的運算，再將不同性質的應用抽取出剩餘的部份來進行構建為至少一應用網路32(如第2圖所示)，其中該卷積神經網路(CNN)30之應用網路32係設置於該伺服器端20上(如第1圖所示)，且透過該伺服器端20進行該應用網路32的運算，且透過該網路40來進行傳輸該設備端10之基礎網路31的運算、該伺服器端20之應用網路32的運算、編碼影像串流及解碼影像串流，使具有適應式應用的效能。

舉例來說，安裝了基礎網路31的攝影機放在路口(圖未示)，該伺服器端20搭配了人車偵測的應用網路32就可以偵測人和車，進而分析交通情況。同樣安裝了基礎網路31的攝影機如果放在麵包店的收銀台(圖未示)，該伺服器端20搭配了麵包種類偵測的應用網路32就可以偵測麵包的種類，進而實現無人商店。傳統的做法，因為無法得知實際應用的場景，因此所有的運算都集中在伺服器端20(人車偵測或是麵包偵測)。而本發明主要部分是將所有不同性質的應用(人車偵測，麵包偵測，貓狗偵測...)抽取出共通的部分構建出基礎網路31，並將共通的基礎網路31運算放在設備端10先做運算，再將所有不同性質的應用(人車偵測，麵包偵測，貓狗偵測...)抽取出剩餘的部份來進行構建為應用網路32，並將剩餘的應用網路32運算放在伺服器端20來做運算(如第1圖所示)。

另上述卷積神經網路(CNN)30係由卷積層(Convolutional Layer)與全連接層(fully connected layer)所組成，其中該卷積層(Convolutional Layer)係負責影像特徵擷取，通常會使用影像分類的網路，因其資料量為目前公開資料中最大的影像圖庫，可以使影像分類的網路見識到幾乎所有的影像，使其具有良好的一般化特性。另全連接層(fully connected layer)則是負責辨識物件的定位，其訓練資料需要包含物件的座標，因此資料集會遠小於影像分類的資料集，通常會拿目前最好的影像分類網路當卷積層(Convolutional Layer)並固定其參數，其中該參數係為卷積核(kernals)與卷積層(filters)，再來訓練全連接層(fully connected layer)。

再者，以目前的物件偵測技術為例，單一影像(608x608)的物件偵測推論需要約128.459每秒浮點運算次數(Floating-point operations per second,BFLOPS)，其中全連接層(fully connected layer)約佔25每秒浮點運算次數(BFLOPS)，因此，本發明之應用網路32最少需佔25每秒浮點運算次數(BFLOPS)。所以，本發明將該卷積神經網路(CNN)30之基礎網路31放置於該設備端10，而該卷積神經網路(CNN)30之應用網路32放置於該伺服器端20，而此時該設備端10進行編碼影像串流(如第1圖所示)，並透過設備端10之運算處理單元11進行運算該卷積神經網路(CNN)30之基礎網路31，其中該編碼影像串流係包含一時間戳(timestamp)(圖未示)，該基礎網路31的運算係包含一時間戳(timestamp)(圖未示)，使該編碼影像串流與該基礎網路31的運算能進行同步。

另當監控系統將設備端10係分設有第一設備端101與第二設備端102，而伺服器端20係分設有第一伺服端201與第二伺服器端202時(如第3圖所示)，該第一設備端101的卷積神經網路(CNN)30之基礎網路31與該第二設備端102的卷積神經網路(CNN)30之基礎網路31係為相同網路，而設置於第一伺服器端201並對應於該第一設備端101的卷積神經網路(CNN)30之應用網路32與設置於第二伺服器端202並對應於該第二設備端102的卷積神經網路(CNN)30之應用網路32則可視不同的應用而有所不同，例如設置於第一伺服器端201並對應於該第一設備端101的卷積神經網路(CNN)30之應用網路32可以僅針對車輛相關的物件做定位，而此時將該第一設備端101的卷積神經網路(CNN)30之基礎網路31參數固定，其中該參數係為卷積核(kernals)與卷積層(filters)，讓設置於第一伺服器端201並對應於該第一設備端101的卷積神經網路(CNN)30之應用網路32做小批量的轉移訓練即可。又或者是，將設置於第二伺服器端202並對應於該第二設備端102的卷積神經網路(CNN)30之應用網路32用於全新的新應用，並透過相同的轉移訓練來達成，此時，該監控系統內部的運算效能的分配已經初步達到平衡，而第一設備端101、第二設備端102、第一伺服器端201及第二伺服器端202在可能的範圍內分擔了運算資源，並且不失其一般性。

而本發明另一實施例中該設備端10之基礎網路31於後端串聯一卷積神經網路(CNN)壓縮網路50，並形成一新基礎網路60(如第4圖所示)，以將運算後結果進行壓縮(encode)，且經由該網路40傳輸至該伺服器端20，而該伺服器端20之應用網路32係於前端串聯一卷積神經網路(CNN)解壓縮網路70，並形成一新應用網路80(如第4圖所示)，以將接收到壓縮(encode)的運算後結果進行解壓縮(decode)來還原該運算後結果，再傳輸至該伺服器端20，使具有降低重複運算及節省能源消耗之效果，並能達到平衡運算效能的分配。另透過該卷積神經網路(CNN)壓縮網路50及該卷積神經網路(CNN)解壓縮網路70，使新基礎網路60和新應用網路80的傳輸頻寬係遠小於原本的基礎網路31和應用網路32，且新基礎網路60和新應用網路80的計算量則略高於原本的基礎網路31和應用網路32，因為新基礎網路60和新應用網路80加了壓縮(encode)和解壓縮(decode)的運算。

再者，上述該卷積神經網路(CNN)壓縮網路50係包含有一加密程序(圖未示)，以能讓運算後結果於進行壓縮(encode)時能透過該加密程序進行加密，而該卷積神經網路(CNN)解壓縮網路70係包含一解密程序，以能讓運算後結構於進行解壓縮(decode)時能透過該解密程序進行解密，使具有增加保密之效能。另上述該新應用網路80的壓縮率係高於該新基礎網路60，此時的壓縮策略是在符合一般化的需求下，其壓縮策略則僅是盡可能降低損失函數(loss function)。

另該卷積神經網路(CNN)30於訓練時期為求一般化，除了需要足夠龐大的資料集外，也要具備夠多的參數才能紀錄下所有可能的影像特徵，其中該參數係為卷積核(kernals)與卷積層(filters)，然而在推論時並不需要辨識出所有的影像特徵，這些多出的影像特徵對於預測的結果並沒有任何的幫助，僅是消耗運算資源。

另本發明之智慧型監控方法，主要係用於智慧型監控系統，該智慧型監控系統係包括有至少一設備端10、至少一伺服器端20、至少一卷積神經網路(CNN)30及至少一網路40，該設備端10係設有一運算處理單元11，該伺服器端20係設有一運算處理單元21，該網路40之一端係連接該設備端10，該網路40之另一端係連接該伺服器端20(如第1圖及第2圖所示)。其中該伺服器端20係為監控主機(如第3圖所示)，而該監控主機係為數位影像錄影機(Digital Video Recorder,DVR)或是網路影像錄影機(Network Video Recorder,NVR)之其中任一(圖未示)，以能進行後續監控資料之儲存及分析，該伺服器端20亦可以是伺服器，以用來進行監控資料之儲存。另該設備端10係為攝影機(如第3圖及第2圖所示)、邊緣設備之其中任一，該攝影機亦可為監視器、監視攝影機、智能攝像機或是其他監控器材，而該設備端10係設有至少一鏡頭(如第3圖所示)，並透過該鏡頭進行物件偵測，且能攝錄影像，其中該物件偵測係為人車偵測、物品偵測、動作偵測之其中任一，也可以是其他用途偵測或追蹤，不以本發明為限。

另該卷積神經網路(Convolutional Neural Networks,CNN)30係為二維卷積神經網路，以透過該二維卷積神經網路進行影像識別，且該卷積神經網路(CNN)30主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形，該部分功能主要由池化層(Max Pooling Layer)實現，而該卷積神經網路(CNN)30的基本結構包括兩層，其一為特徵提取層，也就是卷積層(Convolutional Layer)，每個神經元的輸入與前一層的區域性接受域相連，並提取該區域性的特徵。一旦該區域性特徵被提取後，它與其它特徵間的位置關係也隨之確定下來；其二是特徵對映層，網路的每個計算層由多個特徵對映組成，每個特徵對映是一個平面，平面上所有神經元的權值相等。

而該智慧型監控方法，首先進行(如第5圖所示)的步驟S100抽取共通為基礎網路：該卷積神經網路(CNN)30係將不同性質的應用抽取出共通的部份來進行構建為至少一基礎網路31。而完成上述步驟S100後即進行下一步驟S110。

而上述之步驟S100中主要是透過該卷積神經網路(CNN)30將不同性質的應用抽取出共通的部份來進行構建為至少一基礎網路31(如第2圖所示)，舉例來說，安裝了基礎網路31的攝影機放在路口(圖未示)，該伺服器端20搭配了人車偵測的應用網路32就可以偵測人和車，進而分析交通情況。同樣安裝了基礎網路31的攝影機如果放在麵包店的收銀台(圖未示)，該伺服器端20搭配了麵包種類偵測的應用網路32就可以偵測麵包的種類，進而實現無人商店。傳統的做法，因為無法得知實際應用的場景，因此所有的運算都集中在伺服器端20(人車偵測或是麵包偵測)。而本發明主要部分是將所有不同性質的應用(人車偵測，麵包偵測，貓狗偵測...)抽取出共通的部分構建出基礎網路31，並將共通的基礎網路31運算放在設備端10先做運算(如第1圖所示)。

另，下一步進行的步驟S110設置於設備端：將該基礎網路31設置於該設備端10上，且進行編碼影像串流。而完成上述步驟S110後即進行下一步驟S120。

而上述之步驟S110中將該卷積神經網路(CNN)30之基礎網路31放置於該設備端10(如第1圖所示)，而此時該設備端10進行編碼影像串流，其中該編碼影像串流係包含一時間戳(timestamp)(圖未示)，該基礎網路31的運算係包含一時間戳(timestamp)(圖未示)，使該編碼影像串流與該基礎網路31的運算能進行同步。

另，下一步進行的步驟S120基礎網路運算：並透過該設備端10之運算處理單元11來進行該基礎網路31的運算。而完成上述步驟S120後即進行下一步驟S130。

而上述之步驟S120中透過該設備端10之運算處理單元11進行運算該卷積神經網路(CNN)30之基礎網路31(如第1圖所示)，其中該運算處理單元11係為中央處理器(CPU)、圖形處理器(GPU)、硬體加速器(hardware accelerator)之其中任一，而該硬體加速器(hardware accelerator)係為單晶片系統(SoC)、現場可程式化邏輯閘陣列處理器(FPGA)、特殊應用積體電路處理器(AISC)之其中任一，並透過該運算處理單元11來進行影像運算處理，但不以本發明之內容及圖式為限，也可以是其他具有影像處理的運算單元或是影像加速器等來協助該運算處理單元11進行處理影像工作及功能。

另，下一步進行的步驟S130抽取剩餘為應用網路：該卷積神經網路(CNN)30係將不同性質的應用抽取出剩餘的部份來進行構建為至少一應用網路32。而完成上述步驟S130後即進行下一步驟S140。

而上述之步驟S130中該卷積神經網路(CNN)30係將不同性質的應用抽取出剩餘的部份來進行構建為至少一應用網路32(如第2圖所示)，舉例來說，安裝了基礎網路31的攝影機放在路口(圖未示)，該伺服器端20搭配了人車偵測的應用網路32就可以偵測人和車，進而分析交通情況。同樣安裝了基礎網路31的攝影機如果放在麵包店的收銀台(圖未示)，該伺服器端20搭配了麵包種類偵測的應用網路32就可以偵測麵包的種類，進而實現無人商店。傳統的做法，因為無法得知實際應用的場景，因此所有的運算都集中在伺服器端20(人車偵測或是麵包偵測)。而本發明主要部分是將所有不同性質的應用(人車偵測，麵包偵測，貓狗偵測...)抽取出剩餘的部份來進行構建為應用網路32，並將剩餘的應用網路32運算放在伺服器端20來做運算(如第1圖所示)。

另，下一步進行的步驟S140設置於伺服器端：將該應用網路32設置於該伺服器端20上，且進行解碼影像串流。而完成上述步驟S140後即進行下一步驟S150。

而上述之步驟S140中將該卷積神經網路(CNN)30之應用網路32放置於該伺服器端20上(如第1圖所示)，而此時該伺服器端20進行解碼影像串流。

另，下一步進行的步驟S150應用網路運算：並透過該伺服器端之運算處理單元進行該應用網路的運算。而完成上述步驟S150後即進行下一步驟S160。

而上述之步驟S150中透過該伺服器端20之運算處理單元21進行運算該卷積神經網路(CNN)30之應用網路32(如第1圖所示)，其中該運算處理單元21係為中央處理器(CPU)、圖形處理器(GPU)、硬體加速器(hardware accelerator)之其中任一，而該硬體加速器(hardware accelerator)係為單晶片系統(SoC)、現場可程式化邏輯閘陣列處理器(FPGA)、特殊應用積體電路處理器(AISC)之其中任一，並透過該運算處理單元21來進行影像運算處理，但不以本發明之內容及圖式為限，也可以是其他具有影像處理的運算單元或是影像加速器等來協助該運算處理單元21進行處理影像工作及功能。

另，下一步進行的步驟S160網路傳輸運算：再透過該網路40傳輸該設備端10之基礎網路31的運算、該伺服器端20之應用網路32的運算、編碼影像串流及解碼影像串流。

而上述之步驟S160中設備端10與該伺服器端20係透過至少一網路40來形成連接(如第1圖所示)，其中該網路40之一端係連接該設備端10，而該網路40之另一端係連接該伺服器端20，以能進行影像或是資料的傳輸。

再者，以目前的物件偵測技術為例，單一影像(608x608)的物件偵測推論需要約128.459每秒浮點運算次數(Floating-point operations per second,BFLOPS)，其中全連接層(fully connected layer)約佔25每秒浮點運算次數(BFLOPS)，因此，本發明之應用網路32最少需佔25每秒浮點運算次數(BFLOPS)。

而本發明主要是透過該卷積神經網路(CNN)30將不同性質的應用抽取出共通的部份來進行構建為至少一基礎網路31(如第2圖所示)，其中該卷積神經網路(CNN)30之基礎網路31係設置於該設備端10上(如第1圖所示)，且透過該設備端10進行該基礎網路31的運算，再將不同性質的應用抽取出剩餘的部份來進行構建為至少一應用網路32(如第2圖所示)，其中該卷積神經網路(CNN)30之應用網路32係設置於該伺服器端20上(如第1圖所示)，且透過該伺服器端20進行該應用網路32的運算，且透過該網路40來進行傳輸該設備端10之基礎網路31的運算、該伺服器端20之應用網路32的運算、編碼影像串流及解碼影像串流，使具有適應式應用的效能。

由以上詳細說明，可使熟知本項技藝者明瞭本發明的確可達成前述目的，實已符合專利法之規定，爰提出發明專利申請。

惟以上所述者，僅為本發明之較佳實施例而已，當不能以此限定本發明實施之範圍；故，凡依本發明申請專利範圍及發明說明書內容所作之簡單的等效變化與修飾，皆應仍屬本發明專利涵蓋之範圍內。