TWI787638B

TWI787638B - 影像物件追蹤方法

Info

Publication number: TWI787638B
Application number: TW109125789A
Authority: TW
Inventors: 張泫沛
Original assignee: 杰悉科技股份有限公司
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2022-12-21
Also published as: TW202205203A; US20220036569A1

Abstract

本發明之影像物件追蹤方法是適用於至少一第一攝影機及至少一第二攝影機，第一攝影機拍攝一實體環境已取得一第一影像，第二攝影機拍攝該實體環境已取得一第二影像，且該第一影像與該第二影像有部分重疊，該影像物件追蹤方法包括下列步驟：首先，將該第一影像與該第二影像進行融合，以形成一合成影像。之後，對合成影像中的至少一物件進行框選和追蹤。

Description

影像物件追蹤方法

本發明是指一種影像物件追蹤方法，特別是指一種涉及影像融合的影像物件追蹤方法。

目前，由於人力成本持續增加，愈多人傾向採用影像監控系統來進行保全工作，以便在有限人力資源之下，取得最周全的保護，尤其是在涉及到公共環境安全的情況，如：百貨公司、大賣場、機場，影像監控系統更是早就普遍性的存在。影像監控系統通常會配置有多個攝影機，並且利用在顯示螢幕上同時或分時顯示每一攝影機所擷取到之影像的方式來達到可同時監控多個地點(如大廳門口、停車場等)之目的。不過，若是在大範圍區域中要進行影像監控系統之設置，除了需要相當大量的攝影機，也會造成監控人員在畫面監視上之不便且無法全面性觀看與進行完善的監控。

另外，近年來由於資訊科技的發達，許多監控的工作也交由電腦來執行。然而，要由電腦來判斷出現在不同攝影機的物體或人體是否彼此相同，是相當困難的，需要複雜度較高的演算法及較多的運算資源，且容易產生誤判。因此，如何解決上述的問題，便是值得本領域具有通常知識者去思量的課題。

本發明之目的在於提供一影像追蹤方法，該影像追蹤方法能更精確判斷出現在不同攝影機的物體或人體是否彼此相同。

在上所述之影像物件追蹤方法，還包括以下步驟：建立一三維空間模型，該三維空間模型是對應到該實體環境。之後，藉由第一攝影機的高度、拍攝角度、與焦距，以建立對應的一第一視角錐模型，並依據該第一視角錐模型求出該第一攝影機於該實體環境的一第一拍攝涵蓋區。之後藉由第二攝影機的高度、拍攝角度、與焦距，以建立對應的一第二視角錐模型，並依據該第二視角錐模型求出該第二攝影機於該實體環境的一第二拍攝涵蓋區。之後，在該三維空間模型的區域內搜尋出對應於該第一拍攝涵蓋區的一第一虛擬涵蓋區。之後，在該三維空間模型的區域內搜尋出對應於第二拍攝涵蓋區的一第二虛擬涵蓋區。之後，將該第一虛擬涵蓋區與第二虛擬涵蓋區整合為一第三虛擬涵蓋區。之後，將該合成影像導入該三維空間模型，並將其投影於該第三虛擬涵蓋區。

在上所述之影像物件追蹤方法，其中第一影像與該第二影像以一影像融合演算法融合成該合成影像，該影像融合演算法包括SIFT演算法。

在上所述之影像物件追蹤方法，其中，是以一影像分析模組對該合成影像中的至少一物件進行框選和追蹤，其中該影像分析模組包括一類神經網路模型。

在上所述之影像物件追蹤方法，其中類神經網路模型用以執行深度學習演算法。

在上所述之影像物件追蹤方法，其中該類神經網路模型為一卷積式神經網路模型。

在上所述之影像物件追蹤方法，其中該卷積式神經網路模型為VGG模型、ResNet模型、或DenseNet模型。

在上所述之影像物件追蹤方法，其中該類神經網路模型為YOLO模型、CTPN模型、EAST模型、或RCNN模型。

為讓本之上述特徵和優點能更明顯易懂，下文特舉較佳實施例，並配合所附圖式，作詳細說明如下。

S1~S9:步驟

8:實體環境

80:第一局部區域

81A:第一拍攝涵蓋區

81B:第二拍攝涵蓋區

12A:第一攝影機

12B:第二攝影機

120:第一影像

220:第二影像

320:合成影像

131:三維空間模型

1310:第二局部區域

131A:第一虛擬涵蓋區

131B:第二虛擬涵蓋區

131C:第三虛擬涵蓋區

141A:第一視角錐模型

141B:第二視角錐模型

下文將根據附圖來描述各種實施例，所述附圖是用來說明而不是用以任何方式來限制範圍，其中相似的符號表示相似的元件，並且其中：圖1A所繪示為本實施例之影像物件追蹤方法。

圖1B所繪示為實體環境8的第一局部區域80的平面示意圖。

圖1C所繪示為第一攝影機12A及第二攝影機12B拍攝實體環境8的第一局部區域80立體示意圖。

圖2A所繪示為合成影像320的示意圖。

圖2B所繪示為框選該人形背影的示意圖。

圖3A所繪示為三維空間模型131的平面示意圖。

圖3B所繪示為三維空間模型131的第二局部區域1310的立體示意圖。

圖4A所繪示為第一攝影機12A與第一視角錐模型141A的示意圖。

圖4B所繪示為第二攝影機12B與第二視角錐模型141B的示意圖。

圖5A所繪示為第一虛擬涵蓋區131A位於第二局部區域1310的示意圖。

圖5B所繪示為第二虛擬涵蓋區131B位於第二局部區域1310的示意圖。

圖5C所繪示為第三虛擬涵蓋區131C位於第二局部區域1310的示意圖。

圖6所繪示為合成影像320投影在第三虛擬涵蓋區131C的示意圖。

參照本文闡述的詳細內容和附圖說明是最好理解本發明。下面參照附圖會討論各種實施例。然而，本領域技術人員將容易理解，這裡關於附圖給出的詳細描述僅僅是為了解釋的目的，因為這些方法和系統可超出所描述的實施例。例如，所給出的教導和特定應用的需求可能產生多種可選的和合適的方法來實現在此描述的任何細節的功能。因此，任何方法可延伸超出所描述和示出的以下實施例中的特定實施選擇範圍。

在說明書及後續的申請專利範圍當中使用了某些詞彙來指稱特定的元件。所屬領域中具有通常知識者應可理解，不同的廠商可能會用不同的名詞來稱呼同樣的元件。本說明書及後續的申請專利範圍並不以名稱的差異來作為區分元件的方式，而是以元件在功能上的差異來作為區分的準則。在通篇說明書及後續的申請專利範圍當中所提及的「包含」或「包括」係為一開放式的用語，故應解釋成「包含但不限定於」。另外，「耦接」或「連接」一詞在此係包含任何直接及間接的電性連接手段。因此，若文中描述一第一裝置耦接於一第二裝置，則代表該第一裝置可直接電性連接於該第二裝置，或透過其他裝置或連接手段間接地電性連接至該第二裝置。

請參閱圖1A、圖1B及圖1C，圖1A所繪示為本實施例之影像物件追蹤方法，圖1B所繪示為實體環境8的第一局部區域80的平面示意圖，圖1C所繪示為第一攝影機12A及第二攝影機12B拍攝實體環境8的第一局部區域80立體示意圖。

本實施例之影像物件追蹤方法是適用於至少一第一攝影機12A及至少一第二攝影機12B。其中，第一攝影機拍攝一實體環境8的第一局部區域80已取得一第一影像120，第一影像120是以一張椅子與一人形背影作為範例。此外，第二攝影機12B同樣拍攝實體環境8的第一局部區域80已取得一第二影像220，第二影像120是以該人形背影與一垃圾桶作為範例。並且，第一影像120與第二影像220有部分重疊。詳細來說，在圖1B中的人形背影就是第一影像120與第二影像220所重疊的影像。

本實施例之影像物件追蹤方法是包括下列步驟：首先，請參考圖2A(圖2A所繪示為合成影像320的示意圖)及步驟S1，將第一影像120與第二影像220進行融合，以形成一合成影像320。詳細來說，第一影像120與第二影像220是使用一影像融合演算法融合成為該合成影像320，該影像融合演算法例如為尺度不變特徵轉換(SIFT)的演算法。

之後，請參考圖2B(圖2B所繪示為框選該人形背影的示意圖)及步驟S2，對合成影像320中的至少一物件進行框選和追蹤。詳細來說，合成影像320共有三個物件，包括椅子、人形背影及垃圾桶。其中，該人形背影屬於會移動的物件，所以該人形背影是主要被框選和追蹤的物件。上述中，是使用一影像分析模組對合成影像320中的至少一物件進行框選和追蹤，該影像分析模組包括一類神經網路模型，該類神經網路模型是用以執行深度學習演算法。其中，類神經網路模型為一卷積式神經網路模型、YOLO模型、CTPN模型、EAST模型、或RCNN模型。其中，卷積式神經網路模型為VGG模型、ResNet模型、或DenseNet模型。

之後，請參圖3A(圖3A所繪示為三維空間模型131的平面示意圖)、圖3B(圖3B所繪示為三維空間模型131的第二局部區域1310的立體示意圖)及閱步驟S3，建立一三維空間模型131，三維空間模型131包括一第二局部區域1310。其中，三維空間模型131是對應到實體環境8，而實體環境8的第一局部區域80是對應到第二局部區域1310。具體來說，三維空間模型131是實體環境8的3D環境模擬圖，所以在各個建築物的比例上皆會仿照實體環境8內的建築物。

之後，請參閱圖1C、圖4A(圖4A所繪示為第一攝影機12A與第一視角錐模型141A的示意圖。)及步驟S4，藉由第一攝影機12A的高度、拍攝角度、與焦距，以建立對應的一第一視角錐模型141A，並依據該第一視角錐模型求出第一攝影機12A於實體環境8的一第一拍攝涵蓋區81A。其中，第一視角錐模型141A會依據透視投影的方式與平行投影的方式而產生不同形狀，例如圖 4A的第一視角錐模型141A的形狀類似一梯形體。詳細來說，第一拍攝涵蓋區81A便是第一攝影機12A於實體環境8所能拍攝的視野。

之後，請參閱圖1C、圖4B(圖4B所繪示為第二攝影機12B與第二視角錐模型141B的示意圖。)及步驟S5，藉由第二攝影機12B的高度、拍攝角度、與焦距，以建立對應的一第二視角錐模型141B，並依據該第二視角錐模型求出第二攝影機12B於實體環境8的一第二拍攝涵蓋區81B。詳細來說，第二拍攝涵蓋區81B便是第二攝影機12B於實體環境8所能拍攝的視野。

之後，請參閱圖5A(圖5A所繪示為第一虛擬涵蓋區131A位於第二局部區域1310的示意圖)及步驟S6，在三維空間模型131的區域內搜尋出對應於第一拍攝涵蓋區81A的一第一虛擬涵蓋區131A。

之後，請參閱圖5B(圖5B所繪示為第二虛擬涵蓋區131B位於第二局部區域1310的示意圖)及步驟S7，在三維空間模型131的區域內搜尋出對應於第二拍攝涵蓋區81B的一第二虛擬涵蓋區131B。

之後，請參閱圖5C(圖5C所繪示為第三虛擬涵蓋區131C位於第二局部區域1310的示意圖)及步驟S8，將第一虛擬涵蓋區131A與第二虛擬涵蓋區131B整合為一第三虛擬涵蓋區131C。

之後，請參圖6(圖6所繪示為合成影像320投影在第三虛擬涵蓋區131C的示意圖)及閱步驟S9，將合成影像320導入三維空間模型131，並將其投影於第三虛擬涵蓋區131C。這樣一來，該椅子、該人形背影及該垃圾桶會顯示於第三虛擬涵蓋區131C的表面上。

綜上，相較於傳統的追蹤方法，本實施例之影像物件追蹤方法經由步驟S1至步驟S9能得知，該影像物件追蹤方法能將不同攝影機所取得的影像先合成為單一個合成影像320，並將合成影像320投影於三維空間模型131的第三虛擬涵蓋區131C上，所以電腦無須判斷不同攝影機的物體或人體是否彼此相同，便能加快對物件進行框選與追蹤。

綜上所述，本發明之影像物件追蹤方法能更精確判斷出現在不同攝影機的物體或人體是否彼此相同。

雖然本發明已以較佳實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

S1~S9:步驟

Claims

一種影像物件追蹤方法，適用於至少一第一攝影機及至少一第二攝影機，第一攝影機拍攝一實體環境已取得一第一影像，第二攝影機拍攝該實體環境已取得一第二影像，且該第一影像與該第二影像有部分重疊，該影像物件追蹤方法包括下列步驟：(a)將該第一影像與該第二影像進行融合，以形成一合成影像；(b)對該合成影像中的至少一物件進行框選和追蹤；(c)建立一三維空間模型，該三維空間模型是對應到該實體環境；(d)藉由第一攝影機的高度、拍攝角度、與焦距，以建立對應的一第一視角錐模型，並依據該第一視角錐模型求出該第一攝影機於該實體環境的一第一拍攝涵蓋區；(e)藉由第二攝影機的高度、拍攝角度、與焦距，以建立對應的一第二視角錐模型，並依據該第二視角錐模型求出該第二攝影機於該實體環境的一第二拍攝涵蓋區；(f)在該三維空間模型的區域內搜尋出對應於該第一拍攝涵蓋區的一第一虛擬涵蓋區；(g)在該三維空間模型的區域內搜尋出對應於該第二拍攝涵蓋區的一第二虛擬涵蓋區；(h)將該第一虛擬涵蓋區與第二虛擬涵蓋區整合為一第三虛擬涵蓋區；及(i)將該合成影像導入該三維空間模型，並將其投影於該第三虛擬涵蓋區；在步驟(a)中，該第一影像與該第二影像以一影像融合演算法融合成該合成影像，該影像融合演算法包括SIFT演算法；在步驟(b)中，以一影像分析模組對該合成影像中的至少一物件進行框選和追蹤，其中該影像分析模組包括一類神經網路模型。
如申請專利範圍第1項所述之影像物件追蹤方法，其中該類神經網路模型為一卷積式神經網路模型。
如申請專利範圍第2項所述之影像物件追蹤方法，其中該卷積式神經網路模型為VGG模型、ResNet模型、或DenseNet模型。
如申請專利範圍第1項所述之影像物件追蹤方法，其中該類神經網路模型為YOLO模型、CTPN模型、EAST模型、或RCNN模型。