TWI811102B - 用於檢測對象的位置、像素和框架的視訊處理方法以及視訊處理電路 - Google Patents

用於檢測對象的位置、像素和框架的視訊處理方法以及視訊處理電路 Download PDF

Info

Publication number
TWI811102B
TWI811102B TW111134730A TW111134730A TWI811102B TW I811102 B TWI811102 B TW I811102B TW 111134730 A TW111134730 A TW 111134730A TW 111134730 A TW111134730 A TW 111134730A TW I811102 B TWI811102 B TW I811102B
Authority
TW
Taiwan
Prior art keywords
result
video processing
object detection
pose estimation
instance
Prior art date
Application number
TW111134730A
Other languages
English (en)
Other versions
TW202312104A (zh
Inventor
陳星宇
巫承威
陳書屏
Original Assignee
聯發科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 聯發科技股份有限公司 filed Critical 聯發科技股份有限公司
Publication of TW202312104A publication Critical patent/TW202312104A/zh
Application granted granted Critical
Publication of TWI811102B publication Critical patent/TWI811102B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本發明提供一種視訊處理方法和相關電路。視訊處理方法用於檢測對象的位置、像素和框架,包括:利用單個深度學習網路的預定模型中的主幹網路來接收具有對象的輸入圖像資料並將輸入圖像資料轉換為至少一個特徵圖;以及利用單一深度學習網路的預定模型中的至少一個實例頭和一個像素頭來接收至少一個特徵圖並將至少一個特徵圖轉換為對象的對象檢測結果、實例分割結果和姿態估計結果,分別用於指示對象的位置、像素和框架。本發明的視訊處理方法和相關電路可以實現具有可靠檢測控制的電子設備。

Description

用於檢測對象的位置、像素和框架的視訊處理方法以及視訊 處理電路
本發明涉及實時視訊處理,更具體地,涉及一種用於檢測對象的位置、像素和框架的視訊處理方法,以及相關的視訊處理電路。
除非本文另外指出,否則本節中描述的方法不是下面列出的申請專利範圍的現有技術,並且不被包括在本節中而被承認為現有技術。
實時視訊流已經廣泛應用於各種應用,例如監控系統、視訊會議等。在某些情況下,例如,當使用監控系統監控重要區域時,可能需要檢測視訊流圖像中的對象。根據相關技術,人工神經網路技術可能有助於實現對象檢測。但是,可能會出現一些問題。更具體地,當需要檢測圖像中的多個人以及圖像中分別屬多個人的像素以及人的各自動作時,可以使用多階段模型(multi-stage model),但是存在一定的局限性。例如,當實例(例如人)的數量增加並達到二十個或更多時,多階段模型的端到端推理時間(end-to-end inference time)可能會顯著增加,從而導致整體性能下降。因此,需要一種新穎的方法和相關架構來實現具有可靠檢測控制而不引入任何副作用或不太可能引入副作用的電子設備。
有鑒於此,本發明提供以下技術方案:本發明提供一種視訊處理方法,用於檢測對象的位置、像素和框架,包括:利用單個深度學習網路的預定模型中的主幹網路來接收具有對象的輸入圖像資料並將輸入圖像資料轉換為至少一個特徵圖;以及利用單一深度學習網路的預定模型中的至少一個實例頭和一個像素頭來接收至少一個特徵圖並將至少一個特徵圖轉換為對象的對象檢測結果、實例分割結果和姿態估計結果,分別用於指示對象的位置、像素和框架。
本發明還提供一種視訊處理電路,用於檢測對象的位置、像素和框架,視訊處理電路包括:第一處理電路,被配置為在單個深度學習網路的預定模型中充當主幹網路以接收具有對象的輸入圖像資料並將輸入圖像資料轉換為至少一個特徵圖;以及第二處理電路,偶接到第一處理電路,被配置為充當單個深度學習網路的預定模型中的至少一個實例頭和像素頭,以接收至少一個特徵圖,並轉換至少一個特徵圖為對象的對象檢測結果、實例分割結果和姿態估計結果,分別表示對象的位置、像素和框架。
本發明的一個優點是,通過精心設計的檢測機制,本發明提供的視訊處理方法和視訊處理電路可以借助預定模型(例如,單階段模型)通過圖像處理(例如,以多對象檢測結果、多實例分割結果和多姿態估計結果突出多個對象)同時輸出多個對象的位置、像素和框架,以實現出色的整體性能。此外,單個深度學習網路的預定模型將輸入圖像轉換為多對象檢測結果、多實例分割結果和多姿態估計結果的時間和功耗與多個對象的對象數量無關。例如,當實例(例如人)的數量增加並達到二十個或更多,甚至達到一百個或更多時,預定模型(例如,單階段模型)的端到端推理時間將不會顯著增加,更具體地說,可以保持幾乎不變。與現有技術相比,本發明提供的視訊處理方法和視訊處理電路可以在不引入任何副作用或以不太可能引入副作用的方式實現具有可靠檢 測控制的電子設備。
10:人體三位一體模型
10B,11B,12B,13B:多對象檢測結果
10S,11S,12S,13S:多實例分割結果
10P,11P,12P,13P:多姿態估計結果
100:視訊處理電路
110:第一處理電路
120:第二處理電路
130:第三處理電路
111,112,121,120C:網路
120IH,122,123~127,220,320:實例頭
120PH:像素頭
S11~S13:步驟
結合在本說明書中並構成本說明書一部分的附圖示出了本發明的實施例,並且與說明書一起用於解釋本發明的原理:第1圖是示出根據本發明實施例的用於檢測對象的位置、像素和框架的視訊處理方法的人體三位一體(Human Trinity)檢測控制方案的圖。
第2圖示出了根據根據本發明實施例的視訊處理方法的單階段(one-stage)模型控制方案和兩階段(two-stage)模型控制方案。
第3圖是根據本發明實施例的用於檢測對象的位置、像素和框架的視訊處理電路的示意圖。
第4圖是根據本發明實施例的視訊處理方法的單階段模型控制方案所涉及的網路架構圖。
第5圖是說明參照本發明的一個實施例的第4圖所示的網路架構中的實例頭的圖。
第6圖是參照本發明一實施例的第4圖所示網路架構中的像素頭的示意圖。
第7圖是說明根據本發明實施例的視訊處理方法的基於三位一體分數的(trinity-score-based)訓練控制方案的圖。
第8圖是說明根據本發明實施例的視訊處理方法的三位一體分數控制方案的示意圖。
第9圖是根據本發明實施例的視訊處理方法的網路細化控制方案的示意圖。
第10圖示出了同時檢測控制方案和單獨檢測控制方案。
第11圖是根據本發明實施例的用於檢測對象的位置、像素和框架的視訊處理方 法的工作流程。
在下面的描述中,闡述了許多具體細節。然而,應當理解,可以在沒有這些具體細節的情況下實踐本發明的實施例。在其他情況下,未詳細示出公知的電路、結構和技術,以免混淆對本說明書的理解。然而,所屬領域具有通常知識者將理解,可以在沒有這種具體細節的情況下實踐本發明。具有所包括的描述的所屬領域具有通常知識者將能夠實現適當的功能而無需過度的實驗。
以下描述是實施本發明的最佳預期模式。該描述是為了說明本發明的一般原理,不應理解為限制性的。本發明的範圍最好通過參考所附申請專利範圍來確定。
第1圖是示出根據本發明實施例的用於檢測對象的位置、像素和框架的視訊處理方法的人體三位一體(Human Trinity)檢測控制方案的圖。為了更好地理解,對象可以表示輸入圖像(例如,其輸入圖像資料)中多個對象中的任意一個對象,其中該視訊處理方法中得到的對象的對象檢測結果、對象的實例分割(instance segmentation)結果和對象的姿態估計結果可以分別表示多個對象的多個對象檢測結果中的上述任一對象的對象檢測結果,多個對象的多個實例分割結果中的上述任一對象的實例分割結果,以及多個對象的多個姿態估計結果中的上述任一對象的姿態估計結果,但本發明不限於此。根據一些實施例,輸入圖像(例如,其輸入圖像資料)可以包括單個對象,並且該對象可以表示輸入圖像(例如,其輸入圖像資料)中的單個對象,其中該視訊處理方法中得到的對象的對象檢測結果、對象的實例分割(instance segmentation)結果和對象的姿態估計結果可以分別表示單個對象的對象檢測結果、單個對象的實例分割結果和分 別為單個對象的姿態估計結果。
例如,根據視訊處理方法的人體三位一體檢測控制方案操作的電子設備可以被布置為通過攝像頭獲取視訊流,並同時檢測在視訊流攜帶的輸入圖像(例如其輸入圖像資料)中的多個對象的位置、像素和框架。更具體地,根據視訊處理方法的人體三位一體檢測控制方案操作的電子設備可以被配置為在單階段(one-stage)中同時執行對象檢測(例如人體檢測)、實例分割和姿態估計等三種類型的處理,以便分別生成並輸出多個對象關聯的處理結果,如多對象檢測結果11B、12B、13B等,多實例分割結果11S、12S、13S等和多姿態估計結果11P、12P、13P等,分別用於指示多個對象的位置(例如,對象位置)、像素(例如,對象像素)和框架(例如,對象框架)。
為了更好地理解,多個對象檢測結果11B、12B、13B等可以包括人類檢測結果,其可以可選地用包圍檢測到的人的框(例如,實例級人框(instance-level person box))來說明,多個實例分割結果11S、12S、13S等可以包括實例像素,這些實例像素可以可選地用預定掩模(例如,分割掩模)的突出像素來說明,其上分別具有預定輪廓、預定陰影和/或預定色調,多個姿態估計結果11P、12P、13P等可以包括主要框架,其可以可選地以與想像關節連接的想像框架來說明,例如卡通風格的與圓圈連接的棍子,作為姿態的姿態指示,其中該場景可以被圖示為穿過馬路的人物,但本發明不限於此。根據一些實施例,場景、對象的類型、對象的數量、和/或用多對象檢測結果11B、12B、13B等、多實例分割結果11S、12S、13S等和多姿態估計結果11P、12P、13P等突出多個對象的方式可能不同。電子設備的示例可以包括但不限於:諸如監控系統的主機設備的監控主機設備、諸如動作識別系統的主機設備的動作識別主機設備、諸如作為自動駕駛系統的主機設備的自動駕駛主機設備,諸如AI-健身教練系統的主機設備的人工智能(AI)-健身教練主機設備,以及例如多功能手機的移 動設備。
第2圖示出了根據本發明實施例的視訊處理方法的單階段(one-stage)模型控制方案和兩階段(two-stage)模型控制方案。第2圖的下半部分示出了根據本發明實施例的視訊處理方法的單階段(one-stage)模型控制方案,第2圖的上半部分示出了兩階段(two-stage)模型控制方案,以便更好地理解。如第2圖上半部分所示,兩階段模型控制方案的階段#1模型可以在階段#1操作以獲得檢測到的位置,例如指示人的位置的框,以及兩階段模型控制方案的階段#2模型可以根據在階段#2中檢測到的位置進行操作,以獲得實例分割結果和姿態估計結果(為簡潔起見,分別標記為“Instance Seg.”和“Pose”)。例如,當實例(例如人)的數量增加並達到20或更多時,兩階段模型的端到端推理時間可能會顯著增加,從而導致整體性能下降。如第2圖下半部分所示,單階段模型控制方案的人體三位一體模型10可以在諸如階段#1的單個階段中操作以同時獲得對象檢測結果10B(可以用包圍被檢測到的人的框來說明),實例分割結果10S和姿態估計結果10P(標記為“Trinity result”以便更好地理解)。請注意,如圖2所示的正在檢測的對象(例如,其形狀和尺寸)僅用於說明目的,並不意味著對本發明的限制。
以根據視訊處理方法進行操作的電子設備為例,該電子設備可以被配置為借助單個深度學習網路的預定模型,在單階段處理中同時執行對象檢測(例如,人體檢測)、實例分割和姿態估計等三種類型的處理,例如人體三位一體模型10,以同時獲得上述多個對象中的任一對象的對象檢測結果10B、實例分割結果10S和姿態估計結果10P,例如多對象檢測結果11B、12B、13B等,多實例分割結果11S、12S、13S等,以及多姿態估計結果11P、12P,13P等,並執行圖像處理以在對應於輸入圖像(例如,其輸入圖像資料)的輸出圖像(例如,其輸出圖像資料)上選擇性地突出具有多對象檢測結果11B、12B、13B等,多 實例分割結果11S、12S、13S等和多姿態估計結果11P、12P、13P等的多個對象,用於分別實時指示多個對象的位置、像素和框架,以實現優異的整體性能。此外,通過諸如人體三位一體模型10的預定模型將輸入圖像(例如其輸入圖像資料)轉換為多對象檢測結果11B、12B、13B等,多實例分割結果11S、12S、13S等,以及多個姿態估計結果11P、12P、13P等的時間和功耗獨立於多個對象的對象計數。例如,當實例(例如人)的數量增加到二十個或更多,甚至達到一百個或更多時,人體三位一體模型10的端到端推理時間不會顯著增加,更具體地說,可以保持幾乎不變。與現有技術相比,本發明提供的視訊處理方法可以在不引入任何副作用或以不太可能引入副作用的方式實現具有可靠檢測控制的電子設備。
第3圖是根據本發明實施例的用於檢測對象的位置、像素和框架的視訊處理電路100的示意圖,其中視訊處理方法可以應用於視訊處理電路100。根據該視訊處理方法操作的電子設備可包括視訊處理電路100,並且視訊處理電路100可以包括第一處理電路110、偶接到第一處理電路110的第二處理電路120、以及偶接到第二處理電路120的第三處理電路130。為了更好地理解,視訊處理電路100可以被配置為運行與單個深度學習網路的預定模型(例如,人類人體三位一體模型10)相對應的程式代碼,以實現視訊處理電路100內的預定模型。更具體地,第一處理電路110可以包括至少一個網路(例如,一個或多個網路)例如骨幹網路(backbone network)111,並且第二處理電路120可以包括至少一個實例頭(instance head)(例如,一個或多個實例頭),其可以統稱為實例頭120IH以及像素頭(pixel head)120PH,且可進一步包括組合網路120C,但本發明不限於此。
此外,運行對應於預定模型(例如,人體三位一體模型10)的程式代碼的視訊處理電路100可以同時執行單階段處理中三種類型的處理,例如對象檢測(例如,人體檢測)、實例分割和姿態估計,以同時生成對象的對象檢測結果10B、 實例分割結果10S和姿態估計結果10P,如第3圖所示。如此一來,第三處理電路130可以對輸入圖像(例如其輸入圖像資料)進行圖像處理,以分別用對象檢測結果10B、實例分割結果10S和姿態估計結果10P選擇性地突出對應於輸入圖像(例如其輸入圖像資料)的輸出圖像(例如其輸出圖像資料)上的對象,更具體地,在輸出圖像(例如其輸出圖像資料)上標記相關聯的檢測結果,例如對象檢測結果10B、實例分割結果10S和姿態估計結果10P,以分別指示對象的位置、像素和框架。例如,對象可以表示上述單個對象,但本發明不限於此。又例如,該對象可以代表前述多個對象中的前述任一對象,例如第1圖所示的人體對象中的任一人體對象,其中如第3圖所示的對象檢測結果10B、實例分割結果10S和姿態估計結果10P可以分別表示多個對象的多個對象檢測結果中的前述任一對象的對象檢測結果,多個對象的多個實例分割結果中的前述任一對象的實例分割結果,以及多個對象的多個姿態估計結果中的前述任一對象的姿態估計結果,分別如第1圖所示的多個對象的多個對象檢測結果11B、12B、13B等(例如對象位置)、多個實例分割結果11S、12S、13S等(例如對象像素)、多個對象的多個姿態估計結果11P、12P、13P等(例如對象框架)。作為結果,第三處理電路130可對輸入圖像(例如其輸入圖像資料)進行圖像處理,以在對應於輸入圖像(例如,其輸入圖像資料)的輸出圖像(例如,其輸出圖像資料)上選擇性地用多對象檢測結果11B、12B、13B等,多實例分割結果11S、12S、13S等和多姿態估計結果11P、12P、13P等突出顯示多個對象,更具體地,在輸出圖像(例如,其輸出圖像資料)上標記關聯的檢測結果,例如多對象檢測結果11B、12B、13B等,多實例分割結果11S、12S、13S等和多姿態估計結果11P、12P、13P,的等,以分別指示多個對象的位置、像素和框架。
第4圖是根據本發明實施例的視訊處理方法的單階段模型控制方案所涉及的網路架構圖,其中第4圖所示的網路架構可以作為第2圖所示的單階段 模型控制方案中人體三位一體模型10的網路架構的示例。除主幹網路111外,上述第一處理電路110內的至少一個網路還可以包括特徵金字塔網路112,第二處理電路120內的預測網路121可以包括上述像素頭120PH,例如像素頭122,並且包括前述的至少一個實例頭,統稱為實例頭120IH,例如實例頭123-127,以及組合網路120C。在第4圖所示的實施例中,前述的至少一個實例頭(例如實例頭120IH)可以被圖示為多個實例頭(例如實例頭123-127),但本發明不限於此。根據一些實施例,實例頭123-127可以集成到同一實例頭中。
例如,關於分辨率為H×W(例如,H像素乘W像素,其中符號“H”和“W”可以表示正整數)的輸入圖像(例如,輸入圖像資料),網路架構可以包括多個部分網路架構,如下:(1)主幹網路111的主幹網路架構,用於將輸入圖像(例如,輸入圖像資料)轉換為一組第一特徵圖,例如特徵圖C3、C4和C5,其中特徵圖C3、C4和C5可以對應一組第一分辨率,例如分別為(1/8)H×(1/8)W的分辨率、(1/16)H×(1/16)W的分辨率和(1/32)H×(1/32)W的分辨率,例如,主幹網路111的主幹網路架構可以通過卷積操作從輸入圖像(例如,輸入圖像資料)中提取特徵圖C3,並通過卷積操作從特徵圖C3中提取特徵圖C4,進一步通過卷積操作從特徵圖C4中提取特徵圖C5;(2)特徵金字塔網路112的特徵金字塔網路架構,與骨幹網路111的骨幹網路架構偶接,用於從諸如特徵圖C3、C4和C5等的一組第一特徵圖中提取諸如特徵圖P3、P4、P5、P6和P7等的一組第二特徵圖,特徵圖P3、P4、P5、P6和P7可以對應於第二分辨率的集合,例如(1/8)H×(1/8)W的分辨率,(1/16)H×(1/16)W分辨率,(1/32)H×(1/32)W分辨率,(1/64)H×(1/64)W分辨率和(1/128)H×(1/128)W的分辨率,例如,特徵金字塔網路112的特徵金字塔網路架構可以通 過卷積操作從特徵圖C5提取特徵圖P5,從特徵圖P5中通過卷積操作提取特徵圖P6,從特徵圖P6中通過卷積操作提取特徵圖P7,通過卷積操作從特徵圖C4和P5中提取特徵圖P4,並通過卷積操作從特徵圖C3和P4中提取特徵圖P3;(3)像素頭122的像素頭網路架構,偶接到特徵金字塔網路112的特徵金字塔網路架構,用於將第二特徵圖集合中的特徵圖的第一部分,例如特徵圖P3,轉換為一組第一處理結果,其中該組第一處理結果可以對應(1/8)H×(1/8)W的分辨率,即與實例頭123相同的分辨率,將在下文做出進一步描述;(4)實例頭123-127的多個實例頭網路架構,偶接到特徵金字塔網路112的特徵金字塔網路架構,用於將諸如特徵圖P3、P4、P5、P6和P7的第二特徵圖的集合轉換為多組第二處理結果,其中從實例頭123-127的多實例頭網路架構得到的多組第二處理結果可以分別對應該組第二分辨率,例如(1/8)H×(1/8)W的分辨率、(1/16)H×(1/16)W的分辨率、(1/32)H×(1/32)W的分辨率、(1/64)H×(1/64)W的分辨率和(1/128)H×(1/128)W的分辨率;以及(5)組合網路120C的組合網路架構,偶接到像素頭122的像素頭網路架構和實例頭123-127的各個實例頭網路架構,用於執行組合操作,例如,通過非最大抑制(Non-Maximum Suppression,簡寫為NMS)對像素頭122和實例頭123-127各自的處理結果(例如,該組第一處理結果和多組第二處理結果)進行後處理(post-processing),以生成上述多個對象中的任一對象的對象檢測結果10B、實例分割結果第10圖S和姿態估計結果10P(如第2圖、第3圖、第4圖所示),例如多個對象的多對象檢測結果11B、12B、13B等(例如對象位置)、多實例分割結果11S、12S、13S等(例如對象像素)和多姿態估計結果11P、12P、13P等(例如,對象框架);其中,多個部分網路架構的相關參數可以從人體三位一體模型10的網路架構的訓練過程中獲得,但本發明不限於此。根據一些實施例,人體三位 一體模型10的網路架構可以變化。例如,網路架構中的多個部分網路架構、關聯的分辨率,和/或關於分辨率的層數可能會有所不同。此外,第三處理電路130可對輸入圖像(例如,輸入圖像資料)進行圖像處理,以利用多對象檢測結果11B、12B、13B等、多實例分割結果11S、12S、13S等以及多姿態估計結果11P、12P、13P等選擇性地突出與輸入圖像(例如,輸入圖像資料)對應的輸出圖像(例如,輸出圖像資料)上的多個對象。更具體地說,將相關聯的檢測結果,例如多個對象的各三位一體結果(例如,多對象檢測結果11B、12B、13B等,多實例分割結果11S、12S、13S等和多姿態估計結果11P、12P、13P等),與輸入圖像(例如,輸入圖像資料)結合,以生成具有三位一體結果的輸出圖像(例如,輸出圖像資料)。
基於視訊處理方法的至少一個控制方案(例如,一個或多個控制方案),例如單階段模型控制方案,通過網路架構內的骨幹網路111的骨幹網路架構和特徵金字塔網路112的特徵金字塔網路架構,第一處理電路110可以被配置為作為前述的單個深度學習網路的預定模型中的上述至少一個網路(例如,主幹網路111),來接收具有多個對象(例如,人體對象)的輸入圖像(例如,輸入圖像資料)並將輸入圖像(例如,輸入圖像資料)轉換為至少一個特徵圖(例如,一個或多個特徵圖),例如第一特徵圖集(例如,特徵圖C3、C4和C5)和第二特徵圖集(例如,特徵圖P3、P4、P5、P6和P7)。請注意,如第2圖、第3圖、第4圖所示的正在檢測的對象(例如,其形狀和大小)僅用於說明目的,並不意味著對本發明的限制。此外,第二處理電路120可以被配置為在單個深度學習網路的預定模型中充當像素頭120PH(例如像素頭122)和實例頭120IH(例如實例頭123-127),以通過網路架構內的像素頭122的像素頭網路架構和實例頭123-127的多個實例頭網路架構接收前述至少一個特徵圖,並對前述至少一個特徵圖進行轉換,以同時得到上述多個對象中的任一對象的對象檢測結果10B、實 例分割結果10S和姿態估計結果10P,更具體地說,將上述至少一個特徵圖分別轉換為多個對象的多對象檢測結果11B、12B、13B等(例如,對象位置),多實例分割結果11S、12S、13S等(例如,對象像素)和多對象姿態估計結果11P、12P、13P等(例如對象框架),分別用於指示多個對象的位置、像素和框架。
為了更好地理解,對於前述多個對象中的任何對象,其對象檢測結果10B、實例分割結果10S和姿態估計結果10P可以共享同一個實例,並且根據視訊處理方法操作的電子設備(例如,視訊處理電路100)可以同時獲得對象檢測結果10B、實例分割結果10S和姿態估計結果10P,而無需在單階段處理中的三種處理(例如,對象檢測,實例分割和姿態估計)的各個處理結果之間進行任何不必要的關聯操作,因此可以實時輸出具有三位一體結果的輸出圖像(例如,輸出圖像資料)。
另外,在單一深度學習網路的預定模型(例如人體三位一體模型10)中,第一任務獲取多對象檢測結果11B、12B、13B等,第二任務獲取多實例分割結果11S、12S、13S等,第三任務獲得多姿態估計結果11P、12P、13P等,這三個任務可以相互獨立,因此,第一任務、第二任務和第三任務中的一個任務不會妨礙第一任務、第二任務和第三任務中的另一個任務。對於電子裝置(例如其中的視訊處理電路100)而言,借助單個深度學習網路的預定模型(例如人體三位一體模型10)將輸入圖像(例如輸入圖像資料)轉換為多對象檢測結果11B、12B、13B,多實例分割結果11S、12S、13S等和多姿態估計結果11P、12P、13P等的時間和功耗可以獨立於多個對象的對象計數。作為結果,即使在諸如相關技術的困難情況下(例如,諸如人的實例的數量增加並達到一百個或更多),人體三位一體模型10的端到端推理時間也會不會顯著增加,更具體地說,可以保持幾乎不變。
此外,在單個深度學習網路的預定模型(例如,Human Trinity模型 10)中,不需要裁剪輸入圖像(例如,輸入圖像資料)的一部分,也不需要裁剪上述至少一個特徵圖中的任意特徵圖的一部分。與現有技術相比,本發明提供的視訊處理方法及相關的視訊處理電路100可以實現電子設備的可靠檢測控制,而不會引入任何副作用或不太可能引入副作用式。
根據一些實施例,輸入圖像可以是紅綠藍(RGB)圖像,並且輸入圖像資料可以是輸入圖像的圖像資料,例如RGB圖像的圖像資料,但是本發明不限於此。例如,輸入圖像(例如,輸入圖像資料)可以通過任何其他類型的圖像來實現。為簡潔起見,對於這些實施例的類似描述在此不再贅述。
關於人體三位一體模型10的一些實施細節可以進一步描述如下。根據一些實施例,人體三位一體模型10可以通過基於ResNet的特徵金字塔網路(feature pyramid network,簡寫為FPN)來實現以處理具有各種尺度的人類實例。更具體地,可以為下游任務構建兩種類型的預測頭,例如,諸如像素頭122的像素頭120PH和諸如實例頭123-127的實例頭120IH。簡而言之,實例頭120IH可以被配置為執行粗略的對象檢測(例如,人體檢測)和姿態估計,而像素頭120PH可以被配置為執行細粒度的(fine-grained level)實例分割和姿態估計。
第4圖所示的網路架構可以為視訊處理電路100提供一種緊湊有效的采樣分配機制(sample assignment mechanism),例如三位一體采樣機制,使視訊處理電路100能夠在人體檢測、實例分割和姿態估計等多任務學習中處理采樣分配。在三位一體采樣機制的幫助下,視訊處理電路100可以在這三個任務上同時選擇更好的正向建議來訓練人體三位一體模型10。此外,視訊處理電路100可以通過對這些任務的具有更高質量的提議進行排序,與訓練階段的采樣行為保持一致,來預測三位一體分數以改善推理階段的NMS結果。
給定輸入圖像(例如,輸入圖像資料),視訊處理電路100可以利用骨幹網路111連同特徵金字塔網路112來提取諸如FPN特徵圖的多尺度特徵,例如, 通過將輸入圖像(例如,輸入圖像資料)轉換為一組第一特徵圖(例如,特徵圖C3、C4和C5)並從第一特徵圖的集合中提取一組第二特徵圖(例如,特徵圖P3、P4、P5、P6和P7)作為多尺度特徵,如FPN特徵圖,並利用兩種類型的預測頭,例如,像素頭120PH(諸如像素頭122)和實例頭120IH(例如實例頭123-127),將多尺度特徵處理成下游任務的輸出。實例頭120IH(例如實例頭123-127)可以對多尺度特徵(例如,特徵圖P3、P4、P5、P6和P7)進行操作,如第4圖所示,並預測用於檢測的人類概率(person-class probability)和框,例如對象檢測(例如,人體檢測)、實例分割的提議嵌入和邊距(proposal embedding and margin)、姿態估計的初始關鍵點(key point/keypoint)和用於在NMS結果中為建議排名的三位一體分數。像素頭120PH例如像素頭122可以對第二分辨率集合中具有最大分辨率(例如特徵圖P3的分辨率,例如(1/8)H×(1/8)W)的多尺度特徵(例如特徵圖P3)進行操作,並預測像素嵌入以生成每個人提議(person proposal)的實例掩碼,用於細化初始粗略關鍵點的偏移圖(offsetmap/offset map),以及僅在訓練期間使用以捕獲更好的關鍵點語義的輔助熱圖(heatmap/heat map)。
第5圖是說明參照本發明的一個實施例的第4圖所示的網路架構中的實例頭220的圖,其中第5圖中所示的實例頭220可以作為第4圖所示的實例頭123-127中的任何實例頭(例如,每個實例頭)的示例。符號“D”可以表示嵌入的維度,符號“K”可以表示對象(例如,人)的關鍵點的數量。第5圖左半部分所示的三個處理路徑可以對多尺度特徵之一(例如特徵圖P3-P7中的任意特徵圖P,對應的分辨率為HP×WP(例如,第二分辨率集合中特徵圖P的分辨率)並使用256個通道(為簡潔標記為“HP×WP×256”))進行操作,預測人類概率(為簡潔標記為“分類”)、框(為更好理解標記為“框回歸(Box Regression)”)、提案嵌入、提案邊距、初始關鍵點(為簡潔起見標記為“關鍵點”)和三位一體分數。為了更好地理解,輸入圖像可以是具有例如紅色(R)通道、綠色(G)通道和 藍色(B)通道等三個通道的RGB圖像,而特徵圖P可以是具有256個的特徵圖信道,但本發明不限於此。例如,第5圖所示的一些處理路徑上標注的符號“×4”可能表示在這些處理路徑中的每一個處理路徑上都有四層卷積操作。又例如,第5圖所示的另一處理路徑上標示的符號“×2”可能表示這個處理路徑上有兩層卷積操作。如第5圖所示的對象檢測(例如,人體檢測)、實例分割和姿態估計的圖例說明如下:(1)人類概率和框,以及諸如第5圖左半部分所示的三個處理路徑中的前兩個處理路徑(例如,上面的兩個路徑)的相關的處理路徑可對應於對象檢測(如人體檢測);(2)提議嵌入和提議邊距,以及諸如第5圖左半部分所示的三個處理路徑中的第二個處理路徑(例如兩個上層路徑中的較底層路徑)的相關的處理路徑可對應於實例分割;以及(3)初始關鍵點,以及諸如第5圖左半部分所示的三個處理路徑中的第三個處理路徑(例如下層路徑)的相關的處理路徑可對應於姿態估計;其中,第5圖左半部分所示的三個處理路徑中的第二個處理路徑可以用對象檢測和實例分割的圖例的各陰影圖案的混合陰影圖案來說明,以指示該處理路徑可以被配置為執行對象檢測和實例分割中的任何一個,但是本發明不限於此。此外,還可以根據第5圖左半部分所示的三個處理路徑各自的處理結果生成三位一體分數。
如上所述,人體三位一體模型10可以通過FPN來實現。具體地,視訊處理電路100(例如,其一些子電路,例如在第5圖所示的相關處理路徑上的子電路)可以使用至少一個深度學習或神經網路模塊來處理輸入圖像(例如,其輸入圖像資料),例如視訊流中的多個輸入圖像或圖像幀中的任何輸入圖像或圖像幀,更具體地,通過在第5圖所示的相關處理路徑上使用多個不同的卷積濾波器 對特徵圖P進行卷積運算,來執行對象檢測(例如,人體檢測)、實例分割和姿態估計。另外,對於檢測到的多個對象,可以確定多個對象中前述任意對象(或該對象所在區域)的一組特徵值為由上述至少一個深度學習或神經網路模塊中的某個深度學習或神經網路模塊的實例頭220的輸出,其中該組特徵值中的任何一個特徵值都可以表示為一個多維向量。例如,實例頭220的輸出,例如人類概率(為簡潔標記為“分類”)、框(為更好理解標記為“框回歸(Box Regression)”)、提案嵌入、提案邊距、初始關鍵點(為簡潔起見標記為“關鍵點”)和三位一體分數可以分別表示為具有(HP×WP×1),(HP×WP×4),(HP×WP×D),(HP×WP×1),(HP×WP×3K)and(HP×WP×1)大小的三維向量。值得注意的是,涉及第5圖所示的相關處理路徑中的任何處理路徑的上述電路設計為所屬領域具有通常知識者所熟知,本實施例的主要特徵之一是對象檢測(例如人體檢測)、實例分割和姿態估計的應用由實例頭部220及其特徵值的集合同時執行,因此實例頭部220的其他細節在此不再贅述。
第6圖是參照本發明一實施例的第4圖所示網路架構中的像素頭320的示意圖,其中第6圖所示的像素頭320可作為第4圖所示的像素頭122的示例。第6圖左半部分所示的三個處理路徑中的第一處理路徑和另外兩個處理路徑可以對多尺度特徵之一進行操作,例如特徵圖P3,其分辨率為HP3×WP3,分別具有256個通道和128個通道(為簡潔起見,分別標記為“HP3×WP3×256”和“HP3×WP3×128”),來預測像素嵌入、偏移圖和輔助熱圖(為簡潔起見標記為“熱圖”)。為了更好地理解,輸入圖像可以是具有例如R通道、G通道和B通道三個通道的RGB圖像,而輸入到第一個處理路徑的特徵圖P3和輸入到另外兩個處理路徑的特徵圖P3可以分別為具有256個通道的特徵圖和具有128個通道的特徵圖,但本發明不限於此。例如,第6圖所示的一些處理路徑上標注的符號“×4”可能表示在這些處理路徑中的每個處理路徑上都有四層卷積操作。又例如,第6圖 所示的另一處理路徑上標示的符號“×2”可能表示在這個處理路徑上有兩層卷積操作。第6圖所示的實例分割和姿態估計的圖例說明如下:(1)像素嵌入,以及相關的處理路徑(諸如第6圖左半部分所示的三個處理路徑中的第一個處理路徑(例如上面的路徑))可對應於實例分割;(2)偏移圖,以及相關的處理路徑(諸如第6圖左半部分所示的三個處理路徑中的第二個路徑(例如中間路徑))可對應於姿態估計;以及(3)輔助熱圖,以及相關的處理路徑(諸如第6圖左半部分所示的三個處理路徑中的第三個路徑(例如下層路徑))可對應於姿態估計;但本發明不限於此。
如上所述,人體三位一體模型10可以通過FPN來實現。具體地,視訊處理電路100(例如,其一些子電路,例如在第6圖所示的相關處理路徑上的子電路)可以使用上述至少一個深度學習或神經網路模塊來處理輸入圖像(例如,其輸入圖像資料),例如視訊流中的多個輸入圖像或圖像幀中的任意一個輸入圖像或圖像幀,更具體地說,通過使用如第6圖所示關聯的處理路徑上多個不同的卷積濾波器對特徵圖P3進行卷積操作,執行實例分割和姿態估計。此外,對於檢測到的多個對象,可以將多個對象中的前述任一對象(或該對象所在的區域)的一組特徵值確定為像素頭320通過上述至少一個深度學習或神經網路模塊中的某深度學習或神經網路模塊的輸出,其中,特徵值集合中的任意一個特徵值都可以表示為多維向量。例如,像素頭320的輸出,例如像素嵌入、偏移圖和輔助熱圖(為簡潔起見標記為“熱圖”),可以分別表示為具有(HP3×WP3×D)、(HP3×WP3×2K)和(HP3×WP3×K)大小的三維向量。值得注意的是,涉及第6圖所示的相關處理路徑中的任何處理路徑的上述電路設計為所屬領域具有通常知識者所熟知,本實施例的主要特徵之一是像素頭320及其特徵值集合同時進行實例分割和姿態估計的應用,因此像素頭320的其他細節在此不再贅述。
根據一些實施例,視訊處理電路100的三位一體采樣機制可以與單獨任務的損失加權以不同的方式工作。例如,三位一體抽樣機制可能會選擇應該同時適用於所有任務的積極提案。對一項任務有利但對其他任務不利的提案可能不適用於多任務問題。然而,單個任務的損失權重可用於確定每個任務的相對重要性或當一個任務的預測出錯時的成本。為簡潔起見,對於這些實施例的類似描述在此不再贅述。
根據一些實施例,關於人體三位一體模型10的訓練中的采樣分配,視訊處理電路100可以使用人體三位一體模型10的框、掩碼(mask)和姿態預測作為其對應任務的自適應錨(adaptive anchor)。視訊處理電路100可以參考這些自適應錨來確定位置是否適合所有三個任務。如果檢測到一個位置對所有三個任務都具有良好的積極性,則它的框、掩碼和姿態預測應該生成具有真實(ground-truth,簡寫為GT)實例的更高的交並比(Intersection over Union,簡寫為IoU)、掩碼IoU和姿態對象關鍵點相似度(Object Keypoint Similarity,簡寫為OKS)。為簡潔起見,對於這些實施例的類似描述在此不再贅述。
第7圖是說明根據本發明實施例的視訊處理方法的基於三位一體分數的(trinity-score-based)訓練控制方案的圖。視訊處理電路100可以被配置為對人體三位一體模型10執行基於三位一體分數的訓練,更具體地,從對象輸入圖像(例如,與視訊流中多個輸入圖像或圖像幀中的某個輸入圖像或圖像幀的部分圖像相似或相同的圖像)中提取對象特徵圖,並將對象特徵圖劃分為對象特徵圖的多個部分特徵圖,計算任意部分特徵圖(例如,每個部分特徵圖)的三位一體分數Trinity_Score,並根據三位一體分數Trinity_Score確定是否在訓練例如人體三位一體模型10的基於三位一體分數的訓練中使用上述任何部分特徵圖。例如,視訊處理電路100可以計算上述任意部分特徵圖的框分數Box_Score、實例分割分數Instance_Seg_Score和姿態分數Pose_Score的平均Avg(Box_Score, Instance_Seg_Score,Pose_Score)作為三位一體分數Trinity_Score為如下:Trinity_Score=Avg(Box_Score,Instance_Seg_Score,Pose_Score);其中,框分數Box_Score、實例分割分數Instance_Seg_Score和姿態分數Pose_Score分別對應於對象檢測、實例分割和姿態估計,但本發明不限於此。此外,視訊處理電路100可將三位一體分數Trinity_Score與三位一體分數閾值Trinity_Score_Threshold進行比較,以決定是否在訓練人體三位一體模型10時使用前述的任何部分特徵圖。例如,如果三位一體分數Trinity_Score達到(例如,大於)三位一體分數閾值Trinity_Score_Threshold(為簡潔標記為“Trinity_Score>Trinity_Score_Threshold”),視訊處理電路100可以使用前述的任何部分特徵圖作為在人體三位一體模型10的訓練中的訓練采樣;否則,視訊處理電路100可以防止在訓練人體三位一體模型10時使用上述任何部分特徵圖作為訓練采樣。需要注意的是,一旦人體三位一體模型10的訓練已完成,可能不需要執行三位一體分數。但是,可以在推理階段實施三位一體分數作為最終NMS排名的基礎,以獲得更好的性能。為簡潔起見,本實施例類似的描述在此不再贅述。
第8圖是說明根據本發明實施例的視訊處理方法的三位一體分數控制方案的示意圖。在人體三位一體模型10的訓練過程中,視訊處理電路100可以獲得上述任意部分特徵圖的對象對象檢測結果(例如對象檢測結果10B)、對象實例分割結果(例如實例分割結果10S)和對象姿態估計結果(例如姿態估計結果10P),以及上述任意部分特徵圖的框分數Box_Score、實例分割分數Instance_Seg_Score和姿態分數Pose_Score(分別標記為“Box with Box Score”、“Instance Seg.with Instance Seg.Score”和“Pose with Pose Score”以便更好地理解),更具體地說,在三位一體分數Trinity_Score大於三位一體分數閾值Trinity_Score_Threshold的情況下,確定上述任何部分特徵圖都可以作為Human Trinity模型10訓練中的訓練采樣。為簡潔起見,本實施例類似的描述在此不再贅述。
根據一些實施例,對象特徵圖的多個部分特徵圖可以通過對象特徵圖的多個像素(例如,特徵像素等特徵)來實現,其中前述的任何部分特徵圖可以表示對象特徵圖的多個像素(例如,特徵像素等特徵)中的任意像素(例如,例如任意特徵像素的任意特徵)。為簡潔起見,對於這些實施例的類似描述在此不再贅述。
第9圖是根據本發明實施例的視訊處理方法的網路細化控制方案的示意圖,其中第4圖所示的網路架構可被配置為依據第5圖所示的實例頭220和第6圖所示的像素頭320的相應輸出進行操作。在本實施例中,優選地,可以實現虛綫所示的處理路徑以獲得更好的處理結果,以實現優異的整體性能,但本發明不限於此。根據一些實施例,從第9圖的左半部分到第9圖的右半部分用虛綫描繪的處理路徑(例如,從實例頭220或像素頭320開始)可以是可選的。例如,可以省略虛綫描繪的處理路徑中的一條或多條處理路徑。
另外,生成熱圖的任務是訓練階段多任務學習中的任務之一。視訊處理電路100可以被配置為將熱圖的基本事實(ground truth)與相應的損失函數進行匹配,以監督人體三位一體模型10,使人體三位一體模型10更加瞭解具有人體對象關節的區域。結果,視訊處理電路100(例如,骨幹網路111連同特徵金字塔網路112)可以學習能夠識別其中具有人體關節的這些關節區域,並且更具體地,生成包含有關這些關節區域的信息。為簡潔起見,本實施例類似的描述在此不再贅述。
根據一些實施例,用於獲得三位一體結果的指向最後處理路徑(例如,如最右邊的向右箭頭所示)的處理路徑可以被配置為充當掩膜(mask)和/或過濾器以用於篩選以保證三位一體結果的正確性。為簡潔起見,對於這些實 施例的類似描述在此不再贅述。
關於推理中的三位一體分數排名的一些實施細節可以進一步描述如下。根據一些實施例,為了在推理期間對齊采樣行為,視訊處理電路100可以被配置為通過將分類(classification)、框和關鍵點塔(keypoint tower)(例如,分別為人類概率的特徵圖上的特徵塔、框和關鍵點)的特徵圖加起來,然後經過如第9圖所示的一些卷積單元處理,來預測三位一體分數Trinity_Score。例如,視訊處理電路100可以將三位一體分數Trinity_Score與NMS排名的分類分數預測相乘,使得具有更高質量的框、掩碼和姿態預測更容易脫穎而出。為簡潔起見,對於這些實施例的類似描述在此不再贅述。
第10圖示出了同時檢測控制方案和單獨檢測控制方案。第10圖的下半部分示出了根據本發明實施例的關於人體三位一體模型10的視訊處理方法的同時檢測控制方案。為了更好地理解,第10圖的上半部分圖示了關於諸如模型-A和模型-B的單獨模型(separate model)的單獨檢測控制方案(separate detection control scheme)。根據單獨檢測控制方案,由於模型-A和模型-B等單獨模型相互獨立,模型-A的框和掩膜結果可能對應於如第10圖左上部分所示的人“φ”和“ω”,而模型B的姿態結果可能對應於如第10圖的右上部分所示的人“α”和“β”。結果,根據單獨的檢測控制方案操作的設備通常需要進一步執行關聯操作,以便將人“φ”和“β”識別為同一人,例如在第一張圖像上的兩個人中左側的人,將人“ω”和“α”識別為另一個相同的人,例如在第一張圖像上的兩個人中的右側的人(為簡潔起見,標記為φ,ω,α,β需要關聯)。例如,關聯操作可能不成功,因此可能將兩人中一人的框和掩膜結果錯誤地關聯到兩人中另一人的姿態結果。
根據同時檢測控制方案,可以將圖像(例如,輸入圖像,例如其輸入圖像資料)中的像素中的任何單個像素(例如,每個像素)視為或可以布置為作為單一深度學習網路的預定模型(例如人體三位一體模型10)中的提議, 並且提案可能對應於某個實例(例如圖像上的人),可以得出這個提案輸出的框、掩膜和姿態不需要任何關聯,它們都屬同一個實例(例如,同一個人)。結果,視訊處理電路100可以同時獲得對象檢測結果(例如,盒子)、實例分割結果(例如,掩模)和人的姿態估計結果(例如,姿態)(為簡潔起見,分別被標記“Box”、“Instance Seg.”和“Pose”),實時生成三位一體結果。為簡潔起見,本實施例類似的描述在此不再贅述。
第11圖是根據本發明實施例的用於檢測對象的位置、像素和框架的視訊處理方法的工作流程。該視訊處理方法可應用於視訊處理電路100,更具體地說,可應用於人體三位一體模型10的網路架構。
在步驟S11中,視訊處理電路100(例如,第一處理電路110)可以在單個深度學習網路的預定模型(例如,人體三位一體模型10)中利用骨幹網路110以及特徵金字塔網路112,以接收具有對象(例如,單個對象或多個對象)的輸入圖像資料(例如,輸入圖像的圖像資料)並將輸入圖像資料(例如,輸入圖像的圖像資料)轉換到上述至少一個特徵圖(例如,特徵圖P3-P7)中。
在步驟S12中,視訊處理電路100(例如,第二處理電路120)可以利用實例頭120IH(例如,實例頭123-127),例如實例頭220和像素頭120PH(例如,像素頭122),例如單個深度學習網路的預定模型中的像素頭320,以接收上述至少一個特徵圖(例如,特徵圖P3-P7)並轉換上述至少一個特徵圖到對象的對象檢測結果10B、實例分割結果10S和姿態估計結果10P中,分別用於指示對象的位置、像素和框架。例如,對象可以表示上述單個對象,但本發明不限於此。又例如,該對象可以代表前述多個對象中的前述任一對象,例如第1圖所示的人體對象中的任一人體對象,視訊處理電路100(例如,第二處理電路120)可以利用單一深度學習網路的預定模型中的例如實例頭220的實例頭120IH(例如,實例頭123-127)和例如像素頭320的像素頭120PH(例如,像素頭122)接收上述至少一個 特徵圖(例如,特徵圖P3-P7),並將上述至少一個特徵圖分別轉換為多個對象的多個對象檢測結果11B、12B、13B等(例如對象位置)、多實例分割結果11S、12S、13S等(例如對象像素)和多姿態估計結果11P、12P、13P等(例如,對象框架),分別用於指示多個對象的位置、像素和框架。
在步驟S13中,視訊處理電路100(例如,第三處理電路130)可以對輸入圖像資料(例如,輸入圖像的圖像資料)進行圖像處理,以在對應於輸入圖像資料(例如,輸入圖像的圖像資料)的輸出圖像(例如,其輸出圖像資料)上可選地分別用對象檢測結果10B、實例分割結果10S和姿態估計結果10P來突出顯示對象,以分別表示對象的位置、像素和框架。例如,對象可以表示上述單個對象,但本發明不限於此。又例如,該對象可以代表前述多個對象中的前述任一對象,例如第1圖所示的人體對象中的任一人體對象。視訊處理電路100(例如,第三處理電路130)可對輸入圖像資料(例如,輸入圖像的圖像資料)進行圖像處理,以在對應於輸入圖像資料(例如,輸入圖像的圖像資料)的輸出圖像(例如,其輸出圖像資料)上可選地分別用多個對象檢測結果11B、12B、13B等,多個實例分割結果11S、12S、13S等,和多個姿態估計結果11P、12P、13P等突出顯示多個對象,以分別表示多個對象的位置、像素和框架。
基於前述的視訊處理方法的至少一種控制方案,例如如上所述的實施例的視訊處理方法的控制方案中的至少一部分控制方案(例如,一部分控制方案或所有控制方案),視訊處理電路100可以實時生成具有三位一體結果的輸出圖像(例如,其輸出圖像資料),以實現優異的整體性能。為簡潔起見,本實施例類似的描述在此不再贅述。
為了更好地理解,該方法可以用第11圖所示的工作流程來說明,但本發明不限於此。根據一些實施例,可以在第11圖所示的工作流程中添加、刪除或改變一個或多個步驟。
根據一些實施例,輸入圖像的輸入圖像資料可以通過原始圖像資料來實現。為簡潔起見,對於這些實施例的類似描述在此不再贅述。
在上述的一個或多個實施例中,多個對象可以是人對象,並且多個對象檢測結果11B、12B、13B等(例如對象位置)可以是人檢測結果,例如檢測到的人的位置,但本發明不限於此。根據一些實施例,多個對象可以是任何其他類型的對象,例如動物等,並且多個對象檢測結果11B、12B、13B等(例如對象位置)可以是對應的檢測結果,例如檢測到的對象的位置。為簡潔起見,對於這些實施例的類似描述在此不再贅述。
所屬領域具有通常知識者將容易地觀察到,可以在保留本發明的教導的同時對裝置和方法進行許多修改和改變。因此,上述公開應被解釋為僅受所附申請專利範圍的範圍和界限的限制。
呈現以上描述是為了使所屬領域具有通常知識者能夠實踐在特定應用及其要求的上下文中提供的本發明。對所描述的實施例的各種修改對於所屬領域具有通常知識者來說將是顯而易見的,幷且本文定義的一般原理可以應用於其他實施例。因此,本發明不旨在限於所示和描述的特定實施例,而是要符合與本文公開的原理和新穎特徵相一致的最寬範圍。在以上詳細描述中,為了提供對本發明的透徹理解,說明了各種具體細節。然而,所屬領域具有通常知識者將理解,可以實踐本發明。
如上所述的本發明的實施例可以以各種硬體、軟體代碼或兩者的組合來實現。例如,本發明的一個實施例可以是集成到視頻壓縮晶片中的一個或多個電路電路或集成到視頻壓縮軟體中以執行本文描述的處理的程式代碼。本發明的實施例還可以是要在數位信號處理器(DSP)上執行以執行這裏描述的處理的程式代碼。本發明還可以涉及由計算機處理器、數位信號處理器、微處理器或現場可編程門陣列(FPGA)執行的許多功能。這些處理器可以被配置為通過 執行定義本發明所體現的特定方法的機器可讀軟體代碼或韌體代碼來執行根據本發明的特定任務。軟體代碼或韌體代碼可以以不同的編程語言和不同的格式或樣式開發。軟體代碼也可以針對不同的目標平臺進行編譯。然而,軟體代碼的不同代碼格式、風格和語言以及配置代碼以執行根據本發明的任務的其他方式將不脫離本發明的精神和範圍。
本發明可以在不背離其精神或基本特徵的情況下以其他特定形式體現。所描述的示例在所有方面都僅被認為是說明性的而不是限制性的。因此,本發明的範圍由所附申請專利範圍而不是由前述描述指示。在申請專利範圍的等效含義和範圍內的所有變化都應包含在其範圍內。
附加聲明
文中描述的主題有時示出了包含在其它不同部件內的或與其它不同部件連接的不同部件。應當理解:這樣描繪的架構僅僅是示例性的,並且,實際上可以實施實現相同功能的許多其它架構。在概念意義上,實現相同功能的部件的任何布置是有效地“相關聯的”,以使得實現期望的功能。因此,文中被組合以獲得特定功能的任意兩個部件可以被視為彼此“相關聯的”,以實現期望的功能,而不管架構或中間部件如何。類似地,這樣相關聯的任意兩個部件還可以被視為彼此“可操作地連接的”或“可操作地耦接的”,以實現期望的功能,並且,能夠這樣相關聯的任意兩個部件還可以被視為彼此“操作上可耦接的”,以實現期望的功能。“操作上可耦接的”的具體示例包含但不限於:實體地可聯結和/或實體地相互、作用的部件、和/或無線地可相互作用和/或無線地相互作用的部件、和/或邏輯地相互作用的和/或邏輯地可相互作用的部件。
此外,關於文中基本上任何複數和/或單數術語的使用,只要對於上下文和/或應用是合適的,所屬技術領域具有通常知識者可以將複數轉換成單數,和/或將單數轉換成複數。為清楚起見,這裡可以明確地闡述各種單數/複數 排列。
所屬技術領域具有通常知識者將會理解,通常,文中所使用的術語,特別是在所附申請專利範圍(例如,所附申請專利範圍中的主體)中所使用的術語通常意在作為“開放性”術語(例如,術語“包含”應當被解釋為“包含但不限幹”,術語“具有”應當被解釋為“至少具有”,術語“包含”應當被解釋為“包含但不限幹”等)。所屬技術領域具有通常知識者還將理解,如果意在所介紹的申請專利範圍陳述對象的具體數目,則這樣的意圖將會明確地陳述在申請專利範圍中,在缺乏這樣的陳述的情況下,不存在這樣的意圖。例如,為了幫助理解,所附申請專利範圍可以包含使用介紹性短語“至少一個”和“一個或更多個”來介紹申請專利範圍陳述對象。然而,這樣的短語的使用不應當被解釋為:用不定冠詞“一個(a或an)”的申請專利範圍陳述對象的介紹將包含這樣介紹的申請專利範圍陳述對象的任何申請專利範圍限制為只包含一個這樣的陳述對象的發明,即使在同一申請專利範圍包含介紹性短語“一個或更多個”或“至少一個”以及諸如“一個(a)”或“一個(an)”之類的不定冠詞的情況下(例如,“一個(a)”和/或“一個(an)”應當通常被解釋為意味著“至少一個”或“一個或更多個”)也如此;上述對以定冠詞來介紹申請專利範圍陳述對象的情況同樣適用。另外,即使明確地陳述了介紹的申請專利範圍陳述對象的具體數目,但所屬技術領域具有通常知識者也會認識到:這樣的陳述通常應當被解釋為意味著至少所陳述的數目(例如,僅有“兩個陳述對象”而沒有其他修飾語的陳述通常意味著至少兩個陳述對象,或兩個或更多個陳述對象)。此外,在使用類似於“A、B和C中的至少一個等”的慣用語的情況下,通常這樣的結構意在所屬技術領域具有通常知識者所理解的該慣用語的含義(例如,“具有A、B和C中的至少一個的系統”將包含但不限於具有單獨的A、單獨的B、單獨的C、A和B─起、A和C一起、B和C一起和/或A、B和C一起的系統等)。在使用類似於“A、B或C中的至少一個等”的慣用語的情況下,通 常這樣的結構意在所屬技術領域具有通常知識者所理解的該慣用語的含義(例如,“具有A、B或C中的至少一個的系統”將包含但不限於具有單獨的A、單獨的B、單獨的C、A和B─起、A和C一起、B和C一起和/或A、B和C一起的系統等)。所屬技術領域具有通常知識者將進一步理解,不管在說明書、申請專利範圍中還是在附圖中,表示兩個或更多個可替換的術語的幾乎任意析取詞和/或短語應當理解成考慮包含術語中的一個、術語中的任一個或所有兩個術語的可能性。例如,短語“A或B”應當被理解成包含“A”、“B”、或“A和B”的可能性。
從前述內容可以理解,本文已經出於說明的目的描述了本公開的各種實施方式,並且在不脫離本公開的範圍和精神的情況下可以進行各種修改。因此,本文公開的各種實施方式不旨在是限制性的,真正的範圍和精神由所附申請專利範圍指示。
以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
S11~S13:步驟

Claims (26)

  1. 一種視訊處理方法,用於檢測對象的位置、像素和框架,該視訊處理方法包括:利用單個深度學習網路的預定模型中的主幹網路來接收具有該對象的輸入圖像資料並將該輸入圖像資料轉換為至少一個特徵圖;以及利用該單一深度學習網路的該預定模型中的至少一個實例頭和一個像素頭來接收該至少一個特徵圖並將該至少一個特徵圖轉換為該對象的對象檢測結果、實例分割結果和姿態估計結果,分別用於指示該對象的該位置、該像素和該框架,其中該對象檢測結果、該實例分割結果和該姿態估計結果在單個階段同時獲得。
  2. 如請求項1所述之視訊處理方法,還包括:對該輸入圖像資料進行圖像處理,以在與該輸入圖像資料對應的輸出圖像上,分別用該對象檢測結果、該實例分割結果和該姿態估計結果來突出顯示該對象,以分別指示該對象的該位置、該像素和該框架。
  3. 如請求項1所述之視訊處理方法,其中,該輸入圖像資料為輸入圖像的圖像資料,該輸入圖像為紅綠藍RGB圖像。
  4. 如請求項1所述之視訊處理方法,其中,該對象為人對象,該對象檢測結果為人檢測結果。
  5. 如請求項1所述之視訊處理方法,其中,該對象的該對象檢測結果、該對象的該實例分割結果和該對象的該姿態估計結果共享同一個實例。
  6. 如請求項5所述之視訊處理方法,其中,利用該單一深度學習網路的該預定模型中的該至少一實例頭和該像素頭來接收該至少一特徵圖並將該至少一特徵圖轉換為該對象的該對象檢測結果、該實例分割結果和該姿態估 計結果還包括:利用該單個深度學習網路的該預定模型中的該至少一個實例頭和該像素頭,將該至少一個特徵圖轉換為該對象的該對象檢測結果、該實例分割結果和該對象姿態估計結果,以同時得到該對象檢測結果、該實例分割結果和該姿態估計結果,不需要對該對象檢測結果、該實例分割結果和該姿態估計結果中的任意兩個處理結果進行關聯操作。
  7. 如請求項6所述之視訊處理方法,其中,該輸入圖像資料中的多個像素中的任意一個像素被布置為充當與該單個深度學習網路的該預定模型中的實例相對應的提議。
  8. 如請求項1所述之視訊處理方法,其中,該對象代表該輸入圖像資料中多個對象中的任一對象,其中該對象檢測結果、該實例分割結果和該姿態估計結果分別代表該多個對象的多個對象檢測結果中該任一對象的對象檢測結果、該多個對象的多個對象檢測結果中該任一對象的實例分割結果、該多個對象的多個對象檢測結果中該任一對象的姿態估計結果;通過該單個深度學習網路的該預定模型將該輸入圖像資料轉換為該多個對象檢測結果、該多個實例分割結果和該多個姿態估計結果的時間與該多個對象的對象數量無關。
  9. 如請求項1所述之視訊處理方法,其中,該對象表示該輸入圖像資料中多個對象中的任意對象,其中該對象檢測結果、該實例分割結果和該姿態估計結果分別表示該多個對象的多個對象檢測結果中該任意對象的對象檢測結果、該多個對象的多個實例分割結果中的該任意對象的實例分割結果、該多個對象的多個姿態估計結果中的該任意對象的姿態估計結果;對於按照該視訊處理方法進行操作的視訊處理電路,通過該單一深度學習網路的該預定模型將該輸入圖像資料轉換為該多個對象檢測結果、該多個實例分割結果和該多個姿態估計結果的功耗與該多個對象的對象數量無關。
  10. 如請求項1所述之視訊處理方法,其中,在該單一深度學習網路的該預定模型中,獲取該對象檢測結果的第一任務、獲取該實例分割結果的第二任務和獲取該姿態估計結果的第三任務相互獨立。
  11. 如請求項1所述之視訊處理方法,其中,在該單一深度學習網路的該預定模型中,不需要裁剪該輸入圖像資料的一部分的任務,也不需要裁剪該至少一個特徵圖中任意特徵圖的一部分的任務。
  12. 如請求項1所述之視訊處理方法,還包括:對該單個深度學習網路的該預定模型進行基於三位一體分數的訓練,包括:從對象輸入圖像中提取對象特徵圖,並將該對象特徵圖劃分為該對象特徵圖的多個部分特徵圖;計算該多個部分特徵圖中任意部分特徵圖的三位一體分數;以及根據該三位一體分數,決定是否在該基於三位一體分數的訓練中使用該任意部分特徵圖。
  13. 如請求項12所述之視訊處理方法,其中,計算該多個部分特徵圖中該任意部分特徵圖的該三位一體分數還包括:計算該任意部分特徵圖的框分數、實例分割分數和姿態分數的平均值作為三位一體分數,其中該框分數、該實例分割分數和該姿態分數分別對應於對象檢測、實例分割和姿態估計。
  14. 一種視訊處理電路,用於檢測對象的位置、像素和框架,該視訊處理電路包括:第一處理電路,被配置為在單個深度學習網路的預定模型中充當主幹網路以接收具有該對象的輸入圖像資料並將該輸入圖像資料轉換為至少一個特徵圖;以及第二處理電路,偶接到該第一處理電路,被配置為充當該單個深度學習網 路的該預定模型中的至少一個實例頭和像素頭,以接收該至少一個特徵圖,並轉換該至少一個特徵圖為該對象的對象檢測結果、實例分割結果和姿態估計結果,分別表示該對象的該位置、該像素和該框架,其中該對象檢測結果、該實例分割結果和該姿態估計結果在單個階段同時獲得。
  15. 如請求項14所述之視訊處理電路,還包括:第三處理電路,偶接到該第二處理電路,用於對該輸入圖像資料進行圖像處理,以在該輸入圖像資料對應的輸出圖像上分別利用該對象檢測結果、該實例分割結果和該姿態估計結果突出該對象,以分別表示該對象的該位置、該像素和該框架。
  16. 如請求項14所述之視訊處理電路,其中,該輸入圖像資料為該輸入圖像的圖像資料,該輸入圖像為紅綠藍RGB圖像。
  17. 如請求項14所述之視訊處理電路,其中,該對象為人對象,該對象檢測結果為人檢測結果。
  18. 如請求項14所述之視訊處理電路,其中,該對象的該對象檢測結果、該對象的該實例分割結果和該對象的該姿態估計結果共享同一個實例。
  19. 如請求項18所述之視訊處理電路,其中,該第二處理電路被配置為充當該單個深度學習網路的該預定模型中的該至少一個實例頭和該像素頭,以將該至少一個特徵圖轉換為該對象的該對象檢測結果、該實例分割結果和該對象姿態估計結果,以同時得到該對象檢測結果、該實例分割結果和該姿態估計結果,而無需對該對象檢測結果、該實例分割結果和該姿態估計結果中的任意兩個處理結果之間進行任何關聯操作。
  20. 如請求項19所述之視訊處理電路,其中,該輸入圖像資料中的多個像素中的任何像素被布置為充當與該單個深度學習網路的該預定模型中 的實例相對應的提議。
  21. 如請求項14所述之視訊處理電路,其中,該對象代表該輸入圖像資料中多個對象中的任一對象,其中該對象檢測結果、該實例分割結果和該姿態估計結果分別代表該多個對象的多個對象檢測結果中該任一對象的對象檢測結果、該多個對象的多個對象檢測結果中該任一對象的實例分割結果、該多個對象的多個對象檢測結果中該任一對象的姿態估計結果;通過該單個深度學習網路的該預定模型將該輸入圖像資料轉換為該多個對象檢測結果、該多個實例分割結果和該多個姿態估計結果的時間與該多個對象的對象數量無關。
  22. 如請求項14所述之視訊處理電路,其中,該對象表示該輸入圖像資料中多個對象中的任意對象,其中該對象檢測結果、該實例分割結果和該姿態估計結果分別表示該多個對象的多個對象檢測結果中該任意對象的對象檢測結果、該多個對象的多個實例分割結果中的該任意對象的實例分割結果、該多個對象的多個姿態估計結果中的該任意對象的姿態估計結果;通過該單一深度學習網路的該預定模型將該輸入圖像資料轉換為該多個對象檢測結果、該多個實例分割結果和該多個姿態估計結果的功耗與該多個對象的對象數量無關。
  23. 如請求項14所述之視訊處理電路,其中,在該單一深度學習網路的該預定模型中,獲取該對象檢測結果的第一任務、獲取該實例分割結果的第二任務和獲取該姿態估計結果的第三任務相互獨立。
  24. 如請求項14所述之視訊處理電路,其中,在該單一深度學習網路的該預定模型中,不需要裁剪該輸入圖像資料的一部分的任務,也不需要裁剪該至少一個特徵圖中任意特徵圖的一部分的任務。
  25. 如請求項14所述之視訊處理電路,其中,對該單一深度學習網路的該預定模型進行基於三位一體分數的訓練,該基於三位一體分數的訓練 包括:從對象輸入圖像中提取對象特徵圖,並將該對象特徵圖劃分為該對象特徵圖的多個部分特徵圖;計算該多個部分特徵圖中任意部分特徵圖的三位一體分數;以及根據該三位一體分數,決定是否在該基於三位一體分數的訓練中使用該任意部分特徵圖。
  26. 如請求項25所述之視訊處理電路,其中,計算該多個部分特徵圖中任意一個部分特徵圖的該三位一體分數還包括:計算該任意部分特徵圖的框分數、實例分割分數和姿態分數的平均值作為三位一體分數,其中該框分數、該實例分割分數和該姿態分數分別對應於對象檢測、實例分割和姿態估計。
TW111134730A 2021-09-14 2022-09-14 用於檢測對象的位置、像素和框架的視訊處理方法以及視訊處理電路 TWI811102B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163243761P 2021-09-14 2021-09-14
US63/243,761 2021-09-14
US17/878,885 US20230085518A1 (en) 2021-09-14 2022-08-01 Video processing method for detecting location, pixels, and skeleton of object, and associated video processing circuit
US17/878,885 2022-08-01

Publications (2)

Publication Number Publication Date
TW202312104A TW202312104A (zh) 2023-03-16
TWI811102B true TWI811102B (zh) 2023-08-01

Family

ID=85478521

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111134730A TWI811102B (zh) 2021-09-14 2022-09-14 用於檢測對象的位置、像素和框架的視訊處理方法以及視訊處理電路

Country Status (3)

Country Link
US (1) US20230085518A1 (zh)
CN (1) CN115810159A (zh)
TW (1) TWI811102B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
TW202105237A (zh) * 2019-07-25 2021-02-01 和碩聯合科技股份有限公司 關節點偵測方法及裝置
US20210209397A1 (en) * 2018-10-22 2021-07-08 Future Health Works Ltd. Computer based object detection within a video or image
CN113255429A (zh) * 2021-03-19 2021-08-13 青岛根尖智能科技有限公司 一种视频中人体姿态估计与跟踪方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210209397A1 (en) * 2018-10-22 2021-07-08 Future Health Works Ltd. Computer based object detection within a video or image
TW202105237A (zh) * 2019-07-25 2021-02-01 和碩聯合科技股份有限公司 關節點偵測方法及裝置
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN113255429A (zh) * 2021-03-19 2021-08-13 青岛根尖智能科技有限公司 一种视频中人体姿态估计与跟踪方法及***

Also Published As

Publication number Publication date
TW202312104A (zh) 2023-03-16
US20230085518A1 (en) 2023-03-16
CN115810159A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
Yu et al. Learning a discriminative feature network for semantic segmentation
Zhang et al. Synthesizing supervision for learning deep saliency network without human annotation
Lyu et al. Multi-oriented scene text detection via corner localization and region segmentation
CN109492612B (zh) 基于骨骼点的跌倒检测方法及其跌倒检测装置
JP5067310B2 (ja) 字幕領域抽出装置、字幕領域抽出方法および字幕領域抽出プログラム
JP2017004480A (ja) 顕著性情報取得装置及び顕著性情報取得方法
He et al. Weakly-supervised camouflaged object detection with scribble annotations
Ma et al. A simple long-tailed recognition baseline via vision-language model
WO2023174098A1 (zh) 一种实时手势检测方法及装置
WO2019197021A1 (en) Device and method for instance-level segmentation of an image
US20230154139A1 (en) Systems and methods for contrastive pretraining with video tracking supervision
CN111723852B (zh) 针对目标检测网络的鲁棒训练方法
CN114663593A (zh) 三维人体姿态估计方法、装置、设备及存储介质
CN107247952A (zh) 基于深层监督的循环卷积神经网络的视觉显著性检测方法
CN113052170A (zh) 一种无约束场景下的小目标车牌识别方法
Liu et al. Group pose: A simple baseline for end-to-end multi-person pose estimation
CN113449690A (zh) 图像场景变化的检测方法、***及电子设备
CN117036948A (zh) 一种基于注意力机制的致敏植物识别方法
Shang et al. Instance-level context attention network for instance segmentation
Li et al. Rethinking natural adversarial examples for classification models
Delassus et al. Cnns fusion for building detection in aerial images for the building detection challenge
Zeng et al. Combining CNN and transformers for full-reference and no-reference image quality assessment
TWI811102B (zh) 用於檢測對象的位置、像素和框架的視訊處理方法以及視訊處理電路
CN112396063A (zh) 一种基于聚集激励上下文金字塔的人像语义解析方法
Song et al. MsfNet: a novel small object detection based on multi-scale feature fusion