TW202105324A - 基於多個視訊訊框的深度偵測的方法及系統 - Google Patents

基於多個視訊訊框的深度偵測的方法及系統 Download PDF

Info

Publication number
TW202105324A
TW202105324A TW109123645A TW109123645A TW202105324A TW 202105324 A TW202105324 A TW 202105324A TW 109123645 A TW109123645 A TW 109123645A TW 109123645 A TW109123645 A TW 109123645A TW 202105324 A TW202105324 A TW 202105324A
Authority
TW
Taiwan
Prior art keywords
frame
map
depth
feature map
input
Prior art date
Application number
TW109123645A
Other languages
English (en)
Other versions
TWI836117B (zh
Inventor
任昊宇
哈米 莫斯塔法 伊爾
正元 李
Original Assignee
南韓商三星電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南韓商三星電子股份有限公司 filed Critical 南韓商三星電子股份有限公司
Publication of TW202105324A publication Critical patent/TW202105324A/zh
Application granted granted Critical
Publication of TWI836117B publication Critical patent/TWI836117B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一種基於多個視訊訊框的深度偵測的方法及系統。所述方法包括:接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框;對第一輸入訊框至第三輸入訊框進行卷積,以產生與不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於第一特徵圖至第三特徵圖計算時間注意圖,所述時間注意圖包括與第一特徵圖至第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對第一特徵圖至第三特徵圖應用時間注意圖,以產生具有時間注意的特徵圖。

Description

基於多個視訊訊框的深度偵測的方法及系統
本揭露的實施例的態樣大體而言是有關於一種影像深度估測。 [相關申請案的交叉參考]
本申請案主張於2019年7月22日提出申請的美國臨時申請案第62/877,246號(「基於時間注意的視訊深度估測(VIDEO DEPTH ESTIMATION BASED ON TEMPORAL ATTENTION)」)的優先權及權利,所述美國臨時申請案的全部內容併入本案供參考。
最近,存在對估測所拍攝場景中的元素的真實世界深度(real-world depth)的興趣。準確的深度估測容許對場景中的前景(近)物體與背景(遠)物體進行分離。準確的前景-背景分離容許人們處理所拍攝的影像來模仿例如焦外成像效果(Bokeh effect)等效果,所述焦外成像效果是指背景的軟離焦模糊(soft out-of-focus blur)。焦外成像效果可藉由在具有快速鏡頭及寬光圈的昂貴照相機中使用正確的設置、以及藉由將相機調整成更靠近被拍攝對象且使被拍攝對象更遠離背景以模仿淺景深來創建。因此,準確的深度估測可容許處理來自非專業攝影師或具有較小鏡頭的照相機(例如行動電話照相機)的影像,以獲得聚焦在被拍攝對象上的具有焦外成像效果的更具美感的令人愉快的影像。準確的深度估測的其他應用可包括其中期望改變背景或被拍攝對象,並根據期望的感知虛擬現實來呈現其的三維(three-dimensional,3D)物體重建及虛擬現實應用。自所拍攝的場景進行準確的深度估測的其他應用可為汽車自動化、監控攝像機及自動駕駛應用領域以及藉由提高物體偵測準確度及估測其與照相機的距離來增強安全性。
在此背景技術部分中揭露的上述資訊僅是為了增強對本揭露的理解,且因此其可包含不形成此項技術中具有通常知識者已知的先前技術的資訊。
本揭露的實施例的態樣是針對一種視訊深度估測系統及一種使用所述視訊深度估測系統基於利用視訊序列的訊框之間的時間一致性的時間注意來進行視訊深度估測的方法。
根據本揭露的一些實施例,提供一種基於多個視訊訊框的深度偵測的方法,所述方法包括:接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框;對所述第一輸入訊框至所述第三輸入訊框進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
在一些實施例中,所述多個權重是基於能夠學習的值。
在一些實施例中,所述時間注意圖的所述多個權重中的每一權重
Figure 02_image003
被表達為:
Figure 02_image005
其中ij 是大於零的索引值,s 是能夠學習的縮放因數,
Figure 02_image009
是基於所述第一特徵圖至所述第三特徵圖的經重新塑型的組合特徵圖,且c 代表所述第一特徵圖至所述第三特徵圖中的每一者中的通道的數目。
在一些實施例中,所述應用所述注意圖包括將所述具有時間注意的特徵圖的元素
Figure 02_image011
計算為:
Figure 02_image013
其中i 是大於零的索引值。
在一些實施例中,所述多個輸入訊框是輸入視訊序列的視訊訊框。
在一些實施例中,所述多個輸入訊框是基於視訊訊框的經運動補償的翹曲訊框。
在一些實施例中,所述方法更包括:接收多個翹曲訊框,所述多個翹曲訊框包括第一翹曲訊框、第二翹曲訊框及第三翹曲訊框;以及將所述第一翹曲訊框至所述第三翹曲訊框中的每一者在空間上劃分成多個貼片,其中所述第一輸入訊框是所述第一翹曲訊框的所述多個貼片中的貼片,其中所述第二輸入訊框是所述第二翹曲訊框的所述多個貼片中的貼片,且其中所述第三輸入訊框是所述第三翹曲訊框的所述多個貼片中的貼片。
在一些實施例中,所述方法更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於光流來補償所述第一視訊訊框至所述第三視訊訊框之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及基於所述具有時間注意的特徵圖產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
在一些實施例中,補償所述運動包括:基於所述第一視訊訊框的畫素及所述第三視訊訊框的畫素確定所述第二視訊訊框的畫素的光流;以及基於所確定的所述光流對所述第一輸入訊框至所述第三輸入訊框進行影像翹曲。
在一些實施例中,所述方法更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於所述第一視訊訊框至所述第三視訊訊框產生第一深度圖、第二深度圖及第三深度圖;基於光流來補償所述第一深度圖至所述第三深度圖之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及對所述具有時間注意的特徵圖進行卷積,以產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
在一些實施例中,所述第一輸入訊框至所述第三輸入訊框是與所述第一深度圖至所述第三深度圖對應的翹曲深度圖。
在一些實施例中,產生所述第一深度圖至所述第三深度圖包括:基於所述第一視訊訊框產生所述第一深度圖;基於所述第二視訊訊框產生所述第二深度圖;以及基於所述第三視訊訊框產生所述第三深度圖。
根據本揭露的一些實施例,提供一種基於多個視訊訊框的深度偵測的方法,所述方法包括:接收多個翹曲訊框,所述多個翹曲訊框包括與不同的拍攝時間對應的第一翹曲訊框、第二翹曲訊框及第三翹曲訊框;將所述第一翹曲訊框至所述第三翹曲訊框中的每一者劃分成多個貼片,所述多個貼片包括第一貼片;接收多個輸入訊框,所述多個輸入訊框包括第一輸入訊框、第二輸入訊框及第三輸入訊框;對所述第一翹曲訊框的所述第一貼片、所述第二翹曲訊框的所述第一貼片及所述第三翹曲訊框的所述第一貼片進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
在一些實施例中,所述多個翹曲訊框是經運動補償的視訊訊框。
在一些實施例中,所述多個翹曲訊框是與視訊序列的多個輸入視訊訊框對應的經運動補償的深度圖。
在一些實施例中,所述方法更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於光流來補償所述第一視訊訊框至所述第三視訊訊框之間的運動,以產生所述第一翹曲訊框至所述第三翹曲訊框;以及基於所述具有時間注意的特徵圖產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
在一些實施例中,補償所述運動包括:基於所述第一輸入訊框的畫素及所述第三輸入訊框的畫素確定所述第二視訊訊框的畫素的光流;以及基於所確定的所述光流對所述第一視訊訊框至所述第三視訊訊框進行影像翹曲。
在一些實施例中,所述方法更包括:接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框;基於所述第一視訊訊框至所述第三視訊訊框產生第一深度圖、第二深度圖及第三深度圖;基於光流來補償所述第一深度圖至所述第三深度圖之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及對所述具有時間注意的特徵圖進行卷積,以產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
在一些實施例中,所述第一輸入訊框至所述第三輸入訊框是與所述第一深度圖至所述第三深度圖對應的翹曲深度圖。
根據本揭露的一些實施例,提供一種基於多個視訊訊框的深度偵測的系統,所述系統包括:處理器;以及處理器記憶體,位於所述處理器本地,其中所述處理器記憶體上儲存有指令,所述指令在由所述處理器執行時使所述處理器實行以下操作:接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框;對所述第一輸入訊框至所述第三輸入訊框進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖;基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
以下闡述的詳細說明旨在作為對根據本揭露所提供的視訊深度估測系統及方法的示例性實施例的說明,而不旨在代表本揭露可被構造或利用的唯一形式。本說明結合所示實施例闡述本揭露的特徵。然而應理解,可藉由亦旨在囊括於本揭露的範圍內的不同實施例來達成相同或等效的功能及結構。如本文其他地方所表明,相同的元件編號旨在指示相同的元件或特徵。
本揭露的一些實施例是針對一種視訊深度估測系統及一種使用所述視訊深度估測系統基於利用視訊序列的訊框之間的時間一致性的時間注意來進行視訊深度估測的方法。目前,使用輸入視訊的深度估測方法在估測深度時不考慮時間一致性。儘管相關技術的一些方法可在訓練程序期間利用視訊序列,但預測程序是基於單訊框的。亦即,當估測訊框t的深度時,不使用訊框t-1或訊框t+1的資訊。此會限制相關技術的此種方法的準確度,此乃因忽略了訊框之間的時間一致性。
根據一些實施例,視訊深度估測系統(亦被稱為深度估測系統)能夠估測由單個照相機拍攝的視訊序列中的元素的真實世界深度。在一些實施例中,深度估測系統包括三個子系統、運動補償器、時間注意子系統及深度估測器。藉由以不同的次序排列所述三個子系統,深度估測系統利用根據一些實施例在RGB(紅色、綠色及藍色)域中的時間一致性,或者根據一些其他實施例在深度域中的時間一致性。
圖1示出根據本揭露一些實施例的深度估測系統1的子系統。
參考圖1,根據一些實施例的深度估測系統1包括運動補償器100、時間注意子系統200及深度估測器300。運動補償器100接收多個視訊訊框10,所述多個視訊訊框10包括代表視訊序列的接連的訊框(例如,連續訊框)的第一視訊訊框11、第二視訊訊框12(亦被稱為參考視訊訊框)及第三視訊訊框13。
在一些實施例中,運動補償器100被配置成基於光流補償第一視訊訊框11至第三視訊訊框13之間的畫素運動,並產生第一輸入訊框121至第三輸入訊框123(例如,第一翹曲訊框至第三翹曲訊框)。運動補償器100可將接連的訊框(例如,相鄰訊框)之間的時間一致性對齊。運動補償器100可包括時空轉換器網路110及影像整經機120。在一些實例中,時空轉換器網路110可確定接連的訊框的畫素的光流(例如,運動向量),且產生指示自第一視訊訊框11至第二視訊訊框12的畫素的光流的第一光流圖111,並且產生指示自第三視訊訊框13至第二視訊訊框12的畫素的光流的第二光流圖112。影像整經機120利用第一光流圖111及第二光流圖112來使輸入訊框11及13翹曲,並產生試圖補償輸入訊框11及13的區域(即,畫素)的移動的第一翹曲訊框121及第三翹曲訊框123(例如,第一RGB訊框及第三RGB訊框)。翹曲訊框122可相同於第二視訊訊框12(例如,參考訊框)。照相機角度或視角變化、遮擋、物體移出訊框等可導致翹曲訊框121至123的不一致。若翹曲訊框121至123被直接饋送至深度估測器300,則此種不一致可使深度估測混亂。然而,時間注意子系統200可藉由提取及強調經運動補償的翹曲訊框121至123之間的一致資訊來解決此種問題。
本文所使用的一致資訊是指在接連的(例如,相鄰的)訊框中同一物體的特性(例如,外觀、結構)是相同的。例如,當運動補償器100在連續訊框中正確地估測移動的汽車的運動時,出現在接連的(例如,相鄰的)翹曲訊框中的汽車的形狀及顏色可為相似的。可藉由時間注意子系統200的輸入特徵圖與時間注意子系統200的輸出特徵圖292之間的差異來量測一致性。
在一些實施例中,時間注意子系統200識別參考訊框(例如,第二/中心視訊訊框12)的哪些區域更重要,並且應給予更大的注意。在一些實例中,時間注意子系統200識別其輸入訊框(例如,翹曲訊框121至123)之間的差異,並基於時間一致性為訊框的每一畫素指派權重/置信值。例如,當一區域自一個訊框變為下一訊框時,所述區域中的畫素的置信水準可為較低的。畫素的權重/置信值一起構成時間注意圖,時間注意子系統200利用所述時間注意圖來對其接收的訊框(例如,翹曲訊框121至123)進行重新加權。
根據一些實施例,深度估測器300基於時間注意子系統200的輸出特徵圖292提取參考訊框(例如,第二/中心視訊訊框12)的深度(深度圖20)。
圖2A至圖2D提供根據本揭露一些示例性實施例,時間注意子系統200關於輸入視訊序列的參考視訊訊框操作的RGB可視化。圖2E至圖2H提供根據本揭露一些示例性實施例,時間注意子系統200關於輸入視訊序列的不同參考視訊訊框操作的RGB可視化。
圖2A及圖2E示出時間注意子系統200的輸入視訊序列的參考訊框30,且圖2B至圖2D及圖2E至圖2H示出在B通道、G通道及R通道中可視化的相應的注意圖。時間注意權重圖被顯示為時間注意子系統200的輸入與輸出之間的差異。在圖2B至圖2D中,較亮的顏色指示較大的差異,以與運動不一致性對應。例如,若時間注意子系統200的輸出中的畫素與輸入相同,則所述畫素的差異圖將為0(示出為黑色)。如圖2B至圖2D所示,注意集中在汽車上,乃因汽車是最重要的移動物體。由於難以進行樹葉運動估測,因此對樹葉的注意亦為微弱的。在圖2E至圖2H中,注意集中在所有具有運動的主要區域上。相較於圖2A而言,圖2E中的參考訊框的照明更複雜(例如,參見陰影),且物體更靠近照相機。因此,圖2F至圖2H中顯示的時間一致性更複雜。此外,相較於圖2G及圖2H中的G通道及R通道而言,圖2F中的B通道的注意圖在空中具有更高的值。原因是,在圖2E的參考訊框中,B通道更偏好觀看具有藍色的移動物體,而天空是最大的移動「物體」。
圖3示出根據本揭露一些其他實施例的深度估測系統1-1的子系統。除了運動補償器100-1、時間注意子系統200-1及深度估測器300-1的排列次序之外,圖3的深度估測系統1-1實質上相同於圖1的深度估測系統。
參考圖3,根據一些實施例,深度估測器300-1自視訊序列接收包括接連的視訊訊框11至13的多個視訊訊框,且使用逐訊框深度估測方法(例如單影像深度估測(single image depth estimation,SIDE)),並產生分別與第一視訊訊框11至第三視訊訊框13對應的第一深度圖311、第二深度圖312及第三深度圖313。
在一些實施例中,運動補償器100-1自深度估測器300-1接收第一深度圖311至第三深度圖313。因此,運動補償器100-1應用於深度域,而非如圖1的運動補償器100般應用於時間域。否則,運動補償器100-1可相同於或實質上相似於圖1的運動補償器100。在一些實施例中,時空轉換器網路110基於第一深度圖311至第三深度圖313產生光流圖111-1及112-1,影像整經機120利用所述光流圖111-1及112-1來產生翹曲的估測深度圖121-1、122-1及123-1。根據一些實施例,然後應用時間注意子系統200-1以自翹曲的估測深度圖121-1、122-1及123-1提取一致資訊,然後是卷積層400以獲得最終輸出,所述最終輸出是與參考訊框(例如,第二視訊訊框12)對應的深度圖20-1。卷積層400可用於將來自時間注意子系統200-1的輸出特徵圖292轉換成深度圖20-1。
基於運動補償器100/100-1與深度估測器300/300-1之間的折衷,可使用圖1的深度估測系統1或圖3的深度估測系統1-1。深度估測系統1的處理瓶頸可能是在RGB域中的運動補償器100,此可能相對難以實行,乃因物體的外觀隨著不同視訊訊框之間的照明及顏色失真的變化而變化。另一方面,深度估測系統1-1的處理瓶頸可能是深度估測器300-1。深度域中的運動補償可能較在RGB域中更容易,乃因照明及顏色失真的變化可被忽略。因此,當運動補償器100非常準確時(例如,當光流估測的準確度高於設定臨限值時),則可利用深度估測系統1。當深度估測器300-1非常準確時(例如,當其準確度大於設定臨限值時),則可利用深度估測系統1-1。根據一些實例,依賴於深度估測的裝置(例如駕駛員輔助或自動車輛)可包括圖1的深度估測系統1及圖3的深度估測系統1-1兩者,且基於光流估測及深度估測的準確度在所述兩個系統之間適當地切換。
圖4A至圖4B示出根據本揭露一些實施例的用於實施時間注意子系統200/200-1的兩種不同方式。在圖4A至圖4B中,為易於說明,時間注意子系統200/200-1的輸入訊框201至203被示出為RGB視訊訊框;然而,本說明的實施例不限於此,且輸入訊框201至203可為翹曲訊框121至123(如圖1所示)或翹曲深度圖121-1至123-1(如圖3所示)。
參考圖4A,根據一些實施例,時間注意子系統200包括被配置成將輸入訊框201至203轉換成特徵圖211至213的特徵圖提取器210,特徵圖211至213是由時間注意縮放器220處理以用於基於時間注意一致性來重新加權。特徵圖提取器210可為對輸入訊框201至203的元素應用具有可學習的權重的卷積濾波器的卷積層。此處,時間注意子系統200接收並處理整個輸入訊框201至203。在時間注意縮放器220之前添加特徵圖提取器210容許時間注意縮放器220更容易地與相關技術的深度學習框架合作。然而,本揭露的實施例不限於在時間注意縮放器220之前利用特徵圖提取器210,且在一些實施例中,輸入訊框201至203可被直接饋送至時間注意縮放器220。
參考圖4B,在一些實施例中,時間注意子系統200-1更包括將輸入訊框201至203中的每一者劃分成多個貼片或子部分的貼片提取器230。輸入訊框的每一貼片與輸入訊框的其他貼片分開處理。例如,貼片提取器230可將輸入訊框201至203劃分成四個貼片,從而產生四組貼片/子部分。第一組貼片(即201-1、202-1及203-1)可包括輸入訊框201至203中的每一者的第一貼片,且第四組貼片(即201-4、202-4及203-4)可包括輸入訊框201至203中的每一者的第四貼片。每一貼片組由特徵圖提取器210及時間注意縮放器220分別處理。不同的貼片組可並行處理,如圖4B所示,或者可串列處理。基於每一貼片組產生的貼片特徵圖(例如211-1、212-1及213-1)可被組合在一起以形成具有時間注意的單個特徵圖(即292-1、292-2、292-3及292-4)。
儘管圖4B示出四組貼片,但本揭露的實施例不限於此。例如,貼片提取器230可將每一輸入訊框劃分成任何合適數目的貼片。圖4B的時間注意子系統200-1可提高深度估測準確度,乃因每一經處理的貼片組包含較整個訊框的視覺資訊在空間上更相關的視覺資訊。例如,在包括在道路上行駛的汽車且背景中的天空佔據訊框頂部部分的訊框中,天空僅用於使移動的汽車的深度估測複雜化,且可能引入不準確性。然而,將天空與汽車分成不同的貼片可容許深度估測系統1/1-1為參考訊框中的汽車的深度提供更準確的估測。
圖5是根據本揭露一些實施例的時間注意縮放器220的方塊圖圖解。
根據一些實施例,時間注意縮放器220包括序連塊250、重新塑型及轉置塊260、時間注意圖產生器270、乘法器280及重新塑型塊290。
時間注意縮放器220接收第一特徵圖211、第二特徵圖212及第三特徵圖213,並將所述特徵圖序連成組合特徵圖252。特徵圖211至213中的每一者可具有相同的大小C×W×H,其中C指示通道的數目(例如,其可對應於紅色、綠色及藍色通道),而W及H代表特徵圖211至213的寬度及高度,所述高度及寬度相同於輸入視訊訊框201至203的寬度及高度尺寸(例如,參見圖4A及圖4B)。組合特徵圖252可具有3C×W×H的大小。如上所述,可自翹曲訊框121至123或者自翹曲深度圖121-1至123-1產生特徵圖。
重新塑型及轉置塊260可將組合特徵圖252自三維(3D)重新塑型為二維(2D),以計算大小為(3C)×(WH)的第一重新塑型圖262,且可對第一重新塑型圖262進行轉置以計算大小為(WH)×(3C)的第二重新塑型圖264。時間注意圖產生器270基於第一重新塑型圖262及第二重新塑型圖264產生大小為(3C)×(3C)的時間注意圖272。時間注意圖272可被稱為相似度圖,且包括與第一特徵圖211至第三特徵圖213中的不同對的特徵圖對應的多個權重
Figure 02_image015
(其中ij 是小於或等於C的索引,即通道的數目),其中每一權重指示對應的一對特徵圖的相似度水準。換言之,每一權重
Figure 02_image003
指示產生通道ij 的訊框之間的相似度。當ij 來自同一訊框時,權重
Figure 02_image003
量測一種自我注意。例如,若C=3,則時間注意圖的大小為9×9(例如,通道1至3屬於特徵圖211,通道4至6屬於特徵圖212,且通道7至9屬於特徵圖213)。時間注意圖272中的權重
Figure 02_image017
i =1,j =4)標示特徵圖211與特徵圖212之間的相似度水準。較高的權重值可指示對應的特徵圖之間的較高相似度。時間注意圖272的所述多個權重中的每一權重
Figure 02_image003
可由方程式1來表達:
Figure 02_image005
(方程式1)
其中
Figure 02_image019
Figure 02_image021
是第一重重新塑型圖262的一維向量,
Figure 02_image023
是所述兩個向量之間的點乘積,s 是可學習的縮放因數,且ij 是大於0且小於或等於C的索引值。
乘法器280在時間注意圖272與第一重新塑型圖262之間實行矩陣乘法,以產生大小為(3C)×(WH)的第二重新塑型圖282,第二重新塑型圖282由重新塑型塊290自2D重新塑型為3D,以產生具有大小為3C×W×H的時間注意的特徵圖292。具有時間注意的輸出特徵圖292的元素
Figure 02_image011
可由方程式2表達:
Figure 02_image025
(方程式2)
其中
Figure 02_image011
可代表大小為W×H的單通道特徵圖。
根據一些實例,深度估測系統1/1-1的所述多個組件(例如運動補償器、時間注意子系統及深度估測器)可對應於神經網路及/或深度神經網路(深度神經網路是具有多於一個隱藏層的神經網路,以用於深度學習技術),且產生所述組件的製程可涉及使用訓練資料及演算法(例如反向傳播演算法)來訓練深度神經網路。訓練可包括提供大量輸入視訊訊框及具有所量測的深度值的輸入視訊訊框的深度圖。然後,神經網路基於此種資料進行訓練,以設定上述可學習的值。
根據一些實施例,由深度估測系統實行的操作可由執行儲存在處理器記憶體上的指令的處理器來實行。所述指令在由處理器執行時,使處理器實行以上針對深度估測系統1/1-1所述的操作。
儘管深度估測系統1/1-1的實施例被揭露為以第二訊框作為參考訊框對三個輸入訊框的群組進行操作,但本揭露的實施例不限於此。例如,本揭露的實施例可採用奇數個輸入訊框(例如,5或7個輸入訊框)的群組,其中中心訊框充當深度估測系統為其產生深度圖的參考訊框。此外,此種輸入訊框可代表視訊序列的訊框的滑動窗。在一些實例中,增加輸入訊框的數目(例如,自3增加至5)可提高深度估測準確度。
將理解,儘管可在本文中使用用語「第一」、「第二」、「第三」等來闡述各種元件、組件、區域、層、及/或區段,但該些元件、組件、區域、層、及/或區段不應受限於該些用語。該些用語用於區分各個元件、組件、區域、層或區段。因此,在不背離本發明概念的範圍的條件下,下文所述第一元件、組件、區域、層或區段可被稱為第二元件、組件、區域、層或區段。
本文所用術語用於闡述特定實施例,而並非旨在限制本發明概念。除非上下文中清楚地另外指明,否則本文中所使用的單數形式「一(a及an)」旨在亦包括複數形式。更將理解,當在本說明書中使用用語「包括(include、including)」、「包含(comprises及/或comprising)」時,是用於具體說明所述特徵、整數、步驟、操作、元件、及/或組件的存在,但不排除一或多個其他特徵、整數、步驟、操作、元件、組件、及/或其群組的存在或添加。本文中所用的用語「及(and)/或(or)」包括相關列出項中的一或多個項的任意及所有組合。此外,當闡述本發明概念的實施例時,使用「可」是指「本發明概念的一或多個實施例」。此外,用語「示範性的」旨在指實例或說明。
本文所用的用語「使用(use)」、「正使用(using)」、及「被使用(used)」可視為分別與用語「利用(utilize)」、「正利用(utilizing)」、及「被利用(utilized)」同義。
本文中所述的根據本揭露實施例的深度估測系統及/或任何其他相關裝置或組件可藉由利用任何合適的硬體、韌體(例如,應用專用積體電路)、軟體、或者軟體、韌體及硬體的任何合適的組合來實施。舉例而言,深度估測系統的各種組件可形成於一個積體電路(integrated circuit,IC)晶片上或形成於單獨的積體電路晶片上。此外,深度估測系統的各種組件可實施於可撓性印刷電路膜、載帶封裝(tape carrier package,TCP)、印刷電路板(printed circuit board,PCB)上或者形成於同一基板上。此外,深度估測系統的各種組件可為在一或多個計算裝置中在一或多個處理器上運行的、執行電腦程式指令且與其他系統組件進行交互作用來實行本文所述各種功能的過程或執行緒。電腦程式指令儲存於可使用標準記憶體裝置在計算裝置中實施的記憶體(例如(舉例而言),隨機存取記憶體(random access memory,RAM))中。電腦程式亦可儲存於其他非暫態電腦可讀取媒體(例如(舉例而言),光碟唯讀記憶體(compact disk read only memory,CD-ROM)、閃存驅動器等)中。此外,熟習此項技術者應認識到,在不背離本揭露示範性實施例的範圍的條件下,可對各種計算裝置的功能進行組合或將所述功能整合至單個計算裝置中,或者可將特定計算裝置的功能分佈於一或多個其他計算裝置中。
儘管已具體參考本揭露的說明性實施例詳細闡述了本揭露,但本文闡述的實施例不旨在詳盡的或將本揭露的範圍限制於所揭露的確切形式。熟習本揭露所屬領域及技術者將理解,在不有意圖地偏離以下申請專利範圍及其等效範圍中所述的本揭露的原理及範圍的條件下,可對所述組裝及操作的結構及方法進行變更及改變。
1、1-1:深度估測系統 10:視訊訊框 11:第一視訊訊框 12:第二/中心視訊訊框 13:第三視訊訊框 20、20-1:深度圖 30:參考訊框 100、100-1:運動補償器 110:時空轉換器網路 111:第一光流圖 111-1、112-1:光流圖 112:第二光流圖 120:影像整經機 121:第一輸入訊框/第一翹曲訊框 121-1、122-1、123-1:翹曲的估測深度圖 122:第二輸入訊框/翹曲訊框 123:第三輸入訊框/第三翹曲訊框 200、200-1:時間注意子系統 201、202、203:輸入訊框 201-1、202-1、203-1:第一組貼片 201-4、202-4、203-4:第四組貼片 210:特徵圖提取器 211、212、213:特徵圖 211-1、212-1、213-1:貼片特徵圖 220:時間注意縮放器 230:貼片提取器 250:序連塊 252:組合特徵圖 260:重新塑型及轉置塊 262:第一重新塑型圖 264、282:第二重新塑型圖 270:時間注意圖產生器 272:時間注意圖 280:乘法器 290:重新塑型塊 292:輸出特徵圖 292-1、292-2、292-3、292-4:具有時間注意的單個特徵圖 300、300-1:深度估測器 311:第一深度圖 312:第二深度圖 313:第三深度圖 400:卷積層 t、t-1、t+1:訊框
當結合附圖考慮時,藉由參考以下詳細說明,本揭露及其許多伴隨特徵及態樣的更完整理解將變得更顯而易見,其中相同的參考符號指示相同的組件,在附圖中: 圖1示出根據本揭露一些實施例的深度估測系統的子系統。 圖2A至圖2D提供根據本揭露一些示例性實施例,時間注意子系統關於輸入視訊序列的參考視訊訊框操作的RGB可視化。 圖2E至圖2H提供根據本揭露一些示例性實施例,時間注意子系統關於輸入視訊序列的不同參考視訊訊框操作的RGB可視化。 圖3示出根據本揭露一些其他實施例的深度估測系統的子系統。 圖4A至圖4B示出根據本揭露一些實施例的用於實施時間注意子系統的兩種不同方式。 圖5是根據本揭露一些實施例的時間注意縮放器的方塊圖圖解。
1:深度估測系統
10:視訊訊框
11:第一視訊訊框
12:第二/中心視訊訊框
13:第三視訊訊框
20:深度圖
100:運動補償器
110:時空轉換器網路
111:第一光流圖
112:第二光流圖
120:影像整經機
121:第一輸入訊框/第一翹曲訊框
122:第二輸入訊框/翹曲訊框
123:第三輸入訊框/第三翹曲訊框
200:時間注意子系統
292:輸出特徵圖
300:深度估測器

Claims (20)

  1. 一種基於多個視訊訊框的深度偵測的方法,所述方法包括: 接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框; 對所述第一輸入訊框至所述第三輸入訊框進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖; 基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及 對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
  2. 如請求項1所述的方法,其中所述多個權重是基於能夠學習的值。
  3. 如請求項1所述的方法,其中所述時間注意圖的所述多個權重中的每一權重
    Figure 03_image027
    被表達為:
    Figure 03_image005
    , 其中ij 是大於零的索引值,s 是能夠學習的縮放因數,
    Figure 03_image009
    是基於所述第一特徵圖至所述第三特徵圖的經重新塑型的組合特徵圖,且c 代表所述第一特徵圖至所述第三特徵圖中的每一者中的通道的數目。
  4. 如請求項3所述的方法,其中應用所述時間注意圖包括將所述具有時間注意的特徵圖的元素
    Figure 03_image029
    計算為:
    Figure 03_image013
    , 其中i 是大於零的索引值。
  5. 如請求項1所述的方法,其中所述多個輸入訊框是輸入視訊序列的視訊訊框。
  6. 如請求項1所述的方法,其中所述多個輸入訊框是基於視訊訊框的經運動補償的翹曲訊框。
  7. 如請求項1所述的方法,更包括: 接收多個翹曲訊框,所述多個翹曲訊框包括第一翹曲訊框、第二翹曲訊框及第三翹曲訊框;以及 將所述第一翹曲訊框至所述第三翹曲訊框中的每一者在空間上劃分成多個貼片, 其中所述第一輸入訊框是所述第一翹曲訊框的所述多個貼片中的貼片, 其中所述第二輸入訊框是所述第二翹曲訊框的所述多個貼片中的貼片,且 其中所述第三輸入訊框是所述第三翹曲訊框的所述多個貼片中的貼片。
  8. 如請求項1所述的方法,更包括: 接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框; 基於光流來補償所述第一視訊訊框至所述第三視訊訊框之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及 基於所述具有時間注意的特徵圖產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
  9. 如請求項8所述的方法,其中補償所述運動包括: 基於所述第一視訊訊框的畫素及所述第三視訊訊框的畫素確定所述第二視訊訊框的畫素的光流;以及 基於所確定的所述光流對所述第一輸入訊框至所述第三輸入訊框進行影像翹曲。
  10. 如請求項1所述的方法,更包括: 接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框; 基於所述第一視訊訊框至所述第三視訊訊框產生第一深度圖、第二深度圖及第三深度圖; 基於光流來補償所述第一深度圖至所述第三深度圖之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及 對所述具有時間注意的特徵圖進行卷積,以產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
  11. 如請求項10所述的方法,其中所述第一輸入訊框至所述第三輸入訊框是與所述第一深度圖至所述第三深度圖對應的翹曲深度圖。
  12. 如請求項10所述的方法,其中產生所述第一深度圖至所述第三深度圖包括: 基於所述第一視訊訊框產生所述第一深度圖; 基於所述第二視訊訊框產生所述第二深度圖;以及 基於所述第三視訊訊框產生所述第三深度圖。
  13. 一種基於多個視訊訊框的深度偵測的方法,所述方法包括: 接收多個翹曲訊框,所述多個翹曲訊框包括與不同的拍攝時間對應的第一翹曲訊框、第二翹曲訊框及第三翹曲訊框; 將所述第一翹曲訊框至所述第三翹曲訊框中的每一者劃分成多個貼片,所述多個貼片包括第一貼片; 接收多個輸入訊框,所述多個輸入訊框包括第一輸入訊框、第二輸入訊框及第三輸入訊框; 對所述第一翹曲訊框的所述第一貼片、所述第二翹曲訊框的所述第一貼片及所述第三翹曲訊框的所述第一貼片進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖; 基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及 對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
  14. 如請求項13所述的方法,其中所述多個翹曲訊框是經運動補償的視訊訊框。
  15. 如請求項13所述的方法,其中所述多個翹曲訊框是與視訊序列的多個輸入視訊訊框對應的經運動補償的深度圖。
  16. 如請求項13所述的方法,更包括: 接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框; 基於光流來補償所述第一視訊訊框至所述第三視訊訊框之間的運動,以產生所述第一翹曲訊框至所述第三翹曲訊框;以及 基於所述具有時間注意的特徵圖產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
  17. 如請求項16所述的方法,其中補償所述運動包括: 基於所述第一視訊訊框的畫素及所述第三視訊訊框的畫素確定所述第二視訊訊框的畫素的光流;以及 基於所確定的所述光流對所述第一視訊訊框至所述第三視訊訊框進行影像翹曲。
  18. 如請求項13所述的方法,更包括: 接收第一視訊訊框、第二視訊訊框及第三視訊訊框,所述第一視訊訊框至所述第三視訊訊框是視訊序列的接連的訊框; 基於所述第一視訊訊框至所述第三視訊訊框產生第一深度圖、第二深度圖及第三深度圖; 基於光流來補償所述第一深度圖至所述第三深度圖之間的運動,以產生所述第一輸入訊框至所述第三輸入訊框;以及 對所述具有時間注意的特徵圖進行卷積,以產生深度圖,所述深度圖包括所述第二視訊訊框的畫素的深度值。
  19. 如請求項18所述的方法,其中所述第一輸入訊框至所述第三輸入訊框是與所述第一深度圖至所述第三深度圖對應的翹曲深度圖。
  20. 一種基於多個視訊訊框的深度偵測的系統,所述系統包括: 處理器;以及 處理器記憶體,位於所述處理器本地,其中所述處理器記憶體上儲存有指令,所述指令在由所述處理器執行時使所述處理器實行以下操作: 接收多個輸入訊框,所述多個輸入訊框包括分別與不同的拍攝時間對應的第一輸入訊框、第二輸入訊框及第三輸入訊框; 對所述第一輸入訊框至所述第三輸入訊框進行卷積,以產生與所述不同的拍攝時間對應的第一特徵圖、第二特徵圖及第三特徵圖; 基於所述第一特徵圖至所述第三特徵圖計算時間注意圖,所述時間注意圖包括與所述第一特徵圖至所述第三特徵圖中的不同對的特徵圖對應的多個權重,所述多個權重中的每一權重指示對應的一對特徵圖的相似度水準;以及 對所述第一特徵圖至所述第三特徵圖應用所述時間注意圖,以產生具有時間注意的特徵圖。
TW109123645A 2019-07-22 2020-07-14 基於多個視訊訊框的深度偵測的方法及系統 TWI836117B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962877246P 2019-07-22 2019-07-22
US62/877,246 2019-07-22
US16/841,618 US11527005B2 (en) 2019-07-22 2020-04-06 Video depth estimation based on temporal attention
US16/841,618 2020-04-06

Publications (2)

Publication Number Publication Date
TW202105324A true TW202105324A (zh) 2021-02-01
TWI836117B TWI836117B (zh) 2024-03-21

Family

ID=74098660

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109123645A TWI836117B (zh) 2019-07-22 2020-07-14 基於多個視訊訊框的深度偵測的方法及系統

Country Status (5)

Country Link
US (2) US11527005B2 (zh)
KR (1) KR20210011322A (zh)
CN (1) CN112288790A (zh)
DE (1) DE102020118241A1 (zh)
TW (1) TWI836117B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI805282B (zh) * 2021-03-23 2023-06-11 聯發科技股份有限公司 使用焦點資訊深度估計的方法和裝置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949453B (zh) * 2021-02-26 2023-12-26 南京恩博科技有限公司 烟火检测模型的训练方法、烟火检测方法及设备
US20220301184A1 (en) * 2021-03-16 2022-09-22 Samsung Electronics Co., Ltd. Accurate optical flow interpolation optimizing bi-directional consistency and temporal smoothness
US11893668B2 (en) 2021-03-31 2024-02-06 Leica Camera Ag Imaging system and method for generating a final digital image via applying a profile to image information
US20220408098A1 (en) * 2021-06-18 2022-12-22 Tencent America LLC Block-wise entropy coding method in neural image compression
KR102302745B1 (ko) * 2021-07-23 2021-09-15 국방과학연구소 영상 데이터 획득 방법, 영상 데이터 획득 장치 및 상기 방법을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램
KR20230032325A (ko) * 2021-08-30 2023-03-07 삼성전자주식회사 프레임들 사이의 움직임 벡터를 결정하는 영상 처리 장치 및 이에 의한 방법
CN114419102B (zh) * 2022-01-25 2023-06-06 江南大学 一种基于帧差时序运动信息的多目标跟踪检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100846498B1 (ko) 2006-10-18 2008-07-17 삼성전자주식회사 영상 해석 방법 및 장치, 및 동영상 영역 분할 시스템
JP4886898B2 (ja) * 2007-07-26 2012-02-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 深さ関連情報伝達のための方法及び装置
TW201028964A (en) 2009-01-23 2010-08-01 Ind Tech Res Inst Depth calculating method for two dimension video and apparatus thereof
CN101640809B (zh) * 2009-08-17 2010-11-03 浙江大学 一种融合运动信息与几何信息的深度提取方法
US9123115B2 (en) 2010-11-23 2015-09-01 Qualcomm Incorporated Depth estimation based on global motion and optical flow
JP2012134655A (ja) 2010-12-20 2012-07-12 Toshiba Corp 画像処理装置、画像処理方法および画像表示装置
CN103002297A (zh) 2011-09-16 2013-03-27 联咏科技股份有限公司 动态深度值产生方法及其装置
US9727967B2 (en) 2014-06-23 2017-08-08 Samsung Electronics Co., Ltd. Methods for determining estimated depth in an image and systems thereof
CN105590309B (zh) * 2014-10-23 2018-06-15 株式会社理光 前景图像分割方法和装置
EP3236657A1 (en) * 2016-04-21 2017-10-25 Ultra-D Coöperatief U.A. Dual mode depth estimator
US10115040B2 (en) 2016-09-14 2018-10-30 Kla-Tencor Corporation Convolutional neural network-based mode selection and defect classification for image fusion
EP3847619B1 (en) * 2018-09-05 2023-11-01 Google LLC Unsupervised depth prediction neural networks
US10984545B2 (en) * 2018-11-16 2021-04-20 Nvidia Corporation Estimating depth for a video stream captured with a monocular rgb camera

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI805282B (zh) * 2021-03-23 2023-06-11 聯發科技股份有限公司 使用焦點資訊深度估計的方法和裝置
US11967096B2 (en) 2021-03-23 2024-04-23 Mediatek Inc. Methods and apparatuses of depth estimation from focus information

Also Published As

Publication number Publication date
US20230116893A1 (en) 2023-04-13
US11527005B2 (en) 2022-12-13
KR20210011322A (ko) 2021-02-01
US20210027480A1 (en) 2021-01-28
US11995856B2 (en) 2024-05-28
TWI836117B (zh) 2024-03-21
CN112288790A (zh) 2021-01-29
DE102020118241A1 (de) 2021-01-28

Similar Documents

Publication Publication Date Title
TWI836117B (zh) 基於多個視訊訊框的深度偵測的方法及系統
US11610082B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
Tang et al. Investigating haze-relevant features in a learning framework for image dehazing
US8494256B2 (en) Image processing apparatus and method, learning apparatus and method, and program
US10542249B2 (en) Stereoscopic video generation method based on 3D convolution neural network
KR20210139450A (ko) 이미지 디스플레이 방법 및 디바이스
US8831280B2 (en) 3D motion recognition method and apparatus
US9600898B2 (en) Method and apparatus for separating foreground image, and computer-readable recording medium
CN106920221B (zh) 兼顾亮度分布和细节呈现的曝光融合方法
CN102026013B (zh) 基于仿射变换的立体视频匹配方法
US10999500B2 (en) Imaging apparatus and imaging method, and image processing apparatus and image processing method
KR101580275B1 (ko) 멀티 레이어 디스플레이에 3차원 영상을 표현하기 위한 영상 처리 장치 및 방법
US8803947B2 (en) Apparatus and method for generating extrapolated view
CN105931213B (zh) 基于边缘检测和帧差法的高动态范围视频去鬼影的方法
US10165257B2 (en) Robust disparity estimation in the presence of significant intensity variations for camera arrays
CN106657948A (zh) 低照度Bayer图像的增强方法及增强装置
US20150035828A1 (en) Method for processing a current image of an image sequence, and corresponding computer program and processing device
CN113724155A (zh) 用于自监督单目深度估计的自提升学习方法、装置及设备
KR101125061B1 (ko) Ldi 기법 깊이맵을 참조한 2d 동영상의 3d 동영상 전환방법
JP2010506482A (ja) ビデオストリームの視差回復方法及びフィルタ
CN117808691A (zh) 一种基于差异显著性聚合和联合梯度约束的图像融合方法
Mangiat et al. Inexpensive high dynamic range video for large scale security and surveillance
KR20140072980A (ko) 단일 영상을 이용한 hdr 영상 생성 장치 및 방법
JP7308913B2 (ja) 敵対的生成ネットワークアルゴリズムを活用した超分光高速カメラ映像生成方法
US11669939B1 (en) Burst deblurring with kernel estimation networks