TWI817594B

TWI817594B - 圖像深度識別方法、電腦設備及儲存介質

Info

Publication number: TWI817594B
Application number: TW111124990A
Authority: TW
Inventors: 李潔; 郭錦斌
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2023-10-01
Also published as: TW202403666A

Abstract

本申請涉及影像處理，提供一種圖像深度識別方法、電腦設備及儲存介質。所述方法包括：獲取待識別圖像、第一初始圖像及第二初始圖像，基於深度識別網路對第一初始圖像進行識別，得到初始深度圖像，基於第一初始圖像、第二初始圖像及位姿網路生成位姿絕對值矩陣，根據第一初始圖像、第二初始圖像、位姿網路及初始深度圖像生成初始投影圖像，並根據位姿絕對值矩陣及預設閥值矩陣識別出的目標圖像、目標投影圖像與初始深度圖像之間的誤差調整深度識別網路，得到深度識別模型，將待識別圖像輸入到深度識別模型中，得到待識別圖像的深度資訊。

Description

圖像深度識別方法、電腦設備及儲存介質

本申請涉及影像處理領域，尤其涉及一種圖像深度識別方法、電腦設備及儲存介質。

在目前對車載圖像進行深度識別的方案中，可利用訓練圖像對深度網路進行訓練。然而，由於採用的訓練圖像中通常包括靜態對象與動態對象，而其中的動態對象會造成對深度網路的訓練精度不佳，從而導致訓練得到的深度識別模型無法準確識別出車載圖像的深度資訊，進而難以確定車輛與周圍環境中各類物體或障礙物的真實距離，會影響駕車安全。

鑒於以上內容，有必要提供一種圖像深度識別方法、電腦設備及儲存介質，解決了車載圖像的深度資訊識別不準確的技術問題。

一種圖像深度識別方法，所述圖像深度識別方法包括：獲取待識別圖像、第一初始圖像及第二初始圖像，並獲取深度識別網路及位姿網路；基於所述深度識別網路對所述第一初始圖像進行深度識別，得到初始深度圖像；對所述第一初始圖像進行預處理，得到與所述第一初始圖像對應的第一靜態圖像和第一動態圖像，並對所述第二初始圖像進行預處理，得到與所述第二初始圖像對應的第二靜態圖像和第二動態圖像；基於所述第一靜態圖像、所述第一動態圖像、所述第二靜態圖像、所述第二動態圖像及所述位姿網路生成位姿絕對值矩陣；將所述第一初始圖像及所述第二初始圖像輸入所述位姿網路中，得到目標位姿矩陣；基於所述第一初始圖像、所述初始深度圖像及所述目標位姿矩陣生成所述第一初始圖像的初始投影圖像；根據所述位姿絕對值矩陣及預設閥值矩陣識別所述第一初始圖像的目標圖像及所述初始投影圖像的目標投影圖像；基於所述初始深度圖像與所述目標圖像之間的梯度誤差及所述目標投影圖像與所述目標圖像之間的光度誤差，調整所述深度識別網路，得到深度識別模型；將所述待識別圖像輸入到所述深度識別模型中，得到所述待識別圖像的目標深度圖像及所述待識別圖像的深度資訊。

根據本申請可選實施例，所述對所述第一初始圖像進行預處理，得到與所述第一初始圖像對應的第一靜態圖像和第一動態圖像包括：基於所述第一初始圖像中每個像素點的像素值計算所述第一初始圖像中每個像素點的單個評分值；基於所述單個評分值及多個預設對象，計算所述第一初始圖像中每個像素點在每個預設對象上的類別概率；將取值最大的類別概率所對應的預設對象確定為該像素點所對應的像素對象；將所述第一初始圖像中相同像素對象的像素點所構成的像素區域確定為初始對象；根據預設規則對所述初始對象進行分類，得到所述第一初始圖像中與動態類別對應的動態對象以及與靜態類別對應的靜態對象；對所述第一初始圖像中的所述動態對象進行掩膜處理，得到所述第一靜態圖像；對所述第一初始圖像中的所述靜態對象進行掩膜處理，得到所述第一動態圖像。

根據本申請可選實施例，所述基於所述第一靜態圖像、所述第一動態圖像、所述第二靜態圖像、所述第二動態圖像及所述位姿網路生成位姿絕對值矩陣包括：將所述第一靜態圖像及所述第二靜態圖像輸入到所述位姿網路中，得到靜態位姿矩陣；將所述第一動態圖像及所述第二動態圖像輸入到所述位姿網路中，得到動態位姿矩陣；將所述靜態位姿矩陣中的每個矩陣元素與所述動態位姿矩陣中對應的矩陣元素進行相減運算，得到位姿差值；對所述位姿差值取絕對值，得到所述靜態位姿矩陣中每個矩陣元素的位姿絕對值；根據所述靜態位姿矩陣中每個矩陣元素的元素位置，將所述位姿絕對值進行排列，得到所述位姿絕對值矩陣。

根據本申請可選實施例，所述第一初始圖像及所述第二初始圖像為同一拍攝設備拍攝的圖像，所述將所述第一初始圖像及所述第二初始圖像輸入所述位姿網路中，得到目標位姿矩陣包括：將所述第一初始圖像中所述動態對象對應的像素點確定為第一像素點；獲取所述第一像素點的第一齊次座標矩陣，並獲取所述第一像素點在所述第二初始圖像中對應的第二像素點的第二齊次座標矩陣；獲取所述拍攝設備的內參矩陣的逆矩陣；根據所述第一齊次座標矩陣及所述內參矩陣的逆矩陣計算出所述第一像素點的第一相機座標，並根據所述第二齊次座標矩陣及所述內參矩陣的逆矩陣計算出所述第二像素點的第二相機座標；基於預設對極約束關係式對所述第一相機座標及所述第二相機座標進行計算，得到旋轉矩陣及平移矩陣；將所述旋轉矩陣及所述平移矩陣進行拼接，得到所述目標位姿矩陣。

根據本申請可選實施例，所述根據所述位姿絕對值矩陣及預設閥值矩陣識別所述第一初始圖像的目標圖像及所述初始投影圖像的目標投影圖像包括：將所述位姿絕對值矩陣中的每個位姿絕對值與所述預設閥值矩陣中對應閥值進行比較；若所述位姿絕對值矩陣中存在至少一個大於所述對應閥值的位姿絕對值，則將所述第一靜態圖像確定為所述目標圖像，識別所述動態對象在所述第一初始圖像中的動態位置，將所述初始投影圖像中與所述動態位置所對應的區域確定為投影對象，並對所述投影對象進行掩膜處理，得到所述目標投影圖像；或者，若所述位姿絕對值矩陣中的每個位姿絕對值均小於或者等於所述對應閥值，將所述第一初始圖像確定為所述目標圖像，並將所述初始投影圖像確定為所述目標投影圖像。

根據本申請可選實施例，所述基於所述第一初始圖像、所述初始深度圖像及所述目標位姿矩陣生成所述第一初始圖像的初始投影圖像包括：獲取所述第一初始圖像中每個像素點的目標齊次座標矩陣，並從所述初始深度圖像中獲取所述第一初始圖像中每個像素點的深度值；基於所述目標位姿矩陣、每個像素點的目標齊次座標矩陣及每個像素點的深度值計算出所述第一初始圖像中每個像素點的投影座標；根據每個像素點的投影座標對每個像素點進行排列處理，得到所述初始投影圖像。

根據本申請可選實施例，所述基於所述初始深度圖像與所述目標圖像之間的梯度誤差及所述目標投影圖像與所述目標圖像之間的光度誤差，調整所述深度識別網路，得到深度識別模型包括：基於所述梯度誤差及所述光度誤差計算所述深度識別網路的深度損失值；基於所述深度損失值調整所述深度識別網路，直至所述深度損失值下降到最低，得到所述深度識別模型。

根據本申請可選實施例，所述光度誤差的計算公式為：

；其中，Lt表示所述光度誤差，α為預設的平衡參數，SSIM(x,y)表示所述目標投影圖像與所述目標圖像之間的結構相似指數，∥x _i-y _i∥表示所述目標投影圖像與所述目標圖像之間的灰度差值，x _i表示所述目標投影圖像中第i個像素點的像素值，y _i表示所述目標圖像中與所述第i個像素點對應的像素點的像素值。

本申請提供一種電腦設備，所述電腦設備包括：儲存器，儲存至少一個指令；及處理器，執行所述至少一個指令以實現所述的圖像深度識別方法。

本申請提供一種電腦可讀儲存介質，所述電腦可讀儲存介質中儲存有至少一個指令，所述至少一個指令被電腦設備中的處理器執行以實現所述的圖像深度識別方法。

綜上所述，本申請對所述第一初始圖像進行預處理，能夠準確地確定出所述第一初始圖像中的動態對象及靜態對象，當存在至少一個位姿絕對值大於對應的閥值時，確定所述動態對象發生移動，當所述位姿絕對值矩陣中所有的位姿絕對值均小於或者等於對應的閥值時，確定所述動態對象沒有發生移動，因此能夠避免將所述初始圖像中未發生移動的動態對象進行掩膜處理，當所述第一初始圖像中的動態對象發生移動時，將所述第一初始圖像中的動態對象進行掩膜處理，得到目標圖像，並將所述初始投影圖像中的動態對象進行掩膜處理，得到所述目標投影圖像，基於所述初始深度圖像與所述目標圖像之間的梯度誤差及所述目標投影圖像與所述目標圖像之間的光度誤差，調整所述深度識別網路，得到深度識別模型，由於基於所述梯度誤差及所述光度誤差對所述深度神經網路進行調整時能夠避免將所述初始圖像中未發生移動的動態對象進行掩膜處理，因此能夠提高所述深度識別模型的精度，進而能夠提高圖像的深度識別的精確度。

1:電腦設備

2:拍攝設備

12:儲存器

13:處理器

101-109:步驟

O_uv:像素點

O_XY:光點

圖1是本申請圖像深度識別方法的較佳實施例的應用環境圖。

圖2是本申請圖像深度識別方法的較佳實施例的流程圖。

圖3是本申請圖像深度識別方法的像素座標系和相機座標系的示意圖。

圖4是本申請實現圖像深度識別方法的較佳實施例的電腦設備的結構示意圖。

為了使本申請的目的、技術方案和優點更加清楚，下面結合附圖和具體實施例對本申請進行詳細描述。

如圖1所示，是本申請一種圖像深度識別方法的較佳實施例的應用環境圖。所述圖像深度識別方法可應用於一個或者多個電腦設備1中，所述電腦設備1與拍攝設備2相通信，所述拍攝設備2可以是單目相機，也可以是實現拍攝的其它設備。

所述電腦設備1是一種能夠按照事先設定或儲存的指令，自動進行參數值計算和/或資訊處理的設備，其硬體包括，但不限於：微處理器、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式設計閘陣列(Field-Programmable Gate Array，FPGA)、數位訊號處理器(Digital Signal Processor，DSP)、嵌入式設備等。

所述電腦設備1可以是任何一種可與用戶進行人機交互的電腦產品，例如，個人電腦、平板電腦、智慧手機、個人數位助理(Personal Digital Assistant，PDA)、遊戲機、互動式網路電視(Internet Protocol Television，IPTV)、穿戴式智能設備等。所述電腦設備1還可以包括網路設備和/或使用者設備。其中，所述網路設備包括，但不限於單個網路服務器、多個網路服務器組成的伺服器組或基於雲計算(Cloud Computing)的由大量主機或網路服務器構成的雲。

所述電腦設備1所處的網路包括，但不限於：網際網路、廣域網路、都會區網路、區域網路、虛擬私人網路(Virtual Private Network，VPN)等。

如圖2所示，是本申請一種圖像深度識別方法的較佳實施例的流程圖。根據不同的需求，所述流程圖中各個步驟的順序可以根據實際檢測要求進行調整，某些步驟可以省略。所述方法的執行主體為電腦設備，例如圖1所示的電腦設備1。

步驟101，獲取待識別圖像、第一初始圖像及第二初始圖像，並獲取深度識別網路及位姿網路。

在本申請的至少一個實施例中，所述待識別圖像是指需要進行深度資訊識別的圖像。在本申請的至少一個實施例中，所述第一初始圖像及所述第二初始圖像為相鄰幀的三原色光(Red Green Blue，RGB)圖像，所述第二初始圖像的生成時間大於所述第一初始圖像的生成時間，所述第一初始圖像及所述第二初始圖像中可以包含車輛，地面、行人、天空、樹木等初始對象，所述第一初始圖像及所述第二初始圖像包含相同的初始對象。

在本申請的至少一個實施例中，所述電腦設備獲取待識別圖像包括：所述電腦設備控制所述拍攝設備拍攝目標場景，得到所述待識別圖像。其中，所述目標場景中可以包括車輛，地面、行人等目標對象。

在本申請的至少一個實施例中，所述電腦設備從預設的資料庫中獲取所述第一初始圖像及所述第二初始圖像，所述預設的資料庫可以為KITTI資料庫、Cityscapes資料庫及vKITTI資料庫等等。在本申請的至少一個實施例中，所述深度識別網路可以為深度神經網路，所述位姿網路是指對位姿進行識別的卷積神經網路，所述深度識別網路及所述位姿網路均可以從網際網路的資料庫中獲取。

步驟102，基於所述深度識別網路對所述第一初始圖像進行深度識別，得到初始深度圖像。

在本申請的至少一個實施例中，所述初始深度圖像是指包含深度資訊的圖像，其中，所述深度資訊是指所述第一初始圖像中每個像素點對應的初始對象與所述第一初始圖像的拍攝設備之間的距離，其中，所述拍攝設備可以為單目相機。在本申請的至少一個實施例中，所述深度識別網路包括卷積層及反卷積層。

在本申請的至少一個實施例中，所述電腦設備基於所述深度識別網路對所述第一初始圖像進行深度識別，得到初始深度圖像包括：所述電腦設備將所述第一初始圖像輸入到所述卷積層中進行卷積運算，得到所述第一初始圖像對應的初始特徵圖，並將所述初始特徵圖輸入所述反卷積層進行反卷積運算得到高維度特徵圖，進一步地，所述電腦設備將每個像素點與所述拍攝設備之間的距離映射為所述高維度特徵圖中的每個像素點的深度值，更進一步地，所述電腦設備基於每個像素點及每個像素點的像素值生成所述初始深度圖像。

透過上述實施方式，由於每個像素點的深度值能夠反映所述第一初始圖像上的每個像素點與所述拍攝設備之間的真實距離，從而使得透過所述初始深度圖像能夠準確地計算投影座標。

步驟103，對所述第一初始圖像進行預處理，得到與所述第一初始圖像對應的第一靜態圖像和第一動態圖像，並對所述第二初始圖像進行預處理，得到與所述第二初始圖像對應的第二靜態圖像和第二動態圖像。

在本申請的至少一個實施例中，所述第一初始圖像包含多個初始對象。在本申請的至少一個實施例中，所述第一靜態圖像是指對所述第一初始圖像中的動態對象進行掩膜處理之後所生成的圖像，所述第二靜態圖像是指對所述第二初始圖像中的動態對象進行掩膜處理之後生成的圖像，所述動態對象是指能夠移動的對象，例如所述動態對象可以是行人、車輛，所述第一動態圖像是指對所述第一初始圖像中的靜態對象進行掩膜處理之後所生成的圖像，所述第二動態圖像是指對所述第二初始圖像中的靜態對象進行掩膜處理之後所生成的圖像，所述靜態對象是指不能夠移動的對象，例如，所述靜態對象可以為樹木、地面等等。

在本申請的至少一個實施例中，所述電腦設備對所述第一初始圖像進行預處理，得到所述第一初始圖像對應的第一靜態圖像和第一動態圖像包括：所述電腦設備基於所述第一初始圖像中每個像素點的像素值計算所述第一初始圖像中每個像素點的單個評分值，進一步地，所述電腦設備基於所述單個評分值及多個預設對象，計算所述第一初始圖像中每個像素點在每個預設對象上的類別概率，更進一步地，所述電腦設備將取值最大的類別概率所對應的預設對象確定為該像素點所對應的像素對象，並將所述第一初始圖像中相同像素對象的像素點所構成的像素區域確定為初始對象，更進一步地，所述電腦設備根據預設規則對所述初始對象進行分類，得到所述第一初始圖像中與動態類別對應的動態對象以及與靜態類別對應的靜態對象，更進一步地，所述電腦設備對所述第一初始圖像中的所述動態對象進行掩膜處理，得到所述第一靜態圖像，及對所述第一初始圖像中的所述靜態對象進行掩膜處理，得到所述第一動態圖像。

在本申請的至少一個實施例中，所述預設規則將屬於代步工具、人或者動物等初始對象確定為可以移動的初始對象，並將所述可以移動的初始對象確定為所述動態類別，將屬於植物、固定對象等初始對象確定為不能移動的初始對象，並將不能移動的初始對象對應的初始類別確定為所述靜態類別。例如將可以移動的行人、小貓、小狗、自行車及小轎車等初始對象確定為所述動態類別，並將不能移動的樹木、路燈及建築物等初始對象確定為所述靜態類別。

具體地，所述類別概率的計算公式為：

，i=1,2,...,k；其中，S _i表示每個像素點屬於第i個預設對象的類別概率，

表示所述第一初始圖像中的第j個像素點的單個評分值，z _j表示所述第一初始圖像中的第j個像素點的像素值，

表示所述第一初始圖像中所有像素點的總評分值，i表示所述第i個預設對象，k表示所述多個預設對象的數量。

在本申請的至少一個實施例中，所述第二靜態圖像的生成過程與所述第一靜態圖像基本一致，所述第二動態圖像的生成過程與所述第一動態圖像基本一致，故本申請在此不作贅述。

透過上述實施方式，將所述第一初始圖像中相同像素對象的像素點所構成的像素區域確定為初始對象，並根據預設規則對所述初始對象進行初步分類，能夠初步確定出所述第一初始圖像中動態對象及靜態對象的位置，從而透過位置能夠準確地將所述動態對象及所述靜態對象進行掩膜處理。

步驟104，基於所述第一靜態圖像、所述第一動態圖像、所述第二靜態圖像、所述第二動態圖像及所述位姿網路生成位姿絕對值矩陣。

在本申請的至少一個實施例中，所述位姿絕對值矩陣是指由多個位姿絕對值生成的矩陣，所述位姿絕對值是指靜態位姿矩陣中的元素與動態位姿矩陣中對應的元素之間的差值的絕對值，所述靜態位姿矩陣是指根據所述第一靜態圖像及所述第二靜態圖像生成的矩陣，所述動態位姿矩陣是指根據所述第一動態圖像及所述第二動態圖像生成的矩陣。在本申請的至少一個實施例中，所述電腦設備基於所述第一靜態圖像、所述第一動態圖像、所述第二靜態圖像、所述第二動態圖像及所述位姿網路生成位姿絕對值矩陣包括：所述電腦設備將所述第一靜態圖像及所述第二靜態圖像輸入到所述位姿網路中，得到靜態位姿矩陣，及將所述第一動態圖像及所述第二動態圖像輸入到所述位姿網路中，得到動態位姿矩陣，進一步地，所述電腦設備將所述靜態位姿矩陣中的每個矩陣元素與所述動態位姿矩陣中對應的矩陣元素進行相減運算，得到位姿差值，更進一步地，所述電腦設備對所述位姿差值取絕對值，得到所述靜態位姿矩陣中每個矩陣元素的位姿絕對值，更進一步地，所述電腦設備根據所述靜態位姿矩陣中每個矩陣元素的元素位置，將所述位姿絕對值進行排列，得到所述位姿絕對值矩陣。在本實施例中，所述靜態位姿矩陣和所述動態位姿矩陣的生成方式與下文中的目標位姿矩陣的生成方式基本相同，故本申請在此不作贅述。

透過上述實施方式，由於所述靜態位姿矩陣中包含靜態對象的位置和姿態，所述動態位姿矩陣中包含動態對象的位置和姿態，因此所述靜態位姿矩陣能夠準確反映所述靜態對象的狀態，所述動態位姿矩陣能夠準確反映所述動態對象的狀態，當所述動態對象沒有移動時，所述動態位姿矩陣與所述靜態位姿矩陣基本相同，透過所述位姿絕對值與對應閥值的運算結果來確定所述動態對象是否發生移動，能夠避免合理誤差的影響。

步驟105，將所述第一初始圖像及所述第二初始圖像輸入所述位姿網路中，得到目標位姿矩陣。

在本申請的至少一個實施例中，所述目標位姿矩陣是指所述第一初始圖像中的每個像素點的相機座標到世界座標的變換關係，所述第一初始圖像中的每個像素點的相機座標是指每個像素點在相機座標系中的座標。如圖3所示，是本申請深度識別方法的像素座標系和相機座標系的示意圖，所述電腦設備以所述第一初始圖像的第一行第一列的像素點O_uv為原點，以第一行像素點所在的平行線為u軸，以第一列像素點所在的垂直線為v軸構建像素座標系。此外，所述電腦設備以所述單目相機的光點O_XY為原點，以所述單目相機的光軸為Z軸，以所述像素座標系u軸的平行線為X軸，以所述像素座標系的v軸的平行線為Y軸構建所述相機座標系。

在本申請的至少一個實施例中，所述電腦設備將所述第一初始圖像及所述第二初始圖像輸入所述位姿網路中，得到目標位姿矩陣包括：所述電腦設備將所述第一初始圖像中所述動態對象對應的像素點確定為第一像素點，進一步地，所述電腦設備獲取所述第一像素點的第一齊次座標矩陣，並獲取所述第一像素點在所述第二初始圖像中對應的第二像素點的第二齊次座標矩陣，進一步地，所述電腦設備獲取所述拍攝設備的內參矩陣的逆矩陣，更進一步地，所述電腦設備根據所述第一齊次座標矩陣及所述內參矩陣的逆矩陣計算出所述第一像素點的第一相機座標，並根據所述第二齊次座標矩陣及所述內參矩陣的逆矩陣計算出所述第二像素點的第二相機座標，更進一步地，所述電腦設備基於預設對極約束關係式對所述第一相機座標及所述第二相機座標進行計算，得到旋轉矩陣及平移矩陣，並將所述旋轉矩陣及所述平移矩陣進行拼接，得到所述目標位姿矩陣。

其中，所述第一像素點的第一齊次座標矩陣是指維度比像素座標矩陣的維度多出一維的矩陣，而且多出的一個維度的元素值為1，所述像素座標矩陣是指根據所述第一像素點的第一像素座標生成的矩陣，所述第一像素座標是指所述第一像素點在所述像素座標系中的座標，例如，所述第一像素點在所述像素座標系中的第一像素座標為(u,v)，所述第一像素點的像素座標矩陣為

；則該像素點的齊次座標矩陣為

。將所述第一齊次座標矩陣及所述內參矩陣的逆矩陣進行相乘，得到所述第一像素點的第一相機座標，並將所述第二齊次座標矩陣及所述內參矩陣的逆矩陣進行相乘，得到所述第二像素點的第二相機座標。

其中，所述第二齊次座標矩陣的生成方式與所述第一齊次座標矩陣的生成方式基本一致，本申請在此不作贅述。

所述目標旋轉矩陣可以表示為：

；其中，pose為所述目標位姿矩陣，所述目標位姿矩陣為4x4的矩陣，R為所述旋轉矩陣，所述旋轉矩陣為3x3的矩陣，t為所述平移矩陣，所述平移矩陣為3x1的矩陣。

其中，所述平移矩陣及所述旋轉矩陣的計算公式為：K ^-1 p ₁(txR)(K ^-1 p ₂)^T=0；其中，K ^-1 p ₁為所述第一相機座標，K ^-1 p ₂為所述第二相機座標，p ₁為所述第一齊次座標矩陣，p ₂為所述第二齊次座標矩陣，K ^-1為所述內參矩陣的逆矩陣。

透過上述實施方式，根據所述相機內參矩陣將所述第一初始圖像及所述第二初始圖像中每個像素點的二維像素座標轉換為相機座標系中三維的相機座標，透過所述相機座標能夠準確地計算出旋轉矩陣及平移矩陣，從而根據所述旋轉矩陣及所述平移矩陣準確地生成所述目標位姿矩陣。

步驟106，基於所述第一初始圖像、所述初始深度圖像及所述目標位姿矩陣生成所述第一初始圖像的初始投影圖像。

在本申請的至少一個實施例中，所述初始投影圖像表示變換過程的圖像，所述變換過程是指所述第一初始圖像中像素點的像素座標與所述第二初始圖像中對應的像素座標之間的變換過程。在本申請的至少一個實施例中，所述電腦設備基於所述第一初始圖像、所述初始深度圖像及所述目標位姿矩陣生成所述第一初始圖像的初始投影圖像包括：所述電腦設備獲取所述第一初始圖像中每個像素點的目標齊次座標矩陣，並從所述初始深度圖像中獲取所述第一初始圖像中每個像素點的深度值，進一步地，所述電腦設備基於所述目標位姿矩陣、每個像素點的目標齊次座標矩陣及每個像素點的深度值計算出所述第一初始圖像中每個像素點的投影座標，更進一步地，所述電腦設備根據每個像素點的投影座標對每個像素點進行排列處理，得到所述初始投影圖像。

其中，所述深度值是指所述初始深度圖像中每個像素點的像素值。

具體地，所述初始投影圖像中每個像素點的投影座標的計算公式為：P=K * pose * Z * K ^-1 * H；其中，P表示每個像素點的投影座標，K表示所述拍攝設備的內參矩陣，pose表示所述目標位姿矩陣，K^-1表示K的逆矩陣，H表示所述第一初始圖像中每個像素點的目標齊次座標矩陣，Z表示所述初始深度圖像中對應的像素點的深度值。

步驟107，根據所述位姿絕對值矩陣及預設閥值矩陣識別所述第一初始圖像的目標圖像及所述初始投影圖像的目標投影圖像。

在本申請的至少一個實施例中，所述預設閥值矩陣是指預先設置的與所述位姿絕對值矩陣的維度相同的矩陣，所述預設閥值矩陣中包含多個閥值。在本申請的至少一個實施例中，所述電腦設備根據所述位姿絕對值矩陣及預設閥值矩陣識別所述第一初始圖像的目標圖像及所述初始投影圖像的目標投影圖像包括：所述電腦設備將所述位姿絕對值矩陣中的每個位姿絕對值與所述預設閥值矩陣中對應閥值進行比較，若所述位姿絕對值矩陣中存在至少一個大於所述對應閥值的位姿絕對值，則所述電腦設備將所述第一靜態圖像確定為所述目標圖像，識別所述動態對象在所述第一初始圖像中的動態位置，將所述初始投影圖像中與所述動態位置所對應的區域確定為投影對象，並對所述投影對象進行掩膜處理，得到所述目標投影圖像，或者，若所述位姿絕對值矩陣中的每個位姿絕對值均小於或者等於所述對應閥值，則所述電腦設備將所述第一初始圖像確定為所述目標圖像，並將所述初始投影圖像確定為所述目標投影圖像。

透過上述實施方式，當存在至少一個位姿絕對值大於對應的閥值時，確定所述動態對象發生移動，將所述第一靜態圖像確定為所述目標圖像，並將所述初始投影圖像中所述動態類別對應的動態對象進行掩膜處理，由於所述動態類別對應的動態對象的位置發生了變化，因此所述動態對象對應的像素點的深度值發生了變化，在計算損失值時不使用所述深度值進行計算，能夠避免發生移動的動態對象對計算損失值的影響，當所述位姿絕對值矩陣中所有的位姿絕對值均小於或者等於對應的閥值時，確定所述動態對象沒有發生移動，將所述第一初始圖像確定為所述目標圖像，並將所述初始投影圖像確定為所述目標投影圖像，能夠準確的計算出所述損失值。

步驟108，基於所述初始深度圖像與所述目標圖像之間的梯度誤差及所述目標投影圖像與所述目標圖像之間的光度誤差，調整所述深度識別網路，得到深度識別模型。

在本申請的至少一個實施例中，所述深度識別模型是指對所述深度識別網路進行調整後生成的模型。在本申請的至少一個實施例中，所述電腦設備基於所述初始深度圖像與所述目標圖像之間的梯度誤差及所述目標投影圖像與所述目標圖像之間的光度誤差，調整所述深度識別網路，得到深度識別模型包括：所述電腦設備基於所述梯度誤差及所述光度誤差計算所述深度識別網路的深度損失值，進一步地，所述電腦設備基於所述深度損失值調整所述深度識別網路，直至所述深度損失值下降到最低，得到所述深度識別模型。

具體地，所述深度損失值的計算公式為：Lc=Lt+Ls；其中，Lc表示所述深度損失值，Lt表示所述光度誤差，Ls表示所述梯度誤差。

其中，所述光度誤差的計算公式為：

；其中，Lt表示所述光度誤差，α為預設的平衡參數，一般取值為0.85，SSIM(x,y)表示所述目標投影圖像與所述目標圖像之間的結構相似指數，∥x _i-y _i∥表示所述目標投影圖像與所述目標圖像之間的灰度差值，x _i表示所述目標投影圖像第i個像素點的像素值，y _i表示所述目標圖像中與所述第i個像素點對應的像素點的像素值值。

其中，所述結構相似指數的計算公式為：

；c ₁=(K ₁ L)²；c ₂=(K ₂ L)²；其中，SSIM(x,y)為所述結構相似指數，x為所述目標投影圖像，y為所述目標圖像，μ _x為所述目標投影圖像的灰度平均值，μ _y為所述目標圖像的灰度平均值，σ _x為所述目標投影圖像的灰度標準差，σ _y為所述目標圖像的灰度標準差，σ _xy為所述目標投影圖像與所述目標圖像之間的灰度協方差，c ₁及c ₂均為預設參數， L為所述目標圖像中最大的像素值，K ₁及K ₂是預先設置的常數，且K ₁<<1，K ₂<<1。

所述梯度誤差的計算公式為：

；其中，Ls表示所述梯度誤差，x表示所述初始深度圖像，y表示所述目標圖像，D(u，v)表示所述初始深度圖像中第i個像素點的像素座標，I(u，v)表示所述目標圖像中第i個像素點的像素座標。

透過上述實施方式，由於避免了發生移動的動態對象對計算所述深度識別網路的損失值的影響，因此能夠提高所述深度識別模型的精度。

步驟109，將所述待識別圖像輸入到所述深度識別模型中，得到所述待識別圖像的目標深度圖像及所述待識別圖像的深度資訊。

在本申請的至少一個實施例中，所述目標深度圖像是指包含所述待識別圖像中每個像素點的深度資訊的圖像，所述待識別圖像中每個像素點的深度資訊是指所述待識別圖像中每個像素點對應的待識別對象與所述拍攝設備之間的距離。在本申請的至少一個實施例中，所述目標深度圖像的生成方式與所述初始深度圖像的生成方式基本一致，故本申請在此不做贅述。

在本申請的至少一個實施例中，所述電腦設備獲取所述目標深度圖像中每個像素點的像素值作為所述待識別圖像中對應的像素點的深度資訊。

透過上述實施方式，由於提升了所述深度識別模型的精度，因此能夠提高所述待識別圖像的深度識別的精確度。

如圖4所示，是本申請實現圖像深度識別方法的較佳實施例的電腦設備的結構示意圖。

在本申請的一個實施例中，所述電腦設備1包括，但不限於，儲存器12、處理器13，以及儲存在所述儲存器12中並可在所述處理器13上運行的電腦程式，例如深度識別程式。本領域技術人員可以理解，所述示意圖僅僅是電腦設備1的示例，並不構成對電腦設備1的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件，例如所述電腦設備1還可以包括輸入輸出設備、網路接入設備、匯流排等。

所述處理器13可以是中央處理單元(Central Processing Unit，CPU)，還可以是其他通用處理器、數位訊號處理器(Digital Signal Processor，DSP)、專用積體電路(Application Specific Integrated Circuit，ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array，FPGA)或者其他可程式設計邏輯器件、分立元器件門電路或者電晶體組件、分立硬體組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等，所述處理器13是所述電腦設備1的運算核心和控制中心，利用各種介面和線路連接整個電腦設備1的各個部分，及獲取所述電腦設備1的作業系統以及安裝的各類應用程式、程式碼等。例如，所述處理器13可以透過介面獲取所述拍攝設備2拍攝到的所述待識別圖像。所述處理器13獲取所述電腦設備1的作業系統以及安裝的各類應用程式。所述處理器13獲取所述應用程式以實現上述各個圖像深度識別方法實施例中的步驟，例如圖2所示的步驟。

示例性的，所述電腦程式可以被分割成一個或多個模組/單元，所述一個或者多個模組/單元被儲存在所述儲存器12中，並由所述處理器13獲取，以完成本申請。所述一個或多個模組/單元可以是能夠完成特定功能的一系列電腦程式指令段，該指令段用於描述所述電腦程式在所述電腦設備1中的獲取過程。

所述儲存器12可用於儲存所述電腦程式和/或模組，所述處理器13透過運行或獲取儲存在所述儲存器12內的電腦程式和/或模組，以及調用儲存在儲存器12內的資料，實現所述電腦設備1的各種功能。所述儲存器12可主要包括儲存程式區和儲存資料區，其中，儲存程式區可儲存作業系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等；儲存資料區可儲存根據電腦設備的使用所創建的資料等。此外，儲存器12可以包括非易失性儲存器，例如硬碟、儲存器、插接式硬碟，智慧儲存卡(Smart Media Card,SMC)，安全數位(Secure Digital,SD)卡，記憶卡(Flash Card)、至少一個磁碟儲存器件、快閃儲存器器件、或其他非易失性固態儲存器件。所述儲存器12可以是電腦設備1的外部儲存器和/或內部儲存器。進一步地，所述儲存器12可以是具有實物形式的儲存器，如儲存器條、TF卡(Trans-flash Card)等等。

所述電腦設備1集成的模組/單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解，本申請實現上述實施例方法中的全部或部分流程，也可以透過電腦程式來指令相關的硬體來完成，所述的電腦程式可儲存於一電腦可讀儲存介質中，該電腦程式在被處理器獲取時，可實現上述各個方法實施例的步驟。

其中，所述電腦程式包括電腦程式代碼，所述電腦程式代碼可以為原始程式碼形式、對象代碼形式、可獲取檔或某些中間形式等。所述電腦可讀介質可以包括：能夠攜帶所述電腦程式代碼的任何實體或裝置、記錄介質、隨身碟、移動硬碟、磁碟、光碟、電腦儲存器、唯讀儲存器(ROM，Read-Only Memory)。

結合圖2，所述電腦設備1中的所述儲存器12儲存多個指令以實現一種圖像深度識別方法，所述處理器13可獲取所述多個指令從而實現：獲取待識別圖像、第一初始圖像及第二初始圖像，並獲取深度識別網路及位姿網路；基於所述深度識別網路對所述第一初始圖像進行深度識別，得到初始深度圖像；對所述第一初始圖像進行預處理，得到與所述第一初始圖像對應的第一靜態圖像和第一動態圖像，並對所述第二初始圖像進行預處理，得到與所述第二初始圖像對應的第二靜態圖像和第二動態圖像；基於所述第一靜態圖像、所述第一動態圖像、所述第二靜態圖像、所述第二動態圖像及所述位姿網路生成位姿絕對值矩陣；將所述第一初始圖像及所述第二初始圖像輸入所述位姿網路中，得到目標位姿矩陣；基於所述第一初始圖像、所述初始深度圖像及所述目標位姿矩陣生成所述第一初始圖像的初始投影圖像；根據所述位姿絕對值矩陣及預設閥值矩陣識別所述第一初始圖像的目標圖像及所述初始投影圖像的目標投影圖像；基於所述初始深度圖像與所述目標圖像之間的梯度誤差及所述目標投影圖像與所述目標圖像之間的光度誤差，調整所述深度識別網路，得到深度識別模型；將所述待識別圖像輸入到所述深度識別模型中，得到所述待識別圖像的目標深度圖像及所述待識別圖像的深度資訊。

具體地，所述處理器13對上述指令的具體實現方法可參考圖2對應實施例中相關步驟的描述，在此不贅述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統，裝置和方法，可以透過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述模組的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。

所述作為分離部件說明的模組可以是或者也可以不是物理上分開的，作為模組顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。另外，在本申請各個實施例中的各功能模組可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用硬體加軟體功能模組的形式實現。

因此，無論從哪一點來看，均應將實施例看作是示範性的，而且是非限制性的，本申請的範圍由所附請求項而不是上述說明限定，因此旨在將落在請求項的等同要件的含義和範圍內的所有變化涵括在本申請內。不應將請求項中的任何附關聯圖標記視為限制所涉及的請求項。

此外，顯然“包括”一詞不排除其他單元或步驟，單數不排除複數。本申請中陳述的多個單元或裝置也可以由一個單元或裝置透過軟體或者硬體來實現。第一、第二等詞語用來表示名稱，而並不表示任何特定的順序。

最後應說明的是，以上實施例僅用以說明本申請的技術方案而非限制，儘管參照較佳實施例對本申請進行了詳細說明，本領域的普通技術人員應當理解，可以對本申請的技術方案進行修改或等同替換，而不脫離本申請技術方案的精神和範圍。

101-109:步驟

Claims

一種圖像深度識別方法，執行於電腦設備，其中，所述圖像深度識別方法包括：獲取待識別圖像、第一初始圖像及第二初始圖像，並獲取深度識別網路及位姿網路；基於所述深度識別網路對所述第一初始圖像進行深度識別，得到初始深度圖像；對所述第一初始圖像進行預處理，得到與所述第一初始圖像對應的第一靜態圖像和第一動態圖像，並對所述第二初始圖像進行預處理，得到與所述第二初始圖像對應的第二靜態圖像和第二動態圖像；基於所述第一靜態圖像、所述第一動態圖像、所述第二靜態圖像、所述第二動態圖像及所述位姿網路生成位姿絕對值矩陣；將所述第一初始圖像及所述第二初始圖像輸入所述位姿網路中，得到目標位姿矩陣；基於所述第一初始圖像、所述初始深度圖像及所述目標位姿矩陣生成所述第一初始圖像的初始投影圖像；根據所述位姿絕對值矩陣及預設閥值矩陣識別所述第一初始圖像的目標圖像及所述初始投影圖像的目標投影圖像；基於所述初始深度圖像與所述目標圖像之間的梯度誤差及所述目標投影圖像與所述目標圖像之間的光度誤差，調整所述深度識別網路，得到深度識別模型；將所述待識別圖像輸入到所述深度識別模型中，得到所述待識別圖像的目標深度圖像及所述待識別圖像的深度資訊。
如請求項1所述的圖像深度識別方法，其中，所述對所述第一初始圖像進行預處理，得到與所述第一初始圖像對應的第一靜態圖像和第一動態圖像包括：基於所述第一初始圖像中每個像素點的像素值計算所述第一初始圖像中每個像素點的單個評分值；基於所述單個評分值及多個預設對象，計算所述第一初始圖像中每個像素點在每個預設對象上的類別概率；將取值最大的類別概率所對應的預設對象確定為該像素點所對應的像素對象；將所述第一初始圖像中相同像素對象的像素點所構成的像素區域確定為初始對象；根據預設規則對所述初始對象進行分類，得到所述第一初始圖像中與動態類別對應的動態對象以及與靜態類別對應的靜態對象；對所述第一初始圖像中的所述動態對象進行掩膜處理，得到所述第一靜態圖像；對所述第一初始圖像中的所述靜態對象進行掩膜處理，得到所述第一動態圖像。
如請求項1所述的圖像深度識別方法，其中，所述基於所述第一靜態圖像、所述第一動態圖像、所述第二靜態圖像、所述第二動態圖像及所述位姿網路生成位姿絕對值矩陣包括：將所述第一靜態圖像及所述第二靜態圖像輸入到所述位姿網路中，得到靜態位姿矩陣；將所述第一動態圖像及所述第二動態圖像輸入到所述位姿網路中，得到動態位姿矩陣；將所述靜態位姿矩陣中的每個矩陣元素與所述動態位姿矩陣中對應的矩陣元素進行相減運算，得到位姿差值；對所述位姿差值取絕對值，得到所述靜態位姿矩陣中每個矩陣元素的位姿絕對值；根據所述靜態位姿矩陣中每個矩陣元素的元素位置，將所述位姿絕對值進行排列，得到所述位姿絕對值矩陣。
如請求項2所述的圖像深度識別方法，其中，所述第一初始圖像及所述第二初始圖像為同一拍攝設備拍攝的圖像，所述將所述第一初始圖像及所述第二初始圖像輸入所述位姿網路中，得到目標位姿矩陣包括：將所述第一初始圖像中所述動態對象對應的像素點確定為第一像素點；獲取所述第一像素點的第一齊次座標矩陣，並獲取所述第一像素點在所述第二初始圖像中對應的第二像素點的第二齊次座標矩陣；獲取所述拍攝設備的內參矩陣的逆矩陣；根據所述第一齊次座標矩陣及所述內參矩陣的逆矩陣計算出所述第一像素點的第一相機座標，並根據所述第二齊次座標矩陣及所述內參矩陣的逆矩陣計算出所述第二像素點的第二相機座標；基於預設對極約束關係式對所述第一相機座標及所述第二相機座標進行計算，得到旋轉矩陣及平移矩陣；將所述旋轉矩陣及所述平移矩陣進行拼接，得到所述目標位姿矩陣。
如請求項2所述的圖像深度識別方法，其中，所述根據所述位姿絕對值矩陣及預設閥值矩陣識別所述第一初始圖像的目標圖像及所述初始投影圖像的目標投影圖像包括：將所述位姿絕對值矩陣中的每個位姿絕對值與所述預設閥值矩陣中對應閥值進行比較；若所述位姿絕對值矩陣中存在至少一個大於所述對應閥值的位姿絕對值，則將所述第一靜態圖像確定為所述目標圖像，識別所述動態對象在所述第一初始圖像中的動態位置，將所述初始投影圖像中與所述動態位置所對應的區域確定為投影對象，並對所述投影對象進行掩膜處理，得到所述目標投影圖像；或者若所述位姿絕對值矩陣中的每個位姿絕對值均小於或者等於所述對應閥值，將所述第一初始圖像確定為所述目標圖像，並將所述初始投影圖像確定為所述目標投影圖像。
如請求項1所述的圖像深度識別方法，其中，所述基於所述第一初始圖像、所述初始深度圖像及所述目標位姿矩陣生成所述第一初始圖像的初始投影圖像包括：獲取所述第一初始圖像中每個像素點的目標齊次座標矩陣，並從所述初始深度圖像中獲取所述第一初始圖像中每個像素點的深度值；基於所述目標位姿矩陣、每個像素點的目標齊次座標矩陣及每個像素點的深度值計算出所述第一初始圖像中每個像素點的投影座標；根據每個像素點的投影座標對每個像素點進行排列處理，得到所述初始投影圖像。
如請求項1所述的圖像深度識別方法，其中，所述基於所述初始深度圖像與所述目標圖像之間的梯度誤差及所述目標投影圖像與所述目標圖像之間的光度誤差，調整所述深度識別網路，得到深度識別模型包括：基於所述梯度誤差及所述光度誤差計算所述深度識別網路的深度損失值；基於所述深度損失值調整所述深度識別網路，直至所述深度損失值下降到最低，得到所述深度識別模型。
如請求項7所述的圖像深度識別方法，其中，所述光度誤差的計算公式為：
其中，Lt表示所述光度誤差，α為預設的平衡參數，SSIM(x,y)表示所述目標投影圖像與所述目標圖像之間的結構相似指數，∥x _i-y _i∥表示所述目標投影圖像與所述目標圖像之間的灰度差值，x _i表示所述目標投影圖像中第i個像素點的像素值，y _i表示所述目標圖像中與所述第i個像素點對應的像素點的像素值。
一種電腦設備，其中，所述電腦設備包括：儲存器，儲存至少一個指令；及處理器，獲取所述儲存器中儲存的指令以實現如請求項1至8中任意一項所述的圖像深度識別方法。
一種電腦可讀儲存介質，其中：所述電腦可讀儲存介質中儲存有至少一個指令，所述至少一個指令被電腦設備中的處理器執行以實現如請求項1至8中任意一項所述的圖像深度識別方法。