TWI769641B

TWI769641B - 圖像標注方法、電子設備及電腦可讀儲存介質

Info

Publication number: TWI769641B
Application number: TW109146541A
Authority: TW
Inventors: 楊昆霖; 夏鵬程; 侯軍; 伊帥
Original assignee: 大陸商上海商湯智能科技有限公司
Priority date: 2020-05-28
Filing date: 2020-12-28
Publication date: 2022-07-01
Also published as: KR20210149040A; JP7167359B2; WO2021238151A1; KR102413000B1; US20220058824A1; JP2022538197A; CN111724441A; TW202145074A

Abstract

本發明實施例關於一種圖像標注方法、電子設備及電腦可讀儲存介質。該方法包括：獲取待標注圖像和第一尺度指標；所述待標注圖像攜帶第一人物的人物點標籤；所述第一人物的人物點標籤包括第一人物點的第一位置；所述第一尺度指標表徵第一尺寸與第二尺寸之間的映射；所述第一尺寸為位於所述第一位置的第一參考物體的尺寸；所述第二尺寸為所述第一參考物體在真實世界下的尺寸；在所述第一尺度指標大於或等於第一閾值的情況下，基於所述第一人物點構建圖元點鄰域；所述圖元點鄰域包括不同於所述第一人物點的第二圖元點；將所述第二圖元點的位置作為所述第一人物的人物點標籤。

Description

圖像標注方法、電子設備及電腦可讀儲存介質

本發明關於電腦視覺技術領域，關於一種圖像標注方法、電子設備及電腦可讀儲存介質。

隨著電腦視覺技術的快速發展，各種電腦視覺模型應運而生，其中就包括人物定位模型。而在使用人物定位模型進行定位之前，需要對人物定位模型進行訓練。訓練圖像的標注資訊為訓練圖像中人物區域內的圖元點的位置。

目前，通過人工標注的方式可標注出訓練圖像中人物區域內的圖元點的位置，得到人物點標籤，但人物點標籤的準確度低。

本發明實施例提供一種圖像標注方法、電子設備及電腦可讀儲存介質。

第一方面，提供了一種圖像標注方法，所述方法包括：獲取待標注圖像和第一尺度指標；所述待標注圖像攜帶第一人物的人物點標籤；所述第一人物的人物點標籤包括第一人物點的第一位置；所述第一尺度指標表徵第一尺寸與第二尺寸之間的映射；所述第一尺寸為位於所述第一位置的第一參考物體的尺寸；所述第二尺寸為所述第一參考物體在真實世界下的尺寸；在所述第一尺度指標大於或等於第一閾值的情況下，基於所述第一人物點構建圖元點鄰域；所述圖元點鄰域包括不同於所述第一人物點的第一圖元點；將所述第一圖元點的位置作為所述第一人物的人物點標籤。

在該方面中，以已標注人物點和已標注人物點的尺度指標，確定人物區域中是否存在未標注的圖元點。在確定人物區域中存在未標注的圖元點的情況下，基於已標注人物點構建圖元點鄰域，並將圖元點鄰域內除已標注人物點之外的圖元點的位置，作為與該人物區域對應的人物的標籤，從而提高標注準確度。

結合本發明任一實施方式，所述方法還包括：獲取第一長度；所述第一長度為所述第一人物在真實世界下的長度；依據所述第一位置、所述第一尺度指標和所述第一長度，得到所述第一人物的至少一個人物框的位置；將所述至少一個人物框的位置作為所述第一人物的人物框標籤。

結合本發明任一實施方式，所述至少一個人物框的位置包括第二位置；所述依據所述第一位置、所述第一尺度指標和所述第一長度，得到所述第一人物的至少一個人物框的位置，包括：確定所述第一尺度指標與所述第一長度的乘積，得到所述第一人物在待標注圖像中的第二長度；依據所述第一位置和所述第二長度，確定第一人物框的位置，作為所述第二位置；所述第一人物框的中心為所述第一人物點；所述第一人物框在y軸方向上的最大長度不小於所述第二長度。

結合本發明任一實施方式，所述第一人物框的形狀為矩形；所述依據所述第一位置和所述第二長度，確定第一人物框的位置，包括：依據所述第一位置和所述第二長度，確定所述第一人物框的對角頂點的座標；所述對角頂點包括第一頂點和第二頂點；所述第一頂點和所述第二頂點均為第一線段的上的點；所述第一線段為所述第一人物框的對角線。

結合本發明任一實施方式，所述第一人物框的形狀為正方形；所述第一位置在所述待標注圖像的圖元座標系下的座標為：（p，q）；所述依據所述第一位置和所述第二長度，確定所述第一人物框的對角頂點的座標，包括：確定所述p與第三長度之間的差得到第一橫座標，確定所述q與所述第三長度之間的差得到第一縱座標，確定所述p與所述第三長度之間的和得到第二橫座標，確定所述q與所述第三長度之間的和得到第二縱座標；所述第三長度為所述第二長度的一半；將所述第一橫座標作為所述第一頂點的橫座標，將所述第一縱座標作為所述第一頂點的縱座標，將所述第二橫座標作為所述第二頂點的橫座標，將所述第二縱座標作為所述第二頂點的縱座標。

結合本發明任一實施方式，所述獲取第一尺度指標，包括：對所述待標注圖像進行物體檢測處理，得到第一物體框和第二物體框；依據所述第一物體框在y軸方向上的長度得到第三長度，依據所述第二物體框在y軸方向上的長度得到第四長度；所述y軸為所述待標注圖像的圖元座標系的縱軸；依據所述第三長度和第一物體在真實世界下的第五長度得到第二尺度指標，依據所述第四長度和第二物體在真實世界下的第六長度得到第三尺度指標；所述第一物體為所述第一物體框所包含的檢測對象；所述第二物體為所述第二物體框所包含的檢測對象；所述第二尺度指標表徵第三尺寸與第四尺寸之間的映射；所述第三尺寸為位於第二尺度位置的第二參考物體的尺寸；所述第四尺寸為所述第二參考物體在真實世界下的尺寸；所述第二尺度位置為所述待標注圖像中依據所述第一物體框的位置確定的位置；所述第三尺度指標表徵第五尺寸與第六尺寸之間的映射；所述第五尺寸為位於第三尺度位置的第三參考物體的尺寸；所述第六尺寸為所述第三參考物體在真實世界下的尺寸；所述第三尺度位置為所述待標注圖像中依據所述第二物體框的位置確定的位置；對所述第二尺度指標和所述第三尺度指標進行曲線擬合處理，得到所述待標注圖像的尺度指標圖；所述尺度指標圖中的第一圖元值表徵第七尺寸與第八尺寸之間的映射；所述第七尺寸為位於第四尺度位置的第四參考物體的尺寸；所述第八尺寸為所述第四參考物體在真實世界下的尺寸；所述第一圖元值為第二圖元點的圖元值；所述第四尺度位置為第三圖元點在所述待標注圖像中的位置；所述第二圖元點在所述尺度指標圖中的位置與所述第三圖元點在所述待標注圖像中的位置相同；依據所述尺度指標圖和所述第一位置，得到所述第一尺度指標。

結合本發明任一實施方式，所述第一人物的人物點標籤屬於已標注人物點標籤；所述第一人物的人物框標籤屬於已標注人物框標籤；所述方法還包括：獲取待訓練網路；使用所述待訓練網路對所述待標注圖像進行處理，得到所述至少一個人物點的位置和至少一個人物框的位置；依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異；依據所述已標注人物框標籤與所述至少一個人物框的位置之間的差異，得到第二差異；依據所述第一差異和所述第二差異，得到所述待訓練網路的損失；基於所述損失更新所述待訓練網路的參數，得到人群定位網路。

結合本發明任一實施方式，所述已標注人物點標籤還包括第二人物的人物點標籤；所述第二人物的人物點標籤包括第二人物點的第三位置；所述至少一個人物點的位置包括：第四位置和第五位置；所述第四位置為所述第一人物的人物點的位置，所述第五位置為所述第二人物的人物點的位置；在所述依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異之前，所述方法還包括：獲取第四尺度指標；所述第四尺度指標表徵第九尺寸與第十尺寸之間的映射；所述第九尺寸為位於所述第三位置的第五參考物體的尺寸；所述第十尺寸為所述第五參考物體在真實世界下的尺寸；所述依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異，包括：依據所述第一位置與所述第四位置之間的差異得到第三差異，依據所述第三位置與所述第五位置之間的差異得到第四差異；依據所述第一尺度指標和所述第四尺度指標，得到所述第三差異的第一權重和所述第四差異的第二權重；在所述第一尺度指標小於所述第四尺度指標的情況下，所述第一權重大於所述第二權重；在所述第一尺度指標大於所述第四尺度指標的情況下，所述第一權重小於所述第二權重；在所述第一尺度指標等於所述第四尺度指標的情況下，所述第一權重等於所述第二權重；依據所述第一權重和所述第二權重，對所述第三差異和所述第四差異加權求和，得到所述第一差異。

結合本發明任一實施方式，所述獲取第四尺度指標，包括：依據所述尺度指標圖和所述第三位置，得到所述第四尺度指標。

結合本發明任一實施方式，所述使用所述待訓練網路對所述待標注圖像進行處理，得到所述至少一個人物點的位置和至少一個人物框的位置，包括：對所述待標注圖像進行特徵提取處理，得到第一特徵資料；對所述第一特徵資料進行下採樣處理，得到所述至少一個人物框的位置；對所述第一特徵資料進行上採樣處理，得到所述至少一個人物點的位置。

結合本發明任一實施方式，所述對所述第一特徵資料進行下採樣處理，得到所述至少一個人物框的位置，包括：對所述第一特徵資料進行下採樣處理，得到第二特徵資料；對所述第二特徵資料進行卷積處理，得到所述至少一個人物框的位置；所述對所述第一特徵資料進行上採樣處理，得到所述至少一個人物點的位置，包括：對所述第一特徵資料進行上採樣處理，得到第三特徵資料；對所述第二特徵資料與所述第三特徵資料進行融合處理，得到第四特徵資料；對所述第四特徵資料進行上採樣處理，得到所述至少一個人物點的位置。

結合本發明任一實施方式，所述方法還包括：獲取待處理圖像；使用所述人群定位網路對所述待處理圖像進行處理，得到第三人物的人物點的位置和所述第三人物的人物框的位置；所述第三人物為所述待處理圖像中的人物。

第二方面，提供了一種圖像標注裝置，所述裝置包括：獲取單元，被配置為獲取待標注圖像和第一尺度指標；所述待標注圖像攜帶第一人物的人物點標籤；所述第一人物的人物點標籤包括第一人物點的第一位置；所述第一尺度指標表徵第一尺寸與第二尺寸之間的映射；所述第一尺寸為位於所述第一位置的第一參考物體的尺寸；所述第二尺寸為所述第一參考物體在真實世界下的尺寸；構建單元，被配置為在所述第一尺度指標大於或等於第一閾值的情況下，基於所述第一人物點構建圖元點鄰域；所述圖元點鄰域包括不同於所述第一人物點的第一圖元點；第一處理單元，被配置為將所述第一圖元點的位置作為所述第一人物的人物點標籤。

結合本發明任一實施方式，所述獲取單元被進一步配置為：獲取第一長度；所述第一長度為所述第一人物在真實世界下的長度；所述裝置還包括第二處理單元，所述第二處理單元被配置為：依據所述第一位置、所述第一尺度指標和所述第一長度，得到所述第一人物的至少一個人物框的位置；將所述至少一個人物框的位置作為所述第一人物的人物框標籤。

結合本發明任一實施方式，所述至少一個人物框的位置包括第二位置；所述第二處理單元被配置為：確定所述第一尺度指標與所述第一長度的乘積，得到所述第一人物在待標注圖像中的第二長度；依據所述第一位置和所述第二長度，確定第一人物框的位置，作為所述第二位置；所述第一人物框的中心為所述第一人物點；所述第一人物框在y軸方向上的最大長度不小於所述第二長度。

結合本發明任一實施方式於，所述第一人物框的形狀為矩形；所述第二處理單元被配置為：依據所述第一位置和所述第二長度，確定所述第一人物框的對角頂點的座標；所述對角頂點包括第一頂點和第二頂點；所述第一頂點和所述第二頂點均為第一線段的上的點；所述第一線段為所述第一人物框的對角線。

結合本發明任一實施方式，所述第一人物框的形狀為正方形；所述第一位置在所述待標注圖像的圖元座標系下的座標為：（p，q）；所述第二處理單元被配置為：確定所述p與第三長度之間的差得到第一橫座標，確定所述q與所述第三長度之間的差得到第一縱座標，確定所述p與所述第三長度之間的和得到第二橫座標，確定所述q與所述第三長度之間的和得到第二縱座標；所述第三長度為所述第二長度的一半；將所述第一橫座標作為所述第一頂點的橫座標，將所述第一縱座標作為所述第一頂點的縱座標，將所述第二橫座標作為所述第二頂點的橫座標，將所述第二縱座標作為所述第二頂點的縱座標。

結合本發明任一實施方式，所述獲取單元被配置為：對所述待標注圖像進行物體檢測處理，得到第一物體框和第二物體框；依據所述第一物體框在y軸方向上的長度得到第三長度，依據所述第二物體框在y軸方向上的長度得到第四長度；所述y軸為所述待標注圖像的圖元座標系的縱軸；依據所述第三長度和第一物體在真實世界下的第五長度得到第二尺度指標，依據所述第四長度和第二物體在真實世界下的第六長度得到第三尺度指標；所述第一物體為所述第一物體框所包含的檢測對象；所述第二物體為所述第二物體框所包含的檢測對象；所述第二尺度指標表徵第三尺寸與第四尺寸之間的映射；所述第三尺寸為位於第二尺度位置的第二參考物體的尺寸；所述第四尺寸為所述第二參考物體在真實世界下的尺寸；所述第二尺度位置為所述待標注圖像中依據所述第一物體框的位置確定的位置；所述第三尺度指標表徵第五尺寸與第六尺寸之間的映射；所述第五尺寸為位於第三尺度位置的第三參考物體的尺寸；所述第六尺寸為所述第三參考物體在真實世界下的尺寸；所述第三尺度位置為所述待標注圖像中依據所述第二物體框的位置確定的位置；對所述第二尺度指標和所述第三尺度指標進行曲線擬合處理，得到所述待標注圖像的尺度指標圖；所述尺度指標圖中的第一圖元值表徵第七尺寸與第八尺寸之間的映射；所述第七尺寸為位於第四尺度位置的第四參考物體的尺寸；所述第八尺寸為所述第四參考物體在真實世界下的尺寸；所述第一圖元值為第二圖元點的圖元值；所述第四尺度位置為第三圖元點在所述待標注圖像中的位置；所述第二圖元點在所述尺度指標圖中的位置與所述第三圖元點在所述待標注圖像中的位置相同；依據所述尺度指標圖和所述第一位置，得到所述第一尺度指標。

結合本發明任一實施方式，所述第一人物的人物點標籤屬於已標注人物點標籤；所述第一人物的人物框標籤屬於已標注人物框標籤；所述獲取單元被進一步配置為：獲取待訓練網路；所述裝置還包括第三處理單元，所述第三處理單元被配置為：使用所述待訓練網路對所述待標注圖像進行處理，得到所述至少一個人物點的位置和至少一個人物框的位置；依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異；依據所述已標注人物框標籤與所述至少一個人物框的位置之間的差異，得到第二差異；依據所述第一差異和所述第二差異，得到所述待訓練網路的損失；基於所述損失更新所述待訓練網路的參數，得到人群定位網路。

結合本發明任一實施方式，所述已標注人物點標籤還包括第二人物的人物點標籤；所述第二人物的人物點標籤包括第二人物點的第三位置；所述至少一個人物點的位置包括：第四位置和第五位置；所述第四位置為所述第一人物的人物點的位置，所述第五位置為所述第二人物的人物點的位置；所述獲取單元，被進一步配置為在所述依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異之前，獲取第四尺度指標；所述第四尺度指標表徵第九尺寸與第十尺寸之間的映射；所述第九尺寸為位於所述第三位置的第五參考物體的尺寸；所述第十尺寸為所述第五參考物體在真實世界下的尺寸；所述第三處理單元被配置為：依據所述第一位置與所述第四位置之間的差異得到第三差異，依據所述第三位置與所述第五位置之間的差異得到第四差異；依據所述第一尺度指標和所述第四尺度指標，得到所述第三差異的第一權重和所述第四差異的第二權重；在所述第一尺度指標小於所述第四尺度指標的情況下，所述第一權重大於所述第二權重；在所述第一尺度指標大於所述第四尺度指標的情況下，所述第一權重小於所述第二權重；在所述第一尺度指標等於所述第四尺度指標的情況下，所述第一權重等於所述第二權重；依據所述第一權重和所述第二權重，對所述第三差異和所述第四差異加權求和，得到所述第一差異。

結合本發明任一實施方式，所述獲取單元被配置為：依據所述尺度指標圖和所述第三位置，得到所述第四尺度指標。

結合本發明任一實施方式，所述第三處理單元被配置為：對所述待標注圖像進行特徵提取處理，得到第一特徵資料；對所述第一特徵資料進行下採樣處理，得到所述至少一個人物框的位置；對所述第一特徵資料進行上採樣處理，得到所述至少一個人物點的位置。

結合本發明任一實施方式，所述第三處理單元被配置為：對所述第一特徵資料進行下採樣處理，得到第二特徵資料；對所述第二特徵資料進行卷積處理，得到所述至少一個人物框的位置；所述對所述第一特徵資料進行上採樣處理，得到所述至少一個人物點的位置，包括：對所述第一特徵資料進行上採樣處理，得到第三特徵資料；對所述第二特徵資料與所述第三特徵資料進行融合處理，得到第四特徵資料；對所述第四特徵資料進行上採樣處理，得到所述至少一個人物點的位置。

結合本發明任一實施方式，所述獲取單元被進一步配置為：獲取待處理圖像；所述裝置還包括第四處理單元，所述第四處理單元被配置為：使用所述人群定位網路對所述待處理圖像進行處理，得到第三人物的人物點的位置和所述第三人物的人物框的位置；所述第三人物為所述待處理圖像中的人物。

第三方面，提供了一種處理器，所述處理器被配置為執行如上述第一方面及其任意一種可能實現的方式的方法。

第四方面，提供了一種電子設備，包括：處理器、發送裝置、輸入裝置、輸出裝置和記憶體，所述記憶體被配置為儲存電腦程式代碼，所述電腦程式代碼包括電腦指令，在所述處理器執行所述電腦指令的情況下，所述電子設備執行如上述第一方面及其任意一種可能實現的方式的方法。

第五方面，提供了一種電腦可讀儲存介質，所述電腦可讀儲存介質中儲存有電腦程式，所述電腦程式包括程式指令，在所述程式指令被處理器執行的情況下，使所述處理器執行如上述第一方面及其任意一種可能實現的方式的方法。

第六方面，提供了一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行如上述第一方面及其任意一種可能實現的方式的方法。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。

為了使本技術領域的人員更好地理解本發明實施例提供的技術方案，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。

本發明的說明書和請求項書及上述附圖中的術語“第一”、“第二”等是用於區別不同對象，而不是用於描述特定順序。此外，術語“包括”和“具有”以及它們任何變形，意圖在於覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統、產品或設備沒有限定於已列出的步驟或單元，而是可選地還包括沒有列出的步驟或單元，或可選地還包括對於這些過程、方法、產品或設備固有的其他步驟或單元。

在本文中提及“實施例”意味著，結合實施例描述的特定特徵、結構或特性可以包含在本發明的至少一個實施例中。在說明書中的各個位置出現該短語並不一定均是指相同的實施例，也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解的是，本文所描述的實施例可以與其它實施例相結合。

首先對下文將要出現的一些概念進行定義。在一些可能的實現方式中，圖像中近處的人物對應的圖像尺度大，圖像中遠處的人物對應的圖像尺度小。本發明實施例中的“遠”指與圖像中人物對應的真實人物與採集上述圖像的成像設備之間的距離遠，“近”指與圖像中人物對應的真實人物與採集上述圖像的成像設備之間的距離近。

在圖像中，近處的人物覆蓋的圖元點區域的面積比遠處的人物覆蓋的圖元點區域的面積大。例如，圖1中人物A相較於人物B為近處的人物，且人物A覆蓋的圖元點區域的面積比人物B覆蓋的圖元點區域的面積大。而近處的人物覆蓋的圖元點區域的尺度大，遠處的人物覆蓋的圖元點區域的尺度小。也就是說，人物覆蓋的圖元點區域的面積與人物覆蓋的圖元點區域的尺度呈正相關。

在一些可能的實現方式中，圖像中的位置均指基於圖像的圖元座標下的位置。本發明實施例中的圖元座標系的橫座標用於表示圖元點所在的列數，圖元座標系下的縱座標用於表示圖元點所在的行數。例如，在圖2所示的圖像中，以圖像的左上角為座標原點O 、平行於圖像的行的方向為X 軸的方向、平行於圖像的列的方向為Y 軸的方向，構建圖元座標系為XOY 。橫座標和縱座標的單位均為圖元點。例如，圖2中的圖元點A₁₁ 的座標為（1，1），圖元點A₂₃ 的座標為（3，2），圖元點A₄₂ 的座標為（2，4），圖元點A₃₄ 的座標為（4，3），以此類推。

在一些可能的實現方式中，[a，b]表示大於或等於a且小於或等於b的取值區間；（c，d]表示大於c且小於或等於d的取值區間；[e，f）表示大於或等於e且小於f的取值區間。

本發明實施例的執行主體為圖像標注裝置。可選的，圖像標注裝置可以是以下中的一種：手機、電腦、伺服器、平板電腦。下面結合本發明實施例中的附圖對本發明實施例進行描述。

請參閱圖3，圖3是本發明實施例提供的一種圖像標注方法的流程示意圖。

301、獲取待標注圖像和第一尺度指標。

在一些可能的實現方式中，待標注圖像可以是任意圖像。例如，待標注圖像可以包含人物。待標注圖像可以只包括人頭，並無軀幹、四肢（下文將軀幹和四肢稱為人體）。待標注圖像也可以只包括人體，不包括人頭。待標注圖像還可以只包括下肢或上肢。本發明實施例對待標注圖像包含的人體區域不做限定。又例如，待標注圖像可以包含動物。再例如，待標注圖像可以包含植物。本發明實施例對待標注圖像中包含的內容不做限定。

在待標注圖像中，人物點所覆蓋的圖元點區域可視為人物區域，其中人物區域為人體所覆蓋的圖元點區域。例如，第一人物點所覆蓋的區域屬於人頭所覆蓋的圖元點區域。又例如，第一人物點所覆蓋的區域屬於手臂所覆蓋的圖元點區域。再例如，第一人物點所覆蓋的區域屬於軀幹所覆蓋的圖元點區域。

在一些可能的實現方式中，待標注圖像攜帶第一人物的人物點標籤。第一人物的人物點標籤包括第一人物點的第一位置。即待標注圖像中的第一位置為第一人物的人物區域。

在一些可能的實現方式中，在圖像中，某處的尺度指標（包括上述第一尺度指標，以及下文將要出現的第二尺度指標、第三尺度指標、第四尺度指標）表徵位於該處的物體的尺寸與該物體在真實世界下尺寸之間的映射關係。

在一種可能實現的方式中，某處的尺度指標表徵在該處表示真實世界下的1米所需圖元點的數量。例如，假設在圖4所示的圖像中，圖元點A₃₁ 所在位置的尺度指標為50，圖元點A₁₃ 所在位置的尺度指標為20。那麼在圖元點A₃₁ 所在位置表示真實世界下的1米所需圖元點數量為50，圖元點A₁₃ 所在位置表示真實世界下的1米所需圖元點數量為20。

在另一種可能實現的方式中，某處的尺度指標表徵位於該處的物體的尺寸與該物體在真實世界下尺寸之間的比值。例如，假設在圖4所示的圖像中，物體1位於圖元點A₁₃ 所在的位置，物體2位於圖元點A₃₁ 所在的位置。圖元點A₃₁ 所在位置的尺度指標為50，圖元點A₁₃ 所在位置的尺度指標為20。那麼物體1在圖像中的尺寸與物體1在真實世界下的尺寸之間的比值為20，物體2在圖像中的尺寸與物體2在真實世界下的尺寸之間的比值為50。

在又一種可能實現的方式中，某處的尺度指標表徵位於該處的物體的尺寸與該物體在真實世界下尺寸之間的比值的倒數。例如，假設在圖4所示的圖像中，物體1位於圖元點A₁₃ 所在的位置，物體2位於圖元點A₃₁ 所在的位置。圖元點A₃₁ 所在位置的尺度指標為50，圖元點A₁₃ 所在位置的尺度指標為20。那麼物體1在真實世界下的尺寸與物體1在圖像中的尺寸之間的比值為20，物體2在真實世界下的尺寸與物體2在圖像中的尺寸之間的比值為50。

可選的，尺度相同的位置的尺度指標相同。例如，在圖4所示的圖像中，圖元點A₁₁ 的尺度、圖元點A₁₂ 的尺度、圖元點A₁₃ 的尺度均相同，圖元點A₂₁ 的尺度、圖元點A₂₂ 的尺度、圖元點A₂₃ 的尺度均相同，圖元點A₃₁ 的尺度、圖元點A₃₂ 的尺度、圖元點A₃₃ 的尺度均相同。相應地，圖元點A₁₁ 的尺度指標、圖元點A₁₂ 的尺度指標、圖元點A₁₃ 的尺度指標均相同，圖元點A₂₁ 的尺度指標、圖元點A₂₂ 的尺度指標、圖元點A₂₃ 的尺度指標均相同，圖元點A₃₁ 的尺度指標、圖元點A₃₂ 的尺度指標、圖元點A₃₃ 的尺度指標均相同。

在一些可能的實現方式中，第一尺度指標為第一位置的尺度指標。假設第一參考物體位於第一位置，則第一尺度指標表徵在第一尺寸與第二尺寸之間的映射，其中，第一尺寸為第一參考物體在待標注圖像中的尺寸，第二尺寸為第一參考物體在真實世界下的尺寸。

在一種獲取待標注圖像的實現方式中，圖像標注裝置接收使用者通過輸入組件輸入的待標注圖像。上述輸入組件包括：鍵盤、滑鼠、觸控螢幕、觸控板和音頻輸入器等。

在另一種獲取待標注圖像的實現方式中，圖像標注裝置接收第一終端發送的待標注圖像。可選的，第一終端可以是以下任意一種：手機、電腦、平板電腦、伺服器、可穿戴設備。

在又一種獲取待標注圖像的實現方式中，圖像標注裝置可以通過成像組件採集得到待標注圖像。可選的，上述成像組件可以是攝影頭。

在一種獲取第一尺度指標的實現方式中，圖像標注裝置接收使用者通過輸入組件輸入的第一尺度指標。上述輸入組件包括：鍵盤、滑鼠、觸控螢幕、觸控板和音頻輸入器等。

在另一種獲取第一尺度指標的實現方式中，圖像標注裝置接收第二終端發送的第一尺度指標。可選的，第二終端可以是以下任意一種：手機、電腦、平板電腦、伺服器、可穿戴設備。第二終端與第一終端可以相同，也可以不同。

302、在上述第一尺度指標大於或等於第一閾值的情況下，基於上述第一人物點構建圖元點鄰域。

傳統圖像標注方法中，通過人工標注的方式將待標注圖像中的人物區域所包含的圖元點的位置標注出來得到人物點標籤。由於待標注圖像中可能存在面積較大的人物區域，通過傳統方法得到的人物點標籤（如待標注圖像攜帶的人物點標籤）可能不能完全覆蓋整個人物區域。

考慮到在待標注圖像中，距離圖元座標系的x軸越遠，人物區域的面積越大，而待標注圖像中某個位置的尺度指標可用於表徵該位置與x軸之間的距離。圖像標注裝置以尺度指標為依據，確定人物區域與x軸之間的距離，進而確定該人物區域中是否存在未被標注的圖元點。

由於待標注圖像中某個位置的“尺度指標”與“該位置與x軸之間的距離”呈正相關，圖像標注裝置以尺度指標是否大於或等於第一閾值為依據，確定該位置的人物區域中是否存在未被標注的圖元點。

在一種可能實現的方式中，第一尺度指標大於或等於第一閾值表徵第一人物的人物區域中存在未被標注的圖元點。可選的，第一閾值的大小可依據實際需求確定。可選的，第一閾值為16。

因為人物區域中未被標注的圖元點通常靠近人物區域的邊界，且人物區域中已標注的圖元點通常靠近人物區域的中心。所以在確定人物區域中存在未被標注的圖元點的情況下，圖像標注裝置可基於已標注圖元點構建圖元點鄰域，使該圖元點鄰域包括除已標注圖元點之外的圖元點，並對該除已標注圖元點之外的圖元點進行標注。

在一種可能實現的方式中，在第一尺度指標大於或等於第一閾值的情況下，圖像標注裝置基於第一人物點構建圖元點鄰域，該圖元點鄰域包括不同於第一人物點的至少一個圖元點（如第一圖元點）。

在一些可能的實現方式中，對構建圖元點鄰域的方式不做限定。例如，假設在圖5所示的待標注圖像中，第一人物點為圖元點A₃₂ 。圖像標注裝置可通過將與圖元點A₃₂ 之間的距離為1個圖元點的圖元點，作為圖元點鄰域內的圖元點，構建圖元點鄰域。基於圖元點A₃₂ ，該圖元點鄰域包括：圖元點A₂₁ 、圖元點A₂₂ 、圖元點A₂₃ 、圖元點A₃₁ 、圖元點A₃₂ 、圖元點A₃₃ 、圖元點A₄₁ 、圖元點A₄₂ 、圖元點A₄₃ 。

圖像標注裝置還可以基於第一人物點構建尺寸為2*2的圖元點鄰域。基於圖元點A₃₂ ，該圖元點鄰域包括：圖元點A₂₁ 、圖元點A₂₂ 、圖元點A₃₁ 、圖元點A₃₂ 。

圖像標注裝置還可以以圖元點A₃₂ 為圓心、半徑為1.5個圖元點，構建圖元點鄰域。基於圖元點A₃₂ ，該圖元點鄰域包括：圖元點A₂₁ 的部分區域、圖元點A₂₂ 、圖元點A₂₃ 的部分區域、圖元點A₃₁ 、圖元點A₃₂ 、圖元點A₃₃ 、圖元點A₄₁ 的部分區域、圖元點A₄₂ 、圖元點A₄₃ 的部分區域。

由於人物區域的面積越大，人物區域中未被標注的圖元點的數量可能越多。作為一種可選的實施方式，在第一尺度指標處於[第一閾值，第二閾值)的情況下，將與第一人物點之間的距離為1個圖元點的圖元點，作為圖元點鄰域內的圖元點，構建圖元點鄰域；在第一尺度指標大於或等於第二閾值的情況下，將與第一人物點之間的距離為2個圖元點的圖元點，作為圖元點鄰域內的圖元點，構建圖元點鄰域。

303、將上述第一圖元點的位置作為第一人物的人物點標籤。

在基於第一人物點構建圖元點鄰域後，圖像標注裝置可對第一圖元點進行標注，即將第一圖元點的位置作為第一人物的人物點標籤。

可選的，圖像標注裝置可對圖元點鄰域內除第一人物點之外的所有圖元點進行標注，即將圖元點鄰域內除第一人物點之外的所有圖元點的位置作為第一人物的人物點標籤。

在一些可能的實現方式中，以已標注人物點和已標注人物點的尺度指標，確定人物區域中是否存在未標注的圖元點。在確定人物區域中存在未標注的圖元點的情況下，基於已標注人物點構建圖元點鄰域，並將圖元點鄰域內除已標注人物點之外的圖元點的位置，作為與該人物區域對應的人物的標籤，從而提高標注準確度。

請參閱圖6，圖6是本發明實施例提供的另一種圖像標注方法的流程示意圖。

601、獲取第一長度。

在一些可能的實現方式中，第一長度為第一人物在真實世界下的長度。例如，第一長度可以是第一人物在真實世界下的身高。又例如，第一長度可以是第一人物的臉在真實世界下的長度。再例如，第一長度可以是第一人物的頭在真實世界下的長度。

在一種獲取第一長度的實現方式中，圖像標注裝置接收使用者通過輸入組件輸入的第一長度。上述輸入組件包括：鍵盤、滑鼠、觸控螢幕、觸控板和音頻輸入器等。

在另一種獲取第一長度的實現方式中，圖像標注裝置接收第三終端發送的第一長度。可選的，第三終端可以是以下任意一種：手機、電腦、平板電腦、伺服器、可穿戴設備。第三終端與第一終端可以相同，也可以不同。

602、依據上述第一位置、上述第一尺度指標和上述第一長度，得到上述第一人物的至少一個人物框的位置。

在一些可能的實現方式中，人物框所包含的圖元點區域可視為人物區域。例如，第一人物的人物框包含第一人物的人物區域。

在一些可能的實現方式中，人物框可以是任意形狀，本發明實施例對人物框的形狀不做限定。可選的，人物框的形狀包括以下至少一種：矩形、菱形、圓形、橢圓形、多邊形。

在一些可能的實現方式中，人物框在待標注圖像中的位置的表現形式可依據人物框的形狀而定。例如，在人物框的形狀為矩形的情況下，人物框的位置可以包括人物框中任意一對對角的座標，其中，一對對角指過人物框的對角線上的兩個頂點。又例如，在人物框的形狀為矩形的情況下，人物框的位置可以包括：人物框的幾何中心的位置、人物框的長和人物框的寬。再例如，在人物框的形狀為圓形的情況下，人物框的位置可以包括：人物框的圓心、人物框的半徑。

依據第一位置、第一尺度指標和第一長度，可得到第一人物的至少一個人物框的位置。下文以得到第一人物框為例，詳細闡述依據第一位置、第一尺度指標和第一長度得到人物框的位置的實現過程。

在一種可能實現的方式中，計算第一尺度指標和第一長度的乘積，可得到第一人物在待標注圖像中的第二長度。依據第一位置和第二長度，可確定第一人物框的位置，作為第二位置，其中，第一人物框的中心為第一人物點，第一人物框在y軸方向上的最大長度不小於第二長度。

在一些可能的實現方式中，y軸為待標注圖像的圖元座標系的縱軸。y軸方向上的最大長度的含義可參見下例。例如，矩形框abcd為人物框1，其中，a的座標為（4，8）、b的座標為（6，8）、c的座標為（6，12）、d的座標為（4，12）。人物框1在y軸方向上的長度為12-8=4。

在一種確定第一人物框的位置的實現方式中，依據第一位置和第二長度，確定第一人物框的對角頂點的座標。將對角頂點的座標作為第一人物框的位置。

在一些可能的實現方式中，對角頂點包括第一頂點和第二頂點，其中，第一頂點和第二頂點為第一人物框的任意一條對角線上的兩個頂點。如：第一人物框的對角線包括第一線段，對角頂點包括第一頂點和第二頂點。第一頂點和第二頂點均為第一線段的上的點。

可選的，假設第一位置在待標注圖像的圖元座標系下的座標為：（p，q）。計算第二長度的一半，得到第三長度。確定p與第三長度之間的差得到第一橫座標，確定q與第三長度之間的差得到第一縱座標，確定p與第三長度之間的和得到第二橫座標，確定q與第三長度之間的和得到第二縱座標。

將第一橫座標作為第一頂點的橫座標，將第一縱座標作為第一頂點的縱座標，將第二橫座標作為第二頂點的橫座標，將第二縱座標作為第二頂點的縱座標。

例如，p=20，q=18，即第一位置的座標為（20，18）。假設第二長度為20，即第三長度為10。那麼第一橫座標為20-10=10，第一縱座標為18-10=8，第二橫座標為20+10=30，第二縱座標為18+10=18。那麼第一頂點的座標為（10，8），第二頂點的座標為（30，18）。

可選的，假設第一位置在待標注圖像的圖元座標系下的座標為：（p，q）。計算第二長度的一半，得到第三長度。確定p與第三長度之間的和得到第三橫座標，確定q與第三長度之間的差得到第三縱座標，確定p與第三長度之間的差得到第四橫座標，確定q與第三長度之間的和得到第四縱座標。

將第三橫座標作為第一頂點的橫座標，將第三縱座標作為第一頂點的縱座標，將第四橫座標作為第二頂點的橫座標，將第四縱座標作為第二頂點的縱座標。

例如，p=20，q=18，即第一位置的座標為（20，18）。假設第二長度為20，即第三長度為10。那麼第三橫座標為20+10=30，第三縱座標為18-10=8，第四橫座標為20-10=10，第四縱座標為18+10=18。那麼第一頂點的座標為（30，8），第二頂點的座標為（10，18）。

在另一種確定第一人物框的位置的實現方式中，依據第一位置和第二長度，確定第一人物框的位置，作為第二位置。第一人物框的形狀為圓形，第一人物框的圓心為第一人物點，第一人物框的直徑為第二長度。

在又一種確定第一人物框的位置的實現方式中，依據第一位置和第二長度，確定第一人物框的位置，作為第二位置。第一人物框的形狀為矩形，第一人物框的中心為第一人物點，第一人物框的長為第一值與第二長度的乘積，第一人物框的寬為第二值與第二長度的乘積。可選的，第一值為1，第二值為1/4。

603、將上述至少一個人物框的位置作為上述第一人物的人物框標籤。

在一些可能的實現方式中，以已標注人物點和已標注人物點的尺度指標，得到人物框的位置。將人物框的位置作為對應的人物的標籤，從而標注出待標注圖像的人物框標籤。

請參閱圖7，圖7是本發明實施例提供的獲取第一尺度指標的一種可能實現的方法的流程示意圖。

701、對上述待標注圖像進行物體檢測處理，得到第一物體框和第二物體框。

在一些可能的實現方式中，物體檢測處理的檢測對象在真實世界下的長度處於確定值附近。例如，人臉的平均長度為20釐米，物體檢測處理的檢測對象可以為人臉。又例如，人的平均身高為1.65米，物體檢測處理的檢測對象可以為人體。再例如，在候機室內，如圖8所示的指示牌的高度均為確定的（如2.5米），物體檢測處理的檢測對象可以為指示牌。可選的，物體檢測處理為人臉檢測處理。

在一種可能實現的方式中，對待標注圖像進行物體檢測處理可通過卷積神經網路實現。通過將帶有標注資訊的圖像作為訓練資料，對卷積神經網路進行訓練，使訓練後的卷積神經網路可完成對圖像的物體檢測處理。訓練資料中的圖像的標注資訊為物體框的位置資訊，該物體框包含物體檢測處理的檢測對象。

在另一種可能實現的方式中，物體檢測處理可通過人物檢測演算法實現，其中，人物檢測演算法可以是以下中的一種：只需一眼演算法（you only look once，YOLO）、目標檢測演算法（deformable part model，DMP）、單張圖像多目標檢測演算法（single shot multi-Box detector，SSD）、Faster-RCNN（Region Convolutional Neural Networks，區域卷積神經網路）演算法等等，本發明實施例對實現物體檢測處理的人物檢測演算法不做限定。

在一些可能的實現方式中，第一物體框所包含的檢測對象與第二物體框所包含的檢測對象不同。例如，第一物體框所包含的檢測對象為張三的人臉，第二物體框所包含的檢測對象為李四的人臉。又例如，第一物體框所包含的檢測對象為張三的人臉，第二物體框所包含的檢測對象為指示牌。

702、依據上述第一物體框在y軸方向上的長度得到第三長度，依據上述第二物體框在y軸方向上的長度得到第四長度。

圖像標注裝置可依據第一物體框的位置，得到第一物體框在y軸方向上的長度，即第三長度。影像處理可依據第二物體框的位置，得到第二物體框在y軸方向上的長度，即第四長度。

703、依據上述第三長度和第一物體在真實世界下的第五長度得到第二尺度指標，依據上述第四長度和第二物體在真實世界下的第六長度得到第三尺度指標。

在一些可能的實現方式中，第二尺度指標為第二尺度位置的尺度指標，其中，第二尺度位置為依據第一物體框的位置在待標注圖像中確定的位置。假設第二參考物體位於第二尺度位置，則第二尺度指標表徵在第三尺寸與第四尺寸之間的映射，其中，第三尺寸為第二參考物體在待標注圖像中的尺寸，第四尺寸為第二參考物體在真實世界下的尺寸。第三尺度指標為第三尺度位置的尺度指標，其中，第三尺度位置為依據第二物體框的位置在待標注圖像中確定的位置。假設第三參考物體位於第三尺度位置，則第三尺度指標表徵在第五尺寸與第六尺寸之間的映射，其中，第五尺寸為第三參考物體在待標注圖像中的尺寸，第六尺寸為第三參考物體在真實世界下的尺寸。

在一些可能的實現方式中，依據一個物體框的位置可確定一個物體點。例如，物體框1的形狀為矩形。圖像標注裝置依據物體框1的位置可確定物體框1的任意一個頂點的位置，進而可將物體框1的任意一個頂點作為物體點。

又例如，物體框1的形狀為矩形abcd。矩形abcd的中心為點e。圖像標注裝置依據物體框1的位置可確定點e的座標，進而將點e作為物體點。

再例如，物體框1的形狀為圓形。圖像標注裝置依據物體框1的位置可確定圓形上任意一個點的位置，進而可將圓形上的任意一個點作為物體點。

圖像標注裝置依據第一物體框的位置，確定第一物體點。圖像標注裝置依據第二物體框的位置，確定第二物體點。

可選的，第一物體點為以下中的一個：第一物體框的幾何中心、第一物體框的頂點。第二物體點為以下中的一個：第二物體框的幾何中心、第二物體框的頂點。

在確定第一物體點的位置和第二物體點的位置後，圖像標注裝置可將第一物體點的位置作為第二尺度位置、將第二物體點的位置作為第三尺度位置。

在一些可能的實現方式中，第一物體和第二物體均為物體檢測處理的檢測對象。第一物體為第一物體框所包含的檢測對象，第二物體為第二物體框所包含的檢測對象。第一物體在真實世界下的長度為第五長度，第二物體在真實世界下的長度為第六長度。例如，第一物體和第二物體均為人臉，第五長度和第六長度均可以是20釐米。又例如，第一物體為人臉，第二物體為人體，第五長度可以是20釐米，第六長度可以是170釐米。

假設第三長度為

，第四長度為

，第五長度為

，第六長度為

，第二尺度指標為

，第三尺度指標為

。

在一種可能實現的方式中，

、

滿足公式（1）：

公式（1）；其中，

為正數。可選的，

。

在另一種可能實現的方式中，

、

滿足公式（2）：

公式（2）；其中，

為正數、

為實數。可選的，

，

。

在又一種可能實現的方式中，

、

滿足公式（3）：

公式（3）；其中，

為正數、

為實數。可選的，

，

。

704、對上述第二尺度指標和上述第三尺度指標進行曲線擬合處理，得到上述待標注圖像的尺度指標圖。

由於在待標注圖像中，尺度與縱座標之間的關係可視為線性相關，而尺度指標用於表徵尺度，圖像標注裝置通過對第二尺度指標和第三尺度指標進行曲線擬合處理，可得到待標注圖像的尺度指標圖。該尺度指標圖包括待標注圖像中任意一個圖元點所在位置的尺度指標。

以尺度指標圖中的第二圖元點為例。假設第二圖元點的圖元值（即第一圖元值）為40，第二圖元點在尺度指標圖中的位置與第三圖元點在待標注圖像中的位置相同。則第三圖元點在待標注圖像中的位置（即第四尺度位置）的尺度指標為第一圖元值。假設第四參考物體位於第四尺度位置，則第一圖元值表徵第七尺寸與第八尺寸之間的映射，其中，第七尺寸為位於第四尺度位置的第四參考物體的尺寸，第八尺寸為所述第四參考物體在真實世界下的尺寸。

705、依據上述尺度指標圖和上述第一位置，得到上述第一尺度指標。

如步驟704所述，尺度指標圖包括待標注圖像中任意一個圖元點所在位置的尺度指標。因此，依據尺度指標圖和第一位置，可確定第一人物點的尺度指標，即第一尺度指標。

在一些可能的實現方式中，依據第三長度和第五長度得到第二尺度指標，依據第四長度和第六長度得到第三尺度指標。通過對第二尺度指標和第三尺度指標進行曲線擬合處理，得到尺度指標圖，進而可依據尺度指標圖確定待標注圖像中任意一個圖元點所在位置的尺度指標。

作為一種可選的實施方式，本發明實施例中的人物點（包括：第一人物點）可以是人頭點，人物框（包括：第一人物框）可以是人頭框。人頭點所覆蓋的圖元點區域和人頭框所包含的圖元點區域均為人頭區域。

作為一種可選的實施方式，在圖像標注裝置基於已標注人物點標籤得到人物框標籤之後。可將待標注圖像作為訓練資料訓練神經網路的方法。該訓練方法的執行主體可以是圖像標注裝置，也可以不是標注裝置，本發明實施例對訓練方法的執行主體不做限定。為表述方便，下文將訓練過程的執行主體稱為訓練裝置，可選的，訓練裝置可以是以下任意一種：手機、電腦、平板電腦、伺服器、處理器。

請參閱圖9，圖9是本發明實施例提供的一種神經網路的訓練方法的流程示意圖。

901、獲取待訓練網路。

在一些可能的實現方式中，待訓練網路為任意神經網路。例如，待訓練網路可以由卷積層、池化層、歸一化層、全連接層、下採樣層、上採樣層中的至少一種網路層堆疊組成。本發明實施例對待訓練網路的結構不做限定。

在一種獲取待訓練網路的實現方式中，訓練裝置接收使用者通過輸入組件輸入的待訓練網路。上述輸入組件包括：鍵盤、滑鼠、觸控螢幕、觸控板和音頻輸入器等。

在另一種獲取待訓練網路的實現方式中，訓練裝置接收第四終端發送的待訓練網路。可選的，上述第四終端可以是以下任意一種：手機、電腦、平板電腦、伺服器、可穿戴設備。第四終端與第一終端可以相同，也可以不同，本發明實施例對此不做限定。

在又一種獲取待訓練網路的實現方式中，訓練裝置可以從自身的儲存部件中獲取預存的待訓練網路。

902、使用上述待訓練網路對上述待標注圖像進行處理，得到上述至少一個人物點的位置和至少一個人物框的位置。

訓練裝置使用待訓練網路對包含至少一個人物的待標注圖像進行處理，可得到每個人物的至少一個人物點的位置以及每個人物的至少一個人物框的位置。

在一種可能實現的方式中，待訓練神經網路對待標注圖像進行特徵提取處理，得到第一特徵資料。對第一特徵資料進行下採樣處理，得到至少一個人物框的位置。對第一特徵資料進行上採樣處理，得到至少一個人物點的位置。

在一些可能的實現方式中，特徵提取處理可以是卷積處理，也可以是池化處理，還可以是卷積處理和池化處理的結合，本發明實施例對特徵提取處理的實現方式不做限定。

可選的，依次通過多層卷積層對待標注圖像進行逐級卷積處理，實現對待標注圖像的特徵提取處理，得到攜帶待標注圖像的語義資訊的第一特徵資料。

可選的，下採樣處理包括以下一種或多種的組合：卷積處理、池化處理。例如，下採樣處理為卷積處理。又例如，下採樣處理可以是池化處理。再例如，下採樣處理可以是卷積處理和池化處理。

可選的，上採樣處理包括以下至少一種處理：雙線性插值處理、最鄰近插值處理、高階插值、反卷積處理。

作為一種可選的實施方式，訓練裝置可通過執行以下步驟，實現對第一特徵資料進行下採樣處理得到至少一個人物框的位置。

步驟1、對第一特徵資料進行下採樣處理，得到第二特徵資料。

訓練裝置通過對第一特徵資料進行下採樣處理，可在縮小第一特徵資料的尺寸的同時，提取出第一特徵資料中語義資訊（即待標注圖像的語義資訊），得到第二特徵資料。

步驟2、對第二特徵資料進行卷積處理，得到至少一個人物框的位置。

訓練裝置通過對第二特徵資料進行卷積處理，可利用第二特徵資料中攜帶的語義資訊，得到至少一個人物框的位置。

在通過執行步驟1和步驟2得到至少一個人物框的位置的情況下，訓練裝置可通過執行以下步驟，實現對第一特徵資料進行上採樣處理，得到至少一個人物框的位置。

步驟3、對第一特徵資料進行上採樣處理，得到第三特徵資料。

由於在待標注圖像中人物與人物之間的距離可能非常小，而圖像標注裝置通過待標注圖像進行特徵提取處理，在縮小待標注圖像的尺寸的同時，提取出第一特徵資料，這樣，在第一特徵資料中可能會存在至少兩個人物區域重疊的情況。這顯然將降低後續得到的人物點的準確度。在本步驟中，訓練裝置通過對第一特徵資料進行上採樣處理，放大第一特徵資料的尺寸，進而使減小至少兩個人物區域重疊的情況發生的概率。

步驟4、對第二特徵資料與第三特徵資料進行融合處理，得到第四特徵資料。

由於待標注圖像的人物框標籤攜帶待標注圖像的尺度資訊（包括待標注圖像中不同位置的尺度），在使用人物框標籤對基於步驟2得到的至少一個人物框的位置的情況下，第二特徵資料中也將攜帶待標注圖像的尺度資訊。訓練裝置通過將第二特徵資料與第三特徵資料進行融合處理，可豐富第三特徵資料中的尺度資訊，得到第四特徵資料。

作為一種可選的實施方式，在第二特徵資料的尺寸小於第三特徵資料的尺寸的情況下，訓練裝置使用待訓練網路對第二特徵資料進行上採樣處理，得到尺寸與第三特徵資料的尺寸相同的第五特徵資料。對第五特徵資料與第三特徵資料進行融合處理，得到第四特徵資料。

可選的，融合處理可以是以下中的一種：通道維度上的拼接（concatnate）、相同位置的元素求和。

在一些可能的實現方式中，兩個資料中相同位置的元素可參見下例。例如，如圖10所示，元素A₁₁ 在資料A中的位置與元素B₁₁ 在資料B中的位置相同，元素A₁₂ 在資料A中的位置與元素k在資料B₁₂ 中的位置相同，元素A₁₃ 在資料A中的位置與元素B₁₃ 在資料B中的位置相同，元素A₂₁ 在資料A中的位置與元素B₂₁ 在資料B中的位置相同，元素A₂₂ 在資料A中的位置與元素B₂₂ 在資料B中的位置相同，元素A₂₃ 在資料A中的位置與元素B₂₃ 在資料B中的位置相同，元素A₃₁ 在資料A中的位置與元素B₃₁ 在資料B中的位置相同，元素A₃₂ 在資料A中的位置與元素B₃₂ 在資料B中的位置相同，元素A₃₃ 在資料A中的位置與元素B₃₃ 在資料B中的位置相同。

步驟5、對第四特徵資料進行上採樣處理，得到至少一個人物點的位置。

訓練裝置通過對第四特徵資料進行上採樣處理，可利用第四特徵資料中攜帶的語義資訊，得到至少一個人物點的位置。

由於第四特徵資料中攜帶待標注圖像的尺度資訊，通過對第四特徵資料進行上採樣處理，得到至少一個人物點的位置，可提高至少一個人物點的位置的準確度。

903、依據上述已標注人物點標籤與上述至少一個人物點的位置之間的差異，得到第一差異。

可選的，將已標注人物點標籤與至少一個人物點的位置代入二值交叉熵函數（binary cross entropy loss function），可得到第一差異。

例如，已標注人物點標籤包括人物點a的位置和人物點b的位置。至少一個人物點包括人物點c的位置和人物點d的位置。人物點a和人物點c均為第一人物的人物點，人物點b和人物點d均為第二人物的人物點。將人物點a的位置與人物點c的位置代入二值交叉熵函數得到差異A。將人物點b的位置與人物點d的位置代入二值交叉熵函數得到差異B。其中，第一差異可以是差異A，第一差異也可以是差異B，第一差異還可以是差異A與差異B的和。

作為一種可選的實施方式，圖像標注裝置執行步驟903之前，可執行以下步驟。

步驟6、獲取第四尺度指標。

在一些可能的實現方式中，待標注圖像的已標注人物點標籤還包括第二人物的人物點標籤。第二人物的人物點標籤包括第二人物點的第三位置。

在一些可能的實現方式中，第四尺度指標為第三位置的尺度指標。假設第五參考物體位於第三位置，則第四尺度指標表徵在第九尺寸與第十尺寸之間的映射，其中，第九尺寸為第五參考物體在待標注圖像中的尺寸，第十尺寸為第五參考物體在真實世界下的尺寸。

在一種獲取第四尺度指標的實現方式中，圖像標注裝置接收使用者通過輸入組件輸入的第一尺度指標。上述輸入組件包括：鍵盤、滑鼠、觸控螢幕、觸控板和音頻輸入器等。

在另一種獲取第四尺度指標的實現方式中，圖像標注裝置接收第二終端發送的第一尺度指標。可選的，第五終端可以是以下任意一種：手機、電腦、平板電腦、伺服器、可穿戴設備。第五終端與第一終端可以相同，也可以不同。

在獲取到第四尺度指標後，圖像標注裝置在執行步驟903的過程中執行以下步驟。

步驟7、依據上述第一位置與上述第四位置之間的差異得到第三差異，依據上述第三位置與上述第五位置之間的差異得到第四差異。

在一些可能的實現方式中，訓練裝置通過執行步驟902或步驟6得到的至少一個人物點的位置包括：第四位置和第五位置，其中，第四位置為第一人物的人物點的位置，第五位置為第二人物的人物點的位置。

第一位置為第一人物的已標注人物點標籤，第三位置為第二人物的已標注人物點標籤。第四位置為使用待訓練網路對待標注圖像進行處理得到的第一人物的人物點標籤，第五位置為使用待訓練網路對待標注圖像進行處理得到的第二人物的人物點標籤。

圖像標注裝置依據第一位置與第四位置之間的差異可得到第三差異，依據第三位置與第五位置之間的差異可得到第四差異。

可選的，將第一位置和第四位置代入二值交叉熵函數可得到第三差異，將第三位置和第五位置代入二值交叉熵函數可得到第四差異。

假設第一位置與第四位置之間的差異為

、第三差異為

、第三位置與第五位置之間的差異為

、第四差異為

。

在一種可能實現的方式中，

、

滿足公式（4）：

公式（4）；其中，

為正數。可選的，

。

在另一種可能實現的方式中，

、

滿足公式（5）：

公式（5）；其中，

為正數、

為實數。可選的，

，

。

在又一種可能實現的方式中，

、

滿足公式（6）：

公式（6）；其中，

為正數、

為實數。可選的，

，

。

步驟8、依據上述第一尺度指標和上述第四尺度指標，得到上述第三差異的第一權重和上述第四差異的第二權重。

由於在待標注圖像中，近處的人物區域的面積比遠處的人物區域的面積大，近處的人物區域的人物點的數量比遠處的人物區域的人物點的數量多。假設對待訓練網路進行訓練得到的網路為訓練後的網路，這將導致訓練後的網路對近處的人物的檢測準確度高（即近處的人物點的位置的準確度比遠處的人物點的位置的準確度高）。

為提升訓練後的網路對遠處的人物的檢測準確度，訓練裝置依據人物點的尺度指標確定與人物點對應的差異的權重。使與近處的人物點對應的差異的權重小於與遠處的人物點的差異的權重。

在一種可能實現的方式中，在第一尺度指標小於第四尺度指標的情況下，第一權重大于第二權重；在第一尺度指標大於第四尺度指標的情況下，第一權重小於第二權重；在第一尺度指標等於第四尺度指標的情況下，第一權重等於第二權重。

作為一種可選的實施方式，權重的大小與人物點的尺度指標呈負相關。以第一權重和第一尺度指標為例，假設第一權重為

，第一尺度指標為

，尺度指標圖中的最大圖元值為

，則

、

滿足公式（7）：

公式（7）；

步驟9、依據上述第一權重和上述第二權重，對上述第三差異和上述第四差異加權求和，得到上述第一差異。

假設第一權重為

，第二權重為

，第三差異為

、第四差異為

、第一差異為

。

在一種可能實現的方式中，

、

滿足公式（8）：

公式（8）；其中，

為實數。可選的，

。

在另一種可能實現的方式中，

、

滿足公式（9）：

公式（9）；其中，

為實數，

均為正數。可選的，

，

。

在又一種可能實現的方式中，

、

滿足公式（10）：

公式（10）；其中，

為實數，

均為正數。可選的，

，

。

904、依據上述已標注人物框標籤與上述至少一個人物框的位置之間的差異，得到第二差異。

可選的，將已標注人物框標籤與至少一個人物框的位置代入二值交叉熵函數，可得到第二差異。

例如，已標注人物框標籤包括人物框a的位置和人物框b的位置。至少一個人物框包括人物框c的位置和人物框d的位置。人物框a和人物框c均為第一人物的人物框，人物框b和人物框d均為第二人物的人物框。將人物框a的位置與人物框c的位置代入二值交叉熵函數得到差異A。將人物框b的位置與人物框d的位置代入二值交叉熵函數得到差異B。其中，差異A和差異B均為第一差異。

905、依據上述第一差異和上述第二差異，得到上述待訓練網路的損失。

假設第一差異為

、第二差異為

、待訓練網路的損失為

。

在一種可能實現的方式中，

、

滿足公式（11）：

公式（11）；其中，

為正數。可選的，

。

在另一種可能實現的方式中，

、

滿足公式（12）：

公式（12）；其中，

為正數、

為實數。可選的，

，

。

在又一種可能實現的方式中，

、

滿足公式（13）：

公式（13）；其中，

為正數、

為實數。可選的，

，

。

906、基於上述損失更新上述待訓練網路的參數，得到人群定位網路。

可選的，圖像標注裝置基於待訓練網路的損失以反向梯度傳播的方式更新待訓練網路的參數，可得到人群定位網路。

基於人群定位網路對包含人物的圖像進行處理，可得到圖像中每個人物的人物點以及每個人物的人物框。

作為一種可選的實施方式，請參閱圖11，圖11為本發明實施例提供的一種人群定位網路的結構示意圖。

使用該人群定位網路對待標注圖像進行處理，可得到待標注圖像中的每個人物的人物點的位置和每個人物的人物框的位置。依據人物的人物點的位置和人物的人物框的位置，可確定該人物的位置。

如圖11所示，人群定位網路包括主幹網絡、人物框分支和人物點分支。人物框分支和人物點分支之間可進行尺度資訊融合。圖12所示為主幹網絡的結構示意圖，該主幹網絡共包含13層卷積層和4層池化層。圖13所示為人物框分支和人物點分支的結構示意圖，其中，人物框分支共包含3層下採樣層和1層卷積層，人物點分支共包含3層上採樣層。

經主幹網絡對待標注圖像的處理可得到第一特徵資料，該處理過程的實現方式可參見“待訓練神經網路對待標注圖像進行特徵提取處理，得到第一特徵資料”的實現方式。經人物框分支對第一特徵資料進行處理可得到至少一個人物框的位置，該處理過程可參見步驟1和步驟2。經人物點分支對第一特徵資料進行處理可得到至少一個人物點的位置，該處理過程可參見步驟3、步驟4和步驟5，其中，步驟4即為圖11所示的“尺度資訊融合”。

作為一種可選的實施方式，可使用基於本發明實施例提供的技術方案得到的人群定位網路對圖像進行處理，得到人物點的位置和人物框的位置，進而可依據人物點的位置和人物框的位置，確定圖像中的人物的位置。

應理解，使用人群定位網路對圖像進行處理的執行主體可以是圖像標注裝置，也可以是訓練裝置，還可以是不同與圖像標注裝置和訓練裝置的裝置。為表述方便，下文將使用人群定位網路對圖像進行處理的執行主體稱為影像處理裝置。可選的，影像處理裝置可以是以下任意一種：手機、電腦、平板電腦、伺服器、處理器。

在一種可能實現的方式中，影像處理裝置獲取待處理圖像，並使用人群定位網路對待處理圖像進行處理，得到第三人物的人物點的位置和第三人物的人物框的位置，其中，第三人物為待處理圖像中的人物。進而可依據第三人物的人物點的位置確定第三人物在待處理圖像中的位置，或依據第三人物的人物框的位置確定第三人物在待處理圖像中的位置，或依據第三人物的人物點的位置和第三人物的人物框的位置確定第三人物在待處理圖像中的位置。

例如，第三人物的人物點的位置為（9，10），第三人物的人物框的形狀為矩形，第三人物的人物框的位置包括矩形的一對對角頂點的座標：（6，8）、（12，14）。將第三人物的人物點的位置作為第三人物在待處理圖像中的位置，確定第三人物在待處理圖像中的位置為（9，10）。將第三人物的人物框的位置作為第三人物在待處理圖像中的位置，確定在待處理圖像中由矩形人物框所包含的圖元點區域為第三人物所覆蓋的圖元點區域，其中，矩形人物框的四個頂點的座標分別為：（6，8）、（6，14）、（12，14）、（12，8）。

作為一種可選的實施方式，本發明實施例中的人物點（包括：第二人物點、步驟902中的至少一個人物點、第三人物的人物點）可以是人頭點，人物框（包括：步驟902中的至少一個人物框、第三人物的人物框）可以是人頭框。人頭點所覆蓋的圖元點區域和人頭框所包含的圖元點區域均為人頭區域。

基於本發明實施例提供的技術方案，本發明實施例還提供了一種可能的應用場景。

圖像標注裝置使用人臉檢測資料集對檢測卷積神經網路（可以是任意卷積神經網路）進行訓練，得到人臉檢測網路。該人臉檢測資料集中的圖像均攜帶標注資訊，標注資訊包括人臉框的位置。可選的，該人臉資料集為Wider Face。

圖像標注裝置使用人臉檢測網路對人群資料集進行處理，得到人群資料集中的每一張圖像的人臉檢測結果以及每個人臉檢測結果的置信度。該人群資料集中的每一張圖像均包含至少一個人頭，且每一張圖像均包含至少一個人頭點標籤。可選的，將置信度高於第三閾值的人臉檢測結果作為第一中間結果。可選的，第三閾值為0.7。

圖像標注裝置獲取人臉在真實世界下的長度（如20釐米），並依據該長度和第一中間結果，得到人群資料集中的每張圖像的尺度指標圖。

圖像標注裝置基於本發明實施例提供的技術方案、人群資料集以及人群資料集中的每張圖像的尺度指標圖，可標注出人群資料集中的每張圖像的人頭點標籤以及人頭框標籤，得到標注後的人群資料集。

圖像標注裝置使用標注後的人群資料集對第二檢測網路（網路結構可參見人群定位網路的網路結構）進行訓練，得到定位網路。定位網路可用於檢測圖像中每個人頭的人頭點的位置和每個人頭的人頭框的位置。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的執行順序應當以其功能和可能的內在邏輯確定。

上述詳細闡述了本發明實施例的方法，下面提供了本發明實施例的裝置。

請參閱圖14，圖14為本發明實施例提供的一種圖像標注裝置的結構示意圖，所述圖像標注裝置1包括：獲取單元11、構建單元12、第一處理單元13、第二處理單元14、第三處理單元15、第四處理單元16。其中：獲取單元11，被配置為獲取待標注圖像和第一尺度指標；所述待標注圖像攜帶第一人物的人物點標籤；所述第一人物的人物點標籤包括第一人物點的第一位置；所述第一尺度指標表徵第一尺寸與第二尺寸之間的映射；所述第一尺寸為位於所述第一位置的第一參考物體的尺寸；所述第二尺寸為所述第一參考物體在真實世界下的尺寸；構建單元12，被配置為在所述第一尺度指標大於或等於第一閾值的情況下，基於所述第一人物點構建圖元點鄰域；所述圖元點鄰域包括不同於所述第一人物點的第一圖元點；第一處理單元13，被配置為將所述第一圖元點的位置作為所述第一人物的人物點標籤。

結合本發明任一實施方式，所述獲取單元11被進一步配置為：獲取第一長度；所述第一長度為所述第一人物在真實世界下的長度；所述裝置還包括第二處理單元，所述第二處理單元14被配置為：依據所述第一位置、所述第一尺度指標和所述第一長度，得到所述第一人物的至少一個人物框的位置；將所述至少一個人物框的位置作為所述第一人物的人物框標籤。

結合本發明任一實施方式，所述至少一個人物框的位置包括第二位置；所述第二處理單元14被配置為：確定所述第一尺度指標與所述第一長度的乘積，得到所述第一人物在待標注圖像中的第二長度；依據所述第一位置和所述第二長度，確定第一人物框的位置，作為所述第二位置；所述第一人物框的中心為所述第一人物點；所述第一人物框在y軸方向上的最大長度不小於所述第二長度。

結合本發明任一實施方式於，所述第一人物框的形狀為矩形；所述第二處理單元14被配置為：依據所述第一位置和所述第二長度，確定所述第一人物框的對角頂點的座標；所述對角頂點包括第一頂點和第二頂點；所述第一頂點和所述第二頂點均為第一線段的上的點；所述第一線段為所述第一人物框的對角線。

結合本發明任一實施方式，所述第一人物框的形狀為正方形；所述第一位置在所述待標注圖像的圖元座標系下的座標為：（p，q）；所述第二處理單元14被配置為：確定所述p與第三長度之間的差得到第一橫座標，確定所述q與所述第三長度之間的差得到第一縱座標，確定所述p與所述第三長度之間的和得到第二橫座標，確定所述q與所述第三長度之間的和得到第二縱座標；所述第三長度為所述第二長度的一半；將所述第一橫座標作為所述第一頂點的橫座標，將所述第一縱座標作為所述第一頂點的縱座標，將所述第二橫座標作為所述第二頂點的橫座標，將所述第二縱座標作為所述第二頂點的縱座標。

結合本發明任一實施方式，所述獲取單元11被配置為：對所述待標注圖像進行物體檢測處理，得到第一物體框和第二物體框；依據所述第一物體框在y軸方向上的長度得到第三長度，依據所述第二物體框在y軸方向上的長度得到第四長度；所述y軸為所述待標注圖像的圖元座標系的縱軸；依據所述第三長度和第一物體在真實世界下的第五長度得到第二尺度指標，依據所述第四長度和第二物體在真實世界下的第六長度得到第三尺度指標；所述第一物體為所述第一物體框所包含的檢測對象；所述第二物體為所述第二物體框所包含的檢測對象；所述第二尺度指標表徵第三尺寸與第四尺寸之間的映射；所述第三尺寸為位於第二尺度位置的第二參考物體的尺寸；所述第四尺寸為所述第二參考物體在真實世界下的尺寸；所述第二尺度位置為所述待標注圖像中依據所述第一物體框的位置確定的位置；所述第三尺度指標表徵第五尺寸與第六尺寸之間的映射；所述第五尺寸為位於第三尺度位置的第三參考物體的尺寸；所述第六尺寸為所述第三參考物體在真實世界下的尺寸；所述第三尺度位置為所述待標注圖像中依據所述第二物體框的位置確定的位置；對所述第二尺度指標和所述第三尺度指標進行曲線擬合處理，得到所述待標注圖像的尺度指標圖；所述尺度指標圖中的第一圖元值表徵第七尺寸與第八尺寸之間的映射；所述第七尺寸為位於第四尺度位置的第四參考物體的尺寸；所述第八尺寸為所述第四參考物體在真實世界下的尺寸；所述第一圖元值為第二圖元點的圖元值；所述第四尺度位置為第三圖元點在所述待標注圖像中的位置；所述第二圖元點在所述尺度指標圖中的位置與所述第三圖元點在所述待標注圖像中的位置相同；依據所述尺度指標圖和所述第一位置，得到所述第一尺度指標。

結合本發明任一實施方式，所述第一人物的人物點標籤屬於已標注人物點標籤；所述第一人物的人物框標籤屬於已標注人物框標籤；所述獲取單元11被進一步配置為：獲取待訓練網路；所述裝置還包括第三處理單元15，所述第三處理單元15被配置為：使用所述待訓練網路對所述待標注圖像進行處理，得到所述至少一個人物點的位置和至少一個人物框的位置；依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異；依據所述已標注人物框標籤與所述至少一個人物框的位置之間的差異，得到第二差異；依據所述第一差異和所述第二差異，得到所述待訓練網路的損失；基於所述損失更新所述待訓練網路的參數，得到人群定位網路。

結合本發明任一實施方式，所述已標注人物點標籤還包括第二人物的人物點標籤；所述第二人物的人物點標籤包括第二人物點的第三位置；所述至少一個人物點的位置包括：第四位置和第五位置；所述第四位置為所述第一人物的人物點的位置，所述第五位置為所述第二人物的人物點的位置；所述獲取單元11，被進一步配置為在所述依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異之前，獲取第四尺度指標；所述第四尺度指標表徵第九尺寸與第十尺寸之間的映射；所述第九尺寸為位於所述第三位置的第五參考物體的尺寸；所述第十尺寸為所述第五參考物體在真實世界下的尺寸；所述第三處理單元15被配置為：依據所述第一位置與所述第四位置之間的差異得到第三差異，依據所述第三位置與所述第五位置之間的差異得到第四差異；依據所述第一尺度指標和所述第四尺度指標，得到所述第三差異的第一權重和所述第四差異的第二權重；在所述第一尺度指標小於所述第四尺度指標的情況下，所述第一權重大於所述第二權重；在所述第一尺度指標大於所述第四尺度指標的情況下，所述第一權重小於所述第二權重；在所述第一尺度指標等於所述第四尺度指標的情況下，所述第一權重等於所述第二權重；依據所述第一權重和所述第二權重，對所述第三差異和所述第四差異加權求和，得到所述第一差異。

結合本發明任一實施方式，所述獲取單元11被配置為：依據所述尺度指標圖和所述第三位置，得到所述第四尺度指標。

結合本發明任一實施方式，所述第三處理單元15被配置為：對所述待標注圖像進行特徵提取處理，得到第一特徵資料；對所述第一特徵資料進行下採樣處理，得到所述至少一個人物框的位置；對所述第一特徵資料進行上採樣處理，得到所述至少一個人物點的位置。

結合本發明任一實施方式，所述第三處理單元15被配置為：對所述第一特徵資料進行下採樣處理，得到第二特徵資料；對所述第二特徵資料進行卷積處理，得到所述至少一個人物框的位置；所述對所述第一特徵資料進行上採樣處理，得到所述至少一個人物點的位置，包括：對所述第一特徵資料進行上採樣處理，得到第三特徵資料；對所述第二特徵資料與所述第三特徵資料進行融合處理，得到第四特徵資料；對所述第四特徵資料進行上採樣處理，得到所述至少一個人物點的位置。

結合本發明任一實施方式，所述獲取單元11被進一步配置為：獲取待處理圖像；所述裝置還包括第四處理單元16，所述第四處理單元16被配置為：使用所述人群定位網路對所述待處理圖像進行處理，得到第三人物的人物點的位置和所述第三人物的人物框的位置；所述第三人物為所述待處理圖像中的人物。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以被配置為執行上文方法實施例描述的方法，其實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

圖15為本發明實施例提供的一種圖像標注裝置的硬體結構示意圖。該圖像標注裝置2包括處理器21，記憶體22，輸入裝置23，輸出裝置24。該處理器21、記憶體22、輸入裝置23和輸出裝置24通過連接器相耦合，該連接器包括各類介面、傳輸線或匯流排等等，本發明實施例對此不作限定。應當理解，本發明的各個實施例中，耦合是指通過特定方式的相互聯繫，包括直接相連或者通過其他設備間接相連，例如可以通過各類介面、傳輸線、匯流排等相連。

處理器21可以是一個或多個圖形處理器（graphics processing unit， GPU），在處理器21是一個GPU的情況下，該GPU可以是單核GPU，也可以是多核GPU。可選的，處理器21可以是多個GPU構成的處理器組，多個處理器之間通過一個或多個匯流排彼此耦合。可選的，該處理器還可以為其他類型的處理器等等，本發明實施例不作限定。

記憶體22可用於儲存電腦程式指令，以及用於執行本發明實施例提供的技術方案的程式碼在內的各類電腦程式代碼。可選地，記憶體22包括但不限於是隨機儲存記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、可擦除可程式設計唯讀記憶體（erasable programmable read only memory，EPROM）、或可擕式唯讀記憶體（compact disc read-only memory，CD-ROM），該記憶體22用於儲存相關指令及資料。

輸入裝置23用於輸入資料和/或信號，以及輸出裝置24用於輸出資料和/或信號。輸入裝置23和輸出裝置24可以是獨立的器件，也可以是一個整體的器件。

可理解，在一些可能的實現方式中，記憶體22不僅可用於儲存相關指令，還可用於儲存相關資料，如該記憶體22可用於儲存通過輸入裝置23獲取的待標注圖像，又或者該記憶體22還可用於儲存通過處理器21得到的第二圖元點的位置等等，本發明實施例對於該記憶體中所儲存的資料不作限定。

可以理解的是，圖15僅僅示出了一種圖像標注裝置的簡化設計。在實際應用中，圖像標注裝置還可以分別包含必要的其他組件，包含但不限於任意數量的輸入/輸出裝置、處理器、記憶體等，而所有可以實現本發明實施例的圖像標注裝置都在本發明的保護範圍之內。

本領域普通技術人員可以意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、或者電腦軟體和電子硬體的結合來實現。這些功能究竟以硬體還是軟體方式來執行，取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本發明的範圍。

所屬領域的技術人員可以清楚地瞭解到，為描述的方便和簡潔，上述描述的系統、裝置和單元的工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。所屬領域的技術人員還可以清楚地瞭解到，本發明各個實施例描述各有側重，為描述的方便和簡潔，相同或類似的部分在不同實施例中可能沒有贅述，因此，在某一實施例未描述或未詳細描述的部分可以參見其他實施例的記載。

在本發明所提供的幾個實施例中，應該理解到，所揭露的系統、裝置和方法，可以通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現的過程中可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本發明方案的目的。

另外，在本發明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。

在上述實施例中，可以全部或部分地通過軟體、硬體、固件或者其任意組合來實現。在使用軟體實現的過程中，可以全部或部分地以電腦程式產品的形式實現。所述電腦程式產品包括一個或多個電腦指令。在電腦上載入和執行所述電腦程式指令的情況下，全部或部分地產生按照本發明實施例所述的流程或功能。所述電腦可以是通用電腦、專用電腦、電腦網路、或者其他可程式設計裝置。所述電腦指令可以儲存在電腦可讀儲存介質中，或者通過所述電腦可讀儲存介質進行傳輸。所述電腦指令可以從一個網站網站、電腦、伺服器或資料中心通過有線（例如同軸電纜、光纖、數位用戶線路（digital subscriber line，DSL））或無線（例如紅外、無線、微波等）方式向另一個網站網站、電腦、伺服器或資料中心進行傳輸。所述電腦可讀儲存介質可以是電腦能夠存取的任何可用介質或者是包含一個或多個可用介質集成的伺服器、資料中心等資料存放裝置。所述可用介質可以是磁性介質，(例如，軟碟、硬碟、磁帶)、光介質(例如，數位通用光碟（digital versatile disc，DVD）)、或者半導體介質（例如固態硬碟（solid state disk ，SSD））等。

本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程，該流程可以由電腦程式來指令相關的硬體完成，該程式可儲存於電腦可讀取儲存介質中，該程式在執行的過程中，可包括如上述各方法實施例的流程。而前述的儲存介質包括：唯讀記憶體（read-only memory，ROM）或隨機儲存記憶體（random access memory，RAM）、磁碟或者光碟等各種可儲存程式碼的介質。

1:圖像標注裝置 11:獲取單元 12:構建單元 13:第一處理單元 14:第二處理單元 15:第三處理單元 16:第四處理單元 2: 圖像標注裝置 21:處理器 22:記憶體 23:輸入裝置 24:輸出裝置 301~303:步驟 601~603:步驟 701~705:步驟 901~906:步驟

為了更清楚地說明本發明實施例或背景技術中的技術方案，下面將對本發明實施例或背景技術中所需要使用的附圖進行說明。此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案。圖1為本發明實施例提供的一種人群圖像示意圖；圖2為本發明實施例提供的一種圖元座標系示意圖；圖3為本發明實施例提供的一種圖像標注方法的流程示意圖；圖4為本發明實施例提供的一種圖像示意圖；圖5為本發明實施例提供的一種待標注圖像示意圖；圖6為本發明實施例提供的另一種圖像標注方法的流程示意圖；圖7為本發明實施例提供的另一種圖像標注方法的流程示意圖；圖8為本發明實施例提供的一種指示牌示意圖；圖9為本發明實施例提供的另一種圖像標注方法的流程示意圖；圖10為本發明實施例提供的一種相同位置的元素的示意圖；圖11為本發明實施例提供的一種人群定位網路的結構示意圖；圖12為本發明實施例提供的一種主幹網絡的結構示意圖；圖13為本發明實施例提供的一種人物點分支和人物框分支的結構示意圖；圖14為本發明實施例提供的一種圖像標注裝置的結構示意圖；圖15為本發明實施例提供的一種圖像標注裝置的硬體結構示意圖。

301~303:步驟

Claims

一種圖像標注方法，所述方法應用於圖像標注裝置，所述方法包括：獲取待標注圖像，並獲取第一尺度指標；所述待標注圖像攜帶第一人物的人物點標籤；所述第一人物的人物點標籤包括第一人物點的第一位置；所述第一尺度指標表徵第一尺寸與第二尺寸之間的映射；所述第一尺寸為位於所述第一位置的第一參考物體的尺寸；所述第二尺寸為所述第一參考物體在真實世界下的尺寸；在所述第一尺度指標大於或等於第一閾值的情況下，基於所述第一人物點構建圖元點鄰域；所述圖元點鄰域包括不同於所述第一人物點的第一圖元點；將所述第一圖元點的位置作為所述第一人物的人物點標籤。
根據請求項1所述的方法，還包括：獲取第一長度；所述第一長度為所述第一人物在真實世界下的長度；依據所述第一位置、所述第一尺度指標和所述第一長度，得到所述第一人物的至少一個人物框的位置；將所述至少一個人物框的位置作為所述第一人物的人物框標籤。
根據請求項2所述的方法，其中，所述至少一個人物框的位置包括第二位置；所述依據所述第一位置、所述第一尺度指標和所述第一長度，得到所述第一人物的至少一個人物框的位置，包括：確定所述第一尺度指標與所述第一長度的乘積，得到所述第一人物在待標注圖像中的第二長度；依據所述第一位置和所述第二長度，確定第一人物框的位置，作為所述第二位置；所述第一人物框的中心為所述第一人物點；所述第一人物框在y軸方向上的最大長度不小於所述第二長度。
根據請求項3所述的方法，其中，所述第一人物框的形狀為矩形；所述依據所述第一位置和所述第二長度，確定第一人物框的位置，包括：依據所述第一位置和所述第二長度，確定所述第一人物框的對角頂點的座標；所述對角頂點包括第一頂點和第二頂點；所述第一頂點和所述第二頂點均為第一線段的上的點；所述第一線段為所述第一人物框的對角線。
根據請求項4所述的方法，其中，所述第一人物框的形狀為正方形；所述第一位置在所述待標注圖像的圖元座標系下的座標為：(p，q)；所述依據所述第一位置和所述第二長度，確定所述第一人物框的對角頂點的座標，包括：確定所述p與第三長度之間的差得到第一橫座標，確定所述q與所述第三長度之間的差得到第一縱座標，確定所述p與所述第三長度之間的和得到第二橫座標，確定所述q與所述第三長度之間的和得到第二縱座標；所述第三長度為所述第二長度的一半；將所述第一橫座標作為所述第一頂點的橫座標，將所述第一縱座標作為所述第一頂點的縱座標，將所述第二橫座標作為所述第二頂點的橫座標，將所述第二縱座標作為所述第二頂點的縱座標。
根據請求項2至5中任一項所述的方法，其中，所述獲取第一尺度指標，包括：對所述待標注圖像進行物體檢測處理，得到第一物體框和第二物體框；依據所述第一物體框在y軸方向上的長度得到第三長度，依據所述第二物體框在y軸方向上的長度得到第四長度；所述y軸為所述待標注圖像的圖元座標系的縱軸；依據所述第三長度和第一物體在真實世界下的第五長度得到第二尺度指標，依據所述第四長度和第二物體在真實世界下的第六長度得到第三尺度指標；所述第一物體為所述第一物體框所包含的檢測對象；所述第二物體為所述第二物體框所包含的檢測對象；所述第二尺度指標表徵第三尺寸與第四尺寸之間的映射；所述第三尺寸為位於第二尺度位置的第二參考物體的尺寸；所述第四尺寸為所述第二參考物體在真實世界下的尺寸；所述第二尺度位置為所述待標注圖像中依據所述第一物體框的位置確定的位置；所述第三尺度指標表徵第五尺寸與第六尺寸之間的映射；所述第五尺寸為位於第三尺度位置的第三參考物體的尺寸；所述第六尺寸為所述第三參考物體在真實世界下的尺寸；所述第三尺度位置為所述待標注圖像中依據所述第二物體框的位置確定的位置；對所述第二尺度指標和所述第三尺度指標進行曲線擬合處理，得到所述待標注圖像的尺度指標圖；所述尺度指標圖中的第一圖元值表徵第七尺寸與第八尺寸之間的映射；所述第七尺寸為位於第四尺度位置的第四參考物體的尺寸；所述第八尺寸為所述第四參考物體在真實世界下的尺寸；所述第一圖元值為第二圖元點的圖元值；所述第四尺度位置為第三圖元點在所述待標注圖像中的位置；所述第二圖元點在所述尺度指標圖中的位置與所述第三圖元點在所述待標注圖像中的位置相同；依據所述尺度指標圖和所述第一位置，得到所述第一尺度指標。
根據請求項6所述的方法，其中，所述第一人物的人物點標籤屬於已標注人物點標籤；所述第一人物的人物框標籤屬於已標注人物框標籤；所述方法還包括：獲取待訓練網路；使用所述待訓練網路對所述待標注圖像進行處理，得到所述至少一個人物點的位置和至少一個人物框的位置；依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異；依據所述已標注人物框標籤與所述至少一個人物框的位置之間的差異，得到第二差異；依據所述第一差異和所述第二差異，得到所述待訓練網路的損失；基於所述損失更新所述待訓練網路的參數，得到人群定位網路。
根據請求項7所述的方法，其中，所述已標注人物點標籤還包括第二人物的人物點標籤；所述第二人物的人物點標籤包括第二人物點的第三位置；所述至少一個人物點的位置包括：第四位置和第五位置；所述第四位置為所述第一人物的人物點的位置，所述第五位置為所述第二人物的人物點的位置；在所述依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異之前，所述方法還包括：獲取第四尺度指標；所述第四尺度指標表徵第九尺寸與第十尺寸之間的映射；所述第九尺寸為位於所述第三位置的第五參考物體的尺寸；所述第十尺寸為所述第五參考物體在真實世界下的尺寸；所述依據所述已標注人物點標籤與所述至少一個人物點的位置之間的差異，得到第一差異，包括：依據所述第一位置與所述第四位置之間的差異得到第三差異，依據所述第三位置與所述第五位置之間的差異得到第四差異；依據所述第一尺度指標和所述第四尺度指標，得到所述第三差異的第一權重和所述第四差異的第二權重；在所述第一尺度指標小於所述第四尺度指標的情況下，所述第一權重大於所述第二權重；在所述第一尺度指標大於所述第四尺度指標的情況下，所述第一權重小於所述第二權重；在所述第一尺度指標等於所述第四尺度指標的情況下，所述第一權重等於所述第二權重；依據所述第一權重和所述第二權重，對所述第三差異和所述第四差異加權求和，得到所述第一差異。
根據請求項8所述的方法，其中，所述獲取第四尺度指標，包括：依據所述尺度指標圖和所述第三位置，得到所述第四尺度指標。
根據請求項7所述的方法，其中，所述使用所述待訓練網路對所述待標注圖像進行處理，得到所述至少一個人物點的位置和至少一個人物框的位置，包括：對所述待標注圖像進行特徵提取處理，得到第一特徵資料；對所述第一特徵資料進行下採樣處理，得到所述至少一個人物框的位置；對所述第一特徵資料進行上採樣處理，得到所述至少一個人物點的位置。
根據請求項10所述的方法，其中，所述對所述第一特徵資料進行下採樣處理，得到所述至少一個人物框的位置，包括：對所述第一特徵資料進行下採樣處理，得到第二特徵資料；對所述第二特徵資料進行卷積處理，得到所述至少一個人物框的位置；所述對所述第一特徵資料進行上採樣處理，得到所述至少一個人物點的位置，包括：對所述第一特徵資料進行上採樣處理，得到第三特徵資料；對所述第二特徵資料與所述第三特徵資料進行融合處理，得到第四特徵資料；對所述第四特徵資料進行上採樣處理，得到所述至少一個人物點的位置。
根據請求項7所述的方法，還包括：獲取待處理圖像；使用所述人群定位網路對所述待處理圖像進行處理，得到第三人物的人物點的位置和所述第三人物的人物框的位置；所述第三人物為所述待處理圖像中的人物。
一種電子設備，包括：處理器和記憶體，所述記憶體用於儲存電腦程式代碼，所述電腦程式代碼包括電腦指令，在所述處理器執行所述電腦指令的情況下，所述電子設備執行如請求項1至12中任一項所述的方法。
一種電腦可讀儲存介質，所述電腦可讀儲存介質中儲存有電腦程式，所述電腦程式包括程式指令，在所述程式指令被處理器執行的情況下，使所述處理器執行請求項1至12中任一項所述的方法。