TWI727548B

TWI727548B - 人臉識別方法、電子設備及電腦可讀儲存介質

Info

Publication number: TWI727548B
Application number: TW108145586A
Authority: TW
Inventors: 于志鵬
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-03-22
Filing date: 2019-12-12
Publication date: 2021-05-11
Also published as: JP2021530045A; WO2020192112A1; CN109934198A; JP7038867B2; TW202036367A; US20210334604A1; CN109934198B; SG11202107826QA

Abstract

本公開公開了一種人臉識別方法及裝置。該方法包括：獲得取待識別圖像；基於跨模態人臉識別網路對所述待識別圖像進行識別，得到所述待識別圖像的識別結果，其中，所述跨模態人臉識別網路基於不同模態的人臉圖像資料訓練得到。還公開了相應的裝置。本實施例通過由按類別劃分的圖像集訓練神經網路得到跨模態人臉識別網路，通過跨模態人臉識別網路對各個類別的對象是否是同一個人進行識別，可提高識別準確率。

Description

人臉識別方法、電子設備及電腦可讀儲存介質

本公開實施例關於圖像處理技術領域，尤其關於一種人臉識別方法及裝置。

安防、社保、通信等領域需要識別不同圖像中包括的人物對象是否是同一個人，以實現面部跟蹤、實名認證、手機解鎖等操作。目前，通過人臉識別演算法對不同圖像中的人物對象分別進行人臉識別，可識別不同圖像中包括的人物對象是否是同一個人，但識別準確率較低。

本公開提供一種人臉識別方法，以識別不同圖像中的人物對象是否是同一個人。

第一方面，提供了一種人臉識別方法，包括：獲得取待識別圖像；基於跨模態人臉識別網路對所述待識別圖像進行識別，得到所述待識別圖像的識別結果，其中，所述跨模態人臉識別網路基於不同模態的人臉圖像資料訓練得到。

在一種可能實現的方式中，所述基於不同模態的人臉圖像資料訓練得到所述跨模態人臉識別網路的過程，包括：基於第一模態網路和第二模態網路進行訓練得到所述跨模態人臉識別網路。

在另一種可能實現的方式中，在所述基於第一模態網路和第二模態網路進行訓練得到所述跨模態人臉識別網路之前，還包括：基於第一圖像集和第二圖像集對所述第一模態網路訓練，其中，所述第一圖像集中的對象屬於第一類別，所述第二圖像集中的對象屬於第二類別。

在又一種可能實現的方式中，所述基於第一圖像集和第二圖像集對所述第一模態網路訓練，包括：基於所述第一圖像集和所述第二圖像集對所述第一模態網路進行訓練，得到所述第二模態網路；按預設條件從所述第一圖像集中選取第一數目的圖像，並從所述第二圖像集中選取第二數目的圖像，並根據所述第一數目的圖像和所述第二數目的圖像得到第三圖像集；基於所述第三圖像集對所述第二模態網路進行訓練，得到所述跨模態人臉識別網路。

在又一種可能實現的方式中，所述預設條件包括：所述第一數目與所述第二數目相同，所述第一數目與所述第二數目的比值等於所述第一圖像集包含的圖像數目與所述第二圖像集包含的圖像數目的比值，所述第一數目與所述第二數目的比值等於所述第一圖像集包含的人數與所述第二圖像集包含的人數的比值中的任意一種。

在又一種可能實現的方式中，所述第一模態網路包括第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支；所述基於所述第一圖像集和所述第二圖像集對所述第一模態網路進行訓練，得到所述第二模態網路，包括：將所述第一圖像集輸入至所述第一特徵提取分支，並將所述第二圖像集輸入至所述第二特徵提取分支，並將第四圖像集輸入至所述第三特徵提取分支，對所述第一模態網路進行訓練，其中，所述第四圖像集包括的圖像為同一場景下採集的圖像或同一採集方式採集的圖像；將訓練後的第一特徵提取分支或訓練後的第二特徵提取分支或訓練後的第三特徵提取分支作為所述第二模態網路。

在又一種可能實現的方式中，所述將所述第一圖像集輸入至所述第一特徵提取分支，並將所述第二圖像集輸入至所述第二特徵提取分支，並將第四圖像集輸入至所述第三特徵提取分支，對所述第一模態網路進行訓練，包括：將所述第一圖像集、所述第二圖像集以及所述第四圖像集分別輸入至所述第一特徵提取分支、所述第二特徵提取分支以及所述第三特徵提取分支，分別得到第一識別結果、第二識別結果以及第三識別結果；獲取所述第一特徵提取分支的第一損失函數、所述第二特徵提取分支的第二損失函數以及所述第三特徵提取分支的第三損失函數；根據所述第一圖像集、所述第一識別結果以及所述第一損失函數，所述第二圖像集、所述第二識別結果以及所述第二損失函數，所述第四圖像集、所述第三識別結果以及所述第三損失函數，調整所述第一模態網路的參數，得到調整後的第一模態網路，其中，所述第一模態網路的參數包括第一特徵提取分支參數、第二特徵提取分支參數以及第三特徵提取分支參數，所述調整後的第一模態網路的各分支參數相同。

在又一種可能實現的方式中，所述第一圖像集中的圖像包括第一標注資訊，所述第二圖像集中的圖像包括第二標注資訊，所述第四圖像集中的圖像包括第三標注資訊；所述根據所述第一圖像集、所述第一識別結果以及所述第一損失函數，所述第二圖像集、所述第二識別結果以及所述第二損失函數，所述第四圖像集、所述第三識別結果以及所述第三損失函數，調整所述第一模態網路的參數，得到調整後的第一模態網路，包括：根據所述第一標注資訊、所述第一識別結果、所述第一損失函數以及所述第一特徵提取分支的初始參數，得到第一梯度，以及根據所述第二標注資訊、所述第二識別結果、所述第二損失函數以及所述第二特徵提取分支的初始參數，得到第二梯度，以及根據所述第三標注資訊、所述第三識別結果、所述第三損失函數以及所述第三特徵提取分支的初始參數，得到第三梯度；將所述第一梯度、所述第二梯度以及所述第三梯度的平均值作為所述第一模態網路的反向傳播梯度，並通過所述反向傳播梯度調整所述第一模態網路的參數，使所述第一特徵提取分支的參數、所述第二特徵提取分支的參數以及所述第三特徵提取分支的參數相同。

在又一種可能實現的方式中，所述按預設條件從所述第一圖像集中選取第一數量張圖像，並從所述第二圖像集中選取第二數量張圖像，得到第三圖像集，包括：從所述第一圖像集以及所述第二圖像集中分別選取f張圖像，使所述f張圖像中包含的人數為閾值，得到所述第三圖像集；或，從所述第一圖像集以及所述第二圖像集中分別選取m張圖像以及n張圖像，使所述m與所述n的比值等於所述第一圖像集包含的圖像數量與所述第二圖像集包含的圖像數量的比值，且所述m張圖像以及所述n張圖像中包含的人數均為所述閾值，得到所述第三圖像集；或，從所述第一圖像集以及所述第二圖像集中分別選取s張圖像以及t張圖像，使所述s與所述t的比值等於所述第一圖像集包含的人數與所述第二圖像集包含的人數的比值，且所述s張圖像以及所述t張圖像中包含的人數均為所述閾值，得到所述第三圖像集。

在又一種可能實現的方式中，所述基於所述第三圖像集對所述第二模態網路進行訓練，得到所述跨模態人臉識別網路，包括：對所述第三圖像集中的圖像依次進行特徵提取處理、線性變換、非線性變換，得到第四識別結果；根據所述第三圖像集中的圖像、所述第四識別結果以及所述第二模態網路的第四損失函數，調整所述第二模態網路的參數，得到所述跨模態人臉識別網路。

在又一種可能實現的方式中，所述第一類別以及所述第二類別分別對應不同人種。

第二方面，提供了一種人臉識別裝置，包括：獲取單元，配置為獲得取待識別圖像；識別單元，配置為基於跨模態人臉識別網路對所述待識別圖像進行識別，得到所述待識別圖像的識別結果，其中，所述跨模態人臉識別網路基於不同模態的人臉圖像資料訓練得到。

在一種可能實現的方式中，所述識別單元包括：訓練子單元，配置為基於第一模態網路和第二模態網路進行訓練得到所述跨模態人臉識別網路。

在另一種可能實現的方式中，所述訓練子單元還配置為：基於第一圖像集和第二圖像集對所述第一模態網路訓練，其中，所述第一圖像集中的對象屬於第一類別，所述第二圖像集中的對象屬於第二類別。

在又一種可能實現的方式中，所述訓練子單元還配置為：基於所述第一圖像集和所述第二圖像集對所述第一模態網路進行訓練，得到所述第二模態網路；以及按預設條件從所述第一圖像集中選取第一數目的圖像，並從所述第二圖像集中選取第二數目的圖像，並根據所述第一數目的圖像和所述第二數目的圖像得到第三圖像集；以及基於所述第三圖像集對所述第二模態網路進行訓練，得到所述跨模態人臉識別網路。

在又一種可能實現的方式中，所述第一模態網路包括第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支；所述訓練子單元還配置為：將所述第一圖像集輸入至所述第一特徵提取分支，並將所述第二圖像集輸入至所述第二特徵提取分支，並將第四圖像集輸入至所述第三特徵提取分支，對所述第一模態網路進行訓練，其中，所述第四圖像集包括的圖像為同一場景下採集的圖像或同一採集方式採集的圖像；以及將訓練後的第一特徵提取分支或訓練後的第二特徵提取分支或訓練後的第三特徵提取分支作為所述第二模態網路。

在又一種可能實現的方式中，所述訓練子單元還配置為：將所述第一圖像集、所述第二圖像集以及所述第四圖像集分別輸入至所述第一特徵提取分支、所述第二特徵提取分支以及所述第三特徵提取分支，分別得到第一識別結果、第二識別結果以及第三識別結果；以及獲取所述第一特徵提取分支的第一損失函數、所述第二特徵提取分支的第二損失函數以及所述第三特徵提取分支的第三損失函數；以及根據所述第一圖像集、所述第一識別結果以及所述第一損失函數，所述第二圖像集、所述第二識別結果以及所述第二損失函數，所述第四圖像集、所述第三識別結果以及所述第三損失函數，調整所述第一模態網路的參數，得到調整後的第一模態網路，其中，所述第一模態網路的參數包括第一特徵提取分支參數、第二特徵提取分支參數以及第三特徵提取分支參數，所述調整後的第一模態網路的各分支參數相同。

在又一種可能實現的方式中，所述第一圖像集中的圖像包括第一標注資訊，所述第二圖像集中的圖像包括第二標注資訊，所述第四圖像集中的圖像包括第三標注資訊；所述訓練子單元還配置為：根據所述第一標注資訊、所述第一識別結果、所述第一損失函數以及所述第一特徵提取分支的初始參數，得到第一梯度，以及根據所述第二標注資訊、所述第二識別結果、所述第二損失函數以及所述第二特徵提取分支的初始參數，得到第二梯度，以及根據所述第三標注資訊、所述第三識別結果、所述第三損失函數以及所述第三特徵提取分支的初始參數，得到第三梯度；以及將所述第一梯度、所述第二梯度以及所述第三梯度的平均值作為所述第一模態網路的反向傳播梯度，並通過所述反向傳播梯度調整所述第一模態網路的參數，使所述第一特徵提取分支的參數、所述第二特徵提取分支的參數以及所述第三特徵提取分支的參數相同。

在又一種可能實現的方式中，所述訓練子單元還配置為：從所述第一圖像集以及所述第二圖像集中分別選取f張圖像，使所述f張圖像中包含的人數為閾值，得到所述第三圖像集；或，以及從所述第一圖像集以及所述第二圖像集中分別選取m張圖像以及n張圖像，使所述m與所述n的比值等於所述第一圖像集包含的圖像數量與所述第二圖像集包含的圖像數量的比值，且所述m張圖像以及所述n張圖像中包含的人數均為所述閾值，得到所述第三圖像集；或，以及從所述第一圖像集以及所述第二圖像集中分別選取s張圖像以及t張圖像，使所述s與所述t的比值等於所述第一圖像集包含的人數與所述第二圖像集包含的人數的比值，且所述s張圖像以及所述t張圖像中包含的人數均為所述閾值，得到所述第三圖像集。

在又一種可能實現的方式中，所述訓練子單元還配置為：對所述第三圖像集中的圖像依次進行特徵提取處理、線性變換、非線性變換，得到第四識別結果；以及根據所述第三圖像集中的圖像、所述第四識別結果以及所述第二模態網路的第四損失函數，調整所述第二模態網路的參數，得到所述跨模態人臉識別網路。

第三方面，提供了一種電子設備，包括：包括處理器、記憶體；所述處理器被配置為支援所述裝置執行上述第一方面及其任一種可能的實現方式的方法中相應的功能。記憶體用於與處理器耦合，其保存所述裝置必要的程式(指令)和資料。可選的，所述裝置還可以包括輸入/輸出介面，用於支援所述裝置與其他裝置之間的通信。

第四方面，提供了一種電腦可讀儲存介質，所述電腦可讀儲存介質中儲存有指令，當其在電腦上運行時，使得電腦執行上述第一方面及其任一種可能的實現方式的方法。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本公開。

1:人臉識別裝置

11:獲取單元

12:識別單元

121:訓練子單元

2:人臉識別裝置

21:處理器

22:輸入裝置

23:輸出裝置

24:記憶體

為了更清楚地說明本公開實施例或背景技術中的技術方案，下面將對本公開實施例或背景技術中所需要使用的附圖進行說明。

此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本公開的實施例，並與說明書一起用於說明本公開的技術方案。

圖1為本公開實施例提供的一種人臉識別方法的流程示意圖；圖2為本公開實施例提供的一種基於第一圖像集和第二圖像集對第一模態網路訓練的流程示意圖；圖3為本公開實施例提供的另一種人臉識別神經網路的訓練方法的流程示意圖；圖4為本公開實施例提供的另一種人臉識別神經網路的訓練方法的流程示意圖；圖5為本公開實施例提供的一種基於按人種分類得到的圖像集對神經網路進行訓練的流程示意圖；圖6為本公開實施例提供的一種人臉識別裝置的結構示意圖；圖7為本公開實施例提供的一種人臉識別裝置的硬體結構示意圖。

為了使本技術領域的人員更好地理解本公開方案，下面將結合本公開實施例中的附圖，對本公開實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本公開一部分實施例，而不是全部的實施例。基於本公開中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本公開保護的範圍。

本公開的說明書和申請專利範圍及上述附圖中的術語“第一”、“第二”等是用於區別不同對象，而不是用於描述特定順序。此外，術語“包括”和“具有”以及它們任何變形，意圖在於覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統、產品或設備沒有限定於已列出的步驟或單元，而是可選地還包括沒有列出的步驟或單元，或可選地還包括對於這些過程、方法、產品或設備固有的其他步驟或單元。

在本文中提及“實施例”意味著，結合實施例描述的特定特徵、結構或特性可以包含在本公開的至少一個實施例中。在說明書中的各個位置出現該短語並不一定均是指相同的實施例，也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解的是，本文所描述的實施例可以與其它實施例相結合。

在本公開實施例中，人數並不等同於人物對象的數量，如：圖像A包含2個對象，分別為張三和李四；圖像B包含1個對象，為張三；圖像C包含2個對象，分別為張三和李四，則圖像A、圖像B以及圖像C包含的人數為2(張三和李四)，圖像A、圖像B以及圖像C包含的對象的數量為2+1+2=5，即人數為5。

下面結合本公開實施例中的附圖對本公開實施例進行描述。

請參閱圖1，圖1是本公開實施例提供的一種人臉識別方法的流程示意圖。

101、獲得取待識別圖像。在本公開實施例中，待識別圖像可以是儲存於本地終端(如：手機、平板電腦、筆記型電腦等等)的圖像集；也可以將視頻中的任意幀圖像作為待識別圖像，還可以從視頻中任意幀圖像中檢測出臉部區域圖像，並將該臉部區域圖像作為待識別圖像。

102、基於跨模態人臉識別網路對待識別圖像進行識別，得到待識別圖像的識別結果，其中，跨模態人臉識別網路基於不同模態的人臉圖像資料訓練得到。在本公開實施例中，跨模態人臉識別網路可對包含不同類別的對象的圖像進行識別，例如，可識別兩張圖像中的對象是否是同一個人。其中，類別可以按人的年齡劃分，也可以按人種劃分，還可以按地區劃分，如：可以將0~3歲的人劃分為第一類別，將4~10歲的人劃分為第二類別，將11~20歲的人劃分為第三類別...；也可以將黃種人劃分為第一類別，將白種人劃分為第二類別，將黑種人劃分為第三類別，將棕種人劃分為第四類別；還可以將中國地區的人劃分為第一類別，將泰國地區的人劃分為第二類別，將印度地區的人劃分為第三類別，將開羅地區的人劃分為第四類別，將非洲地區的人劃分為第五類別，將歐洲地區的人劃分為第六類別。本公開實施例對類別的劃分不做限定。

在一些可能實現的方式中，將手機攝影頭採集的包括對象臉部區域圖像以及事先儲存的臉部區域圖像作為待識別圖像集輸入至人臉識別神經網路，識別出待識別圖像集包含的對象是否是同一個人。在另一些可能實現的方式中，攝影頭A在第一時刻採集到第一待識別圖像，攝影頭B在第二時刻採集到第二待識別圖像，將第一待識別圖像以及第二待識別圖像作為待識別圖像集輸入至人臉識別神經網路，識別這兩張待識別圖像中包含的對象是否是同一個人。在本公開實施例中，不同模態的人臉圖像資料指包含的不同類別的對象的圖像集。跨模態人臉識別網路是以不同模態的人臉圖像集為訓練集預先進行訓練得到的，其中，跨模態人臉識別網路可以是任意具備從圖像中提取特徵中功能的神經網路，如：可以基於卷積層、非線性層、全連接層等網路單元按照一定方式堆疊或組成，也可以採用現有的神經網路結構，本公開對跨模態人臉識別網路的結構不做具體限定。

在一種可能實現的方式中，將兩張待識別圖像輸入至跨模態人臉識別網路，跨模態人臉識別網路分別對待識別圖像進行特徵提取處理，得到不同的特徵，再將提取出的特徵進行對比，得到特徵匹配度，在特徵匹配度達到特徵匹配度閾值的情況下，識別兩張待識別圖像中的對象是同一個人，反之，在特徵匹配度未達到特徵匹配度閾值的情況下，識別兩張待識別圖像中的對象不是同一個人。本實施例通過由按類別劃分的圖像集訓練神經網路得到跨模態人臉識別網路，通過跨模態人臉識別網路對各個類別的對象是否是同一個人進行識別，可提高識別準確率。

以下實施例為本公開提供的人臉識別方法中步驟102的一些可能的實現方式。

基於第一模態網路和第二模態網路進行訓練得到跨模態人臉識別網路，其中，第一模態網路和第二模態網路可以是任意具備從圖像中提取特徵中功能的神經網路，如：可以基於卷積層、非線性層、全連接層等網路單元按照一定方式堆疊或組成，也可以採用現有的神經網路結構，本公開對跨模態人臉識別網路的結構不做具體限定。在一些可能實現的方式中，以不同的圖像集為訓練集分別對第一模態網路和第二模態網路進行訓練，使第一模態網路分別學習到不同類別的對象的特徵，再總和第一模態網路和第二模態網路學習到的特徵得到跨模態網路，使跨模態網路能對不同類別的對象進行識別。可選地，在基於第一模態網路和第二模態網路進行訓練得到跨模態人臉識別網路之前，基於第一圖像集和第二圖像集對第一模態網路訓練，其中，第一圖像集和第二圖像集中的對象可以只包括人臉，也可以包括人臉以及軀幹等其他部分，本公開對此不做具體限定。在一些可能實現的方式中，以第一圖像集為訓練集對第一模態網路進行訓練，得到第二模態神經網路，使第二模態網路可以識別多張包含第一類別的對象的圖像中的對象是否是同一個人，以第二圖像集為訓練集對第二模態網路進行訓練，得到跨模態人臉識別網路，使跨模態人臉識別網路可以識別多張包含第一類別的對象的圖像中的對象是否是同一個人，以及多張包含第二類別的對象的圖像中的對象是否是同一個人，這樣，跨模態人臉識別網路既在對第一類別的對象進行識別時的識別率高，且在對第二類別的對象進行識別時的識別率高。

在另一些可能實現的方式中，將第一圖像集和第二圖像集中的所有圖像作為訓練集對第一模態網路進行訓練，得到跨模態人臉識別網路，使跨模態人臉識別網路可以識別多張包含第一類別或第二類別的對象的圖像中的對象是否是同一個人。在又一些可能實現的方式中，從第一圖像集中選取a張圖像、從第二圖像集中選取b張圖像，得到訓練集，其中，a：b滿足預設比例，再以訓練集對第一模態網路進行訓練，得到跨模態人臉識別網路，使跨模態人臉識別網路識別多張包含第一類別或第二類別的對象的圖像中的人物對象是否是同一個人的識別準確率高。

跨模態人臉識別網路通過特徵匹配度確定不同圖像中的對象是否是同一個人，而不同類別的人的臉部特徵會存在較大差異，因此，不同類別的人的特徵匹配度閾值(即達到這個閾值，將被識別為同一個人)均不相同，本實施例提供的訓練方法通過將包含不同類別的對象的圖像集放到一起進行訓練，可使減小跨模態人臉識別網路識別不同類別的人物對象的特徵匹配度之間的差異。

本實施例通過由按類別劃分的圖像集訓練神經網路(第一模態網路和第二模態網路)，使神經網路同時學習不同類別的對象的人臉特徵，這樣，通過訓練得到的跨模態人臉識別網路對各個類別的對象是否是同一個人進行識別，可提高識別準確率；通過不同類別的圖像集同時訓練神經網路，可減小神經網路識別不同類別的人物對象的識別標準之間的差異。

請參閱圖2，圖2是本公開實施例提供的基於第一圖像集和第二圖像集對第一模態網路訓練的一些可能的實現方式的流程示意圖。

201、基於第一圖像集和第二圖像集對第一模態網路進行訓練，得到第二模態網路，其中，第一圖像集中的對象屬於第一類別，第二圖像集中的對象屬於第二類別。在本公開實施例中，可以通過多種方式獲取第一模態網路。在一些可能的實現方式中，可以從其他設備處獲取第一模態網路，例如接收終端設備發送的第一模態網路。在另一些可能的實現方式中，第一模態網路儲存於本地終端，可從本地終端中調用第一模態網路。如上所述，第一圖像集包括的第一類別與第二圖像集包括的第二類別不同，分別以第一圖像集以及第二圖像集為訓練集對第一模態網路進行訓練，可使第一模態網路學習到第一類別以及第二類別的特徵，提高並識別第一類別以及第二類別的對象是否是同一個人的準確率。在一些可能實現的方式中，第一圖像集包括的對象為11~20歲的人，第二圖像集包括的對象為20~30歲的人。以第一圖像集、第二圖像集為訓練集對第一模態網路進行訓練，得到的第二模態網路對對象為11~20歲以及20~30歲的對象的識別準確率高。

202、按預設條件從第一圖像集中選取第一數目的圖像，並從第二圖像集中選取第二數目的圖像，並根據第一數目的圖像和第二數目的圖像得到第三圖像集。由於第一類別的特徵與第二類別的特徵的差異較大，神經網路在識別第一類別的對象是否是同一個人的識別標準與識別第二類別的對象是否是同一個人的識別標準也會不同，其中，識別標準可以為提取出的不同對象的特徵匹配度，如：由於0~3歲的人的五官以及臉部輪廓特徵沒有20~30歲的人的五官以及臉部輪廓特徵明顯，在訓練過程中，神經網路學習到的20~30歲的對象的特徵比0~30歲的對象的特徵多，這樣，訓練後的神經網路需要以更大的特徵匹配度來識別0~3歲的對象是否是同一個人。舉例來說，在識別0~3歲的對象是否是同一個人時，確定特徵匹配度大於或等於0.8的兩個對象為同一個人，確定特徵匹配度小於0.8的兩個對象不是同一個人；神經網路在識別20~30歲的對象是否是同一個人時，確定特徵匹配度大於或等於0.65的兩個對象為同一個人，確定特徵匹配度小於0.65的兩個對象不是同一個人。此時，若用0~3歲的對象的識別標準去識別20~30歲的對象易導致本來是同一個人的兩個對象被識別為不是同一個人，反之，若用20~30歲的對象的識別標準去識別0~3歲的對象易導致本來不是同一個人的兩個對象被識別為同一個人。

本實施例按預設條件從第一圖像集中選取第一數目的圖像，並從第二圖像集中選取第二數目的圖像，並將第一數目的圖像和第二數目的圖像作為訓練集，可使第二模態網路在訓練過程中學習不同類別的特徵的比例更均衡，減小不同類別的對象的識別標準的差異。在一些可能實現的方式中，設第一圖像集中選取的第一數目的圖像包括的人數以及第二圖像集中選取的第二數目的圖像包括的人數均為X，則只需使分別從第一圖像集以及第二圖像集中選取的圖像包括的人數達到X即可，不限定從第一圖像集以及第二圖像集中選取的圖像的數量。

203、基於第三圖像集對第二模態網路進行訓練，得到跨模態人臉識別網路。第三圖像集包括第一類別以及第二類別，且第一類別的人數與第二類別的人數是按預設條件選取的，這也是第三圖像集不同於隨機選取的圖像集的地方，以第三圖像集為訓練集對第二模態網路進行訓練，可使第二模態網路對第一類別的特徵的學習和對第二類別的特徵的學習更均衡。此外，若對第二模態網路的進行監督訓練，在訓練過程中，可通過softmax函數對每一張圖像中的對象所屬類別進行分類，並通過監督標籤、分類結果以及損失函數對第二模態網路的參數進行調整。在一些可能實現的方式中，第三圖像集中的每個對應一個標籤，如：圖像A與圖像B中的同一個對象的標籤均為1，圖像C中另一個對象的標籤為2。softmax函數的運算式如下：

其中，t為第三圖像集包括的人數，S_j為對象為j類的概率，P_j為輸入softmax層的特徵向量中的第j個數值，k為輸入softmax層的特徵向量中的第k個數值。在softmax層後連接包含有損失函數的損失函數層，通過softmax層輸出的概率值、第三圖像集的標籤，以及損失函數，可得到第二待訓練神經網路的反向傳播梯度，再根據反向傳播梯度對第二待訓練神經網路進行梯度反向傳播，可得到跨模態人臉識別網路。由於第三圖像集中包含第一類別的對象以及第二類別的對象，且第一類別的人數與第二類別的人數是滿足預設條件，因此，以第三圖像集為訓練集對第二模態網路進行訓練，可使第二模態網路平衡第一類別的人臉特徵以及第二類別的人臉特徵的學習比例，這樣，可使最終得到的跨模態人臉識別網路在識別第一類別的對象是否是同一個人的識別率高，同時在識別第二類別的對象是否是同一個人的識別率也高。在一些可能實現的方式中，損失函數的運算式可參見下式：

其中，t為第三圖像集包括的人數，S_j為人物對象為j類的概率，y_j為第三圖像集中人物對象為j類的標籤，如：第三圖像集包括張三的圖像，標籤為1，則對象為1類的標籤1，且該對象為其他任意類別的標籤都為0。本公開實施例通過以按類別劃分的第一圖像集以及第二圖像集為訓練集對第一模態網路進行訓練，提高第一模態網路對第一類別以及第二類別的識別準確率；通過以第三圖像集對為訓練集對第二模態網路進行訓練，可使第二模態網路平衡第一類別的人臉特徵以及第二類別的人臉特徵的學習比例，這樣，訓練得到的跨模態人臉識別網路不僅對第一類別的對象是否是同一個人的識別準確率高，而且對第二類別的對象是否是同一個人的識別準確率高。

請參閱圖3，圖3是本公開實施例提供的步驟201的一種可能實現方式的流程示意圖。

301、將第一圖像集輸入至第一特徵提取分支，並將第二圖像集輸入至第二特徵提取分支，並將第四圖像集輸入至第三特徵提取分支，對第一模態網路進行訓練，其中，第四圖像集包括的圖像為同一場景下採集的圖像或同一採集方式採集的圖像。在本公開實施例中，第四圖像集包括的圖像為同一場景下採集的圖像或同一採集方式採集的圖像，例如：第四圖像集包括的圖像均是用手機拍攝的圖像；再例如：第四圖像集包括的圖像均是室內拍攝的圖像；又例如：第四圖像集包括的圖像均是在港口拍攝的圖像，本公開實施例對第四圖像集中的圖像的場景和採集方式不做限定。在本公開實施例中，第一模態網路包括第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支，其中，第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支均可以是任意具備從圖像中提取特徵中功能的神經網路結構，如：可以基於卷積層、非線性層、全連接層等網路單元按照一定方式堆疊或組成，也可以採用現有的神經網路的結構，本公開對第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支的結構不做具體限定。在本實施例中，第一圖像集、第二圖像集以及第四圖像集中的圖像分別包括第一標注資訊、第二標注資訊以及第三標注資訊，其中，標注資訊包括圖像中包含的對象的編號，例如：第一圖像集、第二圖像集以及第四圖像集中包含的人數均為Y(Y為大於1的整數)，對第一圖像集、第二圖像集以及第四圖像集中的任意一張圖像均包含對象對應的編號均為1~Y之間任意一個數字。需要理解的是，同一個人的對象在不同圖像中的編號相同，例如：圖像A中的對象為張三，圖像B中的對象也為張三，則圖像A中的對象與圖像B中的對象的編號相同，反之，圖像C中的對象為李四，則圖像C中的對象的編號與圖像A中的對象的編號不同。為使各圖像集包含的對象的人臉特徵可起到對應該類別人臉特徵的代表性的作用，可選地，每個圖像集包含的人數均在5000人以上，需要理解的是，本公開實施例對圖像集中圖像的數量不做限定。在本公開實施例中，第一特徵提取分支的初始參數、第二特徵提取分支的初始參數以及第三特徵提取分支的初始參數分別指未調整參數前的第一特徵提取分支的參數、未調整參數前的第二特徵提取分支的參數以及未調整參數前的第三特徵提取分支的參數。第一模態網路的各分支包括第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支。將第一圖像集輸入至第一特徵提取分支，並將第二圖像集輸入至第二特徵提取分支，並將第四圖像集輸入至第三特徵提取分支，即用第一特徵提取分支去學習第一圖像集包含的對象的人臉特徵，用第二特徵提取分支去學習第二圖像集包含的對象的人臉特徵，用第三特徵提取分支去學習第四圖像集包含的對象的人臉特徵，並根據各個特徵提取分支的softmax函數以及損失函數確定各個特徵提取分支的反向傳播梯度，最後根據各個特徵提取分支的反向傳播梯度確定第一模態網路的反向傳播梯度，並對第一模態網路的參數進行調整。需要理解的是，對第一模態網路的參數進行調整即對所有特徵提取分支的初始參數進行調整，由於每個特徵提取分支的反向傳播梯度均相同，最終調整後的參數也都相同，每個分支的反向傳播梯度代表每個特徵提取分支參數的調整方向，即通過特徵提取分支的反向傳播梯度調整分支的參數，可提高特徵提取分支識別對應類別(與輸入的圖像集包含的類別相同)的對象的準確率。通過第一特徵提取分支和第二特徵提取分支的反向傳播梯度調整神經網路的參數，可綜合各個分支參數的調整方向，得到一個平衡的調整方向，由於第四圖像集包含特定場景下或特定拍攝方式採集得到的圖像，通過第三特徵提取分支的反向傳播梯度調整第一模態網路的參數可提高第一模態網路的魯棒性(即對圖像採集場景和圖像採集方式的魯棒性高)。通過三個特徵提取分支的反向傳播梯度得到的反向傳播梯度來調整第一模態網路的參數可使任意一個特徵提取分支識別對應類別(第一圖像集以及第二圖像集包含的類別中的任意一個)的對象都有較高的準確率，且可提高任意一個特徵提取分支在圖像採集場景和圖像採集方式方面的魯棒性。

在一些可能實現的方式中，將第一圖像集輸入至第一特徵提取分支，並將第二圖像集輸入至第二特徵提取分支，並將第四圖像集輸入至第三特徵提取分支，依次經過特徵提取處理、全連接層的處理、softmax層的處理，分別得到第一識別結果、第二識別結果以及第三識別結果，其中，softmax層包含softmax函數，可參見公式(1)，此處將不再贅述，第一識別結果、第二識別結果以及第三識別結果包括每個對象的編號為不同編號的概率，例如：第一圖像集、第二圖像集以及第四圖像集中包含的人數為Y(Y為大於1的整數)，對第一圖像集、第二圖像集以及第四圖像集中的任意一張圖像均包含人物對象對應的編號均為1~Y之間任意一個數字，則第一識別結果包括第一圖像集包含的人物對象的編號分別是1~Y的概率，即每個對象的第一識別結果有Y個概率。同理，第二識別結果包括第二圖像集包含的對象的編號分別是1~Y的概率，第三識別結果包括第四圖像集包含的對象的編號分別是1~Y的概率。在每個分支中，softmax層後連接包含有損失函數的損失函數層，獲取第一分支的第一損失函數、第二分支的第二損失函數以及第三分支的第三損失函數，根據第一圖像集的第一標注資訊、第一識別結果以及第一損失函數，得到第一損失，根據第二圖像集的第二標注資訊、第二識別結果以及第二損失函數，得到第二損失，根據第四圖像集的第三標注資訊、第三識別結果以及第三損失函數，得到第三損失。第一損失函數、第二損失函數以及第三損失函數可參見公式(2)，此處將不再贅述。獲得第一特徵提取分支的參數、第二特徵提取分支的參數以及第三特徵提取分支的參數，根據第一特徵提取分支的參數以及第一損失，得到第一梯度，以及根據第二特徵提取分支的參數以及第二損失，得到第二梯度，以及根據第三特徵提取分支的參數以及第三損失，得到第三梯度，其中，第一梯度、第二梯度以及第三梯度分別為第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支的反向傳播梯度。根據第一梯度、第二梯度以及第三梯度，得到第一模態網路的反向傳播梯度，並通過梯度反向傳播的方式調整第一模態網路的參數，使第一特徵提取分支的參數、第二特徵提取分支以及第三特徵提取分支的參數相同。在一些可能實現的方式中，將第一梯度、第二梯度以及第三梯度的平均值作為第一待訓練神經網路的反向傳播梯度，並根據反向傳播梯度對第一模態網路進行梯度方向傳播，調整第一特徵提取分支的參數、第二特徵提取分支以及第三特徵提取分支的參數，使調整參數後的第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支的參數相同。

302、將訓練後的第一特徵提取分支或訓練後的第二特徵提取分支或訓練後的第三特徵提取分支作為第二模態網路。通過301的處理，訓練後的第一特徵提取分支、訓練後的第二特徵提取分支以及訓練後的第三特徵提取分支的參數相同，即對第一類別(第一圖像集包含的類別)、第二類別(第二圖像集包含的類別)的對象識別準確率高，且識別不同場景採集的圖像和不同採集方式採集的圖像的魯棒性好。因此，將訓練後的第一特徵提取分支或訓練後的第二特徵提取分支或訓練後的第三特徵提取分支作為下一步訓練的網路，即第二模態網路。本公開實施例中，第一圖像集以及第二圖像集均是按類別選取得到的圖像集，第四圖像集為按照場景和拍攝方式選取的圖像集，以第一圖像集對第一特徵提取分支進行訓練，可使第一特徵提取分支著重學習第一類別的人臉特徵，以第二圖像集對第二特徵提取分支進行訓練，可使第二特徵提取分支著重學習第二類別的人臉特徵，而以第四圖像集對第三特徵提取分支進行訓練，可使第三特徵提取分支著重學習第四圖像集包括的對象的人臉特徵，提高第三特徵提取分支的魯棒性；根據第一特徵提取分支的反向傳播梯度、第二特徵提取分支的反向傳播梯度以及第三特徵提取分支的反向傳播梯度得到第一模態網路的反向傳播梯度，並以該梯度對第一模態網路進行梯度反向傳播，可同時兼顧三個特徵提取分支的參數調整方向，並使調整參數後的第一模態網路的魯棒性好，且對第一類別以及第二類別的人物對象的識別準確率高。以下實施例為步驟202的一些可能的實現方式。為使第二模態網路在基於第三圖像集進行訓練時，更均衡的學習第一類別和第二類別的特徵，預設條件可以為第一數目與第二數目相同，在一種可能實現的方式中，從第一圖像集以及第二圖像集中分別選取f張圖像，使f張圖像中包含的人數為閾值，得到第三圖像集。在一些可能實現的方式中，閾值為1000，從第一圖像集以及第二圖像集中分別選取f張圖像，使f張圖像中包含的人數為1000即可，其中，f可為任意正整數，最後將從第一圖像集中選出的f張圖像以及從第二圖像集中選出的f張圖像作為第三圖像集。為使第二模態網路在基於第三圖像集進行訓練時，更有針對性的學習第一類別和第二類別的特徵，預設條件可以為第一數目與第二數目的比值等於第一圖像集包含的圖像數目與第二圖像集包含的圖像數目的比值，或第一數目與第二數目的比值等於第一圖像集包含的人數與第二圖像集包含的人數的比值，這樣，第二模態網路學習第一類別的特徵與第二類別的特徵的比值均為定值，可彌補第一類別的識別標準與第二類別的識別標準的差異。在一種可能實現的方式中，從第一圖像集以及第二圖像集中分別選取m張圖像以及n張圖像，使m與n的比值等於第一圖像集包含的圖像數量與第二圖像集包含的圖像數量的比值，且m張圖像以及n張圖像中包含的人數均為閾值，得到第三圖像集。在一些可能實現的方式中，第一圖像集包含7000張圖像，第二圖像集包含8000張圖像，閾值為1000，從第一圖像集選取的m張圖像以及從第二圖像集中選取的n張圖像中包含的人數均為1000，且m：n=7：8，m、n可為任意正整數，最後將從第一圖像集中選出的m張圖像以及從第二圖像集中選出的n張圖像作為第三圖像集。在另一種可能實現的方式中，從第一圖像集以及第二圖像集中分別選取s張圖像以及t張圖像，使s與t的比值等於第一圖像集包含的人數與第二圖像集包含的人數的比值，且s張圖像以及t張圖像中包含的人數均為閾值，得到第三圖像集。在一些可能實現的方式中，第一圖像集包含的人數為6000，第二圖像集包含的人數為7000，閾值為1000，從第一圖像集選取的s張圖像以及從第二圖像集中選取的t張圖像中包含的人數均為1000，且s：t=6：7，s、t可為任意正整數，最後將從第一圖像集中選出的s張圖像以及從第二圖像集中選出的t張圖像作為第三圖像集。

本實施例提供了幾種從第一圖像集以及第二圖像集中選取圖像的方式，通過不同的選取方式可得到不同的第三圖像集，可根據具體訓練效果以及需求選擇不同的選取方式。

請參閱圖4，圖4是本公開實施例提供的步驟203的一種可能的實現方式的流程示意圖。

401、對第三圖像集中的圖像依次進行特徵提取處理、線性變換、非線性變換，得到第四識別結果。首先，第二模態網路對第三圖像集中的圖像進行特徵提取處理，特徵提取處理可以通過多種方式實現，例如卷積、池化等，本公開實施例對此不做具體限定。在一些可能的實現方式中，第二模態網路包括多層卷積層，通過多層卷積層對第三圖像集中的圖像逐層進行卷積處理完成對第三圖像集中的圖像的特徵提取處理，其中，每個卷積層提取出的特徵內容及語義資訊均不一樣，具體表現為，特徵提取處理一步步地將圖像的特徵抽象出來，同時也將逐步去除相對次要的特徵，因此，越到後面提取出的特徵尺寸越小，內容及語義資訊就越濃縮。通過多層卷積層逐級對第三圖像集中的圖像進行卷積處理，並提取相應的特徵，最終得到固定大小的特徵圖像，這樣，可在獲得待處理圖像主要內容資訊(即第三圖像集中的圖像的特徵圖像)的同時，將圖像尺寸縮小，減小系統的計算量，提高運算速度。在一種可能實現的方式中，卷積處理的實現過程如下：卷積層對待處理圖像做卷積處理，即利用卷積核在第三圖像集中的圖像上滑動，並將第三圖像集中的圖像上的圖元與對應的卷積核上的數值相乘，然後將所有相乘後的值相加作為卷積核中間圖元對應的圖像上圖元值，最終滑動處理完第三圖像集中的圖像中所有的圖元，並提取出相應的特徵圖像。在卷積層後連接的是全連接層，通過全連接層對卷積層提取出的特徵圖像進行線性變換，可將特徵圖像中的特徵映射到樣本(即對象的編號)標記空間。在全連接層後連接有softmax層，通過softmax層對提取出的特徵圖像進行處理，得到第四識別結果，softmax層具體組成以及對特徵圖像的處理過程可參見301，此處將不再贅述，其中，第四識別結果包括第三圖像集包含的對象的編號分別是1~Z(第三圖像集包括的人數為Z)的概率，即每個對象的第四識別結果有Z個概率。

402、根據第三圖像集中的圖像、第四識別結果以及第二模態網路的第四損失函數，調整第二模態網路的參數，得到跨模態人臉識別網路。在softmax層後連接有包含第四損失函數的損失函數層，第四損失函數的運算式可參見公式(2)。由於輸入至第二待訓練神經網路的第三圖像集包含不同類別的對象，因此，在通過softmax函數得到第四識別結果的過程中，將不同類別的對象的人臉特徵放在一起進行比較，對不同類別的識別標準歸一化，即以相同的識別標準識別不同類別的對象，最後通過第四識別結果和第四損失函數調整第二模態網路的參數，使調整參數後的第二模態網路以相同的識別標準識別不同類別的對象，提高了不同類別的對象的識別準確率，在一些可能實現的方式中，第一類別的識別標準是0.8，第二類別的識別標準是0.65，通過402的訓練，調整第二模態網路的參數以及識別標準，最終確定識別標準為0.72。由於第二模態網路的參數隨著識別標準的調整也會相應地調整，因此，使調整參數後得到的跨模態人臉識別網路通過減少第一類別的識別標準與第二類別的識別標準之間的差異。

本公開實施例中，以第三圖像集為訓練集對第二模態網路進行訓練，可將不同類別的對象的人臉特徵放在一起進行比較，對不同類別的識別標準歸一化；通過調整第二模態網路的參數，使調整參數後得到的跨模態人臉識別網路不僅對識別第一類別的對象的是否是同一個人的識別準確率高，而且對識別第二類別的對象的是否是同一個人的識別準確率高，減小了識別不同類別的對象是否是同一個人時的識別標準的差異。如上所述，訓練用的圖像集包含的人物對象的類別可以是按人的年齡劃分的，也可以是按人種劃分的，還可以是按地區劃分的，本公開提供一種基於按人種分類得到的圖像集對神經網路進行訓練的方法，即第一類別以及第二類別分別對應不同人種，可提高神經網路對不同人種的對象的識別準確率。

請參見圖5，圖5為本公開提供的一種基於按人種分類得到的圖像集對神經網路進行訓練的方法流程。

501、獲得基礎圖像集、人種圖像集，以及第三模態網路。在本公開實施例中，基礎圖像集可以包括一個或多個圖像集，具體地，第十一圖像集中的圖像均是在室內採集的圖像，第十二圖像集中的圖像均是在港口採集的圖像，第十三圖像集中的圖像均是在野外採集的圖像，第十四圖像集中的圖像均是在人群中採集的圖像，第十五圖像集中的圖像均是證件圖像，第十六圖像集中的圖像均是通過手機拍攝的圖像，第十七圖像集中的圖像均是通過攝影機採集的圖像，第十八圖像集中的圖像均是從視頻中截取的圖像，第十九圖像集中的圖像均是從互聯網下載的圖像，第二十圖像集中的圖像均是對名人圖像進行處理後得到的圖像。需要理解的是，基礎圖像集中的任意一個圖像集包括的圖像均為同一場景下採集的圖像或同一採集方式採集的圖像，即基礎圖像集中的圖像集對應與301中的第四圖像集。將中國地區的人劃分為第一人種，將泰國地區的人劃分為第二人種，將印度地區的人劃分為第三人種，將開羅地區的人劃分為第四人種，將非洲地區的人劃分為第五人種，將歐洲地區的人劃分為第六人種，對應地，就有6個人種圖像集，分別為包含以上6個人種，具體地，第五圖像集包含第一人種，第六圖像集包含第二人種...第十圖像集包含第六人種。需要理解的是，人種圖像集中的任意一個圖像集包括的對象均為同一人種(即同一類別)，即人種圖像集中的圖像集對應與101中的第一圖像集或第二圖像集。

為使各圖像集包含的對象的人臉特徵可起到對應該類別人臉特徵的代表性的作用，可選地，每個圖像集包含的人數均在5000人以上，需要理解的是，本公開實施例對圖像集中圖像的數量不做限定。需要理解的是，人種劃分還可以是其他方式，例如：按膚色劃分人種，可分為黃色人種、白色人種、黑色人種和棕色人種四個人種，本實施例對人種劃分的方式不做限定。基礎圖像集以及人種圖像集中的對象可以只包括人臉，也可以包括人臉以及軀幹等其他部分，本公開對此不做具體限定。在本實施例中，第三模態網路可以是任意具備從圖像中提取特徵中功能的神經網路，如：可以基於卷積層、非線性層、全連接層等網路單元按照一定方式堆疊或組成，也可以採用現有的神經網路結構，本公開對第三模態網路的結構不做具體限定。

502、基於基礎圖像集和人種圖像集第三模態網路進行訓練，得到第四模態網路。此步驟具體可參見201以及301~302，此處將不再贅述。需要理解的是，由於基礎圖像集中包括10個圖像集，人種圖像集中包括6個圖像集，相應地，第三模態網路包括16個特徵提取分支，即每個圖像集對應一個特徵提取分支。通過502的處理，可提高第四模態網路對不同人種的對象是否是同一個人的識別準確率，即提高各個人種內的識別準確率，具體地，用第四模態網路分別識別第一人種、第二人種、第三人種、第四人種、第五人種、第六人種的對象是否是同一個人，均有較高的準確率，且第四待模態網路對識別不同場景下或以不同採集方式採集到的圖像的魯棒性好。

503、基於人種圖像集對第四模態網路進行訓練，得到跨人種人臉識別網路。此步驟具體可參見202~203以及401~402，此處將不再贅述。通過503的處理，可減小得到的跨人種人臉識別網路識別不同人種的對象是否是同一個人時的識別標準的差異，跨人種人臉識別網路可提高不同人種的對象的識別準確率。具體地，跨人種人臉識別網路對不同圖像中屬於第一人種的對象是否是同一個人的識別準確率，以及對不同圖像中屬於第二人種的對象是否是同一個人的識別準確率，以及...，以及對不同圖像中屬於第六人種的對象是否是同一個人的識別準確率都在預設值之上，需理解，預設值表示跨人種人臉識別網路對各個人種的識別準確率都很高，本公開對預設值的具體大小不做限定，可選地，預設值為98%。可選地，為同時提高人種內的識別準確率以及減小不同人種的識別標準的差異，可多次重複502以及503，在一些可能實現的方式中，以502的訓練方式對第三模態網路訓練10萬輪，然後在接下來的10~15萬輪訓練中，502的訓練方式的比重逐漸降低為0，而503的訓練方式的比重逐提升至1，15~25萬輪的訓練均通過503的訓練方式完成，在接下來的25~30萬輪訓練中，503的訓練方式的比重逐漸降低為0，而502的訓練方式的比重逐提升至1；最後，在第30~40萬輪訓練中，502的訓練方式以及503的訓練方式各占一半比重。需要理解的是，本公開實施例對各個階段的輪數具體數值、502的訓練方式以及503的訓練方式的比重均不做限定。應用本實施例得到的跨人種人臉識別網路可對識別多個人種的對象是否是同一個人，且識別準確率高，如：應用跨人種人臉識別網路即可對中國地區的人種進行識別，也可對開羅地區的人種進行識別，還可對歐洲地區的人種進行識別，且每個人種的識別準確率高，這樣，可解決人臉識別演算法在對某一類人種識別準確率高，但對其他人種識別準確率低的問題。此外，應用本實施例可提高跨人種人臉識別網路識別不同場景下或以不同採集方式採集到的圖像的魯棒性。本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

上述詳細闡述了本公開實施例的方法，下面提供了本公開實施例的裝置。

請參閱圖6，圖6為本公開實施例提供的一種人臉識別裝置的結構示意圖，該識別裝置1包括：獲取單元11以及識別單元12。其中：獲取單元11，配置為獲得取待識別圖像；識別單元12，配置為基於跨模態人臉識別網路對所述待識別圖像進行識別，得到所述待識別圖像的識別結果，其中，所述跨模態人臉識別網路基於不同模態的人臉圖像資料訓練得到。

進一步地，所述識別單元12包括：訓練子單元121，配置為基於第一模態網路和第二模態網路進行訓練得到所述跨模態人臉識別網路。

進一步地，所述訓練子單元121還配置為：基於第一圖像集和第二圖像集對所述第一模態網路訓練，其中，所述第一圖像集中的對象屬於第一類別，所述第二圖像集中的對象屬於第二類別。進一步地，所述訓練子單元121還配置為：基於所述第一圖像集和所述第二圖像集對所述第一模態網路進行訓練，得到所述第二模態網路；以及按預設條件從所述第一圖像集中選取第一數目的圖像，並從所述第二圖像集中選取第二數目的圖像，並根據所述第一數目的圖像和所述第二數目的圖像得到第三圖像集；以及基於所述第三圖像集對所述第二模態網路進行訓練，得到所述跨模態人臉識別網路。進一步地，所述預設條件包括：所述第一數目與所述第二數目相同，所述第一數目與所述第二數目的比值等於所述第一圖像集包含的圖像數目與所述第二圖像集包含的圖像數目的比值，所述第一數目與所述第二數目的比值等於所述第一圖像集包含的人數與所述第二圖像集包含的人數的比值中的任意一種。進一步地，所述第一模態網路包括第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支；所述訓練子單元121還配置為：將所述第一圖像集輸入至所述第一特徵提取分支，並將所述第二圖像集輸入至所述第二特徵提取分支，並將第四圖像集輸入至所述第三特徵提取分支，對所述第一模態網路進行訓練，其中，所述第四圖像集包括的圖像為同一場景下採集的圖像或同一採集方式採集的圖像；以及將訓練後的第一特徵提取分支或訓練後的第二特徵提取分支或訓練後的第三特徵提取分支作為所述第二模態網路。進一步地，所述訓練子單元121還配置為：將所述第一圖像集、所述第二圖像集以及所述第四圖像集分別輸入至所述第一特徵提取分支、所述第二特徵提取分支以及所述第三特徵提取分支，分別得到第一識別結果、第二識別結果以及第三識別結果；以及獲取所述第一特徵提取分支的第一損失函數、所述第二特徵提取分支的第二損失函數以及所述第三特徵提取分支的第三損失函數；以及根據所述第一圖像集、所述第一識別結果以及所述第一損失函數，所述第二圖像集、所述第二識別結果以及所述第二損失函數，所述第四圖像集、所述第三識別結果以及所述第三損失函數，調整所述第一模態網路的參數，得到調整後的第一模態網路，其中，所述第一模態網路的參數包括第一特徵提取分支參數、第二特徵提取分支參數以及第三特徵提取分支參數，所述調整後的第一模態網路的各分支參數相同。進一步地，所述第一圖像集中的圖像包括第一標注資訊，所述第二圖像集中的圖像包括第二標注資訊，所述第四圖像集中的圖像包括第三標注資訊；所述訓練子單元121還配置為：根據所述第一標注資訊、所述第一識別結果、所述第一損失函數以及所述第一特徵提取分支的初始參數，得到第一梯度，以及根據所述第二標注資訊、所述第二識別結果、所述第二損失函數以及所述第二特徵提取分支的初始參數，得到第二梯度，以及根據所述第三標注資訊、所述第三識別結果、所述第三損失函數以及所述第三特徵提取分支的初始參數，得到第三梯度；以及將所述第一梯度、所述第二梯度以及所述第三梯度的平均值作為所述第一模態網路的反向傳播梯度，並通過所述反向傳播梯度調整所述第一模態網路的參數，使所述第一特徵提取分支的參數、所述第二特徵提取分支的參數以及所述第三特徵提取分支的參數相同。進一步地，所述訓練子單元121還配置為：從所述第一圖像集以及所述第二圖像集中分別選取f張圖像，使所述f張圖像中包含的人數為閾值，得到所述第三圖像集；或，以及從所述第一圖像集以及所述第二圖像集中分別選取m張圖像以及n張圖像，使所述m與所述n的比值等於所述第一圖像集包含的圖像數量與所述第二圖像集包含的圖像數量的比值，且所述m張圖像以及所述n張圖像中包含的人數均為所述閾值，得到所述第三圖像集；或，以及從所述第一圖像集以及所述第二圖像集中分別選取s張圖像以及t張圖像，使所述s與所述t的比值等於所述第一圖像集包含的人數與所述第二圖像集包含的人數的比值，且所述s張圖像以及所述t張圖像中包含的人數均為所述閾值，得到所述第三圖像集。進一步地，所述訓練子單元121還配置為：對所述第三圖像集中的圖像依次進行特徵提取處理、線性變換、非線性變換，得到第四識別結果；以及根據所述第三圖像集中的圖像、所述第四識別結果以及所述第二模態網路的第四損失函數，調整所述第二模態網路的參數，得到所述跨模態人臉識別網路。進一步地，所述第一類別以及所述第二類別分別對應不同人種。在一些實施例中，本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

圖7為本公開實施例提供的一種人臉識別裝置的硬體結構示意圖。該識別裝置2包括處理器21，還可以包括輸入裝置22、輸出裝置23和記憶體24。該輸入裝置22、輸出裝置23、記憶體24和處理器21之間通過匯流排相互連接。記憶體包括但不限於是隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、可擦除可程式設計唯讀記憶體(erasable programmable read only memory，EPROM)、或可擕式唯讀記憶體(compact disc read-only memory， CD-ROM)，該記憶體用於相關指令及資料。輸入裝置用於輸入資料和/或信號，以及輸出裝置用於輸出資料和/或信號。輸出裝置和輸入裝置可以是獨立的器件，也可以是一個整體的器件。處理器可以包括是一個或多個處理器，例如包括一個或多個中央處理器(central processing unit，CPU)，在處理器是一個CPU的情況下，該CPU可以是單核CPU，也可以是多核CPU。記憶體用於儲存網路設備的程式碼和資料。處理器用於調用該記憶體中的程式碼和資料，執行上述方法實施例中的步驟。具體可參見方法實施例中的描述，在此不再贅述。可以理解的是，圖7僅僅示出了一種人臉識別裝置的簡化設計。在實際應用中，人臉識別裝置還可以分別包含必要的其他元件，包含但不限於任意數量的輸入/輸出裝置、處理器、控制器、記憶體等，而所有可以實現本公開實施例的人臉識別裝置都在本公開的保護範圍之內。本領域普通技術人員可以意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、或者電腦軟體和電子硬體的結合來實現。這些功能究竟以硬體還是軟體方式來執行，取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本公開的範圍。所屬領域的技術人員可以清楚地瞭解到，為描述的方便和簡潔，上述描述的系統、裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。所屬領域的技術人員還可以清楚地瞭解到，本公開各個實施例描述各有側重，為描述的方便和簡潔，相同或類似的部分在不同實施例中可能沒有贅述，因此，在某一實施例未描述或未詳細描述的部分可以參見其他實施例的記載。在本公開所提供的幾個實施例中，應該理解到，所揭露的系統、裝置和方法，可以通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本公開各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。在上述實施例中，可以全部或部分地通過軟體、硬體、固件或者其任意組合來實現。當使用軟體實現時，可以全部或部分地以電腦程式產品的形式實現。所述電腦程式產品包括一個或多個電腦指令。在電腦上載入和執行所述電腦程式指令時，全部或部分地產生按照本公開實施例所述的流程或功能。所述電腦可以是通用電腦、專用電腦、電腦網路、或者其他可程式設計裝置。所述電腦指令可以儲存在電腦可讀儲存介質中，或者通過所述電腦可讀儲存介質進行傳輸。所述電腦指令可以從一個網站網站、電腦、伺服器或資料中心通過有線(例如同軸電纜、光纖、數位用戶線路(digital subscriber line，DSL))或無線(例如紅外、無線、微波等)方式向另一個網站網站、電腦、伺服器或資料中心進行傳輸。所述電腦可讀儲存介質可以是電腦能夠存取的任何可用介質或者是包含一個或多個可用介質集成的伺服器、資料中心等資料存放裝置。所述可用介質可以是磁性介質，(例如，軟碟、硬碟、磁帶)、光介質(例如，數位通用光碟(digital versatile disc，DVD))、或者半導體介質(例如固態硬碟(solid state disk，SSD))等。

本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程，該流程可以由電腦程式來指令相關的硬體完成，該程式可儲存於電腦可讀取儲存介質中，該程式在執行時，可包括如上述各方法實施例的流程。而前述的儲存介質包括：唯讀記憶體(read-only memory，ROM)或隨機存取記憶體(random access memory，RAM)、磁碟或者光碟等各種可儲存程式碼的介質為使本公開實施例的目的、技術方案和優點更加清楚，下面將結合本公開實施例中的附圖，對發明的具體技術方案做進一步詳細描述。以下實施例用於說明本公開，但不用來限制本公開的範圍。

圖1代表圖為流程圖，無元件符號簡單說明。

Claims

一種人臉識別方法，包括：獲得取待識別圖像；基於跨模態人臉識別網路對所述待識別圖像進行識別，得到所述待識別圖像的識別結果，其中，所述跨模態人臉識別網路基於不同模態的人臉圖像資料訓練得到；其中，所述基於不同模態的人臉圖像資料訓練得到所述跨模態人臉識別網路的過程，包括：基於第一模態網路和第二模態網路進行訓練得到所述跨模態人臉識別網路；在所述基於第一模態網路和第二模態網路進行訓練得到所述跨模態人臉識別網路之前，還包括：基於第一圖像集和第二圖像集對所述第一模態網路訓練，其中，所述第一圖像集中的對象屬於第一類別，所述第二圖像集中的對象屬於第二類別。
根據請求項1所述的方法，其中，所述基於第一圖像集和第二圖像集對所述第一模態網路訓練，包括：基於所述第一圖像集和所述第二圖像集對所述第一模態網路進行訓練，得到所述第二模態網路；按預設條件從所述第一圖像集中選取第一數目的圖像，並從所述第二圖像集中選取第二數目的圖像，並根據所述第一數目的圖像和所述第二數目的圖像得到第三圖像集；基於所述第三圖像集對所述第二模態網路進行訓練，得到所述跨模態人臉識別網路。
根據請求項2所述的方法，其中，所述預設條件包括：所述第一數目與所述第二數目相同，所述第一數目與所述第二數目的比值等於所述第一圖像集包含的圖像數目與所述第二圖像集包含的圖像數目的比值，所述第一數目與所述第二數目的比值等於所述第一圖像集包含的人數與所述第二圖像集包含的人數的比值中的任意一種。
根據請求項2所述的方法，其中，所述第一模態網路包括第一特徵提取分支、第二特徵提取分支以及第三特徵提取分支；所述基於所述第一圖像集和所述第二圖像集對所述第一模態網路進行訓練，得到所述第二模態網路，包括：將所述第一圖像集輸入至所述第一特徵提取分支，並將所述第二圖像集輸入至所述第二特徵提取分支，並將第四圖像集輸入至所述第三特徵提取分支，對所述第一模態網路進行訓練，其中，所述第四圖像集包括的圖像為同一場景下採集的圖像或同一採集方式採集的圖像；將訓練後的第一特徵提取分支或訓練後的第二特徵提取分支或訓練後的第三特徵提取分支作為所述第二模態網路。
根據請求項4所述的方法，其中，所述將所述第一圖像集輸入至所述第一特徵提取分支，並將所述第二圖像集輸入至所述第二特徵提取分支，並將第四圖像集輸入至所述第三特徵提取分支，對所述第一模態網路進行訓練，包括：將所述第一圖像集、所述第二圖像集以及所述第四圖像集分別輸入至所述第一特徵提取分支、所述第二特徵提取分支以及所述第三特徵提取分支，分別得到第一識別結果、第二識別結果以及第三識別結果；獲取所述第一特徵提取分支的第一損失函數、所述第二特徵提取分支的第二損失函數以及所述第三特徵提取分支的第三損失函數；根據所述第一圖像集、所述第一識別結果以及所述第一損失函數，所述第二圖像集、所述第二識別結果以及所述第二損失函數，所述第四圖像集、所述第三識別結果以及所述第三損失函數，調整所述第一模態網路的參數，得到調整後的第一模態網路，其中，所述第一模態網路的參數包括第一特徵提取分支參數、第二特徵提取分支參數以及第三特徵提取分支參數，所述調整後的第一模態網路的各分支參數相同。
根據請求項5所述的方法，其中，所述第一圖像集中的圖像包括第一標注資訊，所述第二圖像集中的圖像包括第二標注資訊，所述第四圖像集中的圖像包括第三標注資訊；所述根據所述第一圖像集、所述第一識別結果以及所述第一損失函數，所述第二圖像集、所述第二識別結果以及所述第二損失函數，所述第四圖像集、所述第三識別結果以及所述第三損失函數，調整所述第一模態網路的參數，得到調整後的第一模態網路，包括：根據所述第一標注資訊、所述第一識別結果、所述第一損失函數以及所述第一特徵提取分支的初始參數，得到第一梯度，以及根據所述第二標注資訊、所述第二識別結果、所述第二損失函數以及所述第二特徵提取分支的初始參數，得到第二梯度，以及根據所述第三標注資訊、所述第三識別結果、所述第三損失函數以及所述第三特徵提取分支的初始參數，得到第三梯度；將所述第一梯度、所述第二梯度以及所述第三梯度的平均值作為所述第一模態網路的反向傳播梯度，並通過所述反向傳播梯度調整所述第一模態網路的參數，使所述第一特徵提取分支的參數、所述第二特徵提取分支的參數以及所述第三特徵提取分支的參數相同。
根據請求項2或3所述的方法，其中，所述按預設條件從所述第一圖像集中選取第一數量張圖像，並從所述第二圖像集中選取第二數量張圖像，得到第三圖像集，包括：從所述第一圖像集以及所述第二圖像集中分別選取f張圖像，使所述f張圖像中包含的人數為閾值，得到所述第三圖像集；或，從所述第一圖像集以及所述第二圖像集中分別選取m張圖像以及n張圖像，使所述m與所述n的比值等於所述第一圖像集包含的圖像數量與所述第二圖像集包含的圖像數量的比值，且所述m張圖像以及所述n張圖像中包含的人數均為所述閾值，得到所述第三圖像集；或，從所述第一圖像集以及所述第二圖像集中分別選取s張圖像以及t張圖像，使所述s與所述t的比值等於所述第一圖像集包含的人數與所述第二圖像集包含的人數的比值，且所述s張圖像以及所述t張圖像中包含的人數均為所述閾值，得到所述第三圖像集。
根據請求項2所述的方法，其中，所述基於所述第三圖像集對所述第二模態網路進行訓練，得到所述跨模態人臉識別網路，包括：對所述第三圖像集中的圖像依次進行特徵提取處理、線性變換、非線性變換，得到第四識別結果；根據所述第三圖像集中的圖像、所述第四識別結果以及所述第二模態網路的第四損失函數，調整所述第二模態網路的參數，得到所述跨模態人臉識別網路。
根據請求項1至3、5、6、8中任意一項所述的方法，其中，所述第一類別以及所述第二類別分別對應不同人種。
一種電子設備，包括記憶體和處理器，所述記憶體上儲存有電腦可執行指令，所述處理器運行所述記憶體上的電腦可執行指令時實現請求項1至9任一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式，該電腦程式被處理器執行時，實現請求項1至9任一項所述的方法。