TW202349940A - 來自電話掃描的體積化身 - Google Patents

來自電話掃描的體積化身 Download PDF

Info

Publication number
TW202349940A
TW202349940A TW112103140A TW112103140A TW202349940A TW 202349940 A TW202349940 A TW 202349940A TW 112103140 A TW112103140 A TW 112103140A TW 112103140 A TW112103140 A TW 112103140A TW 202349940 A TW202349940 A TW 202349940A
Authority
TW
Taiwan
Prior art keywords
individual
images
expression
dimensional model
model
Prior art date
Application number
TW112103140A
Other languages
English (en)
Inventor
克羅伊茲 湯瑪士 西蒙
曹晨
金景秋
加比亞拉 貝洛威茲 史瓦特茲
史蒂芬 安東尼 倫巴地
余守壹
麥克 瑟荷佛
齊藤俊介
耶瑟 謝克
傑森 薩拉吉
魏士恩
丹尼亞拉 貝爾寇
史都華 安德森
Original Assignee
美商元平台技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商元平台技術有限公司 filed Critical 美商元平台技術有限公司
Publication of TW202349940A publication Critical patent/TW202349940A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供一種用於使用一行動電話掃描來產生一個體化身之方法。該方法包括自一行動裝置接收一第一個體之多個影像,基於一組可學習權重自該第一個體之該等影像提取多個影像特徵,自該等影像特徵及一第二個體之一現有三維模型來推斷該第一個體之一三維模型,基於在由一觀看者使用之一頭戴式裝置上運行之一沉浸式實境應用程式來動畫化該第一個體之該三維模型,及將該第一個體之該三維模型之一影像提供至該頭戴式裝置上之一顯示器。亦提供一種系統及一種非暫時性電腦可讀取媒體,該非暫時性電腦可讀取媒體儲存用以執行上述方法之指令。

Description

來自電話掃描的體積化身
本發明係關於在虛擬實境(virtual reality;VR)及擴增實境(augmented reality;AR)應用程式中產生忠實的面部表情以用於產生即時體積化身。更具體言之,本發明使用電話掃描為VR/AR應用程式提供即時體積化身。 相關申請案之交叉參考
本發明係相關的,且主張2022年2月1日提交的美國臨時專利申請案第63/305,614號至2022年7月29日提交的美國臨時專利申請案第63/369,916號至2022年12月2日提交的美國非臨時專利申請案第18/074,346號之根據35 U.S.C. §119(e)的優先權,該等專利申請案全部名為「AUTHENTIC VOLUMETRIC AVATARS FROM A PHONE SCAN」,作者為Chen CAO等人,該等專利申請案之內容出於所有目的特此以全文引用之方式併入。
在VR/AR應用程式之領域中,逼真人類頭部之獲取及呈現為一個達成虛擬遙現之具有挑戰性的問題。當前,最高品質係藉由以個人特定方式對多視圖資料訓練之體積方法來達成。與較簡單之基於網格之模型相比,此等模型較好地表示精細結構,諸如頭髮。然而,用於訓練神經網路模型以產生該等模型之影像的收集為漫長且昂貴的過程,此需要化身之個體有大量曝光時間。
在第一具體實例中,一種電腦實施方法包括自行動裝置接收第一個體之多個影像,基於一組可學習權重自第一個體之影像提取多個影像特徵,自影像特徵及第二個體之現有三維模型推斷第一個體之三維模型,基於在由觀看者使用之頭戴式裝置上運行之沉浸式實境應用程式而動畫化第一個體之三維模型,及將第一個體之三維模型之影像提供至頭戴式裝置上之顯示器。
在第二具體實例中,一種系統包括:記憶體,其儲存多個指令;以及一或多個處理器,其經組態以執行指令以使系統執行操作。該等操作包括:自行動裝置接收第一個體之多個影像;基於一組可學習權重自第一個體之影像提取多個影像特徵;將影像特徵壓印至儲存在資料庫中之第二個體之三維模型上以形成第一個體之三維模型;基於在由觀看者使用之頭戴式裝置上運行之沉浸式應用程式而動畫化第一個體之三維模型;及將第一個體之三維模型之影像提供至頭戴式裝置上之顯示器。
在第三具體實例中,一種用於訓練模型以在虛擬實境頭戴式裝置中提供個體之視圖的電腦實施方法包括根據擷取指令碼自多個個體之面部收集多個影像,更新三維面部模型中之身分編碼器及表情編碼器,沿著對應於使用者之視圖的預先選擇方向運用三維面部模型來產生使用者之合成視圖,及基於在由行動裝置提供之使用者之影像與使用者之合成視圖之間的差異來訓練三維面部模型。
在另一具體實例中,提供一種儲存指令之非暫時性電腦可讀取媒體。當電腦中之一或多個處理器執行指令時,該電腦執行方法。該方法包括自行動裝置接收第一個體之多個影像,基於一組可學習權重自第一個體之影像提取多個影像特徵,自影像特徵及第二個體之現有三維模型來推斷第一個體之三維模型,基於在由觀看者使用之頭戴式裝置上運行之沉浸式實境應用程式來動畫化第一個體之三維模型,及將第一個體之三維模型之影像提供至頭戴式裝置上之顯示器。
在又一具體實例中,一種系統包括用以儲存指令之第一構件及用以執行指令以使得系統執行方法之第二構件。該方法包括自行動裝置接收第一個體之多個影像,基於一組可學習權重自第一個體之影像提取多個影像特徵,自影像特徵及第二個體之現有三維模型來推斷第一個體之三維模型,基於在由觀看者使用之頭戴式裝置上運行之沉浸式實境應用程式來動畫化第一個體之三維模型,及將第一個體之三維模型之影像提供至頭戴式裝置上之顯示器。
此等及其他具體實例將鑒於以下揭示內容而對所屬技術領域中具有通常知識者變得清楚。
在以下詳細描述中,闡述諸多具體細節以提供對本發明之充分理解。然而,對於所屬技術領域中具有通常知識者將顯而易見,可在並無此等特定細節中之一些細節的情況下實踐本發明之具體實例。在其他情況下,並未詳細展示熟知結構及技術以免混淆本發明。 一般綜述
創建現有人員之逼真化身目前需要廣泛的人員特定資料擷取,此通常只能由視覺效果行業存取,而非普通大眾。因此,傳統方法依賴於廣泛的人員特定資料擷取以及昂貴且耗時的藝術家驅動的手動處理。因此,特別需要自動化化身創建程序,其具有輕量級資料擷取、低潛時及可接受的品質。自有限資料自動創建化身的核心挑戰在於先驗與證據之間的權衡。需要先驗以補充有關人的外表、幾何結構及運動的有限資訊,該資訊可以輕量級方式(例如,使用行動電話相機)獲取。然而,儘管近年來取得了重大進展,但以高解析度學習人臉的流形仍然具有挑戰性。模型化分佈之長尾係擷取如特定雀斑、紋身或疤痕等個人特質之理想選擇,可能需要具有更高維度潛在空間且因此具有比目前用於訓練此類模型的資料更多的資料的模型。現代方法能夠看似仿真化不存在的面部,但無法以使他們可辨識為他們自己之保真度來產生真人的表示。一些方法藉由在潛在空間外部進行最佳化來實現良好的逆重建,其中無法保證模型行為,但會在其影像轉換結果中產生強烈的假影。
雖然生成面部模型化的最新進展已被展示看似仿真化不存在的人員的詳細外表,但其可能無法跨越特定看不見的真人的詳細外表,此可能源於他們使用的低維潛在空間。結果為外表相似但明顯不同的身分。
為解決電腦網路的沉浸式實境應用領域中的上述問題,如本文中所揭示之具體實例實施簡短的行動電話擷取以獲得如實地匹配個人的外貌之可驅動3D頭部化身。與現有方法相比,本文中所揭示之架構避免了直接模型化人類外表之整個流形的複雜任務,而旨在僅使用少量資料產生可 專門用於新身分的化身模型。在一些具體實例中,模型可使用通常用於仿真化新身分之低維潛在空間。在又其他具體實例中,化身模型可使用條件表示,該條件表示可自高解析度記錄的中性電話掃描中以多個尺度提取個人特定資訊。此等模型藉由通用的先前模型獲得高品質的結果,該模型在數百個人類個體的面部表現之高解析度多視圖視訊擷取上進行訓練。藉由使用逆呈現來微調通用先前模型,本文中所揭示之具體實例實現了增強的真實感並使運動範圍個性化。輸出 不僅為與人的面部形狀及外表相匹配的高保真3D頭部化身,且亦為亦可使用共用的全域表情空間及用於凝視方向之解糾纏控制來驅動之化身。運用如本文中所揭示之模型產生的化身為個體外貌之忠實表示。與多個化身模型相比,本文中所揭示之輕量級方法展現出卓越的視覺品質及動畫能力。
如本文中所揭示之具體實例避免仿真化不存在的人,且替代地,專門針對使用容易獲取的真人的行動電話資料進行適配。特徵中之一些包括通用先驗,其包括超網路,該超網路係在數百個身分的多視圖視訊之高品質語料庫上訓練的。該等特徵中之一些亦包括記錄技術,其用於在使用者之中性表情的行動電話掃描時調節該模型。一些具體實例包括基於逆呈現的技術以根據額外表情資料微調個性化模型。給定額外正面行動電話擷取,逆呈現技術為使用者專門化了化身的表情空間,同時確保視點的普遍性且保留潛在空間的語義。
通用先前架構係基於以下觀察:面部外表及結構的長尾態樣在於細節,該等細節最好直接自人員的調節資料中提取,而非自低維身分嵌入中重建。低維嵌入的效能很快就穩定下來,無法擷取到人員特定的特質。替代地,如本文中所揭示之具體實例使用人員特定的多尺度「未綁定」偏差圖來增強現有方法,該等偏差圖可如實地重建特定針對於人員的高水平細節。此等偏差圖可使用U-Net類型網路自使用者之中性掃描的展開紋理及幾何結構產生。以此方式,一些具體實例包括超網路,其接收使用者之中性面部的資料並以偏差圖的形式為個性化解碼器產生參數。所得化身具有一致的表情潛在空間,及對視點、表情及凝視方向的解糾纏控制。該模型對調節信號之現實世界變化係穩定的,該等變化包括由於照明、感測器雜訊及有限解析度引起的變化。
如本文中所揭示之通用先前架構的一個重要特徵係下游任務控制的一致性。因此,通用的先前架構自單次中性掃描(例如,自行動電話)即時創建高度逼真的化身。另外,如本文中所揭示之具體實例產生了跨越人員的表情範圍的模型,該範圍具有僅若干表情之額外正面行動電話擷取。
如本文中所揭示之具體實例自行動電話擷取產生個體化身而不顯著增加對使用者端的要求。現有方法可產生人的合理仿真,而吾人之方法產生看起來且移動起來像特定人員之化身。此外,如本文中所揭示之模型繼承了現有人員特定模型之速度、解析度及呈現品質,此係由於其使用了類似的架構及呈現機制。因此,其較適用於交互式圖框速率要求高的應用程式,諸如VR。此開啟了VR中無處不在的逼真遙現的可能性,迄今為止,此一直受到對化身創建的嚴格要求或輕量級擷取產生的低品質化身阻礙。
對於具有物理意義之屬性,諸如凝視方向,如本文中所揭示之UPM可將其效應與其餘的表情空間分離,從而能夠自VR/AR頭戴式裝置中的外部感測器實現其直接控制(例如,眼睛追蹤)而不會干擾其餘的表情。圖12中展示此方面的一些實例,其中表情重定向係如上執行,但凝視方向經修改。
本文中所揭示之UPM模型藉由組合用於個性化之偏差圖、全卷積4×4×16表情潛在空間及中性差分化至表情編碼器之輸入來實現以上結果。如本文中所揭示之UPM模型產生更精細尺度的細節,尤其在像嘴部的動態區域中。本文中所揭示之一些UPM模型藉由訓練來校正過度擬合以預測微調程序。一些具體實例包括執行此操作的後設學習。類似的策略可減少用於獲得理想結果的微調反覆之次數,並減少微調資料稀疏時的過度擬合問題。
在一些具體實例中,UPM將RGB影像與來自工作室通信期的深度D資料組合,並將其應用於同一個體的保留資料。所得UPM接著可為來自任何給定個體之經饋送行動電話資料,以產生即時、準確的個體化身,如本文中所揭示。
藉由收集在照明及服裝以及其他組態(包括全身、手部或具有挑戰性的髮型)方面具有更多變化的語料庫來提供範圍廣泛的UPM。為了解決此等組態,開發了易於遵循的擷取指令碼(在工作室中或經由行動電話)以獲得適當的調節資料。考慮到寬鬆的服裝及長髮,二階動力學及相互滲透併入至UPM中,如本文中所揭示。 範例性系統架構
圖1繪示根據一些具體實例的適合於存取體積化身引擎之範例性架構100。架構100包括伺服器130,其經由網路150與用戶端裝置110及至少一個資料庫152以通信方式耦接。許多伺服器130中之一者經組態以代管記憶體,該記憶體包括在由處理器執行時使伺服器130執行如本文中所揭示之方法中之步驟中的至少一些的指令。在一些具體實例中,處理器經組態以控制圖形使用者介面(graphical user interface;GUI)以使用戶端裝置110中之一者的使用者使用沉浸式實境應用程式存取體積化身模型引擎。因此,處理器可包括儀錶板工具,該儀錶板工具經組態以經由GUI向使用者顯示組件及圖形結果。出於負載平衡之目的,多個伺服器130可代管包括至一或多個處理器之指令之記憶體,且多個伺服器130可代管歷史日誌以及包括用於體積化身模型引擎之多個訓練檔案庫的資料庫152。此外,在一些具體實例中,用戶端裝置110之多個使用者可存取相同體積化身模型引擎來運行一或多個沉浸式實境應用程式。在一些具體實例中,具有單一用戶端裝置110之單一使用者可提供影像及資料以訓練在一或多個伺服器130中並行地運行之一或多個機器學習模型。因此,用戶端裝置110及伺服器130可經由網路150及位於其中之資源(諸如資料庫152中之資料)彼此通信。
伺服器130可包括具有適當處理器、記憶體及用於代管體積化身模型引擎(包括與其相關聯之多個工具)之通信能力的任何裝置。體積化身模型引擎可經由網路150由各種用戶端110來存取。用戶端110可為例如桌上型電腦、行動電腦、平板電腦(例如包括電子書閱讀器)、行動裝置(例如智慧型手機或PDA),或具有適當處理器、記憶體及用於存取伺服器130中之一或多者上之體積化身模型引擎之通信能力的任何其他裝置。在一些具體實例中,用戶端裝置110可包括VR/AR頭戴式裝置,該等頭戴式裝置經組態以使用由伺服器130中之一或多者支援之體積化身模型來運行沉浸式實境應用程式。網路150可包括例如區域網路(LAN)、廣域網路(WAN)、網際網路及其類似者中之任一或多者。此外,網路150可包括但不限於以下工具拓樸中之任一或多者,包括匯流排網路、星形網路、環形網路、網狀網路、星形匯流排網路、樹狀或階層式網路及其類似者。
圖2為繪示根據本發明之某些態樣的來自架構100之範例性伺服器130及用戶端裝置110的方塊圖200。用戶端裝置110及伺服器130經由各別通信模組218-1及218-2(在下文中,統稱為「通信模組218」)藉由網路150以通信方式耦接。通信模組218經組態以與網路150介接以經由網路150將諸如資料、請求、回應及命令之資訊發送至其他裝置並接收以上資訊。通信模組218可為例如數據機或乙太網路卡,且可包括用於無線通信(例如,經由電磁輻射,諸如射頻RF、近場通信NFC、Wi-Fi及藍牙無線電技術)之無線電硬體及軟體。使用者可經由輸入裝置214及輸出裝置216與用戶端裝置110互動。輸入裝置214可包括滑鼠、鍵盤、指標、觸控螢幕、麥克風、操縱桿、虛擬操縱桿及其類似者。在一些具體實例中,輸入裝置214可包括攝影機、麥克風及感測器,諸如觸控感測器、聲學感測器、慣性運動單元IMU及經組態以將輸入資料提供至VR/AR頭戴式裝置之其他感測器。舉例而言,在一些具體實例中,輸入裝置214可包括用以偵測使用者之瞳孔在VR/AR頭戴式裝置中之位置的眼睛追蹤裝置。輸出裝置216可為螢幕顯示器、觸控式螢幕、揚聲器及其類似者。用戶端裝置110可包括記憶體220-1及處理器212-1。記憶體220-1可包括應用程式222及GUI 225,該應用程式及該GUI經組態以在用戶端裝置110中運行且與輸入裝置214及輸出裝置216耦接。應用程式222可由使用者自伺服器130下載且可由伺服器130代管。在一些具體實例中,用戶端裝置110係VR/AR頭戴式裝置且應用程式222係沉浸式實境應用程式。在一些具體實例中,用戶端裝置110為行動電話,個體使用該行動電話以自掃描自身的視訊或圖像且使用應用程式222將收集的視訊或影像上載至伺服器130,以即時創建自身的化身。
伺服器130包括記憶體220-2、處理器212-2及通信模組218-2。在下文中,處理器212-1及212-2以及記憶體220-1及220-2將分別被集體地稱作「處理器212」及「記憶體220」。處理器212經組態以執行儲存於記憶體220中之指令。在一些具體實例中,記憶體220-2包括體積化身模型引擎232及潛在表情空間234。體積化身模型引擎232及潛在表情空間234可共用特徵及資源或將其提供至GUI 225,該GUI包括與訓練且使用用於沉浸式實境應用程式(例如,應用程式222)之三維化身呈現模型相關聯的多個工具。使用者可藉由安裝在用戶端裝置110之記憶體220-1中的應用程式222來存取體積化身模型引擎232及潛在表情空間234。因此,應用程式222(包括GUI 225)可由伺服器130安裝且執行由伺服器130經由多個工具中之任一者提供之指令碼及其他常式。應用程式222之執行可受處理器212-1控制。
就此而言,如本文中所揭示,體積化身模型引擎232可經組態以創建、儲存、更新及維持化身模型240。化身模型240可包括編碼器-解碼器工具242、射線行進工具244及輻射場工具246。編碼器-解碼器工具242收集個體之輸入影像,且提取像素對準特徵以經由射線行進工具244中之射線行進程序調節輻射場工具246。在一些具體實例中,影像為在專用工作室中收集之多視圖、多照明影像,或可為由個體運用行動電話在自拍視訊中收集之一系列2D或立體影像。編碼器-解碼器工具242可包括表情編碼工具、身分編碼工具,及體積解碼工具,如本文中所揭示。化身模型240可自由編碼器-解碼器工具242處理之一或多個樣本影像產生未見過的個體之新穎視圖。在一些具體實例中,編碼器-解碼器工具242係淺(例如包括幾個單節點或兩節點層)卷積網路。在一些具體實例中,輻射場工具246將三維位置及像素對準之特徵轉換成可在任何所要視圖方向上投影的顏色及不透明度場。
在一些具體實例中,體積化身模型引擎232可存取儲存於訓練資料庫252中之一或多個機器學習模型。訓練資料庫252包括體積化身模型引擎232根據使用者經由應用程式222之輸入而可用於機器學習模型之訓練的訓練檔案庫及其他資料檔案。此外,在一些具體實例中,至少一或多個訓練檔案庫或機器學習模型可儲存於記憶體220中之任一者中且使用者可經由應用程式222對其進行存取。
體積化身模型引擎232可包括出於其中所包括之引擎及工具之特定目的而訓練的演算法。演算法可包括利用任何線性或非線性演算法之機器學習或人工智慧演算法,諸如神經網路演算法或多變量回歸演算法。在一些具體實例中,機器學習模型可包括神經網路(neural network;NN)、卷積神經網路(convolutional neural network;CNN)、生成對抗神經網路(generative adversarial neural network;GAN)、深度增強式學習(deep reinforcement learning;DRL)演算法、深度遞回神經網路(deep recurrent neural network;DRNN)、典型機器學習演算法,諸如隨機森林、k最近相鄰法(k-nearest neighbor;KNN)演算法、k均值叢集演算法或其任何組合。更一般而言,機器學習模型可包括涉及訓練步驟及最佳化步驟之任何機器學習模型。在一些具體實例中,訓練資料庫252可包括用以根據機器學習模型之所要結果來修改係數之訓練檔案庫。因此,在一些具體實例中,體積化身模型引擎232經組態以存取訓練資料庫252以擷取文件及檔案庫作為用於機器學習模型之輸入。在一些具體實例中,體積化身模型引擎232、其中所含有之工具以及訓練資料庫252之至少部分可代管於可由伺服器130或用戶端裝置110存取的不同伺服器中。
潛在表情空間234包括偏差映射工具248且提供表情碼,該表情碼經組態以將在潛在表情空間234上訓練且儲存在該潛在表情空間中之通用表情壓印至特定個體之3D網格及紋理圖上。來自特定個體之3D網格及紋理圖可由簡單的行動電話掃描(例如,用戶端裝置110)來提供,並由個體予以上傳至伺服器130上。
圖3A至圖3C繪示根據一些具體實例之用於自電話掃描獲得個體化身302A、302B及302C(在下文中統稱為「化身302」)之模型架構的方塊圖300A、300B及300C(在下文中統稱為「方塊圖300」)。通用先前模型(universal prior model;UPM)訓練300A之後為個性化階段(在中性面部表情上使用行動電話掃描)300B及表情個性化階段(在表情姿勢上使用行動電話)300C。方塊圖300所涵蓋之架構訓練交叉身分超網路330作為用於產生化身302之先驗,該化身可藉由調節人員的中性表情之輕量擷取而專門針對於個體。化身302係在損失操作350之後產生。超網路330運用身分編碼器341收集中性資料311A、311B及311C(在下文中,統稱為「中性資料311」),且運用表情編碼器342收集表情資料312A、312B或312C(在下文中,統稱為「表情資料312」),以產生化身302。中性資料311包括紋理圖345-1及3D網格347-1,其中個體具有中性表情。表情資料312包括紋理圖345-2及3D網格347-2,其中該個體具有過度表情姿勢(例如,笑聲、鬼臉、焦慮的表情、恐懼等)。紋理圖345-1及345-2將在下文中統稱為「紋理圖345」。且3D網格347-1及347-2將在下文中統稱為「3D網格347」。
在區塊300A中,表情資料312A係自多個身分321、用於各身分之多個圖框323及用於各圖框及身分之多個視圖325的集區擷取。在區塊300B及300C中,追蹤及展開工具345自行動電話掃描收集影像以產生中性資料311B至311C及表情資料312B至312C。中性資料311及表情資料312可包括3D模型或網格,及紋理環繞,或置放在3D網格上方以完成3D化身302之表面。
最終,為了說明難以使用交叉身分先驗(區塊300A)或通用表情碼312B予以模型化之表情的人員特定細節,改進區塊300C經由逆呈現方法使用特定個體之非結構化擷取以獲得個性化的表情化身302C。
圖4A及圖4B繪示根據一些具體實例之用於自電話掃描獲得個體化身402之UPM 400的架構之部分視圖。UPM 400為超網路,其針對可經動畫化的基於人員特定的體積基元混合(mixture of volumetric primitive;MVP)之化身產生參數。在身分調節區塊410中,人員特定化身自使用「未綁定」偏差圖448-1(例如,應用程式偏差)及448-2(例如,幾何偏差,在下文中統稱為「偏差圖448」, )而在很大程度上實現與目標身分的高度相似度。此最簡單的形式係經典化身表示中使用的基礎紋理及幾何結構,該等經典化身表示擷取靜態細節,諸如雀斑、痣、皺紋,甚至紋身以及耳環及鼻環等小配件。因此,UPM 400具有針對真實的未見過的身分產生偏差圖448之能力。為了產生真人的化身,UPM 400自真人的調節資料提取人員特定的偏差圖448。人員特定的偏差圖448為實時面部動畫啟用計算一次經常使用的設定。此避免了在用於表情及身分之架構之間的糾纏,從而減輕了用於動畫目的之計算資源。在一些具體實例中,UPM 400使用自2D調節資料至體積塊之U-net架構,可對該架構進行射線行進(例如,經由射線行進工具244)以產生逼真化身402。根據架構400A,UPM 400包括身分編碼器441( E id )、表情編碼器442( E exp ),及人員特定解碼器430。
在一些具體實例中, E id 441使用跨步卷積以自調節資料提取人員特定資訊,其呈個體之中性表情的(1024 × 1024)紋理圖445-1及幾何圖447-1(組合成圖449-1或449-2)的形式。 E id 441包括減少取樣區塊455i-1、455i-2、455i-3、457i-1、457i-2及457i-3(在下文中分別統稱為「減少取樣區塊455i及457i」,以及用於 E xp 442及 E id 441之「減少取樣區塊455及457」)。
E exp442針對訓練集中之各樣本提取表情潛在碼e。為此,吾人使用全卷積變分網路,其將視圖平均化表情紋理圖445-2及位置圖447-2(組合成圖449-2)作為輸入。 E exp 442包括減少取樣區塊455e-1、455e-2、455e-3、457e-1、457e-2及457e-3(在下文中分別統稱為「減少取樣區塊455e及457e」)。在一些具體實例中,視圖平均化輸入移除了視圖相關的效應,放寬了在瓶頸處使用視圖調節以實現顯式控制的需要。在一些具體實例中,(4 × 4 × 16)的潛在碼433以彼解析度產生平均值及方差。減少取樣區塊455e及457e經串接465e,且進一步減少取樣460至統計階段415中,該統計階段將隨機雜訊ε與經處理區塊之平均值µ及標準偏差σ相加。為了促進形成語義一致的表情潛在空間434,在將中性紋理圖445-1及位置圖447-1輸入至解碼器430中之前,將該中性紋理圖及位置圖自其表情對應物減去。此避免身分資訊在無額外對抗性術語之情況下洩漏至表情潛在空間434中。
解碼器430包括增加取樣區塊455d-1、455d-2、455d-3、455d-4、457d-1、457d-2、457d-3及457d-4(在下文中統稱為「增加取樣區塊455d及457d」)。
為了實現提取人員特定細節, E id 441採用呈中性紋理圖445-1( T neu )及中性幾何影像447-1(xyz位置圖或3D網格 G neu )之形式的調節資訊,且經由一組跳過連接產生用於各層級 V的偏差圖448。UPM 400經訓練以重建多個身分471之多視圖資料集,其中各身分具有多個表情。 E exp 442產生表情碼433(e)。 E exp 442針對特定表情圖框產生視圖平均化紋理445-2( T exp )及幾何447-2( G exp )作為輸入。總之,UPM 400可經寫入為: (1) (2) (3)
= T exp-T neu , = G exp-G neu ,且 M為用於射線行進444之輸出體積基元(例如,來自射線行進工具244),且 分別為 E exp 442及 E id 441之可訓練參數。解碼器430亦以用於呈現之視圖及凝視方向向量v及g為條件,以允許對凝視及視圖相關的外表改變之顯式控制。解碼器430中之參數包括兩個部分:1)可訓練網路權重 ,其模型化跨越不同身分共用的身分獨立資訊,及2) 448,其藉由身分編碼器回歸且擷取人員特定資訊。
解碼器430包括兩個去卷積網路 V geo (增加取樣區塊457d)及 V app (增加取樣區塊455d),其產生不透明度塊472(1024 × 1024 × 8)及外表塊471(1024 × 1024 × 24),以及用於將體積基元置放在世界空間中以用於射線行進(參見射線行進工具244)之稀疏引導幾何結構及變換。卷積表情潛在空間434(尺寸R 4 ×4×l6)在空間上定位各潛在維度之效應。此促進跨越身分之表情潛在空間434的語義一致性,此對於諸如表情傳送之下游任務係重要的。在一些具體實例中,UPM 400藉由以下操作來使凝視425與表情潛在空間434分離:將(2 × 3)凝視方向之編碼複製至(8 × 8)的網格427中;遮蔽此等張量以將不相關空間區置零;及在繼續解碼至較高解析度之前藉由在級460d-1及460d-2(在下文中統稱為「串接級460d」)中以網格427層級串接來調節解碼器430(例如,增加取樣區塊455d-1及457d-1)。為了基於觀看者在場景中之有利點來實現對視圖相關因素之顯式控制,UPM 400實現對用於直接控制化身402之凝視425的顯式估計。因此,凝視425包括視圖相關因素以支援諸如用於VR應用程式之變焦調整及注視點呈現之功能。因此,在一些具體實例中,UPM 400使凝視425與其餘的面部運動顯式地分離,且更直接地利用內置的眼睛追蹤系統。
解碼器430之詳細視圖400B包括具有偏差圖448之卷積增加取樣區塊455d及457d,每輸出啟動一個偏差。使 C in C out 為輸入及輸出通道增加取樣層(區塊455d及457d)之數目,且使 WH為輸入啟動之寬度及高度。因此,至層之輸入為具有大小(W×H×C in)之特徵張量,其經增加取樣至維度( 2W× 2H × C out)。增加取樣係藉由轉置卷積層(無偏差,4 × 4核心,步幅2)實施,且之後為添加由 E id 441產生之具有維度( 2W× 2H × C out)之偏差圖。
輸入457i及455i係使用卷積單獨地處理以將特徵通道增加至8,接著為具有L-ReLU啟動之八個跨步卷積層,每次都增加通道大小。在各解析度層級下,幾何結構457i及紋理455i分支之中間特徵經串接,且使用卷積步驟經進一步處理以產生用於解碼器430之給定層級455d的偏差圖448。當考慮配對(455i,455d)時,該架構類似於U-Net。此架構直接將來自調節資料(參見圖449)之傳送高解析度細節簡化為經解碼輸出,從而允許再現錯綜複雜的人員特定細節。
圖5繪示根據一些具體實例之用於收集用於UPM(例如,UPM 400)之個體的多照明、多視圖影像之工作室500(擷取圓頂)。UPM之訓練包括擷取圓頂500、擷取指令碼,及追蹤管線。為了擷取面部表現之同步多視圖視訊,擷取圓頂500包括多個視訊相機525(單色及多色相機),其置放於具有選定半徑(例如,1.2公尺或更大)之球形結構上。相機525指向個體之頭部所位於的球形結構之中心(該個體坐在座位510上)。在一些具體實例中,以每秒90圖框、2.222 ms的快門速度、4096 × 2668像素之解析度收集視訊擷取。多個(例如,350或更多)點光源521跨越結構均勻地分佈以均勻地照射參與者。為了計算各相機525之固有及非固有參數,機器人臂包括3D校準目標以執行自動幾何相機校準。
擷取指令碼系統地引導個體在各時間量內完成廣泛範圍的面部表情。個體被要求完成以下練習:1)模仿65個不同面部表情,2)執行自由形式的面部運動範圍片段,3)觀察25個不同方向以表示各種凝視角度,及4)讀取50個語音平衡的語句。在一些具體實例中,擷取255個個體,且每個體記錄了12,000經次取樣圖框的平均值。因此,處理了310萬個圖框。為了構建資料集,擷取指令碼可經設計以儘可能地跨越面部表情的範圍。因此,UPM模型可再現一些罕見或極端表情。
為了產生用於超過310萬個圖框之經追蹤網格,兩階段方法包括訓練高覆蓋率標誌偵測器,其產生跨越個體之面部均勻地分佈的一組320個標誌。該等標誌涵蓋兩個顯著特徵(諸如眼角)以及更均勻的區(諸如,面頰及前額)。對於30個左右的個體,對~6k圖框的密集追蹤涵蓋了多種表情,接著為自密集追蹤結果取樣標誌位置。另外,對於所有255個參與者,可對65個表情及來自經擬合網格之經取樣標誌位置執行基於非剛性的反覆最近點之面部網格擬合。第一資料來源提供了對一組有限身分的良好表情覆蓋率。第二來源擴展了身分覆蓋率。在第二階段中,高覆蓋率標誌偵測器運行各圖框之多個視圖。經偵測標誌接著用於初始化基於主成份分析(Principal Component Analysis;PCA)模型之追蹤方法以產生最終的經追蹤網格。
圖6繪示根據一些具體實例之在圖5之工作室中收集的多個影像601-1、601-2、601-3、601-4及601-5(在下文中統稱為輸入影像601)。UPM參數 )係使用以下等式最佳化: (4)
在N I個不同身分內,N Fi 個圖框及N C個不同的相機視圖來自輸入影像601。I i, f 表示實況相機影像以及與圖框 f相關聯之訓練資料集兩者。舉例而言,經追蹤幾何結構及對應的幾何結構影像G exp、視圖平均化紋理T exp、相機校準、經追蹤凝視方向g,及分段影像(在下文描述)。損失函數 包括三個主要成份: (5)
L mvp為不包括光度損失之損失,且L rec及L seg為特定針對於使用狀況之附加值。藉由運用隨機梯度下降及10 –3學習速率最佳化等式4而訓練UPM。
在一些具體實例中,UPM訓練包括發現重建損失 ,以確保經合成影像匹配實況。 可劃分成三個不同部分: (6)
為逐像素比較經合成影像與實況之像素式光度重建損失: (7)
其中P為像素之隨機樣本且此項之權重為λ pho= 1。等式7使用 1範數以用於更清晰的重建結果。UPM訓練亦估計用於各身分(例如,個體)之每相機背景影像及顏色變換,及整個影像上之樣本像素。等式6中之項 為VGG損失,其不利於在經合成及實況影像之低層級VGG特徵圖之間的差異。詳言之,其對諸如邊緣之低層級感知特徵較敏感,且因此產生更清晰重建結果。在一些具體實例中,此項之權重可為λ vgg= 1。等式6中之對抗損失 係基於基於貼片之鑑別器,以用於獲得更清晰重建結果且減少可在MVP表示中出現的孔洞假影。在一些具體實例中,此項之權重為λ gan= 0.1。不同於 ,其他兩個損失使用空間接收場以經由卷積架構計算其值。因而,各像素可能無法獨立於所有其他像素進行評估。在一些具體實例中,記憶體限制可約束訓練較低解析度影像。因此,一些訓練策略隨機地取樣具有(384 × 250)像素解析度之經縮放且經轉譯貼片。全解析度影像上之抗混淆取樣產生實況貼片,且運用射線行進工具(例如,射線行進工具244)選定的對應於彼等貼片中之像素的樣本射線實質上降低了計算負擔。此步驟對於 L vgg L gan 損失而言係合乎需要的,以擷取細節並避免以特定尺度對特徵之過度擬合。
等式5中之分段損失 藉由在不利於經預計算前景-背景分段遮罩與沿著像素射線之經呈現化身的經整合不透明度場之間的差異來促進場景中個體之較佳覆蓋: (8)
其中S為分段圖,且O為在射線行進期間計算的經整合不透明度。將 包括在UPM中改善了未藉由引導幾何結構經很好模型化之部分,諸如未準確地重建之突出的舌頭或頭髮結構。在一些具體實例中,起初可使用權重值λseg = 0.1,將其線性地減少至λseg = 0.01以包括缺少的部分。
圖7繪示根據一些具體實例之行動電話710之使用者701拍攝自掃描視訊以用於上載至產生使用者之逼真化身702的系統。目標表情733-1、733-2、733-3、733-4及733-5(在下文中統稱為「目標表情733」)可壓印在來自潛在表情空間734之個體化身702中。為了構建個性化化身,吾人使用行動電話來擷取兩個使用者資料集:1)用於調節通用先前模型之使用者之中性面部的多視圖掃描,及2)65個面部表情之正面視圖。
圖8繪示根據一些具體實例之用於創建個體之面部802-1、802-2及802-3(在下文中統稱為「個體化身802」)的3D模型之調節資料擷取。
調節資料包括用於UPM(例如,UPM 400)之影像801a-1、801a-2及801a-3(在下文中統稱為「調節資料801a」)。為了允許使用者廣泛使用,如本文中所揭示之UPM經組態以接收由廣泛可用的裝置(例如,行動電話、蜂巢式電話或智慧型手機)擷取之調節資料801a及使用者可自己遵循的姿勢及表情之簡單指令碼。在一些具體實例中,行動電話併有深度感測器,其可用於提取使用者之面部的3D幾何結構。對於擷取指令碼,要求使用者維持固定的中性表情,同時使電話在使用者之頭部周圍自左向右接著上下進行移動,以獲取包括頭髮之整個頭部的完整擷取。在一些情況下,維持靜態表情對於未經訓練的個體具有挑戰性。因此,該指令碼可包括僅運用前置相機來擷取額外表情,而無需維持靜態表情。調節資料801a包括自不同視角的個體之中性面部。對於各經擷取影像,吾人運行偵測器以在影像801b-1、801b-2及801b-3(在下文中統稱為「影像801b」)上獲得一組標誌811(例如,眼睛、嘴部等等)。另外,肖像分段操作產生分段遮罩801c-1、801c-2及801c-3(在下文中統稱為「剪影801c」)。使用自影像之集合構建的具有150個維度之中性面部PCA模型,該模型記錄3D面部網格847-1、847-2及847-3(在下文中統稱為「面部網格847」)。面部網格847藉由解決非線性最佳化問題而將其拓樸固定至觀測結果(例如,調節資料801a)。為此目的,該模型針對調節資料801a中之各圖框I來最佳化PCA係數 a以及剛性頭部旋轉 r i 及平移 t i 。此包括使用拉普拉斯乘數方法來最小化標誌、分段、深度以及係數正則化損失之一組合,如下: (9)
此處,標誌損失 係由在經偵測2D標誌與對應的網格頂點之對應的3D標誌位置之間的l 1距離定義。對於分段剪影損失 ,l 1距離經量測為在經投影網格之剪影處的頂點與肖像分段801c之邊界上的其最近點之間的螢幕空間。為了計算深度損失 ,該模型在法線方向及反法線方向上追蹤來自各頂點之射線,且使其與自深度圖產生的三角形網格相交。 經定義為在網格頂點與交叉點之間的l 1距離。該模型使用吉洪諾夫正則化(Tikhonov regularization)作為 來對PCA係數進行正則化。在一些具體實例中, = 5.0, = 0.5, = 1.0且 = 0.01,並且使其對於所有個體為固定的。該PCA模型近似於個體之面部的實際形狀。此程序產生經重建面部網格,其與輸入影像很好地對準(參見剪影801c)。吾人使用此網格以展開來自各網格847之紋理且對其進行聚集以獲得用於化身802之完整的面部紋理。該等紋理藉由加權平均化而經聚集,其中各紋理之權重為檢視角度、表面法線及可見性之函數。個體化身802中之最終經呈現網格包括經聚集紋理。
圖9繪示根據一些具體實例之個性化解碼器,其包括用於自輸入影像901-1、901-2、901-3、901-4及901-5(在下文中統稱為「輸入影像901」)呈現個體化身902-1、902-2、902-3、902-4及902-5(在下文中統稱為「個體化身902」)之經重建網格947-1、947-2、947-3、947-4及947-5(在下文中統稱為「經重建網格947」)及經聚集紋理945-1、945-2、945-3、945-4及945-5(在下文中統稱為「經聚集紋理945」)。
該模型將經重建網格947變換為中性幾何結構影像G neu,其連同紋理945(T neu)形成經饋送至UPM中以創建個體化身902的調節資料。在一些情況下,在用於訓練UPM之資料與運用行動電話獲取之影像901之間可存在域間隙。首先,用於訓練UPM之照明環境係靜態且經均勻地照亮,而影像901中之自然照明條件展現更多變化。第二,該行動電話擷取由於實體限制僅覆蓋頭部之前半個球體(使用者難以用行動電話掃描其頭部的後部)。為了彌合在行動電話與擷取工作室資料之間的域間隙,該模型將中性面部擬合演算法應用於經擷取工作室資料,其中手持式相機運動係由遵循類似軌跡的相機之離散選擇來代替(參見工作室500)。該UPM接著運用自此程序產生之中性調節資料來訓練,同時保持高品質的網格追蹤945及947以用於監督引導網格及每圖框的頭部姿勢。
此程序明顯地提高了個體化身902之品質,此係因為UPM學習修復在遵循行動電話擷取指令碼時未被觀察到的區。為了考慮在行動電話與工作室資料之間的照明及顏色變換,一些具體實例應用紋理正規化,包括對255個身分之資料集進行詳盡搜索,估計最佳的每通道增益,以匹配各身分,且選取具有最少錯誤之一個影像。此經正規化紋理連同個性化的網格945及947經饋送至身分編碼器(例如,E id441)中,以產生人員特定偏差圖(例如,偏差圖448),其連同解碼器(例如,解碼器430)產生個體化身902。
給定具有任意面部表情之一組影像901,該模型運行基於3色+深度(RGB-D)之3D面部追蹤器以展開來自影像901之紋理945,對其進行正規化,且用中性紋理填充未觀察到的部分。經追蹤3D面部網格及紋理用作經輸入至表情編碼器(例如,E exp441)之表情資料,其連同偏差圖及解碼器D可用於產生體積基元,該等體積基元可經射線行進以產生影像。雖然個性化解碼器藉由仿真的表情跨度產生了合理的相似性,但其通常會遺漏瞬態細節,諸如當使用者之面部處於中性表情時不明顯的皺紋。為了構建更真實的化身,該模型利用使用行動電話自正面視圖擷取之65個面部表情的資料。此擷取平均需要3.5分鐘,且個體在循循該指令碼時很少遇到任何困難。藉由此等表情圖框{I f},該系統執行合成式分析以藉由最小化來微調個體化身之網路參數: (10) (11)
其中T f 為覆蓋面部區之經呈現遮罩,且O f 為在射線行進期間計算的經積分不透明度。 不利於由於MVP表面基元彼此分離而可在微調期間出現的孔。為了確保泛化至不在經擷取資料中之表情,吾人亦針對來自訓練語料庫之樣品來評估此損失,比例為1%。在一些微調具體實例中,拉普拉斯乘數可設定為λ pho= 1,λ VGG= 3,λ GAN= 0.1,λ seg= 0.1,且λ hole= 100。
圖10繪示根據一些具體實例之用於來自輸入影像1001-1及1001-2(在下文中統稱為「輸入影像1001」)之高保真度化身1002a-1、1002a-2(統稱為「化身1002a」)、1002b-1、1002b-2(統稱為「化身1002b」)、1002c-1、1002c-2(統稱為「化身1002c」)及1002d-1、1002d-2(統稱為「化身1002d」)的損失函數效應。化身1002a、1002b、1002c及1002d將統稱為「化身1002」。
如本文中所揭示之UPM之重建損失(參見等式10及UPM 400)對藉由解碼器重建之細節之數量具有顯著影響。化身1002a係使用距離度量 l 2 而獲得,化身1002b係使用距離度量 l 1 而獲得,化身1002c係使用距離度量 l 1+vgg 而獲得,且化身1002d係使用距離度量 l 1+vgg+gan 而獲得。如可看出,該損失函數產生最高保真度化身。
圖11繪示根據一些具體實例之由提供UPM(參見UPM 400)之表情一致潛在空間1134。最左行包括個體之源身分之影像1101(例如,在工作室中或經由行動電話收集)。自左起第二行包括使用UPM重建之個體化身1102a。其他行包括個體化身1102b、1102c、1102d、1102e、1102f、1102g、1002h及1002i,其具有藉由基於不同身分調節資料而解碼UPM之重定向結果。
圖12繪示根據一些具體實例之表情重定向函數1200及結果。表情重定向函數1200將中性經減去輸入影像1201包括至表情編碼器(參見 E exp 442)中,從而產生糾纏的表情1234a及1234b以產生個體化身1202。
圖13繪示根據一些具體實例之來自潛在表情空間(例如,潛在表情空間234)之身分不變結果。來自不同個體1365-1、1365-2、1365-3及1365-4(在下文中統稱為「表情1365」)之不同表情經重定向,或在不同個體當中「經壓印」。舉例而言,表情1365-1經重定向至用於不同個體之化身1302a-1、1302b-1、1302c-1及1302d-1上。同樣地,表情1365-2經重定向至用於不同個體之化身1302a-2、1302b-2、1302c-2及1302d-2上。表情1365-3經重定向至用於不同個體之化身1302a-3、1302b-3、1302c-3及1302d-3上。且表情1365-4經重定向至用於不同個體之化身1302a-4、1302b-4、1302c-4及1302d-4上。化身1302a-1、1302a-2、1302a-3、1302a-4、1302b-1、1302b-2、1302b-3、1302b-4、1302c-1、1302c-2、1302c-3、1302c-4、1302d-1、1302d-2、1302d-3及1302d-4將在下文中統稱為「化身1302」。
如本文中所揭示之UPM藉由將源身分之表情1365輸入至表情編碼器(例如,E exp442)中且將使用者目標身分作為中性調節資料輸入至身分編碼器(例如,E id441)中,來將一個訓練個體之表情1365重定向至另一個體化身1302。儘管UPM在訓練期間並未明確定義表情對應性(參見工作室500中之擷取指令碼),但該模型甚至跨越具有顯著不同的面部形狀及外表之身分保留了潛在表情空間之語義。至表情編碼器之輸入(參見紋理圖445-1及幾何結構圖447-1)含有可能並非表情特定的身分特定資訊,例如,牙齒形狀。出乎意料地,該UPM模型成功地將源身分之整體表情傳送至目標身分,而經解碼牙齒視需要仍然為各目標之身分的牙齒。因此,訓練UPM模型教示身分編碼器將中性面部外表及幾何結構與牙齒相關,至少近似相關。一些具體實例運用額外表情來豐富調節資訊集(用於表情編碼器)。一些具體實例可依賴於微調策略,其在利用測試時可用的表情方面具有更大的靈活性,而非要求先驗地預定義集合。
圖14繪示根據一些具體實例之經由解糾纏表示之顯式凝視控制1400。表情1465可自潛在表情空間(例如,潛在表情空間234)擷取,且接著經重定向至不同個體1、2、3及4,其各自與顯示不同凝視方向之化身a、b、c相關聯。因此,化身1402-1a、1402-1b及1402-1c指示具有表情1465且在三個不同方向上凝視之個體1。同樣地,化身1402-2a、1402-2b及1402-2c指示具有表情1465且在相同的三個不同方向上凝視之個體2。化身1402-3a、1402-3b及1402-3c指示具有表情1465且在相同的三個不同方向上凝視之個體3。且化身1402-4a、1402-4b及1402-4c指示具有表情1465且在相同的三個不同方向上凝視之個體2。
圖15繪示根據一些具體實例之使用不同空間解析度之身分潛在空間以及不使用身分潛在空間對來自輸入影像1501之化身1502a(解析度4×4×128)、1502b(解析度32×32×8)、1502c(解析度128×128×8)以及1502d(無身分潛在空間,在下文中統稱為「化身1502」)之微調操作1500(超過1000次反覆)。圖表1512-1、1512-2、1512-3及1512-4(在下文中統稱為「圖表1512」)使用四個不同度量(分別為l 1、MSE、VGG及SSIM)指示22個未見過的個體之運動範圍序列之平均重建誤差。圖表1512包括橫軸,其中「無」係指不具有微調之結果,「enc」微調表情編碼,且「id{x)」x次反覆微調身分編碼。
如圖表1512中所繪示,隨著身分潛在空間在空間解析度上增加,重建效能亦增加。由於各潛在碼在輸出上之局域化的空間佔據面積,增加身分潛在空間之空間解析度可更靈活地模型化看不見的變化。身分潛在空間產生具有類似但可辨識地不同身分之化身。
VGG分數(圖表1512-3)在此等結果上趨於更高,此係因為VGG分數對於在化身1502與源影像之間的細節之類似性敏感。在無身分潛在空間之情況下,UPM擷取細微的細節,如脖子上的痣1570,且獲得較小VGG分數。使用身分潛在空間,如本文中所揭示之UMP可支援身分插值,且依賴於特定個體之調節資料以產生化身。 表1.用於微調之資料的消融研究
中性 表情 l 1 (↓) MSE(↓) SSIM(↑) LPIPS(↓) VGG(↓)
14.55 137.79 0.9398 0.1226 0.2309
正面 15.40 173.31 0.9208 0.1290 0.2526
全部 13.47 142.72 0.9359 0.1104 0.2340
正面 全部 9.55 78.21 0.9435 0.1011 0.2304
全部 2 12.26 124.44 0.9361 0.1100 0.2369
全部 4 11.46 111.61 0.9395 0.1061 0.2329
全部 8 10.56 96.86 0.9435 0.1019 0.2284
全部 16 10.01 88.42 0.9459 0.0991 0.2254
全部 32 9.72 82.82 0.9467 0.0983 0.2249
全部 全部 9.18 74.33 0.9477 0.0966 0.2238
圖16繪示根據一些具體實例之具有不同度量(分別為l 1、MSE、VGG及SSIM)且用於不同數目個個體(16、32、64、128及235)之UPM的效能圖表1612a、1612b、1612c及1612d(在下文中統稱為「圖表1612」)。關於其餘的個體,UPM係運用數量不斷增加的表情資料1、3、5、9、17、33及65個表情圖框(參見圖表1612中之橫軸)來微調,其中各表情圖框有五個相機(參見工作室500中之相機525)。在微調1000次反覆之後,該等模型係針對保留的運動範圍序列來評估。增加訓練身分之數量會改善結果,正如期望。類似地,額外微調資料亦產生較佳結果。在可作為訓練集之部分所獲取的內容與可在使用者端獲取的內容之間的權衡係應用程式特定的。即使在使用65個微調表情時,經改善效能可能會繼續超過235之語料庫大小。
圖17繪示根據一些具體實例之關於用於微調中之損耗的消融程序1700。程序1700展示用於行動電話個性化化身1702-1a、1702-1b、1702-1c及1702-1d(在下文中統稱為「化身1702-1」)之重建結果,該等化身運用輸入影像1701-1之不同損失來加以微調,具有第一標誌1711-1(具有分別指示l 1、+VGG、+Hole及+GAN損失之後綴為a、b、c及d)。化身1702-2a、1702-2b、1702-2c及1702-2d(在下文中統稱為「化身1702-2」)由具有第二標誌1711-2之輸入影像1701-2產生。標誌1711-1及1711-2可分別為前額及臉頰上的皺紋(在下文中統稱為「標誌1711」)。僅使用l 1范數作為光度損失(參見等式6至7)之UPM模型產生模糊重建。併有VGG損失有助於增強所得影像(參見1702-1b及1702-2b)之清晰度。然而,為了減少在射線匹配期間由射線錯過表面而產生的孔狀假影,經微調UPM模型包括明顯地減少此類假影(參見1702-1c及1702-2c)之孔洞損失(參見等式11)。最終,添加GAN損失改善了結果之品質(參見1702-1d及1702-2d)。化身1702-1及1702-2在下文中將稱作「化身1702」。
表1中概述化身1702之效能特性。對化身1702進行微調正確地重建了個體之表情,從而減少重建誤差。僅對中性正面影像進行微調可導致過度擬合,其中一組保留影像(例如,未用於訓練UPM之影像)之效能會下降。使用中性多視圖掃描之所有圖框有助於減少過度擬合。在無多視圖中性圖框之情況下對完整表情集合進行微調可有效地減少重建誤差(參見表1正面/全部)。最終,當使用表情及多視圖資料之完整集合進行微調時,個性化化身在非正面視圖中呈現時會產生準確的表情重建而沒有任何假影(參見化身1702-1d及1702-2d)。表1展示隨著微調表情集增加效能會改善之趨勢。
圖18繪示根據一些具體實例之圖表1812a、1812b、1812c及1812d(在下文中統稱為「圖表1812」),其繪示微調資料集大小對該模型之不同部分之效能的影響(後綴為a、b、c及d分別對應於l 1、MSE、VGG及SSIM損失)。圖表1812中之橫軸指示用於訓練UPM之個體之數目。不同曲線對應於「表情」、「身分及表情」、「解碼器」及「全部」微調參數。資料展示於表2中。對所有部分進行微調產生最低l 1誤差、均方誤差(mean square error;MSE)及IPIPS度量。對編碼器進行微調(-b、身分及表情)實現了最佳SSIM分數及最低VGG分數。 表2.關於對該模型之不同部分進行微調的消融研究
成份 l 1 (↓) MSE(↓) SSIM(↑) LPIPS(↓) VGG(↓)
ε exp 13.48 123.84 0.9401 0.1231 0.2329
ε id 10.33 88.98 0.9485 0.1125 0.2236
ε id+ ε exp 9.70 82.65 0.9504 0.1081 0.2221
9.29 76.57 0.9471 0.0974 0.2244
ε id+ 9.27 7659 0.9472 0.0975 0.2254
完整法 9.18 74.33 0.9477 0.0966 0.2238
圖19繪示根據一些具體實例之學習速率對微調之影響。輸入影像1901具有標誌1911-1(眼睛)及1911-2(嘴部),其在下文中統稱為「標誌1911」。化身1902a、1902b及1902c(在下文中統稱為「化身1902」)包括分別用於標誌1911-1的特徵1912-1a、1912-1b及1912-1c(在下文中統稱為「特徵1912-1」)。且化身1902亦包括特徵1912-2a、1912-2b及1912-2c(在下文中統稱為「特徵1912-2」)。對於化身1902,參考後綴為a、b及c分別指示學習速率10 -4、10 -3及10 -2
如本文中所揭示之UPM係在235個身分之多視圖資料上進行訓練。為了保持表情空間的一致性且保留視圖相關屬性,需要在微調期間選擇學習速率。因此,學習速率10 -4可能太小,且UPM無法恢復諸如標誌1911-1之足夠的面部細節。當學習速率為太大的10 -2時,UPM可能過度擬合,且效能在保留資料上會下降。在一些具體實例中,學習速率10 -3產生詳述重建,同時亦概括新的表情(例如,無過度擬合)。
圖20繪示根據一些具體實例之自多視圖工作室模型化(化身2002a)且自行動電話掃描(化身2002b)創建的化身2002a-1、2002a-2及2002a-3(在下文中統稱為「化身2002a」)以及2002b-1、2002b-2及2002b-3(在下文中統稱為「化身2002b」)與輸入影像2001-1、2001-2及2001-3(在下文中統稱為「輸入影像2001」)之比較。化身2002a及2002b之品質對於肉眼係不可區分的。
圖21繪示根據一些具體實例之自多視圖工作室模型化(化身2102-1a及2102-2a)且自行動電話掃描(化身2102-1b及2102-2b,無微調,以及化身2102-1c及2102-2c,運用微調)創建之化身2102-1a、2102-1b及2102-1c(在下文中統稱為「化身2102-1」)以及2102-2a、2102-2b及2102-2c(在下文中統稱為「化身2102-2」)與輸入影像2101-1及2101-2(在下文中統稱為「輸入影像2101」)之比較。
化身2102-1a及2102-2a自輸入影像2101創建至基於GAN之框架中。工作室化身2102-1a及2102-2a為高品質,而行動電話化身2102-1b、2102-2b、2102-1c及2102-2c產生具有高真實性之真實表示。工作室化身2102-1a及2102-2a修改輸入影像2101,以展示合成笑容。作為一比較,行動電話化身2102-1b、2102-1c及2101-2b、2102-2c展示類似結果,其較佳地保持了使用者之相似性及在語義上更一致的表情。
圖22繪示根據一些具體實例之自包括眼鏡(化身2201-1)及長髮(化身2201-2)之行動電話掃描創建的化身2202-1a、2202-1b(在下文中統稱為「化身2202-1」)、2202-2a、2202-2b(在下文中統稱為「化身2202-2」)。
圖23繪示根據一些具體實例之自輸入影像2301收集的改進的個性化化身2302-1、2302-2(化身深度)、2302-3(3/4左視圖)及2302-4(3/4右視圖,在下文中統稱為「化身2302」)。化身2302包括微調正面視圖表情影像,面部表情之視圖相關屬性得以很好地保留,此允許吾人自不同視點來呈現化身。
圖24繪示根據一些具體實例之對應於第一模型個體的不同表情之個性化化身2402-1、2402-2及2402-3(在下文中統稱為「化身2402」),其經壓印在來自影像2401a、2401b及2401c(在下文中統稱為「影像2401」)之不同個體上。
化身2402展示來自資料集中的單個身分之一些重定向實例(第1行)。UPM將經追蹤網格及紋理傳遞至表情編碼器中,以獲得表情碼,且將其饋送至化身2402中之每一者的解碼器中。源身分2401之表情被無縫地傳送至不同化身2402,同時保留諸如牙齒及皺紋之細節。化身2402-2及2402-3展示在不同環境中在不同時間擷取之相同個體。經恢復化身之身分在兩次擷取之間係一致的。
圖25為根據一些具體實例之繪示用於將視訊掃描提供至遠端伺服器以創建個體化身之方法2500中之步驟的流程圖。方法2500中之步驟可至少部分藉由執行儲存於記憶體中之指令的處理器執行,其中處理器及記憶體為如本文中所揭示之用戶端裝置或VR/AR頭戴式裝置之部分(例如,記憶體220、處理器212及用戶端裝置110)。在又其他具體實例中,與方法2500一致之方法中的步驟中之至少一或多者可由執行儲存在記憶體中之指令的處理器執行,其中處理器及記憶體中之至少一者遠端地位於雲端伺服器及資料庫中,且頭戴式裝置經由耦接至網路之通信模組以通信方式耦接至雲端伺服器(參見伺服器130、資料庫152及252、通信模組218,及網路150)。在一些具體實例中,該伺服器可包括體積化身引擎,其具有化身模型,該化身模型具有編碼器-解碼器工具、射線行進工具及輻射場工具,且該服務器記憶體可儲存潛在表情空間,如本文中所揭示(例如,體積化身引擎232、潛在表情空間234、化身模型240、編碼器-解碼器工具242、射線行進工具244、輻射場工具246,及偏差映射工具248)。在一些具體實例中,與本發明一致之方法可包括來自方法2500之至少一或多個步驟,該一或多個步驟按不同次序同時、半同時或時間上重疊地執行。
步驟2502包括自行動裝置接收第一個體之多個影像。在一些具體實例中,步驟2502包括接收第一個體之至少一中性表情影像。在一些具體實例中,步驟2502包括接收第一個體之至少一表情影像。在一些具體實例中,步驟2502包括接收藉由使行動裝置在選定方向上在第一個體上掃描而收集之一系列影像。
步驟2504包括基於一組可學習權重自第一個體之影像提取多個影像特徵。
步驟2506包括自影像特徵及第二個體之現有三維模型來推斷第一個體之三維模型。在一些具體實例中,步驟2506包括沿著針對收集第二個體之影像選擇的方向使第一個體之三維模型偏置。在一些具體實例中,步驟2506包括遮蔽第一個體之三維模型中之凝視方向並***第二個體之凝視方向。在一些具體實例中,影像特徵包括第一個體之身分特徵,且步驟2506包括用第二個體之身分特徵來替換第一個體之身分特徵。在一些具體實例中,影像特徵包括第一個體之表情特徵,且步驟2506包括匹配潛在表情資料庫中之第一個體之表情特徵。
步驟2508包括基於在由觀看者使用之頭戴式裝置上運行之沉浸式實境應用程式來動畫化第一個體之三維模型。在一些具體實例中,步驟2508包括沿著在第一個體之三維模型與用於觀看者之選定觀測點之間的方向投影影像特徵。在一些具體實例中,步驟2508包括基於儲存在資料庫中之第二個體之三維模型來向第一個體之三維模型添加照明源。
步驟2510包括將第一個體之三維模型之影像提供至頭戴式裝置上之顯示器。
圖26為根據一些具體實例之繪示用於自由個體提供之視訊掃描產生個體化身之方法2600中之步驟的流程圖。方法2600中之步驟可至少部分藉由執行儲存於記憶體中之指令的處理器執行,其中處理器及記憶體為如本文中所揭示之用戶端裝置或VR/AR頭戴式耳機之部分(例如,記憶體220、處理器212及用戶端裝置110)。在又其他具體實例中,與方法2600一致之方法中的步驟中之至少一或多者可由執行儲存在記憶體中之指令的處理器執行,其中處理器及記憶體中之至少一者遠端地位於雲端伺服器及資料庫中,且頭戴式裝置經由耦接至網路之通信模組以通信方式耦接至雲端伺服器(參見伺服器130、資料庫152及252、通信模組218,及網路150)。在一些具體實例中,該伺服器可包括體積化身引擎,其具有化身模型,該化身模型具有編碼器-解碼器工具、射線行進工具及輻射場工具,且該服務器記憶體可儲存潛在表情空間,如本文中所揭示(例如,體積化身引擎232、潛在表情空間234、化身模型240、編碼器-解碼器工具242、射線行進工具244、輻射場工具246,及偏差映射工具248)。在一些具體實例中,與本發明一致之方法可包括來自方法2600之至少一或多個步驟,該一或多個步驟按不同次序同時、半同時或時間上重疊地執行。
步驟2602包括根據擷取指令碼自多個個體之面部收集多個影像。在一些具體實例中,步驟2602包括運用預先選擇照明組態來收集影像中之各者。在一些具體實例中,步驟2602包括收集具有各個體之不同表情之影像。
步驟2604包括更新三維面部模型中之身分編碼器及表情編碼器。
步驟2606包括運用三維面部模型沿著對應於使用者之視圖之預先選擇方向來產生使用者之合成視圖。
步驟2608包括基於在由行動裝置提供之使用者之影像與使用者之合成視圖之間的差異來訓練三維面部模型。在一些具體實例中,步驟2608包括基於使用者之影像來使用用於三維面部模型之幾何假影的度量。在一些具體實例中,步驟2608包括使用用於三維面部模型之身分假影之度量。 硬體綜述
圖27為繪示例示性電腦系統2700之方塊圖,可藉由該電腦系統實施頭戴式裝置及其他用戶端裝置110,及方法2500以及2600。在某些態樣中,電腦系統2700可使用在專屬伺服器中或整合至另一實體中或跨多個實體分散之硬體或軟體及硬體之組合實施。電腦系統2700可包括桌上型電腦、膝上型電腦、平板電腦、平板手機、智慧型手機、功能電話、伺服器電腦或其他。伺服器電腦可遠端地位於資料中心或在本地端儲存。
電腦系統2700包括匯流排2708或用於傳達資訊之其他通信機構,及與匯流排2708耦接以用於處理資訊之處理器2702(例如,處理器212)。作為實例,電腦系統2700可藉由一或多個處理器2702實施。處理器2702可為通用微處理器、微控制器、數位信號處理器(Digital Signal Processor;DSP)、特殊應用積體電路(Application Specific Integrated Circuit;ASIC)、場可程式化閘陣列(Field Programmable Gate Array;FPGA)、可程式化邏輯裝置(Programmable Logic Device;PLD)、控制器、狀態機、閘控邏輯、離散硬體組件或可執行資訊之計算或其他操控的任何其他合適實體。
除了硬體,電腦系統2700亦可包括創建用於所討論之電腦程式之執行環境的程式碼,例如構成以下各者的程式碼:處理器韌體、協定堆疊、資料庫管理系統、作業系統或其在以下各者中儲存中之一或多者的組合:所包括之記憶體2704(例如記憶體220)(諸如隨機存取記憶體(Random Access Memory;RAM)、快閃記憶體、唯讀記憶體(Read-Only Memory;ROM)、可程式化唯讀記憶體(Programmable Read-Only Memory;PROM)、可抹除PROM(Erasable PROM;EPROM)、暫存器、硬碟、可移磁碟、CD-ROM、DVD或與匯流排2708耦接以用於儲存待藉由處理器2702執行之資訊及指令的任何其他合適儲存裝置。處理器2702及記憶體2704可由專用邏輯電路系統補充或併入於專用邏輯電路系統中。
該等指令可儲存於記憶體2704中且在一或多個電腦程式產品中實施,例如在電腦可讀取媒體上編碼以供電腦系統2700執行或控制該電腦系統之操作的電腦程式指令之一或多個模組,且根據所屬技術領域中具有通常知識者熟知之任何方法,該等指令包括但不限於諸如以下各者之電腦語言:資料導向語言(例如SQL、dBase)、系統語言(例如C、Objective-C、C++、彙編)、架構語言(例如,Java、.NET)及應用程式語言(例如PHP、Ruby、Perl、Python)。指令亦可以電腦語言實施,諸如陣列語言、特性導向語言、彙編語言、製作語言、命令行介面語言、編譯語言、並行語言、波形括號語言、資料流語言、資料結構式語言、宣告式語言、深奧語言、擴展語言、***語言、函數語言、互動模式語言、解譯語言、反覆語言、以串列為基語言、小語言、以邏輯為基語言、機器語言、巨集語言、元程式設計語言、多重範型語言(multiparadigm language)、數值分析、非英語語言、物件導向分類式語言、物件導向基於原型的語言、場外規則語言、程序語言、反射語言、基於規則語言、指令碼處理語言、基於堆疊語言、同步語言、語法處置語言、視覺語言、wirth語言及基於xml的語言。記憶體2704亦可用於在待由處理器2702執行之指令之執行期間儲存暫時性變數或其他中間資訊。
如本文中所論述之電腦程式未必對應於檔案系統中之檔案。程式可儲存於保持其他程式或資料(例如,儲存於標記語言文件中之一或多個指令碼)的檔案的部分中、儲存於專用於所討論之程式的單個檔案中,或儲存於多個經協調檔案(例如,儲存一或多個模組、子程式或程式碼之部分的檔案)中。電腦程式可經部署以在一台電腦上或在位於一個位點或跨多個位點分佈且由通信網路互連的多台電腦上執行。本說明書中所描述之程序及邏輯流程可由一或多個可程式化處理器執行,該一或多個可程式化處理器執行一或多個電腦程式以藉由對輸入資料進行操作且生成輸出來執行功能。
電腦系統2700進一步包括與匯流排2708耦接以用於儲存資訊及指令之資料儲存裝置2706,諸如磁碟或光碟。電腦系統2700可經由輸入/輸出模組2710耦接至各種裝置。輸入/輸出模組2710可為任何輸入/輸出模組。例示性輸入/輸出模組2710包括諸如USB埠之資料埠。輸入/輸出模組2710經組態以連接至通信模組2712。例示性通信模組2712包括網路連接介面卡,諸如乙太網路卡及數據機。在某些態樣中,輸入/輸出模組2710經組態以連接至複數個裝置,諸如輸入裝置2714及/或輸出裝置2716。例示性輸入裝置2714包括鍵盤及指標裝置,例如滑鼠或軌跡球,消費者可藉由該指標裝置提供輸入至電腦系統2700。其他種類之輸入裝置2714亦可用於提供與消費者的互動,諸如觸覺輸入裝置、視覺輸入裝置、音訊輸入裝置或腦機介面裝置。舉例而言,提供至消費者之回饋可為任何形式之感測回饋,例如視覺回饋、聽覺回饋或觸覺回饋;並且可自消費者接收任何形式之輸入,包括聲輸入、語音輸入、觸覺輸入或腦波輸入。例示性輸出裝置2716包括用於向消費者顯示資訊之顯示裝置,諸如液晶顯示(liquid crystal display;LCD)監視器。
根據本發明之一個態樣,回應於處理器2702執行記憶體2704中所含有之一或多個指令的一或多個序列,可至少部分地使用電腦系統2700實施頭戴式裝置及用戶端裝置110。此等指令可自諸如資料儲存裝置2706等另一機器可讀取媒體讀取至記憶體2704中。主要的記憶體2704中含有之指令序列的執行促使處理器2702執行本文中所描述之製程步驟。呈多處理配置之一或多個處理器亦可用以執行記憶體2704中含有之指令序列。在替代態樣中,硬佈線電路系統可代替軟體指令使用或與軟體指令組合使用,以實施本發明之各種態樣。因此,本發明之態樣不限於硬體電路系統及軟體之任何具體組合。
本說明書中所描述之主題的各種態樣可在計算系統中實施,該計算系統包括後端組件,例如資料伺服器,或包括中間軟體組件,例如應用伺服器,或包括前端組件,例如具有消費者可與本說明書中所描述之主題之實施互動所經由的圖形消費者介面或網路瀏覽器的用戶端電腦,或包括一或多個此等後端組件、中間軟體組件或前端組件的任何組合。系統之組件可藉由數位資料通信之任何形式或媒體(例如,通信網路)互連。通信網路可包括例如LAN、WAN、網際網路及其類似者中之任何一或多者。此外,通信網路可包括但不限於例如以下網路拓樸中之任何一或多者,包括:匯流排網路、星形網路、環形網路、網狀網路、星形匯流排網路、樹或階層式網路或類似者。通信模組可例如為數據機或乙太網路卡。
電腦系統2700可包括用戶端及伺服器。用戶端以及伺服器大體上彼此遠離且通常經由通信網路互動。用戶端與伺服器之關係藉助於在各別電腦上運行且具有彼此之用戶端-伺服器關係之電腦程式產生。電腦系統2700可為例如但不限於桌上型電腦、膝上型電腦或平板電腦。電腦系統2700亦可嵌入於另一裝置中,例如但不限於行動電話、PDA、行動音訊播放器、全球定位系統(Global Positioning System;GPS)接收器、視訊遊戲控制台及/或電視機上盒。
如本文中所使用之術語「機器可讀取儲存媒體」或「電腦可讀取媒體」係指參與將指令提供至處理器2702以供執行之任一或多個媒體。此媒體可呈許多形式,包括但不限於非揮發性媒體、揮發性媒體及傳輸媒體。非揮發性媒體包括例如光碟或磁碟,諸如資料儲存裝置2706。揮發性媒體包括動態記憶體,諸如記憶體2704。傳輸媒體包括同軸纜線、銅線及光纖,包括形成匯流排2708之電線。機器可讀取媒體之常見形式包括例如軟碟、軟性磁碟、硬碟、磁帶、任何其他磁性媒體、CD-ROM、DVD、任何其他光學媒體、打孔卡、紙帶、具有孔圖案之任何其他實體媒體、RAM、PROM、EPROM、FLASH EPROM、任何其他記憶體晶片或卡匣,或可供電腦讀取之任何其他媒體。機器可讀取儲存媒體可為機器可讀取儲存裝置、機器可讀取儲存基板、記憶體裝置、影響機器可讀取傳播信號之物質的組成物,或其中之一或多者的組合。
為了說明硬體與軟體之互換性,諸如各種說明性區塊、模組、組件、方法、操作、指令及演算法之項目已大體按其功能性加以描述。將此類功能性實施為硬體、軟體抑或硬體與軟體之組合取決於外加於整個系統上之特定應用及設計約束。所屬技術領域中具有通常知識者可針對各特定應用以不同方式實施所描述功能性。
如本文中所使用,在一系列項目之前的藉由術語「及」或「或」分離該等項目中之任一者的片語「中之至少一者」修改清單整體,而非清單中之各成員(例如,各項目)。片語「中之至少一者」不需要選擇至少一個項目;實情為,該片語允許包括該等項目中之任一者中之至少一者及/或該等項目之任何組合中之至少一者及/或該等項目中之各者中之至少一者之涵義。作為實例,片語「A、B及C中之至少一者」或「A、B或C中之至少一者」各自指僅A、僅B或僅C;A、B及C之任何組合;及/或A、B及C中之各者中之至少一者。
詞語「例示性」在本文中用以意謂「充當一實例、例子或說明」。本文中描述為「例示性」的任何具體實例未必理解為比其他具體實例更佳或更有利。諸如一態樣、該態樣、另一態樣、一些態樣、一或多個態樣、一實施、該實施、另一實施、一些實施、一或多個實施、一具體實例、該具體實例、另一具體實例、一些具體實例、一或多個具體實例、一組態、該組態、另一組態、一些組態、一或多個組態、本發明技術、本發明以及其他變化及類似者之片語係為方便起見,且不暗示與此類片語相關之揭示內容對於本發明技術為必需的,亦不暗示此類揭示內容適用於本發明技術之所有組態。與此類片語相關之揭示內容可適用於所有組態或一或多個組態。與此類片語相關之揭示內容可提供一或多個實例。諸如一態樣或一些態樣之片語可指一或多個態樣且反之亦然,並且此情況類似地適用於其他前述片語。
除非具體陳述,否則以單數形式對元件之提及並不意欲意謂「一個且僅一個」,而是指「一或多個」。術語「一些」指一或多個。帶下劃線及/或斜體標題及子標題僅用於便利性,不限制本發明技術,且不結合本發明技術之描述之解釋而進行參考。關係術語,諸如第一及第二以及其類似者,可用以區分一個實體或動作與另一實體或動作,而未必需要或意指在此類實體或動作之間的任何實際此類關係或次序。所屬技術領域中具有通常知識者已知或稍後將知曉的貫穿本發明而描述的各種組態之元件的所有結構及功能等效物係以引用方式明確地併入本文中,且意欲由本發明技術涵蓋。此外,本文中所揭示之任何內容皆不意欲專用於公眾,無論在以上描述中是否明確地敍述此揭示內容。不應依據專利法的規定解釋任何請求項要素,除非使用片語「之構件」來明確地敍述該要素或在方法請求項之情況下使用片語「之步驟」來敍述該要素。
雖本說明書含有許多特性,但此等特性不應被解釋為限制可能描述之內容的範圍,而是應被解釋為對主題之特定實施的描述。在單獨具體實例之上下文中描述於本說明書中之某些特徵亦可在單個具體實例中以組合形式實施。相反地,在單個具體實例的上下文中所描述的各種特徵亦可分別在多個具體實例中實施或以任何適合子組合來實施。此外,雖然上文可將特徵描述為以某些組合起作用且甚至最初按此來描述,但來自所描述組合之一或多個特徵在一些狀況下可自該組合刪除,並且所描述之組合可針對子組合或子組合之變化。
本說明書之主題已關於特定態樣加以描述,但其他態樣可經實施且在所附申請專利範圍之範圍內。舉例而言,儘管在圖式中以特定次序來描繪操作,但不應將此理解為需要以所展示之特定次序或以順序次序執行此類操作,或執行所有所說明操作以實現合乎需要結果。申請專利範圍中所列舉之動作可以不同次序執行且仍實現合乎需要結果。作為一個實例,附圖中描繪之程序未必需要展示之特定次序,或順序次序,以實現合乎需要結果。在某些情形下,多任務及並行處理可為有利的。此外,不應將上文所描述之態樣中之各種系統組件的分離理解為在所有態樣中皆要求此分離,並且應理解,所描述之程式組件及系統可大體上一起整合於單個軟體產品中或封裝至多個軟體產品中。
在此將標題、先前技術、圖式簡單說明、摘要及圖式併入本發明中且提供為本發明之說明性實例而非限定性描述。應遵從以下理解:其將不用於限制申請專利範圍之範圍或涵義。另外,在實施方式中可見,出於精簡本發明之目的,本說明書提供說明性實例且在各種實施中將各種特徵分組在一起。不應將本發明之方法解釋為反映以下意圖:相較於每一請求項中明確陳述之特徵,所描述之主題需要更多的特徵。實情為,如申請專利範圍所反映,本發明主題在於單個所揭示組態或操作之不到全部的特徵。申請專利範圍特此併入實施方式中,其中每一請求項就其自身而言作為單獨描述之主題。
申請專利範圍並不意圖限於本文中所描述之態樣,而應符合與語言申請專利範圍一致之完整範圍且涵蓋所有法定等效物。儘管如此,申請專利範圍均不意欲涵蓋未能滿足可適用專利法之要求之主題,且亦不應以此方式解釋該等主題。
1:個體 2:個體 3:個體 100:範例性架構 110:用戶端裝置 130:伺服器 150:網路 152:資料庫 200:方塊圖 212:處理器 212-1:處理器 212-2:處理器 214:輸入裝置 216:輸出裝置 218:通信模組 218-1:通信模組 218-2:通信模組 220:記憶體 220-1:記憶體 220-2:記憶體 222:應用程式 225:GUI 232:體積化身模型引擎 234:潛在表情空間 240:化身模型 242:編碼器-解碼器工具 244:射線行進工具 246:輻射場工具 248:偏差映射工具 252:訓練資料庫 300:方塊圖 300A:方塊圖 300B:方塊圖 300C:方塊圖 302:化身 302A:個體化身 302B:個體化身 302C:個體化身 311:中性資料 311A:中性資料 311B:中性資料 311C:中性資料 312:表情資料 312A:表情資料 312B:表情資料 312C:表情資料 321:身分 323:圖框 325:視圖 330:交叉身分超網路 341:身分編碼器 342:表情編碼器 345:紋理圖 345-1:紋理圖 345-2:紋理圖 347:3D網格 347-1:3D網格 347-2:3D網格 350:損失操作 400:UPM 400A:架構 400B:詳細視圖 402:個體化身 410:身分調節區塊 415:統計階段 425:凝視 427:網格 430:人員特定解碼器 433:潛在碼/表情碼 434:表情潛在空間 441:身分編碼器 442:表情編碼器 444:射線行進 445-1:中性紋理圖 445-2:視圖平均化紋理 447-1:中性幾何影像 447-2:位置圖 448:偏差圖 448-1:偏差圖 448-2:偏差圖 449:圖 449-1:圖 449-2:圖 455:減少取樣區塊 455i:減少取樣區塊 455i-1:減少取樣區塊 455i-2:減少取樣區塊 455i-3:減少取樣區塊 455d:增加取樣區塊 455d-1:增加取樣區塊 455d-2:增加取樣區塊 455d-3:增加取樣區塊 455d-4:增加取樣區塊 455e減少取樣區塊 455e-1:減少取樣區塊 455e-2:減少取樣區塊 455e-3:減少取樣區塊 457d:增加取樣區塊 457d-1:增加取樣區塊 457d-2:增加取樣區塊 457d-3:增加取樣區塊 457d-4:增加取樣區塊 457e:減少取樣區塊 457e-1:減少取樣區塊 457e-2:減少取樣區塊 457e-3:減少取樣區塊 457:減少取樣區塊 457i:減少取樣區塊 457i-1:減少取樣區塊 457i-2:減少取樣區塊 457i-3:減少取樣區塊 460:減少取樣 460d-1:級 460d-2:級 460d:串接級 465e:串接 471:身分 472:不透明度塊 500:工作室 510:座位 521:點光源 525:視訊相機 601:輸入影像 601-1:影像 601-2:影像 601-3:影像 601-4:影像 601-5:影像 701:使用者 702:逼真化身 710:行動電話 733:目標表情 733-1:目標表情 733-2:目標表情 733-3:目標表情 733-4:目標表情 733-5:目標表情 734:潛在表情空間 801a:調節資料 801a-1:影像 801a-2:影像 801a-3:影像 801b:影像 801b-1:影像 801b-2:影像 801b-3:影像 801c:剪影 801c-1:分段遮罩 801c-2:分段遮罩 801c-3:分段遮罩 802:個體化身 802-1:面部 802-2:面部 802-3:面部 811:標誌 847:面部網格 847-1:3D面部網格 847-2:3D面部網格 847-3:3D面部網格 901:輸入影像 901-1:輸入影像 901-2:輸入影像 901-3:輸入影像 901-4:輸入影像 901-5:輸入影像 902:個體化身 902-1:個體化身 902-2:個體化身 902-3:個體化身 902-4:個體化身 902-5:個體化身 945:經聚集紋理 945-1:經聚集紋理 945-2:經聚集紋理 945-3:經聚集紋理 945-4:經聚集紋理 945-5:經聚集紋理 947:經重建網格 947-1:經重建網格 947-2:經重建網格 947-3:經重建網格 947-4:經重建網格 947-5:經重建網格 1001:輸入影像 1001-1:輸入影像 1001-2:輸入影像 1002:化身 1002a:化身 1002a-1:高保真度化身 1002a-2:高保真度化身 1002b:化身 1002b-1:高保真度化身 1002b-2:高保真度化身 1002c:化身 1002c-1:高保真度化身 1002c-2:高保真度化身 1002d:化身 1002d-1:高保真度化身 1002d-2:高保真度化身 1101:影像 1102a:個體化身 1102b:個體化身 1102c:個體化身 1102d:個體化身 1102e:個體化身 1102f:個體化身 1102g:個體化身 1002h:個體化身 1002i:個體化身 1134:表情一致潛在空間 1200:表情重定向函數 1201:中性經減去輸入影像 1202:個體化身 1234a:糾纏的表情 1234b:糾纏的表情 1302:個體化身 1302a-1:化身 1302b-1:化身 1302c-1:化身 1302d-1:化身 1302a-2:化身 1302b-2:化身 1302c-2:化身 1302d-2:化身 1302a-3:化身 1302b-3:化身 1302c-3:化身 1302d-3:化身 1302a-4:化身 1302b-4:化身 1302c-4:化身 1302d-4:化身 1365-1:個體 1365-2:個體 1365-3:個體 1365-4:個體 1365:表情 1400:顯式凝視控制 1402-1a:化身 1402-1b:化身 1402-1c:化身 1402-2a:化身 1402-2b:化身 1402-2c:化身 1402-3a:化身 1402-3b:化身 1402-3c:化身 1402-4a:化身 1402-4b:化身 1402-4c:化身 1465:表情 1500:微調操作 1501:輸入影像 1502:化身 1502a:化身 1502b:化身 1502c:化身 1502d:化身 1512:圖表 1512-1:圖表 1512-2:圖表 1512-3:圖表 1512-4:圖表 1570:痣 1612:圖表 1612a:效能圖表 1612b:效能圖表 1612c:效能圖表 1612d:效能圖表 1700:消融程序 1701-1:輸入影像 1701-2:輸入影像 1702:化身 1702-1:化身 1702-1a:行動電話個性化化身 1702-1b:行動電話個性化化身 1702-1c:行動電話個性化化身 1702-1d:行動電話個性化化身 1702-2:化身 1702-2a:化身 1702-2b:化身 1702-2c:化身 1702-2d:化身 1711:標誌 1711-1:標誌 1711-2:標誌 1812:圖表 1812a:圖表 1812b:圖表 1812c:圖表 1812d:圖表 1901:輸入影像 1902:化身 1902a:化身 1902b:化身 1902c:化身 1911:標誌 1911-1:標誌 1911-2:標誌 1912-1:特徵 1912-1a:特徵 1912-1b:特徵 1912-1c:特徵 1912-2:特徵 1912-2a:特徵 1912-2b:特徵 1912-2c:特徵 2001:輸入影像 2001-1:輸入影像 2001-2:輸入影像 2001-3:輸入影像 2002a:化身 2002a-1:化身 2002a-2:化身 2002a-3:化身 2002b:化身 2002b-1:化身 2002b-2:化身 2002b-3:化身 2101:輸入影像 2102-1:化身 2102-1a:化身 2102-1b:化身 2102-1c:化身 2102-2:化身 2102-2a:化身 2102-2b:化身 2102-2c:化身 2201-1:化身 2201-2:化身 2202-1:化身 2202-1a:化身 2202-1b:化身 2202-2:化身 2202-2a:化身 2202-2b:化身 2301:輸入影像 2302:化身 2302-1:化身 2302-2:化身 2302-3:化身 2302-4:化身 2401:影像 2401a:影像 2401b:影像 2401c:影像 2402:化身 2402-1:化身 2402-2:化身 2402-3:化身 2500:方法 2502:步驟 2504:步驟 2506:步驟 2508:步驟 2510:步驟 2600:方法 2602:步驟 2604:步驟 2606:步驟 2608:步驟 2700:電腦系統 2702:處理器 2704:記憶體 2706:資料儲存裝置 2708:匯流排 2710:輸入/輸出模組 2712:通信模組 2714:輸入裝置 2716:輸出裝置
[圖1]繪示根據一些具體實例的適合於在虛擬實境環境中提供即時穿著衣服之個體動畫之範例性架構。
[圖2]為繪示根據本發明之某些態樣的來自圖1之架構之實例伺服器及用戶端的方塊圖。
[圖3A]至[圖3C]繪示根據一些具體實例之用於自電話掃描獲得個體化身之模型架構之方塊圖。
[圖4A]至[圖4B]繪示根據一些具體實例之用於自電話掃描獲得個體化身之通用先前模型的架構圖式之部分視圖。
[圖5]繪示根據一些具體實例之用於針對通用先前模型收集個體之多照明、多視圖影像之工作室。
[圖6]繪示根據一些具體實例之在圖5之工作室中收集的多個影像。
[圖7]繪示根據一些具體實例之行動電話使用者拍攝自掃描視訊以用於上載至產生使用者之逼真化身的系統。
[圖8]繪示根據一些具體實例之調節資料獲取以用於創建個體之面部的3D模型。
[圖9]繪示根據一些具體實例之個性化解碼器,其包括用於自輸入影像呈現個體化身之經重建網格及經聚集紋理。
[圖10]繪示根據一些具體實例之用於高保真度化身之損失函數效應。
[圖11]繪示根據一些具體實例之由通用先前模型提供之表情一致潛在空間。
[圖12]繪示根據一些具體實例之表情重定向函數及結果。
[圖13]繪示根據一些具體實例之來自表情潛在空間的身分不變結果。
[圖14]繪示根據一些具體實例之經由解糾纏表示之顯式凝視控制。
[圖15]繪示根據一些具體實例之在具有及不具有不同空間解析度之身分潛在空間的情況下的化身模型微調。
[圖16]繪示根據一些具體實例之通用先前模型之效能。
[圖17]繪示根據一些具體實例之關於用於微調中之損耗的消融程序。
[圖18]繪示根據一些具體實例之微調資料集大小對該模型之不同部分的效能之影響。
[圖19]繪示根據一些具體實例之學習速率對微調之影響。
[圖20]繪示根據一些具體實例之自多視圖工作室模型化及自行動電話掃描創建的化身之比較。
[圖21]繪示根據一些具體實例之在微調前後自行動電話掃描創建的化身之比較。
[圖22]繪示根據一些具體實例之自行動電話掃描創建之包括眼鏡及長髮的化身。
[圖23]繪示根據一些具體實例之改進的個性化化身。
[圖24]繪示根據一些具體實例之自第一模型個體之影像壓印在不同個體上之個性化化身。
[圖25]為根據一些具體實例之繪示用於將視訊掃描提供至遠端伺服器以創建個體化身之方法步驟的流程圖。
[圖26]為根據一些具體實例之繪示用於自由個體提供之視訊掃描產生個體化身之方法步驟的流程圖。
[圖27]為根據一些具體實例之繪示用於執行如本文中所揭示之方法的電腦系統中之組件的方塊圖。
在諸圖中,除非另有明確陳述,否則類似元件根據其描述同樣地予以標記。
2500:方法
2502:步驟
2504:步驟
2506:步驟
2508:步驟
2510:步驟

Claims (20)

  1. 一種電腦實施方法,其包含: 自行動裝置接收第一個體之多個影像; 基於一組可學習權重自該第一個體之該多個影像提取多個影像特徵; 自該多個影像特徵及第二個體之現有三維模型來推斷該第一個體之三維模型; 基於在由觀看者使用之頭戴式裝置上運行之沉浸式實境應用程式來動畫化該第一個體之該三維模型;及 將該第一個體之該三維模型之影像提供至該頭戴式裝置上之顯示器。
  2. 如請求項1之電腦實施方法,其中接收該第一個體之該多個影像包含接收該第一個體之至少一中性表情影像。
  3. 如請求項1之電腦實施方法,其中接收該第一個體之該多個影像包含接收該第一個體之至少一表情影像。
  4. 如請求項1之電腦實施方法,其中接收該第一個體之該多個影像包含接收藉由使該行動裝置在選定方向上在該第一個體上掃描而收集之一系列影像。
  5. 如請求項1之電腦實施方法,其中推斷該第一個體之該三維模型包含沿著針對收集該第二個體之影像而選擇之方向使該第一個體之該三維模型偏置。
  6. 如請求項1之電腦實施方法,其中形成該第一個體之該三維模型包含遮蔽該第二個體之該現有三維模型中之凝視方向並***該第一個體之凝視方向。
  7. 如請求項1之電腦實施方法,其中該多個影像特徵包含該第一個體之身分特徵,且形成該第一個體之該三維模型包含用該第二個體之該身分特徵替換該第二個體之身分特徵。
  8. 如請求項1之電腦實施方法,其中該多個影像特徵包含該第一個體之表情特徵,且形成該第一個體之該三維模型包含匹配潛在表情資料庫中之該第一個體之該表情特徵。
  9. 如請求項1之電腦實施方法,其中動畫化該第一個體之該三維模型包含沿著在該第一個體之該三維模型與用於該觀看者之選定觀測點之間的方向投影該多個影像特徵。
  10. 如請求項1之電腦實施方法,其中動畫化該第一個體之該三維模型包含基於該第二個體之該現有三維模型而包括用於該第一個體之該三維模型的照明源。
  11. 一種系統,其包含: 記憶體,其儲存多個指令;及 一或多個處理器,其經組態以執行該多個指令以使得該系統執行以下操作: 自行動裝置接收第一個體之多個影像; 基於一組可學習權重自該第一個體之該多個影像提取多個影像特徵; 自該多個影像特徵及第二個體之現有三維模型來推斷該第一個體之三維模型; 基於在由觀看者使用之頭戴式裝置上運行之沉浸式應用程式來動畫化該第一個體之該三維模型;及 將該第一個體之該三維模型之影像提供至該頭戴式裝置上之顯示器。
  12. 如請求項11之系統,其中為了接收該第一個體之該多個影像,該一或多個處理器經組態以接收該第一個體之至少一中性表情影像。
  13. 如請求項11之系統,其中為了接收該第一個體之該多個影像,該一或多個處理器經組態以接收該第一個體之至少一表情影像。
  14. 如請求項11之系統,為了接收該第一個體之該多個影像,該一或多個處理器經組態以接收藉由使該行動裝置在選定方向上在該第一個體上掃描而收集之一系列影像。
  15. 如請求項11之系統,其中為了推斷該第一個體之該三維模型,該一或多個處理器經組態以沿著針對收集該第二個體之影像而選擇之方向使該第一個體之該三維模型偏置。
  16. 一種用於訓練模型以將以個體之視圖提供至虛擬實境頭戴式裝置中之自動立體顯示器的電腦實施方法,其包含: 根據擷取指令碼自多個個體之面部收集多個影像; 更新三維面部模型中之身分編碼器及表情編碼器; 運用該三維面部模型沿著對應於使用者之視圖的預先選擇方向來產生該使用者之合成視圖;及 基於在由行動裝置提供之該使用者之影像與該使用者之該合成視圖之間的差異來訓練該三維面部模型。
  17. 如請求項16之電腦實施方法,其中根據該擷取指令碼收集該多個影像包含運用預先選擇照明組態來收集該多個影像中之各者。
  18. 如請求項16之電腦實施方法,其中根據該擷取指令碼收集該多個影像包含收集具有該多個個體中之各個體之不同表情之影像。
  19. 如請求項16之電腦實施方法,其中訓練該三維面部模型包含基於該使用者之影像而使用用於該三維面部模型之幾何假影之度量。
  20. 如請求項16之電腦實施方法,其中訓練該三維面部模型包含使用用於該三維面部模型之身分假影之度量。
TW112103140A 2022-02-01 2023-01-30 來自電話掃描的體積化身 TW202349940A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202263305614P 2022-02-01 2022-02-01
US63/305,614 2022-02-01
US202263369916P 2022-07-29 2022-07-29
US63/369,916 2022-07-29
US18/074,346 2022-12-02
US18/074,346 US20230245365A1 (en) 2022-02-01 2022-12-02 Volumetric avatars from a phone scan

Publications (1)

Publication Number Publication Date
TW202349940A true TW202349940A (zh) 2023-12-16

Family

ID=87432371

Family Applications (1)

Application Number Title Priority Date Filing Date
TW112103140A TW202349940A (zh) 2022-02-01 2023-01-30 來自電話掃描的體積化身

Country Status (2)

Country Link
US (1) US20230245365A1 (zh)
TW (1) TW202349940A (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7663691B2 (en) * 2005-10-11 2010-02-16 Apple Inc. Image capture using display device as light source
US10019825B2 (en) * 2013-06-05 2018-07-10 Intel Corporation Karaoke avatar animation based on facial motion data
US10877556B2 (en) * 2016-10-21 2020-12-29 Apple Inc. Eye tracking system
US11869150B1 (en) * 2017-06-01 2024-01-09 Apple Inc. Avatar modeling and generation
US11107261B2 (en) * 2019-01-18 2021-08-31 Apple Inc. Virtual avatar animation based on facial feature movement

Also Published As

Publication number Publication date
US20230245365A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
US10885693B1 (en) Animating avatars from headset cameras
US10540817B2 (en) System and method for creating a full head 3D morphable model
Thies et al. Real-time expression transfer for facial reenactment.
Ichim et al. Dynamic 3D avatar creation from hand-held video input
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及***
US11450072B2 (en) Physical target movement-mirroring avatar superimposition and visualization system and method in a mixed-reality environment
US11989846B2 (en) Mixture of volumetric primitives for efficient neural rendering
US20230419600A1 (en) Volumetric performance capture with neural rendering
Paier et al. Interactive facial animation with deep neural networks
Chen et al. 3D face reconstruction and gaze tracking in the HMD for virtual interaction
WO2022060230A1 (en) Systems and methods for building a pseudo-muscle topology of a live actor in computer animation
CN117557714A (zh) 三维重建方法、电子设备及可读存储介质
TW202301277A (zh) 來自雙眼視訊的即時3d面部動畫
CN101510317A (zh) 一种三维卡通人脸生成方法及装置
TW202349940A (zh) 來自電話掃描的體積化身
WO2023150119A1 (en) Volumetric avatars from a phone scan
Jian et al. Realistic face animation generation from videos
Yao et al. Neural Radiance Field-based Visual Rendering: A Comprehensive Review
Larey et al. Facial Expression Retargeting from a Single Character
US20240078773A1 (en) Electronic device generating 3d model of human and its operation method
US11983819B2 (en) Methods and systems for deforming a 3D body model based on a 2D image of an adorned subject
US20240119671A1 (en) Systems and methods for face asset creation and models from one or more images
US20230326112A1 (en) Deep relightable appearance models for animatable face avatars
Gecer Synthesization and reconstruction of 3D faces by deep neural networks
CN116438575A (zh) 用于在计算机动画中构建肌肉到皮肤的变换的***和方法