TWI766499B - 互動物件的驅動方法、裝置、設備以及儲存媒體 - Google Patents

互動物件的驅動方法、裝置、設備以及儲存媒體 Download PDF

Info

Publication number
TWI766499B
TWI766499B TW109145886A TW109145886A TWI766499B TW I766499 B TWI766499 B TW I766499B TW 109145886 A TW109145886 A TW 109145886A TW 109145886 A TW109145886 A TW 109145886A TW I766499 B TWI766499 B TW I766499B
Authority
TW
Taiwan
Prior art keywords
phoneme
interactive object
feature information
parameter value
phoneme sequence
Prior art date
Application number
TW109145886A
Other languages
English (en)
Other versions
TW202138993A (zh
Inventor
吳文岩
吳潛溢
錢晨
宋林森
Original Assignee
大陸商北京市商湯科技開發有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京市商湯科技開發有限公司 filed Critical 大陸商北京市商湯科技開發有限公司
Publication of TW202138993A publication Critical patent/TW202138993A/zh
Application granted granted Critical
Publication of TWI766499B publication Critical patent/TWI766499B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公開了一種互動物件的驅動方法、裝置、設備以及儲存媒體,所述互動物件顯示在顯示設備中,所述方法包括:獲取所述互動物件的聲音驅動數據對應的音素序列;獲取與所述音素序列匹配的所述互動物件的姿態參數值;根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態。

Description

互動物件的驅動方法、裝置、設備以及儲存媒體
本公開涉及計算機技術領域,具體涉及一種互動物件的驅動方法、裝置、設備以及儲存媒體。
人機互動的方式大多基於按鍵、觸控、語音進行輸入,通過在顯示螢幕上呈現圖像、文本或虛擬人物進行回應。目前虛擬人物多是在語音助理的基礎上改進得到的。
本公開實施例提供一種互動物件的驅動方案。
根據本公開的一方面,提供一種互動物件的驅動方法,所述互動物件顯示在顯示設備中,所述方法包括:獲取所述互動物件的聲音驅動數據對應的音素序列;獲取與所述音素序列匹配的所述互動物件的姿態參數值;根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態。結合本公開提供的任一實施方式,所述方法更包括:根據所述音素序列控制所述顯示設備輸出語音和/或文本。
結合本公開提供的任一實施方式,所述獲取與所述音素序列匹配的所述互動物件的姿態參數值,包括:對所述音素序列進行特徵編碼,獲得所述音素序列的特徵資訊;獲取所述音素序列的特徵資訊對應的所述互動物件的姿態參數值。
結合本公開提供的任一實施方式,對所述音素序列進行特徵編碼,獲得所述音素序列的特徵資訊,包括:針對所述音素序列包含的多種音素中的每種音素,生成所述音素分別的編碼序列;根據所述音素分別對應的編碼序列的編碼值以及所述音素序列中多種音素分別對應的持續時間,獲得所述音素分別的編碼序列的特徵資訊;根據所述多種音素分別對應的編碼序列的特徵資訊,獲得所述音素序列的特徵資訊。
結合本公開提供的任一實施方式,針對所述音素序列包含的多種音素中的每種音素,生成所述音素分別的編碼序列,包括:檢測各時間點上是否對應有所述音素;通過將有所述音素的時間點上的編碼值設置為第一數值,將沒有所述音素的時間點上的編碼值設置為第二數值,得到所述音素對應的所述編碼序列。
結合本公開提供的任一實施方式,根據所述多種音素分別對應的編碼序列的編碼值以及所述多種音素分別對應的持續時間,獲得所述多種音素分別對應的編碼序列的特徵資訊,包括:對於所述多種音素中的每種音素,對於所述音素對應的編碼序列,利用高斯濾波器對所述音素在時間上的連續值進行高斯卷積操作,獲得所述音素對應的編碼序列的特徵資訊。
結合本公開提供的任一實施方式,姿態參數包括面部姿態參數,所述面部姿態參數包括面部肌肉控制係數,所述面部肌肉控制係數用於控制至少一個面部肌肉的運動狀態;根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態,包括:根據與所述音素序列匹配的面部肌肉控制系數值,驅動所述互動物件做出與所述音素序列中的各個音素匹配的面部動作。
結合本公開提供的任一實施方式,所述方法更包括:獲取與所述面部姿態參數值關聯的身體姿態的驅動數據;根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態,包括:根據與所述面部姿態參數值關聯的所述身體姿態的所述驅動數據,驅動所述互動物件做出肢體動作。
結合本公開提供的任一實施方式,獲取所述音素序列的特徵資訊對應的所述互動物件的姿態參數值,包括:以設定時間間隔對所述音素序列的特徵資訊進行採樣,獲得第一採樣時間對應的採樣特徵資訊;將所述第一採樣時間對應的採樣特徵資訊輸入至預先訓練的神經網路,獲得與所述採樣特徵資訊對應的所述互動物件的所述姿態參數值。
結合本公開提供的任一實施方式,所述神經網路包括長短期記憶網路和全連接網路,所述將所述第一採樣時間對應的所述採樣特徵資訊輸入至預先訓練的神經網路,獲得與所述採樣特徵資訊對應的互動物件的姿態參數值,包括:將所述第一採樣時間對應的採樣特徵資訊輸入至所述長短期記憶網路,根據在所述第一採樣時間之前的採樣特徵資訊,輸出關聯特徵資訊;將所述關聯特徵資訊輸入至所述全連接網路,根據所述全連接網路的分類結果,確定與所述關聯特徵資訊對應的姿態參數值;其中,所述分類結果中每種類別對應於一組姿態參數值。
結合本公開提供的任一實施方式,所述神經網路通過音素序列樣本訓練得到;所述方法更包括:獲取一角色發出語音的視訊段;根據所述視訊段獲取多個包含所述角色的第一圖像幀,以及與多個所述第一圖像幀分別對應的多個音訊幀;將所述第一圖像幀轉化為包含所述互動物件的第二圖像幀,獲取所述第二圖像幀對應的姿態參數值;根據所述第二圖像幀對應的所述姿態參數值,對與所述第一圖像幀對應的所述音訊幀進行標註;根據標註有所述姿態參數值的所述音訊幀,獲得所述音素序列樣本。
結合本公開提供的任一實施方式,所述方法更包括:對所述音素序列樣本進行特徵編碼,獲得所述第二採樣時間對應的特徵資訊,並對於所述特徵資訊標註對應的姿態參數值,獲得特徵資訊樣本;根據所述特徵資訊樣本對初始神經網路進行訓練,在網路損失的變化滿足收斂條件後訓練得到所述神經網路,其中,所述網路損失包括所述初始神經網路預測得到的姿態參數值與標註的所述姿態參數值之間的差異。
結合本公開提供的任一實施方式,所述網路損失包括所述初始神經網路預測得到的所述姿態參數值與標註的所述姿態參數值的差的二範數;所述網路損失更包括,所述初始神經網路預測得到的所述姿態參數值的一範數。
根據本公開的一方面,提供一種互動物件的驅動裝置,所述互動物件顯示在顯示設備中,所述裝置包括:音素序列獲取單元,用於獲取所述互動物件的聲音驅動數據對應的音素序列;參數獲取單元,用於獲取與所述音素序列匹配的所述互動物件的姿態參數值;驅動單元,用於根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態。
根據本公開的一方面,提供一種電子設備,所述設備包括記憶體、處理器,所述記憶體用於儲存可在處理器上運行的計算機指令,所述處理器用於在執行所述計算機指令時實現本公開提供的任一實施方式所述的互動物件的驅動方法。
根據本公開的一方面,提供一種計算機可讀儲存媒體,其上儲存有計算機程式,所述程式被處理器執行時實現本公開提供的任一實施方式所述的互動物件的驅動方法。
本公開一個或多個實施例的互動物件的驅動方法、裝置、設備及計算機可讀儲存媒體,通過獲取顯示設備顯示的互動物件的聲音驅動數據對應的音素序列,獲取與所述音素序列匹配的所述互動物件的姿態參數值,並根據與所述音素序列匹配的所述互動物件的姿態參數值,控制所述顯示設備顯示的所述互動物件的姿態,使得所述互動物件做出與所述目標物件的進行交流或對所述目標物件進行回應的匹配的姿態,從而使目標物件產生與互動物件正在交流的感覺,提升了目標物件與互動物件的互動體驗。
這裡將詳細地對範例性實施例進行說明,其範例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數位表示相同或相似的要素。以下範例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附請求項中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
本文中術語“和/或”,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
本公開至少一個實施例提供了一種互動物件的驅動方法,所述驅動方法可以由終端設備或伺服器等電子設備執行,所述終端設備可以是固定終端或移動終端,例如手機、平板電腦、遊戲機、台式機、廣告機、一體機、車載終端等等,所述伺服器包括本地伺服器或雲端伺服器等,所述方法還可以通過處理器調用記憶體中儲存的計算機可讀指令的方式來實現。
在本公開實施例中,互動物件可以是任意一種能夠與目標物件進行互動的虛擬形象。在一實施例中,互動物件可以是虛擬人物,還可以是虛擬動物、虛擬物品、卡通形象等等其他能夠實現互動功能的虛擬形象。互動物件的呈現形式既可以是2D形式也可以是3D形式,本公開對此並不限定。所述目標物件可以是使用者,也可以是機器人,還可以是其他智能設備。所述互動物件和所述目標物件之間的互動方式可以是主動互動方式,也可以是被動互動方式。一範例中,目標物件可以通過做出手勢或者肢體動作來發出需求,通過主動互動的方式來觸發互動物件與其互動。另一範例中,互動物件可以通過主動打招呼、提示目標物件做出動作等方式,使得目標物件採用被動方式與互動物件進行互動。
所述互動物件可以通過終端設備進行顯示,所述終端設備可以是電視機、帶有顯示功能的一體機、投影機、虛擬實境(Virtual Reality,VR)設備、擴增實境(Augmented Reality,AR)設備等,本公開並不限定終端設備的具體形式。
圖1示出本公開至少一個實施例提出的顯示設備。如圖1所示,該顯示設備具有透明顯示螢幕,在透明顯示螢幕上可以顯示立體畫面,以呈現出具有立體效果的虛擬場景以及互動物件。例如圖1中透明顯示螢幕顯示的互動物件包括虛擬卡通人物。在一些實施例中,本公開中所述的終端設備也可以為上述具有透明顯示螢幕的顯示設備,顯示設備中配置有記憶體和處理器,記憶體用於儲存可在處理器上運行的計算機指令,所述處理器用於在執行所述計算機指令時實現本公開提供的互動物件的驅動方法,以驅動透明顯示螢幕中顯示的互動物件對目標物件進行交流或回應。
在一些實施例中,響應於用於驅動互動物件輸出語音的聲音驅動數據,互動物件可以對目標物件發出指定語音。終端設備可以根據終端設備周邊目標物件的動作、表情、身份、偏好等,生成聲音驅動數據,以驅動互動物件通過發出指定語音進行交流或回應,從而為目標物件提供擬人化的服務。需要說明的是,聲音驅動數據也可以通過其他方式生成,比如,由伺服器生成併發送給終端設備。
在互動物件與目標物件的互動過程中,根據該聲音驅動數據驅動互動物件發出指定語音時,可能無法驅動所述互動物件做出與該指定語音同步的面部動作,使得互動物件在發出語音時呆板、不自然,影響了目標物件與互動物件的互動體驗。基於此,本公開至少一個實施例提出一種互動物件的驅動方法,以提升目標物件與互動物件進行互動的體驗。
圖2示出根據本公開至少一個實施例的互動物件的驅動方法的流程圖,如圖2所示,所述方法包括步驟201~步驟203。
步驟201,獲取所述互動物件的聲音驅動數據對應的音素序列。
所述聲音驅動數據可以包括音訊數據(語音數據)、文本等等。響應於聲音驅動數據是音訊數據,可以直接利用該音訊數據驅動互動物件輸出語音,也即終端設備通過該音訊數據直接輸出語音;響應於聲音驅動數據是文本,需要根據所述文本中包含的語素,生成相應的音素,通過所生成的音素來驅動互動物件輸出語音。所述聲音驅動數據也可以是其他形式的驅動數據,本公開對此不進行限制。
在本公開實施例中,所述聲音驅動數據可以是伺服器端或終端設備根據與互動物件進行互動的目標物件的動作、表情、身份、偏好等生成的驅動數據,也可以是終端設備從內部記憶體調用的聲音驅動數據。本公開對於該聲音驅動數據的獲取方式不進行限制。
響應於所述聲音驅動數據為音訊數據,可以通過將音訊數據拆分為多個音訊幀,根據音訊幀的狀態對音訊幀進行組合而形成音素;根據所述音訊數據所形成的各個音素形成音素序列。其中,音素是根據語音的自然屬性劃分出來的最小語音單元,真實人物一個發音動作能夠形成一個音素。
響應於所述聲音驅動數據為文本,可以根據所述文本中包含的語素,獲得所述語素所對應的音素,從而獲得相應的音素序列。
本領域技術人員應當理解,還可以通過其他方式獲得所述聲音驅動數據對應的音素序列,本公開對此不進行限定。
步驟202,獲取與所述音素序列匹配的所述互動物件的姿態參數值。
在本公開實施例中,可以根據所述音素序列的聲學特徵,獲得與所述音素序列匹配的互動物件的姿態參數值;也可以通過對所述音素序列進行特徵編碼,確定特徵編碼所對應的姿態參數值,從而確定所述音素序列對應的姿態參數值。
姿態參數用於控制所述互動物件的姿態,利用不同的姿態參數值可以驅動所述互動物件做出相應的姿態。該姿態參數包括面部姿態參數,在一些實施例中,該姿態參數還可以包括肢體姿態參數。其中,面部姿態參數用於控制所述互動物件的面部姿態,包括表情、口型、五官動作和頭部姿態等;肢體姿態參數用於控制所述互動物件的肢體姿態,也即用於驅動所述互動物件做出肢體動作。在本公開實施例中,可以預先建立音素序列的某種特徵與互動物件的姿態參數值的對應關係,從而通過所述音素序列可獲得對應的姿態參數值。獲取與所述音素序列匹配的所述互動物件的姿態參數值的具體方法容後詳述。姿態參數的具體形式可以根據互動物件模型的類型確定。
步驟203,根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態。
其中,所述姿態參數值與所述互動物件的聲音驅動數據對應的音素序列相匹配,根據所述姿態參數值控制所述互動物件的姿態,可以使互動物件的姿態與互動物件對所述目標物件所進行的交流或回應相匹配。例如,在互動物件正在用語音與目標物件進行交流或回應時,所做出的姿態與所輸出的語音是同步的,從而給目標物件一種所述互動物件正在說話的感覺。
在本公開實施例中,通過獲取顯示設備顯示的互動物件的聲音驅動數據對應的音素序列,獲取與所述音素序列匹配的所述互動物件的姿態參數值,並根據與所述音素序列匹配的所述互動物件的姿態參數值,控制所述顯示設備顯示的所述互動物件的姿態,使得所述互動物件做出與所述目標物件進行交流或對所述目標物件進行回應的匹配的姿態,從而使目標物件產生與互動物件正在交流的感覺,提升了目標物件的互動體驗。
在一些實施例中,所述方法應用於伺服器,包括本地伺服器或雲端伺服器等,所述伺服器對於互動物件的聲音驅動數據進行處理,生成所述互動物件的姿態參數值,並根據所述姿態參數值利用三維渲染引擎進行渲染,得到所述互動物件的動畫。所述伺服器可以將所述動畫發送至終端進行顯示來對目標物件進行交流或回應,還可以將所述動畫發送至雲端,以使終端能夠從雲端獲取所述動畫來對目標物件進行交流或回應。在伺服器生成所述互動物件的姿態參數值後,還可以將所述姿態參數值發送至終端,以使終端完成渲染、生成動畫、進行顯示的過程。
在一些實施例中,所述方法應用於終端,所述終端對於互動物件的聲音驅動數據進行處理,生成所述互動物件的姿態參數值,並根據所述姿態參數值利用三維渲染引擎進行渲染,得到所述互動物件的動畫,所述終端可以顯示所述動畫以對目標物件進行交流或回應。
在一些實施例中,可以根據所述音素序列控制所述顯示設備輸出語音和/或顯示文本。並且可以在根據所述音素序列控制所述顯示設備輸出語音和/或顯示文本的同時,根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態。
在本公開實施例中,由於所述姿態參數值是與所述音素序列相匹配的,因此根據音素序列輸出的語音和/或顯示的文本,與根據所述姿態參數值控制互動物件的姿態是同步進行的情況下,互動物件所做出的姿態與所輸出的語音和/或所顯示的文本是同步的,給目標物件以所述互動物件正在說話的感覺。
由於聲音的輸出需要保持連續性,因此,在一實施例中,在音素序列上移動時間視窗,並輸出在每次移動過程中時間視窗內的音素,其中,以設定時長作為每次移動時間視窗的步長。例如,可以將時間視窗的長度設置為1秒,將設定時長設置為0.1秒。在輸出時間視窗內的音素的同時,獲取時間視窗設定位置處的音素或音素的特徵資訊所對應的姿態參數值,利用所述姿態參數值控制所述互動物件的姿態;該設定位置為距離時間視窗起始位置設定時長的位置,例如在時間視窗的長度設置為1s時,該設定位置距離時間視窗的起始位置可以為0.5s。隨著時間視窗的每次移動,在輸出時間視窗內的音素同時,都以時間視窗設定位置處對應的姿態參數值控制互動物件的姿態,從而使互動物件的姿態與輸出的語音同步,給目標物件以所述互動物件正在說話的感覺。
通過改變設定時長,可以改變獲取姿態參數值的時間間隔(頻率),從而改變了互動物件做出姿態的頻率。可以根據實際的互動場景來設置該設定時長,以使互動物件的姿態變化更加自然。
在一些實施例中,可以對所述音素序列進行特徵編碼,獲得所述音素序列的特徵資訊;並根據所述特徵資訊確定所述互動物件的姿態參數值。
本公開實施例通過對互動物件的聲音驅動數據所對應的音素序列進行特徵編碼,並根據所得到的特徵資訊獲得對應的姿態參數值,以在根據音素序列輸出聲音的同時,根據所述特徵資訊對應的姿態參數值控制所述互動物件的姿態,尤其是根據所述特徵資訊對應的面部姿態參數值驅動所述互動物件做出面部動作,使得所述互動物件的表情與發出的聲音是同步的,使目標物件產生互動物件正在說話的感覺,提升了目標物件的互動體驗。
在一些實施例中,可以通過以下方式對所述音素序列進行特徵編碼,獲得所述音素序列的特徵資訊。
首先,針對所述音素序列包含的多種音素,生成多種音素分別對應的編碼序列。
在一個範例中,檢測各時間點上是否對應有第一音素,所述第一音素為所述多個音素中的任一個;將有所述第一音素的時間點上的編碼值設置為第一數值,將沒有所述第一音素的時間點上的編碼值設置為第二數值,在對各個時間點上的編碼值進行賦值之後可得到第一音素對應的編碼序列。例如,可以將有所述第一音素的時間點上的編碼值設置為1,將沒有所述第一音素的時間點上的編碼值設置為0。即,針對所述音素序列包含的多個音素中的每個音素,檢測各時間點上是否對應有該音素;將有所述音素的時間點上的編碼值設置為第一數值,將沒有所述音素的時間點上的編碼值設置為第二數值,在對各個時間點上的編碼值進行賦值之後可得到該音素對應的編碼序列。本領域技術人員應當理解,上述編碼值的設置僅為範例,也可以將編碼值設置為其他值,本公開對此不進行限制。
之後,根據所述各個音素分別對應的編碼序列的編碼值以及所述音素序列中各個音素的持續時間,獲得各個音素分別對應的編碼序列的特徵資訊。
在一個範例中,對於第一音素對應的編碼序列,利用高斯濾波器對所述第一音素在時間上的連續值進行高斯卷積操作,獲得所述第一音素對應的編碼序列的特徵資訊;所述第一音素為所述多個音素中的任一個。
最後,根據各個編碼序列的特徵資訊的集合,獲得所述音素序列的特徵資訊。
圖3示出對音素序列進行特徵編碼的過程示意圖。如圖3所示,音素序列310含音素j、i1、j、ie4(為簡潔起見,只示出部分音素),針對每種音素j、i1、ie4分別獲得與上述各音素分別對應的編碼序列321、322、323。在各個編碼序列中,將有所述音素的時間點上對應的編碼值設置為第一數值(例如為1),將沒有所述音素的時間點上對應的編碼值設置為第二數值(例如為0)。以編碼序列321為例,在音素序列310中有音素j的時間點上,編碼序列321的值為第一數值,在沒有音素j的時間點上,編碼序列321的值為第二數值。所有編碼序列321、322、323構成總編碼序列320。
根據音素j、i1、ie4分別對應的編碼序列321、322、323的編碼值,以及該三個編碼序列中對應的音素的持續時間,也即在編碼序列321中j的持續時間、在編碼序列322中i1的持續時間、在編碼序列323中ie4的持續時間,可以獲得編碼序列321、322、323的特徵資訊。
例如,可以利用高斯濾波器分別對所述編碼序列321、322、323中的音素j、i1、ie4在時間上的連續值進行高斯卷積操作,獲得所述編碼序列的特徵資訊。也即,通過高斯濾波器對音素在時間上的連續值進行高斯卷積操作,使得各個編碼序列中編碼值從第二數值到第一數值或者從第一數值到第二數值的變化階段變得平滑。對各個編碼序列321、322、323分別進行高斯卷積操作,從而獲得各個編碼序列的特徵值,其中,特徵值為構成特徵資訊的參數,根據各個編碼序列的特徵資訊的集合,獲得該音素序列310所對應的特徵資訊330。本領域技術人員應當理解,也可以對各個編碼序列進行其他的操作來獲得所述編碼序列的特徵資訊,本公開對此不進行限制。
在本公開實施例中,通過根據音素序列中每種音素的持續時間獲得所述編碼序列的特徵資訊,使得編碼序列的變化階段平滑,例如,編碼序列的值除了0和1也呈現出中間狀態的值,例如0.2、0.3等等,而根據這些中間狀態的值所獲取的姿態參數值,使得互動人物的姿態變化過度的更加平緩、自然,尤其是互動人物的表情變化更加平緩、自然,提高了目標物件的互動體驗。
在一些實施例中,所述面部姿態參數可以包括面部肌肉控制係數。
人臉的運動,從解剖學角度來看,是由面部各部分肌肉協同變形的結果。因此,通過對互動物件的面部肌肉進行劃分而獲得面部肌肉模型,並對劃分得到的每一塊肌肉(區域)通過對應的面部肌肉控制係數控制其運動,也即對其進行收縮/擴張控制,則能夠使互動人物的面部做出各種表情。對於所述面部肌肉模型的每一塊肌肉,可以根據肌肉所在的面部位置和肌肉自身的運動特徵,來設置不同的肌肉控制係數所對應的運動狀態。例如,對於上唇肌肉,其控制係數的數值範圍為0~1,在該範圍內的不同數值,對應於上唇肌肉不同的收縮/擴張狀態,通過改變該數值,可以實現嘴部的縱向開合;而對於左嘴角肌肉,其控制係數的數值範圍為0~1,在該範圍內的不同數值,對應於左嘴角肌肉的收縮/擴張狀態,通過改變該數值,可以實現嘴部的橫向變化。
在根據音素序列輸出聲音的同時,根據與所述音素序列對應的面部肌肉控制系數值來驅動所述互動物件做出面部表情,則可以實現顯示設備在輸出聲音時,互動物件同步做出發出該聲音的表情,從而使目標物件產生該互動物件正在說話的感覺,提高了目標物件的互動體驗。
在一些實施例中,可以將所述互動物件的面部動作與身體姿態相關聯,也即將該面部動作所對應的面部姿態參數值與所述身體姿態相關聯,所述身體姿態可以包括肢體動作、手勢動作、走路姿態等等。
在互動物件的驅動過程中,獲取與所述面部姿態參數值關聯的身體姿態的驅動數據;在根據所述音素序列輸出聲音的同時,根據與所述面部姿態參數值關聯的身體姿態的驅動數據,驅動所述互動物件做出肢體動作。也即,在根據所述互動物件的聲音驅動數據驅動所述互動物件做出面部動作的同時,還根據該面部動作對應的面部姿態參數值獲取相關聯的身體姿態的驅動數據,從而在輸出聲音時,可以驅動互動物件同步做出相應的面部動作和肢體動作,使互動物件的說話狀態更加生動自然,提高了目標物件的互動體驗。
在一些實施例中,可以通過以下方法獲取所述音素序列的特徵資訊對應的互動物件的姿態參數值。
首先,以設定時間間隔對所述音素序列的特徵資訊進行採樣,獲得各個第一採樣時間對應的採樣特徵資訊。例如,設定時間間隔為0.1s,則各個第一採樣時間可以為0.1s、0.2s、0.3s等。
參見圖3,特徵資訊330是基於時間的資訊,因此,在以設定時間間隔對該特徵資訊進行取樣時,可以獲得各個第一採樣時間所對應的採樣特徵資訊。
接下來,將所述第一採樣時間對應的採樣特徵資訊輸入至預先訓練的神經網路,則可以獲得與所述採樣特徵資訊對應的互動物件的姿態參數值。基於各個第一採樣時間對應的採樣特徵資訊,則可以獲得各個第一採樣時間對應的互動物件的姿態參數值。
如前所述,在通過在音素序列上進行移動時間視窗輸出音素的情況下,獲取時間視窗設定位置處的特徵資訊,也即獲得時間視窗設定位置所對應的第一採樣時間處的特徵資訊,通過獲取該特徵資訊所對應的姿態參數值來控制所述互動物件的姿態,則可以使互動物件做出與所發出的語音適配的姿態,從而使互動物件發出語音的過程更加生動、自然。
在一些實施例中,所述神經網路包括長短期記憶網路(Long Short-Term Memory,LSTM)和全連接網路。其中,長短期記憶網路是一種時間遞歸神經網路,其可以學習所輸入採樣特徵資訊的歷史資訊;並且,所述長短期記憶網路和全連接網路是聯合訓練的。
在所述神經網路包括長短期記憶網路和全連接網路的情況下,首先將所述第一採樣時間對應的採樣特徵資訊輸入至長短期記憶網路,長短期記憶網路根據在所述第一採樣時間之前的採樣特徵資訊,輸出關聯特徵資訊。也即,長短期記憶網路所輸出的資訊包含了歷史特徵資訊對當前特徵資訊的影響。接下來,將所述關聯特徵資訊輸入至所述全連接網路,根據所述全連接網路的分類結果,確定與所述關聯特徵資訊對應的姿態參數值;其中,每一種分類對應於一組姿態參數值,即對應於一種面部肌肉控制係數的分佈狀況。
在本公開實施例中,通過長短期記憶網路和全連接網路來預測與音素序列的採樣特徵資訊對應的姿態參數值,可以將具有關聯性的歷史特徵資訊和當前特徵資訊進行融合,從而使得歷史姿態參數值對當前姿態參數值的變化產生影響,使得互動人物的姿態參數值的變化更加平緩、自然。
在一些實施例中,可以通過以下方式對所述神經網路進行訓練。
首先,獲取音素序列樣本,所述音素序列樣本包含在設定時間間隔的第二採樣時間上標註的所述互動物件的姿態參數值。如圖4所示的音素序列樣本,其中虛線表示第二採樣時間,在各個第二採樣時間處標註互動物件的姿態參數值。
接下來,對所述音素序列樣本進行特徵編碼,獲得在各個第二採樣時間對應的特徵資訊,並對於所述特徵資訊標註對應的姿態參數值,獲得特徵資訊樣本。也即,特徵資訊樣本包含了在第二採樣時間上標註的所述互動物件的姿態參數值。
在獲得了特徵資訊樣本後,可以根據該特徵資訊樣本對所述神經網路進行訓練,在網路損失小於設定損失值時完成訓練,其中,所述網路損失包括所述神經網路預測得到的姿態參數值與標註的姿態參數值之間的差異。
在一個範例中,網路損失函數的表示式如公式(1)所示:
Figure 02_image003
(1)
其中,
Figure 02_image004
是神經網路預測得到的第
Figure 02_image006
個姿態參數值;
Figure 02_image008
是所標註的第
Figure 02_image006
個姿態參數值,也即真實值;
Figure 02_image010
表示向量的二範數。
通過調整所述神經網路的網路參數值,以最小化網路損失函數,在網路損失的變化滿足收斂條件時,例如網路損失的變化量小於設定閾值時,或者迭代次數達到設定次數時完成訓練,即得到了訓練好的神經網路。
在另一個範例中,網路損失函數的表示式如公式(2)所示:
Figure 02_image014
(2)
其中,
Figure 02_image004
是神經網路預測得到的第
Figure 02_image006
個姿態參數值;
Figure 02_image008
是所標註的第
Figure 02_image006
個姿態參數值,也即真實值;
Figure 02_image010
表示向量的二範數;
Figure 02_image015
表示向量的一範數。
通過在網路損失函數中,加入預測得到的姿態參數值的一範數,增加了對於面部參數稀疏性的約束。
在一些實施例中,可以通過以下方法獲得音素序列樣本。
首先,獲取一角色發出語音的視訊段。例如,可以獲取一真實人物正在說話的視訊段。
針對所述視訊段,獲取多個包含所述角色的第一圖像幀,以及與所述第一圖像幀對應的多個音訊幀。也即,將所述視訊段拆分為圖像幀和音訊幀,並且,每個圖像幀與每個音訊幀是對應的,也即,對於一個圖像幀,可以確定該角色在做出圖像幀的表情時所發出的聲音對應的音訊幀。
接下來,將所述第一圖像幀,也即所述包含角色的圖像幀,轉化為包含所述互動物件的第二圖像幀,獲取所述第二圖像幀對應的姿態參數值。以所述第一圖像幀為包含真實人物的圖像幀為例,可以將該真實人物的圖像幀轉換為包含互動物件所表示的形象的第二圖像幀,並且所述真實人物的姿態參數值與所述互動物件的姿態參數值是對應的,從而可以獲取各個第二圖像幀中互動物件的姿態參數值。
之後,根據所述第二圖像幀對應的姿態參數值,對與所述第一圖像幀對應的音訊幀進行標註,根據標註了姿態參數值的音訊幀,獲得音素序列樣本。
在本公開實施例中,通過將一角色的視訊段,拆分為對應的圖像幀和音訊幀,並通過將包含真實人物的第一圖像幀轉化為包含互動物件的第二圖像幀來獲取音素序列對應的姿態參數值,使得音素與姿態參數值的對應性較好,能夠獲得較高質量的音素序列樣本。
圖5示出根據本公開至少一個實施例的互動物件的驅動裝置的結構示意圖,所述互動物件顯示在顯示設備中,如圖5所示,該裝置可以包括:音素序列獲取單元501,用於獲取所述互動物件的聲音驅動數據對應的音素序列;參數獲取單元502,用於獲取與所述音素序列匹配的所述互動物件的姿態參數值;驅動單元503,用於根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態。
在一些實施例中,所述裝置更包括輸出單元,用於根據所述音素序列控制所述顯示設備輸出語音和/或顯示文本。
在一些實施例中,所述參數獲取單元具體用於:對所述音素序列進行特徵編碼,獲得所述音素序列的特徵資訊;獲取所述音素序列的特徵資訊對應的所述互動物件的姿態參數值。
在一些實施例中,在對所述音素序列進行特徵編碼,獲得所述音素序列的特徵資訊時,所述參數獲取單元具體用於:針對所述音素序列包含的多種音素中的每種音素,生成多種音素分別對應的編碼序列;根據所述多種音素分別對應的編碼序列的編碼值以及所述音素序列中多種音素分別對應的持續時間,獲得所述多種音素分別對應的編碼序列的特徵資訊;根據所述多種音素分別對應的編碼序列的特徵資訊,獲得所述音素序列的特徵資訊。
在一些實施例中,在針對所述音素序列包含的多種音素,生成多個音素分別對應的編碼序列時,所述參數獲取單元具體用於:檢測各時間點上是否對應有第一音素,所述第一音素為所述多個音素中的任一個;通過將有所述第一音素的時間點上的編碼值設置為第一數值,將沒有所述第一音素的時間點上的編碼值設置為第二數值,得到所述第一音素對應的編碼序列。
在一些實施例中,在根據所述多種音素分別對應的編碼序列的編碼值以及所述音素序列中多種音素分別對應的持續時間,獲得所述多種音素分別對應的編碼序列的特徵資訊時,所述參數獲取單元具體用於:對於第一音素對應的編碼序列,利用高斯濾波器對所述第一音素在時間上的連續值進行高斯卷積操作,獲得所述第一音素對應的編碼序列的特徵資訊;所述第一音素為所述多個音素中的任一個。
在一些實施例中,姿態參數包括面部姿態參數,所述面部姿態參數包括面部肌肉控制係數,用於控制至少一個面部肌肉的運動狀態;所述驅動單元具體用於:根據與所述音素序列匹配的面部肌肉控制係數,驅動所述互動物件做出與所述音素序列中的各個音素匹配的面部動作。
在一些實施例中,所述裝置更包括動作驅動單元,用於獲取與所述面部姿態參數關聯的身體姿態的驅動數據;根據與所述面部姿態參數值關聯的身體姿態的驅動數據,驅動所述互動物件做出肢體動作。
在一些實施例中,在獲取所述音素序列的特徵資訊對應的所述互動物件的姿態參數值時,所述參數獲取單元具體用於:以設定時間間隔對所述音素序列的特徵資訊進行採樣,獲得第一採樣時間對應的採樣特徵資訊;將所述第一採樣時間對應的採樣特徵資訊輸入至預先訓練的神經網路,獲得與所述採樣特徵資訊對應的互動物件的姿態參數值。
在一些實施例中,所述神經網路包括長短期記憶網路和全連接網路;在將所述第一採樣時間對應的採樣特徵資訊輸入至預先訓練的神經網路,獲得與所述採樣特徵資訊對應的互動物件的姿態參數值時,所述參數獲取單元具體用於:將所述第一採樣時間對應的採樣特徵資訊輸入至所述長短期記憶網路,根據在所述第一採樣時間之前的採樣特徵資訊,輸出關聯特徵資訊;將所述關聯特徵資訊輸入至所述全連接網路,根據所述全連接網路的分類結果,確定與所述關聯特徵資訊對應的姿態參數值;其中,所述分類結果中每種類別對應於一組姿態參數值。
在一些實施例中,所述神經網路通過音素序列樣本訓練得到。所述裝置更包括樣本獲取單元,用於:獲取一角色發出語音的視訊段;根據所述視訊段獲取多個包含所述角色的第一圖像幀以及與所述第一圖像幀對應的多個音訊幀;將所述第一圖像幀轉化為包含所述互動物件的第二圖像幀,獲取所述第二圖像幀對應的姿態參數值;根據所述第二圖像幀對應的姿態參數值,對與所述第一圖像幀對應的音訊幀進行標註;根據標註有姿態參數值的音訊幀,獲得音素序列樣本。
本說明書至少一個實施例還提供了一種電子設備,如圖6所示,所述設備包括記憶體、處理器,記憶體用於儲存可在處理器上運行的計算機指令,處理器用於在執行所述計算機指令時實現本公開任一實施例所述的互動物件的驅動方法。
本說明書至少一個實施例還提供了一種計算機可讀儲存媒體,其上儲存有計算機程式,所述程式被處理器執行時實現本公開任一實施例所述的互動物件的驅動方法。
本領域技術人員應明白,本說明書一個或多個實施例可提供為方法、系統或計算機程式產品。因此,本說明書一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本說明書一個或多個實施例可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的計算機程式產品的形式。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於數據處理設備實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
上述對本說明書特定實施例進行了描述。其它實施例在所附請求項的範圍內。在一些情況下,在請求項中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和並行處理也是可以的或者可能是有利的。
本說明書中描述的主題及功能操作的實施例可以在以下中實現:數位電子電路、有形體現的計算機軟體或韌體、包括本說明書中公開的結構及其結構性等同物的計算機硬體、或者它們中的一個或多個的組合。本說明書中描述的主題的實施例可以實現為一個或多個計算機程式,即編碼在有形非暫時性程式載體上以被數據處理裝置執行或控制數據處理裝置的操作的計算機程式指令中的一個或多個模組。可替代地或附加地,程式指令可以被編碼在人工生成的傳播訊號上,例如機器生成的電、光或電磁訊號,該訊號被生成以將資訊編碼並傳輸到合適的接收機裝置以由數據處理裝置執行。計算機儲存媒體可以是機器可讀儲存設備、機器可讀儲存基板、隨機或序列存取記憶體設備、或它們中的一個或多個的組合。
本說明書中描述的處理及邏輯流程可以由執行一個或多個計算機程式的一個或多個可編程計算機執行,以通過根據輸入數據進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路—例如FPGA(現場可編程門陣列)或ASIC(專用集成電路)來執行,並且裝置也可以實現為專用邏輯電路。
適合用於執行計算機程式的計算機包括,例如通用和/或專用微處理器,或任何其他類型的中央處理單元。通常,中央處理單元將從只讀記憶體和/或隨機存取記憶體接收指令和數據。計算機的基本組件包括用於實施或執行指令的中央處理單元以及用於儲存指令和數據的一個或多個記憶體設備。通常,計算機還將包括用於儲存數據的一個或多個大容量儲存設備,例如磁碟、光碟磁光碟或光碟等,或者計算機將可操作地與此大容量儲存設備耦接以從其接收數據或向其傳送數據,抑或兩種情況兼而有之。然而,計算機不是必須具有這樣的設備。此外,計算機可以嵌入在另一設備中,例如移動電話、個人數位助理(PDA)、移動音訊或視訊播放器、遊戲操縱臺、全球定位系統(GPS)接收機、或例如通用序列匯流排(USB)閃存驅動器的便攜式儲存設備,僅舉幾例。
適合於儲存計算機程式指令和數據的計算機可讀媒體包括所有形式的非揮發性記憶體、媒介和記憶體設備,例如包括半導體記憶體設備(例如EPROM、EEPROM和閃存設備)、磁碟(例如內部硬碟或可移動碟)、光碟磁光碟以及CD ROM和DVD-ROM。處理器和記憶體可由專用邏輯電路補充或併入專用邏輯電路中。
雖然本說明書包含許多具體實施細節,但是這些不應被解釋為限制任何發明的範圍或所要求保護的範圍,而是主要用於描述特定發明的具體實施例的特徵。本說明書內在多個實施例中描述的某些特徵也可以在單個實施例中被組合實施。另一方面,在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外,雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護,但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除,並且所要求保護的組合可以指向子組合或子組合的變型。
類似地,雖然在附圖中以特定順序描繪了操作,但是這不應被理解為要求這些操作以所示的特定順序執行或順次執行、或者要求所有例示的操作被執行,以實現期望的結果。在某些情況下,多任務和並行處理可能是有利的。此外,上述實施例中的各種系統模組和組件的分離不應被理解為在所有實施例中均需要這樣的分離,並且應當理解,所描述的程式組件和系統通常可以一起集成在單個軟體產品中,或者封裝成多個軟體產品。
由此,主題的特定實施例已被描述。其他實施例在所附請求項的範圍以內。在某些情況下,請求項中記載的動作可以以不同的順序執行並且仍實現期望的結果。此外,附圖中描繪的處理並非必需所示的特定順序或順次順序,以實現期望的結果。在某些實現中,多任務和並行處理可能是有利的。
以上所述僅為本說明書一個或多個實施例的較佳實施例而已,並不用以限制本說明書一個或多個實施例,凡在本說明書一個或多個實施例的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本說明書一個或多個實施例保護的範圍之內。
201:獲取所述互動物件的聲音驅動數據對應的音素序列的步驟 202:獲取與所述音素序列匹配的所述互動物件的姿態參數值的步驟 203:根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態的步驟 501:音素序列獲取單元 502:參數獲取單元 503:驅動單元
圖1是本公開至少一個實施例提出的互動物件的驅動方法中顯示設備的示意圖。 圖2是本公開至少一個實施例提出的互動物件的驅動方法的流程圖。 圖3是本公開至少一個實施例提出的對音素序列進行特徵編碼的過程示意圖。 圖4是本公開至少一個實施例提出的音素序列樣本的示意圖。 圖5是本公開至少一個實施例提出的互動物件的驅動裝置的結構示意圖。 圖6是本公開至少一個實施例提出的電子設備的結構示意圖。
201:獲取所述互動物件的聲音驅動數據對應的音素序列的步驟
202:獲取與所述音素序列匹配的所述互動物件的姿態參數值的步驟
203:根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態的步驟

Claims (14)

  1. 一種互動物件的驅動方法,所述互動物件顯示在顯示設備中,所述方法包括:獲取所述互動物件的聲音驅動數據對應的音素序列;獲取與所述音素序列匹配的所述互動物件的姿態參數值,所述姿態參數值包括面部姿態參數和肢體姿態參數,所述面部姿態參數包括面部肌肉控制係數,所述面部肌肉控制係數用於控制至少一面部肌肉的運動狀態;根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態,至少包括根據與所述音素序列匹配的面部肌肉控制係數值,驅動所述互動物件的做出與所述音素序列中的各個音素匹配的面部動作。
  2. 如請求項1所述的驅動方法,更包括:根據所述音素序列控制所述顯示設備輸出語音和/或顯示文本。
  3. 如請求項1或2所述的驅動方法,其中,獲取與所述音素序列匹配的所述互動物件的姿態參數值,包括:對所述音素序列進行特徵編碼,獲得所述音素序列的特徵資訊;獲取所述音素序列的特徵資訊對應的所述互動物件的姿態參數值。
  4. 如請求項3所述的驅動方法,其中,對所述音素序列進行特徵編碼,獲得所述音素序列的特徵資訊,包括: 針對所述音素序列包含的多種音素中的每種音素,生成所述音素對應的編碼序列;根據所述音素對應的編碼序列的編碼值以及所述音素對應的持續時間,獲得所述音素對應的編碼序列的特徵資訊;根據所述多種音素分別對應的編碼序列的特徵資訊,獲得所述音素序列的特徵資訊。
  5. 如請求項4所述的驅動方法,其中,針對所述音素序列包含的多種音素中的每種音素,生成所述音素對應的編碼序列,包括:檢測各時間點上是否對應有所述音素;通過將有所述音素的時間點上的編碼值設置為第一數值,將沒有所述音素的時間點上的編碼值設置為第二數值,得到所述音素對應的所述編碼序列。
  6. 如請求項4所述的驅動方法,其中,根據所述多個音素分別對應的編碼序列的編碼值以及所述多種音素分別對應的持續時間,獲得所述多種音素分別對應的編碼序列的特徵資訊,包括:對於所述多種音素中的每種音素,對於所述音素對應的編碼序列,利用高斯濾波器對所述音素在時間上的連續值進行高斯卷積操作,獲得所述音素對應的編碼序列的特徵資訊。
  7. 如請求項1所述的驅動方法,更包括: 獲取與所述面部姿態參數值關聯的身體姿態的驅動數據;根據與所述面部姿態參數值關聯的所述身體姿態的所述驅動數據,驅動所述互動物件做出肢體動作。
  8. 如請求項3所述的驅動方法,其中,獲取所述音素序列的特徵資訊對應的所述互動物件的姿態參數值,包括:以設定時間間隔對所述音素序列的特徵資訊進行採樣,獲得第一採樣時間對應的採樣特徵資訊;將所述第一採樣時間對應的採樣特徵資訊輸入至預先訓練的神經網路,獲得與所述採樣特徵資訊對應的所述互動物件的所述姿態參數值。
  9. 如請求項8所述的驅動方法,其中,所述預先訓練的神經網路包括長短期記憶網路和全連接網路,將所述第一採樣時間對應的採樣特徵資訊輸入至預先訓練的神經網路,獲得與所述採樣特徵資訊對應的所述互動物件的所述姿態參數值,包括:將所述第一採樣時間對應的所述採樣特徵資訊輸入至所述長短期記憶網路,根據在所述第一採樣時間之前的採樣特徵資訊,輸出關聯特徵資訊;將所述關聯特徵資訊輸入至所述全連接網路,根據所述全連接網路的分類結果,確定與所述關聯特徵資訊對應的姿態參數值;其中,所述分類結果中,每種類別對應於一組所述姿態參數值。
  10. 如請求項8所述的驅動方法,其中,所述神經網路通過音素序列樣本訓練得到;所述方法更包括:獲取一角色發出語音的視訊段;根據所述視訊段獲取多個包含所述角色的第一圖像幀,以及與多個所述第一圖像幀分別對應的多個音訊幀;將所述第一圖像幀轉化為包含所述互動物件的第二圖像幀,獲取所述第二圖像幀對應的姿態參數值;根據所述第二圖像幀對應的所述姿態參數值,對與所述第一圖像幀對應的所述音訊幀進行標註;根據標註有所述姿態參數值的所述音訊幀,獲得所述音素序列樣本。
  11. 如請求項10所述的驅動方法,更包括:對所述音素序列樣本進行特徵編碼,獲得第二採樣時間對應的特徵資訊,並對於所述特徵資訊標註對應的姿態參數值,獲得特徵資訊樣本;根據所述特徵資訊樣本對初始神經網路進行訓練,在網路損失的變化滿足收斂條件後訓練得到所述神經網路,其中,所述網路損失包括所述初始神經網路預測得到的所述姿態參數值與標註的所述姿態參數值之間的差異;其中,所述網路損失包括所述初始神經網路預測得到的所述姿態參數值與標註的所述姿態參數值的差的二範數; 所述網路損失更包括,所述初始神經網路預測得到的所述姿態參數值的一範數。
  12. 一種互動物件的驅動裝置,所述互動物件顯示在顯示設備中,所述裝置包括:音素序列獲取單元,用於獲取所述互動物件的聲音驅動數據對應的音素序列;參數獲取單元,用於獲取與所述音素序列匹配的所述互動物件的姿態參數值,所述姿態參數值包括面部姿態參數和肢體姿態參數,所述面部姿態參數包括面部肌肉控制係數,所述面部肌肉控制係數用於控制至少一面部肌肉的運動狀態;驅動單元,用於根據所述姿態參數值控制所述顯示設備顯示的所述互動物件的姿態;其中,所述驅動單元具體用於根據與所述音素序列匹配的面部肌肉控制係數值,驅動所述互動物件的做出與所述音素序列中的各個音素匹配的面部動作。
  13. 一種電子設備,包括記憶體、處理器,所述記憶體用於儲存可在處理器上運行的計算機指令,所述處理器用於在執行所述計算機指令時實現請求項1至11中任一項所述的驅動方法。
  14. 一種計算機可讀儲存媒體,其上儲存有計算機程式,所述計算機程式被處理器執行時實現請求項1至11中任一項所述的驅動方法。
TW109145886A 2020-03-31 2020-12-24 互動物件的驅動方法、裝置、設備以及儲存媒體 TWI766499B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010245761.9 2020-03-31
CN202010245761.9A CN111459450A (zh) 2020-03-31 2020-03-31 交互对象的驱动方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
TW202138993A TW202138993A (zh) 2021-10-16
TWI766499B true TWI766499B (zh) 2022-06-01

Family

ID=71682375

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109145886A TWI766499B (zh) 2020-03-31 2020-12-24 互動物件的驅動方法、裝置、設備以及儲存媒體

Country Status (6)

Country Link
JP (1) JP2022531057A (zh)
KR (1) KR20210124312A (zh)
CN (1) CN111459450A (zh)
SG (1) SG11202109464YA (zh)
TW (1) TWI766499B (zh)
WO (1) WO2021196643A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460785B (zh) * 2020-03-31 2023-02-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN113314104B (zh) * 2021-05-31 2023-06-20 北京市商汤科技开发有限公司 交互对象驱动和音素处理方法、装置、设备以及存储介质
CN114283227B (zh) * 2021-11-26 2023-04-07 北京百度网讯科技有限公司 虚拟人物的驱动方法、装置、电子设备及可读存储介质
CN114330631A (zh) * 2021-12-24 2022-04-12 上海商汤智能科技有限公司 数字人生成方法、装置、设备及存储介质
CN114741561A (zh) * 2022-02-28 2022-07-12 商汤国际私人有限公司 动作生成方法、装置、电子设备及存储介质
TWI799223B (zh) * 2022-04-01 2023-04-11 國立臺中科技大學 肌力評估教學虛擬實境系統
CN114972589A (zh) * 2022-05-31 2022-08-30 北京百度网讯科技有限公司 虚拟数字形象的驱动方法及其装置
CN115662388A (zh) * 2022-10-27 2023-01-31 维沃移动通信有限公司 虚拟形象面部驱动方法、装置、电子设备及介质
CN116524896A (zh) * 2023-04-24 2023-08-01 北京邮电大学 一种基于发音生理建模的发音反演方法及***
CN116665695B (zh) * 2023-07-28 2023-10-20 腾讯科技(深圳)有限公司 虚拟对象口型驱动方法、相关装置和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647636A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质
CN110866609A (zh) * 2019-11-08 2020-03-06 腾讯科技(深圳)有限公司 解释信息获取方法、装置、服务器和存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002077755A (ja) * 2000-08-29 2002-03-15 Sharp Corp エージェントインタフェース装置
JP2003058908A (ja) * 2001-08-10 2003-02-28 Minolta Co Ltd 顔画像制御方法および装置、コンピュータプログラム、および記録媒体
JP4508917B2 (ja) * 2005-03-24 2010-07-21 株式会社ケンウッド 情報呈示装置、情報呈示方法、および、情報呈示用プログラム
JP2015038725A (ja) * 2013-07-18 2015-02-26 国立大学法人北陸先端科学技術大学院大学 発話アニメーション生成装置、方法、及びプログラム
JP5913394B2 (ja) * 2014-02-06 2016-04-27 Psソリューションズ株式会社 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
JP2015166890A (ja) * 2014-03-03 2015-09-24 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
US10366689B2 (en) * 2014-10-29 2019-07-30 Kyocera Corporation Communication robot
CN106056989B (zh) * 2016-06-23 2018-10-16 广东小天才科技有限公司 一种语言学习方法及装置、终端设备
CN107704169B (zh) * 2017-09-26 2020-11-17 北京光年无限科技有限公司 虚拟人的状态管理方法和***
CN107861626A (zh) * 2017-12-06 2018-03-30 北京光年无限科技有限公司 一种虚拟形象被唤醒的方法及***
JP2019139169A (ja) * 2018-02-14 2019-08-22 Gatebox株式会社 画像表示装置、画像表示方法および画像表示プログラム
CN108942919B (zh) * 2018-05-28 2021-03-30 北京光年无限科技有限公司 一种基于虚拟人的交互方法及***
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN110009716B (zh) * 2019-03-28 2023-09-26 网易(杭州)网络有限公司 面部表情的生成方法、装置、电子设备及存储介质
CN110176284A (zh) * 2019-05-21 2019-08-27 杭州师范大学 一种基于虚拟现实的言语失用症康复训练方法
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、***、电子设备及存储介质
CN110531860B (zh) * 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN110609620B (zh) * 2019-09-05 2020-11-17 深圳追一科技有限公司 基于虚拟形象的人机交互方法、装置及电子设备
CN111145777A (zh) * 2019-12-31 2020-05-12 苏州思必驰信息科技有限公司 一种虚拟形象展示方法、装置、电子设备及存储介质
CN111541908A (zh) * 2020-02-27 2020-08-14 北京市商汤科技开发有限公司 交互方法、装置、设备以及存储介质
CN111459452B (zh) * 2020-03-31 2023-07-18 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111460785B (zh) * 2020-03-31 2023-02-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647636A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质
CN110866609A (zh) * 2019-11-08 2020-03-06 腾讯科技(深圳)有限公司 解释信息获取方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
KR20210124312A (ko) 2021-10-14
SG11202109464YA (en) 2021-11-29
JP2022531057A (ja) 2022-07-06
WO2021196643A1 (zh) 2021-10-07
CN111459450A (zh) 2020-07-28
TW202138993A (zh) 2021-10-16

Similar Documents

Publication Publication Date Title
TWI766499B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
WO2021169431A1 (zh) 交互方法、装置、电子设备以及存储介质
TWI760015B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
WO2021196646A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
WO2021196644A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
CN114144790A (zh) 具有三维骨架正则化和表示性身体姿势的个性化语音到视频
US20230082830A1 (en) Method and apparatus for driving digital human, and electronic device
WO2023284435A1 (zh) 生成动画的方法及装置
WO2021232876A1 (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
WO2022252890A1 (zh) 交互对象驱动和音素处理方法、装置、设备以及存储介质
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
WO2021232877A1 (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
TWI759039B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
KR102514580B1 (ko) 영상 전환 방법, 장치 및 컴퓨터 프로그램