TWI777229B - 互動對象的驅動方法、裝置、顯示設備、電子設備以及電腦可讀儲存介質 - Google Patents

互動對象的驅動方法、裝置、顯示設備、電子設備以及電腦可讀儲存介質 Download PDF

Info

Publication number
TWI777229B
TWI777229B TW109129388A TW109129388A TWI777229B TW I777229 B TWI777229 B TW I777229B TW 109129388 A TW109129388 A TW 109129388A TW 109129388 A TW109129388 A TW 109129388A TW I777229 B TWI777229 B TW I777229B
Authority
TW
Taiwan
Prior art keywords
driving
interactive object
driving data
sound
audio signal
Prior art date
Application number
TW109129388A
Other languages
English (en)
Other versions
TW202121161A (zh
Inventor
張子隆
欒青
孫林
Original Assignee
大陸商北京市商湯科技開發有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京市商湯科技開發有限公司 filed Critical 大陸商北京市商湯科技開發有限公司
Publication of TW202121161A publication Critical patent/TW202121161A/zh
Application granted granted Critical
Publication of TWI777229B publication Critical patent/TWI777229B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公開涉及一種互動對象的驅動方法、裝置、顯示設備、電子設備以及儲存介質。所述方法包括:獲取顯示設備周邊的音頻訊號;根據所述音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料;響應於輸出所獲得的第一驅動資料,監聽所述音頻訊號中的目標對象的聲音;根據所述音頻訊號中的目標對象的聲音存在狀態,驅動所述互動對象進行回應。

Description

互動對象的驅動方法、裝置、顯示設備、電子設備以及電腦可讀儲存介質
本公開涉及電腦視覺技術領域,具體涉及一種互動對象的驅動方法、裝置、顯示設備、電子設備以及儲存介質。
[相關申請的交叉引用]
本公開要求於2019年11月28日提交的、申請號為2019111952805的中國專利申請的優先權,該申請的全文以引用的方式併入本文中。
人機互動的方式大多基於按鍵、觸控、語音進行輸入,通過在顯示螢幕上呈現影像、文本進行回應。目前虛擬人物多是在語音助理的基礎上改進得到的,其只是對通過設備輸入的語音進行輸出,用戶與虛擬人物之間的對話有延遲,並且虛擬人物無法根據用戶的說話狀態進行回應,導致互動不自然。
根據本公開的一方面,提供一種互動對象的驅動方法,所述方法包括:獲取所述顯示設備周邊的音頻訊號;根據所述音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料;響應於輸出所述第一驅動資料,監聽所述音頻訊號中的目標對象的聲音;根據所述音頻訊號中目標對象的聲音的存在狀態,驅動所述互動對象進行回應。
結合本公開提供的任一實施方式,所述根據所述音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料,包括:響應於在所述音頻訊號中檢測到目標資訊,確定與所述目標資訊匹配的第一指定動作;獲取驅動所述互動對象執行所述第一指定動作的第一驅動資料。
結合本公開提供的任一實施方式,所述第一驅動資料包括第一音頻驅動資料和/或第一動作驅動資料,其中,所述第一音頻驅動資料為執行所述第一指定動作時發出的聲音的資料;所述響應於輸出所述第一驅動資料,監聽所述音頻訊號中的目標對象的聲音,包括:響應於輸出所述第一動作驅動資料,驅動所述互動對象執行第一指定動作,監聽所述音頻訊號中的目標對象的聲音;或者,響應於根據所述第一音頻驅動資料輸出聲音,監聽所述音頻訊號中的目標對象的聲音。
結合本公開提供的任一實施方式,所述根據所述音頻訊 號中的目標對象的聲音存在狀態,驅動所述互動對象進行回應,包括:響應於在第一設定時間內監聽到目標對象的聲音,驅動所述互動對象循環執行所述第一指定動作。
結合本公開提供的任一實施方式,所述根據所述音頻訊號中的目標對象的聲音存在狀態,驅動所述互動對象進行回應,包括:響應於在第一設定時間內未監聽到目標對象的聲音,驅動所述互動對象在結束執行第一指定動作後返回初始姿態。
結合本公開提供的任一實施方式,所述方法更包括:在驅動所述互動對象在結束執行第一指定動作後返回初始姿態後,根據所述音頻訊號,獲得驅動所述互動對象進行回應的第二驅動資料,所述第二驅動資料包括第二音頻驅動資料和/或第二動作驅動資料;根據所述第二驅動資料,驅動所述互動對象進行回應。
結合本公開提供的任一實施方式,所述根據所述音頻訊號,獲得驅動所述互動對象進行回應的第二驅動資料,包括:將所述音頻訊號發送至伺服器,以使所述伺服器根據所述音頻訊號生成驅動所述互動對象進行回應的第二驅動資料;接收所述伺服器發送的第二驅動資料。
結合本公開提供的任一實施方式,所述方法更包括:在驅動所述互動對象在結束執行所述第一指定動作後返回初始姿態之後,響應於在第二設定時間內未接收到所述伺服器發送的第二驅動資料的情況下,調用預置的第三驅動資料驅動所述互動對象進行回應,所述第三驅動資料包括第三音頻驅動資料和/或第三動 作驅動資料。
結合本公開提供的任一實施方式,所述方法更包括:根據所述音頻訊號,檢測環境噪音的強度;根據所述環境噪音的強度,調整所述互動對象在回應過程中所述顯示設備的輸出聲音的音量。
結合本公開提供的任一實施方式,通過多個聲音檢測模組來獲取多個音頻訊號,所述多個聲音檢測模組分佈在所述顯示設備的不同方位;所述方法更包括:根據所述多個聲音檢測模組分別獲取的多個音頻訊號確定不同方位的環境噪音的強度;根據所述不同方位的環境噪音的強度,驅動所述互動對象引導目標對象改變進行互動的位置。
根據本公開的一方面,提供一種互動對象的驅動裝置,所述裝置包括:第一獲取單元,用於獲取所述顯示設備周邊的音頻訊號;第二獲取單元,用於根據所述音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料;監聽單元,用於響應於輸出所獲得的第一驅動資料,監聽所述音頻訊號中的目標對象的聲音;第一驅動單元,用於根據所述音頻訊號中目標對象的聲音的存在狀態,驅動所述互動對象進行回應。
結合本公開提供的任一實施方式,所述第二獲取單元具體用於:響應於在所述音頻訊號中檢測到目標資訊,確定與所述目標資訊匹配的第一指定動作;獲取驅動所述互動對象執行所述第一指定動作的第一驅動資料。
結合本公開提供的任一實施方式,所述第一驅動資料包括第一音頻驅動資料和/或第一動作驅動資料,其中,所述第一音頻驅動資料為執行所述第一指定動作時發出的聲音的資料;所述監聽單元具體用於:響應於輸出所述第一動作驅動資料,驅動所述互動對象執行第一指定動作,監聽所述音頻訊號中的目標對象的聲音;或者,響應於根據所述第一音頻驅動資料輸出聲音,監聽所述音頻訊號中的目標對象的聲音。
結合本公開提供的任一實施方式,所述第一驅動單元具體用於:響應於在第一設定時間內監聽到目標對象的聲音,驅動所述互動對象循環執行所述第一指定動作。
結合本公開提供的任一實施方式,所述第一驅動單元具體用於:響應於在第一設定時間內未監聽到目標對象的聲音,驅動所述互動對象在結束執行所述第一指定動作後返回初始姿態。
結合本公開提供的任一實施方式,所述裝置更包括第二驅動單元,具體用於:在驅動所述互動對象在結束執行所述第一指定動作後返回初始姿態後,根據所述音頻訊號,獲得驅動所述互動對象進行回應的第二驅動資料,所述第二驅動資料包括第二音頻驅動資料和/或第二動作驅動資料;根據所述第二驅動資料,驅動所述互動對象進行回應。
結合本公開提供的任一實施方式,所述第二驅動單元在用於根據所述音頻訊號,獲得驅動所述互動對象進行回應的第二驅動資料時,具體用於:將所述音頻訊號發送至伺服器,以使所 述伺服器根據所述音頻訊號生成驅動所述互動對象進行回應的第二驅動資料;接收所述伺服器發送的第二驅動資料。
結合本公開提供的任一實施方式,所述裝置更包括第三驅動單元,用於在驅動所述互動對象在結束執行所述第一指定動作後返回初始姿態之後,響應於在第二設定時間內未接收到所述伺服器發送的第二驅動資料的情況下,調用預置的第三驅動資料驅動所述互動對象進行回應,所述第三驅動資料包括第三音頻驅動資料和/或第三動作驅動資料。
結合本公開提供的任一實施方式,所述裝置更包括調整單元,用於:根據所述音頻訊號,檢測環境噪音的強度;根據所述環境噪音的強度,調整所述互動對象在回應過程中所述顯示設備的輸出聲音的音量。
結合本公開提供的任一實施方式,通過多個聲音檢測模組來對應獲取多個音頻訊號,所述多個聲音檢測模組分佈在所述顯示設備的不同方位;所述裝置更包括第四驅動單元,用於:根據多個聲音檢測模組對應獲取的多個音頻訊號確定不同方位的環境噪音的強度;根據所述不同方位的環境噪音的強度,驅動所述互動對象引導目標對象改變進行互動的位置。
根據本公開的一方面,提出一種顯示設備,所述顯示設備配置有透明顯示螢幕,所述透明顯示螢幕用於顯示互動對象,所述顯示設備執行本公開提供的任一實施方式所述的方法,以驅動所述透明顯示螢幕中顯示的互動對象對目標對象進行回應。
根據本公開的一方面,提供一種電子設備,所述設備包括儲存器、處理器,所述儲存器用於儲存可在處理器上運行的電腦程式,所述處理器用於在執行所述電腦程式時實現本公開提供的任一實施方式所述的互動對象的驅動方法。
根據本公開的一方面,提供一種電腦可讀儲存介質,其上儲存有電腦程式,所述程式被處理器執行時實現本公開提供的任一實施方式所述的互動對象的驅動方法。
本公開至少一個實施例提出的互動對象的驅動、裝置、電子設備及儲存介質,根據顯示設備周邊的音頻訊號驅動互動對象對目標對象進行回應,並在輸出第一驅動資料的同時,開始監聽音頻訊號中的目標對象的聲音,根據目標對象的聲音的存在狀態來驅動所述互動對象進行回應,使得在互動對象執行動作的同時,可以根據目標對象的說話狀態來調整所執行的動作,使得互動對象與目標對象之間的互動對話過程更加真實自然,滿足目標對象更高層級的交流需求。
201、202、203、204:步驟
301:第一獲取單元
302:第二獲取單元
303:監聽單元
304:第一驅動單元
400:電子設備
401:儲存器
402:處理器
403:網路介面
404:匯流排
為了更清楚地說明本說明書一個或多個實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書一個或多個實施例中記載的一些實施例,對於本領域普通技術 人員來講,在不付出進步性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1示出根據本公開至少一個實施例的互動對象的驅動方法中顯示設備的示意圖。
圖2示出根據本公開至少一個實施例的互動對象的驅動的流程圖。
圖3示出根據本公開至少一個實施例的互動對象的驅動裝置的結構示意圖。
圖4示出根據本公開至少一個實施例的電子設備的結構示意圖。
這裡將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附發明申請專利範圍中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
本文中術語「和/或」,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語「至少一種」表示多種中的任意一種或多種中的至少兩種 的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
本公開至少一個實施例提供了一種互動對象的驅動方法,所述驅動方法可以由終端設備或伺服器等電子設備執行,所述終端設備可以是固定終端或移動終端,例如手機、平板電腦、遊戲機、台式機、廣告機、一體機、車載終端等等,所述方法還可以通過處理器調用儲存器中儲存的電腦可讀指令的方式來實現。
在本公開實施例中,互動對象可以是任意一種能夠與目標對象進行互動的對象,其包括虛擬人物、虛擬動物、虛擬物品、卡通形象以及其他能夠實現互動功能的虛擬形象。所述目標對象可以是用戶,也可以是機器人,還可以是其他智能設備。所述互動對象和所述目標對象之間的互動方式可以是主動互動方式,也可以是被動互動方式。一示例中,目標對象可以通過做出手勢或者肢體動作來發出需求,通過主動互動的方式來觸發互動對象與其互動。另一示例中,互動對象可以通過主動打招呼、提示目標對象做出動作等方式,使得目標對象採用被動方式與互動對象進行互動。
所述互動對象可以通過顯示設備進行展示,所述顯示設備可以是帶有顯示功能的電子設備,比如帶有顯示螢幕的一體機、投影儀、虛擬實境(Virtual Reality,VR)設備、擴增實境(Augmented Reality,AR)設備,也可以是具有特殊顯示效果的 顯示設備。
圖1示出本公開至少一個實施例提出的顯示設備。如圖1所示,該顯示設備具有透明顯示螢幕,其可以在透明顯示螢幕上顯示具有立體效果的虛擬場景以及互動對象。例如圖1中透明顯示螢幕顯示的互動對象有虛擬卡通人物。在一些實施例中,本公開中所述的終端設備也可以為上述顯示設備,顯示設備中配置有儲存器和處理器,儲存器用於儲存可在處理器上運行的電腦指令,所述處理器用於在執行所述電腦指令時實現本公開提供的互動對象的驅動方法,以驅動透明顯示螢幕中顯示的互動對象對目標對象進行回應。
在一些實施例中,響應於顯示設備接收到用於驅動互動對象做出動作、呈現表情或輸出語音的驅動資料,互動對象可以對目標對象做出指定的動作、表情或發出指定的語音。可以根據顯示設備周邊出現的目標對象的動作、表情、身份、偏好等,生成驅動資料,以驅動互動對象進行回應,從而為目標對象提供擬人化的服務。在互動對象與目標對象的互動過程中,存在互動對象無法根據目標對象的行為做出合適的回應的情況,例如目標對象在說話停頓、思索時,互動對象保持靜止狀態,使得目標對象感覺與互動對象交流存在障礙,影響使用體驗。基於此,本公開至少一個實施例提出一種互動對象的驅動方法,以提升目標對象在和互動對象進行互動過程中的互動體驗。
圖2示出根據本公開至少一個實施例的互動對象的驅動 的流程圖,如圖2所示,所述方法包括步驟201~步驟204。
在步驟201中,獲取顯示設備周邊的音頻訊號。
顯示設備周邊,包括所述顯示設備所處的任意方向上的空間範圍,例如可以包括所述顯示設備的前向、側向、後方、上方中的一個或多個方向。該空間範圍根據用於檢測音頻訊號的聲音檢測模組,所能接收到設定強度的音頻訊號的範圍來確定。
用於檢測顯示設備周邊的音頻訊號的聲音檢測模組可以包括麥克風和處理器,所述處理器用於對麥克風獲取的聲音訊號進行處理,輸出音頻訊號。所述聲音檢測模組可以設置在顯示設備中,作為所述顯示設備的內置模組,也可以作為外接設備,獨立於顯示設備之外。
所述聲音檢測模組的數量可以為多個,可以設置在所述顯示設備的不同位置,以獲取所述顯示設備周邊不同方位的聲音訊號;也可以設置在所述顯示設備周邊的其中一個方位,以集中獲取該方位上的訊號。所述聲音檢測模組設置的位置可以根據互動需求來確定,本公開實施例對此不進行限制。
在步驟202中,根據音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料。
由顯示設備中的聲音檢測模組對所述音頻訊號進行檢測,根據檢測結果獲取所述第一驅動資料,以驅動所述互動對象對所述目標對象進行回應。
在一些實施例中,在所述音頻訊號中包含了與互動對象 執行第一指定動作相符的目標資訊時,該目標資訊觸發所述互動對象執行所述第一指定動作。所述第一指定動作可以是互動對象執行的某一動作,例如揮手;在執行第一指定動作時,所述顯示設備的聲音輸出模組還可以同時輸出執行該第一指定動作時相應的聲音。具體地,在檢測到音頻訊號中包含了目標資訊時,獲得與目標資訊對應的第一驅動資料,以驅動所述互動對象執行所述第一指定動作。
在步驟203中,響應於輸出第一驅動資料,監聽所述音頻訊號中的目標對象的聲音。
在輸出所獲得的第一驅動資料,以驅動互動對象執行所述第一指定動作的同時,開始監聽所述音頻訊號中的目標對象的聲音。
在步驟204中,根據所述音頻訊號中目標對象的聲音的存在狀態,驅動所述互動對象進行回應。
在驅動互動對象執行第一指定動作的同時,即開始監聽音頻訊號中的目標對象的聲音,並根據目標對象的聲音的存在狀態來驅動所述互動對象進行回應,例如執行設定的動作,輸出設定的聲音,或者調整所述互動對象的狀態等等,可以避免互動對象在執行第一指定動作期間,無法根據目標對象的說話狀態做出準確回應的問題。
在本公開實施例中,根據顯示設備周邊的音頻訊號,在對互動對象輸出用於驅動互動對象進行回應的第一驅動資料的同 時開始監聽音頻訊號中的目標對象的聲音,根據目標對象的聲音的存在狀態來驅動所述互動對象進行回應,使得在互動對象執行動作的同時,可以根據目標對象的說話狀態來調整所執行的動作,使得互動對象與目標對象之間的互動對話過程更加真實自然,滿足目標對象更高層級的交流需求。
在本公開實施例中,所述第一驅動資料包括第一音頻驅動資料和/或第一動作驅動資料,其中,所述第一音頻驅動資料為執行所述第一指定動作時發出的聲音的資料。
一示例中,互動對象執行第一指定動作時可以是發出聲音的,也可以是不發出聲音的。例如,響應於互動對象執行第一指定動作時發出聲音,在輸出第一動作驅動資料以驅動所述互動對象執行第一指定動作的同時,還根據所述第一音頻驅動資料輸出聲音。再例如,響應於互動對象執行第一指定動作時不發出聲音,輸出第一動作驅動資料以驅動所述互動對象執行第一指定動作。
在一些實施例中,響應於檢測到輸出的第一動作驅動資料,開始監聽音頻訊號中的目標對象的聲音。
在一些實施例中,響應於檢測到輸出的第一音頻驅動資料,也即檢測到開始播放與第一指定動作對應的聲音時,開始監聽音頻訊號中的目標對象的聲音。
在本公開實施例中,在檢測到開始輸出第一動作驅動資料或者根據第一音頻驅動資料輸出聲音時,即開始監聽音頻訊號 中的目標對象的聲音,使得互動對象能夠及時對目標對象發出執行動作指令後的說話狀態做出反應,使得互動對象與目標對象之間的互動對話過程更加真實自然,從而提升目標對象互動體驗。
在一些實施例中,響應於在第一設定時間內監聽到目標對象的聲音,驅動所述互動對象循環執行所述第一指定動作。
所述第一設定時間可以根據目標對象說話的停頓時間進行設置。例如,在目標對象停止說話的3秒裡如果再次監測到目標對象的聲音,表明目標對象說話並未結束,而是中間進行了停頓。而對於目標對象說話停頓過後繼續開始說話時,如果在目標對象繼續說話的過程中互動對象始終處於靜止狀態或維持先前的狀態,可能使目標對象感覺與互動對象的交流存在障礙,影響目標對象的互動體驗。
因此,在本公開實施例中,在第一設定時間內監聽到目標對象的聲音的情況下,則驅動互動對象循環執行所述第一指定動作。例如,在第一指定動作為“揮手”的情況下,在輸出了驅動互動對象進行揮手動作的第一動作驅動資料後,則開始監聽音頻訊號中的目標對象的聲音。如果在第一設定時間內,例如3秒(s)內,監聽到了目標對象的聲音,則表明目標對象在發出揮手的指令後,仍然在繼續說話,則驅動所述互動對象循環進行揮手的動作。
也可以在第一設定時間內監聽不到目標對象的聲音的情況下,驅動所述互動對象停止執行第一指定動作,使所述互動對 象返回初始姿態。
如果在監聽目標對象的聲音的過程中,檢測到所述音頻訊號中包含其他目標資訊時,驅動所述互動對象停止執行第一指定動作,而去驅動所述互動對象執行與所述其他目標資訊對應的指定動作。在互動對象重新執行指令期間,可以仍然重複上述監聽目標對象的聲音的過程,直到監聽不到目標對象的聲音,表明目標對象停止說話。
在本公實施例中,在第一設定時間內監聽到目標對象的聲音的情況下,驅動所述互動對象循環執行所述第一指定動作,使得目標對象在說話停頓後繼續說話時,互動對象持續執行之前的動作,從而使得目標對象與互動對象之間的交流生動自然,提升了目標對象的互動體驗。
如果在第一設定時間內始終未監聽到目標對象的聲音,也就是目標對象在發出了執行第一指定動作的指令後,在第一設定時間內始終未繼續說話,則表明目標對象說話已結束。在互動對象執行完第一指定動作後,可以驅動所述互動對象返回初始姿態,使得目標對象與互動對象之間的互動自然、流暢,提升了目標對象的互動體驗。
在目標對象說話結束後,可以對目標對象的說話內容進行分析,以確定目標對象的互動意圖,從而獲取互動對象針對互動意圖回復的響應內容。
在一些實施例中,在驅動所述互動對象在結束執行所述 第一指定動作後返回初始姿態後,根據所述音頻訊號,獲得驅動所述互動對象進行語音回應的第二驅動資料,所述第二驅動資料包括第二音頻驅動資料和/或第二動作驅動資料;根據所述第二驅動資料,驅動所述互動對象進行回應。
在一個示例中,可以根據所述音頻訊號,從儲存在本地的驅動資料中調用驅動所述互動對象進行回應的第二驅動資料。
在一個示例中,也可以將所述音頻訊號發送至伺服器,以使所述伺服器根據所述音頻訊號生成驅動所述互動對象進行語音和/或動作回應的第二驅動資料;進而接收所述伺服器發送的第二驅動資料。
在一些實施例中,在驅動所述互動對象在結束執行所述第一指定動作後返回初始姿態之後,響應於在第二設定時間內未接收到所述伺服器發送的第二驅動資料的情況下,調用預置的第三驅動資料驅動所述互動對象進行回應,所述第三驅動資料包括第三音頻驅動資料和/或第三動作驅動資料。
在通過伺服器生成第二驅動資料的情況下,由於網路延遲等原因,有可能無法及時接收到驅動所述互動對象進行回應的第二驅動資料。在目標對象說話已結束,而在一定的時間還未收到第二驅動資料的情況下,可以調用預置的第三驅動資料來驅動互動對象進行回應。該預置的第三驅動資料可以是第三音頻驅動資料,例如使聲音輸出模組輸出表示互動對象在進行思考的聲音,或者例如“請稍等”、“請讓我考慮一下”類似的語音;也可以是 第三動作驅動資料,例如驅動互動對象做出正在思考的動作,或者做出抒發情緒的姿態等等;也可以既包括第三聲音驅動資料也包括第三動作驅動資料,例如在做出正在思考的動作同時,發出“請讓我考慮一下”的語音。直到接收到第二驅動資料後,再開始利用第二驅動資料驅動所述互動對象進行回應。
在本公開實施例中,通過在一定時間內未接收到伺服器發送的第二驅動資料的情況下,調用預置的第三驅動資料驅動所述互動對象進行回應,避免了因網路原因導致的對話延遲問題,使得目標對象與互動對象之間的互動更加自然、順暢,提高了目標對象的互動體驗。
在一些實施例中,還可以根據所述音頻訊號檢測環境噪音的強度,並根據環境噪音的強度,調整所述互動對象在回應過程中所述顯示設備的輸出聲音的音量。
借助於聲音檢測模組的輸出訊號,可以得知顯示設備的周圍環境,也即當前的交流環境是否嘈雜。在環境噪音的強度超過預定閾值的情況下,則可以確定當前處於嘈雜的環境,則可以調整聲音輸出模組輸出聲音的音量,在目標對象的角度,即為互動對象提高了音量,從而使目標對象可以更清晰地聽到互動對象的說話內容,提升目標對象的互動感受。
在一些實施例中,所述聲音檢測模組的數量為多個,並分佈在所述顯示設備的不同方位。根據多個聲音檢測模組分別獲取的多個音頻訊號可以確定不同方位的環境噪音的強度;根據不 同方位的環境噪音的強度,驅動所述互動對象引導目標對象改變進行互動的位置。
在聲音檢測模組分佈在顯示設備的不同位置的情況下,可以根據各個聲音檢測模組的音頻訊號確定顯示設備周邊相對安靜的位置,引導目標對象走向該相對安靜的位置,能夠提升目標對象與互動對象進行互動的品質,提升目標對象的互動感受。
圖3示出根據本公開至少一個實施例的互動對象的驅動裝置的結構示意圖,如圖3所示,該裝置可以包括:第一獲取單元301,用於獲取所述顯示設備周邊的音頻訊號;第二獲取單元302,用於根據所述音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料;監聽單元303,用於響應於輸出所述第一驅動資料,監聽所述音頻訊號中的目標對象的聲音;第一驅動單元304,用於根據所述音頻訊號中的目標對象的聲音存在狀態,驅動所述互動對象進行回應。
在一些實施例中,第二獲取單元302具體用於:響應於在所述音頻訊號中檢測到目標資訊,確定與所述目標資訊匹配的第一指定動作;獲取驅動所述互動對象執行第一指定動作的第一驅動資料。
在一些實施例中,所述第一驅動資料包括第一音頻驅動資料和/或第一動作驅動資料,其中,所述第一音頻驅動資料為執行所述第一指定動作時發出的聲音的資料;監聽單元303具體用於:響應於輸出所述第一動作驅動資料,驅動所述互動對象執行 第一指定動作,監聽所述音頻訊號中的目標對象的聲音;或者,響應於根據所述第一音頻驅動資料輸出聲音,監聽所述音頻訊號中的目標對象的聲音。
在一些實施例中,第一驅動單元304具體用於:響應於在第一設定時間內監聽到目標對象的聲音,驅動所述互動對象循環執行第一指定動作。
在一些實施例中,第一驅動單元304具體用於:響應於在第一設定時間內未監聽到目標對象的聲音,驅動所述互動對象在結束執行第一指定動作後返回初始姿態。
在一些實施例中,所述裝置更包括第二驅動單元,具體用於:在驅動所述互動對象在結束執行第一指定動作後返回初始姿態後,根據所述音頻訊號,獲得驅動所述互動對象進行回應的第二驅動資料,所述第二驅動資料包括第二音頻驅動資料和/或第二動作驅動資料;根據所述第二驅動資料,驅動所述互動對象進行回應。
在一些實施例中,所述第二驅動單元在用於根據所述音頻訊號,獲得驅動所述互動對象進行回應的第二驅動資料時,具體用於:將所述音頻訊號發送至伺服器,以使所述伺服器根據所述音頻訊號生成驅動所述互動對象進行回應的第二驅動資料;接收所述伺服器發送的第二驅動資料。
在一些實施例中,所述裝置更包括第三驅動單元,用於在驅動所述互動對象在結束執行第一指定動作後返回初始姿態之 後,響應於在第二設定時間內未接收到所述伺服器發送的第二驅動資料的情況下,調用預置的第三驅動資料驅動所述互動對象進行回應,所述第三驅動資料包括第三音頻驅動資料和/或第三動作驅動資料。
在一些實施例中,所述裝置更包括調整單元,用於:根據所述音頻訊號,檢測環境噪音的強度;根據所述環境噪音的強度,調整所述互動對象在回應過程中所述顯示設備的輸出聲音的音量。
在一些實施例中,音頻訊號通過多個聲音檢測模組來獲取多個音頻訊號,所述多個聲音檢測模組分佈在所述顯示設備的不同方位;所述裝置更包括第四驅動單元,用於:根據多個聲音檢測模組分別獲取的多個音頻訊號確定不同方位的環境噪音的強度;根據所述不同方位的環境噪音的強度,驅動所述互動對象引導目標對象改變進行互動的位置。
本說明書至少一個實施例還提供了一種電子設備,如圖4所示,電子設備400包括儲存器401和處理器402。處理器402、網路介面403和儲存器401通過匯流排404進行耦合。儲存器401用於儲存可在處理器402上運行的電腦程式,處理器402用於在執行所述電腦程式時實現本公開任一實施例所述的互動對象的驅動方法。
處理器402通過調用儲存器401中的程式代碼,用於運行圖3中的第一獲取單元301、第二獲取單元302、監聽單元303 和第一驅動單元304。在實際應用中,處理器402可以包括一個或者多個通用處理器,其中,通用處理器可以是能夠處理電子指令的任何類型的設備,包括中央處理器(Central Processing Unit,CPU)、微處理器、微控制器、主處理器、控制器以及ASIC(Application Specific Integrated Circuit,特殊應用積體電路)等等。
在實際應用中,儲存器401可以包括揮發性記憶體(Volatile Memory),例如隨機存取記憶體(Random AccessMemory,RAM);儲存器也可以包括非揮發性記憶體(Non-Volatile Memory),例如唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash Memory)、硬碟(Hard Disk Drive,HDD)或固態硬碟(Solid-State Drive,SSD)儲存器還可以包括上述種類的儲存器的組合。
在一些實施例中,處理器402讀取儲存器401中儲存的程式代碼,以執行:獲取所述顯示設備周邊的音頻訊號;根據所述音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料;響應於輸出所述第一驅動資料,監聽所述音頻訊號中的目標對象的聲音;以及,根據所述音頻訊號中的目標對象的聲音存在狀態,驅動所述互動對象進行回應。
本說明書至少一個實施例還提供了一種電腦可讀儲存介質,其上儲存有電腦程式,所述程式被處理器執行時實現本公開任一實施例所述的互動對象的驅動。
本領域技術人員應明白,本說明書一個或多個實施例可提供為方法、系統或電腦程式產品。因此,本說明書一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本說明書一個或多個實施例可採用在一個或多個其中包含有電腦可用程式代碼的電腦可用儲存介質(包括但不限於磁碟儲存器、CD-ROM、光學儲存器等)上實施的電腦程式產品的形式。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於資料處理設備實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
上述對本說明書特定實施例進行了描述。其它實施例在所附發明申請專利範圍內。在一些情況下,在發明申請專利範圍中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和並行處理也是可以的或者可能是有利的。
本說明書中描述的主題及功能操作的實施例可以在以下中實現:數位電子電路、有形體現的電腦軟體或韌體、包括本說明書中公開的結構及其結構性等同物的電腦硬體、或者它們中的一個或多個的組合。本說明書中描述的主題的實施例可以實現為 一個或多個電腦程式,即編碼在有形非暫時性程式載體上以被資料處理裝置執行或控制資料處理裝置的操作的電腦程式指令中的一個或多個模組。可替代地或附加地,程式指令可以被編碼在人工生成的傳播訊號上,例如機器生成的電、光或電磁訊號,該訊號被生成以將資訊編碼並傳輸到合適的接收機裝置以由資料處理裝置執行。電腦儲存介質可以是機器可讀儲存設備、機器可讀儲存基板、隨機或串行存取儲存器設備、或它們中的一個或多個的組合。
本說明書中描述的處理及邏輯流程可以由執行一個或多個電腦程式的一個或多個可編程電腦執行,以通過根據輸入資料進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路-例如FPGA(可程式邏輯陣列)或ASIC(特殊應用積體電路)來執行,並且裝置也可以實現為專用邏輯電路。
適合用於執行電腦程式的電腦包括,例如通用和/或專用微處理器,或任何其他類型的中央處理單元。通常,中央處理單元將從唯讀記憶體和/或隨機存取記憶體接收指令和資料。電腦的基本組件包括用於實施或執行指令的中央處理單元以及用於儲存指令和資料的一個或多個儲存器設備。通常,電腦還將包括用於儲存資料的一個或多個大容量儲存設備,例如磁碟、磁光碟或光碟等,或者電腦將可操作地與此大容量儲存設備耦接以從其接收資料或向其傳送資料,亦或兩種情況兼而有之。然而,電腦不是必須具有這樣的設備。此外,電腦可以嵌入在另一設備中,例如 移動電話、個人數位助理(PDA)、移動音頻或視訊播放器、遊戲操縱臺、全球定位系統(GPS)接收機、或例如通用串行匯流排(USB)閃存驅動器的便攜式儲存設備,僅舉幾例。
適合於儲存電腦程式指令和資料的電腦可讀介質包括所有形式的非易失性儲存器、媒介和儲存器設備,例如包括半導體儲存器設備(例如EPROM、EEPROM和閃存設備)、磁碟(例如內部硬碟或可移動盤)、磁光碟以及CD ROM和DVD-ROM盤。處理器和儲存器可由專用邏輯電路補充或併入專用邏輯電路中。
雖然本說明書包含許多具體實施細節,但是這些不應被解釋為限制任何發明的範圍或所要求保護的範圍,而是主要用於描述特定發明的具體實施例的特徵。本說明書內在多個實施例中描述的某些特徵也可以在單個實施例中被組合實施。另一方面,在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外,雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護,但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除,並且所要求保護的組合可以指向子組合或子組合的變型。
類似地,雖然在附圖中以特定順序描繪了操作,但是這不應被理解為要求這些操作以所示的特定順序執行或順次執行、或者要求所有例示的操作被執行,以實現期望的結果。在某些情況下,多任務和並行處理可能是有利的。此外,上述實施例中的各種系統模組和組件的分離不應被理解為在所有實施例中均需要 這樣的分離,並且應當理解,所描述的程式組件和系統通常可以一起集成在單個軟體產品中,或者封裝成多個軟體產品。
由此,主題的特定實施例已被描述。其他實施例在所附發明申請專利範圍以內。在某些情況下,發明申請專利範圍中記載的動作可以以不同的順序執行並且仍實現期望的結果。此外,附圖中描繪的處理並非必需所示的特定順序或順次順序,以實現期望的結果。在某些實現中,多任務和並行處理可能是有利的。
以上所述僅為本說明書一個或多個實施例的較佳實施例而已,並不用以限制本說明書一個或多個實施例,凡在本說明書一個或多個實施例的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本說明書一個或多個實施例保護的範圍之內。
201、202、203、204:步驟

Claims (13)

  1. 一種互動對象的驅動方法,包括:獲取顯示設備周邊的音頻訊號;根據所述音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料;所述第一動作驅動資料用於驅動所述互動對象執行第一指定動作;響應於輸出所述第一驅動資料,監聽所述音頻訊號中的目標對象的聲音;以及根據所述音頻訊號中所述目標對象的聲音的存在狀態,驅動所述互動對象進行回應;其中所述根據所述音頻訊號中的目標對象的聲音存在狀態,驅動所述互動對象進行回應,包括:響應於在第一設定時間內監聽到所述目標對象的聲音,驅動所述互動對象循環執行所述第一指定動作。
  2. 如請求項1所述的互動對象的驅動方法,其中所述根據所述音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料,包括:響應於在所述音頻訊號中檢測到目標資訊,確定與所述目標資訊匹配的所述第一指定動作;以及獲取驅動所述互動對象執行所述第一指定動作的所述第一驅動資料。
  3. 如請求項2所述的互動對象的驅動方法,其中所述第一驅動資料包括第一音頻驅動資料和/或第一動作驅動資料,所述第一音頻驅動資料為執行所述第一指定動作時發出的聲音的資料,其中所述響應於輸出所述第一驅動資料,監聽所述音頻訊號中的所述目標對象的聲音,包括:響應於輸出所述第一動作驅動資料,驅動所述互動對象執行所述第一指定動作,監聽所述音頻訊號中的所述目標對象的聲音;或者響應於根據所述第一音頻驅動資料輸出聲音,監聽所述音頻訊號中的所述目標對象的聲音。
  4. 如請求項1至3任一項所述的互動對象的驅動方法,其中所述根據所述音頻訊號中的目標對象的聲音存在狀態,驅動所述互動對象進行回應,包括:響應於在第一設定時間內未監聽到所述目標對象的聲音,驅動所述互動對象在結束執行所述第一指定動作後返回初始姿態。
  5. 如請求項4所述的互動對象的驅動方法,更包括:在驅動所述互動對象在結束執行所述第一指定動作後返回初始姿態後,根據所述音頻訊號,獲得驅動所述互動對象進行回應的第二驅動資料,所述第二驅動資料包括第二音頻驅動資料和/或第二動作驅動資料;以及根據所述第二驅動資料,驅動所述互動對象進行回應。
  6. 如請求項5所述的互動對象的驅動方法,其中所述根據所述音頻訊號,獲得驅動所述互動對象進行回應的第二驅動資料,包括:將所述音頻訊號發送至伺服器,以使所述伺服器根據所述音頻訊號生成驅動所述互動對象進行回應的所述第二驅動資料;以及接收所述伺服器發送的所述第二驅動資料。
  7. 如請求項6所述的互動對象的驅動方法,更包括:在驅動所述互動對象在結束執行所述第一指定動作後返回初始姿態之後,響應於在第二設定時間內未接收到所述伺服器發送的所述第二驅動資料的情況下,調用預置的第三驅動資料驅動所述互動對象進行回應,所述第三驅動資料包括第三音頻驅動資料和/或第三動作驅動資料。
  8. 如請求項1所述的互動對象的驅動方法,更包括:根據所述音頻訊號,檢測環境噪音的強度;以及根據所述環境噪音的強度,調整所述互動對象在回應過程中所述顯示設備的輸出聲音的音量。
  9. 如請求項1所述的互動對象的驅動方法,其中通過多個聲音檢測模組來獲取多個音頻訊號,所述多個聲音檢測模組分佈在所述顯示設備的不同方位,所述方法更包括:根據所述多個聲音檢測模組分別獲取的多個音頻訊號確定不同方位的環境噪音的強度;以及 根據所述不同方位的所述環境噪音的強度,驅動所述互動對象引導所述目標對象改變進行互動的位置。
  10. 一種互動對象的驅動裝置,包括:第一獲取單元,用於獲取顯示設備周邊的音頻訊號;第二獲取單元,用於根據所述音頻訊號,獲得驅動所述互動對象進行回應的第一驅動資料;所述第一動作驅動資料用於驅動所述互動對象執行第一指定動作;監聽單元,用於響應於輸出所述第一驅動資料,監聽所述音頻訊號中的目標對象的聲音;以及第一驅動單元,用於根據所述音頻訊號中所述目標對象的聲音的存在狀態,驅動所述互動對象進行回應;其中所述根據所述音頻訊號中的目標對象的聲音存在狀態,驅動所述互動對象進行回應,包括:響應於在第一設定時間內監聽到所述目標對象的聲音,驅動所述互動對象循環執行所述第一指定動作。
  11. 一種顯示設備,配置有透明顯示螢幕,所述透明顯示螢幕用於顯示互動對象,所述顯示設備執行如請求項1至9任一項所述的方法,以驅動所述透明顯示螢幕中顯示的互動對象對所述目標對象進行回應。
  12. 一種電子設備,包括儲存器、處理器,所述儲存器用於儲存可在處理器上運行的電腦程式,所述處理器用於在執行所述電腦程式時實現請求項1至9任一項所述的方法。
  13. 一種電腦可讀儲存介質,其上儲存有電腦程式,所述程式被處理器執行時實現請求項1至9任一項所述的方法。
TW109129388A 2019-11-28 2020-08-27 互動對象的驅動方法、裝置、顯示設備、電子設備以及電腦可讀儲存介質 TWI777229B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911195280.5A CN110989900B (zh) 2019-11-28 2019-11-28 交互对象的驱动方法、装置、设备以及存储介质
CN201911195280.5 2019-11-28

Publications (2)

Publication Number Publication Date
TW202121161A TW202121161A (zh) 2021-06-01
TWI777229B true TWI777229B (zh) 2022-09-11

Family

ID=70087872

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109129388A TWI777229B (zh) 2019-11-28 2020-08-27 互動對象的驅動方法、裝置、顯示設備、電子設備以及電腦可讀儲存介質

Country Status (7)

Country Link
US (1) US11769499B2 (zh)
JP (1) JP7267411B2 (zh)
KR (1) KR20210068474A (zh)
CN (1) CN110989900B (zh)
SG (1) SG11202102635TA (zh)
TW (1) TWI777229B (zh)
WO (1) WO2021103609A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110989900B (zh) * 2019-11-28 2021-11-05 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111488090A (zh) * 2020-04-13 2020-08-04 北京市商汤科技开发有限公司 交互方法、装置、交互***、电子设备及存储介质
CN112420078B (zh) * 2020-11-18 2022-12-30 青岛海尔科技有限公司 一种监听方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201439876A (zh) * 2013-04-08 2014-10-16 Oriental Inst Technology 互動式影像顯示系統及影像提供裝置
CN108536790A (zh) * 2018-03-30 2018-09-14 北京市商汤科技开发有限公司 声音特效程序文件包的生成及声音特效生成方法与装置
US20180352354A1 (en) * 2015-11-17 2018-12-06 Thomson Licensing Apparatus and method for integration of environmental event information for multimedia playback adaptive control
TW201915698A (zh) * 2017-09-15 2019-04-16 林勁璋 分散式互動介面系統及其操作方法
CN109710055A (zh) * 2017-12-15 2019-05-03 蔚来汽车有限公司 车载智能交互***和车载交互终端的交互控制方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9089783B2 (en) * 2011-08-18 2015-07-28 Disney Enterprises, Inc. System and method for a toy to interact with a computing device through wireless transmissions
WO2013170383A1 (en) * 2012-05-16 2013-11-21 Xtreme Interactions Inc. System, device and method for processing interlaced multimodal user input
US9177546B2 (en) * 2013-08-28 2015-11-03 Texas Instruments Incorporated Cloud based adaptive learning for distributed sensors
CN106573378A (zh) * 2014-06-12 2017-04-19 普雷-艾公司 通过机器人反馈增强编程教育的***和方法
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
KR20170124836A (ko) * 2016-05-03 2017-11-13 엘지전자 주식회사 전자 장치 및 그 제어 방법
KR20180036032A (ko) * 2016-09-30 2018-04-09 삼성전자주식회사 영상처리장치 및 기록매체
CN108305640A (zh) * 2017-01-13 2018-07-20 深圳大森智能科技有限公司 智能机器人主动服务方法与装置
JP2018185431A (ja) * 2017-04-26 2018-11-22 シャープ株式会社 対話システム、対話装置、応答制御装置、対話装置の制御方法、応答制御装置の制御方法、および、制御プログラム
CN109389005A (zh) * 2017-08-05 2019-02-26 富泰华工业(深圳)有限公司 智能机器人及人机交互方法
CN107704169B (zh) * 2017-09-26 2020-11-17 北京光年无限科技有限公司 虚拟人的状态管理方法和***
CN107894833B (zh) * 2017-10-26 2021-06-15 北京光年无限科技有限公司 基于虚拟人的多模态交互处理方法及***
CN109767774A (zh) * 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
CN107861626A (zh) * 2017-12-06 2018-03-30 北京光年无限科技有限公司 一种虚拟形象被唤醒的方法及***
CN110010125A (zh) * 2017-12-29 2019-07-12 深圳市优必选科技有限公司 一种智能机器人的控制方法、装置、终端设备及介质
EP3778151A4 (en) * 2018-03-30 2021-06-16 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
CN110069608B (zh) 2018-07-24 2022-05-27 百度在线网络技术(北京)有限公司 一种语音交互的方法、装置、设备和计算机存储介质
CN109346076A (zh) * 2018-10-25 2019-02-15 三星电子(中国)研发中心 语音交互、语音处理方法、装置和***
CN110033776A (zh) * 2019-03-08 2019-07-19 佛山市云米电器科技有限公司 一种应用于屏幕设备的虚拟形象交互***与方法
CN109976519B (zh) * 2019-03-14 2022-05-03 浙江工业大学 一种基于增强现实的交互显示装置及其交互显示方法
CN110060678B (zh) * 2019-04-16 2021-09-14 深圳欧博思智能科技有限公司 一种基于智能设备的虚拟角色控制方法及智能设备
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、***、电子设备及存储介质
CN110989900B (zh) * 2019-11-28 2021-11-05 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201439876A (zh) * 2013-04-08 2014-10-16 Oriental Inst Technology 互動式影像顯示系統及影像提供裝置
US20180352354A1 (en) * 2015-11-17 2018-12-06 Thomson Licensing Apparatus and method for integration of environmental event information for multimedia playback adaptive control
TW201915698A (zh) * 2017-09-15 2019-04-16 林勁璋 分散式互動介面系統及其操作方法
CN109710055A (zh) * 2017-12-15 2019-05-03 蔚来汽车有限公司 车载智能交互***和车载交互终端的交互控制方法
CN108536790A (zh) * 2018-03-30 2018-09-14 北京市商汤科技开发有限公司 声音特效程序文件包的生成及声音特效生成方法与装置

Also Published As

Publication number Publication date
US20210201908A1 (en) 2021-07-01
CN110989900A (zh) 2020-04-10
TW202121161A (zh) 2021-06-01
CN110989900B (zh) 2021-11-05
US11769499B2 (en) 2023-09-26
WO2021103609A1 (zh) 2021-06-03
JP7267411B2 (ja) 2023-05-01
SG11202102635TA (en) 2021-07-29
JP2022515307A (ja) 2022-02-18
KR20210068474A (ko) 2021-06-09

Similar Documents

Publication Publication Date Title
TWI777229B (zh) 互動對象的驅動方法、裝置、顯示設備、電子設備以及電腦可讀儲存介質
JP7038210B2 (ja) 対話セッション管理用のシステム及び方法
US11181980B2 (en) Natural human-computer interaction for virtual personal assistant systems
US20210132686A1 (en) Storage medium, augmented reality presentation apparatus, and augmented reality presentation method
CN104765444B (zh) 车载手势交互空间音频***
CN111045511B (zh) 基于手势的操控方法及终端设备
CN102903362A (zh) 集成的本地和基于云的语音识别
WO2021196646A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
KR102651249B1 (ko) 디지털 어시스턴트를 이용한 오디오 정보 제공
JP2009166184A (ja) ガイドロボット
KR20210124313A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
WO2022242380A1 (zh) 用于交互的方法、装置、设备以及存储介质
CN112711331A (zh) 机器人交互方法、装置、存储设备和电子设备
US20220261085A1 (en) Measurement based on point selection
TWI759039B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
WO2018076927A1 (zh) 一种适用于空间***的操作方法及装置、存储介质
US11954404B2 (en) Verbal communication in a virtual world
US20230334794A1 (en) Presenting Communication Data Based on Environment
CN107948857B (zh) 声音处理方法和电子设备
CN114783429A (zh) 人机交互***、服务器、交互终端、交互方法和电子设备

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent