TWI756966B - 視訊裝置與其操作方法 - Google Patents

視訊裝置與其操作方法 Download PDF

Info

Publication number
TWI756966B
TWI756966B TW109142724A TW109142724A TWI756966B TW I756966 B TWI756966 B TW I756966B TW 109142724 A TW109142724 A TW 109142724A TW 109142724 A TW109142724 A TW 109142724A TW I756966 B TWI756966 B TW I756966B
Authority
TW
Taiwan
Prior art keywords
voice
recognition
image
command
generate
Prior art date
Application number
TW109142724A
Other languages
English (en)
Other versions
TW202223878A (zh
Inventor
陳慶平
吳威德
Original Assignee
緯創資通股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 緯創資通股份有限公司 filed Critical 緯創資通股份有限公司
Priority to TW109142724A priority Critical patent/TWI756966B/zh
Priority to CN202011577567.7A priority patent/CN114596851A/zh
Priority to US17/169,114 priority patent/US20220179617A1/en
Application granted granted Critical
Publication of TWI756966B publication Critical patent/TWI756966B/zh
Publication of TW202223878A publication Critical patent/TW202223878A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

一種視訊裝置,包括影像擷取裝置、影像分析裝置、語音擷取裝置、語音辨識裝置與處理裝置。影像擷取裝置擷取一影像。影像分析裝置對影像進行分析,以產生語音辨識啟動指令。語音擷取裝置接收一語音。語音辨識裝置依據語音辨識啟動指令,對語音進行辨識,以產生語音指令。處理裝置依據語音指令,以調整視訊裝置的操作。如此一來,有效地增加使用上的便利性。

Description

視訊裝置與其操作方法
本發明實施例關於一種視訊裝置,特別是關於一種視訊裝置與其操作方法。
一般來說,為了方便在會議室中使用視訊會議產品,使用者會需要使用視訊會議產品的靜音功能或音量調整功能等。然而,上述功能可能需要使用者手動去按壓按鍵來達成,且因為開會時在場人員的位置距離視訊會議產品較遠,就會造成操作上的不方便。
有鑑於此,部分的視訊會議產品會使用語音控制來達成靜音功能或音量調整功能。但是,語音控制是需要使用者呼喊喚醒字彙(wake up word),例如“Alexa”、“Ok ***”等,才能將視訊會議產品的語音控制系統叫醒。接著,語音控制系統把語音資訊往雲端送,以讓雲端去作辨識,且語音控制系統便可依據雲端的辨識結果進行靜音功能或音量調整功能。然而,若在會議中呼喊喚醒字彙,可能會造成開會的困擾。因此,視訊會議產品仍有改善的空間。
本發明實施例提供一種視訊裝置與其操作方法,藉以利用影像辨識來達成語音控制的操作,以有效地增加使用上的便利性。
本發明實施例提供一種視訊裝置,包括影像擷取裝置、影像分析裝置、語音擷取裝置、語音辨識裝置與處理裝置。影像擷取裝置擷取一影像。影像分析裝置耦接影像擷取裝置,接收影像,並對影像進行分析,以產生語音辨識啟動指令。語音擷取裝置接收一語音。語音辨識裝置耦接語音擷取裝置與影像分析裝置,接收語音與語音辨識啟動指令,並依據語音辨識啟動指令,對語音進行辨識,以產生語音指令。處理裝置耦接影像分析裝置與語音辨識裝置,接收語音指令,並依據語音指令,以調整視訊裝置的操作。
本發明實施例另提供一種視訊裝置的操作方法,包括下列步驟。透過語音擷取裝置,擷取一語音。透過影像擷取裝置,擷取一影像。透過影像分析裝置,接收影像,並對影像進行分析,以產生語音辨識啟動指令。透過語音辨識裝置,接收語音與語音辨識啟動指令,並依據語音辨識啟動指令,對語音進行辨識,以產生語音指令。透過處理裝置,接收語音指令,並依據語音指令,以調整視訊裝置的操作。
本發明實施例所揭露之視訊裝置與其操作方法,透過影像分析裝置對影像進行分析,以產生一語音辨識啟動指令,且語音辨識裝置依據語音辨識啟動指令,對語音進行辨識,以產生語音指令,使處理裝置依據語音指令,以調整視訊裝置的操作。如此一來,可以利用影像辨識來達成語音控制的操作,以有效地增加使用上的便利性。
在以下所列舉的各實施例中,將以相同的標號代表相同或相似的元件或組件。
第1圖為依據本發明之一實施例之視訊裝置的示意圖。在本實施例中,視訊裝置100適用於進行視訊的室內空間,例如會議室,但本發明實施例不限於此。請參考第1圖,視訊裝置100包括影像擷取裝置110、影像分析裝置120、語音擷取裝置130、語音辨識裝置140與處理裝置150。
影像擷取裝置110擷取一影像。舉例來說,影像擷取裝置110對室內空間的物件或物體(例如參與視訊的使用者)進行影像擷取操作,以擷取對應的影像。在本實施例中,影像擷取裝置110可以是電荷耦合元件(charge coupled device, CCD)、360度全景攝影機或其他具有影像擷取功能的攝影機,但本發明實施例不限於此。
影像分析裝置120耦接影像擷取裝置110。影像分析裝置120接收影像,並對影像進行分析,以產生語音辨識啟動指令。舉例來說,影像分析裝置120可以影像進行分析,以確定影像中是否包括預設動作,進而產生語音辨識啟動指令。在本實施例中,上述預設動作可以是手勢動作,例如使用者舉手、揮手或特定手勢等,但本發明實施例不限於此。
也就是說,當影像分析裝置120確定影像中包括預設動作時,影像分析裝置120可以產生語音辨識啟動指令。當影像分析裝置120確定影像中未包括預設動作時,影像分析裝置120不會產生語音辨識啟動指令。另外,不論影像分析裝置120確定影像中包括或未包括預設動作,影像分析裝置120也會將接收到的影像傳送至處理單元150。
進一步來說,影像分析裝置120可以包括影像辨識裝置121與辨識指令產生裝置122。影像辨識裝置121耦接影像擷取裝置110。影像辨識裝置121可以接收影像,並辨識影像中是否包括預設動作,產生辨識結果。舉例來說,當辨識出影像中包括預設動作時,因應於影像中包括預設動作,影像辨識裝置121可以產生辨識結果。當辨識出影像中未包括預設動作時,因應於影像中未包括預設動作,影像辨識裝置121不會產生辨識結果。
辨識指令產生裝置122耦接影像辨識裝置121與語音辨識裝置140,接收辨識結果,並依據辨識結果,產生語音辨識啟動指令。舉例來說,當辨識指令產生裝置122接收到辨識結果時,因應於接收到辨識結果,辨識指令產生裝置122產生語音辨識啟動指令。當辨識指令產生裝置122未接收到辨識結果時,因應於未接收到辨識結果,辨識指令產生裝置122不會產生語音辨識啟動指令。
語音擷取裝置130擷取一語音。舉例來說,語音擷取裝置130可以對室內空間的物件或物體所發出的語音(例如使用者說話)進行擷取操作,以擷取對應的語音。在本實施例中,語音擷取裝置130可以是麥克風陣列、指向性麥克風或其他具有語音擷取功能的裝置等,但本發明實施例不限於此。
語音辨識裝置140耦接語音擷取裝置130與影像分析裝置120。在本實施例中,語音辨識裝置140可以是數位信號處理器(digital signal processor, DSP),但本發明實施例不限於此。語音辨識裝置140接收語音與語音辨識啟動指令,並依據語音辨識啟動指令,對語音進行辨識,以產生語音指令。舉例來說,當語音辨識裝置140接收到語音辨識啟動指令時,語音辨識裝置140才開始對語音進行辨識,以確定語音中是否包括調整視訊裝置100之操作的相關詞彙,例如音量調大、音量調小、靜音、系統關機等。
當語音辨識裝置140確定語音中包括調整視訊裝置100之操作的相關詞彙時,語音辨識裝置140會產生具有操作指示的語音指令。當語音辨識裝置140確定語音中未包括調整視訊裝置100之操作的相關詞彙時,語音辨識裝置140不會產生語音指令,且語音辨識裝置140會將語音傳送至處理裝置150。另外,當語音辨識裝置140未接收到語音辨識啟動指令時,語音辨識裝置140不會對語音進行辨識,且語音辨識裝置140會將語音傳送至處理裝置150。
處理裝置150耦接影像分析裝置120與語音辨識裝置140。在本實施例中,處理裝置150可以是中央處理器(central processing unit, CPU)、微處理器(micro-processor)或微控制器(micro control unit, MCU),但本發明實施例不限於此。處理裝置150可以接收語音指令,並依據語音指令,以調整視訊裝置100的操作。也就是說,當處理裝置150接收到語音指令時,處理裝置150可以依據語音指令對應的操作指示,調整視訊裝置100的操作。
舉例來說,當語音指令對應的操作指示為音量調大時,處理裝置150依據上述語音指令,調整視訊裝置100之揚聲器或喇叭的音量調大。當語音指令對應的操作指示為音量調小時,處理裝置150依據上述語音指令,調整視訊裝置100之揚聲器或喇叭的音量調小。
當語音指令對應的操作指示為靜音時,處理裝置150依據上述語音指令,調整視訊裝置100之揚聲器或喇叭的音量調整為靜音。當語音指令對應的操作指示為系統關機時,處理裝置150依據上述語音指令,將視訊裝置100進行關機的操作,可以避免視訊結束後使用者忘了將視訊裝置100關機而造成電力浪費的情況發生。
在一些實施例中,處理裝置150可以更耦接影像擷取裝置110。處理裝置150可以依據語音,產生控制信號至影像擷取裝置110,使影像擷取裝置依據控制信號對焦於語音的來源處。也就是說,處理裝置150可以從語音辨識裝置140接收語音,並對語音進行分析,以確定語音的來源處,亦即說話之使用者的位置。
接著,在處理裝置150確定語音的來源處之後,處理裝置150可以產生控制信號至影像擷取裝置110,使影像擷取裝置110依據控制信號而對焦於(例如數位對焦)語音的來源處,亦即影像擷取裝置110可以對焦於說話之使用者。
如此一來,影像擷取裝置110可以語音的來源處進行影像擷取,以增加影像分析裝置120(影像辨識裝置121)對影像分析(辨識)的準確性,且可以避免當其他使用者做出預設動作時,影像分析裝置120會據以產生語音辨識啟動指令,使得語音辨識裝置140對語音進行辨識以產生語音指令而造成誤動作的情況發生。
在一些實施例中,視訊裝置100更包括傳送裝置160。傳送裝置160可以耦接處理裝置150,且傳送裝置160可以傳送語音與影像。例如,傳送裝置160可以將語音傳送至揚聲器或喇叭,以及將影像傳送至顯示器。另外,傳送裝置160也可以透過有線或無線的方式,將語音與影像傳送至遠端的會議室,以便進行視訊會議。
第2圖為依據本發明之一實施例之視訊裝置的示意圖。在本實施例中,視訊裝置200也適用於進行視訊的室內空間,例如會議室,但本發明實施例不限於此。請參考第2圖,視訊裝置200包括影像擷取裝置110、影像分析裝置120、語音擷取裝置130、語音辨識裝置140、處理裝置150、傳送裝置160與距離感測裝置210。
在本實施例中,影像擷取裝置110、影像分析裝置120、語音擷取裝置130、語音辨識裝置140、處理裝置150、傳送裝置160與第1圖之影像擷取裝置110、影像分析裝置120、語音擷取裝置130、語音辨識裝置140、處理裝置150、傳送裝置160大致相同或相似,可參考第1圖之實施例的說明,故在此不再贅述。另外,本實施例之影像分析裝置120所包括影像辨識裝置121和辨識指令產生裝置122也與第1圖之影像辨識裝置121和辨識指令產生裝置122大致相同或相似,可參考第1圖之實施例的說明,故在此不再贅述。
距離感測裝置210耦接語音辨識裝置140。距離感測裝置210。距離感測器210可以感測一物件的距離,以產生距離感測信號。在本實施例中,距離感測裝置210可以是紅外光影像感測器,但本發明實施例不限於此。另外,距離感測裝置210具有飛時測距(Time of Flight, ToF)的功能。
舉例來說,距離感測器210可以發出紅外光至物件(例如使用者),並接收物件反射紅外光所產生的反射光。接著,距離感測器210可以依據發出紅外光的發出時間以及接收反射光的接收時間,計算出距離感測器210與物件之間的距離,並產生對應的距離感測信號。也就是說,當發出時間與接收時間之間的差較小時,表示距離感測器210與物件之間的距離較短。當發出時間與接收時間之間的差較大時,表示距離感測器210與物件之間的距離較長。
接著,語音辨識裝置140更可進一步耦接影像識別裝置121。語音辨識裝置140可以接收距離感測信號、影像與語音,並依據距離感測信號與影像,對語音進行處理,以確定語音是否為有效音源。在本實施例中,有效音源可以是在一預設距離範圍內且為人聲音源,無效音源可以是在上述預設距離範圍外且不為人聲音源(例如環境音源或其他裝置產生的音源)。
進一步來說,當語音辨識裝置140確定語音為有效音源且語音辨識裝置140接收到語音辨識啟動指令時,因應於語音為有效音源且接收到語音辨識指令,語音辨識裝置140可以依據語音辨識啟動指令,對語音進行辨識,以產生語音指令。另外,當語音辨識裝置140確定語音不為有效音源時,因應於語音不為有效音源,語音辨識裝置140可以濾除語音。如此一來,可以更增加語音辨識的準確性。
藉由上述實施例的說明,本發明另提出一種視訊裝置的操作方法。第3圖為依據本發明之一實施例之視訊裝置的操作方法的流程圖。在步驟S302中,透過語音擷取裝置,擷取一語音。在步驟S304中,透過影像擷取裝置,擷取一影像。
在步驟S306中,透過影像分析裝置,接收影像,並對影像進行分析,以產生語音辨識啟動指令。在步驟S308中,透過語音辨識裝置,接收語音與語音辨識啟動指令,並依據語音辨識啟動指令,對語音進行辨識,以產生語音指令。在步驟S310中,透過處理裝置,接收語音指令,並依據語音指令,以調整視訊裝置的操作。在本實施例中,預設動作包括手勢動作。
第4圖為第3圖之步驟S304的詳細流程圖。在本實施例中,影像分析裝置包括影像辨識裝置與辨識指令產生裝置。在步驟S402中,透過影像辨識裝置,接收影像,並辨識影像中是否包括預設動作,以產生辨識結果。在步驟S404中,透過辨識指令產生裝置,接收辨識結果,並依據辨識結果,產生語音辨識啟動指令。
第5圖為第4圖之步驟S402及S404的詳細流程圖。在步驟S502中,因應於影像中包括預設動作,影像辨識裝置產生辨識結果。在步驟S504中,因應於影像中未包括預設動作,影像辨識裝置不會產生辨識結果。在步驟S506中,因應於接收到辨識結果,辨識指令產生裝置產生語音辨識啟動指令。在步驟S508中,因應於未接收到辨識結果,辨識指令產生裝置不會產生語音辨識啟動指令。
第6圖為依據本發明之另一實施例之視訊裝置的操作方法的流程圖。在本實施例中,步驟S302~S310與第3圖之步驟S302~S310相同或相似,可參考第3圖之實施例的說明,故在此不再贅述。
在步驟S602中,處理裝置依據語音辨識裝置提供的語音,產生控制信號至影像擷取裝置,使影像擷取裝置依據控制信號對焦於語音的來源處。在步驟S604中,透過傳送裝置,傳送語音與影像。
第7圖為依據本發明之另一實施例之視訊裝置的操作方法的流程圖。在本實施例中,步驟S302~S306、S310與第3圖之步驟S302~S306、S310相同或相似,可參考第3圖之實施例的說明,故在此不再贅述。
在步驟S702中,透過距離感測器,感測物件的距離,以產生距離感測信號。在步驟S704中,透過語音辨識裝置接收距離感測信號與影像,並依據距離信號、影像,對語音進行處理,以確定語音是否為有效音源。
在步驟S706中,因應於語音為有效音源且接收到語音辨識指令,語音辨識裝置依據語音辨識啟動指令,對語音進行辨識,以產生語音指令。在步驟S708中,因應於語音不為有效音源,語音辨識裝置濾除語音。
在一實施例中,影像擷取裝置、影像分析裝置、語音擷取裝置、語音辨識裝置與處理裝置可以在硬體、由處理器執行的代碼(例如,軟體或韌體)、或其任何組合中實現。若在由處理器執行的代碼中實現,則上述裝置或其子部件的功能可以由設計成執行本發明中描述的功能的通用處理器、DSP、特殊應用積體電路(ASIC)、FPGA或其他可程式設計邏輯設備、個別閘門或電晶體邏輯、個別的硬體部件、或其任何組合來執行。
綜上所述,本發明實施例所揭露之視訊裝置與其操作方法,透過影像分析裝置對影像進行分析,以產生一語音辨識啟動指令,且語音辨識裝置依據語音辨識啟動指令,對語音進行辨識,以產生語音指令,使處理裝置依據語音指令,以調整視訊裝置的操作。如此一來,可以利用影像辨識來達成語音控制的操作,以有效地增加使用上的便利性。
另外,處理裝置更可以依據語音辨識裝置提供的語音,產生控制信號至該影像擷取裝置,使影像擷取裝置依據控制信號對焦於語音的來源處。如此,可以增加影像分析裝置對影像分析的準確性,且可以避免當其他使用者做出預設動作時,影像分析裝置會據以產生語音辨識啟動指令,使得語音辨識裝置對語音進行辨識而產生語音指令的情況發生。此外,本發明實施例還可透過距離感測器感測一物件的距離,以產生距離感測信號,且語音辨識裝置更可進一步接收距離感測信號、影像與語音,並依據距離感測信號與影像,對語音進行處理,以確定語音是否為有效音源。如此一來,可以更增加語音辨識的準確性。
本發明雖以實施例揭露如上,然其並非用以限定本發明的範圍,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可做些許的更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100,200:視訊裝置 110:影像擷取裝置 120:影像分析裝置 121:影像識別裝置 122:辨識指令產生裝置 130:語音擷取裝置 140:語音辨識裝置 150:處理裝置 210:距離感測裝置 S302~S310,S402,S404,S502~S506,S602,S702~S708:步驟
第1圖為依據本發明之一實施例之視訊裝置的示意圖。 第2圖為依據本發明之另一實施例之視訊裝置的示意圖。 第3圖為依據本發明之一實施例之視訊裝置的操作方法的流程圖。 第4圖為第3圖之步驟S304的詳細流程圖。 第5圖為第4圖之步驟S402及S404的詳細流程圖。 第6圖為依據本發明之另一實施例之視訊裝置的操作方法的流程圖。 第7圖為依據本發明之另一實施例之視訊裝置的操作方法的流程圖。
100:視訊裝置
110:影像擷取裝置
120:影像分析裝置
121:影像辨識裝置
122:辨識指令產生裝置
130:語音擷取裝置
140:語音辨識裝置
150:處理裝置
160:傳送裝置

Claims (18)

  1. 一種視訊裝置,包括:一影像擷取裝置,擷取一影像;一影像分析裝置,耦接該影像擷取裝置,接收該影像,並辨識該影像中是否包括一手勢動作,以產生一語音辨識啟動指令,其中該語音辨識啟動指令用以啟動語音辨識;一語音擷取裝置,擷取一語音;一語音辨識裝置,耦接該語音擷取裝置與該影像分析裝置,接收該語音與該語音辨識啟動指令,並依據該語音辨識啟動指令,對該語音進行辨識,以產生一語音指令;以及一處理裝置,耦接該影像分析裝置與該語音辨識裝置,接收該語音指令,並依據該語音指令,以調整該視訊裝置的一操作。
  2. 如請求項1之視訊裝置,其中該影像分析裝置包括:一影像辨識裝置,耦接該影像擷取裝置,接收該影像,並辨識該影像中是否包括該手勢動作,產生一辨識結果;以及一辨識指令產生裝置,耦接該影像辨識裝置與該語音辨識裝置,接收該辨識結果,並依據該辨識結果產生該語音辨識啟動指令。
  3. 如請求項2之視訊裝置,其中因應於該影像中包括該手勢動作,該影像辨識裝置產生該辨識結果,因應於該影像中未包括該手勢動作,該影像辨識裝置不會產生該辨識結果。
  4. 如請求項3之視訊裝置,其中因應於接收到該辨識結果,該辨識指令產生裝置產生該語音辨識啟動指令,因應於未接收到該辨識結果,該辨識指令產生裝置不會產生該語音辨識啟動指 令。
  5. 如請求項1之視訊裝置,其中該處理裝置更耦接該影像擷取裝置,該處理裝置更依據該語音辨識裝置提供的該語音,產生一控制信號至該影像擷取裝置,使該影像擷取裝置依據該控制信號對焦於該語音的來源處。
  6. 如請求項1之視訊裝置,更包括:一距離感測器,耦接該語音辨識裝置,感測一物件的距離,以產生一距離感測信號;其中,該語音辨識裝置更接收該距離感測信號與該影像,並依據該距離信號、該影像,對該語音進行處理,以確定該語音是否為有效音源。
  7. 如請求項6之視訊裝置,其中因應於該語音為有效音源且接收到該語音辨識指令,該語音辨識裝置依據該語音辨識啟動指令,對該語音進行辨識,以產生該語音指令。
  8. 如請求項7之視訊裝置,其中因應於該語音不為有效音源,該語音辨識裝置濾除該語音。
  9. 如請求項1之視訊裝置,更包括:一傳送裝置,耦接該處理裝置,傳送該語音與該影像。
  10. 一種視訊裝置的操作方法,包括:透過一語音擷取裝置,擷取一語音;透過一影像擷取裝置,擷取一影像;透過一影像分析裝置,接收該影像,並辨識該影像中是否包括一手勢動作,以產生一語音辨識啟動指令,其中該語音辨識啟動指令用以啟動語音辨識; 透過一語音辨識裝置,接收該語音與該語音辨識啟動指令,並依據該語音辨識啟動指令,對該語音進行辨識,以產生一語音指令;以及透過一處理裝置,接收該語音指令,並依據該語音指令,以調整該視訊裝置的一操作。
  11. 如請求項10之視訊裝置的操作方法,其中該影像分析裝置包括一影像辨識裝置與一辨識指令產生裝置,透過該影像分析裝置,接收該影像,並對該影像進行分析,以產生該語音辨識啟動指令的步驟包括:透過該影像辨識裝置,接收該影像,並辨識該影像中是否包括該手勢動作,以產生一辨識結果;以及透過該辨識指令產生裝置,接收該辨識結果,並依據該辨識結果產生該語音辨識啟動指令。
  12. 如請求項11之視訊裝置的操作方法,其中透過該影像辨識裝置,接收該影像,並辨識該影像中是否包括該手勢動作,以產生該辨識結果的步驟包括:因應於該影像中包括該手勢動作,該影像辨識裝置產生該辨識結果;以及因應於該影像中未包括該手勢動作,該影像辨識裝置不會產生該辨識結果。
  13. 如請求項12之視訊裝置的操作方法,其中透過該辨識指令產生裝置,接收該辨識結果,並依據該辨識結果,產生該語音辨識啟動指令的步驟包括:因應於接收到該辨識結果,該辨識指令產生裝置產生該語音辨 識啟動指令;以及因應於未接收到該辨識結果,該辨識指令產生裝置不會產生該語音辨識啟動指令。
  14. 如請求項10之視訊裝置的操作方法,更包括:該處理裝置依據該語音辨識裝置提供的該語音,產生一控制信號至該影像擷取裝置,使該影像擷取裝置依據該控制信號對焦於該語音的來源處。
  15. 如請求項10之視訊裝置的操作方法,更包括:透過一距離感測器,感測一物件的距離,以產生一距離感測信號;以及透過該語音辨識裝置接收該距離感測信號與該影像,並依據該距離信號、該影像,對該語音進行處理,以確定該語音是否為有效音源。
  16. 如請求項15之視訊裝置的操作方法,其中透過該語音辨識裝置,接收該語音與該語音辨識啟動指令,並依據該語音辨識啟動指令,對該語音進行辨識,以產生該語音指令的步驟包括:因應於該語音為有效音源且接收到該語音辨識指令,該語音辨識裝置依據該語音辨識啟動指令,對該語音進行辨識,以產生該語音指令。
  17. 如請求項16之視訊裝置的操作方法,更包括:因應於該語音不為有效音源,該語音辨識裝置濾除該語音。
  18. 如請求項10之視訊裝置的操作方法,更包括:透過一傳送裝置,傳送該語音與該影像。
TW109142724A 2020-12-04 2020-12-04 視訊裝置與其操作方法 TWI756966B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW109142724A TWI756966B (zh) 2020-12-04 2020-12-04 視訊裝置與其操作方法
CN202011577567.7A CN114596851A (zh) 2020-12-04 2020-12-28 视频装置与其操作方法
US17/169,114 US20220179617A1 (en) 2020-12-04 2021-02-05 Video device and operation method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109142724A TWI756966B (zh) 2020-12-04 2020-12-04 視訊裝置與其操作方法

Publications (2)

Publication Number Publication Date
TWI756966B true TWI756966B (zh) 2022-03-01
TW202223878A TW202223878A (zh) 2022-06-16

Family

ID=81710916

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109142724A TWI756966B (zh) 2020-12-04 2020-12-04 視訊裝置與其操作方法

Country Status (3)

Country Link
US (1) US20220179617A1 (zh)
CN (1) CN114596851A (zh)
TW (1) TWI756966B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103096017A (zh) * 2011-10-31 2013-05-08 鸿富锦精密工业(深圳)有限公司 计算机操控权控制方法及***
TWI440573B (zh) * 2011-06-23 2014-06-11 Altek Corp 多模組辨識系統及其控制方法
TWM584527U (zh) * 2019-06-04 2019-10-01 造隆股份有限公司 具語音辨識之無線控制系統
TWM586381U (zh) * 2019-07-17 2019-11-11 臺灣土地銀行股份有限公司 具語音及臉部辨識之行動銀行系統
US20200243071A1 (en) * 2017-04-21 2020-07-30 Lg Electronics Inc. Artificial intelligence voice recognition apparatus and voice recognition system

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
US20120226498A1 (en) * 2011-03-02 2012-09-06 Microsoft Corporation Motion-based voice activity detection
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US20120304067A1 (en) * 2011-05-25 2012-11-29 Samsung Electronics Co., Ltd. Apparatus and method for controlling user interface using sound recognition
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
EP3451335B1 (en) * 2016-04-29 2023-06-14 Vtouch Co., Ltd. Optimum control method based on multi-mode command of operation-voice, and electronic device to which same is applied
WO2018013564A1 (en) * 2016-07-12 2018-01-18 Bose Corporation Combining gesture and voice user interfaces
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US20180070008A1 (en) * 2016-09-08 2018-03-08 Qualcomm Incorporated Techniques for using lip movement detection for speaker recognition in multi-person video calls
DE102016221564A1 (de) * 2016-10-13 2018-04-19 Bayerische Motoren Werke Aktiengesellschaft Multimodaler Dialog in einem Kraftfahrzeug
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
JP6705410B2 (ja) * 2017-03-27 2020-06-03 カシオ計算機株式会社 音声認識装置、音声認識方法、プログラム及びロボット
US10685648B2 (en) * 2017-11-08 2020-06-16 International Business Machines Corporation Sensor fusion model to enhance machine conversational awareness
US10402149B2 (en) * 2017-12-07 2019-09-03 Motorola Mobility Llc Electronic devices and methods for selectively recording input from authorized users
KR20240067114A (ko) * 2018-05-04 2024-05-16 구글 엘엘씨 검출된 제스처 및 시선에 기초하여 자동화된 어시스턴트 기능 호출
US10861457B2 (en) * 2018-10-26 2020-12-08 Ford Global Technologies, Llc Vehicle digital assistant authentication
TWI699120B (zh) * 2019-04-30 2020-07-11 陳筱涵 會議記錄系統與會議記錄方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI440573B (zh) * 2011-06-23 2014-06-11 Altek Corp 多模組辨識系統及其控制方法
CN103096017A (zh) * 2011-10-31 2013-05-08 鸿富锦精密工业(深圳)有限公司 计算机操控权控制方法及***
US20200243071A1 (en) * 2017-04-21 2020-07-30 Lg Electronics Inc. Artificial intelligence voice recognition apparatus and voice recognition system
TWM584527U (zh) * 2019-06-04 2019-10-01 造隆股份有限公司 具語音辨識之無線控制系統
TWM586381U (zh) * 2019-07-17 2019-11-11 臺灣土地銀行股份有限公司 具語音及臉部辨識之行動銀行系統

Also Published As

Publication number Publication date
CN114596851A (zh) 2022-06-07
US20220179617A1 (en) 2022-06-09
TW202223878A (zh) 2022-06-16

Similar Documents

Publication Publication Date Title
US20210142072A1 (en) Monitoring system and monitoring method
US20190019513A1 (en) Information processing device, information processing method, and program
WO2017020408A1 (zh) 视频录制方法和装置
US20150279369A1 (en) Display apparatus and user interaction method thereof
WO2017071093A1 (zh) 电子设备控制方法及装置
JP2006259931A (ja) 顔認証装置およびその制御方法、顔認証装置を備えた電子機器、顔認証装置制御プログラム、ならびに該プログラムを記録した記録媒体
KR20200122432A (ko) 지문 인식 장치 및 방법
JP2000347692A (ja) 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2007121579A (ja) 操作装置
TW201913359A (zh) 具有智慧語音服務功能之電子裝置及調整輸出聲音之方法
TW201743241A (zh) 可攜式電子裝置及其運作方法
US11405584B1 (en) Smart audio muting in a videoconferencing system
JP2017022664A (ja) モニタリングシステム及びモニタリング方法
JP2015175983A (ja) 音声認識装置、音声認識方法及びプログラム
JP6598033B2 (ja) 画像形成装置
TWI756966B (zh) 視訊裝置與其操作方法
JP2011087218A (ja) 拡声システム
KR20200043128A (ko) 전자장치 및 그 제어방법
TW201725897A (zh) 拍照系統及方法
JP6586617B2 (ja) 音声認識装置、方法、及びコンピュータプログラム
US9613509B2 (en) Mobile electronic device and method for crime prevention
JP2020178150A (ja) 音声処理装置及び音声処理方法
JP6633139B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN111667822B (zh) 语音处理装置、会议***以及语音处理方法
WO2024135001A1 (ja) 遠隔制御装置及び遠隔制御方法