TWI756966B

TWI756966B - 視訊裝置與其操作方法

Info

Publication number: TWI756966B
Application number: TW109142724A
Authority: TW
Inventors: 陳慶平; 吳威德
Original assignee: 緯創資通股份有限公司
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2022-03-01
Also published as: CN114596851A; US20220179617A1; TW202223878A

Abstract

一種視訊裝置，包括影像擷取裝置、影像分析裝置、語音擷取裝置、語音辨識裝置與處理裝置。影像擷取裝置擷取一影像。影像分析裝置對影像進行分析，以產生語音辨識啟動指令。語音擷取裝置接收一語音。語音辨識裝置依據語音辨識啟動指令，對語音進行辨識，以產生語音指令。處理裝置依據語音指令，以調整視訊裝置的操作。如此一來，有效地增加使用上的便利性。

Description

視訊裝置與其操作方法

本發明實施例關於一種視訊裝置，特別是關於一種視訊裝置與其操作方法。

一般來說，為了方便在會議室中使用視訊會議產品，使用者會需要使用視訊會議產品的靜音功能或音量調整功能等。然而，上述功能可能需要使用者手動去按壓按鍵來達成，且因為開會時在場人員的位置距離視訊會議產品較遠，就會造成操作上的不方便。

有鑑於此，部分的視訊會議產品會使用語音控制來達成靜音功能或音量調整功能。但是，語音控制是需要使用者呼喊喚醒字彙(wake up word)，例如“Alexa”、“Ok ***”等，才能將視訊會議產品的語音控制系統叫醒。接著，語音控制系統把語音資訊往雲端送，以讓雲端去作辨識，且語音控制系統便可依據雲端的辨識結果進行靜音功能或音量調整功能。然而，若在會議中呼喊喚醒字彙，可能會造成開會的困擾。因此，視訊會議產品仍有改善的空間。

本發明實施例提供一種視訊裝置與其操作方法，藉以利用影像辨識來達成語音控制的操作，以有效地增加使用上的便利性。

本發明實施例提供一種視訊裝置，包括影像擷取裝置、影像分析裝置、語音擷取裝置、語音辨識裝置與處理裝置。影像擷取裝置擷取一影像。影像分析裝置耦接影像擷取裝置，接收影像，並對影像進行分析，以產生語音辨識啟動指令。語音擷取裝置接收一語音。語音辨識裝置耦接語音擷取裝置與影像分析裝置，接收語音與語音辨識啟動指令，並依據語音辨識啟動指令，對語音進行辨識，以產生語音指令。處理裝置耦接影像分析裝置與語音辨識裝置，接收語音指令，並依據語音指令，以調整視訊裝置的操作。

本發明實施例另提供一種視訊裝置的操作方法，包括下列步驟。透過語音擷取裝置，擷取一語音。透過影像擷取裝置，擷取一影像。透過影像分析裝置，接收影像，並對影像進行分析，以產生語音辨識啟動指令。透過語音辨識裝置，接收語音與語音辨識啟動指令，並依據語音辨識啟動指令，對語音進行辨識，以產生語音指令。透過處理裝置，接收語音指令，並依據語音指令，以調整視訊裝置的操作。

本發明實施例所揭露之視訊裝置與其操作方法，透過影像分析裝置對影像進行分析，以產生一語音辨識啟動指令，且語音辨識裝置依據語音辨識啟動指令，對語音進行辨識，以產生語音指令，使處理裝置依據語音指令，以調整視訊裝置的操作。如此一來，可以利用影像辨識來達成語音控制的操作，以有效地增加使用上的便利性。

在以下所列舉的各實施例中，將以相同的標號代表相同或相似的元件或組件。

第1圖為依據本發明之一實施例之視訊裝置的示意圖。在本實施例中，視訊裝置100適用於進行視訊的室內空間，例如會議室，但本發明實施例不限於此。請參考第1圖，視訊裝置100包括影像擷取裝置110、影像分析裝置120、語音擷取裝置130、語音辨識裝置140與處理裝置150。

影像擷取裝置110擷取一影像。舉例來說，影像擷取裝置110對室內空間的物件或物體(例如參與視訊的使用者)進行影像擷取操作，以擷取對應的影像。在本實施例中，影像擷取裝置110可以是電荷耦合元件(charge coupled device, CCD)、360度全景攝影機或其他具有影像擷取功能的攝影機，但本發明實施例不限於此。

影像分析裝置120耦接影像擷取裝置110。影像分析裝置120接收影像，並對影像進行分析，以產生語音辨識啟動指令。舉例來說，影像分析裝置120可以影像進行分析，以確定影像中是否包括預設動作，進而產生語音辨識啟動指令。在本實施例中，上述預設動作可以是手勢動作，例如使用者舉手、揮手或特定手勢等，但本發明實施例不限於此。

也就是說，當影像分析裝置120確定影像中包括預設動作時，影像分析裝置120可以產生語音辨識啟動指令。當影像分析裝置120確定影像中未包括預設動作時，影像分析裝置120不會產生語音辨識啟動指令。另外，不論影像分析裝置120確定影像中包括或未包括預設動作，影像分析裝置120也會將接收到的影像傳送至處理單元150。

進一步來說，影像分析裝置120可以包括影像辨識裝置121與辨識指令產生裝置122。影像辨識裝置121耦接影像擷取裝置110。影像辨識裝置121可以接收影像，並辨識影像中是否包括預設動作，產生辨識結果。舉例來說，當辨識出影像中包括預設動作時，因應於影像中包括預設動作，影像辨識裝置121可以產生辨識結果。當辨識出影像中未包括預設動作時，因應於影像中未包括預設動作，影像辨識裝置121不會產生辨識結果。

辨識指令產生裝置122耦接影像辨識裝置121與語音辨識裝置140，接收辨識結果，並依據辨識結果，產生語音辨識啟動指令。舉例來說，當辨識指令產生裝置122接收到辨識結果時，因應於接收到辨識結果，辨識指令產生裝置122產生語音辨識啟動指令。當辨識指令產生裝置122未接收到辨識結果時，因應於未接收到辨識結果，辨識指令產生裝置122不會產生語音辨識啟動指令。

語音擷取裝置130擷取一語音。舉例來說，語音擷取裝置130可以對室內空間的物件或物體所發出的語音(例如使用者說話)進行擷取操作，以擷取對應的語音。在本實施例中，語音擷取裝置130可以是麥克風陣列、指向性麥克風或其他具有語音擷取功能的裝置等，但本發明實施例不限於此。

語音辨識裝置140耦接語音擷取裝置130與影像分析裝置120。在本實施例中，語音辨識裝置140可以是數位信號處理器(digital signal processor, DSP)，但本發明實施例不限於此。語音辨識裝置140接收語音與語音辨識啟動指令，並依據語音辨識啟動指令，對語音進行辨識，以產生語音指令。舉例來說，當語音辨識裝置140接收到語音辨識啟動指令時，語音辨識裝置140才開始對語音進行辨識，以確定語音中是否包括調整視訊裝置100之操作的相關詞彙，例如音量調大、音量調小、靜音、系統關機等。

當語音辨識裝置140確定語音中包括調整視訊裝置100之操作的相關詞彙時，語音辨識裝置140會產生具有操作指示的語音指令。當語音辨識裝置140確定語音中未包括調整視訊裝置100之操作的相關詞彙時，語音辨識裝置140不會產生語音指令，且語音辨識裝置140會將語音傳送至處理裝置150。另外，當語音辨識裝置140未接收到語音辨識啟動指令時，語音辨識裝置140不會對語音進行辨識，且語音辨識裝置140會將語音傳送至處理裝置150。

處理裝置150耦接影像分析裝置120與語音辨識裝置140。在本實施例中，處理裝置150可以是中央處理器(central processing unit, CPU)、微處理器(micro-processor)或微控制器(micro control unit, MCU)，但本發明實施例不限於此。處理裝置150可以接收語音指令，並依據語音指令，以調整視訊裝置100的操作。也就是說，當處理裝置150接收到語音指令時，處理裝置150可以依據語音指令對應的操作指示，調整視訊裝置100的操作。

舉例來說，當語音指令對應的操作指示為音量調大時，處理裝置150依據上述語音指令，調整視訊裝置100之揚聲器或喇叭的音量調大。當語音指令對應的操作指示為音量調小時，處理裝置150依據上述語音指令，調整視訊裝置100之揚聲器或喇叭的音量調小。

當語音指令對應的操作指示為靜音時，處理裝置150依據上述語音指令，調整視訊裝置100之揚聲器或喇叭的音量調整為靜音。當語音指令對應的操作指示為系統關機時，處理裝置150依據上述語音指令，將視訊裝置100進行關機的操作，可以避免視訊結束後使用者忘了將視訊裝置100關機而造成電力浪費的情況發生。

在一些實施例中，處理裝置150可以更耦接影像擷取裝置110。處理裝置150可以依據語音，產生控制信號至影像擷取裝置110，使影像擷取裝置依據控制信號對焦於語音的來源處。也就是說，處理裝置150可以從語音辨識裝置140接收語音，並對語音進行分析，以確定語音的來源處，亦即說話之使用者的位置。

接著，在處理裝置150確定語音的來源處之後，處理裝置150可以產生控制信號至影像擷取裝置110，使影像擷取裝置110依據控制信號而對焦於(例如數位對焦)語音的來源處，亦即影像擷取裝置110可以對焦於說話之使用者。

如此一來，影像擷取裝置110可以語音的來源處進行影像擷取，以增加影像分析裝置120(影像辨識裝置121)對影像分析(辨識)的準確性，且可以避免當其他使用者做出預設動作時，影像分析裝置120會據以產生語音辨識啟動指令，使得語音辨識裝置140對語音進行辨識以產生語音指令而造成誤動作的情況發生。

在一些實施例中，視訊裝置100更包括傳送裝置160。傳送裝置160可以耦接處理裝置150，且傳送裝置160可以傳送語音與影像。例如，傳送裝置160可以將語音傳送至揚聲器或喇叭，以及將影像傳送至顯示器。另外，傳送裝置160也可以透過有線或無線的方式，將語音與影像傳送至遠端的會議室，以便進行視訊會議。

第2圖為依據本發明之一實施例之視訊裝置的示意圖。在本實施例中，視訊裝置200也適用於進行視訊的室內空間，例如會議室，但本發明實施例不限於此。請參考第2圖，視訊裝置200包括影像擷取裝置110、影像分析裝置120、語音擷取裝置130、語音辨識裝置140、處理裝置150、傳送裝置160與距離感測裝置210。

在本實施例中，影像擷取裝置110、影像分析裝置120、語音擷取裝置130、語音辨識裝置140、處理裝置150、傳送裝置160與第1圖之影像擷取裝置110、影像分析裝置120、語音擷取裝置130、語音辨識裝置140、處理裝置150、傳送裝置160大致相同或相似，可參考第1圖之實施例的說明，故在此不再贅述。另外，本實施例之影像分析裝置120所包括影像辨識裝置121和辨識指令產生裝置122也與第1圖之影像辨識裝置121和辨識指令產生裝置122大致相同或相似，可參考第1圖之實施例的說明，故在此不再贅述。

距離感測裝置210耦接語音辨識裝置140。距離感測裝置210。距離感測器210可以感測一物件的距離，以產生距離感測信號。在本實施例中，距離感測裝置210可以是紅外光影像感測器，但本發明實施例不限於此。另外，距離感測裝置210具有飛時測距(Time of Flight, ToF)的功能。

舉例來說，距離感測器210可以發出紅外光至物件(例如使用者)，並接收物件反射紅外光所產生的反射光。接著，距離感測器210可以依據發出紅外光的發出時間以及接收反射光的接收時間，計算出距離感測器210與物件之間的距離，並產生對應的距離感測信號。也就是說，當發出時間與接收時間之間的差較小時，表示距離感測器210與物件之間的距離較短。當發出時間與接收時間之間的差較大時，表示距離感測器210與物件之間的距離較長。

接著，語音辨識裝置140更可進一步耦接影像識別裝置121。語音辨識裝置140可以接收距離感測信號、影像與語音，並依據距離感測信號與影像，對語音進行處理，以確定語音是否為有效音源。在本實施例中，有效音源可以是在一預設距離範圍內且為人聲音源，無效音源可以是在上述預設距離範圍外且不為人聲音源(例如環境音源或其他裝置產生的音源)。

進一步來說，當語音辨識裝置140確定語音為有效音源且語音辨識裝置140接收到語音辨識啟動指令時，因應於語音為有效音源且接收到語音辨識指令，語音辨識裝置140可以依據語音辨識啟動指令，對語音進行辨識，以產生語音指令。另外，當語音辨識裝置140確定語音不為有效音源時，因應於語音不為有效音源，語音辨識裝置140可以濾除語音。如此一來，可以更增加語音辨識的準確性。

藉由上述實施例的說明，本發明另提出一種視訊裝置的操作方法。第3圖為依據本發明之一實施例之視訊裝置的操作方法的流程圖。在步驟S302中，透過語音擷取裝置，擷取一語音。在步驟S304中，透過影像擷取裝置，擷取一影像。

在步驟S306中，透過影像分析裝置，接收影像，並對影像進行分析，以產生語音辨識啟動指令。在步驟S308中，透過語音辨識裝置，接收語音與語音辨識啟動指令，並依據語音辨識啟動指令，對語音進行辨識，以產生語音指令。在步驟S310中，透過處理裝置，接收語音指令，並依據語音指令，以調整視訊裝置的操作。在本實施例中，預設動作包括手勢動作。

第4圖為第3圖之步驟S304的詳細流程圖。在本實施例中，影像分析裝置包括影像辨識裝置與辨識指令產生裝置。在步驟S402中，透過影像辨識裝置，接收影像，並辨識影像中是否包括預設動作，以產生辨識結果。在步驟S404中，透過辨識指令產生裝置，接收辨識結果，並依據辨識結果，產生語音辨識啟動指令。

第5圖為第4圖之步驟S402及S404的詳細流程圖。在步驟S502中，因應於影像中包括預設動作，影像辨識裝置產生辨識結果。在步驟S504中，因應於影像中未包括預設動作，影像辨識裝置不會產生辨識結果。在步驟S506中，因應於接收到辨識結果，辨識指令產生裝置產生語音辨識啟動指令。在步驟S508中，因應於未接收到辨識結果，辨識指令產生裝置不會產生語音辨識啟動指令。

第6圖為依據本發明之另一實施例之視訊裝置的操作方法的流程圖。在本實施例中，步驟S302~S310與第3圖之步驟S302~S310相同或相似，可參考第3圖之實施例的說明，故在此不再贅述。

在步驟S602中，處理裝置依據語音辨識裝置提供的語音，產生控制信號至影像擷取裝置，使影像擷取裝置依據控制信號對焦於語音的來源處。在步驟S604中，透過傳送裝置，傳送語音與影像。

第7圖為依據本發明之另一實施例之視訊裝置的操作方法的流程圖。在本實施例中，步驟S302~S306、S310與第3圖之步驟S302~S306、S310相同或相似，可參考第3圖之實施例的說明，故在此不再贅述。

在步驟S702中，透過距離感測器，感測物件的距離，以產生距離感測信號。在步驟S704中，透過語音辨識裝置接收距離感測信號與影像，並依據距離信號、影像，對語音進行處理，以確定語音是否為有效音源。

在步驟S706中，因應於語音為有效音源且接收到語音辨識指令，語音辨識裝置依據語音辨識啟動指令，對語音進行辨識，以產生語音指令。在步驟S708中，因應於語音不為有效音源，語音辨識裝置濾除語音。

在一實施例中，影像擷取裝置、影像分析裝置、語音擷取裝置、語音辨識裝置與處理裝置可以在硬體、由處理器執行的代碼(例如，軟體或韌體)、或其任何組合中實現。若在由處理器執行的代碼中實現，則上述裝置或其子部件的功能可以由設計成執行本發明中描述的功能的通用處理器、DSP、特殊應用積體電路(ASIC)、FPGA或其他可程式設計邏輯設備、個別閘門或電晶體邏輯、個別的硬體部件、或其任何組合來執行。

綜上所述，本發明實施例所揭露之視訊裝置與其操作方法，透過影像分析裝置對影像進行分析，以產生一語音辨識啟動指令，且語音辨識裝置依據語音辨識啟動指令，對語音進行辨識，以產生語音指令，使處理裝置依據語音指令，以調整視訊裝置的操作。如此一來，可以利用影像辨識來達成語音控制的操作，以有效地增加使用上的便利性。

另外，處理裝置更可以依據語音辨識裝置提供的語音，產生控制信號至該影像擷取裝置，使影像擷取裝置依據控制信號對焦於語音的來源處。如此，可以增加影像分析裝置對影像分析的準確性，且可以避免當其他使用者做出預設動作時，影像分析裝置會據以產生語音辨識啟動指令，使得語音辨識裝置對語音進行辨識而產生語音指令的情況發生。此外，本發明實施例還可透過距離感測器感測一物件的距離，以產生距離感測信號，且語音辨識裝置更可進一步接收距離感測信號、影像與語音，並依據距離感測信號與影像，對語音進行處理，以確定語音是否為有效音源。如此一來，可以更增加語音辨識的準確性。

本發明雖以實施例揭露如上，然其並非用以限定本發明的範圍，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可做些許的更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100,200:視訊裝置 110:影像擷取裝置 120:影像分析裝置 121:影像識別裝置 122:辨識指令產生裝置 130:語音擷取裝置 140:語音辨識裝置 150:處理裝置 210:距離感測裝置 S302~S310,S402,S404,S502~S506,S602,S702~S708:步驟

第1圖為依據本發明之一實施例之視訊裝置的示意圖。第2圖為依據本發明之另一實施例之視訊裝置的示意圖。第3圖為依據本發明之一實施例之視訊裝置的操作方法的流程圖。第4圖為第3圖之步驟S304的詳細流程圖。第5圖為第4圖之步驟S402及S404的詳細流程圖。第6圖為依據本發明之另一實施例之視訊裝置的操作方法的流程圖。第7圖為依據本發明之另一實施例之視訊裝置的操作方法的流程圖。

100:視訊裝置

110:影像擷取裝置

120:影像分析裝置

121:影像辨識裝置

122:辨識指令產生裝置

130:語音擷取裝置

140:語音辨識裝置

150:處理裝置

160:傳送裝置

Claims

一種視訊裝置，包括：一影像擷取裝置，擷取一影像；一影像分析裝置，耦接該影像擷取裝置，接收該影像，並辨識該影像中是否包括一手勢動作，以產生一語音辨識啟動指令，其中該語音辨識啟動指令用以啟動語音辨識；一語音擷取裝置，擷取一語音；一語音辨識裝置，耦接該語音擷取裝置與該影像分析裝置，接收該語音與該語音辨識啟動指令，並依據該語音辨識啟動指令，對該語音進行辨識，以產生一語音指令；以及一處理裝置，耦接該影像分析裝置與該語音辨識裝置，接收該語音指令，並依據該語音指令，以調整該視訊裝置的一操作。
如請求項1之視訊裝置，其中該影像分析裝置包括：一影像辨識裝置，耦接該影像擷取裝置，接收該影像，並辨識該影像中是否包括該手勢動作，產生一辨識結果；以及一辨識指令產生裝置，耦接該影像辨識裝置與該語音辨識裝置，接收該辨識結果，並依據該辨識結果產生該語音辨識啟動指令。
如請求項2之視訊裝置，其中因應於該影像中包括該手勢動作，該影像辨識裝置產生該辨識結果，因應於該影像中未包括該手勢動作，該影像辨識裝置不會產生該辨識結果。
如請求項3之視訊裝置，其中因應於接收到該辨識結果，該辨識指令產生裝置產生該語音辨識啟動指令，因應於未接收到該辨識結果，該辨識指令產生裝置不會產生該語音辨識啟動指令。
如請求項1之視訊裝置，其中該處理裝置更耦接該影像擷取裝置，該處理裝置更依據該語音辨識裝置提供的該語音，產生一控制信號至該影像擷取裝置，使該影像擷取裝置依據該控制信號對焦於該語音的來源處。
如請求項1之視訊裝置，更包括：一距離感測器，耦接該語音辨識裝置，感測一物件的距離，以產生一距離感測信號；其中，該語音辨識裝置更接收該距離感測信號與該影像，並依據該距離信號、該影像，對該語音進行處理，以確定該語音是否為有效音源。
如請求項6之視訊裝置，其中因應於該語音為有效音源且接收到該語音辨識指令，該語音辨識裝置依據該語音辨識啟動指令，對該語音進行辨識，以產生該語音指令。
如請求項7之視訊裝置，其中因應於該語音不為有效音源，該語音辨識裝置濾除該語音。
如請求項1之視訊裝置，更包括：一傳送裝置，耦接該處理裝置，傳送該語音與該影像。
一種視訊裝置的操作方法，包括：透過一語音擷取裝置，擷取一語音；透過一影像擷取裝置，擷取一影像；透過一影像分析裝置，接收該影像，並辨識該影像中是否包括一手勢動作，以產生一語音辨識啟動指令，其中該語音辨識啟動指令用以啟動語音辨識；透過一語音辨識裝置，接收該語音與該語音辨識啟動指令，並依據該語音辨識啟動指令，對該語音進行辨識，以產生一語音指令；以及透過一處理裝置，接收該語音指令，並依據該語音指令，以調整該視訊裝置的一操作。
如請求項10之視訊裝置的操作方法，其中該影像分析裝置包括一影像辨識裝置與一辨識指令產生裝置，透過該影像分析裝置，接收該影像，並對該影像進行分析，以產生該語音辨識啟動指令的步驟包括：透過該影像辨識裝置，接收該影像，並辨識該影像中是否包括該手勢動作，以產生一辨識結果；以及透過該辨識指令產生裝置，接收該辨識結果，並依據該辨識結果產生該語音辨識啟動指令。
如請求項11之視訊裝置的操作方法，其中透過該影像辨識裝置，接收該影像，並辨識該影像中是否包括該手勢動作，以產生該辨識結果的步驟包括：因應於該影像中包括該手勢動作，該影像辨識裝置產生該辨識結果；以及因應於該影像中未包括該手勢動作，該影像辨識裝置不會產生該辨識結果。
如請求項12之視訊裝置的操作方法，其中透過該辨識指令產生裝置，接收該辨識結果，並依據該辨識結果，產生該語音辨識啟動指令的步驟包括：因應於接收到該辨識結果，該辨識指令產生裝置產生該語音辨識啟動指令；以及因應於未接收到該辨識結果，該辨識指令產生裝置不會產生該語音辨識啟動指令。
如請求項10之視訊裝置的操作方法，更包括：該處理裝置依據該語音辨識裝置提供的該語音，產生一控制信號至該影像擷取裝置，使該影像擷取裝置依據該控制信號對焦於該語音的來源處。
如請求項10之視訊裝置的操作方法，更包括：透過一距離感測器，感測一物件的距離，以產生一距離感測信號；以及透過該語音辨識裝置接收該距離感測信號與該影像，並依據該距離信號、該影像，對該語音進行處理，以確定該語音是否為有效音源。
如請求項15之視訊裝置的操作方法，其中透過該語音辨識裝置，接收該語音與該語音辨識啟動指令，並依據該語音辨識啟動指令，對該語音進行辨識，以產生該語音指令的步驟包括：因應於該語音為有效音源且接收到該語音辨識指令，該語音辨識裝置依據該語音辨識啟動指令，對該語音進行辨識，以產生該語音指令。
如請求項16之視訊裝置的操作方法，更包括：因應於該語音不為有效音源，該語音辨識裝置濾除該語音。
如請求項10之視訊裝置的操作方法，更包括：透過一傳送裝置，傳送該語音與該影像。