TWI751866B

TWI751866B - 影音通訊系統及其控制方法

Info

Publication number: TWI751866B
Application number: TW109146725A
Authority: TW
Inventors: 湯道文
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-01-01
Also published as: US20220208203A1; US11501790B2; TW202226823A

Abstract

本案係關於一種影音通訊系統，包含複數個環境音源、麥克風陣列、影像處理裝置、音訊處理裝置及除噪處理裝置。複數個環境音源對應具有複數個環境音。麥克風陣列包含複數個麥克風，複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊。影像處理裝置獲取包含複數個環境音源在內的影像，並利用選取指令選擇影像中複數個環境音源中的一個作為目標音源，影像處理裝置依據麥克風陣列與影像處理裝置之間的第一座標計算目標音源與麥克風陣列之間的相對位置。音訊處理裝置接收並依據複數個接收音訊及相對位置計算出目標音訊。

Description

影音通訊系統及其控制方法

本案係關於一種影音通訊系統及其控制方法，尤指一種結合麥克風陣列技術及影像處理技術的影音通訊系統及其控制方法。

隨著通訊網路的發展，即時通訊已日漸成熟並應用於遠端會議及遠距醫療等範疇，藉此克服距離障礙。舉例來說，遠端會議已逐漸取代傳統面對面的會議，透過即時的語音或視訊通訊，使用者之間的會議地點不再受限。

在通訊過程中，語音的通話品質為極重要的一環，而影響語音通話品質的主要因素中其一為聲源的清晰程度，另一為影音通訊系統處理環境噪音的能力，即抗噪的能力。現有的影音通訊系統常利用指向性麥克風對來自各方向的音源進行收音，並將接收到的聲音中音量最大的音源進行訊雜比 (Signal to Noise Ratio, SNR) 加強，然而現有指向性麥克風由於無法判斷各音源與麥克風之間的相對位置，因此若在雜訊音量最大的情況下，則無法準確判別目標音源。

因此，如何發展一種可改善上述習知技術之影音通訊系統及方法，實為目前迫切之需求。

本案之目的為提供一種影音通訊系統及方法，結合麥克風陣列技術及影像處理技術，其中，影像處理裝置獲取包含各個音源在內的影像並依據指令選取影像中的其中一個音源作為目標音源，並計算目標音源與麥克風陣列之間的相對位置，音訊處理裝置根據該相對位置對麥克風陣列所接收之音訊進行音訊處理，藉此，可準確辨識出目標音源及雜訊，藉此提高目標音源的清晰度並降低周遭雜音的音量，進而保證通訊品質。

根據本案之構想，本案提供一種影音通訊系統，包含複數個環境音源、麥克風陣列、影像處理裝置、音訊處理裝置及除噪處理裝置。複數個環境音源對應具有複數個環境音。麥克風陣列包含複數個麥克風，複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊。影像處理裝置獲取包含複數個環境音源在內的影像，並利用選取指令選擇影像中複數個環境音源中的一個作為目標音源，影像處理裝置依據麥克風陣列與影像處理裝置之間的第一座標計算目標音源與麥克風陣列之間的相對位置。音訊處理裝置連接於影像處理裝置及麥克風陣列，音訊處理裝置接收並依據複數個接收音訊及相對位置計算出目標音訊。除噪處理裝置連接於音訊處理裝置，且架構於接收目標音訊並輸出輸出音。

根據本案之構想，本案提供一種影音通訊系統之控制方法，包含步驟：(a)利用麥克風陣列之複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊；(b)提供影像處理裝置和麥克風陣列之間的第一座標；(c)利用影像處理裝置獲取包含複數個環境音源在內的影像；(d)利用選取指令選擇影像中複數個環境音源中的一個作為目標音源；(e)利用影像處理裝置依據第一座標計算目標音源與麥克風陣列之間的相對位置；(f)利用音訊處理裝置接收並依據複數個接收音訊及相對位置計算出目標音訊；以及(g)利用除噪處理裝置接收目標音訊並輸出輸出音。

體現本案特徵與優點的一些典型實施例將在後段的說明中詳細敘述。應理解的是本案能夠在不同的態樣上具有各種的變化，其皆不脫離本案之範圍，且其中的說明及圖示在本質上係當作說明之用，而非架構於限制本案。

第1圖係為本案較佳實施例之影音通訊系統的電路結構示意圖，第2圖係為本案較佳實施例之影音通訊系統的系統示意圖，第3圖係為本案較佳實施例之影音通訊系統的使用者介面示意圖。如第1圖、第2圖及第3圖所示，影音通訊系統1包含複數個環境音源(未圖示)、麥克風陣列2、影像處理裝置3、音訊處理裝置4及除噪處理裝置5。麥克風陣列2設置相對於影音通訊系統1的第一座標Y1。其中，第一座標Y1係以影像處理裝置3作為基準座標Yo，導入座標轉換矩陣公式計算得出。舉例來說，如公式 (1) 所示，影像處理裝置3利用座標轉換矩陣R將影像處理裝置3之基準座標Yo轉換到麥克風陣列2之第一座標Y1，其中，B為座標平移矩陣。 Y1= RYo+B (1)

複數個環境音源對應具有複數個環境音，其中，環境音可為例如但不限於人聲或環境中的非人聲噪音。麥克風陣列2包含複數個麥克風，複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊。影像處理裝置3獲取包含複數個環境音源在內的影像，於一些實施例中，影像處理裝置3包含有相機或錄影器材等攝錄影設備並藉此獲取影像。影像處理裝置3接收並依據選取指令L選擇影像中複數個環境音源中的一個作為目標音源，其中，選取指令L為使用者對影音通訊系統1所下之指令，因此於本實施例中，使用者可自由地利用對影像處理裝置3輸入選取指令L而選擇影像中複數個環境音源中的一個作為目標音源。舉例來說，如第3圖所示，影音通訊系統1係包含使用者介面，影像處理裝置3接收並依據選取指令L選擇影像中複數個環境音源中的一個作為目標音源。影像處理裝置3依據第一座標Y1計算上述所選的目標音源與麥克風陣列2之間的相對位置R1，其中相對位置R1包含目標音源與麥克風陣列2中的每一個麥克風之間的深度及角度。於一些實施例中，影像處理裝置3中利用選取指令L所選擇之環境音源須為人臉，其中，影像處理裝置3包含特徵擷取演算法，影像處理裝置3利用特徵擷取演算法對影像中所有可辨識的人臉進行人臉偵測，並依照特徵擷取後的結果分別對每個人臉輸出對應之標籤，以區隔不同的人臉，再藉由選取指令L選擇不同人臉所對應之標籤中的一個作為目標音源。

於一些實施例中，影像處理裝置3包含深度影像演算法，影像處理裝置3係對影像中複數個環境音源進行深度影像演算以獲取目標音源與影像處理裝置3之間的目標深度D，再利用影像處理裝置3和麥克風陣列2之間的第一座標Y1和目標深度D校正得到目標音源與麥克風陣列2中的每一個麥克風之間的深度及角度。於一些實施例中，麥克風陣列2中的每一個麥克風之間的相對位置Y _M皆為已知，因此，可透過影像處理裝置3和麥克風陣列2之間的第一座標Y1得到影像處理裝置3分別與每一個麥克風之間的相對位置。舉例來說，如第4圖所示，影音通訊系統1之麥克風陣列2包含兩個麥克風，影像處理裝置3依據已知的第一座標Y1及選取的目標音源X計算出目標音源X與兩個麥克風之間的夾角分別為角度θ1以及角度θ1+δ，藉此得到目標音源X與麥克風陣列之間的相對位置R1。

音訊處理裝置4連接於影像處理裝置3及麥克風陣列2，音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊。本案之影音通訊系統1依據指令選擇目標音源，且計算目標音源與麥克風陣列2之間的相對位置R1，再利用複數個接收音訊及相對位置R1計算出目標音訊，藉此可準確辨識出目標音源及雜訊。除噪處理裝置5連接於音訊處理裝置4，且架構於接收目標音訊並輸出輸出音，其中除噪處理裝置5係對目標音訊進行除噪處理並輸出輸出音。

於一些實施例中，音訊處理裝置4依據複數個深度及複數個角度對複數個接收音訊進行疊加或抵消，並輸出目標音訊。由於麥克風陣列2中的每個麥克風擺設位置不同，因此其分別所輸出之接收音訊亦不相同，藉由複數個深度及複數個角度之資訊對不同麥克風所輸出的複數個接收音訊進行疊加或抵消，可增強目標音訊的清晰程度。藉此，除了可準確辨識出目標音源及雜訊，還可以提高目標音源的清晰度並降低周遭雜音的音量，進而保證通訊品質。

於一些實施例中，音訊處理裝置4不僅限於輸出目標音訊，音訊處理裝置4可以同時依據複數個接收音訊輸出目標音訊及雜訊音訊。音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊及雜訊音訊，且除噪處理裝置5接收並依據目標音訊及雜訊音訊輸出輸出音。藉由同時計算出目標音訊及雜訊音訊，除噪處理裝置5可利用雜訊音訊進一步將目標音訊中殘留之雜訊濾除並輸出輸出音，因此可更加提升目標音源的清晰度並降低周遭雜音的音量。

於一些實施例中，麥克風陣列2接收來自各方向的環境音源，且各方向的環境音源的音量強度係對應於影像處理裝置3所獲取之複數個環境音源在內的影像上，影像處理裝置3接收並依據選取指令L選擇影像中複數個環境音源中的一個作為目標音源，並將複數個環境音源中除了目標音源以外中音量最大的環境音源作為高強度噪音，利用此高強度噪音作為雜訊音訊，以進一步提升目標音源的清晰度並降低周遭雜音的音量。

於一些實施例中，利用選取指令L選定之目標音源並非固定於相同位置而不會移動，即相對位置R1會隨著目標音源移動而產生變化。當相對位置R1隨著目標音源移動而產生變化時，使用者可藉由對影音通訊系統1輸入追蹤指令T以對目標音源進行追蹤，影像處理裝置3接收並依據追蹤指令T追蹤目標音源之移動變化。其中，影像處理裝置3可利用上述包含於影像處理裝置3中之特徵擷取演算法，對特徵擷取結果中目標音源所對應的標籤進行追蹤。當目標音源產生位移時，影像處理裝置3持續獲取包含目標音源在內的影像，並藉上述目標音源所對應的標籤持續追蹤目標音源的移動位置，影像處理裝置3依據該移動位置持續更新目標音源與麥克風陣列2之間的相對位置R1，音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊，除噪處理裝置5接收目標音訊並輸出輸出音。藉由追蹤目標音源的移動變化，影音通訊系統1可不斷更新相對位置R1，並進而利用不斷更新之相對位置R1輸出輸出音，以在目標音源不斷移動的情況下，仍可時刻保證通訊品質。於一些實施例中，即使目標音源離開影像範圍之內後又再次進入影像之內，影像處理裝置3仍可於該目標音源再次進入影像時利用該目標音源所對應之標籤持續追蹤該目標音源。

於一些實施例中，影音通訊系統1還包含語音辨識裝置6，語音辨識裝置6連接於除噪處理裝置5，語音辨識裝置6係架構於接收並依據輸出音即時輸出字串。藉由將輸出音即時輸出字串，可直接記錄及輸出文字內容，以留下會議紀錄或作為即時翻譯之功用。

於一些實施例中，影像處理裝置3和麥克風陣列2之間的第一座標Y1為非固定，亦即第一座標Y1可為變數。舉例來說，影像處理裝置3與麥克風陣列2可分別為獨立之攝錄影裝置及麥克風，且攝錄影裝置及麥克風可各自改變其設置位置，影音通訊系統1在攝錄影裝置及麥克風各自確定其設置位置後，經由使用者輸入攝錄影裝置及麥克風之間的第一座標Y1於影音通訊系統1中。於一些實施例中，影像處理裝置3和麥克風陣列2之間的第一座標Y1為預設值，亦即影像處理裝置3和麥克風陣列2之間的第一座標Y1並不會改變。舉例來說，影音通訊系統1係整合於一特定裝置中，例如筆記型電腦、智慧電視、平板或自帶螢幕的智慧音箱等，但亦不以此為限之中，影像處理裝置3為筆記型電腦的視訊鏡頭，麥克風陣列2為筆記型電腦之麥克風，因此第一座標Y1係為固定座標。

第5圖係為本案較佳實施例之影音通訊系統之控制方法的流程示意圖，本案之影音通訊系統之控制方法係適用於前述之影音通訊系統1。如第3圖所示，本案之影音通訊系統之控制方法包括步驟S1、S2、S3、S4、S5、S6及S7。於步驟S1中，利用麥克風陣列2之複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊。於步驟S2中，提供影像處理裝置3和麥克風陣列2之間的第一座標Y1。於步驟S3中，利用影像處理裝置3獲取包含複數個環境音源在內的影像。於步驟S4中，利用選取指令L選擇影像中複數個環境音源中的一個作為目標音源。於步驟S5中，利用影像處理裝置3依據第一座標Y1計算目標音源與麥克風陣列2之間的相對位置R1。於步驟S6中，利用音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊。於步驟S7中，利用除噪處理裝置5接收目標音訊並輸出輸出音。

於一些實施例中，如第6圖所示，步驟S6還包含步驟S61，步驟S7還包含步驟S71。於步驟S61中，利用音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊及雜訊音訊。於步驟S71中，利用除噪處理裝置5接收並依據目標音訊及雜訊音訊輸出輸出音。

於一些實施例中，如第7圖所示，影音通訊系統之控制方法還包含步驟S8及S9。於步驟S8中，在接收追蹤指令T時持續追蹤目標音源的移動位置。於步驟S9中，依據移動位置持續更新目標音源與麥克風陣列2之間的相對位置R1，且在執行完步驟S9後，再次執行步驟S6。

綜上所述，本案提供一種影音通訊系統及其控制方法，結合麥克風陣列技術及影像處理技術，其中，影像處理裝置3獲取包含各個音源在內的影像並依據指令選取該影像中的其中一個音源作為目標音源，並計算目標音源與麥克風陣列2之間的相對位置，音訊處理裝置4藉由該相對位置對麥克風陣列2所接收之音訊進行音訊處理，藉此，可準確辨識出目標音源及雜訊，藉此提高目標音源的清晰度並降低周遭雜音的音量，進而保證通訊品質。

須注意，上述僅是為說明本案而提出之較佳實施例，本案不限於所述之實施例，本案之範圍由如附專利申請範圍決定。且本案得由熟習此技術之人士任施匠思而為諸般修飾，然皆不脫如附專利申請範圍所欲保護者。

1:影音通訊系統 2:麥克風陣列 3:影像處理裝置 4:音訊處理裝置 5:除噪處理裝置 6:語音辨識裝置 Yo:基準座標 Y1:第一座標 Y _M:相對位置 L:選取指令 T:追蹤指令 D:目標深度 R1:相對位置 θ1:角度 δ:角度 X:目標音源 R:座標轉換矩陣 B:座標平移矩陣 S1、S2、S3、S4、S5、S6、S7、S8、S9、S61、S71:步驟

第1圖係為本案較佳實施例之影音通訊系統的電路結構示意圖。

第2圖係為本案較佳實施例之影音通訊系統的系統示意圖。

第3圖係為本案較佳實施例之影音通訊系統的使用者介面示意圖。

第4圖係為本案較佳實施例之影音通訊系統的位置關係示意圖。

第5圖係為本案較佳實施例之影音通訊系統之控制方法的流程圖。

第6圖係為本案另一較佳實施例之影音通訊系統之控制方法的流程圖。

第7圖係為本案另一較佳實施例之影音通訊系統之控制方法的流程圖。

1:影音通訊系統

2:麥克風陣列

3:影像處理裝置

4:音訊處理裝置

5:除噪處理裝置

Claims

一種影音通訊系統，包含：複數個環境音源，對應具有複數個環境音；一麥克風陣列，包含複數個麥克風，其中該複數個麥克風接收並依據該複數個環境音分別輸出複數個接收音訊；一影像處理裝置，獲取包含該複數個環境音源在內的一影像，並利用一選取指令選擇該影像中該複數個環境音源中的一個作為一目標音源，其中該影像處理裝置依據該麥克風陣列與該影像處理裝置之間的一第一座標計算該目標音源與該麥克風陣列之間的一相對位置；一音訊處理裝置，連接於該影像處理裝置及該麥克風陣列，其中該音訊處理裝置接收並依據該複數個接收音訊及該相對位置計算出一目標音訊；以及一除噪處理裝置，連接於該音訊處理裝置，架構於接收該目標音訊並輸出一輸出音，其中該影像處理裝置包含特徵擷取演算法，該影像處理裝置係對該影像中之該複數個環境音源進行特徵擷取，並依照特徵擷取後的結果分別對每個環境音源建立對應之複數個標籤，再藉由該選取指令選擇該複數個標籤中的一個作為該目標音源。
如請求項1之影音通訊系統，其中該相對位置包含該目標音源與該麥克風陣列中每一該麥克風之間的一深度及一角度。
如請求項2之影音通訊系統，其中該音訊處理裝置依據該複數個深度及該複數個角度對該複數個接收音訊進行疊加或抵消，並輸出該目標音訊。
如請求項1之影音通訊系統，其中該音訊處理裝置接收並依據該複數個接收音訊及該相對位置計算出一雜訊音訊，且該除噪處理裝置接收並依據該目標音訊及該雜訊音訊輸出該輸出音。
如請求項1之影音通訊系統，其中該影像處理裝置在接收一追蹤指令時依據該目標音源所對應之該標籤持續追蹤該目標音源的一移動位置，並依據該移動位置持續更新該目標音源與該麥克風陣列之間的該相對位置。
如請求項1之影音通訊系統，還包含一語音辨識裝置，連接於該除噪處理裝置，其中該語音辨識裝置架構於接收並依據該輸出音即時輸出一字串。
如請求項1之影音通訊系統，其中該影像處理裝置和該麥克風陣列之間的該第一座標係為一預設值，該影像處理裝置依據該第一座標計算該目標音源與該麥克風陣列之間的該相對位置。
一種影音通訊系統之控制方法，包括步驟：(a)利用一麥克風陣列之複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊；(b)提供一影像處理裝置和該麥克風陣列之間的一第一座標；(c)利用該影像處理裝置獲取包含該複數個環境音源在內的一影像；(d)利用一選取指令選擇該影像中該複數個環境音源中的一個作為一目標音源；(e)利用該影像處理裝置依據該第一座標計算該目標音源與該麥克風陣列之間的一相對位置； (f)利用一音訊處理裝置接收並依據該複數個接收音訊及該相對位置計算出一目標音訊；以及(g)利用一除噪處理裝置接收該目標音訊並輸出一輸出音，其中該影像處理裝置包含特徵擷取演算法，該影像處理裝置係對該影像中之該複數個環境音源進行特徵擷取，並依照特徵擷取後的結果分別對每個環境音源建立對應之複數個標籤，再藉由該選取指令選擇該複數個標籤中的一個作為該目標音源。
如請求項8之影音通訊系統之控制方法，其中於該步驟(f)更包括步驟：(f1)利用該音訊處理裝置接收並依據該複數個接收音訊及該相對位置計算出一雜訊音訊，其中於該步驟(g)更包括步驟：(g1)利用該除噪處理裝置接收並依據該目標音訊及該雜訊音訊輸出該輸出音。
如請求項8之影音通訊系統之控制方法，還包括步驟：(h)在接收一追蹤指令時持續追蹤該目標音源的一移動位置；以及(i)依據該移動位置持續更新該目標音源與該麥克風陣列之間的該相對位置，並再次執行該步驟(f)。