TWI751866B - 影音通訊系統及其控制方法 - Google Patents

影音通訊系統及其控制方法 Download PDF

Info

Publication number
TWI751866B
TWI751866B TW109146725A TW109146725A TWI751866B TW I751866 B TWI751866 B TW I751866B TW 109146725 A TW109146725 A TW 109146725A TW 109146725 A TW109146725 A TW 109146725A TW I751866 B TWI751866 B TW I751866B
Authority
TW
Taiwan
Prior art keywords
audio
processing device
target
image processing
microphone array
Prior art date
Application number
TW109146725A
Other languages
English (en)
Other versions
TW202226823A (zh
Inventor
湯道文
Original Assignee
仁寶電腦工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 仁寶電腦工業股份有限公司 filed Critical 仁寶電腦工業股份有限公司
Priority to TW109146725A priority Critical patent/TWI751866B/zh
Priority to US17/207,419 priority patent/US11501790B2/en
Application granted granted Critical
Publication of TWI751866B publication Critical patent/TWI751866B/zh
Publication of TW202226823A publication Critical patent/TW202226823A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本案係關於一種影音通訊系統,包含複數個環境音源、麥克風陣列、影像處理裝置、音訊處理裝置及除噪處理裝置。複數個環境音源對應具有複數個環境音。麥克風陣列包含複數個麥克風,複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊。影像處理裝置獲取包含複數個環境音源在內的影像,並利用選取指令選擇影像中複數個環境音源中的一個作為目標音源,影像處理裝置依據麥克風陣列與影像處理裝置之間的第一座標計算目標音源與麥克風陣列之間的相對位置。音訊處理裝置接收並依據複數個接收音訊及相對位置計算出目標音訊。

Description

影音通訊系統及其控制方法
本案係關於一種影音通訊系統及其控制方法,尤指一種結合麥克風陣列技術及影像處理技術的影音通訊系統及其控制方法。
隨著通訊網路的發展,即時通訊已日漸成熟並應用於遠端會議及遠距醫療等範疇,藉此克服距離障礙。舉例來說,遠端會議已逐漸取代傳統面對面的會議,透過即時的語音或視訊通訊 ,使用者之間的會議地點不再受限。
在通訊過程中,語音的通話品質為極重要的一環,而影響語音通話品質的主要因素中其一為聲源的清晰程度,另一為影音通訊系統處理環境噪音的能力,即抗噪的能力。現有的影音通訊系統常利用指向性麥克風對來自各方向的音源進行收音,並將接收到的聲音中音量最大的音源進行訊雜比 (Signal to Noise Ratio, SNR) 加強,然而現有指向性麥克風由於無法判斷各音源與麥克風之間的相對位置,因此若在雜訊音量最大的情況下,則無法準確判別目標音源。
因此,如何發展一種可改善上述習知技術之影音通訊系統及方法,實為目前迫切之需求。
本案之目的為提供一種影音通訊系統及方法,結合麥克風陣列技術及影像處理技術,其中,影像處理裝置獲取包含各個音源在內的影像並依據指令選取影像中的其中一個音源作為目標音源,並計算目標音源與麥克風陣列之間的相對位置,音訊處理裝置根據該相對位置對麥克風陣列所接收之音訊進行音訊處理,藉此,可準確辨識出目標音源及雜訊,藉此提高目標音源的清晰度並降低周遭雜音的音量,進而保證通訊品質。
根據本案之構想,本案提供一種影音通訊系統,包含複數個環境音源、麥克風陣列、影像處理裝置、音訊處理裝置及除噪處理裝置。複數個環境音源對應具有複數個環境音。麥克風陣列包含複數個麥克風,複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊。影像處理裝置獲取包含複數個環境音源在內的影像,並利用選取指令選擇影像中複數個環境音源中的一個作為目標音源,影像處理裝置依據麥克風陣列與影像處理裝置之間的第一座標計算目標音源與麥克風陣列之間的相對位置。音訊處理裝置連接於影像處理裝置及麥克風陣列,音訊處理裝置接收並依據複數個接收音訊及相對位置計算出目標音訊。除噪處理裝置連接於音訊處理裝置,且架構於接收目標音訊並輸出輸出音。
根據本案之構想,本案提供一種影音通訊系統之控制方法,包含步驟:(a)利用麥克風陣列之複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊;(b)提供影像處理裝置和麥克風陣列之間的第一座標;(c)利用影像處理裝置獲取包含複數個環境音源在內的影像;(d)利用選取指令選擇影像中複數個環境音源中的一個作為目標音源;(e)利用影像處理裝置依據第一座標計算目標音源與麥克風陣列之間的相對位置;(f)利用音訊處理裝置接收並依據複數個接收音訊及相對位置計算出目標音訊;以及(g)利用除噪處理裝置接收目標音訊並輸出輸出音。
體現本案特徵與優點的一些典型實施例將在後段的說明中詳細敘述。應理解的是本案能夠在不同的態樣上具有各種的變化,其皆不脫離本案之範圍,且其中的說明及圖示在本質上係當作說明之用,而非架構於限制本案。
第1圖係為本案較佳實施例之影音通訊系統的電路結構示意圖,第2圖係為本案較佳實施例之影音通訊系統的系統示意圖,第3圖係為本案較佳實施例之影音通訊系統的使用者介面示意圖。如第1圖、第2圖及第3圖所示,影音通訊系統1包含複數個環境音源(未圖示)、麥克風陣列2、影像處理裝置3、音訊處理裝置4及除噪處理裝置5。麥克風陣列2設置相對於影音通訊系統1的第一座標Y1。其中,第一座標Y1係以影像處理裝置3作為基準座標Yo,導入座標轉換矩陣公式計算得出。舉例來說,如公式 (1) 所示,影像處理裝置3利用座標轉換矩陣R將影像處理裝置3之基準座標Yo轉換到麥克風陣列2之第一座標Y1,其中,B為座標平移矩陣。 Y1= RYo+B                                            (1)
複數個環境音源對應具有複數個環境音,其中,環境音可為例如但不限於人聲或環境中的非人聲噪音。麥克風陣列2包含複數個麥克風,複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊。影像處理裝置3獲取包含複數個環境音源在內的影像,於一些實施例中,影像處理裝置3包含有相機或錄影器材等攝錄影設備並藉此獲取影像。影像處理裝置3接收並依據選取指令L選擇影像中複數個環境音源中的一個作為目標音源,其中,選取指令L為使用者對影音通訊系統1所下之指令,因此於本實施例中,使用者可自由地利用對影像處理裝置3輸入選取指令L而選擇影像中複數個環境音源中的一個作為目標音源。舉例來說,如第3圖所示,影音通訊系統1係包含使用者介面,影像處理裝置3接收並依據選取指令L選擇影像中複數個環境音源中的一個作為目標音源。影像處理裝置3依據第一座標Y1計算上述所選的目標音源與麥克風陣列2之間的相對位置R1,其中相對位置R1包含目標音源與麥克風陣列2中的每一個麥克風之間的深度及角度。於一些實施例中,影像處理裝置3中利用選取指令L所選擇之環境音源須為人臉,其中,影像處理裝置3包含特徵擷取演算法,影像處理裝置3利用特徵擷取演算法對影像中所有可辨識的人臉進行人臉偵測,並依照特徵擷取後的結果分別對每個人臉輸出對應之標籤,以區隔不同的人臉,再藉由選取指令L選擇不同人臉所對應之標籤中的一個作為目標音源。
於一些實施例中,影像處理裝置3包含深度影像演算法,影像處理裝置3係對影像中複數個環境音源進行深度影像演算以獲取目標音源與影像處理裝置3之間的目標深度D,再利用影像處理裝置3和麥克風陣列2之間的第一座標Y1和目標深度D校正得到目標音源與麥克風陣列2中的每一個麥克風之間的深度及角度。於一些實施例中,麥克風陣列2中的每一個麥克風之間的相對位置Y M皆為已知,因此,可透過影像處理裝置3和麥克風陣列2之間的第一座標Y1得到影像處理裝置3分別與每一個麥克風之間的相對位置。舉例來說,如第4圖所示,影音通訊系統1之麥克風陣列2包含兩個麥克風,影像處理裝置3依據已知的第一座標Y1及選取的目標音源X計算出目標音源X與兩個麥克風之間的夾角分別為角度θ1以及角度θ1+δ,藉此得到目標音源X與麥克風陣列之間的相對位置R1。
音訊處理裝置4連接於影像處理裝置3及麥克風陣列2,音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊。本案之影音通訊系統1依據指令選擇目標音源,且計算目標音源與麥克風陣列2之間的相對位置R1,再利用複數個接收音訊及相對位置R1計算出目標音訊,藉此可準確辨識出目標音源及雜訊。除噪處理裝置5連接於音訊處理裝置4,且架構於接收目標音訊並輸出輸出音,其中除噪處理裝置5係對目標音訊進行除噪處理並輸出輸出音。
於一些實施例中,音訊處理裝置4依據複數個深度及複數個角度對複數個接收音訊進行疊加或抵消,並輸出目標音訊。由於麥克風陣列2中的每個麥克風擺設位置不同,因此其分別所輸出之接收音訊亦不相同,藉由複數個深度及複數個角度之資訊對不同麥克風所輸出的複數個接收音訊進行疊加或抵消,可增強目標音訊的清晰程度。藉此,除了可準確辨識出目標音源及雜訊,還可以提高目標音源的清晰度並降低周遭雜音的音量,進而保證通訊品質。
於一些實施例中,音訊處理裝置4不僅限於輸出目標音訊,音訊處理裝置4可以同時依據複數個接收音訊輸出目標音訊及雜訊音訊。音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊及雜訊音訊,且除噪處理裝置5接收並依據目標音訊及雜訊音訊輸出輸出音。藉由同時計算出目標音訊及雜訊音訊,除噪處理裝置5可利用雜訊音訊進一步將目標音訊中殘留之雜訊濾除並輸出輸出音,因此可更加提升目標音源的清晰度並降低周遭雜音的音量。
於一些實施例中,麥克風陣列2接收來自各方向的環境音源,且各方向的環境音源的音量強度係對應於影像處理裝置3所獲取之複數個環境音源在內的影像上,影像處理裝置3接收並依據選取指令L選擇影像中複數個環境音源中的一個作為目標音源,並將複數個環境音源中除了目標音源以外中音量最大的環境音源作為高強度噪音,利用此高強度噪音作為雜訊音訊,以進一步提升目標音源的清晰度並降低周遭雜音的音量。
於一些實施例中,利用選取指令L選定之目標音源並非固定於相同位置而不會移動,即相對位置R1會隨著目標音源移動而產生變化。當相對位置R1隨著目標音源移動而產生變化時,使用者可藉由對影音通訊系統1輸入追蹤指令T以對目標音源進行追蹤,影像處理裝置3接收並依據追蹤指令T追蹤目標音源之移動變化。其中,影像處理裝置3可利用上述包含於影像處理裝置3中之特徵擷取演算法,對特徵擷取結果中目標音源所對應的標籤進行追蹤。當目標音源產生位移時,影像處理裝置3持續獲取包含目標音源在內的影像,並藉上述目標音源所對應的標籤持續追蹤目標音源的移動位置,影像處理裝置3依據該移動位置持續更新目標音源與麥克風陣列2之間的相對位置R1,音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊,除噪處理裝置5接收目標音訊並輸出輸出音。藉由追蹤目標音源的移動變化,影音通訊系統1可不斷更新相對位置R1,並進而利用不斷更新之相對位置R1輸出輸出音,以在目標音源不斷移動的情況下,仍可時刻保證通訊品質。於一些實施例中,即使目標音源離開影像範圍之內後又再次進入影像之內,影像處理裝置3仍可於該目標音源再次進入影像時利用該目標音源所對應之標籤持續追蹤該目標音源。
於一些實施例中,影音通訊系統1還包含語音辨識裝置6,語音辨識裝置6連接於除噪處理裝置5,語音辨識裝置6係架構於接收並依據輸出音即時輸出字串。藉由將輸出音即時輸出字串,可直接記錄及輸出文字內容,以留下會議紀錄或作為即時翻譯之功用。
於一些實施例中,影像處理裝置3和麥克風陣列2之間的第一座標Y1為非固定,亦即第一座標Y1可為變數。舉例來說,影像處理裝置3與麥克風陣列2可分別為獨立之攝錄影裝置及麥克風,且攝錄影裝置及麥克風可各自改變其設置位置,影音通訊系統1在攝錄影裝置及麥克風各自確定其設置位置後,經由使用者輸入攝錄影裝置及麥克風之間的第一座標Y1於影音通訊系統1中。於一些實施例中,影像處理裝置3和麥克風陣列2之間的第一座標Y1為預設值,亦即影像處理裝置3和麥克風陣列2之間的第一座標Y1並不會改變。舉例來說,影音通訊系統1係整合於一特定裝置中,例如筆記型電腦、智慧電視、平板或自帶螢幕的智慧音箱等,但亦不以此為限之中,影像處理裝置3為筆記型電腦的視訊鏡頭,麥克風陣列2為筆記型電腦之麥克風,因此第一座標Y1係為固定座標。
第5圖係為本案較佳實施例之影音通訊系統之控制方法的流程示意圖,本案之影音通訊系統之控制方法係適用於前述之影音通訊系統1。如第3圖所示,本案之影音通訊系統之控制方法包括步驟S1、S2、S3、S4、S5、S6及S7。於步驟S1中,利用麥克風陣列2之複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊。於步驟S2中,提供影像處理裝置3和麥克風陣列2之間的第一座標Y1。於步驟S3中,利用影像處理裝置3獲取包含複數個環境音源在內的影像。於步驟S4中,利用選取指令L選擇影像中複數個環境音源中的一個作為目標音源。於步驟S5中,利用影像處理裝置3依據第一座標Y1計算目標音源與麥克風陣列2之間的相對位置R1。於步驟S6中,利用音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊。於步驟S7中,利用除噪處理裝置5接收目標音訊並輸出輸出音。
於一些實施例中,如第6圖所示,步驟S6還包含步驟S61,步驟S7還包含步驟S71。於步驟S61中,利用音訊處理裝置4接收並依據複數個接收音訊及相對位置R1計算出目標音訊及雜訊音訊。於步驟S71中,利用除噪處理裝置5接收並依據目標音訊及雜訊音訊輸出輸出音。
於一些實施例中,如第7圖所示,影音通訊系統之控制方法還包含步驟S8及S9。於步驟S8中,在接收追蹤指令T時持續追蹤目標音源的移動位置。於步驟S9中,依據移動位置持續更新目標音源與麥克風陣列2之間的相對位置R1,且在執行完步驟S9後,再次執行步驟S6。
綜上所述,本案提供一種影音通訊系統及其控制方法,結合麥克風陣列技術及影像處理技術,其中,影像處理裝置3獲取包含各個音源在內的影像並依據指令選取該影像中的其中一個音源作為目標音源,並計算目標音源與麥克風陣列2之間的相對位置,音訊處理裝置4藉由該相對位置對麥克風陣列2所接收之音訊進行音訊處理,藉此,可準確辨識出目標音源及雜訊,藉此提高目標音源的清晰度並降低周遭雜音的音量,進而保證通訊品質。
須注意,上述僅是為說明本案而提出之較佳實施例,本案不限於所述之實施例,本案之範圍由如附專利申請範圍決定。且本案得由熟習此技術之人士任施匠思而為諸般修飾,然皆不脫如附專利申請範圍所欲保護者。
1:影音通訊系統 2:麥克風陣列 3:影像處理裝置 4:音訊處理裝置 5:除噪處理裝置 6:語音辨識裝置 Yo:基準座標 Y1:第一座標 Y M:相對位置 L:選取指令 T:追蹤指令 D:目標深度 R1:相對位置 θ1:角度 δ:角度 X:目標音源 R:座標轉換矩陣 B:座標平移矩陣 S1、S2、S3、S4、S5、S6、S7、S8、S9、S61、S71:步驟
第1圖係為本案較佳實施例之影音通訊系統的電路結構示意圖。
第2圖係為本案較佳實施例之影音通訊系統的系統示意圖。
第3圖係為本案較佳實施例之影音通訊系統的使用者介面示意圖。
第4圖係為本案較佳實施例之影音通訊系統的位置關係示意圖。
第5圖係為本案較佳實施例之影音通訊系統之控制方法的流程圖。
第6圖係為本案另一較佳實施例之影音通訊系統之控制方法的流程圖。
第7圖係為本案另一較佳實施例之影音通訊系統之控制方法的流程圖。
1:影音通訊系統
2:麥克風陣列
3:影像處理裝置
4:音訊處理裝置
5:除噪處理裝置

Claims (10)

  1. 一種影音通訊系統,包含:複數個環境音源,對應具有複數個環境音;一麥克風陣列,包含複數個麥克風,其中該複數個麥克風接收並依據該複數個環境音分別輸出複數個接收音訊;一影像處理裝置,獲取包含該複數個環境音源在內的一影像,並利用一選取指令選擇該影像中該複數個環境音源中的一個作為一目標音源,其中該影像處理裝置依據該麥克風陣列與該影像處理裝置之間的一第一座標計算該目標音源與該麥克風陣列之間的一相對位置;一音訊處理裝置,連接於該影像處理裝置及該麥克風陣列,其中該音訊處理裝置接收並依據該複數個接收音訊及該相對位置計算出一目標音訊;以及一除噪處理裝置,連接於該音訊處理裝置,架構於接收該目標音訊並輸出一輸出音,其中該影像處理裝置包含特徵擷取演算法,該影像處理裝置係對該影像中之該複數個環境音源進行特徵擷取,並依照特徵擷取後的結果分別對每個環境音源建立對應之複數個標籤,再藉由該選取指令選擇該複數個標籤中的一個作為該目標音源。
  2. 如請求項1之影音通訊系統,其中該相對位置包含該目標音源與該麥克風陣列中每一該麥克風之間的一深度及一角度。
  3. 如請求項2之影音通訊系統,其中該音訊處理裝置依據該複數個深度及該複數個角度對該複數個接收音訊進行疊加或抵消,並輸出該目標音訊。
  4. 如請求項1之影音通訊系統,其中該音訊處理裝置接收並依據該複數個接收音訊及該相對位置計算出一雜訊音訊,且該除噪處理裝置接收並依據該目標音訊及該雜訊音訊輸出該輸出音。
  5. 如請求項1之影音通訊系統,其中該影像處理裝置在接收一追蹤指令時依據該目標音源所對應之該標籤持續追蹤該目標音源的一移動位置,並依據該移動位置持續更新該目標音源與該麥克風陣列之間的該相對位置。
  6. 如請求項1之影音通訊系統,還包含一語音辨識裝置,連接於該除噪處理裝置,其中該語音辨識裝置架構於接收並依據該輸出音即時輸出一字串。
  7. 如請求項1之影音通訊系統,其中該影像處理裝置和該麥克風陣列之間的該第一座標係為一預設值,該影像處理裝置依據該第一座標計算該目標音源與該麥克風陣列之間的該相對位置。
  8. 一種影音通訊系統之控制方法,包括步驟:(a)利用一麥克風陣列之複數個麥克風接收並依據複數個環境音分別輸出複數個接收音訊;(b)提供一影像處理裝置和該麥克風陣列之間的一第一座標;(c)利用該影像處理裝置獲取包含該複數個環境音源在內的一影像;(d)利用一選取指令選擇該影像中該複數個環境音源中的一個作為一目標音源;(e)利用該影像處理裝置依據該第一座標計算該目標音源與該麥克風陣列之間的一相對位置; (f)利用一音訊處理裝置接收並依據該複數個接收音訊及該相對位置計算出一目標音訊;以及(g)利用一除噪處理裝置接收該目標音訊並輸出一輸出音,其中該影像處理裝置包含特徵擷取演算法,該影像處理裝置係對該影像中之該複數個環境音源進行特徵擷取,並依照特徵擷取後的結果分別對每個環境音源建立對應之複數個標籤,再藉由該選取指令選擇該複數個標籤中的一個作為該目標音源。
  9. 如請求項8之影音通訊系統之控制方法,其中於該步驟(f)更包括步驟:(f1)利用該音訊處理裝置接收並依據該複數個接收音訊及該相對位置計算出一雜訊音訊,其中於該步驟(g)更包括步驟:(g1)利用該除噪處理裝置接收並依據該目標音訊及該雜訊音訊輸出該輸出音。
  10. 如請求項8之影音通訊系統之控制方法,還包括步驟:(h)在接收一追蹤指令時持續追蹤該目標音源的一移動位置;以及(i)依據該移動位置持續更新該目標音源與該麥克風陣列之間的該相對位置,並再次執行該步驟(f)。
TW109146725A 2020-12-29 2020-12-29 影音通訊系統及其控制方法 TWI751866B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109146725A TWI751866B (zh) 2020-12-29 2020-12-29 影音通訊系統及其控制方法
US17/207,419 US11501790B2 (en) 2020-12-29 2021-03-19 Audiovisual communication system and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109146725A TWI751866B (zh) 2020-12-29 2020-12-29 影音通訊系統及其控制方法

Publications (2)

Publication Number Publication Date
TWI751866B true TWI751866B (zh) 2022-01-01
TW202226823A TW202226823A (zh) 2022-07-01

Family

ID=80809215

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109146725A TWI751866B (zh) 2020-12-29 2020-12-29 影音通訊系統及其控制方法

Country Status (2)

Country Link
US (1) US11501790B2 (zh)
TW (1) TWI751866B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116233535B (zh) * 2023-01-05 2023-09-29 泰德网聚(北京)科技股份有限公司 一种基于数据流的视频添加背景音频方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6731334B1 (en) * 1995-07-31 2004-05-04 Forgent Networks, Inc. Automatic voice tracking camera system and method of operation
CN108200515A (zh) * 2017-12-29 2018-06-22 苏州科达科技股份有限公司 多波束会议拾音***及方法
TWM591655U (zh) * 2019-09-12 2020-03-01 大陸商南京深視光點科技有限公司 發言人員音訊及影像追蹤系統

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6469732B1 (en) * 1998-11-06 2002-10-22 Vtel Corporation Acoustic source location using a microphone array
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
KR100838239B1 (ko) * 2007-04-17 2008-06-17 (주)에스엠인스트루먼트 음질 표시 장치, 음질 표시 방법, 음질 표시 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
JP2009225379A (ja) * 2008-03-18 2009-10-01 Fujitsu Ltd 音声処理装置、音声処理方法、音声処理プログラム
US20100254543A1 (en) * 2009-02-03 2010-10-07 Squarehead Technology As Conference microphone system
CN102074016A (zh) * 2009-11-24 2011-05-25 杭州海康威视软件有限公司 运动目标自动跟踪的装置和方法
US8761412B2 (en) * 2010-12-16 2014-06-24 Sony Computer Entertainment Inc. Microphone array steering with image-based source location
US9084038B2 (en) * 2010-12-22 2015-07-14 Sony Corporation Method of controlling audio recording and electronic device
US20130028443A1 (en) 2011-07-28 2013-01-31 Apple Inc. Devices with enhanced audio
EP2766901B1 (en) * 2011-10-17 2016-09-21 Nuance Communications, Inc. Speech signal enhancement using visual information
TWI593294B (zh) 2013-02-07 2017-07-21 晨星半導體股份有限公司 收音系統與相關方法
US9753119B1 (en) * 2014-01-29 2017-09-05 Amazon Technologies, Inc. Audio and depth based sound source localization
US9584763B2 (en) 2014-11-06 2017-02-28 Cisco Technology, Inc. Automatic switching between dynamic and preset camera views in a video conference endpoint
US9621795B1 (en) * 2016-01-08 2017-04-11 Microsoft Technology Licensing, Llc Active speaker location detection
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
US10187579B1 (en) * 2017-06-30 2019-01-22 Polycom, Inc. People detection method for auto-framing and tracking in a video conference
TWI701609B (zh) 2018-01-04 2020-08-11 緯創資通股份有限公司 影像物件追蹤方法及其系統與電腦可讀取儲存媒體
TWI695632B (zh) 2018-02-22 2020-06-01 圓展科技股份有限公司 音訊控制裝置及其控制方法
US10979669B2 (en) 2018-04-10 2021-04-13 Facebook, Inc. Automated cinematic decisions based on descriptive models
TWM594202U (zh) 2019-10-21 2020-04-21 大陸商南京深視光點科技有限公司 發言人員音訊追蹤系統

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6731334B1 (en) * 1995-07-31 2004-05-04 Forgent Networks, Inc. Automatic voice tracking camera system and method of operation
CN108200515A (zh) * 2017-12-29 2018-06-22 苏州科达科技股份有限公司 多波束会议拾音***及方法
TWM591655U (zh) * 2019-09-12 2020-03-01 大陸商南京深視光點科技有限公司 發言人員音訊及影像追蹤系統

Also Published As

Publication number Publication date
US20220208203A1 (en) 2022-06-30
US11501790B2 (en) 2022-11-15
TW202226823A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
US11531518B2 (en) System and method for differentially locating and modifying audio sources
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
US9949056B2 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
JP6039111B2 (ja) マルチチャネルオーディオデータのビデオ解析支援生成
US20190215464A1 (en) Systems and methods for decomposing a video stream into face streams
JP4474013B2 (ja) 情報処理装置
CN111724823A (zh) 一种信息处理方法及装置、电子设备
JP2015019371A (ja) オーディオ処理装置
US11496830B2 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
WO2021013255A1 (zh) 一种声纹识别方法及装置
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
TWI751866B (zh) 影音通訊系統及其控制方法
US20120242860A1 (en) Arrangement and method relating to audio recognition
US11514108B2 (en) Content search
CN113014844A (zh) 一种音频处理方法、装置、存储介质及电子设备
US11546692B1 (en) Audio renderer based on audiovisual information
CN114513622A (zh) 说话人检测方法、设备、存储介质及程序产品
CN115516555A (zh) 用于多麦克风自动临床文档化的***和方法
JP2008197650A (ja) 音データ記録再生装置および音データ記録再生方法
Gebru et al. Audio-visual speech-turn detection and tracking
Pingali et al. Audio-visual tracking for natural interactivity
US11513762B2 (en) Controlling sounds of individual objects in a video
Al-Hames et al. A multi-modal mixed-state dynamic bayesian network for robust meeting event recognition from disturbed data
KR20220036210A (ko) 영상의 음질을 향상시키는 디바이스 및 방법
Hu et al. An embedded audio–visual tracking and speech purification system on a dual-core processor platform