KR20180056752A - 초광대역 음악을 위한 적응적 잡음 억제 - Google Patents

초광대역 음악을 위한 적응적 잡음 억제 Download PDF

Info

Publication number
KR20180056752A
KR20180056752A KR1020187011507A KR20187011507A KR20180056752A KR 20180056752 A KR20180056752 A KR 20180056752A KR 1020187011507 A KR1020187011507 A KR 1020187011507A KR 20187011507 A KR20187011507 A KR 20187011507A KR 20180056752 A KR20180056752 A KR 20180056752A
Authority
KR
South Korea
Prior art keywords
audio data
music
input audio
user
noise suppression
Prior art date
Application number
KR1020187011507A
Other languages
English (en)
Inventor
두민다 아쇼카 데와수렌드라
비베크 라젠드란
수바싱하 샤민다 수바싱하
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20180056752A publication Critical patent/KR20180056752A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

적어도 초광대역 (SWB) 대역폭들까지 스피치 신호들 및 음악 신호들 양자의 핸들링을 향상시키기 위해 적응적 잡음 억제를 수행하는 기법들이 기술된다. 그 기법들은 오디오 데이터가 캡쳐되는 콘텍스트 또는 환경을 식별하는 것, 및 콘텍스트에 기초하여 대역폭 압축 (예를 들어, 인코딩) 이전에 오디오 데이터에 적용되는 잡음 억제의 레벨을 적응적으로 변경하는 것을 포함한다. 유효한 스피치 콘텍스트의 경우, 오디오 프리프로세서는 스피치 신호들에서 (음악을 포함하는) 잡음을 억제하기 위해 상대적으로 공격적인 잡음 억제의 제 1 레벨을 설정할 수도 있다. 유효한 음악 콘텍스트의 경우, 오디오 프리프로세서는 음악 신호들을 왜곡되지 않은 채 남겨두기 위해 덜 공격적인 잡음 억제의 제 2 레벨을 설정할 수도 있다. 이러한 식으로, 송신기측 무선 통신 디바이스의 보코더는 최소의 왜곡들로 스피치 및 음악 신호들 양자를 적절하게 인코딩할 수도 있다.

Description

초광대역 음악을 위한 적응적 잡음 억제
본 개시는 오디오 신호 프로세싱에 관한 것으로서, 특히 오디오 신호들에 잡음 억제를 적용하는 것에 관한 것이다.
무선 통신 디바이스들 (예를 들어, 이동 전화들, 스마트폰들, 스마트 패드들, 랩톱들, 태블릿들 등) 은 잡음 환경에서 사용될 수도 있다. 예를 들어, 이동 전화는 송신기측에서 도입되는 환경, 배경, 또는 주위 잡음이 수신기측에서 양해도 (intelligibility) 를 감소시키고 스피치 품질을 열화시키는 콘서트, 바, 또는 레스토랑에서 사용될 수도 있다. 무선 통신 디바이스들은, 따라서, 통상적으로 코딩 및 송신을 위해 보코더로 스피치 신호들을 제공하기 전에 잡음을 감소시키고 스피치 신호들을 클린업 (clean-up) 하기 위해 송신기측 오디오 프리프로세서에 잡음 억제를 포함시킨다.
사용자가 음악 속에서 송신기측 무선 통신 디바이스상에서 이야기하고 있는 경우에, 또는 사용자가 수신기측 디바이스로의 송신을 위해 음악 자체를 캡쳐하기를 시도하고 있는 경우에, 잡음 억제는 음악 신호들을 임의의 스피치 신호들의 양해도를 향상시키기 위해 제거될 잡음으로서 취급한다. 따라서, 음악 신호들은 수신기측에서의 청취자가 송신기측에서의 음악 신호들의 저품질 재생을 듣도록 대역폭 압축 (예를 들어, 인코딩) 및 송신 이전에 잡음 억제에 의해 억제 및 왜곡된다.
일반적으로, 본 개시는 적어도 초광대역 (SWB) 대역폭까지 스피치 신호들 및 음악 신호들 양자의 핸들링을 향상시키기 위해 적응적 잡음 억제를 수행하는 기법들을 기술한다. 개시된 기법들은 오디오 데이터가 캡쳐되는 콘텍스트 또는 환경을 식별하는 것, 및 콘텍스트에 기초하여 오디오 데이터의 대역폭 압축 (예를 들어, 인코딩) 이전에 오디오 데이터에 적용되는 잡음 억제의 레벨을 적응적으로 변경하는 것을 포함한다. 오디오 데이터가 유효한 스피치 콘텍스트를 갖는 (즉, 사용자가 스피치 신호들을 주로 송신하기를 의도하는) 경우, 오디오 프리프로세서는 스피치 신호들에서 (음악을 포함하는) 잡음을 억제하기 위해 상대적으로 공격적인 잡음 억제의 제 1 레벨을 설정할 수도 있다. 오디오 데이터가 유효한 음악 콘텍스트를 갖는 (즉, 사용자가 음악 신호들 또는 음악 및 스피치 신호들 양자를 주로 송신하기를 의도하는) 경우, 오디오 프리프로세서는 음악 신호들을 왜곡되지 않은 채 남겨두기 위해 덜 공격적인 잡음 억제의 제 2 레벨을 설정할 수도 있다. 이러한 식으로, 송신기측 무선 통신 디바이스의 보코더는 최소의 왜곡들로 스피치 및 음악 신호들 양자를 적절하게 압축 또는 인코딩할 수도 있다.
하나의 예에서, 본 개시는 음성 및 데이터 통신들을 제공하도록 구성된 디바이스로 지향되며, 그 디바이스는, 입력 오디오 데이터에 가변 레벨의 잡음 억제의 적용 전에, 입력 오디오 데이터의 오디오 콘텍스트를 획득하는 것으로서, 상기 입력 오디오 데이터는 스피치 신호들, 음악 신호들, 및 잡음 신호들을 포함하는, 상기 오디오 콘텍스트를 획득하고; 오디오 콘텍스트에 기초하여 오디오 인코더로 입력 오디오 데이터의 대역폭 압축 이전에 입력 오디오 데이터에 가변 레벨의 잡음 억제를 적용하며; 적어도 하나의 오디오 인코더 패킷을 생성하기 위해 입력 오디오 데이터를 대역폭 압축하도록 구성된 하나 이상의 프로세서들을 포함한다. 디바이스는 적어도 하나의 오디오 인코더 패킷을 저장하도록 구성된, 하나 이상의 프로세서들에 전기적으로 커플링된 메모리, 및 적어도 하나의 오디오 인코더 패킷을 송신하도록 구성된 송신기를 더 포함한다.
다른 예에서, 본 개시는 잡음 억제가 가능한 장치로 지향되며, 그 장치는, 입력 오디오 데이터에 가변 레벨의 잡음 억제의 적용 전에, 입력 오디오 데이터의 오디오 콘텍스트를 획득하는 수단으로서, 상기 입력 오디오 데이터는 스피치 신호들, 음악 신호들, 및 잡음 신호들을 포함하는, 상기 오디오 콘텍스트를 획득하는 수단; 오디오 콘텍스트에 기초하여 오디오 인코더로 입력 오디오 데이터의 대역폭 압축 이전에 입력 오디오 데이터에 가변 레벨의 잡음 억제를 적용하는 수단; 적어도 하나의 오디오 인코더 패킷을 생성하기 위해 입력 오디오 데이터를 대역폭 압축하는 수단; 및 적어도 하나의 오디오 인코더 패킷을 송신하는 수단을 포함한다.
다른 예에서, 본 개시는 음성 및 데이터 통신들에서 사용되는 방법으로 지향되며, 그 방법은, 소스 디바이스의 사용자와 목적지 디바이스의 사용자 사이의 대화 동안, 입력 오디오 데이터의 오디오 콘텍스트를 획득하는 단계로서, 음악은 소스 디바이스의 사용자로부터의 입력 오디오 데이터에 가변 레벨의 잡음 억제의 적용 전에, 소스 디바이스의 사용자의 배경에서 재생되고 있고, 상기 입력 오디오 데이터는 소스 디바이스의 사용자의 음성 및 소스 디바이스의 사용자의 배경에서 재생되는 음악을 포함하는, 상기 오디오 콘텍스트를 획득하는 단계; 스피치 또는 음악, 또는 스피치 및 음악 양자 모두인 오디오 콘텍스트를 포함하는 오디오 콘텍스트에 기초하여 오디오 인코더로 입력 오디오 데이터의 대역폭 압축 이전에 입력 오디오 데이터에 가변 레벨의 잡음 억제를 적용하는 단계; 적어도 하나의 오디오 인코더 패킷을 생성하기 위해 입력 오디오 데이터를 대역폭 압축하는 단계; 및 소스 디바이스로부터 목적지 디바이스로 적어도 하나의 오디오 인코더 패킷을 송신하는 단계를 포함한다.
기법들의 하나 이상의 양태들의 상세들은 첨부하는 도면들 및 이하의 설명에서 진술된다. 본 기법들의 다른 특징들, 목적들 및 이점들은 상세한 설명 및 도면으로부터, 및 청구범위로부터 명백할 것이다.
도 1 은 본 개시에 기술된 기법들을 이용할 수도 있는 예시의 오디오 인코딩 및 디코딩 시스템 (10) 을 도시하는 블록도이다.
도 2 는 본 개시에 기술된 기법들을 구현할 수도 있는 소스 디바이스의 오디오 프리프로세서의 예를 도시하는 블록도이다.
도 3 은 본 개시에 기술된 기법들을 구현할 수도 있는 소스 디바이스의 오디오 프리프로세서의 대안적인 예를 도시하는 블록도이다.
도 4 는 본 개시에 기술된 기법들에 따른, 적응적 잡음 억제를 수행하도록 구성된 오디오 프리프로세서의 예시의 동작을 도시하는 플로우챠트이다.
본 개시는 본 개시는 적어도 초광대역 (SWB) 대역폭까지 스피치 신호들 및 음악 신호들 양자의 핸들링을 향상시키기 위해 적응적 잡음 억제를 수행하는 기법들을 기술한다. 무선 통신 디바이스의 오디오 프리프로세서에 포함된 종래의 잡음 억제 유닛들은 인코딩될 스피치 신호들의 양해도를 향상시키기 위해 비스피치 신호들을 잡음으로서 압축하도록 구성된다. 이러한 스타일의 잡음 억제는 적응적 다중-레이트 (AMR) 또는 적응적 다중-레이트 광대역 (AMRWB) 과 같은 전통적인 스피치 코덱들에 따라 동작하도록 구성된 보코더들과 잘 작동한다. 이들 전통적인 스피치 코덱들은 예를 들어 대수 코드 여기 선형 예측 (ACELP) 을 사용하여 저대역폭들에서 스피치 신호들을 코딩 (즉, 인코딩 또는 디코딩) 할 수 있지만, 고품질 음악 신호들을 코딩할 수 없다. 최근 표준화된 인핸스드 음성 서비스들 (EVS) 코덱은 초광대역 대역폭들 (즉, 0-16 kHz) 또는 심지어 풀 (full) 대역 대역폭들 (즉, 0-24 kHZ) 까지의 음악 신호들 뿐아니라 스피치 신호들을 코딩할 수 있다. 그러나, 종래의 잡음 억제 유닛들은 인코딩 이전에 음악 신호들을 계속 억제 및 왜곡한다.
본 개시에 기술된 기법들은 오디오 데이터 (스피치, 음악, 또는 스피치 및 음악) 가 캡쳐되는 콘텍스트 또는 환경을 식별하는 것, 및 콘텍스트에 기초하여 오디오 데이터의 인코딩 이전에 오디오 데이터에 적용되는 잡음 억제의 레벨을 적응적으로 변경하는 것을 포함한다. 예를 들어, 개시된 기법들에 따르면, 무선 통신 디바이스는 오디오 데이터가 유효한 스피치 콘텍스트 또는 유효한 음악 콘텍스트에서 캡쳐되는지 여부를 결정하기 위해 사용되는 송신기측 오디오 프리프로세서 내의 스피치-음악 (SPMU) 분류기, 근접 센서, 또는 다른 검출기들 중 하나 이상을 포함할 수도 있다.
오디오 데이터가 유효한 스피치 콘텍스트를 갖는 (즉, 사용자가 청취자와 대화에 종사하기 위해 스피치 신호들을 주로 송신할 것을 의도하는) 경우에, 오디오 프리프로세서는 코딩 및 송신을 위해 보코더로 스피치 신호들을 전달하기 전에 (음악을 포함하는) 잡음을 억제하기 위해 상대적으로 공격적인 제 1 레벨의 잡음 억제를 설정할 수도 있다. 오디오 데이터가 유효한 음악 콘텍스트를 갖는 (즉, 사용자가 청취자가 경험할 음악 신호들 또는 음악 및 스피치 신호들 양자를 주로 송신하기를 의도하는) 경우, 오디오 프리프로세서는 왜곡되지 않은 음악 신호들이 코딩 및 송신을 위해 보코더로 전달되는 것을 허용하기 위해 덜 공격적인 제 2 레벨의 잡음 억제를 설정할 수도 있다. 이러한 식으로, 송신기측 무선 통신 디바이스에서 EVS 코덱에 따라 동작하도록 구성된 보코더는 SWB 음악 신호들에 대한 최소의 왜곡들로 수신기측 디바이스에서 오디오 장면의 완전한 재생을 가능하게 하기 위해 스피치 및 음악 신호들 양자를 적절하게 인코딩할 수도 있다.
도 1 은 본 개시에 기술된 기법들을 이용할 수도 있는 예시의 오디오 인코딩 및 디코딩 시스템 (10) 을 도시하는 블록도이다. 도 1 에 도시된 바와 같이, 시스템 (10) 은 목적지 디바이스 (14) 에 의해 나중 시간에 디코딩될 인코딩된 오디오 데이터를 제공하는 소스 디바이스 (12) 를 포함한다. 특히, 소스 디바이스 (12) 는 컴퓨터 판독가능 매체 (16) 를 통해 목적지 디바이스 (14) 에 포함된 수신기 (RX) (31) 로 오디오 데이터를 송신하기 위해 사용되는 송신기 (TX) (21) 를 포함한다. 소스 디바이스 (12) 및 목적지 디바이스 (14) 는 데스크톱 컴퓨터들, 노트북 (즉, 랩톱) 컴퓨터들, 태블릿 컴퓨터들, 셋톱 박스들, 소위 "스마트" 폰들, 소위 "스마트" 패드들과 같은 이동 전화 핸드셋들, 텔레비젼들, 카메라들, 디스플레이 디바이스들, 디지털 미디어 재생기들, 비디오 게이밍 콘솔들, 비디오 스트리밍 디바이스들, 오디오 스트리밍 디바이스들, 웨어러블 디바이스들 등을 포함하는 임의의 광범위한 디바이스들을 포함할 수도 있다. 일부 경우들에서, 소스 디바이스 (12) 및 목적지 디바이스 (14) 는 무선 통신을 위해 구비될 수도 있다.
목적지 디바이스 (14) 는 컴퓨터 판독가능 매체 (16) 를 통해 디코딩될 인코딩된 오디오 데이터를 수신할 수도 있다. 컴퓨터 판독가능 매체 (16) 는 소스 디바이스 (12) 로부터 목적지 디바이스 (14) 로 인코딩된 오디오 데이터를 이동시킬 수 있는 임의의 타입의 매체 또는 디바이스를 포함할 수도 있다. 하나의 예에서, 컴퓨터 판독가능 매체 (16) 는 소스 디바이스 (12) 가 실시간으로 목적지 디바이스 (14) 로 직접 인코딩된 오디오 데이터를 송신하는 것을 가능하게 하는 통신 매체를 포함할 수도 있다. 인코딩된 오디오 데이터는 무선 통신 프로토콜과 같은 통신 표준에 따라 변조되고, 목적지 디바이스 (14) 로 송신될 수도 있다. 통신 매체는 무선 주파수 (RF) 스펙트럼 또는 하나 이상의 물리적 송신 라인들과 같은 임의의 무선 또는 유선 통신 매체를 포함할 수도 있다. 통신 매체는 로컬 영역 네트워크, 광역 네트워크, 또는 인터넷과 같은 글로벌 네트워크와 같은 패킷 기반 네트워크의 부분을 형성할 수도 있다. 통신 매체는 라우터들, 스위치들, 기지국들, 또는 소스 디바이스 (12) 로부터 목적지 디바이스 (14) 로의 통신을 용이하게 하는데 유용할 수도 있는 임의의 다른 장비를 포함할 수도 있다.
일부 예들에서, 인코딩된 오디오 데이터는 소스 디바이스 (12) 로부터 저장 디바이스 (도시하지 않음) 로 출력될 수도 있다. 유사하게, 인코딩된 오디오 데이터는 목적지 디바이스 (14) 에 의해 저장 디바이스로부터 액세스될 수도 있다. 저장 디바이스는 하드 드라이브, 불루레이 디스크들, DVD 들, CD-ROM 들, 플래시 메모리, 휘발성 또는 비휘발성 메모리, 또는 인코딩된 오디오 데이터를 저장하기 위한 임의의 다른 적합한 디지털 저장 매체들과 같은 임의의 다양한 분포되거나 로컬로 액세스되는 데이터 저장 매체들을 포함할 수도 있다. 다른 예에서, 저장 디바이스는 소스 디바이스 (12) 에 의해 생성된 인코딩된 오디오를 저장할 수도 있는 파일 서버 또는 다른 중간 저장 디바이스에 대응할 수도 있다. 목적지 디바이스 (14) 는 스트리밍 또는 다운로드를 통해 저장 디바이스로부터 저장된 오디오 데이터를 액세스할 수도 있다. 파일 서버는 인코딩된 오디오 데이터를 저장하고 목적지 디바이스 (14) 로 그 인코딩된 오디오 데이터를 송신할 수 있는 임의의 타입의 서버일 수도 있다. 예시의 파일 서버들은 (예를 들어, 웹 사이트용의) 웹 서버, FTP 서버, 네트워크 부착 스토리지 (NAS) 디바이스들, 또는 로컬 디스크 드라이브를 포함한다. 목적지 디바이스 (14) 는 인터넷 연결을 포함하는 임의의 표준 데이터 연결을 통해 인코딩된 오디오 데이터를 액세스할 수도 있다. 이것은 무선 채널 (예를 들어, Wi-Fi 연결), 유선 연결 (예를 들어, DSL, 케이블 모뎀 등), 또는 파일 서버에 저장된 인코딩된 오디오 데이터를 액세스하는데 적합한 양자의 조합을 포함할 수도 있다. 저장 디바이스로부터의 인코딩된 오디오 데이터의 송신은 스트리밍 송신, 다운로드 송신, 또는 이들의 조합일 수도 있다.
도 1 의 도시된 시스템 (10) 은 단순히 하나의 예일 뿐이다. 오디오 데이터를 프로세싱하기 위한 기법들은 임의의 디지털 오디오 인코딩 또는 디코딩 디바이스에 의해 수행될 수도 있다. 일반적으로 본 개시의 기법들은 오디오 프리프로세서에 의해 수행되지만, 그 기법들은 또한 오디오 인코딩 디바이스 또는 통상적으로 "코덱" 또는 "보코더" 로서 지칭되는 오디오 인코더/디코더에 의해 수행될 수도 있다. 소스 디바이스 (12) 및 목적지 디바이스 (14) 는 단순히 소스 디바이스 (12) 가 목적지 디바이스 (14) 로의 송신을 위해 코딩딘 오디오 데이터를 생성하는 그러한 코딩 디바이스들의 예들일 뿐이다. 일부 예들에서, 디바이스들 (12, 14) 은 디바이스들 (12, 14) 각각이 오디오 인코딩 및 디코딩 컴포넌트들을 포함하도록 실질적으로 대칭적 방식으로 동작할 수도 있다. 이리하여, 시스템 (10) 은 예를 들어 오디오 스트리밍, 오디오 재생, 오디오 브로드캐스팅, 또는 오디오 전화를 위해 디바이스들 (12, 14) 사이의 일방향 또는 양방향 오디오 송신을 지원할 수도 있다.
도 1 의 예에서, 소스 디바이스 (12) 는 마이크로폰들 (18), 오디오 프리프로세서 (22), 및 오디오 인코더 (20) 를 포함한다. 목적지 디바이스 (14) 는 오디오 디코더 (30) 및 스피커들 (32) 을 포함한다. 다른 예들에서, 소스 디바이스 (12) 는 또한 그자신의 오디오 디코더를 포함할 수도 있고, 목적지 디바이스 (14) 는 또한 그자신의 오디오 인코더를 포함할 수도 있다. 도시된 예에서, 소스 디바이스 (12) 는 입력 오디오 데이터를 캡쳐하도록 구성된 마이크로폰 어레일르 포함할 수도 있는 하나 이상의 외부 마이크로폰들 (18) 로부터 오디오 데이터를 수신한다. 마찬가지로, 목적지 디바이스 (14) 는 스피커 어레이를 포함할 수도 있는 하나 이상의 외부 스피커들 (32) 과 인터페이싱한다. 다른 예들에서, 소스 디바이스 및 목적지 디바이스는 다른 컴포넌트들 및 배열들을 포함할 수도 있다. 예를 들어, 소스 디바이스 (12) 는 하나 이상의 집적된 마이크로폰들과 같은 집적된 오디오 소스로부터 오디오 데이터를 수신할 수도 있다. 마찬가지로, 목적지 디바이스 (14) 는 하나 이상의 집적된 스피커들과 같은 집적된 오디오 출력 디바이스로 오디오 데이터를 출력할 수도 있다.
일부 예들에서, 마이크로폰들 (18) 은 소스 디바이스 (12) 에 물리적으로 커플링될 수도 있거나, 소스 디바이스 (12) 와 무선으로 통신하고 있을 수도 있다. 소스 디바이스 (12) 와의 무선 통신을 설명하기 위해, 도 1 은 마이크로폰들 (18) 이 소스 디바이스 (12) 의 외부에 있는 것을 보여준다. 다른 예들에서, 마이크로폰들 (18) 은 마이크로폰들 (18) 에 대한 소스 디바이스 (12) 의 물리적 커플링을 설명하기 위해 소스 디바이스 (12) 내부에 도시되었을 수도 있다. 유사하게, 스피커들 (32) 은 목적지 디바이스 (14) 에 물리적으로 커플링될 수도 있거나, 목적지 디바이스 (14) 와 무선으로 통신하고 있을 수도 있다. 목적지 디바이스 (14) 와의 무선 통신을 설명하기 위해, 도 1 은 스피커들 (32) 이 목적지 디바이스 (14) 의 외부에 있는 것을 보여준다. 다른 예들에서, 스피커들 (32) 은 스피커들 (32) 에 대한 목적지 디바이스 (14) 의 물리적 커플링을 설명하기 위해 목적지 디바이스 (14) 내부에 도시되었을 수도 있다.
일부 예들에서, 소스 디바이스 (12) 의 마이크로폰들 (18) 은 소스 디바이스 (12) 로 통합된 적어도 하나의 마이크로폰을 포함할 수도 있다. 소스 디바이스 (12) 가 이동 전화를 포함하는 하나의 예에서, 마이크로폰들 (18) 은 사용자의 스피치를 픽업하기 위해 사용자의 입 근처에 위치되는 적어도 "전방" 마이크로폰을 포함할 수도 있다. 소스 디바이스 (12) 가 이동 전화를 포함하는 다른 예에서, 마이크로폰들 (18) 은 사용자의 입 건처에 위치되는 "전방" 마이크로폰 및 환경, 배경, 또는 주위 잡음을 픽업하기 위해 이동 전화 후방에 위치되는 "후방" 마이크로폰 양자 모두를 포함할 수도 있다. 다른 예에서, 마이크로폰들 (18) 은 소스 디바이스 (12) 로 집적된 마이크로폰들의 어레이를 포함할 수도 있다. 다른 예들에서, 소스 디바이스 (12) 는 오디오 인터페이스를 통해 하나 이상의 외부 마이크로폰들로부터 오디오 데이터를 수신하거나, 이전에 캡쳐된 오디오를 포함하는 메모리 또는 오디오 아카이브로부터 오디오 데이터를 취출하거나, 오디오 데이터 자체를 생성할 수도 있다. 캡쳐되거나, 프리캡쳐되거나, 또는 컴퓨터 생성된 오디오는 오디오 인코더 (20) 에 의해 대역폭 압축되고 인코딩될 수도 있다. 적어도 하나의 오디오 인코더 패킷에서의 인코딩된 오디오 데이터는 그 후 컴퓨터 판독가능 매체 (16) 상으로 소스 디바이스 (12) 의 TX (21) 에 의해 송신될 수도 있다.
컴퓨터 판독가능 매체 (16) 는 무선 브로드캐스트 또는 유선 네트워크 송신과 같은 일시적인 매체들, 또는 하드 디스크, 플래시 드라이브, 컴팩트 디스크, 디지털 비디오 디스크, 블루레이 디스크, 또는 다른 컴퓨터 판독가능 매체들과 같은 저장 매체들 (즉, 비일시적 저장 매체들) 을 포함할 수도 있다. 일부 예들에서, 네트워크 서버 (도시하지 않음) 는 소스 디바이스 (12) 로부터 인코딩된 오디오 데이터를 수신하고 예를 들어 네트워크 송신을 통해 목적지 디바이스 (14) 로 인코딩된 오디오 데이터를 제공할 수도 있다. 유사하게, 디스크 스탬핑 시설과 같은 매체 제조 시설의 컴퓨팅 디바이스는 소스 디바이스 (12) 로부터 인코딩된 오디오 데이터를 수신하고 인코딩된 오디오 데이터를 포함하는 디스크를 생성할 수도 있다. 따라서, 컴퓨터 판독가능 매체 (16) 는 여러 예들에서 여러 형태들의 하나 이상의 컴퓨터 판독가능 매체들을 포함하는 것으로 이해될 수도 있다.
목적지 디바이스 (14) 는 RX (31) 로 오디오 디코더 (30) 에 의한 디코딩을 위해 컴퓨터 판독가능 매체 (16) 로부터 적어도 하나의 오디오 인코더 패킷에서 인코딩된 오디오 데이터를 수신할 수도 있다. 스피커들 (32) 은 사용자에게 디코딩된 오디오 데이터를 재생한다. 목적지 디바이스 (14) 의 스피커들 (32) 은 목적지 디바이스 (14) 에 통합된 적어도 하나의 스피커를 포함할 수도 있다. 목적지 디바이스 (14) 가 이동 전화를 포함하는 하나의 예에서, 스피커들 (32) 은 전통적인 전화로서의 사용을 위해 사용자의 귀 근처에 위치되는 "전방" 스피커를 적어도 포함할 수도 있다. 목적지 디바이스 (14) 가 이동 전화를 포함하는 다른 예에서, 스피커들 (32) 은 사용자의 귀 근처에 위치되는 "전방" 스피커 및 스피커 폰으로서 사용을 용이하게 하기 위해 이동 전화상의 어디에 든지 위치되는 "측방" 또는 "후방" 스피커 양자 모두를 포함할 수도 있다. 다른 예에서, 스피커들 (32) 은 목적지 디바이스 (14) 로 통합된 스피커들의 어레이를 포함할 수도 있다. 다른 예들에서, 목적지 디바이스 (14) 는 오디오 인터페이스를 통해 하나 이상의 외부 스피커들상에서의 재생을 위해 디코딩된 오디오 데이터를 전송할 수도 있다. 이러한 방식으로, 목적지 디바이스 (14) 는 목적지 디바이스 (14) 에 의해 수신된 적어도 하나의 오디오 인코더 패킷을 디코딩하도록 구성된 오디오 디코더 (30) 의 출력을 렌더링하도록 구성된 스피커들 (32) 중 적어도 하나를 포함한다.
오디오 인코더 (20) 및 오디오 디코더 (30) 는 각각 하나 이상의 마이크로프로세서들, 디지털 신호 프로세서들 (DSPs), 주문형 반도체들 (ASICs), 필드 프로그램가능 게이트 어레이들 (FPGAs), 이산 로직, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합들과 같은 임의의 다양한 적합한 인코더 회로로서 구현될 수도 있다. 기법들이 소프트웨어로 부분적으로 구현되는 경우, 디바이스는 적합한, 비일시적 컴퓨터 판독가능 매체에 그 소프트웨얼르 위한 명령들을 저장하고 본 개시의 기법들을 수행하기 위해 하나 이상의 프로세서들을 사용하여 하드웨어로 명령들을 실행할 수도 있다. 오디오 인코더 (20) 및 오디오 디코더 (30) 의 각각은 하나 이상의 인코더들 또는 디코더들에 포함될 수도있고, 이들은 각각의 디바이스에서 결합된 인코더/디코더 (코덱 또는 보코더) 의 부분으로서 통합될 수도 있다.
또한, 소스 디바이스 (12) 는 메모리 (13) 를 포함하고 목적지 디바이스 (14) 는 동작 동안 정보를 저장하도록 구성된 메모리 (15) 를 포함한다. 통합된 메모리는 컴퓨터 판독가능 저장 매체 또는 컴퓨터 판독가능 저장 디바이스를 포함할 수도 있다. 일부 예들에서, 통합된 메모리는 단기 메모리 또는 장기 메모리 중 하나 이상을 포함할 수도 있다. 통합된 메모리는 예를 들어 랜덤 액세스 메모리 (RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리 (SRAM), 자기 하드 디스크들, 광디스크들, 플로피 디스크들, 플래시 메모리, 전기적으로 프로그램가능한 메모리 (EPROM) 또는 전기적으로 소거가능하고 프로그램가능한 메모리 (EEPROM) 의 형태들을 포함할 수도 있다. 일부 예들에서, 통합된 메모리는 하나 이상의 프로세서들에 의한 실행을 위한 프로그램 명령들을 저장하기 위해 사용될 수도 있다. 통합된 메모리는 프로그램 실행 동안 정보를 일시적으로 저장하기 위해 소스 디바이스 (12) 및 목적지 디바이스 (14) 의 각각상에서 실행하는 소프트웨어 또는 애플리케이션들에 의해 사용될 수도 있다.
이러한 식으로, 소스 디바이스 (12) 는 하나 이상의 프로세서들에 전기적으로 커플링되고 적어도 하나의 오디오 인코더 패킷을 저장하도록 구성된 메모리 (13), 및 공중을 통해 적어도 하나의 오디오 인코더 패킷을 송신하도록 구성된 송신기 (21) 를 포함한다. 여기에 사용된 바와 같이, "커플링된" 은 "통신적으로 커플링된", "전기적으로 커플링된", 또는 "물리적으로 커플링된" 및 이들의 조합들을 포함할 수도 있다. 2 개의 디바이스들 (또는 컴포넌트들) 은 직접 또는 하나 이상의 다른 디바이스들, 컴포넌트들, 와이어들, 버스들, 네트워크들 (예를 들어, 유선 네트워크, 무선 네트워크, 또는 이들의 조합) 등을 통해 간접으로 커플링될 (예를 들어, 통신적으로 커플링될, 전기적으로 커플링될, 또는 물리적으로 커플링될) 수도 있다. 전기적으로 커플링되는 2 개의 디바이스들 (또는 컴포넌트들) 은 동일한 디바이스에 또는 상이한 디바이스들에 포함될 수도 있고 예시적인, 비제한적인 예들로서 일렉트로닉스, 하나 이상의 커넥터들, 또는 유도성 커플링을 통해 연결될 수도 있다. 일부 구현들에서, 전기 통신에서와 같이 통신적으로 커플링되는 2 개의 디바이스들 (또는 컴포넌트들) 은 예를 들어 하나 이상의 와이어들, 버스들, 네트워크들 등을 통해 직접 또는 간접으로 전기 신호들 (디지털 신호들 또는 아날로그 신호) 을 전송 및 수신할 수도 있다. 예를 들어, 메모리 (13) 는 오디오 인코더 (20) 및 잡음 억제 유닛 (24) 을 실행하는 프리프로세서 (22) 를 포함할 수도 있는 소스 디바이스 (12) 의 하나 이상의 프로세서들과 전기 통신할 수도 있다. 다른 예로서, 메모리 (15) 는 오디오 디코더 (30) 를 포함할 수도 있는 목적지 디바이스 (14) 의 하나 이상의 프로세서들에 전기적으로 커플링될 수도 있다.
일부 예들에서, 소스 디바이스 (12) 및 목적지 디바이스 (14) 는 잡음 환경들에서 사용될 수도 있는 이동 전화들이다. 예를 들어, 소스 디바이스 (12) 는 소스 디바이스 (12) 에서 도입된 환경, 배경, 또는 주위 잡음이 목적지 디바이스 (14) 에서 양해도를 감소시키고 스피치 품질을 열화시키는 콘서트, 바, 또는 레스토랑에서 사용될 수도 있다. 따라서, 소스 디바이스 (12) 는 대역폭 압축, 코딩, 및 목적지 디바이스 (14) 로의 송신을 위해 오디오 인코더 (20) 로 스피치 신호들을 제공하기 전에 잡음을 감소시키고 스피치 신호들을 개선 (또는, 다시 말해서, 클린업) 하기 위해 오디오 프리프로세서 (22) 내에 잡음 억제 유닛 (24) 을 포함한다.
일반적으로, 잡음 억제는 사용자가 송신기측 환경에서 말하고 있는 동안 마이크로폰에 의해 캡쳐된 배경 잡음을 억제하기 위해 사용되는 송신기측 기술이다. 잡음 억제는 수신기측 환경에서 마주치게 되는 임의의 잡음을 소거하기 위해 사용되는 수신기측 기술인 활성 잡음 소거 (active noise cancellation: ANC) 와 혼동되지 않아야 한다. 잡음 억제는 인코딩 동안 캡쳐된 오디오 데이터를 준비하기 위해 송신기측에서 프리프로세싱 동안 수행된다. 즉, 잡음 억제는 잡음 억제를 사용하여 프리프로세싱되지 않은 인코딩된 오디오 데이터에 비해 더 작은 (사이즈 면에서) 인코딩된 오디오 데이터를 야기하는 인코딩 동안 더 효율적인 압축이 달성되는 것을 허용하기 위해 잡음을 감소시킬 수도 있다. 이와 같이, 잡음 억제는 오디오 인코더 (20) 내에서 수행되는 것이 아니라, 대신에 오디오 프리프로세서 (22) 에서 수행되고, 오디오 프리프로세서 (22) 에서의 잡음 억제의 출력은 오디오 인코더 (20) 에 대한 입력이며, 때때로 사이에 다른 사소한 프로세싱이 존재한다.
잡음 억제는 협대역 (NB) (즉, 0-4 kHz), 광대역 (WB) (즉, 0-7 kHz), 초광대역 (SWB) (즉, 0-16 kHz), 또는 풀 대역 (FB) (즉, 0-24 kHz) 대역폭들에서 동작할 수도 이다. 예를 들어, 잡음 억제에 대한 입력 오디오 데이터가 SWB 컨텐츠인 경우, 잡음 억제는 범위 0-16 kHz 에서의 모든 주파수들에서 잡음을 억제하도록 오디오 데이터를 프로세싱할 수도 있고, 의도된 출력은 범위 0-16 kHz 에서의 깨끗한 스피치 신호들이다. 입력 오디오 데이터 대역폭이 높은, 예를 들어 FB 대역폭인 경우, 잡음 억제의 고속 푸리에 변환 (FFT) 은 입력 오디오 데이터를 더 많은 주파수 대역들로 분할할 수도 있고 포스트 프로세싱 이득들은 그 주파수 대역들의 각각에 대해 결정 및 적용될 수도 있다. 나중에, 잡음 억제의 역 FFT (IFFT) 는 주파수 대역들 사이에 분할된 오디오 데이터를 잡음 억제의 단일의 출력 신호로 결합할 수도 있다.
사용자가 음악 속에서 소스 디바이스 (12) 상에서 이야기하고 있는 경우에, 또는 사용자가 목적지 디바이스 (14) 로 송신을 위해 음악 자체를 캡쳐하기를 시도하고 있는 경우에, 오디오 프리프로세싱 동안의 종래의 잡음 억제는 스피치 신호들의 양해도를 향상시키기 위해 음악 신호들을 제거될 잡음으로서 취급한다. 따라서, 음악 신호들은 목적지 디바이스 (14) 에서 청취하는 사용자가 음악 신호들의 저품질 재생을 듣도록 인코딩 및 송신 이전에 종래의 잡음 억제에 의해 억제 및 왜곡된다.
종래의 잡음 억제는 적응적 다중-레이트 (AMR) 또는 적응적 다중-레이트 광대역 (AMRWB) 과 같은 전통적 스피치 코덱들에 따라 동작하도록 구성된 보코더들과 잘 작동한다. 이들 전통적인 스피치 코덱들은 예를 들어 대수 코드 여기 선형 예측 (ACELP) 을 사용하여 저대역폭들에서 스피치 신호들을 코딩 (즉, 인코딩 또는 디코딩) 할 수 있지만, 고품질 음악 신호들을 코딩할 수 없다. 예를 들어, AMR 및 AMRWB 코덱들은 인커밍 오디오 데이터를 스피치 컨텐츠 또는 음악 컨텐츠로서 분류하지 않고, 이에 따라 인코딩한다. 대신에, AMR 및 AMRWB 코덱들은 모든 비잡음 신호들을 스피치 컨텐츠로서 취급하고 ACELP 를 사용하여 스피치 컨텐츠를 코딩한다. 따라서, AMR 및 AMRWB 코덱들에 따라 코딩된 음악의 품질은 열악하다. 또, AMR 코덱은 협대역 (NB) 대역폭 (즉, 0-4 kHz) 에서의 오디오 데이터에 제한되고, AMRWB 코덱은 광대역 (WB) 대역폭 (즉, 0-7 kHz) 에서의 오디오 신호들에 제한된다. 그러나, 대부분의 음악 신호들은 AMR 및 AMRWB 코덱들에 의해 폐기되는 7 kHz 위에 중요한 컨텐츠를 포함한다.
최근에 표준화된 인핸스드 음성 서비스들 (EVS) 코덱은 스피치 신호들 뿐아니라 초광대역 (SWB) 대역폭들 (즉, 0-16 kHz) 또는 심지어 풀 대역 (FB) 대역폭들 (즉, 0-24 kHz) 까지의 음악 신호들을 코딩할 수 있다. 일반적으로, 음악 신호들을 코딩할 수 있는 다른 코덱들이 존재하지만, 이들 코덱들은 저지연 동작을 요구하는 이동 전화 도메인 (예를 들어, 3세대 파트너쉽 프로젝트 (3GPP)) 에서 대화 스피치를 또한 코딩하기 위해 사용되지 않거나 의도되지 않는다. EVS 코덱은 높은 품질 (예를 들어, SWB 또는 FB 대역폭들) 에서 인-콜 (in-call) 음악 신호들을 또한 코딩할 수 있는 저지연 대화 코덱이다.
따라서, EVS 코덱은 사용자들에게 대화 내의 음악 신호들을 송신하고, 수신기측 디바이스, 즉 목적지 디바이스 (14) 에서 송신기측 디바이스, 예를 들어, 소스 디바이스 (12) 에 존재하는 풍부한 오디오 장면을 재생할 수 있는 능력을 제공한다. 그러나, 오디오 프리프로세싱 동안의 종래의 잡음 억제는 인코딩 이전에 음악 신호들을 계속 억제하고 왜곡시킨다. 심지어 캡쳐된 오디오 데이터가 배경에서라기보다 높은 신호-대-잡음비 (SNR) 레벨들에서 프라이머리 음악 신호들을 포함하는 경우에, 음악 신호들은 종래의 잡음 억제에 의해 고도로 왜곡된다.
도 1 의 예에서, 소스 디바이스 (12) 의 오디오 인코더 (20) 및 목적지 디바이스 (14) 의 오디오 디코더 (30) 는 EVS 코덱에 따라 동작하도록 구성된다. 이러한 식으로, 오디오 인코더 (20) 는 소스 디바이스 (12) 에서 SWB 또는 FB 음악 신호들을 완전히 인코딩할 수도 있고, 오디오 디코더 (30) 는 목적지 디바이스 (14) 에서 SWB 또는 FB 음악 신호들을 적절히 재생할 수도 있다. 도 1 에 도시된 바와 같이, 오디오 인코더 (20) 는 스피치-음악 (SPMU) 분류기 (26), 음성 활동 검출기 (VAD) (27), 저대역 (LB) 인코딩 유닛 (28A) 및 고대역 (HB) 인코딩 유닛 (28B) 을 포함한다. 오디오 인코더 (20) 는 LB 인코딩 유닛 (28A) 을 사용하여 오디오 데이터의 저대역 (0-8 kHz) 부분을 그리고 HB 인코딩 유닛 (28B) 을 사용하여 고대역 (8-16 kHz 또는 8-24 kHz) 을, 이들 대역들에서의 컨텐츠의 이용가능성에 의존하여 개별적으로 인코딩함으로써 2 개의 부분들로 인코딩을 수행한다.
오디오 인코더 (20) 에서, VAD (27) 는 입력 오디오 데이터가 스피치 컨텐츠를 포함할 때 1 로서 출력을 제공할 수도 있고, 입력 오디오 데이터가 비스피치 컨텐츠 (예를 들어, 음악, 톤들, 잡음 등) 를 포함할 때 0 으로서 출력을 제공할 수도 있다. SPMU 분류기 (26) 는 오디오 인코더 (20) 에 대한 오디오 데이터 입력이 스피치 컨텐츠, 음악 컨텐츠, 또는 스피치 및 음악 컨텐츠 양자 모두를 포함하는지 여부를 결정한다. 이러한 결정에 기초하여, 오디오 인코더 (20) 는 입력 오디오 데이터에 대한 최선의 LB 및 HB 인코딩 방법들을 선택한다. LB 인코딩 유닛 (28A) 내에서, 오디오 데이터가 스피치 컨텐츠를 포함할 때 하나의 인코딩 방법이 선택되고, 오디오 데이터가 음악 컨텐츠를 포함할 때 다른 인코딩 방법이 선택된다. HB 인코딩 유닛 (28B) 내에서도 동일하다. SPMU 분류기 (26) 는 어떤 코딩 방법이 LB 인코딩 유닛 (28A) 및 HB 인코딩 유닛 (28B) 의 각각 내에서 선택되어야 하는지를 나타내는 제어 입력을 LB 인코딩 유닛 (28A) 및 HB 인코딩 유닛 (28B) 으로 제공한다. 오디오 인코더 (20) 는 또한 오디오 디코더 (30) 가 인코딩된 오디오 데이터를 디코딩하기 위해 대응하는 LB 및 HB 디코딩 방법들을 선택할 수 있도록 오디오 디코더 (30) 로 선택된 인코딩 방법을 통신할 수도 있다.
EVS 코덱에서의 SPMU 분류기의 동작은 Malenovsky, et al., “Two-Stage Speech/Music Classifier with Decision Smoothing and Sharpening in the EVS Codec”, 40th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2015, Brisbane, Australia, 19-24 April 2015 에 더 상세히 기술된다. 선택가능한 모드 보코더 (SMV) 에서의 SPMU 분류기의 동작은 Song, et al., “Analysis and improvement of Speech/Music Classification for 3GPP2 SMV Based on GMM”, IEEE Signal Processing Letters, Vol. 15, 2008 에 더 상세히 기술된다.
SPMU 분류기 (26) 가 입력 오디오 데이터를 음악 컨텐츠로서 분류하는 경우에, 최선 품질 오디오 인코딩은 변환 도메인 코딩 기법들을 사용하여 달성될 수도 있다. 그러나, 종래의 잡음 억제가 프리프로세싱 동안 오디오 데이터의 음악 신호들에 적용되는 경우, 공격적 레벨의 잡음 억제에 의해 음악 신호들에 왜곡들이 도입될 수도 있다. 왜곡된 음악 신호들은 SPMU 분류기 (26) 가 입력 오디오 데이터를 스피치 컨텐츠로서 오분류하게 할 수도 있다. 오디오 인코더 (20) 는 그 후 입력 오디오 데이터에 대해 덜 이상적인 인코딩 방법을 선택할 수도 있고, 이것은 오디오 디코더 (30) 의 출력에서의 음악 신호들의 품질을 감소시킬 것이다. 더욱이, 비록 SPMU 분류기 (26) 가 입력 오디오 데이터를 음악 컨텐츠로서 적절히 분류할 수 있을지라도, 선택된 인코딩 방법은 왜곡된 음악 신호들을 인코딩할 것이며, 이것은 또한 오디오 디코더 (30) 의 출력에서의 음악 신호들의 품질을 감소시킬 것이다.
본 개시는 적어도 SWB 대역폭들까지의 스피치 신호들 및 음악 신호들 양자의 핸들링을 향상시키기 위해 적응적 잡음 억제를 수행하기 위한 기법들을 기술한다. 일부 예들에서, 적응적 잡음 억제 기법들은 오디오 데이터가 캡쳐되는 콘텍스트 또는 환경에 대한 변경들에 기초하여 전화 통화 동안 오디오 데이터에 적용되는 잡음 억제의 레벨을 변경하기 위해 사용될 수도 있다.
도 1 의 도시된 예에서, 소스 디바이스 (12) 의 오디오 프리프로세서 (22) 내의 잡음 억제 유닛 (24) 은 마이크로폰 (18) 에 의해 캡쳐된 오디오 데이터에 대한 유효한 음악 콘텍스트를 식별하도록 구성된다. 유효한 음악 콘텍스트의 경우, 잡음 억제 유닛 (24) 은 또한 오디오 데이터에 저레벨의 잡음 억제를 적용하거나 잡음 억제를 적용하지 않아서, 캡쳐된 오디오 데이터의 음악 신호들이 최소 왜곡을 가지고 잡음 억제 유닛 (24) 을 통과하는 것을 허용하고, EVS 코덱에 따라 동작하도록 구성되는 오디오 인코더 (20) 가 음악 신호들을 적절하게 인코딩하는 것을 가능하게 하도록 구성될 수도 있다. 또, 유효한 스피치 콘텍스트의 경우, 잡음 억제 유닛 (24) 은 공격적이거나 고레벨의 잡음 억제를 적용하고 오디오 인코더 (20) 로 깨끗한 스피치 신호들을 제공함으로써 종래의 잡음 억제 기법들과 유사한 높은 잡음 환경들에서 스피치 신호들을 핸들링하도록 구성될 수도 있다.
여기에 개시된 디바이스들, 장치들, 시스템들 및 방법들은 다양한 컴퓨팅 디바이스들에 적용될 수도 있다. 컴퓨팅 디바이스들의 예들은 이동 전화들, 셀룰러 전화들, 스마트폰들, 헤드폰들, 비디오 카메라들, 오디오 재생기들 (예를 들어, 동화상 전문가 그룹-1 (MPEG-1) 또는 MPEG-2 오디오 계층 3 (MP3) 재생기들), 비디오 재생기들, 오디오 리코더들, 데스크톱 컴퓨터들/랩톱 컴퓨터들, 개인용 디지털 보조기들 (PDAs), 게이밍 시스템들 등을 포함한다. 한 종류의 컴퓨팅 디바이스는 다른 디바이스와 통신할 수도 있는 통신 디바이스이다. 통신 디바이스들의 예들은 이동 전화들, 랩톱 컴퓨터들, 데스크톱 컴퓨터들, 셀룰러 전화들, 스마트폰들, e-리더들, 태블릿 디바이스들, 게이밍 시스템들 등을 포함한다.
컴퓨팅 디바이스 또는 통신 디바이스는 국제 전기통신 연합 (ITU) 표준들 또는 전기 및 컴퓨팅 엔지니어들의 협회 (IEEE) 표준들 (예를 들어, 802.11a, 802.11b, 802.11g, 802.11n, 또는 802.11ac 와 같은 무선 충실도 또는 “Wi-Fi” 표준들) 과 같은 소정의 산업 표준들에 따라 동작할 수도 있다. 통신 디바이스가 따를 수도 있는 표준들의 다른 예들은 IEEE 802.16 (예를 들어, 마이크로파 액세스를 위한 범세계적 상호동작성 또는 “WiMAX”), 3세대 파트너 쉽 프로젝트 (3GPP), 3GPP 롱 텀 에볼루션 (LTE), 이동 통신을 위한 글로벌 시스템 (GSM) 및 다른 것들 (여기서 통신 디바이스는 예를 들어 사용자 장비 (UE), 노드 B, 진화된 노드 B (eNB), 이동 디바이스, 이동국, 가입자국, 원격국, 액세스 단말기, 이동 단말기, 단말기, 사용자 단말기, 가입자 유닛, 등) 을 포함한다. 여기에 개시된 디바이스들, 장치들, 시스템들 및 방법들 중 일부는 하나 이상의 표준들의 면에서 기술될 수도 있지만, 디바이스들, 장치들, 시스템들 및 방법들은 다수의 시스템들 및 표준들에 적용가능할 수도 있기 때문에 그 기법들은 본 개시의 범위에 제한되지 않아야 한다.
일부 통신 디바이스들은 무선으로 통신할 수도 있거나 유선 연결 또는 링크를 사용하여 통신할 수도 있다. 예를 들어, 일부 통신 디바이스들은 이더넷 프로토콜을 사용하여 다른 디바이스들과 통신할 수도 있다. 여기에 개시된 디바이스들, 장치들, 시스템들 및 방법들은 무선으로 통신하거나 유선 연결 또는 링크를 사용하여 통신하는 통신 디바이스들에 적용될 수도 있다.
도 2 는 본 개시에 기술된 기법들을 구현할 수도 있는 소스 디바이스 (12) 의 오디오 프리프로세서 (22) 의 예를 도시하는 블록 다이어그램이다. 도 2 의 예에서, 오디오 프리프로세서 (22) 는 잡음 억제 유닛 (24), 근접 센서 (40), 스피치-음악 (SPMU) 분류기 (42), 사운드 분리 (SS) 유닛 (45), 및 제어 유닛 (44) 을 포함한다. 잡음 억제 유닛 (24) 은 고속 푸리에 변환 (FFT) (46), 잡음 참조 생성 유닛 (48), 포스트 프로세싱 이득 유닛 (50), 적응적 빔포밍 유닛 (52), 이득 적용 및 평활화 유닛 (54), 및 역 FFT (IFFT) (56) 를 더 포함한다.
도 2 의 도시된 예는 소스 디바이스 (12) 에서 스피치, 음악 및 잡음 신호들을 캡쳐하기 위해 사용되는 이중 마이크로폰들 (18A, 18B) 을 포함한다. 이중 마이크로폰들 (18A, 18B) 은 도 1 로부터의 마이크로폰들 (18) 중 2 개를 포함한다. 따라서, 이중 마이크로폰들 (18A, 18B) 은 소스 디바이스 (12) 의 외부에 위치된 마이크로폰들의 어레이에서의 2 개의 마이크로폰들을 포함할 수도 있다. 소스 디바이스 (12) 가 이동 전화를 포함하는 경우, 프라이머리 마이크로폰 (18A) 은 이동 전화의 “전방” 마이크로폰일 수도 있고, 세컨더리 마이크로폰 (18B) 은 이동 전화의 “후방” 마이크로폰일 수도 있다. 이중 마이크로폰들 (18A, 18B) 에 의해 캡쳐된 오디오 데이터는 프리프로세서 (22) 로 입력된다.
일부 예들에서, SS 유닛 (45) 은 잡음 억제 유닛 (24) 으로 오디오 데이터를 피딩하기 전에 이중 마이크로폰들 (18A, 18B) 에 의해 캡쳐된 오디오 데이터를 수신할 수도 있다. SS 유닛 (45) 은 입력 오디오 데이터에 포함된 잡음으로부터 스피치를 분리해 내는 사운드 분리 유닛을 포함하고, 하나의 채널에 스피치 (플러스 작은 레지듀얼 잡음) 를 배치하고 다른 채널에 잡음 (플러스 작은 레지듀얼 스피치) 을 배치한다. 도 2 에 도시된 이중 마이크로폰 시스템에서, 잡음은 스피치로서 분류되지 않는 모든 사운드들을 포함할 수도 있다. 예를 들어, 소스 디바이스 (12) 의 사용자가 야구경기에 있고 소리지르는 것과 응원하는 사람들과 머리 위로 나는 비행기와 연주되는 음악이 존재한다면, 모든 이들 사운드들은 “잡음” 채널로 놓여질 것이다. 3 개의 마이크로폰 시스템에서, (1) 스피치 채널, (2) 음악 채널, 및 (3) 임의의 나머지 사운드들, 예를 들어, 소리지르는 것, 응원하는 사람들과 머리 위로 나는 비행기를 포함하는 잡음 채널이 존재하도록 음악을 그 자신의 채널로 분리하는 것이 가능할 수도 있다. 마이크로폰들의 수가 증가함에 따라, SS 유닛 (45) 은 입력 오디오 데이터의 별개의 타입들의 사운드 소스들을 분리해 내기 위해 더 많은 자유도들을 갖도록 구성될 수도 있다. 일부 예들에서, 마이크로폰들의 어레이에서의 각 마이크로폰은 하나의 채널과 상관될 수도 있다. 다른 예들에서, 2 이상의 마이크로폰들은 동일한 채널과 상관되는 사운드들을 캡쳐할 수도 있다.
잡음 억제 유닛 (24) 내에서, 캡쳐된 오디오 데이터는 FFT (46) 를 사용하여 주파수 도메인으로 변환된다. 예를 들어, FFT (46) 는 입력 오디오 데이터를 주파수 대역들의 각각에서 프로세싱하기 위해 다수의 주파수 대역들로 분할할 수도 있다. 예를 들어, FFT (46) 의 각각의 주파수 대역 또는 빈은 주파수 도메인에서 채널들 중 하나에서 잡음 스펙트럼을 그리고 채널들 중 다른 것에서 스피치 스펙트럼을 포함할 수도 있다.
적응적 빔포밍 유닛 (52) 은 그 후 입력 오디오 데이터 내의 스피치 신호들 및 잡음 신호들을 공간적으로 분리하고, 이중 마이크로폰들 (18A, 18B) 에 의해 캡쳐된 입력 오디오 데이터로부터 스피치 참조 신호 및 잡음 참조 신호를 생성하기 위해 사용된다. 적응적 빔포밍 유닛 (52) 은 스피치의 방향을 식별하고 다른 공간 섹터들로부터 오는 모든 잡음을 필터링하기 위해 공간 필터링을 포함한다. 적응적 빔포밍 유닛 (52) 은 이득 적용 및 평활화 유닛 (54) 으로 스피치 참조 신호를 피딩한다. 잡음 참조 생성 유닛 (48) 은 변환된 오디오 데이터 및 적응적 빔포밍 유닛 (52) 으로부터의 분리된 잡음 신호를 수신한다. 잡음 참조 생성 유닛 (48) 은 포스트 프로세싱 이득 유닛 (50) 에 대한 입력을 위해 하나 이상의 잡음 참조 신호들을 생성할 수도 있다.
포스트 프로세싱 이득 유닛 (50) 은 잡음 참조 신호들에 대한 이득 팩터를 컴퓨팅하기 위해 다수의 주파수 대역들에 대한 잡음 참조 신호들의 추가의 프로세싱을 수행한다. 포스트 프로세싱 이득 유닛 (50) 은 그 후 이득 적용 및 평활화 유닛 (54) 으로 컴퓨팅된 이득 팩터를 피딩한다. 하나의 예에서, 이득 적용 및 평활화 유닛 (54) 은 오디오 데이터 내의 잡음을 억제하기 위해 소정의 이득 및 평활화를 갖는 스피치 참조 신호로부터 잡음 참조 신호들을 감산할 수도 있다. 이득 적용 및 평활화 유닛 (54) 은 그 후 IFFT (56) 로 잡음-억제된 신호를 피딩한다. IFFT (56) 는 주파수 대역들 사이에 분할된 오디오 데이터를 단일의 출력 신호로 결합할 수도 있다.
포스트 프로세싱 이득 유닛 (50) 에 의해 컴퓨팅된 이득 팩터는 잡음 신호의 감산이 이득 적용 및 평활화 유닛 (54) 에서 얼마나 공격적일지, 및 따라서 얼마나 공격적인 잡음 억제가 입력 오디오 데이터에 적용되는지를 결정하는, 다른 팩터들 중에서, 하나의 주요 팩터이다. 이득 적용 및 평활화 유닛 (54) 은 프레임 마다의 기반으로, 예를 들어 통상적으로 매 5-40 밀리초 마다 입력 오디오 데이터에 잡음 억제를 적용한다.
일부 예들에서, 포스트 프로세싱 이득 유닛 (50) 은 더 진보된 SNR 기반 포스트 프로세싱 스킴들을 사용할 수도 있다. 이들 예들에서, 별개의 주파수 대역들 내의 스피치 참조 신호 X(n, f) 와 잡음 참조 신호 N(n, f) 에너지들을 비교한 후, 포스트 프로세싱 이득 유닛 (50) 은 다음의 식에 따라 각각의 프레임 n 동안 각각의 주파수 대역 f 에 대응하는 SNR 값 S(n, f) 을 컴퓨팅한다.
Figure pct00001
그 후, 포스트 프로세싱 이득 유닛 (50) 은 다음 식에 따라 잡음-억제된 신호 Y(n, f) 를 컴퓨팅하기 위해 이득 적용 및 평활화 유닛 (54) 에 의해 스피치 참조 신호에 적용되는 이득 팩터 G(n, f) 를 컴퓨팅하기 위해 SNR 값 (n, f) 을 사용한다.
Y(n, f) = G(n, f)·X(n, f)
입력 오디오 데이터가 유효한 음악 콘텍스트에서 캡쳐되는 경우, 낮거나 작은 이득 팩터가 소정의 주파수 대역들에서 스피치 참조 신호에 적용된다면, 입력 오디오 데이터 내의 음악 신호는 심하게 왜곡될 수도 있다.
도 2 의 도시된 예에서, 오디오 프리프로세서 (22) 는 근접 센서 (40), SPMU 분류기 (42), 및 잡음 억제 유닛 (24) 과 병렬로 실행하는 제어 유닛 (44) 을 포함한다. 본 개시에 기술된 기법들에 따르면, 이들 추가적인 모듈들은 입력 오디오 데이터가 이중 마이크로폰들 (18A, 18B) 에 의해 캡쳐되는 콘텍스트 또는 환경을 결정하고, 오디오 데이터의 결정된 콘텍스트에 기초하여 입력 오디오 데이터에 대한 잡음 억제의 레벨을 설정하기 위해 잡음 억제 유닛 (24) 의 포스트 프로세싱 이득 유닛 (50) 을 제어하도록 구성된다.
이러한 식으로, 소스 디바이스 (12) 의 오디오 프리프로세서 (22) 는, 입력 오디오 데이터에 가변 레벨의 잡음 억제의 적용 이전에 입력 오디오 데이터의 오디오 콘텍스트를 획득하는 것으로서, 상기 입력 오디오 데이터는 스피치 신호들, 음악 신호들, 및 잡음 신호들을 포함하는, 상기 오디오 콘텍스트를 획득하고; 및 오디오 콘텍스트에 기초하여 오디오 인코더 (20) 로 입력 오디오 데이터의 대역폭 압축 이전에 입력 오디오 데이터에 가변 레벨의 잡음 억제를 적용하도록 구성될 수도 있다. 일부 경우들에서, 입력 오디오 데이터의 제 1 부분은 마이크로폰 (18A) 에 의해 캡쳐될 수도 있고, 입력 오디오 데이터의 제 2 부분은 마이크로폰 (18B) 에 의해 캡쳐될 수도 있다.
근접 센서 (40) 는 사용자에 대한 이동 전화의 위치를 식별하는 이동 전화 내에 통상적으로 포함되는 하드웨어 유닛일 수도 있다. 근접 센서 (40) 는 이동 전화가 사용자의 얼굴 근처에 위치되는지 또는 사용자의 얼굴로부터 떨어져 있는지 여부를 나타내는 신호를 제어 유닛 (44) 으로 출력할 수도 있다. 이러한 식으로, 근접 센서 (40) 는 제어 유닛 (44) 이 이동 전화가 사용자의 입에 근접하게 배향되는지 여부 또는 디바이스가 사용자의 입으로부터 멀리 떨어져 배향되는지 여부를 결정하는 것을 도울 수도 있다. 일부 예들에서, 이동 전화가 소정의 각도 만큼 회전될 때, 예를 들어, 사용자가 청취하고 있고 이야기하고 있지 않을 때, 이동 전화의 이어피스 (earpiece) 는 사용자의 얼굴 또는 귀 근처에 있을 수도 있지만 전방 마이크로폰은 사용자의 입 근처에 있지 않을 수도 있다. 이러한 경우에, 근접 센서 (40) 는 비록 이동 전화가 사용자로부터 더 떨어져 있지만 사용자 바로 앞에 위치될지라도 사용자에게 근접하게 배향된다고 여전히 결정할 수도 있다.
예를 들어, 근접 센서 (40) 는 이동 전화가 사용자의 얼굴 근처에 (예를 들어, 전통적인 전화로서의 사용을 위해 사용자의 볼 또는 귀 옆 오른쪽에) 배치될 때 인간 피부의 존재를 검출하기 위해 하나 이상의 적외선 (IR)-기반 근접 센서들을 포함할 수도 있다. 통상적으로, 이동 디바이스는 2 가지 목적들을 위해 이러한 근접성 감지를 수행한다: 디스플레이 스크린 백라이트를 턴 오프함으로써 디스플레이 전력 소비를 감소시키기 위해, 및 사용자의 볼에 의한 의도하지 않은 터치들을 피하기 위해 터치 스크린을 디스에이블하기 위해. 본 개시에서, 근접 센서 (40) 는 또 다른 목적을 위해, 즉 잡음 억제 유닛 (24) 의 거동을 제어하기 위해 사용될 수도 있다. 이러한 식으로, 근접 센서 (40) 는 제어 유닛 (44) 이 입력 오디오 데이터의 오디오 콘텍스트를 결정하는 것을 돕도록 구성될 수도 있다.
SPMU 분류기 (42) 는 소스 디바이스 (12) 의 오디오 프리프로세서 (22) 에 의해 실행되는 소프트웨어 모듈일 수도 있다. 이러한 식으로, SPMU 분류기 (42) 는 소스 디바이스 (12) 의 하나 이상의 프로세서들로 통합된다. SPMU 분류기 (42) 는 입력 오디오 데이터를 스피치 컨텐츠 또는 음악 컨텐츠 중 하나 또는 양자로서 분류하는 신호를 제어 유닛 (44) 으로 출력할 수도 있다. 예를 들어, SPMU 분류기 (42) 는 리니어 디스크리미네이션 (linear discrimination), SNR-기반 메트릭들, 또는 가우시안 혼합 모델링 (GMM) 중 하나 이상에 기초하여 오디오 데이터 분류를 수행할 수도 있다. SPMU 분류기 (42) 는 지연에서의 증가 없이 잡음 억제 유닛 (24) 과 병렬로 실행될 수도 있다.
SPMU 분류기 (42) 는 입력 오디오 데이터의 적어도 2 개의 분류 출력들을 제공하도록 구성될 수도 있다. 일부 예들에서, SPMU 분류기 (42) 는 입력 오디오 데이터를 캡쳐하기 위해 사용된 마이크로폰들의 수에 기초하여 추가적인 분류 출력들을 제공할 수도 있다. 일부 경우들에서, 적어도 2 개의 분류 출력들 중 하나는 음악이고, 적어도 2 개의 분류 출력들 중 다른 하나는 스피치이다. 본 개시의 기법들에 따르면, 제어 유닛 (44) 은 적어도 2 개의 분류 출력들 중 하나가 음악인 것에 기초하여 입력 오디오 데이터에 대한 하나의 이득 값을 조정하기 위해 잡음 억제 유닛 (24) 을 제어할 수도 있다. 더욱이, 제어 유닛 (44) 은 적어도 2 개의 분류 출력들 중 하나가 스피치인 것에 기초하여 하나의 이득 값을 조정하기 위해 잡음 억제 유닛 (24) 을 제어할 수도 있다.
도 2 에 도시된 바와 같이, SPMU 분류기 (42) 는 프라이머리 마이크로폰 (18A) 및 세컨더리 마이크로폰 (18B) 의 각각으로부터 입력 오디오 데이터를 별개로 분류하도록 구성될 수도 있다. 이러한 예에서, SPMU 분류기 (42) 는 이중 마이크로폰들 (18A, 18B) 의 각각에 대해 하나씩, 2 개의 별개의 SPMU 분류기들을 포함할 수도 있다. 일부 예들에서, SPMU 분류기 (42) 내의 분류기들의 각각은 입력 오디오 데이터를 스피치 컨텐츠 (예를 들어, 값 0), 음악 컨텐츠 (예를 들어, 값 1), 또는 스피치 및 음악 컨텐츠 (예를 들어, 값 2) 로서 분류하도록 구성된 3 레벨 분류기를 포함할 수도 있다. 다른 예들에서, SPMU 분류기 (42) 내의 분류기들의 각각은 휘바람소리, 톤들 등과 같은 다른 특정의 타입들의 사운드들을 포함하기 위해 훨씬 더 높은 수의 레벨들을 포함할 수도 있다.
일반적으로, SPMU 분류기들은 통상적으로 EVS 코덱에 따라 동작하도록 구성된 오디오 인코더들에 포함되며, 예를 들어, 도 1 로부터의 오디오 인코더 (20) 의 SPMU 분류기 (26). 본 개시의 기법들에 따르면, 하나 이상의 추가적인 SPMU 분류기들, 예를 들어, SPMU 분류기 (42) 는 입력 오디오 데이터의 콘텍스트를 유효한 스피치 콘텍스트 또는 유효한 음악 콘텍스츠로서 결정하기 위해 제어 유닛 (44) 에 의한 사용을 위해 이중 마이크로폰들 (18A, 18B) 에 의해 캡쳐된 입력 오디오 데이터를 분류하기 위해 오디오 프리프로세서 (22) 내에 포함된다. 일부 예들에서, EVS 보코더 내의 SPMU 분류기, 예를 들어, 도 1 로부터의 오디오 인코더 (20) 의 SPMU 분류기 (26) 는 오디오 프리프로세서 (22) 내의 하나 이상이 추가적인 SPMU 분류기들을 포함하는 대신에 피드백 루프를 통해 오디오 프리프로세서 (22) 에 의해 사용될 수도 있다.
도 2 에 도시된 예에서, 프리프로세서 (22) 에 포함된 SPMU 분류기 (42) 는 스피치-음악 분류기의 저 복잡성 버전을 포함할 수도 있다. 매 20 ms 프레임에 대해 스피치 컨텐츠, 음악 컨텐츠, 또는 스피치 및 음악 컨텐츠의 분류를 제공할 수도 있는 오디오 인코더 (20) 의 SPMU 분류기 (26) 와 유사하지만, 프리프로세서 (22) 의 SPMU 분류기 (42) 는 대략 매 200-500 ms 마다 입력 오디오 데이터를 분류하도록 구성될 수도 있다. 이러한 식으로, 프리프로세서 (22) 의 SPMU 분류기 (42) 는 EVS 인코더들 내에서 사용되는 SPMU 분류기들, 예를 들어, 도 1 로부터의 오디오 인코더 (20) 의 SPMU 분류기 (26) 에 비해 저 복잡성일 수도 있다.
제어 유닛 (44) 은 입력 오디오 데이터의 콘텍스트를 유효한 스피치 콘텍스트 (즉, 사용자가 청취자와의 대화에 종사하기 위해 스피치 신호들을 주로 송신할 것을 의도한다) 또는 유효한 음악 콘텍스트 (즉, 사용자가 청취자가 경험할 음악 신호들 또는 음악 및 스피치 신호들 양자를 주로 송신할 것을 의도한다) 중 하나로서 결정하기 위해 일부 히스테리시스를 갖는 근접 센서 (40) 및 SPMU 분류기 (42) 양자 모두로부터의 신호들을 결합할 수도 있다. 이러한 식으로, 제어 유닛 (44) 은 억제될 환경, 배경, 또는 주위 잡음과 함께 캡쳐된 오디오 데이터, 및 음악 신호들이 풍부한 오디오 장면을 재생하기 위해 인코딩된 채로 유지되어야 하는 유효한 음악 콘텍스트에서 캡쳐된 오디오 데이터 사이를 구별할 수도 있다. 제어 유닛 (44) 은 잡음 억제 유닛 (24) 의 포스트 프로세싱 이득 유닛 (50) 으로 결정된 오디오 콘텍스트를 피딩한다. 이러한 식으로, 제어 유닛 (44) 은 소스 디바이스 (12) 의 하나 이상의 프로세서들로 통합되고, 하나 이상의 프로세서들이 입력 오디오 데이터의 오디오 콘텍스트를 획득하도록 구성될 때 입력 오디오 데이터의 오디오 콘텍스트를 결정하도록 구성될 수도 있다.
일부 예들에서, 제어 유닛 (44) 에 의해 결정된 오디오 콘텍스트는 잡음 억제 유닛 (24) 내에서 잡음-억제된 신호를 생성하기 위해 사용되는, 디폴트 레벨의 잡음 억제, 예를 들어, 포스트 프로세싱 이득 G(n, f) 의 오버라이드로서 작용할 수도 있다. 예를 들어, 유효한 음악 콘텍스트가 제어 유닛 (44) 에 의해 식별되는 경우, 포스트 프로세싱 이득은, 잡음 억제 유닛 (24) 내의 다른 변경들 중에서, SWB 또는 FB 음악 품질을 보존하기 위해 잡음 억제의 덜 공격적인 레벨을 설정하도록 변경될 수도 있다. 하나의 예시의 기법은 다음의 식에 따라 식별된 오디오 콘텍스트에 기초하여 포스트 프로세싱 이득 G(n, f) 를 변경하는 것이다.
Gmod(n, f) = G(n, f)·M(n)
상기 식에서, M(n) 은 제어 유닛 (44) 에 의해 도출되고, 입력 오디오 데이터가 유효한 음악 콘텍스트를 갖는 것으로 고려될 수 있는 정도를 표시한다.
도 2 의 예시의 잡음 억제 구성에서, 포스트 프로세싱 이득은 입력 오디오 데이터에 인가된 잡음 억제의 레벨을 변경하기 위해 변경되는 주요 팩터로서 기술된다. 다른 예들에서, 잡음 억제에서 사용된 수개의 다른 파라미터들은 높은 음악 품질을 지지하기 위해 적용되는 잡음 억제의 레벨을 변경하기 위해 변경될 수도 있다. 예를 들어, 포스트 프로세싱 이득 G(n, f) 을 변경하는 것에 더하여, 잡음 억제 유닛 (24) 내의 다른 변경들이 결정된 오디오 콘텍스트에 기초하여 수행될 수도 있다. 다른 변경들은 잡음 참조 생성 유닛 (48) 과 같은 잡음 억제 유닛 (24) 의 여러 컴포넌트들 또는 음성 활동 검출 유닛, 스펙트럼 차이 평가 유닛, 마스킹 유닛, 스펙트럼 평탄도 추정 유닛, 음성 활동 검출 (VAD) 기반 레지듀얼 잡음 억제 유닛 등을 포함하는 도 2 에 도시되지 않은 다른 컴포넌트에 의해 사용되는 소정의 임계값들의 변경을 포함할 수도 있다.
제어 유닛 (44) 이 입력 오디오 데이터가 유효한 음악 콘텍스트에서 캡쳐되었다고 결정하는 경우, 예를 들어, 음악 신호가 프라이머리 마이크로폰 (18A) 에서 검출되고 이동 전화가 사용자의 얼굴로부터 떨어져 있는 경우, 잡음 억제 유닛 (24) 은 오디오 데이터의 음악 신호들이 최소 왜곡으로 잡음 억제 유닛 (24) 을 통과하도록 허용하기 위해 덜 공격적인 레벨의 잡음 억제를 일시적으로 설정할 수도 있다. 잡음 억제 유닛 (24) 은 그 후 제어 유닛 (44) 이 다시 입력 오디오 데이터가 유효한 스피치 콘텍스트를 갖는다고 결정할 때, 예를 들어, 스피치 신호가 프라이머리 마이크로폰 (18A) 에서 검출되거나 이동 전화가 사용자의 얼굴에 근접한 때 디폴트, 공격적인 레벨의 잡음 억제로 돌아갈 수도 있다.
일부 예들에서, 잡음 억제 유닛 (24) 은 공격적인 레벨의 잡음 억제를 위한 디폴트 잡음 억제 파라미터들의 세트, 및 하나 이상의 덜 공격적인 레벨들의 잡음 억제를 위한 잡음 억제 파라미터들의 다른 세트들을 저장할 수도 있다. 일부 예들에서, 디폴트 공격적인 레벨의 잡음 억제는 사용자 입력에 기초하여 제한된 시간 주기 동안 오버라이딩될 수도 있다. 이러한 예는 도 3 을 참조하여 더 상세히 기술된다.
이러한 식으로, 이득 적용 및 평활화 유닛 (54) 은, 입력 오디오 데이터의 오디오 콘텍스트가 음악인 경우 하나의 레벨 만큼 입력 오디오 데이터를 감쇠시키고, 입력 오디오 데이터의 오디오 콘텍스트가 스피치인 경우 상이한 레벨 만큼 입력 오디오 데이터를 감쇠시키도록 구성될 수도 있다. 하나의 예에서, 입력 오디오 데이터의 오디오 콘텍스트가 제 1 오디오 프레임에서 스피치인 경우의 입력 오디오 데이터의 제 1 레벨의 감쇠는 입력 오디오 데이터의 오디오 콘텍스트가 제 2 오디오 프레임에서 음악인 경우의 입력 오디오 데이터의 제 2 레벨의 감쇠의 15 퍼센트 내에 있을 수도 있다. 이러한 예에서, 제 1 오디오 프레임은 제 2 오디오 프레임의 전 또는 후의 50 개의 오디오 프레임들 내에 있을 수도 있다. 일부 경우들에서, 잡음 억제 유닛 (24) 은 잡음 억제기로서 지칭될 수도 있고, 이득 적용 및 평활화 유닛 (54) 은 잡음 억제기 내의 이득 조정기로서 지칭될 수도 있다.
제 1 예시의 사용 케이스에서, 이동 전화의 사용자는 큰 잡음 및 음악을 갖는 환경 (예를 들어, 잡음이 있는 바, 파티, 또는 거리) 에서 전화 통화 동안 이야기하고 있을 수도 있다. 이러한 경우에, 근접 센서 (40) 는 이동 전화가 사용자의 얼굴 근처에 위치된다는 것을 검출하고, SPMU 분류기 (42) 는 프라이머리 마이크로폰 (18A) 으로부터의 입력 오디오 데이터가 높은 레벨의 잡음 및 음악 컨텐츠를 갖는 높은 스피치 컨텐츠를 포함하다는 것, 및 세컨더리 마이크로폰 (18B) 으로부터의 입력 오디오 데이터가 높은 레벨의 잡음 및 음악 컨텐츠 및 가능하게는 말소리 잡음 (babble noise) 과 유사한 일부 스피치 컨텐츠를 갖는다는 것을 결정한다. 이러한 경우에, 제어 유닛 (44) 은 입력 오디오 데이터의 콘텍스트가 유효한 스피치 콘텍스트라는 것을 결정하고, 입력 오디오 데이터에 대한 적용을 위한 공격적인 레벨의 잡음 억제를 설정하기 위해 잡음 억제 유닛 (24) 을 제어할 수도 있다.
제 2 예시의 사용 케이스에서, 이동 전화의 사용자는 큰 잡음 및 음악을 갖는 환경에서 전화 통화 동안 청취하고 있을 수도 있다. 이러한 경우에, 근접 센서 (40) 는 이동 전화가 사용자의 얼굴 근처에 위치된다는 것을 검출하고, SPMU 분류기 (42) 는 프라이머리 마이크로폰 (18A) 으로부터의 입력 오디오 데이터가 스피치 컨텐츠를 갖지 않는 높은 잡음 및 음악 컨텐츠를 포함하다는 것, 및 세컨더리 마이크로폰 (18B) 으로부터의 입력 오디오 데이터가 유사한 컨텐츠를 포함한다는 것을 결정한다. 이러한 경우에, 입력 오디오 데이터가 스피치 컨텐츠를 포함하지 않을지라도, 제어 유닛 (44) 은 사용자의 얼굴에 대한 이동 전화의 근접성을 사용하여 입력 오디오 데이터의 콘텍스트가 유효한 스피치 콘텍스트라는 것을 결정하고, 입력 오디오 데이터에 대한 적용을 위한 공격적인 레벨의 잡음 억제를 설정하기 위해 잡음 억제 유닛 (24) 을 제어할 수도 있다.
제 3 예시의 사용 케이스에서, 사용자는 (예를 들어, 홈 세팅 또는 콘서트 홀에서 누군가가 노래하거나 악기를 연주하는 것을 캡쳐하기 위해) 음악은 가지고 잡음이 거의 없거나 전혀 없는 환경에서 사용자의 얼굴로부터 떨어지거나 공중에서 이동 전화를 잡고 있을 수도 있다. 이러한 경우에, 근접 센서 (40) 는 이동 전화가 사용자의 얼굴로부터 떨어져 위치된다는 것을 검출하고, SPMU 분류기 (42) 는 프라이머리 마이크로폰 (18A) 으로부터의 입력 오디오 데이터가 높은 음악 컨텐츠를 포함한다는 것, 및 세컨더리 마이크로폰 (18B) 으로부터의 입력 오디오 데이터가 일부 음악 컨텐츠를 또한 포함한다는 것을 결정한다. 이러한 경우에, 배경 잡음의 부재에 기초하여, 제어 유닛 (44) 은 입력 오디오 데이터의 콘텍스트가 유효한 음악 콘텍스트라는 것을 결정하고, 입력 오디오 데이터에 대한 적용을 위한 낮은 레벨의 잡음 억제를 설정하거나 잡음 억제를 설정하지 않도록 잡음 억제 유닛 (24) 을 제어할 수도 있다.
제 4 예시의 사용 케이스에서, 사용자는 (예를 들어, 잡음이 있는 바, 파티, 또는 야외 콘서트에서 연주되는 음악을 캡쳐하기 위해) 큰 잡음 및 음악을 갖는 환경에서 사용자의 얼굴로부터 떨어지거나 공중에서 이동 전화를 잡고 있을 수도 있다. 이러한 경우에, 근접 센서 (40) 는 이동 전화가 사용자의 얼굴로부터 떨어져 위치된다는 것을 검출하고, SPMU 분류기 (42) 는 프라이머리 마이크로폰 (18A) 으로부터의 입력 오디오 데이터가 높은 레벨의 잡음 및 음악 컨텐츠를 포함한다는 것, 및 세컨더리 마이크로폰 (18B) 으로부터의 입력 오디오 데이터가 유사한 컨텐츠를 포함한다는 것을 결정한다. 이러한 경우에, 배경 잡음이 존재할지라도, 제어 유닛 (44) 은 입력 오디오 데이터 내의 스피치 컨텐츠의 부재 및 사용자의 얼굴로부터 떨어져 있는 이동 디바이스의 위치를 사용하여, 입력 오디오 데이터의 콘텍스트가 유효한 음악 콘텍스트라는 것을 결정하고, 입력 오디오 데이터에 대한 적용을 위한 낮은 레벨의 잡음 억제를 설정하거나 잡음 억제를 설정하지 않도록 잡음 억제 유닛 (24) 을 제어할 수도 있다.
제 5 예시의 사용 케이스에서, 사용자는 (예를 들어, 홈 또는 사설 부스 세팅에서 노래하는 것 및 가라오케 음악을 캡쳐하기 위해) 잡음이 거의 없거나 전혀 없는 환경에서 누군가가 음악에 맞춰 노래하는 것을 리코딩하고 있을 수도 있다. 이러한 경우에, 근접 센서 (40) 는 이동 전화가 사용자의 얼굴로부터 떨어져 위치된다는 것을 검출하고, SPMU 분류기 (42) 는 프라이머리 마이크로폰 (18A) 으로부터의 입력 오디오 데이터가 높은 음악 컨텐츠를 포함한다는 것, 및 세컨더리 마이크로폰 (18B) 으로부터의 입력 오디오 데이터가 일부 음악 컨텐츠를 포함한다는 것을 결정한다. 이러한 경우에, 제어 유닛 (44) 은 입력 오디오 데이터의 콘텍스트가 유효한 음악 콘텍스트라는 것을 결정하고, 입력 오디오 데이터에 대한 적용을 위한 낮은 레벨의 잡음 억제를 설정하거나 잡음 억제를 설정하지 않도록 잡음 억제 유닛 (24) 을 제어할 수도 있다. 도 3 을 참조하여 더 상세히 기술되는 일부 예들에서, 제어 유닛 (44) 은 제어 유닛 (44) 에 의해 수행되는 오디오 컨텍스트 결정을 더 향상시키기 위해 가라오케 머신으로부터 직접 추가적인 입력 신호들을 수신할 수도 있다.
제 6 예시의 사용 케이스에서, 사용자는 (예를 들어, 파티 또는 바 세팅에서 노래하는 것 및 가라오케 음악을 캡쳐하기 위해) 큰 잡음을 갖는 환경에서 누군가가 음악에 맞춰 노래하는 것을 리코딩하고 있을 수도 있다. 이러한 경우에, 근접 센서 (40) 는 이동 전화가 사용자의 얼굴로부터 떨어져 위치된다는 것을 검출하고, SPMU 분류기 (42) 는 프라이머리 마이크로폰 (18A) 으로부터의 입력 오디오 데이터가 높은 잡음 및 음악 컨텐츠를 포함한다는 것, 및 세컨더리 마이크로폰 (18B) 으로부터의 입력 오디오 데이터가 유사한 컨텐츠를 포함한다는 것을 결정한다. 이러한 경우에, 배경 잡음이 존재할지라도, 제어 유닛 (44) 은 입력 오디오 데이터에서의 스피치 컨텐츠의 부재, 사용자의 얼굴로부터 떨어져 있는 이동 디바이스의 위치, 가라오케 머신에 의해 주어지는 제어 신호들, 또는 사용자에 의해 착용된 웨어러블 디바이스에 의해 주어지는 제어 신호들과 같은 다수의 표시자들의 조합을 사용하여, 입력 오디오 데이터의 콘텍스트가 유효한 음악 콘텍스트라는 것을 결정하고, 입력 오디오 데이터에 대한 적용을 위한 낮은 레벨의 잡음 억제를 설정하거나 잡음 억제를 설정하지 않도록 잡음 억제 유닛 (24) 을 제어할 수도 있다.
일반적으로, 본 개시의 기법들에 따르면, 제어 유닛 (44) 이 입력 오디오 데이터의 콘텍스트가 유효한 음악 콘텍스트라고 결정할 때, 소정 레벨의 잡음 억제가 입력 오디오 데이터에 포함된 음악 신호들의 품질을 보유하는 것에 더 호의적인 입력 오디오 데이터에 적용된다. 역으로, 제어 유닛 (44) 이 입력 오디오 데이터의 콘텍스트가 유효한 스피치 콘텍스트라고 결정할 때, 디폴트, 공격적 레벨의 잡음 억제가 (음악을 포함하여) 배경 잡음을 고도로 억제하기 위해 입력 오디오 데이터에 적용된다.
하나의 예에서, dB 에 있어서 상이한 레벨들의 잡음 억제가 다음과 같이 맵핑될 수도 있다: 공격적 또는 높은 레벨의 잡음 억제는 대략 15 dB 보다 더 클 수도 있고, 중간 레벨의 잡음 억제는 대략 10 dB 로부터 대략 15 dB 까지의 범위에 있을 수도 있으며, 낮은 레벨의 잡음 억제는 무 잡음 억제 (즉, 0 dB) 로부터 대략 10 dB 까지의 범위에 있을 수도 있다. 제공된 값들은 단지 예들일 뿐이고 제한하는 것으로서 해석되지 않아야 한다는 것을 주의해야 한다.
도 3 은 본 개시에 기술된 기법들을 구현할 수도 있는 소스 디바이스 (12) 의 오디오 프리프로세서 (22) 의 대안적인 예를 도시하는 블록도이다. 도 3 의 예에서, 오디오 프리프로세서 (22) 는 잡음 억제 유닛 (24), 근접 센서 (40), SPMU 분류기 (42), 사용자 오버라이드 신호 검출기 (60), 가라오케 머신 신호 검출기 (62), 센서 신호 검출기 (64), 및 제어 유닛 (66) 을 포함한다. 잡음 억제 유닛 (24) 은 도 2 를 참조하여 상술된 바와 같이 동작할 수도 있다. 제어 유닛 (66) 은 도 2 로부터의 제어 유닛 (44) 과 실질적으로 유사하게 동작할 수도 있지만, 마이크로폰들 (18) 로부터 수신된 오디오 데이터의 콘텍스트를 결정하기 위해 하나 이상의 외부 디바이스드로부터 검출된 추가적인 신호들을 분석할 수도 있다.
도 3 에 도시된 바와 같이, 제어 유닛 (66) 은 근접 센서 (40), SPMU 분류기 (42), 사용자 오버라이드 신호 검출기 (60), 가라오케 머신 신호 검출기 (62), 및 센서 신호 검출기 (64) 중 하나 이상으로부터 입력을 수신한다. 사용자 오버라이드 신호 검출기 (60) 는 소스 디바이스 (12) 에서의 잡음 억제에 대한 사용자 오버라이드의 선택을 검출할 수도 있다. 예를 들어, 소스 디바이스 (12) 의 사용자는 마이크로폰들 (18) 에 의해 캡쳐된 오디오 데이터의 콘텍스트가 유효한 음악 콘텍스트라는 것을 인식하고 있을 수도 있고, 디폴트 레벨의 잡음 억제를 오버라이드하는 소스 디바이스 (12) 내의 설정을 선택할 수도 있다. 디폴트 레벨의 잡음 억제는 유효한 스피치 콘텍스트에 적절한 공격적 레벨의 잡음 억제일 수도 있다. 오버라이드 설정을 선택함으로써, 사용자는 덜 공격적인 레벨의 잡음 억제, 또는 무 잡음 억제가 잡음 억제 유닛 (24) 에 의해 갭쳐된 오디오 데이터에 적용될 것을 특정적으로 요청할 수도 있다.
검출된 사용자 오버라이드 신호에 기초하여, 제어 유닛 (66) 은 마이크로폰들 (18) 에 의해 현재 캡쳐된 오디오 데이터가 유효한 음악 콘텍스트를 갖는다고 결정하고 오디오 데이터에 대한 더 낮은 레벨의 잡음 억제를 설정하도록 잡음 억제 유닛 (24) 을 제어할 수도 있다. 일부 예들에서, 오버라이드 설정은 잡음 억제 유닛 (24) 이 디폴트 레벨의 잡음 억제, 즉 공격적인 레벨의 잡음 억제로 리턴하도록 미리 결정된 시간 주기 내에서 자동적으로 만료하도록 설정될 수도 있다. 이러한 오버라이드 타임아웃 없이, 사용자는 오버라이드 설정을 디스에이블하거나 선택해제하는 것을 무시할 수도 있다. 이러한 케이스에서, 잡음 억제 유닛 (24) 은 모든 수신된 오디오 신호들에 덜 공격적인 잡음 억제를 적용하거나 잡음 억제를 적용하지 않는 것을 계속할 수도 있으며, 이것은 잡음 환경에서 캡쳐될 때 열화된 또는 낮은 품질 스피치 신호들을 야기할 수도 있다.
가라오케 머신 신호 검출기 (62) 는 소스 디바이스 (12) 와 통신하는 외부 가라오케 머신으로부터의 신호를 검출할 수도 있다. 검출된 신호는 소스 디바이스 (12) 의 마이크로폰들 (18) 이 사용자에 의한 음성 노래하기를 리코딩하고 있는 동안 가라오케 머신이 음악을 재생하고 있다는 것을 표시할 수도 있다. 가라오케 머신 신호 검출기 (62) 에 의해 검출된 신호는 디폴트 레벨의 잡음 억제, 즉 공격적인 레벨의 잡음 억제를 오버라이딩하기 위해 사용될 수도 있다. 검출된 가라오케 머신 신호에 기초하여, 제어 유닛 (66) 은 마이크로폰들 (18) 에 의해 현재 캡쳐된 오디오 데이터가 유효 음악 콘텍스트를 갖는다고 결정하고 소스 디바이스 (12) 가 사용자의 음성 노래하기를 리코딩하기 위해 사용되는 동안 음악 왜곡을 피하기 위해 오디오 데이터에 대한 낮은 레벨의 잡음 억제를 설정하도록 잡음 억제 유닛 (24) 을 제어할 수도 있다.
가라오케는 가라오케 머신에 의해 재생된 음악 및 사용자에 의한 음성 노래 양자 모두가 왜곡 없이 친구들 사이에 공유하기 위해 수신기 엔드 디바이스, 예를 들어, 도 1 의 목적지 디바이스 (14) 로의 송신 또는 나중의 재생을 위해 리코딩될 필요가 있는 유효한 음악 콘텍스트의 통상의 예이다. 그러나, 종래에는, 음성 노래를 갖는 가라오케 음악의 고품질 리코딩을 공유하는 것은 적응적 다중-레이트 (AMR) 또는 적응적 다중-레이트 광대역 (AMRWB) 과 같은 전통적인 스피치 코덱들에서의 제한들에 기인하여, 이동 전화와 같은 무선 통신 디바이스를 사용하여 가능하지 않았다. 본 개시의 기법들, 즉 오디오 인코더 (20) 에 대한 EVS 코덱의 사용 및 (예를 들어, 가라오케 머신으로부터 검출된 직접적인 오버라이드 신호의 결과로서) 제어 유닛 (66) 에 의한 유효한 음악 콘텍스트의 결정에 따르면, 이동 전화들을 통한 사용자의 가라오케 공유 경험은 크게 향상될 수도 있다.
또, 센서 신호 검출기 (64) 는 소스 디바이스 (12) 와 통신하는, 웨어러블 디바이스와 같은 하나 이상의 외부 센서들로부터 신호들을 검출할 수도 있다. 예로서, 웨어러블 디바이스는 스마트 시계, 스마트 목걸이, 운동 추적기 등과 같은 그의 또는 그녀의 몸에 사용자에 의해 착용된 디바이스일 수도 있고, 검출된 신호는 사용자가 춤을 추고 있다는 것을 나타낼 수도 있다. 근접 센서 (40) 및 SPMU 분류기 (42) 중 하나 또는 양자로부터의 입력과 함께 검출된 센서 신호에 기초하여, 제어 유닛 (66) 은 마이크로폰들 (18) 에 의해 현재 캡쳐된 오디오 데이터가 유효한 음악 콘텍스트를 갖는다고 결정하고 오디오 데이터에 대한 더 낮은 레벨의 잡음 억제를 설정하도록 잡음 억제 유닛 (24) 을 제어할 수도 있다. 다른 예들에서, 센서 신호 검출기 (64) 는 다른 외부 센서들로부터 신호들을 검출할 수도 있거나 제어 유닛 (66) 은 제어 유닛 (66) 에 의해 수행된 오디오 콘텍스트 결정을 더 향상시키기 위해 추가적인 검출기들로부터 입력을 수신할 수도 있다.
도 4 는 본 개시에 기술된 기법들에 따른, 적응적 잡음 억제를 수행하도록 구성된 오디오 프리프로세서의 예시의 동작을 도시하는 플로우챠트이다. 도 4 의 예시의 동작은 도 1 및 도 2 로부터의 소스 디바이스 (12) 의 오디오 프리프로세서 (22) 를 참조하여 기술된다. 이러한 예에서, 소스 디바이스 (12) 는 이동 전화인 것으로서 기술된다.
개시된 기법들에 따르면, 음성 및 데이터 통신들에서 사용되는 동작은, 소스 디바이스의 사용자와 목적지 디바이스의 사용자 사이의 대화 동안, 입력 오디오 데이터의 오디오 콘텍스트를 획득하는 것으로서, 음악이 소스 디바이스의 사용자로부터의 입력 오디오 데이터에 가변 레벨의 잡음 억제의 적용 이전에, 소스 디바이스의 사용자의 배경에서 재생되고 있고, 입력 오디오 데이터는 소스 디바이스의 사용자의 음성 및 소스 디바이스의 사용자의 배경에서 재생되는 음악을 포함하는, 상기 오디오 콘텍스트를 획득하는 것; 스피치 또는 음악, 또는 스피치 및 음악 양자 모두인 오디오 콘텍스트를 포함하는 오디오 콘텍스트에 기초하여 오디오 인코더로 입력 오디오 데이터의 대역폭 압축 이전에 입력 오디오 데이터에 가변 레벨의 잡음 억제를 적용하는 것; 적어도 하나의 오디오 인코더 패킷을 생성하기 위해 입력 오디오 데이터를 대역폭 압축하는 것; 및 소스 디바이스로부터 목적지 디바이스로 공중을 통해 적어도 하나의 오디오 인코더 패킷을 송신하는 것을 포함한다. 음성 및 데이터 통신들에서 사용되는 동작의 개개의 단계들은 이하에 더 상세히 기술된다.
오디오 프리프로세서 (22) 는 마이크로폰들 (18) 로부터 스피치 신호들, 음악 신호들, 및 잡음 신호들을 포함하는 오디오 데이터를 수신한다 (70). 상술된 바와 같이, 마이크로폰들 (18) 은 사용자의 입 근처의 이동 전화의 전방측상에 위치되는 "전방" 마이크로폰인 프라이머리 마이크로폰 (18A) 및 이동 전화의 후방측에 위치되는 "후방" 마이크로폰인 세컨더리 마이크로폰 (18B) 를 갖는 이중 마이크로폰들을 포함할 수도 있다.
오디오 프리프로세서 (22) 의 SPMU 분류기 (42) 는 수신된 오디오 데이터를 스피치 컨텐츠, 음악 컨텐츠, 또는 스피치 및 음악 컨텐츠 양자 모두로서 분류한다 (72). 상술된 바와 같이, SPMU 분류기 (42) 는 리니어 디스크리미네이션, SNR-기반 메트릭들, 또는 가우시안 혼합 모델링 (GMM) 중 하나 이상에 기초하여 신호 분류를 수행할 수도 있다. 예를 들어, SPMU 분류기 (42) 는 프라이머리 마이크로폰 (18A) 에 의해 캡쳐된 오디오 데이터를 스피치 컨텐츠, 음악 컨텐츠, 또는 스피치 및 음악 컨텐츠 양자 모두로서 분류하고 제어 유닛 (44) 으로 프라이머리 마이크로폰 (18A) 에 대한 오디오 데이터 분류를 피딩할 수도 있다. 또, SPMU 분류기 (42) 는 또한 제 2 마이크로폰 (18B) 에 의해 캡쳐된 오디오 데이터를 스피치 컨텐츠, 음악 컨텐츠, 또는 스피치 및 음악 컨텐츠 양자 모두로서 분류하고 제어 유닛 (44) 으로 세컨더리 마이크로폰 (18B) 에 대한 오디오 데이터 분류를 피딩할 수도 있다.
근접 센서 (40) 는 이동 전화의 사용자에 대한 이동 전화의 위치를 검출한다. 상술된 바와 같이, 근접 센서 (40) 는 이동 전화가 사용자의 얼굴로부터 떨어져 유지되는지 또는 사용자의 얼굴 근처에 유지되는지 여부를 검출할 수도 있다. 종래에, 이동 디바이스 내의 근접 센서 (40) 는 통상 전통적인 전화로서의 사용 동안 사용자의 볼에 의한 의도하지 않은 활성화를 피하기 위해 이동 디바이스의 터치 스크린을 디스에이블할 때를 결정하기 위해 사용될 수도 있다. 본 개시의 기법들에 따르면, 근접 센서 (40) 는 이동 전화가 전통적인 전화로서의 사용 동안 사용자의 스피치를 캡쳐하기 위해 사용자의 얼굴 근처에 유지되고 있는지 여부, 또는 이동 전화가 스피커 폰으로서의 사용 동안 다수의 사람들로부터의 음악 또는 스피치를 캡쳐하기 위해 사용자의 얼굴로부터 떨어져 유지되고 있는지 여부를 검출할 수도 있다.
오디오 프리프로세서 (22) 의 제어 유닛 (44) 은 분류된 오디오 데이터 및 이동 전화 위치에 기초하여 유효한 스피치 콘텍스트 또는 유효한 음악 콘텍스트로서 오디오 데이터의 콘텍스트를 결정한다 (76). 일반적으로, 프라이머리 마이크로폰 (18A) 에 의해 캡쳐되는 컨텐츠의 타입 및 이동 전화의 위치는 사용자가 수신기측 디바이스, 예를 들어, 도 1 로부터의 목적지 디바이스 (14) 에서의 청취자에게 스피치 신호들을 또는 음악 신호들을 주로 송신할 것을 의도하는지 여부를 표시할 수도 있다. 예를 들어, 제어 유닛 (44) 은, 프라이머리 마이크로폰 (18A) 에 의해 캡쳐된 오디오 데이터의 적어도 하나가 SPMU 분류기 (42) 에 의해 스피치 콘텐츠로서 분류되는 것 또는 이동 전화가 근접 센서 (40) 에 의해 사용자의 얼굴에 근접하게 위치된 것으로 검출되는 것에 기초하여 캡쳐된 오디오 데이터의 콘텍스트가 유효한 스피치 콘텍스트라고 결정할 수도 있다. 다른 예로서, 제어 유닛 (44) 은, 프라이머리 마이크로폰 (18A) 에 의해 캡쳐된 오디오 데이터가 SPMU 분류기 (42) 에 의해 음악 콘텐츠로서 분류되는 것 및 이동 전화가 근접 센서 (40) 에 의해 사용자의 얼굴로부터 떨어져 위치된 것으로서 검출되는 것에 기초하여 캡쳐된 오디오 데이터의 콘텍스트가 유효한 음악 콘텍스트라고 결정할 수도 있다.
이러한 식으로, 오디오 프리프로세서 (22) 는 소스 디바이스 (12) 의 사용자와 목적지 디바이스 (14) 의 사용자 사이의 대화 동안 입력 오디오 데이터의 오디오 콘텍스트를 획득하며, 여기서 음악은 소스 디바이스 (12) 의 사용자의 배경에서 재생되고 있다. 오디오 프리프로세서 (22) 는 소스 디바이스 (12) 의 사용자로부터의 입력 오디오 데이터에 가변 레벨의 잡음 억제의 적용 이전에 오디오 콘텍스트를 획득한다. 입력 오디오 데이터는 소스 디바이스 (12) 의 사용자의 음성 및 소스 디바이스 (12) 의 사용자의 배경에서 재생되는 음악 양자 모두를 포함한다. 일부 경우들에서, 소스 디바이스 (12) 의 사용자의 배경에서 재생되는 음악은 가라오케 머신으로부터 온다.
일부 예들에서, 오디오 프리프로세서 (22) 는 SPMU 분류기 (42) 가 입력 오디오 데이터를 스피치, 음악, 또는 스피치 및 음악 양자 모두로서 분류하는 것에 기초하여 입력 오디오 데이터의 오디오 콘텍스트를 획득한다. SPMU 분류기 (42) 는 음악이 스피치와 함께 존재하는 시간의 적어도 80 퍼센트에서 입력 오디오 데이터를 음악으로서 분류할 수도 있다. 다른 예들에서, 오디오 프리프로세서 (22) 는, 근접 센서 (40) 가 소스 디바이스의 위치에 기초하여 소스 디바이스 (12) 가 상기 소스 디바이스 (12) 의 사용자의 입에 근접하거나, 상기 사용자의 입으로부터 멀리 떨어져 있는지 여부를 결정하는 것에 기초하여, 입력 오디오 데이터의 오디오 콘텍스트를 획득한다. 하나의 예에서, 프리프로세서 (22) 는 스마트 시계 또는 다른 웨어러블 디바이스를 착용하는 소스 디바이스 (12) 의 사용자에 기초하여 오디오 콘텍스트를 획득한다.
제어 유닛 (44) 은 오디오 프리프로세서 (22) 의 잡음 억제 유닛 (24) 으로 캡쳐된 오디오 데이터의 결정된 오디오 콘텍스트를 피딩한다. 잡음 억제 유닛 (24) 은 그 후 오디오 데이터의 결정된 오디오 콘텍스트에 기초하여 캡쳐된 오디오 데이터에 대한 잡음 억제의 레벨을 설정한다 (78). 상술된 바와 같이, 잡음 억제 유닛 (24) 은 오디오 데이터의 결정된 콘텍스트에 기초하여 이득 값을 변경함으로써 캡쳐된 오디오 데이터에 대한 잡음 억제의 레벨을 설정할 수도 있다. 보다 구체적으로는, 잡음 억제 유닛 (24) 은 오디오 데이터에 대한 잡음 억제의 레벨을 감소시키기 위해 유효한 음악 콘텍스트인 오디오 데이터의 콘텍스트에 기초하여 포스트 프로세싱 이득 값을 증가시킬 수도 있다.
오디오 데이터의 콘텍스트가 유효한 스피치 콘텍스트인 경우, 잡음 억제 유닛 (24) 은 (음악 신호들을 포함하는) 잡음 신호들을 억제하고 오디오 데이터 내의 스피치 신호들을 클린업하기 위해 상대적으로 공격적인 제 1 레벨의 잡음 억제를 설정할 수도 있다. 오디오 데이터의 콘텍스트가 유효한 음악 콘텍스트인 경우, 잡음 억제 유닛 (24) 은 오디오 데이터 내의 음악 신호들을 왜곡되지 않은 채 남겨두기 위해 덜 공격적인 제 2 레벨의 잡음 억제를 설정할 수도 있다. 위의 예에서, 제 2 레벨의 잡음 억제는 제 1 레벨의 잡음 억제보다 낮다. 예를 들어, 제 2 레벨의 잡음 억제는 제 1 레벨의 잡음 억제보다 적어도 50 퍼센트 더 낮을 수도 있다. 더 구체적으로, 일부 예들에서, 공격적 또는 높은 레벨의 잡음 억제는 대략 15 dB 보다 더 클 수도 있고, 중간 레벨의 잡음 억제는 대략 10 dB 로부터 대략 15 dB 까지의 범위에 있을 수도 있으며, 낮은 레벨의 잡음 억제는 무 잡음 억제 (즉, 0 dB) 로부터 대략 10 dB 까지의 범위에 있을 수도 있다.
잡음 억제 유닛 (24) 은 그 후 오디오 데이터를 대역폭 압축 또는 인코딩하기 위해 EVS 보코더로 전송하기 전에 오디오 데이터에 잡음 억제의 레벨을 적용한다 (80). 예를 들어, 도 1 로부터의 오디오 인코더 (20) 는 스피치 및 음악 신호들 양자 모두를 적절히 인코딩할 수 있는 EVS 코덱에 따라 동작하도록 구성될 수도 있다. 본 개시의 기법들은, 따라서, SWB 음악 신호들에 대한 최소 왜곡들로 수신기측 디바이스, 예를 들어, 도 1 의 목적지 디바이스 (14) 에서의 캡쳐된 오디오 장면의 완전한, 고품질 재생을 가능하게 한다.
이러한 식으로, 오디오 프리프로세서 (22) 는 스피치 또는 음악, 또는 스피치 및 음악 양자인 오디오 콘텍스트를 포함하는 오디오 콘텍스트에 기초하여 오디오 인코더 (20) 에 의한 입력 오디오 데이터의 대역폭 압축 이전에 입력 오디오 데이터에 가변 레벨의 잡음 억제를 적용한다. 오디오 인코더 (20) 는 그 후 적어도 하나의 오디오 인코더 패킷을 생성하기 위해 입력 오디오 데이터를 대역폭 압축하고, 소스 디바이스 (12) 는 소스 디바이스 (12) 로부터 목적지 디바이스 (14) 로 공중을 경유하여 (over the air) 적어도 하나의 오디오 인코더 패킷을 송신한다.
일부 예들에서, 오디오 프리프로세서 (22) 는, 입력 오디오 데이터의 오디오 콘텍스트가 음악인 경우 입력 오디오 데이터의 하나의 감쇠 레벨이 존재하고, 입력 오디오 데이터의 오디오 콘텍스트가 스피치인 경우 입력 오디오 데이터의 상이한 감쇠 레벨이 존재하도록, 잡음 억제 이득을 조정한다. 하나의 경우에, 하나의 감쇠 레벨 및 상이한 감쇠 레벨 양자는 동일한 값을 갖는다. 그 경우에, 소스 디바이스 (12) 의 사용자의 배경에서 재생되는 음악은 소스 디바이스 (12) 의 사용자의 음성과 동일한 감쇠 레벨에서 잡음 억제 유닛 (24) 을 통과한다.
입력 오디오 데이터의 제 1 레벨의 감쇠는 소스 디바이스 (12) 의 사용자가 소스 디바이스 (12) 의 사용자의 배경에서 재생되는 음악보다 적어도 3 dB 더 크게 이야기하고 있는 경우 적용될 수도 있고, 입력 오디오 데이터의 제 2 레벨의 감쇠는 소스 디바이스 (12) 의 사용자의 배경에서 재생되는 음악이 소스 디바이스 (12) 의 사용자의 이야기보다 적어도 3 dB 더 큰 경우 적용될 수도 있다. 동시에 소스 디바이스 (12) 의 사용자의 음성 및 소스 디바이스 (12) 의 사용자의 배경에서 재생되는 음악의 입력 오디오 데이터의 대역폭 압축은, 입력 오디오 데이터에 대한 잡음 억제의 적용 이전에 입력 오디오 데이터의 오디오 콘텍스트를 획득하지 않는, 동시에 소스 디바이스 (12) 의 사용자의 음성 및 소스 디바이스 (12) 의 사용자의 배경에서 재생되는 음악의 입력 오디오 데이터의 대역폭 압축에 비해 배경에서 재생되는 음악의 적어도 30% 작은 왜곡을 제공할 수도 있다.
하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되면, 그 기능들은 컴퓨터 판독가능 매체 상에 하나 이상의 명령들 또는 코드로서 저장되거나 송신될 수도 있고 하드웨어 기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체는, 예를 들면, 통신 프로토콜에 따라, 일 장소로부터 다른 장소로의 컴퓨터 프로그램의 전송을 가능하게 하는 임의의 매체를 포함하는 통신 매체, 또는 데이터 저장 매체와 같은 유형의 매체에 대응하는 컴퓨터 판독가능 저장 매체를 포함할 수도 있다. 이런 방식으로, 컴퓨터 판독가능 매체는 일반적으로, (1) 비일시적인 유형의 컴퓨터 판독가능 저장 매체 또는 (2) 신호 또는 캐리어 파와 같은 통신 매체에 대응할 수도 있다. 데이터 저장 매체는, 본 개시에서 설명된 기법들의 구현을 위해 명령들, 코드, 또는 데이터 구조들을 취출하기 위하여 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 임의의 가용 매체일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.
비한정적 예로서, 그러한 컴퓨터 판독가능 저장 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장, 자기 디스크 저장 또는 다른 자기 저장 디바이스들, 플래시 메모리, 또는 명령 또는 데이터 구조의 형태로 원하는 프로그램 코드를 저장하는데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독가능 매체로 적절히 칭해진다. 예를 들어, 명령들이 동축 케이블, 광섬유 케이블, 연선 (twisted pair), 디지털 가입자 라인 (DSL), 또는 적외선, 전파 (radio), 및 마이크로파와 같은 무선 기술을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되면, 그 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 적외선, 전파, 및 마이크로파와 같은 무선 기술은 매체의 정의 내에 포함된다. 하지만, 컴퓨터 판독가능 저장 매체 및 데이터 저장 매체는 접속, 캐리어 파, 신호 또는 다른 일시적 매체를 포함하는 것이 아니라, 대신에 비일시적, 유형의 저장 매체를 포함한다는 것이 이해되야 한다. 여기에 사용된, 디스크 (disk) 및 디스크 (disc) 는 콤팩트 디스크 (CD), 레이저 디스크, 광 디스크, DVD (digital versatile disc), 플로피 디스크 및 블루레이 디스크를 포함하며, 여기서, 디스크 (disk) 는 보통 데이터를 자기적으로 재생하지만, 디스크 (disc) 는 레이저를 이용하여 광학적으로 데이터를 재생한다. 또한, 상기의 조합은 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
명령들은 하나 이상의 프로세서들, 이를테면 하나 이상의 디지털 신호 프로세서들 (DSPs), 범용 마이크로프로세서들, 주문형 반도체들 (ASICs), 필드 프로그램가능 로직 어레이들 (FPGAs), 또는 다른 동등한 집적 또는 이산 로직 회로에 의해 실행될 수도 있다. 따라서, 본원에 사용된 용어 "프로세서" 는 전술한 구조 중 임의의 것 또는 본원에 설명된 기법들의 구현에 적합한 임의의 다른 구조를 지칭할 수도 있다. 추가로, 일부 양태들에서, 여기서 설명된 기능은 인코딩 및 디코딩을 위해 구성된 전용 하드웨어 또는 소프트웨어 모듈들 내에 제공되거나 또는 결합된 코덱에 포함될 수도 있다. 또한, 그 기법들은 하나 이상의 회로 또는 로직 엘리먼트들에서 완전히 구현될 수 있다.
본 개시의 기법들은 무선 통신 디바이스, 무선 핸드셋, 이동 전화, 집적 회로 (IC) 또는 IC 들의 세트 (예를 들면, 칩 세트) 를 포함하여, 광범위하게 다양한 디바이스들 또는 장치들에서 구현될 수도 있다. 다양한 컴포넌트들, 모듈들 또는 유닛들이, 개시된 기술들을 수행하도록 구성된 디바이스들의 기능적인 양태들을 강조하기 위하여 본 개시에 설명되었지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 필요로 하는 것은 아니다. 오히려, 상술된 바처럼, 다양한 유닛들이 코덱 하드웨어 유닛에 결합될 수도 있거나, 또는 적합한 소프트웨어 또는 펌웨어와 함께, 상술된 하나 이상의 프로세서들을 포함하는 연동적인 (interoperative) 하드웨어 유닛들의 집합에 의해 제공될 수도 있다.
본 발명의 다양한 실시형태들이 설명되었다. 이들 및 다른 실시형태들은 다음의 청구항들의 범위 내에 있다.

Claims (29)

  1. 음성 및 데이터 통신들을 제공하도록 구성된 디바이스로서,
    하나 이상의 프로세서들로서,
    입력 오디오 데이터에 가변 레벨의 잡음 억제의 적용 이전에, 상기 입력 오디오 데이터의 오디오 콘텍스트를 획득하는 것으로서, 상기 입력 오디오 데이터는 스피치 신호들, 음악 신호들, 및 잡음 신호들을 포함하는, 상기 오디오 콘텍스트를 획득하고;
    상기 오디오 콘텍스트에 기초하여 오디오 인코더로 상기 입력 오디오 데이터의 대역폭 압축 이전에 상기 입력 오디오 데이터에 상기 가변 레벨의 잡음 억제를 적용하며;
    적어도 하나의 오디오 인코더 패킷을 생성하기 위해 상기 입력 오디오 데이터를 대역폭 압축하도록 구성된, 상기 하나 이상의 프로세서들;
    상기 적어도 하나의 오디오 인코더 패킷을 저장하도록 구성된, 상기 하나 이상의 프로세서들에 전기적으로 커플링된 메모리; 및
    상기 적어도 하나의 오디오 인코더 패킷을 송신하도록 구성된 송신기를 포함하는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  2. 제 1 항에 있어서,
    상기 입력 오디오 데이터를 캡쳐하도록 구성된 마이크로폰 어레이를 더 포함하는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  3. 제 1 항에 있어서,
    상기 가변 레벨의 잡음 억제를 적용하도록 구성된 상기 하나 이상의 프로세서들은 상기 디바이스의 잡음 억제기 내의 이득 조정기를 포함하고,
    상기 하나 이상의 프로세서들은,
    상기 입력 오디오 데이터의 상기 오디오 콘텍스트가 음악인 경우 하나의 레벨 만큼 상기 입력 오디오 데이터를 감쇠시키고;
    상기 입력 오디오 데이터의 상기 오디오 콘텍스트가 스피치인 경우 상이한 레벨 만큼 상기 입력 오디오 데이터를 감쇠시키도록 구성되는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  4. 제 3 항에 있어서,
    상기 입력 오디오 데이터의 상기 오디오 콘텍스트가 제 1 오디오 프레임에서 스피치인 경우의 상기 입력 오디오 데이터의 제 1 레벨의 감쇠는 상기 입력 오디오 데이터의 상기 오디오 콘텍스트가 제 2 오디오 프레임에서 음악인 경우의 상기 입력 오디오 데이터의 제 2 레벨의 감쇠의 15 퍼센트 내에 있는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  5. 제 4 항에 있어서,
    상기 제 1 오디오 프레임은 상기 제 2 오디오 프레임의 전 또는 후의 50 개의 오디오 프레임들 내에 있는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  6. 제 1 항에 있어서,
    상기 입력 오디오 데이터의 적어도 2 개의 분류 출력들을 제공하도록 구성된 분류기를 더 포함하는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  7. 제 6 항에 있어서,
    상기 분류기는 상기 하나 이상의 프로세서들로 통합되는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  8. 제 6 항에 있어서,
    상기 적어도 2 개의 분류 출력들 중 하나는 음악이고, 상기 적어도 2 개의 분류 출력들 중 다른 하나는 스피치인, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  9. 제 8 항에 있어서,
    상기 가변 레벨의 잡음 억제를 적용하도록 구성된 상기 하나 이상의 프로세서들은 또한 상기 적어도 2 개의 분류 출력들 중 상기 하나가 음악인 것에 기초하여 상기 디바이스의 잡음 억제기에서의 하나의 이득 값을 조정하도록 구성되는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  10. 제 8 항에 있어서,
    상기 가변 레벨의 잡음 억제를 적용하도록 구성된 상기 하나 이상의 프로세서들은 또한 상기 적어도 2 개의 분류 출력들 중 상기 하나가 스피치인 것에 기초하여 상기 디바이스의 잡음 억제기에서의 하나의 이득 값을 조정하도록 구성되는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  11. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들이 상기 입력 오디오 데이터의 상기 오디오 콘텍스트를 획득하도록 구성되는 경우, 상기 입력 오디오 데이터의 상기 오디오 콘텍스트를 결정하도록 구성된 상기 하나 이상의 프로세서들로 통합된 제어 유닛을 더 포함하는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  12. 제 11 항에 있어서,
    상기 제어 유닛이 상기 입력 오디오 데이터의 상기 오디오 콘텍스트를 결정하는 것을 돕도록 구성된 근접 센서를 더 포함하는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  13. 제 12 항에 있어서,
    상기 근접 센서는 상기 제어 유닛이 상기 디바이스가 상기 디바이스의 사용자의 입에 근접하게 배향되는지 여부, 또는 상기 디바이스가 상기 디바이스의 상기 사용자의 입으로부터 멀리 떨어지게 배향되는지 여부를 결정하는 것을 돕도록 구성되는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  14. 제 1 항에 있어서,
    목적지 디바이스로부터의 상기 적어도 하나의 오디오 인코더 패킷을 디코딩하도록 구성된 오디오 디코더의 출력을 렌더링하도록 구성된 적어도 하나의 스피커를 더 포함하는, 음성 및 데이터 통신들을 제공하도록 구성된 디바이스.
  15. 잡음 억제를 수행하도록 구성된 장치로서,
    입력 오디오 데이터에 가변 레벨의 잡음 억제의 적용 이전에, 상기 입력 오디오 데이터의 오디오 콘텍스트를 획득하는 수단으로서, 상기 입력 오디오 데이터는 스피치 신호들, 음악 신호들, 및 잡음 신호들을 포함하는, 상기 오디오 콘텍스트를 획득하는 수단;
    상기 오디오 콘텍스트에 기초하여 오디오 인코더로 상기 입력 오디오 데이터의 대역폭 압축 이전에 상기 입력 오디오 데이터에 가변 레벨의 잡음 억제를 적용하는 수단;
    적어도 하나의 오디오 인코더 패킷을 생성하기 위해 상기 입력 오디오 데이터를 대역폭 압축하는 수단; 및
    상기 적어도 하나의 오디오 인코더 패킷을 송신하는 수단을 포함하는, 잡음 억제를 수행하도록 구성된 장치.
  16. 제 15 항에 있어서,
    상기 장치는 제 1 마이크로폰으로부터의 상기 입력 오디오 데이터의 제 1 부분을 캡쳐하는 수단에 기초하여 상기 입력 오디오 데이터의 상기 오디오 콘텍스트를 결정하는 수단 및 제 2 마이크로폰으로부터의 상기 입력 오디오 데이터의 제 2 부분을 캡쳐하는 수단을 더 포함하는, 잡음 억제를 수행하도록 구성된 장치.
  17. 제 16 항에 있어서,
    상기 장치는 상기 입력 오디오 데이터에 상기 가변 레벨의 잡음 억제를 적용하는 수단을 위해 사용자 오버라이드 신호를 획득하는 수단을 더 포함하는, 잡음 억제를 수행하도록 구성된 장치.
  18. 제 15 항에 있어서,
    상기 장치는 상이한 장치와 통신하는 수단을 더 포함하고,
    상기 상이한 장치는 웨어러블 디바이스 또는 가라오케 머신인, 잡음 억제를 수행하도록 구성된 장치.
  19. 음성 및 데이터 통신들에서 사용되는 방법으로서,
    소스 디바이스의 사용자와 목적지 디바이스의 사용자 사이의 대화 동안, 입력 오디오 데이터의 오디오 콘텍스트를 획득하는 단계로서, 음악이 상기 소스 디바이스의 사용자로부터의 상기 입력 오디오 데이터에 가변 레벨의 잡음 억제의 적용 이전에, 상기 소스 디바이스의 사용자의 배경에서 재생되고 있고, 상기 입력 오디오 데이터는 상기 소스 디바이스의 사용자의 음성 및 상기 소스 디바이스의 사용자의 배경에서 재생되는 상기 음악을 포함하는, 상기 오디오 콘텍스트를 획득하는 단계;
    스피치 또는 음악, 또는 스피치 및 음악 양자 모두인 상기 오디오 콘텍스트를 포함하는 상기 오디오 콘텍스트에 기초하여 오디오 인코더로 상기 입력 오디오 데이터의 대역폭 압축 이전에 상기 입력 오디오 데이터에 가변 레벨의 잡음 억제를 적용하는 단계;
    적어도 하나의 오디오 인코더 패킷을 생성하기 위해 상기 입력 오디오 데이터를 대역폭 압축하는 단계; 및
    상기 소스 디바이스로부터 상기 목적지 디바이스로 상기 적어도 하나의 오디오 인코더 패킷을 송신하는 단계를 포함하는, 음성 및 데이터 통신들에서 사용되는 방법.
  20. 제 19 항에 있어서,
    상기 가변 레벨의 잡음 억제를 적용하는 단계는, 상기 입력 오디오 데이터의 상기 오디오 콘텍스트가 음악인 경우 상기 입력 오디오 데이터의 하나의 감쇠 레벨이 존재하고, 상기 입력 오디오 데이터의 상기 오디오 콘텍스트가 스피치인 경우 상기 입력 오디오 데이터의 상이한 감쇠 레벨이 존재하도록, 잡음 억제 이득을 조정하는 단계를 포함하는, 음성 및 데이터 통신들에서 사용되는 방법.
  21. 제 20 항에 있어서,
    상기 하나의 감쇠 레벨 및 상기 상이한 감쇠 레벨 양자 모두는 동일한 값을 갖는, 음성 및 데이터 통신들에서 사용되는 방법.
  22. 제 21 항에 있어서,
    상기 소스 디바이스의 사용자의 배경에서 재생되는 상기 음악은 상기 소스 디바이스의 사용자의 상기 음성과 동일한 감쇠 레벨에서 잡음 억제기를 통과하는, 음성 및 데이터 통신들에서 사용되는 방법.
  23. 제 19 항에 있어서,
    상기 입력 오디오 데이터의 제 1 레벨의 감쇠는 상기 소스 디바이스의 사용자가 상기 소스 디바이스의 사용자의 배경에서 재생되는 상기 음악보다 적어도 3 dB 더 크게 이야기하고 있는 경우 적용되고,
    상기 입력 오디오 데이터의 제 2 레벨의 감쇠는 상기 소스 디바이스의 사용자의 배경에서 재생되는 상기 음악이 상기 소스 디바이스의 사용자의 이야기보다 적어도 3 dB 더 큰 경우 적용되는, 음성 및 데이터 통신들에서 사용되는 방법.
  24. 제 19 항에 있어서,
    동시에 상기 소스 디바이스의 사용자의 상기 음성 및 상기 소스 디바이스의 사용자의 배경에서 재생되는 상기 음악의 상기 입력 오디오 데이터의 대역폭 압축은, 상기 입력 오디오 데이터에 대한 잡음 억제의 적용 이전에 상기 입력 오디오 데이터의 상기 오디오 콘텍스트를 획득하지 않는, 동시에 상기 소스 디바이스의 사용자의 상기 음성 및 상기 소스 디바이스의 사용자의 배경에서 재생되는 상기 음악의 상기 입력 오디오 데이터의 대역폭 압축에 비해 상기 배경에서 재생되는 상기 음악의 적어도 30% 작은 왜곡을 제공하는, 음성 및 데이터 통신들에서 사용되는 방법.
  25. 제 19 항에 있어서,
    상기 입력 오디오 데이터의 오디오 콘텍스트를 획득하는 단계는 상기 입력 오디오 데이터를 스피치, 음악, 또는 스피치 및 음악 양자 모두로서 분류하는 것에 기초하는, 음성 및 데이터 통신들에서 사용되는 방법.
  26. 제 25 항에 있어서
    음악이 스피치와 함께 존재하는 시간의 적어도 80 퍼센트에서 상기 입력 오디오 데이터를 음악으로서 분류하는 단계를 더 포함하는, 음성 및 데이터 통신들에서 사용되는 방법.
  27. 제 19 항에 있어서,
    상기 소스 디바이스의 위치에 기초하여 상기 소스 디바이스가 상기 소스 디바이스의 사용자의 입에 근접하거나, 상기 사용자의 입으로부터 멀리 떨어져 있는지 여부를 결정하는 단계를 더 포함하는, 음성 및 데이터 통신들에서 사용되는 방법.
  28. 제 19 항에 있어서,
    상기 오디오 콘텍스트를 획득하는 단계는 시계를 착용하고 있는 상기 소스 디바이스의 사용자에 기초하는, 음성 및 데이터 통신들에서 사용되는 방법.
  29. 제 19 항에 있어서,
    상기 소스 디바이스의 사용자의 배경에서 재생되는 상기 음악은 가라오케 머신으로부터 오는, 음성 및 데이터 통신들에서 사용되는 방법.
KR1020187011507A 2015-09-25 2016-07-27 초광대역 음악을 위한 적응적 잡음 억제 KR20180056752A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/865,885 2015-09-25
US14/865,885 US10186276B2 (en) 2015-09-25 2015-09-25 Adaptive noise suppression for super wideband music
PCT/US2016/044291 WO2017052756A1 (en) 2015-09-25 2016-07-27 Adaptive noise suppression for super wideband music

Publications (1)

Publication Number Publication Date
KR20180056752A true KR20180056752A (ko) 2018-05-29

Family

ID=56567728

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187011507A KR20180056752A (ko) 2015-09-25 2016-07-27 초광대역 음악을 위한 적응적 잡음 억제

Country Status (7)

Country Link
US (1) US10186276B2 (ko)
EP (1) EP3353788A1 (ko)
JP (1) JP2018528479A (ko)
KR (1) KR20180056752A (ko)
CN (1) CN108140399A (ko)
BR (1) BR112018006076A2 (ko)
WO (1) WO2017052756A1 (ko)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10535360B1 (en) * 2017-05-25 2020-01-14 Tp Lab, Inc. Phone stand using a plurality of directional speakers
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10148241B1 (en) * 2017-11-20 2018-12-04 Dell Products, L.P. Adaptive audio interface
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) * 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
CN110430508B (zh) * 2019-07-12 2021-09-14 星络智能科技有限公司 麦克风降噪处理方法及计算机存储介质
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN111128214B (zh) * 2019-12-19 2022-12-06 网易(杭州)网络有限公司 音频降噪方法、装置、电子设备及介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN113450823B (zh) * 2020-03-24 2022-10-28 海信视像科技股份有限公司 基于音频的场景识别方法、装置、设备及存储介质
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN112509594A (zh) * 2020-06-22 2021-03-16 中兴通讯股份有限公司 一种终端、发声方法、存储介质及电子装置
US11688384B2 (en) * 2020-08-14 2023-06-27 Cisco Technology, Inc. Noise management during an online conference session
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11425259B2 (en) 2020-12-08 2022-08-23 T-Mobile Usa, Inc. Machine learning-based audio codec switching
US11699452B2 (en) 2020-12-08 2023-07-11 T-Mobile Usa, Inc. Machine learning-based audio codec switching
CN115762546A (zh) * 2021-09-03 2023-03-07 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备以及介质
GB2619731A (en) * 2022-06-14 2023-12-20 Nokia Technologies Oy Speech enhancement

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5848163A (en) * 1996-02-02 1998-12-08 International Business Machines Corporation Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer
US7209567B1 (en) * 1998-07-09 2007-04-24 Purdue Research Foundation Communication system with adaptive noise suppression
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6473733B1 (en) 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US7443978B2 (en) * 2003-09-04 2008-10-28 Kabushiki Kaisha Toshiba Method and apparatus for audio coding with noise suppression
US20050091049A1 (en) * 2003-10-28 2005-04-28 Rongzhen Yang Method and apparatus for reduction of musical noise during speech enhancement
US8204884B2 (en) * 2004-07-14 2012-06-19 Nice Systems Ltd. Method, apparatus and system for capturing and analyzing interaction based content
US7558729B1 (en) * 2004-07-16 2009-07-07 Mindspeed Technologies, Inc. Music detection for enhancing echo cancellation and speech coding
US7454010B1 (en) * 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
JP4283212B2 (ja) * 2004-12-10 2009-06-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音除去装置、雑音除去プログラム、及び雑音除去方法
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8068619B2 (en) * 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
US8949120B1 (en) * 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
EP2092517B1 (en) * 2006-10-10 2012-07-18 QUALCOMM Incorporated Method and apparatus for encoding and decoding audio signals
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
US20080175408A1 (en) 2007-01-20 2008-07-24 Shridhar Mukund Proximity filter
US8385572B2 (en) * 2007-03-12 2013-02-26 Siemens Audiologische Technik Gmbh Method for reducing noise using trainable models
US20090012786A1 (en) * 2007-07-06 2009-01-08 Texas Instruments Incorporated Adaptive Noise Cancellation
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
US8131541B2 (en) * 2008-04-25 2012-03-06 Cambridge Silicon Radio Limited Two microphone noise reduction system
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
CN102150201B (zh) * 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
US8401178B2 (en) 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
KR20180019752A (ko) 2008-11-10 2018-02-26 구글 엘엘씨 멀티센서 음성 검출
US8660281B2 (en) * 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction
US9196249B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for identifying speech and music components of an analyzed audio signal
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
US8718290B2 (en) * 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US9112989B2 (en) 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US8538035B2 (en) * 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US8320974B2 (en) * 2010-09-02 2012-11-27 Apple Inc. Decisions on ambient noise suppression in a mobile communications handset device
US9364669B2 (en) * 2011-01-25 2016-06-14 The Board Of Regents Of The University Of Texas System Automated method of classifying and suppressing noise in hearing devices
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
UA107771C2 (en) * 2011-09-29 2015-02-10 Dolby Int Ab Prediction-based fm stereo radio noise reduction
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
EP2629295B1 (en) * 2012-02-16 2017-12-20 2236008 Ontario Inc. System and method for noise estimation with music detection
US8781142B2 (en) * 2012-02-24 2014-07-15 Sverrir Olafsson Selective acoustic enhancement of ambient sound
US20130282372A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9966067B2 (en) * 2012-06-08 2018-05-08 Apple Inc. Audio noise estimation and audio noise reduction using multiple microphones
US9311931B2 (en) * 2012-08-09 2016-04-12 Plantronics, Inc. Context assisted adaptive noise reduction
US9344826B2 (en) 2013-03-04 2016-05-17 Nokia Technologies Oy Method and apparatus for communicating with audio signals having corresponding spatial characteristics
US9818424B2 (en) * 2013-05-06 2017-11-14 Waves Audio Ltd. Method and apparatus for suppression of unwanted audio signals
US20140337021A1 (en) * 2013-05-10 2014-11-13 Qualcomm Incorporated Systems and methods for noise characteristic dependent speech enhancement
US20150118960A1 (en) * 2013-10-28 2015-04-30 Aliphcom Wearable communication device
US20150117695A1 (en) * 2013-10-28 2015-04-30 Aliphcom Orienting earbuds and earbud systems
US9466310B2 (en) * 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
US10497353B2 (en) * 2014-11-05 2019-12-03 Voyetra Turtle Beach, Inc. Headset with user configurable noise cancellation vs ambient noise pickup
US9886966B2 (en) * 2014-11-07 2018-02-06 Apple Inc. System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition

Also Published As

Publication number Publication date
CN108140399A (zh) 2018-06-08
US10186276B2 (en) 2019-01-22
BR112018006076A2 (pt) 2018-10-09
WO2017052756A1 (en) 2017-03-30
JP2018528479A (ja) 2018-09-27
EP3353788A1 (en) 2018-08-01
US20170092288A1 (en) 2017-03-30

Similar Documents

Publication Publication Date Title
US10186276B2 (en) Adaptive noise suppression for super wideband music
US10553235B2 (en) Transparent near-end user control over far-end speech enhancement processing
US11929088B2 (en) Input/output mode control for audio processing
US9299333B2 (en) System for adaptive audio signal shaping for improved playback in a noisy environment
KR101540896B1 (ko) 전자 디바이스 상에서의 마스킹 신호 생성
JP5085556B2 (ja) エコー除去の構成
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US9711162B2 (en) Method and apparatus for environmental noise compensation by determining a presence or an absence of an audio event
US9100756B2 (en) Microphone occlusion detector
US20150334489A1 (en) Microphone partial occlusion detector
JP2011516901A (ja) 受信機を使用するコンテキスト抑圧のためのシステム、方法、および装置
JP2008543194A (ja) オーディオ信号ゲイン制御装置及び方法
US9832299B2 (en) Background noise reduction in voice communication
US20150341722A1 (en) Methods and devices for reverberation suppression
US20220060824A1 (en) An Audio Capturing Arrangement
CN114747233A (zh) 内容和环境感知的环境噪声补偿
US9934791B1 (en) Noise supressor
US9282279B2 (en) Quality enhancement in multimedia capturing
US9978394B1 (en) Noise suppressor
US20240029755A1 (en) Intelligent speech or dialogue enhancement
US11915710B2 (en) Conference terminal and embedding method of audio watermarks
JP2015220482A (ja) 送受話端末、エコー消去システム、エコー消去方法、プログラム
CN118113249A (zh) 一种音频数据处理方法、相关装置、设备以及存储介质