KR20240017404A

KR20240017404A - 탠덤 네트워크들을 사용한 잡음 억제

Info

Publication number: KR20240017404A
Application number: KR1020247001619A
Authority: KR
Inventors: 바히드 몬타제리; 반 응우옌; 하네스 페쎈트하이너; 래훈 김; 에릭 비제르; 호제리우 게데스 알베스
Original assignee: 퀄컴 인코포레이티드
Priority date: 2021-07-21
Filing date: 2022-06-23
Publication date: 2024-02-07
Also published as: US20230026735A1; WO2023004223A1; US11805360B2; CN117642815A; EP4374367A1

Abstract

디바이스는 명령들을 저장하도록 구성된 메모리 및 명령들을 실행하도록 구성된 하나 이상의 프로세서들을 포함한다. 하나 이상의 프로세서들은, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하기 위한 명령들을 실행하도록 구성된다. 하나 이상의 프로세서들은 또한, 오디오 데이터를 제1 잡음 억제 네트워크 및 제2 잡음 억제 네트워크에 제공하기 위한 명령들을 실행하도록 구성된다. 제1 잡음 억제 네트워크는 제1 잡음 억제된 오디오 프레임을 생성하도록 구성되고, 제2 잡음 억제 네트워크는 제2 잡음 억제된 오디오 프레임을 생성하도록 구성된다. 하나 이상의 프로세서들은, 잡음 억제된 오디오 프레임들을 주의집중 풀링 네트워크에 제공하기 위한 명령들을 실행하도록 추가로 구성된다. 주의집중 풀링 네트워크는 출력 잡음 억제된 오디오 프레임을 생성하도록 구성된다.

Description

탠덤 네트워크들을 사용한 잡음 억제

관련 출원들에 대한 상호 참조

본 출원은 2021년 7월 21일자로 출원된 공동 소유의 미국 정규 특허출원 제17/382,166호로부터의 우선권의 이익을 주장하고, 그 내용들은 그 전체가 본 명세서에 참조로 명시적으로 통합된다.

기술분야

본 개시내용은 대체적으로 잡음 억제에 관한 것이다.

기술에서의 진보들은 더 소형이고 더 강력한 컴퓨팅 디바이스들을 발생시켰다. 예를 들어, 작고, 경량의, 그리고 사용자들에 의해 쉽게 휴대되는 모바일 및 스마트 폰들과 같은 무선 전화기들, 태블릿들 및 랩톱 컴퓨터들을 포함하는 다양한 휴대용 개인 컴퓨팅 디바이스들이 현재 존재한다. 이들 디바이스들은 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 또한, 많은 그러한 디바이스들은 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어와 같은 추가적인 기능을 통합한다. 또한, 그러한 디바이스들은, 인터넷에 액세스하는데 사용될 수 있는 웹 브라우저 애플리케이션과 같은 소프트웨어 애플리케이션들을 포함하는, 실행가능 명령들을 프로세싱할 수 있다. 그와 같이, 이들 디바이스들은 중요한 컴퓨팅 능력들을 포함할 수 있다.

그러한 컴퓨팅 디바이스들은 종종, 하나 이상의 마이크로폰들로부터 오디오 신호를 수신하기 위한 기능을 통합한다. 예를 들어, 오디오 신호는 마이크로폰들에 의해 캡처된 사용자 스피치, 마이크로폰들에 의해 캡처된 외부 사운드들, 또는 이들의 조합을 나타낼 수 있다. 상이한 기법들이 마이크로폰들에 의해 캡처된 오디오 신호들을 프로세싱하고 오디오 신호들과 연관된 잡음을 억제하는 데 사용될 수 있다. 비제한적인 예로서, 하나의 기법은 빔포밍 기법들을 활용하여 잡음을 억제할 수 있다. 빔포밍 기법들은 고정된 포지션에서 잡음 소스들로부터의 잡음을 억제하기 위해 상대적으로 잘 작동하지만, 모바일 잡음 소스들로부터의 잡음을 억제하기 위해 빔포밍 기법들을 사용하는 것에는 단점이 존재할 수 있다. 다른 비제한적인 예로서, 다른 기법은 다중 마이크로폰 스피치 생성 네트워크와 같은 스피치 생성 기법들을 활용하여 잡음을 억제할 수 있다. 스피치 생성 기법들은 높은 신호대잡음비(signal-to-noise ratio, SNR)를 갖는 신호들에서 잡음을 억제하기 위해 상대적으로 잘 작동하지만, 일부 구현예들에서, 스피치 생성 기법들은 낮은 SNR을 갖는 신호들에서 스피치를 억제할 수 있다.

본 개시내용의 일 구현예에 따르면, 디바이스는 명령들을 저장하도록 구성된 메모리 및 명령들을 실행하도록 구성된 하나 이상의 프로세서들을 포함한다. 하나 이상의 프로세서들은, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하기 위한 명령들을 실행하도록 구성된다. 하나 이상의 프로세서들은, 오디오 데이터를 제1 잡음 억제 네트워크 및 제2 잡음 억제 네트워크에 제공하기 위한 명령들을 실행하도록 추가로 구성된다. 제1 잡음 억제 네트워크는, 오디오 데이터에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하도록 구성된다. 제2 잡음 억제 네트워크는, 오디오 데이터에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하도록 구성된다. 하나 이상의 프로세서들은 또한, 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임을 주의집중 풀링 네트워크(attention-pooling network)에 제공하기 위한 명령들을 실행하도록 구성된다. 주의집중 풀링 네트워크는, 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 기초하여 출력 잡음 억제된 오디오 프레임을 생성하도록 구성된다.

본 개시내용의 다른 구현예에 따르면, 방법은, 하나 이상의 프로세서들에서, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하는 단계를 포함한다. 본 방법은 또한, 하나 이상의 프로세서들과 연관된 제1 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하는 단계를 포함한다. 본 방법은, 하나 이상의 프로세서들과 연관된 제2 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하는 단계를 추가로 포함한다. 본 방법은 또한, 하나 이상의 프로세서들과 연관된 주의집중 풀링 네트워크에서, 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하는 단계를 포함한다.

본 개시내용의 다른 구현예에 따르면, 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하게 한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로 하나 이상의 프로세서들로 하여금, 제1 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하게 한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한 하나 이상의 프로세서들로 하여금, 제2 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하게 한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 추가로 하나 이상의 프로세서들로 하여금, 주의집중 풀링 네트워크에서, 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하게 한다.

본 개시내용의 다른 구현예에 따르면, 장치는, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하기 위한 수단을 포함한다. 장치는 또한, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하기 위한 수단을 포함한다. 장치는, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하기 위한 수단을 추가로 포함한다. 장치는 또한, 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하기 위한 수단을 포함한다.

본 발명의 다른 양태들, 이점들 및 특징들은 다음 섹션들, 즉 도면의 간단한 설명, 상세한 설명 및 청구항들을 포함하여, 본 명세서 전체를 검토한 후 분명해질 것이다.

도 1은 본 개시내용의 일부 예들에 따른, 점진적 탠덤 네트워크(progressive tandem network)들을 사용하여 잡음 억제된 오디오 신호를 생성하도록 구성된 시스템의 특정 예시적인 양태의 블록도이다.
도 2는 본 개시내용의 일부 예들에 따른, 탠덤 네트워크들을 사용하여 잡음 억제된 오디오 신호를 생성하도록 구성된 시스템의 예시적인 양태의 도면이다.
도 3은 본 개시내용의 일부 예들에 따른, 점진적 탠덤 네트워크들을 사용하여 분류 결과를 검증하도록 구성된 시스템의 예시적인 양태의 도면이다.
도 4는 본 개시내용의 일부 예들에 따른, 주의집중 풀링 네트워크의 예시적인 양태의 도면이다.
도 5는 본 개시내용의 일부 예들에 따른, 잡음 억제된 오디오 신호를 생성하기 위한 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는 집적 회로의 일례를 예시한다.
도 6은 본 개시내용의 일부 예들에 따른, 잡음 억제된 오디오 신호를 생성하기 위한 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는 모바일 디바이스의 도면이다.
도 7은 본 개시내용의 일부 예들에 따른, 잡음 억제된 오디오 신호를 생성하기 위한 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는 헤드셋의 도면이다.
도 8은 본 개시내용의 일부 예들에 따른, 잡음 억제된 오디오 신호를 생성하기 위한 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는 웨어러블 전자 디바이스의 도면이다.
도 9는 본 개시내용의 일부 예들에 따른, 잡음 억제된 오디오 신호를 생성하기 위한 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는 음성 제어된 스피커 시스템의 도면이다.
도 10은 본 개시내용의 일부 예들에 따른, 잡음 억제된 오디오 신호를 생성하기 위한 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는 카메라의 도면이다.
도 11은 본 개시내용의 일부 예들에 따른, 잡음 억제된 오디오 신호를 생성하기 위한 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는, 가상 현실, 혼합 현실, 또는 증강 현실 헤드셋과 같은 헤드셋의 도면이다.
도 12는 본 개시내용의 일부 예들에 따른, 잡음 억제된 오디오 신호를 생성하기 위한 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는 비히클의 제1 예의 도면이다.
도 13은 본 개시내용의 일부 예들에 따른, 잡음 억제된 오디오 신호를 생성하기 위한 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는 비히클의 제2 예의 도면이다.
도 14는 본 개시내용의 일부 예들에 따른, 컴퓨팅 디바이스와 페어링된 보조 디바이스의 도면이다.
도 15는 본 개시내용의 일부 예들에 따른, 점진적 탠덤 네트워크들을 사용하여 잡음 억제된 오디오 신호를 생성하는 방법의 특정 구현예의 도면이다.
도 16은 본 개시내용의 일부 예들에 따른, 점진적 탠덤 네트워크들을 사용하여 잡음 억제된 오디오 신호를 생성하도록 동작가능한 디바이스의 특정 예시적인 예의 블록도이다.

점진적 탠덤 네트워킹을 사용하여 잡음 억제된 오디오 신호들을 생성하는 시스템들 및 방법들이 개시된다. 예를 들어, 사용자의 음성을 캡처하도록 포지셔닝되는 제1 마이크로폰으로부터 그리고 외부 사운드들을 캡처하도록 포지셔닝되는 제2 마이크로폰으로부터 오디오 신호들이 수신될 수 있다. 오디오 신호들은 상이한 제1 레벨 잡음 억제 네트워크들에 제공될 수 있다. 각각의 제1 레벨 잡음 억제 네트워크는 상이한 알고리즘 또는 동작을 활용하여 오디오 신호들로부터의 잡음을 억제할 수 있다. 비제한적인 예로서, 제1 레벨 잡음 억제 네트워크들 중 하나는 적응적 빔포밍 기법들을 활용하여 오디오 신호들로부터의 잡음을 억제할 수 있고, 제1 레벨 잡음 억제 네트워크들 중 다른 것은 스피치 생성 기법들을 활용하여 오디오 신호들로부터의 잡음을 억제할 수 있다. 각각의 제1 레벨 잡음 억제 네트워크는 다른 제1 레벨 잡음 억제 네트워크들에 비해 이점들을 가질 수 있다. 예를 들어, 빔포밍 기법들을 채용하는 제1 레벨 잡음 억제 네트워크는 고정된 포지션에서 잡음 소스들로부터의 잡음을 억제하도록 상대적으로 잘 작동할 수 있고, 스피치 생성 기법들을 채용하는 제1 레벨 잡음 억제 네트워크는 높은 신호대잡음비(SNR) 등을 갖는 신호들에서 잡음을 억제하도록 상대적으로 잘 작동할 수 있다. 제1 레벨 잡음 억제 네트워크들의 출력들이 제2 레벨 잡음 억제 네트워크에 제공될 수 있다.

제2 레벨 잡음 억제 네트워크는 제1 레벨 잡음 억제 네트워크들의 이점들을 레버리징(leveraging)하기 위해 주의집중 기반 풀링을 활용할 수 있다. 예를 들어, 제2 레벨 잡음 억제 네트워크는 각각의 출력과 연관된 스피치의 품질에 기초하여 제1 레벨 잡음 억제 네트워크들의 출력들에 가중치들을 배정할 수 있다. 따라서, 상대적으로 높은 품질의 스피치를 갖는 출력들은 제2 레벨 잡음 억제 네트워크에서 크게 가중될 수 있고, 상대적으로 낮은 품질의 스피치를 갖는 출력들은 제2 레벨 잡음 억제 네트워크에서 작게 가중될 수 있다. 그러한 점진적 탠덤 프로세싱은 향상된 출력 스피치 신호를 초래할 수 있다.

본 개시내용의 특정 양태들이 이하에서 도면들을 참조하여 설명된다. 설명에 있어서, 공통 특징부들은 공통 참조 부호들에 의해 지정된다. 본 명세서에서 사용된 바와 같이, 다양한 용어는 오직 특정 구현들을 설명할 목적으로 사용되고, 구현들을 한정하는 것으로 의도되지 않는다. 예를 들어, 단수 형태들("a, "an" 및 "the")은, 문맥이 분명하게 달리 나타내지 않으면, 복수의 형태들을 물론 포함하도록 의도된다. 또한, 본 명세서에 설명된 일부 특징은 일부 구현에서 단수이고 다른 구현에서 복수이다. 예시하기 위해, 도 1은 하나 이상의 프로세서들(도 1의 "프로세서(들)"(190))을 포함하는 디바이스(102)를 도시하며, 이는 일부 구현들에서는 디바이스(102)가 단일 프로세서(190)를 포함하고 다른 구현들에서는 디바이스(102)가 다수의 프로세서들(190)을 포함한다는 것을 나타낸다. 본 명세서에서의 용이한 참조를 위해, 그러한 특징들은 일반적으로 "하나 이상의" 특징들로서 도입되고 후속적으로 다수의 특징들과 관련된 양태들이 설명되어 있지 않는 한, 단수로 언급된다.

용어들 "포함한다(comprise)", "포함한다(comprises)", 및 "포함하는(comprising)"은 "포함한다(include)", "포함한다(includes)", 또는 "포함하는(including)"과 상호교환가능하게 사용될 수 있는 것으로 추가로 이해될 수 있다. 추가적으로, 용어 "여기서(wherein)"는 "여기에서(where)"와 상호교환가능하게 사용될 수 있는 것으로 이해될 것이다. 본 명세서에서 사용될 때, "예시적인"은 예, 구현예, 및/또는 양태를 표시할 수 있으며, 한정하거나 또는 선호사항 또는 바람직한 구현예를 표시하는 것으로 해석되어서는 안된다. 본 명세서에 사용된 바와 같이, 구조, 컴포넌트, 동작 등과 같은 엘리먼트를 수정하는데 사용되는 서수 용어(예를 들어, "제1", "제2", "제3" 등)는 그것만으로 그 엘리먼트의 다른 엘리먼트에 대한 어떤 우선순위 또는 순서도 표시하지 않고, 오히려 그 엘리먼트를 (서수 용어의 사용이 없다면) 동일 명칭을 갖는 다른 엘리먼트와 구별할 뿐이다. 본 명세서에서 사용될 때, 용어 "세트"는 하나 이상의 특정의 엘리먼트를 지칭하며, 용어 "복수"는 다수의 (예컨대, 2개 이상의) 특정의 엘리먼트를 지칭한다.

본 명세서에 사용된 바와 같이, "커플링된"은 "통신적으로 커플링된", "전기적으로 커플링된", 또는 "물리적으로 커플링된"을 포함할 수 있고, 또한 (또는 대안적으로) 이들의 임의의 조합을 포함할 수 있다. 2개의 디바이스들(또는 컴포넌트들)은 하나 이상의 다른 디바이스, 컴포넌트, 와이어, 버스, 네트워크(예를 들어, 유선 네트워크, 무선 네트워크, 또는 이들의 조합) 등을 통하여 직접적으로 또는 간접적으로 커플링(예를 들어, 통신가능하게 커플링, 전기적으로 커플링, 또는 물리적으로 커플링)될 수 있다. 전기적으로 커플링된 2개의 디바이스들(또는 컴포넌트들)은 동일한 디바이스 또는 상이한 디바이스들에 포함될 수 있고, 예시적인, 비-제한적인 예들로서 전자기기들, 하나 이상의 커넥터 또는 유도 커플링을 통하여 연결될 수 있다. 일부 구현들에서, 전기 통신에서와 같이, 통신가능하게 커플링되는 2개의 디바이스들(또는 컴포넌트들)은 하나 이상의 와이어, 버스, 네트워크 등을 통하여, 직접 또는 간접적으로 신호들(예를 들어, 디지털 신호들 또는 아날로그 신호들)을 전송 및 수신할 수 있다. 본 명세서에서 사용된 바와 같이, "직접 커플링된"은 컴포넌트들을 개재하지 않으면서 커플링(예를 들어, 통신가능하게 커플링, 전기적으로 커플링, 또는 물리적으로 커플링)되는 2개의 디바이스들을 포함할 수 있다.

본 개시내용에서, 용어들 이를 테면 "결정하는 것", "계산하는 것", "추정하는 것", "시프트하는 것", "조정하는 것", 등은 하나 이상의 동작들이 수행되는 방법을 설명하기 위해 사용될 수 있다. 그러한 용어들은 한정하는 것으로서 해석되지 않아야 하고 다른 기법들이 유사한 동작들을 수행하는데 활용될 수 있음을 유의해야 한다. 추가적으로, 본 명세서에서 언급된 바와 같이, "생성하는 것", "계산하는 것", "추정하는 것", "사용하는 것", "선택하는 것", "액세스하는 것", 및 "결정하는 것"은 상호교환가능하게 사용될 수 있다. 예를 들어, 파라미터(또는 신호)를 "생성하는 것", "계산하는 것", "추정하는 것" 또는 "결정하는 것"은 파라미터(또는 신호)를 능동으로 생성하는 것, 추정하는 것, 계산하는 것, 또는 결정하는 것을 지칭할 수 있거나 또는 다른 컴포넌트 또는 디바이스에 의해서와 같이, 이미 생성된 파라미터(또는 신호)를 사용하는 것, 선택하는 것, 또는 액세스하는 것을 지칭할 수 있다.

도 1을 참조하면, 점진적 탠덤 네트워크들을 사용하여 잡음 억제된 오디오 신호를 생성하도록 구성된 시스템의 특정 예시적인 양태가 개시되고, 대체적으로 100으로 지정된다. 시스템(100)은 제1 마이크로폰(110) 및 제2 마이크로폰(120)에 커플링되는 디바이스(102)를 포함한다.

디바이스(102)는, 탠덤 방식으로 동작하는 잡음 억제 네트워크들을 사용하여 마이크로폰들(110, 120)에 의해 캡처된 사운드들에 대한 잡음 억제된 오디오 신호(예컨대, 향상된 스피치 신호)를 생성하도록 구성된다. 디바이스(102)가 헤드셋에 대응하는 구현예에서, 제1 마이크로폰(110)(예컨대, "일차" 마이크로폰)은 주로, 디바이스(102)의 착용자의 입에 근접하게 포지셔닝된 마이크로폰과 같이, 디바이스(102)의 사용자(180)의 발언들(182)을 캡처하도록 구성될 수 있고, 제2 마이크로폰(120)(예컨대, "이차" 마이크로폰)은 주로, 착용자의 귀에 근접하게 포지셔닝된 것과 같이, 주변 사운드를 캡처하도록 구성될 수 있다. 디바이스(102)가 다수의 사람들 부근에 있을 수 있는 독립형 음성 어시스턴트(예컨대, 도 11을 참조하여 추가로 설명되는 바와 같은, 마이크로폰들을 갖는 라우드스피커를 포함함)에 대응할 때와 같은 다른 구현예들에서, 디바이스(102)는, 사람이 헤드셋 구현예에서와 비교하여 일차 마이크로폰으로부터 상대적으로 멀리 떨어져 있을 수 있더라도, 자가 음성 활동으로서 일차 마이크로폰에 가장 가까운 사람으로부터의 스피치를 검출하도록 구성될 수 있다.

디바이스(102)는 제1 입력 인터페이스(114), 제2 입력 인터페이스(124), 및 하나 이상의 프로세서들(190)을 포함한다. 제1 입력 인터페이스(114)는 하나 이상의 프로세서들(190)에 커플링되고, 제1 마이크로폰(110)에 커플링되도록 구성된다. 제1 입력 인터페이스(114)는 제1 마이크로폰(110)으로부터 제1 마이크로폰 출력(112)을 수신하도록 그리고 제1 마이크로폰 출력(112)을 오디오 프레임(116A)으로서 프로세서(190)에 제공하도록 구성된다. 제2 입력 인터페이스(124)는 하나 이상의 프로세서들(190)에 커플링되고, 제2 마이크로폰(120)에 커플링되도록 구성된다. 제2 입력 인터페이스(124)는 제2 마이크로폰(120)으로부터 제2 마이크로폰 출력(122)을 수신하도록 그리고 제2 마이크로폰 출력(122)을 오디오 프레임(116B)으로서 프로세서(190)에 제공하도록 구성된다. 오디오 프레임들(116A, 116B)은 또한 본 명세서에서 오디오 데이터(128)로 지칭될 수 있다.

하나 이상의 프로세서들(190)은 제1 전력 도메인(290) 및 제2 전력 도메인(390)을 포함한다. 제1 전력 도메인(290)은 제1 전력 레벨에서 동작하도록 구성될 수 있고, 제2 전력 도메인(390)은 제1 전력 레벨보다 더 큰 제2 전력 레벨에서 동작하도록 구성될 수 있다. 2개의 전력 도메인들(290, 390)이 예시되어 있지만, 다른 구현예들에서, 하나 이상의 프로세서들(190)은 단일 전력 도메인을 포함할 수 있다. 예를 들어, 일부 구현예들에서, 하나 이상의 프로세서들(190)은 제1 전력 도메인(290)의 컴포넌트들을 포함할 수 있다. 또 다른 구현예들에서, 하나 이상의 프로세서들(190)은 3개 이상의 전력 도메인들을 포함할 수 있다. 비제한적인 예로서, 헤드셋은 2개의 전력 도메인들을 포함할 수 있고, 헤드셋과 페어링된 모바일 폰은 추가적인 전력 도메인을 포함할 수 있다.

도 1에 예시된 예에서, 제1 전력 도메인(290)의 컴포넌트들은 잡음 억제 네트워크(202A), 잡음 억제 네트워크(202B), 잡음 억제 네트워크(202C), 주의집중 풀링 네트워크(204), 및 추론 네트워크(206)를 포함한다. 후술되는 바와 같이, 잡음 억제 네트워크들(202)은 주의집중 풀링 네트워크(204)와 탠덤 방식으로 동작할 수 있다. 3개의 잡음 억제 네트워크들(202)이 도시되어 있지만, 다른 구현예들에서, 제1 전력 도메인(290)은 추가적인 잡음 억제 네트워크들(202)을 포함할 수 있다. 비제한적인 예로서, 일 구현예에 따르면, 제1 전력 도메인(290)은 주의집중 풀링 네트워크(204)와 탠덤 방식으로 동작하는 5개의 잡음 억제 네트워크들(202)을 포함할 수 있다. 다른 구현예들에서, 제1 전력 도메인(290)은 더 적은 잡음 억제 네트워크들(202)을 포함할 수 있다. 비제한적인 예로서, 일 구현예에 따르면, 제1 전력 도메인(290)은 주의집중 풀링 네트워크(204)와 탠덤 방식으로 동작하는 2개의 잡음 억제 네트워크들을 포함할 수 있다.

일 구현예에 따르면, 잡음 억제 네트워크(202A)는 스피치 생성 네트워크에 대응할 수 있고, 잡음 억제 네트워크(202B)는 일반화된 고유치 네트워크에 대응할 수 있고, 잡음 억제 네트워크(202C)는 적응적 빔포밍 네트워크에 대응할 수 있다. 잡음 억제 네트워크들(202)의 하나 이상은 다른 네트워크에 대응할 수 있거나, 또는 잡음 억제된 오디오 프레임들을 생성하기 위해 상이한 알고리즘들을 채용할 수 있다는 것, 및 상기의 예들이 단지 예시적이라는 것이 이해되어야 한다.

잡음 억제 네트워크(202A)는 오디오 프레임들(116A, 116B)에 기초하여 잡음 억제된 오디오 프레임(210A)을 생성하도록 구성될 수 있다. 전술된 바와 같이, 잡음 억제 네트워크(202A)는 다중 마이크로폰 스피치 생성 네트워크(microphone speech generation network, MSGN)와 같은 스피치 생성 네트워크에 대응할 수 있다. 잡음 억제 네트워크(202A)는 스피치 생성 네트워크 알고리즘을 채용하여, 오디오 프레임들(116A, 116B)에 대해 잡음 억제 동작을 수행하고 잡음 억제된 오디오 프레임(210A)을 생성할 수 있다. 잡음 억제 동작은 오디오 프레임들(116A, 116B)의 잡음 컴포넌트들을 필터링하거나 또는 억제하고, 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 사용하여 잡음 억제된 오디오 프레임(210A)을 생성하는 것을 포함할 수 있다. 따라서, 잡음 억제된 오디오 프레임(210A)은 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 포함하는 스피치 프레임(예컨대, 향상된 스피치 프레임 또는 잡음 감소된 스피치 신호)에 대응할 수 있다. 잡음 억제된 오디오 프레임(210A)은 주의집중 풀링 네트워크(204)에 제공된다.

잡음 억제 네트워크(202B)는 오디오 프레임들(116A, 116B)에 기초하여 잡음 억제된 오디오 프레임(210B)을 생성하도록 구성될 수 있다. 전술된 바와 같이, 잡음 억제 네트워크(202B)는 일반화된 고유치 네트워크에 대응할 수 있다. 잡음 억제 네트워크(202B)는 일반화된 고유치 알고리즘을 채용하여, 오디오 프레임들(116A, 116B)에 대해 잡음 억제 동작을 수행하고 잡음 억제된 오디오 프레임(210B)을 생성할 수 있다. 잡음 억제된 오디오 프레임(210B)은 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 포함하는 스피치 프레임(예컨대, 향상된 스피치 프레임 또는 잡음 감소된 스피치 신호)에 대응할 수 있다. 잡음 억제된 오디오 프레임(210B)은 주의집중 풀링 네트워크(204)에 제공된다.

잡음 억제 네트워크(202C)는 오디오 프레임들(116A, 116B)에 기초하여 잡음 억제된 오디오 프레임(210C)을 생성하도록 구성될 수 있다. 전술된 바와 같이, 잡음 억제 네트워크(202C)는 적응적 빔포밍 네트워크에 대응할 수 있다. 잡음 억제 네트워크(202C)는 적응적 빔포밍 알고리즘을 채용하여, 오디오 프레임들(116A, 116B)에 대해 잡음 억제 동작을 수행하고 잡음 억제된 오디오 프레임(210C)을 생성할 수 있다. 잡음 억제된 오디오 프레임(210C)은 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 포함하는 스피치 프레임(예컨대, 향상된 스피치 프레임 또는 잡음 감소된 스피치 신호)에 대응할 수 있다. 잡음 억제된 오디오 프레임(210C)은 주의집중 풀링 네트워크(204)에 제공된다.

주의집중 풀링 네트워크(204)는 오디오 프레임(116A), 오디오 프레임(116B), 잡음 억제된 오디오 프레임(210A), 잡음 억제된 오디오 프레임(210B), 잡음 억제된 오디오 프레임(210C), 또는 이들의 조합에 기초하여 출력 잡음 억제된 오디오 프레임(220)을 생성하도록 구성될 수 있다. 주의집중 풀링 네트워크(204)는 출력 잡음 억제된 오디오 프레임(220)을 생성하는 데 있어서 각각의 입력(예컨대, 각각의 착신 오디오 프레임)에 상이한 가중치들을 배정하기 위해 주의집중 기반 풀링을 채용할 수 있다. 예시하기 위해, 주의집중 풀링 네트워크(204)는 스피치의 품질에 기초하여 각각의 착신 프레임(116, 210)을 가중시킬 수 있다. 예를 들어, 잡음 억제된 오디오 프레임(210A)이 상대적으로 높은 품질의 스피치를 갖고 잡음 억제된 오디오 프레임(210B)이 상대적으로 낮은 품질의 스피치를 갖는 경우(예컨대, 실질적으로 잡음이 있는 프레임임), 주의집중 풀링 네트워크(204)는 출력 잡음 억제된 오디오 프레임(220)을 생성하는 데 있어서 잡음 억제된 오디오 프레임(210A)에 더 큰 가중치를 배정할 수 있다. 상대적으로 높은 품질들의 스피치를 갖는 착신 프레임들에 더 큰 가중치들을 배정함으로써, 주의집중 풀링 네트워크(204)에 의해 생성된 출력 잡음 억제된 오디오 프레임(220)은 향상된 스피치 프레임(예컨대, 향상된 스피치 신호)에 대응할 수 있다. 주의집중 풀링 네트워크(204)의 동작들은 도 4와 관련하여 더 상세히 설명된다. 출력 잡음 억제된 오디오 프레임(220)은 추론 네트워크(206)에 제공된다.

추론 네트워크(206)는 출력 잡음 억제된 오디오 프레임(220)에 대해 분류 태스크를 수행하여, 추론 결과(240)를 생성하도록 구성될 수 있다. 일 구현예에 따르면, 분류 태스크는 키워드 스폿팅 태스크(keyword spotting task)에 대응할 수 있다. 예를 들어, 추론 네트워크(206)는, 특정 키워드(또는 특정 키워드의 일부분)가 사용자(180)의 발언(182)에 포함되는지 또는 발언되는지 여부를 결정할 수 있다. 키워드가 발언되는 경우, 키워드와 연관된 태스크가 수행될 수 있다. 비제한적인 예로서, 태스크는 음악을 재생하는 것, 조명을 켜는 것 등을 포함할 수 있다. 추론 결과(240)는, 특정 키워드가 발언되는지 여부를 나타내는 이진 값(예컨대, 플래그)일 수 있거나, 또는 키워드가 발언되는지 여부에 관한 가능성(또는 신뢰도)을 나타내는 신뢰도 값일 수 있다. 다른 구현예들에서, 분류 태스크는 자동 스피치 인식 태스크, 음성 통화와 연관된 태스크, 발언 검증 태스크 등과 같은 다른 태스크들에 대응할 수 있다는 것이 이해되어야 한다.

도 1에 예시된 예에서, 제2 전력 도메인(390)은 제2 스테이지 잡음 억제 네트워크(302), 제2 스테이지 주의집중 풀링 네트워크(304), 및 제2 추론 네트워크(306)를 포함한다. 하나의 제2 스테이지 잡음 억제 네트워크(302)가 도시되어 있지만, 다른 구현예들에서, 제2 전력 도메인(390)은 추가적인 제2 스테이지 잡음 억제 네트워크들(302)을 포함할 수 있다. 비제한적인 예로서, 일 구현예에 따르면, 제2 전력 도메인(390)은 3개의 제2 스테이지 잡음 억제 네트워크들(302)을 포함할 수 있다. 제2 전력 도메인(390)의 컴포넌트들은 추론 결과(240)를 검증하도록 동작할 수 있다. 예를 들어, 제1 전력 도메인(290)의 추론 결과(240)가 발언(182) 내의 키워드의 검출과 같은 긍정적인 결과(positive result)를 나타낼 때, 제1 전력 도메인(290)은 도 3에 예시된 바와 같이 웨이크업 신호를 생성하고 이를 제2 전력 도메인(390)으로 전송할 수 있다. 웨이크업 신호를 수신할 시에, 제2 전력 도메인(390)의 컴포넌트들은 추론 결과(240)를 검증하기 위해 제1 전력 도메인(290)의 컴포넌트들과 탠덤 방식으로 작동할 수 있다.

오디오 프레임들(116)은 제2 스테이지 잡음 억제 네트워크(302)에 그리고 제2 스테이지 주의집중 풀링 네트워크(304)에 제공된다. 제2 스테이지 잡음 억제 네트워크(302)는 오디오 프레임들(116A, 116B)에 기초하여 제2 스테이지 잡음 억제된 오디오 프레임(310)을 생성하도록 구성될 수 있다. 비제한적인 예로서, 제2 스테이지 잡음 억제 네트워크(302)는 오디오 프레임들(116A, 116B)에 대해 잡음 억제 동작을 수행하여, 제2 스테이지 잡음 억제된 오디오 프레임(310)을 생성한다. 잡음 억제 동작은, 오디오 프레임들(116A, 116B)의 잡음 컴포넌트들을 필터링하거나 또는 억제하고, 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 사용하여 제2 스테이지 잡음 억제된 오디오 프레임(310)을 생성하는 것을 포함하는 고전력 동작일 수 있다. 따라서, 제2 스테이지 잡음 억제된 오디오 프레임(310)은 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 포함하는 스피치 프레임(예컨대, 향상된 스피치 프레임 또는 잡음 감소된 스피치 신호)에 대응할 수 있다. 제2 스테이지 잡음 억제된 오디오 프레임(310)은 제2 스테이지 주의집중 풀링 네트워크(304)에 제공된다.

제1 전력 도메인(290)으로부터의 출력 잡음 억제된 오디오 프레임(220)은 또한 제2 스테이지 주의집중 풀링 네트워크(304)에 제공될 수 있다. 제2 스테이지 주의집중 풀링 네트워크(304)는 오디오 프레임(116A), 오디오 프레임(116B), 출력 잡음 억제된 오디오 프레임(220), 제2 스테이지 출력 잡음 억제된 오디오 프레임(310), 또는 이들의 조합에 기초하여 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)을 생성하도록 구성될 수 있다. 제2 스테이지 주의집중 풀링 네트워크(304)는 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)을 생성하는 데 있어서 각각의 입력에 상이한 가중치들을 배정하기 위해 주의집중 기반 풀링을 채용할 수 있다. 예시하기 위해, 제2 스테이지 주의집중 풀링 네트워크(304)는 스피치의 품질에 기초하여 각각의 착신 프레임(116, 220, 310)을 가중시킬 수 있다. 예를 들어, 제2 스테이지 잡음 억제된 오디오 프레임(310)이 상대적으로 높은 품질의 스피치(예컨대, 높은 신호대잡음비)를 갖는 경우, 제2 스테이지 주의집중 풀링 네트워크(304)는 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)을 생성하는 데 있어서 제2 스테이지 잡음 억제된 오디오 프레임(310)에 더 큰 가중치를 배정할 수 있다. 상대적으로 높은 품질들의 스피치를 갖는 착신 프레임들에 더 큰 가중치들을 배정함으로써, 제2 스테이지 주의집중 풀링 네트워크(304)에 의해 생성된 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)은 향상된 스피치 프레임(예컨대, 향상된 스피치 신호)에 대응할 수 있다. 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)은 제2 스테이지 추론 네트워크(306)에 제공된다.

제2 스테이지 추론 네트워크(306)는 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)에 대해 분류 태스크(예컨대, 추론 네트워크(206)에 의해 수행된 동일한 분류)를 수행하여, 추론 결과(240)를 검증하도록 구성될 수 있다. 예를 들어, 제2 스테이지 추론 네트워크(306)는 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)에 대해 분류 태스크를 수행하여, 추론 결과(340)를 생성할 수 있다. 추론 결과(340)가 추론 결과(240)와 매칭되는(또는 실질적으로 매칭되는) 경우, 추론 결과(240)가 검증될 수 있다. 일 구현예에 따르면, 추론 결과(340)는, 신뢰도 값이 5 퍼센트 임계치 내에 있는 경우 추론 결과(240)와 실질적으로 매칭될 수 있다. 그러나, 다른 구현예들에서, 추론 결과(240)를 검증하기 위해 상이한 임계치들이 사용될 수 있다.

도 1과 관련하여 설명된 기법들은, 각각의 잡음 억제 네트워크(202A, 202B, 202C)의 이점들이 분류 태스크를 수행하는 데 사용될 수 있는 향상된 스피치 신호(예컨대, 출력 잡음 억제된 오디오 프레임(220))를 생성하는 데 있어서 레버리징되는 것을 가능하게 한다. 예를 들어, 개별 잡음 억제 네트워크들(202)의 출력들에 대해 주의집중 기반 풀링을 수행함으로써, 주의집중 풀링 네트워크(204)는 분류 태스크를 보완하는 알고리즘들(또는 잡음 억제 기법들)을 활용하여 잡음 억제 네트워크들(202)의 출력들에 더 큰 가중치들을 배정할 수 있고, 분류 태스크에 특히 이익이 되지 않을 알고리즘들을 활용하여 잡음 억제 네트워크들(202)의 출력들에 더 작은 가중치들을 배정할 수 있다. 도 1과 관련하여 설명된 기법들은 또한, 추론 결과(240)를 검증하기 위해 고효율, 고전력 도메인(390)의 선택적 활성화를 가능하게 한다. 제2 전력 도메인(390)이 제1 전력 도메인(290)보다 더 많은 양의 메모리를 활용하고 제1 전력 도메인(290)보다 더 많은 양의 전력을 소비하기 때문에, 추론 결과(240)를 검증하기 위해 제2 전력 도메인(390)을 선택적으로 활성화하는 것은 메모리 제약들을 완화시키고 전력 소비를 감소시킬 수 있다(예컨대, 전력 효율을 증가시킴).

도 2를 참조하면, 점진적 탠덤 네트워크들을 사용하여 잡음 억제된 오디오 신호를 생성하도록 구성된 시스템의 다른 특정 예시적인 양태가 개시되고, 대체적으로 200으로 지정된다. 시스템(200)은 마이크로폰(110), 마이크로폰(120), 및 제1 전력 도메인(290)의 컴포넌트들을 포함한다.

제1 전력 도메인(290)은 도 1의 하나 이상의 프로세서들(190) 내에 통합된 저전력 도메인일 수 있다. 제1 전력 도메인(290)의 컴포넌트들은 잡음 억제 네트워크(202A), 잡음 억제 네트워크(202B), 잡음 억제 네트워크(202C), 주의집중 풀링 네트워크(204), 및 추론 네트워크(206)를 포함한다. 잡음 억제 네트워크들(202)은 상대적으로 낮은 양의 전력을 소비하면서 출력 잡음 억제된 오디오 프레임(220)을 생성하기 위해 주의집중 풀링 네트워크(204)와 탠덤 방식으로 동작할 수 있다. 예를 들어, 각각의 잡음 억제 네트워크(202)는 상이한 알고리즘들을 채용하여, 향상된 스피치 신호들(예컨대, 잡음 억제된 오디오 프레임들(210))을 생성할 수 있다. 주의집중 풀링 네트워크(204)는 잡음 억제 네트워크들(202)로부터의 향상된 스피치 신호들에 대해 주의집중 기반 풀링을 수행하여, 각각의 잡음 억제 네트워크(202)의 이점들을 레버리징하고 결과적인 출력 잡음 억제된 오디오 프레임(220)을 생성할 수 있다.

예시하기 위해, 오디오 프레임들(116)은 잡음 억제 네트워크들(202)에 그리고 주의집중 풀링 네트워크(204)에 제공된다. 잡음 억제 네트워크(202A)는 오디오 프레임들(116A, 116B)에 기초하여 잡음 억제된 오디오 프레임(210A)을 생성하도록 구성될 수 있다. 전술된 바와 같이, 잡음 억제 네트워크(202A)는 스피치 생성 네트워크에 대응할 수 있고, 오디오 프레임들(116A, 116B)에 대해 잡음 억제 동작을 수행하기 위한 스피치 생성 네트워크 알고리즘을 채용하여, 잡음 억제된 오디오 프레임(210A)을 생성할 수 있다. 잡음 억제된 오디오 프레임(210A)은 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 포함하는 스피치 프레임(예컨대, 향상된 스피치 프레임 또는 잡음 감소된 스피치 신호)에 대응할 수 있다. 잡음 억제된 오디오 프레임(210A)은 주의집중 풀링 네트워크(204)에 제공된다.

일부 구현예들에 따르면, 잡음 억제 네트워크(202A)는 오디오 프레임들(116A, 116B)에 기초하여 음성 활동 검출(voice activity detection, VAD) 신호(270)를 생성할 수 있다. VAD 신호(270)는 오디오 프레임들(116A, 116B) 내의 스피치 우세한 주파수 범위들, 오디오 프레임들(116A, 116B) 내의 잡음 우세한 주파수 범위들, 또는 둘 모두를 나타낼 수 있다. 예를 들어, VAD 신호(270)는 스피치 우세한 오디오 데이터(128)와 연관된 주파수 범위들의 제1 세트를 나타낼 수 있고, 잡음 우세한 오디오 데이터(128)와 연관된 주파수 범위들의 제2 세트를 나타낼 수 있다. VAD 신호(270)는 다른 잡음 억제 네트워크들(202B, 202C) 중 적어도 하나에 제공될 수 있다.

잡음 억제 네트워크(202B)는 오디오 프레임들(116A, 116B)에 기초하여 잡음 억제된 오디오 프레임(210B)을 생성하도록 구성될 수 있다. 전술된 바와 같이, 잡음 억제 네트워크(202B)는 일반화된 고유치 네트워크에 대응할 수 있고, 오디오 프레임들(116A, 116B)에 대해 잡음 억제 동작을 수행하기 위한 일반화된 고유치 알고리즘을 채용하여, 잡음 억제된 오디오 프레임(210B)을 생성할 수 있다. 일부 구현예들에서, 잡음 억제 네트워크(202B)는 VAD 신호(270)에 기초하여 오디오 프레임들(116A, 116B) 내의 스피치 우세한 주파수 범위들을 식별할 수 있다. 식별된 스피치 우세한 주파수 범위들에 기초하여, 잡음 억제 네트워크(202B)는 잡음 컴포넌트들을 필터링하거나, 잡음 컴포넌트들을 억제하거나, 또는 오디오 프레임들(116A, 116B)에 대해 다른 잡음 억제 동작들을 수행하여, 잡음 억제된 오디오 프레임(210B)을 생성할 수 있다. 잡음 억제된 오디오 프레임(210B)은 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 포함하는 스피치 프레임(예컨대, 향상된 스피치 프레임 또는 잡음 감소된 스피치 신호)에 대응할 수 있다. 잡음 억제된 오디오 프레임(210B)은 주의집중 풀링 네트워크(204)에 제공된다.

일부 구현예들에 따르면, 잡음 억제 네트워크(202B)는 오디오 프레임들(116)에 대해 도착 방향(direction-of-arrival, DOA) 프로세싱을 수행하여, 착신 스피치의 DOA, 착신 잡음의 DOA, 또는 둘 모두를 결정하도록 구성된다. DOA 프로세싱에 기초하여, 잡음 억제 네트워크(202B)는, 마이크로폰들(110, 120)에 의해 스피치 우세한 프레임들이 도착하는(예컨대, 캡처되는) 방향을 나타내는 DOA 신호(272)를 생성할 수 있다. 후술되는 바와 같이, DOA 신호(272)는 잡음 억제된 오디오 프레임(210C)을 생성하기 위해 적응적 빔포밍 네트워크에 의해 사용될 수 있다. 예를 들어, 적응적 빔포밍 네트워크의 파라미터들은 DOA 프로세싱의 출력에 기초하여 조정될 수 있다. 예시하기 위해, 적응적 빔포밍 네트워크의 파라미터들은 착신 스피치의 DOA를 향해 빔포밍 어레이를 스티어링하도록 조정될 수 있다. 잡음 억제 네트워크(202B)가 도 2에서 DOA 신호(272)를 생성하는 것으로 예시되어 있지만, 다른 구현예들에서, 잡음 억제 네트워크(202A)는 DOA 신호(272)를 생성할 수 있다.

잡음 억제 네트워크(202C)는 오디오 프레임들(116A, 116B)에 기초하여 잡음 억제된 오디오 프레임(210C)을 생성하도록 구성될 수 있다. 전술된 바와 같이, 잡음 억제 네트워크(202C)는 적응적 빔포밍 네트워크에 대응할 수 있고, 오디오 프레임들(116A, 116B)에 대해 잡음 억제 동작을 수행하기 위한 적응적 빔포밍 알고리즘을 채용하여, 잡음 억제된 오디오 프레임(210C)을 생성할 수 있다. 일부 구현예들에서, 잡음 억제 네트워크(202C)는 DOA 신호(272)에 기초하여 스피치 우세한 프레임들의 DOA를 결정할 수 있고, 빔포밍 잡음 억제 동작들을 개선하기 위해 적응적 빔포밍 알고리즘의 빔포밍 파라미터들을 조정할 수 있다. 잡음 억제된 오디오 프레임(210C)은 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 포함하는 스피치 프레임(예컨대, 향상된 스피치 프레임 또는 잡음 감소된 스피치 신호)에 대응할 수 있다. 잡음 억제된 오디오 프레임(210C)은 주의집중 풀링 네트워크(204)에 제공된다. 추가적으로 또는 대안적으로, 일부 구현예들에 따르면, 잡음 억제 네트워크(202C)는 적응적 널포밍(null-forming) 알고리즘을 채용함으로써 잡음 억제된 오디오 프레임(210C)을 생성할 수 있다. 예를 들어, 잡음 억제 네트워크(202C)는 널포밍 방향을 식별하기 위해 잡음 우세한 프레임들의 DOA를 결정할 수 있다. 잡음 우세한 프레임들의 DOA에 기초하여, 잡음 억제 네트워크(202C)는 (예컨대, 잡음 우세한 프레임들의 DOA에 대응하는 널을 형성함으로써) 대응하는 잡음을 억제하여, 잡음 억제된 오디오 프레임(210C)을 생성할 수 있다.

주의집중 풀링 네트워크(204)는 오디오 프레임(116A), 오디오 프레임(116B), 잡음 억제된 오디오 프레임(210A), 잡음 억제된 오디오 프레임(210B), 잡음 억제된 오디오 프레임(210C), 또는 이들의 조합에 기초하여 출력 잡음 억제된 오디오 프레임(220)을 생성하도록 구성될 수 있다. 주의집중 풀링 네트워크(204)는 출력 잡음 억제된 오디오 프레임(220)을 생성하는 데 있어서 각각의 입력에 상이한 가중치들을 배정하기 위해 주의집중 기반 풀링을 채용할 수 있다. 예시하기 위해, 주의집중 풀링 네트워크(204)는 스피치의 품질에 기초하여 각각의 착신 프레임(116, 210)을 가중시킬 수 있다. 예를 들어, 잡음 억제된 오디오 프레임(210A)이 상대적으로 높은 품질의 스피치를 갖고 잡음 억제된 오디오 프레임(210B)이 상대적으로 낮은 품질의 스피치를 갖는 경우(예컨대, 실질적으로 잡음이 있는 프레임임), 주의집중 풀링 네트워크(204)는 출력 잡음 억제된 오디오 프레임(220)을 생성하는 데 있어서 잡음 억제된 오디오 프레임(210A)에 더 큰 가중치를 배정할 수 있다. 상대적으로 높은 품질들의 스피치를 갖는 착신 프레임들에 더 큰 가중치들을 배정함으로써, 주의집중 풀링 네트워크(204)에 의해 생성된 출력 잡음 억제된 오디오 프레임(220)은 향상된 스피치 프레임(예컨대, 향상된 스피치 신호)에 대응할 수 있다. 주의집중 풀링 네트워크(204)의 동작들은 도 4와 관련하여 더 상세히 설명된다. 출력 잡음 억제된 오디오 프레임(220)은 추론 네트워크(206)에 제공된다.

출력 잡음 억제된 오디오 프레임(220)은 상이한 콘텍스트에서 사용될 수 있다. 비제한적인 예로서, 음성 통화 동안, 출력 잡음 억제된 오디오 프레임(220)이 생성되고 수신기 디바이스로 전송되어, 마이크로폰들(110, 120)에서 잡음을 억제함으로써 통화 품질을 개선할 수 있다. 다른 비제한적인 예로서, 사용자가 구두 커맨드를 제공하고 있는 경우, 출력 잡음 억제된 오디오 프레임(220)은, 마이크로폰들(110, 120)에 의해 캡처된 스피치가 상대적으로 많은 양의 잡음을 겪는 환경에서 구두 커맨드를 명확하게 표현하는 데 사용될 수 있다. 출력 잡음 억제된 오디오 프레임(220)이 도 5 내지 도 14와 관련하여 설명된 예들을 포함하지만 이로 제한되지 않는 다른 콘텍스트에서 사용될 수 있다는 것이 이해되어야 한다.

추론 네트워크(206)는 출력 잡음 억제된 오디오 프레임(220)에 대해 분류 태스크(230)를 수행하여, 추론 결과(240)를 생성하도록 구성될 수 있다. 일부 구현예들에 따르면, 분류 태스크(230)는 키워드 스폿팅 태스크에 대응할 수 있고, 추론 네트워크(206)는, 특정 키워드(또는 특정 키워드의 일부분)가 출력 잡음 억제된 오디오 프레임(220)에 포함되는지 또는 발언되는지 여부를 결정할 수 있다. 추론 결과(240)는, 특정 키워드가 발언되는지 여부를 나타내는 이진 값(예컨대, 플래그)일 수 있거나, 또는 키워드가 발언되는 가능성(또는 신뢰도)을 나타내는 신뢰도 값일 수 있다. 다른 구현예들에서, 분류 태스크(230)는 자동 스피치 인식 태스크, 음성 통화와 연관된 태스크, 발언 검증 태스크 등과 같은 다른 태스크들에 대응할 수 있다는 것이 이해되어야 한다.

일부 구현예들에 따르면, 분류 태스크(230), 또는 추론 네트워크(206)의 출력은 잡음 억제 네트워크들(202) 및 주의집중 풀링 네트워크(204)를 훈련하는 데 사용될 수 있다. 비제한적인 예로서, 도 2에 예시된 바와 같이, 분류 태스크(230)의 표시가 잡음 억제 네트워크들(202)에 그리고 주의집중 풀링 네트워크(204)에 제공될 수 있다. 각각의 잡음 억제 네트워크(202)는 분류 태스크에 기초하여 그의 각자의 알고리즘을 조정하거나 또는 튜닝할 수 있다. 추가적으로, 주의집중 풀링 네트워크(204)는 분류 태스크(230)에 기초하여 각각의 입력에 적용된 가중치들을 조정할 수 있다.

비제한적인 예로서, 잡음 억제 네트워크(202C)는, 분류 태스크(230)가 자동 스피치 인식 태스크에 대응하는 경우 상대적으로 많은 수의 각도들로부터 도착하는 사운드들을 반영하도록 적응적 빔포밍 알고리즘을 조정할 수 있다. 상대적으로 많은 수의 각도들로부터 도착하는 사운드들을 반영하도록 적응적 빔포밍 알고리즘을 조정함으로써, 잡음 억제 네트워크(202C)는 스피치를 포함하는 잡음 억제된 오디오 프레임(210C)을 생성할 더 큰 가능성을 가질 수 있다. 유사한 방식으로, 분류 태스크(230)가 자동 스피치 인식 태스크에 대응하는 경우, 주의집중 풀링 네트워크(204)는 잡음 억제된 오디오 프레임(210C)과 같은 적응적 빔포밍 네트워크의 출력에 상대적으로 큰 가중치 값을 배정할 수 있고, 단일 위치로부터의 스피치를 검출하도록 맞춤된 네트워크들로부터 생성되는 다른 잡음 억제된 오디오 프레임들(210A, 210B)에 상대적으로 작은 가중치 값들을 배정할 수 있다. 적응적 빔포밍 네트워크의 출력에 큰 가중치를 배정하는 것은 출력 잡음 억제된 오디오 프레임(220)이 다수의 도착 각도들로부터의 사운드들을 반영하는 결과를 가져올 수 있고, 이는 결국, 추론 네트워크(206)가 스피치를 인식하는 데 도움을 줄 수 있다.

그러나, 분류 태스크(230)가 키워드 스폿팅 태스크에 대응하는 경우, 잡음 억제 네트워크(202C)는 스피치와 연관된 각도로부터 도착하는 사운드들을 캡처하도록 적응적 빔포밍 알고리즘을 조정할 수 있다. 본 명세서에 사용되는 바와 같이, 키워드 "스폿팅" 태스크 및 키워드 "검출" 태스크는 상호교환가능하게 사용될 수 있다. 추가적으로, 분류 태스크(230)가 키워드 스폿팅 태스크에 대응하는 경우, 주의집중 풀링 네트워크(204)는 잡음 억제된 오디오 프레임(210A)과 같은 스피치 생성 네트워크의 출력에 상대적으로 큰 가중치 값을 배정할 수 있다.

잡음 억제 네트워크들(202) 및 주의집중 풀링 네트워크(204)의 훈련은 또한, 출력 잡음 억제된 오디오 프레임(220)과 연관된 스피치 향상 손실 및 추론 결과(240)와 연관된 분류 손실에 기초할 수 있다. 예를 들어, 하나 이상의 프로세서들(190)은 출력 잡음 억제된 오디오 프레임(220)과 연관된 스피치 향상 손실을 결정할 수 있다. 스피치 향상 손실은 잡음 억제 네트워크들(202) 및 주의집중 풀링 네트워크(204)에서의 점진적 탠덤 프로세싱으로 인한 스피치의 손실 또는 왜곡에 대응할 수 있다. 스피치 향상 손실은 이전에 생성된 출력 잡음 억제된 오디오 프레임의 신뢰도 값 및 현재 출력 잡음 억제된 오디오 프레임(220)의 신뢰도 값에 기초하여 결정될 수 있다. 추가적으로, 하나 이상의 프로세서들(190)은 추론 결과(240)와 연관된 분류 손실을 결정할 수 있다. 분류 손실은 분류 태스크(230)를 수행하는 데 있어서의 오차의 정도에 대응할 수 있다. 유사한 방식으로, 분류 손실은 이전에 생성된 추론 결과의 신뢰도 값 및 현재 추론 결과(240)의 신뢰도 값에 기초하여 결정될 수 있다. 하나 이상의 프로세서들(190)은 스피치 향상 손실 및 분류 손실에 기초하여 공동 손실을 결정할 수 있다. 공동 손실은, 시스템(200)의 동작을 동적으로 개선하기 위한 런타임 동안 잡음 억제 네트워크들(202) 및 주의집중 풀링 네트워크(204)를 추가로 훈련(즉, "공동 훈련")하는 데 사용될 수 있다.

도 2와 관련하여 설명된 기법들은, 각각의 잡음 억제 네트워크(202A, 202B, 202C)의 이점들이 분류 태스크(230)를 수행하는 데 사용될 수 있는 향상된 스피치 신호(예컨대, 출력 잡음 억제된 오디오 프레임(220))를 생성하기 위해 레버리징되는 것을 가능하게 한다. 예를 들어, 개별 잡음 억제 네트워크들(202)의 출력들에 대해 주의집중 기반 풀링을 수행함으로써, 주의집중 풀링 네트워크(204)는 분류 태스크(230)를 보완하는 알고리즘들(또는 잡음 억제 기법들)을 활용하여 잡음 억제 네트워크들(202)의 출력들에 더 큰 가중치들을 배정할 수 있고, 분류 태스크(230)에 특히 이익이 되지 않을 알고리즘들을 활용하여 잡음 억제 네트워크들(202)의 출력들에 더 작은 가중치들을 배정할 수 있다. 추가적으로, 시스템(200)은 분류 태스크(230)에 기초하여 잡음 억제 네트워크들(202)에 의해 사용된 알고리즘들을 개선하기 위해 공동 훈련을 활용할 수 있다. 예를 들어, 훈련 데이터를 사용하여 잡음 억제 네트워크들(202)을 훈련시키는 것에 더하여, 추론 네트워크(206)는 잡음 억제 네트워크들(202)의 실시간 동적 훈련을 제공하는 데 사용될 수 있다. 추론 네트워크(206)는 또한, 주의집중 풀링 네트워크(204)에 실시간 동적 훈련을 제공하는 데 활용될 수 있다는 것이 이해되어야 한다.

도 3을 참조하면, 고전력 점진적 탠덤 네트워크들을 사용하여 분류 결과를 검증하도록 구성된 시스템의 다른 특정 예시적인 양태가 개시되고, 대체적으로 300으로 지정된다. 시스템(300)은 마이크로폰(110), 마이크로폰(120), 제1 전력 도메인(290), 및 제2 전력 도메인(390)의 컴포넌트들을 포함한다.

제2 전력 도메인(390)은 도 1의 하나 이상의 프로세서들(190) 내에 통합된 고전력 도메인일 수 있다. 예를 들어, 제2 전력 도메인(390)은 제1 전력 도메인(290)과 연관된 제1 전력 레벨보다 더 큰 제2 전력 레벨에서 동작할 수 있다. 제2 전력 도메인(390)의 컴포넌트들은 추론 결과(240)를 검증하도록 탠덤 방식으로 동작할 수 있다. 예를 들어, 추론 결과(240)가 키워드의 검출과 같은 긍정적인 결과를 나타낼 때, 제1 전력 도메인(290)은 웨이크업 신호(370)를 생성하고 이를 제2 전력 도메인(390)으로 전송할 수 있다. 웨이크업 신호(370)를 수신할 시에, 제2 전력 도메인(390)의 컴포넌트들은 추론 결과(340)를 생성하기 위해 탠덤 방식으로 작동할 수 있다. 예를 들어, 웨이크업 신호(370)에 기초하여, 제2 전력 도메인(390)은 저전력 모드로부터 활성 모드로 전이하여 추론 결과(340)를 생성할 수 있다. 하나 이상의 프로세서들(190)은 추론 결과(340)를 추론 결과(240)와 비교함으로써 추론 결과(240)를 검증할 수 있다.

제2 전력 도메인(390)의 컴포넌트들은 제2 스테이지 잡음 억제 네트워크(302), 제2 스테이지 주의집중 풀링 네트워크(304), 및 제2 추론 네트워크(306)를 포함한다. 하나의 제2 스테이지 잡음 억제 네트워크(302)가 도시되어 있지만, 다른 구현예들에서, 제2 전력 도메인(390)은 추가적인 제2 스테이지 잡음 억제 네트워크들(302)을 포함할 수 있다. 비제한적인 예로서, 일 구현예에 따르면, 제2 전력 도메인(390)은 3개의 제2 스테이지 잡음 억제 네트워크들(302)을 포함할 수 있다. 제2 스테이지 잡음 억제 네트워크(302)는 스피치 생성 네트워크, 일반화된 고유치 네트워크, 적응적 빔포밍 네트워크 등에 대응할 수 있다. 제2 스테이지 잡음 억제 네트워크(302)는 다른 네트워크에 대응할 수 있거나 또는 잡음 억제된 오디오 프레임들을 생성하기 위해 상이한 알고리즘들을 채용할 수 있다는 것, 및 상기의 예들이 단지 예시적이라는 것이 이해되어야 한다. 대체적으로, 제2 스테이지 잡음 억제 네트워크(302)는 제1 전력 도메인(290)의 잡음 억제 네트워크들(202)보다 더 큰 프로세싱 용량을 갖는다.

오디오 프레임들(116)은 제2 스테이지 잡음 억제 네트워크(302)에 그리고 제2 스테이지 주의집중 풀링 네트워크(304)에 제공된다. 제2 스테이지 잡음 억제 네트워크(302)는 오디오 프레임들(116A, 116B)에 기초하여 제2 스테이지 잡음 억제된 오디오 프레임(310)을 생성하도록 구성될 수 있다. 비제한적인 예로서, 제2 스테이지 잡음 억제 네트워크(302)는 오디오 프레임들(116A, 116B)에 대해 잡음 억제 동작을 수행하고, 제2 스테이지 잡음 억제된 오디오 프레임(310)을 생성할 수 있다. 잡음 억제 동작은, 오디오 프레임들(116A, 116B)의 잡음 컴포넌트들을 필터링하거나 또는 억제하고, 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 사용하여 제2 스테이지 잡음 억제된 오디오 프레임(310)을 생성하는 것을 포함하는 고전력 동작일 수 있다. 따라서, 제2 스테이지 잡음 억제된 오디오 프레임(310)은 오디오 프레임들(116A, 116B)의 스피치 컴포넌트들을 포함하는 스피치 프레임(예컨대, 향상된 스피치 프레임 또는 잡음 감소된 스피치 신호)에 대응할 수 있다. 제2 스테이지 잡음 억제된 오디오 프레임(310)은 제2 스테이지 주의집중 풀링 네트워크(304)에 제공된다.

제1 전력 도메인(290)으로부터의 출력 잡음 억제된 오디오 프레임(220)은 또한 제2 스테이지 주의집중 풀링 네트워크(304)에 제공될 수 있다. 제2 스테이지 주의집중 풀링 네트워크(304)는 오디오 프레임(116A), 오디오 프레임(116B), 출력 잡음 억제된 오디오 프레임(220), 제2 스테이지 출력 잡음 억제된 오디오 프레임(310), 또는 이들의 조합에 기초하여 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)을 생성하도록 구성될 수 있다. 제2 스테이지 주의집중 풀링 네트워크(304)는 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)을 생성하는 데 있어서 각각의 입력에 상이한 가중치들을 배정하기 위해 고전력 주의집중 기반 풀링을 채용할 수 있다. 예시하기 위해, 제2 스테이지 주의집중 풀링 네트워크(304)는 스피치의 품질에 기초하여 각각의 착신 프레임(116, 220, 310)을 가중시킬 수 있다. 예를 들어, 제2 스테이지 잡음 억제된 오디오 프레임(310)이 상대적으로 높은 품질의 스피치를 갖는 경우, 제2 스테이지 주의집중 풀링 네트워크(304)는 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)을 생성하는 데 있어서 제2 스테이지 잡음 억제된 오디오 프레임(310)에 더 큰 가중치를 배정할 수 있다. 상대적으로 높은 품질들의 스피치를 갖는 착신 프레임들에 더 큰 가중치들을 배정함으로써, 제2 스테이지 주의집중 풀링 네트워크(304)에 의해 생성된 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)은 향상된 스피치 프레임(예컨대, 향상된 스피치 신호)에 대응할 수 있다. 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)은 제2 스테이지 추론 네트워크(306)에 제공된다. 추가적으로, 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)은 오디오 프로세싱을 위해 하나 이상의 프로세서들(190)의 다른 컴포넌트들에 제공될 수 있다.

제2 스테이지 추론 네트워크(306)는 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)에 대해 분류 태스크(230)를 수행하여, 추론 결과(240)를 검증하도록 구성될 수 있다. 예를 들어, 제2 스테이지 추론 네트워크(306)는 제2 스테이지 출력 잡음 억제된 오디오 프레임(320)에 대해 분류 태스크(230)를 수행하여, 추론 결과(340)를 생성할 수 있다. 추론 결과(340)가 제1 전력 도메인(290)으로부터의 추론 결과(240)와 매칭되는(또는 실질적으로 매칭되는) 경우, 추론 결과(240)가 검증될 수 있다(예컨대, 추론 결과(240)가 정확한 것으로 결정됨). 일 구현예에 따르면, 추론 결과(340)는, 신뢰도 값이 10 퍼센트 임계치 내에 있는 경우, 추론 결과(240)와 실질적으로 매칭될 수 있다. 추론 결과들(240, 340)이 매칭되는지 여부를 결정하는 데 다른 임계치들이 사용될 수 있다는 것, 및 10 퍼센트 임계치가 단지 예시적인 목적을 위한 것임이 이해되어야 한다. 추론 결과(340)를 검증하기 위해 추가적인 스테이지들에서 유사한 기법들이 구현될 수 있다는 것이 이해되어야 한다.

도 3과 관련하여 설명된 기법들은, 추론 결과(240)를 검증하기 위해 고효율, 고전력 도메인(390)의 선택적 활성화를 가능하게 한다. 제2 전력 도메인(390)이 제1 전력 도메인(290)보다 더 많은 양의 메모리를 활용하고 제1 전력 도메인(290)보다 더 많은 양의 전력을 소비하기 때문에, 제1 전력 도메인(290)의 결과들을 검증하기 위해 제2 전력 도메인(390)을 선택적으로 활성화하는 것은 메모리 제약들을 완화시키고 전력 소비를 감소시킬 수 있다(예컨대, 전력 효율을 증가시킴).

도 4는 주의집중 풀링 네트워크(400)의 예시적인 구현예를 도시한다. 주의집중 풀링 네트워크(400)는 주의집중 풀링 네트워크(204) 또는 제2 스테이지 주의집중 풀링 네트워크(304)에 대응할 수 있다. 본 명세서에 설명된 바와 같이, 다른 구현예들 및 아키텍처들이 주의집중 기반 풀링에 사용될 수 있다는 것, 및 도 4의 구현예는 단지 예시적인 목적을 위한 것이며 제한하는 것으로 해석되어서는 안 된다는 것이 이해되어야 한다. 주의집중 풀링 네트워크(400)는 뉴럴 네트워크 유닛(402), 정규화 및 보간 유닛(404), 및 잡음 억제된 오디오 프레임 생성 유닛(406)을 포함한다.

오디오 프레임들(116) 및 잡음 억제된 오디오 프레임들(210)은 뉴럴 네트워크 유닛(402)에 제공된다. 뉴럴 네트워크 유닛(402)은 심층 뉴럴 네트워크 알고리즘들을 사용하여 각각의 착신 프레임에 대한 스코어(예컨대, 가중치)를 결정하도록 구성될 수 있다. 예를 들어, 뉴럴 네트워크 유닛(402)은 마이크로폰(110)으로부터의 오디오 프레임(116A)에 대한 스코어(410), 잡음 억제 유닛(202A)으로부터의 잡음 억제된 오디오 프레임(210A)에 대한 스코어(412), 잡음 억제 유닛(202B)으로부터의 잡음 억제된 오디오 프레임(210B)에 대한 스코어(414), 잡음 억제 유닛(202C)으로부터의 잡음 억제된 오디오 프레임(210C)에 대한 스코어(416), 및 마이크로폰(120)으로부터의 오디오 프레임(116B)에 대한 스코어(410)를 결정할 수 있다. 본 명세서에 사용되는 바와 같이, 착신 프레임에 대한 "스코어"는 착신 프레임에서의 스피치의, 신호대잡음비와 같은 스피치 메트릭의 값에 대응할 수 있다. 상대적으로 높은 신호대잡음비를 갖는 착신 프레임들은 상대적으로 낮은 신호대잡음비를 갖는 착신 프레임들보다 더 높은 스코어를 배정받을 수 있다. 뉴럴 네트워크 유닛(402)은 분류 태스크(230), 샘플 데이터, 스피치 향상 손실, 분류 손실, 또는 이들의 조합에 기초하여 훈련되고, 조정되고, 튜닝되어, 스코어들(410 내지 418)을 결정할 수 있다. 스코어들(410 내지 418)은 정규화 및 보간 유닛(404)에 제공된다. 착신 프레임들의 스코어들(410 내지 418)은 동시에 결정될 수 있다.

정규화 및 보간 유닛(404)은 스코어들(410 내지 418)에 대해 정규화 및 보간 동작을 수행하여, 수정된 스코어들(420 내지 428)을 각각 생성하도록 구성될 수 있다. 예를 들어, 정규화 동작은, 스코어들(410 내지 418)이 특정 범위의 값들 내에 있다는 것을 보장할 수 있다. 비제한적인 예로서, 스코어들(410 내지 418)이 스칼라 값들이고 제로(0) 내지 백(100)의 범위인 경우, 정규화 동작은 각각의 스칼라 값을 비례적으로 조정하여, 수정된 스코어들(420 내지 428)이 제로(0) 내지 일(1)의 범위, 또는 임의의 다른 타깃 범위이도록 할 수 있다. 보간 동작은 정규화된 스코어들을 보간하여, 수정된 스코어들(420 내지 428)을 결정할 수 있다. 예를 들어, 정규화 및 보간 유닛(404)은 정규화된 스코어들을 보간하여, 수정된 스코어들(420 내지 428)을 추정할 수 있다. 수정된 스코어들(428)은 잡음 억제된 오디오 프레임 생성 유닛(406)에 제공된다.

잡음 억제된 오디오 프레임 생성 유닛(406)은 착신 프레임들(116, 210)의 가중된 어그리게이션을 결정하도록 구성될 수 있다. 예를 들어, 잡음 억제된 오디오 프레임 생성 유닛(406)은 수정된 스코어(420)를 오디오 프레임(116A)에 적용하고, 수정된 스코어(422)를 잡음 억제된 오디오 프레임(210A)에 적용하고, 수정된 스코어(424)를 잡음 억제된 오디오 프레임(210B)에 적용하고, 수정된 스코어(426)를 잡음 억제된 오디오 프레임(210C)에 적용하고, 수정된 스코어(428)를 오디오 프레임(116B)에 적용하고, 결과적인 벡터들을 합산하여, 출력 잡음 억제된 오디오 프레임(220)을 생성할 수 있다.

따라서, 주의집중 풀링 네트워크(400)는, 개별 잡음 억제 네트워크들(202)의 출력들에 대해 주의집중 기반 풀링을 수행함으로써, 향상된 스피치 신호(예컨대, 출력 잡음 억제된 오디오 프레임(220))를 생성하도록 각각의 잡음 억제 네트워크(202)의 이점들을 레버리징할 수 있다. 예를 들어, 스코어 심층 뉴럴 네트워크 유닛(402)은 분류 태스크(230)를 보완하는 이점들 또는 품질들을 갖는 잡음 억제된 오디오 프레임들(210)에 더 큰 가중치들을 배정할 수 있다.

도 5는 잡음 억제된 오디오 신호를 생성하기 위해 주의집중 풀링 네트워크와 탠덤 방식으로 잡음 억제 네트워크들을 포함하는 집적 회로(502)로서 디바이스(102)의 구현예(500)를 도시한다. 예를 들어, 집적 회로(502)는 하나 이상의 프로세서들(190)을 포함한다. 하나 이상의 프로세서들(190)은 잡음 억제 회로(590)를 포함한다. 잡음 억제 회로(590)는 제1 전력 도메인(290)의 컴포넌트들, 제2 전력 도메인(390)의 컴포넌트들, 또는 이들의 조합을 포함할 수 있다.

집적 회로(502)는 또한, 오디오 데이터(528)가 프로세싱을 위해 수신될 수 있게 하기 위해 하나 이상의 버스 인터페이스들과 같은 오디오 입력부(504)를 포함한다. 오디오 데이터(528)는 오디오 데이터(128), 출력 잡음 억제된 오디오 프레임(220), 또는 이들의 조합에 대응할 수 있다. 집적 회로(502)는 또한, 출력 잡음 억제된 오디오 프레임(520)과 같은 출력 신호의 전송을 가능하게 하기 위해, 버스 인터페이스와 같은 신호 출력부(506)를 포함한다. 출력 잡음 억제된 오디오 프레임(520)은 출력 잡음 억제된 오디오 프레임(220), 제2 스테이지 출력 잡음 억제된 오디오 프레임(320), 또는 이들의 조합에 대응할 수 있다. 집적 회로(502)는, 도 6에 도시된 바와 같은 모바일 폰 또는 태블릿, 도 7에 도시된 바와 같은 헤드셋, 도 8에 도시된 바와 같은 웨어러블 전자 디바이스, 도 9에 도시된 바와 같은 음성 제어된 스피커 시스템, 도 10에 도시된 바와 같은 카메라, 도 11에 도시된 바와 같은 가상 현실 헤드셋, 혼합 현실 헤드셋, 또는 증강 현실 헤드셋, 또는 도 12 또는 도 13에 도시된 바와 같은 비히클과 같은, 마이크로폰들을 포함하는 시스템 내의 컴포넌트로서 점진적 탠덤 네트워크들을 사용하여 오디오 프레임 잡음 억제를 가능하게 한다.

도 6은 예시적, 비제한적인 예들로서, 디바이스(102)가 전화기 또는 태블릿과 같은 모바일 디바이스(602)인 구현예(600)를 도시한다. 모바일 디바이스(602)는 주로 사용자의 스피치를 캡처하도록 포지셔닝된 제1 마이크로폰(110), 주로 환경 사운드들을 캡처하도록 포지셔닝된 하나 이상의 제2 마이크로폰들(120), 및 디스플레이 스크린(604)을 포함한다. 잡음 억제 회로(590)는 모바일 디바이스(602)에 통합되고, 모바일 디바이스(602)의 사용자에게 대체적으로 가시적이지 않은 내부 컴포넌트들을 나타내기 위해 점선들을 사용하여 예시된다. 특정 예에서, 잡음 억제 회로(590)는 출력 잡음 억제된 오디오 프레임(520)을 생성하도록 동작할 수 있고, 이는 이어서, 그래픽 사용자 인터페이스를 론칭하거나 또는 달리 (예컨대, 통합된 "스마트 어시스턴트" 애플리케이션을 통해) 디스플레이 스크린(604)에서 사용자의 스피치와 연관된 다른 정보를 디스플레이하는 것과 같이, 모바일 디바이스(602)에서 하나 이상의 동작을 수행하도록 프로세싱된다.

도 7은, 디바이스(102)가 헤드셋 디바이스(702)인 구현예(700)를 도시한다. 헤드셋 디바이스(702)는 주로 사용자의 스피치를 캡처하도록 포지셔닝된 제1 마이크로폰(110) 및 주로 환경 사운드들을 캡처하도록 포지셔닝된 하나 이상의 제2 마이크로폰들(120)을 포함한다. 잡음 억제 회로(590)는 헤드셋 디바이스(702)에 통합된다. 특정 예에서, 잡음 억제 회로(590)는 출력 잡음 억제된 오디오 프레임(520)을 생성하도록 동작할 수 있으며, 이는 헤드셋 디바이스(702)로 하여금, 헤드셋 디바이스(702)에서 하나 이상의 동작들을 수행하게 하거나, 추가 프로세싱을 위해 출력 잡음 억제된 오디오 프레임(520)을 제2 디바이스(도시되지 않음)로 송신하게 하거나, 또는 이들의 조합을 하게 할 수 있다. 도 7에 도시된 바와 같이, 헤드셋 디바이스(702)는, 사용자에 의해 착용될 때, 제1 마이크로폰(110)을 제2 마이크로폰(120)보다 사용자의 입에 더 가깝게 포지셔닝하여, 제2 마이크로폰(120)에 비해 더 큰 강도 및 더 적은 지연으로 제1 마이크로폰(110)에서 사용자의 발언들을 캡처하도록 구성될 수 있다.도 8은, 디바이스(102)가 "스마트 워치"로서 예시된 웨어러블 전자 디바이스(802)인 구현예(800)를 도시한다. 잡음 억제 회로(590), 제1 마이크로폰(110), 및 하나 이상의 제2 마이크로폰들(120)은 웨어러블 전자 디바이스(802) 내에 통합된다. 특정 예에서, 잡음 억제 회로(590)는 출력 잡음 억제된 오디오 프레임(520)을 생성하도록 동작할 수 있고, 이는 이어서, 그래픽 사용자 인터페이스를 론칭하거나 또는 달리 웨어러블 전자 디바이스(802)의 디스플레이 스크린(804)에서 사용자의 스피치와 연관된 다른 정보를 디스플레이하는 것과 같이, 웨어러블 전자 디바이스(802)에서 하나 이상의 동작들을 수행하도록 프로세싱된다. 예시하기 위해, 웨어러블 전자 디바이스(802)는 웨어러블 전자 디바이스(802)에 의해 검출된 사용자 스피치에 기초하여 통지를 디스플레이하도록 구성되는 디스플레이 스크린을 포함할 수 있다.

도 9는, 디바이스(102)가 무선 스피커 및 음성 활성화 디바이스(902)인 구현예(900)이다. 무선 스피커 및 음성 활성화 디바이스(902)는 무선 네트워크 접속성을 가질 수 있고, 어시스턴트 동작을 실행하도록 구성된다. 프로세서(190)(잡음 억제 회로(590)를 포함함), 제1 마이크로폰(110), 제2 마이크로폰(120), 또는 이들의 조합은 무선 스피커 및 음성 활성화 디바이스(902)에 포함된다. 무선 스피커 및 음성 활성화 디바이스(902)는 또한 스피커(904)를 포함한다. 동작 동안, 잡음 억제 회로(590)는 출력 잡음 억제된 오디오 프레임(520)을 생성하도록 동작할 수 있다. 출력 잡음 억제된 오디오 프레임(520)에 기초하여, 프로세서(190)는, 키워드가 발언되었는지 여부를 결정할 수 있다. 키워드가 발언되었다는 결정에 응답하여, 무선 스피커 및 음성 활성화 디바이스(902)는, 예컨대 통합 어시스턴트 애플리케이션의 실행을 통해 어시스턴트 동작들을 실행할 수 있다. 어시스턴트 동작들은 온도를 조정하는 것, 음악을 재생하는 것, 조명들을 켜는 것 등을 포함할 수 있다. 예를 들어, 어시스턴트 동작들은 키워드 또는 키 프레이즈(예컨대, "헬로 어시스턴트(hello assistant)") 후에 커맨드를 수신하는 것에 응답하여 수행된다.

도 10은, 디바이스(102)가 카메라 디바이스(1002)에 대응하는 휴대용 전자 디바이스인 구현예(1000)를 도시한다. 잡음 억제 회로(590), 제1 마이크로폰(110), 제2 마이크로폰(120), 또는 이들의 조합은 카메라 디바이스(1002)에 포함된다. 동작 동안, 잡음 억제 회로(590)는 출력 잡음 억제된 오디오 프레임(520)을 생성하도록 동작할 수 있다. 출력 잡음 억제된 오디오 프레임(520)에 기초하여, 키워드가 발언되었는지 여부에 관한 결정이 수행될 수 있다. 키워드가 발언되었다는 결정에 응답하여, 카메라 디바이스(1002)는 예시적인 예들로서, 이미지 또는 비디오 캡처 설정들, 이미지 또는 비디오 재생 설정들, 또는 이미지 또는 비디오 캡처 명령들을 조정하는 것과 같이, 발화된 사용자 커맨드들에 응답하여 동작들을 실행할 수 있다.

도 11은, 디바이스(102)가 가상 현실(virtual reality, "VR"), 증강 현실(augmented reality, "AR"), 또는 혼합 현실(mixed reality, "MR") 헤드셋 디바이스와 같은 확장 현실(extended reality, "XR") 헤드셋(1102)에 대응하는 휴대용 전자 디바이스를 포함하는 구현예(1100)를 도시한다. 잡음 억제 회로(590), 제1 마이크로폰(110), 제2 마이크로폰(120), 또는 이들의 조합은 헤드셋(1102) 내에 통합된다. 특정 양태에서, 헤드셋(1102)은 주로 사용자의 스피치를 캡처하도록 포지셔닝된 제1 마이크로폰(110) 및 주로 환경 사운드들을 캡처하도록 포지셔닝된 제2 마이크로폰(120)을 포함한다. 잡음 억제 회로(590)는 헤드셋(1102)의 제1 마이크로폰(110) 및 제2 마이크로폰(120)으로부터 수신된 오디오 신호들에 기초하여 출력 잡음 억제된 오디오 프레임(520)을 생성하도록 동작할 수 있다. 시각적 인터페이스 디바이스는, 헤드셋(1102)이 착용되는 동안 사용자에게 증강 현실 또는 가상 현실 이미지들 또는 장면들을 디스플레이하는 것을 가능하게 하기 위해 사용자의 눈 앞에 포지셔닝된다. 특정한 예에서, 시각적 인터페이스 디바이스는 오디오 신호에서 검출된 사용자 스피치를 표시하는 통지를 디스플레이하도록 구성된다.

도 12는, 디바이스(102)가 유인 또는 무인 항공 디바이스(예컨대, 수화물 배송 드론)로서 예시되는 비히클(1202)에 대응하거나 또는 비히클 내에 통합되는 구현예(1200)를 도시한다. 잡음 억제 회로(590), 제1 마이크로폰(110), 제2 마이크로폰(120), 또는 이들의 조합은 비히클(1202) 내에 통합된다. 잡음 억제 회로(590)는, 예컨대 비히클(1202)의 인가된 사용자로부터의 전달 명령들을 위해, 비히클(1202)의 제1 마이크로폰(110) 및 제2 마이크로폰(120)으로부터 수신된 오디오 신호들에 기초하여 출력 잡음 억제된 오디오 프레임(520)을 생성하도록 동작할 수 있다.

도 13은, 디바이스(102)가 자동차로서 예시된 비히클(1302)에 대응하거나 또는 비히클 내에 통합되는 다른 구현예(1300)를 도시한다. 비히클(1302)은 잡음 억제 회로(590)를 포함한다. 비히클(1302)은 또한 제1 마이크로폰(110) 및 제2 마이크로폰(120)을 포함한다. 제1 마이크로폰(110)은 비히클(1302)의 오퍼레이터의 발언들을 캡처하도록 포지셔닝된다. 잡음 억제 회로(590)는 비히클(1302)의 제1 마이크로폰(110) 및 제2 마이크로폰(120)으로부터 수신된 오디오 신호들에 기초하여 출력 잡음 억제된 오디오 프레임(520)을 생성하도록 동작할 수 있다. 일부 구현예들에서, 태스크들은 인가된 승객으로부터의 음성 커맨드에 대한 것과 같은, 내부 마이크로폰들(예컨대, 제1 마이크로폰(110) 및 제2 마이크로폰(120))로부터 수신된 오디오 신호에 기초하여 수행될 수 있다. 특정 구현예에서, 출력 잡음 억제된 오디오 프레임(520)은, 하나 이상의 키워드들이 발언되었는지 여부를 검증하는 데 사용될 수 있다. 비히클(1302)의 하나 이상의 동작들은, 예컨대 디스플레이(1320) 또는 하나 이상의 스피커들(예컨대, 스피커(1310))을 통해 피드백 또는 정보를 제공함으로써 검출된 하나 이상의 키워드들(예컨대, "잠금해제", "엔진 시작", "음악 재생", "일기 예보 디스플레이", 또는 다른 음성 커맨드)에 기초하여 개시될 수 있다.

도 14는 컴퓨팅 디바이스와 페어링된 보조 디바이스의 도면(1400)을 도시한다. 예를 들어, 도 14는 모바일 디바이스(1452)(예컨대, 컴퓨팅 디바이스)와 페어링된 헤드셋 디바이스(1402)(예컨대, 보조 디바이스)를 도시한다. 헤드셋 디바이스(1402)는 주로 사용자의 스피치를 캡처하도록 포지셔닝된 제1 마이크로폰(110) 및 주로 환경 사운드들을 캡처하도록 포지셔닝된 제2 마이크로폰(120)을 포함한다. 제1 전력 도메인(290)의 컴포넌트들은 헤드셋 디바이스(1402)에 통합된다. 모바일 디바이스(1452)는 디스플레이 스크린(1454)을 포함한다. 제2 전력 도메인(390)의 컴포넌트들은 모바일 디바이스(1452) 내에 통합된다. 동작 동안, 추론 네트워크(206)와 같은 제1 전력 도메인(290)의 컴포넌트들은 상대적으로 적은 양의 전력 및 리소스들을 사용하여, 키워드 스폿팅과 같은 분류 태스크를 수행할 수 있다. 키워드가 스폿팅되거나 또는 검출되는 경우, 헤드셋 디바이스(1402)는 웨이크업 신호(370)와 같은 웨이크업 신호를 모바일 디바이스(1452) 내에 통합된 제2 전력 도메인(390)으로 전송할 수 있다. 전술된 바와 같이, 웨이크업 신호를 수신할 시에, 제2 전력 도메인(390)의 컴포넌트들은 저전력 모드로부터 활성 모드로 전이하고, 키워드가 발언되었는지 여부를 검증할 수 있다. 도 5 내지 도 13에 도시된 디바이스들 및 다른 디바이스들이 유사한 방식으로 구성될 수 있다는 것이 이해되어야 한다. 즉, 제1 전력 도메인(290)의 컴포넌트들을 갖는 제1 디바이스는 제2 전력 도메인(390)의 컴포넌트들을 갖는, 서버와 같은 제2 디바이스와 통신할 수 있다. 로컬 네트워크들을 통해, 광역 네트워크들을 통해, 또는 인터넷 프로토콜들을 통해, 제1 디바이스와 제2 디바이스 사이의 접속이 확립될 수 있다.

도 15를 참조하면, 잡음을 억제하는 방법(1500)의 특정 구현예가 도시된다. 특정 양태에서, 방법(1500)의 하나 이상의 동작들은 도 1의 잡음 억제 네트워크들(202), 주의집중 풀링 네트워크(204), 추론 네트워크(206), 제2 스테이지 잡음 억제 네트워크(302), 제2 스테이지 주의집중 풀링 네트워크(304), 제2 추론 네트워크(306), 프로세서(190), 디바이스(102), 시스템(100), 또는 이들의 조합 중 적어도 하나에 의해 수행된다.

방법(1500)은, 블록(1502)에서, 하나 이상의 프로세서들에서, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하는 단계를 포함한다. 예를 들어, 도 1을 참조하면, 하나 이상의 프로세서들(190)은 오디오 데이터(128)를 수신할 수 있다. 특히, 오디오 데이터(128)는 마이크로폰(110)의 제1 출력(112)에 대응하는 오디오 프레임(116A) 및 마이크로폰(120)의 제2 출력(122)에 대응하는 오디오 프레임(116B)을 포함할 수 있다.

방법(1500)은 또한, 블록(1504)에서, 하나 이상의 프로세서들과 연관된 제1 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하는 단계를 포함한다. 예를 들어, 도 2를 참조하면, 잡음 억제 네트워크(202A)는 오디오 데이터(128)(예컨대, 오디오 프레임들(116))에 기초하여 잡음 억제된 오디오 프레임(210A)을 생성할 수 있다.

방법(1500)은 또한, 블록(1506)에서, 하나 이상의 프로세서들과 연관된 제2 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하는 단계를 포함한다. 예를 들어, 도 2를 참조하면, 잡음 억제 네트워크(202B)는 오디오 데이터(128)(예컨대, 오디오 프레임들(116))에 기초하여 잡음 억제된 오디오 프레임(210B)을 생성할 수 있다.

방법(1500)은 또한, 블록(1508)에서, 하나 이상의 프로세서들과 연관된 주의집중 풀링 네트워크에서, 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하는 단계를 포함한다. 본 명세서에 사용되는 바와 같이, "주의집중 풀링 동작"은, 복수의 프레임들의 각각의 프레임에서 데이터를 가중시킴으로써 복수의 프레임들과 연관된 데이터를 단일 프레임 내에 통합하는 동작이다. 예를 들어, 도 2를 참조하면, 주의집중 풀링 네트워크(204)는 잡음 억제된 오디오 프레임(210A) 및 잡음 억제된 오디오 프레임(210B)에 대해 주의집중 기반 풀링을 수행하여, 출력 잡음 억제된 오디오 프레임(220)을 생성할 수 있다.

일 구현예에 따르면, 방법(1500)은, 하나 이상의 프로세서들과 연관된 추론 네트워크에서, 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하는 단계를 포함한다. 예를 들어, 도 2를 참조하면, 추론 네트워크(206)는 출력 잡음 억제된 오디오 프레임(220)에 대해 분류 태스크(230)를 수행하여, 추론 결과(240)를 생성할 수 있다. 분류 태스크(230)는 키워드 스폿팅 태스크, 자동 스피치 인식 태스크, 발언 검증 태스크, 음성 통화와 연관된 태스크 등 중 적어도 하나에 대응할 수 있다.

일 구현예에 따르면, 방법(1500)은 추론 네트워크와 연관된 분류 태스크를 결정하는 단계, 및 분류 태스크에 기초하여, 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 또는 주의집중 풀링 네트워크 중 적어도 하나를 훈련하는 단계를 포함한다. 예를 들어, 도 2를 참조하면, 잡음 억제 네트워크들(202) 및 주의집중 풀링 네트워크(204)가 샘플 데이터에 기초하여 그리고 추론 네트워크(206)의 출력에 기초하여 훈련되게 하는 공동 훈련을 겪을 수 있다. 예시하기 위해, 분류 태스크(230)는 잡음 억제 네트워크들(202) 및 주의집중 풀링 네트워크(204)에 추가적인 훈련을 제공하는 데 사용될 수 있다.

방법(1500)의 일 구현예에 따르면, 제1 전력 도메인은 제1 전력 레벨에서 동작할 수 있고, 제2 전력 도메인은 제1 전력 레벨보다 더 큰 제2 전력 레벨에서 동작할 수 있다. 예를 들어, 도 1을 참조하면, 제1 전력 도메인(290)은 저전력 레벨에서 동작할 수 있고, 제2 전력 도메인(390)은 고전력 레벨에서 동작할 수 있다. 제2 전력 도메인(390)은 추론 네트워크(206)의 추론 결과(240)를 검증하도록 선택적으로 활성화될 수 있다. 예를 들어, 제2 전력 도메인(390)은, 추론 결과(240)가 긍정적인 결과를 나타낸다는 결정에 응답하여 추론 결과(240)를 검증하도록 활성화될 수 있다. 따라서, 분류 태스크(230)가 키워드 스폿팅 태스크에 대응하고 추론 결과(240)가 키워드의 검출을 나타내는 경우, 웨이크업 신호(370)는, 키워드가 발언되었는지 여부를 검증하기 위해 제2 전력 도메인(390)을 활성화시키도록 제공될 수 있다.

도 15의 방법(1500)은, 각각의 잡음 억제 네트워크(202A, 202B, 202C)의 이점들이 분류 태스크(230)를 수행하는 데 사용될 수 있는 향상된 스피치 신호(예컨대, 출력 잡음 억제된 오디오 프레임(220))를 생성하기 위해 레버리징되는 것을 가능하게 한다. 예를 들어, 개별 잡음 억제 네트워크들(202)의 출력들에 대해 주의집중 기반 풀링을 수행함으로써, 주의집중 풀링 네트워크(204)는 분류 태스크(230)를 보완하는 알고리즘들(또는 잡음 억제 기법들)을 활용하여 잡음 억제 네트워크들(202)의 출력들에 더 큰 가중치들을 배정할 수 있고, 분류 태스크(230)에 특히 이익이 되지 않을 알고리즘들을 활용하여 잡음 억제 네트워크들(202)의 출력들에 더 작은 가중치들을 배정할 수 있다.

방법(1500)은 또한, 제1 전력 도메인(290)과 연관된 추론 네트워크(206)의 분류를 검증하기 위해 고전력 도메인(390)의 선택적 활성화를 가능하게 한다. 제2 전력 도메인(390)이 제1 전력 도메인(290)보다 더 많은 양의 메모리를 활용하고 제1 전력 도메인(290)보다 더 많은 양의 전력을 소비하기 때문에, 제1 전력 도메인(290)의 결과들을 검증하기 위해 제2 전력 도메인(390)을 선택적으로 활성화하는 것은 메모리 제약들을 완화시키고 전력 소비를 감소시킬 수 있다(예컨대, 전력 효율을 증가시킴).

방법(1500)은 필드 프로그래밍가능 게이트 어레이(field-programmable gate array, FPGA) 디바이스, 주문형 집적 회로(application-specific integrated circuit, ASIC), 프로세싱 유닛, 예컨대 중앙 프로세싱 유닛(central processing unit, CPU), DSP, 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수 있다. 일례로서, 방법(1500)은 도 16을 참조하여 설명된 바와 같은, 명령들을 실행하는 프로세서에 의해 수행될 수 있다.

도 16을 참조하면, 디바이스의 특정한 예시적인 구현의 블록도가 도시되고 대체적으로 1600으로 지정된다. 다양한 구현예들에서, 디바이스(1600)는 도 16에 예시된 것들보다 더 많은 또는 더 적은 컴포넌트들을 가질 수 있다. 예시적인 구현예에서, 디바이스(1600)는 디바이스(102)에 대응할 수 있다. 예시적인 구현예에서, 디바이스(1600)는 도 1 내지 도 15를 참조하여 설명된 하나 이상의 동작들을 수행할 수 있다.

특정 구현예에서, 디바이스(1600)는 프로세서(1606)(예컨대, 중앙 프로세싱 유닛(CPU))를 포함한다. 디바이스(1600)는 하나 이상의 추가적인 프로세서들(1610)(예컨대, 하나 이상의 DSP들)을 포함할 수 있다. 특정 양태에서, 도 1의 프로세서(들)(190)는 프로세서(1606), 프로세서들(1610), 또는 이들의 조합에 대응한다. 프로세서들(1610)은 음성 코더("보코더") 인코더(1636), 보코더 디코더(1638), 잡음 억제 네트워크들(202), 주의집중 풀링 네트워크(204), 또는 이들의 조합을 포함하는 스피치 및 음악 코더-디코더(CODEC)(1608)를 포함할 수 있다. 도 16에 예시되지 않았지만, 스피치 및 음악 CODEC(1608)은 또한 제1 전력 도메인(290)의 다른 컴포넌트들, 제2 전력 도메인(390)의 컴포넌트들, 또는 둘 모두를 포함할 수 있다.

디바이스(1600)는 메모리(1686) 및 CODEC(1634)을 포함할 수 있다. 메모리(1686)는 잡음 억제 네트워크들(202), 주의집중 풀링 네트워크(204), 또는 둘 모두를 참조하여 설명된 기능을 구현하기 위해 하나 이상의 추가적인 프로세서들(1610)(또는 프로세서(1606))에 의해 실행가능한 명령들(1656)을 포함할 수 있다. 디바이스(1600)는 트랜시버(1650)를 통해, 안테나(1652)에 커플링된 모뎀(1670)을 포함할 수 있다. 모뎀(1670)은 출력 잡음 억제된 오디오 프레임(220)과 같은 신호를 제2 디바이스(도시되지 않음)로 송신하도록 구성될 수 있다. 예를 들어, 출력 잡음 억제된 오디오 프레임(220)이 음성 통화 동안 생성되는 경우, 모뎀(1670)은 출력 잡음 억제된 오디오 프레임(220)을 트랜시버(1650) 및 안테나(1652)를 통해 수신기 디바이스로 송신할 수 있다.

디바이스(1600)는 디스플레이 제어기(1626)에 커플링된 디스플레이(1628)를 포함할 수 있다. 스피커(1692), 제1 마이크로폰(110), 및 제2 마이크로폰(120)은 CODEC(1634)에 커플링될 수 있다. CODEC(1634)은 디지털-아날로그 컨버터(digital-to-analog converter, DAC)(1602), 아날로그-디지털 컨버터(analog-to-digital converter, ADC)(1604), 또는 둘 모두를 포함할 수 있다. 특정 구현예에서, CODEC(1634)은 제1 마이크로폰(110) 및 제2 마이크로폰(120)으로부터 아날로그 신호들을 수신하고, 아날로그 신호들을 아날로그-디지털 컨버터(1604)를 사용하여 디지털 신호들로 컨버팅하고, 디지털 신호들을 스피치 및 음악 코덱(1608)에 제공할 수 있다. 스피치 및 음악 코덱(1608)은 디지털 신호들을 프로세싱할 수 있고, 디지털 신호들은 잡음 억제 네트워크들(202) 및 주의집중 풀링 네트워크(204)에 의해 추가로 프로세싱될 수 있다. 특정 구현예에서, 스피치 및 음악 코덱(1608)은 CODEC(1634)에 디지털 신호들을 제공할 수 있다. CODEC(1634)은 디지털-아날로그 컨버터(1602)를 사용하여 디지털 신호들을 아날로그 신호들로 컨버팅할 수 있고, 아날로그 신호들을 스피커(1692)에 제공할 수 있다.

특정 구현예에서, 디바이스(1600)는 시스템-인-패키지 또는 시스템-온-칩 디바이스(1622)에 포함될 수 있다. 특정 구현예에서, 메모리(1686), 프로세서(1606), 프로세서들(1610), 디스플레이 제어기(1626), CODEC(1634), 및 모뎀(1670)은 시스템-인-패키지 또는 시스템-온-칩 디바이스(1622)에 포함된다. 특정 구현예에서, 입력 디바이스(1630) 및 전력 공급부(1644)는 시스템-온-칩 디바이스(1622)에 커플링된다. 더욱이, 특정 구현예에서, 도 16에 예시된 바와 같이, 디스플레이(1628), 입력 디바이스(1630), 스피커(1692), 제1 마이크로폰(110), 제2 마이크로폰(120), 안테나(1652), 및 전력 공급부(1644)는 시스템-온-칩 디바이스(1622) 외부에 있다. 특정 구현예에서, 디스플레이(1628), 입력 디바이스(1630), 스피커(1692), 제1 마이크로폰(110), 제2 마이크로폰(120), 안테나(1652), 및 전력 공급부(1644) 각각은, 인터페이스(예컨대, 제1 입력 인터페이스(114) 또는 제2 입력 인터페이스(124)) 또는 제어기와 같은 시스템-온-칩 디바이스(1622)의 컴포넌트에 커플링될 수 있다.

디바이스(1600)는 스마트 스피커, 스피커 바, 모바일 통신 디바이스, 스마트 폰, 셀룰러 폰, 랩톱 컴퓨터, 컴퓨터, 태블릿, 개인용 디지털 어시스턴트, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 음악 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크(digital video disc, DVD) 플레이어, 튜너, 카메라, 내비게이션 디바이스, 비히클, 헤드셋, 증강 현실 헤드셋, 혼합 현실 헤드셋, 가상 현실 헤드셋, 항공 비히클, 홈 자동화 시스템, 음성 활성화 디바이스, 무선 스피커 및 음성 활성화 디바이스, 휴대용 전자 디바이스, 자동차, 비히클, 컴퓨팅 디바이스, 통신 디바이스, 사물 인터넷(IoT) 디바이스, 가상 현실(VR) 디바이스, 기지국, 모바일 디바이스, 또는 이들의 임의의 조합을 포함할 수 있다.

설명된 구현예들과 함께, 장치는, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하기 위한 수단을 포함한다. 예를 들어, 수신하기 위한 수단은 제1 입력 인터페이스(114), 제2 입력 인터페이스(124), 잡음 억제 네트워크들(202), 주의집중 풀링 네트워크(204), 프로세서(들)(190), 하나 이상의 프로세서들(1610), 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.

장치는 또한, 오디오 데이터에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하기 위한 수단을 포함한다. 예를 들어, 제1 잡음 억제된 오디오 프레임을 생성하기 위한 수단은 잡음 억제 네트워크들(202), 프로세서(들)(190), 하나 이상의 프로세서들(1610), 제1 잡음 억제된 오디오 프레임을 생성하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.

장치는 오디오 데이터에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하기 위한 수단을 추가로 포함한다. 예를 들어, 제2 잡음 억제된 오디오 프레임을 생성하기 위한 수단은 잡음 억제 네트워크들(202), 프로세서(들)(190), 하나 이상의 프로세서들(1610), 제2 잡음 억제된 오디오 프레임을 생성하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.

장치는 또한, 출력 잡음 억제된 오디오 프레임을 생성하기 위해 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하기 위한 수단을 포함한다. 예를 들어, 주의집중 풀링 동작을 수행하기 위한 수단은 주의집중 풀링 네트워크(204), 프로세서(들)(190), 하나 이상의 프로세서들(1610), 주의집중 풀링 동작을 수행하도록 구성된 하나 이상의 다른 회로들 또는 컴포넌트들, 또는 이들의 임의의 조합에 대응할 수 있다.

일부 구현들예에서, 비일시적 컴퓨터 판독가능 매체(예컨대, 메모리(1686)와 같은 컴퓨터 판독가능 저장 디바이스)는, 하나 이상의 프로세서들(예컨대, 하나 이상의 프로세서들(1610) 또는 프로세서(1606))에 의해 실행될 때, 하나 이상의 프로세서들로 하여금, 제1 마이크로폰(예컨대, 제1 마이크로폰(110))의 제1 출력에 대응하는 제1 오디오 프레임(예컨대, 오디오 프레임(116A)) 및 제2 마이크로폰(예컨대, 제2 마이크로폰(120))의 제2 출력에 대응하는 제2 오디오 프레임(예컨대, 오디오 프레임(116B))을 포함하는 오디오 데이터(예컨대, 오디오 데이터(128))를 수신하게 하는 명령들(예컨대, 명령들(1656))을 포함한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한 하나 이상의 프로세서들로 하여금, 제1 잡음 억제 네트워크(예컨대, 잡음 억제 네트워크(202A))에서, 오디오 데이터에 기초하여 제1 잡음 억제된 오디오 프레임(예컨대, 잡음 억제된 오디오 프레임(210A))을 생성하게 한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한 하나 이상의 프로세서들로 하여금, 제2 잡음 억제 네트워크(예컨대, 잡음 억제 네트워크(202B)) 에서, 오디오 데이터에 기초하여 제2 잡음 억제된 오디오 프레임(예컨대, 잡음 억제된 오디오 프레임(210B))을 생성하게 한다. 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 또한 하나 이상의 프로세서들로 하여금, 주의집중 풀링 네트워크(예컨대, 주의집중 풀링 네트워크(204))에서, 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임(예컨대, 출력 잡음 억제된 오디오 프레임(220))을 생성하게 한다.

본 개시내용은 다음의 예들을 포함한다.

예 1. 디바이스로서, 명령들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하고; 오디오 데이터를 제1 잡음 억제 네트워크에 그리고 제2 잡음 억제 네트워크에 제공하는 것으로서, 제1 잡음 억제 네트워크는 오디오 데이터에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하도록 구성되고, 제2 잡음 억제 네트워크는 오디오 데이터에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하도록 구성되는, 상기 오디오 데이터를 제공하고; 그리고 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임을 주의집중 풀링 네트워크에 제공하는 것으로서, 주의집중 풀링 네트워크는 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 적어도 기초하여 출력 잡음 억제된 오디오 프레임을 생성하도록 구성되는, 상기 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임을 제공하기 위해 명령들을 실행하도록 구성된다.

예 2. 예 1의 디바이스는, 제1 마이크로폰 및 제2 마이크로폰을 추가로 포함하고, 제1 마이크로폰 및 제2 마이크로폰은 하나 이상의 프로세서들에 커플링된다.

예 3. 예 1 또는 예 2의 디바이스에 있어서, 하나 이상의 프로세서들은, 출력 잡음 억제된 오디오 프레임을 분류 태스크와 연관된 추론 네트워크에 제공하도록 추가로 구성되고, 추론 네트워크는 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하도록 구성된다.

예 4. 예 1 내지 예 3 중 어느 한 예의 디바이스에 있어서, 분류 태스크는 키워드 스폿팅 태스크, 자동 스피치 인식 태스크, 또는 발언 검증 태스크 중 적어도 하나에 대응한다.

예 5. 예 1 내지 예 4 중 어느 한 예의 디바이스에 있어서, 하나 이상의 프로세서들은, 추론 네트워크와 연관된 분류 태스크를 결정하도록; 그리고 분류 태스크에 기초하여, 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 또는 주의집중 풀링 네트워크 중 적어도 하나를 튜닝하도록 추가로 구성된다.

예 6. 예 1 내지 예 5 중 어느 한 예의 디바이스에 있어서, 하나 이상의 프로세서들은, 제1 전력 레벨에서 동작하도록 구성된 제1 전력 도메인으로서, 제1 전력 도메인은 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 주의집중 풀링 네트워크, 및 추론 네트워크를 포함하는, 상기 제1 전력 도메인; 및 제1 전력 레벨보다 더 큰 제2 전력 레벨에서 동작하도록 구성된 제2 전력 도메인으로서, 제2 전력 도메인은 추론 결과를 검증하기 위해 선택적으로 활성화되는, 상기 제2 전력 도메인을 추가로 포함한다.

예 7. 예 1 내지 예 6 중 어느 한 예의 디바이스에 있어서, 제2 전력 도메인은, 추론 결과가 긍정적인 결과를 나타낸다는 결정에 응답하여 추론 결과를 검증하도록 활성화된다.

예 8. 예 1 내지 예 7 중 어느 한 예의 디바이스에 있어서, 제2 전력 도메인은, 오디오 데이터에 기초하여 제2 스테이지 잡음 억제된 오디오 프레임을 생성하도록 구성된 제2 스테이지 잡음 억제 네트워크; 출력 잡음 억제된 오디오 프레임, 오디오 데이터, 및 제2 스테이지 잡음 억제된 오디오 프레임에 적어도 기초하여, 제2 스테이지 출력 잡음 억제된 오디오 프레임을 생성하도록 구성된 제2 스테이지 주의집중 풀링 네트워크; 및 제2 스테이지 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 검증하도록 구성된 제2 추론 네트워크를 포함한다.

예 9. 예 1 내지 예 8 중 어느 한 예의 디바이스에 있어서, 제1 전력 도메인은 보조 디바이스에 통합되고, 제2 전력 도메인은 보조 디바이스와 페어링되는 컴퓨팅 디바이스 내에 통합된다.

예 10. 예 1 내지 예 9 중 어느 한 예의 디바이스에 있어서, 보조 디바이스는 헤드셋을 포함한다.

예 11. 예 1 내지 예 10 중 어느 한 예의 디바이스에 있어서, 하나 이상의 프로세서들은, 오디오 데이터를 제3 잡음 억제 네트워크에 제공하는 것으로서, 제3 잡음 억제 네트워크는 오디오 데이터에 기초하여 제3 잡음 억제된 오디오 프레임을 생성하도록 구성되는, 상기 오디오 데이터를 제공하고; 그리고 제3 잡음 억제된 오디오 프레임을 주의집중 풀링 네트워크에 제공하도록 추가로 구성되고, 주의집중 풀링 네트워크에 의해 생성된 출력 잡음 억제된 오디오 프레임은 제3 잡음 억제된 오디오 프레임에 추가로 기초한다.

예 12. 예 1 내지 예 11 중 어느 한 예의 디바이스에 있어서, 제1 잡음 억제 네트워크는 스피치 생성 네트워크에 대응하고, 제2 잡음 억제 네트워크는 일반화된 고유치 네트워크에 대응하고, 제3 잡음 억제 네트워크는 적응적 빔포밍 네트워크에 대응한다.

예 13. 예 1 내지 예 12 중 어느 한 예의 디바이스에 있어서, 스피치 생성 네트워크는 스피치 우세한 오디오 데이터와 연관된 주파수 범위들의 제1 세트를 나타내거나 또는 잡음 우세한 오디오 데이터와 연관된 주파수 범위들의 제2 세트를 나타내는 음성 활동 검출 신호를 생성하도록 구성된다.

예 14. 예 1 내지 예 13 중 어느 한 예의 디바이스에 있어서, 스피치 생성 네트워크 또는 고유치 네트워크 중 적어도 하나는 도착 방향 프로세싱을 수행하여 착신 스피치의 도착 방향 및 착신 잡음의 도착 방향을 결정하도록 구성되고, 적응적 빔포밍 네트워크의 파라미터들은 도착 방향 프로세싱의 출력에 기초하여 조정된다.

예 15. 예 1 내지 예 14 중 어느 한 예의 디바이스에 있어서, 하나 이상의 프로세서들은, 오디오 데이터를 주의집중 풀링 네트워크에 제공하도록 추가로 구성되고, 주의집중 풀링 네트워크에 의해 생성된 출력 잡음 억제된 오디오 프레임은 주의집중 풀링 네트워크에 제공된 오디오 데이터에 추가로 기초한다.

예 16. 예 1 내지 예 15 중 어느 한 예의 디바이스는, 하나 이상의 프로세서들에 커플링된 모뎀을 추가로 포함하고, 모뎀은 출력 잡음 억제된 오디오 프레임을 제2 디바이스로 송신하도록 구성된다.

예 17. 예 1 내지 예 16 중 어느 한 예의 디바이스에 있어서, 하나 이상의 프로세서들은 제1 마이크로폰 및 제2 마이크로폰을 포함하는 헤드셋 디바이스에 통합되고, 헤드셋 디바이스는, 사용자에 의해 착용될 때, 제1 마이크로폰을 제2 마이크로폰보다 사용자의 입에 더 가깝게 포지셔닝하여, 제2 마이크로폰에 비해 더 큰 강도 및 더 적은 지연으로 제1 마이크로폰에서 사용자의 발언들을 캡처하도록 구성된다.

예 18. 예 1 내지 예 17 중 어느 한 예의 디바이스에 있어서, 하나 이상의 프로세서들은 모바일 폰, 태블릿 컴퓨터 디바이스, 웨어러블 전자 디바이스, 카메라 디바이스, 가상 현실 헤드셋, 또는 증강 현실 헤드셋 중 적어도 하나에 통합된다.

예 19. 예 1 내지 예 18 중 어느 한 예의 디바이스에 있어서, 하나 이상의 프로세서들은 비히클에 통합되고, 비히클은 제1 마이크로폰 및 제2 마이크로폰을 추가로 포함하고, 제1 마이크로폰은 비히클의 오퍼레이터의 발언들을 캡처하도록 포지셔닝된다.

예 20. 예 1 내지 예 19 중 어느 한 예의 디바이스에 있어서, 하나 이상의 프로세서들은, 출력 잡음 억제된 오디오 프레임과 연관된 스피치 향상 손실을 결정하도록; 추론 결과와 연관된 분류 손실을 결정하도록; 그리고 스피치 향상 손실 및 분류 손실에 기초하여 공동 손실을 결정하도록 추가로 구성되고, 훈련은 공동 손실에 기초한다.

예 21. 예 1 내지 예 20 중 어느 한 예의 디바이스에 있어서, 하나 이상의 프로세서들은, 제1 전력 도메인에서, 추론 결과가 긍정적인 결과를 나타낸다는 결정에 응답하여 웨이크업 신호를 생성하는 것으로서, 제1 전력 도메인은 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 주의집중 풀링 네트워크, 및 추론 네트워크를 포함하는, 상기 웨이크업 신호를 생성하고; 그리고 웨이크업 신호에 기초하여, 제2 전력 도메인을 저전력 모드로부터 활성 모드로 전이하는 것으로서, 제2 전력 도메인은 활성 모드에 있는 동안 추론 결과를 검증하는, 상기 제2 전력 도메인을 전이하도록 추가로 구성된다.

예 22. 오디오 프레임 내의 잡음을 억제하는 방법으로서, 하나 이상의 프로세서들에서, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하는 단계; 하나 이상의 프로세서들과 연관된 제1 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하는 단계; 하나 이상의 프로세서들과 연관된 제2 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하는 단계; 및 하나 이상의 프로세서들과 연관된 주의집중 풀링 네트워크에서, 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하는 단계를 포함한다.

예 23. 예 22의 방법은, 하나 이상의 프로세서들과 연관된 추론 네트워크에서, 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하는 단계를 추가로 포함한다.

예 24. 예 22 또는 예 23의 방법은, 분류 태스크에 기초하여, 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 또는 주의집중 풀링 네트워크 중 적어도 하나를 훈련하는 단계를 추가로 포함한다.

예 25. 예 22 내지 예 24 중 어느 한 예의 방법은, 출력 잡음 억제된 오디오 프레임과 연관된 스피치 향상 손실을 결정하는 단계; 추론 결과와 연관된 분류 손실을 결정하는 단계; 및 스피치 향상 손실 및 분류 손실에 기초하여 공동 손실을 결정하는 단계를 추가로 포함하고, 훈련은 공동 손실에 기초한다.

예 26. 예 22 내지 예 25 중 어느 한 예의 방법은, 하나 이상의 프로세서들과 연관된 제1 전력 도메인에서, 추론 결과가 긍정적인 결과를 나타낸다는 결정에 응답하여 웨이크업 신호를 생성하는 단계로서, 제1 전력 도메인은 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 주의집중 풀링 네트워크, 및 추론 네트워크를 포함하는, 상기 웨이크업 신호를 생성하는 단계; 및 웨이크업 신호에 기초하여, 제2 전력 도메인을 저전력 모드로부터 활성 모드로 전이하는 단계로서, 제2 전력 도메인은 활성 모드에 있는 동안 추론 결과를 검증하는, 상기 제2 전력 도메인을 전이하는 단계를 추가로 포함한다.

예 27. 예 22 내지 예 26 중 어느 한 예의 방법은, 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하는 단계를 추가로 포함한다.

예 28. 예 22 내지 예 27 중 어느 한 예의 방법에 있어서, 분류 태스크는 키워드 스폿팅 태스크, 자동 스피치 인식 태스크, 또는 발언 검증 태스크 중 적어도 하나에 대응한다.

예 29. 예 22 내지 예 28 중 어느 한 예의 방법은, 추론 네트워크와 연관된 분류 태스크를 결정하는 단계; 및 분류 태스크에 기초하여, 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 또는 주의집중 풀링 네트워크 중 적어도 하나를 튜닝하는 단계를 추가로 포함한다.

예 30. 예 22 내지 예 29 중 어느 한 예의 방법은, 제1 전력 레벨에서 제1 전력 도메인을 동작시키는 단계로서, 제1 전력 도메인은 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 주의집중 풀링 네트워크, 및 추론 네트워크를 포함하는, 상기 제1 전력 도메인을 동작시키는 단계; 및 제1 전력 레벨보다 더 큰 제2 전력 레벨에서 제2 전력 도메인을 동작시키는 단계로서, 제2 전력 도메인은 추론 결과를 검증하기 위해 선택적으로 활성화되는, 상기 제2 전력 도메인을 동작시키는 단계를 추가로 포함한다.

예 31. 예 22 내지 예 30 중 어느 한 예의 방법에 있어서, 제2 전력 도메인은, 추론 결과가 긍정적인 결과를 나타낸다는 결정에 응답하여 추론 결과를 검증하도록 활성화된다.

예 32. 예 22 내지 예 31 중 어느 한 예의 방법에 있어서, 제2 전력 도메인은, 오디오 데이터에 기초하여 제2 스테이지 잡음 억제된 오디오 프레임을 생성하도록 구성된 제2 스테이지 잡음 억제 네트워크; 출력 잡음 억제된 오디오 프레임, 오디오 데이터, 및 제2 스테이지 잡음 억제된 오디오 프레임에 적어도 기초하여, 제2 스테이지 출력 잡음 억제된 오디오 프레임을 생성하도록 구성된 제2 스테이지 주의집중 풀링 네트워크; 및 제2 스테이지 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 검증하도록 구성된 제2 추론 네트워크를 포함한다.

예 33. 예 22 내지 예 32 중 어느 한 예의 방법에 있어서, 제1 전력 도메인은 보조 디바이스에 통합되고, 제2 전력 도메인은 보조 디바이스와 페어링되는 컴퓨팅 디바이스 내에 통합된다.

예 34. 예 22 내지 예 33 중 어느 한 예의 방법에 있어서, 보조 디바이스는 헤드셋을 포함한다.

예 35. 예 22 내지 예 34 중 어느 한 예의 방법은, 제3 잡음 억제 네트워크에서, 오디오 데이터에 기초하여 제3 잡음 억제된 오디오 프레임을 생성하는 단계; 및 제3 잡음 억제된 오디오 프레임을 주의집중 풀링 네트워크에 제공하는 단계를 추가로 포함하고, 주의집중 풀링 네트워크에 의해 생성된 출력 잡음 억제된 오디오 프레임은 제3 잡음 억제된 오디오 프레임에 추가로 기초한다.

예 36. 예 22 내지 예 35 중 어느 한 예의 방법에 있어서, 제1 잡음 억제 네트워크는 스피치 생성 네트워크에 대응하고, 제2 잡음 억제 네트워크는 일반화된 고유치 네트워크에 대응하고, 제3 잡음 억제 네트워크는 적응적 빔포밍 네트워크에 대응한다.

예 37. 예 22 내지 예 36 중 어느 한 예의 방법에 있어서, 스피치 생성 네트워크는 스피치 우세한 오디오 데이터와 연관된 주파수 범위들의 제1 세트를 나타내거나 또는 잡음 우세한 오디오 데이터와 연관된 주파수 범위들의 제2 세트를 나타내는 음성 활동 검출 신호를 생성하도록 구성된다.

예 38. 예 22 내지 예 37 중 어느 한 예의 방법에 있어서, 스피치 생성 네트워크 또는 고유치 네트워크 중 적어도 하나는 도착 방향 프로세싱을 수행하여 착신 스피치의 도착 방향 및 착신 잡음의 도착 방향을 결정하도록 구성되고, 적응적 빔포밍 네트워크의 파라미터들은 도착 방향 프로세싱의 출력에 기초하여 조정된다.

예 39. 명령들을 포함하는 비일시적 컴퓨터 판독가능 매체로서, 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하게 하고; 제1 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하게 하고; 제2 잡음 억제 네트워크에서, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하게 하고; 주의집중 풀링 네트워크에서, 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하게 한다.

예 40. 예 39의 비일시적 컴퓨터 판독가능 매체에 있어서, 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 하나 이상의 프로세서들과 연관된 추론 네트워크에서, 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하게 한다.

예 41. 예 39 또는 예 40의 비일시적 컴퓨터 판독가능 매체에 있어서, 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 분류 태스크에 기초하여, 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 또는 주의집중 풀링 네트워크 중 적어도 하나를 훈련하게 한다.

예 42. 예 39 내지 예 41 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 출력 잡음 억제된 오디오 프레임과 연관된 스피치 향상 손실을 결정하게 하고; 추론 결과와 연관된 분류 손실을 결정하게 하고; 스피치 향상 손실 및 분류 손실에 기초하여 공동 손실을 결정하게 하고, 훈련은 공동 손실에 기초한다.

예 43. 예 39 내지 예 42 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 하나 이상의 프로세서들과 연관된 제1 전력 도메인에서, 추론 결과가 긍정적인 결과를 나타낸다는 결정에 응답하여 웨이크업 신호를 생성하게 하는 것으로서, 제1 전력 도메인은 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 주의집중 풀링 네트워크, 및 추론 네트워크를 포함하는, 상기 웨이크업 신호를 생성하게 하고; 웨이크업 신호에 기초하여, 제2 전력 도메인을 저전력 모드로부터 활성 모드로 전이하게 하는 것으로서, 제2 전력 도메인은 활성 모드에 있는 동안 추론 결과를 검증하는, 상기 제2 전력 도메인을 전이하게 한다.

예 44. 예 39 내지 예 43 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하게 한다.

예 45. 예 39 내지 예 44 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 분류 태스크는 키워드 스폿팅 태스크, 자동 스피치 인식 태스크, 또는 발언 검증 태스크 중 적어도 하나에 대응한다.

예 46. 예 39 내지 예 45 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 추론 네트워크와 연관된 분류 태스크를 결정하게 하고; 분류 태스크에 기초하여, 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 또는 주의집중 풀링 네트워크 중 적어도 하나를 훈련하게 한다.

예 47. 예 39 내지 예 46 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 제1 전력 레벨에서 제1 전력 도메인을 동작시키게 하는 것으로서, 제1 전력 도메인은 제1 잡음 억제 네트워크, 제2 잡음 억제 네트워크, 주의집중 풀링 네트워크, 및 추론 네트워크를 포함하는, 상기 제1 전력 도메인을 동작시키게 하고; 제1 전력 레벨보다 더 큰 제2 전력 레벨에서 제2 전력 도메인을 동작시키게 하고, 제2 전력 도메인은 추론 결과를 검증하기 위해 선택적으로 활성화된다.

예 48. 예 39 내지 예 47 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 제2 전력 도메인은, 추론 결과가 긍정적인 결과를 나타낸다는 결정에 응답하여 추론 결과를 검증하도록 활성화된다.

예 49. 예 39 내지 예 48 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 제2 전력 도메인은, 제1 오디오 프레임 및 제2 오디오 프레임에 기초하여 제2 스테이지 잡음 억제된 오디오 프레임을 생성하도록 구성된 제2 스테이지 잡음 억제 네트워크; 출력 잡음 억제된 오디오 프레임, 제1 오디오 프레임과 제2 오디오 프레임, 및 제2 스테이지 잡음 억제된 오디오 프레임에 적어도 기초하여, 제2 스테이지 출력 잡음 억제된 오디오 프레임을 생성하도록 구성된 제2 스테이지 주의집중 풀링 네트워크; 및 제2 스테이지 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 검증하도록 구성된 제2 추론 네트워크를 포함한다.

예 50. 예 39 내지 예 49 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 제1 전력 도메인은 보조 디바이스에 통합되고, 제2 전력 도메인은 보조 디바이스와 페어링되는 컴퓨팅 디바이스 내에 통합된다.

예 51. 예 39 내지 예 50 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 보조 디바이스는 헤드셋을 포함한다.

예 52. 예 39 내지 예 51 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 명령들은 추가로, 하나 이상의 프로세서들로 하여금, 제3 잡음 억제 네트워크에서, 오디오 데이터에 기초하여 제3 잡음 억제된 오디오 프레임을 생성하게 하고; 제3 잡음 억제된 오디오 프레임을 주의집중 풀링 네트워크에 제공하게 하고, 주의집중 풀링 네트워크에 의해 생성된 출력 잡음 억제된 오디오 프레임은 제3 잡음 억제된 오디오 프레임에 추가로 기초한다.

예 53. 예 39 내지 예 52 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 제1 잡음 억제 네트워크는 스피치 생성 네트워크에 대응하고, 제2 잡음 억제 네트워크는 일반화된 고유치 네트워크에 대응하고, 제3 잡음 억제 네트워크는 적응적 빔포밍 네트워크에 대응한다.

예 54. 예 39 내지 예 53 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 스피치 생성 네트워크는 스피치 우세한 오디오 데이터와 연관된 주파수 범위들의 제1 세트를 나타내거나 또는 잡음 우세한 오디오 데이터와 연관된 주파수 범위들의 제2 세트를 나타내는 음성 활동 검출 신호를 생성하도록 구성된다.

예 55. 예 39 내지 예 54 중 어느 한 예의 비일시적 컴퓨터 판독가능 매체에 있어서, 스피치 생성 네트워크 또는 고유치 네트워크 중 적어도 하나는 도착 방향 프로세싱을 수행하여 착신 스피치의 도착 방향 및 착신 잡음의 도착 방향을 결정하도록 구성되고, 적응적 빔포밍 네트워크의 파라미터들은 도착 방향 프로세싱의 출력에 기초하여 조정된다.

예 56. 장치로서, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하기 위한 수단; 오디오 데이터에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하기 위한 수단; 오디오 데이터에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하기 위한 수단; 및 적어도 제1 잡음 억제된 오디오 프레임 및 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하기 위한 수단을 포함한다.

예 57. 예 56의 장치는, 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하기 위한 수단을 추가로 포함한다.

예 58. 예 56 또는 예 57의 장치에 있어서, 분류 태스크는 키워드 스폿팅 태스크, 자동 스피치 인식 태스크, 또는 발언 검증 태스크 중 적어도 하나에 대응한다.

예 59. 비일시적 컴퓨터 판독가능 매체는 명령들을 저장하고, 명령들은, 프로세서에 의해 실행될 때, 프로세서로 하여금, 예 22 내지 예 37 중 어느 한 예의 방법을 수행하게 한다.

예 60. 장치는 예 22 내지 예 37 중 어느 한 예의 방법을 수행하기 위한 수단을 포함한다.

당업자들은 본 명세서에서 개시된 구현예들과 관련하여 설명되는 여러가지 예시적인 로직 블록들, 구성들, 모듈들, 회로들 및 알고리즘 단계들이 전자적 하드웨어, 프로세서에 의해 실행되는 컴퓨터 소프트웨어, 또는 둘 모두의 조합들로서 구현될 수 있음을 또한 알 수 있을 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 그 기능에 관하여 일반적으로 전술되어 있다. 그러한 기능이 하드웨어로서 구현되는지 또는 프로세서 실행가능 명령들로서 구현되는지는 전체 시스템에 부과된 설계 제약들 및 특정 애플리케이션에 의존한다. 당업자들은 각각의 특정 애플리케이션에 대해 다양한 방식들로 설명된 기능을 구현할 수 있으며, 이러한 구현 판정들은 본 개시내용의 범주로부터 벗어남을 야기하는 것으로서 해석되어서는 안된다.

본 명세서에 개시된 구현들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들 양자의 조합에서 직접 구현될 수 있다. 소프트웨어 모듈은, 랜덤 액세스 메모리(RAM), 플래시 메모리, 판독-전용 메모리(ROM), 프로그래밍가능 판독-전용 메모리(PROM), 소거가능한 프로그래밍가능 판독-전용 메모리(EPROM), 전기적으로 소거가능한 프로그래밍가능 판독-전용 메모리(EEPROM), 레지스터들, 하드 디스크, 착탈형 디스크, 컴팩트 디스크 판독-전용 메모리(CD-ROM), 또는 당업계에 알려진 임의의 다른 형태의 비일시적 저장 매체에 상주할 수 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있도록 프로세서에 커플링된다. 대안적으로, 저장 매체는 프로세서에 통합될 수 있다. 프로세서 및 저장 매체는 주문형 집적 회로(ASIC)에 상주할 수 있다. ASIC는 컴퓨팅 디바이스 또는 사용자 단말 내에 있을 수 있다. 대안으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에 별개의 컴포넌트들로서 상주할 수 있다.

기재된 양태들의 이전 설명은 당업자가 기재된 양태들을 사용하거나 또는 실시할 수 있도록 제공된다. 이들 양태들에 대한 다양한 수정들은 당업자들에게 용이하게 명백할 것이며, 본 명세서에서 정의된 원리들은 본 개시내용의 범주로부터 벗어남 없이 다른 양태들에 적용될 수 있다. 따라서, 본 개시내용은 본 명세서에 예시된 양태들로 제한되도록 의도되는 것이 아니라, 다음의 청구항들에 의해 정의된 바와 같은 원리들 및 신규한 특징들과 일치하는 가능한 가장 넓은 범주에 부합할 것이다.

Claims

디바이스로서,
명령들을 저장하도록 구성된 메모리; 및
하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은,
제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하고;
상기 오디오 데이터를 제1 잡음 억제 네트워크에 그리고 제2 잡음 억제 네트워크에 제공하는 것으로서, 상기 제1 잡음 억제 네트워크는 상기 오디오 데이터에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하도록 구성되고, 상기 제2 잡음 억제 네트워크는 상기 오디오 데이터에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하도록 구성되는, 상기 오디오 데이터를 제공하고; 그리고
상기 제1 잡음 억제된 오디오 프레임 및 상기 제2 잡음 억제된 오디오 프레임을 주의집중 풀링 네트워크(attention-pooling network)에 제공하는 것으로서, 상기 주의집중 풀링 네트워크는 상기 제1 잡음 억제된 오디오 프레임 및 상기 제2 잡음 억제된 오디오 프레임에 적어도 기초하여 출력 잡음 억제된 오디오 프레임을 생성하도록 구성되는, 상기 제1 잡음 억제된 오디오 프레임 및 상기 제2 잡음 억제된 오디오 프레임을 제공하기 위해, 상기 명령들을 실행하도록 구성되는, 디바이스.
제1항에 있어서, 상기 제1 마이크로폰 및 상기 제2 마이크로폰을 추가로 포함하고, 상기 제1 마이크로폰 및 상기 제2 마이크로폰은 상기 하나 이상의 프로세서들에 커플링되는, 디바이스.
제1항에 있어서, 상기 하나 이상의 프로세서들은,
상기 출력 잡음 억제된 오디오 프레임을 분류 태스크와 연관된 추론 네트워크에 제공하도록 추가로 구성되고, 상기 추론 네트워크는 상기 출력 잡음 억제된 오디오 프레임에 대해 상기 분류 태스크를 수행하여 추론 결과를 생성하도록 구성되는, 디바이스.
제3항에 있어서, 상기 분류 태스크는 키워드 스폿팅 태스크(keyword spotting task), 자동 스피치 인식 태스크, 또는 발언 검증 태스크 중 적어도 하나에 대응하는, 디바이스.
제3항에 있어서, 상기 하나 이상의 프로세서들은,
상기 추론 네트워크와 연관된 상기 분류 태스크를 결정하고; 그리고
상기 분류 태스크에 기초하여, 상기 제1 잡음 억제 네트워크, 상기 제2 잡음 억제 네트워크, 또는 상기 주의집중 풀링 네트워크 중 적어도 하나를 튜닝하도록 추가로 구성되는, 디바이스.
제3항에 있어서, 상기 하나 이상의 프로세서들은,
제1 전력 레벨에서 동작하도록 구성된 제1 전력 도메인으로서, 상기 제1 전력 도메인은 상기 제1 잡음 억제 네트워크, 상기 제2 잡음 억제 네트워크, 상기 주의집중 풀링 네트워크, 및 상기 추론 네트워크를 포함하는, 상기 제1 전력 도메인; 및
상기 제1 전력 레벨보다 더 큰 제2 전력 레벨에서 동작하도록 구성된 제2 전력 도메인으로서, 상기 제2 전력 도메인은 상기 추론 결과를 검증하기 위해 선택적으로 활성화되는, 상기 제2 전력 도메인을 추가로 포함하는, 디바이스.
제6항에 있어서, 상기 제2 전력 도메인은, 상기 추론 결과가 긍정적인 결과(positive result)를 나타낸다는 결정에 응답하여 상기 추론 결과를 검증하도록 활성화되는, 디바이스.
제6항에 있어서, 상기 제2 전력 도메인은,
상기 오디오 데이터에 기초하여 제2 스테이지 잡음 억제된 오디오 프레임을 생성하도록 구성된 제2 스테이지 잡음 억제 네트워크;
상기 출력 잡음 억제된 오디오 프레임, 상기 오디오 데이터, 및 상기 제2 스테이지 잡음 억제된 오디오 프레임에 적어도 기초하여, 제2 스테이지 출력 잡음 억제된 오디오 프레임을 생성하도록 구성된 제2 스테이지 주의집중 풀링 네트워크; 및
상기 제2 스테이지 출력 잡음 억제된 오디오 프레임에 대해 상기 분류 태스크를 수행하여 상기 추론 결과를 검증하도록 구성된 제2 추론 네트워크를 포함하는, 디바이스.
제6항에 있어서, 상기 제1 전력 도메인은 보조 디바이스에 통합되고, 상기 제2 전력 도메인은 상기 보조 디바이스와 페어링되는 컴퓨팅 디바이스 내에 통합되는, 디바이스.
제9항에 있어서, 상기 보조 디바이스는 헤드셋을 포함하는, 디바이스.
제1항에 있어서, 상기 하나 이상의 프로세서들은,
상기 오디오 데이터를 제3 잡음 억제 네트워크에 제공하는 것으로서, 상기 제3 잡음 억제 네트워크는 상기 오디오 데이터에 기초하여 제3 잡음 억제된 오디오 프레임을 생성하도록 구성되는, 상기 오디오 데이터를 제공하고; 그리고
상기 제3 잡음 억제된 오디오 프레임을 상기 주의집중 풀링 네트워크에 제공하도록 추가로 구성되고, 상기 주의집중 풀링 네트워크에 의해 생성된 상기 출력 잡음 억제된 오디오 프레임은 상기 제3 잡음 억제된 오디오 프레임에 추가로 기초하는, 디바이스.
제11항에 있어서, 상기 제1 잡음 억제 네트워크는 스피치 생성 네트워크에 대응하고, 상기 제2 잡음 억제 네트워크는 일반화된 고유치 네트워크(eigenvalue network)에 대응하고, 상기 제3 잡음 억제 네트워크는 적응적 빔포밍 네트워크에 대응하는, 디바이스.
제12항에 있어서, 상기 스피치 생성 네트워크는 스피치 우세한 상기 오디오 데이터와 연관된 주파수 범위들의 제1 세트를 나타내거나 또는 잡음 우세한 상기 오디오 데이터와 연관된 주파수 범위들의 제2 세트를 나타내는 음성 활동 검출 신호를 생성하도록 구성되는, 디바이스.
제12항에 있어서, 상기 스피치 생성 네트워크 또는 상기 고유치 네트워크 중 적어도 하나는 도착 방향 프로세싱을 수행하여 착신 스피치의 도착 방향 또는 착신 잡음의 도착 방향을 결정하도록 구성되고, 상기 적응적 빔포밍 네트워크의 파라미터들은 상기 도착 방향 프로세싱의 출력에 기초하여 조정되는, 디바이스.
제1항에 있어서, 상기 하나 이상의 프로세서들은,
상기 오디오 데이터를 상기 주의집중 풀링 네트워크에 제공하도록 추가로 구성되고, 상기 주의집중 풀링 네트워크에 의해 생성된 상기 출력 잡음 억제된 오디오 프레임은 상기 주의집중 풀링 네트워크에 제공된 상기 오디오 데이터에 추가로 기초하는, 디바이스.
제1항에 있어서, 상기 하나 이상의 프로세서들에 커플링된 모뎀을 추가로 포함하고, 상기 모뎀은 상기 출력 잡음 억제된 오디오 프레임을 제2 디바이스로 송신하도록 구성되는, 디바이스.
제1항에 있어서, 상기 하나 이상의 프로세서들은 상기 제1 마이크로폰 및 상기 제2 마이크로폰을 포함하는 헤드셋 디바이스에 통합되고, 상기 헤드셋 디바이스는, 사용자에 의해 착용될 때, 상기 제1 마이크로폰을 상기 제2 마이크로폰보다 상기 사용자의 입에 더 가깝게 포지셔닝하여, 상기 제2 마이크로폰에 비해 더 큰 강도 및 더 적은 지연으로 상기 제1 마이크로폰에서 상기 사용자의 발언들을 캡처하도록 구성되는, 디바이스.
제1항에 있어서, 상기 하나 이상의 프로세서들은 모바일 폰, 태블릿 컴퓨터 디바이스, 웨어러블 전자 디바이스, 카메라 디바이스, 가상 현실 헤드셋, 혼합 현실 헤드셋, 또는 증강 현실 헤드셋 중 적어도 하나에 통합되는, 디바이스.
제1항에 있어서, 상기 하나 이상의 프로세서들은 비히클에 통합되고, 상기 비히클은 상기 제1 마이크로폰 및 상기 제2 마이크로폰을 추가로 포함하고, 상기 제1 마이크로폰은 상기 비히클의 오퍼레이터의 발언들을 캡처하도록 포지셔닝되는, 디바이스.
오디오 프레임 내의 잡음을 억제하는 방법으로서,
하나 이상의 프로세서들에서, 제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하는 단계;
상기 하나 이상의 프로세서들과 연관된 제1 잡음 억제 네트워크에서, 상기 제1 오디오 프레임 및 상기 제2 오디오 프레임에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하는 단계;
상기 하나 이상의 프로세서들과 연관된 제2 잡음 억제 네트워크에서, 상기 제1 오디오 프레임 및 상기 제2 오디오 프레임에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하는 단계; 및
상기 하나 이상의 프로세서들과 연관된 주의집중 풀링 네트워크에서, 적어도 상기 제1 잡음 억제된 오디오 프레임 및 상기 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하는 단계를 포함하는, 오디오 프레임 내의 잡음을 억제하는 방법.
제20항에 있어서, 상기 하나 이상의 프로세서들과 연관된 추론 네트워크에서, 상기 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하는 단계를 추가로 포함하는, 오디오 프레임 내의 잡음을 억제하는 방법.
제21항에 있어서, 상기 분류 태스크에 기초하여, 상기 제1 잡음 억제 네트워크, 상기 제2 잡음 억제 네트워크, 또는 상기 주의집중 풀링 네트워크 중 적어도 하나를 튜닝하는 단계를 추가로 포함하는, 오디오 프레임 내의 잡음을 억제하는 방법.
제22항에 있어서,
상기 출력 잡음 억제된 오디오 프레임과 연관된 스피치 향상 손실을 결정하는 단계;
상기 추론 결과와 연관된 분류 손실을 결정하는 단계; 및
상기 스피치 향상 손실 및 상기 분류 손실에 기초하여 공동 손실을 결정하는 단계를 추가로 포함하고, 훈련은 상기 공동 손실에 기초하는, 오디오 프레임 내의 잡음을 억제하는 방법.
제21항에 있어서,
상기 하나 이상의 프로세서들과 연관된 제1 전력 도메인에서, 상기 추론 결과가 긍정적인 결과를 나타낸다는 결정에 응답하여 웨이크업 신호를 생성하는 단계로서, 상기 제1 전력 도메인은 상기 제1 잡음 억제 네트워크, 상기 제2 잡음 억제 네트워크, 상기 주의집중 풀링 네트워크, 및 상기 추론 네트워크를 포함하는, 상기 웨이크업 신호를 생성하는 단계; 및
상기 웨이크업 신호에 기초하여, 제2 전력 도메인을 저전력 모드로부터 활성 모드로 전이하는 단계로서, 상기 제2 전력 도메인은 상기 활성 모드에 있는 동안 상기 추론 결과를 검증하는, 상기 제2 전력 도메인을 전이하는 단계를 추가로 포함하는, 오디오 프레임 내의 잡음을 억제하는 방법.
명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금,
제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하게 하고;
제1 잡음 억제 네트워크에서, 상기 제1 오디오 프레임 및 상기 제2 오디오 프레임에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하게 하고;
제2 잡음 억제 네트워크에서, 상기 오디오 데이터에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하게 하고;
주의집중 풀링 네트워크에서, 적어도 상기 제1 잡음 억제된 오디오 프레임 및 상기 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
제25항에 있어서, 상기 명령들은 추가로, 상기 하나 이상의 프로세서들로 하여금, 추론 네트워크에서, 상기 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
제26항에 있어서, 상기 명령들은 추가로, 상기 하나 이상의 프로세서들로 하여금, 상기 분류 태스크에 기초하여, 상기 제1 잡음 억제 네트워크, 상기 제2 잡음 억제 네트워크, 또는 상기 주의집중 풀링 네트워크 중 적어도 하나를 훈련하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
장치로서,
제1 마이크로폰의 제1 출력에 대응하는 제1 오디오 프레임 및 제2 마이크로폰의 제2 출력에 대응하는 제2 오디오 프레임을 포함하는 오디오 데이터를 수신하기 위한 수단;
상기 제1 오디오 프레임 및 상기 제2 오디오 프레임에 기초하여 제1 잡음 억제된 오디오 프레임을 생성하기 위한 수단;
상기 제1 오디오 프레임 및 상기 제2 오디오 프레임에 기초하여 제2 잡음 억제된 오디오 프레임을 생성하기 위한 수단; 및
적어도 상기 제1 잡음 억제된 오디오 프레임 및 상기 제2 잡음 억제된 오디오 프레임에 대해 주의집중 풀링 동작을 수행하여, 출력 잡음 억제된 오디오 프레임을 생성하기 위한 수단을 포함하는, 장치.
제28항에 있어서, 상기 출력 잡음 억제된 오디오 프레임에 대해 분류 태스크를 수행하여 추론 결과를 생성하기 위한 수단을 추가로 포함하는, 장치.
제29항에 있어서, 상기 분류 태스크는 키워드 스폿팅 태스크, 자동 스피치 인식 태스크, 또는 발언 검증 태스크 중 적어도 하나에 대응하는, 장치.