KR102151682B1

KR102151682B1 - 다중채널 음성 인식을 위한 적응성 오디오 강화

Info

Publication number: KR102151682B1
Application number: KR1020187020390A
Authority: KR
Inventors: 보 리; 론 제이. 웨이스; 미치엘 에이.유. 바치아니; 타라 엔. 사이나쓰; 케빈 윌리암 윌손
Original assignee: 구글 엘엘씨
Priority date: 2016-03-23
Filing date: 2016-12-28
Publication date: 2020-09-04
Also published as: US20170278513A1; CN111081231A; US9886949B2; JP6480644B1; JP2019508730A; EP4235646A3; US11756534B2; US10515626B2; EP4235646A2; EP3381033B1; KR20180095886A; CN111081231B; US20200118553A1; WO2017164954A1; US11257485B2; EP3381033A1; CN108463848B; RU2698153C1; US20180197534A1; US20220148582A1

Abstract

다중채널 음성 인식을 위한 뉴럴 네트워크 적응성 빔포밍을 위한 방법들, 시스템들, 장치들이 개시되며, 여기에는 컴퓨터 저장 매체 상에 인코딩되는 컴퓨터 프로그램들이 포함된다. 일 실시형태에서, 방법이 제공되고, 이러한 방법은 발성에 대응하는 오디오 데이터의 제 1 채널 및 발성에 대응하는 오디오 데이터의 제 2 채널을 수신하는 액션들을 포함한다. 액션들은 또한 오디오 데이터의 제 1 채널 및 오디오 데이터의 제 2 채널에 근거하여 제 1 필터에 대한 필터 파라미터들의 제 1 세트를 발생시키는 것, 그리고 오디오 데이터의 제 1 채널 및 오디오 데이터의 제 2 채널에 근거하여 제 2 필터에 대한 필터 파라미터들의 제 2 세트를 발생시키는 것을 포함한다. 액션들은 또한 오디오 데이터의 단일 결합 채널을 발생시키는 것을 포함한다. 액션들은 또한 오디오 데이터를 뉴럴 네트워크에 입력하는 것을 포함한다. 액션들은 또한 발성에 대한 표기를 제공하는 것을 포함한다.

Description

다중채널 음성 인식을 위한 적응성 오디오 강화

관련 출원에 대한 상호-참조

본 출원은 2016년 3월 23일자로 출원된 미국 특허 출원 번호 제62/312,053호에 대한 우선권을 주장하며, 이러한 특허문헌의 내용들은 참조로 통합된다.

본 출원은 다중-채널 오디오 파형(multi-channel audio waveform)들을 프로세싱(processing)하는 것에 관한 것이다.

음성(speech)을 인식하기 위해 다양한 기법들이 사용될 수 있다. 일부 기법들은 오디오 데이터(audio data)로부터 도출된 음향 특징(acoustic feature)들을 수신하는 음향 모델(acoustic model)을 사용한다.

일부 구현예들에서, 음성 인식 시스템(speech recognition system)은 다중-채널 음성 인식(multi-channel speech recognition)을 향상시키기 위해, 예컨대, 그 강인성(robustness) 및/또는 정확성(accuracy)을 향상시킴으로써 다중-채널 음성 인식을 향상시키기 위해 적응성 오디오 강화 기법(adaptive audio enhancement technique)들을 수행할 수 있다. 예를 들어, 뉴럴 네트워크(neural network)들을 사용하여 적응성 빔포밍(adaptive beamforming)이 수행될 수 있다. 오디오의 복수의 채널들, 예를 들어, 상이한 마이크로폰(microphone)들로부터의 오디오 정보가, 오디오 강화(audio enhancement)를 수행하기 위해 사용되는 필터(filter)들, 예를 들어, 공간 필터링(spatial filtering) 혹은 빔포밍을 수행하기 위해 사용되는 필터들을 적응성으로 변경시키는 뉴럴 네트워크 모듈(neural network module)에 제공될 수 있다. 일부 구현예들에서, 시스템은 뉴럴 네트워크를 사용하여 각각의 입력 프레임(input frame)에 대한 필터들의 세트를 동적으로 추정할 수 있다. 예를 들어, 원시-파형 다중-채널 신호(raw-waveform multi-channel signal)들이 필터 예측(Filter Prediction, FP) 장단기 메모리(Long Short-Term Memory, LSTM) 모듈로 전달되어 각각의 채널에 대한 시간-영역 필터(time-domain filter)들이 발생될 수 있게 된다. 그 다음에 이러한 필터들은 각각의 채널들에 대한 오디오 데이터와 컨벌루션(convolute)되고 함께 합산(sum)되어 단일 채널의 강화된 음성(single channel enhanced speech)이 형성되는데, 이러한 단일 채널의 강화된 음성은 음성 인식을 수행하기 위해 사용되는 음향 모델에 제공된다.

일부 자동 음성 인식(Automated Speech Recognition, ASR) 시스템들은 어떤 상황들에서, 예를 들어, 사용자가 마이크로폰에 가까이 있을 때는, 합당하게 동작할 수 있지만, 사용자와 마이크로폰 간의 거리가 큰 원거리 상태에서는, 예를 들어, 화자(speaker)가 텔레비젼(television) 혹은 온도조절기(thermostat)에 커맨드(command)들을 제공하고 있는 때에는, 이러한 ASR 시스템들의 성능은 저하될 수 있다. 이러한 상황들에서, 음성 신호들은 잔향(reverberation) 및 부가적인 노이즈(noise)로 인해 저하되게 된다. 이러한 시스템들은 인식 정확도를 향상시키기 위해, 음성 신호들을 강화하기 위해, 그리고 잔향 및 노이즈로 인한 영향들을 감소시키기 위해 종종 복수의 마이크로폰들을 사용한다.

일부 다중-채널 ASR 시스템들은 인식을 수행하기 위해 두 개의 개별 모듈들을 이용한다. 먼저, 마이크로폰 어레이 음성 강화(microphone array speech enhancement)가 적용되는데 전형적으로는 빔포밍을 통해 적용된다. 강화된 신호는 그 다음에 음향 모델로 전달된다. 기법들은 종종 지연-및-합산 빔포밍(delay-and-sum beamforming)을 포함하는데, 이러한 지연-및-합산 빔포밍은 타겟 화자(target speaker)로부터 마이크로폰들 각각까지의 지연에 대한 조정을 행하기 위해 상이한 마이크로폰들로부터의 신호들을 수신하는 것을 수반한다. 시간-정렬된 신호들은 그 다음에 타겟 방향으로부터의 신호를 강화하기 위해 그리고 다른 방향들로부터의 노이즈를 감쇄시키기 위해 합산된다. 신호 강화의 다른 형태들은 최소 분산 무왜곡 응답(Minimum Variance Distortionless Response, MVDR), 그리고 다중채널 위너 필터링(Multichannel Wiener Filtering, MWF)을 포함한다.

음향 모델링과는 분리되는 것으로 강화를 처리하는 접근법은 ASR 성능을 향상시키기 위한 최상의 해법으로 인도하지 않을 수 있다. 추가적으로, 다수의 강화 기법들은 음향 모델 및/또는 오디오 강화 모델(audio enhancement model)에 대한 반복적 파라미터 최적화(iterative parameter optimization)을 요구하는 모델-기반 접근법을 수반한다. 예를 들어, 이러한 접근법들은 종종 먼저 빔포밍 파라미터들을 추정하고, 그 다음에 음향 모델 파라미터들을 추정한다. 이러한 반복적 접근법들은 반복적 훈련을 사용하지 않는 다른 타입들의 모델들과 쉽게 결합되지 않는다. 예를 들어, 뉴럴 네트워크들에 근거하는 음향 모델들은 가우시안 혼합 모델(Gaussian Mixture Model, GMM)들 및 다른 모델들과 함께 사용되는 반복적 훈련 기법들이 아닌 그래디언트 학습 알고리즘(gradient learning algorithm)을 사용하여 종종 최적화된다.

음성 인식 시스템은 공간 필터(spatial filter)들과 음향 모델 파라미터(acoustic model parameter)들을 공동으로(jointly)으로 학습함으로써 강화될 수 있다. 오디오 강화를 수행하기 위한 하나의 기법은 다중-채널 "시간 컨벌루션(time convolution)" 필터들을 사용하는데, 이러한 다중-채널 "시간 컨벌루션" 필터들 각각은 입력의 각각의 채널을 독립적으로 필터링하고 그 다음에 필터-및-합산 빔포밍(filter-and-sum beamforming)과 유사한 프로세스에서 출력들을 합산한다. 다른 기법들은 상이한 공간 방향들에서 도달하는 타겟 신호에 적응하기 위해 복수의 공간 필터들을 학습할 수 있는데, 이 경우 컴퓨터연산 복잡도에서 큰 증가가 있게 된다. 이러한 방법들은 모두 전통적인 지연-및-합산 그리고 필터-및-합산 신호 프로세싱 기법들보다 향상된 것들을 보여주었지만, 한 가지 단점은 훈련 동안 결정되는 추정된 공간 및 스펙트럼 필터들이 디코딩(decoding)에 대해 고정된다는 것이다. 즉, 이러한 필터들은 음성 인식에서의 사용 동안 변경 혹은 적응되지 않는다. 결과적으로, 고정된-필터 접근법들을 이용하는 경우, 고정된 필터들은 마이크로폰들에 대한 사용자의 실제 위치에 대해 적절하지 않을 수 있다.

이에 따라, 본 출원에서 설명되는 주된 내용의 혁신적인 실시형태는 음성 데이터가 수신됨에 따라 오디오 강화를 위해 사용되는 필터들을 적응시킬 수 있는 자동 음성 인식 시스템에 관한 것이다. 예를 들어, 음성이 검출됨에 따라, 음성 인식 시스템은 공간 필터링을 수행하기 위해 사용되는 필터들의 파라미터들을 동적으로 변경시킬 수 있다. 일부 구현예들에서, 필터들은 각각의 입력 음성 프레임에 대해 적응된다. 또한, 각각의 필터는 오디오의 복수의 채널들에 대한 정보를 사용하여 결정될 수 있다. 각각의 필터를 결정하는 것이 단일 오디오 채널에 근거하여 독립적으로 결정되는 것이 아니라, 각각의 오디오 채널에 대한 필터가 모든 오디오 채널들로부터의 입력들을 사용하여 결정될 수 있다.

음성 인식 시스템은 하나 이상의 뉴럴 네트워크들을 사용하여 적응성 오디오 강화를 수행할 수 있다. 예를 들어, 음성 인식 시스템은 두 개의 뉴럴 네트워크들을 포함할 수 있는데, 하나는 공간 필터들을 적응성으로 발생시키는 것이고, 또 하나의 다른 하나는 음향 모델로서 동작하는 것이다. 제 1 뉴럴 네트워크는 발성(utterance)에 대응하는 오디오 데이터의 복수의 채널들에 근거하여 필터 파라미터들을 발생시킨다. 필터 파라미터들은 복수의 필터들의 특성(characteristic)들을 특정한다(예를 들어, 오디오 데이터의 각각의 채널에 대해 하나의 필터). 각각의 채널에 대한 필터 파라미터들은 상이한 필터에 제공된다. 그 다음에, 각각의 필터는 오디오 데이터의 그 대응하는 채널에 적용되고, 각각의 채널에 대한 결과들이 함께 합산된다. 합산된 필터 출력들은 발성의 음향 음소(acoustic phoneme)들을 식별하도록 이전에 훈련된 제 2 뉴럴 네트워크에 제공된다. 그 다음에, 시스템은 식별된 음소들을 사용하여 발성의 완성된 표기(transcription)를 발생시킬 수 있게 된다.

본 출원에서 설명되는 주된 내용의 혁신적인 실시형태에 따르면, 다중채널 음성 인식을 위한 적응성 오디오 강화 방법이 개시되며, 이러한 방법은, 발성(utterance)에 대응하는 오디오 데이터(audio data)의 제 1 채널(channel) 및 발성에 대응하는 오디오 데이터의 제 2 채널을 수신하는 액션(action); 훈련된 순환 뉴럴 네트워크(recurrent neural network)를 사용하여, (i) 오디오 데이터의 제 1 채널 및 오디오 데이터의 제 2 채널에 근거하여 제 1 필터(filter)에 대한 필터 파라미터(filter parameter)들의 제 1 세트를 발생시키고 (ii) 오디오 데이터의 제 1 채널 및 오디오 데이터의 제 2 채널에 근거하여 제 2 필터에 대한 필터 파라미터들의 제 2 세트를 발생시키는 액션; (i) 제 1 필터를 사용하여 필터링된 제 1 채널의 오디오 데이터와 (ii) 제 2 필터를 사용하여 필터링된 제 2 채널의 오디오 데이터를 결합함으로써 오디오 데이터의 단일 결합 채널(single combined channel)을 발생시키는 액션; 단일 결합 채널에 대한 오디오 데이터를 음향 모델(acoustic model)로서 훈련된 뉴럴 네트워크에 입력하는 액션; 그리고 결합된 컨벌루션 출력(convolution output)들을 수신함에 응답하여 적어도 뉴럴 네트워크가 제공하는 출력에 근거하여 결정되는 발성에 대한 표기(transcription)를 제공하는 액션을 포함한다.

이러한 구현예 및 다른 구현예는 다음과 같은 선택적인 특징들 중 하나 이상의 특징을 포함할 수 있다. 순환 뉴럴 네트워크는 하나 이상의 장단기 메모리 계층(long short-term memory layer)들을 포함한다. 순환 뉴럴 네트워크는, 오디오의 제 1 채널 및 제 2 채널을 모두 수신하는 제 1 장단기 메모리 계층과; 그리고 제 1 채널에 대응하는 제 2 장단기 메모리 계층 및 제 2 채널에 대응하는 제 3 장단기 메모리 계층을 포함하고, 제 2 장단기 메모리 계층 및 제 3 장단기 메모리 계층은 각각 제 1 장단기 메모리 계층의 출력을 수신하고 대응하는 채널에 대한 필터 파라미터들의 세트를 제공한다. 장단기 메모리 계층들은 음향 모델로서 훈련된 뉴럴 네트워크와 장단기 메모리 계층들을 공동으로(jointly) 훈련시키는 훈련 프로세스(training process) 동안 학습된 파라미터들을 갖는다. 액션들은 또한 오디오 데이터의 각각의 입력 프레임(input frame)에 대한 새로운 필터 파라미터들을 변경시키거나 혹은 발생시키는 것을 포함한다. 액션들은 또한, 발성의 오디오 프레임들의 시퀀스(sequence)에서의 각각의 오디오 프레임에 대해, 필터 파라미터들의 새로운 세트를 발생시키는 것과, 그리고 필터 파라미터들의 새로운 세트를 갖는 필터와 프레임에 대한 오디오 데이터를 컨벌루션(convolving)하는 것을 포함한다. 제 1 필터 및 제 2 필터는 유한 임펄스 응답 필터(finite impulse response filter)들이다. 제 1 필터 및 제 2 필터는 상이한 파라미터들을 갖는다.

상이한 마이크로폰 출력(microphone output)들이 상이한 필터들과 컨벌루션된다. 오디오 데이터의 제 1 채널 및 제 2 채널은 발성에 대한 오디오 파형 데이터(audio waveform data)의 제 1 채널 및 제 2 채널이다. 오디오 파형의 제 1 채널 및 제 2 채널은 서로로부터 떨어져 이격되어 있는 상이한 마이크로폰들에 의한 발성의 기록(recording)들이다. 음향 모델로서 훈련된 뉴럴 네트워크는 컨벌루션 계층(convolutional layer), 하나 이상의 장단기 메모리 계층(long-short term memory layer)들, 및 복수의 은닉 계층(hidden layer)들을 포함한다. 음향 모델로서 훈련된 뉴럴 네트워크의 컨벌루션 계층은 시간 영역 컨벌루션(time domain convolution)을 수행하도록 구성된다. 음향 모델로서 훈련된 뉴럴 네트워크는 컨벌루션 계층의 출력이 풀링(pooling)되도록 구성되어 풀링된 값(pooled value)들의 세트(set)를 발생시키게 되어 있다. 음향 모델로서 훈련된 뉴럴 네트워크는 풀링된 값들을 음향 모델로서 훈련된 뉴럴 네트워크 내의 하나 이상의 장단기 메모리 계층들에 입력하도록 구성된다. 제 1 필터 및 제 2 필터는 공간 필터링(spatial filtering) 및 스펙트럼 필터링(spectral filtering)을 모두 수행하도록 구성된다. 액션들은 또한, 필터 파라미터들의 제 1 세트를 갖는 제 1 필터와 제 1 채널에 대한 오디오 데이터를 컨벌루션하여 제 1 컨벌루션 출력들을 발생시키는 것; 필터 파라미터들의 제 2 세트를 갖는 제 2 필터와 제 2 채널에 대한 오디오 데이터를 컨벌루션하여 제 2 컨벌루션 출력들을 발생시키는 것; 그리고 제 1 컨벌루션 출력들과 제 2 컨벌루션 출력들을 결합하는 것을 포함한다.

이러한 실시형태의 다른 실시예들은 대응하는 시스템들, 장치들, 그리고 컴퓨터 저장 디바이스들 상에 기록되는 컴퓨터 프로그램들을 포함하고, 이들 각각은 본 발명의 방법들의 동작들을 수행하도록 구성된다.

일부 구현예들에서, 본 명세서에서 설명되는 기법들은 다음과 같은 장점들 중 하나 이상의 장점을 실현하도록 구현될 수 있다. 예를 들어, 음성 인식 시스템은 오디오 강화를 위해 사용되는 필터 파라미터들을 동적으로 변경시킬 수 있고, 이것은 결과적으로 음성 인식에서의 강인성 및 정확성이 더 커지게 할 수 있다. 본 명세서에서 논의되는 바와 같이, 향상된 오디오 강화는 더 깨끗한 음성 데이터를 음향 모델에 제공할 수 있고, 이것은 음성 인식 정확도를 증가시킬 수 있다. 음성 인식 시스템은 고정된 아울러 미리결정된 필터들보다 더 정확하게 사용자의 실제 위치에 대응하는 필터들을 발생시킬 수 있다. 추가적으로, 필터들의 적응은, 예를 들어, 사용자가 말하는 동안 방 주위를 걸어다님에 따라, 마이크로폰들에 대한 사용자의 위치에서의 변화들에 대해 조정을 행할 수 있다. 일부 구현예들에서, 오디오 강화의 컴퓨터연산 복잡도는, 복수의 상이한 미리결정된 공간 방향들로부터 도달하는 신호들에 대해 적응하기 위해 시도하는 모델들과 비교할 때, 아래의 뉴럴 네트워크 시스템을 사용하는 경우 감소된다. 향상된 음성 인식 정확도는 또한 아래에서 논의되는 다른 기법들을 통해 획득될 수 있는데, 여기에는 음향 모델과 필터 예측 모델의 공동 훈련(joint training), 음향 모델로부터의 피드백(feedback)을 사용하여 필터 예측 모델을 훈련하는 것이 포함된다. 일부 구현예들에서, 음향 모델 상태들 및 깨끗한 오디오 특징들 모두에 관한 정확한 예측과 같은 복수의 훈련 목표(training objective)들을 설정하기 위해 다중-태스크 학습 전략들(multi-task learning strategies)이 사용된다. 다중-태스크 학습의 사용은 노이즈가 있는 오디오를 인식하기 위한 정확도를 향상시킬 수 있고, 그리고 또한 필터 예측을 향상시킬 수 있으며 훈련을 정규화(regularize)할 수 있다.

본 명세서에서 설명되는 주된 내용의 하나 이상의 실시예들에 관한 세부사항들이 아래의 설명 및 동반되는 도면들에서 제시된다. 본 명세서의 주된 내용의 다른 특징들, 실시형태들, 및 장점들은 본 명세서의 설명, 도면들, 및 청구항들로부터 명백하게 될 것이다.

도 1은 적응성 오디오 강화를 위한 예시적 아키텍처를 나타낸다.
도 2는 예시적 빔포머 응답(beamformer response)들을 예시한다.
도 3은 뉴럴 네트워크들을 사용하여 음성 인식을 행하기 위한 시스템의 예를 예시한다.
도 4는 다중채널 음성 인식을 위해 적응성 오디오 강화를 행하기 위한 예시적인 프로세스를 나타낸다.
도 5는 컴퓨팅 디바이스(computing device) 및 모바일 컴퓨팅 디바이스(mobile computing device)의 예를 예시한다.
도면들에서, 동일한 참조 번호들은 도면 전체에 걸쳐 대응하는 부분들을 나타낸다.

음성 인식을 수행하기 위해 뉴럴 네트워크들을 사용하는 공동 다중채널 강화 및 음향 모델링(joint multichannel enhancement and acoustic modeling)이 사용될 수 있다. 일부 이전의 접근법들에서, 훈련 동안 학습된 필터들은 디코딩에 대해 고정되었고, 이것은 이전에 보지 못한 혹은 변하는 상태들에 적응하려는 이러한 모델들의 능력에 잠재적으로 영향을 미친다. 본 출원에서 설명되는 주된 내용은 이러한 문제에 대처하기 위한 뉴럴 네트워크 적응성 빔포밍(Neural network Adaptive Beamforming, NAB)을 설명한다. 뉴럴 네트워크 모델은, 훈련 국면(training phase) 동안 특정 필터들을 학습하는 대신, 오디오 데이터가 음성 인식 동안 수신됨에 따라 필터 파라미터들을 동적으로 발생시키도록 훈련될 수 있다. 이것은 시스템으로 하여금 미리결정된 개수의 고정된 신호 도달 방향들에 한정되지 않는 더 정확한 빔포밍을 수행할 수 있게 한다.

일부 구현예들에서, 음성 인식 시스템은 각각의 입력 프레임에서 시간-영역 빔포밍 필터 계수(time-domain beamforming filter coefficient)들을 예측하기 위해 장단기 메모리(LSTM) 계층들을 사용한다. 필터들은 프레이밍된 시간 영역 입력 신호(framed time domain input signal)와 컨벌루션되고 채널들에 걸쳐 합산되는데, 본질적으로, 동적으로 적응된 필터들을 사용하여 유한 임펄스 응답(Finite Impulse Response, FIR) 필터-및-합산 빔포밍이 수행된다. 빔포머 출력(beamformer output)은 필터 예측 LSTM 계층들과 함께 공동으로 훈련된 컨벌루션 장단기 메모리 심층 뉴럴 네트워크(Convolutional, Long short-term memory Deep Neural Nnetwork, CLDNN) 음향 모델로 전달된다. 일 예에서, 제안된 뉴럴 네트워크 적응성 빔포밍(NAB) 모델을 갖는 음성 인식 시스템은 단어 오류율(Word Error Rate, WER)에 있어서 단일-채널 모델보다 12.7%의 상대적인 향상을 달성하며, 그리고 수 개의 고정된 공간 필터들을 이용하는 "인자화된(factored)" 모델 아키텍처와 유사한 성능에 도달하여 컴퓨터연산 비용(computational cost)이 17.9% 감소한다.

자동 음성 인식(ASR) 성능이 최근 몇 년 동안 특히 심층 학습(deep learning)의 출현으로 극적으로 향상되었지만, 현실적으로 노이즈가 있고 원거리인 상황에서의 성능은 깨끗한 음성 상태보다 훨씬 뒤떨어져 있다. 강인성을 향상시키기 위해, 마이크로폰 어레이들이 일반적으로 사용되어 음성 신호를 강화하고 원치 않는 노이즈 및 잔향을 제거하게 된다.

음성 인식 시스템은 다중채널 신호 프로세싱 기법을 사용할 수 있고, 이러한 다중채널 신호 프로세싱 기법으로는 지연-및-합산(Delay-and-Sum, DS) 빔포밍이 있는데, 지연-및-합산(DS) 빔포밍에서, 상이한 마이크로폰들로부터의 신호들은 타겟 화자로부터 각각의 마이크로폰까지의 전파 지연(propagation delay)에 대해 조정을 행하기 위해 시간적으로 정렬되고 그 다음에 단일 채널로 혼합된다. 이것은 타겟 방향으로부터의 신호를 강화하고 다른 방향들로부터 오는 노이즈를 감쇄시키는 효과를 갖는다. 하지만 잔향 환경(reverberant environments)에서 도달의 시간 지연을 정확하게 추정하는 것은 어려울 수 있고, DS 빔포밍은 공간적으로 상관되는 노이즈의 영향을 고려하지 않는다. 선형 필터(linear filter)가 합산 전에 각각의 필터에 적용되는 더 일반적인 필터-및-합산(Filter-and-Sum, FS) 기법을 사용하여 성능을 향상시키는 것이 가능하다. 이러한 필터들은 일반적으로, 음향 모델(Acoustic Model, AM) 훈련 목표와는 다른 SNR과 같은 신호 레벨 목표들을 최적화하기 위해 선택된다.

강화 스테이지(enhancement stage) 및 AM 스테이지(AM stage)의 공동 훈련은 가우시안 혼합 모델 및 뉴럴 네트워크 음향 모델들 양쪽 모두에 대해 성능을 향상시킨다. 예를 들어, 일부 구현예들에서, 음성 인식 시스템은 다중채널 "시간 컨벌루션(time convolution)" FIR 필터들의 단일 계층을 사용하여 다중채널 파형들에 직접적으로 동작하도록 뉴럴 네트워크들을 훈련시킬 수 있고, 여기서 다중채널 "시간 컨벌루션" FIR 필터들 각각은 입력의 각각의 채널을 독립적으로 필터링하고 그 다음에 FS 빔포밍과 유사한 프로세스에서 출력들을 합산한다. 훈련 이후, 이러한 다중채널 필터뱅크(multichannel filterbank) 내의 필터들은 공간 및 스펙트럼 필터링을 공동으로 수행하는 것을 학습하고(여기서, 전형적인 필터들은 주파수에 있어서 대역통과 응답(bandpass response)을 가짐), 하지만 상이한 방향들로부터 도달하는 신호들을 강화 혹은 감쇄시키도록 조종(steer)된다. 일부 구현예들에서, 음성 인식 시스템은 인자화된 다중채널 파형 모델(factored multichannel waveform model)을 사용할 수 있는데, 인자화된 다중채널 파형 모델은 공간 및 스펙트럼 필터링 동작을 개별 계층들로 분리시키고 성능을 향상시키지만 컴퓨터연산 복잡도를 증가시킬 수 있다. 이러한 아키텍처들이 전통적인 DS 및 FS 신호 프로세싱 기법들보다 향상된 것들을 보여주었지만, 한 가지 단점은 추정된 공간 및 스펙트럼 필터들이 디코더 동안 고정된다는 것이다.

한정된 적응성에 대처하기 위해 그리고 앞서 설명된 모델들의 컴퓨터연산 복잡도를 감소시키기 위해, 본 출원에서 설명되는 주된 내용은 뉴럴 네트워크를 사용하여 각각의 입력 프레임에서 공간 필터 계수들의 세트를 재-추정(re-estimate)하는 뉴럴 네트워크 적응성 빔포밍(NAB) 모델을 포함한다. 특히, 원시 다중채널 파형 신호들은 필터 예측(FP) LSTM으로 전달되고, FP LSTM의 출력들은 공간 필터 계수들로서 사용된다. 그 다음에 각각의 채널에 대한 이러한 공간 필터들은 대응하는 파형 입력과 컨벌루션되고, 그 출력들은 함께 합산되어 강화된 음성 신호를 포함하는 단일-채널 출력 파형을 형성하게 된다. 결과적인 신호 채널 신호는 원시 파형 음향 모델로 전달되고, 원시 파형 음향 모델은 FP LSTM 계층들과 함께 공동으로 훈련된다. 일부 구현예들에서, 필터링은, 시간 영역 신호들을 프로세싱하는 것과는 대조적으로, 주파수 영역에서 수행될 수 있다. 본 개시내용은, 시간 영역에서 NAB를 수행하는 것이 훨씬 더 적은 필터 계수들의 추정을 요구하고 주파수 영역 필터 예측과 비교하여 WER이 더 좋아지는 결과를 초래한다는 것을 아래에서 예시한다.

추가적으로, 본 출원에서 설명되는 주된 내용은 NAB 모델에 대한 다른 향상된 것들을 포함한다. 첫 번째로, 본 개시내용은, FP 계층들에 대한 추가 입력으로서 (음향 상태들에 대한 상위-레벨 정보를 포착(capture)하는) 이전의 시간 단계로부터의 음향 모델의 상위 계층들의 활성화(activation)들을 명시적으로 공급(feeding)하는 것을 설명한다. 게이팅 메커니즘(gating mechanism)이 또한 이러한 예측들에서의 잠재적 오류들을 감쇄시키기 위해 채택된다. 게이팅 메커니즘은 예측들을 입력들 및 모델 상태들과 함께 분석하여 필요한 경우 피드백 벡터(feedback vector)들의 스케일(scale)을 줄이는 신뢰도 점수(confidence score)를 출력한다. 두 번째로, 본 개시내용은 훈련을 정규화하고 필터 예측을 보조하기 위해 다중태스크 학습(MultiTask Learning, MTL) 전략을 통합하는 것을 설명한다. 이것은 음향 모델 상태들과 깨끗한 특징들을 공동으로 예측하도록 NAB 모델을 훈련시킴으로써 작동하는바, 이는 노이즈가 있는 데이터에 관해 훈련된 음향 모델들을 향상시킬 수 있다.

뉴럴 네트워크 적응성 빔포밍(NAB) 모델의 예는 도 1에서 도시되고, 여기서 NAB 모델은 필터 예측(Filter Prediction, FP) 블록, 필터-및-합산(Filter-and-Sum, FS) 빔포밍 블록, 음향 모델링(Acoustic Modeling, AM) 블록, 그리고 다중태스크 학습(MultiTask Learning, MTL) 블록을 포함한다. 두 개의 채널들이 보여지고 있지만, 더 많은 수의 채널들이 사용될 수 있다. 각각의 시간 프레임 k에서, 시스템은 C개의 채널 입력들로부터 각각의 채널 c에 대한 M개의 파형 샘플들의 작은 윈도우(small window)를 받아들이는데, 여기서 C개의 채널 입력들은 x₁(k)[t], x₂(k)[t], ..., x_C(k)[t]로서 표시되고 t ∈ {1, ..., M}이다.

적응성 공간 필터링은 다음과 같이 수행될 수 있다. 유한 임펄스 응답(FIR) 필터-및-합산 빔포머는 다음과 같은 방정식으로 쓰여질 수 있다.

[방정식 1]

여기서, h_c[n]은 마이크로폰 c와 관련된 필터의 n-번째 탭(tap)이고, x_c[t]는 시간 t에서 마이크로폰 c에 의해 수신된 신호이고, τ_c는 하나의 마이크로폰에 의해 수신된 신호를 다른 어레이 채널들에 맞춰 정렬하기 위한 그 하나의 마이크로폰에 의해 수신된 신호에서 유도(induce)된 조종 지연(steering delay)이고, 그리고 y[t]는 출력 신호이다. N은 필터의 길이이다.

방정식 1을 최적화하는 강화 알고리즘들은 조종 지연 τ_c의 추정을 요구할 수 있고, 이러한 추정은 별개의 국소화 모델(localization model)로부터 획득될 수 있다. 필터 계수들은 신호-레벨 목표들을 최적화함으로써 획득될 수 있다. NAB 모델에서, 시스템은 교차-엔트로피(cross-entropy) 혹은 시퀀스 손실 함수(sequence loss function)를 직접적으로 최소화함으로써 AM 파라미터들과 함께 공동으로 필터 계수들을 추정한다. 각각의 마이크로폰에 대한 조종 지연을 명시적으로 추정하는 대신, τ_c는 추정된 필터 계수들에 암시적으로 흡수될 수 있다. 각각의 시간 프레임 k에서의 결과적인 적응성 필터링은 아래의 방정식 2에 의해 주어지는데, 여기서 h_c(k)[t]는 시간 프레임 k에서 채널 c에 대한 추정된 필터이다.

[방정식 2]

h_c(k)[t]를 추정하기 위해서, 시스템은 채널 당 N개의 필터 계수들을 예측하도록 FP LSTM을 훈련시킨다. FP 모듈에 대한 입력은 모든 채널들로부터의 원시 입력 샘플들 x_c(k)[t]의 프레임들의 연결(concatenation)이고, FP 모듈에 대한 입력은 또한 교차 상관 특징(cross correlation feature)들과 같은 국소화에 대한 특징들을 포함할 수 있다.

아래의 개시내용은 FP 모듈 아키텍처를 더 상세히 설명한다. 방정식 2를 따르면, 추정된 필터 계수들 h_c(k)[t]은 각각의 채널에 대한 입력 샘플들 x_c(k)[t]과 컨벌루션된다. 컨벌루션의 결과들은 예를 들어, FS 블록에서, 채널들에 걸쳐 합산되어 단일 채널 신호 y(k)[t]를 생성하게 된다.

그 다음에 음향 모델링이 AM 블록을 사용하여 수행된다. 단일 채널의 강화된 신호 y(k)[t]는 도 1에서 보여지는 AM 모듈로 전달된다. 단일 채널 파형이 "시간 컨벌루션(time convolution)" 계층으로 전달되고, 여기서 "시간 컨벌루션" 계층은 tConv로서 표시되며, 다수의 필터들을 포함하는 시간-영역 필터뱅크로서 동작한다. 예를 들어, 128개의 필터들이 사용될 수 있다. tConv 출력은 입력 프레임의 길이에 걸쳐 최대-풀링(max-pooling)을 행함으로써 시간적으로 데시메이트(decimate)된다. 일부 구현예들에서, 시간적으로 스펙트럼 출력을 최대풀링하는 것은 단-시간 정보(short-time information)를 폐기(discard)하는데 도움을 준다. 최종적으로, 수정된 비-선형성(non-linearity) 및 안정화된 대수 압축(stabilized logarithm compression)이 각각의 필터 출력에 적용되어 프레임 k에서 프레임-레벨 특징 벡터(frame-level feature vector)를 생성하게 된다.

일부 구현예들에서, 시스템은 주파수 컨벌루션 계층(frequency convolution layer)을 포함하지 않는다. 시간 컨벌루션 계층에 의해 발생된 특징 벡터는 832개의 셀(cell)들 및 512-차원의 투영 계층(projection layer)을 갖는 세 개의 LSTM 계층들로 직접적으로 전달되고 후속하여 1,024개의 은닉 유닛(hidden unit)들의 완전 연결된 DNN 계층으로 전달된다. 512-차원의 선형 출력 낮은 순위 투영 계층(512-dimensional linear output low rank projection layer)은 사용된 13,522개의 콘텍스트-의존성 상태 출력 타겟(context-dependent state output target)들을 분류(classify)하는데 필요한 파라미터들의 수를 감소시키기 위해 소프트맥스 계층(softmax layer) 이전에 사용된다. 프레임 k를 프로세싱한 이후, 시스템은 전체 입력 신호의 원도우를 10 ms 홉(hop)만큼 시프트(shift)시키고 이러한 프로세스를 반복한다.

AM 모듈과 FP 모듈은 공동으로 훈련될 수 있다. 일부 구현예들에서, FS 블록은 훈련가능한 파라미터들을 갖지 않는다. 모델은 절단된(truncated) 시간을 따른 역-전파(back-propagation through time)를 사용하여 훈련을 행하기 위해 20개의 시간 단계들로 전개(unroll)된다. 장래 프레임들에 대한 정보를 사용하는 것은 종종 현재 프레임의 예측을 향상시키기 때문에, 출력 상태 레벨(output state label)은 5개의 프레임들만큼 지연된다.

훈련 프로세스는 게이팅된 피드백(gated feedback)을 사용하여 강화될 수 있다. 음향 모델로부터의 인식 정보는 음성의 콘텐츠(content)를 반영하고 네트워크의 더 이른 계층들을 도울 것으로 고려된다. 이전의 프레임으로부터의 예측으로 각각의 프레임에서의 네트워크 입력을 증강(augmenting)시키는 것은 성능을 향상시킬 수 있다. NAB 모델에서의 피드백의 혜택을 조사하기 위해, 프레임 k-1에서의 AM 예측은 시간 프레임 k에서의 FP 모델로 다시 전달될 수 있다(도 1에서의 가장 우측에 있는 수직의 선). 소프트맥스 예측은 매우 높은 차원(dimensional)이기 때문에, 시스템은 모델 파라미터들의 증가를 제한하기 위해 소프트맥스에 선행하는 낮은-순위 활성화들을 FP 모듈로 피드백시킨다.

이러한 피드백 연결은 빔포밍 필터 계수들을 추정하는 것을 보조하기 위해 신호의 음소 콘텐츠(phonemic content)에 대한 높은 레벨 정보를 FP 모듈에게 제공한다. 예를 들어, 이러한 연결은 빔포밍 필터들을 발생시키는 동안에 사용을 위한 신호 내의 가능성 있는 콘텍스트-의존성 상태 정보(probable context-dependent state information)를 제공할 수 있다. 하지만, 이러한 피드백은 특히 훈련에 있어 초기에 오류들을 포함할 수 있는 모델 예측들로 구성되는데, 따라서 이러한 모델 예측들은 불량한 모델 훈련으로 이어질 수 있다. 이에 따라, 피드백의 정도(degree)를 조절(modulate)하기 위해 이러한 연결에 게이팅 메커니즘이 도입된다. 각각의 차원을 독립적으로 제어하는 종래의 LSTM 게이트들과는 달리, 우리는 피드백의 알맞은 조절을 위해 글로벌 스칼라 게이트(global scalar gate)를 사용한다. 시간 프레임 k에서의 게이트 g^fb(k)는 아래의 방정식과 같이, 입력 파형 샘플들 x(k), 제 1 FP LSTM 계층의 상태 s(k - 1), 및 피드백 벡터 v(k - 1)로부터 컴퓨팅(computing)된다.

[방정식 3]

여기서, w_x, w_s, 및 w_v는 대응하는 가중 벡터(weight vector)들이고, σ는 요소별 비-선형성(elementwise non-linearity)이다. 시스템은 범위 [0,1] 내의 값들을 출력하는 σ에 대한 로지스틱 함수(logistic function)를 사용하며, 여기서 0은 피드백 연결을 차단(cut off)하고 1은 피드백을 직접적으로 통과시킨다. 따라서, 유효 FP 입력은 [h_x(k), g_fb(k)v(k - 1)]이다.

다중태스크 학습은 향상된 강인성을 제공할 수 있다. 시스템은 훈련 동안 MTL 모듈을 포함하는데, 이것은 네트워크로 하여금 두 개의 출력들을 갖도록 구성함으로써 이루어지고, 두 개의 출력들 중 하나는 CD 상태들을 예측하는 인식 출력(recognition output)이고, 또 다른 하나는 기반이 되는 깨끗한 신호로부터 도출된 128개의 로그-멜(log-mel) 특징들을 재구성(reconstruct)하는 노이즈가 제거된 출력(denoising output)이다. 노이즈가 제거된 출력은 모델 파라미터들을 정규화하기 위한 훈련에서만 사용되고, 관련된 계층들은 추론(inference) 동안 폐기된다. NAB 모델에서, MTL 모듈은 도 1에서 보여지는 바와 같이, AM 모듈의 제 1 LSTM 계층으로부터 분기한다. MTL 모듈은 두 개의 완전 연결된 DNN 계층들과, 이에 후속하여 깨끗한 특징들을 예측하는 선형 출력 계층으로 구성된다. 훈련 동안 두 개의 출력들로부터 역전파되는 그래디언트들은 인식 출력 및 노이즈가 제거된 출력에 대해 α 및 1 - α에 의해 각각 가중(weight)된다.

본 개시내용은 3백만 개의 영어 발성들을 포함하는 노이즈가 있는 훈련 데이터에 관해 대략 2,000 시간 동안 행해진 실험들을 설명한다. 이러한 데이터 세트는 다양한 정도를 갖는 노이즈 및 잔향을 추가시키는 룸 시뮬레이터(room simulator)를 사용하여 깨끗한 발성들을 인위적으로 오염시킴으로써 생성된다. 깨끗한 발성들은 익명화된(anonymized) 그리고 손으로 표기된(hand-transcribed) 음성 검색 질의(voice search query)들이고 인터넷 음성 검색 트래픽(internet voice search traffic)을 나타낸다. "일상 생활(daily life)" 환경들의 기록들 및 비디오 공유 웹사이트들로부터 샘플링(sampling)된 주변 노이즈 및 음악을 포함하는 노이즈 신호들이 대략 12 dB의 평균을 갖는 0 내지 20 dB 범위의 SNR들에서 깨끗한 발성들에 더해진다. 잔향은 평균이 대략 600 ms인 400 내지 900 ms 범위의 T60들을 갖는 100개의 가능한 룸 구성(room configuration)들로부터 무작위로 샘플링된 룸 차원(room dimension)들 및 마이크로폰 어레이 위치(microphone array position)들을 갖는 이미지 모델(image model)을 사용하여 시뮬레이션(simulate)된다. 8-채널 선형 마이크로폰 어레이의 첫 번째 및 마지막 채널이 사용되는데, 여기서 마이크로폰 간격은 14 cm이다. 노이즈 및 타겟 화자 위치들은 모두 발성들에 걸쳐 변하고, 사운드 소스(sound source)와 마이크로폰 어레이 간의 거리는 1 내지 4 미터 사이에서 선택된다. 음성 및 노이즈 방위각(azimuth)들은 노이즈가 있는 발성 각각에 대해 ±45도 및 ±90도 범위로부터 각각 균일하게(uniformly) 샘플링된다. 노이즈 및 화자 위치들에서의 변화는 시스템의 강인성을 향상시키는 것을 보조할 수 있다.

평가 세트(evaluation set)는 (200 시간에 걸친) 대략 30,000개의 발성들의 개별 세트를 포함한다. 평가 세트는 훈련 세트와 유사하게 생성되는데 유사한 SNR 및 잔향 설정들 하에서 생성된다. 일부 구현예들의 경우, 평가 세트 내의 룸 구성들, SNR 값들, T₆₀ 시간들, 그리고 타겟 화자 및 노이즈 위치들은 훈련 세트 내의 것들과 동일하지 않은데, 비록 훈련 세트와 테스트 세트(test set) 간의 마이크로폰 어레이 기하구조(microphone array geometry)가 종종 동일할지라도, 그러하다.

원시 파형 모델들에 대한 입력 특징들은 프레임들 간에 10 ms 홉을 갖는 35 ms의 입력 윈도우 크기(input window size)를 사용하여 컴퓨팅된다. 달리 표시되지 않는다면, 모든 네트워크들은 128개의 tConv 필터들을 사용하여 그리고 교차-엔트로피 기준(cross-entropy criterion)을 사용하여, 비동기 확률적 그래디언트 하강(Asynchronous Stochastic Gradient Descent, ASGD)을 이용하여 훈련된다. 시퀀스-훈련 실험(sequence-training experiment)들은 또한 분산형 ASGD(distributed ASGD)를 사용할 수 있는데, 이것은 앞에서 더 상세히 개설(outline)되어 있다. 모든 네트워크들은 13,522개의 CD 출력 타겟들을 갖는다. CNN 계층 및 DNN 계층에 대한 가중치(weight)들은 글로로트-벤지오 전략(Glorot-Bengio strategy)을 사용하여 초기화되고, 반면 모든 LSTM 파라미터들은 -0.02와 0.02 사이에 있도록 균일하게 초기화된다. 우리는 지수적으로 감소하는 학습율(exponentially decaying learning rate)을 사용하는데, 이것은 4e-3에서 시작하며 150억 개의 프레임들에 걸쳐 0.1의 감소율(decay rate)을 갖는다.

일 예에서, 기준 NAB 모델(baseline NAB model)은 원시 파형 CLDNN AM 및 FP 모듈을 포함하며, MTL 및 피드백은 없다. FP 모듈은 입력 채널 당 5 ms 필터 계수들(예를 들어, 16kHz 샘플링율(sampling rate)에서 81개의 탭들)을 발생시키기 위해 두 개의 512-셀 LSTM 계층들 및 하나의 선형 출력 계층을 갖는다. 이것은 22.2%의 단어 오류율(WER)을 제공하는데, 반면 단일-채널 원시 파형 CLDNN은 23.5%에 있다. 아래의 단락들은 향상된 FP 구성(setup)을 찾기 위해 이러한 기준의 변화들을 사용하는 실험들을 설명한다.

수 개의 상이한 아키텍처들이 FP 모듈(예를 들어, 도 1)을 위해 사용될 수 있다. 각각의 FP 모듈은, 각각의 채널에 대한 독립적 필터 예측 모델을 학습시키는 것을 촉진(encourage)시키기 위해, 첫 번째로 S개의 "공유된(shared)" 512-셀 LSTM 계층들을 갖고, 이에 후속하여 P개의 "분할된(split)" 채널-의존성 256-셀 LSTM 계층들의 분할 스택(split stack)을 갖는다. 그 다음에 채널-의존성 선형 출력 계층들은 필터 계수들을 발생시키도록 더해진다. 따라서, 기준은 S = 0 및 P = 0을 갖는다.

하나의 공유된 LSTM 계층 및 하나의 채널-의존성 LSTM 계층을 사용하여, 향상된 성능이 획득될 수 있다. 일부 구현예들의 경우, LSTM 계층들의 전체 개수를 더 증가시키는 것은 그 구성에 상관없이 성능을 향상시키지 않을 수 있다.

교차-상관 특징들이, 국소화를 위해 사용될 수 있고 그리고 주파수 영역 빔포밍 필터들을 예측하기 위해 사용될 수 있다. 결과적으로, 이러한 교차-상관 특징들은 FP 블록에 제공될 수 있다. 비교를 위해, 10 ms 시프트를 갖는 100 ms 프레임들로부터 추출된 가중되지 않은 교차 상관 특징(unweighted cross correlation feature)들을 입력들로서 FP 모듈로 전달하는 2-채널 NAB 모델이 또한 훈련된다. 동일한 기준 구조(baseline structure)(S = 2, P = 0)를 사용하는 경우, 이러한 모델은 22.3%의 WER를 제공하는 데, 이러한 WER은 파형 샘플들을 입력들로서 사용하여 획득되는 22.2%와 유사하다. 교차 상관 특징들의 형태로 더 명시적인 국소화 정보를 제공하는 것은 도움이 되지 않으며, 이것은 FP 모듈이 파형 샘플들로부터 직접적으로 양호한 공간 필터들을 학습할 수 있음을 시사한다.

서로 14 cm 떨어져 이격되어 있는 두 개의 마이크로폰들 간의 최대 지연은 0.5 ms보다 작을 수 있는데, 이것은 0.5 ms보다 더 짧지 않은 필터들이 두 개의 채널들을 정렬시키는데 충분함을 시사한다. 본 단락은 예측된 필터들의 길이를 기준 FP 모듈(S = 2 및 P = 0)로 변경시키는 것을 설명한다. 향상된 성능이 1.5 ms 필터를 사용하여 획득될 수 있다. 필터 크기를 너무 크게 하는 것은 성능을 저해한다는 것을 또한 알 수 있다.

NAB 모델은 CD 상태 예측의 1차 태스크(primary task)에 대한 2차 목표(secondary objective)로서 128 차원의 깨끗한 로그-멜 특징들을 재구성하기 위해 네트워크의 일부를 훈련시킴으로써 강인성을 향상시키기 위한 다중태스크 학습을 사용할 수 있다. 보간 가중치(interpolation weight) α = 0.9가 두 개의 목표들의 균형을 맞추기 위해 사용된다. MTL을 사용하는 경우, 기본 NAB(S = 2, P = 0 그리고 5.0 ms 필터)는 WER를 22.2%로부터 21.2%까지 감소시킨다. 성능을 더 향상시키기 위해, 게이팅된 피드백 연결이 더해지고, 이것은 결과적으로 또 하나의 다른 0.2% 절대 감소가 일어나게 하여 21.0%의 최종 WER을 제공하게 된다.

향상된 구성들을 갖는 최종 NAB 모델은, (a) S = 1 및 P = 1의 FP 구조; (b) 원시 파형 입력들; (c) 1.5 ms의 출력 필터 크기; (d) α = 0.9의 MTL 목표 보간 가중치; (e) 게이팅된 피드백 연결들을 갖는다. 스펙트럼 필터링 계층(도 1에서의 tConv)에 대해 128개의 필터들을 사용하는 대신, 시스템은 256개의 필터들을 사용하는데 왜냐하면 이러한 시스템이 추가 향상들을 제공하는 것으로 보여졌기 때문이다. 최종 구성들을 사용하는 경우, NAB 모델은 20.5%의 WER을 달성하는데, 이는 이러한 변형(modification)들이 없는 경우 22.2%에 있던 본래의 NAB 모델보다 상대적으로 7.7% 향상된 것이다. 이들 중에서, MTL과 게이팅된 피드백이 함께 가장 큰 오류 감소들을 제공한다. 도 2는 타겟 음성 방향(target speech direction) 및 간섭 노이즈 방향(interfering noise direction)에서의 예측된 빔포밍 필터들의 주파수 응답들을 예시한다. 달리 말하면, 도 2는 노이즈가 있는 음성 분광도(noisy speech spectrogram)(첫 번째 것) 및 깨끗한 음성 분광도(두 번째 것)를 갖는 타겟 음성 방향(세 번째 것) 및 간섭 노이즈 방향(네 번째 것)에서 시간(X-축)에 걸쳐 상이한 주파수(Y-축)에 있는 예측된 빔포머 응답들의 시각화(visualization)들을 예시한다.

도 2의 예에서 발성에 대한 SNR은 12dB이다. 타겟 음성 방향에서의 응답들은 노이즈 방향에서의 응답들보다 상대적으로 더 많은 음성-의존성 변화들을 갖는다. 이것은 예측된 필터들이 음성 신호에 관여하고 있음을 표시할 수 있다. 더욱이, 높은 음성-에너지 영역(high speech-energy region)들에서의 응답들은 일반적으로 다른 것들보다 더 낮고, 이것은 예측된 필터들의 자동 이득 제어 효과를 시사한다.

적응성 빔포밍이 때때로 주파수 영역에서 수행되기 때문에, 시간 영역과 주파수 영역 모두에서의 NAB 모델의 사용이 고려될 수 있다. 주파수 영역 NAB 구성에서는, 양쪽 채널들에 대한 복소 FET(Complex FFT, CFFT) 필터들을 예측하는 LSTM이 존재한다. 257-pt FFT 입력이 주어지는 경우, 이것은 2개의 채널들에 대한 실수 성분(real component) 및 허수 성분(imaginary component)에 대해 4 × 257개의 주파수 포인트(frequency point)들을 예측하게 된다. 복소 필터들이 각각의 채널에 대해 예측된 이후, 요소-별 곱(element-wise product)이 각각의 채널에 대한 입력의 FFT로 행해지는데, 이것은 시간 영역에서 방정식 2에서의 컨벌루션과 등가이다. 이것의 출력은 주파수 영역에서 단일 채널 CLDNN에 주어지고, 이것은 복소 선형 투영(Complex Linear Projection, CLP)를 이용한 스펙트럼 분해(spectral decomposition) 및 음향 모델링을 모두 행한다. CFFT 특징들을 사용하는 것이 컴퓨터연산 복잡도를 크게 감소시키지만, 성능은 일부 구현예들에서 원시 파형 모델보다 더 나빠질 수 있다. 이것은 CFFT가 더 높은 차원의 필터들의 예측을 요구하기 때문일 수 있다.

NAB 모델의 성능은 또한, 단일 채널 모델들 및 다른 신호 프로세싱 기법들 예컨대 DS 및 FS와 같은 것에 월등한 성능을 제공하는 것으로 보여졌던 비인자화된 원시 파형 모델(unfactored raw waveform model) 및 인자화된 원시 파형 모델(factored raw waveform model)과 비교될 수 있다. 비인자화된 모델과 비교하여, 앞서 논의된 바와 같이 데이터 내의 상이한 공간 방향들을 처리(handle)하기 위해 시간 프레임 당 필터들을 예측하는 것은 성능을 증가시킬 수 있다. 인자화된 모델은 공간 필터링 계층에서 다수의 주사 방향(look direction)들을 열거(enumerating)함으로써 상이한 방향들을 잠재적으로 처리할 수 있는 반면, 적응성 모델은 더 적은 컴퓨터연산 복잡도로 유사한 성능을 달성할 수 있다.

앞에서 논의된 바와 같이, 다중채널 파형 신호들에 대한 NAB 아키텍처는 AM 훈련과 함께 공동으로 적응성 필터-및-합산 빔포밍을 구현할 수 있다. 이전의 시스템들과는 달리, 빔포밍 필터들은 현재 입력 신호에 적응하고, 또한 게이팅된 피드백 연결들을 통해 AM의 이전의 예측들을 고려한다. 모델의 일반화(generalization)를 향상시키기 위해서, MTL이 채택되어 훈련을 정규화할 수 있다. 실험 결과들은, 명시적 FS 구조를 통합하는 것이 유익하다는 것, 그리고 제안된 NAB가, 인자화된 모델과 유사한 성능을 갖지만 더 낮은 컴퓨터연산 비용을 갖는다는 것을 보여준다.

도면들로 돌아가서, 도 1은 뉴럴 네트워크 적응성 빔포밍(NAB)을 위한 예시적 시스템(100)을 나타낸다. 간략히 말하면, 그리고 아래에서 더 상세히 설명되는 바와 같이, 시스템(100)은 상이한 마이크로폰들로부터 수신될 수 있는 오디오 데이터(103 및 106)의 복수의 채널들을 수신한다. 시스템(100)은 오디오 데이터(103 및 106)의 음소들을 식별하기 위해 필터 예측 스테이지(filter prediction stage)(109), 필터링 및 합산 스테이지(filtering and summation stage)(112), 음향 모델 스테이지(acoustic model stage)(115), 및 다중태스크 학습 스테이지(multitask learning stage)(118)를 통해 오디오 데이터(103 및 106)를 프로세싱한다.

필터 예측 스테이지(109) 동안, 시스템(100)은 오디오 데이터(103 및 106)의 복수의 채널들을 수신한다. 시스템(100)이 두 개의 오디오 데이터 채널들을 수신하는 것을 보여주고 있지만, 시스템(100)은 추가적인 오디오 채널들을 수신할 수 있고, 이들은 각각 오디오 데이터(103 및 106)와 유사하게 프로세싱되게 된다. 필터 예측 스테이지(109)는 필터 및 합산 스테이지(112)에 대한 필터 파라미터들을 발생시키는 두 개의 LSTM 계층들을 포함한다. 제 1 LSTM 계층(121)은 오디오 데이터(103 및 106)의 두 개의 채널들에 걸쳐 공유된다. 제 1 LSTM 계층(121)은 빔포밍을 위해 사용되고, 오디오 데이터(103 및 106)의 두 개의 채널로부터의 데이터로부터 혜택을 받는다. 하나의 채널로부터의 데이터는 다른 채널의 빔포밍에 영향을 미친다. LSTM 계층들(124 및 127)을 갖는 제 2 LSTM 계층은 채널-의존성 계층이다. LSTM 계층들(124 및 127)은 후속 필터들의 차원(dimensionality)을 조정하는 파라미터들을 발생시킨다.

필터 및 합산 스테이지(112) 동안, 시스템(100)은 두 개의 필터들(130 및 133)을 사용하고, 이 경우 시스템(100)은 이러한 두 개의 필터들로부터의 출력들을 합산기(summator)(136) 내에서 합산한다. 필터(130)는 오디오 데이터(103)를 수신하고 LSTM 계층(124)으로부터 필터 파라미터들을 수신한다. 필터 파라미터들은 필터에 적용되는데 이 경우 필터는 오디오 데이터(103)와 컨벌루션된다. 유사하게, 필터(133)는 오디오 데이터(106)를 수신하고 LSTM 계층(127)으로부터 필터 파라미터들을 수신한다. 필터 파라미터들은 필터에 적용되고 이 경우 필터는 오디오 데이터(106)와 컨벌루션된다. 일부 구현예들에서, 필터들(130 및 133)은 유한 임펄스 응답 필터들이다. 일부 구현예들에서, 필터들(130 및 133)의 길이는 고정되고 서로 동일하거나 상이할 수 있다. 일부 구현예들에서, 필터들(130 및 133)의 계수들은 LSTM 계층들(130 및 133)로부터 수신된 파라미터들에 근거한다. 두 개의 필터들(130 및 133)로부터의 출력들은 합산기(136) 내에서 함께 합산된다. 합산기 출력(139)은 음향 모델 계층(115)에 제공된다.

음향 모델 스테이지(115) 동안, 시스템(100)은 시간 컨벌루션 계층(time convolution layer)(142), 포스트 프로세싱 계층(post processing layer)(145), 복수의 LSTM 계층들(148, 151, 및 154), 그리고 심층 뉴럴 네트워크(157)를 사용한다. 시간 컨벌루션 계층(142)은 합산기 출력(139)을 수신하고, 높은 주파수들을 제거함으로써 신호를 클리닝(cleaning)하고 추가적으로 필터링한다. 일부 구현예들에서, 시스템(100)은 시간 컨벌루션만을 수행하고 주파수 컨벌루션은 수행하지 않는다. 시간 컨벌루션 계층(142)은 복수의 특징 맵(feature map)들을 갖는 하나의 컨벌루션 계층을 포함할 수 있다. 예를 들어, 시간 컨벌루션 계층(142)은 256개의 특징 맵들을 포함할 수 있다. 시간 컨벌루션 계층(142)과 관련된 풀링 전략은 비-중복 최대 풀링(non-overlapping max pooling)을 포함할 수 있고, 예컨대, 풀링 크기는 3일 수 있다.

시간 컨벌루션 계층(142)의 출력은 포스트 프로세서(post processor)(145)에 제공된다. 일부 구현예들에서, 포스트 프로세서(145)는 출력 신호의 전체 길이에 걸쳐 시간 컨벌루션 계층(142)의 출력 신호를 최대 풀링하다. 그 다음에, 포스트 프로세서(145)는 수정된 비-선형성(rectified non-linearity)을 적용하고, 후속하여 안정화된 대수 표현(stabilized logarithm expression)을 적용하여 프레임 레벨 특징 벡터(frame level feature vector)를 생성하게 된다. 수정(rectification) 동안, 포스트 프로세서(145)는 음의 값(negative value)들을 제로 값(zero value)으로 대체하고, 양의 값(positive value)들을 보유(retain)한다. 일부 구현예들에서, 포스트 프로세서(145)는 특징 벡터의 차원을 감소시킨다. 차원을 감소시키는 것은 추가적인 후속 LSTM 계층들에 대한 필요성을 감소시킨다.

포스트 프로세서(145)의 출력은 시간에 관해 신호를 모델링하기에 적합한 LSTM 계층들(148, 151, 및 154)로 전달된다. 일부 구현예들에서, 세 개의 LSTM 계층들은 신호를 모델링하기 위해 사용될 수 있다. 일부 구현예들에서, 각각의 LSTM 계층은 832개의 셀들과, 그리고 차원 감소를 위한 512 유닛 투영 계층을 포함할 수 있다. 일부 구현예들에서는, 세 개의 LSTM 계층들보다 더 많은 LSTM 계층들이 대안적으로 사용될 수 있고 이들은 더 적은 셀들을 포함할 수 있다. LSTM 계층들(148, 151, 및 154)의 출력은 하나 이상의 심층 뉴럴 네트워크(Deep Neural Network, DNN) 계층들(157)에 제공된다.

DNN(157)의 출력(160)은 음향 모델의 출력을 나타낸다. 이러한 출력은 다양한 음향 모델 상태들 각각에 대한 확률 점수(probability score)들을 나타낼 수 있는데, 예를 들어, 음소들 혹은 음소들의 은닉 마르코브 모델(Hidden Markov Model, HMM) 상태들 각각에 대한 확률 점수들을 나타낼 수 있다. 훈련된 시스템이 음성 인식을 수행하기 위해 사용되는 경우, 출력(160)은 어떤 음소들이 가장 가능성이 있는 것인지를 표시하고, 이러한 정보는 오디오 데이터(103 및 106)에 대응하는 발성의 표기를 위해 사용된다. 예를 들어, 이러한 정보는 가능성 있는 음소들에 최상으로 대응하는 단어들 및 어구(phrase)을 결정하기 위해 언어 모델 혹은 다른 모델에 제공될 수 있다.

하나 이상의 DNN 계층들(157) 내에 포함되는 계층들은 완전-연결(fully-connected)될 수 있고, 그리고 일부 구현예들에서, 각각의 계층은 1,024개의 은닉 유닛들을 가질 수 있다. 시스템(100)의 다른 계층들은 음향 모델(139)과 함께 공동으로 훈련될 수 있다.

훈련 동안, 음향 모델(139)은 절단된(truncated) 시간을 통한 역전파(BackPropagation Through Time, BPTT)를 사용해 훈련을 행하기 위해 20개의 시간 단계들 동안 전개될 수 있다. 일부 구현예들에서, 출력 상태 레벨은 하나 이상의 프레임들만큼 지연될 수 있는데, 왜냐하면 장래의 프레임들에 대한 정보가 현재 프레임과 관련된 예측들의 정확도를 강화시킬 수 있기 때문이다. 훈련 동안, 출력 타겟들은 출력(160)으로서 설정될 수 있고, 역전파를 위해 사용될 수 있다.

시스템(100)은 게이팅된 피드백 메커니즘(gated feedback mechanism)(163)을 포함한다. 일반적으로, 게이팅된 피드백은 훈련 동안에만 사용된다. 게이팅된 피드백(163)은 출력 타겟들의 높은 레벨 언어 정보를 필터 예측 스테이지(109)에 제공한다. 이러한 언어 정보를 사용해, 필터 예측 계층(109)은 이전의 음소에 근거하여 후속 필터 파라미터들을 조정할 수 있다. 일부 구현예들에서, 게이팅된 피드백 신호는 신뢰도 값(confidence value)을 포함한다. 만약 신뢰도 값이 임계치(threshold)를 만족시키지 않는다면, 게이팅된 피드백(163)은 후속 필터 파라미터들에 영향을 미치지 않는다. 만약 신뢰도 값이 임계치를 만족시킨다면, 게이팅된 피드백(163)은 후속 필터 파라미터들에 영향을 미친다. 예를 들어, 만약 임계치가 0.5라면, 신뢰도 값이 1인 경우, 필터 예측 스테이지(109)는 필터 파라미터들을 조정하기 위해 출력 타겟(160)을 사용하게 된다. 만약 신뢰도 값이 제로(0)라면, 필터 예측 스테이지(109)는 필터 파라미터들을 조정하기 위해 출력 타겟(160)을 사용하지 않게 된다.

시스템(100)은 다중태스크 학습 계층(118)을 포함한다. 다중태스크 학습 계층(118)은 DNN 계층들(166 및 169)을 포함한다. DNN 계층(169)은 깨끗한 특징(clean feature)들(172)을 출력하는데, 여기서 깨끗한 특징들(172)은 노이즈가 제거된 출력(de-noised output)이고, 깨끗한 로그-멜 특징들을 발생시키기 위해 훈련 국면 동안 시스템(100)에 의해 사용된다. 도 1에서 예시되는 바와 같이, 다중태스크 학습 계층(118)은 제 1 LSTM 계층(148)으로부터 데이터를 수신한다. 다중태스크 학습 계층(118)으로 하여금 그 수신된 데이터를 프로세싱하도록 하기 위해, 제 1 LSTM 계층(148)으로부터의 데이터는 노이즈의 낮은 레벨들을 포함한다.

도 3은 뉴럴 네트워크들을 사용하여 음성 인식을 행하기 위한 예시적인 시스템(300)을 예시하는 블록도이다. 시스템(300)은 클라이언트 디바이스(client device)(310), 컴퓨팅 시스템(320), 및 통신망(network)(330)을 포함한다. 이러한 예에서, 컴퓨팅 시스템(320)은 발성에 대한 정보 및 추가적인 정보를 뉴럴 네트워크들(323)에게 제공한다. 컴퓨팅 시스템(320)은 발성에 대한 표기를 식별하기 위해 뉴럴 네트워크(327)로부터의 출력을 사용한다.

시스템(300)에서, 클라이언트 디바이스(310)는 예를 들어, 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 태블릿 컴퓨터(tablet computer), 웨어러블 컴퓨터(wearable computer), 셀룰러 폰(cellular phone), 스마트폰(smart phone), 뮤직 플레이어(music player), 이-북 리더(e-book reader), 내비게이션 시스템(navigation system), 혹은 임의의 다른 적절한 컴퓨팅 디바이스일 수 있다. 컴퓨팅 시스템(320)에 의해 수행되는 기능들은 개개의 컴퓨터 시스템들에 의해 수행될 수 있거나 복수의 컴퓨터 시스템들에 걸쳐 분산될 수 있다. 통신망(330)은 유선 통신망 혹은 무선 통신망 혹은 유선 통신망과 무선 통신망의 결합일 수 있고, 그리고 인터넷을 포함할 수 있다.

일부 구현예들에서, 컴퓨팅 시스템(320)은 오디오 파형 샘플들(321)의 세트를 수신한다. 이러한 샘플들(321)은 복수의 오디오 채널들에 대한 샘플들을 포함할 수 있는데, 예를 들어, 상이한 마이크로폰들에 의해 동시에 검출된 오디오로부터의 샘플들을 포함할 수 있다. 컴퓨팅 시스템(320)은 공간 필터링을 위해 사용되는 필터 파라미터들을 발생시키기 위해 이러한 샘플들(321)을 사용한다. 그 다음에, 공간적으로 필터링된 출력은 음향 모델에 제공되는데, 예를 들어, 뉴럴 네트워크(327)에 제공된다. 컴퓨팅 시스템(320)은 적어도 뉴럴 네트워크(327)의 출력에 근거하여 발성에 대한 후보 표기를 결정할 수 있다.

예시된 사례에서, 클라이언트 디바이스(310)의 사용자(302)는 말하고, 클라이언트 디바이스(310)는 사용자(302)의 음성을 포함하는 오디오를 기록한다. 클라이언트 디바이스(310)는 음성이 검출됨에 따라 오디오의 복수의 채널들을 기록한다. 클라이언트 디바이스(310)는 복수의 채널들에 대한 기록된 오디오 데이터(312)를 통신망(330)을 통해 컴퓨팅 시스템(320)으로 전송한다.

컴퓨팅 시스템(320)은 오디오 데이터(312)를 수신하고 오디오 파형 샘플들(321)을 획득한다. 예를 들어, 컴퓨팅 시스템(320)은 특정 기간 동안, 예컨대, 오디오 신호의 25 ms 기간 동안, 오디오를 나타내는 오디오 파형 샘플들(321)의 세트를 식별할 수 있다. 이러한 오디오 파형 샘플들은 도 1을 참조하여 앞에서 설명된 것과 유사할 수 있다.

컴퓨팅 시스템(320)은 오디오 파형 샘플들(321)을 필터 예측 모델로서 동작하는 뉴럴 네트워크(323)에 제공할 수 있다. 뉴럴 네트워크(323)는 도 1과 연계되어 설명된 바와 같은 필터 예측 스테이지(109)에 대응할 수 있다. 이에 따라, 뉴럴 네트워크(323)는 오디오 파형 샘플들(321)에 근거하여 필터 파라미터들을 발생시키기 위해 훈련된 순환 뉴럴 네트워크일 수 있다.

컴퓨팅 시스템(320)은 뉴럴 네트워크(323)의 출력을 필터 및 합산 모듈(325)에 제공할 수 있다. 필터 및 합산 모듈(325)은 도 1과 연계되어 설명된 바와 같은 필터 및 합산 스테이지(112)에 대응할 수 있다. 이에 따라, 필터 및 합산 모듈(323)은 뉴럴 네트워크(323)로부터 수신된 필터 파라미터들을 갖는 필터들을 오디오 파형 샘플들(321)에 적용할 수 있고 그 출력들을 합산할 수 있다.

예시된 사례에서, 컴퓨팅 시스템(320)은 필터 및 합산 모듈(325)의 출력을 뉴럴 네트워크(327)에 제공한다. 뉴럴 네트워크(327)는 음향 모델로서 동작하도록 훈련된 것이다. 예를 들어, 뉴럴 네트워크(327)는, 시간-주파수 특징 표현(time-frequency feature representation)들이 필터 모듈(325)에 의해 출력된 것이고 오디오 파형 샘플들(321)에 근거하는 것일 때. 그 시간-주파수 특징 표현들이 상이한 음성 유닛들에 대응할 가능성(likelihood)들을 표시한다. 뉴럴 네트워크(327)는 예컨대, 앞에서 도 1과 연계되어 설명된 바와 같은 음향 모델 스테이지(115)에 대응할 수 있다. 일부 구현예들에서, 뉴럴 네트워크(327)는 또한 필터 모듈(325)로부터의 출력들을 초기에 프로세싱하는 초기 시간 컨벌루션 및 포스트 프로세싱 계층들을 포함할 수 있다.

뉴럴 네트워크(327)는 컴퓨팅 시스템(320)이 오디오 신호(312)에 대한 표기(330)를 식별하기 위해 사용하는 뉴럴 네트워크 출력들(329)을 생성한다. 뉴럴 네트워크 출력들(329)은 특정 윈도우 내의 말소리(speech)가 특정 음성 유닛(phonetic unit)들에 대응할 가능성들을 표시한다. 일부 구현예들에서, 음성 유닛들은 음성(phone)들이거나 음성들의 성분들이며, 이것은 또한 음소들로서 지칭된다. 이러한 예에서, 잠재적 음성들은 s₀ ... s_m으로 지칭된다. 음성들은 말소리 내의 다양한 음성들 중 임의의 것일 수 있는데, 예컨대, "ah" 음성, "ae" 음성, "zh" 음성, 등일 수 있다. 음성들 s₀ ... s_m은 오디오 파형 샘플들(321) 내에서 일어날 수 있는 가능한 음성들 모두를 포함할 수 있거나, 혹은 일어날 수 있는 음성들 모두 보다 더 적은 수의 음성들을 포함할 수 있다. 각각의 음성은 세 개의 음향 상태들로 나누어질 수 있다.

뉴럴 네트워크 출력들(327)은 오디오 파형 샘플들(321) 내에 포함된 데이터가 주어지는 경우 음향 상태들의 예측들 혹은 확률들을 제공할 수 있다. 뉴럴 네트워크 출력들(329)은, 각각의 음성의 각각의 상태에 대해, 음향 특징 벡터(acoustic feature vector) v₁이 특정 음성의 특정 상태를 나타낼 확률을 표시하는 값을 제공할 수 있다. 예를 들어, 제 1 음성 s₀에 대해, 뉴럴 네트워크 출력들(329)은 확률 P(s₀_1 | X)를 표시하는 제 1 값을 제공할 수 있는데, 이러한 제 1 값은 오디오 파형 샘플들(321)에서 제공된 입력 X의 세트가 주어지는 경우 윈도우 w₁이 s₀ 음성의 제 1 음향 상태를 포함할 확률을 표시한다. 제 1 음성 s₁에 대해, 뉴럴 네트워크 출력들(329)은 확률 P(s₀_2 | X)를 표시하는 제 2 값을 제공할 수 있는데, 이러한 제 2 값은 오디오 파형 샘플들(321)에서 제공된 입력 X의 세트가 주어지는 경우 윈도우 w₁이 s₀ 음성의 제 2 음향 상태를 포함할 확률을 표시한다. 유사한 출력들이 모든 음성들 s₀ ... s_m의 모든 상태들에 대해 제공될 수 있다.

컴퓨팅 시스템(320)은 상이한 윈도우들에서의 음향 상태들의 예측들 혹은 확률들을 수신하기 위해 샘플들(321)의 상이한 세트들을 뉴럴 네트워크(327)에 제공한다. 컴퓨팅 시스템(320)은 발성의 상이한 시간 윈도우들을 차례로 나타내는 입력들의 시퀀스를 제공할 수 있다. 오디오 데이터의 각각의 프레임을 시스템에 차례차례 입력함으로써, 컴퓨팅 시스템(320)은 발성 동안 일어났을 가능성이 있는 음소들의 추정들을 획득한다.

컴퓨팅 시스템(320)은 뉴럴 네트워크 출력들(329)을 예를 들어, 은닉 마르코브 모델(HMM)에 근사하는 가중된 유한 상태 변환기(weighted finite state transducer)들에 제공할 수 있는데, 이러한 가중된 유한 상태 변환기들은 단어들의 음성 유닛들을 표시하는 어휘목록(lexicon), 문법, 그리고 단어들의 가능성 있는 시퀀스들을 표시하는 언어 모델에 대한 정보를 포함할 수 있다. HMM의 출력은 표기(330)가 도출될 수 있는 단어 격자(word lattice)일 수 있다. 그 다음에 컴퓨팅 시스템(320)은 표기(330)를 통신망(330)을 통해 클라이언트 디바이스(310)에 제공한다.

뉴럴 네트워크들(323, 327)의 훈련은 앞에서 논의된 바와 같이 수행될 수 있다. 뉴럴 네트워크(327)를 통한 순방향 전파(forward propagation)는 뉴럴 네트워크의 출력 계층에서 출력을 생성한다. 이러한 출력들은 수신된 시간-주파수 특징 표현이 임의의 알려진 음향 상태에 대응함을 표시하는 올바른 혹은 원하는 출력들을 표시하는 데이터와 비교될 수 있다. 뉴럴 네트워크의 실제 출력들과 올바른 혹은 원하는 출력들 간의 오류의 측정(measure)이 결정된다. 그 다음에 이러한 오류는 뉴럴 네트워크(327) 내에서 가중치들을 업데이트하기 위해 뉴럴 네트워크를 통해 역-전파된다. 필터 예측 뉴럴 네트워크(323)는 뉴럴 네트워크(327)와 함께 공동으로 훈련될 수 있다.

이러한 훈련 프로세스는 훈련 데이터의 세트 내에서 복수의 상이한 발성들의 오디오 파형 샘플들에 대해 발생된 시간-주파수 특징 표현 데이터에 대해 반복될 수 있다. 훈련 동안, 훈련을 위해 선택된 프레임들은 커다란 세트로부터 무작위로 선택될 수 있고, 이에 따라 동일한 발성으로부터의 프레임들이 연속적으로 프로세싱되지 않게 된다.

일부 구현예들에서, 음성 인식 시스템의 프로세싱은 음성을 초기에 검출하거나 기록하는 디바이스 상에서 수행될 수 있다. 예를 들어, 컴퓨팅 디바이스(320)에 의해 수행되는 것으로 설명된 프로세싱은 일부 구현예들에서 오디오 데이터를 통신망을 통해 전송함이 없이 사용자 디바이스(310) 상에서 수행될 수 있다.

도 4는 다중채널 음성 인식을 위해 뉴럴 네트워크 적응성 빔포밍을 행하기 위한 예시적인 프로세스(400)를 나타낸다. 일반적으로, 프로세스(400)는 발성을 수신하고, 그리고 그 발성의 단어들에 대응하는 가능성 있는 음소들을 뉴럴 네트워크를 사용하여 식별한다. 프로세스(400)는 하나 이상의 컴퓨터들을 포함하는 컴퓨터 시스템, 예를 들어, 도 1에서 보여지는 바와 같은 시스템(100) 혹은 도 3에서 보여지는 바와 같은 시스템(300)에 의해 수행되는 것으로 설명될 것이다.

시스템은 발성에 대응하는 오디오 데이터의 제 1 채널 및 발성에 대응하는 오디오 데이터의 제 2 채널을 수신한다(410). 일부 구현예들에서, 시스템은 상이한 마이크로폰들을 통해 제 1 채널 및 제 2 채널을 수신한다. 예를 들어, 시스템은 시스템의 우측편 상에 하나의 마이크로폰을 가질 수 있고, 아울러 시스템의 우측편 상에 있는 제 1 마이크로폰으로부터 대략 5 센티미터에 있는 제 2 마이크로폰을 가질 수 있다. 사용자가 말하는 경우, 양쪽 마이크로폰들은 사용자의 음성에 관해 약간 다른 오디오를 수신한다. 일부 구현예들에서, 시스템은 사용자가 말할 때 오디오 데이터를 각각 수신하는 두 개보다 많은 마이크로폰들을 가질 수 있다.

시스템은, 훈련된 순환 뉴럴 네트워크를 사용하여, (i) 오디오 데이터의 복수의 채널들에 근거하여 필터 파라미터들의 제 1 세트를 발생시키고 (ii) 오디오 데이터의 복수의 채널들에 근거하여 필터 파라미터들의 제 2 세트를 발생시킨다(420). 일부 구현예들에서, 훈련된 순환 뉴럴 네트워크는 하나 이상의 LSTM 계층들을 포함한다. 일부 구현예들에서, 하나의 LSTM 계층은 채널들 각각으로부터 오디오 데이터를 수신한다. 예를 들어, 제 1 LSTM 계층은 제 1 채널 및 제 2 채널로부터 데이터를 수신한다. 일부 구현예들에서는, 채널 특정 LSTM 계층들이 각각의 채널로부터 데이터를 수신하는 LSTM 계층의 출력을 수신한다. 이러한 경우에, 제 1 LSTM은 빔포밍을 위해 양쪽 채널들로부터의 데이터를 분석한다. 일부 구현예들에서, 채널 특정 LSTM 계층들의 출력들은 각각의 오디오 채널에 대한 필터 파라미터들이다. 일부 구현예들에서, 각각의 채널 특정 LSTM 계층은 상이한 필터 파라미터들을 발생시킨다. 일부 구현예들에서, 시스템은 오디오 데이터를 복수의 프레임들로 세그먼트화(segment)하고, 각각의 프레임에 대해 새로운 그리고 때로는 상이한 필터 파라미터들을 발생시킨다.

시스템은 필터 파라미터들의 제 1 세트를 갖는 제 1 필터와 제 1 채널에 대한 오디오 데이터를 컨벌루션하여 제 1 컨벌루션 출력들을 발생시킨다(430). 시스템은 필터 파라미터들의 제 2 세트를 갖는 제 2 필터와 제 2 채널에 대한 오디오 데이터를 컨벌루션하여 제 2 컨벌루션 출력들을 발생시킨다(440). 시스템이 오디오 데이터를 상이한 프레임들로 세그먼트화하는 일부 구현예들에서, 시스템은 오디오 데이터의 각각의 프레임을 각각의 파라미터들과 컨벌루션한다. 일부 구현예들에서, 제 1 필터 및 제 2 필터는 유한 임펄스 응답 필터들이다. 시스템이 복수의 오디오 채널들을 수신하는 일부 구현예들에서, 시스템은 각각의 오디오 채널을 그 각각의 필터 파라미터들에 따라 필터링한다. 일부 구현예들에서, 제 1 필터 및 제 2 필터는 공간 필터링 및 스펙트럼 필터링을 모두 수행한다.

시스템은 제 1 컨벌루션 출력들과 제 2 컨벌루션 출력들을 결합한다(450). 일부 구현예들에서, 시스템은 제 1 컨벌루션 출력들과 제 2 컨벌루션 출력들을 더한다. 시스템이 복수의 오디오 채널들을 수신하는 일부 구현예들에서, 시스템은 복수의 필터들로부터의 복수의 컨벌루션 출력들을 더한다.

시스템은 결합된 컨벌루션 출력들을 음향 모델로서 훈련된 뉴럴 네트워크에 입력한다(460). 일부 구현예들에서, 음향 모델은 발성에 대응하는 음소들을 식별한다. 일부 구현예들에서, 음향 모델로서 훈련된 뉴럴 네트워크는 복수의 LSTM 계층들을 포함하는데, 예를 들어, 세 개의 LSTM 계층들을 포함한다. 일부 구현예들에서, 음향 모델로서 훈련된 뉴럴 네트워크는 컨벌루션 계층 및 복수의 은닉 계층들을 포함한다. 일부 구현예들에서, 컨벌루션 계층은 시간 컨벌루션을 수행한다. 일부 구현예들에서, 시스템은 주파수 컨벌루션을 수행하지 않는다. 일부 구현예들에서, 시스템은 컨벌루션 계층의 출력을 풀링하여 풀링된 값들의 세트를 발생시킨다. 일부 구현예들에서, 시스템은 풀링된 값들의 세트를 음향 모델로서 훈련된 뉴럴 네트워크의 LSTM 계층들에 제공한다. 시스템은 결합된 컨벌루션 출력들을 수신함에 응답하여 적어도 뉴럴 네트워크가 제공하는 출력에 근거하여 결정되는 발성에 대한 표기를 제공한다(470).

일부 구현예들에서, 시스템은 음향 모델로서 훈련된 뉴럴 네트워크의 출력으로부터 순환 뉴럴 네트워크로의 피드백 메커니즘을 제공한다. 피드백 메커니즘은 시스템으로 하여금 필터 파라미터들에 영향을 미치도록 이전의 음소의 정보를 사용할 수 있게 한다. 일부 구현예들의 경우, 피드백은 음소에 대한 신뢰도 값이 임계치를 만족시키는 경우에만 피드백이 순환 뉴럴 네트워크로 전달된다는 의미에서 게이팅된 피드백이다.

일부 구현예들에서, 시스템은 훈련 국면 동안 시스템이 이용하는 다중태스크 학습 스테이지를 포함한다. 다중태스크 학습 스테이지는 음향 모델로서 훈련된 뉴럴 네트워크의 LSTM 계층, 예를 들어, 제 1 LSTM 계층으로부터 데이터를 수신한다. 일부 구현예들에서, 다중태스크 학습 스테이지는 복수의 심층 뉴럴 네트워크 계층들, 예를 들어, 두 개의 심층 뉴럴 네트워크 계층들을 포함하고, 그리고 복수의 은닉 계층들을 포함할 수 있다. 다중태스크 학습 스테이지는 순환 뉴럴 네트워크 및 음향 모델로서 훈련된 뉴럴 네트워크의 훈련 국면 동안 사용하기 위한 깨끗한 특징들을 발생시킨다.

도 5는 본 명세서에서 설명되는 기법들을 구현하기 위해 사용될 수 있는 컴퓨팅 디바이스(450) 및 모바일 컴퓨팅 디바이스(mobile computing device)(550)의 예를 보여준다. 컴퓨팅 디바이스(500)는 디지털 컴퓨터들의 다양한 형태들을 나타내도록 의도된 것인데, 예를 들어, 랩탑들, 데스크탑들, 워크스테이션들, 개인 디지털 보조기기들, 서버들, 블레이드 서버들, 메인프레임들, 및 다른 적절한 컴퓨터들을 나타내도록 의도된 것이다. 모바일 컴퓨팅 디바이스(550)는 모바일 디바이스들의 다양한 형태들을 나타내도록 의도된 것인데, 예를 들어, 개인 디지털 보조기기들, 셀룰러 전화기들, 스마트폰들, 및 다른 유사한 컴퓨팅 디바이스들을 나타내도록 의도된 것이다. 여기서 제시되는 컴포넌트들, 이들의 연결들 및 관계들, 그리고 이들의 기능들은 단지 예시적 의미만을 가지며 제한의 의미를 갖지 않는다.

컴퓨팅 디바이스(500)는 프로세서(502)와, 메모리(504)와, 저장 디바이스(506)와, 메모리(504) 및 복수의 고속 확장 포트들(510)에 연결된 고속 인터페이스(508)와, 그리고 저속 확장 포트(514) 및 저장 디바이스(506)에 연결된 저속 인터페이스(512)를 포함한다. 프로세서(502), 메모리(504), 저장 디바이스(506), 고속 인터페이스(508), 고속 확장 포트들(510) 및 저속 인터페이스(512) 각각은 다양한 버스들을 사용하여 상호연결되며, 공통 마더보드 상에 장착될 수 있거나 다른 방식으로 적절하게 장착될 수 있다. 프로세서(502)는 컴퓨팅 디바이스(500) 내에서의 실행을 위한 명령들을 프로세싱할 수 있으며, 이러한 명령들에는 외부 입력/출력 디바이스(예를 들어, 고속 인터페이스(508)에 결합된 디스플레이(516)) 상에 GUI용 그래픽 정보를 디스플레이하기 위해 메모리(504) 내에 저장되거나 혹은 저장 디바이스(506) 상에 저장되는 명령들이 포함된다. 다른 구현예들에서, 복수의 프로세서들 및/또는 복수의 버스들은 복수의 메모리들 및 메모리의 여러 타입들과 함께 적절하게 사용될 수 있다. 또한, 복수의 컴퓨팅 디바이스들은 (예를 들어, 서버 뱅크(server bank), 블레이드 서버들의 그룹, 혹은 다중-프로세서 시스템으로서) 연결될 수 있고, 이 경우 각각의 디바이스는 필요한 동작들의 일부분들을 제공하게 된다.

메모리(504)는 컴퓨팅 디바이스(500) 내에서 정보를 저장한다. 일부 구현예들에서, 메모리(504)는 휘발성 메모리 유닛 혹은 유닛들이다. 일부 구현예들에서, 메모리(504)는 비-휘발성 메모리 유닛 혹은 유닛들이다. 메모리(504)는 또한, 자기 디스크 혹은 광학 디스크와 같은 또 하나의 다른 형태의 컴퓨터-판독가능 매체일 수 있다.

저장 디바이스(506)는 컴퓨팅 디바이스(500)를 위한 대용량 저장소를 제공할 수 있다. 일부 구현예들에서, 저장 디바이스(506)는 컴퓨터-판독가능 매체일 수 있거나 혹은 컴퓨터-판독가능 매체를 포함할 수 있고, 이러한 것의 예로는 플로피 디스크 디바이스(floppy disk device), 하드 디스크 디바이스(hard disk device), 광학 디스크 디바이스(optical disk device), 또는 테이프 디바이스(tape device), 플래시 메모리(flash memory), 또는 다른 유사한 솔리드 스테이트 메모리 디바이스(solid state memory device), 또는 디바이스들의 어레이가 있는바, 여기에는 저장 영역 네트워크 혹은 다른 구성들로 된 디바이스들이 포함된다. 명령들은 정보 캐리어(information carrier) 내에 저장될 수 있다. 명령들은 하나 이상의 프로세싱 디바이스들(예를 들어, 프로세서(502))에 의해 실행될 때, 앞에서 설명된 것들과 같은 하나 이상의 방법들을 수행한다. 명령들은 또한 컴퓨터-판독가능 매체 혹은 머신-판독가능 매체(예를 들어, 메모리(504), 저장 디바이스(506), 또는 프로세서(502) 상의 메모리)와 같은 하나 이상의 저장 디바이스들에 의해 저장될 수 있다.

고속 인터페이스(508)는 컴퓨팅 디바이스(500)에 대한 대역폭-집약형 동작(bandwidth-intensive operation)들을 관리하고, 반면 저속 인터페이스(512)는 보다 낮은 대역폭-집약형 동작들을 관리한다. 기능(function)들의 이러한 할당은 단지 예시적인 것이다. 일부 구현예들에서, 고속 인터페이스(508)는 메모리(504), 디스플레이(516)에 (예를 들어, 그래픽 프로세서 혹은 가속기를 통해) 결합되며, 그리고 다양한 확장 카드들을 수용할 수 있는 고속 확장 포트들(510)에 결합된다. 이러한 구현예에서, 저속 인터페이스(512)는 저장 디바이스(506) 및 저속 확장 포트(514)에 결합된다. 다양한 통신 포트들(예를 들어, USB, 블루투스(Bluetooth), 이더넷, 무선 이더넷)을 포함할 수 있는 저속 확장 포트(514)는, 하나 이상의 입력/출력 디바이스들(예를 들어, 키보드, 포인팅 디바이스(pointing device), 스캐너, 또는 네트워킹 디바이스(networking device)(예컨대, 스위치 혹은 라우터))에 예를 들어, 네트워크 어댑터(network adapter)를 통해 결합될 수 있다.

컴퓨팅 디바이스(500)는 도면에서 제시되는 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(500)는 표준 서버(520)로서 구현될 수 있거나, 또는 이러한 서버들의 그룹 내에서 여러 번 구현될 수 있다. 추가적으로, 컴퓨팅 디바이스(500)는 랩탑 컴퓨터(522)와 같은 개인용 컴퓨터로 구현될 수 있다. 컴퓨팅 디바이스(500)는 또한 랙 서버 시스템(rack server system)(524)의 일부로서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(500)로부터의 컴포넌트들은 모바일 컴퓨팅 디바이스(550)와 같은 모바일 디바이스 내의 다른 컴포넌트들과 결합될 수 있다. 이러한 디바이스들 각각은 컴퓨팅 디바이스(500) 및 모바일 컴퓨팅 디바이스(550) 중 하나 이상을 포함할 수 있고, 그리고 전체 시스템은 서로 통신하는 복수의 컴퓨팅 디바이스들로 구성될 수 있다.

모바일 컴퓨팅 디바이스(550)는, 다른 컴포넌트들 중에서도, 프로세서(552)와, 메모리(564)와, 디스플레이(554)와 같은 입력/출력 디바이스와, 통신 인터페이스(566)와, 그리고 송수신기(568)를 포함한다. 모바일 컴퓨팅 디바이스(550)에는 또한, 추가적인 저장소를 제공하기 위해 마이크로-드라이브(micro-drive) 혹은 다른 디바이스와 같은 저장 디바이스가 제공될 수 있다. 프로세서(552), 메모리(564), 디스플레이(554), 통신 인터페이스(566), 및 송수신기(568) 각각은 다양한 버스들을 사용하여 상호연결되며, 이러한 컴포넌트들 중 수 개의 컴포넌트들은 공통 마더보드 상에 장착될 수 있거나 혹은 다른 방식으로 적절하게 장착될 수 있다.

프로세서(552)는 모바일 컴퓨팅 디바이스(550) 내에서의 명령들을 실행할 수 있는바, 이러한 명령들에는 메모리(564) 내에 저장되는 명령들이 포함된다. 프로세서(552)는 분리된 그리고 복수의 아날로그 및 디지털 프로세서들을 포함하는 칩(chip)들의 칩셋(chipset)으로서 구현될 수 있다. 프로세서(552)는 예를 들어, 모바일 컴퓨팅 디바이스(550)의 다른 컴포넌트들의 조정(예컨대, 사용자 인터페이스들의 제어, 모바일 컴퓨팅 디바이스(550)에 의해 실행되는 애플리케이션들의 제어, 그리고 모바일 컴퓨팅 디바이스(550)에 의한 무선 통신의 제어)을 제공할 수 있다.

프로세서(552)는 디스플레이(554)에 결합된 제어 인터페이스(558) 및 디스플레이 인터페이스(556)를 통해 사용자와 통신할 수 있다. 디스플레이(554)는, 예를 들어, TFT LCD(Thin-Film-Transistor Liquid Crystal Display; 박막 트랜지스터 액정 디스플레이) 디스플레이 또는 OLED(Organic Light Emitting Diode; 유기 발광 다이오드) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(556)는 사용자에게 그래픽 정보 및 다른 정보를 제시하기 위해 디스플레이(554)를 구동시키기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(558)는 사용자로부터 커맨드들을 수신할 수 있고, 프로세서(552)에 제출하기 위해 이들을 변환할 수 있다. 추가적으로, 외부 인터페이스(562)가 프로세서(552)와의 통신을 제공할 수 있고, 이에 따라 모바일 컴퓨팅 디바이스(550)는 다른 디바이스들과 근거리 영역 통신을 할 수 있게 된다. 예를 들어, 외부 인터페이스(562)는 일부 구현예들에서 유선 통신을 제공할 수 있고, 혹은 다른 구현예들에서는 무선 통신을 제공할 수 있으며, 복수의 인터페이스들이 또한 사용될 수 있다.

메모리(564)는 모바일 컴퓨팅 디바이스(550) 내에서 정보를 저장한다. 메모리(564)는 컴퓨터-판독가능 매체 혹은 매체들, 휘발성 메모리 유닛 혹은 유닛들 또는 비-휘발성 메모리 유닛 혹은 유닛들 중 하나 이상의 것으로서 구현될 수 있다. 확장 메모리(574)가 또한 제공될 수 있고, 확장 인터페이스(572)(이것은 예를 들어, SIMM(Single In line Memory Module; 단일 인라인 메모리 모듈) 카드 인터페이스를 포함할 수 있음)를 통해 모바일 컴퓨팅 디바이스(550)에 연결될 수 있다. 이러한 확장 메모리(574)는 모바일 컴퓨팅 디바이스(550)를 위한 추가 저장 공간을 제공할 수 있거나, 혹은 모바일 컴퓨팅 디바이스(550)를 위한 애플리케이션들 혹은 다른 정보를 또한 저장할 수 있다. 구체적으로, 확장 메모리(574)는 앞에서 설명된 프로세스들을 수행하거나 보충하기 위한 명령들을 포함할 수 있고, 그리고 또한 보안 정보(secure information)를 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(574)는 모바일 컴퓨팅 디바이스(550)를 위한 보안 모듈로서 제공될 수 있고, 그리고 모바일 컴퓨팅 디바이스(550)의 보안 사용을 허용하는 명령들로 프로그래밍될 수 있다. 추가적으로, 보안 애플리케이션들이 추가적인 정보와 함께 SIMM 카드들을 통해 제공될 수 있다(예를 들어, 해킹-가능하지 않은 방식으로 SIMM 카드 상에 식별 정보를 배치하는 것).

메모리는 예를 들어, 아래에서 논의되는 바와 같이, 플래시 메모리 및/또는 NVRAM 메모리(Non-Volatile Random Access Memory; 비-휘발성 랜덤 액세스 메모리)를 포함할 수 있다. 일부 구현예들에서, 명령들은 정보 캐리어 내에 저장된다. 이러한 명령들은 하나 이상의 프로세싱 디바이스들(예를 들어, 프로세서(552))에 의해 실행될 때, 앞에서 설명된 것들과 같은 하나 이상의 방법들을 수행한다. 명령들은 또한 하나 이상의 컴퓨터-판독가능 매체 혹은 머신-판독가능 매체(예를 들어, 메모리(564), 확장 메모리(574), 또는 프로세서(552) 상의 메모리)와 같은 하나 이상의 저장 디바이스들에 의해 저장될 수 있다. 일부 구현예들에서, 명령들은 예를 들어, 송수신기(568) 혹은 외부 인터페이스(562)를 통해 임의의 전파되는 신호로 수신될 수 있다.

모바일 컴퓨팅 디바이스(550)는 통신 인터페이스(566)를 통해 무선으로 통신할 수 있는바, 이러한 통신 인터페이스는 필요한 곳에 디지털 신호 프로세싱 회로를 포함할 수 있다. 통신 인터페이스(566)는 다양한 모드들 혹은 프로토콜들(예를 들어, 다른 것들 중에서도, GSM(Global System for Mobile communications; 모바일 통신을 위한 글로벌 시스템) 보이스 콜(voice call)들, SMS(Short Message Service; 단문 메시지 서비스), EMS(Enhanced Messaging Service; 강화된 메시징 서비스), 또는 MMS(Multimedia Messaging Service; 멀티미디어 메시징 서비스) 메시징, CDMA(Code Division Multiple Access; 코드 분할 다중 액세스), TDMA(Time Division Multiple Access; 시 분할 다중 액세스), PDC(Personal Digital Cellular; 개인 디지털 셀룰러), WCDMA(Wideband Code Division Multiple Access; 광대역 코드 분할 다중 액세스), CDMA2000, 또는 GPRS(General Packet Radio Service; 일반 패킷 무선 서비스)) 하에서 통신들을 제공할 수 있다. 이러한 통신은, 예를 들어, 무선-주파수를 사용하는 송수신기(568)를 통해 일어날 수 있다. 추가적으로, 단-거리 통신이 일어날 수 있는바, 예를 들어, 블루투스, 와이파이(Wi-Fi), 혹은 이와 유사한 다른 송수신기를 사용하여 일어날 수 있다. 추가적으로, GPS(Global Positioning System; 전지구 위치결정 시스템) 수신기 모듈(570)은 추가적인 내비게이션-관련 무선 데이터 및 위치-관련 무선 데이터를 모바일 컴퓨팅 디바이스(550)에 제공할 수 있고, 이러한 데이터는 모바일 컴퓨팅 디바이스(550) 상에서 실행되는 애플리케이션들에 의해 적절하게 사용될 수 있다.

모바일 컴퓨팅 디바이스(550)는 또한 오디오 코덱(audio codec)(560)을 사용하여 청취가능하게 통신할 수 있는바, 여기서 오디오 코덱은 사용자로부터 말하여진 정보를 수신할 수 있고 이것을 사용가능한 디지털 정보로 변환할 수 있다. 오디오 코덱(560)은 예를 들어, 모바일 컴퓨팅 디바이스(550)의 핸드셋(handset) 내에 있는 예컨대 스피커를 통해 사용자에 대해 청취가능한 사운드(sound)를 동등하게 발생시킬 수 있다. 이러한 사운드는 음성 전화 통화들로부터의 사운드를 포함할 수 있고, 기록된 사운드(예를 들어, 음성 메시지들, 음악 파일들, 등)를 포함할 수 있으며, 그리고 또한 모바일 컴퓨팅 디바이스(550) 상에서 동작하는 애플리케이션들에 의해 발생된 사운드를 포함할 수 있다.

모바일 컴퓨팅 디바이스(550)는 도면에서 보여지는 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(550)는 셀룰러 전화기(580)로서 구현될 수 있다. 이것은 또한 스마트-폰(582), 개인 디지털 보조기기, 또는 유사한 다른 모바일 디바이스의 일부로서 구현될 수 있다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, 특수 설계된 ASIC(Application Specific Integrated Circuit; 애플리케이션 특정 집적 회로)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 그리고/또는 해석가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있고, 여기서 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다.

이러한 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 머신 명령들을 포함하고, 그리고 하이-레벨 절차적 그리고/또는 객체-지향 프로그래밍 언어로 구현될 수 있고, 그리고/또는 어셈블리/머신 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, 용어 "머신-판독가능 매체" 및 "컴퓨터-판독가능 매체"는 머신 명령들 및/또는 데이터를 프로그래밍가능 프로세서에게 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, 자기 디스크들, 광학 디스크들, 메모리, 프로그래밍가능 로직 디바이스(Programmable Logic Device, PLD)들)를 나타내는바, 여기에는 머신 명령들을 머신-판독가능 신호로서 수신하는 머신-판독가능 매체가 포함된다. 용어 "머신-판독가능 신호"는 머신 명령들 및/또는 데이터를 프로그래밍가능 프로세서에게 제공하기 위해 사용되는 임의의 신호를 나타낸다.

사용자와의 상호작용을 제공하기 위해, 본 명세서에 설명되는 시스템들 및 기법들은 정보를 사용자에게 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(Cathode Ray Tube; 음극선관) 또는 LCD(Liquid Crystal Display; 액정 디스플레이) 모니터), 그리고 사용자로 하여금 컴퓨터에 입력을 제공할 수 있게 하는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비하는 컴퓨터 상에서 구현될 수 있다. 다른 종류의 디바이스들이 또한 사용자와의 상호작용을 제공하기 위해 사용될 수 있는바, 예를 들어, 사용자에게 제공되는 피드백은 임의 형태의 감각적 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고, 그리고 사용자로부터의 입력은 음향적, 음성적 또는 촉각적 입력을 포함하는 임의의 형태로 수신될 수 있다.

본 명세서에 설명되는 시스템들 및 기법들은 컴퓨팅 시스템에서 구현될 수 있는바, 여기서 컴퓨팅 시스템은 백 엔드 컴포넌트(back end component)(예를 들어, 데이터 서버)를 포함하거나, 또는 미들웨어 컴포넌트(middleware component)(예를 들어, 애플리케이션 서버)를 포함하거나, 또는 프런트 엔드 컴포넌트(front end component)(예를 들어, 사용자가 본 명세서에 설명되는 시스템들 및 기법들의 구현예와 상호작용할 수 있게 하는 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 클라이언트 컴퓨터)를 포함하며, 또는 이러한 백 엔드 컴포넌트, 미들웨어 컴포넌트 혹은 프런트 엔드 컴포넌트의 임의의 조합을 포함한다. 이러한 시스템의 컴포넌트들은 디지털 데이터 통신의 임의 형태 또는 매체(예를 들어, 통신 네트워크)에 의해 상호연결될 수 있다. 통신 네트워크들의 예들은 로컬 영역 네트워크(Local Area Network, LAN) 및 와이드 영역 네트워크(Wide Area Network, WAN) 및 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있고 전형적으로는 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버의 관계는, 각각의 컴퓨터들 상에서 실행됨과 아울러 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들을 통해 발생한다.

몇 개의 구현예들이 앞에서 상세히 설명되었지만, 다른 수정예들이 가능하다. 예를 들어, 클라이언트 애플리케이션이 델리게이트(delegate)(들)에 액세스하는 것으로 설명되고 있지만, 다른 구현예들에서, 델리게이트(들)는 하나 이상의 프로세서들에 의해 구현되는 다른 애플리케이션들, 예컨대, 하나 이상의 서버들 상에서 실행되는 애플리케이션에 의해 이용될 수 있다. 추가적으로, 도면들에서 묘사되는 로직 흐름들은 바람직한 결과들을 달성하기 위해 그 제시된 특정 순서 혹은 순차적 순서를 요구하지 않는다. 추가적으로, 다른 액션들이 제공될 수 있고, 또는 일부 액션들은 본 명세서에서 설명되는 흐름들로부터 제거될 수 있으며, 그리고 다른 컴포넌트들이 본 명세서에서 설명되는 시스템들에 추가될 수 있고, 또는 해당 시스템들로부터 제거될 수 있다. 따라서, 이러한 다른 구현예들은 다음과 같은 청구항들의 범위 내에 있다.

Claims

컴퓨터로 구현되는 방법으로서,
발성(utterance)에 대응하는 오디오 데이터(audio data)의 제 1 채널(channel) 및 상기 발성에 대응하는 오디오 데이터의 제 2 채널을 수신하는 단계와;
훈련된 순환 뉴럴 네트워크(recurrent neural network)를 사용하여, (i) 오디오 데이터의 상기 제 1 채널 및 오디오 데이터의 상기 제 2 채널에 근거하여 제 1 필터(filter)에 대한 필터 파라미터(filter parameter)들의 제 1 세트를 발생시키고 (ii) 오디오 데이터의 상기 제 1 채널 및 오디오 데이터의 상기 제 2 채널에 근거하여 제 2 필터에 대한 필터 파라미터들의 제 2 세트를 발생시키는 단계와;
(i) 상기 제 1 필터를 사용하여 필터링된 상기 제 1 채널의 오디오 데이터와 (ii) 상기 제 2 필터를 사용하여 필터링된 상기 제 2 채널의 오디오 데이터를 결합함으로써 오디오 데이터의 단일 결합 채널(single combined channel)을 발생시키는 단계와;
상기 단일 결합 채널에 대한 오디오 데이터를 음향 모델(acoustic model)로서 훈련된 뉴럴 네트워크에 입력하는 단계와; 그리고
상기 단일 결합 채널에 대한 오디오 데이터를 수신함에 응답하여 적어도 음향 모델로서 훈련된 상기 뉴럴 네트워크가 제공하는 출력에 근거하여 결정되는 상기 발성에 대한 표기(transcription)를 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 순환 뉴럴 네트워크는 하나 이상의 장단기 메모리 계층(long short-term memory layer)들을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 순환 뉴럴 네트워크는,
오디오의 제 1 채널 및 제 2 채널을 모두 수신하는 제 1 장단기 메모리 계층과; 그리고
상기 제 1 채널에 대응하는 제 2 장단기 메모리 계층 및 상기 제 2 채널에 대응하는 제 3 장단기 메모리 계층을 포함하고,
상기 제 2 장단기 메모리 계층 및 상기 제 3 장단기 메모리 계층은 각각 상기 제 1 장단기 메모리 계층의 출력을 수신하고 대응하는 채널에 대한 필터 파라미터들의 세트를 제공하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제2항 또는 제3항에 있어서,
상기 장단기 메모리 계층들은 음향 모델로서 훈련된 상기 뉴럴 네트워크와 상기 장단기 메모리 계층들을 공동으로(jointly) 훈련시키는 훈련 프로세스(training process) 동안 학습된 파라미터들을 갖는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
오디오 데이터의 각각의 입력 프레임(input frame)에 대한 새로운 필터 파라미터들을 변경시키거나 혹은 발생시키는 것을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 발성의 오디오 프레임들의 시퀀스(sequence)에서의 각각의 오디오 프레임에 대해, 필터 파라미터들의 새로운 세트를 발생시키는 것과, 그리고 필터 파라미터들의 상기 새로운 세트를 갖는 필터와 상기 프레임에 대한 오디오 데이터를 컨벌루션(convolving)하는 것을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 제 1 필터 및 상기 제 2 필터는 유한 임펄스 응답 필터(finite impulse response filter)들인 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 제 1 필터 및 상기 제 2 필터는 상이한 파라미터들을 갖는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상이한 마이크로폰 출력(microphone output)들이 상이한 필터들과 컨벌루션되는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
오디오 데이터의 상기 제 1 채널 및 상기 제 2 채널은 상기 발성에 대한 오디오 파형 데이터(audio waveform data)의 제 1 채널 및 제 2 채널이고,
오디오 파형의 상기 제 1 채널 및 상기 제 2 채널은 서로로부터 떨어져 이격되어 있는 상이한 마이크로폰들에 의한 상기 발성의 기록(recording)들인 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
음향 모델로서 훈련된 상기 뉴럴 네트워크는 컨벌루션 계층(convolutional layer), 하나 이상의 장단기 메모리 계층(long-short term memory layer)들, 및 복수의 은닉 계층(hidden layer)들을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제11항에 있어서,
음향 모델로서 훈련된 상기 뉴럴 네트워크의 상기 컨벌루션 계층은 시간 영역 컨벌루션(time domain convolution)을 수행하도록 되어 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제11항 또는 제12항에 있어서,
음향 모델로서 훈련된 상기 뉴럴 네트워크는 상기 컨벌루션 계층의 출력이 풀링(pooling)되도록 하여 풀링된 값(pooled value)들의 세트(set)를 발생시키게 되어 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제13항에 있어서,
음향 모델로서 훈련된 상기 뉴럴 네트워크는 상기 풀링된 값들을 음향 모델로서 훈련된 상기 뉴럴 네트워크 내의 하나 이상의 장단기 메모리 계층들에 입력하도록 되어 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 제 1 필터 및 상기 제 2 필터는 공간 필터링(spatial filtering) 및 스펙트럼 필터링(spectral filtering)을 모두 수행하도록 되어 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
필터 파라미터들의 상기 제 1 세트를 갖는 제 1 필터와 상기 제 1 채널에 대한 오디오 데이터를 컨벌루션하여 제 1 컨벌루션 출력들을 발생시키는 것과;
필터 파라미터들의 상기 제 2 세트를 갖는 제 2 필터와 상기 제 2 채널에 대한 오디오 데이터를 컨벌루션하여 제 2 컨벌루션 출력들을 발생시키는 것과; 그리고
상기 제 1 컨벌루션 출력들과 상기 제 2 컨벌루션 출력들을 결합하는 것을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
시스템으로서, 상기 시스템은
하나 이상의 컴퓨터들과; 그리고
명령들을 저장하는 하나 이상의 저장 디바이스들을 포함하고,
상기 명령들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때 상기 하나 이상의 컴퓨터들로 하여금,
발성에 대응하는 오디오 데이터의 제 1 채널 및 상기 발성에 대응하는 오디오 데이터의 제 2 채널을 수신하는 것과;
훈련된 순환 뉴럴 네트워크를 사용하여, (i) 오디오 데이터의 상기 제 1 채널 및 오디오 데이터의 상기 제 2 채널에 근거하여 제 1 필터에 대한 필터 파라미터들의 제 1 세트를 발생시키고 (ii) 오디오 데이터의 상기 제 1 채널 및 오디오 데이터의 상기 제 2 채널에 근거하여 제 2 필터에 대한 필터 파라미터들의 제 2 세트를 발생시키는 것과;
(i) 상기 제 1 필터를 사용하여 필터링된 상기 제 1 채널의 오디오 데이터와 (ii) 상기 제 2 필터를 사용하여 필터링된 상기 제 2 채널의 오디오 데이터를 결합함으로써 오디오 데이터의 단일 결합 채널을 발생시키는 것과;
상기 단일 결합 채널에 대한 오디오 데이터를 음향 모델로서 훈련된 뉴럴 네트워크에 입력하는 것과; 그리고
상기 단일 결합 채널에 대한 오디오 데이터를 수신함에 응답하여 적어도 음향 모델로서 훈련된 상기 뉴럴 네트워크가 제공하는 출력에 근거하여 결정되는 상기 발성에 대한 표기를 제공하는 것을
포함하는 동작들을 수행하게 하도록 동작가능한 것을 특징으로 하는 시스템.
제17항에 있어서,
상기 순환 뉴럴 네트워크는,
오디오의 제 1 채널 및 제 2 채널을 모두 수신하는 제 1 장단기 메모리 계층과; 그리고
상기 제 1 채널에 대응하는 제 2 장단기 메모리 계층 및 상기 제 2 채널에 대응하는 제 3 장단기 메모리 계층을 포함하고,
상기 제 2 장단기 메모리 계층 및 상기 제 3 장단기 메모리 계층은 각각 상기 제 1 장단기 메모리 계층의 출력을 수신하고 대응하는 채널에 대한 필터 파라미터들의 세트를 제공하는 것을 특징으로 하는 시스템.
제17항 또는 제18항에 있어서,
상기 동작들은 또한,
필터 파라미터들의 상기 제 1 세트를 갖는 제 1 필터와 상기 제 1 채널에 대한 오디오 데이터를 컨벌루션하여 제 1 컨벌루션 출력들을 발생시키는 것과;
필터 파라미터들의 상기 제 2 세트를 갖는 제 2 필터와 상기 제 2 채널에 대한 오디오 데이터를 컨벌루션하여 제 2 컨벌루션 출력들을 발생시키는 것과; 그리고
상기 제 1 컨벌루션 출력들과 상기 제 2 컨벌루션 출력들을 결합하는 것을 포함하는 것을 포함하는 것을 특징으로 하는 시스템.
하나 이상의 컴퓨터들에 의해 실행될 때 상기 하나 이상의 컴퓨터들로 하여금 제1항에 기재된 방법을 수행하게 하는 명령들을 저장하는 컴퓨터-판독가능 매체.