KR20230133362A

KR20230133362A - 다양하고 자연스러운 텍스트 스피치 변환 샘플들 생성

Info

Publication number: KR20230133362A
Application number: KR1020237028295A
Authority: KR
Inventors: 위 장; 부바나 라마바드란; 앤드류 로젠버그; 융후이 우; 병화 천; 론 바이스; 위안 차오
Original assignee: 구글 엘엘씨
Priority date: 2021-01-29
Filing date: 2022-01-21
Publication date: 2023-09-19
Also published as: US11475874B2; JP2024505076A; US20220246132A1; WO2022164725A1; CN116783647A; EP4268225A1

Abstract

다양하고 자연스러운 텍스트 스피치 변환(TTS) 샘플들을 생성하는 방법(400)은 TTS 모델(200)을 사용하여 수신된 텍스트(152)에 기초하여 스피치 샘플(154)을 생성하는 단계를 포함한다. 트레이닝 프로세스는 스펙트로그램(166) 및 스펙트로그램에 대응하는 트레이닝 텍스트(164)를 각각 포함하는 트레이닝 샘플들(162)을 수신함으로써 스피치 샘플을 생성하도록 TTS 모델을 트레이닝한다. 각 트레이닝 샘플에 대해, 트레이닝 프로세스는 트레이닝 텍스트와 연관된 스피치 유닛들을 식별한다. 각 스피치 유닛에 대해, 트레이닝 프로세스는 스피치 임베딩(e)을 생성하고, 스피치 임베딩을 스펙트로그램의 일부와 정렬하고, 정렬된 부분에서 잠재 피처(212)를 추출하고, 잠재 피처에 양자화된 임베딩(q)을 할당한다. 트레이닝 프로세스는 스펙트로그램에 대응하는 트레이닝 텍스트와 연관된 스피치 유닛들에 대한 스피치 임베딩 및 양자화된 임베딩의 연결(230)을 디코딩함으로써 스피치 샘플을 생성한다.

Description

다양하고 자연스러운 텍스트 스피치 변환 샘플들 생성

본 개시는 다양하고 자연스러운 텍스트 텍스트 스피치 변환 샘플들을 생성하는 것에 관한 것이다.

스피치 합성 시스템은 텍스트 스피치 변환(TTS) 모델을 사용하여 텍스트 입력으로부터 스피치를 생성한다. 생성/합성된 스피치는 의도된 운율(표현성)과 함께 인간의 스피치(자연스러움)처럼 들리면서 메시지(요해도)를 정확하게 전달해야 한다. 기존의 스피치 합성 모델은 명료한 스피치를 제공할 수 있지만 스피치 신경 모델링의 최근 발전으로 인해 합성 스피치의 자연스러움과 충실도(fidelity)가 크게 향상되었다. 그러나 이러한 발전에도 불구하고 종종 TTS 모델에 의해 생성된 합성 스피치는 생성된 샘플 간의 다양성보다는 자연스러움에 더 초점을 둔다. 이러한 초점으로 인해 TTS 모델의 개발은 불행하게도 다양하고 자연스러운 능력이 부족하다. 즉, 현재의 TTS 모델은 합성 스피치가 인간 수준의 자연스러움에 접근하지만 일반적으로 최소 또는 거의 다양성이 없도록 자연스러움을 위해 다양성을 절충한다.

본 발명의 일 양태는 다양하고 자연스러운 텍스트 스피치 변환 샘플들을 생성하는 컴퓨터 구현 방법을 제공한다. 컴퓨터 구현 방법은 데이터 프로세싱 하드웨어에 의해 실행될 때 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 한다. 동작들은 텍스트의 시퀀스를 수신하는 동작 및 텍스트 스피치 변환(TTS) 모델을 사용하여 텍스트의 시퀀스에 기초하여 하나 이상의 스피치 샘플들을 생성하는 동작을 포함한다. TTS 모델은 복수의 트레이닝 샘플들을 수신하여 하나 이상의 스피치 샘플들을 생성하도록 트레이닝된다. 복수의 트레이닝 샘플들의 각 트레이닝 샘플은 레퍼런스 스펙트로그램 및 레퍼런스 스펙트로그램에 대응하는 텍스트의 트레이닝 시퀀스를 포함한다. 복수의 트레이닝 샘플들의 각 트레이닝 샘플에 대해, TTS 모델은 레퍼런스 스펙트로그램에 대응하는 텍스트의 트레이닝 시퀀스와 연관된 스피치 유닛들의 시퀀스를 식별하도록 트레이닝된다. 스피치 유닛들의 시퀀스의 각 스피치 유닛에 대해, TTS 모델은 스피치 임베딩을 생성하고, 스피치 임베딩을 레퍼런스 스펙트로그램의 대응하는 부분과 정렬하고, 스피치 임베딩과 정렬된 레퍼런스 스펙트로그램의 대응하는 부분으로부터 잠재 피처를 추출하고, 그리고 스피치 임베딩과 정렬된 레퍼런스 스펙트로그램의 대응하는 부분으로부터의 추출된 잠재 피처에 양자화된 임베딩을 할당한다. TTS 모델은 레퍼런스 스펙트로그램에 대응하는 텍스트의 트레이닝 시퀀스와 연관된 스피치 유닛들의 시퀀스에 대한 스피치 임베딩들 및 양자화된 임베딩들의 연결을 디코딩함으로써 하나 이상의 스피치 샘플들을 생성하도록 트레이닝된다.

본 발명의 또 다른 양태는 다양하고 자연스러운 텍스트 스피치 변환 샘플들을 생성하기 위한 시스템을 제공한다. 시스템은 데이터 프로세싱 하드웨어에 의해 실행될 때 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 한다. 동작들은 텍스트의 시퀀스를 수신하는 동작 및 텍스트 스피치 변환(TTS) 모델을 사용하여 텍스트의 시퀀스에 기초하여 하나 이상의 스피치 샘플들을 생성하는 동작을 포함한다. TTS 모델은 복수의 트레이닝 샘플들을 수신하여 하나 이상의 스피치 샘플들을 생성하도록 트레이닝된다. 복수의 트레이닝 샘플들의 각 트레이닝 샘플은 레퍼런스 스펙트로그램 및 레퍼런스 스펙트로그램에 대응하는 텍스트의 트레이닝 시퀀스를 포함한다. 복수의 트레이닝 샘플들의 각 트레이닝 샘플에 대해, TTS 모델은 레퍼런스 스펙트로그램에 대응하는 텍스트의 트레이닝 시퀀스와 연관된 스피치 유닛들의 시퀀스를 식별하도록 트레이닝된다. 스피치 유닛들의 시퀀스의 각 스피치 유닛에 대해, TTS 모델은 스피치 임베딩을 생성하고, 스피치 임베딩을 레퍼런스 스펙트로그램의 대응하는 부분과 정렬하고, 스피치 임베딩과 정렬된 레퍼런스 스펙트로그램의 대응하는 부분으로부터 잠재 피처를 추출하고, 그리고 스피치 임베딩과 정렬된 레퍼런스 스펙트로그램의 대응하는 부분으로부터의 추출된 잠재 피처에 양자화된 임베딩을 할당한다. TTS 모델은 레퍼런스 스펙트로그램에 대응하는 텍스트의 트레이닝 시퀀스와 연관된 스피치 유닛들의 시퀀스에 대한 스피치 임베딩들 및 양자화된 임베딩들의 연결을 디코딩함으로써 하나 이상의 스피치 샘플들을 생성하도록 트레이닝된다.

본 발명의 어느 한 양태의 구현예는 다음의 선택적 구성 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 스피치 임베딩과 정렬된 레퍼런스 스펙트로그램의 대응하는 부분으로부터의 잠재 피처에 양자화된 임베딩을 할당하는 것은 연속 잠재 공간의 포스테리어(posterior) 분포로부터 양자화된 임베딩을 샘플링한 후, 스피치 임베딩과 정렬된 레퍼런스 스펙트로그램의 대응하는 부분으로부터의 잠재 피처에 양자화된 임베딩을 할당하는 것을 포함한다. 일부 예에서, 동작들은 TTS 모델을 트레이닝하는 동안, TTS 모델로부터의 출력으로서, 복수의 트레이닝 샘플에 대한 포스테리어 분포를 생성하는 동작 및 생성된 포스테리어 분포를 복수의 트레이닝 샘플에 피팅(fitting)함으로써 프라이어 분포를 생성하도록 자동회귀(AR) 프라이어 신경 네트워크를 트레이닝하는 동작을 더 포함한다. 하나 이상의 스피치 샘플들을 생성하는 동작은 트레이닝된 AR 프라이어 신경 네트워크로부터 프라이어 분포를 샘플링하는 것에 기초할 수 있다.

일부 예에서, 동작들은 TTS 모델을 트레이닝하는 동안, 스피치 임베딩 및 잠재 피처에 기초하여 우도 확률로서 표현되는 재구성 손실을 결정하는 동작을 더 포함한다. 이들 예에서, 동작들은 또한 TTS 모델을 트레이닝하는 동안, 잠재 피처의 프라이어 분포와 잠재 피처의 포스테리어 분포 사이의 KL 다이버전스를 결정하는 동작을 포함한다. 여기서, TTS 모델을 트레이닝하는 동안, 결정된 재구성 손실과 결정된 KL 다이버전스의 차이에 기초하여 TTS 모델의 증거 하한(ELBO) 손실을 최적화하는 동작을 더 포함한다.

일부 구성에서, 동작들은 복수의 이용가능한 양자화된 임베딩들 각각에 대해 대응하는 양자화된 임베딩 및 스피치 임베딩과 정렬된 레퍼런스 스펙트로그램의 대응하는 부분으로부터 추출된 잠재 피처 사이의 유클리드 거리를 결정하는 동작을 더 포함한다. 이들 동작들은 또한 복수의 이용가능한 양자화된 임베딩 중에서, 대응하는 양자화된 임베딩 및 스피치 임베딩과 정렬된 레퍼런스 스펙트로그램의 대응하는 부분으로부터 추출된 잠재 피처 사이의 최소 유클리드 거리와 연관된 양자화된 임베딩을 선택하는 동작을 포함한다. 여기서, 양자화된 임베딩을 잠재 피처에 할당하는 동작은 최소 유클리드 거리와 연관되어 선택된 양자화된 임베딩을 할당하는 동작을 포함한다.

스피치 유닛들의 시퀀스는 음소의 시퀀스를 포함할 수 있다. 잠재 피처는 잠재 운율 피처를 포함할 수 있다. 하나 이상의 스피치 샘플들은 제1 스피치 샘플 및 제2 스피치 샘플을 포함하며, 여기서 제1 스피치 샘플은 제2 스피치 샘플과 상이한 스피치 속성들을 갖는다. 동작들은 또한 TTS 모델에 의해 생성된 하나 이상의 스피치 샘플들을 사용하여 스피치 인식 모델을 트레이닝하는 동작을 포함할 수 있다.

본 발명의 하나 이상의 구현예에 대한 세부 사항은 첨부된 도면 및 아래의 설명에서 설명된다. 다른 양태, 특징 및 이점은 설명, 도면 및 청구범위로부터 명백할 것이다.

도 1은 다양하고 자연스러운 텍스트 스피치 변환 샘플들을 생성하기 위한 예시적인 스피치 환경의 개략도이다.
도 2a 내지 도 2c는 다양하고 자연스러운 텍스트 스피치 변환 샘플들을 생성하기 위한 예시적인 텍스트 스피치 변환 모델들의 개략도이다.
도 3은 도 1의 스피치 환경의 텍스트 스피치 변환 시스템을 위한 텍스트 스피치 변환 모델을 트레이닝하기 위한 예시적인 트레이닝 프로세스의 개략도이다.
도 4는 다양하고 자연스러운 텍스트 스피치 변환 샘플들을 생성하는 방법에 대한 예시적인 동작 배열의 흐름도이다.
도 5는 본 명세서에 기술된 시스템 및 방법을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 디바이스의 개략도이다.
다양한 도면에서 유사한 참조 기호는 유사한 요소를 나타낸다.

신경 종단간 텍스트 스피치 변환(TTS) 합성의 급속한 발전은 인간 수준의 자연스러움에 접근하는 스피치 생성을 가능하게 했다. TTS 시스템이 자연스러운 합성 스피치 생성에 초점을 맞추었기 때문에 이러한 TTS 시스템은 일반적으로 다양한 합성 스피치 샘플들의 생성에 동등하게 초점을 맞추지 않았다. 이것은 합성 스피치가 다양한 방식으로(즉, 다양하게 로봇적으로) 로봇처럼 들리는 것보다 덜 로봇적으로 들리고 더 인간적으로 들리는 것이 본질적으로 더 좋기 때문에 자연스러운 진행이었다. 이러한 진행으로 인해 합성 스피치 샘플의 자연스러움은 종종 샘플 다양성의 트레이드 오프였다. 즉, 사용자를 위한 보이스 어시스턴트는 John Legend 또는 Issa Rae처럼 들릴 수 있지만 합성 스피치로서의 John Legend의 보이스에는 다양한 보컬 억양들이 없을 수 있다.

실질적인 수준에서, 스피치 샘플 다양성은 동일한 입력 텍스트로부터 생성된 2개의 스피치 샘플들 사이의 변이를 생성하는 TTS 시스템의 능력을 말한다. 발화를 말할 때, 발화는 화자에 특정한 스피치 관련 속성들 (예를 들어, 화자 스타일 또는 화자 피치), 배경 소음, 채널 속성들(예를 들어, 반향) 및/또는 발화된 운율(예를 들어, 강세, 억양 및/또는 리듬)을 포함할 수 있다. 이러한 각 속성들은 발화가 스피치 샘플로서 캡처될 때 일정 수준의 변이를 가져올 수 있다. 일반적으로 TTS 시스템과 연관된 TTS 모델은 인코더-디코더 신경 네트워크 아키텍처를 사용하여 입력 텍스트를 음향 피처들의 시퀀스에 직접 매핑한다. TTS 모델에 대한 입력은 텍스트이므로, TTS 모델을 트레이닝하기 위해 입력으로서 제공된 텍스트 샘플들에는 텍스트의 출력 합성 스피치가 어떻게 들려야 하는지에 대한 컨텍스트 정보가 부족하다. 즉, 합성 스피치가 가져야 하는 음성 속성들은 무엇인가 하는 것이다. 예를 들어, 입력 텍스트로부터 합성된 스피치 발화는 스포츠 해설자 도메인의 화자와는 상이한 스피치 관련 속성들과 운율을 뉴스 캐스터 도메인의 화자에게 전달해야 한다.

출력 합성 스피치가 어떻게 들려야 하는지에 대한 텍스트로부터의 컨텍스트 정보의 부족으로 인해, TTS 시스템은 TTS 모델에 텍스트 이외의 추가 입력을 제공하도록 진화했다. 일부 접근법에서 스피치 관련 속성들은 TTS 모델을 잠재 변수 모델로 구조화함으로써 TTS 모델(즉, 스피치 합성 모델)에서 설명된다. 잠재 변수 모델들은 입력 변수와 관찰되지 않은 잠재(또는 숨겨진) 변수의 함수로 표현된 입력 데이터(예를 들어, 관찰가능한 입력 변수)에 대한 확률 분포를 생성하도록 동작한다. 즉, 확률 분포는 입력 데이터를 잠재 공간을 정의하는 잠재 변수로 표현한 포스테리어 분포(posterior distribution)라고 한다. 여기서, 잠재 변수, 특히 잠재 피처는 TTS 모델에 입력된 데이터 세트(예를 들어, 텍스트의 시퀀스)의 일부로서 쉽게 관찰할 수 없는 스피치 관련 속성들을 나타낸다. 따라서 TTS 시스템은 텍스트를 생성한 사람(예를 들어, 텍스트 작성자) 또는 텍스트를 생성한 사람의 사운드와 같은 스피치 속성들을 나타내는 잠재 표현을 생성한다. 이 접근 방식을 통해, 잠재 모델링 프로세스는 텍스트 자체가 운율 요소(예를 들어, 강세, 억양 및/또는 리듬), 화자의 특성(예를 들어, 화자 피치 또는 톤) 또는 환경 특성(예를 들어, 배경 소음, 잔향 등)과 같은 스피치 관련 속성들을 자연스럽게 포함하지 않는다는 사실을 설명할 수 있다.

그러나 잠재 변수 모델의 진화는 다양한 합성 스피치 샘플들을 생성하는 능력에 있어서 다소 제한적이었다. 예를 들어 일부 TTS 모델링 접근 방식은 스피치 관련 속성들을 잠재 표현으로 캡처하는 것을 목표로 했지만, 이러한 접근 방식은 전체 발화에 대해 단일 잠재 변수를 추출한다. 이것이 의미하는 바는 이 접근 방식이 일정 수준의 다양한 합성 스피치 샘플들을 생성할 수 있지만 이러한 다양성은 매크로 레벨에서 발생한다는 것이다. 이 매크로 접근 방식은 스피치 샘플이 말하는 스타일이나 어느 정도의 감정 수준을 대략적으로 포착할 수 있다는 점에서는 다양하지만, 스피치 샘플의 하위 부분과 관련된 스피치 속성들에 대해서는 다양성이 부족하다. 이 접근 방식을 사용하는 모델 중 하나는 벡터 양자화 변이 오토인코더(VQ-VAE)를 사용하는 TTS 모델이다. VQ-VAE로서, 타겟 스피치 샘플에 대한 전체 벡터에 대해 글로벌 방식으로 양자화가 발생한다. 그 결과 임의의 길이의 스피치 신호에 걸쳐 변화의 전체 공간을 캡처하는 단일 글로벌 표현이 생성된다. 이와 관련하여, VQ-VAE 접근 방식을 사용하여 "오늘 날씨는 72도이고 화창합니다"라고 말하는 합성 스피치 샘플은 일반적으로 일관되게 밝고 행복하며 및/또는 낙관적으로 들릴 수 있지만, 해당 문장의 어떤 부분이 밝고 낙관적으로 들리는지는 변하지 않는다. 매크로 레벨에서 동작함으로써, 이 VQ-VAE 접근 방식이 다양한 스피치 샘플을 생성할 수 있는 정도는 제한된다.

인간의 본성으로 인해, 인간이 음성 발화를 제공할 때, 이러한 발화로부터 캡처된 샘플들은 종종 운율 요소와 관련하여 약간의 변이들을 가질 것이다. 이러한 사소한 변이들이 인간의 스피치에 존재하기 때문에 스피치 인식 시스템과 같이 인간의 스피치를 인식하는 시스템은 일반적으로 실제 인간의 스피치 샘플들에 대해 트레이닝된다. 반대로, 스피치 인식 시스템이 합성 스피치 샘플들에 대해 트레이닝된 경우, 스피치 인식 시스템은 다양성이 거의 또는 전혀 없는 샘플들로 트레이닝될 것이다. 따라서 스피치 인식 시스템은 추론 중에 인간 스피치의 이러한 사소한 변이들을 인식하지 못할 수 있다. 실질적으로 말하자면, 이는 다양성이 결여된 기존의 합성 스피치 샘플들로 스피치 인식 시스템을 트레이닝하면 일부 실제 인간 샘플들에 대해 트레이닝되는 스피치 인식 시스템과 비교할 때 덜 강력하고 덜 정확한 스피치 인식 시스템이 될 수 있음을 의미한다. 이 경우 기존 TTS 모델은 일반적으로 인간의 스피치를 인식하는 데 강력하고 정확한 스피치 인식 시스템을 자체적으로 트레이닝할 수 있는 합성 스피치 샘플들을 생성할 수 없다.

합성 스피치 샘플들의 다양성 부족을 극복하기 위해, TTS 모델은 대략적인 접근 방식(즉, 매크로 레벨 접근 방식)보다는 세분화된 접근 방식을 사용할 수 있다. 이는 전체 발화에 대한 단일 잠재 변수 대신 모델이 타겟 스피치 샘플의 하위 부분에서 스피치 관련 속성들을 인코딩하는 구조를 포함한다는 것을 의미한다. 예를 들어, 세분화된 구조는 타겟 스피치 샘플의 각 음소와 연관된 운율을 인코딩한다. 이 접근 방식을 통해 세분화된 TTS 모델은 제공된 레퍼런스 스피치의 스피치 관련 속성들과 유사한 스피치를 합성하고/하거나 대응하는 잠재 피처들의 값들을 변경함으로써 이러한 스피치 관련 속성들을 제어할 수 있다. 일부 예에서 이러한 세분화된 구조를 달성하기 위해 TTS 모델은 매크로 레벨 접근 방식과 매우 유사한 VAE를 사용하지만, 대신 타겟 스피치 샘플들의 하위 부분(예를 들어, 타겟 스피치 샘플의 음소들에서)에서 발생하도록 양자화를 변경한다. 이를 세분화된 양자화 VAE(QF-VAE)라고 한다.

불행하게도, 세분화된 레벨에서의 양자화는 합성 스피치 샘플들의 자연스러움 중 일부를 손상시킬 수 있다. 예를 들어, 각 하위 부분이 이제 잠재 공간에서 독립적으로 표현되기 때문에 이러한 독립적 표현으로부터 형성된 합성 스피치 샘플들은 음절 사이의 긴 휴지(pauses) 또는 갑작스러운 에너지 증가와 같은 불연속적이고 부자연스러운 아티팩트에서 부자연스러운 사운드를 나타낼 수 있다. 물론, 이러한 부자연스러운 사운드 중 일부를 해결하는 기법이 존재하지만 이러한 기법은 종종 합성 스피치 샘플의 다양성을 억제하여 세분화된 양자화를 수행하는 목적을 무산시킬 수 있다. 예를 들어, 한 가지 접근 방식은 샘플 생성 중에 이전 분포의 표준 편차를 축소하여 샘플링 이상치 값의 가능성을 줄인다. 합성 스피치 샘플들의 다양성을 손상시키지 않으면서 합성 스피치 샘플들에 대해 예상되는 자연스러움 수준을 촉진하기 위해, TTS 시스템은 QF-VAE의 포스테리어 분포에 피팅(fitting)되도록 트레이닝된 자동회귀(AR) 프라이어 모델을 사용한다. AR 프라이어 모델을 사용하면 모델은 잠재 피처들에 대한 시간 역학(temporal dynamics)을 학습하고 TTS 시스템은 다양하고 자연스러운 합성 스피치 샘플들을 생성할 수 있다.

다양하고 자연스러운 합성 샘플들 모두를 생성함으로써, TTS 시스템으로부터의 이러한 합성 스피치 샘플들은 다른 스피치 시스템에 통합될 수 있다. 예를 들어, 스피치 인식 시스템은 다양하고 자연스러운 합성 스피치 샘플들을 사용하여 트레이닝할 수 있다. 이것은 스피치 인식이 실제 인간 스피치로부터의 트레이닝 예제의 수가 불충분한 상황에서 특히 유리할 수 있다. 여기서, TTS 시스템에 의해 생성된 합성 스피치 샘플들은, 스피치 인식 시스템이 인간 스피치 샘플들에 일반적으로 존재할 수 있는 작은 운율 변이들에 대해 충분히 트레이닝되고 및/또는 여전히 트레이닝될 수 있도록; 스피치 인식 시스템에서 이용가능한 인간 스피치의 트레이닝 예제의 수를 보완하거나 증가시킬 수 있다. 추가적으로 또는 대안적으로, 이러한 다양하고 자연스러운 합성 스피치 샘플들은 추가적인 인간 스피치 트레이닝 샘플들 없이도 스피치 인식 시스템을 완전히 트레이닝시킬 수 있다. 여기서 합성 스피치 샘플만을 사용하여 스피치 인식 시스템을 트레이닝하면 인간 스피치의 트레이닝 샘플들을 캡처하는 비용이 많이 드는 프로세스를 피할 수 있고 적절한 수의 스피치 샘플들로 스피치 인식 시스템을 일관되게 트레이닝하는 데 도움이 될 수 있다.

도 1을 참조하면, 일부 구현예에서, 스피치 환경(100)은 스피치 지원 디바이스(110)(디바이스(110) 또는 사용자 디바이스(110)라고도 함)에 음성 발화(12)를 통신하는 사용자(10)를 포함한다. 사용자(10)(즉, 발화(12)의 화자)는 디바이스(110)로부터의 응답을 요청하거나 디바이스(110)가 쿼리에 의해 지정된 태스크를 실행하도록 하기 위해 발화(12)를 쿼리 또는 명령으로서 말할 수 있다. 디바이스(110)는 스피치 환경(100) 내의 하나 이상의 사용자들(10)로부터 사운드를 캡처하도록 구성된다. 여기서, 오디오 사운드는 가청 쿼리, 디바이스(110)에 대한 명령 또는 디바이스(110)에 의해 캡처된 가청 통신의 기능을 하는 사용자(10)의 발화(12)를 의미할 수 있다. 디바이스(110)의 또는 디바이스(110)와 연관된 스피치 지원 시스템(예를 들어, 디지털 어시스턴트 인터페이스)은 쿼리에 응답하고/하거나 명령이 수행되게 함으로써 명령에 대한 쿼리를 필드화할 수 있다.

여기서, 디바이스(110)는 사용자(10)에 의한 발화(12)에 대응하는 오디오 데이터(14)를 캡처한다. 디바이스(110)는 사용자(10)와 연관되고 오디오 데이터(14)를 수신할 수 있는 임의의 컴퓨팅 디바이스에 대응할 수 있다. 사용자 디바이스(110)의 일부 예는 모바일 디바이스(예를 들어, 모바일 폰, 태블릿, 랩탑, 전자책 리더기 등), 컴퓨터, 웨어러블 디바이스(예를 들어, 스마트 워치), 음악 플레이어, 캐스팅 디바이스, 스마트 기기(예를 들어, 스마트 텔레비전) 및 사물 인터넷(IoT) 디바이스, 원격 컨트롤러, 스마트 스피커 등을 포함하지만, 이에 제한되지 않는다. 디바이스(110)는 데이터 프로세싱 하드웨어(112) 및 데이터 프로세싱 하드웨어(112)와 통신하고 데이터 프로세싱 하드웨어(112)에 의해 실행될 때 데이터 프로세싱 하드웨어(112)로 하여금 스피치 및/또는 텍스트 프로세싱과 관련된 하나 이상의 동작들을 수행하게 하는 명령어들을 저장하는 메모리 하드웨어(114)를 포함한다. 일부 예에서, 디바이스(110)는 하나 이상의 애플리케이션(즉, 소프트웨어 애플리케이션)을 포함하며, 각 애플리케이션은 애플리케이션 내에서 다양한 기능들을 수행하기 위해 디바이스(110)와 연관된 하나 이상의 스피치 프로세싱 시스템/모델(140, 150, 200)을 활용할 수 있다. 예를 들어, 디바이스(110)는 합성 재생 오디오(154)(합성 스피치(154)라고도 함)를 사용자(10)와 통신하여 사용자(10)와 대화하고 다양한 태스크의 수행을 지원하도록 구성된 어시스턴트 애플리케이션을 포함한다.

디바이스(110)는 또한 스피치 환경(100) 내의 오디오 데이터(14)를 캡처하여 전기 신호로 변환하기 위한 오디오 캡처링 디바이스(예를 들어, 마이크로폰)(116) 및 가청 오디오 신호(예를 들어, 디바이스(110)로부터의 합성 재생 신호(154))를 통신하기 위한 스피치 출력 디바이스(예를 들어, 스피커)(118)를 갖는 오디오 서브시스템을 포함한다. 디바이스(110)는 도시된 예에서 단일 오디오 캡처링 디바이스(116)를 구현하지만, 디바이스(110)는 본 발명의 범위를 벗어나지 않고 오디오 캡처링 디바이스(116)의 어레이를 구현할 수 있으며, 어레이 내의 하나 이상의 오디오 캡처링 디바이스들(116)은 다바이스(110)에 물리적으로 상주하지 않지만 오디오 서브시스템(예를 들어, 디바이스(110)의 주변 장치)과 통신할 수 있다. 예를 들어, 디바이스(110)는 차량 전체에 배치된 마이크로폰들의 어레이를 활용하는 차량 인포테인먼트 시스템에 대응할 수 있다. 유사하게, 스피치 출력 디바이스(118)는 디바이스(110)에 상주하거나 그와 통신하는 하나 이상의 스피커들을 포함하거나, 또는 하나 이상의 스피커들이 디바이스(110)에 상주하고 하나 이상의 다른 스피커들이 디바이스(110)에서 물리적으로 제거되지만 디바이스(110)와 통신하는 조합을 포함할 수 있다.

또한, 디바이스(110)는 네트워크(120)를 통해 원격 시스템(130)과 통신하도록 구성된다. 원격 시스템(130)은 원격 데이터 프로세싱 하드웨어(134)(예를 들어, 원격 서버 또는 CPUs) 및/또는 원격 메모리 하드웨어(136)(예를 들어, 원격 데이터베이스 또는 다른 스토리지 하드웨어)와 같은 원격 리소스(132)를 포함할 수 있다. 디바이스(110)는 스피치 프로세싱 및/또는 합성 재생 통신과 관련된 다양한 기능들을 수행하기 위해 원격 리소스들(132)을 활용할 수 있다. 예를 들어, 디바이스(110)는 스피치 인식 시스템(140)을 사용하여 스피치 인식 및/또는 TTS 시스템(150)을 사용하여(예를 들어, TTS 모델(200)을 사용하여) 텍스트를 스피치로 변환하도록 구성된다. 이러한 시스템/모델(140, 150, 200)은 디바이스(110) 상에 상주하거나(온-디바이스 시스템이라고 함) 원격에 상주할 수 있지만(예를 들어, 원격 시스템(130)에 상주) 장치(110)와 통신할 수 있다. 일부 예에서, 이들 시스템(140, 150, 200) 중 일부는 로컬 또는 디바이스 상에 상주하는 반면 다른 시스템은 원격에 상주한다. 즉, 이들 시스템(140, 150, 200) 중 임의의 시스템은 로컬, 원격 또는 둘 다 임의의 조합일 수 있다. 예를 들어, 시스템(140, 150, 200)이 크기나 프로세싱 요구 사항이 다소 큰 경우 시스템(140, 150, 200)은 원격 시스템(130)에 상주할 수 있다. 그러나 디바이스(110)가 하나 이상의 시스템(140, 150, 200)의 크기 또는 프로세싱 요구 사항을 지원할 수 있는 경우, 하나 이상의 시스템(140, 150, 200)은 데이터 프로세싱 하드웨어(112) 및/또는 메모리 하드웨어(114)를 사용하여 디바이스(110)에 상주할 수 있다. 선택적으로 하나 이상의 시스템(140, 150, 200)은 로컬/온-디바이스 및 원격 모두에 상주할 수 있다. 예를 들어, 시스템(140, 150, 200) 중 하나 이상은 디바이스(110)와 원격 시스템(130) 사이의 네트워크(120)에 대한 연결이 이용가능할 때 원격 시스템(130)에서 실행되도록 기본 설정될 수 있지만, 연결이 손실되거나 네트워크(120)가 이용 불가능할 때, 시스템(140, 150, 200)은 대신 디바이스(110)에서 로컬로 실행된다.

스피치 인식 시스템(140)은 입력으로서 오디오 데이터(14)를 수신하고 그 오디오 신호를 출력으로서 전사(transcription)(142)로 전사한다. 일반적으로 말해서, 오디오 데이터(14)를 전사(142)로 변환함으로써, 스피치 인식 시스템(140)은 디바이스(110)가 사용자(10)로부터의 음성 발화(12)가 쿼리, 명령, 또는 어떤 다른 형태의 오디오 통신에 대응할 때를 인식할 수 있게 한다. 즉, 스피치 인식 시스템(140)은 전사(142)에 대한 쿼리 해석(예를 들어, 시맨틱 분석)을 수행하기 위해 자연어 이해(NLU) 기능을 포함할 수 있다. 전사(142)는 디바이스(110)가 쿼리 또는 명령에 대한 응답을 생성하기 위해 사용할 수 있는 텍스트의 시퀀스를 말한다. 예를 들어, 사용자(10)가 디바이스(110)에게 "오늘 날씨는 어때?"라는 질문을 하면, 디바이스(110)는 "오늘 날씨는 어때?"라는 질문에 대응하는 오디오 데이터(14)를 스피치 인식 시스템(140)에 전달한다. 스피치 인식 시스템(140)은 오디오 데이터(14)를 "오늘 날씨는 어때?"라는 텍스트를 포함하는 전사(142)로 변환한다. 디바이스(110)는 그 후 텍스트 또는 텍스트의 일부를 사용하여 쿼리에 대한 응답을 결정할 수 있다. 예를 들어, 현재 날짜(즉, 오늘)의 날씨를 결정하기 위해 디바이스(110)는 텍스트(예를 들어, "오늘 날씨는 어때?") 또는 텍스트의 식별 부분(예를 들어, “날씨” 및 “오늘”)을 검색 엔진에 전달한다. 검색 엔진은 사용자(10)에 대한 응답을 생성하기 위해 디바이스(110)가 해석하는 하나 이상의 검색 결과들을 반환할 수 있다.

일부 구현예에서, 디바이스(110) 또는 디바이스(110)와 연관된 시스템은 디바이스(110)가 음성 발화(12)의 쿼리에 대한 응답으로서 사용자(10)에게 전달할 텍스트(152)(텍스트의 시퀀스(152) 또는 입력 텍스트(152)라고도 함)를 식별한다. 그 다음 디바이스(110)는 TTS 시스템(150)을 사용하여 디바이스(110)가 음성 발화(12)의 쿼리에 대한 응답으로서 사용자(10)와 통신(예를 들어, 사용자(10)에게 청각적으로 통신)하기 위해 텍스트(152)를 대응하는 합성 재생 오디오(154)로 변환할 수 있다. 즉, TTS 시스템(150)은 입력으로서 텍스트(152)를 수신하고 텍스트(152)를 (예를 들어, 일련의 신경 네트워크를 통해) 합성 재생 오디오(154)의 출력으로 변환하며, 여기서 합성 재생 오디오(154)는 텍스트(152)의 가청 렌디션(rendition)을 정의하는 오디오 신호이다. 예를 들어, 재생 오디오(154)는 입력 텍스트(152)의 언어화(verbalization) 또는 내레이션이다. 일부 예에서, 입력 텍스트(152)는 특정 자연 언어(예를 들어, 영어, 스페인어 또는 프랑스어)로 된 텍스트 또는 문자들의 시퀀스를 나타낸다. 문자들의 시퀀스에는 글자, 숫자, 문장 부호 및/또는 기타 특수 문자가 포함될 수 있다. TTS 시스템(150)이 재생 오디오(154)를 생성할 때, 재생 오디오(154)는 인간이 입력 텍스트(152)를 정의하는 문자들의 시퀀스를 언어화하는 방식에 근접한 합성 스피치를 포함한다.

TTS 시스템(150)(또는 다른 스피치 합성 시스템)은 합성 재생 오디오(154)를 생성하기 위해 심층 신경 네트워크(예를 들어, 어텐션 기반 Tacotron 네트워크)를 활용하는 TTS 모델(200)(예를 들어, 도 2의 TTS 모델(200))을 포함한다. 일부 구현예에서, TTS 모델(200)은 스피치 피처들(예를 들어, 입력 텍스트(152)의 피처들)의 인코딩된 표현인 임베딩들을 프로세싱하여 오디오 파형(예를 들어, 시간에 따른 오디오 신호의 진폭을 정의하는 시간 도메인 오디오 파형)을 생성한다. 일단 생성되면, TTS 시스템(150)은 디바이스(110)가 합성 재생 오디오(154)를 출력할 수 있도록 합성 재생 오디오(154)를 디바이스(110)에 전달한다. 예를 들어, 디바이스(110)는 하나 이상의 스피커들(118)로부터 "오늘은 맑습니다"라는 합성 재생 오디오(154)를 청각적으로 출력한다. 여기서, TTS 시스템(150)의 TTS 모델(200)은 합성 스피치(154)의 스피치 관련 속성들을 제어하도록 구성된다. 즉, TTS 모델(200)은 자연스러움 측면에서 인간 화자의 보이스를 시뮬레이션할 수 있도록 구성되어 있으며, 세분화된 잠재 피처들을 모델링함으로써 다양한 합성 스피치를 생성할 수 있다. 도 1은 어시스턴트 애플리케이션의 컨텍스트에서 TTS 시스템(150)의 예를 도시하고 있지만, TTS 시스템(150)은 (예를 들어, TTS 모델(200)을 사용함) 예를 들어 보이스 검색, 내비게이션 또는 문서 읽기와 같은 다른 텍스트 스피치 변환 시나리오에 적용가능하다.

도 2a 내지 도 2c를 참조하면, 일부 예에서, TTS 모델(200)은 인코더(202) 및 디코더(204)를 포함하는 인코더-디코더 네트워크 아키텍처를 갖는다. 일부 구현예에서, 인코더-디코더(202, 204) 구조는 Tacotron 2(예를 들어, Shen, Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions에 설명되어 있으며, https://arxiv.org/pdf/1712.05884.pdf에서 이용가능하고, 여기에 참조로 포함됨)의 시퀀스-투-시퀀스 순환 신경 네트워크(RNN)에 대응한다. 일부 구성에서, 인코더(202)는 입력 텍스트(152) 또는 입력 텍스트(152)에 대응하는 임베딩(예를 들어, 문자 임베딩)을 수신하고 디코더(204)는 나중에 생성할 각각의 멜 주파수 스펙트로그램에 대한 컨텍스트 벡터(Vc)를 생성하도록 구성된다. 컨텍스트 벡터(Vc)는 고정 길이일 수 있고 일반적으로 입력 텍스트(152)를 형성하는 문자들의 시퀀스에 대응하는 특정 포지션에 나타나는 피처들을 정의한다. 일부 구성에서, 텍스트 입력(152)은 인코더(202)에 입력되기 전에 먼저 (예를 들어, 정규화 엔진을 통해) 음소 시퀀스로 변환된다.

인코더(202)는 양방향 장단기 메모리(LTSM) 레이어가 뒤따르는 하나 이상의 콘볼루션 레이어를 포함할 수 있다. 레이어의 각 컨볼루션에 있는 뉴런은 이전 레이어에 있는 뉴런의 작은 서브셋으로부터 입력을 수신할 수 있다. 이와 관련하여, 뉴런 연결은 컨벌루션 레이어가 입력 텍스트(152)에 대응하는 문자들의 시퀀스의 포지션에 숨겨진 특정 피처들이 나타날 때 활성화되는 필터를 학습할 수 있도록 한다. 일부 구현예에서, 각 컨볼루션 레이어의 필터는 일련의 문자들(예를 들어, 4자, 5자 또는 6자)에 걸쳐 있을 수 있다. 각 컨볼루션 레이어 뒤에는 배치(batch) 정규화 및 정류된 선형 유닛(rectified linear unit)(RELU)들이 뒤따를 수 있다. 인코더(202)가 하나 이상의 컨벌루션 레이어를 포함하는 경우, 양방향 LSTM 레이어가 이들 컨벌루션 레이어를 따를 수 있다. 여기서 양방향 LSTM은 입력 텍스트(152)에 대응하는 문자들의 시퀀스의 순차적 피처 표현을 생성하기 위해 최종 컨벌루션 레이어에 의해 생성된 숨겨진 피처들을 프로세싱하도록 구성된다. 순차적 피처 표현은 피처 벡터들의 시퀀스를 포함할 수 있다.

일부 구현예에서, 인코더(202)는 또한 인코더(204)로부터 순차적 피처 표현을 수신하고 각각의 디코더 출력 단계에 대한 컨텍스트 벡터(Vc)를 생성하기 위해 순차적 피처 표현을 프로세싱하도록 구성된 어텐션 네트워크를 포함한다. 즉, 어텐션 네트워크는 디코더(204)가 나중에 생성할 멜 주파수 스펙트로그램의 각 프레임에 대해 고정 길이 컨텍스트 벡터(Vc)를 생성할 수 있다. 프레임은 입력 신호의 작은 부분(예를 들어, 10밀리초 샘플)에 기초하는 멜 주파수 스펙트로그램의 유닛을 나타낸다. 어텐션 네트워크의 아키텍처는 특정 TTS 시스템(150)에 따라 달라질 수 있다. 어텐션 네트워크의 몇 가지 예에는 추가 어텐션 네트워크, 위치-감응형 어텐션 네트워크, 가우시안 혼합 모델(GMM) 어텐션 네트워크(예를 들어, 긴 발화에 대한 일반화를 개선하기 위해), 포워드 어텐션 네트워크, 단계적 단조(stepwise monotonic) 어텐션 네트워크 또는 동적 컨벌루션 어텐션 네트워크를 포함한다. 어텐션 네트워크를 사용하여 모델(200)은 컨텍스트 벡터(Vc)를 생성하기 위해 특정 어텐션 가중치를 수신하는 추가 입력(예를 들어, 스피치 임베딩(e))에 기초하여 출력 시퀀스(예를 들어, 출력 로그-멜 스펙트로그램 프레임들의 시퀀스)를 생성할 수 있다.

디코더(204)는 의도된 스피치 관련 속성들(예를 들어, 의도된 운율 및/또는 스피치 특성들)을 포함하는 표현력있는 스피치의 출력 오디오 신호 AS(예를 들어, 출력 시퀀스 멜-주파수 스펙트로그램)를 생성하기 위해 신경 네트워크(예를 들어, 자동회귀 순환 신경 네트워크)로 구성된다. 예를 들어, 컨텍스트 벡터(Vc)에 기초하여, 디코더(204)는 인코더(202)에 의해 생성된 인코딩된 표현으로부터 스피치 신호(예를 들어, 멜 프레임 또는 스펙트로그램 프레임)의 표현을 예측한다. 즉, 디코더(204)는 입력으로서 하나 이상의 컨텍스트 벡터(Vc)를 수신하도록 구성되고 각각의 컨텍스트 벡터(Vc)에 대해 멜-주파수 스펙트로그램이 사운드의 주파수-도메인 표현인 멜-주파수 스펙트로그램의 대응하는 프레임을 생성할 수 있다. 일부 예에서, 디코더(204)는 Tacotron 2와 유사한 아키텍처를 포함한다. 즉, 디코더(204)는 프리-넷, 장단기 메모리(LSTM) 서브네트워크, 선형 프로젝션 및 컨벌루션 포스트-넷을 포함하는 아키텍처를 포함할 수 있다.

일부 구성에서, TTS 모델(200)은 또한 스피치 합성기(206)(합성기(206)라고도 함)를 포함한다. 합성기(206)는 멜 주파수 스펙트로그램을 수신하고 합성 스피치(154)로서 멜 주파수 스펙트로그램에 기초하여 오디오 출력 샘플을 생성하도록 구성된 임의의 네트워크일 수 있다. 일부 다른 구현예에서, 합성기(206)는 보코더를 포함한다. 예를 들어, 스피치 합성기(206)는 WaveRNN 보코더(예를 들어, https://arxiv.org/abs/1712.05884에서 이용가능한, 예를 들어, J. Shen, et al.의 "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"에 기술된 바와 같이)를 포함할 수 있다. 여기서 WaveRNN 보코더는 TTS 모델(200)에 의해 예측된 스펙트로그램에 따라 24kHz로 샘플링된 16비트 신호를 생성할 수 있다. 일부 다른 구현예에서, 합성기(206)는 파형 인버터에 대한 트레이닝가능한 스펙트로그램이다. 합성기(206)가 파형을 생성한 후, 오디오 서브시스템은 파형을 사용하여 합성 스피치(154)를 생성하고 (예를 들어, 디바이스(110) 상에서) 재생하기 위해 합성 스피치(154)를 제공하거나, 생성된 파형을 다른 시스템에 제공하여 다른 시스템이 합성 스피치(154)를 생성하고 재생할 수 있도록 한다. 일반적으로, 합성기(206)는 합성 스피치(154)의 결과적인 운율 및/또는 스타일에 거의 또는 전혀 영향을 미치지 않으며, 실제로는 합성기(206)가 스피치 신호의 표현(예를 들어, 디코더(204)에 의해 출력되는 멜 프레임 또는 스펙트로그램 프레임)의 표현을 파형으로 변환할 때 합성 스피치(154)의 오디오 충실도에만 영향을 미친다.

계속해서 도 2b 및 2c를 참조하면, 일부 구현예에서, 인코더(202)는 제1 인코더 부분(202, 202a)으로 지칭되는 제1 브랜치 및 제2 인코더 부분(202, 202b)으로 지칭되는 제2 브랜치를 포함하는 2개 브랜치 시스템이다. 일부 예에서, 제1 인코더 부분(202a)은 Tacotron 2에서 사용되는 인코더의 기능을 나타내는 반면, 제2 인코더 부분(202b)은 다양하고 자연스러운 스피치 샘플들을 생성하기 위해 Tacotron 2 구조가 QF-VAE를 인코더 구조에 통합할 수 있도록 한다. 제1 인코더 부분(202a)은 입력으로서 텍스트의 시퀀스(152)를 수신하고, 텍스트의 시퀀스(152)를 나타내는 스피치 임베딩(e)으로 지칭되는 인코딩을 생성한다. 예를 들어, 제 1 인코더 부분(202a)은 텍스트의 시퀀스(152)와 연관된 스피치 유닛들의 시퀀스를 분할 또는 식별하고 각각의 식별된 스피치 유닛에 대응하는 스피치 임베딩(e)을 생성한다. 일부 예에서, 스피치 유닛은 음소이고 제1 인코더 부분(202a)은 텍스트의 시퀀스(152)에 존재하는 각각의 음소에 대한 스피치 임베딩(e)을 생성한다. 예를 들어, 도 2b는 "오늘 날씨는 어때?"라는 쿼리의 일부에 대응하는 텍스트(152)를 입력으로서 수신하는 TTS 모델(200)을 도시한다. 여기서, 제1 인코더 부분(202a)은 이 텍스트(152)가 8개의 음소들을 포함하고 있음을 식별하고 8개의 스피치 임베딩들(e, e_1-8)을 생성하며, 여기서 각각의 스피치 임베딩(e)은 음소의 인코딩된 표현에 대응한다. 그 다음, 제1 인코더 부분(202b)은 생성된 스피치 임베딩(e)을 제2 인코더 브랜치(202b)로 전달할 수 있다.

제2 브랜치(202b)는 피처 생성기(210)를 사용하여 잠재 피처들(212)을 생성하기 위해 제1 브랜치(202a)와 함께 동작한다. 잠재 피처들(212)은 운율과 같은 스피치 관련 속성들을 인코딩된 형태로 나타낸다. 제2 인코더 부분(202b)은 제1 인코더 브랜치(202a)에 의해 식별되는 입력 텍스트(152)의 각각의 스피치 유닛과 연관된 스피치 관련 속성들을 인코딩한다. 일부 예에서, 잠재 피처들(212)을 생성하기 위해, 제2 인코더 부분(202b)은 스피치 관련 속성들을 포함하는 타겟 또는 레퍼런스 스펙트로그램(208)을 식별할 필요가 있다. 즉, 텍스트 시퀀스(152)는 일반적으로 텍스트 시퀀스(152)에 대응하는 스피치 관련 속성들의 레이블이나 식별자가 없는 문자들로 구성된다. 이러한 경우에, 제2 인코더 부분(202b)의 피처 생성기(210)는 잠재 변수 공간(즉, 스피치 관련 속성들을 나타내는 공간)의 분포를 나타내는 레퍼런스 스펙트로그램(208)을 획득하도록 구성된다. 일부 예에서, 레퍼런스 스펙트로그램(208)을 획득하기 위해, 피처 생성기(210)는 잠재 변수 공간의 분포를 샘플링한다. 피처 생성기(210)가 레퍼런스 스펙트로그램(208)을 획득할 때, 피처 생성기(210)는 제1 인코더 부분(202a)으로부터 수신된 텍스트 입력(152)에 대응하는 임베딩들(e)의 시퀀스를 레퍼런스 스펙트로그램(208)과 정렬한다.

일부 구현예에서, 피처 생성기(210)는 어텐션 메커니즘(예를 들어, 위치-감응형 어텐션 메커니즘)을 사용하여 1 인코더 부분(202a)으로부터 수신된 텍스트 입력(152)에 대응하는 임베딩들(e, e_1-n)의 시퀀스를 레퍼런스 스펙트로그램(208)과 정렬한다. 제1 인코더 부분(202a)으로부터 수신된 텍스트 입력(152)에 대응하는 임베딩들(e)의 시퀀스를 레퍼런스 스펙트로그램(208)과 정렬함으로써, 피처 생성기(210)는 피처 생성기(210)가 잠재 피처들(212)을 추출할 레퍼런스 스펙트로그램(208)의 부분을 식별한다. 즉, 피처 생성기(210)는 제1 인코더 부분(202a)에 의해 생성된 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(208)의 대응하는 부분으로부터 잠재 피처들(212, 212a-n)(도 2c)을 추출한다. 도 2c의 예에서, 8개의 임베딩들(e_1-8)이 레퍼런스 스펙트로그램(208)과 정렬될 때, 피처 생성기(210)는 레퍼런스 스펙트로그램(208)의 8개의 세그먼트 또는 부분을 식별한다. 레퍼런스 스펙트로그램(208)의 8개 세그먼트의 각각의 식별된 세그먼트에 대해, 피처 생성기(210)는 특정 세그먼트를 표현하기 위해 잠재 피처(212)(예를 들어, 스피치 관련 속성)를 추출한다. 도 2c를 참조하면, 피처 생성기(210)는 입력 텍스트(152)로부터 8개의 음소 또는 스피치 유닛들에 대응하는 8개의 잠재 피처들(212, 212a-h)을 생성 또는 추출한다. 제1 인코더 브랜치(202a)에 의해 식별된 스피치 유닛들(예를 들어, 음소)에 대한 잠재 피처들(212)을 생성함으로써, 피처 생성기(210)는 세분화된 레벨에서 스피치 관련 속성들을 나타내는 역할을 한다.

피처 생성기(210)는 잠재 피처들(212)을 제2 인코더 부분(202b)의 양자화기(220)에 전달한다. 양자화기(220)는 양자화 프로세스를 수행하도록 구성된다. 양자화 프로세스는 일반적으로 입력 파라미터들을 더 작은 출력 값들의 데이터 세트로 변환하는 프로세스를 말한다. 일부 예들에서, 양자화기는 몇몇 상이한 양자화된 임베딩들(q, q1-n)을 포함하는 코드북을 포함한다. 즉, 코드북은 상이한 양자화된 임베딩들(q)의 데이터베이스로서 기능하며, 여기서 코드북의 크기는 특정한 연속 잠재 피처들(212)을 나타낼 수 있는 잠재적인 이산 양자화된 임베딩들(q)의 수에 대응한다. 양자화기(220)는 어떤 코드북 엔트리 또는 양자화된 임베딩(q)이 특정 잠재 피처(212)를 나타내야 하는지를 결정하도록 구성된다. 일부 예에서, 양자화기(220)는 각각의 양자화된 임베딩(q)과 특정 잠재 피처(212) 사이의 유클리드 거리를 최소화하는 양자화된 임베딩(q)을 결정함으로써 어떤 양자화된 임베딩(q)이 특정 잠재 피처(212)를 나타내야 하는지를 결정한다. 더 구체적으로, 양자화기(220)는 각각의 양자화된 임베딩(q)과 복수의 유클리드 거리를 생성하는 특정 잠재 피처(212) 사이의 각각의 유클리드 거리를 결정한다. 복수의 유클리드 거리로부터, 양자화기(220)는 가장 작은 유클리드 거리(즉, 최소값)를 선택하고 가장 작은 유클리드 거리에 대응하는 양자화된 임베딩(q)이 잠재 피처(212)에 대한 양자화된 임베딩(q)로서 잠재 피처(212)를 나타낼 것이라고 결정한다. 즉, 양자화기(220)는 가장 작은 유클리드 거리에 대응하는 양자화된 임베딩(q)을 잠재 피처(212)에 할당할 것이다.

도 2c를 참조하면, 피처 생성기(210)에 의해 생성된 8개의 잠재 피처들(212, 212a-h) 각각을 나타낼 양자화된 임베딩(q)를 결정하는 양자화기(220)가 도시된다. 예를 들어, 여기서 임베딩 공간은 잠재적인 양자화된 임베딩들(q)의 코드북을 나타낸다. 이 예에서, 양자화기(220)는 이미 제8 양자화된 임베딩(q, q₈)을 제1 잠재 피처(212a)에, 제1 양자화된 임베딩(q, q₁)을 제2 잠재 피처(212b)에 할당하고, 제8 양자화된 임베딩(q, q₈)을 또한 제3 잠재 피처(212c)를 나타내기 위해 할당하고, 제3 양자화된 임베딩(q, q₃)을 제4 잠재 피처(212d)에 할당했으며, 그리고 현재 제37 양자화된 임베딩(q, q₃₇)을 제5 잠재 피처(212e)에 할당하고 있다. 이 예에서, 제8 양자화된 임베딩(q₈)은 제1 잠재 피처(212a) 및 제3 잠재 피처(212c) 모두를 나타내며, 이는 잠재 피처들(212a,c) 모두에 대한 가장 대표적인 양자화된 임베딩(q)이기 때문이다(예를 들어, 최소 유클리드 거리 접근법에 따라). 여기서, 제1 잠재 피처(212a)는 제3 잠재 피처(212c)와 동일하거나 다를 수 있지만, 여전히 동일한 대표 양자화된 임베딩(q)에 가장 가깝다.

2개의 브랜치 인코더(202)로, 각각의 브랜치(202a,b)는 임베딩을 디코더(204)에 통신한다. 제1 브랜치(202a)는 입력 텍스트(152)의 스피치 유닛들에 대한 스피치 임베딩들(e)을 생성한다. 제2 브랜치(202b)는 제1 브랜치(202a)로부터의 스피치 임베딩들(e)과 정렬된 스피치 유닛들로부터 추출된 스피치 관련 속성들을 나타내는 양자화된 임베딩(q)을 생성한다. 도 2b와 같은 일부 예에서, 인코더(202)는 제2 브랜치(202b)로부터의 입력 텍스트(152)에 대한 양자화된 임베딩들(q) 및 제1 브랜치(202a)로부터의 음성 임베딩들(e)을 함께 연결하고, 결과 연결 임베딩(들)(230)을 재구성을 위해 디코더(204)에 전달한다(즉, 디코더(204)는 결과 연결 임베딩(230)을 디코딩한다). 예를 들어, 각 브랜치(202a,b)는 디코더(204)로 전달되기 전에 시퀀스의 각 단계에서 함께 연결되는 임베딩들의 시퀀스를 생성한다.

도 3을 참조하면, 다양하고 자연스러운 합성 스피치 샘플들(154)을 생성하도록 TTS 모델(200)을 가르치기 위해, TTS 모델(200)은 트레이닝 프로세스(300)를 거친다. 트레이닝 프로세스(300)의 제1 단계(310) 동안, 트레이닝 프로세스(300)는 복수의 트레이닝 샘플들(162, 162a-n)을 사용하여 하나 이상의 합성 스피치 샘플들(154)을 생성하도록 TTS 모델(200)을 트레이닝한다. 복수의 트레이닝 샘플들(162, 162a-n)의 각각의 트레이닝 샘플(162)은 텍스트의 트레이닝 시퀀스(164) 및 텍스트의 트레이닝 시퀀스(164)에 대응하는 레퍼런스 트레이닝 스펙트로그램(166)을 포함한다. 즉, 각각의 트레이닝 샘플(162)은 발화를 나타내는 각각의 트레이닝 스펙트로그램(166) 및 발화의 전사에 대응하는 텍스트의 각각의 트레이닝 시퀀스(164)를 포함한다. 트레이닝 프로세스(300)의 제1 단계(310) 동안, 트레이닝 프로세스(300)는 인코더-디코더(202, 204) 네트워크를 함께 트레이닝하기 위해 최대 우도 접근법을 사용한다. 즉, 제1 단계(310) 동안, 인코더/디코더(202, 204)는 교사 강제(teacher forcing)로 알려진 트레이닝 기법에서 이전 시간 단계로부터의 정확한 출력을 입력으로서 수신한다. 텍스트의 트레이닝 시퀀스(174) 및 그에 대응하는 레퍼런스 트레이닝 스펙트로그램(166)으로, 트레이닝 프로세스(300)는 도 2a-2c에 기술된 바와 같이, TTS 모델(200)의 구현(즉, 추론)과 유사한 방식으로 트레이닝 샘플(162)을 프로세싱하도록 TTS 모델(200)을 트레이닝한다. 트레이닝 프로세스(300)는 TTS 모델(200)이 텍스트(152)의 특정 시퀀스에 대해 자연스럽고 다양한 합성 스피치 샘플(154)을 생성할 수 있음을 보장하기 위해 각 트레이닝 샘플(162)에 대해 이러한 트레이닝 단계를 반복한다. 일부 예에서, 트레이닝 프로세스(300)는 트레이닝 프로세스(300) 동안 증거 하한(ELBO) 손실을 최적화함으로써 TTS 모델(200)을 트레이닝한다. ELBO 손실은 다음 방정식으로 나타낼 수 있다.

여기서 제1 항, 는 재구성 손실이고, 제2 항, 는 프라이어 분포와 포스테리어 분포 사이의 KL 다이버전스이고, z는 잠재 피처들의 시퀀스를 나타내며, 여기서 z_n은 n번째 음소에 대한 잠재 표현에 대응한다. 여기서, X는 레퍼런스 트레이닝 스펙트로그램(166)이고 Y는 스피치 임베딩(e)(예를 들어, 제1 브랜치(200a)로부터의 음소 인코딩)을 나타낸다.

각각의 트레이닝 샘플(162)에 대해, 제1 단계(310)의 트레이닝 프로세스(300)는 레퍼런스 트레이닝 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)와 연관된 스피치 유닛들의 시퀀스를 식별한다. 스피치 유닛들의 시퀀스의 각 스피치 유닛에 대해, 트레이닝 프로세스(300)는 스피치 임베딩(e)을 생성하고 스피치 임베딩(e)을 레퍼런스 트레이닝 스펙트로그램(166)의 대응하는 부분과 정렬하도록 TTS 모델(200)을 (예를 들어, 제1 인코더 브랜치(202a)에서) 트레이닝한다. 레퍼런스 트레이닝 스펙트로그램(166)의 대응하는 부분에 대해, 트레이닝 프로세스(300)는 TTS 모델(200)을 (예를 들어, 제2 인코더 브랜치(202b)에서) 트레이닝하여 스피치 임베딩(e)과 정렬하는 레퍼런스 트레이닝 스펙트로그램(166)의 대응하는 부분으로부터 잠재 피처(212)를 추출한다. 트레이닝 프로세스(300)는 모델(200)을 트레이닝하여 스피치 임베딩(e)과 정렬된 레퍼런스 트레이닝 스펙트로그램(166)의 대응하는 부분으로부터 잠재 피처(212)에 양자화된 임베딩(q)을 할당하도록 진행한다. 레퍼런스 트레이닝 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)와 연관된 스피치 유닛들의 시퀀스에 대한 스피치 임베딩(e) 및 양자화된 임베딩(q)으로, 트레이닝 프로세스(300)는 디코더(204)가 스피치 임베딩(e) 및 양자화된 임베딩(q)의 연결(230)을 디코딩하도록 트레이닝한다.

트레이닝 프로세스(300)가 다수의 트레이닝 샘플들(162)에 대해 반복된 후에, 트레이닝 프로세스(300)는 잠재 공간의 정확한 포스테리어 분포(170)를 생성하는 방법을 학습하도록 TTS 모델(200)을 트레이닝한다. 불행하게도, 포스테리어 분포(170)는 실제 스피치 스펙트로그램(즉, 레퍼런스 트레이닝 스펙트로그램(166))으로부터 도출되기 때문에, 모델(200)이 추론을 진행할 때, 모델(200)은 대응하는 레퍼런스 스펙트로그램(166) 없이 입력 텍스트(152)를 수신할 것이다. 레퍼런스 스펙트로그램(166)이 없으면, TTS 모델(200)은 잠재 피처 생성에 대한 가이드가 없을 것이다.

이러한 레퍼런스 스펙트로그램(208)의 부족을 극복하기 위해, 트레이닝 프로세스(300)의 제2 단계(320)는 모델(200)의 자동회귀(AR) 프라이어 네트워크(201)를 트레이닝하여 포스테리어 분포(170)로부터 잠재 피처 시퀀스의 시간적 일관성을 모델링한다. 즉, AR 프라이어 네트워크(201)는 프라이어 분포(180)를 형성하기 위해 제1 단계(310)에서 학습된 트레이닝 데이터(162)에 대해 포스테리어 분포(170)를 맞추도록 트레이닝된다. 포스테리어 분포(170)에 맞는 프라이어 분포(180)로, AR 프라이어 네트워크(201)는 모델(200)에 대한 잠재 피처 생성을 가이드하기 위해 입력 텍스트(152)를 수신할 때 레퍼런스 스펙트로그램(208)을 모델(200)에 공급할 수 있다. 제2 단계(320)의 트레이닝 프로세스(300) 동안, 트레이닝 프로세스(300)는 각각의 시간 단계에서 프라이어 분포(180) 및 포스테리어 분포(170)가 동일한 분포 계열로부터 나오도록 연속 잠재 공간에 프라이어 AR을 맞추는 것을 목표로 한다. 일부 예에서, 제1 단계(310)와 유사하게, 제2 단계(320)의 트레이닝 프로세스(300)는 포스테리어 분포(170)의 잠재 피처 시퀀스로부터의 교사 강요 기법을 사용하여 AR 프라이어 네트워크(201)를 트레이닝한다. 일부 구현예에서, 제2 단계(320)는 포스테리어 분포(170)(즉, 제1 단계(310))의 트레이닝에 영향을 미치는 것을 피하기 위해 TTS 모델(200)의 다른 부분과 별도로 AR 프라이어 네트워크(201)를 트레이닝한다. AR 프라이어 네트워크(201)는 TTS 모델(200)의 추가 구성요소이거나 TTS 모델(200)의 다른 구성요소의 일부일 수 있다. 예를 들어, 합성기(206)는 트레이닝 프로세스(300)의 제2 단계(320)에 의해 트레이닝된 AR 프라이어 네트워크(201)로서 기능할 수 있다.

도 4는 다양하고 자연스러운 텍스트 스피치 변환 샘플들을 생성하는 방법(400)에 대한 예시적인 동작 배열의 흐름도이다. 동작(402)에서, 방법(400)은 텍스트의 시퀀스(152)를 수신한다. 동작(404)에서, 방법은 텍스트 스피치 변환(TTS) 모델(200)을 사용하여 텍스트의 시퀀스(152)에 기초하여 하나 이상의 스피치 샘플들(154)을 생성한다. 동작(404a 및 404b)에서, 방법(400)은 하나 이상의 스피치 샘플들(154)을 생성하도록 TTS 모델을 트레이닝한다. 동작(404a)에서, 방법(400)은 복수의 트레이닝 샘플들(162)을 수신하며, 여기서 복수의 트레이닝 샘플들(162)의 각 트레이닝 샘플(162)은 레퍼런스 스펙트로그램(166) 및 레퍼런스 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)를 포함한다. 동작(404b)은 방법(400)이 복수의 트레이닝 샘플들(162)의 각 트레이닝 샘플(162)에 대해 수행하는 2개의 하위 동작(404b₁ 및 404b₂)을 포함한다. 하위 동작(404b₁)에서, 방법(400)은 레퍼런스 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)와 연관된 스피치 유닛들의 시퀀스를 식별한다. 여기서, 하위 동작(404b₂)은 방법(400)이 스피치 유닛들의 시퀀스의 각 스피치 유닛에 대해 수행하는 4개의 단계(i)-(iv)로 나누어진다. 하위 동작(404b₂)의 단계 (i)에서, 방법(400)은 스피치 임베딩(e)을 생성한다. 하위 동작(404b₂)의 단계 (ii)에서, 방법(400)은 스피치 임베딩(e)을 레퍼런스 스펙트로그램(166)의 대응하는 부분과 정렬한다. 하위 동작(404b₂)의 단계(iii)에서, 방법(400)은 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터 잠재 피처들(212)을 추출한다. 하위 동작(404b₂)의 의 단계(iv)에서, 방법(400)은 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터의 잠재 피처(212)에 양자화된 임베딩(q)을 할당한다. 동작(406)에서, 방법(400)은 레퍼런스 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)와 연관된 스피치 유닛들의 시퀀스에 대한 스피치 임베딩(e) 및 양자화된 임베딩(q)의 연결(230)을 디코딩한다.

도 5는 본 문서에 기술된 시스템(디바이스(110), 스피치 인식 시스템(140), TTS 시스템(150) 및/또는 TTS 모델(200)) 및 방법(예를 들어, 방법(400))을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 디바이스(500)의 개략도이다. 컴퓨팅 디바이스(500)는 랩탑, 데스크탑, 워크스테이션, 퍼스널 디지털 어시스턴트, 서버, 블레이드 서버, 메인프레임 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내도록 의도된다. 여기에 표시된 구성요소, 연결 및 관계, 기능은 예시일 뿐이며 이 문서에서 설명 및/또는 청구된 발명의 구현을 제한하지 않는다.

컴퓨팅 디바이스(500)는 프로세서(510)(예를 들어, 데이터 프로세싱 하드웨어), 메모리(520)(예를 들어, 메모리 하드웨어), 스토리지 디바이스(530), 메모리(520) 및 고속 확장 포트(550)에 연결되는 고속 인터페이스/컨트롤러(540), 및 저속 버스(570) 및 스토리지 디바이스(530)에 연결되는 저속 인터페이스/컨트롤러(560)를 포함한다. 각각의 구성요소(510, 520, 530, 540, 550 및 560)는 다양한 버스를 사용하여 상호 연결되며, 공통 마더보드 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(510)는 고속 인터페이스(540)에 결합된 디스플레이(580)와 같은 외부 입력/출력 디바이스에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이하기 위해 메모리(520) 또는 스토리지 디바이스(530)에 저장된 명령어들을 포함하여 컴퓨팅 디바이스(500) 내에서 실행하기 위한 명령어들을 프로세싱할 수 있다. 다른 구현예에서, 다중 프로세서 및/또는 다중 버스는 다중 메모리 및 메모리 유형과 함께 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스(500)가 연결될 수 있으며, 각각의 디바이스는 필요한 작업의 일부를 제공한다(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 다중 프로세서 시스템).

메모리(520)는 컴퓨팅 디바이스(500) 내에 비일시적으로 정보를 저장한다. 메모리(520)는 컴퓨터 판독가능 매체, 휘발성 메모리 유닛(들) 또는 비휘발성 메모리 유닛(들)일 수 있다. 비일시적 메모리(520)는 컴퓨팅 디바이스(500)에 의한 사용을 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령어들의 시퀀스들) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는 데 사용되는 물리적 디바이스일 수 있다. 비휘발성 메모리의 예로는 플래시 메모리 및 읽기-전용 메모리(ROM)/프로그래밍 가능한 읽기-전용 메모리(PROM)/지울 수 있는 프로그래밍 가능한 읽기-전용 메모리(EPROM)/전자적으로 지울 수 있는 프로그래밍 가능한 읽기-전용 메모리(EEPROM)(예를 들어, 부트 프로그램과 같은 펌웨어에 일반적으로 사용됨)가 포함되지만 이에 제한되지 않는다. 휘발성 메모리의 예에는 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), 위상 변화 메모리(PCM) 및 디스크나 테이프가 포함되지만 이에 제한되지 않는다.

스토리지 디바이스(530)는 컴퓨팅 디바이스(500)를 위한 대용량 스토리지를 제공할 수 있다. 일부 구현예에서, 스토리지 디바이스(530)는 컴퓨터 판독가능 매체이다. 다양한 상이한 구현예에서, 스토리지 디바이스(530)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광학 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 기타 유사한 솔리드 스테이트 메모리 디바이스, 또는 저장 영역 네트워크(Storage Area Network) 또는 기타 구성들의 디바이스를 포함하는 디바이스들의 배열일 수 있다. 추가 구현예에서, 컴퓨터 프로그램 제품은 정보 매체에 유형적으로 구현된다. 컴퓨터 프로그램 제품은 실행될 때 위에서 설명한 것과 같은 하나 이상의 방법들을 수행하는 명령어들을 포함한다. 정보 매체는 메모리(520), 스토리지 디바이스(530) 또는 프로세서(510) 상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.

고속 컨트롤러(540)는 컴퓨팅 디바이스(500)에 대한 대역폭-집중 동작들을 관리하는 반면, 저속 컨트롤러(560)는 낮은 대역폭-집중 동작들을 관리한다. 이러한 의무 할당은 예시일 뿐이다. 일부 구현예에서, 고속 컨트롤러(540)는 메모리(520), 디스플레이(580)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드들(미도시)를 수용할 수 있는 고속 확장 포트(550)에 결합된다. 일부 구현예에서, 저속 컨트롤러(560)는 스토리지 디바이스(530) 및 저속 확장 포트(590)에 결합된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(590)는 예를 들어 네트워크 어댑터를 통해 키보드, 포인팅 디바이스, 스캐너 또는 스위치나 라우터와 같은 네트워킹 디바이스와 같은 하나 이상의 입출력 디바이스들에 결합될 수 있다.

컴퓨팅 디바이스(500)는 도면에 도시된 바와 같이 다양한 형태로 구현될 수 있다. 예를 들어, 표준 서버(500a)로서 또는 그러한 서버들(500a)의 그룹에서, 랩탑 컴퓨터(500b)로서 또는 랙 서버 시스템(500c)의 일부로서 여러 번 구현될 수 있다.

여기에 설명된 시스템 및 기술의 다양한 구현예는 디지털 전자 및/또는 광학 회로, 집적 회로, 특별히 설계된 ASICs(응용 프로그램 특정 집적 회로들), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예는 스토리지 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스에 대한 데이터 및 명령어들을 수신하고 데이터 및 명령어들을 전송하도록 결합된 특수 또는 범용일 수 있는, 적어도 하나의 프로그래밍가능한 프로세서를 포함하는 프로그래밍가능한 시스템에서 실행가능 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.

이러한 컴퓨터 프로그램(프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 또는 코드라고도 함)은 프로그래밍가능한 프로세서를 위한 기계 명령어들을 포함하며 높은 레벨의 절차적 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, "기계 판독가능 매체" 및 "컴퓨터 판독가능 매체"라는 용어들은 기계 명령어들을 기계 판독가능 신호로 수신하는 기계 판독가능 매체를 포함하여, 프로그램가능 프로세서에 기계 명령어들 및/또는 데이터를 제공하는 데 사용되는 임의의 컴퓨터 프로그램 제품, 비일시적 컴퓨터 판독가능 매체, 장치 및/또는 디바이스(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래밍가능한 논리 디바이스(PLD)들)를 의미한다. "기계 판독가능 신호"라는 용어는 프로그램가능한 프로세서에 기계 명령어들 및/또는 데이터를 제공하는 데 사용되는 모든 신호를 의미한다.

본 명세서에 기술된 프로세스 및 논리 흐름은 데이터 프로세싱 하드웨어라고도 하는 하나 이상의 프로그래밍가능한 프로세서들에 의해 수행될 수 있으며, 하나 이상의 컴퓨터 프로그램들을 실행하여 입력 데이터에 대해 작동하고 출력을 생성함으로써 기능들을 수행할 수 있다. 프로세스 및 논리 흐름은 특수 목적 논리 회로, 예를 들어 FPGA(필드 프로그래밍가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)에 의해 수행될 수도 있다. 컴퓨터 프로그램의 실행에 적합한 프로세서는 예를 들어 범용 및 특수 목적 마이크로프로세서 모두와 모든 종류의 디지털 컴퓨터의 하나 이상의 프로세서들을 포함한다. 일반적으로 프로세서는 읽기 전용 메모리나 랜덤 액세스 메모리 또는 둘 다에서 명령어들과 데이터를 수신한다. 컴퓨터의 필수 요소들은 명령어들을 수행하는 프로세서와 명령어들과 데이터를 저장하는 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 스토리지 디바이스들, 예를 들어 자기, 광자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 데이터를 전송하기 위해 또는 둘 모두를 포함하거나 작동가능하게 결합될 것이다. 그러나 컴퓨터에는 이러한 디바이스들이 필요하지 않다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들; 자기 디스크, 예를 들어 내부 하드 디스크 또는 이동식 디스크; 광자기 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함한 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.

사용자와의 상호 작용을 제공하기 위해, 본 발명의 하나 이상의 양태는 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스, 예를 들어 CRT(음극선관), LCD(액정 디스플레이) 모니터 또는 터치 스크린 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스, 예를 들어 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스를 사용하여 사용자와의 상호 작용도 제공할 수 있다; 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각적 피드백 또는 촉각적 피드백과 같은 임의의 형태의 감각 피드백일 수 있다; 그리고 사용자로부터의 입력은 음향, 스피치 또는 촉각적 입력을 포함한 모든 형태로 수신될 수 있다. 또한 컴퓨터는 사용자가 사용하는 디바이스로 문서를 보내고 디바이스로부터 문서를 수신함으로써 사용자와 상호 작용할 수 있다; 예를 들어, 웹 브라우저에서 받은 요청에 대한 응답으로 사용자 클라이언트 디바이스의 웹 브라우저에 웹 페이지를 보낸다.

많은 구현예가 설명되었다. 그럼에도 불구하고, 본 발명의 사상 및 범위를 벗어나지 않고 다양한 수정이 이루어질 수 있음이 이해될 것이다. 따라서, 다른 구현예는 다음 청구 범위 내에 있다.

Claims

컴퓨터 구현 방법(400)으로서, 상기 컴퓨터 구현 방법(400)은 데이터 프로세싱 하드웨어(112)에 의해 실행될 때, 데이터 프로세싱 하드웨어(112)로 하여금 동작들을 수행하게 하고, 상기 동작들은:
텍스트의 시퀀스(152)를 수신하는 동작; 및
텍스트 스피치 변환(TTS) 모델(200)을 사용하여 텍스트의 시퀀스(152)에 기초하여 하나 이상의 스피치 샘플들(154)을 생성하는 동작을 포함하고, 상기 TTS 모델(200)은:
복수의 트레이닝 샘플들(162)을 수신하는 동작, 상기 복수의 트레이닝 샘플들(162)의 각 트레이닝 샘플은 레퍼런스 스펙트로그램(166) 및 레퍼런스 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)를 포함하며;
상기 복수의 트레이닝 샘플들(162)의 각 트레이닝 샘플에 대해:
레퍼런스 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)와 연관된 스피치 유닛들의 시퀀스를 식별하는 동작;
상기 스피치 유닛들의 시퀀스의 각 스피치 유닛에 대해:
스피치 임베딩(e)을 생성하는 동작;
스피치 임베딩(e)을 레퍼런스 스펙트로그램(166)의 대응하는 부분과 정렬하는 동작;
스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터 잠재 피처(latent feature)(212)를 추출하는 동작; 및
스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터의 잠재 피처(212)에 양자화된 임베딩(q)을 할당하는 동작; 및
레퍼런스 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)와 연관된 상기 스피치 유닛들의 시퀀스에 대한 스피치 임베딩들(e) 및 양자화된 임베딩들(q)의 연결(230)을 디코딩하는 동작에 의해, 상기 하나 이상의 스피치 샘플들(154)을 생성하도록 트레이닝되는, 방법(400).
제1항에 있어서,
상기 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터의 잠재 피처(212)에 양자화된 임베딩(q)을 할당하는 동작은 연속 잠재 공간의 포스테리어(posterior) 분포(170)로부터 양자화된 임베딩(q)을 샘플링한 후, 상기 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터의 잠재 피처(212)에 양자화된 임베딩(q)을 할당하는 동작을 포함하는, 방법(400).
제1항 또는 제2항에 있어서,
상기 동작들은:
복수의 이용가능한 양자화된 임베딩들(q) 각각에 대해, 대응하는 양자화된 임베딩(q) 및 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터 추출된 잠재 피처(212) 사이의 유클리드(Euclidean) 거리를 결정하는 동작; 및
상기 복수의 이용가능한 양자화된 임베딩들(q) 중에서, 상기 대응하는 양자화된 임베딩(q) 및 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터 추출된 잠재 피처(212) 사이의 최소 유클리드 거리와 연관된 양자화된 임베딩(q)을 선택하는 동작을 더 포함하고,
상기 양자화된 임베딩(q)을 잠재 피처(212)에 할당하는 동작은 상기 최소 유클리드 거리와 연관되어 선택된 양자화된 임베딩(q)을 할당하는 동작을 포함하는, 방법(400).
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 동작들은 상기 TTS 모델(200)의 트레이닝 동안:
스피치 임베딩(e) 및 잠재 피처(212)에 기초하여 우도 확률로 표현되는 재구성 손실을 결정하는 동작;
잠재 피처(212)의 프라이어(prior) 분포(180)와 잠재 피처(212)의 포스테리어 분포(170) 사이의 KL 다이버전스를 결정하는 동작; 및
상기 결정된 재구성 손실과 상기 결정된 KL 다이버전스 사이의 차이에 기초하여 상기 TTS 모델(200)의 증거 하한(ELBO) 손실을 최적화하는 동작을 더 포함하는, 방법(400).
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 동작들은 상기 TTS 모델(200)을 트레이닝하는 동안:
상기 TTS 모델(200)로부터의 출력으로서, 상기 복수의 트레이닝 샘플들(162)에 대한 포스테리어 분포(170)를 생성하는 동작; 및
상기 생성된 포스테리어 분포(170)를 상기 복수의 트레이닝 샘플들(162)에 피팅(fitting)함으로써 프라이어 분포(180)를 생성하도록 자동회귀(AR) 프라이어 신경 네트워크(201)를 트레이닝하는 동작을 더 포함하는, 방법(400).
제5항에 있어서,
상기 하나 이상의 스피치 샘플들(154)을 생성하는 동작은 트레이닝된 AR 프라이어 신경 네트워크(201)로부터 프라이어 분포를 샘플링하는 것에 기초하는, 방법(400).
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 스피치 유닛들의 시퀀스는 음소들의 시퀀스를 포함하는, 방법(400).
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 잠재 피처(212)는 잠재 운율 피처를 포함하는, 방법(400).
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 하나 이상의 스피치 샘플들(154)은 제1 스피치 샘플 및 제2 스피치 샘플을 포함하고, 제1 스피치 샘플은 제2 스피치 샘플과 상이한 스피치 속성들을 갖는, 방법(400).
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 동작들은 상기 TTS 모델(200)에 의해 생성된 상기 하나 이상의 스피치 샘플들(154)을 사용하여 스피치 인식 모델(140)을 트레이닝하는 동작을 더 포함하는, 방법(400).
시스템(500)으로서,
데이터 프로세싱 하드웨어(112); 및
데이터 프로세싱 하드웨어(112)와 통신하는 메모리 하드웨어(114)를 포함하고, 상기 메모리 하드웨어(114)는 데이터 프로세싱 하드웨어(112)에서 실행될 때 데이터 프로세싱 하드웨어(112)로 하여금 동작들을 수행하게 하는 명령어들을 저장하고, 상기 동작들은:
텍스트의 시퀀스(152)를 수신하는 동작; 및
텍스트 스피치 변환(TTS) 모델(200)을 사용하여 텍스트의 시퀀스(152)에 기초하여 하나 이상의 스피치 샘플들(154)을 생성하는 동작을 포함하고, 상기 TTS 모델(200)은:
복수의 트레이닝 샘플들(162)을 수신하는 동작, 상기 복수의 트레이닝 샘플들(162)의 각 트레이닝 샘플은 레퍼런스 스펙트로그램(166) 및 레퍼런스 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)를 포함하며;
상기 복수의 트레이닝 샘플들(162)의 각 트레이닝 샘플에 대해:
레퍼런스 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)와 연관된 스피치 유닛들의 시퀀스를 식별하는 동작;
상기 스피치 유닛들의 시퀀스의 각 스피치 유닛에 대해:
스피치 임베딩(e)을 생성하는 동작;
스피치 임베딩(e)을 레퍼런스 스펙트로그램(166)의 대응하는 부분과 정렬하는 동작;
스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터 잠재 피처(latent feature)(212)를 추출하는 동작; 및
스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터의 잠재 피처(212)에 양자화된 임베딩(q)을 할당하는 동작; 및
레퍼런스 스펙트로그램(166)에 대응하는 텍스트의 트레이닝 시퀀스(164)와 연관된 상기 스피치 유닛들의 시퀀스에 대한 스피치 임베딩들(e) 및 양자화된 임베딩들(q)의 연결(230)을 디코딩하는 동작에 의해, 상기 하나 이상의 스피치 샘플들(154)을 생성하도록 트레이닝되는, 시스템(500).
제11항에 있어서,
상기 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터의 잠재 피처(212)에 양자화된 임베딩(q)을 할당하는 동작은 연속 잠재 공간의 포스테리어(posterior) 분포(170)로부터 양자화된 임베딩(q)을 샘플링한 후, 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터의 잠재 피처(212)에 양자화된 임베딩(q)을 할당하는 동작을 포함하는, 시스템(500).
제11항 또는 제12항에 있어서,
상기 동작들은:
복수의 이용가능한 양자화된 임베딩들(q) 각각에 대해, 대응하는 양자화된 임베딩(q) 및 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터 추출된 잠재 피처(212) 사이의 유클리드(Euclidean) 거리를 결정하는 동작; 및
상기 복수의 이용가능한 양자화된 임베딩들(q) 중에서, 상기 대응하는 양자화된 임베딩(q) 및 스피치 임베딩(e)과 정렬된 레퍼런스 스펙트로그램(166)의 대응하는 부분으로부터 추출된 잠재 피처(212) 사이의 최소 유클리드 거리와 연관된 양자화된 임베딩(q)을 선택하는 동작을 더 포함하고,
상기 양자화된 임베딩(q)을 잠재 피처(212)에 할당하는 동작은 상기 최소 유클리드 거리와 연관되어 선택된 양자화된 임베딩(q)을 할당하는 동작을 포함하는, 시스템(500).
제11항 내지 제13항 중 어느 한 항에 있어서,
상기 동작들은 상기 TTS 모델(200)의 트레이닝 동안:
스피치 임베딩(e) 및 잠재 피처(212)에 기초하여 우도 확률로 표현되는 재구성 손실을 결정하는 동작;
잠재 피처(212)의 프라이어(prior) 분포(180)와 잠재 피처(212)의 포스테리어 분포(170) 사이의 KL 다이버전스를 결정하는 동작; 및
상기 결정된 재구성 손실과 상기 결정된 KL 다이버전스 사이의 차이에 기초하여 상기 TTS 모델(200)의 증거 하한(ELBO) 손실을 최적화하는 동작을 더 포함하는, 시스템(500).
제11항 내지 제14항 중 어느 한 항에 있어서,
상기 동작들은 상기 TTS 모델(200)을 트레이닝하는 동안:
상기 TTS 모델(200)로부터의 출력으로서, 상기 복수의 트레이닝 샘플들(162)에 대한 포스테리어 분포(170)를 생성하는 동작; 및
상기 생성된 포스테리어 분포(170)를 상기 복수의 트레이닝 샘플들(162)에 피팅(fitting)함으로써 프라이어 분포(180)를 생성하도록 자동회귀(AR) 프라이어 신경 네트워크(201)를 트레이닝하는 동작을 더 포함하는, 시스템(500).
제15항에 있어서,
상기 하나 이상의 스피치 샘플들(154)을 생성하는 동작은 트레이닝된 AR 프라이어 신경 네트워크(201)로부터 프라이어 분포를 샘플링하는 것에 기초하는, 시스템(500).
제11항 내지 제16항 중 어느 한 항에 있어서,
상기 스피치 유닛들의 시퀀스는 음소들의 시퀀스를 포함하는, 시스템(500).
제11항 내지 제17항 중 어느 한 항에 있어서,
상기 잠재 피처(212)는 잠재 운율 피처를 포함하는, 시스템(500).
제11항 내지 제18항 중 어느 한 항에 있어서,
상기 하나 이상의 스피치 샘플들(154)은 제1 스피치 샘플 및 제2 스피치 샘플을 포함하고, 제1 스피치 샘플은 제2 스피치 샘플과 상이한 스피치 속성들을 갖는, 시스템(500).
제11항 내지 제19항 중 어느 한 항에 있어서,
상기 동작들은 상기 TTS 모델(200)에 의해 생성된 상기 하나 이상의 스피치 샘플들(154)을 사용하여 스피치 인식 모델(140)을 트레이닝하는 동작을 더 포함하는, 시스템(500).