KR20220004737A - 다국어 음성 합성 및 언어간 음성 복제 - Google Patents

다국어 음성 합성 및 언어간 음성 복제 Download PDF

Info

Publication number
KR20220004737A
KR20220004737A KR1020217039553A KR20217039553A KR20220004737A KR 20220004737 A KR20220004737 A KR 20220004737A KR 1020217039553 A KR1020217039553 A KR 1020217039553A KR 20217039553 A KR20217039553 A KR 20217039553A KR 20220004737 A KR20220004737 A KR 20220004737A
Authority
KR
South Korea
Prior art keywords
language
speaker
speech
input text
text sequence
Prior art date
Application number
KR1020217039553A
Other languages
English (en)
Other versions
KR102581346B1 (ko
Inventor
유 장
론 제이. 바이스
병하 천
용후이 우
즈펑 첸
러셀 존 와이어트 스커리-라이언
예 지아
앤드류 엠. 로젠버그
부바나 라마브하드란
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20220004737A publication Critical patent/KR20220004737A/ko
Application granted granted Critical
Publication of KR102581346B1 publication Critical patent/KR102581346B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

방법(300)은 제1 언어의 음성(150)으로 합성될 입력 텍스트 시퀀스(114)를 수신하는 단계 및 화자 임베딩(116a)을 획득하는 단계를 포함하고, 화자 임베딩은 입력 텍스트 시퀀스를 타겟 화자의 음성을 복제하는 음성으로 합성하기 위해 타겟 화자의 특정 음성 특성을 지정한다. 타겟 화자는 제1 언어와 다른 제2 언어의 모국 화자을 포함한다. 방법은 또한 TTS 모델(100)을 사용하여, 입력 텍스트 시퀀스 및 화자 임베딩을 처리함으로써 입력 텍스트 시퀀스의 출력 오디오 특징 표현(119)을 생성하는 단계를 포함한다. 출력 오디오 특징 표현에는 화자 임베딩에 의해 지정된 타겟 화자의 음성 특성이 포함된다.

Description

다국어 음성 합성 및 언어간 음성 복제
본 개시는 다국어 음성 합성 및 언어간(cross-language) 음성 복제에 관한 것이다.
최근의 종단간(E2E) 신경 텍스트-음성 변환(TTS) 모델은 텍스트에 추가하여 잠재된 표현에 대한 음성 합성을 컨디셔닝함으로써 화자 식별 및 레이블이 지정되지 않은 음성 속성(예를 들어, 운율)의 제어를 가능하게 한다. 이러한 TTS 모델을 확장하여 관련 없는 다수의 언어를 지원하는 것은 언어 의존 입력 표현 또는 모델 구성 요소를 사용할 때 특히 언어당 트레이닝 데이터 양이 불균형한 경우에 쉬운 일이 아니다.
예를 들어, 중국어 및 영어와 같은 일부 언어 사이의 텍스트 표현에는 겹침이 거의 또는 전혀 없을 수 있다. 이중 언어 화자의 녹음은 수집하는데 비용이 많이 들기 때문에 트레이닝 세트의 각 화자가 하나의 언어만 말하는 일반적인 경우 화자 신원은 언어와 완벽하게 관련되어 있다. 이것은 특정 언어에 대해 사용 가능한 트레이닝 음성의 수가 적은 경우에 특히 바람직한 기능인 상이한 언어 간의 음성 전달을 어렵게 만든다. 또한, 스페인어(ES) 및 영어(EN)의 고유 명사와 같이 차용 또는 공유 단어가 있는 언어의 경우 동일한 텍스트의 발음이 다를 수 있다. 이것은 기본적으로 트레이닝된 모델이 종종 특정 화자에 대해 억양이 있는 음성을 생성하는 경우에 더 많은 모호성을 더한다.
본 개시의 일 양태는 입력 텍스트 시퀀스로부터 음성을 합성하기 위한 방법을 제공한다. 방법은 데이터 처리 하드웨어에서, 제1 언어의 음성으로 합성될 입력 텍스트 시퀀스를 수신하는 단계; 및 데이터 처리 하드웨어에 의해, 입력 텍스트 시퀀스를 타겟 화자의 음성을 복제하는 음성으로 합성하기 위해 타겟 화자의 특정 음성 특성을 지정하는 화자 임베딩을 획득하는 단계를 포함한다. 타겟 화자는 제1 언어와 다른 제2 언어의 모국 화자을 포함한다. 이 방법은 또한 데이터 처리 하드웨어에 의해, 텍스트-음성 변환(TTS) 모델을 사용하여, 입력 텍스트 시퀀스 및 화자 임베딩을 처리함으로써 입력 텍스트 시퀀스의 출력 오디오 특징 표현을 생성하는 단계를 포함한다. 출력 오디오 특징 표현에는 화자 임베딩에 의해 지정된 타겟 화자의 음성 특성이 포함된다.
본 개시의 구현은 다음의 선택적인 특징들 중 하나 이상을 포함할 수 있다. 일부 구현에서, 방법은 또한 데이터 처리 하드웨어에 의해, 언어 의존 정보를 지정하는 언어 임베딩을 획득하는 단계를 포함한다. 이러한 구현에서, 입력 텍스트와 화자 임베딩을 처리하는 것은 입력 텍스트의 출력 오디오 특징 표현을 생성하기 위해 입력 텍스트, 화자 임베딩 및 언어 임베딩을 처리하는 것을 더 포함하고, 출력 오디오 특징 표현은 언어 임베딩에 의해 지정된 언어 의존 정보를 더 포함한다. 언어 의존 정보는 타겟 화자의 제2 언어와 관련될 수 있고, 언어 의존 정보를 지정하는 언어 임베딩은 하나 이상의 다른 화자에 의해 제2 언어로 발화된 트레이닝 발언으로부터 획득될 수 있다. 다른 예에서, 언어 의존 정보는 제1 언어와 관련될 수 있고, 언어 의존 정보를 지정하는 언어 임베딩은 하나 이상의 다른 화자에 의해 제1 언어로 발화된 트레이닝 발언으로부터 획득될 수 있다.
일부 예에서, 입력 텍스트의 출력 오디오 특징 표현을 생성하는 단계는 복수의 시간 단계 각각에 대해: 인코더 신경망을 사용하여, 시간 단계에 대한 대응하는 텍스트 인코딩을 생성하기 위해 시간 단계에 대한 입력 텍스트 시퀀스의 개별 부분을 처리하는 단계; 및 디코더 신경망을 사용하여, 시간 단계에 대한 대응하는 출력 오디오 특징 표현을 생성하기 위해 시간 단계에 대한 텍스트 인코딩을 처리하는 단계를 포함한다. 여기서, 인코더 신경망은 컨볼루션 서브네트워크 및 양방향 장단기 기억(LSTM) 계층을 포함할 수 있다. 추가적으로, 디코더 신경망은 LTSM 서브네트워크, 선형 변환 및 컨볼루션 서브네트워크를 포함할 수 있다.
출력 오디오 특징 표현은 멜-주파수 스펙트로그램을 포함할 수 있다. 일부 구현에서, 방법은 또한 데이터 처리 하드웨어에 의해, 파형 합성기를 사용하여, 출력 오디오 특징 표현을 시간-도메인 파형으로 반전시키는 단계; 및 데이터 처리 하드웨어에 의해, 시간-도메인 파형을 사용하여, 제1 언어의 타겟 화자의 음성을 복제하는 입력 텍스트 시퀀스의 합성 음성 표현을 생성하는 단계를 포함한다.
TTS 모델은 제1 언어 트레이닝 세트 및 제2 언어 트레이닝 세트에 대해 트레이닝될 수 있다. 제1 언어 트레이닝 세트는 제1 언어로 말한 복수의 발언 및 대응하는 참조 텍스트를 포함하고, 제1 언어 트레이닝 세트 제2 언어로 말한 복수의 발언 및 대응하는 참조 텍스트를 포함한다. 추가 예에서, TTS 모델은 하나 이상의 추가 언어 트레이닝 세트에 대해 추가로 트레이닝되고, 하나 이상의 추가 언어 트레이닝 세트의 각각의 추가 언어 트레이닝 세트는 개별 언어로 발화된 복수의 발언 및 대응하는 참조 텍스트를 포함한다. 여기서, 각각의 추가 언어 트레이닝 세트의 개별 언어는 각각의 다른 추가 언어 트레이닝 세트의 개별 언어와 상이하고 제1 및 제2 언어와 상이하다.
입력 텍스트 시퀀스는 문자 입력 표현 또는 음소 입력 표현에 대응할 수 있다. 선택적으로, 입력 텍스트 시퀀스는 8비트 유니코드 변환 포멧(UTF-8) 인코딩 시퀀스에 대응할 수 있다.
본 개시의 다른 양태는 입력 텍스트 시퀀스로부터 음성을 합성하기 위한 시스템을 제공한다. 시스템은 데이터 처리 하드웨어 및 데이터 처리 하드웨어와 통신하고 데이터 처리 하드웨어에서 실행될 때 데이터 처리 하드웨어로 하여금 동작들을 수행하게 하는 명령들을 저장하는 메모리 하드웨어를 포함한다. 상기 동작들은 제1 언어의 음성으로 합성될 입력 텍스트 시퀀스를 수신하는 단계와, 입력 텍스트 시퀀스를 타겟 화자의 음성을 복제하는 음성으로 합성하기 위해 타겟 화자의 특정 음성 특성을 지정하는 화자 임베딩을 획득하는 단계를 포함한다. 타겟 화자는 제1 언어와 다른 제2 언어의 모국 화자를 포함한다. 동작들은 또한 텍스트-음성 변환(TTS) 모델을 사용하여, 입력 텍스트 시퀀스와 화자 임베딩을 처리함으로써 입력 텍스트 시퀀스의 출력 오디오 특징 표현을 생성하는 단계를 포함한다. 출력 오디오 특징 표현은 화자 임베딩에 의해 지정된 타겟 화자의 음성 특징이 포함된다.
이 양태는 다음의 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현에서, 동작들은 또한 언어 의존 정보를 지정하는 언어 임베딩을 획득하는 단계를 포함한다. 이러한 구현에서, 입력 텍스트 시퀀스와 화자 임베딩을 처리하는 것은 입력 텍스트의 출력 오디오 특징 표현을 생성하기 위해 입력 텍스트, 화자 임베딩 및 언어 임베딩을 처리하는 것을 더 포함하고, 출력 오디오 특징 표현은 언어 임베딩에 의해 지정된 언어 의존 정보를 더 포함한다. 언어 의존 정보는 타겟 화자의 제2 언어와 관련될 수 있고, 언어 의존 정보를 지정하는 언어 임베딩은 하나 이상의 다른 화자에 의해 제2 언어로 말한 트레이닝 발언으로부터 획득될 수 있다. 다른 예에서, 언어 의존 정보는 제1 언어와 관련될 수 있고, 언어 의존 정보를 지정하는 언어 임베딩은 하나 이상의 다른 화자에 의해 제1 언어로 발화된 트레이닝 발언으로부터 획득될 수 있다.
일부 예에서, 입력 텍스트의 출력 오디오 특징 표현을 생성하는 단계는 복수의 시간 단계 각각에 대해: 인코더 신경망(112)을 사용하여, 시간 단계에 대한 대응하는 텍스트 인코딩을 생성하기 위해 시간 단계에 대한 입력 텍스트 시퀀스의 개별 부분을 처리하는 단계; 및 디코더 신경망을 사용하여, 시간 단계에 대한 대응하는 출력 오디오 특징 표현을 생성하기 위해 시간 단계에 대한 텍스트 인코딩을 처리하는 단계를 포함한다. 여기서, 인코더 신경망은 컨볼루션 서브네트워크 및 양방향 장단기 기억(LSTM) 계층을 포함할 수 있다. 추가적으로, 디코더 신경망은 LTSM 서브네트워크, 선형 변환, 및 컨볼루션 서브네트워크를 포함하는 자기회귀 신경망을 포함할 수 있다.
출력 오디오 특징 표현은 멜-주파수 스펙트로그램을 포함할 수 있다. 일부 구현에서, 동작들은 또한 파형 합성기를 사용하여 출력 오디오 특징 표현을 시간-도메인 파형으로 반전시키는 단계; 및 시간-영역 파형을 사용하여, 제1 언어로 타겟 화자의 음성을 복제하는 입력 텍스트 시퀀스의 합성된 음성 표현을 생성하는 단계를 포함한다.
TTS 모델은 제1 언어 트레이닝 세트 및 제2 언어 트레이닝 세트에 대해 트레이닝될 수 있다. 제1 언어 트레이닝 세트는 제1 언어로 발화된 복수의 발언 및 대응하는 참조 텍스트를 포함하고, 제2 언어 트레이닝 세트는 제2 언어로 발화된 복수의 발언 및 대응하는 참조 텍스트를 포함한다. 추가 예에서, TTS 모델은 하나 이상의 추가 언어 트레이닝 세트에 대해 추가로 트레이닝되고, 하나 이상의 추가 언어 트레이닝 세트의 각각의 추가 언어 트레이닝 세트는 개별 언어 및 대응하는 참조 텍스트로 발화된 복수의 발언를 포함한다. 여기서, 각 추가 언어 트레이닝 세트의 개별 언어는 각각이 다른 추가 언어 트레이닝 세트의 개별 언어와 상이하고, 제1 및 제2 언어와 상이하다.
입력 텍스트 시퀀스는 문자 입력 표현 또는 음소 입력 표현에 대응할 수 있다. 선택적으로, 입력 텍스트 시퀀스는 8비트 UTF-8 인코딩 시퀀스에 해당할 수 있다.
본 개시의 하나 이상의 구현의 세부 사항은 첨부 도면 및 아래의 설명에 기재되어 있다. 다른 측면, 특징 및 이점은 설명 및 도면, 그리고 청구범위로부터 명백할 것이다.
도 1은 다국어로 고품질 음성을 생성할 수 있는 강화된 TTS 모델의 개략도이다.
도 2는 도 1의 TTS 모델의 디코딩 신경망의 예시적인 디코딩 아키텍처의 개략도이다.
도 3은 입력 텍스트 시퀀스로부터 합성 음성을 생성하는 방법에 대한 동작들의 예시적인 배열이다.
도 4는 본 명세서에 설명된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스의 개략도이다.
다양한 도면에서 동일한 참조 부호는 동일한 요소를 나타낸다.
구현들은 다국어로 고품질 음성을 생성할 수 있는 다중 화자, 다국어 TTS 모델로 종단간(E2E) 텍스트-음성 변환(TTS) 모델을 향상시키는데 중점을 둔다. 특히, 모델은 제1 모국어로 된 문구의 입력 텍스트를 수신하여 제1 모국어와 상이한 제2 모국어로 된 문구의 합성(된) 음성(speech)을 생성할 수 있다. 또한, TTS 모델은 이중 언어(bilingual) 또는 병렬 트레이닝 예제에서 TTS 모델을 트레이닝할 필요 없이 제1 모국어(예를 들어, 영어) 화자의 음성(voice)을 사용하여 제2 모국어의 유창한 음성을 합성함으로써 상이한 모국어들에 걸쳐 음성을 전달할 수 있다. 특히, TTS 모델은 영어 및 중국어(Mandarin)와 같이 동떨어진(예를 들어, 오버랩이 거의 또는 전혀 없음) 언어 간에 음성을 전달할 수 있다.
도 1을 참조하면, 일부 구현에서, 다중 화자, 다국어 TTS 모델(100)은 추론 네트워크(101), 적대적 손실 모듈(107) 및 합성기(111)를 포함한다. 추론 네트워크(101)는 음성 발언에 대응하는 입력 오디오 특징(104)을 소비하고 오디오 특징(104)의 잔차 인코딩 컴포넌트(105)를 출력하도록 구성된 잔차 인코더(102)를 포함한다. 오디오 특징(104)은 입력 멜(mel) 스펙트로그램 표현을 포함할 수 있다. 합성기(111)는 텍스트 인코더(112), 화자 임베딩 모듈(116), 언어 임베딩 모듈(117) 및 디코더 신경망(118)을 포함한다. 텍스트 인코더(112)는 컨볼루션 서브네트워크 및 장단기 기억(LSTM) 계층을 갖는 인코더 신경망을 포함할 수 있다. 디코더 신경망(118)은 입력으로서 텍스트 인코더(112), 화자 임베딩 모듈(116) 및 언어 임베딩 모듈(117)의 출력(115, 116a, 117a)을 수신하여 출력 멜 스펙트로그램(119)을 생성하도록 구성된다. 마지막으로, 파형 합성기(125)는 디코더 신경망(118)에서 출력된 멜 스펙트로그램(119)을 특정 자연어의 입력 텍스트 시퀀스의 구두 발언의 시간-도메인 파형(126), 즉 입력 텍스트 시퀀스(114)의 합성된 음성 표현으로 반전할 수 있다. 일부 구현에서, 파형 합성기는 그리핀-림 합성기이다. 일부 다른 구현에서, 파형 합성기는 보코더이다. 예를 들어, 파형 합성기(125)는 WaveRNN 보코더를 포함할 수 있다. 여기서, WaveRNN 보코더(125)는 TTS 모델(100)에 의해 예측된 스펙트로그램에 컨디셔닝된 24kHz로 샘플링된 16비트 신호를 생성할 수 있다. 일부 다른 구현에서, 파형 합성기는 파형 인버터에 대한 트레이닝 가능한 스펙트로그램이다. 파형 합성기(125)가 파형을 생성한 후, 오디오 출력 시스템은 파형(126)을 사용하여 음성(150)을 생성하고, 생성된 음성(150)을 예를 들어 사용자 디바이스에서 재생을 위해 제공하거나, 다른 시스템이 음성을 생성 및 재생할 수 있도록 다른 시스템에 생성된 파형(126)을 제공할 수 있다. 일부 예에서, WaveNet 신경 보코더는 파형 합성기(125)를 대체한다. WaveNet 신경 보코더는 파형 합성기(125)에 의해 생성된 합성 음성과 비교하여 합성 음성의 다른 오디오 충실도를 제공할 수 있다.
텍스트 인코더(112)는 입력 텍스트 시퀀스(114)를 텍스트 인코딩(115, 115a-n)의 시퀀스로 인코딩하도록 구성된다. 일부 구현에서, 텍스트 인코더(112)는 디코더 신경망(118)의 각 출력 단계(step)에 대한 고정 길이 컨텍스트 벡터로서 대응 텍스트 인코딩을 생성하기 위해 입력 텍스트 시퀀스의 순차적 특징 표현을 수신하도록 구성된 주의(attention) 네트워크를 포함한다. 즉, 텍스트 인코더(112)에서의 주의 네트워크는 디코더 신경망(118)이 나중에 생성할 멜-주파수 스펙트로그램(119)의 각 프레임에 대해 고정 길이 컨텍스트 벡터(115, 115a-n)를 생성할 수 있다. 프레임은 입력 신호의 작은 부분, 예를 들어 입력 신호의 10밀리초 샘플을 기반으로 하는 멜-주파수 스펙트로그램(118)의 단위이다. 주의 네트워크는 인코더 출력의 각 요소에 대한 가중치를 결정할 수 있고 각 요소의 가중 합을 결정함으로써 고정 길이 컨텍스트 벡터(115)를 생성할 수 있다. 주의 가중치는 디코더 시간 단계마다 변경될 수 있다.
따라서, 디코더 신경망(118)은 고정 길이 컨텍스트 벡터(예를 들어, 텍스트 인코딩)(115)를 입력으로서 수신하여 멜-주파수 스펙트로그램(119)의 대응 프레임을 출력으로서 생성하도록 구성된다. 멜-주파수 스펙트로그램(119)은 소리의 주파수-도메인 표현이다. 멜-주파수 스펙트로그램은 마찰음 및 기타 노이즈 버스트에 의해 지배되고 일반적으로 높은 충실도로 모델링할 필요가 없는 고주파수는 덜 강조하면서 음성 명료도에 중요한 저주파수를 강조한다.
일부 구현에서, 디코더 신경망(118)은 입력 텍스트 시퀀스(114)에 기초하여 출력 로그-멜 스펙토그램 프레임, 예를 들어, 출력 멜 스펙트로그램(119)의 시퀀스를 생성하도록 구성된 주의 기반 시퀀스-투-시퀀스 모델을 포함한다. 예를 들어, 디코더 신경망(118)은 Tacotron 2 모델을 기반으로 할 수 있다( https://arxiv.org/abs/1712.05884에 있는 J. Shen, et al의 "멜 스펙트로그램 예측에서 WaveNet을 컨디셔닝하여 자연적인 TTS 합성"을 참조하며, 이는 본 명세서에 참조로 포함됨). TTS 모델(100)은 추가 화자 입력(116a)(예를 들어, 화자 임베딩 컴포넌트(116)), 및 선택적으로 언어 임베딩 입력(117a)(예를 들어, 언어 임베딩 컴포넌트(117)), 적대적으로 트레이닝된 화자 분류기(예를 들어, 화자 분류기 컴포넌트(110)) 및 변형 자동 인코더 스타일의 잔차 인코더(예를 들어, 잔차 인코더(102))로 디코더 신경망(118)을 보강하는 강화된 다국어 TTS 모델을 제공한다. 적대적으로 트레이닝된 스피커 분류기(예를 들어, 스피커 분류기 컴포넌트(110)),
화자 분류기 컴포넌트(110), 잔차 인코더(102), 화자 임베딩 컴포넌트(116), 및/또는 화자 분류기 컴포넌트(110) 중 하나 이상으로 주의 기반 시퀀스-투-시퀀스 디코더 신경망(118)을 보강하는 강화된 다국어 TTS 모델(100), 및/또는 언어 임베딩 컴포넌트(117)는 특히 많은 긍정적인 결과를 제공한다. 즉, TTS 모델(100)은 입력 텍스트 시퀀스(114)에 대한 음소 입력 표현의 사용을 가능하게 하여 상이한 자연어에 걸쳐 모델 용량의 공유를 장려하고, 모델(100)이 음성 컨텐츠로부터, 트레이닝 데이터에 사용된 언어와 완벽하게 상관되는 화자 신원을 나타내는 방식을 풀도록 모델(100)을 장려하기 위해 적대적 손실 항(108)을 통합한다. 각기 다른 자연어에 대한 다수의 화자에 대한 추가 트레이닝은 강화된 다국어 TTS 모델(100)의 확장을 용이하게 하고, 트레이닝 동안 디코더 신경망(118)의 주의를 안정화하기 위해 자동 인코딩 입력(예를 들어, 잔차 인코딩 컴포넌트)(105)을 통합하여, 모델(100)이 트레이닝 훈련 동안 본 모든 언어와 모국어 또는 외국 억양으로 화자(10)를 트레이닝하기 위해 알기쉬운(intelligible) 음성(150)을 일관되게 합성할 수 있도록 한다.
특히, 디코더 신경망(118)에 적용되는 전술한 컨디셔닝(조건화) 확장(예를 들어, 컴포넌트(105, 110, 116, 117))은 단일 언어 화자에 대한 모델(100)의 트레이닝을 허용하여 다수의 상이한 언어로 고품질 음성 합성을 가능하게 하는 동시에 상이한 언어에 걸쳐 트레이닝 음성의 전달을 허용한다. 추가적으로, 모델(100)은 억양을 적당히 조절하여 외국어를 말하는 법을 배우고 코드 전환/혼합을 지원한다. 본 명세의 구현은 대량의 저품질 트레이닝 데이터를 활용하고 많은 화자와 많은 언어를 지원함으로써 트레이닝 데이터의 양을 늘리는 것을 허용한다.
예를 들어, 영어, 스페인어 및 중국어과 같은 다수의 상이한 언어 각각의 한 화자에 대한 트레이닝을 위해 유니코드 인코딩 "바이트" 입력 표현에 의존하는 기존의 다국어 TTS 시스템과 달리, 강화된 다국어 TTS 모델(100)은 상이한 입력 표현을 평가하고, 각 언어에 대한 트레이닝 화자의 수를 늘리고, 언어간 음성 복제를 지원하는 확장을 지원한다. 특히, TTS 모델(100)은 언어별 컴포넌트가 없는 단일 스테이지에서 트레이닝하고 타겟 외국어에서 합성 음성의 자연성(자연스러움)을 획득한다. 여기서, 합성 음성의 "자연성"이라는 용어는 합성 음성의 억양이 타겟 자연어의 모국 화자의 억양과 얼마나 일치하는지를 지칭한다. "자연성"은 0.5 증분으로 1에서 5까지의 평가 척도에서 합성 음성의 자연성을 평가하는 주관적인 청취 테스트를 통해 음성의 자연성에 대한 크라우드소싱된 평균 의견 스코어(Mean Opinion Score : MOS) 평가에 기초할 수 있으며, "5" 등급은 결과 음성을 가장 자연스러운 것으로 평가한다. 반대로, 언어간 음성 복제의 경우, 합성(된) 음성의 "유사성"은 타겟 언어의 합성 음성의 각 발언을 동일한화자에 의해 발화된 대응하는 참조 발언와 짝지음(pairing)으로써 합성 음성이 참조 화자의 신원과 얼마나 유사한지를 나타낸다. 주관적인 청취 테스트는 또한 0.5 증분으로 1에서 5까지의 동일한 평가 척도를 사용하여 합성 음성의 "유사성"을 평가하기 위해 음성 유사성에 대한 크라우드 소싱 MOS 평가를 사용할 수 있으며, 5 등급은 결과 음성을 참조 화자의 신원과 가장 "유사"하다고 평가한다. 유니코드 인코딩 "바이트" 입력 표현에 대한 트레이닝의 추가 세부 정보는 https://arxiv.org /abs/1811.09021에 있는 Li et al.의 "Bytes is All You Need: 종단간 다국어 음성 인식 및 바이트 합성"에서 찾을 수 있으며, 이는 본 명세서에 참조로 포함된다
이제 도 2를 참조하면, 디코더 신경망(118)에 대한 예시적인 디코더 아키텍처(200)는 이전 시간 단계에 대한 멜-주파수 스펙트로그램 예측이 전달되는 프리-넷(pre-net)(210)을 포함한다. 프리-넷(210)은 은닉 ReLU의 2개의 완전 연결(된) 계층을 포함할 수 있다. 프리-넷(210)은 트레이닝 동안 음성 합성 시스템의 수렴 속도를 높이고 일반화 능력을 향상시키기 위해 주의 학습을 위한 정보 병목 현상의 역할을 한다. 추론 시간에 출력 변화를 도입하기 위해 프리넷의 계층들에 0.5 확률의 드롭아웃(dropout)이 적용될 수 있다.
일부 구현에서, 디코더 아키텍처(200)는 또한 2개 이상의 LSTM 계층을 갖는 LSTM(Long Short-Term Memory) 서브네트워크(220)를 포함한다. 각 시간 단계에서, LSTM 서브네트워크(220)는 프리-넷(210)의 출력과 시간 단계에 대한 고정 길이 컨텍스트 벡터(202)의 연결(concatenation)을 수신한다. LSTM 계층들은 예를 들어 0.1 확률의 존아웃(zoneout)을 사용하여 정규화될 수 있다. 선형 투영(230)은 LSTM 서브네트워크(220)의 출력을 입력으로 수신하여 멜-주파수 스펙트로그램(119P)의 예측을 생성한다.
일부 예에서, 하나 이상의 컨볼루션 계층을 갖는 컨볼루션 포스트-넷(240)은 가산기(244)에서 상기 예측된 멜-주파수 스펙트로그램(119P)에 추가할 잔차(242)를 예측하기 위해 시간 단계에 대해 상기 예측된 멜-주파수 스펙트로그램(119P)을 처리한다. 이것은 전체인 재구성을 향상시킨다. 최종 컨볼루션 계층을 제외한 각 컨볼루션 계층은 배치 정규화 및 쌍곡선 탄젠트(TanH) 활성화가 뒤따를 수 있다. 컨볼루션 계층들은 예를 들어 0.5 확률의 드롭아웃을 사용하여 정규화된다. 잔차(242)는 선형 투영(230)에 의해 생성된 예측된 멜-주파수 스펙트로그램(119P)에 추가되고, 그 합(즉, 멜-주파수 스펙트로그램(119))은 보코더(125)에 제공될 수 있다.
일부 구현에서, 각 시간 단계에 대해 멜-주파수 스펙트로그램(119)을 예측하는 디코더 신경망(118)과 병렬로, LSTM 서브네트워크(220)의 출력과 고정 길이 컨텍스트 벡터(115)(예를 들어, 도 1의 텍스트 인코더(112)에서 출력된 텍스트 인코딩)의 연결은 스칼라로 투영되고 멜 주파수 스펙트로그램(119)의 출력 시퀀스가 완료될 확률을 예측하기 위해 시그모이드 활성화를 통해 전달된다. 이 "스톱 토큰" 예측은 추론 중에 모델이 고정 시간 기간 동안 항상 생성하는 대신 생성을 종료할 시기를 동적으로 결정할 수 있도록 하는데 사용된다. 스톱 토큰이 생성이 종료되었음을 나타내는 경우, 즉 스톱 토큰 확률이 임계값을 초과하는 경우, 디코더 신경망(118)은 멜-주파수 스펙트로그램(119P) 예측을 중단하고 그 지점까지 예측된 멜-주파수 스펙트로그램을 반환한다. 대안적으로, 디코더 신경망(118)은 동일한 길이(예를 들어, 10초)의 멜-주파수 스펙트로그램(119)을 항상 생성할 수 있다.
다시 도 1을 참조하면, TTS 모델(100)은 영어를 사용하는 사용자(10)의 컴퓨팅 디바이스(120)에서 구현된다. 사용자 디바이스(120)는 데이터 처리 하드웨어(121), 및 데이터 처리 하드웨어(121)에서 실행될 때 데이터 처리 하드웨어(121)로 하여금 사용자(10)로부터 음성 입력(140)을 수신하고 TTS 모델(110)로부터 합성 음성(150)을 출력하도록 구성된 오디오 서브시스템을 실행하게 하는 명령들을 저장하는 메모리 하드웨어(123)를 포함한다. 사용자 디바이스(120)는 일 예에서 모바일 디바이스를 포함하지만, 사용자 디바이스(120)의 다른 예는 스마트 폰, 태블릿, 사물 인터넷(IoT) 디바이스, 웨어러블 디바이스, 디지털 어시스턴트 디바이스, 또는 데스크탑 또는 랩탑 컴퓨터와 같은 임의의 유형의 컴퓨팅 디바이스를 포함한다. 다른 예에서, TTS 모델(100)의 컴포넌트 중 일부 또는 전부는 사용자 디바이스(120)와 통신하는 분산 컴퓨팅 시스템의 서버와 같은 원격 컴퓨팅 디바이스에 상주한다.
도 1은 또한 사용자(10)와 사용자 디바이스(120) 사이의 예시적인 상호작용을 도시한다. 스테이지(A)에서, 디바이스(120)는 "오케이 컴퓨터, 프랑스어로 '화장실은 어디에 있습니까?'라고 말해 줘"라고 영어의 제1 자연어로 말하는 사용자(10)의 음성 입력(140)을 캡처한다. 이 발언은 스테이지(B)에서 TTS 모델(100)에 의해 처리되고 스테이지(C)에서 TTS 모델(100)은 프랑스어로 완벽하게 억양을 주고 사용자(10)의 음성을 복제(예를 들어, 음성 전달)하여 "Ou se trouvent les toilettes?"라고 말하는 음성 합성 음성(150)을 출력한다. TTS 모델(110)은 사용자(10)가 프랑스어를 구사하지 못한다는 사실과 디코더 신경망(118)이 프랑스어로 말하는 사용자(10)의 어떤 샘플로도 트레이닝되지 않았음에도 불구하고 사용자(10)의 음성을 프랑스어로 합성된 음성(150)으로 전달할 수 있다. 이 예에서, 음성 인식기는 음성 입력(140)을 모국어 프랑스어의 입력 텍스트 시퀀스(114)로 변환할 수 있다. 여기서, 음성 인식기는 제1 자연어(예를 들어, 영어)의 오디오를 제2 자연어(예를 들어, 프랑스어)의 대응하는 텍스트로 전사하도록 구성된 다국어 음성 인식기일 수 있다. 대안적으로, 음성 인식기는 오디오를 제1 모국어의 대응하는 텍스트로 전사할 수 있고 번역기는 텍스트를 다른 제2 자연어의 입력 텍스트 시퀀스(114)로 음역할 수 있다.
일부 구현에서, 추론 네트워크(101)의 잔차 인코더(102)는 트레이닝 발언의 입력 오디오 특징(104)으로부터 잔차 인코딩 컴포넌트(105)로 운율 및 배경 잡음과 같은 잠재 인자를 인코딩하는 변형 자동 인코더에 해당한다. 여기서, 잔차 인코딩 컴포넌트(105)는 잠재 임베딩에 해당한다. 이러한 잠재 인자는 일반적으로 트레이닝 동안 디코더 신경망(118)에 대한 컨디셔닝 입력에서 잘 표현되지 않으며, 이에 따라 컨디셔닝 입력은 대응하는 트레이닝 발언을 나타내는 입력 텍스트 시퀀스(114), 트레이닝 발언의 화자와 관련된 화자 임베딩(116), 및 트레이닝 발언의 모국어와 관련된 언어 임베딩(117)을 포함한다. 따라서, 잔차 인코더(102)는 트레이닝 동안 디코더 신경망(118)에 잔차 인코딩 컴포넌트(105)를 전달하여 트레이닝 발언의 입력 오디오 특징(104)(예를 들어, 타겟 입력 멜 스펙트로그램 표현)으로부터 획득된 잠재 임베딩에 대해 디코더 신경망(118)을 컨디셔닝한다. 추론 동안, 추론 네트워크(101)는 사전 평균(예를 들어, 모두 0)을 디코더 신경망(118)에 단순히 전달하여 언어간 화자 전달의 안정성을 개선하고 결과인 합성 음성(150)의 자연성을 개선할 수 있다.
TTS 모델(100)은 입력 텍스트 시퀀스(114)에 대해 상이한 텍스트 표현을 사용하는 효과를 평가할 수 있다. 예를 들어, 텍스트 표현은 문자 또는 음소 입력 표현, 또는 예를 들어 텍스트 인코더(112)에 의해 생성된 이들의 하이브리드를 포함할 수 있다. 각 문자 또는 자소에 해당하는 임베딩(예를 들어, 텍스트 인코딩 115)은 일반적으로 E2E TTS 시스템의 디폴트 입력으로, TTS 시스템이 암묵적으로 입력 단어를 발음하는 방법, 즉 음성 합성 작업의 일부로서 자소-음소 변환을 학습해야 한다. 자소 기반 입력 어휘를 다국어 설정으로 확장하는 것은 각 언어에 대한 트레이닝 코퍼스(말뭉치)에서 자소 세트를 단순히 연결함으로써 발생한다. 이것은 큰 알파벳이 있는 언어의 경우 빠르게 커질 수 있는데, 예를 들어 중국어 어휘에는 4.5k 이상의 토큰이 포함되어 있다. 일부 구현에서, 트레이닝 말뭉치에 나타나는 모든 자소가 연결되어 총 4,619개의 토큰이 생성된다. 동가 자소는 언어 간에 공유된다. 추론하는 동안 이전에 볼 수 없었던 모든 문자가 특별한 OOV(어휘 외) 심볼에 매핑될 수 있다.
일부 예에서, 텍스트 표현은 1~4개의 1바이트(8비트) 코드 단위를 사용하여 유니코드로 모든 1,112,064개의 유효한 코드 포인트를 인코딩할 수 있는 다국어 설정의 가변 너비 문자 인코딩에 해당하는 8비트 유니코드 변환 포멧(UTF-8)으로부터 파생된다. 따라서, 여기에서의 구현은 자소에서 바이트로의 매핑이 언어에 따라 달라지는(언어 의존적인) 각 입력 토큰(예를 들어, 텍스트 인코딩(115))으로서 256개의 가능한 값을 사용함으로써 UTF-8 인코딩에 대한 입력 텍스트 시퀀스(114)의 표현을 기반으로 할 수 있다. 단일 바이트 문자가 있는 언어(예를 들어, 영어)의 경우 이 표현은 자소 표현과 동일한다. 그러나, 다중 바이트 문자가 있는 언어(예를 들어, 중국어)의 경우, TTS 모델은 대응하는 음성을 올바르게 생성하기 위해 일관된 바이트 시퀀스에 주의를 기울이는 방법을 배워야 한다. 반면에, UTF-8 바이트 표현을 사용하면 입력 토큰의 수가 적기 때문에 언어 간의 표현 공유를 촉진할 수 있다.
한편, 음소 입력 표현은 모델(100)이 영어와 같은 언어에 대한 복잡한 발음 규칙을 학습할 필요성을 그만둠으로써 음성 합성 작업을 단순화할 수 있다. 자소 기반 모델과 유사하게, 동등한 음소는 언어 간에 공유된다. 총 88개의 토큰에 대해 가능한 모든 음소 심볼이 연결된다.
중국어를 합성하는 것을 학습을 위해, 모델(100)은 4개의 가능한 톤(tone, 어조) 각각에 대한 음소 독립적 임베딩을 학습함으로써 톤 정보를 통합할 수 있고, 대응하는 음절 내부의 모든 음소 임베딩에 각 톤 임베딩을 브로드캐스트할 수 있다. 영어 및 스페인어와 같은 언어의 경우, 톤 임베딩이 주 및 보조 강세(stress)를 포함하는 강세 임베딩으로 대체된다. 특별한 심볼은 톤이나 강세가 없는 경우를 나타낼 수 있다.
일부 언어가 소수 화자에 대한 트레이닝 발언만을 가질 수 있는 트레이닝 데이터의 희소성은 상이한 언어에 걸쳐 고품질 합성 음성을 생성하도록 다국어 TTS 모델(100)을 트레이닝한느 것을 어렵게 만든다. 예를 들어, 트레이닝 데이터에 언어당 화자가 하나만 있는 극단적인 시나리오에서, 화자 신원과 언어 식별자(ID)는 본질적으로 동일한다. 일부 구현에서, TTS 모델(100)은 각 텍스트 인코딩(115)이 화자 정보를 캡처하는 것을 사전에 방지하기 위해 도메인 적대적 트레이닝을 사용하기 위해 적대적 손실 모듈(107)을 통합한다. 이러한 구현에서, 적대적 손실 모듈(107)은 텍스트 인코딩(115)을 수신하여 적대적 손실 항(108)을 생성하는 기울기 반전 컴포넌트(109), 및 텍스트 인코딩(115) 및 적대적 손실 항(108)에 기초하여 화자 레이블(si)을 생성하는 화자 분류기(110)를 포함한다. 따라서, 도메인 적대적 트레이닝은 화자 독립적인 방식으로 텍스트를 인코딩하기 위한 기울기 반전 컴포넌트(109) 및 화자 분류기(110)를 도입함으로써 모델(100)이 텍스트 인코딩(115) 및 화자 신원의 얽힌 표현을 학습하도록 권장한다.
화자 분류기는 나머지 모델, 특히
Figure pct00001
과 다른 목적으로 최적화된다는 점에 유의하며, 여기서 ti는 텍스트 인코딩이고 si는 화자 레이블이며,
Figure pct00002
는 화자 분류기의 파라미터이다. 전체 모델을 트레이닝하기 위해, 기울기 반전 컴포넌트(109)(예를 들어, 기울기 반전 계층)가 λ만큼 기울기를 스케일링하는 이 스피커 분류기(100) 이전에 삽입된다. 선택적으로, 화자 독립적 표현을 학습하도록 장려하기 위해 다른 적대적 계층이 변형 오디오 인코더의 상단에 삽입될 수 있다.
적대적 손실 모듈(107)은 TTS 모델(100)이 언어 독립적 화자 임베딩(116) 공간을 학습하도록 장려하기 위해 텍스트 인코딩(115)의 각 요소에 대해 적대적 손실 항(108)을 별도로 부과한다. 따라서, 적대적 손실 항(108)은 각 언어에 대해 단 하나의 트레이닝 화자가 이용 가능한 경우 언어간 음성 전달을 가능하게 하기 위해 입력 토큰 기반으로 도입된다. 배경 잡음으로부터 화자 신원을 분리하는 기술과 달리, 일부 입력 토큰(예를 들어, 텍스트 인코딩 115)은 언어 의존성이 높아 불안정한 적대적 분류기 기울기를 유발할 수 있다. 따라서, 여기에서의 구현은 이러한 이상치의 영향을 제한하기 위해 기울기 반전 컴포넌트(109)로부터 출력된 기울기를 클리핑함으로써 이 문제를 해결한다. 일부 예에서, 기울기 반전 컴포넌트(109)는 인자 0.5로 기울기 클리핑을 적용한다.
일부 예에서, TTS 모델(100)은 영어(EN), 스페인어(ES), 중국어(CN)의 3개 언어 각각의 다중 화자로부터의 고품질 음성 발언의 트레이닝 세트를 사용하여 트레이닝된다. 일부 예에서, 3개 언어에 걸친 트레이닝 발언은 균형이 맞지 않는다. 예를 들어, 영어 트레이닝 음성에는 미국, 영국, 호주 및 싱가포르의 억양을 가진 84명의 전문 성우의 385시간이 포함될 수 있으며, 스페인어 트레이닝 음성에는 카스티야 및 미국 기반 스페인어 억양을 가진 3명의 여성 화자의 97시간만 포함하고, 그리고 중국어 트레이닝 음성에는 5명의 화자의 68시간만 포함한다.
디코더 신경망(118)은 각 디코더 단계에서 64차원 화자 임베딩(116) 및 3차원 화자 임베딩(117)의 연결을 수신할 수 있다. 합성된 음성(150)은 디코더 신경망으로부터 출력된 128차원 로그-멜 스펙트로그램 프레임(119)의 시퀀스로 표현되며, 이는 12.5밀리초만큼 시프트된 50밀리초 윈도우로부터 계산될 수 있다. 더욱이, 변형 자동 인코더(102)(예를 들어, 잔차 인코더)는 가변 길이 멜 스펙트로그램(104)을 가우스 사후 분포의 평균 및 로그 분산을 파라미터화하는 2개의 벡터에 매핑하는 아키텍처를 포함할 수 있다. 화자 분류기(들)(110)는 화자 식원을 예측하는 소프트맥스가 뒤따르는 하나의 256-유닛 은닉 계층을 갖는 완전-연결(된) 네트워크를 포함할 수 있다. 일부 예에서, 합성기(101)와 화자 분류기(110)는 각각 가중치 1.0 및 0.02로 트레이닝된다. 일부 예에서, 파형 합성기(125)는 모델당 100개의 샘플을 합성하는 WaveRNN 보코더(125)를 포함하며, 이에 의해 각 샘플은 6명의 평가자에 의해 평가된다. WaveRNN 보코더(125)를 사용하면 MOS 등급과 유사하게 변동량을 제한하기 위해 고충실도 오디오와 관련된 시간-도메인 파형(126)을 생성할 수 있다.
각 언어에 대해, 본 명세서의 기술은 유사성 테스트에 사용할 하나의 화자를 선택한다. 테스트시서, 영어 사용자는 스페인어 및 중국어 사용자와 유사하지 않은 반면((MOS 2.0 미만), 스페인어 및 중국어 사용자는 약간 유사하다(MOS 약 2.0). 중국어 화자는 영어 및 스페인어(ES)에 비해 자연스러운 가변성을 가지고 있어 자기 유사성이 낮다.
영어 및 중국어 평가자가 동일한 영어 및 중국어 테스트 세트를 평가할 때 MOS 스코어는 일치한다. 특히, 평가자는 여러 언어로 화자를 구별할 수 있다. 그러나, 합성 음성을 평가할 때, 영어를 구사하는 평가자들은 종종 동일한 화자의 유창한 음성에 비해 "강한 억양이 있는" 합성 중국어 음성을 타겟 영어 화자와 더 비슷하게 들린다고 간주하는 것으로 관찰되었다.
3개 언어(예를 들어, 영어, 스페인어 및 중국어) 모두에 대해, 바이트 기반 모델은 256차원 소프트맥스 출력을 사용한다. 단일 언어 문자 및 음소 모델은 트레이닝 언어에 대응하는 상이한 입력 어휘를 각각 사용할 수 있다. 테스트 결과 중국어의 경우 TTS 모델(100)을 음소 기반 텍스트 인코딩으로 트레이닝하는 것이 TTS 모델(100)이 희귀하고 어휘에 없는(OOV) 단어로 인해 문자 0 또는 바이트 기반 변형에 대해 트레이닝될 때보다 훨씬 더 나은 성능을 보이는 것으로 나타났다. 단순함을 위해 트레이닝 중에 단어 경계가 추가되지 않았다. 다중 화자 모델은 언어당 단일 화자와 거의 동일한 성능을 보인다. 전반적으로, 음소 입력을 사용할 때 모든 언어는 4.0 이상의 MOS 스코어를 얻는다.
일부 구현에서, TTS 모델(100)의 언어간 음성 복제 성능은 입력 텍스트(114)와 다른 언어에 대응하는 화자 임베딩(116a)(예를 들어, 화자 임베딩 컴포넌트(116))로부터의 화자 임베딩(116a)을 단순히 전달함으로써 합성 음성(150)이 타겟 화자의 음성을 새로운 언어로 얼마나 잘 복제하는지를 평가한다. 테스트는 화자-적대 손실(108)을 사용하지 않고 각 트레이닝 언어(1EN 1ES 1CN)에 대해 단일 화자만 사용할 수 있는 가장 데이터가 부족한 시나리오에서 영어 화자의 음성 복제 성능을 보여주기 위해 수행되었다. 115개의 입력을 인코딩하는 문자 또는 바이트 텍스트를 사용하여 자연성이 크게 감소했지만 영어 사용자를 MOS 유사도가 높은 스페인어로 복제하는 것이 가능했다. 그러나, 음소 입력을 사용하여 스페인어와 중국어로 복제한 것처럼 영어 음성을 중국어로 복제하는데 실패했다. 적대적 화자 분류기를 추가하면 바이트 및 음소 모델 모두에 대해 매우 높은 유사도 MOS를 사용하여 영어 화자를 중국어로 언어간 복제할 수 있다. 음소 기반 텍스트 인코딩(115)의 사용은 발음이 정확하고 보다 유창한 음성을 생성하는 것을 보장하기 위해 사용될 수 있다.
적대적 손실 항(108)을 포함하는 것은 언어 의존 정보를 캡처하기 위해 텍스트 표현(114)이 언어 임베딩 컴포넌트(117)와 같은 언어 임베딩(117a)에 의존하는 대신 언어에 덜 특화되도록 한다. 모든 언어 쌍에 걸쳐, 모델(100)은 자연성 MOS가 약 3.9 이상인 모든 음성에서 음성(150)을 합성할 수 있다.
높은 자연성 및 유사도 MOS 스코어는 모델이 거의 억양 없이 영어 음성을 스페인어와 중국어로 성공적으로 전달할 수 있음을 나타낸다. 타겟 언어에 관계없이 영어 임베딩을 일관되게 컨디셔닝할 때, 모델은 더 많은 영어 억양이 있는 스페인어 및 중국어 음성을 생성하므로 자연성은 낮지만 유사도 MOS 스코어는 높아진다.
마지막으로, 테스트는 모델 출력을 안정화하기 위해 변동 잔차 인코더(102)를 사용하는 트레이닝의 중요성을 입증했다. 자연성 MOS는 잔차 인코더(102)가 없는 영어(EN)-중국어(CN) 복제의 경우 0.4포인트 감소한다. 두 모델의 출력 비교에서, 본 명세서에 의해 설명된 기술은 잔차 인코더(102)가 없는 모델은 희귀 단어를 스킵하거나 출력 음성에 부자연스러운 일시 정지를 삽입하는 경향이 있음을 보여주었다. 이것은 VAE가 주의를 안정시키는데 도움이 되는 모드를 사전에 학습했음을 나타낸다.
도 3은 타겟 화자(10)의 음성을 복제하는 음성을 합성하는 방법(300)에 대한 예시적인 동작 배열의 흐름도를 도시한다. 동작(302)에서, 방법(300)은 데이터 처리 하드웨어(121)에서, 제1 언어의 음성(150)으로 합성될 입력 텍스트 시퀀스(114)를 수신하는 단계를 포함한다. 예를 들어, 제1 언어에는 스페인어가 포함될 수 있다. 입력 텍스트 시퀀스(114)는 문자 입력 표현(예를 들어, 자소), 음소 입력 표현, 또는 문자와 음소의 조합을 포함하는 하이브리드 표현에 대응할 수 있다. 일부 다른 예에서, 텍스트 입력 시퀀스(114)는 8비트 유니코드 변환 포멧(UTF-8) 인코딩 시퀀스를 포함한다.
동작 304에서, 방법(300)은 데이터 처리 하드웨어(121)에서, 입력 텍스트 시퀀스(114)를 타겟 화자(10)의 음성을 복제하는 음성(150)으로 합성하기 위해 타겟 화자(10)의 음성 특성을 지정하는 화자 임베딩(116a)을 획득하는 단계를 포함한다. 타겟 화자(10)는 제1 언어와 다른 제2 언어의 모국 화자을 포함한다. 예를 들어, 타겟 화자(10)는 영어를 모국어로 말할 수 있다. 더욱이, 제1 언어는 타겟 화자(10)가 제1 언어를 말하거나 이해할 수 없도록 타겟 화자(10)에게 외국어일 수 있다. 화자 임베딩(116a)은 화자와 관련될 수 있다. 화자 임베딩(116a)은 타겟 화자가 제2 언어(예를 들어, 영어)로 말한 트레이닝 발언에 기초하여 텍스트-음성 변환(TTSS) 모델(100)의 트레이닝 동안 학습될 수 있다. 일부 구현에서, TTS 모델(100)은 적대적 손실 모듈(107)을 통합하여, 트레이닝 발언에 대응하는 텍스트 인코딩(115)이 화자 정보도를 캡처하는 것을 사전에 억제하기 위해 도메인 적대적 트레이닝을 사용하다. 이러한 구현에서, 적대적 손실 모듈(107i)은 텍스트 인코딩(115)을 수신하고 적대적 손실 항(108)을 생성하는 기울기 반전 컴포넌트(109), 및 텍스트 인코딩(115) 및 적대적 손실 항(108)에 기초하여 화자 레이블(si)을 생성하는 화자 분류기(110)를 포함한다.
동작(306)에서, 방법은 또한 데이터 처리 하드웨어(121)에 의해, TTS 모델(100)을 사용하여, 입력 텍스트 시퀀스(114) 및 화자 임베딩(116a)을 처리함으로써 입력 텍스트 시퀀스(114)의 출력 오디오 특징 표현(118)을 생성하는 단계를 포함한다. 출력 오디오 특징 표현(118)은 화자 임베딩(116a)에 의해 특정된 타겟 화자(10)의 음성 특징을 갖는다.
방법(300)은 언어 의존 정보를 지정하는 언어 임베딩(117a)을 더 획득하고, 출력 오디오 특징 표현(118)을 생성하기 위해 입력 텍스트 시퀀스(114) 및 화자 임베딩(116a)을 처리하는 동안 언어 임베딩(117a)을 처리할 수 있다. 일부 예에서, 언어 의존 정보는 타겟 화자의 제2 언어와 관련되고, 언어 의존 정보를 지정하는 언어 임베딩(117a)은 하나 이상의 상이한 화자에 의해 제2 언어로 말한 트레이닝 발언으로부터 획득된다. 다른 예에서, 언어 의존 정보는 제1 언어와 관련되고, 언어 의존 정보를 지정하는 언어 임베딩(117a)은 하나 이상의 상이한 화자에 의해 제1 언어로 말한 트레이닝 발언으로부터 획득된다.
소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스가 작업을 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적인 애플리케이션에는 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지보수 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션이 포함되지만 이에 국한되지는 않는다.
비-일시적 메모리는 컴퓨팅 디바이스에 의한 사용을 위해 임시 또는 영구적 기반으로 프로그램(예를 들어, 명령 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비-일시적 메모리는 휘발성 및/또는 비-휘발성 주소 지정 가능 반도체 메모리일 수 있다. 비-휘발성 메모리의 예로는 플래시 메모리 및 판독 전용 메모리(ROM)/프로그래밍 가능한 판독 전용 메모리(PROM)/소거 가능한 프로그래밍 가능 판독 전용 메모리(EPROM)/전자적으로 소거 가능한 프로그래밍 가능 판독 전용 메모리(EEPROM)((예를 들어, 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만 이에 국한되지 않는다. 휘발성 메모리의 예에는 랜덤 엑세스 메모리(RAM), 동작 랜덤 엑세스 메모리(DRAM), 정적 랜덤 엑세스 메모리(SRAM, PCM(Phase Change Memory) 및 디스크 또는 테이프가 포함되지만 이에 국한되지 않는다.
도 4는 이 문서에 설명된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스(400)의 개략도이다. 컴퓨팅 디바이스(400)는 랩탑, 데스크탑, 워크스테이션, PDA, 서버, 블레이드 서버, 메인 프레임 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내도록 의도된다. 본 명세서에 도시된 컴포넌트들, 이들의 연결 및 관계, 및 이들의 기능은 예시일 뿐이며, 이 문서에서 설명 및/또는 청구된 발명의 구현을 제한하려는 것은 아니다.
컴퓨팅 디바이스(400)는 프로세서(410), 메모리(420), 저장 디바이스(430), 메모리(420)와 고속 확장 포트(450)에 연결되는 고속 인터페이스/제어기(440), 및 저속 버스(470) 및 저장 디바이스(430)에 연결되는연결되는 저속 인터페이스/제어기(460)를 포함한다. 각 컴포넌트(410, 420, 430, 440, 450, 460)는 다양한 버스를 사용하여 상호 연결되며, 공통 마더보드에 장착되거나 적절한 다른 방식으로 장착될 수 있다. 프로세서(410)는 고속 인터페이스(440)에 연결된 디스플레이와 같은 외부 입/출력 디바이스에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 표시하기 위해 메모리(420) 또는 저장 디바이스(430)에 저장된 명령들을 포함하여 컴퓨팅 디바이스(400) 내에서 실행하기 위한 명령들을 처리할 수 있다. 다른 구현에서, 다중 프로세서 및/또는 다중 버스가 다중 메모리 및 메모리 유형과 함께 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스(400)는 필요한 동작들의 일부를 제공하는 각 디바이스(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 다중 프로세서 시스템)와 연결될 수 있다.
메모리(420)는 정보를 컴퓨팅 디바이스(400) 내에 비-일시적으로 저장한다. 메모리(420)는 컴퓨터 판독가능 매체, 휘발성 메모리 유닛(들), 또는 비-휘발성 메모리 유닛(들)일 수 있다. 비-일시적 메모리(420)는 컴퓨팅 디바이스(400)에 의한 사용을 위해 임시 또는 영구적으로 프로그램(예를 들어, 명령 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비-휘발성 메모리의 예로는 플래시 메모리 및 ROM/PROM)/EPROM/EEPROM)(예를 들어, 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)을 포함하지만 이에 국한되지 않는다. 휘발성 메모리의 예에는 RAM, DRAM, SRAM, PCM 및 디스크 또는 테이프가 포함되지만 이에 국한되지 않는다.
저장 디바이스(430)는 컴퓨팅 디바이스(400)를 위한 대용량 저장 디바이스를 제공할 수 있다. 일부 구현에서, 저장 디바이스(430)는 컴퓨터 판독가능 매체이다. 다양한 상이한 구현들에서, 저장 디바이스(430)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 저장 영역 네트워크 또는 기타 구성의 디바이스들을 포함하는 디바이스 어레이일 수 있다. 추가 구현에서, 컴퓨터 프로그램 제품은 정보 매체에 유형적으로 구현된다. 컴퓨터 프로그램 제품은 실행될 때 위에서 설명한 것과 같은 하나 이상의 방법을 수행하는 명령들을 포함한다. 정보 매체는 메모리(420), 저장 디바이스(430), 또는 프로세서(410) 상의 메모리와 같은 컴퓨터 또는 기계 판독 가능 매체이다.
고속 컨트롤러(440)는 컴퓨팅 디바이스(400)에 대한 대역폭 집약적인 동작을 관리하는 반면, 저속 컨트롤러(460)는 더 낮은 대역폭 집약적인 동작을 관리한다. 이러한 직무 할당은 예시일 뿐이다. 일부 구현에서, 고속 컨트롤러(440)는 메모리(420), 디스플레이(480)(예를 들어, 그래픽 프로세서 또는 가속기를 통해), 및 다양한 확장 카드(미도시)를 수용할 수 있는 고속 확장 포트(450)에 연결된다. 일부 구현에서, 저속 컨트롤러(460)는 저장 디바이스(430) 및 저속 확장 포트(490)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(490)는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입력/출력 디바이스, 또는 예를 들어 네트워크 어댑터를 통해 스위치나 라우터와 같은 네트워킹 디바이스에 연결될 수 있다.
컴퓨팅 디바이스(400)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(400a)로서 또는 그러한 서버(400a) 그룹에서 여러 번, 랩톱 컴퓨터(400b)로서, 또는 랙 서버 시스템(400c)의 일부로서 구현될 수 있다.
본 명세서에 설명된 시스템 및 기술의 다양한 구현은 디지털 전자 및/또는 광학 회로, 집적 회로, 특별히 설계된 ASIC, 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현은 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령을 수신하고 데이터 및 명령을 전송하도록 결합된 특수 또는 범용일 수 있는 적어도 하나의 프로그램 가능한 프로세서를 포함하는 프로그램 가능한 시스템에서 실행 가능 및/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)은 프로그램 가능 프로세서에 대한 기계 명령들을 포함하고 고급 절차 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에 사용된 바와 같이, "기계 판독가능 매체" 및 "컴퓨터 판독가능 매체"라는 용어는 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독가능 매체를 포함하여 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는데 사용되는 모든 컴퓨터 프로그램 제품, 비-일시적 컴퓨터 판독가능 매체, 장치 및/또는 디바이스(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 디바이스(PLD))를 지칭한다. "기계 판독가능 신호"라는 용어는 기계 명령 및/또는 데이터를 프로그래밍 가능 프로세서에 제공하는데 사용되는 모든 신호를 의미한다.
본 명세서에 설명된 프로세스 및 논리 흐름은 데이터 처리 하드웨어라고도 지칭되는 하나 이상의 프로그램 가능 프로세서에 의해 수행될 수 있으며, 입력 데이터에 대해 작동하고 출력을 생성함으로써 기능을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행한다. 프로세스 및 논리 흐름은 FPGA 또는 ASIC과 같은 특수 목적 논리 회로에 의해 수행될 수도 있다. 컴퓨터 프로그램의 실행에 적합한 프로세서는 예를 들어 범용 및 특수 목적 마이크로프로세서, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로, 프로세서는 판독 전용 메모리나 랜덤 액세스 메모리 또는 둘 다에서 명령과 데이터를 수신한다. 컴퓨터의 필수 요소는 명령을 수행하기 위한 프로세서와 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어 자기, 광자기 디스크, 또는 광 디스크로부터 데이터를 수신하거나 이들로 데이터를 전송하거나 둘 모두를 포함하거나 작동 가능하게 연결된다. 그러나, 컴퓨터에는 그러한 디바이스가 필요하지 않다. 컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스), 자기 디스크(예를 들어, 내부 하드 디스크 또는 이동식 디스크); 자기 광 디스크; 및 CD ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비-휘발성 메모리, 미디어 및 메모리 디바이스를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.
사용자와의 상호작용을 제공하기 위해, 본 개시의 하나 이상의 양태는 디스플레이 디바이스(예를 들어, CRT, LCD) 모니터), 또는 사용자에게 정보를 디스플레이하기 위한 터치 스크린 및 선택적으로 키보드 및 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 포인팅 디바이스를 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스도 사용자와의 상호 작용을 제공하는데 사용할 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각적 피드백 또는 촉각적 피드백과 같은 임의의 형태의 감각적 피드백일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함한 모든 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스로 문서를 보내고 문서를 수신하여 사용자와 상호 작용할 수 있다. 예를 들어 웹 브라우저에서 수신된 요청에 대한 응답으로 사용자 클라이언트 디바이스의 웹 브라우저에 웹 페이지를 전송한다.
다수의 구현이 설명되었다. 그럼에도 불구하고, 본 개시의 정신 및 범위를 벗어나지 않고 다양한 수정이 이루어질 수 있음이 이해될 것이다. 따라서, 다른 구현은 다음 청구항의 범위 내에 있다.

Claims (28)

  1. 방법(300)으로서,
    데이터 처리 하드웨어(121)에서, 제1 언어의 음성(speech)(150)으로 합성될 입력 텍스트 시퀀스(114)를 수신하는 단계;
    데이터 처리 하드웨어(121)에 의해, 화자 임베딩(116a)을 획득하는 단계, 상기 화자 임베딩(116a)은 입력 텍스트 시퀀스(114)를 타겟 화자(10)의 음성(voice)을 복제하는 음성(150)으로 합성하기 위해 타겟 화자(10)의 특정 음성 특성을 지정하고, 상기 타겟 화자(10)는 제1 언어와 다른 제2 언어의 모국 화자를 포함하고; 및
    데이터 처리 하드웨어(121)에 의해, 텍스트-음성 변환(TTS) 모델(100)을 사용하여, 입력 텍스트 시퀀스(114)와 화자 임베딩(116a)을 처리함으로써 입력 텍스트 시퀀스(114)의 출력 오디오 특징 표현(119)을 생성하는 단계를 포함하고, 상기 출력 오디오 특징 표현(119)은 화자 임베딩(116a)에 의해 지정된 타겟 화자(10)의 음성 특징을 포함하는 것을 특징으로 하는 방법(300).
  2. 제1항에 있어서,
    데이터 처리 하드웨어(121)에 의해, 언어 의존 정보를 지정하는 언어 임베딩(117a)을 획득하는 단계를 더 포함하고,
    상기 입력 텍스트 시퀀스(114)와 화자 임베딩(116a)을 처리하는 것은 입력 텍스트 시퀀스(114)의 출력 오디오 특징 표현(119)을 생성하기 위해 입력 텍스트 시퀀스(114), 화자 임베딩(116a) 및 언어 임베딩(117a)을 처리하는 것을 더 포함하고, 상기 출력 오디오 특징 표현(119)은 언어 임베딩(117a)에 의해 지정된 언어 의존 정보를 더 포함하는 것을 특징으로 하는 방법(300).
  3. 제2항에 있어서,
    상기 언어 의존 정보는 타겟 화자(10)의 제2 언어와 관련되고; 그리고
    상기 언어 의존 정보를 지정하는 언어 임베딩(117a)은 하나 이상의 다른 화자에 의해 제2 언어로 발화된 트레이닝 발언으로부터 획득되는 것을 특징으로 하는 방법(300).
  4. 제2항에 있어서,
    상기 언어 의존 정보는 제1 언어와 관련되고; 그리고
    상기 언어 의존 정보를 지정하는 언어 임베딩(117a)은 하나 이상의 다른 화자에 의해 제1 언어로 발화된 트레이닝 발언으로부터 획득되는 것을 특징으로 하는 방법(300).
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 입력 텍스트 시퀀스(114)의 출력 오디오 특징 표현(119)을 생성하는 단계는,
    복수의 시간 단계(step) 각각에 대해:
    인코더 신경망(112)을 사용하여, 시간 단계에 대한 대응하는 텍스트 인코딩(115)을 생성하기 위해 시간 단계에 대한 입력 텍스트 시퀀스(114)의 개별(respective) 부분을 처리하는 단계; 및
    디코더 신경망(118)을 사용하여, 시간 단계에 대한 대응하는 출력 오디오 특징 표현(119)을 생성하기 위해 시간 단계에 대한 텍스트 인코딩(115)을 처리하는 단계를 포함하는 것을 특징으로 하는 방법(300).
  6. 제5항에 있어서,
    상기 인코더 신경망(112)은 컨볼루션 서브네트워크 및 양방향 장단기 기억(LSTM) 계층을 포함하는 것을 특징으로 하는 방법(300)..
  7. 제5항 또는 제6항에 있어서,
    상기 디코더 신경망(118)은 장단기 기억(LTSM) 서브네트워크(220), 선형 변환(230) 및 컨볼루션 서브네트워크(240)를 포함하는 것을 특징으로 하는 방법(300).
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 출력 오디오 특징 표현(119)은 멜-주파수 스펙트로그램을 포함하는 것을 특징으로 하는 방법(300).
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    데이터 처리 하드웨어(121)에 의해, 파형 합성기(125)를 사용하여, 출력 오디오 특징 표현(119)을 시간-도메인 파형(126)으로 반전시키는 단계; 및
    데이터 처리 하드웨어(121)에 의해, 시간-도메인 파형(126)을 사용하여, 제1 언어의 타겟 화자(10)의 음성을 복제하는 입력 텍스트 시퀀스(114)의 합성된 음성(150) 표현을 생성하는 단계를 더 포함하는 것을 특징으로 하는 방법(300).
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 TTS 모델(100)은,
    제1 언어로 발화된 복수의 발언 및 대응하는 참조 텍스트를 포함하는 제1 언어 트레이닝 세트; 및
    제2 언어로 발화된 복수의 발언 및 대응하는 참조 텍스트를 포함하는 제2 언어 트레이닝 세트에 대해 트레이닝되는 것을 특징으로 하는 방법(300).
  11. 제10항에 있어서,
    상기 TTS 모델(100)은 하나 이상의 추가 언어 트레이닝 세트에 대해 추가로 트레이닝되고, 그 하나 이상의 추가 언어 트레이닝 세트의 각 추가 언어 트레이닝 세트는 개별 언어로 발화된 복수의 발언 및 대응하는 참조 텍스트를 포함하고, 상기 각각의 추가 언어 트레이닝 세트의 개별 언어는 각각의 다른 추가 언어 트레이닝 세트의 개별 언어와 상이하고 제1 및 제2 언어와 상이한 것을 특징으로 하는 방법(300).
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 입력 텍스트 시퀀스(114)는 문자 입력 표현에 대응하는 것을 특징으로 하는 방법(300).
  13. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 입력 텍스트 시퀀스(114)는 음소 입력 표현에 대응하는 것을 특징으로 하는 방법(300).
  14. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 입력 텍스트 시퀀스(114)는 8비트 유니코드 변환 포멧(UTF-8) 인코딩 시퀀스에 대응하는 것을 특징으로 하는 방법(300).
  15. 시스템으로서,
    데이터 처리 하드웨어(121)와; 그리고
    데이터 처리 하드웨어(121)와 통신하는 메모리 하드웨어(123)를 포함하고, 상기 메모리 하드웨어(123)는 데이터 처리 하드웨어(121)에서 실행될 때 데이터 처리 하드웨어(121)로 하여금 동작들을 수행하게 하는 명령들을 저장하며, 상기 동작들은:
    제1 언어의 음성(150)으로 합성될 입력 텍스트 시퀀스(114)를 수신하는 단계;
    화자 임베딩(116a)을 획득하는 단계, 상기 화자 임베딩(116a)은 입력 텍스트 시퀀스(114)를 타겟 화자(10)의 음성을 복제하는 음성(150)으로 합성하기 위해 타겟 화자(10)의 특정 음성 특성을 지정하고, 상기 타겟 화자(10)는 제1 언어와 다른 제2 언어의 모국 화자를 포함하고; 및
    텍스트-음성 변환(TTS) 모델(100)을 사용하여, 입력 텍스트 시퀀스(114)와 화자 임베딩(116a)을 처리함으로써 입력 텍스트 시퀀스(114)의 출력 오디오 특징 표현(119)을 생성하는 단계를 포함하고, 상기 출력 오디오 특징 표현(119)은 화자 임베딩(116a)에 의해 지정된 타겟 화자(10)의 음성 특징을 포함하는 것을 특징으로 하는 시스템.
  16. 제15항에 있어서,
    상기 동작들은,
    언어 의존 정보를 지정하는 언어 임베딩(117a)을 획득하는 단계를 더 포함하고,
    상기 입력 텍스트 시퀀스(114)와 화자 임베딩(116a)을 처리하는 것은 입력 텍스트 시퀀스(114)의 출력 오디오 특징 표현(119)을 생성하기 위해 입력 텍스트 시퀀스(114), 화자 임베딩(116a) 및 언어 임베딩(117a)을 처리하는 것을 더 포함하고, 상기 출력 오디오 특징 표현(119)은 언어 임베딩(117a)에 의해 지정된 언어 의존 정보를 더 포함하는 것을 특징으로 하는 시스템.
  17. 제16항에 있어서,
    상기 언어 의존 정보는 타겟 화자(10)의 제2 언어와 관련되고; 그리고
    상기 언어 의존 정보를 지정하는 언어 임베딩(117a)은 하나 이상의 다른 화자에 의해 제2 언어로 발화된 트레이닝 발언으로부터 획득되는 것을 특징으로 하는 시스템.
  18. 제16항에 있어서,
    상기 언어 의존 정보는 제1 언어와 관련되고; 그리고
    상기 언어 의존 정보를 지정하는 언어 임베딩(117a)은 하나 이상의 다른 화자에 의해 제1 언어로 발화된 트레이닝 발언으로부터 획득되는 것을 특징으로 하는 시스템.
  19. 제15항 내지 제18항 중 어느 한 항에 있어서,
    상기 입력 텍스트 시퀀스(114)의 출력 오디오 특징 표현(119)을 생성하는 단계는,
    복수의 시간 단계 각각에 대해:
    인코더 신경망(112)을 사용하여, 시간 단계에 대한 대응하는 텍스트 인코딩(115)을 생성하기 위해 시간 단계에 대한 입력 텍스트 시퀀스(114)의 개별 부분을 처리하는 단계; 및
    디코더 신경망(118)을 사용하여, 시간 단계에 대한 대응하는 출력 오디오 특징 표현(119)을 생성하기 위해 시간 단계에 대한 텍스트 인코딩(115)을 처리하는 단계를 포함하는 것을 특징으로 하는 시스템.
  20. 제19항에 있어서,
    상기 인코더 신경망(112)은 컨볼루션 서브네트워크 및 양방향 장단기 기억(LSTM) 계층을 포함하는 것을 특징으로 하는 시스템.
  21. 제19항 또는 제20항에 있어서,
    상기 디코더 신경망(118)은 장단기 기억(LTSM) 서브네트워크(220), 선형 변환(230) 및 컨볼루션 서브네트워크(240)를 포함하는 것을 특징으로 하는 시스템.
  22. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 출력 오디오 특징 표현(119)은 멜-주파수 스펙트로그램을 포함하는 것을 특징으로 하는 시스템.
  23. 제15항 내지 제22항 중 어느 한 항에 있어서,
    상기 동작들은,
    파형 합성기(125)를 사용하여, 출력 오디오 특징 표현(119)을 시간-도메인 파형(126)으로 반전시키는 단계; 및
    시간-도메인 파형(126)을 사용하여, 제1 언어의 타겟 화자(10)의 음성을 복제하는 입력 텍스트 시퀀스(114)의 합성된 음성(150) 표현을 생성하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
  24. 제15항 내지 제23항 중 어느 한 항에 있어서,
    상기 TTS 모델(100)은,
    제1 언어로 발화된 복수의 발언 및 대응하는 참조 텍스트를 포함하는 제1 언어 트레이닝 세트; 및
    제2 언어로 발화된 복수의 발언 및 대응하는 참조 텍스트를 포함하는 제2 언어 트레이닝 세트에 대해 트레이닝되는 것을 특징으로 하는 시스템.
  25. 제24항에 있어서,
    상기 TTS 모델(100)은 하나 이상의 추가 언어 트레이닝 세트에 대해 추가로 트레이닝되고, 그 하나 이상의 추가 언어 트레이닝 세트의 각 추가 언어 트레이닝 세트는 개별 언어로 발화된 복수의 발언 및 대응하는 참조 텍스트를 포함하고, 상기 각 추가 언어 트레이닝 세트의 개별 언어는 각각의 다른 추가 언어 트레이닝 세트의 개별 언어와 상이하고 제1 및 제2 언어와 상이한 것을 특징으로 하는 시스템.
  26. 제15항 내지 제25항 중 어느 한 항에 있어서,
    상기 입력 텍스트 시퀀스(114)는 문자 입력 표현에 대응하는 것을 특징으로 하는 시스템.
  27. 제15항 내지 제25항 중 어느 한 항에 있어서,
    상기 입력 텍스트 시퀀스(114)는 음소 입력 표현에 대응하는 것을 특징으로 하는 시스템.
  28. 제15항 내지 제25항 중 어느 한 항에 있어서,
    상기 입력 텍스트 시퀀스(114)는 8비트 유니코드 변환 포멧(UTF-8) 인코딩 시퀀스에 대응하는 것을 특징으로 하는 시스템.
KR1020217039553A 2019-05-31 2020-04-22 다국어 음성 합성 및 언어간 음성 복제 KR102581346B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962855067P 2019-05-31 2019-05-31
US62/855,067 2019-05-31
PCT/US2020/029239 WO2020242662A1 (en) 2019-05-31 2020-04-22 Multilingual speech synthesis and cross-language voice cloning

Publications (2)

Publication Number Publication Date
KR20220004737A true KR20220004737A (ko) 2022-01-11
KR102581346B1 KR102581346B1 (ko) 2023-09-22

Family

ID=70857228

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217039553A KR102581346B1 (ko) 2019-05-31 2020-04-22 다국어 음성 합성 및 언어간 음성 복제

Country Status (6)

Country Link
US (2) US11580952B2 (ko)
EP (1) EP3966804A1 (ko)
JP (1) JP7280386B2 (ko)
KR (1) KR102581346B1 (ko)
CN (1) CN113892135A (ko)
WO (1) WO2020242662A1 (ko)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112334974B (zh) * 2018-10-11 2024-07-05 谷歌有限责任公司 使用跨语言音素映射的语音生成
US11222176B2 (en) * 2019-05-24 2022-01-11 International Business Machines Corporation Method and system for language and domain acceleration with embedding evaluation
US11386276B2 (en) * 2019-05-24 2022-07-12 International Business Machines Corporation Method and system for language and domain acceleration with embedding alignment
ES2964322T3 (es) * 2019-12-30 2024-04-05 Tmrw Found Ip Sarl Sistema y método de conversión de voz multilingüe
CN111667816B (zh) * 2020-06-15 2024-01-23 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质
US11735156B1 (en) * 2020-08-31 2023-08-22 Amazon Technologies, Inc. Synthetic speech processing
EP4007998A1 (en) * 2020-10-13 2022-06-08 Google LLC Distributed sound recognition using a wearable device
EP4218006B1 (en) * 2020-10-21 2024-07-31 Google LLC Using cross-language speech synthesis to augment speech recognition training data for low-resource languages
CN112634856B (zh) * 2020-12-10 2022-09-02 思必驰科技股份有限公司 语音合成模型训练方法和语音合成方法
CN112712789B (zh) * 2020-12-21 2024-05-03 深圳市优必选科技股份有限公司 跨语言音频转换方法、装置、计算机设备和存储介质
CN112767912A (zh) * 2020-12-28 2021-05-07 深圳市优必选科技股份有限公司 跨语言语音转换方法、装置、计算机设备和存储介质
CN112786012B (zh) * 2020-12-31 2024-05-31 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112786018B (zh) * 2020-12-31 2024-04-30 中国科学技术大学 语音转换及相关模型的训练方法、电子设备和存储装置
CN112750419B (zh) * 2020-12-31 2024-02-13 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112927674B (zh) * 2021-01-20 2024-03-12 北京有竹居网络技术有限公司 语音风格的迁移方法、装置、可读介质和电子设备
CN112767958B (zh) * 2021-02-26 2023-12-26 华南理工大学 一种基于零次学习的跨语种音色转换***及方法
CN112668704B (zh) * 2021-03-16 2021-06-29 北京世纪好未来教育科技有限公司 音频识别模型的训练方法、装置和音频识别方法、装置
CN113160794B (zh) * 2021-04-30 2022-12-27 京东科技控股股份有限公司 基于音色克隆的语音合成方法、装置及相关设备
CN113345412A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备以及存储介质
CN113327580A (zh) * 2021-06-01 2021-08-31 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN113643687B (zh) * 2021-07-08 2023-07-18 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN113539232B (zh) * 2021-07-10 2024-05-14 东南大学 一种基于慕课语音数据集的语音合成方法
CN113611309B (zh) * 2021-07-13 2024-05-10 北京捷通华声科技股份有限公司 一种音色转换方法、装置、电子设备及可读存储介质
WO2023288265A1 (en) * 2021-07-15 2023-01-19 Sri International Voice modification
CN113488057B (zh) * 2021-08-18 2023-11-14 山东新一代信息产业技术研究院有限公司 面向康养的对话实现方法及***
CN113707125B (zh) * 2021-08-30 2024-02-27 中国科学院声学研究所 一种多语言语音合成模型的训练方法及装置
WO2023197206A1 (en) * 2022-04-13 2023-10-19 Microsoft Technology Licensing, Llc Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models
US20230335109A1 (en) * 2022-04-19 2023-10-19 Tencent America LLC Techniques for disentangled variational speech representation learning for zero-shot voice conversion
US20230386479A1 (en) * 2022-05-27 2023-11-30 Tencent America LLC Techniques for improved zero-shot voice conversion with a conditional disentangled sequential variational auto-encoder
US11880645B2 (en) 2022-06-15 2024-01-23 T-Mobile Usa, Inc. Generating encoded text based on spoken utterances using machine learning systems and methods
CN115273827B (zh) * 2022-06-24 2024-06-21 天津大学 多口音语音识别的具有域对抗训练的自适应注意力方法
US11887579B1 (en) * 2022-09-28 2024-01-30 Intuit Inc. Synthetic utterance generation
US20240153484A1 (en) * 2022-10-26 2024-05-09 Google Llc Massive multilingual speech-text joint semi-supervised learning for text-to-speech
CN115910033B (zh) * 2023-01-09 2023-05-30 北京远鉴信息技术有限公司 一种语音的合成方法、装置、电子设备及可读存储介质
CN116741149B (zh) * 2023-06-08 2024-05-14 北京家瑞科技有限公司 跨语言语音转换方法、训练方法及相关装置
CN116682413A (zh) * 2023-07-12 2023-09-01 内蒙古工业大学 一种基于Conformer和MelGAN的蒙古语语音合成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5093239B2 (ja) * 2007-07-24 2012-12-12 パナソニック株式会社 文字情報提示装置
US8594993B2 (en) * 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
US9491277B2 (en) * 2014-04-03 2016-11-08 Melissa Vincent Computerized method and system for global health, personal safety and emergency response
JP6392012B2 (ja) * 2014-07-14 2018-09-19 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
US9697201B2 (en) * 2014-11-24 2017-07-04 Microsoft Technology Licensing, Llc Adapting machine translation data using damaging channel model
US10249289B2 (en) * 2017-03-14 2019-04-02 Google Llc Text-to-speech synthesis using an autoencoder
JP6736786B2 (ja) 2017-03-29 2020-08-05 グーグル エルエルシー エンドツーエンドのテキスト音声変換
US10796686B2 (en) * 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
US10971170B2 (en) * 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks
US11195507B2 (en) * 2018-10-04 2021-12-07 Rovi Guides, Inc. Translating between spoken languages with emotion in audio and video media streams

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yuewen Cao et al., ‘END-TO-END CODE-SWITCHED TTS WITH MIX OF MONOLINGUAL RECORDINGS’, ICASSP 2019, 12 May 2019.* *

Also Published As

Publication number Publication date
EP3966804A1 (en) 2022-03-16
US20230178068A1 (en) 2023-06-08
US20200380952A1 (en) 2020-12-03
CN113892135A (zh) 2022-01-04
WO2020242662A1 (en) 2020-12-03
US11580952B2 (en) 2023-02-14
JP2022534764A (ja) 2022-08-03
JP7280386B2 (ja) 2023-05-23
KR102581346B1 (ko) 2023-09-22

Similar Documents

Publication Publication Date Title
KR102581346B1 (ko) 다국어 음성 합성 및 언어간 음성 복제
Zhang et al. Learning to speak fluently in a foreign language: Multilingual speech synthesis and cross-language voice cloning
JP7395792B2 (ja) 2レベル音声韻律転写
JP7436709B2 (ja) 非発話テキストおよび音声合成を使う音声認識
WO2019165748A1 (zh) 一种语音翻译方法及装置
US20180349495A1 (en) Audio data processing method and apparatus, and computer storage medium
US8024179B2 (en) System and method for improving interaction with a user through a dynamically alterable spoken dialog system
US11842728B2 (en) Training neural networks to predict acoustic sequences using observed prosody info
CN115485766A (zh) 使用bert模型的语音合成韵律
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
CN117642814A (zh) 稳健的直接语音到语音翻译
JP2023546930A (ja) 言語間音声合成を改良するための音声認識の使用
WO2023197206A1 (en) Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models
WO2023288169A1 (en) Two-level text-to-speech systems using synthetic training data
Sharma et al. Polyglot speech synthesis: a review
Phung et al. Exploring a web-based application to convert Tamil and Vietnamese speech to text without the effect of code-switching and code-mixing
Nguyen et al. Learning vietnamese-english code-switching speech synthesis model under limited code-switched data scenario
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
Tan Data-Efficient TTS
Xu et al. End-to-End Speech Synthesis Method for Lhasa-Tibetan Multi-speaker
TWM621764U (zh) 客製化語音服務系統

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant