KR102506671B1

KR102506671B1 - 스타일러: 음성 분해를 통해 신속성과 견고성을 갖춘 스타일 요소 모델링을 기반으로 다양한 표현 및 스타일 제어가 가능한 인공신경망 기반의 음성 합성 시스템

Info

Publication number: KR102506671B1
Application number: KR1020210099709A
Authority: KR
Inventors: 김대영; 이건; 박규민
Original assignee: 한국과학기술원
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-03-08
Also published as: KR20230018038A

Abstract

음성 분해를 통해 신속성과 견고성을 갖춘 스타일 요소 모델링을 기반으로 다양한 표현 및 스타일 제어가 가능한 인공신경망 기반의 음성 합성 기술이 개시된다. 일 실시예에 따른 음성 합성 시스템에 의해 수행되는 합성 방법은, 스타일 요소 모델링을 위한 음성합성 모델에 오디오 데이터 및 텍스트 데이터를 입력받는 단계; 상기 음성합성 모델을 이용하여 상기 오디오 데이터 및 텍스트 데이터에 대한 스타일 요소를 모델링하는 단계; 및 상기 모델링을 통해 상기 오디오 데이터 및 텍스트 데이터에 대한 합성 음성 데이터를 출력하는 단계를 포함하고, 상기 음성합성 모델은, 스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것일 수 있다.

Description

스타일러: 음성 분해를 통해 신속성과 견고성을 갖춘 스타일 요소 모델링을 기반으로 다양한 표현 및 스타일 제어가 가능한 인공신경망 기반의 음성 합성 시스템{STYLER: STYLE FACTOR MODELING WITH RAPIDITY AND ROBUSTNESS VIA SPEECH DECOMPOSITION FOR EXPRESSIVE AND CONTROLLABLE NEURAL TEXT TO SPEECH}

아래의 설명은 음성 합성 기술에 관한 것이다.

인간 수준의 읽기 성능에 대한 신경 문자음성 변환 프로그램(TTS)의 현저한 개선에도 불구하고, 표현성과 제어 가능성이 결여되었다는 비판이 제기되었다. 합성된 음성의 스타일은 훈련 데이터셋의 평균 음성 스타일에 의해 결정되기 때문에, TTS 모델은 표현력 있는 음성을 나타내는 것이 제한되었다. 이러한 문제를 해결하기 위해, 다양한 스타일로 음성을 합성하고 제어할 수 있는 여러 접근 방식이 모색되고 있다. 그러나, 표현력이 뛰어난 TTS 모델은 자동회귀 아키텍처로 인해 속도와 견고성에 약점을 가지고 있다. 각 프레임은 예측하기 위해 이전의 모든 시간 단계를 반복해야 하기 때문에, 디코딩은 상당한 훈련과 추론 오버헤드를 소비하며, 한 단계에서의 붕괴는 전체 합성의 실패에 빠뜨릴 수 있다. 또한, 이들의 비지도 스타일 모델링은 어려운 훈련을 보고하며 특징을 풀기 위한 근본적인 한계가 있다.

한편, 자동회귀 디코딩이 없는 음성 합성 프레임워크가 최근에 제안되었다. 일부 비자동회귀 TTS 모델은 트랜스포머를 활용하여, 병렬 디코딩을 위해 셀프 어텐션 블록(self-attention block)을 사용한다. 자동회귀 디코더를 지속 시간 예측으로 대체하면 속도가 빨라지고 안정성이 향상된다. 그러나 이러한 모델은 단일 텍스트 입력으로부터만 값을 예측하기 때문에 오디오의 영향이 감소하는 낮은 표현력과 약한 제어 가능성에는 여전히 한계가 있다.

음성 분해를 통해 신속성과 견고성을 갖춘 스타일 요소 모델링을 기반으로 다양한 표현 및 스타일 제어가 가능한 인공신경망 기반의 음성 합성 시스템 및 방법을 제공할 수 있다.

음성 합성 시스템에 의해 수행되는 합성 방법은, 스타일 요소 모델링을 위한 음성합성 모델에 오디오 데이터 및 텍스트 데이터를 입력받는 단계; 상기 음성합성 모델을 이용하여 상기 오디오 데이터 및 텍스트 데이터에 대한 스타일 요소를 모델링하는 단계; 및 상기 모델링을 통해 상기 오디오 데이터 및 텍스트 데이터에 대한 합성 음성 데이터를 출력하는 단계를 포함하고, 상기 음성합성 모델은, 스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것일 수 있다.

상기 음성합성 모델은, 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터에 대한 복수 개의 스타일 요소를 인코딩하여 음성 데이터로 변환하는 인코더 및 비자동회귀 음성합성 디코딩을 통해 상기 변환된 음성 데이터로부터 합성 음성 데이터를 생성하는 디코더로 구성될 수 있다.

상기 음성합성 모델은, 레이블이 없는 기준 음성에서 발생하는 노이즈를 분해하는 동시에 노이즈를 포함한 오디오 데이터로부터 스타일을 인코딩하는 노이즈 모델링을 수행할 수 있다.

상기 음성합성 모델은, 오디오 데이터를 텍스트 데이터의 길이만큼 선형으로 압축하거나 확장하도록 설계된 교정기(Calibrator)를 통해 상기 텍스트 데이터와 오디오 데이터를 정렬할 수 있다.

상기 인코더는, 상기 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터에 대한 복수 개의 스타일 요소를 인코딩하기 위한 각각의 인코더를 포함하고, 상기 각각의 인코더의 출력 데이터가 ReLU 활성화와 선형 레이어에 의해 각 예측기로 전송되기 전에 채널별로 업샘플링될 수 있다.

상기 인코더는, 길이 조절기에 의해 지속 시간 인코딩으로 카운트된 각 음소(phoneme)에 대해 프레임을 반복하기 위한 프레임별 업샘플링이 적용될 수 있다.

상기 인코더는, 복수 개의 기 설정된 차원의 FFT(Feed-Forward Transformer) 블록을 포함하고, 음소 시퀀스를 입력 텍스트로 사용하는 텍스트 인코더를 포함할 수 있다.

상기 인코더는, 복수 개의 N×M(N, M은 자연수) 컨볼루션 레이어, 상기 N×M(N, M은 자연수) 컨볼루션 레이어에 이어서 기 설정된 사이즈의 그룹 정규화로 구성된 지속 시간 인코더, 피치 인코더, 에너지 인코더 및 노이즈 인코더를 포함할 수 있다.

상기 피치 인코더, 에너지 인코더 및 노이즈 인코더에서 기 설정된 사이즈의 양방향 LSTM이 채널별로 병목 현상이 발생될 수 있다.

상기 지속 시간 인코더 및 노이즈 인코더는 멜 스펙트로그램(mel-spectrogram)을 사용할 수 있다.

상기 피치 인코더는 정규화된 피치 윤곽을 이용하여 스피커와 일치하는 피치 윤곽을 모델링할 수 있다.

상기 에너지 인코디는 0에서 1까지의 스케일 에너지를 사용할 수 있다.

오디오 데이터에서 추출된 피치 데이터와 에너지 데이터가 복수 개의 원핫 벡터로 양자화되고, 상기 양자화된 원핫 벡터가 상기 인코더에 의해 처리될 수 있다.

상기 음성합성 모델은, 지속 기간 인코더, 피치 인코더, 에너지 인코더에 대하여 적대적 훈련(DAT)을 적용할 수 있다.

상기 음성합성 모델은, 지속 기간 인코더, 피치 인코더, 에너지 인코더에서 각각의 인코딩을 통해 출력된 인코딩 데이터에 기초하여 클린 멜 스펙트로그램을 예측하고, 노이즈 인코더에서 인코딩을 통해 출력된 노이즈 인코딩 데이터가 상기 각각의 인코딩을 통해 출력된 인코딩 데이터에 추가되어 노이즈가 있는 멜 스펙트로그램을 예측할 수 있다.

상기 음성합성 모델은, 복수 개의 예측기를 포함하고, 상기 복수 개의 예측기 중 어느 하나의 예측기에서 최종 피치 윤곽선을 예측하기 위한 추가 입력으로 스피커 인코딩을 수신하는 것을 포함하고, 상기 디코더는 복수 개의 스타일 요소를 이용하여 스타일 요소 최종 멜 스펙트로그램을 예측하기 위한 복수 개의 기 설정된 차원의 FFT 블록을 포함할 수 있다.

상기 디코더는, 상기 인코더를 이용한 인코딩을 통해 출력된 텍스트 인코딩, 피치 임베딩, 에너지 임베딩 및 스피커 인코딩 데이터의 조합을 디코더의 입력 데이터로 사용할 수 있다.

상기 입력받는 단계는, 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터를 스타일 요소 모델링을 위한 복수 개의 요소로 인식하고, 상기 인식된 복수 개의 요소를 상기 음성합성 모델에 입력받을 수 있다.

합성 방법을 상기 음성 합성 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 포함할 수 있다.

음성 합성 시스템은, 스타일 요소 모델링을 위한 음성합성 모델에 오디오 데이터 및 텍스트 데이터를 입력받는 데이터 입력부; 상기 음성합성 모델을 이용하여 상기 오디오 데이터 및 텍스트 데이터에 대한 스타일 요소를 모델링하는 모델링부; 및 상기 모델링을 통해 상기 오디오 데이터 및 텍스트 데이터에 대한 합성 음성 데이터를 출력하는 합성 데이터 출력부를 포함하고, 상기 음성합성 모델은, 스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것일 수 있다.

합성하고자 하는 음성을 스타일 요소 별로 분해하여 원하는 스타일로 합성할 수 있다.

새로운 오디오-텍스트 정렬을 통해 보이지 않는 데이터에서 보다 빠르고 강력한 합성을 제공할 수 있다.

비동기회귀 TTS와 동일한 수준의 지도를 통해 분해된 스타일 요소를 통해 높은 표현력과 제어성을 달성할 수 있다.

노이즈에 강하며, 새로운 노이즈 모델링을 통해 추가 레이블 없이 다른 스타일 요소로서 노이즈를 분해할 수 있다.

도 1은 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 2는 일 실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 3은 일 실시예에 있어서, 음성 합성 시스템의 개괄적인 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 있어서, 음성합성 모델의 구조를 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 음성 합성 시스템의 구성을 설명하기 위한 블록도이다.
도 6은 일 실시예에 따른 음성 합성 시스템에서 합성 방법을 설명하기 위한 흐름도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

실시예에서는 음성 분해를 통해 신속성과 견고성을 갖춘 스타일 요소 모델링을 기반으로 다양한 표현 및 스타일 제어가 가능한 인공신경망 기반의 음성 합성 기술에 대하여 설명하기로 한다.

도 1은 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다. 도 1의 네트워크 환경은 복수의 전자 기기들(110, 120, 130, 140), 복수의 서버들(150, 160) 및 네트워크(170)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 전자 기기의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다.

복수의 전자 기기들(110, 120, 130, 140)은 컴퓨터 시스템으로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 전자 기기들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, VR(virtual reality) 디바이스, AR(augmented reality) 디바이스 등이 있다. 일례로 도 1에서는 전자 기기(110)의 예로 스마트폰의 형상을 나타내고 있으나, 본 발명의 실시예들에서 전자 기기(110)는 실질적으로 무선 또는 유선 통신 방식을 이용하여 네트워크(170)를 통해 다른 전자 기기들(120, 130, 140) 및/또는 서버(150, 160)와 통신할 수 있는 다양한 물리적인 컴퓨터 시스템들 중 하나를 의미할 수 있다.

통신 방식은 제한되지 않으며, 네트워크(170)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망, 위성망 등)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(170)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(170)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

서버(150, 160) 각각은 복수의 전자 기기들(110, 120, 130, 140)과 네트워크(170)를 통해 통신하여 명령, 코드, 파일, 콘텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 예를 들어, 서버(150)는 네트워크(170)를 통해 접속한 복수의 전자 기기들(110, 120, 130, 140)로 제1 서비스를 제공하는 시스템일 수 있으며, 서버(160) 역시 네트워크(170)를 통해 접속한 복수의 전자 기기들(110, 120, 130, 140)로 제2 서비스를 제공하는 시스템일 수 있다. 보다 구체적인 예로, 서버(150)는 복수의 전자 기기들(110, 120, 130, 140)에 설치되어 구동되는 컴퓨터 프로그램으로서의 어플리케이션을 통해, 해당 어플리케이션이 목적하는 서비스(일례로, 동영상 서비스 등)를 제1 서비스로서 복수의 전자 기기들(110, 120, 130, 140)로 제공할 수 있다. 다른 예로, 서버(160)는 상술한 어플리케이션의 설치 및 구동을 위한 파일을 복수의 전자 기기들(110, 120, 130, 140)로 배포하는 서비스를 제2 서비스로서 제공할 수 있다.

도 2는 일 실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 앞서 설명한 복수의 전자 기기들(110, 120, 130, 140) 각각이나 서버들(150, 160) 각각은 도 2를 통해 도시된 컴퓨터 장치(200)에 의해 구현될 수 있다.

이러한 컴퓨터 장치(200)는 도 2에 도시된 바와 같이, 메모리(210), 프로세서(220), 통신 인터페이스(230) 그리고 입출력 인터페이스(240)를 포함할 수 있다. 메모리(210)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(210)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(200)에 포함될 수도 있다. 또한, 메모리(210)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(210)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(210)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(230)를 통해 메모리(210)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(170)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(200)의 메모리(210)에 로딩될 수 있다.

프로세서(220)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(210) 또는 통신 인터페이스(230)에 의해 프로세서(220)로 제공될 수 있다. 예를 들어 프로세서(220)는 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 인터페이스(230)는 네트워크(170)를 통해 컴퓨터 장치(200)가 다른 장치(일례로, 앞서 설명한 저장 장치들)와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(200)의 프로세서(220)가 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(230)의 제어에 따라 네트워크(170)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(170)를 거쳐 컴퓨터 장치(200)의 통신 인터페이스(230)를 통해 컴퓨터 장치(200)로 수신될 수 있다. 통신 인터페이스(230)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(220)나 메모리(210)로 전달될 수 있고, 파일 등은 컴퓨터 장치(200)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.

입출력 인터페이스(240)는 입출력 장치(250)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(240)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(250)는 컴퓨터 장치(200)와 하나의 장치로 구성될 수도 있다.

또한, 다른 실시예들에서 컴퓨터 장치(200)는 도 2의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(200)는 상술한 입출력 장치(250) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

이하에서는 인공신경망 기반의 음성 합성 방법 및 시스템의 구체적인 실시예를 설명하기로 한다.

신경망을 이용한 음성 합성(TTS)에 대한 종래의 기술은 훈련 및 추론 시간의 제한된 속도, 어려운 합성 조건에 대한 견고성, 표현력 및 제어 가능성에 다루었지만 모든 약점을 한 번에 해결하려는 시도는 없었다.

자동회귀 디코딩을 사용하는 종래의 자동회귀 음성합성 모델보다 속도와 견고성 측면에서 더 효과적이며 읽기 스타일 비자동회귀 TTS보다 표현력과 제어력이 더 높은 음성합성 모델을 구축하고자 한다.

새로운 오디오 텍스트 정렬 방법과 비자동회귀 디코딩을 통해 신속하고 강건한 학습을 보장하며, 스타일 요소(Factor) 모델링을 통해 다양한 표현 합성 및 제어가 가능한 음성합성 모델을 제시한다.

또한, 도메인 적대적 훈련 및 잔류 디코딩을 사용하는 새로운 노이즈 모델링을 통해 노이즈가 포함된 데이터를 이용할 때에도 강력한 스타일 전이를 지원하여 추가 레이블없이 노이즈를 분해할 수 있다.

도 3은 일 실시예에 있어서, 음성 합성 시스템의 개괄적인 동작을 설명하기 위한 도면이다.

음성 합성 시스템은 스타일 요소 모델링을 위한 음성합성 모델(310)에 오디오 데이터 및 텍스트 데이터(301)를 입력받을 수 있다. 음성 합성 시스템은 음성합성 모델(310)을 이용하여 오디오 데이터 및 텍스트 데이터(301)에 대한 스타일 요소를 모델링할 수 있다. 음성 합성 시스템은 모델링을 통해 오디오 데이터 및 텍스트 데이터(301)에 대한 합성 데이터(합성 음성 데이터)(302)를 출력할 수 있다.

상세하게는, 음성 합성 시스템은 입력 데이터(입력 텍스트)를 받아서 바로 음성합성 모델(310)에 넣지 않고, 입력 텍스트를 음소로 변환한 뒤, 음소 시퀀스를 입력 데이터로 사용하여 음성합성 모델(310)을 학습시킬 수 있다. 이때, 사람의 언어에서 같은 텍스트(text)라도 발음이 다양할 수 있다는 프라이어(prior)를 반영하기 위해, 미리 발음을 구분해 표현해 음성합성 모델(310)이 각 발음을 세분화해 학습하도록 할 수 있다.

음성합성 모델(310)은, 스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것일 수 있다.

이때, 합성 데이터(302)란 오디오 데이터 및 텍스트 데이터를 이용하여 다양한 스타일의 음성 데이터로 변환되는 것을 의미할 수 있다. 예를 들면, 간단하게 여성의 목소리가 남성의 목소리로 변환될 수 있고, 높낮이, 억양, 속도, 음색 등 다양한 스타일의 음성 데이터로 변환될 수 있다. 다시 말해서, 화자의 특성, 발화 특성 등에 기초하여 다양한 스타일의 합성 데이터로 모델링될 수 있다.

도 4를 참고하면, 음성합성 모델(310)의 구조를 설명하기 위한 도면이다.

음성합성 모델(310)은 조정기(예를 들면, Mel Calibrator)와 지도 기반의 음성 분해를 재해석할 수 있다. 견고성 문제는 입력 텍스트와 오디오 데이터 사이의 상관관계를 갖는 어텐션 메커니즘의 특성에서 비롯되었기 때문에 강력한 모델을 위하여 정렬 프로세스에서 텍스트 데이터와 오디오 데이터의 융합(fusion)을 디코딩으로 미루는 것(amortizing)이 필요하다. 이에, 정렬 프로세스의 오디오 데이터를 물리적인 전체 시퀀스 크기만 변환하도록 역할을 제한할 수 있다.

조정기는 오디오를 텍스트 길이까지 선형으로 압축하거나 확장하도록 설계될 수 있다. 단순히 프레임을 평균화하거나 오디오 프레임을 반복하여 단일 음소(phoneme)에 할당한다. 음소란 발음의 물리적인 최소 단위이며, 동일한 단어라도 발음이 달라질 수 있다. 예를 들면, 영단어 '추상적인' 의미인 "ABSTRACT"은 사용 문맥에 따라 발음을 "AE0 B S T R AE1 K T" 혹은 "AE1 B S T R AE2 K T"로 표현할 수 있으며, 이때 "AE0", "AE1", "B" 등 각각이 음소가 될 수 있다. 이러한 방식으로 정렬 프로세스는 수신 오디오의 프레임별 병목 현상이 발생하므로 어텐션이 필요 없고 강제로 정렬할 필요도 없다. 이에, 어텐션 메커니즘에 비해 조정기(예를 들면, Mel Calibrator)와 지도 기반의 음성 분해를 수행함으로써 비자동회귀에 대한 견고성 문제가 발생하지 않고, 오디오 관련 스타일 요인이 오디오에서만 발생하도록 하여 텍스트에 노출되지 않는다는 장점이 있다.

비지도 조건에서, 인코더는 소스 오디오로부터 필요한 정보를 전달하기 위해 채널과 프레임 양쪽 모두에서 엄격한 병목 현상이 필요하다. 하지만 병목 현상은 훈련을 어렵고 시간 소모적으로 만든다. 지도 하에, 인코더는 피치 윤곽선 및 에너지와 같은 수신 오디오에서 사전 확보된 특징을 활용할 수 있다. 강제적인 특징 선택이 필요하지 않기 때문에, 과도한 규제는 정보 부족과 성능 저하로 이어질 수 있다. 음성합성 모델(310)에서는 스타일 요소를 모델링하는 동안 지도 하에 정보 흐름에 맞게 병목 현상을 완화시킬 수 있다.

도 4를 참고하면, 음성합성 모델(310)은 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터를 스타일 요소 모델링을 위한 복수 개의 동일한 요소로 인식할 수 있다. 신속성, 견고성, 표현성 및 제어 가능성을 동시에 달성하기 위하여 비자동회귀 디코딩 및 음성 분해 접근 방식을 이용하여 스타일을 변환할 수 있다.

음성합성 모델(310)은 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터에 대한 복수 개의 스타일 요소를 인코딩하여 음성 데이터로 변환하는 인코더(410, 411, 412, 413, 414), 및 비자동회귀 음성합성 디코딩을 통해 변환된 음성 데이터로부터 합성 음성 데이터를 생성하는 디코더(440, 411)로 구성될 수 있다.

도 4에서 Z_t는 텍스트 인코딩, Z_t'는 다운샘플링된 텍스트 인코딩, Z_d는 지속 기간 인코딩, Z_p는 피치 인코딩, Z_s는 스피커 인코딩, Z_e는 에너지 인코딩, Z_n는 노이즈 인코딩을 의미하고, DAT(203)는 도메인 적대적 훈련을 나타낸다.

복수 개의 스타일 요소가 각각에 대응되는 인코더(410, 411, 412, 413, 414)에 입력 데이터로 입력될 수 있다.

텍스트 인코더(410)는 헤드가 4개인 2개의 256차원 FFT(Feed-Forward Transformer) 블록을 포함할 수 있으며, 음소 시퀀스를 입력 데이터로 사용할 수 있다. 텍스트 데이터는 텍스트 인코더(410)에 의해서만 인코딩되므로, 오디오 콘텐츠는 다른 인코더의 병목 현상을 통해 제거될 수 있다. 텍스트 데이터가 텍스트 인코더(410)를 통과함에 따라 텍스트 인코딩, 다운샘플링된 텍스트 인코딩이 출력될 수 있다. 다시 말해서, 하나의 텍스트 데이터에 대해 텍스트 인코더(410)를 통과함에 따라 획득된 텍스트 인코딩을 그대로 사용하거나 다운 샘플링하여 사용할 수 있다.

지속 시간 인코더(411), 피치 인코더(412), 에너지 인코더(413), 노이즈 인코더(414)는 세 개의 5×1 컨볼루션 레이어, 상기 컨볼루션 레이어에 이어서 사이즈 16의 그룹 정규화를 포함할 수 있다. 이때, 사이즈가 80인 지속 시간 인코더(411)를 제외하고 피치 인코더(412), 에너지 인코더(413), 노이즈 인코더(414)에서 사이즈가 64의 양방향 LSTM이 채널별로 병목 현상이 발생될 수 있다. 컨볼루션 레이어의 차원은 지속시간 인코더(411) 및 노이즈 인코더(414)의 경우 256이고, 피치 인코더(412) 및 에너지 인코더(413)의 경우 320이다. 조정기는 컨볼루션 스택 뒤에 적용될 수 있다. 인코더의 출력은 ReLU 활성화를 통해 선형 레이어에 의해 각 예측기(430, 421, 422)로 전송되기 전에 채널별로 업샘플링될 수 있다.

길이 조절기(430)는 지속 시간 인코딩으로 카운트된 각 음소에 대해 프레임을 반복하는 프레임별 업샘플링으로 적용될 수 있다.

지속 시간 인코더(411) 및 노이즈 인코더(414)는 mel 스케일 스펙트로그램(멜 스펙트로그램)을 입력 데이터로 사용할 수 있다. 피치 인코더(412)는 스피커 정규화 피치 윤곽(예를 들면, 평균 = 0.5, 표준 편차 = 0.25)을 이용하여 스피커와 독립적인 피치 윤곽선을 모델링할 수 있다. 스피커 인코더는 사전에 훈련된 스피커 임베딩으로부터 전송될 수 있다. 실시예에서는 스피커 인코딩으로 Deep Speaker를 채택할 수 있다. Deep Speaker는 음성(Speech)을 받아서 해당 음성(speech)이 어떤 화자로부터 나왔는지를 학습하여 최종적으로 입력 음성 데이터에 대해 화자 별 구분이 가능한 스피커 임베딩(speaker embedding)을 제공해주는 임베더(embedder) 역할을 한다. 실시예에서는 미리 학습된 Deep Speaker모델을 사용해 인풋 오디오 데이터(input audio data)로부터 스피커 임베딩을 추출할 수 있다. 스피커 임베딩 역시 음성합성 모델에서 바로 학습을 할 수도 있지만, 실시예에서의 목표는 화자별로 잘 분리하자는 게 아니고 이미 분리된 화자를 다른 스타일 요소(지속시간, 피치, 에너지)와 분리하자에 가깝기 때문이고, 이렇게 미리 학습된 임베더를 사용하는게 모델에서 같이 학습 되는 것 보다 성능이 좋다는 것을 따르기 위함이다. Deep Speaker는 노이즈 견고성과 같은 추가 특징 없이 스피커 식별정보(ID)를 임베딩하는 데 충실하기 때문에 사용될 수 있다. 에너지 인코더(413)는 모델 훈련을 용이하게 하기 위해 0에서 1까지의 스케일 에너지를 사용할 수 있다. 피치 인코더(412)와 에너지 인코더(413)의 입력 데이터는 256개의 bin 원핫 벡터로 양자화되고, 양자화된 bin 원핫 벡터가 각 인코더에 의해 처리될 수 있다. 모든 입력 데이터는 채널별 병목 현상만 겪게 된다.

음성합성 모델은 세 개의 예측기(420, 421, 422)를 포함할 수 있다. 지속 시간 예측기(420), 피치 예측기(421), 및 에너지 예측기(422)이다. 예측기들은 잠재 코드보다는 실제값을 예측하기 때문에 필요한 모든 정보를 소비해야 한다.

예측기들의 입력에는 텍스트 인코딩을 포함한 각 인코딩의 합계가 포함될 수 있다. 텍스트 인코딩은 종속성의 균형을 맞추기 위해 4차원 공간에 투영될 수 있다. 피치 예측기는 최종 피치 윤곽선을 예측하기 위한 추가 입력으로 스피커 인코딩을 수신할 수 있다. 이때, 다운샘플링과 업샘플링된 피치 인코딩에 스피커 인코딩을 추가함으로써 스피커 식별정보의 분해를 향상시킬 수 있다.

스타일 요소에서 최종 멜 스펙트로그램을 예측하는 디코더에는 4개의 멀티 헤드가 있는 4개의 256 차원 FFT 블록을 포함할 수 있다. 디코더에 텍스트 인코딩, 피치 임베딩(피치 예측기의 출력 포함), 에너지 임베딩(에너지 예측기의 출력 포함) 및 스피커 인코딩의 조합이 입력 데이터로 입력될 수 있다. 요구되는 매핑에 대해 입력 데이터와 타겟 사이의 정보가 일치해야 하므로 스피커 인코딩이 포함될 수 있다.

음성합성 모델(310)은 노이즈 견고성을 개선하는 과정에서 추가적인 레이블없이 오디오에서 노이즈를 분해할 수 있다. 실시예에서 노이즈는 인코더에 명시적으로 인코딩된 요소 중 하나이며, 다른 요소를 제외하고 잔차 특성에 기반하여 정의될 수 있다. 이때, 정의에 따라 노이즈를 모델링하기 위하여 다른 인코더가 노이즈 입력에도 불구하고 노이즈 정보를 포함하지 않도록 제한되어야 한다.

음성합성 모델(310)은 도메인 적대적 훈련(DAT)를 적용할 수 있다. 확대 레이블과 GRL(gradient reversal layer)이 도입되어 음성합성 모델에서 공동으로 훈련될 수 있다. 각 예측기의 레이블은 클래스 레이블 역할을 할 수 있다. 도 3과 같이 도메인 적대적 훈련은 노이즈 인코더(414)를 제외한 모든 오디오 관련 인코더(411, 412, 413)에 적용될 수 있다. GRL을 통과한 후 증강 분류기(augmentation classifier)에서 각 인코딩을 통해 증강 이후를 예측할 수 있다. 증강 분류기는 히든 사이즈(hidden size) 256의 두 개의 완전 연결 레이어로 구성되며, 이어서 레이어 정규화(layer normalization)와 ReLU 활성화가 뒤따른다. 노이즈 인코더를 제외한 모든 오디오 관련 인코더(411, 412, 413)는 노이즈에 독립적이므로 각 예측기의 출력을 노이즈 레이블이 아닌 클린 레이블과 비교한다.

이에, 음성의 기본적인 요소(음의 높낮이, 화자 특성, 발화 특성 등)뿐만 아니라 노이즈의 정도 역시 모델링함으로써 소음이 포함된 데이터에 대해서도 학습이 가능하다.

노이즈의 정의와 명시적 라벨이 부여되지 않은 사실에 따라 잔차 디코딩이라는 새로운 파이프라인이 설계될 수 있다. 여기에는 클린 디코딩과 노이지 디코딩의 두 단계가 포함될 수 있다. 클린 디코딩에서는 모든 노이즈 독립 인코딩을 취하여 클린 멜 스펙트로그램을 예측하고 노이즈 디코딩에서는 노이즈 인코더 출력이 노이즈 독립 인코딩에 추가되어 노이즈가 있는 멜 스펙트로그램을 예측한다. 노이즈 디코딩 시 노이즈 인코더만 업데이트하면 되므로 경사[gradient]는 다른 인코더를 통과하지 않는다. 잔차 디코딩은 명시적 라벨 없이 노이즈가 오디오의 남은 부분에 직접 초점을 맞추도록 강제하는 암묵적 지도로 볼 수 있다.

노이즈 모델링을 하지 않은 음성합성 모델(310)의 총 손실은 다음과 같이 나타낼 수 있다.

수학식 1:

여기서 l_mel-clean은 예측된 멜 스펙트로그램과 목표값 사이의 평균 제곱 오차이며 예측기 손실(l_duration, l_pitch, l_energy)은 평균 절대 오차로 계산될 수 있다. 지속시간, 피치, 에너지에 대하여 추출된 각 손실을 통해 추가 레이블 없이 스타일 요인을 분해할 수 있음을 의미한다. 지속 시간은 Montreal Forced Aligner (MFA)를 사용해 음소(phoneme)별로 해당 음소가 오디오에서 얼마나 긴 시간동안 발음 되었는지 계산해주고, 음성합성 모델을 학습하면서 실제로 모델이 이 값을 예측하게 되는데 얼마나 잘 추출하는지 평가하기 위해 앞서 MFA로 추출된 실제 값(정답)과의 차이가 측정될 수 있다. 피치, 에너지는 기존의 시그널 프로세싱(signal processing) 분야에서 사용된 알고리즘(deep learning 아님)을 이용해 주어진 음성에서 각 값을 기계적으로 추출할 수 있고, 지속시간에서처럼 모델이 예측한 피치, 에너지 값과 실제 값(정답)을 견주어 그 차이가 측정될 수 있다. 여기서 차이를 측정할 때 '평균 절대 오차'라는 방법이 사용될 수 있다.

노이즈 모델링을 포함한 음성합성 모델(310)의 총 손실은 다음과 같이 나타낼 수 있다.

수학식 2:

여기서 Loss_clean은 수학식 1을 참조하고, l_mel-noisy는 수학식 1의 동일한 l_mel-clean 방식으로 계산한 노이즈 디코딩으로부터 도출될 수 있으며, l_aug는 각 증강 분류기 손실의 합계이다. l_mel-noisy은 예측된 노이즈가 있는 멜 스펙트로그램과 목표값 사이의 평균 제곱 오차이며 예측기 손실(lduration, lpitch, lenergy)은 평균 절대 오차로 계산될 수 있다.

도 5는 일 실시예에 따른 음성 합성 시스템의 구성을 설명하기 위한 블록도이고, 도 6은 일 실시예에 따른 음성 합성 시스템에서 합성 방법을 설명하기 위한 흐름도이다.

음성 합성 시스템(500)의 프로세서는 데이터 입력부(510), 모델링부(520) 및 합성 데이터 출력부(530)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 음성 합성 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 6의 합성 방법이 포함하는 단계들(610 내지 630)을 수행하도록 음성 합성 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

프로세서는 합성 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 음성 합성 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 음성 합성 시스템을 제어할 수 있다. 이때, 데이터 입력부(510), 모델링부(520) 및 합성 데이터 출력부(530) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(610 내지 630)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.

단계(610)에서 데이터 입력부(510)는 스타일 요소 모델링을 위한 음성합성 모델에 오디오 데이터 및 텍스트 데이터를 입력받을 수 있다. 데이터 입력부(510)는 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터를 스타일 요소 모델링을 위한 복수 개의 요소로 인식하고, 인식된 복수 개의 요소를 상기 음성합성 모델에 입력받을 수 있다.

단계(620)에서 모델링부(520)는 음성합성 모델을 이용하여 오디오 데이터 및 텍스트 데이터에 대한 스타일 요소를 모델링할 수 있다. 이때, 음성합성 모델은 스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것일 수 있다.

단계(630)에서 합성 데이터 출력부(530)는 모델링을 통해 오디오 데이터 및 텍스트 데이터에 대한 합성 음성 데이터를 출력할 수 있다. 이에, 다양한 스타일의 합성 음성 데이터가 출력될 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

음성 합성 시스템에 의해 수행되는 합성 방법에 있어서,
스타일 요소 모델링을 위한 음성합성 모델에 오디오 데이터 및 텍스트 데이터를 입력받는 단계;
상기 음성합성 모델을 이용하여 상기 오디오 데이터 및 텍스트 데이터에 대한 스타일 요소를 모델링하는 단계; 및
상기 모델링을 통해 상기 오디오 데이터 및 텍스트 데이터에 대한 합성 음성 데이터를 출력하는 단계
를 포함하고,
상기 음성합성 모델은, 스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것으로, 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터에 대한 복수 개의 스타일 요소를 인코딩하여 음성 데이터로 변환하는 인코더 및 비자동회귀 음성합성 디코딩을 통해 상기 변환된 음성 데이터로부터 합성 음성 데이터를 생성하는 디코더로 구성되고,
상기 인코더는,
상기 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터에 대한 복수 개의 스타일 요소를 인코딩하기 위한 각각의 인코더를 포함하고, 상기 각각의 인코더의 출력 데이터가 ReLU 활성화와 선형 레이어에 의해 각 예측기로 전송되기 전에 채널별로 업샘플링되는
합성 방법.
삭제
제1항에 있어서,
상기 음성합성 모델은,
레이블이 없는 기준 음성에서 발생하는 노이즈를 분해하는 동시에 노이즈를 포함한 오디오 데이터로부터 스타일을 인코딩하는 노이즈 모델링을 수행하는
것을 특징으로 하는 합성 방법.
제1항에 있어서,
상기 음성합성 모델은,
오디오 데이터를 텍스트 데이터의 길이만큼 선형으로 압축하거나 확장하도록 설계된 교정기(Calibrator)를 통해 상기 텍스트 데이터와 오디오 데이터를 정렬하는
것을 특징으로 하는 합성 방법.
삭제
제1항에 있어서,
상기 인코더는,
길이 조절기에 의해 지속 시간 인코딩으로 카운트된 각 음소(phoneme)에 대해 프레임을 반복하기 위한 프레임별 업샘플링이 적용되는
것을 특징으로 하는 합성 방법.
제1항에 있어서,
상기 인코더는,
복수 개의 기 설정된 차원의 FFT(Feed-Forward Transformer) 블록을 포함하고, 음소 시퀀스를 입력 텍스트로 사용하는 텍스트 인코더를 포함하는
것을 특징으로 하는 합성 방법.
제1항에 있어서,
상기 인코더는,
복수 개의 N×M(N, M은 자연수) 컨볼루션 레이어, 상기 N×M(N, M은 자연수) 컨볼루션 레이어에 이어서 기 설정된 사이즈의 그룹 정규화로 구성된 지속 시간 인코더, 피치 인코더, 에너지 인코더 및 노이즈 인코더를 포함하는
것을 특징으로 하는 합성 방법.
제8항에 있어서,
상기 피치 인코더, 에너지 인코더 및 노이즈 인코더에서 기 설정된 사이즈의 양방향 LSTM이 채널별로 병목 현상이 발생되는
것을 특징으로 하는 합성 방법.
제8항에 있어서,
상기 지속 시간 인코더 및 노이즈 인코더는 멜 스펙트로그램(mel-spectrogram)을 사용하는
것을 특징으로 하는 합성 방법.
제8항에 있어서,
상기 피치 인코더는 정규화된 피치 윤곽을 이용하여 스피커와 일치하는 피치 윤곽을 모델링하는
것을 특징으로 하는 합성 방법.
제8항에 있어서,
상기 에너지 인코더는 0에서 1까지의 스케일 에너지를 사용하는
것을 특징으로 하는 합성 방법.
제8항에 있어서,
오디오 데이터에서 추출된 피치 데이터와 에너지 데이터가 복수 개의 bin 원핫 벡터로 양자화되고, 상기 양자화된 bin 원핫 벡터가 상기 인코더에 의해 처리되는
것을 특징으로 하는 합성 방법.
제1항에 있어서,
상기 음성합성 모델은,
지속 기간 인코더, 피치 인코더, 에너지 인코더에 대하여 적대적 훈련(DAT)을 적용하는
것을 특징으로 하는 합성 방법.
음성 합성 시스템에 의해 수행되는 합성 방법에 있어서,
스타일 요소 모델링을 위한 음성합성 모델에 오디오 데이터 및 텍스트 데이터를 입력받는 단계;
상기 음성합성 모델을 이용하여 상기 오디오 데이터 및 텍스트 데이터에 대한 스타일 요소를 모델링하는 단계; 및
상기 모델링을 통해 상기 오디오 데이터 및 텍스트 데이터에 대한 합성 음성 데이터를 출력하는 단계
를 포함하고,
상기 음성합성 모델은,
스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것으로, 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터에 대한 복수 개의 스타일 요소를 인코딩하여 음성 데이터로 변환하는 인코더 및 비자동회귀 음성합성 디코딩을 통해 상기 변환된 음성 데이터로부터 합성 음성 데이터를 생성하는 디코더로 구성되고,
상기 인코더는,
상기 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터에 대한 복수 개의 스타일 요소를 인코딩하기 위한 각각의 인코더를 포함하고,
상기 음성합성 모델에서, 지속 기간 인코더, 피치 인코더, 에너지 인코더에 대하여 적대적 훈련(DAT)을 적용하고, 지속 기간 인코더, 피치 인코더, 에너지 인코더에서 각각의 인코딩을 통해 출력된 인코딩 데이터에 기초하여 클린 멜 스펙트로그램을 예측하고, 노이즈 인코더에서 인코딩을 통해 출력된 노이즈 인코딩 데이터가 상기 각각의 인코딩을 통해 출력된 인코딩 데이터에 추가되어 노이즈가 있는 멜 스펙트로그램을 예측하는
것을 특징으로 하는 합성 방법.
제1항 또는 제15항에 있어서,
상기 음성합성 모델은, 복수 개의 예측기를 포함하고, 상기 복수 개의 예측기 중 어느 하나의 예측기에서 최종 피치 윤곽선을 예측하기 위한 추가 입력으로 스피커 인코딩을 수신하는 것을 포함하고,
상기 디코더는
복수 개의 스타일 요소를 이용하여 스타일 요소 최종 멜 스펙트로그램을 예측하기 위한 복수 개의 기 설정된 차원의 FFT 블록을 포함하는
것을 특징으로 하는 합성 방법.
제16항에 있어서,
상기 디코더는,
상기 인코더를 이용한 인코딩을 통해 출력된 텍스트 인코딩, 피치 임베딩, 에너지 엠베딩 및 스피커 인코딩 데이터의 조합을 디코더의 입력 데이터로 사용하는
것을 특징으로 하는 합성 방법.
제1항 또는 제15항에 있어서,
상기 입력받는 단계는,
텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터를 스타일 요소 모델링을 위한 복수 개의 요소로 인식하고, 상기 인식된 복수 개의 요소를 상기 음성합성 모델에 입력받는 단계
를 포함하는 합성 방법.
제1항, 제3항 내지 제4항, 제6항 내지 제8항, 제14항 내지 제15항 중 어느 한 항의 합성 방법을 상기 음성 합성 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
음성 합성 시스템에 있어서,
스타일 요소 모델링을 위한 음성합성 모델에 오디오 데이터 및 텍스트 데이터를 입력받는 데이터 입력부; 및
상기 음성합성 모델을 이용하여 상기 오디오 데이터 및 텍스트 데이터에 대한 스타일 요소를 모델링하는 모델링부; 및
상기 모델링을 통해 상기 오디오 데이터 및 텍스트 데이터에 대한 합성 음성 데이터를 출력하는 합성 데이터 출력부
를 포함하고,
상기 음성합성 모델은, 스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것으로, 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터에 대한 복수 개의 스타일 요소를 인코딩하여 음성 데이터로 변환하는 인코더 및 비자동회귀 음성합성 디코딩을 통해 상기 변환된 음성 데이터로부터 합성 음성 데이터를 생성하는 디코더로 구성되고,
상기 인코더는,
상기 텍스트 데이터 및 지속 시간, 피치, 에너지, 스피커, 노이즈를 포함하는 오디오 데이터에 대한 복수 개의 스타일 요소를 인코딩하기 위한 각각의 인코더를 포함하고, 상기 각각의 인코더의 출력 데이터가 ReLU 활성화와 선형 레이어에 의해 각 예측기로 전송되기 전에 채널별로 업샘플링되는
음성 합성 시스템.