KR20230026242A

KR20230026242A - 음성 합성 방법, 장치, 기기 및 컴퓨터 기록 매체

Info

Publication number: KR20230026242A
Application number: KR1020220057485A
Authority: KR
Inventors: 리치앙 장; 지안캉 호우; 타오 순; 레이 지아
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2021-08-17
Filing date: 2022-05-10
Publication date: 2023-02-24
Also published as: US11996084B2; JP7314450B2; CN113838452A; JP2023027748A; US20230059882A1; KR102611024B1; CN113838452B

Abstract

본 발명은 인공 지능 기술 분야에서의 음성 및 딥 러닝 등의 기술에 관한 음성 합성 방법, 장치, 기기 및 컴퓨터 기록 매체를 개시한다. 구체적인 구현 방안은 합성할 텍스트를 획득하고; 텍스트로부터 추출된 운률 특징을 획득하며; 상기 텍스트와 상기 운률 특징을 음성 합성 모델에 입력하여, 보코더 특징을 획득하고; 상기 보코더 특징을 보코더에 입력하여, 합성된 음성을 획득한다. 본 발명은 음성을 합성하는 효율을 향상시키고, 높은 실시간율과 소량의 계산량을 확보하여, 오프라인 음성 합성의 응용 시나리오에 기술적 기초를 제공할 수 있다.

Description

음성 합성 방법, 장치, 기기 및 컴퓨터 기록 매체 {VOICE SYNTHESIS METHOD AND DEVICE, EQUIPMENT AND COMPUTER STORAGE MEDIUM}

본 발명은 컴퓨터 애플리케이션 기술 분야에 관한 것으로, 특히 인공 지능 기술 분야에서의 음성 및 딥 러닝 등의 기술에 관한 것이다.

음성 합성은 입력된 텍스트를 자연적이고 알아들을 수 있는 음성으로 합성하는 기술이다. 음성 합성의 유창도, 표현력 및 음질은 사용자 경험에 직접적인 영향을 미친다. 따라서 높은 실시간율(high real-time rate)은 음성 합성 기술에서 해결해야 할 시급한 문제가 되고 있다.

이를 고려하여, 본 발명은 음성 합성 기술의 실시간율을 향상시키기 위한 음성 합성 방법, 장치, 기기 및 컴퓨터 기록 매체를 제공한다.

본 발명의 제1 측면에 따르면, 음성 합성 방법을 제공하고,

합성할 텍스트를 획득하는 단계;

텍스트로부터 추출된 운률 특징을 획득하는 단계;

상기 텍스트와 상기 운률 특징을 음성 합성 모델에 입력하여, 보코더 특징을 획득하는 단계; 및

상기 보코더 특징을 보코더에 입력하여, 합성된 음성을 획득하는 단계;를 포함한다.

본 발명의 제2 측면에 따르면,음성 합성 장치를 제공하고,

합성할 텍스트를 획득하기 위한 텍스트 획득 유닛;

텍스트로부터 추출된 운률 특징을 획득하기 위한 운률 추출 유닛; 및

상기 텍스트와 상기 운률 특징을 음성 합성 모델에 입력하여, 보코더 특징을 획득하고; 상기 보코더 특징을 보코더에 입력하여, 합성된 음성을 획득하기 위한 음성 합성 유닛;을 포함한다.

본 발명의 제3 측면에 따르면, 전자 기기를 제공하고, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 상술한 방법이 수행되도록 한다.

본 발명의 제4 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 상술한 방법을 수행하도록 한다.

본 발명의 제5 측면에 따르면, 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 상술한 방법을 구현한다.

본 명세서에서 설명된 내용은 본 발명의 실시예의 키 또는 중요한 특징을 식별하려는 것이 아니고, 또한 본 발명의 범위를 제한하려는 것도 아닌 것을 이해하여야 한다. 본 발명의 다른 특징은 하기의 명세서를 통해 용이하게 이해할 수 있다.

첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명에 관한 기본 아키텍처의 개략도이다.
도 2는 본 발명의 실시예에서 제공되는 음성 합성 방법의 흐름도이다.
도 3a 및 도 3b는 본 발명의 실시예에서 제공되는 운률 예측 모델의 개략적인 구조도이다.
도 4는 본 발명의 실시예에서 제공되는 음성 합성 모델의 개략적인 구조도이다.
도 5는 본 발명의 실시예에서 제공되는 사후 예측 네트워크의 개략적인 구조도이다.
도 6은 본 발명의 실시예에서 제공되는 UV 보정의 방법 흐름도이다.
도 7a는 본 발명의 실시예에서 제공되는 제1 음성 합성 모델의 트레이닝 방법의 흐름도이다.
도 7b는 본 발명의 실시예에서 제공되는 제1 음성 합성 모델의 트레이닝 아키텍처의 개략도이다.
도 7a는 본 발명의 실시예에서 제공되는 제2 음성 합성 모델의 트레이닝 방법의 흐름도이다.
도 8b는 본 발명의 실시예에서 제공되는 제2 음성 합성 모델의 트레이닝 아키텍처의 개략도이다.
도 8c는 본 발명의 실시예에서 제공되는 운률 추출 모델의 개략적인 구조도이다.
도 9a는 본 발명의 실시예에서 제공되는 제3 음성 합성 모델의 트레이닝 방법의 흐름도이다.
도 9b는 본 발명의 실시예에서 제공되는 제3 음성 합성 모델의 트레이닝 아키텍처의 개략도이다.
도 10a는 본 발명의 실시예에서 제공되는 제4 음성 합성 모델의 트레이닝 방법의 흐름도이다.
도 10b는 본 발명의 실시예에서 제공되는 제4 음성 합성 모델의 트레이닝 아키텍처의 개략도이다.
도 11은 본 발명의 실시예에서 제공되는 음성 합성 장치의 개략적인 구조도이다.
도 12는 본 발명의 실시예에서 제공되는 후처리 장치의 개략적인 구조도이다.
도 13은 본 발명의 실시예를 구현하기 위한 전자 기기의 블록도이다.

하기는 첨부된 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.

본 발명에서 제공되는 기술 방안에 대한 이해를 쉽게 하기 위해, 먼저, 본 발명에 관한 기본 아키텍처에 대해 간단히 설명한다. 도 1에 도시된 바와 같이, 본 발명에 관한 기본 아키텍처는 음성 합성 장치 및 보코더를 포함하고, 음성 합성 장치와 보코더 사이에는 후처리 장치를 더 포함할 수 있다.

음성 합성 장치는 합성할 텍스트를 처리하고, 보코더 특징의 출력으로 변환한다. 후처리 장치는 본 발명의 실시예에 있어서의 음성 합성 방법의 주요 수행 주체이며, 음성 합성 장치로부터 출력되는 보코더 특징을 최적화 처리한 후, 보코더에 출력한다. 보코더는 보코더 특징을 사용하여 최종적으로 합성된 음성을 획득한다.

도 2는 본 발명의 실시예에서 제공되는 음성 합성 방법의 흐름도이다. 당해 방법의 수행 주체는 도 1에 도시된 음성 처리 장치이다. 당해 장치는 사용자 단말의 애플리케이션에 위치할 수 있거나, 또는 단말의 애플리케이션 플러그인 또는 소프트웨어 개발 킷(Software Development Kit, SDK) 등의 기능 유닛에 위치할 수도 있거나, 또는, 서버 측에 위치할 수도 있고, 본 발명의 실시예는 이에 대해 특히 한정하지 않는다. 도 2에 도시된 바와 같이, 당해 방법은 하기와 같은 단계를 포함할 수 있다.

201에서, 합성할 텍스트를 획득한다.

202에서, 텍스트로부터 추출된 운률 특징을 획득한다.

203에서, 텍스트와 운률 특징을 음성 합성 모델에 입력하여, 보코더 특징을 획득한다.

204에서, 보코더 특징을 보코더에 입력하여, 합성된 음성을 획득한다.

본 발명에서 제공되는 기술 방안은 텍스트로부터 운률 특징을 추출한 후, 음성 합성 모델은 운률 특징을 사용하여 텍스트를 결합하여 보코더 특징을 획득하고, 보코더가 보코더 특징을 직접 사용하여 음성을 합성함으로써, 음성 합성 기술의 효율을 향상시키고, 높은 실시간율을 확보하는 것을 알 수 있다.

하기는 실시예를 결합하여 상술한 각 단계에 대해 상세히 설명한다. 먼저, 상술한 단계 401을 상세히 설명한다.

본 발명에 관한 합성할 텍스트는 미리 설정된 내용일 수 있고, 예를 들어, 오픈어의 내용, 환영어의 내용, 및 특정한 시나리오에서 고정적으로 방송되는 내용 등이다. 예를 들어, 사용자 단말이 어느 새로운 지역으로 위치 결정할 때, "XX지역에서 환영합니다." ("XX"는 어느 하나의 구체적인 지역명을 나타낸다)를 방송한다. 또한, 예를 들어, 네비게이션 시나리오에서의 네비게이션 텍스트 "전방 XXX에서 좌회전합니다." ("XXX"는 어느 하나의 구체적인 건물명을 나타낸다)등이다.

합성할 텍스트는 제3자로부터 획득된 텍스트 내용일 수 있고, 예를 들어, 제3자로부터 획득된 뉴스 내용 및 문장 내용 등이다.

합성할 텍스트는 사용자와 인터랙션하는 과정에서, 사용자가 입력한 음성에 응답하여 생성된 텍스트일 수도 있다. 예를 들어, 사용자가 음성 "XXXX는 어디에 있습니까?"를 입력하고, 사용자가 입력한 당해 음성에 응답하여 방송 텍스트 "XXXX는 건설중로 3호에 있습니다."를 생성한다.

하기는 실시예를 결합하여 상술한 단계 202, 즉 "텍스트로부터 추출된 운률 특징을 획득한다."를 상세히 설명한다.

본 발명의 실시예에서, 운률 특징은 운률 예측 모델에 의해 텍스트로부터 추출할 수 있다. 운률 예측 모델에 의해 텍스트로부터 운률 특징을 추출하고, 운률 특징을 언어 합성 모델에 출력한다. 언어 합성 모델로 텍스트와 운률 특징을 사용하여 보코더 특징을 출력한다.

하기는 운률 예측 모델의 구현을 상세히 설명한다. 도 3a에 도시된 바와 같이, 운률 예측 모델은 주로 제1 인코더와 제1 디코더를 포함한다. 여기서 설명해야 할 것은, 본 발명에 관한 "제1", "제2" 등의 표현은 예를 들어 "제1 인코더", "제2 인코더", "제1 디코더", "제2 디코더", "제1 역치", "제2 역치" 등은 명칭을 구별하기 위해 용도에만 사용되고, 추가 한정이 없는 한 수향, 순서 및 크기의 제한은 갖추지 못한다.

그 중, 제1 인코더는 텍스트로부터 언어 특징을 추출한 후, 언어 특징을 제1 디코더에 출력한다. 제1 디코더는 예측된 이전 프레임 운률 특징과 상기 언어 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득한다.

구체적으로, 제1 인코더에 텍스트를 입력하고, 먼저, 문자 삽입 처리를 거치고, 그 다음에, 컨볼루션층 및 양방향 LSTM 층을 거친 후에 언어 특징을 획득한다. 제2 디코더는 하나의 자기회귀 네트워크이며, 예측된 이전 프레임 운률 특징은 먼저, Pre-net(사전 예측 네트워크)를 거친 후, pre-net의 출력 결과와 언어 특징을 스플라이싱한 후에 LSTM에 모두 입력하고, 그 다음에, 선형 예측층의 처리를 거쳐 예측된 운률 특징을 획득한다.

상술한 방식 이외에, 운률 예측 모델은 나아가, 방송 스타일을 결합하여 운률 특징의 추출을 할 수도 있다. 이러한 경우의 운률 예측 모델 구조는 도 3b에 도시될 수 있다. 이 때, 제1 인코더는 텍스트로부터 언어 특징을 추출한 후, 방송 스타일 특징과 언어 특징을 스플라이싱하고, 획득된 제1 스플라이싱 특징을 제1 디코더에 입력한다. 방송 스타일 특징은 화자 정보로부터 추출할 수 있고, 예를 들어, 화자 정보에 대해 삽입 처리를 한다. 텍스트로부터 추출할 수도 있고, 예를 들어, 텍스트의 시멘틱 정보, 영역 지식 등으로부터 추출한다 (이러한 경우는 도시되지 않았음). 제1 디코더는 예측된 이전 프레임 운률 특징과 제1 스플라이싱 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득한다. 이러한 방식에서, 음성 합성 모델이 다양한 방송 스타일의 음성 합성 능력을 갖출 수 있다.

상술한 두가지 구조는 본 발명에서 제공되는 두가지 구현 방식이며, 이 외에, 기타 방식을 사용하여 텍스트로부터 운률 특징을 추출할 수도 있다.

하기는 실시예를 결합하여 상술한 단계 203, 즉 "텍스트와 운률 특징을 음성 합성 모델에 입력하여, 보코더 특징을 획득한다."를 상세히 설명한다.

도 4는 본 발명의 실시예에서 제공되는 음성 합성 모델의 개략적인 구조도이다. 도 4에 도시된 바와 같이, 음성 합성 모델은 제2 인코더, 제2 디코더 및 사후 예측 네트워크를 포함한다.

제2 인코더는 텍스트로부터 언어 특징을 추출한 후, 언어 특징과 운률 특징을 스플라이싱하거나, 또는 상기 언어 특징, 운률 특징 및 화자 특징을 스플라이싱하고, 스플라이싱된 제2 스플라이싱 특징을 제2 디코더에 출력하고,

제2 디코더는 예측된 이전 프레임의 음향 특징 및 제2 스플라이싱 특징을 사용하여, 현재 프레임의 음향 특징을 예측하여 상기 사후 예측 네트워크에 출력하고, 상기 음향 특징은 음성 스펙트럼 특징을 포함한다.

사후 예측 네트워크(Post-net)는 음향 특징을 사용하여 보코더 특징을 예측하여 획득한다.

도 4에 도시된 바와 같이, 제2 인코더에 텍스트를 입력하고, 먼저, 문자 삽입 처리를 거치고, 그 다음에, 컨볼루션층 및 양방향 LSTM 층을 거친 후에 언어 특징을 획득한다. 당해 언어 특징과 단계 202에서 획득된 운률 특징은, 즉 운률 예측 모델에 의해 출력된 운률 특징을 스플라이싱한 후에, 제2 스플라이싱 특징을 획득한다. 나아가, 화자 정보에 대해 삽입 처리를 수행한 후에 화자 특징을 획득하고, 언어 특징, 화자 특징 및 운률 특징을 스플라이싱한 후에 제2 스플라이싱 특징을 획득할 수도 있으며, 도 6에 도시된 것은 이러한 바람직한 방식이다.

제2 디코더는 하나의 자기회귀 네트워크이며, 이전 프레임의 음향 특징이 Pre-net(사전 예측 네트워크)를 거친 후에 획득된 특징과, 주의력 처리 후의 제2 스플라이싱 특징을 스플라이싱하여, 제3 스플라이싱 특징을 획득한다. 제3 스플라이싱 특징은 LSTM 처리 후에 선형 예측층에 입력되며, 선형 예측층으로부터 현재 프레임의 음향 특징을 예측하여 획득한다. 본 발명의 실시예에 관한 음향 특징은 음성 스펙트럼 특징을 포함한다. 그 중의 비교적 범용적이고 일반적인 음성 스펙트럼 특징은 mel(멜) 스펙트럼이다.

제2 디코더는 실제로, 하나의 자기회귀 네트워크를 사용하여 시계열 예측을 수행하여 mel 스펙트럼을 획득하고, 제2 인코더에서 텍스트의 언어 특징, 운률 특징, 및 화자 특징 등을 모두 스플라이싱하여 문맥 특징으로 하고, 그 다음에, 이전 프레임의 예측에 의해 획득된 mel 스펙트럼을 사용하여 문맥 특징을 결합하여 현재 프레임의 mel 스펙트럼을 예측하고, 순서대로 예측하면 하나의 mel 스펙트럼 시퀀스를 획득할 수 있다.

사후 예측 네트워크의 구조는 도 5에 도시된 바와 같을 수 있고, 사후 예측 네트워크는 음향 특징을 CBHG(Convolution bank+highway network+bidirectional GRU) 모듈을 거쳐 처리한 후, 또한 N개의 예측 모듈의 예측을 거쳐, 예측 결과로 보코더 특징을 구성한다. 예측 모듈은 양방향 GRU(Gate Recurrent Unit, 게이트 순환 유닛) 및 선형 투영층을 포함할 수 있다. N은 양의 정수이다. 예를 들어, 도 5에 도시된 바와 같이, N은 4로 설치한다. SP(Spectral envelope，스펙트럼 엔벨로프)는 고주파수, 중주파수, 저주파수로 분할되고, 하나의 예측 모듈에 의해 각각 예측하여 출력되며, 기타의 예를 들어, 에너지 특징, CAP(Coarse aperiodic parameter，굵은 비주기 파라미터), LF0(Logarithmic fundamental frequency, 대수 기본 주파수), UV 특징 등은 나머지 하나의 예측 모듈에 의해 예측하여 출력된다. 최종적으로 출력되는 모든 이러한 특징은, 보코더 특징을 구성한다.

하기는 실시예를 결합하여 상술한 단계 204즉 "보코더 특징을 보코더에 입력하여, 합성된 음성을 획득한다."를 상세히 설명한다.

구현 방식으로서, 음성 합성 모델에 의해 출력되는 보코더 특징 보코더에 직접 입력하여, 보코더로부터 대응하는 음성을 합성할 수 있다.

바람직한 실시 방식으로서, 보코더 특징을 보코더에 입력하기 전에, 나아가, 보코더 특징에 대해 일부 후처리를 수행하고, 그 다음에, 처리 후의 보코더 특징을 보코더에 입력한다. 수행되는 후처리는 선형 보간, UV 보정 및 역 정규화 중의 적어도 하나를 포함할 수 있다.

일부 상황에서, 보코더의 합성 능력은 음성 합성 모델에 의해 출력된 보코더 특징보다 높고, 예를 들어 음성 합성 모듈은, 프레임 시프트가 10ms인 보코더 특징을 출력하지만, 보코더가 5ms 특징을 합성하는 음질이 10ms 특징보다 높으므로, 미리 설정된 보간 배수에 따라, 상술한 단계 101에서 획득된 보코더 특징에 대해 선형 보간 처리를 할 수 있다. 그 중, 보간 배수는 보코더의 합성 능력에 따라 미리 설정할 수 있고, 상술한 예에서 보간 배수를 2배로 설치할 수 있다. 이러한 방식은 음성 합성 모듈의 계산량을 절감하고, 후처리의 선형 보간을 통해 10ms의 음성 합성 모듈도 5ms의 음성 합성 모듈에 가까운 효과에 달성하는 것을 구현한다.

UV 특징은 즉 Unvoiced(무성음)과 Voiced(유성음)특징이다. 보코더 특징에서, 각 프레임은 모두 하나의 UV 특징을 구비하는 값으로 당해 프레임 오디오의 발음 특성을 나타낸다. 하나의 텍스트에 대해, 이에 대응하는 것은 하나의 오디오 시퀀스이고, 일반적으로, 복수의 프레임으로부터 구성되므로, 보코더 특징 중의 UV 특징은 하나의 시퀀스, 즉 UV 특징 시퀀스로 구현된다. UV 특징 시퀀스는 각 프레임의 UV 특징값을 포함한다.

UV 특징값은 0과 1을 포함하고, 0은 Unvoiced를 나타내고, 1은 Voiced를 나타낸다.

이전의 음성 합성 모델은 보코더 특징을 예측할 때, UV 특징에 대해서는 분류 확률에 따라 수행하는 예측이며, 일정한 오차가 존재할 가능성이 있고, 이러한 오차는 모음과 자음의 분포가 발음 법칙에 부합되지 않고, 음성 합성의 효과가 낮아진다.

하기는 실시예를 결합하여 상술한 단계 202에 대해 상세히 설명한다.

하기는 실시예를 결합하여 UV 보정의 과정을 상세히 설명한다. 구체적으로, 보코더 특징 중의 에너지 특징에 따라 보코더 특징 중의 UV 특징 시퀀스에 대해 값 변화 경계를 보정할 수 있다. 음성 스펙트럼 특징에 따라 UV 특징 시퀀스의 각 값에 대해 각각 판단과 보정을 할 수도 있다. 즉 보코더 특징 중의 에너지 특징에 따라 보코더 특징 중의 UV 특징 시퀀스에 대해 값 변화 경계를 보정하고, 음성 스펙트럼 특징에 따라 UV 특징 시퀀스의 각 값에 대해 각각 판단과 보정을 할 수도 있다.

하기는 하나의 바람직한 실시 방식을 통해 상술한 2가지 방식을 사용하여 설명한다. 도 6에 도시된 바와 같이, UV 보정은 구체적으로 하기의 단계를 포함할 수 있다.

601에서, 보코더 특징 중의 UV 특징 시퀀스의 값 변화 경계에서의 값이 1인 프레임을 하나씩 판단하고, 당해 프레임에 대응하는 에너지 특징값이 0보다 작을 경우, 당해 프레임의 UV 특징값을 0으로 보정한다.

전술한 바와 같이, 보코더 특징에는 에너지 특징이 포함되고, 본 단계에서, 먼저, 보코더 중의 에너지 특징을 사용하여 UV 특징 시퀀스의 값 변화 경계에서의 값이 1인 프레임을 판단한다.

값 변화 경계에서의 값이 1인 프레임은 UV 특징 시퀀스에서, 인접한 0로부터 1이 존재할 경우, 값 변화 경계로 간주하고, 인접한 0과 1의 값이 1인 프레임을 판단한다.

값이 1인 프레임은 당해 프레임이 음성 합성 모델에 의해 유성음으로 인식되는 것을 의미한다. 유성음은 발음할 때 성대가 진동하는 소리를 가리킨다. 무성음은 발음할 때 성대가 진동하지 않는 소리를 가리킨다. 일반적인 상황에서, 유성음의 발음은 무성음보다도 크고, 무성음은 보코더 특징에 대응하는 에너지 특징값이 일반적으로, 0보다 작기 때문에, UV 특징 시퀀스의 값 변화 경계에서의 값이 1인 프레임에 대응하는 에너지 특징값이 0보다 작을 경우, 당해 프레임은 무성음인 가능성이 높고, 그의 UV 특징값을 0으로 보정한다. 대응하는 에너지 특징값이 0 이상일 경우, 당해 프레임의 UV 특징값은 변경되지 않도록 유지한다.

본 단계에서, UV 특징 시퀀스 중의 모든 값경계에서의 값이 1인 프레임을 모두 판단한다. UV 특징값을 보정한 후에 새로운 값경계가 생성되었을 경우, 새로운 값경계에서의 값이 1인 프레임에 대해 판단할 필요도 있다. 예를 들어, 원래 UV 특징 시퀀스에 하나의 세그먼트: "...0, 1, 1..." 가 있다. 그 중에 0, 1 경계에서의 1을 판단하여, 이를 0으로 보정한 후, 당해 0값과 뒤의 값 1은, 또한 새로운 값경계를 구성하면, 뒤의 값 1에 대응하는 프레임에 대해 상술한 판단을 계속한다.

602에서, UV 특징 시퀀스의 값 변화 경계에서의 값이 0인 프레임을 하나씩 판단하고, 당해 프레임에 대응하는 에너지 특징값과 값이 1인 인접된 프레임에 대응하는 에너지 사이의 비율이 미리 설정된 비례 역치보다 클 경우, 당해 값이 0인 프레임 UV 특징값을 1로 보정한다.

값이 0인 프레임은 당해 프레임이 음성 합성 모델에 의해 무성음으로 인식되는 것을 의미하고, 상이한 사용자에 있어서, 발음할 때 에너지 값이 다를 수 있다. 그러나, 무성음과 유성음을 발음할 때는 일정한 구별이 있다. 값 변화 경계에서의 값이 0인 프레임과 값이 1인 프레임에 대응하는 에너지 사이의 비율이 미리 설정된 비례 역치(예를 들어 50%)보다 클 경우, 다시 말하면, 당해 프레임이 인접한 유성음과 차이가 크지 않을 경우, 당해 프레임도 유성음인 가능성이 크다고 간주하므로, 당해 프레임의 UV 특징값을 1로 보정한다. 그렇지 않을 경우, 당해 프레임의 UV 특징값은 변경되지 않도록 유지한다.

본 단계에서, UV 특징 시퀀스 중의 모든 값경계에서의 값이 0인 프레임을 모두 판단할 수 있다. UV 특징값을 보정한 후에 새로운 값경계가 생성되었을 경우,또한, 새로운 값경계에서의 값이 0인 프레임을 판단할 필요가 있다. 예를 들어, 원래 UV 특징 시퀀스에 하나의 세그먼트: "...1, 0, 0..." 가 있다. 그 중에 1, 0 경계에서의 0을 판단하고, 이를 1로 보정한 후, 당해 1값과 뒤의 값 0은 또한 새로운 값경계를 구성하면, 뒤의 값 0에 대응하는 프레임에 대해 상술한 판단을 계속한다. 본 단계에서는 하나의 n을 파라미터로 설치할 수 있고, 하나의 값경계에서의 전방 또는 후방에 최대로 n 프레임을 연속적으로 판단하고, 즉 n 프레임　후에 새로운 값경계가 생성되어도, 판단과 보정을 계속하지 않으며, n은 미리 설정된 양의 정수이며, 예를 들어, 8을 취한다. 상이한 사람의 상이한 발음 습관에 따라, 상이한 화자에 대해 상이한 n 값을 취할 수 있다.

603에서, 프레임 마다 판단하고, 당해 프레임 음성 스펙트럼 특징의 이전의 M차원의 최대치가 미리 설정된 제1 역치보다 작을 경우, 당해 프레임의 UV 특징값을 1로 설치하고, 당해 프레임 음성 스펙트럼 특징의 이전의 M차원의 최대치가 미리 설정된 제2 역치보다 클 경우, 당해 프레임의 UV 특징값을 0으로 설치한다.

M은 미리 설정된 양의 정수이며, 예를 들어, 20으로 취한다. 제2 역치는 제1 역치보다 크고, 예를 들어, 제1 역치는 2를 취하고, 제2 역치는 2.5를 취한다.

음성 합성 모델은 보코더 특징을 출력하는 외에도, 텍스트에 대응하는 음향 특징을 출력할 수도 있고, 음성 스펙트럼 특징을 포함한다. 그 중 비교적 범용적이고 일반적인 음성 스펙트럼 특징은 mel(멜) 스펙트럼이다.

Mel 스펙트럼을 예로 들면, mel 스펙트럼의 값은 0 내지 4이다. 관찰과 연구한 후에, 유성음에 대응하는 mel 스펙트럼의 이전의 20차원의 값이 비교적 크고, 무성음에 대응하는 mel 스펙트럼의 이전의 20차원의 값이 비교적 작다. 따라서, mel 스펙트럼의 이전의 20차원의 최대치가 2보다 작을 경우, 당해 프레임은 유성음인 가능성이 높기 때문에, 당해 프레임의 UV 특징값을 1로 설치한다. 당해 프레임의 UV 특징값 자체가 1일 경우, 변경되지 않도록 유지하고, 0일 경우, 이를 1로 보정한다. Mel 스펙트럼의 이전의 20차원의 최대치가 2.5보다 클 경우, 당해 프레임 무성음인 가능성이 높기 때문에, 당해 프레임의 UV 특징값을 0으로 설치한다.

Mel 스펙트럼의 이전의 20차원의 최대치가 2 이상이며, 동시에 2.5 이하일 경우, 당해 프레임의 UV 특징값은 변경되지 않도록 유지한다.

상술한 도 6에 도시된 실시예에서 사용되는 수행 순서는 바람직한 수행 순서이며, 최적의 UV 보정 효과에 달성할 수 있다. 그러나, 본 발명은 상술한 수행 단계와 수행 순서에 한정되지 않고, 그중의 일부 또는 전부 단계만을 수행할 경우, 또는 다른 수행 순서를 사용할 경우도, 마찬가지로 본 발명의 보호 범위내에 있다.

일반적으로, 음성 합성 모델을 트레이닝할 때, 모델 트레이닝의 난이도와 정밀도를 감소하기 위해, 트레이닝 때에 일부 유형의 특징에 대해 정규화 처리를 한다. 이러한 정규화는 상이한 화자 또는 상이한 방송 스타일에 대한 것일 수 있다. 그러나, 실제 음성 합성 프로세스에서, 음성 합성 모델에 의해 출력된 정규화된 보코더 특징은 최종적으로 보코더에 의해 합성된 음성 효과에 영향을 미친다. 따라서, 본 발명에서, 나아가, 보정 후의 보코더 특징 내의 미리 설정된 유형의 특징 시퀀스에 대해 역 정규화 처리를 수행할 수 있다. 그 중, 역 정규화 처리는 음성 합성 모델의 트레이닝 과정에서 미리 설정된 유형의 특징 시퀀스에 대해 수행하는 정규화에 대응한다.

이 외에, 정규화 과정에서 분산과 평균치를 적절하게 조정할 수도 있고, 고주파 에너지와 기본 주파수의 효과를 향상시킬 수 있다. 분산을 조정하는 것은, 최종적으로 합성된 음성이 더 좋은 관통력을 가지도록 하고, 평균치를 조정하는 것은, 최종적으로 합성된 음성이 더 밝고 명확해 질 수 있다.

상술한 처리를 거친 후의 보코더 특징은 보코더에 제공하여 음성 합성을 수행한 후, 합성된 음성 품질을 대폭으로 향상시킬 수 있다. 상술한 단계 204에서 사용되는 보코더 유형은 본 발명에 한정되지 않고, 예를 들어, world 보코더 등을 사용할 수 있다.

상술한 음성 합성과 후처리 방법을 통해, 음성 합성이 높은 실시간율과 소량의 계산량을 확보하고, 오프라인 음성 합성에 기반을 제공할 수 있다. 실험적 검증을 통해, 당해 음성 합성 방법의 오류율은 1000분의 3보다 낮고, 휴대전화의 오프라인 지도 네비게이션 등 낮은 자원 요구 시나리오의 음성 합성 방법에 적합한다.

하기는 실시예를 결합하여 음성 합성 모델의 트레이닝 방법을 상세히 설명한다. 도 8a는 본 발명의 실시예에서 제공되는 제1 음성 합성 모델의 트레이닝 방법의 흐름도이다. 도 8a에 도시된 바와 같이, 당해 방법은 하기와 같은 단계를 포함할 수 있다.

701에서, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플과 텍스트 샘플에 라벨링된 운률 특징 및 보코더 특징을 포함한다.

본 실시예에서, 트레이닝 샘플을 획득하는 방식은 음성으로부터 시작하고, 예를 들어, 일부 특정한 화자 또는 특정한 스타일 등의 음성을 표준 음성으로 획득할 수 있다. 당해 표준 음성에 대해 음성 인식을 수행한 후, 음성 인식 결과를 텍스트 샘플로 한다. 인공적으로 인식하는 방식을 통해 표준 음성에 대응하는 텍스트를 인식하고, 당해 텍스트를 텍스트 샘플로 할 수도 있다.

그 다음에, 표준 음성으로부터 보코더 특징과 운률 특징을 추출하고, 추출된 보코더 특징과 운률 특징을 사용하여 텍스트 샘플을 라벨링한다. 음성으로부터 보코더 특징과 운률 특징을 추출하는 것은, 현재, 비교적 성숙한 기술이기 때문에, 여기서 상세히 설명하지 않는다.

702에서, 텍스트 샘플과, 라벨링된 운률 특징을 음성 합성 모델의 입력으로 하고, 라벨링된 보코더 특징을 음성 합성 모델의 타깃 출력으로 하고, 음성 합성 모델을 트레이닝한다.

이러한 트레이닝 방식은, 도 7b에 도시된 바와 같이, 실제로, 텍스트 샘플의 운률 특징과 보코더 특징을 모두 라벨링한다. 트레이닝 과정에서, 각 반복에 있어서, 텍스트 샘플과 운률 특징을 음성 합성 모델에 입력한다. 음성 합성 모델은 예측된 보코더 특징을 출력한 후, 예측된 보코더 특징과 라벨링된 보코더 특징 사이의 차이를 최소화하여 트레이닝 타깃으로 한다. 구체적으로, 학습 목표를 사용하여 손실 함수를 미리 설계하고, 그 다음에, 예를 들어, 반복 정지 조건에 도달할 때까지, 경사 하강법 등 방식을 사용하여 음성 합성 모델의 모델 파라미터를 반복적으로 업데이트할 수 있다. 반복 정지 조건은 예를 들어, 모델 파라미터의 수렴, 손실 함수의 값이 미리 설정된 요구를 만족하는 것, 및 미리 설정된 반복 회수의 역치에 도달하는 것 등일 수도 있다.

음성 합성 모델의 구조는 여전히, 도 4에 도시된 바와 같이, 본 실시예의 트레이닝 과정에서, 음성 합성 모델에서의 제2 인코더는 텍스트 샘플로부터 언어 특징을 추출한 후, 언어 특징과 라벨링된 운률 특징을 스플라이싱하거나, 또는 언어 특징, 운률 특징 및 화자 특징(화자 특징은 표준 음성으로부터 추출한다)을 스플라이싱하고, 스플라이싱된 제2 스플라이싱 특징을 제2 디코더에 출력한다.

제2 디코더는 예측된 이전 프레임의 음향 특징 및 제2 스플라이싱 특징을 사용하여, 현재 프레임의 음향 특징을 예측하여 상기 사후 예측 네트워크에 출력하고, 음향 특징은 mel스펙트럼 등의 음성 스펙트럼 특징을 포함한다.

사후 예측 네트워크는 음향 특징을 사용하여 보코더 특징을 예측하여 획득한다. 사후 예측 네트워크의 구조는, 도 7에 도시된 바와 같이, 사후 예측 네트워크가 음향 특징을 CBHG 모듈로 처리한 후, 또한 N개의 예측 모듈의 예측을 거쳐, 예측 결과로 보코더 특징을 구성하고, 예측 모듈은 양방향 GRU와 선형 투영층을 포함하고, N은 양의 정수이며, 예를 들어, 4를 취한다. SP 엔벨로프는 고주파수, 중주파수, 저주파수로 분할되고, 하나의 예측 모듈에 의해 각각 예측하여 출력되며, 기타의 예를 들어, 에너지 특징, CAP 특징, LF0 특징, UV 특징 등은, 나머지 하나의 예측 모듈에 의해 예측하여 출력된다. 최종적으로 출력되는 모든 이러한 특징은, 보코더 특징을 구성한다.

트레이닝 종료 후에 획득된 음성 합성 모델은 상기음성 합성 방법의 실시예에 사용되고, 합성할 텍스트에 대해 보코더 특징의 추출을 수행하는데 사용될 수 있다.

도 8a는 본 발명의 실시예에서 제공되는 제2 음성 합성 모델의 트레이닝 방법의 흐름도이다. 도 8a에 도시된 바와 같이, 당해 방법은 하기와 같은 단계를 포함할 수 있다.

801에서, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플, 텍스트 샘플에 라벨링된 음향 특징 및 보코더 특징을 포함한다.

본 실시예에서, 트레이닝 샘플을 획득하는 방식은 위의 실시예와 유사하고, 음성으로부터 시작하고, 예를 들어, 일부 특정한 화자 또는 특정한 스타일 등의 음성을 표준 음성으로 획득할 수 있다. 당해 표준 음성에 대해 음성 인식을 수행한 후, 음성 인식 결과를 텍스트 샘플로 한다. 인공적으로 인식하는 방식을 통해 표준 음성에 대응하는 텍스트를 인식하고, 당해 텍스트를 텍스트 샘플로 할 수도 있다.

그 다음에, 표준 음성으로부터 보코더 특징과 음향 특징을 추출하고, 추출된 보코더 특징과 음향 특징을 사용하여 텍스트 샘플을 라벨링한다. 음성으로부터 보코더 특징과 음향 특징을 추출하는 것은, 현재, 비교적 성숙한 기술이기 때문에, 여기서 상세히 설명하지 않는다.

802에서, 라벨링된 음향 특징을 운률 추출 모델의 입력으로 하고, 운률 추출 모델에 의해 출력된 운률 특징과 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 보코더 특징을 언어 합성 모델의 타깃 출력으로 하고, 운률 추출 모델과 음성 합성 모델을 트레이닝하고, 트레이닝된 음성 합성 모델은 합성할 텍스트의 보코더 특징을 획득하는데 사용된다.

본 실시예에서, 음성 합성 모델을 트레이닝하는 프로세스에 있어서 운률 추출 모델을 사용하여 보조 트레이닝을 수행한다. 운률 추출 모델은, 음향 특징을 입력하였을 경우에 운률 특징을 출력할 수 있다. 도 8b에 도시된 바와 같이, 실제로, 텍스트 샘플의 음향 특징과 보코더 특징을 모두 라벨링한다. 트레이닝 과정에서, 각 반복에 있어서, 모든 라벨링된 음향 특징을 운률 추출 모델에 입력하고, 운률 추출 모델에 의해 출력된 운률 특징과 상술한 텍스트 샘플을 음성 합성 모델에 입력한다. 음성 합성 모델은 예측된 보코더 특징을 출력한 후, 예측된 보코더 특징과 라벨링된 보코더 특징 사이의 차이를 최소화하여 트레이닝 타깃으로 한다. 구체적으로, 학습 목표를 사용하여 손실 함수를 미리 설계할 수 있고, 그 다음에, 예를 들어, 반복 정지 조건에 도달할 때까지, 경사 하강법등 방식을 사용하여 음성 합성 모델과 운률 추출 모델의 모델 파라미터를 반복적으로 업데이트할 수 있다. 반복 정지 조건은, 예를 들어, 모델 파라미터의 수렴, 손실 함수의 값이 미리 설정된 요구를 만족하는 것, 및 미리 설정된 반복 회수의 역치에 도달하는 것 등일 수도 있다.

음성 합성 모델의 구조 및 원리는 위의 실시예와 같으며, 상세히 설명하지 않는다. 하기는 상술한 운률 추출 모델의 구조를 설명한다. 도 8c는 본 발명의 실시예에서 제공되는 운률 추출 모델의 개략적인 구조도이다. 도 8c에 도시된 바와 같이, 운률 추출 모델은 컨볼루션층, 양방향 GRU 층 및 주의력층을 포함한다.

라벨링된 음향 특징, 예를 들어 mel 스펙트럼은, 컨볼루션층 및 양방향 GRU 층을 거친 후, 양방향 GRU 층에 의해 출력된 특징과 음성 합성 모델의 제2 인코더에 의해 추출된 언어 특징을 주의력층에 입력하여 주의력 처리를 수행하여, 운률 특징을 획득한다.

상술한 트레이닝 과정에서, 운률 추출 모델과 음성 합성 모델을 모두 공동 트레이닝을 수행하고, 최종적으로 트레이닝된 음성 합성 모델은 합성할 텍스트의 보코더 특징을 획득하는데 사용된다.

도 9a는 본 발명의 실시예에서 제공되는 제3 음성 합성 모델의 트레이닝 방법의 흐름도이다. 도 9a에 도시된 바와 같이, 당해 방법은 하기와 같은 단계를 포함할 수 있다.

901에서, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플과 텍스트 샘플에 라벨링된 보코더 특징을 포함한다.

그 다음에, 표준 음성으로부터 보코더 특징을 추출하고, 추출된 보코더 특징을 사용하여 텍스트 샘플을 라벨링한다. 음성으로부터 보코더 특징을 추출하는 것은, 현재, 비교적 성숙한 기술이기 때문에, 여기서 상세히 설명하지 않는다.

902에서, 텍스트 샘플을 운률 예측 모델의 입력으로 하고, 운률 예측 모델에 의해 출력된 운률 특징과 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 보코더 특징을 언어 합성 모델의 타깃 출력으로 하고, 운률 예측 모델과 음성 합성 모델을 트레이닝하고, 트레이닝된 음성 합성 모델은 합성할 텍스트의 보코더 특징을 획득하는데 사용된다.

본 실시예에서, 음성 합성 모델을 트레이닝하는 프로세스에 있어서 운률 예측 모델을 사용하여 공동 트레이닝을 수행한다. 운률 예측 모델은, 텍스트를 입력할 경우에 운률 특징을 출력할 수 있다. 도 9b에 도시된 바와 같이, 텍스트 샘플의 보코더 특징만을 모두 라벨링을 수행할 필요가 있다. 트레이닝 과정에서, 각 반복에 있어서, 모든 텍스트 샘플을 운률 예측 모델과 음성 합성 모델에 입력한다. 운률 예측 모델에 의해 출력된 운률 특징도, 음성 합성 모델에 입력한다. 음성 합성 모델은 텍스트와 운률 특징을 입력하였을 경우에 예측된 보코더 특징을 출력하고, 예측된 보코더 특징과 라벨링된 보코더 특징 사이의 차이를 최소화하여 트레이닝 타깃으로 한다. 구체적으로, 학습 목표를 사용하여 손실 함수를 미리 설계할 수 있고, 그 다음에, 예를 들어, 반복 정지 조건에 도달할 때까지, 경사 하강법등 방식을 사용하여 음성 합성 모델과 운률 예측 모델의 모델 파라미터를 반복적으로 업데이트한다. 반복 정지 조건은, 예를 들어, 모델 파라미터의 수렴, 손실 함수의 값이 미리 설정된 요구를 만족하는 것, 및 미리 설정된 반복 회수의 역치에 도달하는 것 등일 수도 있다.

음성 합성 모델의 구조 및 원리는, 위의 실시예와 같으며, 운률 예측 모델의 구조 및 원리는, 도 3a 및 도 3b에 도시된 바와 같이, 제1 인코더와 제1 디코더를 포함한다.

제1 인코더는 텍스트 샘플로부터 언어 특징을 추출한 후, 언어 특징을 제1 디코더에 출력하고, 제1 디코더는 예측된 이전 프레임 운률 특징과 언어 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득한다.

구체적으로, 제1 인코더에 텍스트 샘플을 입력하고, 먼저, 문자 삽입 처리를 거치고, 그 다음에, 컨볼루션층 및 양방향 LSTM 층을 거친 후에 언어 특징을 획득한다. 제2 디코더는 하나의 자기회귀 네트워크이며, 예측된 이전 프레임 운률 특징은, 먼저, Pre-net(사전 예측 네트워크)를 거친 후, pre-net의 출력 결과와 언어 특징을 스플라이싱한 후에 LSTM에 모두 입력하고, 그 다음에, 선형 예측층의 처리를 거쳐 예측된 운률 특징을 획득한다.

또는, 제1 디코더가 텍스트 샘플로부터 언어 특징을 추출한 후, 텍스트 샘플로부터 추출된 방송 스타일 특징과 언어 특징을 스플라이싱하고, 획득된 제1 스플라이싱 특징을 제1 디코더에 입력하고, 제1 디코더는 예측된 이전 프레임 운률 특징과 제1 스플라이싱 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득한다.

상술한 트레이닝 과정에서, 운률 예측 모델과 음성 합성 모델에 대해 모두 공동 트레이닝을 수행하고, 최종적으로 트레이닝된 음성 합성 모델은 합성할 텍스트의 보코더 특징을 획득하는데 사용된다.

도 10a는 본 발명의 실시예에서 제공되는 제4 음성 합성 모델의 트레이닝 방법의 흐름도이다. 도 10a에 도시된 바와 같이, 당해 방법은 하기와 같은 단계를 포함할 수 있다.

1001에서, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플, 텍스트 샘플에 라벨링된 음향 특징 및 보코더 특징을 포함한다.

1002에서, 라벨링된 음향 특징을 운률 추출 모델의 입력으로 하고, 운률 추출 모델에 의해 출력된 운률 특징과 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 보코더 특징을 언어 합성 모델의 타깃 출력으로 하고, 텍스트 샘플을 운률 예측 모델의 입력으로 하고, 운률 추출 모델에 의해 출력된 운률 특징을 운률 예측 모델의 타깃 출력으로 하고, 운률 예측 모델, 운률 추출 모델 및 음성 합성 모델을 트레이닝하고, 트레이닝된 음성 합성 모델은 합성할 텍스트의 보코더 특징을 획득하는데 사용된다.

본 실시예에서, 음성 합성 모델을 트레이닝하는 프로세스에 있어서 운률 추출 모델과 운률 예측 모델을 사용하여 공동 트레이닝을 수행한다. 운률 추출 모델은 라벨링된 음향 특징을 입력하였을 경우에 운률 특징을 출력하고, 운률 예측 모델은 텍스트 샘플을 입력하였을 경우에 운률 특징을 출력할 수 있다. 도 10b에 도시된 바와 같이, 텍스트 샘플의 보코더 특징과 음향 특징에 대해 모두 라벨링을 수행할 필요가 있다. 트레이닝 과정에서, 각 반복에 있어서, 모든 텍스트 샘플을 운률 예측 모델과 음성 합성 모델에 입력하고, 라벨링된 음향 특징을 운률 추출 모델에 입력한다. 운률 추출 모델에 의해 출력된 운률 특징도, 음성 합성 모델에 입력한다. 음성 합성 모델은 텍스트와 운률 특징을 입력하였을 경우에 예측된 보코더 특징을 출력하고, 예측된 보코더 특징과 라벨링된 보코더 특징 사이의 차이를 최소화하고, 운률 예측 모델에 의해 예측된 운률 특징과 운률 추출 모델에 의해 추출된 운률 특징 사이의 차이를 최소화하여 트레이닝 타깃으로 한다. 구체적으로, 학습 목표를 사용하여 2개의 손실 함수를 미리 설계할 수 있고, 즉 예측된 보코더 특징과 라벨링된 보코더 특징 사이의 차이를 최소화하여 손실 함수 L1을 구축하고, 운률 예측 모델에 의해 예측된 운률 특징과 운률 추출 모델에 의해 추출된 운률 특징 사이의 차이를 최소화하여 손실 함수 L2를 구축한다. L1과 L2를 사용하여 총 손실 함수를 구축하고, 당해 총 손실 함수에 따라, 예를 들어, 반복 정지 조건에 도달할 때까지, 경사 하강법등 방식을 사용하여 음성 합성 모델과 운률 예측 모델의 모델 파라미터를 반복적으로 업데이트한다. 반복 정지 조건은, 예를 들어, 모델 파라미터의 수렴, 손실 함수의 값이 미리 설정된 요구를 만족하는 것, 및 미리 설정된 반복 회수의 역치에 도달하는 것 등일 수도 있다.

상술한 음성 합성 모델은, 트레이닝 데이터에 대한 요구가 낮게, 일반적으로, 몇 백의 문장으로 상업적인 안정적 효과, 표현력 및 유창도를 달성할 수 있다.

이상은 본 발명에서 제공되는 방법에 대한 상세한 설명이며, 하기는 실시예를 결합하여 본 발명에서 제공되는 장치를 상세히 설명한다.

도 11은 본 발명의 실시예에서 제공되는 음성 합성 장치의 개략적인 구조도이다. 즉 도 1에 도시된 음성 합성 장치이다. 도 11에 도시된 바와 같이, 당해 장치(1100)는 텍스트 획득 유닛(1101), 운률 추출 유닛(1102) 및 음성 합성 유닛(1103)을 포함할 수 있다. 모델 트레이닝 유닛(1104)을 더 포함할 수도 있다. 각 구성 유닛의 주요 기능은 하기와 같다.

텍스트 획득 유닛(1101)은, 합성할 텍스트를 획득하는데 사용된다.

운률 추출 유닛(1102)은, 텍스트로부터 추출된 운률 특징을 획득하는데 사용된다.

음성 합성 유닛(1103)은, 텍스트와 운률 특징을 음성 합성 모델에 입력하여, 보코더 특징을 획득하는데 사용된다.

운률 추출 유닛(1102)은, 구체적으로, 텍스트를 운률 예측 모델에 입력하여, 운률 특징을 획득하는데 사용된다. 운률 예측 모델은, 제1 인코더와 제1 디코더를 포함한다.

하나의 구현 방식으로서, 제1 인코더는 텍스트로부터 언어 특징을 추출한 후, 언어 특징을 제1 디코더에 출력하는데 사용되고, 제1 디코더는 예측된 이전 프레임 운률 특징과 언어 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득한다.

다른 구현 방식으로서, 제1 디코더는 텍스트로부터 언어 특징을 추출한 후, 텍스트로부터 추출된 방송 스타일 특징과 언어 특징을 스플라이싱하고, 획득된 제1 스플라이싱 특징을 제1 디코더에 입력하고, 제1 디코더는 예측된 이전 프레임 운률 특징과 제1 스플라이싱 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득하는데 사용된다.

음성 합성 모델은, 제2 인코더, 제2 디코더 및 사후 예측 네트워크를 포함할 수 있다.

제2 인코더는 텍스트로부터 언어 특징을 추출한 후, 언어 특징과 운률 특징을 스플라이싱하거나, 또는 언어 특징, 운률 특징 및 화자 특징을 스플라이싱하고, 스플라이싱된 제2 스플라이싱 특징을 제2 디코더에 출력하는데 사용된다.

제2 디코더는 예측된 이전 프레임의 음향 특징과, 제2 스플라이싱 특징을 사용하여, 현재 프레임의 음향 특징을 예측하여 사후 예측 네트워크에 출력하는데 사용되고, 음향 특징은 음성 스펙트럼 특징을 포함한다.

사후 예측 네트워크는, 음향 특징을 사용하여 보코더 특징을 예측하여 획득하는데 사용된다.

하나의 구현 가능한 방식으로서, 제2 디코더는 이전 프레임의 음향 특징이 사전 예측 네트워크를 거친 후에 획득된 특징과, 주의력 처리 후의 제2 스플라이싱 특징을 스플라이싱하여, 제3 스플라이싱 특징을 획득하고, 제3 스플라이싱 특징은, 장단기 저장 네트워크 LSTM를 거쳐 처리를 한 후에 선형 예측층에 입력하고, 선형 예측층으로부터 현재 프레임의 음향 특징을 예측하여 획득한다.

하나의 구현 가능한 방식으로서, 사후 예측 네트워크는 음향 특징이 CBHG 모듈을 거쳐 처리한 후, 또한 N개의 예측 모듈의 예측을 거쳐, 예측 결과로 보코더 특징을 구성하고, 예측 모듈은 양방향 게이트 순환 유닛 GRU 및 선형 투영층을 포함하고, N은 양의 정수이다.

상술한 모델 트레이닝 유닛(1104)은, 하기의 일부 트레이닝 방식을 사용할 수 있지만, 이에 한정되지 않는다.

제1 트레이닝 방식: 모델 트레이닝 유닛(1104)은, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은, 텍스트 샘플과 텍스트 샘플에 라벨링된 운률 특징 및 보코더 특징을 포함하고, 텍스트 샘플과, 라벨링된 운률 특징을 음성 합성 모델의 입력으로 하고, 라벨링된 보코더 특징을 음성 합성 모델의 타깃 출력으로 하고, 음성 합성 모델을 트레이닝한다.

제2 트레이닝 방식: 모델 트레이닝 유닛(1104)은, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플, 텍스트 샘플에 라벨링된 음향 특징 및 보코더 특징을 포함하고, 라벨링된 음향 특징을 운률 추출 모델의 입력으로 하고, 운률 추출 모델에 의해 출력된 운률 특징과 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 보코더 특징을 언어 합성 모델의 타깃 출력으로 하고, 운률 추출 모델과 음성 합성 모델을 트레이닝한다.

제3 트레이닝 방식: 모델 트레이닝 유닛(1104)은, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플과 텍스트 샘플에 라벨링된 보코더 특징을 포함하고, 텍스트 샘플을 운률 예측 모델의 입력으로 하고, 운률 예측 모델에 의해 출력된 운률 특징과 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 보코더 특징을 언어 합성 모델의 타깃 출력으로 하고, 운률 예측 모델과 음성 합성 모델을 트레이닝한다.

제4 트레이닝 방식: 모델 트레이닝 유닛(1104)은, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플, 텍스트 샘플에 라벨링된 음향 특징 및 보코더 특징을 포함하고, 라벨링된 음향 특징을 운률 추출 모델의 입력으로 하고, 운률 추출 모델에 의해 출력된 운률 특징과 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 보코더 특징을 언어 합성 모델의 타깃 출력으로 하고, 텍스트 샘플을 운률 예측 모델의 입력으로 하고, 운률 추출 모델에 의해 출력된 운률 특징을 운률 예측 모델의 타깃 출력으로 하고, 운률 예측 모델, 운률 추출 모델 및 음성 합성 모델을 트레이닝한다.

상술한 제2 트레이닝 방식과 제4 트레이닝 방식에 관한 운률 추출 모델은, 컨볼루션층, 양방향 GRU 층 및 주의력층을 포함할 수 있다.

라벨링된 음향 특징은 컨볼루션층 및 양방향 GRU 층을 거친 후, 획득된 특징과 음성 합성 모델에서의 제2 인코더에 의해 추출된 언어 특징을 주의력층에 입력하여 주의력 처리를 수행하여, 운률 특징을 획득한다.

상술한 4가지 방식에서, 모델 트레이닝 유닛(1104)은, 표준 음성을 획득하고, 표준 음성에 대응하는 텍스트를 텍스트 샘플로 결정할 수 있다. 표준 음성으로부터 음향 특징 및 보코더 특징 중의 적어도 하나를 텍스트 샘플로 추출하여 라벨링한다. 텍스트 샘플로부터 운률 특징을 추출하여 텍스트 샘플을 라벨링한다.

도 12는 본 발명의 실시예에서 제공되는 후처리 장치의 개략적인 구조도이다. 당해 음성 처리 장치는 도 1에 도시된 후 처리 장치에 설치할 수 있고, 도 12에 도시된 바와 같이, 당해 장치(1200)는 특징 획득 유닛(1201), UV 보정 유닛(1202) 및 특징 처리 유닛(1203)을 포함할 수 있고, 선형 보간 유닛(1204) 및 역 정규화 유닛(1205)을 더 포함할 수도 있다. 각 구성 유닛의 주요 기능은 하기와 같다.

특징 획득 유닛(1201)은, 텍스트에 대해 획득한 보코더 특징을 획득하는데 사용된다.

UV 보정 유닛(1202)은, 보코더 특징으로 있어서의 에너지 특징 및 음성 스펙트럼 특징 중의 적어도 하나에 따라, 보코더 특징 중의 UV 특징에 대해 값보정을 수행하는데 사용된다.

특징 처리 유닛(1203)은, 합성된 음성을 획득하도록, 보정 후의 보코더 특징을 보코더에 제공하는데 사용된다.

UV 보정 유닛(1202)은, 구체적으로, 보코더 특징 중의 UV 특징 시퀀스의 값 변화 경계에서의 값이 1인 프레임에 대응하는 에너지 특징값이 0보다 작은지 여부를 각각 판단하고, 그럴 경우, 당해 프레임의 UV 특징값을 0으로 보정하고, UV 특징 시퀀스의 값 변화 경계에서의 값이 0인 프레임에 대응하는 에너지 특징값과, 값이 1인 인접된 프레임에 대응하는 에너지 특징값 사이의 비율이 미리 설정된 비율의 역치보다 큰지 여부를 각각 판단하고, 그럴 경우, 당해 값이 0인 프레임 UV 특징값을 1로 보정하는데 사용된다.

UV 보정 유닛(1202)은, 구체적으로, 각 프레임에 대해, 당해 프레임 음성 스펙트럼 특징의 이전의 M차원의 최대치가 미리 설정된 제1 역치보다 작을 경우, 당해 프레임의 UV 특징값을 1로 설치하고, 당해 프레임 음성 스펙트럼 특징의 이전의 M차원의 최대치가 미리 설정된 제2 역치보다 클 경우, 당해 프레임의 UV 특징값을 0으로 설치하는데 사용되고, M은 미리 설정된 양의 정수이며, 제2 역치는 제1 역치보다 크다.

바람직한 실시 방식으로서, 음성 스펙트럼 특징은 메이어 스펙트럼 특징이고, M은 20이며, 제1 역치는 2이고, 제2 역치는 2.5이다.

선형 보간 유닛(1204)은, 미리 설정된 보간 배수에 따라, 특징 획득 유닛(1201)에 의해 획득된 보코더 특징에 대해 선형 보간 처리를 수행하고, 선형 보간 처리 후의 보코더 특징을 UV 보정 유닛(1202)에 제공하는데 사용된다.

나아가, 역 정규화 유닛(1205)은, 보정 후의 보코더 특징 내의 미리 설정된 유형의 특징 시퀀스에 대해 역 정규화 처리를 수행하고, 역 정규화 처리는 음성 합성 모델의 트레이닝 과정에서 미리 설정된 유형의 특징 시퀀스에 대해 수행하는 정규화 처리에 대응하고, 음성 합성 모델은, 텍스트에 대해 획득한 보코더 특징을 획득하는 소스이다.

상응하게, 특징 처리 유닛(1203)은 역 정규화 유닛(1205)을 거쳐 처리한 후의 보코더 특징을 보코더에 제공한다.

설명해야 하는 바로는, 상술한 음성 합성 장치(1100)와 상술한 후처리 장치(1200)는 각각 독립적으로 설치할 수 있고, 하나의 장치로 설치하여 구현할 수도 있으며, 그중의 일부 유닛을 하나의 장치로 합병하여 구현할 수도 있으며, 본 발명은 이에 대해 한정하지 않는다.

본 명세서의 각 실시예는, 모두 점진적인 방식을 사용하여 설명하고, 각 실시예 사이의 동일하고 유사한 부분은 서로 참조할 수 있고, 각 실시예는 모두 다른 실시예와의 차이를 중점적으로 설명한다. 특히, 장치의 실시예는 방법의 실시예와 기본적으로 유사하므로, 설명은 비교적 간단하고, 관련되는 부분은 방법의 실시예의 일부 설명을 참조하면 된다.

본 발명의 기술안에서, 관련된 사용자 개인 정보의 획득, 저장, 응용 등은, 모두 관련 법률 및 규정에 부합되고, 공서와 양속을 위반하지 않는다.

본 발명의 실시예에 따르면, 본 발명은 또한, 전자 기기, 판독 가능 기록 매체 및 컴퓨터 프로그램 제품을 제공한다.

도 13에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 합성 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 디지털 비서, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 계산 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.

도 13에 도시된 바와 같이, 기기(1300)는 컴퓨팅 유닛(1301)을 포함하고, 컴퓨팅 유닛(1301)은 판독 전용 메모리(ROM)(1302)에 저장되어 있는 컴퓨터 프로그램 또는 저장 유닛(1308)으로부터 랜덤 액세스 메모리(RAM)(1303)에 로드된 컴퓨터 프로그램에 따라, 다양한 적절한 동작과 처리를 실행할 수 있다. RAM(1303)에는 기기(1300)가 동작하는데 필요한 여러가지 프로그램과 데이터도 저장할 수 있다. 컴퓨팅 유닛(1301), ROM(1302) 및 RAM(1303)는 버스(1304)를 통해 서로 연결된다. 입력/출력 (I/O)인터페이스(1305)도 버스(1304)에 연결된다.

기기(1300) 중의 복수 컴포넌트는 I/O 인터페이스(1305)에 연결되고, 키보드, 마우스 등과 같은 입력 유닛(1306); 여러가지 타입의 디스플레이, 스피커 등과 같은 출력 유닛(1307); 디스크, 광디스크 등과 같은 저장 유닛(1308) 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(1409)을 포함한다. 통신 유닛(1409)은 기기(1300)가 인터넷 등과 같은 컴퓨터 네트워크 및 여러가지 통신 네트워크 중의 적어도 하나를 통해 다른 기기와 정보/데이터를 교환할 수 있다.

컴퓨팅 유닛(1301)은 여러가지 처리와 계산 능력을 갖춘 범용 처리 컴포넌트 및 전용 처리 컴포넌트 중의 적어도 하나일 수 있다. 컴퓨팅 유닛(1301)의 일부 예는, 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 다양한 전용 인공지능(AI)계산 팁, 다양한 기계학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 컴퓨팅 유닛(1301)은 음성 합성 방법 등과 같은 상기의 다양한 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 음성 합성 방법은 저장 유닛(1308) 등과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현할 수 있다.

일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1302) 및 통신 유닛(1409) 중의 적어도 하나를 통해 기기(1300)에 로드 및/또는 인스톨될 수 있다. 컴퓨터 프로그램이 RAM(1303)에 로드되어 컴퓨팅 유닛(1301)에 의해 실행될 경우, 상기의 음성 합성 방법의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(1301)은 다른 임의의 적절한 방식(예를 들면, 펌웨어에 의해)을 통해 음성 합성 방법을 실행하도록 구성될 수 있다.

설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래밍 가능한 게이트 어레이(FPGA), 특정 용도 대상 집적 회로(ASIC), 특정 용도 대상 표준제품(ASSP), 시스템 온 칩 시스템(SOC), 부하 프로그래밍 가능 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 결합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 사용하여 작성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및 블록도 중의 적어도 하나에 규정된 기능/동작이 실행되도록, 대형 기계(슈퍼 컴퓨터), 전용 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립된 소프트웨어 패키지로서 부분적으로 기계에서 실행되고, 부분적으로 리모트 기계에서 실행되거나 또는 완전히 리모트 기계 또는 서버에서 실행될 수 있다.

본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기의 사용, 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형적인 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 기록 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 결합을 포함하지만, 이에 한정되지 않는다. 기계 판독 가능 기록 매체의 더 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 결합을 포함한다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 계산 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 계산 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 계산 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 결합을 포함하는 계산 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 계산 또는 클라우드 호스트일 수도 있으며, 클라우드 계산 서비스 시스템 중의 하나의 호스트 제품일 수 있어, 종래의 물리 호스트와 가상 전용 서버(VPs，Virtual Private Server) 서비스에 존재하는 관리 곤란도가 높고, 업무 확장성이 약한 것을 해결한다. 서버는 분산 시스템의 서버일 수 있거나, 또는 블록 체인을 결합한 서버일 수도 있다.

위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.

상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 결합, 서브 결합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

음성 합성 방법에 있어서,
합성할 텍스트를 획득하는 단계;
상기 텍스트로부터 추출된 운률 특징을 획득하는 단계;
상기 텍스트와 상기 운률 특징을 음성 합성 모델에 입력하여, 보코더 특징을 획득하는 단계; 및
상기 보코더 특징을 보코더에 입력하여, 합성된 음성을 획득하는 단계;를 포함하는,
음성 합성 방법.
제1항에 있어서,
상기 텍스트로부터 추출된 운률 특징을 획득하는 단계는,
상기 텍스트를 운률 예측 모델에 입력하여, 상기 운률 특징을 획득하는 단계를 포함하고,
상기 운률 예측 모델은, 제1 인코더와 제1 디코더를 포함하고,
상기 제1 인코더는 상기 텍스트로부터 언어 특징을 추출한 후, 상기 언어 특징을 상기 제1 디코더에 출력하고, 상기 제1 디코더는 예측된 이전 프레임 운률 특징과 상기 언어 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득하거나,
또는,
상기 제1 디코더는 상기 텍스트로부터 언어 특징을 추출한 후, 상기 텍스트로부터 추출된 방송 스타일 특징과 상기 언어 특징을 스플라이싱하고, 획득된 제1 스플라이싱 특징을 상기 제1 디코더에 입력하고, 상기 제1 디코더는 예측된 이전 프레임 운률 특징과 상기 제1 스플라이싱 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득하는,
음성 합성 방법.
제1항에 있어서,
상기 음성 합성 모델은, 제2 인코더, 제2 디코더 및 사후 예측 네트워크를 포함하고,
상기 제2 인코더는 상기 텍스트로부터 언어 특징을 추출한 후, 상기 언어 특징과 상기 운률 특징을 스플라이싱하거나, 또는 상기 언어 특징, 운률 특징 및 화자 특징을 스플라이싱하고, 스플라이싱된 제2 스플라이싱 특징을 상기 제2 디코더에 출력하고,
상기 제2 디코더는 예측된 이전 프레임의 음향 특징 및 상기 제2 스플라이싱 특징을 사용하여, 현재 프레임의 음향 특징을 예측하여 상기 사후 예측 네트워크에 출력하고, 상기 음향 특징은 음성 스펙트럼 특징을 포함하고,
상기 사후 예측 네트워크는 음향 특징을 사용하여 보코더 특징을 예측하여 획득하는,
음성 합성 방법.
제3항에 있어서,
상기 제2 디코더가 예측된 이전 프레임의 음향 특징 및 상기 제2 스플라이싱 특징을 사용하여, 현재 프레임의 음향 특징을 예측하는 단계는,
상기 제2 디코더가 상기 이전 프레임의 음향 특징이 사전 예측 네트워크를 거친 후에 획득된 특징과, 주의력 처리 후의 상기 제2 스플라이싱 특징을 스플라이싱하여, 제3 스플라이싱 특징을 획득하는 단계; 및
상기 제3 스플라이싱 특징이 장단기 저장 네트워크 LSTM를 거쳐 처리를 한 후에 선형 예측층에 입력하고, 상기 선형 예측층으로부터 현재 프레임의 음향 특징을 예측하여 획득하는 단계를 포함하는,
음성 합성 방법.
제3항에 있어서,
상기 사후 예측 네트워크가 음향 특징을 사용하여 보코더 특징을 예측하여 획득하는 단계는,
상기 사후 예측 네트워크가 음향 특징을 CBHG 모듈로 처리한 후, 또한 N개의 예측 모듈의 예측을 거쳐, 예측 결과로 상기 보코더 특징을 구성하는 단계를 포함하고,
상기 예측 모듈은 양방향 게이트 순환 유닛(GRU) 및 선형 투영층을 포함하고,
상기 N은 양의 정수인,
음성 합성 방법.
제1항에 있어서,
상기 음성 합성 모델은 하기 방식을 사용하여 미리 트레이닝하여 획득하는,
음성 합성 방법:
트레이닝 샘플을 획득하는 방식 - 각 트레이닝 샘플은, 텍스트 샘플과 상기 텍스트 샘플에 라벨링된 운률 특징 및 보코더 특징을 포함함 -; 및
상기 텍스트 샘플과, 라벨링된 상기 운률 특징을 음성 합성 모델의 입력으로 하고, 라벨링된 상기 보코더 특징을 상기 음성 합성 모델의 타깃 출력으로 하고, 상기 음성 합성 모델을 트레이닝하는 방식.
제1항에 있어서,
상기 음성 합성 모델은 하기 방식을 사용하여 미리 트레이닝하여 획득하는,
음성 합성 방법:
트레이닝 샘플을 획득하는 방식 - 각 트레이닝 샘플은 텍스트 샘플, 상기 텍스트 샘플에 라벨링된 음향 특징 및 보코더 특징을 포함함 -; 및
라벨링된 상기 음향 특징을 운률 추출 모델의 입력으로 하고, 상기 운률 추출 모델에 의해 출력된 운률 특징과 상기 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 상기 보코더 특징을 상기 언어 합성 모델의 타깃 출력으로 하고, 상기 운률 추출 모델과 상기 음성 합성 모델을 트레이닝하는 방식.
제1항에 있어서,
상기 음성 합성 모델은 하기 방식을 사용하여 미리 트레이닝하여 획득하는,
음성 합성 방법:
트레이닝 샘플을 획득하는 방식 - 각 트레이닝 샘플은 텍스트 샘플과 상기 텍스트 샘플에 라벨링된 보코더 특징을 포함함 -; 및
상기 텍스트 샘플을 운률 예측 모델의 입력으로 하고, 상기 운률 예측 모델에 의해 출력된 운률 특징과 상기 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 상기 보코더 특징을 상기 언어 합성 모델의 타깃 출력으로 하고, 상기 운률 예측 모델과 상기 음성 합성 모델을 트레이닝하는 방식.
제1항에 있어서,
상기 음성 합성 모델은 하기 방식을 사용하여 미리 트레이닝하여 획득하는,
음성 합성 방법:
트레이닝 샘플을 획득하는 방식 - 각 트레이닝 샘플은 텍스트 샘플, 상기 텍스트 샘플에 라벨링된 음향 특징 및 보코더 특징을 포함함 -; 및
라벨링된 상기 음향 특징을 운률 추출 모델의 입력으로 하고, 상기 운률 추출 모델에 의해 출력된 운률 특징과 상기 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 상기 보코더 특징을 상기 언어 합성 모델의 타깃 출력으로 하고, 상기 텍스트 샘플을 운률 예측 모델의 입력으로 하고, 상기 운률 추출 모델에 의해 출력된 운률 특징을 상기 운률 예측 모델의 타깃 출력으로 하고, 상기 운률 예측 모델, 운률 추출 모델 및 상기 음성 합성 모델을 트레이닝하는 방식.
제7항 또는 제9항에 있어서,
상기 운률 추출 모델은 컨볼루션층, 양방향 GRU 층 및 주의력층을 포함하고,
상기 라벨링된 음향 특징은 컨볼루션층 및 양방향 GRU 층을 거친 후, 획득된 특징과 상기 음성 합성 모델에서의 제2 인코더에 의해 추출된 언어 특징을 주의력층에 입력하여 주의력 처리를 수행하여, 운률 특징을 획득하는,
음성 합성 방법.
제6항 내지 제9항 중 어느 한 항에 있어서,
상기 트레이닝 샘플을 획득하는 단계는,
표준 음성을 획득하고, 상기 표준 음성에 대응하는 텍스트를 텍스트 샘플로 결정하는 단계; 및
상기 표준 음성으로부터 음향 특징 및 보코더 특징 중의 적어도 하나를 텍스트 샘플로 추출하여 라벨링하고; 및/또는,
상기 텍스트 샘플로부터 운률 특징을 추출하여 상기 텍스트 샘플을 라벨링하는 단계;를 포함하는,
음성 합성 방법.
음성 합성 장치에 있어서,
합성할 텍스트를 획득하기 위한 텍스트 획득 유닛;
상기 텍스트로부터 추출된 운률 특징을 획득하기 위한 운률 추출 유닛; 및
상기 텍스트와 상기 운률 특징을 음성 합성 모델에 입력하여, 보코더 특징을 획득하고; 상기 보코더 특징을 보코더에 입력하여, 합성된 음성을 획득하기 위한 음성 합성 유닛;을 포함하는,
음성 합성 장치.
제12항에 있어서,
상기 운률 추출 유닛은 구체적으로, 상기 텍스트를 운률 예측 모델에 입력하여, 상기 운률 특징을 획득하는데 사용되고;
상기 운률 예측 모델은, 제1 인코더와 제1 디코더를 포함하고,
상기 제1 인코더는 상기 텍스트로부터 언어 특징을 추출한 후, 상기 언어 특징을 상기 제1 디코더에 출력하고, 상기 제1 디코더는 예측된 이전 프레임 운률 특징과 상기 언어 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득하거나, 또는,
상기 제1 디코더는 상기 텍스트로부터 언어 특징을 추출한 후, 상기 텍스트로부터 추출된 방송 스타일 특징과 상기 언어 특징을 스플라이싱하고, 획득된 제1 스플라이싱 특징을 상기 제1 디코더에 입력하고, 상기 제1 디코더는 예측된 이전 프레임 운률 특징과 상기 제1 스플라이싱 특징을 사용하여, 현재 프레임의 운률 특징을 예측하여 획득하는,
음성 합성 장치.
제12항에 있어서,
상기 음성 합성 모델은, 제2 인코더, 제2 디코더 및 사후 예측 네트워크를 포함하고,
상기 제2 인코더는 상기 텍스트로부터 언어 특징을 추출한 후, 상기 언어 특징과 상기 운률 특징을 스플라이싱하거나, 또는 상기 언어 특징, 운률 특징 및 화자 특징을 스플라이싱하고, 스플라이싱된 제2 스플라이싱 특징을 상기 제2 디코더에 출력하는데 사용되고,
상기 제2 디코더는 예측된 이전 프레임의 음향 특징 및 상기 제2 스플라이싱 특징을 사용하여, 현재 프레임의 음향 특징을 예측하여 상기 사후 예측 네트워크에 출력하는데 사용되고, 상기 음향 특징은 음성 스펙트럼 특징을 포함하고,
상기 사후 예측 네트워크는 음향 특징을 사용하여 보코더 특징을 예측하여 획득하는데 사용되는,
음성 합성 장치.
제14항에 있어서,
제2 디코더는 구체적으로,
상기 이전 프레임의 음향 특징이 사전 예측 네트워크를 거친 후에 획득된 특징과, 주의력 처리 후의 상기 제2 스플라이싱 특징을 스플라이싱하여, 제3 스플라이싱 특징을 획득하고; 및 상기 제3 스플라이싱 특징이 장단기 저장 네트워크 LSTM를 거쳐 처리를 한 후에 선형 예측층에 입력하고, 선형 예측층으로부터 현재 프레임의 음향 특징을 예측하여 획득하는데 사용되는,
음성 합성 장치.
제14항에 있어서,
상기 사후 예측 네트워크는 구체적으로,
음향 특징을 CBHG 모듈로 처리한 후, 또한 N개의 예측 모듈의 예측을 거쳐, 예측 결과로 보코더 특징을 구성하는데 사용되고, 상기 예측 모듈은 양방향 게이트 순환 유닛(GRU) 및 선형 투영층을 포함하고, 상기 N은 양의 정수인,
음성 합성 장치.
제12항에 있어서,
상기 장치는 모델 트레이닝 유닛을 더 포함하고,
상기 모델 트레이닝 유닛은, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은, 텍스트 샘플과 상기 텍스트 샘플에 라벨링된 운률 특징 및 보코더 특징을 포함하며; 상기 텍스트 샘플과, 라벨링된 상기 운률 특징을 음성 합성 모델의 입력으로 하고, 라벨링된 상기 보코더 특징을 상기 음성 합성 모델의 타깃 출력으로 하고, 상기 음성 합성 모델을 트레이닝하는데 사용되는,
음성 합성 장치.
제12항에 있어서,
상기 장치는 모델 트레이닝 유닛을 더 포함하고,
상기 모델 트레이닝 유닛은, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플, 상기 텍스트 샘플에 라벨링된 음향 특징 및 보코더 특징을 포함하며; 라벨링된 상기 음향 특징을 운률 추출 모델의 입력으로 하고, 상기 운률 추출 모델에 의해 출력된 운률 특징과 상기 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 상기 보코더 특징을 상기 언어 합성 모델의 타깃 출력으로 하고, 상기 운률 추출 모델과 상기 음성 합성 모델을 트레이닝하는데 사용되는,
음성 합성 장치.
제12항에 있어서,
상기 장치는 모델 트레이닝 유닛을 더 포함하고,
상기 모델 트레이닝 유닛은, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플과 상기 텍스트 샘플에 라벨링된 보코더 특징을 포함하며; 상기 텍스트 샘플을 운률 예측 모델의 입력으로 하고, 상기 운률 예측 모델에 의해 출력된 운률 특징과 상기 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 상기 보코더 특징을 상기 언어 합성 모델의 타깃 출력으로 하고, 상기 운률 예측 모델과 상기 음성 합성 모델을 트레이닝하는데 사용되는,
음성 합성 장치.
제12항에 있어서,
상기 장치는 모델 트레이닝 유닛을 더 포함하고,
상기 모델 트레이닝 유닛은, 트레이닝 샘플을 획득하고, 각 트레이닝 샘플은 텍스트 샘플, 상기 텍스트 샘플에 라벨링된 음향 특징 및 보코더 특징을 포함하며; 라벨링된 상기 음향 특징을 운률 추출 모델의 입력으로 하고, 상기 운률 추출 모델에 의해 출력된 운률 특징과 상기 텍스트 샘플을 언어 합성 모델의 입력으로 하고, 라벨링된 상기 보코더 특징을 상기 언어 합성 모델의 타깃 출력으로 하고, 상기 텍스트 샘플을 운률 예측 모델의 입력으로 하고, 상기 운률 추출 모델에 의해 출력된 운률 특징을 상기 운률 예측 모델의 타깃 출력으로 하고, 상기 운률 예측 모델, 운률 추출 모델 및 상기 음성 합성 모델을 트레이닝하는데 사용되는,
음성 합성 장치.
제18항 또는 제20항에 있어서,
상기 운률 추출 모델은 컨볼루션층, 양방향 GRU 층 및 주의력층을 포함하고,
상기 라벨링된 음향 특징은 컨볼루션층 및 양방향 GRU 층을 거친 후, 획득된 특징과 상기 음성 합성 모델에서의 상기 제2 인코더에 의해 추출된 언어 특징을 주의력층에 입력하여 주의력 처리를 수행하여, 운률 특징을 획득하는,
음성 합성 장치.
제17항 내지 제20항 중 어느 한 항에 있어서,
상기 모델 트레이닝 유닛은 구체적으로,
표준 음성을 획득하고, 상기 표준 음성에 대응하는 텍스트를 텍스트 샘플로 결정하고; 표준 음성으로부터 음향 특징 및 보코더 특징 중의 적어도 하나를 상기 텍스트 샘플로 추출하여 라벨링하고; 및/또는, 상기 텍스트 샘플로부터 운률 특징을 추출하여 텍스트 샘플을 라벨링하는,
음성 합성 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제11항 중 어느 한 항의 방법이 수행되도록 하는,
전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제11항 중 어느 한 항의 방법을 수행하도록 하는,
비일시적 컴퓨터 판독 가능 기록 매체.
비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 상기 컴퓨터가 제1항 내지 제11항 중 어느 한 항의 방법을 수행하도록 하는,
비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 컴퓨터 프로그램.