KR20160058470A - 음성 합성 장치 및 그 제어 방법 - Google Patents

음성 합성 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR20160058470A
KR20160058470A KR1020140159995A KR20140159995A KR20160058470A KR 20160058470 A KR20160058470 A KR 20160058470A KR 1020140159995 A KR1020140159995 A KR 1020140159995A KR 20140159995 A KR20140159995 A KR 20140159995A KR 20160058470 A KR20160058470 A KR 20160058470A
Authority
KR
South Korea
Prior art keywords
parameter
speech
text
unit
parameters
Prior art date
Application number
KR1020140159995A
Other languages
English (en)
Inventor
권재성
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140159995A priority Critical patent/KR20160058470A/ko
Priority to US14/928,259 priority patent/US20160140953A1/en
Priority to EP15194790.0A priority patent/EP3021318A1/en
Priority to CN201510791532.6A priority patent/CN105609097A/zh
Publication of KR20160058470A publication Critical patent/KR20160058470A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

음성 합성 장치가 개시된다. 음성 합성 장치는, 음성 파일을 구성하는 음성 합성 단위에 대응되는 복수의 파라미터가 저장된 음성 파라미터 데이터베이스, 복수의 음성 합성 단위로 이루어진 텍스트를 입력받기 위한 입력부, 음성 파라미터 데이터베이스로부터, 입력된 텍스트를 구성하는 음성 합성 단위 각각에 대응되는 복수의 후보 유닛 파라미터들을 선정하고, 연속적으로 이어지는 후보 유닛 파라미터들 사이의 연결 가능성에 따라 텍스트의 일부 또는 전부에 대한 파라미터 유닛 시퀀스를 생성하며, 파라미터 유닛 시퀀스를 이용하여 HMM(Hidden Markov Model)을 기반으로 하는 합성 동작을 수행하여 텍스트에 대응되는 어쿠스틱 신호를 생성하는 프로세서를 포함한다.

Description

음성 합성 장치 및 그 제어 방법 { SPEECH SYNTHESIS APPARATUS AND CONTROL METHOD THEREOF }
본 발명은 음성 합성 장치 및 그 제어 방법에 대한 것으로, 보다 상세하게는, 입력된 텍스트를 음성으로 변환할 수 있는 음성 합성 장치 및 그 제어 방법에 대한 것이다.
최근 음성 합성 기술의 발전과 함께 음성 합성 기술은 각종 음성 안내, 교육 분야 등에 널리 사용되고 있다. 음성 합성은 사람이 말하는 소리와 유사한 소리를 생성해내는 기술로 흔히 TTS(Text To Speech) 시스템으로도 알려져 있다. 음성 합성 기술은 사용자에게 정보를 텍스트나 그림이 아닌 음성 신호로 전달함으로써 운전 중이거나, 맹인인 경우처럼 사용자가 작동하는 기계의 화면을 볼 수 없는 경우에 매우 유용하다. 근래에 들어, 스마트폰, 전자 책 리더, 차량 네비게이션 등 개인 휴대용 장치와 더불어 스마트 TV, 스마트 냉장고 등과 같이 스마트 홈에서 스마트 가정용 장치의 개발과 보급이 활발하게 이루어짐으로써 음성 출력을 위한 음성 합성 기술 및 장치의 필요성도 급속도로 증가하였다.
이와 관련하여, 합성음의 음질을 향상시키기 위한 방안, 특히 자연성이 우수한 합성음 생성을 위한 방안의 모색이 요청된다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 HMM 기반의 음성 합성 기법에 의해 생성된 소리에 다양한 운율적 변이를 보완하여 자연스러운 합성음을 생성할 수 있는 음성 합성 장치 및 그 제어 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시 예에 따른, 음성 합성 장치는, 음성 파일을 구성하는 음성 합성 단위에 대응되는 복수의 파라미터가 저장된 음성 파라미터 데이터베이스, 복수의 음성 합성 단위로 이루어진 텍스트를 입력 받기 위한 입력부 및, 음성 파라미터 데이터베이스로부터, 입력된 텍스트를 구성하는 복수의 음성 합성 단위 각각에 대응되는 복수의 후보 유닛 파라미터들을 선정하고, 연속적으로 이어지는 후보 유닛 파라미터들 사이의 연결 가능성에 따라 텍스트의 일부 또는 전부에 대한 파라미터 유닛 시퀀스를 생성하며, 파라미터 유닛 시퀀스를 이용하여 HMM(Hidden Markov Model)을 기반으로 하는 합성 동작을 수행하여 텍스트에 대응되는 어쿠스틱 신호를 생성하는 프로세서를 포함한다.
또한, 프로세서는, 후보 유닛 파라미터들을 순차적으로 조합하여, 후보 유닛 파라미터들 간의 연결 확률에 따라 각 후보 유닛 파라미터들의 연결 패스를 탐색하고, 연결 패스에 해당하는 각 후보 유닛 파라미터를 결합하여 텍스트의 일부 또는 전부에 대응되는 파라미터 유닛 시퀀스를 생성할 수 있다.
또한, 여기신호(Excitation) 모델을 저장하는 저장부를 더 포함하고, 프로세서는, 텍스트에 여기신호 모델을 적용하여, 텍스트에 대응되는 HMM 음성 파라미터를 생성하고, 생성된 HMM 음성 파라미터에 파라미터 유닛 시퀀스를 적용하여 어쿠스틱 신호를 생성할 수 있다.
또한, 저장부는, 합성 동작을 수행하는데 필요한 스펙트럼(Spectrum) 모델을 더 저장하고, 프로세서는, 텍스트에 여기신호 모델 및 스펙트럼 모델을 적용하여, 텍스트에 대응되는 HMM 음성 파라미터를 생성할 수 있다.
한편, 본 발명의 일 실시 예에 따른 입력되는 텍스트를 음성으로 변환하는 음성 합성 장치의 제어 방법은, 복수의 음성 합성 단위로 이루어진 텍스트를 입력받는 단계, 음성 파일을 구성하는 음성 합성 단위에 대응되는 복수의 파라미터가 저장된 음성 파라미터 데이터베이스로부터, 입력된 텍스트를 구성하는 복수의 음성 합성 단위 각각에 대응되는 후보 유닛 파라미터들을 선정하는 단계, 연속적으로 이어지는 후보 파라미터들 사이의 연결 가능성에 따라 텍스트의 일부 또는 전부에 대한 파라미터 유닛 시퀀스를 생성하는 단계 및, 파라미터 유닛 시퀀스를 이용하여 HMM(Hidden Markov Model)을 기반으로 하는 합성 동작을 수행하여 텍스트에 대응되는 어쿠스틱 신호를 생성하는 단계를 포함한다.
또한, 파라미터 유닛 시퀀스를 생성하는 단계는, 복수의 음성 합성 단위에 해당하는 복수의 후보 유닛 파라미터들을 순차적으로 조합하여, 후보 유닛 파라미터들 간의 연결 확률에 따라 각 후보 유닛 파라미터들의 연결 패스를 탐색하는 단계 및, 연결 패스에 해당하는 후보 유닛 파라미터를 각각 결합하여 텍스트의 일부 또는 전부에 대응되는 파라미터 유닛 시퀀스를 생성하는 단계를 포함할 수 있다.
또한, 어쿠스틱 신호를 생성하는 단계는, 텍스트에, 합성 동작을 수행하는데 필요한 여기신호(Excitation) 모델을 적용하여, 텍스트에 대응되는 HMM 음성 파라미터를 생성하는 단계 및, 생성된 HMM 음성 파라미터에 파라미터 유닛 시퀀스를 적용하여 어쿠스틱 신호를 생성하는 단계를 포함할 수 있다.
또한, 후보 유닛 파라미터들의 연결 패스를 탐색하는 단계는, 비터비(Viterbi) 알고리즘에 의한 탐색 방법을 이용할 수 있다.
또한, HMM 음성 파라미터를 생성하는 단계는, 텍스트에, 합성 동작을 수행하는데 필요한 스펙트럼(Spectrum) 모델을 더 적용하여, 텍스트에 대응되는 HMM 음성 파라미터를 생성할 수 있다.
상술한 본 발명의 다양한 실시 예에 따르면, 종래의 HMM 음성 합성 방식에 따른 합성음에 비해 자연성이 향상된 합성음이 생성될 수 있으므로, 사용자의 편이성이 향상된다.
도 1은 음성 합성 장치가 스마트폰으로 구현되어 이용되는 예를 설명하기 위한 도면,
도 2는 본 발명의 일 실시 예에 따른, 음성 합성 장치의 구성을 간략히 도시한 블럭도,
도 3은 본 발명의 다른 실시 예에 따른, 음성 합성 장치의 구성을 상세히 도시한 블럭도,
도 4는 본 발명의 일 실시 예에 따른, 음성 합성 장치의 구성을 설명하기 위한 도면,
도 5는 본 발명의 다른 실시 예에 따른, 음성 합성 장치의 구성을 설명하기 위한 도면,
도 6 및 도 7은 본 발명의 일 실시 예에 따른, 파라미터 유닛 시퀀스를 생성하는 방법을 설명하기 위한 도면,
도 8은 본 발명의 일 실시 예에 따른, 음성 합성 장치의 제어 방법을 설명하기 위한 흐름도이다.
이하에서는 도면을 참조하여 본 발명에 대해 상세히 설명하기로 한다.
도 1은 음성 합성 장치가 스마트폰으로 구현되어 이용되는 예를 설명하기 위한 도면이다.
도 1에 도시된 바와 같이, 스마트폰(100)에 "안녕하세요"라는 텍스트(1)가 입력되면, 스마트폰은 이를 기계를 통한 음성(2)으로 변환시켜 스마트폰의 스피커부를 통해 출력할 수 있다. 음성으로 변환할 텍스트는 사용자가 직접 스마트폰을 통해 입력하거나, 전자 책 등의 컨텐츠를 스마트폰으로 다운로드하여 입력될 수 있다. 스마트폰은 입력된 텍스트를 자동으로 음성으로 변환하여 출력하거나, 사용자가 음성 변환 버튼을 누름으로써 음성을 출력할 수 있다. 이를 위하여, 스마트폰 등에서 사용 가능한 임베디드(Embedded) 음성합성기가 요구된다.
임베디드 시스템에 있어서, 음성 합성을 위한 기법으로는 HMM(Hidden Markov Model)의 음성 합성 기법이 널리 쓰이고 있다. HMM 기반의 음성 합성 기법은 파라미터 기반의 음성 합성 방식으로, 이는 다양한 특징을 가진 합성음 생성이 가능하게끔 하기 위한 목적으로 제안되었다.
HMM 기반 음성 합성 기법은 음성 코딩에서 사용되고 있는 이론을 활용한 기법으로 음성의 스펙트럼(Spectrum), 피치(Pitch), 길이(Duration)에 해당하는 파라미터를 각각 추출하고 이 파라미터들을 HMM을 이용해 학습한다. 합성 단계에서는, 학습 결과로부터 추정된 파라미터와, 음성 코딩의 보코더 기법을 활용하여 합성음을 생성해낼 수 있다. HMM 기반의 음성 합성 기법은 음성 데이터베이스로부터 추출한 파라미터만 갖고 있으면 되므로 필요한 용량이 적어, 모바일이나 CE 장치 등 임베디드 시스템 환경에서 유용하지만, 합성음의 자연성이 떨어지는 단점이 있다. 이에 따라 본 발명은 HMM 기반의 음성 합성 기법에 있어서의 이러한 단점을 개선하고자 한다.
도 2는 본 발명의 일 실시 예에 따른, 음성 합성 장치의 구성을 간략히 도시한 블럭도이다.
도 2에 따르면 본 발명의 일 실시 예에 따른 음성 합성 장치(100)는 음성 파라미터 데이터 베이스(110), 프로세서(120) 및 입력부(130)를 포함한다.
음성 파라미터 데이터 베이스(110)는 다양한 음성 합성 단위와 합성 단위의 여러가지의 운율적 변이에 대한 파라미터들을 저장하는 구성이다. 이러한 다양한 운율적 변이에 대한 파라미터들을 통해 음성 합성 과정에서 운율 조절을 최소화할 수 있어, 자연스러운 합성음 생성이 가능하게 된다.
여기서, 음성 합성 단위란, 음성 합성의 기본 단위로서 음소, 반음절, 음절, 다이폰(di-phone), 트라이폰(tri-phone) 등을 의미하며 메모리의 관점에서 효율을 생각하면, 가능한 적은 양으로 구현하는 것이 좋다. 일반적으로 합성 단위는, 연결 시에 스펙트럼의 왜곡을 최소로 하고 적당한 수의 데이터 수를 가지면서 인접하는 음성 사이의 천이를 유지할 수 있는 반음절, 다이폰, 트라이폰 등이 사용된다. 다이폰이란, 음소의 중간에서 잘라 음소와 음소를 연결한 단위로서, 음운 과도부를 포함하므로 명료성 확보가 쉽다. 트라이폰이란, 음소와 좌우 음운의 환경을 반영하는 단위로서 조음현상을 반영하여 연결부 처리가 쉽다. 이하 상세한 설명에서는 편의상 음성 합성 단위가 다이폰으로 구현되는 경우에 관해 설명하지만 반드시 이에 한정되는 것은 아니다. 또한, 이하 상세한 설명에서는 편의상 본 발명이 한국어 음성 합성 장치로 구현되는 경우에 관해 설명하지만 이에 한정되는 것은 아니며, 영어 등 타국가 언어에 대한 음성을 합성할 수 있는 음성 합성 장치로도 구현될 수 있음은 물론이다. 이 경우, 음성 파라미터 데이터베이스(110)에는 각 국가 언어에 대한 다양한 음성 합성 단위와 합성 단위의 여러가지 운율적 변이에 대한 파라미터들의 세트가 구축될 수 있다.
한편, 여러가지 운율적 변이에 대한 파라미터들은 실제 음성 파일을 구성하는 음성 합성 단위에 대응되는 파라미터들로서, 레이블링 정보, 운율 정보 등을 포함한다. 레이블링 정보란, 음성파일에서 음성을 이루는 각 음소의 시작과 끝점, 즉 경계를 기록한 정보를 의미한다. 예를 들어, '아버지'라는 발성을 했다고 하면, 각 음소 'ㅏ', 'ㅂ', 'ㅓ', 'ㅈ', 'l'의 시작점과 끝점이 음성 신호에서 어디인지를 결정하는 파라미터이다. 음성 레이블링의 결과는 주어진 음성을 음소열에 따라 세분하는 과정이고, 이 세분된 음편들이 음성합성에서 연쇄의 기본 단위로 사용되므로 합성음의 음질을 크게 좌우할 수 있다.
운율 정보란, 운율 경계 강도 정보와, 운율의 3대 요소인 길이, 세기 및 피치 정보를 포함한다. 운율 경계 강도 정보란, 강세구(Accentual Phrase, AP)의 경계가 어느 음소의 사이에 오는 가에 관한 정보이다. 피치 정보란, 시간에 따라 피치가 변하는 억양 정보를 의미하는 것으로 피치의 변화를 보통 억양이라고 한다. 억양은 일반적으로 알려진 대로 목소리의 높낮이가 엮어내는 말의 가락(Speech Melody)이라고 정의할 수 있다. 길이 정보란, 음소의 지속시간에 관한 정보로서 음소 레이블링 정보를 이용하여 구할 수 있다. 세기 정보란, 음소의 경계 안에서 음소의 대표 세기 정보를 기록한 정보를 의미한다.
저장될 실제 음성 녹음을 위해 여러 문장을 선정하는 과정을 우선적으로 거치게 되는데, 선정된 문장은 모든 합성단위(다이폰)을 포함하고 있어야 하며, 다양한 운율적 변이를 포함하고 있어야 한다. 음성 파라미터 데이터베이스 구축을 위해 사용될 녹음 문장은 되도록 적을수록 용량면에서 효율적이다. 이를 위해, 텍스트 코퍼스를 대상으로 고유 다이폰과 그 발생 빈도를 조사하고, 발생 빈도 파일을 이용하여 문장을 선정할 수 있다.
음성 파라미터 데이터베이스(110)가 저장하는 복수의 파라미터들은 HMM(Hidden Markov Model) 기반 음성 합성부의 음성 데이터베이스로부터 추출될 수 있다.
프로세서(120)는, 음성 합성 장치(100)의 전반적인 동작을 제어하는 기능을 한다.
특히, 프로세서(120)는, 음성 파라미터 데이터베이스(110)로부터, 입력된 텍스트를 구성하는 복수의 음성 합성 단위 각각에 대응되는 복수의 후보 유닛 파라미터들을 선정하고, 연속적으로 이어지는 후보 유닛 파라미터들 사이의 연결 가능성에 따라 텍스트의 일부 또는 전부에 대한 파라미터 유닛 시퀀스를 생성하며, 파라미터 유닛 시퀀스를 이용하여 HMM(Hidden Markov Model)을 기반으로 하는 합성 동작을 수행하여 텍스트에 대응되는 어쿠스틱 신호를 생성할 수 있다.
예를 들어, 입력된 텍스트가 '어머니'이라면, '어머니'는 '##+ㅓ+ㅁ+ㅓ+ㄴ+l+##'와 같은 음운의 연결로 나타낼 수 있다. ##은 음운이 없음을 의미하는 것으로서 실제의 발음에서는 묵음구간에 해당한다. '어머니'를 다이폰 단위로 나열하면 '(##+ㅓ)-(ㅓ+ㅁ)-(ㅁ+ㅓ)-(ㅓ+ㄴ)-(ㄴ+l)-(l+##)'와 같이 된다. 즉, 단어 '어머니'는 6개의 다이폰을 연결하여 생성할 수 있다. 여기서, 입력된 텍스트를 구성하는 복수의 음성 합성 단위는 각 다이폰을 의미한다.
만약, 입력된 텍스트가 'this'인 경우, 'this'를 다이폰 단위로 나열하면 '(##+d)-(d+i)-(i+s)-(s+##)'와 같이 된다. 즉, 단어 'this'는 4개의 다이폰을 연결하여 생성될 수 있다.
이 때, 프로세서(120)는 음성 파라미터 데이터베이스(110)로부터 입력된 텍스트를 구성하는 각 음성 합성 단위에 대응되는 복수의 후보 유닛 파라미터들을 각각 선정할 수 있다. 음성 파라미터 데이터베이스(110)는 각 국가의 언어에 따른 후보 유닛 파라미터들의 세트가 구축되어 있을 수 있다. 후보 유닛 파라미터들은 해당하는 각 다이폰을 포함하는 음소에 대한 운율정보를 의미한다. 예를 들어, 입력된 텍스트 중 한 단위인 (ㅓ+ㄴ)을 포함하는 변이로서, '언니', '너는', '서늘' 등이 있을 수 있고, 각 변이마다 (ㅓ+ㄴ)에 대한 운율정보는 달라질 수 있다. 이에 따라, 프로세서(120)는 각 다이폰에 해당하는 다양한 변이, 즉 복수의 후보 유닛 파라미터를 탐색하여, 최적의 후보 유닛 파라미터들 찾아낼 수 있다. 이 과정은 일반적으로 타겟 비용(Target Cost)과 연결 비용(Concatenation Cost)을 산출하여 이루어진다. 타겟 비용이란, 음성 파라미터 데이터베이스(110)에서 찾아와야 할 음성 합성 단위와 후보 유닛 파라미터들의 피치, 에너지, 세기 및 스펙트럼 등의 특징 벡터들간의 거리에 대한 값으로, 텍스트를 구성하는 음성 합성 단위와 후보 유닛 파라미터가 얼마나 유사한지를 평가하는 것이다. 타겟 비용은 최소가 될수록 합성음의 정확성이 높아질 수 있다. 연결 비용이란, 두 개의 후보 유닛 파라미터가 접합될 시 발생하는 운율 차를 의미하는 것으로, 연속적으로 이어지는 후보 유닛 파라미터들 사이의 연결 적합성을 평가하는 것이다. 연결 비용은 상술한 특징 벡터들 간의 거리를 이용하여 계산될 수 있다. 후보 유닛 파라미터들 간의 운율 차가 적을 수록 합성음의 음질이 높아질 수 있다.
각 다이폰마다 후보 유닛 파라미터들이 결정되면, 최적의 연결 패스를 탐색하여야 하는데, 최적의 연결 패스는 각 후보 유닛 파라미터들 간의 연결 확률을 계산하여 연결 확률이 가장 높은 후보 유닛 파라미터들을 찾음으로써 이루어진다. 이는, 타겟 비용과 연결 비용의 합에 대한 누적비용이 최소가 되는 후보 유닛 파라미터들을 찾는 과정과 동일하다. 이를 찾기 위한 방법으로서는 비터비(Viterbi) 탐색이 사용될 수 있다.
프로세서(120)는, 이에 따라 최적의 연결 패스에 해당하는 각 후보 유닛 파라미터들을 결합하여 텍스트의 일부 또는 전부에 대응되는 파라미터 유닛 시퀀스를 생성할 수 있다. 이 후, 프로세서(120)는, 파라미터 유닛 시퀀스를 이용하여 HMM(Hidden Markov Model)을 기반으로 하는 합성 동작을 수행하여 텍스트에 대응되는 어쿠스틱 신호를 생성할 수 있다. 즉, 이러한 과정은 HMM에 의해 학습된 모델에 의해 생성된 HMM 음성 파라미터에 파라미터 유닛 시퀀스를 적용하여, 운율 정보가 보완된 자연스러운 음성 신호를 생성하는 것이다. 여기서, HMM에 의해 학습된 모델은 여기 신호(Excitation) 모델만을 포함할 수 있고, 스펙트럼(Spectrum) 모델을 추가적으로 더 포함할 수도 있다. 이 때, 프로세서(120)는 텍스트에 HMM에 의해 학습된 모델을 적용하여 텍스트에 대응되는 HMM 음성 파라미터를 생성할 수 있다.
입력부(130)는 음성으로 변환할 텍스트를 입력받기 위한 구성이다. 음성으로 변환할 텍스트는 사용자가 직접 음성 합성 장치를 통해 입력하거나, 전자 책 등의 컨텐츠를 스마트폰으로 다운로드하여 입력될 수 있다. 이에 따라, 입력부(130)는 사용자로부터 직접 텍스트를 입력받기 위한 버튼, 터치패드 또는 터치스크린 등을 포함할 수 있다. 또한, 입력부(130)는 전자 책 등의 컨텐츠를 다운로드 하기 위한 통신부를 포함할 수 있다. 통신부는 다양한 유형의 통신 방식에 따라 외부 기기 또는 외부 서버와 통신을 수행할 수 있도록, 와이파이 칩, 블루투스 칩, NFC 칩, 무선 통신 칩 등과 같은 다양한 통신 칩을 포함할 수 있다.
한편, 본 발명의 음성 합성 장치(100)는 스마트 폰 등의 휴대용 단말 장치와 같은 임베디드 시스템에서 유용하지만 이에 한정되는 것은 아니며, TV, 컴퓨터, 랩탑, 데스크탑, 타블렛 PC 등 다양한 전자 장치 등으로 구현될 수 있음은 물론이다.
도 3은 본 발명의 다른 실시 예에 따른, 음성 합성 장치의 구성을 상세히 도시한 블럭도이다.
도 3에 따르면 본 발명의 다른 실시 예에 따른 음성 합성 장치(100)는, 음성 파라미터 데이터베이스(110), 프로세서(120), 입력부(130) 및 저장부(140)를 포함한다. 이하에서는 도 2에서의 설명과 중복되는 부분에 대한 설명은 생략하기로 한다.
저장부(140)는 분석 모듈(141), 후보 선정 모듈(142), 비용 계산 모듈(143), 비터비 서치 모듈(144) 및 파라미터 유닛 시퀀스 생성 모듈(145)을 포함한다.
분석 모듈(141)은 입력된 텍스트를 분석하는 모듈이다. 입력되는 문장에는 일반 문자 외에도 약어, 축약어, 숫자, 시간, 특수 문자 등이 내포되어 있을 수 있으며, 이를 음성으로 합성하기 전에 일반 텍스트 문장으로 변환하는 과정을 거친다. 이를 텍스트 정규화(Text Normalization)이라고 한다. 이 후, 분석 모듈(141)은 자연스러운 합성음을 생성하기 위해 정규 맞춤법에서 소리나는대로 글자를 표기할 수 있다. 이 후, 분석 모듈(141)은 구문 분석(Syntactic Parser)으로 텍스트 문장의 문법을 분석하여 단어의 품사를 변별하고 의문문, 평서문 등에 따라 운율제어를 위한 정보를 분석한다. 분석한 정보는 후보 유닛 파라미터의 선정에 이용된다.
후보 선정 모듈(142)는 텍스트를 구성하는 음성 합성 단위에 대응되는 복수의 후보 유닛 파라미터들을 선정하는 모듈이다. 후보 선정 모듈(142)은 음성 파라미터 데이터베이스(110)에 기초하여 입력된 텍스트의 각 음성 합성 단위에 해당하는 다양한 변이, 즉 복수의 후보 유닛 파라미터를 탐색하고, 음성 합성 단위들에 대한 음성 합성에 적합한 음향 유닛 파라미터들을 후보 유닛 파라미터들로 결정할 수 있다. 매칭 여부에 따라 각 음성 합성 단위에 대한 후보 유닛 파라미터의 개수는 서로 다를 수 있다.
비용 계산 모듈(143)은 각 후보 유닛 파라미터들 간의 연결 확률을 계산하는 모듈이다. 이를 위해, 타겟 비용과 연결 비용의 합으로 이뤄진 비용 함수(Cost function)를 이용할 수 있다. 타겟 비용은 후보 유닛 파라미터들을 대상으로 입력 레이블과의 매칭 정도를 계산하는 것으로, 타겟 비용의 계산은 피치, 세기, 길이 등의 운율 정보를 특징 벡터로 사용하고, 이에 더하여 문맥적 특성(context feature), 음성 파라미터와의 유사도(distance), 확률(probability)등 다양한 특징 벡터를 고려하여 측정될 수 있다. 연결 비용은 연속하는 후보 유닛 파라미터들 간의 유사도 및 연속성을 측정하는 것으로 피치, 세기, Spectral Distortion, 음성 파라미터와의 유사도(distance) 등을 특징 벡터로 고려하여 측정될 수 있다. 이러한 특징벡터들 사이의 거리를 계산하여 가중치를 적용한 합(weighted sum)을 구해 비용 함수로 사용한다. 전체 비용함수 식은 다음과 같은 식을 이용할 수 있다.
Figure pat00001
여기서,
Figure pat00002
,
Figure pat00003
는 각각 타겟 서브 코스트와 연결 서브 코스트이다. i는 유닛 인덱스이고, j는 연결 서브 코스트 인덱스이다. n은 전체 후보 유닛 파라미터 개수이고, p, q는 서브 코스트의 수이다. 그리고, S는 묵음이며, u는 후보 유닛 파라미터이고, w는 가중치이다.
비터비 서치 모듈(144)은 계산된 연결 확률에 따라 각 후보 유닛 파라미터들의 최적 연결 패스를 탐색하는 모듈이다. 각 레이블의 후보 유닛 파라미터들 중에 연속된 후보 유닛 파라미터들 사이의 연결의 안정성 및 다이나믹스(Dynamics)가 우수한 최적의 연결 패스를 구할 수 있다. 비터비 서치는 타겟 비용과 연결 비용의 합에 대한 누적비용이 최소가 되는 후보 유닛 파라미터를 찾는 과정으로, 비용 계산 모듈에서 계산된 비용 계산 결과값을 활용하여 수행될 수 있다.
파라미터 유닛 시퀀스 생성모듈(145)은 최적 연결 패스에 해당하는 각 후보 유닛 파라미터를 결합하여 입력된 텍스트의 길이에 대응하는 파라미터 유닛 시퀀스를 생성하는 모듈이다. 생성된 파라미터 유닛 시퀀스는 HMM 파라미터 생성 모듈에 입력되어, 입력된 텍스트가 HMM을 기반으로 합성된 HMM 음성 파라미터에 적용될 수 있다.
프로세서(120)는 저장부(140)에 저장된 각종 모듈을 이용하여 음성 인식 장치(100')의 전반적인 동작을 제어한다.
프로세서(120)는 도 3에 도시된 바와 같이, RAM(121), ROM(122), CPU(123), 제1 내지 n 인터페이스(124-1 ~ 124-n), 버스(125)를 포함한다. 이 때, RAM(121), ROM(122), CPU(123), 제1 내지 n 인터페이스(124-1 ~ 124-n) 등은 버스(125)를 통해 서로 연결될 수 있다.
ROM(122)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. CPU(121)는 저장부(140)에 저장된 각종 어플리케이션 프로그램을 RAM(121)에 복사하고, RAM(121)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.
CPU(123)는 저장부(140)에 저장된 각종 모듈을 이용하여 음성 합성 장치(100')의 전반적인 동작을 제어한다.
CPU(123)는 저장부(140)에 액세스하여, 저장부(140)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, CPU(123)는 저장부(140)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.
특히, CPU(123)는 HMM을 기반으로 하는 음성 합성 동작을 수행한다. 즉, CPU(123)는 입력된 텍스트를 분석하여 context-dependent phoneme label을 생성하고, 기 저장된 여기 신호 모델을 이용하여, 각 label에 해당하는 HMM을 선택할 수 있다. 이 후, CPU(123)은 선택된 HMM의 output distribution을 바탕으로 파라미터 생성 알고리즘을 통해 여기 파라미터(Excitation parameter)를 생성하여, 합성 필터를 구성하여 합성음 신호를 생성할 수 있다.
제1 내지 n 인터페이스(124-1 내지 124-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
도 4는 본 발명의 일 실시 예에 따른, 음성 합성 장치의 구성을 설명하기 위한 도면이다.
도 4에 따르면, 음성 합성 장치(100)는 크게, HMM 기반 음성 합성부(200)와 파라미터 시퀀스 생성부(300)로 구성된다. 이하에서는 도 2 및 도 3에서의 설명과 중복되는 부분에 대한 설명은 생략하기로 한다.
HMM 기반의 음성 합성 방식은 크게, 학습과정(Training part)과 합성과정(Sysnthesis part)으로 이루어져 있다. 여기서, 본 실시 예에 따른 HMM 기반 음성 합성부(200)는 학습과정(Training)에서 생성된 여기 신호 모델을 이용하여 음성을 합성하는 과정(Sysnthesis)으로 이루어진다. 따라서, 본 실시 예에 따른 음성 합성 장치(100)는 이미 학습된 모델을 이용하여 합성과정만을 수행할 수 있다.
학습과정에서는 음성 데이터베이스(10)를 분석하여 합성 과정에서 필요한 파라미터를 통계적 모델로 생성한다. 음성 데이터베이스로부터 스펙트럼 파라미터 및 여기 파라미터를 추출하고(40, 41), 음성 데이터베이스(10)의 라벨링 정보를 활용하여 이를 학습하는 과정(42) 및 결정 트리 클러스터링(Decision Tree Clustering) 과정을 거쳐 최종 음향 모델인 스펙트럼 모델(111) 및 여기 신호 모델(112)을 생성한다.
합성과정에서는, 입력 텍스트에 대한 분석(43)을 통해서 문맥 정보(context information)가 포함된 레이블 데이터를 생성하고, 이 데이터를 이용하여 음향 모델로부터 HMM 상태 파라미터를 추출한다(48). HMM 상태 파라미터는 Static과 delta 특성의 mean/variance 값이 될 수 있다. 음향 모델로부터 추출한 파라미터는 MLE(Maximum Likelihood Estimation) 기법을 사용한 파라미터 생성 알고리즘으로 각 프레임별 파라미터를 생성하게 되고, 보코더(vocoder)를 통해서 최종 합성음을 생성한다.
파라미터 시퀀스 생성부(300)는 HMM 기반 음성 합성부(200)에서 생성한 합성음의 자연성 및 Dynamic를 높이고자 시간 도메인의 파라미터 유닛 시퀀스를 실제 음성 파라미터 데이터베이스에서 가져오기 위한 구성이다.
음성 파라미터 데이터베이스(140)는 음성 데이터베이스(10)에서 추출한 복수의 음성 파라미터와 label segmentation 정보 및 합성 단위의 여러가지의 운율적 변이에 대한 파라미터들을 저장한다. 이 후, 입력된 텍스트에 대하여 텍스트 분석(43)을 거쳐, 후보 유닛 파라미터를 선정한다(44). 이 후, 비용함수를 계산하여, 타겟 비용 및 연결 비용을 산출하고(45), 비터비 서치를 통해 연속되는 후보 유닛 파라미터들 간의 최적의 연결 패스를 도출한다(46). 이에 따라, 입력된 텍스트의 길이에 대응되는 파라미터 유닛 시퀀스를 생성하고(47), 생성된 파라미터 유닛 시퀀스는 HMM 기반 음성 합성부(200)의 HMM 파라미터 생성 모듈(48)로 입력된다. 여기서, HMM 파라미터 생성 모듈(48)은 여기 신호 파라미터 생성 모듈일 수 있으며, 여기 신호 파라미터 생성 모듈 및 스펙트럼 파라미터 생성 모듈을 모두 포함할 수 있다. 특히, HMM 파라미터 생성 모듈(48)의 구성에 대해서는 도 5를 참조하여 설명하기로 한다.
도 5는 본 발명의 다른 실시 예에 따른, 음성 합성 장치의 구성을 설명하기 위한 도면이다. 도 5는, HMM 파라미터 생성 모듈(48)은 스펙트럼 파라미터 생성 모듈(48-1) 및 여기 신호 파라미터 생성 모듈(48-2)을 모두 포함한 예를 도시한 것이다.
파라미터 시퀀스 생성부(300)에서 생성된 파라미터 유닛 시퀀스는 HMM 파라미터 생성 모듈(48)의 스펙트럼 파라미터 생성 모듈(48-1) 및 여기 신호 파라미터 생성 모듈(48-2)와 결합하여 파라미터 사이의 연결 안정성과 다이나믹스가 우수한 파라미터를 생성할 수 있다.
먼저, HMM 파라미터 생성 모듈(48)은 입력된 텍스트의 텍스트 분석 결과인 label 데이터를 활용하여 음향 모델로부터 state의 duration, spectral 및 f0 mean, variance 파라미터를 가져올 수 있으며, 이 때, spectral, f0 파라미터에는 static, delta, D-delta 특성이 포함될 수 있다. 이 후, label 데이터를 이용하여 파라미터 시퀀스 생성부(300)로부터 스펙트럼 파라미터 유닛 시퀀스 및 여기 신호 파라미터 유닛 시퀀스를 생성할 수 있다. 이 후, HMM 파라미터 생성 모듈(48)은 음향 모델(110) 및 파라미터 시퀀스 생성부(300)로부터 가져온 파라미터를 조합하여 MLE 기법으로 최종 파라미터를 생성할 수 있다. 이 때, Static, Delta, D-Delta, Variance 파라미터 중 Static 특성의 mean 값이 최종 파라미터 결과에 가장 큰 영향을 미치므로 생성된 스펙트럼 파라미터 유닛 시퀀스 및 여기 신호 파라미터 유닛 시퀀스를 Static mean 값에 적용하는 것이 효과적일 수 있다.
한편, 모바일이나 CE 장치와 같이 한정된 자원의 임베디드 시스템에서는, 파라미터 시퀀스 생성부(300)의 음성 파라미터 데이터베이스(140) 구축 과정에서, 스펙트럼 파라미터를 제외한 여기 신호 파라미터만 저장하고, 여기 신호 파라미터와 관련한 파라미터 유닛 시퀀스만을 생성하여 HMM 기반 음성 합성부(200)의 여기 신호 파라미터 생성 모듈(48-2)에 적용하여도, 여기신호 contour의 다이나믹스가 향상되고 안정적인 운율의 합성음을 생성할 수 있다. 즉, 스펙트럼 파라미터 생성 모듈(48-1)은 선택적인 구성일 수 있다.
이에 따라, 생성된 파라미터 유닛 시퀀스가 HMM 파라미터 생성 모듈(48)에 입력 및 조합되어 최종적인 어쿠스틱 파라미터가 생성되며, 생성된 어쿠스틱 파라미터는 보코더(20)를 거쳐 최종적으로 어쿠스틱 신호로 합성될 수 있다(49).
도 6 및 도 7은 본 발명의 일 실시 예에 따른, 파라미터 유닛 시퀀스를 생성하는 방법을 설명하기 위한 도면이다.
도 6은 "음성"이라는 단어를 음성 합성하기 위해 다양한 후보 유닛 파라미터들을 선정하는 과정을 도시한 것이다. 도 6에 따르면 "음성"이라는 단어가 입력된 경우, '(#+ㅡ)', '(ㅡ+ㅁ)', '(ㅁ+ㅅ)', '(ㅅ+ㅓ)', '(ㅓ+ㅇ)', '(ㅇ+#)'에 해당하는 다양한 변이를 음성 파라미터 데이터베이스(110)에서 찾아 최적의 연결 패스를 탐색하여 음성 파형을 연쇄시킴으로써 합성음이 생성될 수 있다. 예를 들어, '(ㅁ+ㅅ)'의 후보 유닛 파라미터가 포함된 변이로는 '엄살', '함수' 등이 있을 수 있다. 최적의 연결 패스를 찾아내기 위해서는 타겟 비용과 연결비용이 정의되어야 하며, 탐색방법으로서는 비터비 탐색을 이용할 수 있다.
도 6과 같이 입력된 텍스트는 본 실시 예의 음성 합성 단위인 다이폰의 연속으로 정의할 수 있고, 입력문장은 n개의 다이폰의 연결로 표현할 수 있다. 이 경우, 각 다이폰에 대하여 복수의 후보 유닛 파라미터들을 선정하여 타겟 비용 및 연결 비용에 대한 비용함수를 고려한 비터비 탐색을 수행할 수 있다. 이에 따라, 선정된 각 후보 유닛 파라미터들을 순차적으로 조합하여, 각 후보 유닛 파라미터들의 최적 연결 패스를 탐색한다.
도 7에 도시된 바와 같이 전체 텍스트에 있어서, 각 후보 유닛 파라미터들끼리 연속적으로 이어지지 않는 경우에는 해당 패스를 소거하고, 최종적으로 연속적으로 이어진 후보 유닛 파라미터들을 선정할 수 있다. 이 때, 타겟 비용 및 연결 비용의 합에 대한 누적비용이 최소가 되는 패스가 최적 연결 패스가 될 수 있다. 이에 따라, 최적 연결 패스에 해당하는 각 후보 유닛 파라미터들을 결합하여 입력된 텍스트에 대응되는 파라미터 유닛 시퀀스를 생성할 수 있다.
도 8은 본 발명의 일 실시 예에 따른, 음성 합성 방법을 설명하기 위한 흐름도이다.
먼저, 복수의 음성 합성 단위로 이루어진 텍스트를 입력받는다(S810). 이 후, 음성 파일을 구성하는 음성 합성 단위에 대응되는 복수의 파라미터가 저장된 음성 파라미터 데이터베이스로부터, 입력된 텍스트를 구성하는 복수의 음성 합성 단위 각각에 대응되는 후보유닛 파라미터들을 선정한다(S820). 여기서, 음성 합성 단위는 음소, 반음절, 음절, 다이폰 또는 트라이폰 중 어느 하나일 수 있다. 이 때, 각 음성 합성 단위에 해당하는 복수의 후보 유닛 파라미터를 탐색하여 선정하고, 선정된 복수의 후보 유닛 파라미터들 중에서 최적의 후보 유닛 파라미터들을 선정할 수 있다. 이 때, 이러한 과정은 타겟 비용과 연결 비용을 산출하여 이루어진다. 이 때, 최적의 연결 패스는 각 후보 유닛 파라미터 간의 연결 확률을 계산하여 연결 확률이 가장 높은 후보 유닛 파라미터들을 찾음으로써 이루어진다. 이를 찾기 위한 방법으로서 비터비 탐색이 사용될 수 있다. 이 후, 후보 파라미터들 사이의 연결 가능성에 따라 텍스트의 일부 또는 전부에 대한 파라미터 유닛 시퀀스를 생성한다(S830). 이 후, 파라미터 유닛 시퀀스를 이용하여 HMM을 기반으로 하는 합성 동작을 수행하여 텍스트에 대응되는 어쿠스틱 신호를 생성한다(S840). 여기서 HMM을 기반으로 하는 합성 동작은 HMM에 의해 학습된 모델에 의해 생성된 HMM 음성 파라미터에 파라미터 유닛 시퀀스를 적용하여, 운율 정보가 보완된 합성된 음성 신호를 생성할 수 있다. 이 때, HMM에 의해 학습된 모델은 여기 신호 모델을 의미할 수 있으며, 또는 추가적으로 스펙트럼 모델을 더 포함할 수 있다.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 다양한 운율적 변이에 대한 파라미터들을 이용함으로써 종래의 HMM 음성 합성 방식에 따른 합성음에 비해 자연성이 향상된 합성음이 생성될 수 있다.
상술한 다양한 실시 예에 따른 음성 합성 장치의 제어 방법은 프로그램으로 구현되어 다양한 기록 매체에 저장될 수 있다. 즉, 각종 프로세서에 의해 처리되어 상술한 다양한 음성 합성 장치의 제어 방법을 실행할 수 있는 컴퓨터 프로그램이 기록 매체에 저장된 상태로 사용될 수도 있다.
일 예로, 복수의 음성 합성 단위로 이루어진 텍스트를 입력받는 단계, 음성 파일을 구성하는 음성 합성 단위에 대응되는 복수의 파라미터가 저장된 음성 파라미터 데이터베이스로부터, 입력된 텍스트를 구성하는 복수의 음성 합성 단위 각각에 대응되는 후보 유닛 파라미터들을 선정하는 단계, 연속적으로 이어지는 후보 파라미터들 사이의 연결 가능성에 따라 텍스트의 일부 또는 전부에 대한 파라미터 유닛 시퀀스를 생성하는 단계 및, 파라미터 유닛 시퀀스를 이용하여 HMM(Hidden Markov Model)을 기반으로 하는 합성 동작을 수행하여 텍스트에 대응되는 어쿠스틱 신호를 생성하는 단계를 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 음성 합성 장치 110: 음성 파라미터 데이터베이스
120: 프로세서 130: 입력부
200: HMM 기반 음성 합성부 300: 파라미터 시퀀스 생성부

Claims (10)

  1. 입력되는 텍스트를 음성으로 변환하는 음성 합성 장치에 있어서,
    음성 파일을 구성하는 음성 합성 단위에 대응되는 복수의 파라미터가 저장된 음성 파라미터 데이터베이스;
    복수의 음성 합성 단위로 이루어진 텍스트를 입력받기 위한 입력부; 및
    상기 음성 파라미터 데이터베이스로부터, 상기 입력된 텍스트를 구성하는 음성 합성 단위 각각에 대응되는 복수의 후보 유닛 파라미터들을 선정하고, 연속적으로 이어지는 상기 후보 유닛 파라미터들 사이의 연결 가능성에 따라 상기 텍스트의 일부 또는 전부에 대한 파라미터 유닛 시퀀스를 생성하며, 상기 파라미터 유닛 시퀀스를 이용하여 HMM(Hidden Markov Model)을 기반으로 하는 합성 동작을 수행하여 상기 텍스트에 대응되는 어쿠스틱 신호를 생성하는 프로세서;를 포함하는 음성 합성 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    후보 유닛 파라미터들을 순차적으로 조합하여, 후보 유닛 파라미터들 간의 연결 확률에 따라 각 후보 유닛 파라미터들의 연결 패스를 탐색하고, 상기 연결 패스에 해당하는 각 후보 유닛 파라미터를 결합하여 상기 텍스트의 일부 또는 전부에 대응되는 상기 파라미터 유닛 시퀀스를 생성하는 것을 특징으로 하는 음성 합성 장치.
  3. 제2항에 있어서,
    상기 음성 합성 장치는 여기신호(Excitation) 모델을 저장하는 저장부;를 더 포함하며,
    상기 프로세서는,
    상기 텍스트에 상기 여기신호 모델을 적용하여, 상기 텍스트에 대응되는 HMM 음성 파라미터를 생성하고, 상기 생성된 HMM 음성 파라미터에 상기 파라미터 유닛 시퀀스를 적용하여 상기 어쿠스틱 신호를 생성하는 것을 특징으로 하는 음성 합성 장치.
  4. 제3항에 있어서,
    상기 저장부는,
    상기 합성 동작을 수행하는데 필요한 스펙트럼(Spectrum) 모델을 더 저장하고,
    상기 프로세서는,
    상기 텍스트에 상기 여기신호 모델 및 상기 스펙트럼 모델을 적용하여. 상기 텍스트에 대응되는 HMM 음성 파라미터를 생성하는 것을 특징으로 하는 음성 합성 장치.
  5. 입력되는 텍스트를 음성으로 변환하는 음성 합성 장치의 제어 방법에 있어서,
    복수의 음성 합성 단위로 이루어진 텍스트를 입력 받는 단계;
    음성 파일을 구성하는 음성 합성 단위에 대응되는 복수의 파라미터가 저장된 음성 파라미터 데이터베이스로부터, 상기 입력된 텍스트를 구성하는 복수의 음성 합성 단위 각각에 대응되는 후보 유닛 파라미터들을 선정하는 단계;
    연속적으로 이어지는 상기 후보 파라미터들 사이의 연결 가능성에 따라 상기 텍스트의 일부 또는 전부에 대한 파라미터 유닛 시퀀스를 생성하는 단계; 및
    상기 파라미터 유닛 시퀀스를 이용하여 HMM(Hidden Markov Model)을 기반으로 하는 합성 동작을 수행하여 상기 텍스트에 대응되는 어쿠스틱 신호를 생성하는 단계;를 포함하는 제어 방법.
  6. 제5항에 있어서,
    상기 파라미터 유닛 시퀀스를 생성하는 단계는,
    상기 복수의 음성 합성 단위에 해당하는 복수의 후보 유닛 파라미터들을 순차적으로 조합하여, 상기 후보 유닛 파라미터들 간의 연결 확률에 따라 각 후보 유닛 파라미터들의 연결 패스를 탐색하는 단계; 및
    상기 연결 패스에 해당하는 후보 유닛 파라미터를 각각 결합하여 상기 텍스트의 일부 또는 전부에 대응되는 상기 파라미터 유닛 시퀀스를 생성하는 단계;를 포함하는 것을 특징으로 하는 제어 방법.
  7. 제5항에 있어서,
    상기 어쿠스틱 신호를 생성하는 단계는,
    상기 텍스트에, 상기 합성 동작을 수행하는데 필요한 여기신호(Excitation) 모델을 적용하여, 상기 텍스트에 대응되는 HMM 음성 파라미터를 생성하는 단계; 및
    상기 생성된 HMM 음성 파라미터에 상기 파라미터 유닛 시퀀스를 적용하여 상기 어쿠스틱 신호를 생성하는 단계;를 포함하는 것을 특징으로 하는 제어 방법.
  8. 제6항에 있어서,
    상기 후보 유닛 파라미터들의 연결 패스를 탐색하는 단계는,
    비터비(Viterbi) 알고리즘에 의한 탐색 방법을 이용하는 것을 특징으로 하는 제어 방법.
  9. 제7항에 있어서,
    상기 HMM 음성 파라미터를 생성하는 단계는,
    상기 텍스트에, 상기 합성 동작을 수행하는데 필요한 스펙트럼(Spectrum) 모델을 더 적용하여, 상기 텍스트에 대응되는 HMM 음성 파라미터를 생성하는 것을 특징으로 하는 제어 방법.
  10. 프로세서에 의해 실행되어, 입력되는 텍스트를 음성으로 변환하는 음성 합성 장치를 제어하는 방법을 수행하도록 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 제어 방법은,
    복수의 음성 합성 단위로 이루어진 텍스트를 입력받는 단계;
    음성 파일을 구성하는 음성 합성 단위에 대응되는 복수의 파라미터가 저장된 음성 파라미터 데이터베이스로부터, 상기 입력된 텍스트를 구성하는 복수의 음성 합성 단위 각각에 대응되는 후보 유닛 파라미터들을 선정하는 단계;
    상기 후보 파라미터들 사이의 연결 가능성에 따라 상기 텍스트의 일부 또는 전부에 대한 파라미터 유닛 시퀀스를 생성하는 단계; 및
    상기 파라미터 유닛 시퀀스를 이용하여 HMM(Hidden Markov Model)을 기반으로 하는 합성 동작을 수행하여 상기 텍스트에 대응되는 어쿠스틱 신호를 생성하는 단계;를 포함하는 컴퓨터 프로그램.
KR1020140159995A 2014-11-17 2014-11-17 음성 합성 장치 및 그 제어 방법 KR20160058470A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020140159995A KR20160058470A (ko) 2014-11-17 2014-11-17 음성 합성 장치 및 그 제어 방법
US14/928,259 US20160140953A1 (en) 2014-11-17 2015-10-30 Speech synthesis apparatus and control method thereof
EP15194790.0A EP3021318A1 (en) 2014-11-17 2015-11-16 Speech synthesis apparatus and control method thereof
CN201510791532.6A CN105609097A (zh) 2014-11-17 2015-11-17 语音合成装置及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140159995A KR20160058470A (ko) 2014-11-17 2014-11-17 음성 합성 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20160058470A true KR20160058470A (ko) 2016-05-25

Family

ID=54545002

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140159995A KR20160058470A (ko) 2014-11-17 2014-11-17 음성 합성 장치 및 그 제어 방법

Country Status (4)

Country Link
US (1) US20160140953A1 (ko)
EP (1) EP3021318A1 (ko)
KR (1) KR20160058470A (ko)
CN (1) CN105609097A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019245103A1 (ko) * 2018-06-18 2019-12-26 엘지전자 주식회사 음성 합성 장치
KR20200084414A (ko) * 2018-12-21 2020-07-13 서울대학교산학협력단 음성 몽타주 생성 방법 및 시스템

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016042659A1 (ja) * 2014-09-19 2016-03-24 株式会社東芝 音声合成装置、音声合成方法およびプログラム
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及***
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
WO2018167522A1 (en) * 2017-03-14 2018-09-20 Google Llc Speech synthesis unit selection
US10140089B1 (en) * 2017-08-09 2018-11-27 2236008 Ontario Inc. Synthetic speech for in vehicle communication
CN107481715B (zh) * 2017-09-29 2020-12-08 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置
US11151979B2 (en) * 2019-08-23 2021-10-19 Tencent America LLC Duration informed attention network (DURIAN) for audio-visual synthesis
US11556782B2 (en) * 2019-09-19 2023-01-17 International Business Machines Corporation Structure-preserving attention mechanism in sequence-to-sequence neural models
US20210383790A1 (en) * 2020-06-05 2021-12-09 Google Llc Training speech synthesis neural networks using energy scores
CN111862934B (zh) * 2020-07-24 2022-09-27 思必驰科技股份有限公司 语音合成模型的改进方法和语音合成方法及装置
CN113257221B (zh) * 2021-07-06 2021-09-17 成都启英泰伦科技有限公司 一种基于前端设计的语音模型训练方法及语音合成方法
US11915714B2 (en) * 2021-12-21 2024-02-27 Adobe Inc. Neural pitch-shifting and time-stretching

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
AU2002212992A1 (en) * 2000-09-29 2002-04-08 Lernout And Hauspie Speech Products N.V. Corpus-based prosody translation system
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US20030191645A1 (en) * 2002-04-05 2003-10-09 Guojun Zhou Statistical pronunciation model for text to speech
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
DE602004011545T2 (de) * 2003-10-03 2009-01-08 Asahi Kasei Kabushiki Kaisha Datenverarbeitungseinrichtung und datenverarbeitungseinrichtungssteuerprogramm
EP1704558B8 (en) * 2004-01-16 2011-09-21 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
JP3910628B2 (ja) * 2005-06-16 2007-04-25 松下電器産業株式会社 音声合成装置、音声合成方法およびプログラム
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
CN101593516B (zh) * 2008-05-28 2011-08-24 国际商业机器公司 语音合成的方法和***
US20100066742A1 (en) * 2008-09-18 2010-03-18 Microsoft Corporation Stylized prosody for speech synthesis-based applications
US8566088B2 (en) * 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
US8108406B2 (en) * 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
US8340965B2 (en) * 2009-09-02 2012-12-25 Microsoft Corporation Rich context modeling for text-to-speech engines
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US20110071835A1 (en) * 2009-09-22 2011-03-24 Microsoft Corporation Small footprint text-to-speech engine
US8798998B2 (en) * 2010-04-05 2014-08-05 Microsoft Corporation Pre-saved data compression for TTS concatenation cost
JP5874639B2 (ja) * 2010-09-06 2016-03-02 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和***
US8856129B2 (en) * 2011-09-20 2014-10-07 Microsoft Corporation Flexible and scalable structured web data extraction
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
KR101402805B1 (ko) * 2012-03-27 2014-06-03 광주과학기술원 음성분석장치, 음성합성장치, 및 음성분석합성시스템
US8571871B1 (en) * 2012-10-02 2013-10-29 Google Inc. Methods and systems for adaptation of synthetic speech in an environment
US9082401B1 (en) * 2013-01-09 2015-07-14 Google Inc. Text-to-speech synthesis
JP6091938B2 (ja) * 2013-03-07 2017-03-08 株式会社東芝 音声合成辞書編集装置、音声合成辞書編集方法及び音声合成辞書編集プログラム
CN103226946B (zh) * 2013-03-26 2015-06-17 中国科学技术大学 一种基于受限玻尔兹曼机的语音合成方法
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US10014007B2 (en) * 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US9865247B2 (en) * 2014-07-03 2018-01-09 Google Inc. Devices and methods for use of phase information in speech synthesis systems
JP6392012B2 (ja) * 2014-07-14 2018-09-19 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019245103A1 (ko) * 2018-06-18 2019-12-26 엘지전자 주식회사 음성 합성 장치
KR20190142638A (ko) * 2018-06-18 2019-12-27 엘지전자 주식회사 음성 합성 장치
KR20200084414A (ko) * 2018-12-21 2020-07-13 서울대학교산학협력단 음성 몽타주 생성 방법 및 시스템

Also Published As

Publication number Publication date
US20160140953A1 (en) 2016-05-19
CN105609097A (zh) 2016-05-25
EP3021318A1 (en) 2016-05-18

Similar Documents

Publication Publication Date Title
KR20160058470A (ko) 음성 합성 장치 및 그 제어 방법
EP3469592B1 (en) Emotional text-to-speech learning system
CN108573693B (zh) 文本到语音***和方法以及其存储介质
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
CN106920547B (zh) 语音转换方法和装置
US11450313B2 (en) Determining phonetic relationships
CN112309366B (zh) 语音合成方法、装置、存储介质及电子设备
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US7349847B2 (en) Speech synthesis apparatus and speech synthesis method
US20200410981A1 (en) Text-to-speech (tts) processing
US9978359B1 (en) Iterative text-to-speech with user feedback
US11763797B2 (en) Text-to-speech (TTS) processing
WO2016209924A1 (en) Input speech quality matching
US10699695B1 (en) Text-to-speech (TTS) processing
JP2017032839A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
US9508338B1 (en) Inserting breath sounds into text-to-speech output
CN112309367B (zh) 语音合成方法、装置、存储介质及电子设备
WO2008147649A1 (en) Method for synthesizing speech
US9484014B1 (en) Hybrid unit selection / parametric TTS system
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
Mukherjee et al. A Bengali speech synthesizer on Android OS
Mustafa et al. Emotional speech acoustic model for Malay: iterative versus isolated unit training
Sharma et al. Polyglot speech synthesis: a review

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid