KR20050057409A - 음성 신호 합성 방법, 컴퓨터 프로그램 제품, 컴퓨터시스템 및 합성 음성 신호 - Google Patents

음성 신호 합성 방법, 컴퓨터 프로그램 제품, 컴퓨터시스템 및 합성 음성 신호 Download PDF

Info

Publication number
KR20050057409A
KR20050057409A KR1020057004601A KR20057004601A KR20050057409A KR 20050057409 A KR20050057409 A KR 20050057409A KR 1020057004601 A KR1020057004601 A KR 1020057004601A KR 20057004601 A KR20057004601 A KR 20057004601A KR 20050057409 A KR20050057409 A KR 20050057409A
Authority
KR
South Korea
Prior art keywords
speech signal
interval
pitch
identifier
code
Prior art date
Application number
KR1020057004601A
Other languages
English (en)
Other versions
KR101029493B1 (ko
Inventor
에르칸 에프 기기
Original Assignee
코닌클리즈케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리즈케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리즈케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050057409A publication Critical patent/KR20050057409A/ko
Application granted granted Critical
Publication of KR101029493B1 publication Critical patent/KR101029493B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electric Clocks (AREA)
  • Telephonic Communication Services (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Electrotherapy Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성 신호 합성 방법에 관한 것으로 제 1 원음성 신호의 간격의 부류에는 제 1 식별자를 할당하고, 제 2 원음성 신호의 간격의 부류에는 제 2 식별자를 할당하는 단계와, 원음성 신호를 윈도윙해서 다수의 피치 벨을 제공하는 단계와, 음성 신호의 음량을 수정하기 위해서 제 1 식별자가 할당된 피치 벨을 처리하는 단계와, 처리된 피치 벨에 대해서 중첩 및 추가 동작을 수행하는 단계를 포함한다.

Description

음성 신호 합성 방법, 컴퓨터 프로그램 제품, 컴퓨터 시스템 및 합성 음성 신호{METHOD FOR CONTROLLING DURATION IN SPEECH SYNTHESIS}
본 발명은 음성 처리 분야에 관한 것이고, 제한되는 것은 아니지만 더 상세하게는 텍스트-음성 합성에 관한 것이다.
텍스트-음성 합성(TTS) 시스템의 기능은 주어진 언어의 일반적인 텍스트로부터 음성을 합성하는 것이다. 현재, TTS 시스템은 전화 네트워크를 통한 데이터베이스로의 액세스 또는 장애인을 돕는 것과 같은 많은 애플리케이션에서 실제 운영에 사용되고 있다. 음성을 합성하는 한 방법은 반음절 또는 다음절(polyphone)과 같은 녹음되어 있는 음성의 세부 단위의 세트의 요소들을 연결하는 것이다. 성공한 시판되는 시스템의 대부분이 다음절의 연결을 이용하고 있다. 다음절은 2개(2음절), 3개(3음절) 또는 그 이상의 음절의 그룹을 포함하고, 이는 안정된 분석 영역(stable spectral regions)에서 원하는 음절의 그룹을 분할함으로써 무의미한 단어로부터 측정될 수 있다. 연결 기반 합성에서, 2개의 인접하는 음절 사이의 변이의 컨버세이션이 합성된 음성의 품질을 보장하는데 중요하다. 다음절을 기본 세부 단위로 선택함으로써, 2개의 인접 음절 사이의 변이가 녹음된 세부 단위 내에서 유지되고, 유사한 음절 사이에서 연결이 수행된다. 그러나, 합성하기 전에, 음절들은 이들 음절로 이루어지는 새로운 단어의 운율 조건을 만족시키도록 수정된 음량 및 피치를 가져야 한다. 이러한 처리는 단조로운 소리인 합성 음성이 나오는 것을 방지하는 데 필요하다. TTS 시스템에서, 이러한 기능은 운율 모듈이 수행한다. 녹음되어 있는 세부 단위 내에서 음량 및 피치 수정을 가능하게 하기 위해서, 많은 연결 기반 TTS 시스템은 TD-PSOLA(time-domain pitch-synchronous overlap-add)(E.Moulines와 F.Charpentier, "Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones, "Speech Commun., vol.9, pp.453-467, 1990)의 합성 모델을 사용한다. TD-PSOLA 모델에서, 우선 음성 신호가 피치 메이킹 알고리즘을 따른다. 이 알고리즘은 유성음 부분의 신호의 피크에 표시를 남기고, 10ms 지난 무성음 부분에 표시를 남긴다. 이 합성은 핀치 표시를 중심으로 해서 이전 핀치 표시로부터 다음 핀치 표시로 연장하는 하닝(hanning) 윈도윙된 세그먼트의 중첩에 의해 이루어진다. 윈도윙되는 세그먼트 중 일부를 삭제하거나 복제함으로써 제공된다. 반면에 핀치 주기 수정은 윈도윙된 세그먼트들 사이의 중첩을 줄이거나 늘림으로써 제공된다.
시판중인 TTS 시스템에서 성공되긴 했지만, TD-PSOLA 합성 모델을 사용해서 생성되는 합성 음성은, 이하 설명되는 바와 같이 특히 큰 운율 변화 하에서 약간의 결함이 있다.
이러한 PSOLA 방법의 예는 EP 0363233호, 미국 특허 제5,479,564호, EP 제0706170호에 개시된 방법과 같다. 특정 실시예는 T.Dutoit 및 H.Leich의 Speech Communications, Elsevier Publisher, November 1993에 공개된 MBR-PSOLA 방법을 들 수 있다. 미국 특허 제 5,479,564 호는 일정 기본 주파수를 가진 오디오 신호의 주파수를, 이 신호로부터 추출된 단기 신호를 중첩-추가함으로써 수정하는 수단을 제안하고 있다. 단기 신호를 획득하는 데 사용되는 가중 윈도우의 길이는 오디오 신호의 주기의 2배 정도이고, 이 주기 내에서 그 위치는 임의의 값으로 설정될 수 있다(연속 윈도우들 사이의 타임 시프트가 오디오 신호의 주기와 같은 경우). 미국 특허 제5,479,564호는 세그먼트 사이에 파형을 넣어서 단절을 평탄화시키는 수단도 설명하고 있다. 이러한 PSOLA 방법은 주어진 음성 신호의 음량의 수정을 가능하게 한다. 이는 음성 합성을 위해 중첩 및 추가 동작이 행해지기 전에, 피치 벨을 반복하거나 제거함으로써 행해진다. 피치 벨 내의 정보가 파열음(plosive sound)에서의 반복 형태에 항상 적합한 것은 아니다. 이러한 방식으로 아티펙트가 도입된다고 하는 점이 종래의 PSOLA 방법에서의 공통적인 단점이다. 이러한 아티펙트는 합성된 음성에서 쇠소리를 유발할 수 있으며, 합성된 신호의 요해도(了解度:intelligibility)에 심각한 영향을 미치거나 파괴할 수도 있다.
도 1은 본 발명의 바람직한 실시예의 흐름도,
도 2는 본 발명의 실시예에 따른 원음성 신호에 기초한 음성 신호의 합성을 나타내는 도면,
도 3은 본 발명의 컴퓨터 시스템의 실시예의 블록도.
본 발명은 개선된 음선 신호 처리 방법을 제공하는 것을 목적으로 한다.
본 발명은 음성 신호를 처리하는 방법, 컴퓨터 프로그램 제품 및 컴퓨터 시스템을 제공한다. 본 발명은 요해도가 개선된 자연스러운 소리의 합성 음성 신호를 생성하는 것을 가능하게 한다.
이는 원음성 신호에 포함된 특정 간격을 분류함으로써 수행된다. 본 발명의 바람직한 실시예에 따라서, 원음성 신호 내에서 '불변' 간격과 '다이나믹' 간격으로 분류된다. 이 분류는 한 번만 수행되면 된다. 음량이 수정된 원음성 신호에 기초해서 음성 신호를 합성하는 것이 유용하다.
본 발명은 종래의 PSOLA 방법을 행할 때, 피치 벨 형태의 다이나믹 간격의 반복은 의도하지 않은 주기성을 도입시켜서 쇠소리나는 합성 신호와 같은, 아티펙트를 유발하고, 요해도를 감소시키거나 파괴한다는 연구에 기초하고 있다.
본 발명에 따라서, 이러한 문제는 음량 수정을 위한 피치 벨의 처리를 원음성 신호의 불변 간격 중의 피치 벨로 제한함으로써 해결된다. 즉, 음량 수정은 서로 다른 음량을 가질 수 있는 음성 간격에 대해서만 수행된다. 이는 모음 또는 /s/ 소리와 같은 자음의 중간(middle)인 경우에 성립한다. 그러나 한 번의 주기 미만으로 지속되는 한정된 경우가 있을 수 있다. 이는 무성 파열음(/p/,/t/,/k/) 또는 혀와 입이 만드는 딱 및 쯧((/b/, /d/, /g/, /l/, /m/, /n/ 등)의 시작에서의 갑작스런 변화이다. 이러한 이벤트를 포함하는 주기는 요해도에 중요하고, 조작을 통해 제거되어야 한다. 이들 반복하는 것은 소리를 부자연스럽게 하는 아티펙트를 도입시키므로 문제가 된다. 또한, 무성음에서 모음으로의 변하기 시작할 때의 주기는 길어지거나 짧아지면 안된다는 국부적인 특성을 갖고 있다. 아티펙트를 방지하기 위해서, 모든 주기에는 특정 주기 부류 타입의 정보가 표시된다. 이 정보는 한 주기가 반복될 수 있거나 생략될 수 있는지를 결정하는 데 사용된다. 따라서, 원음성 신호의 다이나믹 간격의 윈도윙에 의해 획득된 피치 벨은 음량 수정을 위해서는 반복되지 않는다. 다이나믹이면서 요해도를 위해 필수적이라고 분류된 간격으로부터 획득되어서 피치 벨은 요해도를 유지하기 위해서 합성된 신호에서 계속해서 유지되어야 한다. 다이나믹이지만 요해도를 위해 필수적이 아니라고 분류된 간격으로부터 획득되어서 피치 벨은 최종 합성 음성 신호의 품질에 심각한 영향을 미치지 않으면서 중첩 및 추가 동작을 수행하기 전에 삭제될 수도 있고 삭제되지 않을 수도 있다.
본 발명의 바람직한 응용예는 텍스트-음성 합성 처리에서 수정되는 많은 수의 자연스런 음성 녹음을 저장하는 텍스트-음성 시스템이다.
본 발명의 바람직한 실시예에 따라서, 음성 신호를 윈도윙하는 데 상승 코사인 윈도우가 사용된다. 바람직하게는 무성 음성을 포함하는 불변 간격에 대해는 사인 윈도우가 사용된다. 이러한 무성 음성을 포함하는 불변 간격에서 획득된 피치 벨은 음량 수정 처리에서 도입될 수 있는 원하지 않는 주기성을 제거하기 위해서 랜덤화된다.
이하 본 발명의 바람직한 실시예가 도면을 참조하면서 더 상세하게 설명될 것이다.
도 1은 본 발명의 방법의 바람직한 실시예를 도시하는 흐름도를 도시하고 있다. 단계(100)에서, 자연 음성의 녹음이 제공된다. 단계(102)에서, 자연 음성 녹음의 간격이 식별되고 분류된다. 음성 간격의 분류를 위해서, 여기서 고려되는 실시예에서는 다음 분류 시스템이 사용된다.
- - 무음
. - 무성음 주기
v - 유성음 주기
p - 주요 다이나믹 무성음 주기(한번만 사용되어야 함)
b - 주요 다이나믹 유성음 주기(한번만 사용되어야 함)
q - 다이나믹 무성음 주기(한번만 사용될 수 있음)
c - 다이나믹 유성음 주기(한번만 사용될 수 있음)
음성 간격의 2개의 기본 카테고리는 '불변' 및 '다이나믹' 음성 간격이다. 자연 음성 신호의 기본 주파수의 적어도 2 주기 동안 연속해서 음성 간격이 기본적으로 일정한 신호 특성을 갖고 있으면 '불변'이라고 분류된다. 반대로, 기본 주파수의 적어도 1 주기 내에 그 신호 특성이 한번만 발생하면, 그 원래의 음성 기록의 음성 간격은 '다이나믹'이라고 분류된다.
여기서 고려되는 분류 시스템에서, '.' 및 'v' 주기는 불변 주기이다. 'p', 'b', 'q' 및 'c' 주기는 후속하는 처리에서 다르게 취급되는 다이나믹 주기이다.
단계(104)에서, 자연 음성 신호는 피치 벨을 획득하도록 윈도윙된다. 바람직하게는 윈도윙은 '.' 주기 동안 상승 코사인 윈도우 또는 사인 윈도우를 사용해서 수행된다.
단계(106)에서, 음성 신호의 음량을 수정하기 위해서 '불변'으로 분류된 주기 동안 획득된 피치 벨이 처리된다. 이는 피치 벨을 반복시키거나 삭제해서, 원래의 음량을 각각 증가시키거나 감소시킴으로써 행해질 수 있다. '다이나믹'이라고 분류된 주기로부터 획득된 피치 벨은 아티펙트의 도입을 방지하기 위해서 반복되지 않는다. 'p' 또는 'b'로 분류된 주기로부터 획득된 피치 벨은 원래의 신호의 요해도를 유지하기 위해서 삭제될 수 없다. 'q' 또는 'c'로 분류된 주기로부터 획득된 피치 벨은 반복되지 않지만, 최종 합성 신호의 요해도에 심각한 영향을 미치지 않으면서 삭제될 수 있다.
바람직하게는, '.'로 분류된 주기 동안의 피치 벨은 주기성 도입을 방지하기 위해서 랜덤한 방식으로 획득된다. 이는 이들 주기의 윈도윙을 위해서 사인 윈도우를 사용함으로써 더 도움을 받는다.
단계(108)에서, 처리된 피치 벨은 합성 신호를 획득하기 위해서 중첩되고 추가된다.
도 2는 자연 음성 신호(200)의 처리 예를 도시하고 있다. 자연 음성 신호(200)는 다이나믹 간격(202, 204, 206, 208, 210, 212)을 갖고 있다. 다이나믹 간격(202)은 'b', 'c'라고 분류된 주기를 포함한다. 다이나믹 간격(206)은 'q'라고 분류된 다이나믹 주기를 포함한다. 다이나믹 간격(208)은 'q', 'c' 및 'b'라고 분류된 주기를 포함한다. 다이나믹 간격(210)은 'c' 및 'b'라고 분류된 주기를 포함한다. 마지막으로 자연 음성 신호(200)는 불변 간격(214, 216, 218, 220, 222, 224)을 포함한다. 불변 간격(214)은 'v'라고 분류된 주기를 포함하고, 불변 간격(216)은 '.'라고 분류된 주기를 포함하며, 불변 간격(218)은 '.'라고 분류된 주기를 포함하고, 불변 간격(220)은 'v'라고 분류된 주기를 포함하며, 불변 간격(222)은 'v'라고 분류된 주기를 포함하고, 불변 간격(224)은 'v'라고 분류된 주기를 포함한다. 이러한 분류는 수동으로 혹은 적절한 신호 분석 프로그램을 통해서 자동으로 수행된다. 이러한 분류가 무한수의 신호 합성을 가능하게 하게 위해서 한번만 수행되면 된다는 점에 주의한다.
여기서 고려되는 실시예에서, 신호는 원음성 신호(200)에 비해서 연장된 음량을 가진 자연 음성 신호(200)에 기초해서 합성된다. 이를 위해서, 자연 음성 신호(200)는 종래의 기술에서 알려진 PSOLA 타입 방법에서 사용되는 것과 같이, 자연 음성 신호(200)의 기본 주파수와 동기화되어 위치되는 윈도우를 사용해서 윈도윙된다.
바람직하게는, 상승 코사인이 윈도우로서 사용된다. '.'로 분류된 주기 동안, 노이즈 신호의 일부인 피치 벨이 반복될 때 도입될 수 있는 원치않는 주기성을 감소시키기 위해서, 사인 윈도우가 사용된다. 원치 않는 주기성에 대하 다른 방법으로서, '.' 분류된 주기 동안의 피치 벨이 랜덤 방식으로 획득된다. 여기서 고려되는 실시예에서, 합성될 신호는 시간 축(226)의 영역에서 다음과 같이 구성된다.
합성될 음성 신호의 제 1 간격(228)은 다이나믹 간격(202)으로부터의 피치 벨을 포함한다. 이 피치 벨은 수정없이 간격(228) 동안 사용되며, 이는 다이나믹 간격(202)에 대해서 간격(228)의 음량이 변하지 않는다는 것을 의미한다. 간격(230)의 음량은 대응하는 불변 간격(214)의 약 2배이다. 이는 불변 간격(214) 동안 획득된 피치 벨 각각을 반복함으로써 수행된다. 간격(232)은 다이나믹 간격(204)으로부터의 피치 벨을 포함한다. 간격(232)의 음량은 다이나믹 간격(204)과 비교할 때 변하지 않는다. 간격(234)은 불변 간격(216)으로부터 획득된 피치 벨로 이루어진다. 또한 불변 간격(216)에 포함된 각각의 피치 벨은 이 간격의 음량을 2배로 하기 위해서 반복된다. 유사하게, 이어지는 간격(236, 238, 240, 242...)이 간격(206, 218, 208, 220, 210, 220, 212, 242)로부터 획득된다. 다음으로, 피치 벨은 시간 축(226)의 영역에서 중첩되어서 최종 합성 신호를 획득한다. 다른 방안으로, 'q' 또는 'c'로 분류된 자연 음성 신호(200)의 주기로부터 획득된 피치 벨은 삭제될 수 있다. 어떤 경우에도, '다이나믹'으로 분류된 자연 음성 신호(200)의 주기로부터 획득된 피치 벨 중 어느 것도 반복되지 않는다. 이런 식으로, 합성 신호의 품질 및 요해도에 심각한 영향을 미치는 아티펙트를 도입하는 일없이 음량 수정이 수행될 수 있다.
여기서 고려되는 실시예에서, 'p'는 발성된 발음의 요해도에 중요한 로컬(무성) 이벤트를 표시하는 데 사용된다. 통상, 입 또는 혀에 의한 공기의 방출(relealse) 이후의 노이즈 버스트가 이러한 타입이다. 음절 /p/, /t/ 및 /k/는 적어도 하나의 이러한 주기를 갖는다. 'p'라고 표시된 주기는 음절의 최종 음량에 관계없이 합성 음성에서 한번만 나타난다. 일부 로컬 (무성) 이벤트는 요해도에는 중요하지 않지만, 다이나믹해서, 이를 반복하면 일련의 부자연스러운 소리의 주기를 생성할 수 있다. 이들 주기는 'q'라고 표시된다. 이들은 한번만 사용될 수 있지만, 품질 또는 요해도에 큰 저하 없이 제거될 수도 있다. 유성음 쌍 'p' 및 'q'는 'b' 및 'c'로 표시된 타입이다. 유성 파열음 /b/, /d/, /g/는 통상적으로 'b'로 표시된 적어도 하나의 주기를 갖는다. 또한 혀가 임의 다른 부분을 치거나 지나면서 딱 및 쯧 소리를 낼 수 있다. 음절 /l/은 이러한 일이 발생할 수 있는 예이다. 무음에서 모음으로 또는 무성음 자음에서 모음으로의 변화는 로컬 이벤트를 가진 기간도 가질 수 있다. 자연스러움에 영향을 미치는 일 없이 모음의 중간의 주기가 수회 반복될 수 있지만, 이러한 변화의 중간에서 바로 떨어지는 주기는 반복하기에는 지나치게 다이나믹하다.
도 3은 본 발명의 컴퓨터 시스템의 실시예의 블록도를 도시하고 있다. 바람직하게는 컴퓨터 시스템은 본 발명의 원리를 실시하는 텍스트-음성 시스템이다. 컴퓨터 시스템(300)은 자연 음성 신호를 저장하는 모듈(302)을 갖고 있다. 모듈(304)은 자동으로, 수동으로 혹은 상호작용으로 모듈(302)에 저장된 자연 음성 신호의 주기를 분류한다. 모듈(306)은 모듈(302)에 저장된 자연 음성 신호의 윈도윙을 수행한다. 이런식으로, 많은 피치 벨이 획득된다. 모듈(308)은 피치 벨 처리를 수행한다. 음량 수정을 위한 피치 벨 처리는 불변이라고 분류된 간격으로부터 획득된 피치 벨에 대해서만 수행된다. 또한 요해도에 필수적이지 않다고 분류된 다이나믹 간격으로부터의 피치 벨은 모듈(308)에 의해 삭제되어서, 이들은 합성 신호에서 나타나지 않는다. 모듈(310)은 합성 신호를 획득하기 위해서 최종 피치 벨의 중첩 및 추가 동작을 수행한다. 모듈(302)에 저장된 원래의 자연 음성 신호의 음량의 필요한 수정물은 컴퓨터 시스템(300)에 입력된다. 최종 합성 신호는 반송파 또는 데이터 파일로 컴퓨터 시스템(300)으로부터 출력된다.
참조 번호의 리스트
200 : 자연 음성 신호 202 : 다이나믹 간격
204 : 다이나믹 간격 206 : 다이나믹 간격
208 : 다이나믹 간격 210 : 다이나믹 간격
212 : 다이나믹 간격 214 : 불변 간격
216 : 불변 간격 218 : 불변 간격
220 : 불변 간격 222 : 불변 간격
224 : 불변 간격 226 : 시간 축 간격
230 : 간격 232 : 간격
234 : 간격 236 : 간격
238 : 간격 240 : 간격
242 : 간격 300 : 컴퓨터 시스템
302 : 모듈 304 : 모듈
306 : 모듈 308 : 모듈
310 : 모듈

Claims (14)

  1. 제 1 부류의 원음성 신호 간격에는 제 1 식별자를 할당하고, 제 2 부류의 원음성 신호 간격에는 제 2 식별자를 할당하는 단계와,
    상기 원음성 신호를 윈도윙해서 다수의 피치 벨을 제공하는 단계와,
    상기 음성 신호의 음량을 수정하기 위해서 상기 제 1 식별자가 할당된 피치 벨을 처리하는 단계와,
    상기 처리된 피치 벨에 대해서 중첩 및 추가 동작을 수행하는 단계
    를 포함하는 음성 신호 합성 방법.
  2. 제 1 항에 있어서,
    상기 제 1 부류 간격은 불변 간격(steady interval)인
    음성 신호 합성 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 제 1 식별자로서 제 1 코드 또는 제 2 코드가 사용되되,
    상기 제 1 코드는 무성 간격(an unvoiced interval)을 나타내고, 상기 제 2 코드는 유성 간격(a voiced interval)을 나타내는
    음성 신호 합성 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 제 2 부류 간격은 다이나믹 간격인
    음성 신호 합성 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 제 2 식별자로서 제 3 코드, 제 4 코드, 제 5 코드 또는 제 6 코드가 사용되되, 상기 제 3 코드는 상기 음성 신호의 요해도(了解度:intelligibility)에 필수적인 무성 간격을 나타내고, 상기 제 4 코드는 상기 음성 신호의 요해도에 필수적인 유성 간격을 나타내며, 상기 제 5 코드는 상기 음성 신호의 요해도에 필수적이지는 않는 무성 간격을 나타내고, 상기 제 6 코드는 상기 음성 신호의 요해도에 필수적이지는 않는 유성 간격을 나타내는
    음성 신호 합성 방법.
  6. 제 5 항에 있어서,
    상기 제 5 코드 또는 제 6 코드에 할당되는 상기 피치 벨은 선택적으로 삭제되는
    음성 신호 합성 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 음성 신호를 윈도윙하는 데 상승 코사인(a raised cosine)이 사용되는
    음성 신호 합성 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 음성 신호의 상기 불변, 무성 간격을 윈도윙하는 데는 사인 윈도우가 사용되는
    음성 신호 합성 방법.
  9. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    중첩 및 추가 동작을 수행하기 전에 불변, 무성 주기의 피치 벨을 랜덤화하는 단계를 더 포함하는
    음성 신호 합성 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 윈도윙은 상기 음성 신호의 기본 주파수와 동기식으로 위치된 윈도우를 사용해서 수행되는
    음성 신호 합성 방법.
  11. 디지털 저장 매체와 같은 컴퓨터 프로그램 제품에 있어서,
    원음성 신호의 음량을 수정하기 위해서,
    제 1 부류의 원음성 신호 간격에는 제 1 식별자를 할당하고, 제 2 부류의 원음성 신호 간격에는 제 2 식별자를 할당하는 단계와,
    상기 원음성 신호를 윈도윙해서 다수의 피치 벨을 제공하는 단계와,
    상기 음성 신호의 음량을 수정하기 위해서 상기 제 1 식별자가 할당된 피치 벨을 처리하는 단계와,
    상기 처리된 피치 벨에 대해서 중첩 및 추가 동작을 수행하는 단계
    와 같은 처리 단계를 수행하는 프로그램 제품을 포함하는
    컴퓨터 프로그램 제품.
  12. 텍스트-음성 시스템인 컴퓨터 시스템에 있어서,
    음성 신호를 저장하는 수단(302)과,
    제 1 부류의 원음성 신호의 간격에 할당된 제 1 식별자 및 제 2 부류의 원음성 신호의 간격에 할당된 제 2 식별자를 저장하는 수단(304)과,
    상기 음성 신호를 윈도윙해서 다수의 피치 벨을 제공하는 수단(306)과,
    상기 음성 신호의 음량을 수정하기 위해서 상기 제 1 식별자가 할당된 피치 벨을 처리하는 수단(308)과,
    상기 처리된 피치 벨에 대해서 중첩 및 추가 동작을 수행하는 수단(310)
    을 포함하는 컴퓨터 시스템.
  13. 중첩되고, 추가되는 피치 벨로 이루어진 합성 음성 신호에 있어서,
    원음성 신호의 불변 유성음 간격 또는 불변 무성음 간격의 피치 벨만이 상기 원음성 신호의 음량 수정을 수행하기 위해 처리된
    합성 음성 신호.
  14. 제 13 항에 있어서,
    다이나믹 유성음 간격 또는 다이나믹 무성음 간격에 속하는 하나 이상의 피치 벨은 상기 중첩 및 추가 동작 이전에 삭제된
    합성 음성 신호.
KR1020057004601A 2002-09-17 2003-08-05 음성 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템 KR101029493B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02078847.7 2002-09-17
EP02078847 2002-09-17

Publications (2)

Publication Number Publication Date
KR20050057409A true KR20050057409A (ko) 2005-06-16
KR101029493B1 KR101029493B1 (ko) 2011-04-18

Family

ID=32010976

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057004601A KR101029493B1 (ko) 2002-09-17 2003-08-05 음성 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템

Country Status (10)

Country Link
US (1) US7912708B2 (ko)
EP (1) EP1543503B1 (ko)
JP (1) JP5175422B2 (ko)
KR (1) KR101029493B1 (ko)
CN (1) CN1682281B (ko)
AT (1) ATE352837T1 (ko)
AU (1) AU2003249443A1 (ko)
DE (1) DE60311482T2 (ko)
TW (1) TWI307875B (ko)
WO (1) WO2004027758A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004027753A1 (en) * 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. Method of synthesis for a steady sound signal
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP6047922B2 (ja) 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
CN109712634A (zh) * 2018-12-24 2019-05-03 东北大学 一种自动声音转换方法
CN114827657A (zh) * 2022-04-28 2022-07-29 腾讯音乐娱乐科技(深圳)有限公司 一种音频拼接方法、设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63199399A (ja) 1987-02-16 1988-08-17 キヤノン株式会社 音声合成装置
US5189702A (en) * 1987-02-16 1993-02-23 Canon Kabushiki Kaisha Voice processing apparatus for varying the speed with which a voice signal is reproduced
JP2612868B2 (ja) 1987-10-06 1997-05-21 日本放送協会 音声の発声速度変換方法
FR2636163B1 (fr) 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
IT1266943B1 (it) 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP2001513225A (ja) 1997-12-19 2001-08-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伸長オーディオ信号からの周期性の除去
US6324501B1 (en) * 1999-08-18 2001-11-27 At&T Corp. Signal dependent speech modifications
US6963833B1 (en) * 1999-10-26 2005-11-08 Sasken Communication Technologies Limited Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates
JP2001350500A (ja) 2000-06-07 2001-12-21 Mitsubishi Electric Corp 話速変更装置

Also Published As

Publication number Publication date
CN1682281A (zh) 2005-10-12
US20060004578A1 (en) 2006-01-05
JP2005539261A (ja) 2005-12-22
US7912708B2 (en) 2011-03-22
WO2004027758A1 (en) 2004-04-01
EP1543503A1 (en) 2005-06-22
DE60311482D1 (de) 2007-03-15
EP1543503B1 (en) 2007-01-24
DE60311482T2 (de) 2007-10-25
KR101029493B1 (ko) 2011-04-18
TW200416668A (en) 2004-09-01
CN1682281B (zh) 2010-05-26
AU2003249443A1 (en) 2004-04-08
JP5175422B2 (ja) 2013-04-03
ATE352837T1 (de) 2007-02-15
TWI307875B (en) 2009-03-21

Similar Documents

Publication Publication Date Title
DE19610019C2 (de) Digitales Sprachsyntheseverfahren
US5400434A (en) Voice source for synthetic speech system
US20100324906A1 (en) Method of synthesizing of an unvoiced speech signal
KR101029493B1 (ko) 음성 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템
EP1543500B1 (en) Speech synthesis using concatenation of speech waveforms
EP1543497B1 (en) Method of synthesis for a steady sound signal
Do et al. Vietnamese Text-To-Speech system with precise tone generation
JPH08248993A (ja) 音韻時間長制御方法
US6112178A (en) Method for synthesizing voiceless consonants
JP3081300B2 (ja) 残差駆動型音声合成装置
JP3310217B2 (ja) 音声合成方法とその装置
JP3532064B2 (ja) 音声合成方法及び音声合成装置
JPH06138894A (ja) 音声合成装置及び音声合成方法
Maeda Vocal-tract acoustics and speech synthesis
Mythili et al. Developing a child friendly text-to-speech system
Jacob et al. Research Article Developing a Child Friendly Text-to-Speech System
Zhu et al. A New Chinese Speech Synthesis Method Apply in Chinese Poetry Learning
US20060074675A1 (en) Method of synthesizing creaky voice
JP2001067093A (ja) 音声合成方法および装置
JPH04233597A (ja) 音声規則合成装置
JPH0594196A (ja) 音声合成装置
JPH03296100A (ja) 音声合成装置
JPS63293600A (ja) 音声合成装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140404

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160331

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170407

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190408

Year of fee payment: 9