KR20190142638A

KR20190142638A - 음성 합성 장치

Info

Publication number: KR20190142638A
Application number: KR1020180069820A
Authority: KR
Inventors: 채종훈; 박용철; 장주영; 한성민
Original assignee: 엘지전자 주식회사
Priority date: 2018-06-18
Filing date: 2018-06-18
Publication date: 2019-12-27
Also published as: WO2019245103A1; KR102108906B1

Abstract

본 발명의 일 실시 예에 따른 음성 합성 장치는 복수의 음성 유닛들을 저장하는 데이터 베이스 및 제1 음성 유닛에 대응하는 제1 파워 스펙트럼 및 제2 음성 유닛에 대응하는 제2 파워 스펙트럼을 추출하고, 상기 제1,2 파워 스펙스럼 간의 유사도를 비교하고, 상기 유사도가 기준 유사도 이상인 경우, 해당 경계를 비 정상 경계로 분류하고, 상기 유사도가 상기 기준 유사도 미만인 경우, 해당 경계를 정상 경계로 분류하는 프로세서를 포함한다.

Description

음성 합성 장치{VOICE SYNTHESIZER}

본 발명은 음성 합성 장치에 관한 것이다.

오늘날 많은 음성 합성 방식에는 음성 데이터 베이스로부터 발음의 한 뒤위인 유닛(unit)들을 가져와, 이어주는 합성 방식이 많이 사용되고 있다.

음성 유닛을 선택하는 과정은 unit selection 과정으로 명명되며, 이 과정은 합성 음질에 큰 영향을 미치게 된다.

unit selection 과정에서, 음성 데이터 베이스의 무결함은 중요 요소이다. 즉, unit selection 과정에서, 음성 유닛들이 잘못 합성된 경우, 음성 품질의 저하 현상이 발생되게 된다.

종래에는 음성 데이터 베이스 내에 음성 유닛들의 경계가 잘 이어졌는지를 수작업으로, 진행해 왔다.

수작업의 경우, 수많은 음성 유닛들의 경계를 일일히 확인해야 하므로, 시간과 비용이 많이 소요된다.

본 발명은 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 한다.

본 발명은 unit selection 기반 음성 합성 시스템에서 사용되는 데이터 베이스 내에서, 음성 유닛들 간의 경계를 자동으로 검증할 수 있는 음성 합성 장치의 제공을 목적으로 한다.

또한, 본 발명은 잘못된 음성 유닛들 간의 경계를 자동으로 보정할 수 있는 음성 합성 장치의 제공을 그 목적으로 한다.

본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시 예와 같은 특정 실시 예는 단지 예시로 주어진 것으로 이해되어야 한다.

본 발명의 실시 예에 따르면, 음성 유닛들 간의 경계를 자동으로 검증할 수 있어, 비용과 시간이 효과적으로 감소될 수 있다.

또한, 본 발명의 실시 예에 따르면, 잘못 이어진 음성 유닛들 간의 경계가 자동으로 보정되어, 합성 음성의 품질이 크게 향상된다.

도 1은 본 발명의 일 실시 예에 따른 음성 합성 시스템의 구성을 설명하는 도면이다.
도 2는 본 발명의 일 실시 예에 따른 음성 합성 장치의 구성을 설명하는 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 합성 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시 예에 따라 복수의 음성 유닛들이 조합된 합성 음성 유닛에 경계가 비 정상인 음성 유닛이 포함된 경우를 설명하는 도면이다.
도 4는 본 발명의 일 실시 예에 따라 복수의 음성 유닛들이 조합된 합성 음성 유닛에 경계가 비 정상인 음성 유닛이 포함된 경우를 설명하는 도면이다.
도 5는 본 발명의 일 실시 예에 따라, 파워 스펙트럼을 이용하여, 정상 경계를 갖는 음성 유닛을 분류하는 과정을 설명하는 도면이다.
도 6은 본 발명의 일 실시 예에 따라, 파워 스펙트럼을 이용하여, 비 정상 경계를 갖는 음성 유닛을 분류하는 과정을 설명하는 도면이다.
도 7은 본 발명의 일 실시 예에 따라 비 정상 경계로 분류된 제1 음성 유닛과 제2 음성 유닛 간의 경계를 보정하는 과정을 설명하는 도면이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에서 설명되는 단말기에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등이 포함될 수 있다.

그러나, 본 명세서에 기재된 실시 예에 따른 구성은 이동 단말기에만 적용 가능한 경우를 제외하면, 디지털 TV, 데스크탑 컴퓨터, 디지털사이니지 등과 같은 고정 단말기에도 적용될 수도 있음을 본 기술분야의 당업자라면 쉽게 알 수 있을 것이다.

도 1은 본 발명의 일 실시 예에 따른 음성 합성 시스템의 구성을 설명하는 도면이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 음성 합성 시스템은 음성 합성 장치(100) 및 복수의 단말기들(200-1 내지 200-n)을 포함한다.

음성 합성 장치(100)는 음성 유닛들 간의 합성이 제대로 이루어졌는지를 검증할 수 있다.

음성 합성 장치(100)는 검증된 합성 유닛들을 각 단말기에 유선 또는 무선으로 전송할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 음성 합성 장치의 구성을 설명하는 블록도이다.

도 2를 참조하면, 본 발명의 일 실시 예에 따른 음성 합성 장치(100)는 데이터 베이스(110), 프로세서(130) 및 통신부(150)를 포함할 수 있다.

데이터 베이스(110)는 복수의 음성 유닛들을 저장한다. 데이터 베이스(110)는 unit selection 과정에 따라 음성 유닛들이 조합된 합성 유닛들을 저장할 수 있다.

프로세서(130)는 음성 합성 장치(100)의 구성 요소들을 전반적으로 제어할 수 있다.

프로세서(130)는 파워 스펙트럼 추출부(131), 파워 스펙트럼 유사도 측정부(133), 경계 분류부(135) 및 경계 보정부(137)를 포함한다.

파워 스펙트럼 추출부(131)는 제1 음성 유닛의 경계에 대응하는 제1 파워 스펙트럼 및 제2 음성 유닛의 경계에 대응하는 제2 파워 스펙트럼을 추출할 수 있다.

파워 스펙트럼 유사도 측정부(133)는 제1 파워 스펙트럼과 제2 파워 스펙트럼 간의 유사도를 측정할 수 있다.

경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인지를 판단할 수 있다.

경계 분류부(135)는 측정된 유사도가 기준 유사도 미만인 경우, 제1 음성 유닛과 제2 음성 유닛 간의 경계를 정상 경계로 분류할 수 있다.

경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인 경우, 제1 음성 유닛과 제2 음성 유닛 간의 경계를 비 정상 경계로 분류할 수 있다.

경계 보정부(137)는 비 정상 경계로 분류된 제1 음성 유닛과 제2 음성 유닛 간의 경계를 보정하는 경계 보정을 수행할 수 있다.

통신부(150)는 데이터 베이스(110)에 저장된 합성 유닛들을 유선 또는 무선으로, 단말기에 전송할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 음성 합성 장치의 동작 방법을 설명하기 위한 흐름도이다.

프로세서(130)의 파워 스펙트럼 추출부(131)는 제1 음성 유닛의 경계에 대응하는 제1 파워 스펙트럼을 추출한다(S301).

이하에서, 음성 유닛은 하나의 글자에 대응하는 음성 정보를 담고 있는 유닛일 수 있다.

음성 유닛은 하나의 글자를 음성으로 변환 시, 생성되는 음성 파형 및 파워 스펙트럼을 포함할 수 있다.

파워 스펙트럼은 시간적으로 변동하는 파형이 주어졌을 때, 그 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되고 있는지를 나타내는 파라미터일 수 있다.

일 실시 예에서, 제1 음성 유닛의 경계는 제1 음성 유닛이 형성하는 시간의 끝 부분에 대응하는 위치일 수 있다. 즉, 제1 파워 스펙트럼은 제1 음성 유닛의 전체 파워 스펙트럼을 동일한 시간 간격을 갖는 복수의 시간 슬롯들로 나누었을 때, 마지막 시간 슬롯에 대응하는 스펙트럼일 수 있다.

프로세서(130)의 파워 스펙트럼 추출부(131)는 제2 음성 유닛의 경계에 대응하는 제2 파워 스펙트럼을 추출한다(S303).

일 실시 예에서, 제2 음성 유닛의 경계는 제2 음성 유닛이 형성하는 시간의 처음 부분에 대응하는 위치일 수 있다. 즉, 제2 파워 스펙트럼은 제2 음성 유닛의 전체 파워 스펙트럼을 동일한 시간 간격을 갖는 복수의 시간 슬롯들로 나누었을 때, 첫 시간 슬롯에 대응하는 스펙트럼일 수 있다.

프로세서(130)의 파워 스펙트럼 유사도 측정부(133)는 제1 파워 스펙트럼과 제2 파워 스펙트럼 간의 유사도를 측정한다(S305).

일 실시 예에서, 파워 스펙트럼 유사도 측정부(133)는 벡터 성분 간 교차 비교를 수행하는 크로스 빈(Cross-Bin) 방식으로, 파워 스펙트럼의 유사도를 측정할 수 있다.

파워 스펙트럼 유사도 측정부(133)는 제1 파워 스펙트럼의 제1 주파수 대역과 제2 파워 스펙트럼의 제2 주파수 대역 간의 차이 및 제1 주파수 대역의 크기와 제2 주파수 대역 간의 크기를 이용하여, 제1 파워 스펙트럼과 제2 파워 스펙트럼의 유사도를 측정할 수 있다.

프로세서(130)의 경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인지를 판단한다(S307).

경계 분류부(135)는 제1 주파수 대역과 제2 주파수 대역 간의 차이가 기 설정된 주파수 값 이상이고, 제1 주파수 대역의 크기와 제2 주파수 대역의 크기 간의 차이가 기 설정된 크기 이상인 경우, 제1 파워 스펙트럼과 제2 파워 스펙트럼의 유사도가 기준 유사도 미만인 것으로 판단할 수 있다.

경계 분류부(135)는 제1 주파수 대역과 제2 주파수 대역 간의 차이가 기 설정된 주파수 값 미만이고, 제1 주파수 대역의 크기와 제2 주파수 대역의 크기 간의 차이가 기 설정된 크기 미만인 경우, 제1 파워 스펙트럼과 제2 파워 스펙트럼의 유사도가 기준 유사도 이상인 것으로 판단할 수 있다.

프로세서(130)의 경계 분류부(135)는 측정된 유사도가 기준 유사도 미만인 경우, 제1 음성 유닛과 제2 음성 유닛 간의 경계를 정상 경계로 분류한다(S309).

경계 분류부(135)는 측정된 유사도가 기준 유사도 미만인 경우, 제1 음성 유닛과 제2 음성 유닛은 자연스러운 음성 조합이라고 판단하고, 해당 경계를 정상 경계로 분류할 수 있다.

경계 분류부(135)는 제1 음성 유닛과 제2 음성 유닛을 합성한 합성 음성을 데이터 베이스(110)에 저장한다(S311).

경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인 경우, 제1 음성 유닛과 제2 음성 유닛 간의 경계를 비 정상 경계로 분류한다(S313).

경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인 경우, 제1 음성 유닛과 제2 음성 유닛이 부자연스러운 조합이라고 판단하고, 해당 경계를 비 정상 경계로 분류할 수 있다.

제1 음성 유닛의 경계와 제2 음성 유닛의 경계가 부자연스러운 경우, 제1 음성 유닛과 제2 음성 유닛이 조합된 출력은 부자연스러운 발화로 이어질 수 있다.

이하에서는, 단계 S301 내지 S313에 대해 설명한다.

도 4는 본 발명의 일 실시 예에 따라 복수의 음성 유닛들이 조합된 합성 음성 유닛에 경계가 비 정상인 음성 유닛이 포함된 경우를 설명하는 도면이다.

도 4를 참조하면, 합성 음성 유닛(400)은 제1 음성 유닛(410), 제2 음성 유닛(430), 제3 음성 유닛(450) 및 제4 음성 유닛(470)을 포함한다.

제1 음성 유닛(410)은 <했>이라는 글자에 대응되는 유닛이고, 제2 음성 유닛(430)은 <복>이라는 글자에 대응하는 유닛이고, 제3 음성 유닛(450)은 <했ㅅ>에 글자에 대응되는 유닛이고, 제4 음성 유닛(470)은 <던>이라는 글자에 대응되는 유닛이다.

합성 음성 유닛에 대응하는 텍스트가 입력되어, 음성으로 변환될 시, 비정상 경계를 갖는 제3 음성 유닛(450)으로 인해, 부자연스러운 발화음이 출력될 수 있다.

따라서, 제3 음성 유닛(450)과 같이, 비 정상 경계를 갖는 유닛을 분류하고, 해당 유닛의 경계를 보정하는 작업이 필요하다.

도 5는 본 발명의 일 실시 예에 따라, 파워 스펙트럼을 이용하여, 정상 경계를 갖는 음성 유닛을 분류하는 과정을 설명하는 도면이다.

도 5를 참조하면, 제1 음성 유닛(510) 및 제2 음성 유닛(530)이 unit-selection 기법에 따라 조합된 상태를 보여준다.

제1 음성 유닛(510)은 제1 파워 스펙트럼(511) 및 제1 음성 파형(513)을 포함한다.

음성 합성 장치(100)의 프로세서(130)는 제1 파워 스펙트럼(511)을 복수의 시간 슬롯들로 구분했을 때, 마지막 시간 슬롯에 대응하는 제1 부분 파워 스펙트럼(511a)을 추출할 수 있다.

즉, 마지막 시간 슬롯은 제1 음성 유닛(510)의 끝 경계에 대응하는 시간 슬롯일 수 있다.

제2 음성 유닛(530)은 제2 파워 스펙트럼(531) 및 제2 음성 파형(533)을 포함한다.

프로세서(130)는 제2 파워 스펙트럼(531)을 복수의 시간 슬롯들로 구분했을 때, 첫 시간 슬롯에 대응하는 제2 부분 파워 스펙트럼(531a)을 추출할 수 있다.

프로세서(130)는 제1 부분 파워 스펙트럼(511a)과 제2 부분 파워 스펙트럼(531a) 간의 유사도를 측정할 수 있다.

프로세서(130)는 제1 부분 파워 스펙트럼(511a)의 주파수 대역과 제2 부분 파워 스펙트럼(531a)의 주파수 대역 간의 차이인 제1 값 및, 각 주파수 대역 간의 크기(amplitude) 차이인 제2 값을 비교하여, 유사도를 측정할 수 있다.

프로세서(130)는 제1 값이 제1 기준 값 이상이고, 제2 값이, 제2 기준 값 이상인 경우, 제1 부분 파워 스펙트럼(511a)과 제2 부분 파워 스펙트럼(531a) 간의 유사도가 기준 유사도 미만인 것으로 판단할 수 있다.

제1 기준 값 및 제2 기준 값은 프로그램에 의해 미리 설정된 값일 수 있다.

이 경우, 프로세서(130)는 제1 음성 유닛(510)과 제2 음성 유닛(530) 간의 경계가 정상 경계인 것으로 판단할 수 있다.

프로세서(130)는 제1 음성 유닛(510)과 제2 음성 유닛(530) 간의 조합의 출력이 자연스러운 조합이라 판단하고, 해당 조합을 데이터 베이스(110)에 저장할 수 있다.

다음으로, 도 6을 설명한다.

도 6은 본 발명의 일 실시 예에 따라, 파워 스펙트럼을 이용하여, 비 정상 경계를 갖는 음성 유닛을 분류하는 과정을 설명하는 도면이다.

도 6을 참조하면, 제1 음성 유닛(610) 및 제2 음성 유닛(630)이 unit-selection 기법에 따라 조합된 상태를 보여준다.

제1 음성 유닛(610)은 제1 파워 스펙트럼(611) 및 제1 음성 파형(613)을 포함한다.

음성 합성 장치(100)의 프로세서(130)는 제1 파워 스펙트럼(611)을 복수의 시간 슬롯들로 구분했을 때, 마지막 시간 슬롯에 대응하는 제1 부분 파워 스펙트럼(611a)을 추출할 수 있다.

즉, 마지막 시간 슬롯은 제1 음성 유닛(610)의 끝 경계에 대응하는 시간 슬롯일 수 있다.

제2 음성 유닛(630)은 제2 파워 스펙트럼(631) 및 제2 음성 파형(633)을 포함한다.

프로세서(130)는 제2 파워 스펙트럼(631)을 복수의 시간 슬롯들로 구분했을 때, 첫 시간 슬롯에 대응하는 제2 부분 파워 스펙트럼(631a)을 추출할 수 있다.

프로세서(130)는 제1 부분 파워 스펙트럼(611a)과 제2 부분 파워 스펙트럼(631a) 간의 유사도를 측정할 수 있다.

프로세서(130)는 제1 부분 파워 스펙트럼(611a)의 주파수 대역과 제2 부분 파워 스펙트럼(631a)의 주파수 대역 간의 차이인 제1 값 및, 각 주파수 대역 간의 크기(amplitude) 차이인 제2 값을 비교하여, 유사도를 측정할 수 있다.

프로세서(130)는 제1 값이 제1 기준 값 미만이고, 제2 값이, 제2 기준 값 미만인 경우, 제1 부분 파워 스펙트럼(511a)과 제2 부분 파워 스펙트럼(531a) 간의 유사도가 기준 유사도 이상인 것으로 판단할 수 있다.

이 경우, 프로세서(130)는 제1 음성 유닛(510)과 제2 음성 유닛(530) 간의 경계가 비 정상 경계인 것으로 판단할 수 있다.

프로세서(130)는 unit-selection이 잘못 수행된 결과로 판단하고, 제1 음성 유닛(510)과 제2 음성 유닛(530) 간의 경계를 보정하는 작업을 수행할 수 있다.

이에 대해서는 후술한다.

다시, 도 3을 설명한다.

경계 보정부(137)는 비 정상 경계로 분류된 제1 음성 유닛과 제2 음성 유닛의 파형을 검증하고, 경계 보정을 수행한다(S315).

일 실시 예에서, 프로세서(130)의 경계 보정부(137)는 제1 음성 유닛 또는 제2 음성 유닛의 시간 슬롯을 시프트 시켜, 제1 음성 유닛과 제2 음성 유닛의 경계를 보정할 수 있다.

이에 대해서는 도 7을 참조하여, 설명한다.

도 7은 본 발명의 일 실시 예에 따라 비 정상 경계로 분류된 제1 음성 유닛과 제2 음성 유닛 간의 경계를 보정하는 과정을 설명하는 도면이다.

도 7의 설명 시, 도 6의 실시 예를 이용하여 설명한다.

도 7을 참조하면, 비 정상 경계로 분류된 제1 음성 유닛(610)과 제2 음성 유닛(630)이 도시되어 있다.

제1 음성 유닛(610)은 비 정상 유닛(612)을 포함하고 있다. 비 정상 유닛(612)은 제2 음성 유닛(630)의 일부 발음에 대응하는 유닛일 수 있다.

프로세서(130)는 비 정상 유닛(612)에 대응하는 시간 슬롯들만큼을 타임 시프트 시킬 수 있다. 비 정상 유닛(612)이 타임 시프트된 경우, 기존의 제1 음성 유닛(610)은 새로운 음성 유닛(510)으로 변경될 수 있고, 기존의 제2 음성 유닛(630)은 새로운 음성 유닛(530)으로 변경될 수 있다.

새로운 음성 유닛들(510, 530)은 도 5에서 설명된 정상 경계를 갖는 유닛들일 수 있다.

즉, 타임 시프트에 의해, 비 정상 경계를 갖는 음성 유닛들이, 정상 경계를 갖는 음성 유닛들로 변경될 수 있다.

이와 같이, 본 발명의 실시 예에 따르면, 비 정상 경계를 갖는 음성 유닛들이 자동으로, 검출되고, 타임 시프트에 따른 경계 보정 작업으로, 합성된 음성의 음질이 개선될 수 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 단말기의 제어부(180)를 포함할 수도 있다.

따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고, 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims

음성 합성 장치에 있어서,
복수의 음성 유닛들을 저장하는 데이터 베이스; 및
제1 음성 유닛에 대응하는 제1 파워 스펙트럼 및 제2 음성 유닛에 대응하는 제2 파워 스펙트럼을 추출하고,
상기 제1,2 파워 스펙스럼 간의 유사도를 비교하고, 상기 유사도가 기준 유사도 이상인 경우, 해당 경계를 비 정상 경계로 분류하고, 상기 유사도가 상기 기준 유사도 미만인 경우, 해당 경계를 정상 경계로 분류하는 프로세서를 포함하는
음성 합성 장치.
제1항에 있어서,
상기 제1 파워 스펙트럼은 상기 제1 음성 유닛의 전체 파워 스펙트럼을 동일한 시간 간격을 갖는 복수의 시간 슬롯들로 구분한 경우, 마지막 시간 슬롯에 대응하는 스펙트럼이고,
상기 제2 파워 스펙트럼은 상기 제2 음성 유닛의 전체 파워 스펙트럼을 동일한 시간 간격을 갖는 복수의 시간 슬롯들로 구분한 경우, 첫 시간 슬롯에 대응하는 스펙트럼인
음성 합성 장치.
제2항에 있어서,
상기 프로세서는
상기 제1 파워 스펙트럼의 제1 주파수 대역과 상기 제2 파워 스펙트럼의 제2 주파수 대역 간의 차이가 기 설정된 주파수 값 미만이고, 상기 제1 주파수 대역의 크기와 상기 제2 제2 주파수 대역의 크기 간의 차이가 기 설정된 크기 미만인 경우, 상기 유사도가 상기 기준 유사도 이상인 것으로 판단하는
음성 합성 장치.
제3항에 있어서,
상기 프로세서는
상기 유사도가 상기 기준 유사도 이상인 경우, 상기 비 정상 경계로 분류된 상기 제1 음성 유닛과 상기 제2 음성 유닛을 타임 시프트하는
음성 합성 장치.
제4항에 있어서,
상기 프로세서는
상기 제1 음성 유닛에 포함된 비 정상 유닛을 타임 시프트 하여, 상기 제2 음성 유닛으로 이전시키는
음성 합성 장치.
제5항에 있어서,
상기 프로세서는
상기 타임 시프트의 수행 결과를 반영한 음성 유닛들의 조합을 상기 데이터 베이스에 저장하는
음성 합성 장치.
제6항에 있어서,
상기 저장된 음성 유닛들의 조합을 단말기에 무선으로 전송하는 통신부를 더 포함하는
음성 합성 장치.
제3항에 있어서,
상기 프로세서는
상기 제1 파워 스펙트럼의 제1 주파수 대역과 상기 제2 파워 스펙트럼의 제2 주파수 대역 간의 차이가 기 설정된 주파수 값 이상이고, 상기 제1 주파수 대역의 크기와 상기 제2 제2 주파수 대역의 크기 간의 차이가 기 설정된 크기 이상인 경우, 상기 유사도가 상기 기준 유사도 미만인 것으로 판단하는
음성 합성 장치.
제1항에 있어서,
상기 프로세서는
상기 제1 파워 스펙트럼 및 상기 제2 파워 스펙트럼을 추출하는 파워 스펙트럼 추출부,
상기 제1 파워 스펙트럼 및 상기 제2 파워 스펙트럼 간의 유사도를 측정하는 파워 스펙트럼 유사도 측정부,
상기 유사도가 기준 유사도 이상인 경우, 해당 경계를 비 정상 경계로 분류하고, 상기 유사도가 상기 기준 유사도 미만인 경우, 해당 경계를 정상 경계로 분류하는 경계 분류부를 포함하는
음성 합성 장치.
제9항에 있어서,
상기 프로세서는
상기 유사도가 상기 기준 유사도 이상인 경우, 상기 제1 음성 유닛과 상기 제2 음성 유닛 간의 경계를 보정하는 경계 보정부를 더 포함하는
음성 합성 장치.