KR20190142638A - 음성 합성 장치 - Google Patents

음성 합성 장치 Download PDF

Info

Publication number
KR20190142638A
KR20190142638A KR1020180069820A KR20180069820A KR20190142638A KR 20190142638 A KR20190142638 A KR 20190142638A KR 1020180069820 A KR1020180069820 A KR 1020180069820A KR 20180069820 A KR20180069820 A KR 20180069820A KR 20190142638 A KR20190142638 A KR 20190142638A
Authority
KR
South Korea
Prior art keywords
power spectrum
boundary
similarity
unit
voice
Prior art date
Application number
KR1020180069820A
Other languages
English (en)
Other versions
KR102108906B1 (ko
Inventor
채종훈
박용철
장주영
한성민
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020180069820A priority Critical patent/KR102108906B1/ko
Priority to PCT/KR2018/008930 priority patent/WO2019245103A1/ko
Publication of KR20190142638A publication Critical patent/KR20190142638A/ko
Application granted granted Critical
Publication of KR102108906B1 publication Critical patent/KR102108906B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시 예에 따른 음성 합성 장치는 복수의 음성 유닛들을 저장하는 데이터 베이스 및 제1 음성 유닛에 대응하는 제1 파워 스펙트럼 및 제2 음성 유닛에 대응하는 제2 파워 스펙트럼을 추출하고, 상기 제1,2 파워 스펙스럼 간의 유사도를 비교하고, 상기 유사도가 기준 유사도 이상인 경우, 해당 경계를 비 정상 경계로 분류하고, 상기 유사도가 상기 기준 유사도 미만인 경우, 해당 경계를 정상 경계로 분류하는 프로세서를 포함한다.

Description

음성 합성 장치{VOICE SYNTHESIZER}
본 발명은 음성 합성 장치에 관한 것이다.
오늘날 많은 음성 합성 방식에는 음성 데이터 베이스로부터 발음의 한 뒤위인 유닛(unit)들을 가져와, 이어주는 합성 방식이 많이 사용되고 있다.
음성 유닛을 선택하는 과정은 unit selection 과정으로 명명되며, 이 과정은 합성 음질에 큰 영향을 미치게 된다.
unit selection 과정에서, 음성 데이터 베이스의 무결함은 중요 요소이다. 즉, unit selection 과정에서, 음성 유닛들이 잘못 합성된 경우, 음성 품질의 저하 현상이 발생되게 된다.
종래에는 음성 데이터 베이스 내에 음성 유닛들의 경계가 잘 이어졌는지를 수작업으로, 진행해 왔다.
수작업의 경우, 수많은 음성 유닛들의 경계를 일일히 확인해야 하므로, 시간과 비용이 많이 소요된다.
본 발명은 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 한다.
본 발명은 unit selection 기반 음성 합성 시스템에서 사용되는 데이터 베이스 내에서, 음성 유닛들 간의 경계를 자동으로 검증할 수 있는 음성 합성 장치의 제공을 목적으로 한다.
또한, 본 발명은 잘못된 음성 유닛들 간의 경계를 자동으로 보정할 수 있는 음성 합성 장치의 제공을 그 목적으로 한다.
본 발명의 일 실시 예에 따른 음성 합성 장치는 복수의 음성 유닛들을 저장하는 데이터 베이스 및 제1 음성 유닛에 대응하는 제1 파워 스펙트럼 및 제2 음성 유닛에 대응하는 제2 파워 스펙트럼을 추출하고, 상기 제1,2 파워 스펙스럼 간의 유사도를 비교하고, 상기 유사도가 기준 유사도 이상인 경우, 해당 경계를 비 정상 경계로 분류하고, 상기 유사도가 상기 기준 유사도 미만인 경우, 해당 경계를 정상 경계로 분류하는 프로세서를 포함한다.
본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시 예와 같은 특정 실시 예는 단지 예시로 주어진 것으로 이해되어야 한다.
본 발명의 실시 예에 따르면, 음성 유닛들 간의 경계를 자동으로 검증할 수 있어, 비용과 시간이 효과적으로 감소될 수 있다.
또한, 본 발명의 실시 예에 따르면, 잘못 이어진 음성 유닛들 간의 경계가 자동으로 보정되어, 합성 음성의 품질이 크게 향상된다.
도 1은 본 발명의 일 실시 예에 따른 음성 합성 시스템의 구성을 설명하는 도면이다.
도 2는 본 발명의 일 실시 예에 따른 음성 합성 장치의 구성을 설명하는 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 합성 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시 예에 따라 복수의 음성 유닛들이 조합된 합성 음성 유닛에 경계가 비 정상인 음성 유닛이 포함된 경우를 설명하는 도면이다.
도 4는 본 발명의 일 실시 예에 따라 복수의 음성 유닛들이 조합된 합성 음성 유닛에 경계가 비 정상인 음성 유닛이 포함된 경우를 설명하는 도면이다.
도 5는 본 발명의 일 실시 예에 따라, 파워 스펙트럼을 이용하여, 정상 경계를 갖는 음성 유닛을 분류하는 과정을 설명하는 도면이다.
도 6은 본 발명의 일 실시 예에 따라, 파워 스펙트럼을 이용하여, 비 정상 경계를 갖는 음성 유닛을 분류하는 과정을 설명하는 도면이다.
도 7은 본 발명의 일 실시 예에 따라 비 정상 경계로 분류된 제1 음성 유닛과 제2 음성 유닛 간의 경계를 보정하는 과정을 설명하는 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에서 설명되는 단말기에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등이 포함될 수 있다.
그러나, 본 명세서에 기재된 실시 예에 따른 구성은 이동 단말기에만 적용 가능한 경우를 제외하면, 디지털 TV, 데스크탑 컴퓨터, 디지털사이니지 등과 같은 고정 단말기에도 적용될 수도 있음을 본 기술분야의 당업자라면 쉽게 알 수 있을 것이다.
도 1은 본 발명의 일 실시 예에 따른 음성 합성 시스템의 구성을 설명하는 도면이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 음성 합성 시스템은 음성 합성 장치(100) 및 복수의 단말기들(200-1 내지 200-n)을 포함한다.
음성 합성 장치(100)는 음성 유닛들 간의 합성이 제대로 이루어졌는지를 검증할 수 있다.
음성 합성 장치(100)는 검증된 합성 유닛들을 각 단말기에 유선 또는 무선으로 전송할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 음성 합성 장치의 구성을 설명하는 블록도이다.
도 2를 참조하면, 본 발명의 일 실시 예에 따른 음성 합성 장치(100)는 데이터 베이스(110), 프로세서(130) 및 통신부(150)를 포함할 수 있다.
데이터 베이스(110)는 복수의 음성 유닛들을 저장한다. 데이터 베이스(110)는 unit selection 과정에 따라 음성 유닛들이 조합된 합성 유닛들을 저장할 수 있다.
프로세서(130)는 음성 합성 장치(100)의 구성 요소들을 전반적으로 제어할 수 있다.
프로세서(130)는 파워 스펙트럼 추출부(131), 파워 스펙트럼 유사도 측정부(133), 경계 분류부(135) 및 경계 보정부(137)를 포함한다.
파워 스펙트럼 추출부(131)는 제1 음성 유닛의 경계에 대응하는 제1 파워 스펙트럼 및 제2 음성 유닛의 경계에 대응하는 제2 파워 스펙트럼을 추출할 수 있다.
파워 스펙트럼 유사도 측정부(133)는 제1 파워 스펙트럼과 제2 파워 스펙트럼 간의 유사도를 측정할 수 있다.
경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인지를 판단할 수 있다.
경계 분류부(135)는 측정된 유사도가 기준 유사도 미만인 경우, 제1 음성 유닛과 제2 음성 유닛 간의 경계를 정상 경계로 분류할 수 있다.
경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인 경우, 제1 음성 유닛과 제2 음성 유닛 간의 경계를 비 정상 경계로 분류할 수 있다.
경계 보정부(137)는 비 정상 경계로 분류된 제1 음성 유닛과 제2 음성 유닛 간의 경계를 보정하는 경계 보정을 수행할 수 있다.
통신부(150)는 데이터 베이스(110)에 저장된 합성 유닛들을 유선 또는 무선으로, 단말기에 전송할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 음성 합성 장치의 동작 방법을 설명하기 위한 흐름도이다.
프로세서(130)의 파워 스펙트럼 추출부(131)는 제1 음성 유닛의 경계에 대응하는 제1 파워 스펙트럼을 추출한다(S301).
이하에서, 음성 유닛은 하나의 글자에 대응하는 음성 정보를 담고 있는 유닛일 수 있다.
음성 유닛은 하나의 글자를 음성으로 변환 시, 생성되는 음성 파형 및 파워 스펙트럼을 포함할 수 있다.
파워 스펙트럼은 시간적으로 변동하는 파형이 주어졌을 때, 그 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되고 있는지를 나타내는 파라미터일 수 있다.
일 실시 예에서, 제1 음성 유닛의 경계는 제1 음성 유닛이 형성하는 시간의 끝 부분에 대응하는 위치일 수 있다. 즉, 제1 파워 스펙트럼은 제1 음성 유닛의 전체 파워 스펙트럼을 동일한 시간 간격을 갖는 복수의 시간 슬롯들로 나누었을 때, 마지막 시간 슬롯에 대응하는 스펙트럼일 수 있다.
프로세서(130)의 파워 스펙트럼 추출부(131)는 제2 음성 유닛의 경계에 대응하는 제2 파워 스펙트럼을 추출한다(S303).
일 실시 예에서, 제2 음성 유닛의 경계는 제2 음성 유닛이 형성하는 시간의 처음 부분에 대응하는 위치일 수 있다. 즉, 제2 파워 스펙트럼은 제2 음성 유닛의 전체 파워 스펙트럼을 동일한 시간 간격을 갖는 복수의 시간 슬롯들로 나누었을 때, 첫 시간 슬롯에 대응하는 스펙트럼일 수 있다.
프로세서(130)의 파워 스펙트럼 유사도 측정부(133)는 제1 파워 스펙트럼과 제2 파워 스펙트럼 간의 유사도를 측정한다(S305).
일 실시 예에서, 파워 스펙트럼 유사도 측정부(133)는 벡터 성분 간 교차 비교를 수행하는 크로스 빈(Cross-Bin) 방식으로, 파워 스펙트럼의 유사도를 측정할 수 있다.
파워 스펙트럼 유사도 측정부(133)는 제1 파워 스펙트럼의 제1 주파수 대역과 제2 파워 스펙트럼의 제2 주파수 대역 간의 차이 및 제1 주파수 대역의 크기와 제2 주파수 대역 간의 크기를 이용하여, 제1 파워 스펙트럼과 제2 파워 스펙트럼의 유사도를 측정할 수 있다.
프로세서(130)의 경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인지를 판단한다(S307).
경계 분류부(135)는 제1 주파수 대역과 제2 주파수 대역 간의 차이가 기 설정된 주파수 값 이상이고, 제1 주파수 대역의 크기와 제2 주파수 대역의 크기 간의 차이가 기 설정된 크기 이상인 경우, 제1 파워 스펙트럼과 제2 파워 스펙트럼의 유사도가 기준 유사도 미만인 것으로 판단할 수 있다.
경계 분류부(135)는 제1 주파수 대역과 제2 주파수 대역 간의 차이가 기 설정된 주파수 값 미만이고, 제1 주파수 대역의 크기와 제2 주파수 대역의 크기 간의 차이가 기 설정된 크기 미만인 경우, 제1 파워 스펙트럼과 제2 파워 스펙트럼의 유사도가 기준 유사도 이상인 것으로 판단할 수 있다.
프로세서(130)의 경계 분류부(135)는 측정된 유사도가 기준 유사도 미만인 경우, 제1 음성 유닛과 제2 음성 유닛 간의 경계를 정상 경계로 분류한다(S309).
경계 분류부(135)는 측정된 유사도가 기준 유사도 미만인 경우, 제1 음성 유닛과 제2 음성 유닛은 자연스러운 음성 조합이라고 판단하고, 해당 경계를 정상 경계로 분류할 수 있다.
경계 분류부(135)는 제1 음성 유닛과 제2 음성 유닛을 합성한 합성 음성을 데이터 베이스(110)에 저장한다(S311).
경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인 경우, 제1 음성 유닛과 제2 음성 유닛 간의 경계를 비 정상 경계로 분류한다(S313).
경계 분류부(135)는 측정된 유사도가 기준 유사도 이상인 경우, 제1 음성 유닛과 제2 음성 유닛이 부자연스러운 조합이라고 판단하고, 해당 경계를 비 정상 경계로 분류할 수 있다.
제1 음성 유닛의 경계와 제2 음성 유닛의 경계가 부자연스러운 경우, 제1 음성 유닛과 제2 음성 유닛이 조합된 출력은 부자연스러운 발화로 이어질 수 있다.
이하에서는, 단계 S301 내지 S313에 대해 설명한다.
도 4는 본 발명의 일 실시 예에 따라 복수의 음성 유닛들이 조합된 합성 음성 유닛에 경계가 비 정상인 음성 유닛이 포함된 경우를 설명하는 도면이다.
도 4를 참조하면, 합성 음성 유닛(400)은 제1 음성 유닛(410), 제2 음성 유닛(430), 제3 음성 유닛(450) 및 제4 음성 유닛(470)을 포함한다.
제1 음성 유닛(410)은 <했>이라는 글자에 대응되는 유닛이고, 제2 음성 유닛(430)은 <복>이라는 글자에 대응하는 유닛이고, 제3 음성 유닛(450)은 <했ㅅ>에 글자에 대응되는 유닛이고, 제4 음성 유닛(470)은 <던>이라는 글자에 대응되는 유닛이다.
합성 음성 유닛에 대응하는 텍스트가 입력되어, 음성으로 변환될 시, 비정상 경계를 갖는 제3 음성 유닛(450)으로 인해, 부자연스러운 발화음이 출력될 수 있다.
따라서, 제3 음성 유닛(450)과 같이, 비 정상 경계를 갖는 유닛을 분류하고, 해당 유닛의 경계를 보정하는 작업이 필요하다.
도 5는 본 발명의 일 실시 예에 따라, 파워 스펙트럼을 이용하여, 정상 경계를 갖는 음성 유닛을 분류하는 과정을 설명하는 도면이다.
도 5를 참조하면, 제1 음성 유닛(510) 및 제2 음성 유닛(530)이 unit-selection 기법에 따라 조합된 상태를 보여준다.
제1 음성 유닛(510)은 제1 파워 스펙트럼(511) 및 제1 음성 파형(513)을 포함한다.
음성 합성 장치(100)의 프로세서(130)는 제1 파워 스펙트럼(511)을 복수의 시간 슬롯들로 구분했을 때, 마지막 시간 슬롯에 대응하는 제1 부분 파워 스펙트럼(511a)을 추출할 수 있다.
즉, 마지막 시간 슬롯은 제1 음성 유닛(510)의 끝 경계에 대응하는 시간 슬롯일 수 있다.
제2 음성 유닛(530)은 제2 파워 스펙트럼(531) 및 제2 음성 파형(533)을 포함한다.
프로세서(130)는 제2 파워 스펙트럼(531)을 복수의 시간 슬롯들로 구분했을 때, 첫 시간 슬롯에 대응하는 제2 부분 파워 스펙트럼(531a)을 추출할 수 있다.
프로세서(130)는 제1 부분 파워 스펙트럼(511a)과 제2 부분 파워 스펙트럼(531a) 간의 유사도를 측정할 수 있다.
프로세서(130)는 제1 부분 파워 스펙트럼(511a)의 주파수 대역과 제2 부분 파워 스펙트럼(531a)의 주파수 대역 간의 차이인 제1 값 및, 각 주파수 대역 간의 크기(amplitude) 차이인 제2 값을 비교하여, 유사도를 측정할 수 있다.
프로세서(130)는 제1 값이 제1 기준 값 이상이고, 제2 값이, 제2 기준 값 이상인 경우, 제1 부분 파워 스펙트럼(511a)과 제2 부분 파워 스펙트럼(531a) 간의 유사도가 기준 유사도 미만인 것으로 판단할 수 있다.
제1 기준 값 및 제2 기준 값은 프로그램에 의해 미리 설정된 값일 수 있다.
이 경우, 프로세서(130)는 제1 음성 유닛(510)과 제2 음성 유닛(530) 간의 경계가 정상 경계인 것으로 판단할 수 있다.
프로세서(130)는 제1 음성 유닛(510)과 제2 음성 유닛(530) 간의 조합의 출력이 자연스러운 조합이라 판단하고, 해당 조합을 데이터 베이스(110)에 저장할 수 있다.
다음으로, 도 6을 설명한다.
도 6은 본 발명의 일 실시 예에 따라, 파워 스펙트럼을 이용하여, 비 정상 경계를 갖는 음성 유닛을 분류하는 과정을 설명하는 도면이다.
도 6을 참조하면, 제1 음성 유닛(610) 및 제2 음성 유닛(630)이 unit-selection 기법에 따라 조합된 상태를 보여준다.
제1 음성 유닛(610)은 제1 파워 스펙트럼(611) 및 제1 음성 파형(613)을 포함한다.
음성 합성 장치(100)의 프로세서(130)는 제1 파워 스펙트럼(611)을 복수의 시간 슬롯들로 구분했을 때, 마지막 시간 슬롯에 대응하는 제1 부분 파워 스펙트럼(611a)을 추출할 수 있다.
즉, 마지막 시간 슬롯은 제1 음성 유닛(610)의 끝 경계에 대응하는 시간 슬롯일 수 있다.
제2 음성 유닛(630)은 제2 파워 스펙트럼(631) 및 제2 음성 파형(633)을 포함한다.
프로세서(130)는 제2 파워 스펙트럼(631)을 복수의 시간 슬롯들로 구분했을 때, 첫 시간 슬롯에 대응하는 제2 부분 파워 스펙트럼(631a)을 추출할 수 있다.
프로세서(130)는 제1 부분 파워 스펙트럼(611a)과 제2 부분 파워 스펙트럼(631a) 간의 유사도를 측정할 수 있다.
프로세서(130)는 제1 부분 파워 스펙트럼(611a)의 주파수 대역과 제2 부분 파워 스펙트럼(631a)의 주파수 대역 간의 차이인 제1 값 및, 각 주파수 대역 간의 크기(amplitude) 차이인 제2 값을 비교하여, 유사도를 측정할 수 있다.
프로세서(130)는 제1 값이 제1 기준 값 미만이고, 제2 값이, 제2 기준 값 미만인 경우, 제1 부분 파워 스펙트럼(511a)과 제2 부분 파워 스펙트럼(531a) 간의 유사도가 기준 유사도 이상인 것으로 판단할 수 있다.
이 경우, 프로세서(130)는 제1 음성 유닛(510)과 제2 음성 유닛(530) 간의 경계가 비 정상 경계인 것으로 판단할 수 있다.
프로세서(130)는 unit-selection이 잘못 수행된 결과로 판단하고, 제1 음성 유닛(510)과 제2 음성 유닛(530) 간의 경계를 보정하는 작업을 수행할 수 있다.
이에 대해서는 후술한다.
다시, 도 3을 설명한다.
경계 보정부(137)는 비 정상 경계로 분류된 제1 음성 유닛과 제2 음성 유닛의 파형을 검증하고, 경계 보정을 수행한다(S315).
일 실시 예에서, 프로세서(130)의 경계 보정부(137)는 제1 음성 유닛 또는 제2 음성 유닛의 시간 슬롯을 시프트 시켜, 제1 음성 유닛과 제2 음성 유닛의 경계를 보정할 수 있다.
이에 대해서는 도 7을 참조하여, 설명한다.
도 7은 본 발명의 일 실시 예에 따라 비 정상 경계로 분류된 제1 음성 유닛과 제2 음성 유닛 간의 경계를 보정하는 과정을 설명하는 도면이다.
도 7의 설명 시, 도 6의 실시 예를 이용하여 설명한다.
도 7을 참조하면, 비 정상 경계로 분류된 제1 음성 유닛(610)과 제2 음성 유닛(630)이 도시되어 있다.
제1 음성 유닛(610)은 비 정상 유닛(612)을 포함하고 있다. 비 정상 유닛(612)은 제2 음성 유닛(630)의 일부 발음에 대응하는 유닛일 수 있다.
프로세서(130)는 비 정상 유닛(612)에 대응하는 시간 슬롯들만큼을 타임 시프트 시킬 수 있다. 비 정상 유닛(612)이 타임 시프트된 경우, 기존의 제1 음성 유닛(610)은 새로운 음성 유닛(510)으로 변경될 수 있고, 기존의 제2 음성 유닛(630)은 새로운 음성 유닛(530)으로 변경될 수 있다.
새로운 음성 유닛들(510, 530)은 도 5에서 설명된 정상 경계를 갖는 유닛들일 수 있다.
즉, 타임 시프트에 의해, 비 정상 경계를 갖는 음성 유닛들이, 정상 경계를 갖는 음성 유닛들로 변경될 수 있다.
이와 같이, 본 발명의 실시 예에 따르면, 비 정상 경계를 갖는 음성 유닛들이 자동으로, 검출되고, 타임 시프트에 따른 경계 보정 작업으로, 합성된 음성의 음질이 개선될 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 단말기의 제어부(180)를 포함할 수도 있다.
따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고, 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (10)

  1. 음성 합성 장치에 있어서,
    복수의 음성 유닛들을 저장하는 데이터 베이스; 및
    제1 음성 유닛에 대응하는 제1 파워 스펙트럼 및 제2 음성 유닛에 대응하는 제2 파워 스펙트럼을 추출하고,
    상기 제1,2 파워 스펙스럼 간의 유사도를 비교하고, 상기 유사도가 기준 유사도 이상인 경우, 해당 경계를 비 정상 경계로 분류하고, 상기 유사도가 상기 기준 유사도 미만인 경우, 해당 경계를 정상 경계로 분류하는 프로세서를 포함하는
    음성 합성 장치.
  2. 제1항에 있어서,
    상기 제1 파워 스펙트럼은 상기 제1 음성 유닛의 전체 파워 스펙트럼을 동일한 시간 간격을 갖는 복수의 시간 슬롯들로 구분한 경우, 마지막 시간 슬롯에 대응하는 스펙트럼이고,
    상기 제2 파워 스펙트럼은 상기 제2 음성 유닛의 전체 파워 스펙트럼을 동일한 시간 간격을 갖는 복수의 시간 슬롯들로 구분한 경우, 첫 시간 슬롯에 대응하는 스펙트럼인
    음성 합성 장치.
  3. 제2항에 있어서,
    상기 프로세서는
    상기 제1 파워 스펙트럼의 제1 주파수 대역과 상기 제2 파워 스펙트럼의 제2 주파수 대역 간의 차이가 기 설정된 주파수 값 미만이고, 상기 제1 주파수 대역의 크기와 상기 제2 제2 주파수 대역의 크기 간의 차이가 기 설정된 크기 미만인 경우, 상기 유사도가 상기 기준 유사도 이상인 것으로 판단하는
    음성 합성 장치.
  4. 제3항에 있어서,
    상기 프로세서는
    상기 유사도가 상기 기준 유사도 이상인 경우, 상기 비 정상 경계로 분류된 상기 제1 음성 유닛과 상기 제2 음성 유닛을 타임 시프트하는
    음성 합성 장치.
  5. 제4항에 있어서,
    상기 프로세서는
    상기 제1 음성 유닛에 포함된 비 정상 유닛을 타임 시프트 하여, 상기 제2 음성 유닛으로 이전시키는
    음성 합성 장치.
  6. 제5항에 있어서,
    상기 프로세서는
    상기 타임 시프트의 수행 결과를 반영한 음성 유닛들의 조합을 상기 데이터 베이스에 저장하는
    음성 합성 장치.
  7. 제6항에 있어서,
    상기 저장된 음성 유닛들의 조합을 단말기에 무선으로 전송하는 통신부를 더 포함하는
    음성 합성 장치.
  8. 제3항에 있어서,
    상기 프로세서는
    상기 제1 파워 스펙트럼의 제1 주파수 대역과 상기 제2 파워 스펙트럼의 제2 주파수 대역 간의 차이가 기 설정된 주파수 값 이상이고, 상기 제1 주파수 대역의 크기와 상기 제2 제2 주파수 대역의 크기 간의 차이가 기 설정된 크기 이상인 경우, 상기 유사도가 상기 기준 유사도 미만인 것으로 판단하는
    음성 합성 장치.
  9. 제1항에 있어서,
    상기 프로세서는
    상기 제1 파워 스펙트럼 및 상기 제2 파워 스펙트럼을 추출하는 파워 스펙트럼 추출부,
    상기 제1 파워 스펙트럼 및 상기 제2 파워 스펙트럼 간의 유사도를 측정하는 파워 스펙트럼 유사도 측정부,
    상기 유사도가 기준 유사도 이상인 경우, 해당 경계를 비 정상 경계로 분류하고, 상기 유사도가 상기 기준 유사도 미만인 경우, 해당 경계를 정상 경계로 분류하는 경계 분류부를 포함하는
    음성 합성 장치.
  10. 제9항에 있어서,
    상기 프로세서는
    상기 유사도가 상기 기준 유사도 이상인 경우, 상기 제1 음성 유닛과 상기 제2 음성 유닛 간의 경계를 보정하는 경계 보정부를 더 포함하는
    음성 합성 장치.
KR1020180069820A 2018-06-18 2018-06-18 음성 합성 장치 KR102108906B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180069820A KR102108906B1 (ko) 2018-06-18 2018-06-18 음성 합성 장치
PCT/KR2018/008930 WO2019245103A1 (ko) 2018-06-18 2018-08-07 음성 합성 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180069820A KR102108906B1 (ko) 2018-06-18 2018-06-18 음성 합성 장치

Publications (2)

Publication Number Publication Date
KR20190142638A true KR20190142638A (ko) 2019-12-27
KR102108906B1 KR102108906B1 (ko) 2020-05-12

Family

ID=68984151

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180069820A KR102108906B1 (ko) 2018-06-18 2018-06-18 음성 합성 장치

Country Status (2)

Country Link
KR (1) KR102108906B1 (ko)
WO (1) WO2019245103A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100477980B1 (ko) * 2003-03-04 2005-03-23 삼성전자주식회사 합성음의 자연성 향상을 위한 불량 음성합성단위 제거방법
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법
KR101650739B1 (ko) * 2015-07-21 2016-08-24 주식회사 디오텍 음성 합성 방법, 서버 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101056567B1 (ko) * 2004-09-23 2011-08-11 주식회사 케이티 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치 및그 방법
ES2374008B1 (es) * 2009-12-21 2012-12-28 Telefónica, S.A. Codificación, modificación y síntesis de segmentos de voz.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100477980B1 (ko) * 2003-03-04 2005-03-23 삼성전자주식회사 합성음의 자연성 향상을 위한 불량 음성합성단위 제거방법
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법
KR101650739B1 (ko) * 2015-07-21 2016-08-24 주식회사 디오텍 음성 합성 방법, 서버 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Also Published As

Publication number Publication date
WO2019245103A1 (ko) 2019-12-26
KR102108906B1 (ko) 2020-05-12

Similar Documents

Publication Publication Date Title
US9373328B2 (en) Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
US10095610B2 (en) Testing applications with a defined input format
CN105810211B (zh) 一种音频数据的处理方法及终端
TWI508057B (zh) 語音辨識系統以及方法
US10510342B2 (en) Voice recognition server and control method thereof
US10249321B2 (en) Sound rate modification
US9451304B2 (en) Sound feature priority alignment
US20180158469A1 (en) Audio processing method and apparatus, and terminal
JP2017058483A (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US20200135177A1 (en) Language phonetic processing based on fine-grained mapping of phonetic components
CN105590627A (zh) 图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质
US20110320206A1 (en) Electronic book reader and text to speech converting method
US9183837B2 (en) Apparatus and method for determining bit rate for audio content
CN109947924B (zh) 对话***训练数据构建方法、装置、电子设备及存储介质
KR20200015154A (ko) 음성 판독 장치
US9740683B2 (en) Disambiguation in concept identification
US9154099B2 (en) Electronic device and method for optimizing music
KR20190142638A (ko) 음성 합성 장치
JP2015045689A (ja) 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム
WO2020148166A1 (en) A computer-implemented method, an apparatus and a computer program product for determining an updated set of words for use in an auditory verbal learning test
CN110427282A (zh) 用于日志碎片恢复的方法、装置及计算机可读介质
KR102247902B1 (ko) 단말기
CN108682437B (zh) 信息处理方法、装置、介质和计算设备
KR102368193B1 (ko) 음성합성을 이용한 음성인식기능 검증 방법 및 장치
KR102168316B1 (ko) 입력 문자에 대한 오타 보정 처리가 가능한 터치스크린이 구비된 전자 단말 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant