KR100238189B1

KR100238189B1 - 다중 언어 tts장치 및 다중 언어 tts 처리 방법

Info

Publication number: KR100238189B1
Application number: KR1019970053020A
Authority: KR
Inventors: 오창환
Original assignee: 윤종용; 삼성전자주식회사
Priority date: 1997-10-16
Filing date: 1997-10-16
Publication date: 2000-01-15
Also published as: US6141642A; KR19990032088A

Abstract

본 발명은 여러나라의 언어로 구성된 문장를 처리할 수 있는 다중언어 TTS 장치 및 다중언어 TTS 처리 방법에 관한 것으로서, 상기 다중언어 TTS 장치는 다중언어의 문장을 입력받고, 상기 입력된 문장을 각각의 언어별로 분할하는 다중언어 처리부; 상기 다중언어 처리부에서 분할된 문장을 각각 오디오 웨이브 데이터로 변환하는 각종 언어별 TTS 엔진들을 구비한 TTS 엔진부; 상기 TTS 엔진부에서 변환된 오디오 웨이브 데이터를 아날로그 음성 신호로 변환하는 오디오 처리부; 및 상기 오디오 처리부에서 변환된 아날로그 음성 신호를 음성으로 변환하여 출력하는 스피커를 포함하는 것을 특징으로 한다.

본 발명에 의하면, 사전 또는 인터넷 등과 같이 다중언어로 구성된 문장이 사용되는 분야에서도 문장을 음성으로 적절히 변환할 수 있다.

Description

다중 언어 ＴＴＳ 장치 및 다중언어 ＴＴＳ 처리 방법

본 발명은 TTS(Text to Speach) 장치에 관한 것으로서, 특히 여러나라의 언어로 구성된 문장를 처리할 수 있는 다중언어 TTS 장치 및 다중언어 TTS 처리 방법에 관한 것이다.

도 1은 종래의 방식에 의해 TTS 처리를 하는 장치의 구성도이다. 소정의 언어로 입력된 문장은 TTS 엔진(100)에 의해 오디오 웨이브 데이터(Audio Wave Data)로 변환되고, 상기 TTS 엔진(100)에 의해 변환된 오디오 웨이브 데이터는 오디오 처리부(110)에 의해 아날로그 음성 신호로 변환되고, 상기 오디오 처리부(110)에 의해 변환된 아날로그 음성 신호는 스피커(120)를 통해 음성으로 내보내진다.

그런데, 종래의 기술에 의한 TTS 장치는 한 가지 종류의 언어(즉, 한국어 또는 영어 또는 일본어 등)로만 이루어진 문장에 대해서는 적절한 음성을 생성할 수 있으나, 여러 종류의 언어가 혼합되어 있는 문장, 즉 다중언어의 문장에 대해서는 적절한 음성을 생성하지 못하는 단점을 지닌다.

본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 사전 또는 인터넷 등에서 사용되는 다중언어 문장에 대해서도 적절한 음성을 생성할 수 있는 다중언어 TTS 장치 및 다중언어 TTS 처리 방법를 제공함을 그 목적으로 한다.

도 1은 종래의 방식에 의해 TTS 처리를 하는 장치의 구성도이다.

도 2는 본 발명의 일실시예로서, 한글/영어 혼합문장을 TTS 처리하는 장치의 구성도이다.

도 3은 상기 도 2에 도시된 다중언어 처리부의 동작 상태를 설명하기 위한 상태도이다.

상기의 목적을 달성하기 위하여, 본 발명에 의한 다중언어 TTS 장치는 다중언어의 문장을 입력받고, 상기 입력된 문장을 각각의 언어별로 분할하는 다중언어 처리부; 상기 다중언어 처리부에서 분할된 문장을 각각 오디오 웨이브 데이터로 변환하는 각종 언어별 TTS 엔진들을 구비한 TTS 엔진부; 상기 TTS 엔진부에서 변환된 오디오 웨이브 데이터를 아날로그 음성 신호로 변환하는 오디오 처리부; 및 상기 오디오 처리부에서 변환된 아날로그 음성 신호를 음성으로 변환하여 출력하는 스피커를 포함하는 것을 특징으로 한다.

상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 다중언어로 구성된 입력 문장을 음성으로 변환하는 방법은 현재 처리하고 있는 언어와 다른 언어를 발견할 때까지, 상기 입력 문장에 포함된 문자를 하나씩 확인하는 제1 단계; 상기 제1 단계에서 확인된 문자들의 리스트를 상기 현재 처리하고 있는 언어에 적합한 오디오 웨이브 데이터로 변환하는 제2 단계; 상기 제2 단계에서 변환된 오디오 웨이브 데이터를 음성으로 변환하여 출력하는 제3 단계; 및 상기 입력 문장 중에 변환할 문자가 더 남아 있는 경우에는 상기 제1 단계에서 발견한 현재 처리하고 있는 언어와 다른 언어를 현재 처리하고 있는 언어로 변경하여 상기 제1 단계 내지 상기 제3 단계를 반복하는 제4 단계를 포함함을 특징으로 한다.

이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

도 2에 의하면, 본 발명의 일실시예로서, 한글/영어 혼합문장을 TTS 처리하는 장치는 다중언어 처리부(200), TTS 엔진부(210), 오디오 처리부(220) 및 스피커(230)를 포함하여 구성된다.

상기 다중언어 처리부(200)는 상기 한글/영어 혼합문장을 입력받고, 상기 입력된 혼합문장을 한글 또는 영어로 분할한다.

도 3에 의하면, 본 발명의 일실시예로서, 한글/영어 혼합문장을 TTS 처리하는 장치에 포함된 다중언어 처리부(200)는 2개의 언어처리부들, 즉 한글처리부(300) 및 영어처리부(310)를 구비한다.

상기 언어처리부들(300, 310)은 각각 자신이 처리하는 언어와 다른 언어를 발견할 때까지 상기 한글/영어 혼합문장을 문자 단위로 입력받아 상기 TTS 엔진부(210)에 포함된 해당 TTS 엔진에 전달하고, 상기 발견한 다른 언어를 처리하는 언어처리부로 제어를 넘겨준다. 상기 다중언어 처리부(200)는 본 발명의 실시예에서 지원하고자 하는 언어의 종류가 추가됨에 따라 얼마든지 지원하고자 하는 언어에 대한 언어처리부를 추가할 수 있다.

상기 TTS 엔진부(210)는 상기 다중언어 처리부(200)에서 분할된 한글 문자 리스트와 영어 문자 리스트를 각각 오디오 웨이브 데이터로 변환하는 한글 TTS 엔진(214)과 영문 TTS 엔진(212)을 구비한다. 상기 TTS 엔진들(212, 214)은 각각 어휘 분석(Lexical Analysis) 단계, 어근 분석 단계, 파싱(Parsing) 단계, 웨이브 매칭(Wave Matching) 단계 및 억양 수정 단계에 의해 소정의 언어로 입력된 문장을 오디오 웨이브 데이터로 변환한다. 상기 TTS 엔진부(210)도 상기 다중언어 처리부(200)와 같이 본 발명의 실시예에서 지원하고자 하는 언어의 종류가 추가됨에 따라 얼마든지 지원하고자 하는 언어에 대한 TTS 엔진을 추가할 수 있다.

상기 오디오 처리부(220)는 상기 TTS 엔진부(210)에서 변환된 오디오 웨이브 데이터를 아날로그 음성 신호로 변환한다. 상기 오디오 처리부(220)는 도 1에 도시된 종래 기술에 의한 TTS 장치에 포함된 오디오 처리부(110)과 동일한 것으로서, 일반적으로 소프트웨어 모듈로서 오디오 드라이버와 하드웨어 블락으로서 오디오 카드를 포함하여 구성된다.

상기 스피커(230)는 상기 오디오 처리부(220)에서 변환된 아날로그 음성 신호를 음성으로 변환하여 출력한다.

도 3에 의하면, 본 발명의 일실시예로서, 한글/영문 혼합문장을 TTS 처리 과정은 하나의 FSM(Finite State Machine)을 이룬다. 상기 FSM은 1, 2, 3, 4 및 5의 다섯 가지 상태를 지닌다. 도 3에서 원 내부에 있는 숫자는 상기 다섯가지 상태 중 하나의 상태를 표시한다.

먼저, 한글/영어 혼합문장이 입력되면, 상태 1이 제어를 갖는다.

상태 1에서는 상기 입력된 혼합문장에서 다음에 처리할 문자를 읽어, 그 문자 코드가 한글 영역에 속하는지 여부를 확인한다. 상기 문자 코드가 한글 영역에 속하는 경우에는 계속 상태 1을 유지하고, 한글 영역에 속하지 않은 경우에는 음성 변환 및 출력을 위해 상태 4로 이동한다. 상태 4에서 출력이 끝난 후, 상기 문자 코드가 영문 영역에 속하는 경우에는 상태 2로 이동한다. 상기 혼합문장의 끝이 확인되면 상태 5로 이동한다.

상태 2에서는 상기 입력된 혼합문장에서 다음에 처리할 문자를 읽어, 그 문자가 영문 영역에 속하는지 여부를 확인한다. 상기 문자 코드가 영문 영역에 속하는 경우에는 계속 상태 2를 유지하고, 영문 영역에 속하지 않는 경우에는 음성 변환 및 출력을 위해 상태 3으로 이동한다. 상태 3에서 출력이 끝난 후, 상기 문자 코드가 한글 영역에 속하는 경우에는 상태 1로 이동한다. 상기 혼합문장의 끝이 확인되면 상태 5로 이동한다.

이 때, 상태 1과 상태 2에서 읽은 문자 코드가 한글 영역에 속하는 지 또는 영문 영역에 속하는 지는 한글 코드가 지니는 2바이트 코드의 특성을 이용하여 판별할 수 있다.

상태 3에서는 상기 영문 TTS 엔진(212)을 불러 현재까지의 영문 문자 리스트를 오디오 웨이브 데이터로 변환하여 상기 오디오 처리부(220) 및 상기 스피커(230)를 통해 영어 음성을 출력한다. 다음, 상태 2로 돌아간다.

상태 4에서는 상기 한글 TTS 엔진(214)을 불러 현재까지의 한글 문자 리스트를 오디오 웨이브 데이터로 변환하여 상기 오디오 처리부(220) 및 상기 스피커(230)를 통해 한글 음성을 출력한다. 다음, 상태 1로 돌아간다.

상태 5에서는 상기 혼합문장에 대한 TTS 처리가 완료되어 작업을 종료한다.

예를들어, "나는boy이다"라는 혼합문장이 입력되는 경우에는 다음과 같이 처리된다.

먼저, 초기 상태, 즉, 상태 1에서 입력되는 문자가 한글인지 영문인지를 확인한다. 상태 1에서 문자 '나'가 입력되면, 입력 문자가 한글이므로 상태 변화는 없다. 다음, 상태 1에서 문자 '는'이 입력되더라도, 입력 문자가 한글이므로 상태 변화는 없다. 상태 1에서 문자 'b'가 입력되면, 상태 4로 이동하여 지금까지 버퍼에 저장된 "나는"이란 문자 리스트를 음성으로 출력하고, 다시 상태 1로 돌아온다. 상태 1에서는 입력된 영문 문자 'b'와 함께 제어를 상태 2로 넘겨준다.

상태 2에서는 상태 1에서 넘겨받은 'b'를 소정의 버퍼에 임시 저장한다. 상태 2에서는 계속하여 'o'와 'y'를 입력받아, 상기 버퍼에 임시 저장한다. 다음, 상태 2에서 문자 '이'가 입력되면, 상태 3으로 이동하여 지금까지 상기 버퍼에 저장된 "boy"이란 문자 리스트를 음성으로 출력하고, 다시 상태 2로 돌아온다. 상태 2에서는 입력된 한글 문자 '이'와 함께 제어를 상태 1로 넘겨준다.

상태 1에서는 상태 2에서 넘겨받은 '이'를 소정의 버퍼에 임시 저장한다. 상태 2에서는 계속하여 '다'를 입력받아, 상기 버퍼에 임시 저장한다. 다음, 상태 2에서 입력 문장의 끝을 만나게 되면, 상태 4로 이동하여 지금까지 상기 버퍼에 저장된 "이다"이란 문자 리스트를 음성으로 출력하고, 다시 상태 1로 돌아온다. 입력 문장에 더 이상 처리할 문자가 없으므로, 제어는 상태 5로 넘어가 작업이 종료된다.

본 발명은 다중 언어를 구성하는 언어 종류의 수가 추가(예를들어, 일본어, 라틴어, 그리스어 등)됨에 따라 상기 FSM이 포함하는 상태의 수는 추가될 수 있다.

또한, 상기 다중 언어로 구성되는 문장은 향후 유니코드(Unicode) 체계가 확립되면 각각의 언어로 쉽게 판별될 수 있다.

Claims

다중언어의 문장을 입력받고, 상기 입력된 문장을 각각의 언어별로 분할하는 다중언어 처리부;

상기 다중언어 처리부에서 분할된 문장을 각각 오디오 웨이브 데이터로 변환하는 각종 언어별 TTS 엔진들을 구비한 TTS 엔진부;

상기 TTS 엔진부에서 변환된 오디오 웨이브 데이터를 아날로그 음성 신호로 변환하는 오디오 처리부; 및

상기 오디오 처리부에서 변환된 아날로그 음성 신호를 음성으로 변환하여 출력하는 스피커를 포함하는 것을 특징으로 하는 다중언어 TTS 장치.
제1항에 있어서, 상기 다중언어 처리부는

각종 언어별 언어 처리를 위한 복수의 언어처리부들을 구비하고,

상기 복수의 언어처리부들은 각각 자신이 처리하는 언어와 다른 언어를 발견할 때까지 상기 다중언어의 문장을 문자 단위로 입력받아 상기 TTS 엔진부에 포함된 해당 TTS 엔진에 전달하고, 상기 발견한 다른 언어를 처리하는 언어처리부로 제어를 넘겨주는 것을 특징으로 하는 다중언어 TTS 장치.
다중언어로 구성된 입력 문장을 음성으로 변환하는 방법에 있어서,

현재 처리하고 있는 언어와 다른 언어를 발견할 때까지, 상기 입력 문장에 포함된 문자를 하나씩 확인하는 제1 단계;

상기 제1 단계에서 확인된 문자들의 리스트를 상기 현재 처리하고 있는 언어에 적합한 오디오 웨이브 데이터로 변환하는 제2 단계;

상기 제2 단계에서 변환된 오디오 웨이브 데이터를 음성으로 변환하여 출력하는 제3 단계; 및

상기 입력 문장 중에 변환할 문자가 더 남아 있는 경우에는 상기 제1 단계에서 발견한 현재 처리하고 있는 언어와 다른 언어를 현재 처리하고 있는 언어로 변경하여 상기 제1 단계 내지 상기 제3 단계를 반복하는 제4 단계를 포함함을 특징으로 하는 다중언어 TTS 처리 방법.
제1언어TTS엔진과 제2언어TTS엔진을 이용하여, 다중언어로 구성된 입력 문장을 음성으로 변환하는 방법에 있어서,

입력되는 문장의 첫 문자가 제1언어일 때, 제2언어가 입력될 때까지 상기 입력된 제1언어의 문자들을 소정의 버퍼에 임시 저장하는 제1단계;

상기 제1단계의 버퍼에 임시 저장된 제1언어의 문자들을 상기 제1언어TTS엔진을 이용하여 음성으로 변환하는 제2단계;

상기 제1언어가 입력될 때까지 상기 입력된 제2언어의 문자들을 소정의 버퍼에 임시 저장하는 제3단계;

상기 제3단계의 버퍼에 임시 저장된 제2언어의 문자들을 상기 제2언어TTS엔진을 이용하여 음성으로 변환하는 제4단계를 포함하고,

상기 입력 문장에 더 이상 처리할 문자가 없을 때까지 상기 제1단계 내지 상기 제4단계를 반복하는 것을 특징으로 하는 다중언어 TTS 처리 방법.