KR100363876B1

KR100363876B1 - 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법

Info

Publication number: KR100363876B1
Application number: KR1020000083144A
Authority: KR
Inventors: 백승표
Original assignee: (주)네오싸이피아
Priority date: 2000-12-27
Filing date: 2000-12-27
Publication date: 2002-12-11
Also published as: KR20020053496A

Abstract

개시된 본원 발명은 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법에 관한 것이다.

본원 발명에 따르는 음성의 특징 벡터를 이용한 문자 음성 변환 장치는, 문자열에 대한 읽기 규칙 데이터, 음소 파라미터 데이터, 문자 코드 데이터를 소정 기준에 의하여 저장하는 문자 데이터 베이스부; 소정 입력수단에 의하여 문자열을 입력받는 문자 입력부; 문자 입력부에서 입력된 문자에 대한 음소 데이터를 상기 문자 데이터 베이스부로부터 추출해내는 음소파라미터 추출부; 추출된 음소파라미터가 무성음인 경우 무성음에 대한 기본 주파수로서의 가우시안 잡음을 생성하는 가우시안 잡음 생성부; 추출된 음소파라미터가 유성음인 경우 유성음에 대한 기본 주파수로서의 임펄스 트래인을 생성해내는 임펄스 트래인 생성부; 임펄스 트래인 생성부에서 생성된 임펄스 트래인을 사람의 구강구조에서 나오는 음성 신호의 기본 주파수 파형으로 변환하는 글로탈 펄스 생성부; 가우시안 잡음 생성부와 글로탈 펄스 생성부에서 생성된 무성음 또는 유성음에 대한 기본 주파수 값에 상기 음소 파라미터 추출부에서 추출된 음소 파라미터 값을 적용하여 음소에 대한 음성 신호를 생성하는 보컬 트랙부; 및 보컬 트랙부에서 생성된 음소에 대한 음성 신호를 서로 연결하여 연속적인 음성신호로 합성하는 조음부;를 포함하여 구성된다.

본원 발명에 따르는 음성 특징 벡터를 이용한 문자 음성 변환 장치는 음성합성에 필요한 데이터 베이스를 최소화하고 음소 파라미터만을 이용하여 문자를 음성신호로 합성함으로써 음성 합성의 처리시간을 실시간으로 단축시킬 수 있으며, 음소 파라미터만을 이용하여 자연음에 가깝도록 문자를 음성으로 재생할 수 있도록 하는 효과가 있다.

Description

음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법{A text to speech system using the characteristic vector of voice and the method thereof}

본 발명은 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법에 관한 것이다. 더욱 상세하게는 문자에서 음소에 대한 문자 코드를 추출하고 추출된 문자 코드에 대한 음성 특징 벡터로서의 음소 파라미터를 이용하여 문자를 음성신호로 합성 재생할 수 있도록 하는 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법에 관한 것이다.

문자 음성 변환 장치 및 그 방법은 인간과 컴퓨터 사이의 가장 자연스러운 의사 전달 형태인 음성 언어를 이용하여 문장을 음성으로 바꾸어 주는 문자 음성 변환 기술로, 작게는 장난감, 가전 제품으로부터 크게는 자동차, 엘리베이터, 빌딩에 이르기까지 인간이 사용하는 모든 분야에 걸쳐 사용될 수 있는 중요한 기술이다

도 1을 참조하여 종래에 있어서의 음성 문자 변환 장치 및 그 방법을 설명하면 다음과 같다.

도 1은 한국어에서의 음성-문자 변환 시스템의 개략적인 시스템 구성 및 그 동작의 처리과정을 나타내는 블록도이다.

도시된 바와 같이 종래의 문자-음성 변환 시스템은 문장이 입력되고 이를 처리하기 위한 전처리부(101), 전처리과정에 필요한 데이터를 추출하기 위한 사전형의 숫자/기호/약어 DB(101), 전처리된 문자에 대한 형태소를 분리하는 형태소 분석부(103), 형태소 분석부(103)에서 형태소를 분석하기 위한 데이터 사전으로서의 형태소 DB(104), 구문 분석을 위한 파서부(105), 분석된 구문에 대한 글자를 음운으로 변환하는 글자/음운 변환부(106), 글자/음운 변환 중에 기호나 특수 문자에 대한 발음 규칙에 대한 데이터 사전으로서의 예외발음 DB(107), 글자/음운 변환부(106)에서 변환된 음운에 대한 운율. 합성단위 및 글자, 단어, 문장의 경계 정보를 생성해내는 음성합성 데이터 생성부(108), 음성 합성 데이터 생성부(108)에서 생성된 음성 합성 데이터에 대한 각각의 음성 데이터의 지속시간을 설정하는 지속시간 제어부(109), 합성될 음성의 기본 주파수를 설정하는 기본 주파수를 생성하고 제어하는 기본 주파수 제어부(110), 상술한 구성요소에서 생성된 음성 합성 데이터, 지속시간 정보, 기본 주파수를 이용하여 음성신호를 합성하는 합성음 생성부(111), 및 합성음 생성부에서 상술한 음성합성에 필요한 합성단위를 추출하고 이를 음성 합성에 이용하도록 다수의 합성음을 데이터로 저장한 합성단위 DB(112)를 포함하여 구성된다.

이러한 기술들의 일부를 이용하여 구현한 종래 기술로서의 일 실시예들로는 특허 등록번호 10-0194814의 "다단계 입력 정보를 이용한 텍스트/음성변환기 및 그 방법", 특허 공개번호 특2000-0024096의 "디지털 음성 재생장치", 특허 공개번호 특2000-0024318의 "인터넷을 이용한 TTS 시스템 및 TTS 서비스 방법", 그리고 공개실용신안 실 2000-0011449의 "키보드 타이핑 시 음성 정보를 출력하는 기능을 갖는 컴퓨터시스템" 등이 있다.

그러나, 상술한 종래 기술들은 개인의 정보를 다단계에 걸쳐 처리하므로 음질의 향상을 도모할 수 있으나, 음성의 데이터 양이 많아지고 이로 인하여 인터넷 등의 통신에서 음성의 특징을 파라미터화하여 처리할 때 전송의 문제가 생길 수 있다. 또한 개인의 운율에 대한 파라미터를 추출함에 있어서, 개인의 특성을 최대한 살릴 수 있는 정보를 추출하고 이를 처리하는 시간이 실시간으로 이루어지기 어렵다는 문제점이 있다.

또한 PCM을 사용하여 하드웨어적으로 구성하는 경우, 압축율이 떨어지며, 사용자가 하드웨어를 구입 설치 해야하는 등의 불편한 점이 있고, 문서를 스캔하고 이를 문자화하여 재생함으로써, 스캔 한 문서를 문자화하는 데에 따른 오류발생의 가능성이 있다는 문제점이 있다. 이와 함께 음성의 특징을 PCM으로 코딩함으로써 데이터 용량이 많아지며, TTS 시스템이 키보드 입력 시 입력되는 키보드의 값과 이에 매칭되는 음성으로 작성되나, 이에 대한 음성 재생 방법이 당업자가 실시하기에는 불충분하게 설명되어 있는 문제점이 있다.

그리고 음성을 재생할 때 WAV 나 MP3 등의 형태로 데이터를 저장하는 경우에는 재생하기 위해 저장해야 하는 데이터의 용량이 커져서 인터넷 등의 통신에서 데이터를 전송하고 재생할 때 스트리밍이나 버퍼링 등의 처리시간이 필요하여 실시간 처리가 어렵다. 그리고 문자의 파라미터만을 전송하는 경우에도 하기에 설명될 본원 발명에 비해 음질이 떨어진다는 문제점이 있다.

이에 본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 자연어에 대하여 음소단위로 그 주파수 특성을 데이터 베이스화하여 텍스트문서를 음성으로 변환 출력하기 위하여 기 구성된 음성의 특징 벡터를 데이터로 하는 음소 파라미터 데이터 테이블에서 텍스트 문서를 구성하는 문자에 대응되는 음소에 대한 특징 벡터(음소 파라미터)로서의 음성 특징 벡터로서의 음소 파라미터 만을 추출하여 주파수 영역에서 비선형적으로 시간영역에서 선형적으로 연결, 음성으로 합성, 재생하는 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법을 제공하는데 그 목적이 있다.

도 1은 종래 기술에 있어서의 음성합성 방법의 전체 처리 과정을 나타내는 블록도이며,

도 2는 본원 발명에 따르는 음성 특징 벡터를 이용한 문자 음성 변환 장치의 바람직한 일 실시 예를 나타내는 블록도이고,

도 3은 본원 발명에 따르는 음성 특징 벡터를 이용한 문자 음성 변환에 대한 처리 과정을 나타내는 바람직한 일 실시 예를 나타내는 순서도이며.

도 4는 상술한 도 3의 처리과정 중 음성 합성 및 출력 과정을 나타내는 서브루틴도이고.

도 5는 본원 발명에 따르는 음성의 특징 벡터를 이용한 문자 음성 변환 장치를 네트워크 환경에서 적용한 일 실시 예를 나타내는 도면이다.

* 도면의 주요 부분에 대한 부호의 설명*

200 : 문자 음성 변환 장치 201 : 문자 입력부

202 : 음소 파라미터 추출부 203 : 문자 데이터베이스부

204 : 가우시안 잡음 생성부 205 : 임펄스 트래인 생성부

206 : 글로탈 펄스 생성부 207 : 증폭부

208 : 보컬 트랙부 209 : 조음부

본원 발명은 상기의 처리과정 중 음성의 분석 및 음성 합성 단계에서 문자, 단어 등에 대한 방대한 데이터 베이스의 구축을 간소화할 수 있도록 음성의 특징 벡터로서 음소에 대한 주파수, 지속시간, 시작시각, 피치 주기 등의 음소 파라미터를 사용한다.

음성의 특징 벡터로서 음소 파라미터를 사용하기 위해서는 음소에 대한 음소 파라미터를 추출하여 이를 데이터 베이스화 하여야 하는데, 이는 본원 출원인과 동일인이 출원한 특허 2000-0056532 호의 "비선형 방법에 의한 음성신호 특징 추출 장치 및 그 방법"에서와 같이 음성신호를 유성음, 무성음 및 무음의 음소 단위로 추출하여 음소 각각에 대한 음성 특징 벡터로서의 음소 파라미터를 추출한 후 추출된 음소파라미터를 데이터로 하는 데이터 베이스를 구축함으로써 달성될 수 있다.

상술한 기 출원된 특허 2000-0056532 호의 방법에 의해 추출된 음소 파라미터 데이터를 포함하는 기 구성된 문자 데이터 베이스를 이용하여 기 입력된 문자의코드를 음소 단위로 해석하고 이에 해당하는 음소의 파라미터를 추출한다. 파라미터는 음소별로 구성되며, 이러한 파라미터를 이용하여 온라인 상에서, 또는 로컬 시스템 상에서 음성합성에 의한 음성 재생을 구현한다.

이하, 본원 발명에 따르는 음성의 특징 벡터(음소 파라미터)를 이용한 문자 음성 변환 장치 및 그 방법의 바람직한 일 실시 예를 첨부된 도면을 참조하여 보다 상세히 설명한다.

도 2는 본원 발명에 따르는 음성 특징 벡터를 이용한 문자 음성 변환 장치의 바람직한 일 실시 예를 나타내는 도면이다.

도시된 바와 같이 본원 발명에 따르는 문자 음성 변환 장치는 문자 입력부(201), 음소파라미터 추출부(202), 문자 데이터베이스부(203), 스위칭부(S), 가우시안 잡음 생성부(204), 임펄스 트래인 생성부(205), 글로탈 펄스 생성부(206), 제 1 및 제 2 증폭부(207,207'), 보컬 트랙부(208), 및 조음부(209)를 포함하여 구성되며 보컬트랙부에 음소 파라미터 데이터를 전송하는 제 1 데이터라인(210)과 임펄스 트래인 생성부(205)로 피치주기 데이터를 전송하는 제 2 데이터 라인(211)을 포함하여 구성된다.

다음으로 상술한 음성 특징 벡터를 이용한 문자 음성 변환 장치의 구성요소들을 상세히 설명한다.

상술한 문자 데이터베이스부(203)는 음소 파라미터 추출부(202)에서 문자에 대응하는 음소 파라미터를 추출하기 위해 필요한 데이터 베이스이다. 음소 파라미터의 추출을 위하여 상술한 문자 데이터베이스부(203)는 그 내부에 읽기 규칙 테이블, 문자 코드 테이블, 음소 파라미터 테이블을 갖는다.

상술한 문자 데이터베이스부(203) 중 읽기 규칙 테이블은 상술한 음소 파라미터 추출부(202)가 기호, 숫자, 특수 문자를 소리나는 대로의 문자 코드로 변환하는 과정에서 사용된다. 따라서 상술한 읽기 규칙 테이블은 기호, 숫자, 특수 문자 등에 대한 읽기 규칙에 대한 데이터를 갖는데 이러한 읽기 규칙은 한글인 경우 문교부 고시 한글 읽기 규칙을 따르도록 구성됨이 바람직하다. 상기 읽기 규칙의 예로는 "%"라는 특수 문자를 "퍼센트"라는 문자열에 대응시키는 것과 같다. 숫자의 경우에는 "1,234"의 경우 " 일천이백삼십사"의 문자열과 대응시키고, "1, 2, 3, 4"는 " 일, 이, 삼, 사"의 문자열에 대응시키는 것이며, 쉼표, 마침표, 띄어쓰기 등에 대한 무음 연결 부위의 처리 규칙에 대한 소정 시간 값을 데이터로 갖는다. 숫자에 있어서의 서로 다은 음성의 발성은 스페이스 코드에 의하여 그 구성이 변환된다. 이렇게 함으로써 음소 파라미터 추출부(202)에 입력된 문자들 중 기호, 숫자, 특수 문자들이 음소파라미터에 대응되는 문자 코드 값을 부여받게 된다. 또한 상술한 읽기 규칙 테이블은 조음하는 과정에서 합성단위를 생성하는 역할을 수행한다.

상술한 문자 데이터베이스부(203) 중 문자 코드 테이블은 상술한 음소 파라미터 추출부(202)가 기호, 숫자, 특수 문자가 상술한 읽기 규칙 테이블에 의해 변환된 문자와 기호, 숫자, 특수 문자 이외의 문자에 대한 문자 코드를 추출해 내는 경우에 참조하게 되는 테이블이다. 이를 위하여 상술한 문자 코드 테이블은 표준 한글 코드 값을 그 데이터로 한다.

상술한 음소 파라미터 테이블은 상술한 읽기 규칙 테이블 및 상술한 문자 코드 테이블을 참조하여 추출된 입력 문자에 대한 문자코드별로 대응되는 음소의 특징 벡터로서의 음소 파라미터를 그 데이터로 저장하는 테이블이며, 음소 파라미터 추출부(202)가 각 문자 코드에 대한 음소 파라미터를 추출하기 위해 참조하는 데이터 테이블이다.

상술한 음소 파라미터 테이블은 기 출원된 특허2000-0056532의 "비선형 방법에 의한 음성신호 특징 추출 장치 및 그 방법"에 의하여 화자의 음성을 수차례 입력받은 후 화자의 음성에서 시간과 주파수 영역에서 비 선형적으로 추출해 내어 음소의 주파수, 주파수의 지속 시간, 시작 시각, 및 피치 주기를 그 데이터로 한다.

상술한 문자 데이터베이스부(203)에 저장된 데이터는 음소 파라미터 추출부(203)에 의해서 각 문자 코드의 음소에 대응되어 추출된 후에 가우시안 잡음 생성부(204), 임펄스 트래인 생성부(205), 글로탈 펄스 생성부(206), 보컬 트랙부(208), 조음부(209)에서 음성을 합성하기 위하여 사용된다.

상술한 음소 파라미터 추출부(S202)는 상술한 문자 입력부(S202)로부터 처리된 문자 데이터를 입력받는다. 입력된 문자 데이터를 전송 받은 음소 파라미터 추출부(202)는 문자 데이터베이스부를 이용하여 전송된 문자 데이터에서 읽기 규칙에 의해 기호, 숫자, 특수 문자 등을 소리나는 대로의 문자 코드로 변환한다. 다음으로 변환된 기호, 숫자, 특수 문자의 문자 코드와 입력된 문자들에 대한 문자 코드를 추출해 내어 이를 바탕으로 각 코드에 대응되는 음성의 특징 벡터로서의 음소 파라미터를 추출해 낸다.

상술한 가우시안 잡음 생성부(204)는 무성음의 음성신호를 생성하기 위한 잡음 신호로서의 소정 신호 파형을 생성한다. 생성된 신호에 음소 파라미터 추출부에서 추출된 음소 파라미터(음성 특징 벡터) 값을 적용시키면 해당 무성음에 대한 음소의 음성신호가 생성된다.

상술한 임펄스 트래인 생성부(205)는 유성음에 대한 피치 주기를 이용하여 기본 주파수를 생성한다. 이는 사람의 성대의 진동수와 일치하며, 다수의 화자로부터 입력받은 피치 주기를 통계적으로 산출하여 기본 피치 주기 값으로 한다.

상술한 글로탈 펄스 생성부(206)는 임펄스 트래인 생성부(205)에서 생성된 임펄스 트래인 열을 사람의 구강 구조에서 생성되는 음성에 대한 기본 주파수 파형으로 왜곡시켜 사람의 음성의 기본 주파수에 의해 생성되는 파형과 유사하도록 임펄스 트래인 열을 변화시킨다.

상술한 제 1 및 제 2 증폭부(207,207')는 생성된 가우시안 잡음과 글러탈 펄스 각각에 작용하여 본원 발명의 음성 특징 벡터를 이용한 문자 음성 변환 장치에서 처리하기에 적합한 신호 레벨로 증폭시키는 역할을 수행한다.

상술한 보컬 트랙부(208)는 무성음에 대한 가우시안 잡음 및 유성음에 대한 글러탈 펄스가 음소 파라미터 추출부(202)에 의해 추출된 음소 파라미터에 대응되는 음소의 음성신호로 변환되도록 한다. 즉 잡음으로서의 가우시안 잡음에 무성음에 대한 음소 파라미터 값의 주파수 특성, 주파수 지속시간, 주파수 시작시각을 적용하여 해당 음소에 대한 음성신호 파형으로 변환하고, 유성음에 대하여는 주기적인 피치주기 값을 가지는 글로탈 펄스에 상술한 유성음의 음소 파라미터 값을 적용함으로써 유성음 음소에 대한 음성 신호를 생성한다.

상술한 조음부는(209)는 보컬 트랙부(208)에서 생성된 각 음소의 음성신호를 서로 연결하여 실제의 연속적인 음성 파형을 생성한다. 이 때 음소 파라미터 추출부(202)에서 추출된 무음에 대한 음소 파라미터 값이 음소의 연결, 단어의 연결, 쉼표, 띄어쓰기 등의 문장연결을 위하여 사용된다. 또한 상술한 문자 데이터베이스부의 읽기 규칙 테이블 및 음성 합성 단위 데이터가 음성합성을 위하여 조음부에서 사용되어지며, 이러한 데이터는 상기 음소 파라미터 추출과정에서 추출되어 데이터 라인을 통하여 전송된 후 소정 저장수단으로서의 버퍼에 저장된 후에 필요 시 사용된다.

다음으로 상술한 음성 특징 벡터를 이용한 문자 음성 변환 장치의 동작과정을 상술한 각 구성요소들을 참조하여 상세히 설명한다.

먼저 소정 문자열이 입력되면 상술한 문자 입력부(201)는 문자의 정보를 음소 단위로 입력받는다. 다음으로 상술한 음소 파라미터 추출부(202)가 상술한 문자 데이터베이스부(203)를 참조하여 입력된 문자열에서 기호, 숫자, 특수 문자를 읽기 규칙에 따른 문자열로 변환한다. 변환된 읽기 규칙에 따르는 문자열은 각각의 문자를 구성하는 문자 구성요소로서 초성, 중성, 종성으로 분류된다. 분류된 각각의 음소는 문자 코드 테이블을 이용하여 음소에 대응되는 문자 코드로 추출 변환된다. 다음으로 다음의 처리과정인 보컬트랙부 및 조음부에서 필요한 문자 코드에 대응되는 음소 파라미터를 음소 파라미터 테이블을 참조하여 대응되는 각 문자열에 대한 음소 파라미터가 추출된다.

추출된 음소 파라미터는 음소의 주파수 특성을 나타내는 파라미터, 음소의발성시각을 나타내는 파라미터, 그리고 음소의 지속시간을 나타내는 파라미터로 구성된다. 상술한 음소의 주파수 특성은 무성음, 유성음, 무음에 따라 각각 세분된 세 가지의 기본 파라미터를 가진다. 따라서 추출된 음소 파라미터는 주파수 특성으로서의 무성음 , 유성음, 무음에 대한 파라미터와 음소의 발성 지속시간, 음소의 발성 시작 시각에 대한 파라미터를 포함하여 5 가지의 파라미터 값을 가진다. 여기서 주파수 특성으로서의 파라미터는 문자가 무성음인지, 유성음인지 혹은 음소와 음소, 단어와 단어 , 쉼표, 마침표 등의 연결부위로서의 무음인지를 구분하는 기준 값이 된다.

문자열의 처리순서는 문자열의 입력 순서에 따라 추출된 음소 파라미터의 주파수 특성 데이터를 이용하여 무성음인지 유성음인지 무음인지를 입력되는 음소의 순서대로 판단하게 된다.

입력된 음소 파라미터 값이 무성음의 특성 주파수를 가지면, 가우시안 잡음 발생부(204)가 구동되어 무성음 처리를 위한 기본 주파수로서의 가우시안 잡음을 생성한다. 다음으로 추출된 음소 파라미터가 유성음으로 판별된 경우에는 임펄스 트래인 생성부(205)가 구동되고 음소 파라미터 추출부(202)에서 전송된 유성음의 피치주기 값과 일치하는 소정 임펄스 트래인을 생성한다. 생성된 임펄스 트래인들은 통계적으로 추출된 음성 신호에서의 기본 주파수에 대한 피치 주기 값을 그 주기로 가지는 주기 반복적인 펄스의 파형이기 때문에 사람의 구강 구조에 대한 주파수의 파형을 가지도록 변환해야 한다. 이러한 변환 과정이 글로탈 펄스생성부(206)에서 수행된다. 글로탈 펄스 생성부(206)에서 임펄스 트래인이 변환되어 생성된 글로탈 펄스는 사람의 구강구조에서 나오는 유성음에 대한 기본 주파수의 파형을 가지게된다. 입력되는 문자의 음소가 무음인 경우에는 그 무음이 음소 사이의 무음인지, 문자 사이의 무음인지, 단어 사이의 무음인지, 그리고 쉼표, 마침표에 의한 무음인지를 판단한다. 판단 결과 한 문자를 이루는 음소 사이의 무음인 경우에는 해당 무음의 전후 음소를 소정 시간 동안 주파수 영역에서 비선형 적으로 시간영역에서 선형적으로 연결하도록 하는 음소 파라미터의 데이터값이 음소 파라미터 추출부(202)에서 조음부(209)로 전송되어 차후 음소들을 연결하여 연속적인 음성 신호를 생성하는 경우에 음소의 연결처리에 이용된다.

다음으로 가우시안 잡음 생성부(204), 글로탈 펄스 생성부(206)에서 생성된 무성음과 유성음에 대한 기본 음성 신호들이 제 1 및 제 2 증폭부(207,207')에 의해 소정 신호 레벨로 증폭된 후에 보컬 트랙부(208)로 문자가 입력된 순서대로 순차적으로 입력되면, 음소파라미터 추출부(202)에서 전송된 각각의 무성음 및 유성음에 대응되는 음소 파라미터 값에 의하여 해당 음소에 대한 음성 신호로 변환된다. 각각의 음소에 대한 음성 신호는 무음에 의한 각각의 연결을 위한 연결 데이터와 함께 조음부(209)로 전송되며, 조음부에서 문자 데이터베이스부에 구성된 읽기 규칙 및 각각의 음소의 연결부위로서의 무음에 의하여 연결 합성되어 연속적인 음성신호로 변환되어 소정 출력 수단에 의해 음성으로 출력된다.

조음부(209)에서의 처리 과정을 좀더 상세히 설명하면 다음과 같다.

초성, 중성, 종성으로 구분되어 입력되는 문자의 파라미터는 음성 재생시 음운현상, 즉, 연음, 자음접변, 두음 법칙, 역행 및 순행동화 등이 일어나게 된다.이러한 음운 현상은 문자와 발성의 차이즉 음소의 연결 시간의 차이에서 기인하는 것으로서 문자에 대한 음소 파라미터에 대한 음성 신호를 각각의 지속시간과 음소와 음소사이의 연결 시간을 조절하여 입력되는 대로 음성을 재생함으로써 해결할 수 있다. 예를 들면 "ㄷ"과 "ㄸ"등과 같은 평음, 경음, 격음으로 이루어진 경우 각각의 음소의 지속 시간을 조절하여 이루어지며, "ㅀ", "ㄺ" 등의 2자로 구성된 종성의 경우 앞쪽에 붙은 음소의 길이를 뒤의 음소보다 길게하고, 뒤의 음소를 조음시 다음문자의 초성에 가깝게 합성되도록 함으로써 자연어에 가까운 합성음이 출력되도록 한다.

연음의 경우를 예로 들면 "날아"의 경우 "ㄴ ㅏ ㄹ ㅏ"와 같이 입력 순서에 의한 조음으로 음성을 재생하여 자연스럽게 이루어짐으로써 이에 대한 별도의 고려는 필요치 않다.

즉 우리가 말을 할 때 나타나는 음운 현상은 음소의 지속시간 및 시작 시각에 의해 생성되는 것이므로, 입력 받는 파라미터를 순서대로 조음하여 음성을 재생하는 것이 읽기 규칙에 부합되는 음성 재생 방법이다. 그러므로 문자를 음성으로 재생할 때 한 문자의 음소사이, 단어사이, 문장 사이 등에서 음소사이의 변화 구간의 시간 간격을 각각 다르게 주어서 음이 자연어에 가깝도록 음성을 재생할 수 있다.

이러한 처리과정은 입력되는 문자의 순서대로 처리되며, 무성음 및 유성음의 처리 또한 순서대로 스위칭부(S)에 의하여 스위칭되어 음소들의 입력 순서대로 처리되어야 한다.

상술한 문자 음성 변환 장치에서 문자를 음성으로 재생할 때 음소 파라미터 만을 사용하는 이유는, 음성을 재생하거나 합성할 때 유성음은 임펄스트래인(impulse train)을, 무성음은 가우시안 노이즈(잡음)를 사용하여 이를 보컬트랙 생성부(208)에 입력함으로써 음성을 재생 또는 합성하기 위함이다. 이 때 음성을 자연어에 가깝도록 하기 위하여 유성음, 무성음의 원 신호인 가우시안 노이즈나 임펄스 트래인을 스위칭하여 선택하는데, 그 스위칭 시각이나 지속시간을 기 설정된 음성특성 데이터 중 무음의 지속시간 데이터에 의해 설정할 수 있다는 것이 또 다른 이유이다. 따라서 음소 파라미터를 사용하여 문자 음성 변환 장치를 이용하면, 기 구축된 데이터 베이스에서 재생할 음소를 찾거나, 인터넷 등의 통신망을 통하여 전송하는 경우 빠른 전송과 낮은 대역 점유율로도 음성의 유실을 방지할 수 있는 장점이 있으며, 실시간으로 음성재생 서비스를 제공할 수 있다.

도 3은 본원 발명에 따르는 음성 특징 벡터(음소 파라미터)를 이용한 문자 음성 변환 방법에 대한 처리 과정을 나타내는 바람직한 일 실시 예를 나타내는 순서도이다.

본원 발명에 따르는 문자 음성 변환 방법의 처리과정은 먼저 출력될 음성의 특징 데이터를 등록 받는다. 음성의 특징 데이터를 등록 받는 과정은 상술한 바와 같이 기 출원된 특허 10- 2000- 0056532호에 따른다(S301). 다음으로 키보드 또는 소정 문자 편집용 소프트웨어로부터 음성으로 변환될 문자를 입력 받는다. 입력 받은 문자는 데이터 처리를 위하여 소정 길이의 문자열로 분할된다. 분할된 문자열은 그 문자열에 대한 기호/숫자/특수 문자를 읽기 규칙에 따라 일반적인 문자열, 즉한글인 경우에 한글 읽기 규칙에 따르는 한글 문자열로 변환된다(S303). 기호/숫자/특수 문자가 한글 문자열로 변환되면, 입력된 문자열을 한글 표준 문자 코드로 구성된 문자 코드 테이블을 참조하여 문자 코드를 추출한다(S304). 문자에 대한 문자 코드가 추출되면 기 구성된 문자 코드와 음소파라미터가 연관성을 가지고 저장되어 있는 음소파라미터 테이블을 참조하여 문자코드에 대한 음소파라미터 값을 추출해 낸다(S305). 추출된 음소파라미터 값에서 음소파라미터 중 주파수의 영교차 비율에 따라 무성음, 유성음, 무음을 주파수영역에서 비선형적으로 분리한 후, 각각의 무성음, 유성음, 무음에 대한 음성신호를 생성해 내고 출력한다(S306). 다음으로 음성으로 변환될 문자열이 계속 입력되는 지를 판단하고(S307), 판단결과 문자열이 계속 입력되면, 상술한 S303 단계부터 반복 수행하고, 입력되는 문자열이 없으면 처리과정을 종결한다.

도 4는 상술한 도 3의 처리과정 중 S306단계의 음성 합성 및 출력 과정을 나타내는 서브루틴도이다.

도시된 바와 같이 음성 합성 및 출력 과정은 상술한 S305단계에서 추출된 음소파라미터를 수신한(S461) 후 각각의 음소파라미터 중 주파수 특성에서 영교차 비율에 의해 무성음, 유성음 그리고 무음으로 분류하고(S462) 각각의 파라미터가 입력되는 순서에 따라 스위칭되어 다음 처리과정을 수행한다. 먼저 상술한 S462입력된 음소가 유성음인 경우 음소파라미터 값 중 피치주기를 이용하여 피치 주기에 대응되는 임펄스 트래인이 생성된다(S463). 생성된 임펄스 트래인은 통계적으로 추출된 사람의 성대의 진동수에 대응되는 소정 주기를 가지는 연속적인 펄스 열이므로이를 사람의 성대에서 출력되는 주파수의 특성을 가지는 글러탈 펄스열로 변환된다(S464). 다음으로 상술한 S462 단계에서 입력된 음소 파라미터 값이 무성음으로 분류되면, 무성음에 대한 기본 주파수로서의 가우시안 잡음이 생성된다(S465). 생성된 글로탈 펄스와 유성음의 음소 파라미터 값, 그리고 가우시안 잡음과 무성음의 음소 파라미터 값이 변환 생성된 글로탈 펄스열은 음소파라미터에 의하여 음소에 해당되는 음성신호의 주파수 파형으로 변환되어 무성음의 음소에 대한 음성신호로 변환된다(S466). 다음으로 생성된 가우시안 잡음과 입력된 무성음에 대한 음소 파라미터 값과 생성된 글로탈 펄스와 입력된 유성음의 음소 파라미터 값이 보컬트랙부로 전송된다, 보컬 트랙부로 전송된 가우시안 잡음은 함께 전송된 해당 음소의 무성음의 음소 파라미터 즉 주파수 특성, 주파수 지속시간, 주파수 시작시각에 의하여 무성음에 대응하는 음소에 대한 음성 신호로 변환되고 글로탈 펄스는 함께 전송된 유성음의 음소 파라미터 값이 적용되어 입력된 유성음에 대응되는 음소의 음성신호로 변환된다(S466). 상술한 단계 S402에서 무음으로 분류된 신호는 음소와 음소, 단어와 단어, 문장의 연결, 쉼표, 마침표에 따라 서로 다른 연결 신호로 변환된다. 음소와 음소사이의 연결은 무음이 삽입될 위치의 앞에 오는 음소의 주파수의 끝부분과 뒤에 위치하는 음소의 주파수의 앞부분을 서로 소정시간 간격동안 비선형적으로 연결하여 음소사이의 단절을 없애도록 하며, 단어와 단어 사이, 문장과 문장사이, 쉼표, 마침표 등을 서로 다른 시간 간격의 휴지시간을 설정하여 연결하도록 무음신호가 연결 설정 데이터로 변환 생성된다(S467). 유성음과 무성음에 대응되는 음소에 대한 음성신호는 무음 신호의 연결 설정 데이터와 함께조음부(209)로 전송되어 음성신호로 합성된다. 합성되는 과정은 상술한 S467 단계의 무음 데이터 추출과정에서의 연결 방법과 동일하다(S468). 다음으로 소정 음성 출력수단에 의하여 합성된 음성신호를 음성으로 재생 출력한 후(S469) 도 3의 처리과정으로 되돌아가 다음 처리과정을 계속 수행하게 된다.

도 5는 본원 발명에 따르는 음성 특징 벡터를 이용한 문자 음성 변환 장치를 이용한 응용예를 나타내는 도면이다.

도시된 실시예는 인터넷 등의 통신망을 통하여 음성출력 서비스를 제공하는 네트워크 환경에 대한 블록도이며 그 처리 과정은 다음과 같다.

사용자는 사용자 환경에 구성된 단말기(500)를 이용하여 로그인이 필요한 경우 음성, 문자 등의 인증 정보를 통해 접속한다(S501,S502). 접속한 사용자는 서버(510)에 구성된 검색 엔진을 통해 음성출력 서비스 즉 서적, 잡지, 신문 등의 파일을 선택한다(S503). 사용자의 서비스 요청을 수신 받은 서버(510)는 해당 파일에 대한 텍스트 정보 중 각 텍스트를 구성하는 음소의 주파수 정보, 시작시각 정보, 지속 시간 정보로 구성된 음소 파라미터를 사용자 환경에 구성된 단말기(500)로 전송한다. 서버(510)로부터 전송된 음소 파라미터는 사용자 환경에 구성된 단말기(500)에서 본원 발명에 따르는 음성 특징 벡터를 이용한 문자 음성 변환 장치에 의하여 음성으로 변환 출력됨으로써 온라인 상에서 각종 문서에 대한 음성서비스를 제공할 수 있게 된다.

다음으로 본원 발명에 사용되는 기 출원된 출원번호 특2000-0056532호의 특허 "비선형 방법을 이용한 음성 신호의 특징 추출 장치 및 그 방법"을 개략적으로부가 설명하고자 한다.

기 출원된 출원번호 특2000-0056532의 특허에 기재된 동적 웨이브렛 변환을 사용함에 있어서 이용된 웨이브렛은 유성음에 대한 비선형 처리 시에는 하 웨이브렛(Haar Wavelet)을, 무성음에 대한 비선형 처리 시에는 스플라인 웨이브렛(Spline Wavelet)을 사용하여 사람의 음성언어를 유성음 과 무성음 그리고 무음으로 구분한 후 각 음소의 주파수 특성, 시작 시각, 지속 시간을 음성특성 데이터로 한다.

본원 발명은 전술된 본원 발명의 일 실시 예들에 한정되지 아니하고, 본원 발명의 기술적 사상을 벗어나지 않는 범위에서 다양하게 변경 실시될 수 있다.

본원 발명에 따르는 음성 특징 벡터를 이용한 문자 음성 변환 장치는 음성합성에 필요한 데이터 베이스를 최소화하고 음소 파라미터만을 이용하여 문자를 음성 신호로 합성함으로써 음성 합성의 처리시간을 실시간으로 단축시킬 수 있는 효과가 있다.

또한, 음소 파라미터만을 이용하여 문자를 음성으로 합성 재생함으로써 재생된 음성이 자연음에 가깝도록 할 수 있도록 하는 효과가 있다.

또한, 본원 발명에 따르는 문자 음성 변환 장치 및 그 방법을 네트워크 상에서 적용하는 경우 음성합성에 필요한 음성 파라미터 만을 전송함으로써 소요되는 네트워크 트래픽을 현저히 감소 시킬 수 있으며, 또한 음생으로 재생하는 경우에도 단말기 측에서 스트리밍이나 버퍼링이 없이 실시간으로 음생 재생이 수행될 수 있도록 하는 효과가 있다.

Claims

문자열에 대한 읽기 규칙 데이터, 음소 파라미터 데이터, 문자 코드 데이터를 소정 기준에 의하여 저장하는 문자 데이터 베이스부;

소정 입력수단에 의하여 문자열을 입력받는 문자 입력부;

상기 문자 입력부에서 입력된 문자에 대한 음소 데이터를 상기 문자 데이터 베이스부로부터 추출해내는 음소파라미터 추출부;

상기 추출된 음소파라미터가 무성음인 경우 무성음에 대한 기본 주파수로서의 가우시안 잡음을 생성하는 가우시안 잡음 생성부;

상기 추출된 음소파라미터가 유성음인 경우 유성음에 대한 기본 주파수로서의 임펄스 열을 생성해내는 임펄스 트래인 생성부;

상기 임펄스 트래인 생성부에서 생성된 임펄스 트래인을 사람의 구강구조에서 나오는 음성 신호의 기본 주파수 파형으로 변환하는 글로탈 펄스 생성부;

상기 가우시안 잡음 생성부와 상기 글로탈 펄스 생성부에서 생성된 무성음 또는 유성음에 대한 기본 주파수 값에 상기 음소 파라미터 추출부에서 추출된 음소 파라미터 값을 적용하여 음소에 대한 음성 신호를 생성하는 보컬 트랙부; 및

상기 보컬 트랙부에서 생성된 상기 음소에 대한 음성 신호를 서로 연결하여 연속적인 음성신호로 합성하는 조음부;를 포함하여 구성되는 것을 특징으로 하는 음성 특징 벡터를 이용한 문자 음성 변환 장치.
제 1 항에 있어서, 상기 문자 데이터베이스부가,

기호, 숫자, 특수 문자에 대한 읽기 규칙 데이터를 가지는 읽기 규칙 테이블;

상기 입력된 문자에 대한 초성, 중성, 종성 별 문자 코드를 데이터로 가지는 문자 코드 테이블; 및

상기 문자 코드 테이블에 구성된 각각의 문자 코드 값에 대응되는 음소에 대한 음소 파라미터 값을 데이터로 가지는 음소 파라미터 테이블;을 포함하여 구성되는 것을 특징으로 하는 음성 특징 벡터를 이용한 문자 음성 변환 장치.
제 2 항에 있어서, 상기 음소 파라미터 테이블이,

각각의 음소에 대한 기본 주파수 값과 음소의 지속시간 값과 음소의 시작시각 값으로 구성되는 것을 특징으로 하는 음성 특징 벡터를 이용한 문자 음성 변환 장치.
제 3 항에 있어서, 상기 기본 주파수 값이,

각 음소에 대하여 무성음 또는 유성음 또는 무음 중 어느 하나의 음소에 대한 주파수 값을 가지는 것을 특징으로 하는 음성 특징 벡터를 이용한 문자 음성 변환 장치.
제 4 항에 있어서, 상기 무음에 대한 음소 파라미터 값이,

음성 합성 과정에서 음소와 음소를 연결하는 경우, 상기 무음이 위치하는 음소의 앞에 위치하는 무성음의 주파수와 상기 무음의 뒤에 위치하는 음소의 주파수를 주파수 영역에서 비선형적으로 시간 영역에서 선형적으로 연결하여 음성으로 합성하는 것을 특징으로 하는 음성의 특징 벡터를 이용한 문자 음성 변환 장치.
제 4 항에 있어서, 상기 무음에 대한 음소 파라미터 값이,

문자와 문자 또는 단어와 단어 또는 문장과 문장 또는 쉼표 또는 마침표 중 어느 하나에 해당하는 무음인 경우에, 각각 대응하는 소정 시간 간격동안 음성 데이터가 입력되지 않는 휴지시간으로 처리되는 것을 특징으로 하는 음성 특징 벡터를 이용한 음성의 특징 벡터를 이용한 문자 음성 변환 장치.
제 1 항에 있어서, 상기 조음부가,

상기 조음 과정에서의 음운현상을 음소파라미터 값만을 이용하여 구현하는 것을 특징으로 하는 음성 특징 벡터를 이용한 문자 음성 변환 장치.
음성의 음소 파라미터 데이터, 읽기 규칙 데이터 및 문자 코드 데이터를 입력 받아 문자 데이터 베이스를 구축하는 제 1 단계;

음성으로 합성될 문자열을 입력받는 제 2 단계;

상기 입력된 문자열에서 기호, 숫자, 특수 문자를 읽기 규칙에 따르는 문자열로 변환하고, 읽기 규칙에 따라 변환된 문자열을 초성, 중성, 종성으로 분류한후 해당 문자에 대한 문자코드를 추출하는 제 3 단계;

상기 추출된 문자 코드에 대응되는 음소 파라미터를 추출해 내는 제 4 단계; 및

상기 추출된 음소 파라미터를 이용하여 음성으로 합성, 재생하는 제 5 단계;를 포함하여 구성되는 것을 특징으로 하는 음성 특징 벡터를 이용한 문자 음성 변환 방법.
제 8 항에 있어서, 상기 제 5 단계가,

상기 추출된 음소 파라미터를 입력받는 제 6 단계;

상기 입력된 음소 파라미터가 무성음에 대한 것인지, 유성음에 대한 것인지, 무음에 대한 것인지를 판단하는 제 7 단계;

상기 제 7 단계의 판단 결과 무성음으로 판단된 경우, 가우시안 잡음을 생성하고, 상기 제 7 단계의 판단 결과 유성음으로 판단된 경우, 임펄스 트래인을 생성한 후 생성된 임펄스 트래인을 글로탈 펄스열로 변환하며, 상기 제 7 단계의 판단 결과 무음으로 판단된 경우, 해당 무음의 연결 부위에 음소 파라미터를 추출하여 전송하는 제 8단계;

상기 제 8 단계에 의하여 처리된 유성음 또는 무성음 또는 무음 중 어느 하나에 대한 결과 신호와 각 해당 음소 파라미터를 입력받아 입력되는 음소의 순서대로 해당 음소에 대응되는 음성 신호를 생성하는 제 9 단계; 및

상기 제 9 단계에서 생성된 각각의 음성 신호를 무음 데이터를 이용하여 순차적으로 연결 합성하여 연속적인 음성신호로 합성한 후 소정 음성 출력 수단에 의하여 음성으로 출력하는 제 10 단계를 포함하는 것을 특징으로 하는 음성의 특징 벡터를 이용한 문자 음성 변환 방법.