KR100463655B1

KR100463655B1 - 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법

Info

Publication number: KR100463655B1
Application number: KR10-2002-0071306A
Authority: KR
Inventors: 정승녕; 조정미
Original assignee: 삼성전자주식회사
Priority date: 2002-11-15
Filing date: 2002-11-15
Publication date: 2004-12-29
Also published as: DE60305645D1; EP1473707B1; EP1473707A1; DE60305645T2; JP2004170983A; KR20040042719A; US20040107102A1

Abstract

본 발명은 부가정보 제공 기능이 있는 텍스트/음성 변환 장치 및 방법에 관한 것으로서, 텍스트/음성 변환 장치로부터 출력되는 합성음에서 특정 품사 및 사용자가 인식하기 어려울 것으로 예상되는 단어를 사용자에게 부가정보로 제공하는 것을 주 목적으로 하며, 상기 목적은 텍스트/음성 변환 장치로부터 얻어지는 언어분석 데이터 및 음성합성 결과분석 데이터를 이용하여 입력되는 텍스트로부터 강조단어를 선택하고, 선택된 강조단어를 입력되는 텍스트의 문형 정보 및 소정의 레이아웃 양식에 따라 구조화하여 제공함으로써 달성되는 것을 특징으로 한다.

Description

부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법{TEXT-TO-SPEECH CONVERSION APPARATUS AND METHOD HAVING FUNCTION OF OFFERING ADDITIONAL INFORMATION}

본 발명은 부가정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법에 관한 것으로서, 특히 텍스트를 음성으로 변환하는 텍스트/음성 변환장치(Text-to-Speech Conversion System: 이하, TTS라 칭함)의 언어 분석 및 음성 합성 과정에서 얻어지는 언어분석 데이터 및 음성합성 결과분석 데이터를 이용하여 입력되는 텍스트에서 특정 품사 및 사용자가 인식하기 어려울 것으로 예상되는 단어를 사용자에게 부가정보로 제공하는 부가정보 제공 기능이 있는 텍스트/음성 변환 장치 및 방법에 관한 것이다.

음성합성 기술은 텍스트가 입력되면 입력되는 텍스트를 언어 해석하고 음성으로 합성하는 처리과정을 통해 텍스트를 자연스러운 합성음으로 변환시켜 출력하는 것으로, TTS를 통해 이루어진다.

일반적인, TTS의 개략적 구성 및 그 동작 처리과정을 한국어 텍스트를 음성 합성하는 시스템을 통해 설명하면, 도 1에 도시된 바와 같다.

먼저, 전처리부(2)에서 사전형의 숫자/약어/기호 DB(1)를 이용하여 입력되는 텍스트를 분석한 뒤 한글 이외의 문자를 한글로 바꿔주는 전처리 과정을 수행하고, 형태소 해석부(2)에서는 사전형의 형태소 DB(3)를 이용하여 전처리된 문장의 형태소를 분석하고 이 문장을 형태소에 따라 명사, 형용사, 부사, 조사 등의 품사로 분리한다.

구문 해석부(5)에서는 입력된 문장의 구문을 분석하고, 글자/음운 변환부(7)에서는 기호나 특수문자에 대한 발음 규칙 데이터가 저장된 사전형의 예외 발음DB(6)를 이용하여 분석된 구문의 문자를 음운으로 변환한다.

음성합성 데이터 생성부(8)에서는 글자/음운 변환부(7)에서 변환된 음운에 대한 운율, 합성단위 및 글자, 단어, 문장의 경계 정보 및 각 음성 데이터의 지속시간 정보를 생성하고, 기본 주파수 제어부(10)에서는 합성될 음성의 기본 주파수를 설정하고 제어한다.

그리고, 합성음 생성부(11)에서는 다수의 합성음 데이터가 저장된 합성단위 DB(12)로부터 얻어지는 음성 합성단위와 상술한 구성요소를 통해 생성되는 음성 합성 데이터, 지속시간 정보, 기본 주파수를 참조하여 음성 합성을 한다.

이러한 TTS는 합성음을 통해 사용자가 제공되는 텍스트 정보를 쉽게 인식할 수 있도록 하는 것을 목적으로 하는데, 음성은 본질적으로 시간에 따라 흘러가는 정보이기 때문에 한번 출력된 음성을 다시 확인하기가 어려운 시간적 제약을 갖는다. 또한, 사용자가 합성음으로 주어지는 정보를 인식하기 위해서는 출력되는 합성음에 지속적으로 주의를 집중하고, 합성음의 내용을 이해하기 위한 노력을 항상 기울여야하는 불편함이 있었다.

한편, 데이터베이스화된 문자 인식 및 합성 데이터를 이용하여 입력되는 텍스트에 가까운 자연스러운 합성음을 생성하려는 시도가 있어 왔지만, 여전히 완전한 텍스트/음성 합성이 불완전하여 사용자가 TTS에서 제공되는 정보를 인식하지 못하거나 잘못 이해하게 되는 문제점이 있었다.

따라서, TTS로부터 제공되는 합성음을 통한 원활한 의사소통을 위한 보조적인 수단이 요구되고 있는 실정이다.

이러한 종래 기술의 문제점을 해결하기 위하여 앞서 제안된 바 있는, 한국 특허공개 제2002-0011691호(발명의 명칭: 대화 내용의 그래픽 표현 방법과 장치)는 대화 중에 나오는 목적물을 그래픽 데이터베이스로부터 추출하여 추출된 목적물의 동작, 위치, 상태 등을 화면에 출력함으로써 대화의 효율성을 높이는 것이 가능한 시스템을 제시하였다.

이러한 시스템은 일상생활에서 사용되는 수많은 목적물에 해당되는 단어를 표현하기 위해서는 방대한 용량의 그래픽 데이터베이스가 요구되고, 목적물에 해당되는 단어마다 일일이 그래픽 데이터베이스에서 해당되는 그래픽 정보를 검색해야하는 불편함이 있었다.

또한, 일본 특허공개 제 1995-334507호(발명의 명칭: 텍스트로부터의 인체동작 음성 생성 시스템)와 일본 특허공개 제 1999-272383호(발명의 명칭: 동작 동기형 음성언어 표현 생성방법 및 장치, 및 동작 동기형 음성언어 표현 생성 프로그램을 격납한 기억매체)는 텍스트에서 동작을 나타내는 단어를 추출하여 합성음과 함께 동작 영상을 출력하거나, 음성언어에서 동작이 수반되는 문자열이 검출되면 합성음과 함께 수반되는 동작영상을 출력하는 방법을 제공하였다.

그러나, 이러한 방법의 경우에도 각 텍스트 및 문자열 별로 해당되는 동작을 나타내는 동작 영상을 저장한 방대한 용량의 데이터베이스를 구비해야하고 각 텍스트 또는 문자열이 검출될 때마다 데이터베이스에서 해당되는 동작영상을 검색해야하는 불편함이 있었다.

그리고, 한국 특허공개 제 2001-0002739호(발명의 명칭 : 음성인식기를 이용한 자동 캡션 삽입 장치 및 방법)는 프로그램의 사운드트랙에서 재생/출력되는 대사 음성신호를 인식하여 캡션 데이터를 발생하고 그 캡션 데이터를 원래의 음성출력시점과 일치시켜 출력하는 시스템을 제공하였다.

그러나, 이러한 시스템은 사운드 트랙에서 재생/출력되는 대사 음성신호에 대한 캡션 데이터만을 디스플레이하는 것으로, 사용자가 제공되는 정보를 보다 효율적으로 인식 및 이해할 수 있는 수단은 제시하지 못한다.

본 발명은 상기한 문제점들을 해결하기 위해 안출된 것으로, 본 발명은 TTS의 언어 분석 및 음성 합성 과정에서 얻어지는 언어분석 데이터 및 음성합성 결과분석 데이터를 이용하여 특정 품사의 단어나 사용자가 인식하기 어려울 것으로 예상되는 단어를 강조단어로 제공함으로써 TTS를 통한 원활한 의사소통이 가능하도록 하는 것을 목적으로 한다.

본 발명의 다른 목적은 강조단어를 구조적으로 배치시켜 합성음과 함께 제공함으로써 사용자가 구조적으로 나타내어진 강조단어를 통해 직관적으로 정보내용을 인식할 수 있도록 함으로써 TTS의 정보 전달력을 높여 신뢰도를 향상시키는 것을 목적으로 한다.

도 1은 종래 TTS 장치의 개략적인 구성 및 그 동작 처리 과정을 나타낸 도면이다.

도 2는 본 발명에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환 장치의 개략적인 구성을 설명하기 위한 블록도이다.

도 3은 본 발명의 일 실시 예에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환 방법의 동작 과정을 설명하기 위한 동작 흐름도이다.

도 4는 도 3에 도시된 S30단계를 설명하기 위한 동작 흐름도이다.

도 5는 본 발명의 다른 실시 예에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환 방법의 동작 과정을 설명하기 위한 동작 흐름도이다.

도 6은 도 5에 도시된 S300단계를 설명하기 위한 동작 흐름도이다.

도 7은 도 4에 도시된 S500단계를 설명하기 위한 동작 흐름도이다.

도 8은 본 발명의 다른 실시 예에 따른 매칭률 산출 결과를 나타내는 도면이다.

도 9의 a 내지 c는 본 발명의 각 실시 예에 따라 최종적으로 부가정보가 나타내어지는 도면이다.

* 도면의 주요부분에 대한 부호의 설명 *

100 : 음성합성 모듈

110 : 형태소 해석부 130 : 구문 해석부

150 : 음성 합성부 170 : 합성음 발생부

190 : 스피커(SP)

300 : 강조단어 선택 모듈

310 : 히스토리(History) DB 330 : 강조단어 선택부

350 : 히스토리 매니저(History manager)

500 : 정보유형 결정 모듈

510 : 도메인(Domain) DB

530 : 의미 해석부 550 : 문형정보 생성부

700 : 구조화 모듈

710 : 문형정보 적용부 730 : 메타(meta) DB

750 : 정보 구조화부

900 : 디스플레이 모듈

910 : 동기화부 930 : 영상신호 처리부

950 : 표시부

상기한 목적을 달성하기 위하여 본 발명에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환장치는, 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성 모듈과, 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터에서 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택모듈과, 선택된 강조단어를 상기 합성음과 동기시켜 디스플레이하는 디스플레이 모듈을 포함하는 것을 특징으로 한다.

본 발명의 다른 바람직한 실시예에 있어서, 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터의 정보유형을 결정하고 문형정보를 생성하는 정보유형 결정모듈과, 선택된 강조단어를 생성된 문형정보에 따라 재배치하고 합성음과 동기시켜 디스플레이 하는 디스플레이 모듈을 포함하는 것을 특징으로 한다.

본 발명의 또 다른 바람직한 실시예에 있어서, 선택된 강조단어를 소정의 레이아웃 양식에 적용시켜 구조화하는 구조화 모듈을 더 포함하는 것을 특징으로 한다.

또한, 상기 강조단어는 추가적으로 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터의 단어 가운데 소정의 임계치 미만인 매칭률을 갖는 합성음 왜곡으로 인해 사용자가 인식하기 어려울 것으로 예상되는 단어를 더 포함하고, 선택된 강조단어 가운데 소정의 임계치 미만인 강조빈도를 갖는 단어로 선별되는 것을 특징으로 한다.

또한, 상기한 목적을 달성하기 위하여 본 발명에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환방법은, 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성 단계와; 음성합성 분석 데이터를 이용하여 텍스트 데이터 가운데 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택단계와; 선택된 강조단어를 합성음과 동기시켜 디스플레이하는 디스플레이 단계를 포함하는 것을 특징으로 한다.

본 발명의 다른 바람직한 실시예에 있어서, 음성합성 단계에서 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터의 정보유형을 결정하고 문형정보를 생성하는 문형정보 생성단계와; 선택된 강조단어를 문형정보에 따라 재배치하고 합성음과 동기시켜 디스플레이 하는 디스플레이 단계를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 실시예에 있어서, 선택된 강조단어를 소정의 레이아웃 양식에 적용시켜 구조화하는 구조화 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 강조단어는 추가적으로 음성합성 분석 데이터를 이용하여 소정의 임계치 미만인 매칭률을 갖는 합성음 왜곡으로 인해 사용자가 인식하기 어려울 것으로 예상되는 단어를 더 포함하고, 선택된 강조단어 가운데 소정의 임계치 미만인 강조빈도를 갖는 단어로 선별되는 것을 특징으로 한다.

이하, 본 발명에 따른 부가정보 제공 기능이 있는 텍스트/음성 변환장치의 구성과 동작에 대하여 첨부된 도면들을 참조하여 상세히 설명한다.

도 2에서 본 발명에 따른 텍스트/음성 변환장치는 크게, 음성합성 모듈(100), 강조단어 선택 모듈(300), 디스플레이 모듈(900)로 구성되고, 본 발명의 다른 실시예를 구현하기 위하여, 정보유형 결정모듈(500), 구조화 모듈(700)을더 포함한다.

도 2에 도시된, 각 모듈에 포함되는 히스토리(History) DB(310), 도메인(Domain) DB(510), 메타(Meta) DB(730)는 본 발명에 따른 부가정보 생성장치에 구비되는 데이터베이스(미도시)에 구축되는 것이나, 본 발명의 상세한 설명을 위해 각기 분리하여 도시하였다.

음성합성 모듈(100)은 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 언어분석 데이터 및 음성합성 결과분석 데이터를 참조하여 입력된 텍스트 데이터를 음성으로 합성하여 출력하는 것으로(일 예로, TTS), 형태소 해석부(110), 구문 해석부(130), 음성 합성부(150), 합성음 발생부(170), 스피커(SP)(190)로 구성된다.

형태소 해석부(110)에서는 입력된 텍스트 데이터의 형태소를 분석하고 형태소에 따라 품사(일 예로, 명사, 대명사, 조사, 접사, 감탄사, 형용사, 부사 등)를 부착하고, 구문 해석부(130)에서는 입력된 텍스트 데이터의 구문 구조를 분석한다.

음성 합성부(150)에서는 형태소 해석부(110)와 구문 해석부(130)의 형태소 구문 해석과정에서 얻어지는 언어분석 데이터를 이용하여 음성 합성하는 것으로, 각각의 음소에 해당되는 합성음 데이터를 합성단위 DB(12)에서 선택해서 조합한다.

음성 합성부(150)의 각각의 음소를 조합하는 과정에서 각 음소에 대한 타이밍 정보가 생성되는데, 생성된 타이밍 정보를 통해 음성합성 모듈(100)에서는 음성 합성할 때에 그 시작점을 기준으로 얼마의 시간(일반적으로, 1/1000초 단위)후에 어떠한 음소가 발성될 것인가를 미리 알 수있도록 각 음소에 대한 시간 테이블이된다.

즉, 음성합성 모듈(100)를 통한 합성음 출력 시에 발성시작의 시점을 알리고 동시에 타이밍을 가동하여, 특정 단어(음소의 조합)가 발성될 때 제공되는 타이밍 정보를 통해 특정 단어가 발성되는 순간을 다른 모듈에서도 예측할 수 있도록 한다.

합성음 발생부(170)에서는 음성 합성부(150)로부터 얻어지는 음성합성 결과분석 데이터를 스피커(190) 출력 가능하도록 신호 처리하여 합성음으로 출력한다.

이하, 형태소 해석부(110) 및 구문 해석부(130)의 형태소 및 구문 해석과정에서 얻어지는 형태소 및 구문 해석 데이터로 이루어지는 언어분석 데이터와 음성 합성부(150)의 음성합성 과정에서 얻어지는 합성음으로 이루어지는 음성합성 결과분석 데이터를 음성합성 분석 데이터로 정의한다.

강조단어 선택 모듈(300)은 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여 입력되는 텍스트 데이터에서 강조단어(일 예로, 키 워드(key word))를 선택하는 것으로, 도시한 바와 같이, 히스토리 DB(310), 강조단어 선택부(330),히스토리 매니저(History Manager)(350)로 구성된다.

히스토리 DB(310)는 음성합성 모듈(100)로부터 얻어지는 입력되는 텍스트 데이터 중에서 자주 쓰이거나 강조되는 단어의 강조빈도 정보를 저장한다.

또한, 입력되는 텍스트 데이터에 해당되는 정보유형의 분야에서 자주 쓰이는 단어 또는 자주 강조되는 단어 등의 강조빈도 정보를 저장한다.

강조단어 선택부(330)는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석데이터를 이용하여 특정 품사에 해당되거나, 합성음 왜곡이 예상되는(즉, 합성음으로 예측되는 출력 값과 실제 출력 값 사이의 차이로 산출되는 매칭률이 낮은) 단어를 강조 단어로 검출한다. 또한, 히스토리 매니저(350)를 통해 선별되는 강조할 필요가 없는 단어를 참조하여 강조단어를 선택한다.

특정 품사는 강조 단어를 선택하기 위해 지정되는 소정의 품사를 나타내는 것으로, 일 예로 고유명사, 외래어, 숫자가 강조단어로 선택된 품사라면 강조단어 선택부(330)에서는 음성합성 데이터를 이용하여 형태소 단위로 분할된 각 단어 가운데 지정된 품사에 해당되는 단어들을 검출한다.

또한, 합성음 매칭률은 아래의 수학식 1을 사용해 산출되는 각 음편 간의 매칭률 평균을 통해 결정되는 것으로, 매칭률 평균값이 소정의 임계치보다 낮으면 합성음의 왜곡이 예상되는 것이고 평균값이 소정의 임계치보다 높으면 합성음의 왜곡이 적은 것이다.

수학식 1에서 sizeof(Entry)는 선택된 음편의 합성 단위 DB내에서의 모집단 크기를 의미하며, C는 음편들 간의 연결 정보를 의미하며, 예측값과 실제값은 음소의 길이, 크기, 높이에 대한 예측값과 선택된 음편의 실제값을 의미한다.

히스토리 매니저(350)는 히스토리 DB(310)에 저장된 강조빈도정보를 참조하여 강조단어 선택부(330)에서 선택된 강조단어들 가운데 강조빈도가 임계치 이상인값을 갖는 단어를 강조될 필요가 없는 단어로 선별한다.

상기 임계치는 입력되는 텍스트에서 자주 쓰이거나 강조되어 사용자가 단어를 쉽게 인식할 수 있는 정도의 수치를 나타내는 것으로, 일 예로 5회 등의 수치로 설정된다.

정보유형 결정모듈(500)은 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여 입력되는 텍스트 데이터의 정보유형을 결정하고 문형 정보를 생성하는 것으로, 도시된 바와 같이, 도메인 DB(510), 의미 해석부(530), 문형정보 생성부(550)로 구성된다.

본 발명에서 정보유형은 입력되는 텍스트에서 제공되는 정보가 나타내는 유형의 분야(이하, 도메인이라 칭함.)를 지칭하는 것이고, 문형정보는 선택된 강조단어를 입력되는 텍스트의 정보유형에 가장 적합하게 디스플레이하기 위한 실제 정보의 일반적 구성을 나타내는 것이다.

일 예로, The Nasdaq composite index closed down 40.30 to 1,356.95.와 같은 증시에 관한 텍스트가 입력되면, 입력된 텍스트의 정보 유형은 증권현황이고, 문형정보는 입력되는 텍스트의 정보유형인 증권현황에서 실제 정보에 해당되는 명사구(INDEX)와 수치(VALUE)의 일반적 구성인 INDEX VALUE 유형이 된다.

도메인 DB(510)는 정보유형별로 구분된 정보 추출을 위한 문법규칙, 용어 및 숙어 정보가 도메인 정보로 저장된다.

문법규칙은 입력되는 텍스트의 구문구조로부터 정보에 해당하는 항목을 추출할 수 있도록 각 도메인의 정보 구조를 문법(grammar)화 한 것이다.

일 예로, 상기 예문에서 사용되는 문법규칙은 증권현황의 정보유형에서 쓰이는 일반적인 문장 구조인 'INDEX close(or end) VALUE to VALUE' 중에서 사용자에게 중요한 주가 수치만을 제공하는 문법으로 다음과 같이 정의될 수 있다.

- NP{INDEX} VP{Verb(close) PP{*} PP{to VALUE}} → INDEX VALUE

- NP{INDEX} VP{Verb(end) PP{*} PP{to VALUE}} → INDEX VALUE

또한, 용어 및 숙어 정보는 특정 도메인에서 자주 쓰이거나 강조되는 단어, 하나의 의미단위(Chunk)로 구분하는 것이 가능한 숙어(일 예로, 상기 예문에서 The Nasdaq composite index)이고, 특정 도메인에서 축약형으로 자주 사용되는 용어(일 예로, 상기 예문에서 The Nasdaq composite index'는 NASDAQ로 축약되어 사용) 등의 정보를 나타내는 것이다.

의미 해석부(530)는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터 이외에 추가적으로 텍스트 데이터에 대한 의미정보를 얻기 위해 의미 해석이 요구될 경우, 별도로 구비되는 소정의 의미 해석수단을 나타낸다.

문형정보 생성부(550)는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터와 도메인 DB(510)에 저장된 도메인 정보를 참조하여 입력되는 텍스트 데이터에서 실제 정보에 해당되는 대표단어를 선택하고 정보유형을 결정하여 문형정보를 생성한다.

구조화 모듈(700)은 문형정보 생성부(550)로부터 얻어지는 문형정보에 따라 선택된 강조단어를 재배치하고 소정의 레이아웃 양식에 적용시키는 것으로, 도 2에 도시된 바와 같이, 문형정보 적용부(710), 메타 DB(730), 정보 구조화부(750)로 구성된다.

문형정보 적용부(710)는 정보유형 결정모듈(500)에서 생성되는 문형정보가 존재하는지 여부를 판별하여, 문형정보가 존재하면 강조단어 선택 모듈(300)에서 선택된 강조단어를 문형정보에 적용시킨 후 정보 구조화부(750)로 출력하고, 문형정보가 존재하지 않으면 문형정보가 비적용된 강조문자만을 정보 구조화부(750)로 출력한다.

메타 DB(730)는 정보유형에 따라 선택된 강조단어를 구조적으로 디스플레이하기 위한 레이아웃(예를 들어, 표 ) 및 부가적으로 디스플레이할 내용(예를 들어, :, ; 등)을 메타정보로 저장한다.

또한, 각 메타정보를 합성음과 함께 적절히 디스플레이 하기 위한 메타정보의 타이밍 정보도 저장된다.

정보 구조화부(750)는 입력되는 텍스트에 대한 정보유형, 강조단어 및 음성합성 모듈(100)로부터 얻어지는 각 강조단어의 타이밍 정보를 이용하여, 메타 DB(730)에서 해당되는 정보유형의 메타정보를 검출하고, 검출된 메타정보에 강조단어와 타이밍 정보를 태깅(tagging)하여 디스플레이 모듈(900)로 출력한다.

일 예로, 상기 예문과 같은 증권현황의 정보유형은 실제정보인 INDEX와 VALUE를 표 형식의 레이아웃에 디스플레이하도록 설정하였다면, 음성 합성 모듈(100)으로부터 얻어지는 INDEX 정보와 VALUE 정보에 대한 타이밍 정보(SYNC="12345", SYNC="12438")를 태깅한다.

이러한 과정을 통해 지정된 레이아웃 양식에 타이밍 정보와 함께 구조화된강조단어는 다음과 같다.

<INDEX SYNC="12345">INDEX(NASDAQ)</INDEX>

<VALUE SYNC="12438">VALUE(1,356.95)</VALUE>

</INDEXVALUE>

디스플레이 모듈(900)은 구조화된 강조단어를 타이밍 정보에 따라 합성음과 함께 동기화시켜 디스플레이하는 것으로, 도시된 바와 같이, 동기화부(910), 영상신호 처리부(930), 표시부(950)로 구성된다.

동기화부(910)는 메타정보 및 강조단어의 각 타이밍 정보를 추출하여 음성합성 모듈(100)의 스피커(190)를 통해 출력되는 합성음과 강조단어 및 메타정보가 적절히 디스플레이되도록 동기화 시킨다.

영상신호 처리부(930)는 구조화된 강조단어를 동기화부(910)로부터 얻어지는 타이밍 정보에 따라 영상신호로 처리하여 표시부(950)로 출력한다.

표시부(950)는 영상신호 처리부(930)로부터 출력되는 디스플레이 정보에 따라 강조단어를 시각적으로 디스플레이한다.

일 예로, 상기 구조화 모듈(700)로부터 출력되는 구조화된 상기 예문은 다음과 같이 표시부(950)를 통해 디스플레이 된다.

이하, 본 발명에 따른 부가정보 생성 기능이 있는 부가 정보 제공 기능이 있는 텍스트/음성 변환 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.

도 3은 본 발명의 일 실시 예에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환 과정을 나타낸 동작 흐름도이다.

우선, 음성합성 모듈(100)에서는 입력되는 텍스트를 형태소 해석부(110)와 구문 해석부(130)를 통해 형태소 및 구문 해석과정을 실행하고 형태소 및 구문 해석과정을 통해 얻어지는 음성합성 분석 데이터를 참조하여 입력되는 텍스트 데이터를 음성으로 합성한다(S10).

음성합성 모듈(100)을 통해 합성음이 생성되면, 강조단어 선택 모듈(300)의 강조단어 선택부(330)에서는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여 특성 품사 및 사용자의 인식이 어려울 것으로 예상되는 단어를 강조단어로 선택한다(S30).

강조단어 선택부(330)를 통해 강조단어가 선택되면, 선택된 강조단어와 음성합성 모듈(100)로부터 얻어지는 타이밍 정보를 이용하여 강조단어를 동기화 시킨다(S50).

디스플레이 모듈(900)에서는 타이밍 정보와 함께 구조화된 강조단어에서 타이밍 정보를 추출하여, 음성합성 모듈(100)의 스피커(190)로 출력되는 합성음과 적절히 동기화시켜 표시부(950)로 디스플레이 한다(S90).

또한, 추가적으로 메타 DB(730)로부터 소정의 레이아웃 양식에 해당되는 메타 정보를 검출하여 선택된 강조단어를 검출된 메타정보에 적용시켜 구조화한다(S70).

도 4에서는 강조단어를 선택하는 단계(S30)을 보다 상세히 나타낸 것으로, 도시된 바와 같이, 강조단어 선택부(330)에서는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 검출한다(S31).

그 다음, 검출된 음성합성 분석 데이터를 이용하여 음성합성 모듈(100)의 형태소 해석부(110)에서 이루어지는 형태소 해석 과정에 따라 형태소 분할된 각 단어들의 품사가 특정 품사에 해당되는지 여부를 판단하여, 지정된 특정 품사에 해당되는 단어를 강조단어로 선택한다(S32).

또한, 추가적으로 강조단어를 통해 사용자가 인식하기 어려울 것으로 예상되는 단어를 제공하기 위해, 검출된 음성합성 분석 데이터를 이용하여 각 단어의 합성음 매칭률을 검사하고(S33), 합성음 매칭률 검사 결과 합성음 왜곡이 예상되는 단어를 검출하여 강조단어로 선택한다(S34).

합성음 매칭률 검사는 수학식 1을 사용하여, 검출된 음성합성 분석 데이터를 통해 각 단어의 음편별로 예측되는 합성음 출력 값(예측값)과 실제로 출력되는 합성음 출력 값(실제값)의 차이로 매칭률을 산출하고, 산출된 매칭률의 평균으로 평균값이 임계치 미만인 값을 갖는 단어를 검사한다.

임계치는 사용자가 인식하지 못하는 합성음의 매칭률 평균값을 나타내는 것으로, 일 예로, 50% 등의 수치로 설정된다.

그리고, 이러한 과정을 통해 선택된 강조단어에서 사용자가 쉽게 인식할 수 있는 단어를 강조할 필요가 없는 단어로 선별하기 위해, 강조단어 선택부(330)에서는 검출된 강조단어들 가운데 히스토리 매니저(350)를 통해 강조할 필요가 없는 단어를 선별한다(S35).

즉, 히스토리 매니저(350)에서는 히스토리 DB(310)에 저장되는 음성합성 모듈(100)로부터 얻어진 강조빈도 정보를 참조하여, 강조단어 선택부(330)를 통해 검출된 강조할 단어 가운데 강조빈도가 임계치를 초과하여 사용자가 인식하지 못할 가능성이 낮은 단어를 선별한다.

히스토리 매니저(350)를 통한 강조할 필요가 없는 단어를 선별하는 과정을 통해, 강조단어 선택부(330)에서는 입력되는 텍스트에서 특성 품사와 사용자가 인식하기 어려울 것으로 예상되는 단어를 강조 단어로 선택한다(S36).

도 5에서는 본 발명의 다른 실시 예에 따른 부가 정보 제공 기능을 갖는 음성 발생과정을 나타낸 것으로, 도 5를 통해 본 발명의 다른 실시 예를 설명함에 있어서 앞서 설명한 도 3과 4를 참조하여 설명한다.

먼저, 음성합성 모듈(100)를 통해 입력되는 텍스트를 음성으로 변환하고(S100, 도 3의 S10 참조), 강조단어 선택부(330)에서 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여 강조단어를 선택한다(S200, 도 3,4의 S30단계 참조).

또한, 정보유형 결정모듈(500)의 문형정보 생성부(550)에서 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터와 도메인 DB(530)로부터 추출되는 도메인 정보를 이용하여 입력되는 텍스트의 정보 유형을 결정하고 문형정보를 생성한다(S300).

그 다음, 구조화 모듈(700)의 문형정보 적용부(710)에서는 선택된 강조단어가 적용될 문형정보가 정보유형 결정모듈(500)로부터 생성되었는지를 통해 문형정보 적용가능 여부를 판별한다(S400).

판별결과에 따라 문형정보 적용이 가능하면 선택된 강조단어를 문형정보에 적용시켜 재배치한다(S500).

이와 같이, 문형정보가 적용 또는 비 적용된 강조단어를 음성합성 모듈(100)로부터 얻어지는 타이밍 정보를 이용하여 동기화 시킨다(S600, 도 3의 S50참조 ).

디스플레이 모듈(900)에서는 타이밍 정보와 함께 구조화된 강조단어에서 타이밍 정보를 추출하여, 음성합성 모듈(100)의 스피커(190)로 출력되는 합성음과 적절히 동기화시켜 표시부(950)로 디스플레이 한다(S800, 도 3의 S90참조).

또한, 추가적으로 구조화 모듈(700)의 정보 구조화부(750)에서 메타정보 DB(730)로부터 해당되는 정보유형의 메타정보를 검출하여, 문형정보가 적용 또는 비 적용된 강조단어를 소정의 레이아웃 양식으로 구조화 시킨다(S700, 도 3의 S70 참조).

도 6에서는 도 5의 정보유형을 결정하고 문형정보를 생성하는 단계(S300)를 상세히 나타낸 것으로, 첨부된 도면을 참조하여 실시 예로 상세히 설명한다.

먼저, 정보유형 결정모듈(500)의 문형정보 생성부(550)에서는 음성합성 모듈(100)로부터 음성합성 분석 데이터를 추출하고, 입력되는 텍스트의 의미 구조에 대한 정보가 추가적으로 요구되면 의미 해석부(530)를 통해 텍스트의 의미 구조를 해석하여 입력되는 텍스트의 의미 구조 정보를 추출한다(S301).

그 다음, 추출된 음성합성 분석 데이터와 의미 구조 정보 및 도메인 DB(510)를 참조하여 입력되는 텍스트의 각 단어를 실제 의미 단위로 구분한다(S302).

입력되는 텍스트를 의미 단위(Chunk)로 구분한 후, 구분된 각 의미단위를 표현하는 대표 의미를 결정하여 결정된 의미 정보를 각 의미단위에 부착(Tagging)하고(S303), 도메인 DB(510)를 참조하여 각 의미단위의 대표단어를 선택한다(S304).

일 예로, 상기 예문인 증권현황의 정보유형에 해당되는 문장에서 /The Nasdaq composite index/close/down/40.30/to/1,356.95/'으로 각 의미단위가 구분된다면, 각각의 의미단위를 지칭할 수 있는 정보를 의미 정보로 정의하는데 아래와 같이 정의될 수 있다.

- The Nasdaq composite index : INEDX

- close : close

- down : down

- to : to

- number class(40.30, 1,356.95) : VALUE

이와 같이 정의된 의미 정보를 의미단위로 구분된 입력 텍스트에 부착하면, 아래와 같다.

/INDEX/close/down/VALUE/to/VALUE

또한, 각 의미단위로 구분된 입력 텍스트에서 각 의미 단위의 대표단어를 도메인 DB(510)에 저장된 용어 및 숙어 정보를 참조하여 선택하면, 아래와 같이 결정된다.

/NASDAQ/close/down/40.30/to/1,356.95/

이와 같은 과정을 통해 선택되는 대표단어 가운데 실제 정보로 사용자에게 제공될 단어가 선택된다.

대표단어 선택 후, 문형정보 생성부(550)에서는 도메인 DB(510)로부터 입력되는 텍스트의 구문 및 의미 구조에 적용 가능한 문법규칙을 검출하고 검출된 문법규칙을 통해 정보유형과 실제 정보로 표현할 대표단어를 선택한다(S305).

일 예로, 앞서 도메인 DB(510)에 저장되는 문법규칙에 대한 설명 과정에서 상기 예문에 대한 정보유형 결정과정을 참조하여, 결정된 정보유형의 문법규칙으로 제공된 문법 가운데 'NP{INDEX} VP{Verb(close) PP{*} PP{to VALUE}} → INDEX VALUE'에 입력되는 텍스트의 구문 구조가 일치되는 것으로 검출된다면, 검출된 문법규칙에 의미단위로 구분된 텍스트를 적용시키면 아래와 같다.

INFO[The Nasdaq composite index/INDEX]closed down 40.30 to INFO[1,356.95/VALUE]

이와 같이, 문법규칙이 적용되는 과정에서 입력되는 텍스트의 정보유형이 결정되고, 실제 정보로 표현할 대표단어 [(INDEX,VALUE)]가 선택된다.

정보유형이 결정되고 실제 정보로 표현될 대표단어가 선택되면, 선택된 대표 단어를 결정된 정보유형에 가장 적합하게 디스플레하기 위한 문형정보를 생성한다(S306).

일 예로, 상기 예문에서의 생성되는 문형정보는 'INDEX VALUE 형이다.

도 7 에서는 도 5의 문형정보를 적용하는 단계(S500)를 상세히 나타낸 것으로, 첨부된 도면을 참조하여 실시 예로 상세히 설명한다

먼저, 강조단어 선택 모듈(300)에서 선택된 강조단어가 생성된 문형정보에 맞춰지는지를 판단하기 위해 선택된 강조단어가 문형정보 생성부(550)에서 생성된 문형정보에서 선택된 실제 정보로 표현될 대표단어에 포함되는지 여부를 판별한다(S501).

판별결과 선택된 강조단어가 대표단어에 포함되지 않으면 문형정보생성 과정에서 결정된 정보 유형의 구문 구조에 따라 선택된 강조단어를 재배치하고(S502), 대표단어에 포함되면 강조단어를 문형정보에서 대응되는 대표단어에 각각 태깅시켜 재배치한다(S503).

이와 같이 이루어지는 본 발명에 따른 부가정보 제공 기능을 갖는 텍스트/음성 변환 장치 및 방법을 이동통신 단말기를 통해 구현하는 실시 예를, 첨부된 도면을 참조하여 설명한다.

<실시예 1>

만일, 아래와 같은 텍스트가 입력되고, 강조단어 선택 모듈(300)을 통해 강조단어를 선택하고 선택된 강조단어만을 디스플레이하는 경우를 일 예로 설명한다.

"GE 백색가전은 양문여닫이 냉장고인 'GE 프로파일 아티카'를 출시한다고 9일 밝혔다"

이와 같은, 텍스트가 입력되면 음성합성 모듈(100)에서는 입력되는 텍스트를 음성 합성하기 위해 형태소 해석부(110)를 통해 형태소에 따라 명사, 형용사, 부사, 조사 등의 품사로 구분하는데, 구분 결과는 아래와 같다.

"GE/왜래어+백색/명사+가전/명사+은/조사 양문여닫이/명사+냉장고/명사+인/서술어 GE/왜래어+프로파일/명사+아티카/고유명사+를/조사 출시한다/서술어+고/연결어미 9/수산+일/명사 밝혔/서술어+다/어말어미"

이와 같이 형태소 해석부(110)를 통한 형태소 해석 후, 구문 해석부(130)에서 입력되는 텍스트 데이터의 구문 구조를 해석하고 이를 참조하여 음성 합성부(150)에서 음성 합성하는 과정을 통해 음성합성 분석 데이터가 생성된다.

강조단어 선택 모듈(300)의 강조단어 선택부(330)에서는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여, 입력되는 텍스트 데이터에서 형태소 구분된 단어 가운데 미리 지정된 특정 품사에 해당되는 단어를 검출한다.

본 실시 예에서, 특정 품사로 고유명사, 외래어, 숫자가 지정된다면, 강조단어 선택부(330)에서는 입력되는 텍스트에서 'GE/아티카/9일'을 지정된 특정 품사에 해당되는 단어로 검출한다.

추가적으로, 사용자에 의해 인식되기 어려울 것으로 예상되는 단어를 강조단어로 선택하고자 한다면, 강조단어 선택부(330)에서는 입력되는 텍스트 데이터 단어들의 합성음 매칭률을 수학식 1을 이용하여 검사한다.

합성음 매칭률 검사 결과, 도 8에 도시한 바와 같이, 양문여닫이의 매칭률이 20%로 산출된다면, 설정된 임계치의 수치가 50%인 경우 산출된 매칭률이 임계치보다 낮으므로 양문여닫이는 합성음의 왜곡이 예상되는 단어로 검출된다.

이러한 과정을 통해 특정 품사에 해당되고 합성음 왜곡이 예상되어 강조할 단어들로 'GE/아티카/9일/양문여닫이'가 검출된다.

추가적으로, 선택된 강조단어 가운데 입력되는 텍스트에서 자주 쓰이거나 강조되어 소정의 임계치 이상의 강조빈도를 갖는 단어를 강조할 필요가 없는 단어로 선별하고자 한다면, 강조단어 선택부(330)에서는 히스토리 매니저(350)를 통해 검출된 강조단어 가운데 강조빈도가 임계치를 초과하는 단어를 선별한다.

본 실시 예에서, 선택된 강조단어가 모두 임계치 미만의 강조빈도를 갖는다면, 최종적으로 강조할 단어로 'GE/아티카/9일/양문여닫이'가 선택된다.

구조화 모듈(700)에서는 선택된 강조단어를 음성합성 모듈(100)로부터 얻어지는 타이밍 정보와 함께 구조화 시키고, 디스플레이 모듈(900)에서는 구조화된 강조단어에서 타이밍 정보를 추출하여 음성합성 모듈(100)에서 출력되는 합성음과 함께 강조단어를 표시부(950)로 디스플레이 한다.

표시부(950)에 디스플레이 되는 강조단어는 도 9의 a와 같다.

추가적으로 메타 DB(730)로부터 소정의 레이아웃 양식을 검출하여 검출된 레이아웃 양식에 적용시켜 선택된 강조단어를 디스플레이 할 수 있다.

<실시 예 2>

만일, 아래와 같은 텍스트가 입력되고, 강조단어 선택 모듈(300)을 통해 강조단어를 선택하고 선택된 강조단어를 문형정보에 적용시켜 재배치한 후 디스플레이 하는 경우를 일 예로 설명한다.

이하, 설명에서는 선택된 강조단어가 정보유형 결정과정에서 선택된 실제 정보의 대표단어에 해당되는 것으로 전제하여, 강조단어를 선택하는 과정을 생략하고 강조단어를 문형정보에 적용시켜 디스플레이 하는 과정만을 설명 하였다.

오늘은 북동내지 남동풍이 불고 구름이 많고 오후 한때 소나기 오는 곳이 있겠으며 아침에 안개가 끼는 곳이 있겠습니다.

먼저, 정보유형 결정모듈(500)에서는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터와 도메인 DB(510)로부터 검출되는 도메인 정보를 참조하여 입력되는 텍스트의 단어들을 실제 의미 단위로 구분하는데, 각 의미단위로 구분된 결과는 아래와 같다.

/오늘은/북동내지남동풍이/불고/구름이/많고/오후한때/소나기/오는/곳이/있겠으며/아침에/안개가/끼는/곳이/있겠습니다./

입력되는 텍스트를 실제 의미 단위로 구분한 후, 구분된 각 의미단위의 대표 의미를 결정하여 결정된 대표의미를 각 의미단위에 부착하는데, 대표의미가 태깅된 결과는 아래와 같다.

/DATE/WIND/불고/CLOUD/많고/DATE/SHOWER/오는/LOC/있겠으며/DATE/FOG/끼는/LOC/있겠습니다./

/오늘/북동내지남동풍/불다/구름/많다/오후한때/소나기/오다/곳/있다/아침/안개/끼다/곳/있다./

이와 같은 과정을 통해 선택되는 대표단어 가운데 실제 정보로 사용자에게 제공될 단어가 선택되는데, 문형정보 생성부(550)에서는 도메인 DB(510)로부터 입력되는 텍스트 데이터의 구문 및 의미 구조에 적용 가능한 문법규칙을 검출한다.

본 실시 예에서 제공되는 텍스트에 해당되는 문법규칙으로 아래와 같은 문법규칙이 일기 예보의 정보유형에서 검출된다면, 입력되는 텍스트의 정보유형은 일기예보로 결정된다.

- 부사어{DATE} 주어{WIND} 불다 → DATE WIND

- 부사어{DATE} 주어{SHOWER} 오다 → DATE SHOWER

- 부사어{DATE} 주어{FOG} 끼다 → DATE FOG

정보유형이 결정되면, 입력되는 텍스트 데이터를 검출된 문법규칙에 적용시키는데, 문법규칙 적용 결과는 아래와 같다.

INFO[오늘/DATE]은 INFO[북동내지 남동풍/WIND]이 불고 INFO[구름/CLOUD]이 많고 INFO[오후 한때/DATE]INFO[소나기/SHOWER]오는 곳이 있겠으며 INFO[아침/DATE]에 INFO[안개/FOG]가 끼는 곳이 있겠습니다.

이와 같이, 문법규칙이 적용되는 과정에서 입력되는 텍스트의 정보유형이 결정되고, 실제 정보로 표현할 대표단어 (오늘/DATE, 북동내지 남동풍/WIND, 구름/CLOUD, 오후 한때/DATE, 소나기/SHOWER, 아침/DATE, 안개/FOG)가 선택된다.

정보유형이 결정되고 실제 정보로 표현될 대표단어가 선택되면, 선택된 대표 단어를 결정된 정보유형에 가장 적합하게 디스플레하기 위한 문형정보를 생성한다.

일 예로, 상기 예문에서의 생성되는 문형정보는 'DATE WEATHER 형이다.

이러한 과정을 통해 문형정보가 생성되면, 문형정보 적용부(910)에서는 선택된 강조단어를 생성된 문형정보에 적용시켜 재배치한다.

본 실시 예에서는 선택된 강조단어가 문형정보에서 실제 정보로 표현될 대표단어로 선택된 단어와 일치한다면, 문형정보에 강조단어와 음성합성 모듈(100)로부터 얻어지는 각 강조단어의 타이밍 정보를 태깅하여 구조화 한다.

구조화된 강조단어는 아래와 같다.

:

</DATEWEATHER>

디스플레이 모듈(900)은 구조화된 강조단어를 타이밍 정보에 따라 합성음과 함께 동기화시켜 디스플레이한다.

디스플레이 결과는 도 9의 b와 같다.

<실시예 3>

만일, 아래와 같은 텍스트가 입력되고, 강조단어 선택 모듈(300)을 통해 강조단어를 선택하고 선택된 강조단어를 문형정보에 적용시키고 메타 정보와 함께 구조화하여 디스플레이 하는 경우를 일 예로 설명한다.

이하, 설명에서는 선택된 강조단어가 정보유형 결정과정에서 선택된 실제 정보의 대표단어에 해당되는 것으로 전제하여, 강조단어를 선택하는 과정을 생략하고 강조단어를 문형정보 및 메타정보에 적용시켜 디스플레이 하는 과정만을 설명 하였다.

"오늘 종합 주가지수는 지난 주말보다 8.88P 오른 717.35P, 코스닥 지수는0.97P 상승한 72.99P를 기록했습니다."

음성합성 모듈(100)에서는 입력되는 텍스트를 형태소 및 구문 해석하고 음성으로 합성한다.

강조단어 선택 모듈(300)에서는 강조단어 선택부(330)를 통해 입력되는 텍스트에서 강조할 단어를 선택하며, 정보유형 결정모듈(500)에서는 도메인 DB(510)를 통해 입력되는 텍스트의 정보유형을 결정하고 문형정보를 생성한다.

입력되는 텍스트를 통한 정보유형 결정과정을 보다 상세히 설명하면, TTS(100)로부터 얻어진 형태소 구문 정보와 도메인 DB(510)의 의미단위 DB를 이용하여 입력되는 텍스트의 단어들을 실제 의미 단위로 구분하는데, 의미단위 구분 결과는 아래와 같다.

'/오늘/종합 주가지수는/지난 주말보다/8.88P/오른/717.35P/,/코스닥지수는/ 0.97P/상승한/72.99P를/기록했습니다./'

입력 텍스트를 실제 의미 단위로 구분한 후, 도메인 DB(510)를 참조하여 의미단위로 구분된 입력 텍스트에서 대표 의미를 결정하여 결정된 대표의미를 각 의미단위에 태깅하는데, 대표의미를 태깅한 결과는 아래와 같다.

'/DATE/INDEX/DATE/VALUE/오른/VALUE/,/INDEX/VALUE/상승한/VALUE/기록하다/'

그리고, 입력 텍스트의 각 의미단위의 대표 단어를 선택하는데, 선택된 대표단어가 적용된 결과는 아래와 같다.

'오늘/종합 주가지수/지난 주말/8.88P/오른/717.35P/,/코스닥 지수/0.97/상승/72.99P/기록/'

또한, 도메인 DB(510)로부터 입력되는 텍스트의 구문 구조와 의미 구조가 적용되는 문법규칙을 추출하고, 추출된 문법규칙을 각 의미단위로 구분된 입력 텍스트에 적용시켜 입력되는 텍스트에서 실제 정보에 해당되는 부분만을 디스플레이 한다.

즉, 입력되는 텍스트의 구문 구조가 증권현황의 정보유형에서 제공되는 다음과 같은 문법규칙에 일치된다면, 입력되는 텍스트의 정보유형은 증권 현황으로 결정된다

- 부사어{DATE} 주어{INDEX} 관형절 보어{VALUE} -> DATE INDEX VALUE

- 주어{INDEX} 관형절 목적어{VALUE} 기록하다. -> INDEX VALUE

이와 같이 검출된 문법규칙에 입력되는 텍스트를 적용시키면, 아래와 같다.

'INFO[오늘/DATE]INFO[종합주가지수/INDEX]는 지난 주말 8.88P 오른 INFO[717.35P/VALUE],INFO[코스닥 지수/INDEX]는 0.97P 상승한 INFO[72.99P/DATE] 기록했습니다.'

이 결과, 실제 정보로 디스플레이 될 대표 단어 (오늘/DATE, 종합주가지수/INDES, 코스닥 지수/INDEX, 72.00P/VALUE)를 선택하고, 대표단어를 결정된 정보유형에 가장 적합하게 디스플레이하기 위한 문형정보로 INDEX VALUE 형이 생성된다.

이러한 과정을 통해 문형정보가 생성되면, 구조화 모듈(700)의 문형정보 적용부(710)에서의 문형정보 존재 판별결과 강조단어 선택모듈(300)에서 선택된 강조단어가 적용될 문형정보가 존재하므로, 선택된 강조단어가 정보유형 결정모듈(500)에서 생성된 문형정보에서 적용가능한지 여부를 판별한다.

만일, 강조단어 선택 모듈(300)에서 선택된 강조단어가 정보유형 결정모듈(500)에서 실제 정보로 디스플레이 될 대표단어로 선택된 단어에 포함된다면, 문형정보 적용부(710)에서는 강조단어를 생성된 문형정보에 태깅시킨다.

그러나, 선택된 강조단어가 정보유형 결정모듈(500)에서 대표단어로 선택된 단어에 포함되지 않는다면, 강조단어를 결정된 정보 유형의 구문 구조에 따라 재배치한다.

이와 같이 문형정보에 강조단어를 태깅시키거나 구문 구조에 따라 정보단어를 재배치하면, 정보 구조화부(750)에서는 강조단어를 결정된 정보유형에 따라 레이아웃 하기 위한 메타정보를 메타 DB(730)로부터 추출하여 추출된 메타정보에 강조단어를 태깅한다.

강조단어를 메타정보에 태깅시키는 과정에서 각 강조단어에 지정되는 해당 합성음과의 타이밍 정보가 함께 설정된다.

만일, 증시관련 정보유형에서는 정보를 DATE를 TITLE로 하고 INDEX와 VALUE가 표 구조로 각 항목별로 함께 제공한다면, 표 형식으로 나타내는 레이아웃 양식이 메타 DB(730)로부터 추출되고 추출된 레이아웃에 강조단어와 타이밍 정보가 다음과 같이 입력된다.

<INDEX SYNC="1351">종합주가지수</INDEX>

:

</INDEXVALUE>

이 결과, 선택된 강조단어는 합성음 출력 시 해당되는 합성음과 함께 도 9의 c에 도시한 바와 같이, 종합주가지수의 항목에 해당되는 VALUE가 'INHERIT' 태그에 의해 INDEX와 함께 나타내어지는 방식으로 디스플레이 된다.

본 발명은 도면에 도시된 일 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

본 발명에 따르면, 사용자는 인식하기 어려운 단어를 시각적으로 확인함으로써 음성이 갖는 시간적, 인지적 제약을 감소시킬 수 있다.

또한, 구조적으로 디스플레이되는 부가정보를 통해 사용자가 합성음으로 제공되는 정보 내용을 보다 직관적으로 이해할 수 있으며, 이에 따라 TTS의 정보 전달력과 신뢰성이 향상되는 효과를 제공한다.

그리고, 이러한 효과를 통해 텍스트/음성 변환 장치가 적용된 시스템의 작업 효율성을 극대화 시킬 수 있다.

Claims

텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성 모듈과,

상기 음성합성 모듈로부터 얻어지는 상기 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터에서 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택 모듈과,

상기 선택된 강조단어를 상기 합성음과 동기시켜 디스플레이 하는 디스플레이 모듈을 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성 모듈과,

상기 음성합성 모듈로부터 얻어지는 상기 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터 가운데 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택 모듈과,

상기 음성합성 모듈로부터 얻어지는 상기 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터의 정보유형을 결정하고 문형정보를 생성하는 정보유형 결정 모듈과,

상기 선택된 강조단어를 상기 생성된 문형정보에 따라 재배치하고, 상기 합성음과 동기시켜 디스플레이 하는 디스플레이 모듈을 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
제 1항 또는 2항에 있어서,

상기 선택된 강조단어를 소정의 레이아웃 양식에 적용시켜 구조화하는 구조화 모듈을 더 포함하는 것을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환장치.
제 1항 또는 2항에 있어서,

상기 강조단어는 상기 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터의 단어 가운데 합성음 왜곡이 예상되는 단어를 더 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
제 1항 또는 2항에 있어서,

상기 강조단어는 상기 선택된 강조단어 가운데 상기 음성합성 모듈로부터 얻어지는 상기 텍스트 데이터의 각 단어에 대한 강조빈도 정보를 이용하여 소정의 임계치 미만인 강조빈도를 갖는 단어로 선별되는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
제 2항에 있어서,

상기 정보유형 결정 모듈은 정보유형별로 나뉜 다양한 분야의 구문구조, 문법규칙, 용어 및 숙어 정보가 도메인 정보로 저장되는 도메인 DB와,

상기 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 상기 도메인 DB로부터 상기 텍스트 데이터에 해당되는 도메인 정보를 검출하여 정보유형을 결정하고, 문형정보를 생성하는 문형정보 생성부를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
제 3항에 있어서,

상기 구조화 모듈은 정보유형에 따라 선택된 강조단어를 구조적으로 디스플레이하기 위한 레이아웃 및 부가적으로 표시할 내용이 메타정보로 저장되는 메타 DB와,

상기 강조단어 선택 모듈에서 선택된 강조단어를 상기 문형정보에 따라 재배치시키는 문형정보 적용부와,

상기 결정된 정보유형에 해당되는 메타정보를 상기 메타 DB로부터 검출하고, 검출된 메타정보에 상기 재배치된 강조단어를 적용시키는 정보 구조화부를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
제 4항에 있어서,

상기 합성음 왜곡이 예상되는 단어는 각 음편의 합성음 출력 예측값과 실제값의 차이로 결정되는 매칭률이 소정의 임계치 미만인 단어임을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환장치.
제 5항에 있어서,

상기 출력 예측값과 실제값의 차이는

에 의해 산출되는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성단계와;

상기 음성합성 분석 데이터를 이용하여, 상기 텍스트 데이터 가운데 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택단계와;

상기 선택된 강조단어를 상기 합성음과 동기시켜 디스플레이하는 디스플레이 단계를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성단계와;

상기 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터 중 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택단계와;

상기 음성합성 단계에서 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터의 정보유형을 결정하고 문형정보를 생성하는 문형정보 생성단계와;

상기 선택된 강조단어를 상기 문형정보에 따라 재배치하고, 상기 합성음과 동기시켜 디스플레이 하는 디스플레이단계를 포함하는 것을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환방법.
제 10항 또는 11항에 있어서,

상기 선택된 강조단어를 소정의 레이아웃 양식에 적용시켜 구조화하는 구조화 단계를 더 포함하는 것을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환방법.
제 10항 또는 11항에 있어서,

상기 강조단어 선택단계는 상기 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터의 단어 가운데 합성음 왜곡이 예상되는 단어를 선택하는 단계를 더 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
제 10항 또는 11항에 있어서,

상기 강조단어 선택단계는 상기 선택된 강조단어를 상기 음성합성 모듈로부터 얻어지는 상기 텍스트 데이터의 각 단어에 대한 강조빈도 정보를 이용하여 소정의 임계치 미만인 강조빈도를 갖는 단어로 선별하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
제 11항에 있어서,

상기 문형정보 생성단계는 도메인 DB와 상기 음성합성 단계에서 얻어지는 음성합성 분석 데이터를 참조하여 상기 텍스트 데이터를 의미단위로 구분하는 단계와;

상기 구분된 각 의미단위의 대표의미를 결정하여 각 의미단위에 태깅하고, 각 의미단위 가운데 대표단어를 선택하는 단계와;

상기 텍스트의 구문형식에 맞는 문법규칙을 상기 도메인 DB로부터 검출하고, 검출된 문법규칙을 상기 텍스트 데이터에 적용시켜 실제 정보를 결정하는 단계와;

상기 결정된 실제 정보를 통해 상기 텍스트 데이터의 정보유형을 결정하여 문형정보를 생성하는 단계를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
제 12항에 있어서,

상기 구조화 단계는 상기 선택된 강조단어가 상기 생성된 문형정보의 정보유형에 적용되는지 여부를 판별하는 단계;

상기 판별결과에 따라 상기 강조단어를 문형정보에 태깅하거나 결정된 정보유형에 따라 재배치하는 단계;

상기 재배치된 강조단어를 메타 DB로부터 검출되는 상기 정보유형에 해당되는 메타정보에 적용시켜 구조화하는 단계를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
제 13항에 있어서,

상기 합성음 왜곡이 예상되는 단어는 각 음편의 합성음 출력 예측값과 실제값 차이로 결정되는 매칭률이 소정의 임계치 미만인 단어임을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
제 16항에 있어서,

상기 도메인 DB는 정보유형별로 나뉜 다양한 분야의 구문구조, 문법규칙, 용어 및 숙어 정보가 도메인 정보로 저장되는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
제 18항에 있어서,

상기 메타 DB는 정보유형에 따라 선택된 강조단어를 구조적으로 디스플레이하기 위한 레이아웃 및 부가적으로 표시할 내용이 메타 정보로 저장되는 것을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환방법.