KR100463655B1 - 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 - Google Patents

부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 Download PDF

Info

Publication number
KR100463655B1
KR100463655B1 KR10-2002-0071306A KR20020071306A KR100463655B1 KR 100463655 B1 KR100463655 B1 KR 100463655B1 KR 20020071306 A KR20020071306 A KR 20020071306A KR 100463655 B1 KR100463655 B1 KR 100463655B1
Authority
KR
South Korea
Prior art keywords
word
information
speech synthesis
speech
text
Prior art date
Application number
KR10-2002-0071306A
Other languages
English (en)
Other versions
KR20040042719A (ko
Inventor
정승녕
조정미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2002-0071306A priority Critical patent/KR100463655B1/ko
Priority to DE60305645T priority patent/DE60305645T2/de
Priority to EP03257090A priority patent/EP1473707B1/en
Priority to US10/704,597 priority patent/US20040107102A1/en
Priority to JP2003387094A priority patent/JP2004170983A/ja
Publication of KR20040042719A publication Critical patent/KR20040042719A/ko
Application granted granted Critical
Publication of KR100463655B1 publication Critical patent/KR100463655B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 부가정보 제공 기능이 있는 텍스트/음성 변환 장치 및 방법에 관한 것으로서, 텍스트/음성 변환 장치로부터 출력되는 합성음에서 특정 품사 및 사용자가 인식하기 어려울 것으로 예상되는 단어를 사용자에게 부가정보로 제공하는 것을 주 목적으로 하며, 상기 목적은 텍스트/음성 변환 장치로부터 얻어지는 언어분석 데이터 및 음성합성 결과분석 데이터를 이용하여 입력되는 텍스트로부터 강조단어를 선택하고, 선택된 강조단어를 입력되는 텍스트의 문형 정보 및 소정의 레이아웃 양식에 따라 구조화하여 제공함으로써 달성되는 것을 특징으로 한다.

Description

부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법{TEXT-TO-SPEECH CONVERSION APPARATUS AND METHOD HAVING FUNCTION OF OFFERING ADDITIONAL INFORMATION}
본 발명은 부가정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법에 관한 것으로서, 특히 텍스트를 음성으로 변환하는 텍스트/음성 변환장치(Text-to-Speech Conversion System: 이하, TTS라 칭함)의 언어 분석 및 음성 합성 과정에서 얻어지는 언어분석 데이터 및 음성합성 결과분석 데이터를 이용하여 입력되는 텍스트에서 특정 품사 및 사용자가 인식하기 어려울 것으로 예상되는 단어를 사용자에게 부가정보로 제공하는 부가정보 제공 기능이 있는 텍스트/음성 변환 장치 및 방법에 관한 것이다.
음성합성 기술은 텍스트가 입력되면 입력되는 텍스트를 언어 해석하고 음성으로 합성하는 처리과정을 통해 텍스트를 자연스러운 합성음으로 변환시켜 출력하는 것으로, TTS를 통해 이루어진다.
일반적인, TTS의 개략적 구성 및 그 동작 처리과정을 한국어 텍스트를 음성 합성하는 시스템을 통해 설명하면, 도 1에 도시된 바와 같다.
먼저, 전처리부(2)에서 사전형의 숫자/약어/기호 DB(1)를 이용하여 입력되는 텍스트를 분석한 뒤 한글 이외의 문자를 한글로 바꿔주는 전처리 과정을 수행하고, 형태소 해석부(2)에서는 사전형의 형태소 DB(3)를 이용하여 전처리된 문장의 형태소를 분석하고 이 문장을 형태소에 따라 명사, 형용사, 부사, 조사 등의 품사로 분리한다.
구문 해석부(5)에서는 입력된 문장의 구문을 분석하고, 글자/음운 변환부(7)에서는 기호나 특수문자에 대한 발음 규칙 데이터가 저장된 사전형의 예외 발음DB(6)를 이용하여 분석된 구문의 문자를 음운으로 변환한다.
음성합성 데이터 생성부(8)에서는 글자/음운 변환부(7)에서 변환된 음운에 대한 운율, 합성단위 및 글자, 단어, 문장의 경계 정보 및 각 음성 데이터의 지속시간 정보를 생성하고, 기본 주파수 제어부(10)에서는 합성될 음성의 기본 주파수를 설정하고 제어한다.
그리고, 합성음 생성부(11)에서는 다수의 합성음 데이터가 저장된 합성단위 DB(12)로부터 얻어지는 음성 합성단위와 상술한 구성요소를 통해 생성되는 음성 합성 데이터, 지속시간 정보, 기본 주파수를 참조하여 음성 합성을 한다.
이러한 TTS는 합성음을 통해 사용자가 제공되는 텍스트 정보를 쉽게 인식할 수 있도록 하는 것을 목적으로 하는데, 음성은 본질적으로 시간에 따라 흘러가는 정보이기 때문에 한번 출력된 음성을 다시 확인하기가 어려운 시간적 제약을 갖는다. 또한, 사용자가 합성음으로 주어지는 정보를 인식하기 위해서는 출력되는 합성음에 지속적으로 주의를 집중하고, 합성음의 내용을 이해하기 위한 노력을 항상 기울여야하는 불편함이 있었다.
한편, 데이터베이스화된 문자 인식 및 합성 데이터를 이용하여 입력되는 텍스트에 가까운 자연스러운 합성음을 생성하려는 시도가 있어 왔지만, 여전히 완전한 텍스트/음성 합성이 불완전하여 사용자가 TTS에서 제공되는 정보를 인식하지 못하거나 잘못 이해하게 되는 문제점이 있었다.
따라서, TTS로부터 제공되는 합성음을 통한 원활한 의사소통을 위한 보조적인 수단이 요구되고 있는 실정이다.
이러한 종래 기술의 문제점을 해결하기 위하여 앞서 제안된 바 있는, 한국 특허공개 제2002-0011691호(발명의 명칭: 대화 내용의 그래픽 표현 방법과 장치)는 대화 중에 나오는 목적물을 그래픽 데이터베이스로부터 추출하여 추출된 목적물의 동작, 위치, 상태 등을 화면에 출력함으로써 대화의 효율성을 높이는 것이 가능한 시스템을 제시하였다.
이러한 시스템은 일상생활에서 사용되는 수많은 목적물에 해당되는 단어를 표현하기 위해서는 방대한 용량의 그래픽 데이터베이스가 요구되고, 목적물에 해당되는 단어마다 일일이 그래픽 데이터베이스에서 해당되는 그래픽 정보를 검색해야하는 불편함이 있었다.
또한, 일본 특허공개 제 1995-334507호(발명의 명칭: 텍스트로부터의 인체동작 음성 생성 시스템)와 일본 특허공개 제 1999-272383호(발명의 명칭: 동작 동기형 음성언어 표현 생성방법 및 장치, 및 동작 동기형 음성언어 표현 생성 프로그램을 격납한 기억매체)는 텍스트에서 동작을 나타내는 단어를 추출하여 합성음과 함께 동작 영상을 출력하거나, 음성언어에서 동작이 수반되는 문자열이 검출되면 합성음과 함께 수반되는 동작영상을 출력하는 방법을 제공하였다.
그러나, 이러한 방법의 경우에도 각 텍스트 및 문자열 별로 해당되는 동작을 나타내는 동작 영상을 저장한 방대한 용량의 데이터베이스를 구비해야하고 각 텍스트 또는 문자열이 검출될 때마다 데이터베이스에서 해당되는 동작영상을 검색해야하는 불편함이 있었다.
그리고, 한국 특허공개 제 2001-0002739호(발명의 명칭 : 음성인식기를 이용한 자동 캡션 삽입 장치 및 방법)는 프로그램의 사운드트랙에서 재생/출력되는 대사 음성신호를 인식하여 캡션 데이터를 발생하고 그 캡션 데이터를 원래의 음성출력시점과 일치시켜 출력하는 시스템을 제공하였다.
그러나, 이러한 시스템은 사운드 트랙에서 재생/출력되는 대사 음성신호에 대한 캡션 데이터만을 디스플레이하는 것으로, 사용자가 제공되는 정보를 보다 효율적으로 인식 및 이해할 수 있는 수단은 제시하지 못한다.
본 발명은 상기한 문제점들을 해결하기 위해 안출된 것으로, 본 발명은 TTS의 언어 분석 및 음성 합성 과정에서 얻어지는 언어분석 데이터 및 음성합성 결과분석 데이터를 이용하여 특정 품사의 단어나 사용자가 인식하기 어려울 것으로 예상되는 단어를 강조단어로 제공함으로써 TTS를 통한 원활한 의사소통이 가능하도록 하는 것을 목적으로 한다.
본 발명의 다른 목적은 강조단어를 구조적으로 배치시켜 합성음과 함께 제공함으로써 사용자가 구조적으로 나타내어진 강조단어를 통해 직관적으로 정보내용을 인식할 수 있도록 함으로써 TTS의 정보 전달력을 높여 신뢰도를 향상시키는 것을 목적으로 한다.
도 1은 종래 TTS 장치의 개략적인 구성 및 그 동작 처리 과정을 나타낸 도면이다.
도 2는 본 발명에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환 장치의 개략적인 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환 방법의 동작 과정을 설명하기 위한 동작 흐름도이다.
도 4는 도 3에 도시된 S30단계를 설명하기 위한 동작 흐름도이다.
도 5는 본 발명의 다른 실시 예에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환 방법의 동작 과정을 설명하기 위한 동작 흐름도이다.
도 6은 도 5에 도시된 S300단계를 설명하기 위한 동작 흐름도이다.
도 7은 도 4에 도시된 S500단계를 설명하기 위한 동작 흐름도이다.
도 8은 본 발명의 다른 실시 예에 따른 매칭률 산출 결과를 나타내는 도면이다.
도 9의 a 내지 c는 본 발명의 각 실시 예에 따라 최종적으로 부가정보가 나타내어지는 도면이다.
* 도면의 주요부분에 대한 부호의 설명 *
100 : 음성합성 모듈
110 : 형태소 해석부 130 : 구문 해석부
150 : 음성 합성부 170 : 합성음 발생부
190 : 스피커(SP)
300 : 강조단어 선택 모듈
310 : 히스토리(History) DB 330 : 강조단어 선택부
350 : 히스토리 매니저(History manager)
500 : 정보유형 결정 모듈
510 : 도메인(Domain) DB
530 : 의미 해석부 550 : 문형정보 생성부
700 : 구조화 모듈
710 : 문형정보 적용부 730 : 메타(meta) DB
750 : 정보 구조화부
900 : 디스플레이 모듈
910 : 동기화부 930 : 영상신호 처리부
950 : 표시부
상기한 목적을 달성하기 위하여 본 발명에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환장치는, 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성 모듈과, 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터에서 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택모듈과, 선택된 강조단어를 상기 합성음과 동기시켜 디스플레이하는 디스플레이 모듈을 포함하는 것을 특징으로 한다.
본 발명의 다른 바람직한 실시예에 있어서, 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터의 정보유형을 결정하고 문형정보를 생성하는 정보유형 결정모듈과, 선택된 강조단어를 생성된 문형정보에 따라 재배치하고 합성음과 동기시켜 디스플레이 하는 디스플레이 모듈을 포함하는 것을 특징으로 한다.
본 발명의 또 다른 바람직한 실시예에 있어서, 선택된 강조단어를 소정의 레이아웃 양식에 적용시켜 구조화하는 구조화 모듈을 더 포함하는 것을 특징으로 한다.
또한, 상기 강조단어는 추가적으로 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터의 단어 가운데 소정의 임계치 미만인 매칭률을 갖는 합성음 왜곡으로 인해 사용자가 인식하기 어려울 것으로 예상되는 단어를 더 포함하고, 선택된 강조단어 가운데 소정의 임계치 미만인 강조빈도를 갖는 단어로 선별되는 것을 특징으로 한다.
또한, 상기한 목적을 달성하기 위하여 본 발명에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환방법은, 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성 단계와; 음성합성 분석 데이터를 이용하여 텍스트 데이터 가운데 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택단계와; 선택된 강조단어를 합성음과 동기시켜 디스플레이하는 디스플레이 단계를 포함하는 것을 특징으로 한다.
본 발명의 다른 바람직한 실시예에 있어서, 음성합성 단계에서 얻어지는 음성합성 분석 데이터를 이용하여 텍스트 데이터의 정보유형을 결정하고 문형정보를 생성하는 문형정보 생성단계와; 선택된 강조단어를 문형정보에 따라 재배치하고 합성음과 동기시켜 디스플레이 하는 디스플레이 단계를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 있어서, 선택된 강조단어를 소정의 레이아웃 양식에 적용시켜 구조화하는 구조화 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 강조단어는 추가적으로 음성합성 분석 데이터를 이용하여 소정의 임계치 미만인 매칭률을 갖는 합성음 왜곡으로 인해 사용자가 인식하기 어려울 것으로 예상되는 단어를 더 포함하고, 선택된 강조단어 가운데 소정의 임계치 미만인 강조빈도를 갖는 단어로 선별되는 것을 특징으로 한다.
이하, 본 발명에 따른 부가정보 제공 기능이 있는 텍스트/음성 변환장치의 구성과 동작에 대하여 첨부된 도면들을 참조하여 상세히 설명한다.
도 2에서 본 발명에 따른 텍스트/음성 변환장치는 크게, 음성합성 모듈(100), 강조단어 선택 모듈(300), 디스플레이 모듈(900)로 구성되고, 본 발명의 다른 실시예를 구현하기 위하여, 정보유형 결정모듈(500), 구조화 모듈(700)을더 포함한다.
도 2에 도시된, 각 모듈에 포함되는 히스토리(History) DB(310), 도메인(Domain) DB(510), 메타(Meta) DB(730)는 본 발명에 따른 부가정보 생성장치에 구비되는 데이터베이스(미도시)에 구축되는 것이나, 본 발명의 상세한 설명을 위해 각기 분리하여 도시하였다.
음성합성 모듈(100)은 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 언어분석 데이터 및 음성합성 결과분석 데이터를 참조하여 입력된 텍스트 데이터를 음성으로 합성하여 출력하는 것으로(일 예로, TTS), 형태소 해석부(110), 구문 해석부(130), 음성 합성부(150), 합성음 발생부(170), 스피커(SP)(190)로 구성된다.
형태소 해석부(110)에서는 입력된 텍스트 데이터의 형태소를 분석하고 형태소에 따라 품사(일 예로, 명사, 대명사, 조사, 접사, 감탄사, 형용사, 부사 등)를 부착하고, 구문 해석부(130)에서는 입력된 텍스트 데이터의 구문 구조를 분석한다.
음성 합성부(150)에서는 형태소 해석부(110)와 구문 해석부(130)의 형태소 구문 해석과정에서 얻어지는 언어분석 데이터를 이용하여 음성 합성하는 것으로, 각각의 음소에 해당되는 합성음 데이터를 합성단위 DB(12)에서 선택해서 조합한다.
음성 합성부(150)의 각각의 음소를 조합하는 과정에서 각 음소에 대한 타이밍 정보가 생성되는데, 생성된 타이밍 정보를 통해 음성합성 모듈(100)에서는 음성 합성할 때에 그 시작점을 기준으로 얼마의 시간(일반적으로, 1/1000초 단위)후에 어떠한 음소가 발성될 것인가를 미리 알 수있도록 각 음소에 대한 시간 테이블이된다.
즉, 음성합성 모듈(100)를 통한 합성음 출력 시에 발성시작의 시점을 알리고 동시에 타이밍을 가동하여, 특정 단어(음소의 조합)가 발성될 때 제공되는 타이밍 정보를 통해 특정 단어가 발성되는 순간을 다른 모듈에서도 예측할 수 있도록 한다.
합성음 발생부(170)에서는 음성 합성부(150)로부터 얻어지는 음성합성 결과분석 데이터를 스피커(190) 출력 가능하도록 신호 처리하여 합성음으로 출력한다.
이하, 형태소 해석부(110) 및 구문 해석부(130)의 형태소 및 구문 해석과정에서 얻어지는 형태소 및 구문 해석 데이터로 이루어지는 언어분석 데이터와 음성 합성부(150)의 음성합성 과정에서 얻어지는 합성음으로 이루어지는 음성합성 결과분석 데이터를 음성합성 분석 데이터로 정의한다.
강조단어 선택 모듈(300)은 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여 입력되는 텍스트 데이터에서 강조단어(일 예로, 키 워드(key word))를 선택하는 것으로, 도시한 바와 같이, 히스토리 DB(310), 강조단어 선택부(330),히스토리 매니저(History Manager)(350)로 구성된다.
히스토리 DB(310)는 음성합성 모듈(100)로부터 얻어지는 입력되는 텍스트 데이터 중에서 자주 쓰이거나 강조되는 단어의 강조빈도 정보를 저장한다.
또한, 입력되는 텍스트 데이터에 해당되는 정보유형의 분야에서 자주 쓰이는 단어 또는 자주 강조되는 단어 등의 강조빈도 정보를 저장한다.
강조단어 선택부(330)는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석데이터를 이용하여 특정 품사에 해당되거나, 합성음 왜곡이 예상되는(즉, 합성음으로 예측되는 출력 값과 실제 출력 값 사이의 차이로 산출되는 매칭률이 낮은) 단어를 강조 단어로 검출한다. 또한, 히스토리 매니저(350)를 통해 선별되는 강조할 필요가 없는 단어를 참조하여 강조단어를 선택한다.
특정 품사는 강조 단어를 선택하기 위해 지정되는 소정의 품사를 나타내는 것으로, 일 예로 고유명사, 외래어, 숫자가 강조단어로 선택된 품사라면 강조단어 선택부(330)에서는 음성합성 데이터를 이용하여 형태소 단위로 분할된 각 단어 가운데 지정된 품사에 해당되는 단어들을 검출한다.
또한, 합성음 매칭률은 아래의 수학식 1을 사용해 산출되는 각 음편 간의 매칭률 평균을 통해 결정되는 것으로, 매칭률 평균값이 소정의 임계치보다 낮으면 합성음의 왜곡이 예상되는 것이고 평균값이 소정의 임계치보다 높으면 합성음의 왜곡이 적은 것이다.
수학식 1에서 sizeof(Entry)는 선택된 음편의 합성 단위 DB내에서의 모집단 크기를 의미하며, C는 음편들 간의 연결 정보를 의미하며, 예측값과 실제값은 음소의 길이, 크기, 높이에 대한 예측값과 선택된 음편의 실제값을 의미한다.
히스토리 매니저(350)는 히스토리 DB(310)에 저장된 강조빈도정보를 참조하여 강조단어 선택부(330)에서 선택된 강조단어들 가운데 강조빈도가 임계치 이상인값을 갖는 단어를 강조될 필요가 없는 단어로 선별한다.
상기 임계치는 입력되는 텍스트에서 자주 쓰이거나 강조되어 사용자가 단어를 쉽게 인식할 수 있는 정도의 수치를 나타내는 것으로, 일 예로 5회 등의 수치로 설정된다.
정보유형 결정모듈(500)은 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여 입력되는 텍스트 데이터의 정보유형을 결정하고 문형 정보를 생성하는 것으로, 도시된 바와 같이, 도메인 DB(510), 의미 해석부(530), 문형정보 생성부(550)로 구성된다.
본 발명에서 정보유형은 입력되는 텍스트에서 제공되는 정보가 나타내는 유형의 분야(이하, 도메인이라 칭함.)를 지칭하는 것이고, 문형정보는 선택된 강조단어를 입력되는 텍스트의 정보유형에 가장 적합하게 디스플레이하기 위한 실제 정보의 일반적 구성을 나타내는 것이다.
일 예로, The Nasdaq composite index closed down 40.30 to 1,356.95.와 같은 증시에 관한 텍스트가 입력되면, 입력된 텍스트의 정보 유형은 증권현황이고, 문형정보는 입력되는 텍스트의 정보유형인 증권현황에서 실제 정보에 해당되는 명사구(INDEX)와 수치(VALUE)의 일반적 구성인 INDEX VALUE 유형이 된다.
도메인 DB(510)는 정보유형별로 구분된 정보 추출을 위한 문법규칙, 용어 및 숙어 정보가 도메인 정보로 저장된다.
문법규칙은 입력되는 텍스트의 구문구조로부터 정보에 해당하는 항목을 추출할 수 있도록 각 도메인의 정보 구조를 문법(grammar)화 한 것이다.
일 예로, 상기 예문에서 사용되는 문법규칙은 증권현황의 정보유형에서 쓰이는 일반적인 문장 구조인 'INDEX close(or end) VALUE to VALUE' 중에서 사용자에게 중요한 주가 수치만을 제공하는 문법으로 다음과 같이 정의될 수 있다.
- NP{INDEX} VP{Verb(close) PP{*} PP{to VALUE}} → INDEX VALUE
- NP{INDEX} VP{Verb(end) PP{*} PP{to VALUE}} → INDEX VALUE
또한, 용어 및 숙어 정보는 특정 도메인에서 자주 쓰이거나 강조되는 단어, 하나의 의미단위(Chunk)로 구분하는 것이 가능한 숙어(일 예로, 상기 예문에서 The Nasdaq composite index)이고, 특정 도메인에서 축약형으로 자주 사용되는 용어(일 예로, 상기 예문에서 The Nasdaq composite index'는 NASDAQ로 축약되어 사용) 등의 정보를 나타내는 것이다.
의미 해석부(530)는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터 이외에 추가적으로 텍스트 데이터에 대한 의미정보를 얻기 위해 의미 해석이 요구될 경우, 별도로 구비되는 소정의 의미 해석수단을 나타낸다.
문형정보 생성부(550)는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터와 도메인 DB(510)에 저장된 도메인 정보를 참조하여 입력되는 텍스트 데이터에서 실제 정보에 해당되는 대표단어를 선택하고 정보유형을 결정하여 문형정보를 생성한다.
구조화 모듈(700)은 문형정보 생성부(550)로부터 얻어지는 문형정보에 따라 선택된 강조단어를 재배치하고 소정의 레이아웃 양식에 적용시키는 것으로, 도 2에 도시된 바와 같이, 문형정보 적용부(710), 메타 DB(730), 정보 구조화부(750)로 구성된다.
문형정보 적용부(710)는 정보유형 결정모듈(500)에서 생성되는 문형정보가 존재하는지 여부를 판별하여, 문형정보가 존재하면 강조단어 선택 모듈(300)에서 선택된 강조단어를 문형정보에 적용시킨 후 정보 구조화부(750)로 출력하고, 문형정보가 존재하지 않으면 문형정보가 비적용된 강조문자만을 정보 구조화부(750)로 출력한다.
메타 DB(730)는 정보유형에 따라 선택된 강조단어를 구조적으로 디스플레이하기 위한 레이아웃(예를 들어, 표 ) 및 부가적으로 디스플레이할 내용(예를 들어, :, ; 등)을 메타정보로 저장한다.
또한, 각 메타정보를 합성음과 함께 적절히 디스플레이 하기 위한 메타정보의 타이밍 정보도 저장된다.
정보 구조화부(750)는 입력되는 텍스트에 대한 정보유형, 강조단어 및 음성합성 모듈(100)로부터 얻어지는 각 강조단어의 타이밍 정보를 이용하여, 메타 DB(730)에서 해당되는 정보유형의 메타정보를 검출하고, 검출된 메타정보에 강조단어와 타이밍 정보를 태깅(tagging)하여 디스플레이 모듈(900)로 출력한다.
일 예로, 상기 예문과 같은 증권현황의 정보유형은 실제정보인 INDEX와 VALUE를 표 형식의 레이아웃에 디스플레이하도록 설정하였다면, 음성 합성 모듈(100)으로부터 얻어지는 INDEX 정보와 VALUE 정보에 대한 타이밍 정보(SYNC="12345", SYNC="12438")를 태깅한다.
이러한 과정을 통해 지정된 레이아웃 양식에 타이밍 정보와 함께 구조화된강조단어는 다음과 같다.
<INDEXVALUE ITEM="1">
<INDEX SYNC="12345">INDEX(NASDAQ)</INDEX>
<VALUE SYNC="12438">VALUE(1,356.95)</VALUE>
</INDEXVALUE>
디스플레이 모듈(900)은 구조화된 강조단어를 타이밍 정보에 따라 합성음과 함께 동기화시켜 디스플레이하는 것으로, 도시된 바와 같이, 동기화부(910), 영상신호 처리부(930), 표시부(950)로 구성된다.
동기화부(910)는 메타정보 및 강조단어의 각 타이밍 정보를 추출하여 음성합성 모듈(100)의 스피커(190)를 통해 출력되는 합성음과 강조단어 및 메타정보가 적절히 디스플레이되도록 동기화 시킨다.
영상신호 처리부(930)는 구조화된 강조단어를 동기화부(910)로부터 얻어지는 타이밍 정보에 따라 영상신호로 처리하여 표시부(950)로 출력한다.
표시부(950)는 영상신호 처리부(930)로부터 출력되는 디스플레이 정보에 따라 강조단어를 시각적으로 디스플레이한다.
일 예로, 상기 구조화 모듈(700)로부터 출력되는 구조화된 상기 예문은 다음과 같이 표시부(950)를 통해 디스플레이 된다.
이하, 본 발명에 따른 부가정보 생성 기능이 있는 부가 정보 제공 기능이 있는 텍스트/음성 변환 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.
도 3은 본 발명의 일 실시 예에 따른 부가 정보 제공 기능이 있는 텍스트/음성 변환 과정을 나타낸 동작 흐름도이다.
우선, 음성합성 모듈(100)에서는 입력되는 텍스트를 형태소 해석부(110)와 구문 해석부(130)를 통해 형태소 및 구문 해석과정을 실행하고 형태소 및 구문 해석과정을 통해 얻어지는 음성합성 분석 데이터를 참조하여 입력되는 텍스트 데이터를 음성으로 합성한다(S10).
음성합성 모듈(100)을 통해 합성음이 생성되면, 강조단어 선택 모듈(300)의 강조단어 선택부(330)에서는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여 특성 품사 및 사용자의 인식이 어려울 것으로 예상되는 단어를 강조단어로 선택한다(S30).
강조단어 선택부(330)를 통해 강조단어가 선택되면, 선택된 강조단어와 음성합성 모듈(100)로부터 얻어지는 타이밍 정보를 이용하여 강조단어를 동기화 시킨다(S50).
디스플레이 모듈(900)에서는 타이밍 정보와 함께 구조화된 강조단어에서 타이밍 정보를 추출하여, 음성합성 모듈(100)의 스피커(190)로 출력되는 합성음과 적절히 동기화시켜 표시부(950)로 디스플레이 한다(S90).
또한, 추가적으로 메타 DB(730)로부터 소정의 레이아웃 양식에 해당되는 메타 정보를 검출하여 선택된 강조단어를 검출된 메타정보에 적용시켜 구조화한다(S70).
도 4에서는 강조단어를 선택하는 단계(S30)을 보다 상세히 나타낸 것으로, 도시된 바와 같이, 강조단어 선택부(330)에서는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 검출한다(S31).
그 다음, 검출된 음성합성 분석 데이터를 이용하여 음성합성 모듈(100)의 형태소 해석부(110)에서 이루어지는 형태소 해석 과정에 따라 형태소 분할된 각 단어들의 품사가 특정 품사에 해당되는지 여부를 판단하여, 지정된 특정 품사에 해당되는 단어를 강조단어로 선택한다(S32).
또한, 추가적으로 강조단어를 통해 사용자가 인식하기 어려울 것으로 예상되는 단어를 제공하기 위해, 검출된 음성합성 분석 데이터를 이용하여 각 단어의 합성음 매칭률을 검사하고(S33), 합성음 매칭률 검사 결과 합성음 왜곡이 예상되는 단어를 검출하여 강조단어로 선택한다(S34).
합성음 매칭률 검사는 수학식 1을 사용하여, 검출된 음성합성 분석 데이터를 통해 각 단어의 음편별로 예측되는 합성음 출력 값(예측값)과 실제로 출력되는 합성음 출력 값(실제값)의 차이로 매칭률을 산출하고, 산출된 매칭률의 평균으로 평균값이 임계치 미만인 값을 갖는 단어를 검사한다.
임계치는 사용자가 인식하지 못하는 합성음의 매칭률 평균값을 나타내는 것으로, 일 예로, 50% 등의 수치로 설정된다.
그리고, 이러한 과정을 통해 선택된 강조단어에서 사용자가 쉽게 인식할 수 있는 단어를 강조할 필요가 없는 단어로 선별하기 위해, 강조단어 선택부(330)에서는 검출된 강조단어들 가운데 히스토리 매니저(350)를 통해 강조할 필요가 없는 단어를 선별한다(S35).
즉, 히스토리 매니저(350)에서는 히스토리 DB(310)에 저장되는 음성합성 모듈(100)로부터 얻어진 강조빈도 정보를 참조하여, 강조단어 선택부(330)를 통해 검출된 강조할 단어 가운데 강조빈도가 임계치를 초과하여 사용자가 인식하지 못할 가능성이 낮은 단어를 선별한다.
히스토리 매니저(350)를 통한 강조할 필요가 없는 단어를 선별하는 과정을 통해, 강조단어 선택부(330)에서는 입력되는 텍스트에서 특성 품사와 사용자가 인식하기 어려울 것으로 예상되는 단어를 강조 단어로 선택한다(S36).
도 5에서는 본 발명의 다른 실시 예에 따른 부가 정보 제공 기능을 갖는 음성 발생과정을 나타낸 것으로, 도 5를 통해 본 발명의 다른 실시 예를 설명함에 있어서 앞서 설명한 도 3과 4를 참조하여 설명한다.
먼저, 음성합성 모듈(100)를 통해 입력되는 텍스트를 음성으로 변환하고(S100, 도 3의 S10 참조), 강조단어 선택부(330)에서 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여 강조단어를 선택한다(S200, 도 3,4의 S30단계 참조).
또한, 정보유형 결정모듈(500)의 문형정보 생성부(550)에서 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터와 도메인 DB(530)로부터 추출되는 도메인 정보를 이용하여 입력되는 텍스트의 정보 유형을 결정하고 문형정보를 생성한다(S300).
그 다음, 구조화 모듈(700)의 문형정보 적용부(710)에서는 선택된 강조단어가 적용될 문형정보가 정보유형 결정모듈(500)로부터 생성되었는지를 통해 문형정보 적용가능 여부를 판별한다(S400).
판별결과에 따라 문형정보 적용이 가능하면 선택된 강조단어를 문형정보에 적용시켜 재배치한다(S500).
이와 같이, 문형정보가 적용 또는 비 적용된 강조단어를 음성합성 모듈(100)로부터 얻어지는 타이밍 정보를 이용하여 동기화 시킨다(S600, 도 3의 S50참조 ).
디스플레이 모듈(900)에서는 타이밍 정보와 함께 구조화된 강조단어에서 타이밍 정보를 추출하여, 음성합성 모듈(100)의 스피커(190)로 출력되는 합성음과 적절히 동기화시켜 표시부(950)로 디스플레이 한다(S800, 도 3의 S90참조).
또한, 추가적으로 구조화 모듈(700)의 정보 구조화부(750)에서 메타정보 DB(730)로부터 해당되는 정보유형의 메타정보를 검출하여, 문형정보가 적용 또는 비 적용된 강조단어를 소정의 레이아웃 양식으로 구조화 시킨다(S700, 도 3의 S70 참조).
도 6에서는 도 5의 정보유형을 결정하고 문형정보를 생성하는 단계(S300)를 상세히 나타낸 것으로, 첨부된 도면을 참조하여 실시 예로 상세히 설명한다.
먼저, 정보유형 결정모듈(500)의 문형정보 생성부(550)에서는 음성합성 모듈(100)로부터 음성합성 분석 데이터를 추출하고, 입력되는 텍스트의 의미 구조에 대한 정보가 추가적으로 요구되면 의미 해석부(530)를 통해 텍스트의 의미 구조를 해석하여 입력되는 텍스트의 의미 구조 정보를 추출한다(S301).
그 다음, 추출된 음성합성 분석 데이터와 의미 구조 정보 및 도메인 DB(510)를 참조하여 입력되는 텍스트의 각 단어를 실제 의미 단위로 구분한다(S302).
입력되는 텍스트를 의미 단위(Chunk)로 구분한 후, 구분된 각 의미단위를 표현하는 대표 의미를 결정하여 결정된 의미 정보를 각 의미단위에 부착(Tagging)하고(S303), 도메인 DB(510)를 참조하여 각 의미단위의 대표단어를 선택한다(S304).
일 예로, 상기 예문인 증권현황의 정보유형에 해당되는 문장에서 /The Nasdaq composite index/close/down/40.30/to/1,356.95/'으로 각 의미단위가 구분된다면, 각각의 의미단위를 지칭할 수 있는 정보를 의미 정보로 정의하는데 아래와 같이 정의될 수 있다.
- The Nasdaq composite index : INEDX
- close : close
- down : down
- to : to
- number class(40.30, 1,356.95) : VALUE
이와 같이 정의된 의미 정보를 의미단위로 구분된 입력 텍스트에 부착하면, 아래와 같다.
/INDEX/close/down/VALUE/to/VALUE
또한, 각 의미단위로 구분된 입력 텍스트에서 각 의미 단위의 대표단어를 도메인 DB(510)에 저장된 용어 및 숙어 정보를 참조하여 선택하면, 아래와 같이 결정된다.
/NASDAQ/close/down/40.30/to/1,356.95/
이와 같은 과정을 통해 선택되는 대표단어 가운데 실제 정보로 사용자에게 제공될 단어가 선택된다.
대표단어 선택 후, 문형정보 생성부(550)에서는 도메인 DB(510)로부터 입력되는 텍스트의 구문 및 의미 구조에 적용 가능한 문법규칙을 검출하고 검출된 문법규칙을 통해 정보유형과 실제 정보로 표현할 대표단어를 선택한다(S305).
일 예로, 앞서 도메인 DB(510)에 저장되는 문법규칙에 대한 설명 과정에서 상기 예문에 대한 정보유형 결정과정을 참조하여, 결정된 정보유형의 문법규칙으로 제공된 문법 가운데 'NP{INDEX} VP{Verb(close) PP{*} PP{to VALUE}} → INDEX VALUE'에 입력되는 텍스트의 구문 구조가 일치되는 것으로 검출된다면, 검출된 문법규칙에 의미단위로 구분된 텍스트를 적용시키면 아래와 같다.
INFO[The Nasdaq composite index/INDEX]closed down 40.30 to INFO[1,356.95/VALUE]
이와 같이, 문법규칙이 적용되는 과정에서 입력되는 텍스트의 정보유형이 결정되고, 실제 정보로 표현할 대표단어 [(INDEX,VALUE)]가 선택된다.
정보유형이 결정되고 실제 정보로 표현될 대표단어가 선택되면, 선택된 대표 단어를 결정된 정보유형에 가장 적합하게 디스플레하기 위한 문형정보를 생성한다(S306).
일 예로, 상기 예문에서의 생성되는 문형정보는 'INDEX VALUE 형이다.
도 7 에서는 도 5의 문형정보를 적용하는 단계(S500)를 상세히 나타낸 것으로, 첨부된 도면을 참조하여 실시 예로 상세히 설명한다
먼저, 강조단어 선택 모듈(300)에서 선택된 강조단어가 생성된 문형정보에 맞춰지는지를 판단하기 위해 선택된 강조단어가 문형정보 생성부(550)에서 생성된 문형정보에서 선택된 실제 정보로 표현될 대표단어에 포함되는지 여부를 판별한다(S501).
판별결과 선택된 강조단어가 대표단어에 포함되지 않으면 문형정보생성 과정에서 결정된 정보 유형의 구문 구조에 따라 선택된 강조단어를 재배치하고(S502), 대표단어에 포함되면 강조단어를 문형정보에서 대응되는 대표단어에 각각 태깅시켜 재배치한다(S503).
이와 같이 이루어지는 본 발명에 따른 부가정보 제공 기능을 갖는 텍스트/음성 변환 장치 및 방법을 이동통신 단말기를 통해 구현하는 실시 예를, 첨부된 도면을 참조하여 설명한다.
<실시예 1>
만일, 아래와 같은 텍스트가 입력되고, 강조단어 선택 모듈(300)을 통해 강조단어를 선택하고 선택된 강조단어만을 디스플레이하는 경우를 일 예로 설명한다.
"GE 백색가전은 양문여닫이 냉장고인 'GE 프로파일 아티카'를 출시한다고 9일 밝혔다"
이와 같은, 텍스트가 입력되면 음성합성 모듈(100)에서는 입력되는 텍스트를 음성 합성하기 위해 형태소 해석부(110)를 통해 형태소에 따라 명사, 형용사, 부사, 조사 등의 품사로 구분하는데, 구분 결과는 아래와 같다.
"GE/왜래어+백색/명사+가전/명사+은/조사 양문여닫이/명사+냉장고/명사+인/서술어 GE/왜래어+프로파일/명사+아티카/고유명사+를/조사 출시한다/서술어+고/연결어미 9/수산+일/명사 밝혔/서술어+다/어말어미"
이와 같이 형태소 해석부(110)를 통한 형태소 해석 후, 구문 해석부(130)에서 입력되는 텍스트 데이터의 구문 구조를 해석하고 이를 참조하여 음성 합성부(150)에서 음성 합성하는 과정을 통해 음성합성 분석 데이터가 생성된다.
강조단어 선택 모듈(300)의 강조단어 선택부(330)에서는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터를 이용하여, 입력되는 텍스트 데이터에서 형태소 구분된 단어 가운데 미리 지정된 특정 품사에 해당되는 단어를 검출한다.
본 실시 예에서, 특정 품사로 고유명사, 외래어, 숫자가 지정된다면, 강조단어 선택부(330)에서는 입력되는 텍스트에서 'GE/아티카/9일'을 지정된 특정 품사에 해당되는 단어로 검출한다.
추가적으로, 사용자에 의해 인식되기 어려울 것으로 예상되는 단어를 강조단어로 선택하고자 한다면, 강조단어 선택부(330)에서는 입력되는 텍스트 데이터 단어들의 합성음 매칭률을 수학식 1을 이용하여 검사한다.
합성음 매칭률 검사 결과, 도 8에 도시한 바와 같이, 양문여닫이의 매칭률이 20%로 산출된다면, 설정된 임계치의 수치가 50%인 경우 산출된 매칭률이 임계치보다 낮으므로 양문여닫이는 합성음의 왜곡이 예상되는 단어로 검출된다.
이러한 과정을 통해 특정 품사에 해당되고 합성음 왜곡이 예상되어 강조할 단어들로 'GE/아티카/9일/양문여닫이'가 검출된다.
추가적으로, 선택된 강조단어 가운데 입력되는 텍스트에서 자주 쓰이거나 강조되어 소정의 임계치 이상의 강조빈도를 갖는 단어를 강조할 필요가 없는 단어로 선별하고자 한다면, 강조단어 선택부(330)에서는 히스토리 매니저(350)를 통해 검출된 강조단어 가운데 강조빈도가 임계치를 초과하는 단어를 선별한다.
본 실시 예에서, 선택된 강조단어가 모두 임계치 미만의 강조빈도를 갖는다면, 최종적으로 강조할 단어로 'GE/아티카/9일/양문여닫이'가 선택된다.
구조화 모듈(700)에서는 선택된 강조단어를 음성합성 모듈(100)로부터 얻어지는 타이밍 정보와 함께 구조화 시키고, 디스플레이 모듈(900)에서는 구조화된 강조단어에서 타이밍 정보를 추출하여 음성합성 모듈(100)에서 출력되는 합성음과 함께 강조단어를 표시부(950)로 디스플레이 한다.
표시부(950)에 디스플레이 되는 강조단어는 도 9의 a와 같다.
추가적으로 메타 DB(730)로부터 소정의 레이아웃 양식을 검출하여 검출된 레이아웃 양식에 적용시켜 선택된 강조단어를 디스플레이 할 수 있다.
<실시 예 2>
만일, 아래와 같은 텍스트가 입력되고, 강조단어 선택 모듈(300)을 통해 강조단어를 선택하고 선택된 강조단어를 문형정보에 적용시켜 재배치한 후 디스플레이 하는 경우를 일 예로 설명한다.
이하, 설명에서는 선택된 강조단어가 정보유형 결정과정에서 선택된 실제 정보의 대표단어에 해당되는 것으로 전제하여, 강조단어를 선택하는 과정을 생략하고 강조단어를 문형정보에 적용시켜 디스플레이 하는 과정만을 설명 하였다.
오늘은 북동내지 남동풍이 불고 구름이 많고 오후 한때 소나기 오는 곳이 있겠으며 아침에 안개가 끼는 곳이 있겠습니다.
먼저, 정보유형 결정모듈(500)에서는 음성합성 모듈(100)로부터 얻어지는 음성합성 분석 데이터와 도메인 DB(510)로부터 검출되는 도메인 정보를 참조하여 입력되는 텍스트의 단어들을 실제 의미 단위로 구분하는데, 각 의미단위로 구분된 결과는 아래와 같다.
/오늘은/북동내지남동풍이/불고/구름이/많고/오후한때/소나기/오는/곳이/있겠으며/아침에/안개가/끼는/곳이/있겠습니다./
입력되는 텍스트를 실제 의미 단위로 구분한 후, 구분된 각 의미단위의 대표 의미를 결정하여 결정된 대표의미를 각 의미단위에 부착하는데, 대표의미가 태깅된 결과는 아래와 같다.
/DATE/WIND/불고/CLOUD/많고/DATE/SHOWER/오는/LOC/있겠으며/DATE/FOG/끼는/LOC/있겠습니다./
또한, 각 의미단위로 구분된 입력 텍스트에서 각 의미 단위의 대표단어를 도메인 DB(510)에 저장된 용어 및 숙어 정보를 참조하여 선택하면, 아래와 같이 결정된다.
/오늘/북동내지남동풍/불다/구름/많다/오후한때/소나기/오다/곳/있다/아침/안개/끼다/곳/있다./
이와 같은 과정을 통해 선택되는 대표단어 가운데 실제 정보로 사용자에게 제공될 단어가 선택되는데, 문형정보 생성부(550)에서는 도메인 DB(510)로부터 입력되는 텍스트 데이터의 구문 및 의미 구조에 적용 가능한 문법규칙을 검출한다.
본 실시 예에서 제공되는 텍스트에 해당되는 문법규칙으로 아래와 같은 문법규칙이 일기 예보의 정보유형에서 검출된다면, 입력되는 텍스트의 정보유형은 일기예보로 결정된다.
- 부사어{DATE} 주어{WIND} 불다 → DATE WIND
- 부사어{DATE} 주어{SHOWER} 오다 → DATE SHOWER
- 부사어{DATE} 주어{FOG} 끼다 → DATE FOG
정보유형이 결정되면, 입력되는 텍스트 데이터를 검출된 문법규칙에 적용시키는데, 문법규칙 적용 결과는 아래와 같다.
INFO[오늘/DATE]은 INFO[북동내지 남동풍/WIND]이 불고 INFO[구름/CLOUD]이 많고 INFO[오후 한때/DATE]INFO[소나기/SHOWER]오는 곳이 있겠으며 INFO[아침/DATE]에 INFO[안개/FOG]가 끼는 곳이 있겠습니다.
이와 같이, 문법규칙이 적용되는 과정에서 입력되는 텍스트의 정보유형이 결정되고, 실제 정보로 표현할 대표단어 (오늘/DATE, 북동내지 남동풍/WIND, 구름/CLOUD, 오후 한때/DATE, 소나기/SHOWER, 아침/DATE, 안개/FOG)가 선택된다.
정보유형이 결정되고 실제 정보로 표현될 대표단어가 선택되면, 선택된 대표 단어를 결정된 정보유형에 가장 적합하게 디스플레하기 위한 문형정보를 생성한다.
일 예로, 상기 예문에서의 생성되는 문형정보는 'DATE WEATHER 형이다.
이러한 과정을 통해 문형정보가 생성되면, 문형정보 적용부(910)에서는 선택된 강조단어를 생성된 문형정보에 적용시켜 재배치한다.
본 실시 예에서는 선택된 강조단어가 문형정보에서 실제 정보로 표현될 대표단어로 선택된 단어와 일치한다면, 문형정보에 강조단어와 음성합성 모듈(100)로부터 얻어지는 각 강조단어의 타이밍 정보를 태깅하여 구조화 한다.
구조화된 강조단어는 아래와 같다.
<DATEWEATHER ITEM="3">
<DATE VALUE="0" SYNC="1035">오늘</DATE>
<WEATHER EVAL="CLOUD" SYNC="1497">북동내지 남동풍, 구름</WEATHER>
:
</DATEWEATHER>
디스플레이 모듈(900)은 구조화된 강조단어를 타이밍 정보에 따라 합성음과 함께 동기화시켜 디스플레이한다.
디스플레이 결과는 도 9의 b와 같다.
<실시예 3>
만일, 아래와 같은 텍스트가 입력되고, 강조단어 선택 모듈(300)을 통해 강조단어를 선택하고 선택된 강조단어를 문형정보에 적용시키고 메타 정보와 함께 구조화하여 디스플레이 하는 경우를 일 예로 설명한다.
이하, 설명에서는 선택된 강조단어가 정보유형 결정과정에서 선택된 실제 정보의 대표단어에 해당되는 것으로 전제하여, 강조단어를 선택하는 과정을 생략하고 강조단어를 문형정보 및 메타정보에 적용시켜 디스플레이 하는 과정만을 설명 하였다.
"오늘 종합 주가지수는 지난 주말보다 8.88P 오른 717.35P, 코스닥 지수는0.97P 상승한 72.99P를 기록했습니다."
음성합성 모듈(100)에서는 입력되는 텍스트를 형태소 및 구문 해석하고 음성으로 합성한다.
강조단어 선택 모듈(300)에서는 강조단어 선택부(330)를 통해 입력되는 텍스트에서 강조할 단어를 선택하며, 정보유형 결정모듈(500)에서는 도메인 DB(510)를 통해 입력되는 텍스트의 정보유형을 결정하고 문형정보를 생성한다.
입력되는 텍스트를 통한 정보유형 결정과정을 보다 상세히 설명하면, TTS(100)로부터 얻어진 형태소 구문 정보와 도메인 DB(510)의 의미단위 DB를 이용하여 입력되는 텍스트의 단어들을 실제 의미 단위로 구분하는데, 의미단위 구분 결과는 아래와 같다.
'/오늘/종합 주가지수는/지난 주말보다/8.88P/오른/717.35P/,/코스닥지수는/ 0.97P/상승한/72.99P를/기록했습니다./'
입력 텍스트를 실제 의미 단위로 구분한 후, 도메인 DB(510)를 참조하여 의미단위로 구분된 입력 텍스트에서 대표 의미를 결정하여 결정된 대표의미를 각 의미단위에 태깅하는데, 대표의미를 태깅한 결과는 아래와 같다.
'/DATE/INDEX/DATE/VALUE/오른/VALUE/,/INDEX/VALUE/상승한/VALUE/기록하다/'
그리고, 입력 텍스트의 각 의미단위의 대표 단어를 선택하는데, 선택된 대표단어가 적용된 결과는 아래와 같다.
'오늘/종합 주가지수/지난 주말/8.88P/오른/717.35P/,/코스닥 지수/0.97/상승/72.99P/기록/'
또한, 도메인 DB(510)로부터 입력되는 텍스트의 구문 구조와 의미 구조가 적용되는 문법규칙을 추출하고, 추출된 문법규칙을 각 의미단위로 구분된 입력 텍스트에 적용시켜 입력되는 텍스트에서 실제 정보에 해당되는 부분만을 디스플레이 한다.
즉, 입력되는 텍스트의 구문 구조가 증권현황의 정보유형에서 제공되는 다음과 같은 문법규칙에 일치된다면, 입력되는 텍스트의 정보유형은 증권 현황으로 결정된다
- 부사어{DATE} 주어{INDEX} 관형절 보어{VALUE} -> DATE INDEX VALUE
- 주어{INDEX} 관형절 목적어{VALUE} 기록하다. -> INDEX VALUE
이와 같이 검출된 문법규칙에 입력되는 텍스트를 적용시키면, 아래와 같다.
'INFO[오늘/DATE]INFO[종합주가지수/INDEX]는 지난 주말 8.88P 오른 INFO[717.35P/VALUE],INFO[코스닥 지수/INDEX]는 0.97P 상승한 INFO[72.99P/DATE] 기록했습니다.'
이 결과, 실제 정보로 디스플레이 될 대표 단어 (오늘/DATE, 종합주가지수/INDES, 코스닥 지수/INDEX, 72.00P/VALUE)를 선택하고, 대표단어를 결정된 정보유형에 가장 적합하게 디스플레이하기 위한 문형정보로 INDEX VALUE 형이 생성된다.
이러한 과정을 통해 문형정보가 생성되면, 구조화 모듈(700)의 문형정보 적용부(710)에서의 문형정보 존재 판별결과 강조단어 선택모듈(300)에서 선택된 강조단어가 적용될 문형정보가 존재하므로, 선택된 강조단어가 정보유형 결정모듈(500)에서 생성된 문형정보에서 적용가능한지 여부를 판별한다.
만일, 강조단어 선택 모듈(300)에서 선택된 강조단어가 정보유형 결정모듈(500)에서 실제 정보로 디스플레이 될 대표단어로 선택된 단어에 포함된다면, 문형정보 적용부(710)에서는 강조단어를 생성된 문형정보에 태깅시킨다.
그러나, 선택된 강조단어가 정보유형 결정모듈(500)에서 대표단어로 선택된 단어에 포함되지 않는다면, 강조단어를 결정된 정보 유형의 구문 구조에 따라 재배치한다.
이와 같이 문형정보에 강조단어를 태깅시키거나 구문 구조에 따라 정보단어를 재배치하면, 정보 구조화부(750)에서는 강조단어를 결정된 정보유형에 따라 레이아웃 하기 위한 메타정보를 메타 DB(730)로부터 추출하여 추출된 메타정보에 강조단어를 태깅한다.
강조단어를 메타정보에 태깅시키는 과정에서 각 강조단어에 지정되는 해당 합성음과의 타이밍 정보가 함께 설정된다.
만일, 증시관련 정보유형에서는 정보를 DATE를 TITLE로 하고 INDEX와 VALUE가 표 구조로 각 항목별로 함께 제공한다면, 표 형식으로 나타내는 레이아웃 양식이 메타 DB(730)로부터 추출되고 추출된 레이아웃에 강조단어와 타이밍 정보가 다음과 같이 입력된다.
<TITLE SYNC="510">오늘</TITLE>
<INDEXVALUE ITEM="2">
<INDEX SYNC="1351">종합주가지수</INDEX>
<VALUE SYNC="INHERIT">717.35P</VALUE>
:
</INDEXVALUE>
이 결과, 선택된 강조단어는 합성음 출력 시 해당되는 합성음과 함께 도 9의 c에 도시한 바와 같이, 종합주가지수의 항목에 해당되는 VALUE가 'INHERIT' 태그에 의해 INDEX와 함께 나타내어지는 방식으로 디스플레이 된다.
본 발명은 도면에 도시된 일 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명에 따르면, 사용자는 인식하기 어려운 단어를 시각적으로 확인함으로써 음성이 갖는 시간적, 인지적 제약을 감소시킬 수 있다.
또한, 구조적으로 디스플레이되는 부가정보를 통해 사용자가 합성음으로 제공되는 정보 내용을 보다 직관적으로 이해할 수 있으며, 이에 따라 TTS의 정보 전달력과 신뢰성이 향상되는 효과를 제공한다.
그리고, 이러한 효과를 통해 텍스트/음성 변환 장치가 적용된 시스템의 작업 효율성을 극대화 시킬 수 있다.

Claims (19)

  1. 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성 모듈과,
    상기 음성합성 모듈로부터 얻어지는 상기 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터에서 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택 모듈과,
    상기 선택된 강조단어를 상기 합성음과 동기시켜 디스플레이 하는 디스플레이 모듈을 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
  2. 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성 모듈과,
    상기 음성합성 모듈로부터 얻어지는 상기 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터 가운데 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택 모듈과,
    상기 음성합성 모듈로부터 얻어지는 상기 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터의 정보유형을 결정하고 문형정보를 생성하는 정보유형 결정 모듈과,
    상기 선택된 강조단어를 상기 생성된 문형정보에 따라 재배치하고, 상기 합성음과 동기시켜 디스플레이 하는 디스플레이 모듈을 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
  3. 제 1항 또는 2항에 있어서,
    상기 선택된 강조단어를 소정의 레이아웃 양식에 적용시켜 구조화하는 구조화 모듈을 더 포함하는 것을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환장치.
  4. 제 1항 또는 2항에 있어서,
    상기 강조단어는 상기 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터의 단어 가운데 합성음 왜곡이 예상되는 단어를 더 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
  5. 제 1항 또는 2항에 있어서,
    상기 강조단어는 상기 선택된 강조단어 가운데 상기 음성합성 모듈로부터 얻어지는 상기 텍스트 데이터의 각 단어에 대한 강조빈도 정보를 이용하여 소정의 임계치 미만인 강조빈도를 갖는 단어로 선별되는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
  6. 제 2항에 있어서,
    상기 정보유형 결정 모듈은 정보유형별로 나뉜 다양한 분야의 구문구조, 문법규칙, 용어 및 숙어 정보가 도메인 정보로 저장되는 도메인 DB와,
    상기 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 상기 도메인 DB로부터 상기 텍스트 데이터에 해당되는 도메인 정보를 검출하여 정보유형을 결정하고, 문형정보를 생성하는 문형정보 생성부를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
  7. 제 3항에 있어서,
    상기 구조화 모듈은 정보유형에 따라 선택된 강조단어를 구조적으로 디스플레이하기 위한 레이아웃 및 부가적으로 표시할 내용이 메타정보로 저장되는 메타 DB와,
    상기 강조단어 선택 모듈에서 선택된 강조단어를 상기 문형정보에 따라 재배치시키는 문형정보 적용부와,
    상기 결정된 정보유형에 해당되는 메타정보를 상기 메타 DB로부터 검출하고, 검출된 메타정보에 상기 재배치된 강조단어를 적용시키는 정보 구조화부를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
  8. 제 4항에 있어서,
    상기 합성음 왜곡이 예상되는 단어는 각 음편의 합성음 출력 예측값과 실제값의 차이로 결정되는 매칭률이 소정의 임계치 미만인 단어임을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환장치.
  9. 제 5항에 있어서,
    상기 출력 예측값과 실제값의 차이는
    에 의해 산출되는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환장치.
  10. 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성단계와;
    상기 음성합성 분석 데이터를 이용하여, 상기 텍스트 데이터 가운데 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택단계와;
    상기 선택된 강조단어를 상기 합성음과 동기시켜 디스플레이하는 디스플레이 단계를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
  11. 텍스트 데이터를 형태소 및 구문 해석하고 이를 통해 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터를 음성으로 합성하여 출력하는 음성합성단계와;
    상기 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터 중 특정 품사의 단어를 강조단어로 선택하는 강조단어 선택단계와;
    상기 음성합성 단계에서 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터의 정보유형을 결정하고 문형정보를 생성하는 문형정보 생성단계와;
    상기 선택된 강조단어를 상기 문형정보에 따라 재배치하고, 상기 합성음과 동기시켜 디스플레이 하는 디스플레이단계를 포함하는 것을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환방법.
  12. 제 10항 또는 11항에 있어서,
    상기 선택된 강조단어를 소정의 레이아웃 양식에 적용시켜 구조화하는 구조화 단계를 더 포함하는 것을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환방법.
  13. 제 10항 또는 11항에 있어서,
    상기 강조단어 선택단계는 상기 음성합성 모듈로부터 얻어지는 음성합성 분석 데이터를 이용하여 상기 텍스트 데이터의 단어 가운데 합성음 왜곡이 예상되는 단어를 선택하는 단계를 더 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
  14. 제 10항 또는 11항에 있어서,
    상기 강조단어 선택단계는 상기 선택된 강조단어를 상기 음성합성 모듈로부터 얻어지는 상기 텍스트 데이터의 각 단어에 대한 강조빈도 정보를 이용하여 소정의 임계치 미만인 강조빈도를 갖는 단어로 선별하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
  15. 제 11항에 있어서,
    상기 문형정보 생성단계는 도메인 DB와 상기 음성합성 단계에서 얻어지는 음성합성 분석 데이터를 참조하여 상기 텍스트 데이터를 의미단위로 구분하는 단계와;
    상기 구분된 각 의미단위의 대표의미를 결정하여 각 의미단위에 태깅하고, 각 의미단위 가운데 대표단어를 선택하는 단계와;
    상기 텍스트의 구문형식에 맞는 문법규칙을 상기 도메인 DB로부터 검출하고, 검출된 문법규칙을 상기 텍스트 데이터에 적용시켜 실제 정보를 결정하는 단계와;
    상기 결정된 실제 정보를 통해 상기 텍스트 데이터의 정보유형을 결정하여 문형정보를 생성하는 단계를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
  16. 제 12항에 있어서,
    상기 구조화 단계는 상기 선택된 강조단어가 상기 생성된 문형정보의 정보유형에 적용되는지 여부를 판별하는 단계;
    상기 판별결과에 따라 상기 강조단어를 문형정보에 태깅하거나 결정된 정보유형에 따라 재배치하는 단계;
    상기 재배치된 강조단어를 메타 DB로부터 검출되는 상기 정보유형에 해당되는 메타정보에 적용시켜 구조화하는 단계를 포함하는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
  17. 제 13항에 있어서,
    상기 합성음 왜곡이 예상되는 단어는 각 음편의 합성음 출력 예측값과 실제값 차이로 결정되는 매칭률이 소정의 임계치 미만인 단어임을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
  18. 제 16항에 있어서,
    상기 도메인 DB는 정보유형별로 나뉜 다양한 분야의 구문구조, 문법규칙, 용어 및 숙어 정보가 도메인 정보로 저장되는 것을 특징으로 하는 부가 정보 제공 기능이 있는 텍스트/음성 변환방법.
  19. 제 18항에 있어서,
    상기 메타 DB는 정보유형에 따라 선택된 강조단어를 구조적으로 디스플레이하기 위한 레이아웃 및 부가적으로 표시할 내용이 메타 정보로 저장되는 것을 특징으로 하는 부가정보 제공 기능이 있는 텍스트/음성 변환방법.
KR10-2002-0071306A 2002-11-15 2002-11-15 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 KR100463655B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR10-2002-0071306A KR100463655B1 (ko) 2002-11-15 2002-11-15 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
DE60305645T DE60305645T2 (de) 2002-11-15 2003-11-11 System und Verfahren zur Text-zu-Sprache Umsetzung mit einer Funktion zur Bereitstellung zusätzlicher Information
EP03257090A EP1473707B1 (en) 2002-11-15 2003-11-11 Text-to-speech conversion system and method having function of providing additional information
US10/704,597 US20040107102A1 (en) 2002-11-15 2003-11-12 Text-to-speech conversion system and method having function of providing additional information
JP2003387094A JP2004170983A (ja) 2002-11-15 2003-11-17 付加情報提供機能付きのテキスト/音声変換装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0071306A KR100463655B1 (ko) 2002-11-15 2002-11-15 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법

Publications (2)

Publication Number Publication Date
KR20040042719A KR20040042719A (ko) 2004-05-20
KR100463655B1 true KR100463655B1 (ko) 2004-12-29

Family

ID=36590828

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0071306A KR100463655B1 (ko) 2002-11-15 2002-11-15 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법

Country Status (5)

Country Link
US (1) US20040107102A1 (ko)
EP (1) EP1473707B1 (ko)
JP (1) JP2004170983A (ko)
KR (1) KR100463655B1 (ko)
DE (1) DE60305645T2 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
US7207004B1 (en) * 2004-07-23 2007-04-17 Harrity Paul A Correction of misspelled words
US20060136212A1 (en) * 2004-12-22 2006-06-22 Motorola, Inc. Method and apparatus for improving text-to-speech performance
JP4859101B2 (ja) * 2006-01-26 2012-01-25 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストに付与する発音情報の編集を支援するシステム
US20070260460A1 (en) * 2006-05-05 2007-11-08 Hyatt Edward C Method and system for announcing audio and video content to a user of a mobile radio terminal
US20080243510A1 (en) * 2007-03-28 2008-10-02 Smith Lawrence C Overlapping screen reading of non-sequential text
US8136034B2 (en) * 2007-12-18 2012-03-13 Aaron Stanton System and method for analyzing and categorizing text
KR20090085376A (ko) * 2008-02-04 2009-08-07 삼성전자주식회사 문자 메시지의 음성 합성을 이용한 서비스 방법 및 장치
CN101605307A (zh) * 2008-06-12 2009-12-16 深圳富泰宏精密工业有限公司 文本短信语音播放***及方法
CN102652336B (zh) * 2009-12-28 2015-02-18 三菱电机株式会社 声音信号复原装置以及声音信号复原方法
US20110184738A1 (en) * 2010-01-25 2011-07-28 Kalisky Dror Navigation and orientation tools for speech synthesis
JP5159853B2 (ja) 2010-09-28 2013-03-13 株式会社東芝 会議支援装置、方法およびプログラム
CN102324191B (zh) * 2011-09-28 2015-01-07 Tcl集团股份有限公司 一种有声读物逐字同步显示方法及***
JP6002598B2 (ja) * 2013-02-21 2016-10-05 日本電信電話株式会社 強調位置予測装置、その方法、およびプログラム
JP6309852B2 (ja) * 2014-07-25 2018-04-11 日本電信電話株式会社 強調位置予測装置、強調位置予測方法及びプログラム
US9575961B2 (en) * 2014-08-28 2017-02-21 Northern Light Group, Llc Systems and methods for analyzing document coverage
KR20160056551A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 잠금 해제 수행 방법 및 사용자 단말
JP6369311B2 (ja) * 2014-12-05 2018-08-08 三菱電機株式会社 音声合成装置および音声合成方法
US11886477B2 (en) 2015-09-22 2024-01-30 Northern Light Group, Llc System and method for quote-based search summaries
US11544306B2 (en) 2015-09-22 2023-01-03 Northern Light Group, Llc System and method for concept-based search summaries
KR20180134339A (ko) * 2016-04-12 2018-12-18 소니 주식회사 정보 처리 장치, 정보 처리 방법 및 프로그램
US11226946B2 (en) 2016-04-13 2022-01-18 Northern Light Group, Llc Systems and methods for automatically determining a performance index

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH025097A (ja) * 1988-06-24 1990-01-09 Ricoh Co Ltd テキスト音声合成装置
JPH05224689A (ja) * 1992-02-13 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置
JPH064090A (ja) * 1992-06-17 1994-01-14 Nippon Telegr & Teleph Corp <Ntt> テキスト音声変換方法および装置
JP2000075882A (ja) * 1999-08-30 2000-03-14 Canon Inc 音声合成方法及び装置
JP2002123281A (ja) * 2000-10-12 2002-04-26 Oki Electric Ind Co Ltd 音声合成装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232112T2 (de) * 1991-11-12 2002-03-14 Fujitsu Ltd., Kawasaki Vorrichtung zur Sprachsynthese
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US5949961A (en) * 1995-07-19 1999-09-07 International Business Machines Corporation Word syllabification in speech synthesis system
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
JP3001047B2 (ja) * 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
JP2000112845A (ja) * 1998-10-02 2000-04-21 Nec Software Kobe Ltd 音声通知付電子メールシステム
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
WO2000055842A2 (en) * 1999-03-15 2000-09-21 British Telecommunications Public Limited Company Speech synthesis
KR20010002739A (ko) * 1999-06-17 2001-01-15 구자홍 음성인식기를 이용한 자동 캡션 삽입 장치 및 방법
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US7334050B2 (en) * 2000-06-07 2008-02-19 Nvidia International, Inc. Voice applications and voice-based interface
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
JP2003016008A (ja) * 2001-07-03 2003-01-17 Sony Corp 情報処理装置および情報処理方法、並びにプログラム
US6985865B1 (en) * 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7028038B1 (en) * 2002-07-03 2006-04-11 Mayo Foundation For Medical Education And Research Method for generating training data for medical text abbreviation and acronym normalization
US7236923B1 (en) * 2002-08-07 2007-06-26 Itt Manufacturing Enterprises, Inc. Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7558732B2 (en) * 2002-09-23 2009-07-07 Infineon Technologies Ag Method and system for computer-aided speech synthesis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH025097A (ja) * 1988-06-24 1990-01-09 Ricoh Co Ltd テキスト音声合成装置
JPH05224689A (ja) * 1992-02-13 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置
JPH064090A (ja) * 1992-06-17 1994-01-14 Nippon Telegr & Teleph Corp <Ntt> テキスト音声変換方法および装置
JP2000075882A (ja) * 1999-08-30 2000-03-14 Canon Inc 音声合成方法及び装置
JP2002123281A (ja) * 2000-10-12 2002-04-26 Oki Electric Ind Co Ltd 音声合成装置

Also Published As

Publication number Publication date
DE60305645D1 (de) 2006-07-06
EP1473707B1 (en) 2006-05-31
EP1473707A1 (en) 2004-11-03
DE60305645T2 (de) 2007-05-03
JP2004170983A (ja) 2004-06-17
KR20040042719A (ko) 2004-05-20
US20040107102A1 (en) 2004-06-03

Similar Documents

Publication Publication Date Title
KR100463655B1 (ko) 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
KR100759581B1 (ko) 지능형 텍스트/음성 합성
JP4439431B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US7496498B2 (en) Front-end architecture for a multi-lingual text-to-speech system
Dutoit High-quality text-to-speech synthesis: An overview
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
US20040111272A1 (en) Multimodal speech-to-speech language translation and display
US7574360B2 (en) Unit selection module and method of chinese text-to-speech synthesis
JP2005215689A (ja) 情報源から情報を認識する方法およびシステム
Ananthakrishnan et al. An automatic prosody recognizer using a coupled multi-stream acoustic model and a syntactic-prosodic language model
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
CN112749567A (zh) 一种基于现实信息环境知识图谱的问答***
KR102086601B1 (ko) 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템
EP0982684A1 (en) Moving picture generating device and image control network learning device
Kolář Automatic segmentation of speech into sentence-like units
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
US8635071B2 (en) Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same
Carson-Berndsen et al. Generic techniques for multilingual speech technology applications
Sangle et al. Speech Synthesis Using Android
Meštrović et al. A croatian weather domain spoken dialog system prototype
JP2003288098A (ja) ディクテーション装置、方法及びプログラム
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
Dobrišek et al. A voice-driven Web browser for blind people
Gibbon Can there be standards for spontaneous speech? Towards an ontology for speech resource exploitation

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080918

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee