KR980011719A - 문장 텍스트 데이터 베이스 발생방법 - Google Patents

문장 텍스트 데이터 베이스 발생방법 Download PDF

Info

Publication number
KR980011719A
KR980011719A KR1019960031739A KR19960031739A KR980011719A KR 980011719 A KR980011719 A KR 980011719A KR 1019960031739 A KR1019960031739 A KR 1019960031739A KR 19960031739 A KR19960031739 A KR 19960031739A KR 980011719 A KR980011719 A KR 980011719A
Authority
KR
South Korea
Prior art keywords
sentence
recognition unit
text database
fsn
basic
Prior art date
Application number
KR1019960031739A
Other languages
English (en)
Inventor
김락용
Original Assignee
구자홍
엘지 전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지 전자 주식회사 filed Critical 구자홍
Priority to KR1019960031739A priority Critical patent/KR980011719A/ko
Publication of KR980011719A publication Critical patent/KR980011719A/ko

Links

Landscapes

  • Machine Translation (AREA)

Abstract

본 발명은 다양한 문장을 자동으로 발생하는 문장 텍스트 데이터 베이스 발생방법에 관한 것으로, 주어진 테스크에서 사용되는 용언에 따라 기본 문형을 도출하는 단계, 상기 도출된 기본 문형을 FSN에서 얻고 이것을 처리 가능한형태로 변환하는 단계,기본 문형의 구성 성분들의 순서가 바뀌어 발생될 수 있으므로 이들 현상을 모은 치환규칙을 적용하여 기본 문형을 확장하는 단계, 상기 결정된 FSN파일을 발생 가능한 상태열의 결합으로 찾는 단계, 상기 상태에 대응된 단어 클래스에 속한 단어를 차례로 대응시켜 여러 단어들의 가능한 모든 조합이 발생되도록 문장 리스트를 출력하는 단계, 상기 출력된 문장 리스트를 입력으로하여 인식 단위인 트리폰의 발생 빈도를 검사하여 임계치를 넘지 않으면, 해당 인식 단위가 속한 단어를 구비함으로써 기본형태에 따른 문형을 유한 상태열로 표시해 입력함으로써 다양한 문장을 자동으로 발생할 수 있는 효과가 있다.

Description

문장 텍스트 데이터 베이스 발생방법
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제1도는 본 발명에 따른 문장 텍스트 데이터 베이스 발생방법을 구비한 블록 구성도.
제2도는 본 발명에 따른 문장 텍스트 데이터 베이스 발생방법의 흐름도.
제3도는 본 발명의 일예로서 시간구의 유한 상태 네트워크를 도시한 도면.
제4도는 본 발명의 유한 상태 네트워크를 나타내는 파일을 도시한 도면.
제5도는 각 상태에 대응되는 단어 클래스를 나타낸 도면.
제6도는 유산 상태 네트워크 탐색후 발생된 시간구의 일부예를 나타낸 도면.
*도면의 주요부분에 대한 부호의 설명
10:A/D변환기 12:롬(ROM)
14:램(RAM) 16:키보드
18:CPU 20:모니터
[발명의 목적]
[발명의 상세한 설명]
본 발명은 음성 인식에 사용되는 문장 텍스트(Text) 데이터 베이스(DB)발생에 관한 것으로, 특히 기본형태에 따른 문형을 유한 상태열로 표시해 입력함으로써 다양한 문장을 자동으로 발생할 수 있도록 한 문장 텍스트 데이터 베이스 발생방법에 관한 것이다.
종래의 경우, 연속 음성 인식에 사용되는 문장 텍스트 데이터 베이스 발생방법은 수작업을 통해 문장 리스트를 발생하였기 때문에 많은 동작상에 어려움이 있었다.
따라서, 본 발명의 목적은 수작업을 통한 문장리스트를 발생하는데 따르는 어려움 및 다양한 음소 결합 현상을 텍스트가 포함하는데 따른 제한점을 극복하고 기본형태에 따른 문형을 유한 상태열로 표시해 입력함으로써 다양한 문장을 자동으로 발생할 수 있는 문장 텍스 데이터 베이스 발생방법을 제공하는데 있다.
상기의 목적을 달성하기 위하여, 본 발명에 따른 문장 텍스트 데이터 베이스 발생방법은 주어진 테스크(Task)에서 사용되는 용언에 따라 기본 문형을 도출하는 단계(201)와;상기 도출된 기본 문형을 유한 상태 네트워크(FSN)에서 얻고 이것을 프로그램으로 처리 가능한 형태로 변환하는 단계(202)와;긱본문형의 구성 성분들의 순서가 바뀌어 발생될 수 있으므로 이들 현상을 모은 치환규칙을 적용하여 기본 문형을 확장하는 단계(203)와;상기 결정된 유한상태 네트워크(FSN)파일을 발생 가능한 상태열의 결합으로 찾고 그 결과를 출력하는 단계(204)와;상기 상태에 대응된 단어 클래스에 속한 단어를 차례로 대응시켜 여러 단어들의 입력으로하여 인식 단위인 트리폰(triphone)의 발생빈도를 검사하여 그 결과가 임계치를 넘지 않으면, 해당 인식 단위가 속한 단어를 추가로 발생시켜 재입력하며, 상기 모든 인식단위가 주어진 임계치를 넘게되면,문장 텍스트 데이터 베이스의 생성을 종료하는 단계(207내지 209)를 구비한다.
이하 예시된 도면을 참조하여 본 발명을 상세히 설명한다.
제1도는 본 발명에 따른 장치를 도시한 블록 구성도이고, 제2도는 본 발명에 따른 문장 텍스트 데이저발생방법을 도시한 흐름도이다.
제1도를 참조하면, 본 발명에서 다양한 문장을 자동으로 발생하는 방법을 구비한장치는 D/A변환기(10)와 롬(12),램(14),키보드(16),CPU(18)및 니터(20)를 포함한다.
A/D변환기(10)는 입력되는 아날로그신호인 음성신호를 디지털화하여 후술하는 CPU(18)로 제공하도록 구성되며, 롬(12)은 본 장치에서 문장 텍스트의 데이터 베이스 발생방법에 적용되는 프로그램 로직을 구비하고서 후술하는 CPU(18)의 동작을 지원하도록 구성된다.
램(14)은 치환 규칙과 단어 클래스 정보등을 구비하고서 후술하는 CPU(18)의 동작을 지원하도록 구성되며, 키보드(16)는 사용자의 조작에 의거하여 텍스트 문장등을 CPU(18)로 입력할 수 있도록 구성된다.
CPU(18)는 상기 롬(12)과 램(14)의 지원을 받아 상기 키보드(16)와 상기 D/A변환기(10)의 입력신호에 근거한 다양한 문장을 자동으로 발생시키는 동작을 수행하며, 모니터(20)는 CPU(18)의 출력 정보등을 디스플레이할 수 있도록 구성된다.
상기와 같이 구성된 본 발명을 상세히 설명한다.
본 발명의 문장 텍스트 발생은 제2도와 같이 구성된다. 먼저, 단계(201)는 주어진 과제(Task)에서 사용되는 용언(동사)에 따라 기본 문형을 수작업을 통해 도출된다. 이렇게 얻어진 각문형은 단계(202)에 의해서 제3도에 도시된 바와 같이 유한 상태 네트워크(Finite State Network:FSN)에서 얻고 이것을 프로그램에서 처리 가능한 형태로 변환한다.
제3도를 참조하면 주어진 과제(Task)가 시간에 관한 구를 포함한다고 가정할때 가능한 시간구 표현을 자동으로 발생시키기 위한 상태 네트워크이다.
즉, 시간 개념을 나태내는 7개 정도의 클래스로 나누고 이것들의 결합순서를 제3도에 도시된 상태(node)와 이 상태들의 천이 경로(arc)로 나타내고 있다. 이들 정보들은 단계(202)(203)에서와 같이 파일 형태로 변환한다.
기본 문형의 구성 성분들의 순서가 바뀌어 발생할 수 있으므로 이들 현상을 모은 치환규칙(단계(203)에 대응)을 적용하여 기본 문형을 확장한다. 이렇게 결정된 FSN파일을 입력으로 단계(204)에서는 발생 가능한 상태열의 결합으로 찾게 된다. 상기의 출력이 단어 치환 동작을 수행하는 단계(205)로 나아간다.
상기 단계(205)는 상태에 대응된 롬(12)이 구비된 단어 클래스에 속한 단어를 차례로 대응시켜 여러 단어들의 가능한 모든 조합이 발생한 문장 리스트를 단계(207)로 출력하게 된다. 단계(207)는 상기 출력된 문장리스트를 입력으로하여 인식문장 인식기에서 사용되는 인식 단위인 트리폰(triphone)의 발생 빈도를 검사하고 단계(208)로 나아간다.
단계(208)는 인식단위 발생빈도 조사 결과가 임계치를 넘지 않으면, 단계(209)로 나아간다. 그리고, 해당 인식 단위가 속한 단어를 추가로 발생한 후 단계(205내지 208)를 다시 진행한다.
상기 단계(208)에서 인식단위 발생빈도 조사 결과가 임계치를 넘게되면, 문장 텍스트 데이터 베이스의 생성을 단계(209)와 같이 종료하게 되는 것이다.
제4도는 유한 상태 네트워크(FSN)를 나타내는 파일을 도시한 도면이다. 동도면에서 FSN_Node는 총 상태수를 나타내고 Node-0은 시작 상태를 나타낸다. 각 상태가 다음의 어느 상태로 천이하는지를 Node-arc항목에 명기된 파일에 들어있다. 이런 형태의 입력 파일이 주어지면 자동으로 가능한 모든 상태열을 얻고 이 상태에 대응된 단어들의 조합으로 시간구 표현을 얻게 된다.
제5도는 상기의 시간구 예에 대한 단어 클래스 및 이에 속한 단어 집합을 나타낸것이고, 제6도는 제3도의 유한 상태 네트워크(FSN)를 거쳐 발생된 일부의 시간구 표현들을 나타낸 것이다.
이상에서 설명한 바와 같이 본 발명을 수작업을 통한 문장 리스트를 발생하는 데 따르는 어려움과 다양한 음소 결합 현상을 텍스트가 포함하는데 따른 제한점을 극복할 수 있으며, 또한 기본 형태에 따른 문형을 유한 상태열로 표시해 입력함으로써 다양한 문장을 자동으로 발생할 수 있는 효과가 있다.

Claims (1)

  1. 연속 음성인식에 사용되는 문장 텍스트 데이터 베이스 발생방법에 있어서, 주어진 테스크(Task)에서 사용되는 용언에 따라 기본 문형을 도출하는 단계(201)와; 상기 도출된 기본 문형을 유한 상태 네트워크(FSN)에서 얻고 이것을 프로그램으로 처리 가능한 형태로 변환하는 단계(202)와;기본 문형의 구성 성분들의 순서가 바뀌어 발생될 수 있으므로 이들 현상을 모은 치환규칙을 적용하여 기본 문형을 확장하는 단계(203)와;상기 결정된 유한 상태 네트워크(FSN)파일을 발생가능한 상태열의 결합으로 찾고 그 결과를 출력하는 단계(204)와;상기 상태에 대응된 단어 클래스에 속한 단어를 차례로 대응시켜 여러 단어들의 가능한 모든 조합이 발생되도록 문장 리스트를 출력하는 단계(205,206)와;상기 출력된 문장 리스트를 입력으로하여 인식 단위인 트리폰(triphone)의 발생 빈도를 검사하여 그 결과가 임계치를 넘지 않으면, 해당 인식 단위가 속한 단어를 추가로 발생시켜 재입력하며, 상기 모든 인식단위가 주어진 임계치를 넘게되면, 문장 텍스트 데이터 베이스의 생성을 종료하는 단계(207 내지209)를 구비함을 특징으로 하는 문장 텍스트 데이터 베이스 발생방법.
    ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
KR1019960031739A 1996-07-31 1996-07-31 문장 텍스트 데이터 베이스 발생방법 KR980011719A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960031739A KR980011719A (ko) 1996-07-31 1996-07-31 문장 텍스트 데이터 베이스 발생방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960031739A KR980011719A (ko) 1996-07-31 1996-07-31 문장 텍스트 데이터 베이스 발생방법

Publications (1)

Publication Number Publication Date
KR980011719A true KR980011719A (ko) 1998-04-30

Family

ID=66250148

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960031739A KR980011719A (ko) 1996-07-31 1996-07-31 문장 텍스트 데이터 베이스 발생방법

Country Status (1)

Country Link
KR (1) KR980011719A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828884B1 (ko) * 1999-03-05 2008-05-09 캐논 가부시끼가이샤 데이터베이스 주석 및 검색

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828884B1 (ko) * 1999-03-05 2008-05-09 캐논 가부시끼가이샤 데이터베이스 주석 및 검색

Similar Documents

Publication Publication Date Title
KR100238189B1 (ko) 다중 언어 tts장치 및 다중 언어 tts 처리 방법
US6188977B1 (en) Natural language processing apparatus and method for converting word notation grammar description data
JPH1083277A (ja) 連結型読み上げシステム及びテキストを音声に変換する方法
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
KR20070119076A (ko) 이름을 생성하고 선택하기 위한 시스템
Carlson et al. Linguistic processing in the KTH multi-lingual text-to-speech system
JPH0682377B2 (ja) 感情情報抽出装置
US20060136195A1 (en) Text grouping for disambiguation in a speech application
KR980011719A (ko) 문장 텍스트 데이터 베이스 발생방법
KR101982490B1 (ko) 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP3050743B2 (ja) 言語データベースの形態素列変換装置
Mustafa Phonology of Acehnese Reduplication: Applying Optimality Theory
KR20030001668A (ko) 연속 음성인식기의 성능 개선 방법
JP2004271615A (ja) 情報処理装置
KR0180650B1 (ko) 음성합성기의 한국어 문장분석방법
KR100355393B1 (ko) 음성합성에있어서의음소길이결정방법및음소길이결정트리의학습방법
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
JP2765618B2 (ja) 言語解析装置
KR100932643B1 (ko) 한국어 tts 시스템을 위한 형태소, 구문 분석 없는음소열-발음열 변환방법 및 장치
JPH10161847A (ja) 文章データ音声変換システム
Monaghan et al. Multilingual TTS for computer telephony: The Aculab approach
JPH08194494A (ja) 文解析方法および装置
JPH04253098A (ja) 音声合成に用いる数字及び特殊記号の言語処理方法
JPH11305787A (ja) 音声合成装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application