KR20010077042A - 트리 구조의 단어사전을 갖는 연속음성 인식 장치 - Google Patents

트리 구조의 단어사전을 갖는 연속음성 인식 장치 Download PDF

Info

Publication number
KR20010077042A
KR20010077042A KR1020000004573A KR20000004573A KR20010077042A KR 20010077042 A KR20010077042 A KR 20010077042A KR 1020000004573 A KR1020000004573 A KR 1020000004573A KR 20000004573 A KR20000004573 A KR 20000004573A KR 20010077042 A KR20010077042 A KR 20010077042A
Authority
KR
South Korea
Prior art keywords
word
speech
tree
language model
dictionary
Prior art date
Application number
KR1020000004573A
Other languages
English (en)
Inventor
유하진
Original Assignee
구자홍
엘지전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자주식회사 filed Critical 구자홍
Priority to KR1020000004573A priority Critical patent/KR20010077042A/ko
Publication of KR20010077042A publication Critical patent/KR20010077042A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 연속음성 인식 시스템에 관한 것으로 특히, 단어의 품사에 따라 발음 사전을 각각의 트리 구조로 표현하여 메모리 사용량을 줄이고 탐색시간을 빠르게 하는 방법에 관한 것으로, 연속음성 입력수단과, 입력된 음성에서 특징 파라메터를 추출하는 특징 파라메터 추출수단과, 단어사전 DB 및 언어모델 DB를 이용하여 상기 특징 파라메터와 가장 유사한 단어열을 선정하는 유사 단어열 선정 수단을 포함하는 연속음성 인식 장치에 있어서, 상기 단어 사전 DB에 저장되는 음소는 품사에 따라 나누고 각각 분리된 트리 구조로 저장되어 있는 것을 특징으로 하는 트리 구조의 단어사전을 갖는 연속음성 인식 장치을 제공하기 위한 것이다.

Description

트리 구조의 단어사전을 갖는 연속음성 인식 장치 {Speech recognition apparatus with tree style wordbook}
본 발명은 연속음성 인식 시스템에 관한 것으로 특히, 단어의 품사에 따라 발음 사전을 각각의 트리 구조로 표현하여 메모리 사용량을 줄이고 탐색시간을 빠르게 하는 방법에 관한 것이다.
연속음성 인식 장치는 타자기의 키보드를 사용하지 않고 마이크를 통하여 타이핑하기 원하는 내용을 음성으로 읽음으로써 문장을 인식하도록 하는 시스템을 의미한다. 도1은 연속음성 인식 시스템의 개략적인 블럭도를 나타낸 것으로 연속음성입력수단(1)과, 입력된 음성에서 특징 파라메터를 추출하는 특징 파라메터 추출수단(2)과, 단어사전 DB(3) 및 언어모델 DB(4)를 이용하여 상기 특징 파라메터와 가장 유사한 단어열을 선정하는 유사 단어열 선정 수단(5)과, 상기 선정된 단어열을 표시하기 위한 인식결과 출력수단(6)으로 구성된다.
이와같이 구성된 일반적인 연속음성 인식 장치의 동작을 간략히 설명하면 다음과 같다.
먼저 음성 특징 파라메터 추출 수단(2)에서는 마이크 등과 같은 연속음성 입력 수단(1)을 통해 음성을 입력받아서 메모리(도면 미도시)에 이진수로 저장한 다음, 신호 처리 과정을 거쳐서 음성 인식에 필요한 음성 특징 파라메터를 추출한다.
그 후, 상기 유사 단어열 선정 수단(5)에서는 단어사전 DB(3)와 언어모델 DB(3)를 이용하여 입력된 음성과 가장 유사한 발음을 갖는 단어열을 선정하게 된다.
여기서, 단어 사전 DB(3)에는 일반적으로 많이 쓰이는 단어의 발음 기호를 저장하여 놓고 상기 추출한 음성 특징 파라메터로 부터 단어 사전에 정의된 발음 방법과 가장 유사한 단어를 찾아내게 된다. 또한 문법 정보인 언어모델을 이용함으로써 문장내의 문맥상 가장 적당한 단어를 찾아내게 되는 것이다. 상기 언어모델은 일정길이의 단어열 다음에 어떤 단어가 나올 수 있는 확률로 표현한다.
일반적으로 언어모델은 문장 내에서 임의의 단어열 다음에 어떤 단어가 나올 확률로 표현한다. 하나의 단어 다음에 다른 단어가 나오는 확률을 표현한 것을 바이그램(bigram), 두개의 연속된 단어 다음에 다른 단어가 나오는 확률을 표현한 것을 트라이그램(trigram) 이라고 부르며, 일반적으로 n-1 개의 연속된 단어
wn, wn-1,..., w2에 이어서 다른 단어 w1가 나오는 확률
p(w1|wn, wn-1,..., w2) 을 엔 그램(n-gram) 이라고 부른다.
단어사전에는 인식기가 인식할 수 있는 단어목록에 발음기호를 음소단위로 표현하고, 인식된 음소와 사전 내의 단어의 음소열을 비교하여 가장 가까운 단어를 찾아낸다. 이때 서로 다른 단어들 중에 시작부분이 같은 단어들을 묶어서 도면 2와 같이 트리구조로 표현하면 메모리 사용량을 줄이고 인식 속도를 빠르게 할 수 있다. 그런데, 트리구조의 발음사전에서는 단어의 끝부분의 공유되지 않는 음소열에 다다를 때 까지는 단어를 구분할 수 없으므로, 단어의 시작부분에서는 언어모델을 적용할 수 없는 문제점이 있다.
본 발명의 목적은 종래의 이러한 문제점을 해결하기 위하여 연속음성 인식 장치에서, 단어의 품사에 따라 다른 트리 구조의 사전을 만들어 단어의 시작부분에서 품사 단위의 언어모델을 적용하게 함으로써 필요한 기억용량을 줄이고 인식 속도를 빠르게 하는데 있다.
본 발명에 따른 연속음성 인식 장치의 특징은 단어사전 DB를 트리형태로 구성하되, 단어의 품사에 따라 서로 다른 트리구조를 만들어 저장하여 단어의 시작부분에서 품사 단위의 언어모델을 적용할 수 있게 함으로써 필요한 기억용량을 줄이고 인식 속도를 빠르게 하는데 있다.
본 발명의 또 다른 특징은 연속음성 입력수단과, 입력된 음성에서 특징 파라메터를 추출하는 특징 파라메터 추출수단과, 단어사전 DB 및 언어모델 DB를 이용하여 상기 특징 파라메터와 가장 유사한 단어열을 선정하는 유사 단어열 선정 수단을 포함하는 연속음성 인식 장치에 있어서, 상기 단어 사전 DB에 저장되는 음소는 품사에 따라 나누고 각각 분리된 트리 구조로 저장되어 있는 것을 특징으로 하는 트리 구조의 단어사전을 갖는 연속음성 인식 장치를 제공하는 데 있다.
도1은 일반적인 연속음성 인식 장치의 개략도
도2는 본 발명의 트리구조 단어사전의 구성도임.
=== 도면의 주요 부분에 대한 부호의 설명 ====
1 : 연속음성 입력 수단 2 : 특징 파라메터 추출수단
3 : 단어사전 DB(3) 4 : 언어모델 DB
5 : 유사 단어열 선정 수단 6 : 인식결과 출력수단
이하 본 발명의 실시예를 도면을 참조하여 설명하면 다음과 같다.
본 발명의 구성은 도1과 같은 일반적인 연속음성 인식 장치와 동일하다. 그러나 본 발명에서는 단어 사전 DB를 구축할 때 각 단어를 품사에 따라 다른 트리 구조의 사전을 만들어 저장시킨다. 이렇게 품사에 따라 다른 트리 구조의 사전을 만드는 이유는 시작점에서도 단어의 품사를 미리 알 수 있으므로 품사 단위의 언어모델을 적용할 수 있도록 하기 위한 것이다.
본 발명의 동작을 설명하면 다음과 같다. 먼저 음성 특징 파라메터 추출 수단(2)에서는 마이크 등과 같은 연속음성 입력 수단(1)을 통해 음성을 입력받아서 메모리(도면 미도시)에 이진수로 저장한 다음, 신호 처리 과정을 거쳐서 음성 인식에 필요한 음성 특징 파라메터를 추출한다. 그 후, 상기 유사 단어열 선정 수단(5)에서는 단어사전 DB(3)와 언어모델 DB(3)를 이용하여 입력된 음성과 가장 유사한 발음을 갖는 단어열을 선정하게 된다.
여기서 단어사전 DB의 구조는 도2와 같다. 일반적으로는 트리의 루트에 있는 'ㄱ'만으로서는 단어를 구분 할 수 없고 트리의 끝까지 가야만 단어를 구분할 수 있다. 그러나, 도2와 같이 트리가 명사, 동사, 부사 등과 같이 품사로 나누어져 있으면 시작점에서도 단어의 품사를 미리 알 수 있으므로 품사 단위의 언어모델을 적용할 수 있게 된다. 따라서 문법에 맞지 않는 품사의 열은 미리 제거한 후 단어열을 선정할 수 있으므로 인식 속도를 향상 시킬 수 있게 된다.
품사 단위 언어모델이란 문장 내에서 하나의 품사 또는 품사열 다음에 다른 품사가 나올 수 있는 확률로 표현한 것을 말한다.
이상에서 설명한 바와 같이 본 발명을 적용한 트리 구조의 단어사전을 갖는 연속음성 인식 장치는 단어 사전 DB를 품사에 따라 나누고 각각 분리된 트리 구조로 저장하므로써 트리의 시작점에서도 단어의 품사를 미리 알 수 있고 품사 단위의 언어모델을 적용할 수 있어 메모리의 사용량을 줄일 수 있으며 인식 속도를 향상 시킬 수 있는 효과가 있는 것이다.

Claims (2)

  1. 연속음성 입력수단과, 입력된 음성에서 특징 파라메터를 추출하는 특징 파라메터 추출수단과, 단어사전 DB 및 언어모델 DB를 이용하여 상기 특징 파라메터와 가장 유사한 단어열을 선정하는 유사 단어열 선정 수단을 포함하는 연속음성 인식 장치에 있어서, 상기 단어 사전 DB에 저장되는 음소는 품사에 따라 나누고 각각 분리된 트리 구조로 저장되어 있는 것을 특징으로 하는 트리 구조의 단어사전을 갖는 연속음성 인식 장치.
  2. 제1항에 있어서, 상기 유사 단어열 선정 수단은 품사 단위의 언어모델을 적용하여 문법에 맞지 않는 품사의 열은 미리 제거하고 인식을 수행하는 것을 특징으로 하는 트리 구조의 단어사전을 갖는 연속음성 인식 장치.
KR1020000004573A 2000-01-31 2000-01-31 트리 구조의 단어사전을 갖는 연속음성 인식 장치 KR20010077042A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000004573A KR20010077042A (ko) 2000-01-31 2000-01-31 트리 구조의 단어사전을 갖는 연속음성 인식 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000004573A KR20010077042A (ko) 2000-01-31 2000-01-31 트리 구조의 단어사전을 갖는 연속음성 인식 장치

Publications (1)

Publication Number Publication Date
KR20010077042A true KR20010077042A (ko) 2001-08-17

Family

ID=19642931

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000004573A KR20010077042A (ko) 2000-01-31 2000-01-31 트리 구조의 단어사전을 갖는 연속음성 인식 장치

Country Status (1)

Country Link
KR (1) KR20010077042A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100474359B1 (ko) * 2002-12-12 2005-03-10 한국전자통신연구원 키워드 기반 N-gram 언어모델 구축 방법
KR100484493B1 (ko) * 2002-12-12 2005-04-20 한국전자통신연구원 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
US7627474B2 (en) 2006-02-09 2009-12-01 Samsung Electronics Co., Ltd. Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100474359B1 (ko) * 2002-12-12 2005-03-10 한국전자통신연구원 키워드 기반 N-gram 언어모델 구축 방법
KR100484493B1 (ko) * 2002-12-12 2005-04-20 한국전자통신연구원 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
US7627474B2 (en) 2006-02-09 2009-12-01 Samsung Electronics Co., Ltd. Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons

Similar Documents

Publication Publication Date Title
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US8532993B2 (en) Speech recognition based on pronunciation modeling
US5806021A (en) Automatic segmentation of continuous text using statistical approaches
JPH10501078A (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
US5995931A (en) Method for modeling and recognizing speech including word liaisons
EP1444686B1 (en) Hmm-based text-to-phoneme parser and method for training same
CN111933116B (zh) 语音识别模型训练方法、***、移动终端及存储介质
KR20020060978A (ko) 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스
WO2002029615A1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
KR20150030337A (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
Kiecza et al. Data-driven determination of appropriate dictionary units for Korean LVCSR
Adda-Decker A corpus-based decompounding algorithm for German lexical modeling in LVCSR.
KR20010077042A (ko) 트리 구조의 단어사전을 갖는 연속음성 인식 장치
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
Al-Anzi et al. Performance evaluation of Sphinx and htk speech recognizers for spoken Arabic language
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
KR100736496B1 (ko) 연속 음성인식기의 성능 개선 방법
KR20010077041A (ko) 트리구조의 언어모델을 갖는 연속 음성 인식 장치
JP2880436B2 (ja) 音声認識装置
JP2905686B2 (ja) 音声認識装置
JPH10232693A (ja) 音声認識装置
Tsai et al. Pronunciation variation analysis with respect to various linguistic levels and contextual conditions for Mandarin Chinese.
Huang et al. Phrase-Level Class based Language Model for Mandarin Smart Speaker Query Recognition

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application