KR100308274B1 - 가변어휘인식시스템 - Google Patents

가변어휘인식시스템 Download PDF

Info

Publication number
KR100308274B1
KR100308274B1 KR1019980039310A KR19980039310A KR100308274B1 KR 100308274 B1 KR100308274 B1 KR 100308274B1 KR 1019980039310 A KR1019980039310 A KR 1019980039310A KR 19980039310 A KR19980039310 A KR 19980039310A KR 100308274 B1 KR100308274 B1 KR 100308274B1
Authority
KR
South Korea
Prior art keywords
word
unit
training
input
lexicon
Prior art date
Application number
KR1019980039310A
Other languages
English (en)
Other versions
KR20000020631A (ko
Inventor
최재승
Original Assignee
구자홍
엘지전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자주식회사 filed Critical 구자홍
Priority to KR1019980039310A priority Critical patent/KR100308274B1/ko
Publication of KR20000020631A publication Critical patent/KR20000020631A/ko
Application granted granted Critical
Publication of KR100308274B1 publication Critical patent/KR100308274B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 가변어휘 인식 시스템에 관한 것으로, 종래에는 고립단어 인식기나 문장 인식기는 단어 셋이 고정되어 있어서 새로운 단어 셋이 입력될 경우 그 단어 셋을 인식하기 위하여는 많은 데이터와 그의 처리를 위한 시간과 노력을 필요로 하는 문제점이 있었다. 따라서 본 발명은 마이크를 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부(100)와, 상기 훈련부(100)로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부(200)와, 새로운 단어 입력시 상기 인식부(200)의 렉시콘과 언어모델을 수정하여 새로운 단어를 인식할 수 있도록 한 단어 등록부(300)를 구비하여, 단어 셋이 새로 바뀌어도 새로운 훈련 과정을 필요로 하지 않고 용이하게 등록할 수 있도록 한 것이다.

Description

가변어휘 인식 시스템{VARIABLE VOCABULARY RECOGNITION SYSTEM}
본 발명은 임의의 단어 셋(단어 집합)에 대하여 인식이 가능한 인식 시스템에 관한 것으로, 특히 단어 셋이 바뀔 경우 새로운 훈련과정 없이 새로운 단어 셋에 대한 파라미터를 새로 구성하여 인식이 가능하도록 한 가변어휘 인식 시스템에 관한 것이다.
도 1은 종래 단어 인식 시스템의 블록 구성도로서, 이에 도시된 바와같이 마이크를 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부(10)와, 상기 훈련부(10)로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부(20)로 구성된다.
상기 훈련부(10)의 구성은 도 2에 도시된 바와같이, 마이크를 통해 입력되는 음성을 LBG 알고리즘을 이용하여 음성의 대표값을 추출하는 대표값 추출부(11)와, 상기 마이크를 통해 입력되는 음성으로 부터 인식에 필요한 특징을 추출하는 특징 추출부(12)와, 상기 대표값 추출부(11)의 음성 대표값과 특징 추출부(12)의 특징값, 그리고 키보드를 통해 입력되는 훈련 텍스트를 바움 웰치(Baum-Welch) 알고리즘에 적용하여 HMM 모델을 생성하는 모델 생성부(13)와, 상기 모델 생성부(13)에서 생성된 HMM모델에 필요한 파라미터들을 추정하고, 그 추정한 파라미터들을 출력하는 서브워드 모델부(14)와, 키보드를 통해 입력되는 훈련 텍스트로 부터 렉시콘(Lexicon)을 인식하고, 그 인식한 렉시콘을 출력하는 정보 인식부(15)와, 키보드를 통해 입력되는 훈련 텍스트를 통계학상으로 모델링하는 통계학 단어 모델부(16)와, 상기 통계학 단어 모델부(16)를 통해 모델링된 단어의 확률값을 추출하는 확률값 추출부(17)로 구성된다.
상기 인식부(20)는 도 3에 도시된 바와같이, 입력되는 테스트 데이터의 특징을 추출하는 특징 추출부(21)와, 상기 특징 추출부(21)에서 전달받은 특징을 이용하여 훈련부(10)에서 제공하는 렉시콘으로 부터 단어를 찾는 워드레벨 매칭부(22)와, 상기 워드레벨 매칭부(22)를 통해 찾은 단어를 훈련부(10)에서 제공한 파라미터들을 이용하여 문장을 인식하는 문장레벨 매칭부(23)와, 훈련부(10)에서 제공하는 확률값을 이용하여 상기 문장레벨 매칭부(23)에서 찾아진 여러개의 문장중 확률값이 가장 큰 문장을 최종 문장으로 인식하는 문장 인식부(24)로 구성된다.
이와같이 구성된 종래기술에 대하여 살펴보면 다음과 같다.
도 1에서, 사용자가 마이크를 통해 입력되는 말을 하게 되면, 그 음성(훈련 데이터)은 훈련부(10)로 전달되고, 키보드를 통해 입력되는 음성에 대한 단어(훈련 텍스트)도 상기 훈련부(10)로 전달된다.
그러면 상기 훈련부(10)는 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하여 인식부(20)로 제공한다.
이때 상기 인식부(20)로 테스트 데이터가 입력되면, 상기 인식부(20)는 훈련부(10)로 부터 제공되는 정보를 이용하여 테스트 데이터의 단어 또는 문장을 인식하고,그 인식된 단어를 출력한다.
상기에서와 같이 동작하는 훈련부(10)와 인식부(20)에 대하여 상세히 살펴보면 다음과 같다.
도 2에서와 같이, 마이크를 통해 사용자가 말을 하게 되면 음성은 훈련부(10)의 대표값 추출부(11)와 특징 추출부(12)로 각각 입력된다.
그러면 상기 대표값 추출부(11)는 LBG 알고리즘을 이용하여 입력되는 음성의 대표값을 추출하고, 이 추출한 대표값을 코드북에서 찾아 해당하는 코드를 모델 생성부(13)로 제공하고, 특징 추출부(12)는 입력되는 음성의 특징을 추출하여 상기 모델 생성부(13)로 제공한다.
이때 키보드를 통해 음성에 대한 음소열이 상기 모델 생성부(13)로 입력된다.
이에따라 상기 모델 생성부(13)는 대표값 추출부(11)로 부터 제공되는 음성 대표값에 대한 코드와 특징 추출부(12)의 특징, 그리고 키보드를 통해 입력되는 음소열을 바움 웰치(Baum-Welch) 알고리즘에 적용하여 HMM 모델을 생성한다.
이렇게 생성된 HMM모델에 의해 음성 인식을 위한 훈련을 수행한다.
그러면 서브워드 모델부(14)는 상기 모델 생성부(13)에서 훈련과정시 생성되는 파라미터들을 추종하고, 그 추종한 파라미터들을 인식부(20)로 제공한다.
이때 정보 인식부(15)는 키보드를 통해 입력되는 훈련 텍스트로 부터 인식정보인 렉시콘을 찾아내어 상기 인식부(20)로 제공한다.
그리고 통계학 단어 모델부(16)는 키보드를 통해 입력되는 훈련 텍스트를 통계학상으로 모델링하여 확률값 추출부(17)로 제공하면, 상기 확률값 추출부(17)는 상기통계학 단어 모델부(16)에서 제공하는 모델링된 단어로 부터 단어의 확률값을 추출한다.
따라서 상기 확률값 추출부(17)는 추출한 단어간 확률값을 인식부(20)로 제공한다.
결국 훈련부(10)는 인식부(20)에서 인식시 필요로 하는 HMM모델과 언어모델, 렉시콘(Lexicon), 그리고 단어간 확률값을 생성하여 상기 인식부(20)로 제공한다.
그러면 상기 인식부(20)는 도 3에 도시된 바와같이, 테스트 데이터가 입력되면 특징 추출부(21)에서 테스트 데이터에 대한 특징을 추출하여 워드레벨 매칭부(22)로 제공한다.
상기 워드레벨 매칭부(22)는 훈련부(10)의 정보 인식부(15)에서 제공하는 렉시콘으로 부터 특징 추출부(21)에서 제공하는 특징과 같은 단어가 있는지를 체크하여 찾아낸다.
이렇게 하여 찾어낸 단어가 있으면, 그 찾아낸 단어를 문장레벨 매칭부(23)로 제공한다.
상기 문장레벨 매칭부(23)는 상기 워드레벨 매칭부(22)에서 제공하는 단어와 훈련부(10)의 서브워드 모델부(14)에서 제공하는 파라미터들을 이용하여 문장을 인식하고, 그 인식한 문장들을 문장 인식부(24)로 출력한다.
따라서 상기 문장 인식부(24)는 훈련부(10)의 확률값 추출부(17)에서 제공하는 단어간 확률값을 이용하여 상기 문장레벨 매칭부(23)에서 인식한 문장들중에서 확률값이 가장 큰 문장을 추출하고, 그 확률값이 가장 큰 문장을 최종 문장으로 인식한다.
이상에서와 같은 방법으로 문장을 인식한다.
그러나, 상기에서와 같은 종래기술에서 고립단어 인식기나 문장 인식기는 단어 셋이 고정되어 있어서 새로운 단어 셋이 입력될 경우 그 단어 셋을 인식하기 위하여는 많은 데이터와 그의 처리를 위한 시간과 노력을 필요로 하는 문제점이 있다.
따라서 상기에서와 같은 종래의 문제점을 해결하기 위한 본 발명의 목적은 단어 셋이 새로 바뀌어도 새로운 훈련 과정을 필요로 하지 않는 가변어휘 인식 시스템을 제공함에 있다.
본 발명의 다른 목적은 새로운 단어 셋에 대하여 시스템에 필요한 파라미터를 새로 구성하여 단어를 인식할 수 있도록 한 가변어휘 인식 시스템을 제공함에 있다.
도 1은 종래 단어인식 시스템의 블록 구성도.
도 2는 도 1에서, 훈련부의 상세 블록도.
도 3은 도 1에서, 인식부의 상세 블록도.
도 4는 본 발명 가변어휘 인식 시스템의 블록 구성도.
도 5는 도 4에서, 단어 등록부의 상세 블록도.
* 도면의 주요부분에 대한 부호의 설명 *
100 : 훈련부 200 : 인식부
300 : 단어 등록부 301 : 렉시콘 갱신부
302 : 언어모델 갱신부
상기 목적을 달성하기 위한 본 발명은 마이크를 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부와, 상기 훈련부로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부와, 새로운 단어 입력시 상기 인식부의 렉시콘과 언어모델을 수정하여 새로운 단어를 인식할 수 있도록 한 단어 등록부로 구성된 것을 특징으로 한다.
이하, 첨부한 도면에 의거하여 상세히 살펴보면 다음과 같다.
도 4는 본 발명의 가변어휘 인식 시스템에 대한 블록 구성도로서, 이에 도시한 바와같이 마이크로 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부(100)와, 상기 훈련부(100)로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부(200)와, 새로운 단어 입력시 상기 인식부(200)의 렉시콘과 언어모델을 수정하여 새로운 단어를 인식할 수 있도록 한 단어 등록부(300)로 구성한다.
상기 단어 등록부(300)는 도 5에 도시한 바와같이, 새로운 단어 입력시 단어에 대한 렉시콘을 구하고 이를 인식부(200)의 렉시콘에 추가하도록 하는 렉시콘 갱신부(301)와, 상기 새로운 단어에 대한 언어모델을 생성하고 이를 상기 인식부(200)의 언어모델에 추가하여 언어모델을 수정하도록 하는 언어모델 갱신부(302)로 구성한다.
이와같이 구성된 본 발명의 동작 및 작용 효과에 대하여 상세히 설명하면 다음과 같다.
사용자가 마이크를 통해 입력되는 말을 하게 되면, 그 음성(훈련 데이터)은 훈련부(100)로 전달되고, 키보드를 통해 입력되는 음성에 대한 단어(훈련 텍스트)도 상기 훈련부(100)로 전달된다.
그러면 상기 훈련부(100)는 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하여 인식부(200)로 제공한다.
이때 상기 인식부(200)로 테스트 데이터가 입력되면, 상기 인식부(200)는 훈련부(100)로 부터 제공되는 정보를 이용하여 테스트 데이터의 단어 또는 문장을인식하고, 그 인식된 단어를 출력한다.
여기서 훈련부(100)와 인식부(200)의 구성은 도 2와 도 3에 도시한 바와같고, 그의 동작은 종래기술에 설명한 동작과 동일하다.
이상에서와 같은 동작에 의해 단어를 인식하다가 새로운 단어에 대한 데이터가 단어 등록부(300)로 입력되면, 상기 단어 등록부(300)는 도 5에서와 같은 구성에 의해 동작한다.
즉, 새로운 단어가 입력되면 렉시콘 갱싱부(301)는 도 2에 도시한 인식부(200)의 정보 인식부(15)에서 인식한 렉시콘을 받아들이고, 새로운 단어에 대한 렉시콘을 추가한다.
다시말하면, 상기 정보 인식부(15)에서 인식한 렉시콘에 새로운 단어에 대한 렉시콘을 추가하여 기존의 렉시콘을 수정한다.
아울러 언어모델 갱신부(302)는 새로운 단어에 대한 언어모델을 만든다.
그런다음 상기에서 새로 만든 언어모델을 인식부(200)의 통계학 단어 모델부(16)로 제공한다.
그러면 통계학 단어모델부(16)는 새로 수정되고, 이 수정된 단어모델은 확률값 추출부(17)로 제공한다.
결국, 확률값 추출부(17)는 변경된 단어모델이 입력됨에 따라 단어간 확률값도 바뀌게 된다.
따라서 새로운 단어에 대한 데이터가 입력되면, 단어 등록부(300)에서는 인식부(200)에서 구한 렉시콘과 언어모델을 수정하여 단어 또는 문장 인식시 필요로 하는 렉시콘과 언어모델의 파라미터들을 변경하여 상기 인식부(200)로 제공한다.
이에따라 상기 인식부(200)는 상기 단어 등록부(300)를 통해 입력되는 단어를 훈련과정 없이 등록한다.
이와같은 과정을 통해 새로운 단어를 추가하거나 삭제할 수도 있다.
따라서, 본 발명은 새로운 단어를 등록하고자 할 경우 기존에 훈련되어 있는 렉시콘과 언어모델을 수정하여 사용하도록 함으로써, 새로운 훈련없이 용이하게 등록할 수 있도록 한 효과가 있다.

Claims (1)

  1. 마이크를 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부와, 상기 훈련부로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부와, 새로운 단어 입력시 그 단어에 대한 렉시콘을 구하고 이를 상기 인식부의 렉시콘에 추가하여 수정하도록 하는 렉시콘 갱신부와, 상기 입력되는 새로운 단어에 대한 언어모델을 생성하고 이를 상기 인식부의 언어모델에 추가하여 수정하도록 하는 언어모델 갱신부로 구성된 것을 특징으로 하는 가변어휘 인식 시스템.
KR1019980039310A 1998-09-22 1998-09-22 가변어휘인식시스템 KR100308274B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980039310A KR100308274B1 (ko) 1998-09-22 1998-09-22 가변어휘인식시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980039310A KR100308274B1 (ko) 1998-09-22 1998-09-22 가변어휘인식시스템

Publications (2)

Publication Number Publication Date
KR20000020631A KR20000020631A (ko) 2000-04-15
KR100308274B1 true KR100308274B1 (ko) 2001-11-15

Family

ID=19551537

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980039310A KR100308274B1 (ko) 1998-09-22 1998-09-22 가변어휘인식시스템

Country Status (1)

Country Link
KR (1) KR100308274B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830908B2 (en) 2014-11-20 2017-11-28 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000032270A (ko) * 1998-11-13 2000-06-05 구자홍 음성 타이핑 시스템의 음성 인식 방법
KR100369478B1 (ko) * 2000-09-05 2003-01-30 (주) 보이스웨어 음성 모델의 생성 방법
US7003457B2 (en) * 2002-10-29 2006-02-21 Nokia Corporation Method and system for text editing in hand-held electronic device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830908B2 (en) 2014-11-20 2017-11-28 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command
US10381004B2 (en) 2014-11-20 2019-08-13 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command
US10885916B2 (en) 2014-11-20 2021-01-05 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command
US11495228B2 (en) 2014-11-20 2022-11-08 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command
US11900939B2 (en) 2014-11-20 2024-02-13 Samsung Electronics Co., Ltd. Display apparatus and method for registration of user command

Also Published As

Publication number Publication date
KR20000020631A (ko) 2000-04-15

Similar Documents

Publication Publication Date Title
US7149688B2 (en) Multi-lingual speech recognition with cross-language context modeling
US6085160A (en) Language independent speech recognition
US6732074B1 (en) Device for speech recognition with dictionary updating
KR100825690B1 (ko) 음성 인식 시스템에서의 인식 오류 수정 방법
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
JP2002014693A (ja) 音声認識システム用辞書提供方法、および音声認識インタフェース
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
CN108806691B (zh) 语音识别方法及***
KR100308274B1 (ko) 가변어휘인식시스템
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
US20050267755A1 (en) Arrangement for speech recognition
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
KR100484493B1 (ko) 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
JPH117292A (ja) 音声認識装置
CN104756183B (zh) 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム
JPH10133686A (ja) 非母国語音声認識装置
KR100404852B1 (ko) 언어모델적응기능을가진음성인식장치및그제어방법
JP2001188556A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080618

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee