KR100308274B1

KR100308274B1 - 가변어휘인식시스템

Info

Publication number: KR100308274B1
Application number: KR1019980039310A
Authority: KR
Inventors: 최재승
Original assignee: 구자홍; 엘지전자주식회사
Priority date: 1998-09-22
Filing date: 1998-09-22
Publication date: 2001-11-15
Also published as: KR20000020631A

Abstract

본 발명은 가변어휘 인식 시스템에 관한 것으로, 종래에는 고립단어 인식기나 문장 인식기는 단어 셋이 고정되어 있어서 새로운 단어 셋이 입력될 경우 그 단어 셋을 인식하기 위하여는 많은 데이터와 그의 처리를 위한 시간과 노력을 필요로 하는 문제점이 있었다. 따라서 본 발명은 마이크를 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부(100)와, 상기 훈련부(100)로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부(200)와, 새로운 단어 입력시 상기 인식부(200)의 렉시콘과 언어모델을 수정하여 새로운 단어를 인식할 수 있도록 한 단어 등록부(300)를 구비하여, 단어 셋이 새로 바뀌어도 새로운 훈련 과정을 필요로 하지 않고 용이하게 등록할 수 있도록 한 것이다.

Description

가변어휘 인식 시스템{VARIABLE VOCABULARY RECOGNITION SYSTEM}

본 발명은 임의의 단어 셋(단어 집합)에 대하여 인식이 가능한 인식 시스템에 관한 것으로, 특히 단어 셋이 바뀔 경우 새로운 훈련과정 없이 새로운 단어 셋에 대한 파라미터를 새로 구성하여 인식이 가능하도록 한 가변어휘 인식 시스템에 관한 것이다.

도 1은 종래 단어 인식 시스템의 블록 구성도로서, 이에 도시된 바와같이 마이크를 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부(10)와, 상기 훈련부(10)로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부(20)로 구성된다.

상기 훈련부(10)의 구성은 도 2에 도시된 바와같이, 마이크를 통해 입력되는 음성을 LBG 알고리즘을 이용하여 음성의 대표값을 추출하는 대표값 추출부(11)와, 상기 마이크를 통해 입력되는 음성으로 부터 인식에 필요한 특징을 추출하는 특징 추출부(12)와, 상기 대표값 추출부(11)의 음성 대표값과 특징 추출부(12)의 특징값, 그리고 키보드를 통해 입력되는 훈련 텍스트를 바움 웰치(Baum-Welch) 알고리즘에 적용하여 HMM 모델을 생성하는 모델 생성부(13)와, 상기 모델 생성부(13)에서 생성된 HMM모델에 필요한 파라미터들을 추정하고, 그 추정한 파라미터들을 출력하는 서브워드 모델부(14)와, 키보드를 통해 입력되는 훈련 텍스트로 부터 렉시콘(Lexicon)을 인식하고, 그 인식한 렉시콘을 출력하는 정보 인식부(15)와, 키보드를 통해 입력되는 훈련 텍스트를 통계학상으로 모델링하는 통계학 단어 모델부(16)와, 상기 통계학 단어 모델부(16)를 통해 모델링된 단어의 확률값을 추출하는 확률값 추출부(17)로 구성된다.

상기 인식부(20)는 도 3에 도시된 바와같이, 입력되는 테스트 데이터의 특징을 추출하는 특징 추출부(21)와, 상기 특징 추출부(21)에서 전달받은 특징을 이용하여 훈련부(10)에서 제공하는 렉시콘으로 부터 단어를 찾는 워드레벨 매칭부(22)와, 상기 워드레벨 매칭부(22)를 통해 찾은 단어를 훈련부(10)에서 제공한 파라미터들을 이용하여 문장을 인식하는 문장레벨 매칭부(23)와, 훈련부(10)에서 제공하는 확률값을 이용하여 상기 문장레벨 매칭부(23)에서 찾아진 여러개의 문장중 확률값이 가장 큰 문장을 최종 문장으로 인식하는 문장 인식부(24)로 구성된다.

이와같이 구성된 종래기술에 대하여 살펴보면 다음과 같다.

도 1에서, 사용자가 마이크를 통해 입력되는 말을 하게 되면, 그 음성(훈련 데이터)은 훈련부(10)로 전달되고, 키보드를 통해 입력되는 음성에 대한 단어(훈련 텍스트)도 상기 훈련부(10)로 전달된다.

그러면 상기 훈련부(10)는 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하여 인식부(20)로 제공한다.

이때 상기 인식부(20)로 테스트 데이터가 입력되면, 상기 인식부(20)는 훈련부(10)로 부터 제공되는 정보를 이용하여 테스트 데이터의 단어 또는 문장을 인식하고,그 인식된 단어를 출력한다.

상기에서와 같이 동작하는 훈련부(10)와 인식부(20)에 대하여 상세히 살펴보면 다음과 같다.

도 2에서와 같이, 마이크를 통해 사용자가 말을 하게 되면 음성은 훈련부(10)의 대표값 추출부(11)와 특징 추출부(12)로 각각 입력된다.

그러면 상기 대표값 추출부(11)는 LBG 알고리즘을 이용하여 입력되는 음성의 대표값을 추출하고, 이 추출한 대표값을 코드북에서 찾아 해당하는 코드를 모델 생성부(13)로 제공하고, 특징 추출부(12)는 입력되는 음성의 특징을 추출하여 상기 모델 생성부(13)로 제공한다.

이때 키보드를 통해 음성에 대한 음소열이 상기 모델 생성부(13)로 입력된다.

이에따라 상기 모델 생성부(13)는 대표값 추출부(11)로 부터 제공되는 음성 대표값에 대한 코드와 특징 추출부(12)의 특징, 그리고 키보드를 통해 입력되는 음소열을 바움 웰치(Baum-Welch) 알고리즘에 적용하여 HMM 모델을 생성한다.

이렇게 생성된 HMM모델에 의해 음성 인식을 위한 훈련을 수행한다.

그러면 서브워드 모델부(14)는 상기 모델 생성부(13)에서 훈련과정시 생성되는 파라미터들을 추종하고, 그 추종한 파라미터들을 인식부(20)로 제공한다.

이때 정보 인식부(15)는 키보드를 통해 입력되는 훈련 텍스트로 부터 인식정보인 렉시콘을 찾아내어 상기 인식부(20)로 제공한다.

그리고 통계학 단어 모델부(16)는 키보드를 통해 입력되는 훈련 텍스트를 통계학상으로 모델링하여 확률값 추출부(17)로 제공하면, 상기 확률값 추출부(17)는 상기통계학 단어 모델부(16)에서 제공하는 모델링된 단어로 부터 단어의 확률값을 추출한다.

따라서 상기 확률값 추출부(17)는 추출한 단어간 확률값을 인식부(20)로 제공한다.

결국 훈련부(10)는 인식부(20)에서 인식시 필요로 하는 HMM모델과 언어모델, 렉시콘(Lexicon), 그리고 단어간 확률값을 생성하여 상기 인식부(20)로 제공한다.

그러면 상기 인식부(20)는 도 3에 도시된 바와같이, 테스트 데이터가 입력되면 특징 추출부(21)에서 테스트 데이터에 대한 특징을 추출하여 워드레벨 매칭부(22)로 제공한다.

상기 워드레벨 매칭부(22)는 훈련부(10)의 정보 인식부(15)에서 제공하는 렉시콘으로 부터 특징 추출부(21)에서 제공하는 특징과 같은 단어가 있는지를 체크하여 찾아낸다.

이렇게 하여 찾어낸 단어가 있으면, 그 찾아낸 단어를 문장레벨 매칭부(23)로 제공한다.

상기 문장레벨 매칭부(23)는 상기 워드레벨 매칭부(22)에서 제공하는 단어와 훈련부(10)의 서브워드 모델부(14)에서 제공하는 파라미터들을 이용하여 문장을 인식하고, 그 인식한 문장들을 문장 인식부(24)로 출력한다.

따라서 상기 문장 인식부(24)는 훈련부(10)의 확률값 추출부(17)에서 제공하는 단어간 확률값을 이용하여 상기 문장레벨 매칭부(23)에서 인식한 문장들중에서 확률값이 가장 큰 문장을 추출하고, 그 확률값이 가장 큰 문장을 최종 문장으로 인식한다.

이상에서와 같은 방법으로 문장을 인식한다.

그러나, 상기에서와 같은 종래기술에서 고립단어 인식기나 문장 인식기는 단어 셋이 고정되어 있어서 새로운 단어 셋이 입력될 경우 그 단어 셋을 인식하기 위하여는 많은 데이터와 그의 처리를 위한 시간과 노력을 필요로 하는 문제점이 있다.

따라서 상기에서와 같은 종래의 문제점을 해결하기 위한 본 발명의 목적은 단어 셋이 새로 바뀌어도 새로운 훈련 과정을 필요로 하지 않는 가변어휘 인식 시스템을 제공함에 있다.

본 발명의 다른 목적은 새로운 단어 셋에 대하여 시스템에 필요한 파라미터를 새로 구성하여 단어를 인식할 수 있도록 한 가변어휘 인식 시스템을 제공함에 있다.

도 1은 종래 단어인식 시스템의 블록 구성도.

도 2는 도 1에서, 훈련부의 상세 블록도.

도 3은 도 1에서, 인식부의 상세 블록도.

도 4는 본 발명 가변어휘 인식 시스템의 블록 구성도.

도 5는 도 4에서, 단어 등록부의 상세 블록도.

* 도면의 주요부분에 대한 부호의 설명 *

100 : 훈련부 200 : 인식부

300 : 단어 등록부 301 : 렉시콘 갱신부

302 : 언어모델 갱신부

상기 목적을 달성하기 위한 본 발명은 마이크를 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부와, 상기 훈련부로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부와, 새로운 단어 입력시 상기 인식부의 렉시콘과 언어모델을 수정하여 새로운 단어를 인식할 수 있도록 한 단어 등록부로 구성된 것을 특징으로 한다.

이하, 첨부한 도면에 의거하여 상세히 살펴보면 다음과 같다.

도 4는 본 발명의 가변어휘 인식 시스템에 대한 블록 구성도로서, 이에 도시한 바와같이 마이크로 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부(100)와, 상기 훈련부(100)로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부(200)와, 새로운 단어 입력시 상기 인식부(200)의 렉시콘과 언어모델을 수정하여 새로운 단어를 인식할 수 있도록 한 단어 등록부(300)로 구성한다.

상기 단어 등록부(300)는 도 5에 도시한 바와같이, 새로운 단어 입력시 단어에 대한 렉시콘을 구하고 이를 인식부(200)의 렉시콘에 추가하도록 하는 렉시콘 갱신부(301)와, 상기 새로운 단어에 대한 언어모델을 생성하고 이를 상기 인식부(200)의 언어모델에 추가하여 언어모델을 수정하도록 하는 언어모델 갱신부(302)로 구성한다.

이와같이 구성된 본 발명의 동작 및 작용 효과에 대하여 상세히 설명하면 다음과 같다.

사용자가 마이크를 통해 입력되는 말을 하게 되면, 그 음성(훈련 데이터)은 훈련부(100)로 전달되고, 키보드를 통해 입력되는 음성에 대한 단어(훈련 텍스트)도 상기 훈련부(100)로 전달된다.

그러면 상기 훈련부(100)는 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하여 인식부(200)로 제공한다.

이때 상기 인식부(200)로 테스트 데이터가 입력되면, 상기 인식부(200)는 훈련부(100)로 부터 제공되는 정보를 이용하여 테스트 데이터의 단어 또는 문장을인식하고, 그 인식된 단어를 출력한다.

여기서 훈련부(100)와 인식부(200)의 구성은 도 2와 도 3에 도시한 바와같고, 그의 동작은 종래기술에 설명한 동작과 동일하다.

이상에서와 같은 동작에 의해 단어를 인식하다가 새로운 단어에 대한 데이터가 단어 등록부(300)로 입력되면, 상기 단어 등록부(300)는 도 5에서와 같은 구성에 의해 동작한다.

즉, 새로운 단어가 입력되면 렉시콘 갱싱부(301)는 도 2에 도시한 인식부(200)의 정보 인식부(15)에서 인식한 렉시콘을 받아들이고, 새로운 단어에 대한 렉시콘을 추가한다.

다시말하면, 상기 정보 인식부(15)에서 인식한 렉시콘에 새로운 단어에 대한 렉시콘을 추가하여 기존의 렉시콘을 수정한다.

아울러 언어모델 갱신부(302)는 새로운 단어에 대한 언어모델을 만든다.

그런다음 상기에서 새로 만든 언어모델을 인식부(200)의 통계학 단어 모델부(16)로 제공한다.

그러면 통계학 단어모델부(16)는 새로 수정되고, 이 수정된 단어모델은 확률값 추출부(17)로 제공한다.

결국, 확률값 추출부(17)는 변경된 단어모델이 입력됨에 따라 단어간 확률값도 바뀌게 된다.

따라서 새로운 단어에 대한 데이터가 입력되면, 단어 등록부(300)에서는 인식부(200)에서 구한 렉시콘과 언어모델을 수정하여 단어 또는 문장 인식시 필요로 하는 렉시콘과 언어모델의 파라미터들을 변경하여 상기 인식부(200)로 제공한다.

이에따라 상기 인식부(200)는 상기 단어 등록부(300)를 통해 입력되는 단어를 훈련과정 없이 등록한다.

이와같은 과정을 통해 새로운 단어를 추가하거나 삭제할 수도 있다.

따라서, 본 발명은 새로운 단어를 등록하고자 할 경우 기존에 훈련되어 있는 렉시콘과 언어모델을 수정하여 사용하도록 함으로써, 새로운 훈련없이 용이하게 등록할 수 있도록 한 효과가 있다.

Claims

마이크를 통해 입력되는 음성의 훈련 데이터와 키보드를 통해 입력되는 훈련 텍스트를 입력받아 단어 또는 문장 인식시 필요한 HMM모델과 언어모델, 그리고 렉시콘(Lexicon:인식정보)을 생성하는 훈련부와, 상기 훈련부로 부터 제공하는 정보를 이용하여 입력되는 테스트 데이터의 단어 또는 문장을 인식하는 인식부와, 새로운 단어 입력시 그 단어에 대한 렉시콘을 구하고 이를 상기 인식부의 렉시콘에 추가하여 수정하도록 하는 렉시콘 갱신부와, 상기 입력되는 새로운 단어에 대한 언어모델을 생성하고 이를 상기 인식부의 언어모델에 추가하여 수정하도록 하는 언어모델 갱신부로 구성된 것을 특징으로 하는 가변어휘 인식 시스템.