KR20040069060A

KR20040069060A - 양방향 ｎ-그램 언어모델을 이용한 연속 음성인식방법 및장치

Info

Publication number: KR20040069060A
Application number: KR1020030005483A
Authority: KR
Inventors: 최인정; 윤수연; 공정혜
Original assignee: 삼성전자주식회사
Priority date: 2003-01-28
Filing date: 2003-01-28
Publication date: 2004-08-04
Also published as: KR100480790B1

Abstract

양방향 N-그램 언어모델 추정방법 및 이를 이용한 연속 음성인식방법 및 장치가 개시된다. 양방향 N-그램 언어모델을 이용한 연속 음성인식방법은 (a) 학습용 텍스트 데이터베이스의 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 생성하고, 상기 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 결합하여 생성된 양방향 언어모델 확률데이터를 갖는 양방향 언어모델 데이터베이스를 구축하는 단계; (b) 입력되는 음성으로부터 인식에 유용한 정보들을 추출하여 특징벡터로 변환하는 단계; 및 (c) 상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 양방향 언어모델 데이터베이스를 참조하여 상기 특징추출부에서 변환된 특징벡터와 유사할 확률이 가장 높은 단어열을 탐색하고, 탐색된 단어열을 인식된 텍스트로서 출력하는 단계로 이루어진다. 이에 따르면, 탐색과정에 있어서 어순의 전방향 및 후방향 의존성 및 언어 고유의 구조적 특성을 반영할 수 있어 음성인식 성능을 향상시킬 수 있을 뿐 아니라 음성인식의 신뢰도를 대폭 증대시킬 수 있다.

Description

양방향 Ｎ-그램 언어모델을 이용한 연속 음성인식방법 및 장치{Method and apparatus for continous speech recognition using bi-directional n-gram language model}

본 발명은 음성인식에 관한 것으로서, 언어의 구조적 특성과 어휘들간의 양방향 의존도에 기반한 양방향 N-그램 언어모델을 이용한 연속 음성인식방법 및 장치에 관한 것이다.

일반적으로 연속 음성인식장치는 도 1에 도시된 바와 같은 구성으로 이루어진다. 도 1을 참조하면, 특징추출부(11)에서는 음성인식장치에 입력된 음성을 인식에 유용한 정보만을 추출한 특징벡터로 변환시키고, 탐색부(12)에서는 학습과정에서 미리 구해진 음향모델 데이터베이스(13), 발음사전 데이터베이스(14) 및 언어모델 데이터베이스(15)를 참조하여 비터비 알고리즘을 이용하여 특징벡터로부터 가장 확률이 높은 단어열을 찾게 된다. 여기서, 대어휘 인식을 위하여 인식대상 어휘들은 트리를 구성하고 있으며, 탐색부(12)에서는 이러한 트리를 탐색한다. 후처리부(16)는 탐색부(12)의 탐색결과로부터 발음기호와 태그 등을 제거하고, 음절 단위로 모아쓰기를 하여 최종 인식결과 즉, 텍스트를 제공한다.

이와 같이 음성인식장치는 음성인식을 하기 위해서 음향모델 데이터베이스(14), 발음사전 데이터베이스(15) 및 언어모델 데이터베이스(16)를 이용한다. 이 중 언어모델 데이터베이스(16)는 학습용 텍스트 데이터베이스에 구축된 단어와 단어간의 발생빈도 데이타 및 그를 이용하여 연산된 바이그램(Bigram) 또는 트라이그램(Trigram)의 확률인 발생확률 데이터로 이루어진다. 바이그램은 두개의 단어쌍으로 이루어지는 단어열을 표현하고 트라이그램은 3개의 단어들로 이루어진 단어열을 나타낸다.

한편, 언어는 중심어가 뒤에 위치하는 중심어 후행구조와 중심어가 앞에 위치하는 중심어 선행구조라는 구조적 특성을 가진다. 예를 들어, 도 2에 도시된 바와 같이, 어휘 "ㄹ/exm/0" (21) 이후에 올 수 있는 어휘 수는 대략 1000 개 정도되는데, 그 중 대표적인 것으로는 "결심/nc/2"(22), "기미/nc/0"(23), "것/nb/2"(24), "수/nb/1"(25)을 들 수 있다. "ㄹ/exm/0"(21) 이후에 "결심/nc/2"(22), "기미/nc/0"(23), "것/nb/2"(24), "수/nb/1"(25)가 따라 올 확률인 전방향 바이그램 확률값은 각각 0.00035, 0.0005, 0.327, 0.257이며, "기미/nc/0"(23), "것/nb/2"(24), "수/nb/1"(25) 이전에 "ㄹ/exm/0" 이 존재할 확률인 후방향 바이그램 확률값은 각각 0.0657, 0.507, 0.315, 0.873이다. 만약, 적용된 언어모델이 전방향 바이그램인 경우에는 "것/nb/2"(24)이, 후방향 바이그램인 경우에는 "수/nb/1"(25)가 탐색결과로 제공된다. 여기서, 'exm', 'nc', 'nb' 등은 의사형태소 품사 태그를 나타낸다.

그런데, 도 1에 도시된 일반적인 연속 음성인식장치에서는 통상 어휘들간의 양방향 의존도가 아닌 전방향 의존도를 기반으로 한 N-그램 언어모델 확률값을 사용하여 탐색과정을 진행하는데, 이 경우 어순의 후행구조 의존성이 더 높은 언어에대해서는 정확한 탐색결과를 도출할 수 없게 된다. 즉, 하나의 어휘 뒤에 따라 올 수 있는 어휘의 수가 매우 많은 경우 또는 역방향 의존도가 높은 어휘의 경우, 언어확률 값의 차이에 따라 탐색과정에서 탈락될 수 있는 가능성이 높아 음성인식 성능이 저하되는 문제점이 있다. 이를 해결하기 위한 방편으로서, 탐색 방향마다 그 방향과 일치되는 어순의 언어모델을 적용하는 경우에는 언어모델에 필요한 메모리 증가를 초래할 뿐 아니라 언어 고유의 구조적 특성을 반영하지 못하는 단점이 여전히 존재한다.

따라서 본 발명이 이루고자 하는 기술적 과제는 언어의 구조적 특성과 어휘들간의 양방향 의존도에 기반하여 양방향 N-그램 언어모델을 추정하는 방법을 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는 언어의 구조적 특성과 어휘들간의 양방향 의존도에 기반한 양방향 N-그램 언어모델을 이용한 연속 음성인식방법 및 장치를 제공하는데 있다.

상기 기술적 과제를 달성하기 위하여 본 발명에 따른 양방향 언어모델 추정방법은 (a) 학습용 텍스트 데이터베이스의 구축된 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 전방향 N-그램 발생확률 데이터를 생성하는 단계; (b) 상기 학습용 텍스트 데이터베이스의 구축된 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 역방향 N-그램 발생확률 데이터를 생성하는 단계; 및 (c) 상기 전방향 N-그램 발생확률 데이터와 상기 역방향 N-그램 발생확률 데이터를 결합하여 양방향 언어모델 확률데이터를 생성하는 단계를 포함한다.

상기 다른 기술적 과제를 달성하기 위하여 본 발명은 학습에 의해 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스를 포함하는 연속 음성인식장치에 있어서, 학습에 의해 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스를 포함하는 연속 음성인식장치에 있어서, (a) 학습용 텍스트 데이터베이스의 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 생성하고, 상기 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 결합하여 생성된 양방향 언어모델 확률데이터를 갖는 양방향 언어모델 데이터베이스를 구축하는 단계; (b) 입력되는 음성으로부터 인식에 유용한 정보들을 추출하여 특징벡터로 변환하는 단계; 및 (c) 상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 양방향 언어모델 데이터베이스를 참조하여 상기 특징추출부에서 변환된 특징벡터와 유사할 확률이 가장 높은 단어열을 탐색하고, 탐색된 단어열을 인식된 텍스트로서 출력하는 단계를 포함한다.

상기 다른 기술적 과제를 달성하기 위하여 본 발명은 학습에 의해 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스를 포함하는 연속 음성인식장치에 있어서, 학습용 텍스트 데이터베이스의 구축된 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 결합하여 생성된 양방향 언어모델 확률데이터를 갖는 양방향 언어모델 데이터베이스; 입력되는 음성으로부터 인식에 유용한 정보들을 추출하여 특징벡터로 변환하는 특징추출부; 상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 양방향 언어모델 데이터베이스를 참조하여 상기 특징추출부에서 변환된 특징벡터와 유사할 확률이 가장 높은 단어열을 탐색하고, 탐색된 단어열을 인식된 텍스트로서 출력하는 탐색부; 및 상기 탐색부에서 탐색된 단어열에 대하여 상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 양방향 언어모델 데이터베이스 중 적어도 하나 이상을 참조하여 리스코어링을 수행하는 후처리부를 포함한다.

도 1은 일반적인 연속 음성인식장치의 구성을 나타낸 블럭도,

도 2는 도 1의 탐색부에 전방향 또는 후방향 언어모델이 적용된 경우 산출된 확률값을 나타낸 도면,

도 3은 본 발명의 일실시예에 따른 연속 음성인식장치의 구성을 나타낸 블럭도,

도 4는 도 3에 있어서 양방향 언어모델 데이터베이스를 구축하는 세부 과정을 나타낸 블럭도, 및

도 5는 도 4의 탐색부에 양방향 언어모델이 적용된 경우 산출된 확률값을 나타낸 도면이다.

이하, 본 발명의 실시예에 대하여 첨부된 도면들을 참조하여 상세하게 설명하기로 한다.

도 3은 본 발명의 일실시예에 따른 연속 음성인식장치의 구성을 나타낸 블럭도로서, 특징추출부(31), 탐색부(32), 음향모델 데이터베이스(33), 발음사전 데이터베이스(34), 양방향 언어모델 데이터베이스(35), 및 후처리부(36)로 이루어진다.

도 3을 참조하면, 특징추출부(31)에서는 환경적응, 끝점검출, 반향제거 또는 잡음제거 등과 같은 전처리과정을 거친 다음 디지털처리된 음성신호를 효과적으로 표현해 주는 특징벡터를 추출한다. 특징벡터 추출에는 일반적으로 특징벡터의 저차항에는 발화 당시의 성도(vacal tract) 특성을 반영하고, 고차항에는 발화를 이끌게 한 기저(excitation) 신호의 특성이 반영되도록 한 켑스트럼(cepstrum) 추출방식이 사용되고, 최근에는 인간의 청각인지과정을 반영한 켑스트럼 추출방식인 MFCC(Mel Frequency Cepstrum Coefficient)가 사용되기도 한다.

탐색부(32)에서는 특징추출부(31)로부터 추출된 특징벡터들을 음향모델 데이터베이스(33)에 구축된 음향모델들과 음향적으로 대비하고, 그 결과를 이용하여 단어열을 탐색한다. 탐색부(32)에서는 단어열의 탐색을 위하여 음향학적인 대비결과에 대응하는 양방향 언어모델 데이터베이스(35)의 발생빈도 데이터 및 발생확률 데이터를 참조하여 발음사전 데이터베이스(34)에 수록된 단어들을 조합하여 문장을 구성한다.

음향모델 데이타베이스(33)는 학습용 발성 데이터베이스의 음성데이터로부터추출된 사용자가 갖는 특징벡터들을 이용하여 은닉 마르코브 모델(Hidden Markov Models) 등과 같은 음향모델들을 형성한다. 이들 음향모델들은 음성인식과정에서 기준 모델로서 이용된다. 발음사전 데이터베이스(34)는 음운변화가 적용된 인식단위를 처리해야 하므로 음운변화 현상이 반영된 발음표기를 수록하여 데이터베이스화한 것이다. 양방향 언어모델 데이터베이스(35)는 학습용 텍스트 데이타베이스에 구축된 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 양방향 바이그램 또는 양방향 트라이그램 발생확률 데이터를 구비한다. 여기서, 학습용 텍스트 데이터베이스는 음성인식에 사용될 가능성이 있는 문장들로 이루어지며, 이는 통상 제작자에 의해 사용될 가능성이 있다고 판단된 것들로서 그 양이 한정된다.

후처리부(36)는 탐색부(32)에서 탐색된 단어열에 대하여 상기 음향모델 데이터베이스(33), 발음사전 데이터베이스(34) 및 상기 양방향 언어모델 데이터베이스(35) 중 적어도 하나 이상을 참조하여 리스코어링(rescoring)을 수행하고, 최종 리스코어링된 단어열로부터 발음기호와 태그 등을 제거하고, 음절 단위로 모아쓰기를 하여 최종 인식결과 즉, 텍스트를 제공한다.

여기서, 특징추출부(31), 탐색부(32) 및 후처리부(36)는 연산기능을 가진 프로세서, 예를 들면 CPU(Central Processing Unit)와 그에 의해 구동되는 음성인식 프로그램에 의해 구현될 수 있으며, 음향모델 데이터베이스(33), 발음사전 데이터베이스(34) 및 양방향 언어모델 데이터베이스(35)는 메모리에 의해 구현될 수 있다.

도 4는 도 3에 있어서 양방향 언어모델 데이터베이스(35)의 구축과정을 세부적으로 나타낸 블럭도로서, 전방향 언어모델 데이터베이스(41), 역방향 언어모델 데이터베이스(42), 결합부(43) 및 양방향 언어모델 데이터베이스(44)로 이루어진다.

도 4를 참조하면, 전방향 언어모델 데이터베이스(41)는 학습용 텍스트 데이터베이스의 구축된 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 전방향 바이그램 또는 전방향 트라이그램 발생확률 데이터(P_fwd)를 저장한다.

역방향 언어모델 데이터베이스(42)는 학습용 텍스트 데이터베이스의 구축된 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 역방향 바이그램 또는 역방향 트라이그램 발생확률 데이터(P_rev)를 저장한다.

결합부(43)는 전방향 언어모델 데이터베이스(41)의 전방향 바이그램 또는 전방향 트라이그램 발생확률 데이터(P_fwd)와 역방향 언어모델 데이터베이스(42)의 역방향 바이그램 또는 역방향 트라이그램 발생확률 데이터(P_rev)를 적절하게 결합하여 양방향 언어모델 데이터베이스(44)에 저장한다.

결합부(43)에서 수행되는 바이그램(bigram) 확률에 근거한 양방향 언어모델(P(w_i｜w_i-1))의 추정은 다음 수학식 1 및 수학식 2와 같이 나타낼 수 있다.

상기 수학식 1 및 수학식 2에 있어서, C(w_i,w_i-1)는 해당 문장에서 단어열 조합 (w _i- ₁,w _i )의 발생빈도수, C(w_i-1)는 단어열w _i- ₁의 발생빈도수, C(w_i)는 단어열w _i 의 발생빈도수, P_fwd(·) 및 P_rev(·)는 전방향 N-그램 발생확률 데이터와 역방향 N-그램 발생확률 데이터를 각각 나타낸다. 또한,d _r 은바이그램 확률값이 보다 적게 나타나는 경우 약간의 가중치를 더하는 효과를 가져오는 디스카운팅 상수,α(w _i- ₁)은 백오프 가중치,r(w _i- ₁)은 다음 수학식 3을 만족하는 스케일링 팩터를 각각 나타낸다.

또한, 결합부(43)에서 수행되는 트라이그램(trigram) 확률에 근거한 양방향 언어모델의 추정은 다음 수학식 4 및 수학식 5와 같이 나타낼 수 있다.

상기 수학식 4 및 수학식 5에 있어서, C(w_i,w_i-1,w_i-2)는 해당 문장에서 단어열 조합 (,w _i _-2,w _i- ₁,w _i )의 발생빈도수, C(w_i,w_i-1)는 해당 문장에서 단어열 조합 (w _i- ₁,w _i )의 발생빈도수, C(w_i-1)는 단어열w _i- ₁의 발생빈도수, C(w_i)는 단어열w _i 의 발생빈도수, P_fwd(·) 및 P_rev(·)는 전방향 N-그램 발생확률 데이터와 역방향 N-그램 발생확률 데이터를 각각 나타낸다. 또한,d _r 은바이그램 확률값이 보다 적게 나타나는 경우 약간의 가중치를 더하는 효과를 가져오는 디스카운팅 팩터,α(w _i- ₁｜w _i-2 )은 백오프 가중치,r(w _i-2 ,w _i- ₁)은 다음 수학식 6을 만족하는 스케일링 팩터이다.

한편, 상기 수학식 2 및 수학식 5에서는 전방향 및 후방향 의존도에 대하여 동일한 가중치를 두고 양방향 언어모델 확률을 추정하였으나, 언어의 구조적 특성,즉 전방향 및 후방향의 상대적인 의존도에 근거하여 전방향 N-그램 발생확률 데이터와 역방향 N-그램 발생확률 데이터에 각각 소정의 가중치를 부가한 다음, 이들을 결합하여 양방향 언어모델 확률을 추정할 수 있다.

양방향 언어모델 데이터베이스(44)에 저장되는 양방향 언어모델은 양방향 의존성이 높은 단어열에 대한 확률값을 더 강조할 것인지 여부에 따라서 스무딩이 수행되어진다. 본 발명에 따른 양방향 언어모델 확률의 스무딩은 다음 수학식 7에 의하여 수행되어진다.

상기 수학식 7에 있어서,h는 이전의 단어 히스토리,h'는h를 백오프한 단어 히스토리,λ는 스무딩 상수,r(h)는 다음 수학식 8을 만족하는 스케일링 팩터를 각각 나타낸다.

즉, 상기 수학식 7에 있어서, 스무딩 상수λ값의 크기에 따라서 양방향 의존성이 높은 단어열에 대한 확률값을 더 강조할 것인지 여부가 결정된다.

상기 수학식 7에 의하여 스무딩 상수λ값의 크기를 달리하여 양방향 N-그램 언어모델 확률을 스무딩한 결과는 다음 표 1에 도시된 바와 같다.

w_i-1	w_i	P_fwd(w_i｜w_i-1)	P_rev(w_i-1｜w_i)	P(w_i｜w_i-1)
w_i-1	w_i	P_fwd(w_i｜w_i-1)	P_rev(w_i-1｜w_i)	λ= 0.1	λ= 0.5	λ= 1.0
ㄹ/exm/0	결심/nc/2	0.00035	0.0657	0.08245	0.00346	0.00004
	기미/nc/0	0.0005	0.507	0.10479	0.01142	0.00045
	것/nb/2	0.327	0.315	0.19107	0.23022	0.18387
	수/nb/1	0.257	0.873	0.20654	0.33977	0.40049

상기 표 1을 살펴보면, 스무딩 상수 λ의 값이 작을수록 언어모델 확률값이 평활해져서 언어모델에 대한 분별력이 떨어지고, 스무딩 상수 λ의 값이 클수록 어순의 전방향 및 후방향에 대한 상호 의존성이 가장 큰 단어열만 강조되고 나머지는 거의 무시되어 특정 단어열만 인식되는 문제가 발생할 수 있다. 따라서, 스무딩 상수 λ의 값은 0.4 내지 0.6 범위내에서 적절한 값, 바람직하게로는 0.5 를 선택할 수 있다.

도 5는 본 발명에 따른 양방향 언어모델에 의한 확률값을 도식화한 것으로서, "ㄹ/exm/0"(51) 과 "결심/nc/2"(52), "기미/nc/0"(53), "것/nb/2"(54), "수/nb/1"(55) 간의 양방향 바이그램 확률값은 각각 0.00346, 0.01142, 0.23022, 0.33977이 되어, "수/nb/1"(55)가 탐색결과로 제공된다. 이에 따르면, 전방향과 역방향 언어모델 확률값이 모두 안정적인 경우 높은 양방향 언어모델 확률값을 나타냄을 알 수 있다.

<실험예>

다음, 본 발명에 따른 양방향 N-그램 언어모델을 이용한 음성인식방법과 종래의 음성인식방법의 성능을 비교하기 위한 실험을 하였다. 주변 잡음이 없는 조용한 사무실 환경에서 화자 600명이 발화한 한국어 낭독체 45000 문장을 학습데이터로, 조용한 사무실 환경에서 화자 80명이 발화한 한국어 낭독체 480 문장을 평가데이터로 사용하였다. 실험에 사용된 특징벡터는 12차의 MFCC(Mel Frequency Cepstral Coefficients) 계수와 에너지, 그리고 이들의 차분계수로서, 한 프레임이 26차의 벡터로 표현된다. 실험을 위하여 2600 서브워드 모델로 이루어지며, PTM(Phonetically-tied Mixture) 모델 구조를 가지는 음향모델이 사용되었으며, 며, 전방향 바이그램, 전방향 트라이그램, 후방향 바이그램, 후방향 트라이그램, 양방향 트라이그램 언어모델이 사용되었다. 사용된 어휘는 정치면 기사와 관련된 11000 단어로서, 의사형태소 단위로 인식된다. 상기와 같은 조건에 대한 실험결과는 다음 표 2에 도시된 바와 같다.

	전방향 언어모델	후방향 언어모델	λ	단어 오인식율(%)
종래기술 1	전방향 3-그램	전방향 3-그램	-	9.75
종래기술 2	전방향 2-그램	후방향 3-그램	-	9.87
종래기술 3	전방향 3-그램	후방향 2-그램	-	9.60
본 발명	양방향 3-그램	양방향 3-그램	0.3	9.88
			0.4	8.73
			0.5	8.69
			0.6	9.33
			0.7	10.69

상기 표 2를 살펴보면, 본 발명에 의한 양방향 3-그램 언어모델을 사용하고, 스무딩 상수 λ의 값이 0.4 또는 0.5 인 경우 단어 오인식율이 낮아지게 되어 음성인식 성능이 향상되었음을 입증할 수 있다.

상기한 본 발명의 실시예는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 한편, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

상술한 바와 같이 본 발명에 따르면, 학습용 텍스트 데이터베이스에 포함된 단어열들에 대한 전방향 N-그램 언어모델 및 역방향 N-그램 언어모델을 조합한 양방향 N-그램 언어모델을 적용하여 탐색과정 또는 후처리과정을 진행함으로써 어순의 전방향 및 후방향 의존성 및 언어 고유의 구조적 특성을 반영할 수 있어 음성인식 성능을 향상시킬 수 있을 뿐 아니라 음성인식의 신뢰도를 대폭 증대시킬 수 있다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야할 것이다.

Claims

(a) 학습용 텍스트 데이터베이스의 구축된 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 전방향 N-그램 발생확률 데이터를 생성하는 단계;

(b) 상기 학습용 텍스트 데이터베이스의 구축된 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 역방향 N-그램 발생확률 데이터를 생성하는 단계; 및

(c) 상기 전방향 N-그램 발생확률 데이터와 상기 역방향 N-그램 발생확률 데이터를 결합하여 양방향 언어모델 확률데이터를 생성하는 단계를 포함하는 양방향 언어모델 추정방법.
제1 항에 있어서, 상기 방법은

(d) 양방향 의존성이 높은 단어열에 대한 확률값을 더 강조할 것인지 여부에 따라서 상기 (c) 단계에서 구해진 양방향 언어모델 확률데이터를 스무딩하는 단계를 더 포함하는 양방향 언어모델 추정방법.
제1 항 또는 제2 항에 있어서, 상기 (c) 단계에서는 바이그램인 경우, 다음수학식

(여기서, C(w_i,w_i-1)는 해당 문장에서 단어열 조합 (w _i- ₁,w _i )의 발생빈도수, C(w_i-1)는 단어열w _i- ₁의 발생빈도수, C(w_i)는 단어열w _i 의 발생빈도수,α(w _i- ₁)은 백오프 가중치,r(w _i- ₁)은 다음 수학식을 만족하는 스케일링 팩터, P_fwd(·) 및 P_rev(·)는 각각 전방향 N-그램 발생확률 데이터와 역방향 N-그램 발생확률 데이터임)에 의해 상기 양방향 언어모델을 추정하는 양방향 언어모델 추정방법.
제1 항 또는 제2 항에 있어서, 상기 (c) 단계에서는 트라이그램인 경우, 다음 수학식

(여기서, C(w_i,w_i-1,w_i-2)는 해당 문장에서 단어열 조합 (,w _i _-2,w _i- ₁,w _i )의 발생빈도수, C(w_i,w_i-1)는 해당 문장에서 단어열 조합 (w _i- ₁,w _i )의 발생빈도수, C(w_i-1)는 단어열w _i- ₁의 발생빈도수, C(w_i)는 단어열w _i 의 발생빈도수,α(w _i- ₁｜w _i-2 )은 백오프 가중치,r(w _i-2 ,w _i- ₁)은 다음 수학식을 만족하는 스케일링 팩터, P_fwd(·) 및 P_rev(·)는 각각 전방향 N-그램 발생확률 데이터와 역방향 N-그램 발생확률 데이터임) 에 의해 상기 양방향 언어모델을 추정하는 양방향 언어모델 추정방법.
제2 항에 있어서, 상기 (d) 단계는 다음 수학식

(여기서,h는 이전의 단어 히스토리,h'는h를 백오프한 단어 히스토리,λ는 스무딩 상수,r(h)는 다음 수학식을 만족하는 스케일링 팩터임)에 의해 수행되어지는 양방향 언어모델 추정방법.
제1 항에 있어서, 상기 (c) 단계에서는 언어의 구조적 특성에 근거하여 상기 전방향 N-그램 발생확률 데이터와 상기 역방향 N-그램 발생확률 데이터에 각각 소정의 가중치를 부가한 다음, 이들을 결합하여 양방향 언어모델 확률데이터를 생성하는 양방향 언어모델 추정방법.
학습에 의해 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스를 포함하는 연속 음성인식장치에 있어서,

(a) 학습용 텍스트 데이터베이스의 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 생성하고, 상기 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 결합하여 생성된 양방향 언어모델 확률데이터를 갖는 양방향 언어모델 데이터베이스를 구축하는 단계;

(b) 입력되는 음성으로부터 인식에 유용한 정보들을 추출하여 특징벡터로 변환하는 단계; 및

(c) 상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 양방향 언어모델 데이터베이스를 참조하여 상기 특징추출부에서 변환된 특징벡터와 유사할 확률이 가장 높은 단어열을 탐색하고, 탐색된 단어열을 인식된 텍스트로서 출력하는 단계를 포함하는 연속 음성인식방법.
제7 항에 있어서, 상기 양방향 언어모델은 바이그램인 경우, 다음 수학식

(여기서, C(w_i,w_i-1)는 해당 문장에서 단어열 조합 (w _i- ₁,w _i )의 발생빈도수, C(w_i-1)는 단어열w _i- ₁의 발생빈도수, C(w_i)는 단어열w _i 의 발생빈도수,α(w _i- ₁)은 백오프 가중치,r(w _i- ₁)은 다음 수학식을 만족하는 스케일링 팩터,P_fwd(·) 및 P_rev(·)는 각각 전방향 N-그램 발생확률 데이터와 역방향 N-그램 발생확률 데이터임) 에 의해 추정되는 연속 음성인식방법.
제7 항에 있어서, 상기 양방향 언어모델은 트라이그램인 경우, 다음 수학식

(여기서, C(w_i,w_i-1,w_i-2)는 해당 문장에서 단어열 조합 (,w _i _-2,w _i- ₁,w _i )의 발생빈도수, C(w_i,w_i-1)는 해당 문장에서 단어열 조합 (w _i- ₁,w _i )의 발생빈도수, C(w_i-1)는 단어열w _i- ₁의 발생빈도수, C(w_i)는 단어열w _i 의 발생빈도수,α(w _i- ₁｜w _i-2 )은 백오프 가중치,r(w _i-2 ,w _i- ₁)은 다음 수학식을 만족하는 스케일링 팩터, P_fwd(·) 및 P_rev(·)는 각각 전방향 N-그램 발생확률 데이터와 역방향 N-그램 발생확률 데이터임)에 의해 추정되는 연속 음성인식방법.
제8 항 또는 제9 항에 있어서, 상기 양방향 언어모델은 양방향 의존성이 높은 단어열에 대한 확률값을 더 강조할 것인지 여부에 따라서 다음 수학식

(여기서,h는 이전의 단어 히스토리,h'는h를 백오프한 단어 히스토리,λ는 스무딩 상수,r(h)는 다음 수학식을 만족하는 스케일링 팩터임)에 의해 스무딩이 수행되어지는 연속 음성인식방법.
제8 항 또는 제9 항에 있어서, 언어의 구조적 특성에 근거하여 상기 전방향 N-그램 발생확률 데이터와 상기 역방향 N-그램 발생확률 데이터에 각각 소정의 가중치를 부가한 다음, 이들을 결합하여 상기 양방향 바이그램 또는 트라이그램 언어모델 확률데이터를 생성하는 연속 음성인식방법.
제7 항에 있어서, 상기 방법은

(d) 상기 (c) 단계에서 탐색된 단어열에 대하여 상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 양방향 언어모델 데이터베이스 중 적어도 하나 이상을 참조하여 리스코어링을 수행하는 단계를 더 포함하는 연속 음성인식방법.
학습에 의해 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스를 포함하는 연속 음성인식장치에 있어서,

학습용 텍스트 데이터베이스의 구축된 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 결합하여 생성된 양방향 언어모델 확률데이터를 갖는 양방향 언어모델 데이터베이스;

입력되는 음성으로부터 인식에 유용한 정보들을 추출하여 특징벡터로 변환하는 특징추출부;

상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 양방향 언어모델 데이터베이스를 참조하여 상기 특징추출부에서 변환된 특징벡터와 유사할 확률이 가장 높은 단어열을 탐색하고, 탐색된 단어열을 인식된 텍스트로서 출력하는 탐색부; 및

상기 탐색부에서 탐색된 단어열에 대하여 상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 양방향 언어모델 데이터베이스 중 적어도 하나 이상을 참조하여 리스코어링을 수행하는 후처리부를 포함하는 연속 음성인식장치.