KR20000067829A

KR20000067829A - 반통제된 화자 적응

Info

Publication number: KR20000067829A
Application number: KR1019990058674A
Authority: KR
Inventors: 고론치질케; 콤페랄프; 부호너페터; 이와하시나오토
Original assignee: 소니 인터내셔널(유로파) 게엠베하; 이데이 노부유끼; 소니 가부시끼 가이샤
Priority date: 1998-12-17
Filing date: 1999-12-17
Publication date: 2000-11-25
Also published as: KR100697961B1; DE69829187T2; DE69829187D1; DE69833987D1; CN1248192C; US6799162B1; DE69833987T2; EP1426923B1; JP2000181482A; EP1011094B1; EP1426923A1; CN1264888A; EP1011094A1

Abstract

통제되지 않은 또는 온 라인 자동 음성 인식 시스템들에서 잘못 인식된 단어들에 현재 적응하기 위해 신뢰 측정들이 사용되거나 또는 사용자 반응(reaction)은 하나의 인식된 음소, 몇개의 음소들, 한 단어, 몇개의 단어들 또는 전 발음이 화자(speaker) 적응된 모델 집합에서 화자 독립 모델 집합의 적응에 사용되는지 여부를 결정하기 위해 해석되며, 만약 적응이 실행되면, 이 인식된 발음 또는 이 인식된 발음 중 일부로 아주 강한 적응이 수행된다. 또한, 화자 적응 성능의 확인은 인식 속도가 감소(상당히)하지 않으나, 같은 레벨에서 단지 증가하거나 유지하는 것을 보장하기 위해 제안된다.

Description

반통제된 화자 적응{Semi-supervised speaker adaptation}

본 발명은 자동 음성 인식(ASR), 특히, 자동 음성 인식 시스템의 통제되지 않는 또는 온 라인 적응을 수행하기 위한 방법에 관한 것이고, 본 발명의 방법들을 실행할 수 있는 음성 인식 시스템에 관한 것이다.

기술 상태에서 음성 인식기들은 어떤 음성 분할들의 음향학적인 특성들을 통계 분포 모델링의 집합으로 구성한다. 이 음향학적인 특성들은 특징 벡터들로 부호화된다. 예를 들자면, 한 가우시안 분포는 각 음소로 생각할 수 있다. 이 분포들은 상태(state)들에 덧붙여진다. (확률적) 상태 천이 망(통상, 은닉 마코프 모델)은 상태들의 시퀀스들과 특징 벡터들의 시퀀스들에 대한 확률들을 규정한다. 한 상태 통과는 예를 들면 10㎳의 음성 신호인 한 프레임을 채우는 1개의 특징 벡터를 소모한다.

이런 인식기의 확률적 파라미터들은 화자 종속(SD) 시스템을 따르는 단일 화자 또는 화자 독립(SI) 시스템을 따르는 여러 화자 둘 중 하나로부터 대용량의 음성 데이터를 사용하여 학습된다.

화자 적응(SA)은 SI 시스템들의 인식 속도들을 증가시키기 위한 방법으로 광범위하게 사용된다. 기술 상태에서 화자 종속 시스템들은 화자 독립 시스템들보다 훨씬 높은 인식 속도들을 산출한다. 그러나, 여러 적용들에 대해, 시스템을 학습하기 위한 단일 화자로부터 충분한 데이터를 모으는 것은 불가능하다. 소비자 장치의 경우 이것은 더욱 원치 않는 것일 수도 있다. 인식 속도들에서 이 부정합을 극복하기 위해, 화자 적응 알고리즘들은 화자 종속 시스템들에 근접한 인식 속도를 달성하기 위해 광범위하게 사용되지만 화자 종속 시스템들과 비교하여 화자 종속 데이터의 일부분을 단지 사용할 뿐이다. 이 시스템들은 화자들 음향 상태를 더 좋게 정합하기 위해 적응된 후에 화자 독립 모델들을 처음에 취한다.

통상, 적응은 통제되어 실행된다. 즉, 말에 사용된 단어들은 알려져 있고 인식기는 그것들을 인식하게 된다. 이로써 분할 비 분포들의 시간 얼라인먼트가 달성된다. 분포들에 대응하는 실제 특징 벡터들과 파라미터들 사이의 부정합은 적응에 기반을 둔다. 통제된 적응은 그/그녀가 실제로 인식기를 사용할 수 있기전에 모든 새로운 화자가 처리되도록 적응 기간을 필요로한다.

도 5는 종래 기술에 따른 이런 전형적인 음성 인식 시스템의 블록도를 도시한다. 마이크로폰(51)으로 수신된 말에 사용된 발음들은 특징 추출이 예를 들어 10㎳마다 특징 벡터를 얻기 위해 수행되는 특징 추출 모듈(53)에 연결된 A/D 변환 단계(52)에서 디지털 신호로 변환된다. 이런 특징 벡터는 음성 인식 시스템의 학습중에 사용되거나 또는 학습 후에 처음에 화자 독립 모델들의 적응에 사용되고 말하는데 사용되는 발음들을 인식하기 위해 인식기를 사용하는 중에 사용된다.

학습에 대한, 특징 추출 모듈(53)은 스위치(54)의 콘택트들(a 및 c)을 통해 학습 모듈(55)에 연결된다. 은닉 마코프 모델들(HMMs)로 행해지는 전형적인 음성 인식 시스템의 학습 모듈(55)은 화자 독립(SI) HMMs의 집합을 얻는다. 통상적으로 이것은 여러 다른 화자들을 포함하는 대규모의 데이터 베이스를 사용하는 자동 음성 인식 장치의 제조에 의해 수행된다.

음성 인식 시스템이 SI 모델들의 집합을 로드한 후에, 스위치(54)의 콘택트들(a 및 b)은 특징 추출 모듈(53)에 의해 추출된 특징 벡터들이 시스템이 소비자에 의해 사용될 수 있고 그/그녀에 적응될 수 있도록 하기 위해 인식 모듈(57)로 보내지도록 연결된다. 그런 후 인식 모듈(57)은 추출된 특징 벡터들과 화자 독립 모델 집합에 근거한 인식 결과를 계산한다. 개별적인 화자에 적응하는 동안 인식 모듈(57)은 기억 장치(59)에 저장될 화자 적응된 모델 집합을 계산하는 적응 모듈(58)에 연결된다. 앞으로, 인식 모듈(57)은 추출된 특징 벡터와 화자 적응된 모듈 집합에 근거한 인식 결과를 계산한다. 화자 적응된 모델 집합의 또 다른 적응은 특정 화자들에 대한 시스템의 성능을 더 개선시키기 위해 반복적으로 수행될 수 있다. MAP(maximum a posteriori) 적응 또는 MLLR(maximum likelihood linear regression : 최대 유사도 선형 회귀) 적응과 같은, 화자 적응에 대해 몇가지의 현존하는 방법들이 존재한다.

통상, 화자 적응 기술들은 새로운 화자들의 음향 상태를 더 좋게 정합시키기 위해 은닉 마코프 모델들의 파라미터들을 수정한다. 상술한 바와 같이, 통상 이는 일괄 또는 오프 라인 적응에 행해진다. 이는 한 화자가 그/그녀가 인식하기 위해 시스템을 사용할 수 있기 전에 적응을 행하기 위해 처리된, 미리 규정된 텍스트를 판독해야 한다는 것을 의미한다. 이것이 끝나자마자 시스템은 인식하기 위해 사용될 수 있다. 텍스트가 시스템에 알려지고 텍스트에 대응하는 모델들과 일치하는 음성 신호의 강요된 얼라인먼트가 적응하기 위해 수행되고 사용되기 때문에, 이 모드는 또한 통제된 적응으로 불린다.

그러나, 통제되지 않은 또는 온 라인 방법은 다수의 소비자 장치에 아주 적합하다. 이 경우에, 적응은 시스템이 쓰이는 동안 사용된다. 인식된 발음은 적응하는데 사용되고 수정된 모델들은 다음 발음 기타 등등을 인지하기 위해 사용된다. 이 경우에 말에 사용된 텍스트는 시스템에 알려지지 않지만, 인식된 단어(들)이 대신 사용된다.

유럽 특허 제 EP 0 763 816 A2호는 HMM 학습에 대한 최적 기준들로 신뢰 측정들을 사용하는 것을 제안한다. 이 신뢰 측정들은 "정확 가능성" 또는 "부정확 가능성"으로 인식 결과를 분류하기 위해 사용된 부가적인 지식 원들이다. 여기서, 신뢰 측정들은 최대로 인식된 단어 열들(n)의 확인을 위해 사용되고 이 확인 절차의 결과, 즉 손실 기능의 파생어는, 모델들의 학습을 위한 최적 기준으로 사용된다. 이 경우에, 모든 발음들은 학습하기 위해 사용되고 방법은 혼동할 수 있는 단어들의 유사도내의 차를 최대화하기 위해 사용된다. 그러나, 이 문서는 이전의 시스템을 사용하여 학습하는 HMM에 관한 것이다.

반면에, 유럽 특허 제 EP 0 773 532 A2호는 미리 규정한 키워드 "웁스(oops)"를 말함으로써 오인을 정정하기 위한 방법을 공지하고 그 이후 사용자는 타이핑하므로써 또는 시스템이 에러 그 자체를 보정하게함으로써 잘못 인식된 단어들을 정정할 수도 있다. 임의의 경우에, (연속의) 단어(들)가 잘못 인식되었을 때 시스템은 음성 모델들을 단지 학습/적응한다.

본 발명은 통제되지 않은 또는 온 라인 적응을 사용하는 음성 인식 시스템들내의 화자 독립 은닉 마코프 모델들의 적응에 관한 것이다. 이 시스템들에서 HMMs는 각각 새로운 발음 다음에 또는 심지어 발음들 중 부분들 다음에 꾸준히 정제되어야 한다. 또, 시스템에서 나오는 단어들은 여러 번 반복되지 않으며 시스템에 잘 알려지지 않는다. 그러므로, 증가한 화자 적응만이 가능한데, 즉 아주 작은 적응 데이터만이 동시에 이용가능하고, 부가적으로 정확한 단어로 추측되는 인식 모듈의 출력때문에, 잘못 인식이 화자 독립 시스템의 성능에 따라 발생하는 문제점이 발생한다. 그 후에 이 단어들은 적응하기 위해 사용되는데 단어가 잘못 인식되면 적응 알고리즘은 틀린 방법으로 모델들을 수정할 것이다. 인식 성능은 이것이 반복적으로 발생하는 때에 급격하게 감소할 수도 있다.

그러므로, 종래의 기술과 관련하여 상술한 문제점들을 극복하는 통제되지 않는 적응에 대한 방법 및 장치를 제안하는 것이 본 발명의 근원적인 목적이다.

본 발명의 방법들은 독립 청구항들 1 및 17에서 규정되고 본 발명의 장치는 독립 청구항 23에서 규정된다. 그 후의 양호한 실시예들은 다음의 종속 청구항들에서 각각 규정된다.

본 발명에 따라서, 일종의 측정은 인식 결과가 얼마나 신뢰할 만한 것인가를 나타낸다. 그 후의 시스템의 적응은 상기 인식 결과의 신뢰도의 등급에 근거한다. 그러므로 본 발명에 따른 이 방법은 적응에 대한 어휘를 통제하는 사용자 또는 고정된 집합이 불필요하므로 반 통제된 화자 적응이라 불린다.

신뢰할 수 있는 인식의 경우 발음은 특정한 화자에 적응하기 위해 사용될 수 있지만, 신뢰할 수 없는 인식의 경우 발음은 모델들의 잘못된 변형을 피하기 위해 무시된다. 대안적으로, 신뢰도의 등급에 따라 가중치는 적응의 세기를 결정하도록 계산될 수 있다.

적응에 대한 발음을 사용할지 여부를 결정하는 발명 및 발명의 몇가지 방법들은 다음의 전형적인 실시예들의 상세한 설명으로 더 잘 이해될 것이며 그 후의 첨부된 도면들과 관련하여 설명될 것이다.

도 1은 본 발명의 한 실시예에 따라 음성 인식 시스템을 도시한 도면.

도 2는 신뢰 측정들이 사용되는 본 발명에 따라 제 1 적응 방법을 도시한 도면.

도 3은 대화 내력이 관찰되는 본 발명에 따라 제 2 적응 방법을 도시한 도면.

도 4는 본 발명에 따라 처음의 화자 독립 모델들로 전환하는 방법을 도시한 도면.

도 5는 종래 기술에 따라 전형적인 음성 인식 시스템을 도시한 도면.

도 2는 본 발명에 따른 제 1 적응 방법을 도시하는데 신뢰 측정들은 잘못 인식된 단어에 적응하는 것을 피하고 적응 등급을 결정하기 위해 사용된다. 이 방법은 스텝 S21에서 시작되는 순환 루프(loop)내에서 반복적으로 실행된다.

상기 제 1 스텝(S21)에서 사용자 발음의 인식은 종래 기술에 따른 음성 인식 시스템과 유사하게 수행된다. 다음 스텝(S22)에서 신뢰 측정은 스텝(S21)의 인식 결과에 적용된다. 이 스텝에서 신뢰 측정들은 신뢰할 수 있는 인식 결과가 어느 정도인가를 측정하는데 사용된다. 만약 신뢰 측정이 어떤 임계값보다 작다면 적응 절차가 다음 사용자 발음의 인식이 수행되는 스텝(S21)에서 다시 시작되므로 인식된 단어는 신뢰할 수 없는 것으로 간주되고 적응하기 위해 사용될 수 없게 된다. 반면에, 임계값을 넘는, 신뢰 측정에서, 적응 절차가 다음 사용자 발음을 인식하기 위해 스텝(S21)에서 다시 시작하기 전에 인식 결과는 신뢰할 수 있는 것으로 간주되고 스텝(S23)에서 적응하기 위해 사용된다.

본 발명에 따른 신뢰 측정을 계산하기 위해, 우선 1개 또는 몇개의 특징들은 인식 가정 및/또는 음성 신호로부터 추출된다. 그 후에 결정은 정확하게 또는 부정확하게 인식될 때 음소/단어/구가 분류될 수 있는지 여부를 이 특징들을 기반으로하게 된다. 이 결정은 어려운 결정은 아니지만, 수신된 발음의 정확성에 대한 일정한 확률이 계산된다. 예를 들어 결정은 입력으로 특징들을 얻고 몇개의 내부 파라미터들에 근거하여 신뢰 측정을 계산하는 신경망 또는 결정 트리들을 기반으로 한다.

신경망이 신뢰 측정을 계산하기 위해 사용될 때, 출력 즉, 신뢰 측정은 통상적으로 0과 1 사이의 값이고; 이 값이 1에 보다 근접할수록 적당한 음소/단어/구 또는 그것의 시퀀스들이 더 정확하게 인식된다. 그러므로, 0과 1 사이의 임계값은 규정되고 상기 임계값을 넘는 신뢰 측정들은 정확하게 인식 결과를 분류한다.

계산된 신뢰 측정에 근거한 특징들은 인식 결과로부터 추출되거나 인식 결과에 근거한 음성 신호로부터 직접 계산된다. 이런 특징들은 n개의 최대(n-best) 인식 가정, HMM 상태 기간들, 인식된 단어들에 기초하는 인식된 음소들의 기간, 또는 분할 확률들의 (상대적인)점수들로 예를 들 수 있다. 분할 확률들은 몇개의 프레임들을 포함하는 전체 음성 분할에 주어진 단어 가정내에 포함된 이 음소에 대한 확률을 결정하는 확률적 모델에 의해 계산된다.

그 이후에 신뢰 측정은 적응의 등급을 결정하기 위해 또한 직접 사용될 수 있다. 물론, 신뢰 측정의 가장 간단한 경우는 단지 1개의 특징만을, 예를 들어 인식동안 HMMs에 의해 제공된 점수, 추출하기 위한 것이며 단어가 임계값에 근거하여 정확하게 인식되는지 여부를 직접 결정하기 위한 것이다. 이 경우에, 적응 등급은 항상 일정하다.

고정된 임계값에 대안적으로, 신뢰 측정은 스텝(S23)에서 수행되는 적응의 세기를 결정하는 가중치를 계산하기 위해 사용될 수 있다.

또한, 결정이 적응 중에, 예를 들어 결정하기 위해 사용되는 임계값이 음성 신호의 유도된 특징들에 따라 적응될 수 있는 방법에 기초하여 다른 파라미터들을 변화하는 것이 가능하다.

HMM 모델들의 화자 적응 중에 문제점이 발생하는데, 이것은 신뢰 측정의 특징들에 영향을 끼치기 때문이다. 이것은 HMM 모델들의 이런 변화를 변하지 않도록 하기 위한 특징들의 정규화를 요구하거나 또는 신뢰 측정이 비교된 임계값 또는 신뢰 측정의 파라미터들 또는 특징들의 자동 온 라인 적응을 요구한다. 이 적응은 신뢰 측정의 정확성과 같은 기준을 최적화하는 형식적인 알고리즘에 근거한다. 후자는 비전, 해석 및 운율 모듈들에서 결정된 바와 같이 사용자 반응에 근거하여 평가될 수 있다.

게다가, 신뢰 측정은 전체 사용자 발음들뿐만 아니라 전 발음이 적응에 항상 거부되지 않도록 하기 위한 단어 양식 또는 음소 양식뿐만 아니라 단일 잘못 인식된 단어들 또는 잘못 인식된 음소들을 포함하는 단어들에 적용될 수 없다. 또한 또 다른 독단적인 길이의 음성 분할에 신뢰 측정들을 적용하는 것이 가능하다.

단어가 잘못 인식된 시스템에서 나타난 바와 같이, 신뢰 측정들에 의해 좌우되는 이런 적응은 사용자로부터 활성화할 필요가 없다. 그러므로, 모든 사용자 발음 또는 사용자에 의해 발음된 모든 단어가 이런 발음 또는 단어가 잘못 인식될 수 있고 적응 등급이 정확히 인식된 결과의 확률에 따른다는 사실과 관계없이 적응하기 위해 사용되므로, 이 방법은 종래 기술에 따른 시스템보다 자동 음성 인식 시스템내에 통제되지 않은 또는 온 라인 적응에 대해 상당히 좋은 인식 속도를 달성한다.

도 3은 대화 내력이 발음이나 단일 단어 또는 여러 단어들이 적응하는데 사용되는지 여부를 결정하기 위해 관찰되는 본 발명에 따른 제 2 적응 방법을 도시한다.

대화 시스템에서, 사용자의 반응은 인식된 단어가 정확한지 여부를 종종 나타낸다. 이런 사용자 반응을 판단하기 위한 방법은 도 3에 도시된다. 도 2에 도시된 방법과 유사한, 이 방법은 스텝(S31)에서 시작되는 순환 루프내에서 반복적으로 실행된다.

스텝(S31)에서 사용자 발음 수(i)의 인식은 종래의 기술에 따른 상기 시스템들과 유사하게 수행된다. 그 후에, 인식 결과는 사용자가 발음 수 i전에 발음된 그의 발음에 시스템들 반응을 만족하는지 여부를 판단할 스텝(S32)에서 해석을 한다. 예를 들자면 이런 발음 수 i-1은 "TV를 켜라"로 될 수 있고 몇가지 이유 때문에 시스템은 "라디오를 켜라"로 인식될 수 있고 따라서 라디오가 켜진다. 사용자가 이 실수를 깨달았을 때, 그/그녀의 다음 발음(즉, 발음 수 i)은 "아니야, 라디오가 아니라 TV야" 또는 "틀렸어. 난 TV라고 말했어"와 다소 유사하게 될 것이다. 이 경우에, 시스템은 이전에 인식된 발음이 잘못 인식되었던 것이고 적응는데 사용될 수 없다는 것을 발음 수 i에 근거하여 스텝 S32에서 해석될 것이다. 사용자 발음 수 i-1이 적응하기 위해 사용되는 스텝 S33은 이 경우에 생략되고 시스템이 활성화 또는 응답을 수행하는 스텝 S34는 스텝 S33 후에, 즉 스텝 S32 후에 직접 실행되지 않는다. 스텝 S34 내의 시스템의 활성화 또는 응답후에, i는 사용자의 다음 발음 수 i+1 이 스텝 S31 내에서 인식되기 전에 스텝 S35에서 증가된다.

발음의 어법 또는 해석 결과는 별도로하고 또한 사용자의 감정 상태, 즉 억양 및/또는 운율에 대한 정보는 사용자가 스텝 S32에서 만족하는지 여부를 참작할 수 있다. 억양 및/또는 운율을 사용하여 발음을 해석함으로써, 특정 키워드는 이전에 인식된 발음의 잘못 인식이 발생되는 것을 인식하기 위한 시스템을 필요로하지 않는다. 예를 들면, 그/그녀의 이전에 말한 발음이 잘못 인식된 후에, 사용자가 화난 상태로 시스템에 "TV를 켜라"라고 말한 경우, 시스템은 그/그녀가 그/그녀의 생각을 바꾸지 않았다고 해석할 수 있지만, 이전에 인식된 명령이 적응에 사용되지 않도록 하기 위해 잘못 인식된 것으로 해석할 수 있다.

또, 예를 들어 사칭자(mimic)와 같이, 사용자의 반응들을 해석할 수 있는 컴퓨터에 연결된 비디오 카메라와 같은, 가시적인 컴퓨테이션 시스템에 의해 관찰된 사용자 반응들은 예를 들면 사용자 및/또는 사용자의 얼굴로부터 받은 화상 또는 비디오 시퀀스에 근거하여, 인식된 발음을 확인하기 위해 사용될 수 있다.

이 경우에 배경 목소리들 또는 잡음을 기반으로한 몇개의 단어들로 인식된 인식기라 하더라도 사칭자가 화내거나 또는 놀래는 경우 또는 사용자의 입술이 닫혀있는 경우는 결정될 수 있다.

그 사용자 반응들의 조합 또는 단지 반응 하나에 따라 그리고 세기에 따라, 적응의 등급은 결정될 수 있다. 신뢰 측정의 경우에서와 마찬가지로, 적응의 등급이 일정하도록 하기 위해 임계값을 설정하고 그래서 어려운 결정을 규정하는 것이 또한 가능하다.

도 4는 적응된 모델들의 성능이 아주 나쁜 경우, 시스템이 처음의 SI 모델들로 전환되는, 본 발명에 따른 방법을 도시한다.

이 경우에, 인식 성능이 떨어질 수도 있으므로 시스템은 잘못 인식된 단어들을 사용하여 (반복적으로)적응이 되거나, 또는 새로운 화자가 시스템을 사용하는 상황을 인식한다. 그러므로, 시스템은 원래의 화자 독립 모델들로 전환될 것이다. 도 2 및 3에서 도시된 방법들과 유사하게 이 방법은 병렬로 실행되는 스텝들(S41 및 S43)에서 시작하는 순환 루프내에서 반복적으로 실행된다.

그러므로, 스텝(S43)에서 같은 사용자 발음의 인식이 처음의 화자 독립 모델들을 사용하여 수행되는 동안, 상기 스텝(S41)에서 사용자 발음의 인식은 적응된 모델들을 사용하여 수행된다. 양쪽 인식 결과들로 신뢰 측정은 각각의 스텝들(S42 및 S44)에 적용될 수도 있다. 다음의 스텝(S45)에서 양쪽의 결과들은, 예를 들어 신뢰 측정들, 스텝 S46에서 처음의 화자 독립 모델들에 따라 적응을 개재할지 또는 스텝 S47에서 적응된 모델들을 또 사용하고 적응할지, 스텝들(41 및 43)에서 수행된 병렬 인식이 다음 사용자 발음으로 수행되기 전에 결정하기 위해 비교된다.

이 방법은 상기 양쪽의 인식 결과들을 비교하기 위해 신뢰 측정들에 사용하는 것에 한정되지 않는다. 시스템이 다른 사용자 반응들을, 예를 들어 각각의 발음 또는 억양 및/또는 운율에 대한 전 및/또는 후의 어떤 시간에서의 그/그녀의 행동에서 사용하는 것이 또한 가능하다. 또한 시스템은 모델들이 사용되거나, 인식 결과들이 정확한 것인지 결정하기 위해 사용자를 요구하고 그런 후 또 다른 인식/적응에 대한 각각의 모델 집합을 사용한다고 생각할 수 있다.

그러므로, 원시 모델들을 유지하고 적응된 모델들의, 예를 들어 적응 스텝들의 어떤 수 다음에 또는 음성 정지에서 성능을 비교함으로써, 처음의 모델들은 시스템에 의해 또한 사용되고 적응은 적응된 모델들이 처음의 모델들과 마찬가지로 수행되지 않는다는 것을 나타내는 화자 독립 모델들 및/또는 신뢰 측정들을 사용하여 인식 결과의 경우에 개재된다. 그래서, 인식 속도는 감소(상당히)하지 않으며, 같은 레벨에서 증가하거나 또는 유지하는 것을 보장될 수 있다. 이 방법을 수행함으로써 사용자의 기대는 사용자가 마치 인간처럼 말하는 방식으로 사용하기 위한 자동 음성 인식 시스템을 기대함으로 틀림없이 만족된다.

화자 적응된 모델들은 인식 속도가 결코 감소(상당히)하지 않는다는 것을 보장하기 위해 화자 독립 모델들과 비교될뿐만 아니라 최고의 인식 성능을 갖는 것들을 선택하기 위해 보다 오래된 화자 적응된 모델들에 가장 최근의 화자 적응된 모델들을 비교하고 그들에 근거하여 적응을 계속한다.

물론, 상술된 본 발명에 따른 4개의 모든 방법들 또는 그들의 부분 집합은 통제되지 않거나 온 라인 적응 모드에서 잘못 인식된 단어들 또는 문장들을 위해 본 적응에 조합될 수 있다. 이 방법들에서는 적응이 인식된 단어들이나 인식된 발음으로 행해지는지 여부가 제어된다. 부가적으로 인식 속도가 결코 감소(상당히)하지 않는다는 것이 보장된다. 상술한 바와 같이, 제안된 알고리즘들은 적응 방법들 그 자체들로부터, 즉 그들이 임의의 화자 적응 알고리즘과 조합될 수 있는 것으로부터, 독립적이다.

통제되지 않거나 온 라인 화자 적응에 대한 하나 또는 몇개의 발명 방법들 중 하나를 사용하는 본 발명에 따른 인식 시스템의 전형적인 실시예는 도 1에 도시된다.

도 5에 도시된 종래 기술에 따른 음성 인식 시스템과 대조하여 도 1에 도시된 발명 시스템은 종래 기술 시스템 또는 유사한 회로의 학습 모듈(55)과 같은 학습 모듈을 포함하지 않는다. 학습이 본 발명에 관련이 있는 적응에 독립적으로 수행되므로 이것은 본 발명에 따른 시스템에 한정하지 않는다. 물론, 적응/인식 모드 및 학습 모드 중간에서 전환하기 위해, 즉 도 1에 도시된 바와 같이, 인식 모듈(4) 또는 기억 장치(5)에 저장된 화자 독립 모듈들의 집합에 교대로 접근할 수 있는 도시되지 않은 학습 모듈 중 하나에 특징 벡터들을 이끌기 위해 특징 추출 모듈뒤에 제공된 스위치는 또한 제공된다.

도 1은 본 발명에 따른 반통제된 화자 적응에 사용된 자동 음성 인식 시스템의 일부를 도시한다. 그러므로, 마이크로폰(1)에 의해 발생된 아날로그 음성 신호는 특징 추출이, 예를 들어 매 10㎳로, 특징 벡터를 얻기 위해, 특징 추출 모듈(3)에 의해 수행되기 전에 A/D 변환 단계(2)에서 디지털 신호로 변환된다. 이 특징 벡터는 화자 독립 모델 집합이 저장된 기억 장치(5), 화자 적응된 모델 집합이 저장된 기억 장치(6), 및 화자 독립 모델 집합의 적응에 의해 화자 적응된 모델 집합을 발생하기 위한 적응 방법을 사용하는 적응 모듈(7)에, 예를 들어 MAP 또는 MLLR, 접근할 수 있는 인식 모듈(4)로 돌려진다. 그러므로, 적응 모듈(7)은 화자 적응된 모델 집합을 저장하기 위해 사용된 기억 장치(6)을 통해 기억 장치(5)에 저장된 화자 독립 모델 집합에 접근할 수 있다. 지금까지, 모든 모듈들 또는 기억 장치들은 종래 기술에 따른 음성 인식 시스템에서와 같이 같은 방법에 사용된다.

본 발명에 따라, 인식 모듈은 또한 상술한 바와 같이 한 음소, 몇개의 음소들, 한 단어, 몇개의 단어들 또는 전체 발음은 적응에 사용되는지 여부를 결정하기 위해 양쪽의 방법들을 수행하는 운율 추출 모듈(8) 및 해석 모듈(9)로 인식 모듈의 결과들을 분배한다. 또한, 인식 모듈의 결과들은 상술한 바와 같이 신뢰 측정을 계산하는 신뢰 측정 모듈(13)에 분배된다. 이 모듈들은 적응이 화자 적응된 모델 집합을 적응하기 위해 단일 음소(들), 단어, 몇개의 단어들 또는 전 발음(들)을 교대로 사용하는 적응 모듈(7)에 결과를 제공하기 위해 상기 음소(들) 단일 단어, 몇개의 단어들 또는 전 발음들로 수행되는지 여부를 결정하는 결정 유닛(11)으로 그 각각의 결과들을 보낸다. 결정 유닛(11)은 어떤 발음에, 즉 그의 가시적인 감정 상태, 예를 들어 그의 사칭자가 화를 내거나 또는 놀라는 경우, 또는 사용자가 전체에 무엇인가 말한 경우 또는 인식된 발음이 어떤 사람에 의해 말해지는 경우에 대응하는 사용자들의 가시적인 행동을 나타내는 비젼 모듈(12)의 출력을 또한 수신한다.

시스템이 화자 독립 모델들 또는 화자 적응된 모델들을 사용하는지의 결정은 인식 모듈(4)의, 즉 화자 적응된 모델 집합에 근거한 결과 및 화자 독립 모델 집합에 근거한 결과, 양쪽 결과를 수신하는 확인 모듈(10)에서 수행된다. 확인 모듈(10)의 결과는 운율 추출 모듈(8), 해석 모듈(9) 및 신뢰 측정 모듈(13)을 통과한 인식 및 결과들에 사용하기 위한 모델 집합을 결정하는 인식 모듈(4)에 제어 신호를 또한 통과하는 결정 모듈(11)에 영향을 끼친다.

발음 또는 발음의 일부가 적응에 사용되는지 결정하기 위해 임계값을 변화시키는 것은 별도로하고, 결정 모듈(11)의 입력 특징들은 적응될 수 있거나 또는 결정 모듈(11)의 파라미터들 또한 적응될 수 있다.

물론, 결정 유닛(11)은 적응 모듈(7)에서 수행되는 적응의 세기를 결정하기 위한 상기 한 음소, 몇개의 음소들, 한 단어, 몇개의 단어들 또는 전 발음(들)의 신뢰율을 또한 결정한다. 또한, 운율 추출 모듈(8), 해석 모듈(9), 확인 모듈(10) 및 신뢰 측정 모듈(13)내에 사용된 파라미터들은 상술한 바와 같이 동적으로 변할 수 있다. 결정 모듈(11)이 화자 독립 모델들에 즉시 전환하지 않지만 이 결정이 이루어지기 전에 얼마 이상의 발음들을 대기하는 것 또한 가능하다.

그러므로, 상술한 양호한 실시예에 따라, 결정 유닛(11)은 말한 발음 또는 그것의 일부들, 발음 또는 발음 중 일부들을 말할 때, 사용자의 운율에 대한 정보의 신뢰 측정(파라미터들 또는 특징들이 적응될 수 있는), 말한 발음의 문맥, 가시적인 사용자 행동의 해석 및 적응의 등급을 결정하기 위한 사용자의 확인에 근거하여 결정된 사용자 반응의 해석을 수신한다. 물론 본 발명은 이것에 한정되지 않고 또한 이런 결정은 이 정보의 부분 집합을 근거로 할 수 있다.

Claims

자동 음성 인식 시스템의 통제되지 않는 및/또는 온 라인 적응을 수행하기 위한 방법에 있어서,

수신된 발음 또는 발음 중 일부들에 의한 상기 시스템의 적응 등급은 상기 수신된 발음 또는 그것의 일부들의 인식 결과의 신뢰도의 등급에 근거하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 수신된 발음 또는 상기 수신된 발음 중 일부는 인식의 신뢰도의 등급이 임계값을 넘을 때 적응하기 위해 사용되고 상기 임계값 아래일 때 무시하는 것을 특징으로 하는 방법.
제 1 또는 2 항에 있어서,

상기 임계값이 고정되거나 또는 동적으로 변화할 수 있는 것을 특징으로 하는 방법.
제 1 내지 3 항 중 어느 한 항에 있어서,

상기 수신된 발음 또는 상기 수신된 발음 중 일부의 인식 결과의 신뢰도의 등급이 신뢰 측정들에 근거하여 측정되는 것을 특징으로 하는 방법.
제 4 항에 있어서,

상기 신뢰 측정들이 근거하는 파라미터들 및/또는 특징들은 적응적인 것을 특징으로 하는 방법.
제 4 또는 5 항에 있어서,

상기 신뢰 측정들이 각각의 수신된 발음 또는 상기 발음 중 일부에 대한 신뢰 점수에 근거하여 한 발음, 단어 또는 음소로 계산되는 것을 특징으로 하는 방법.
제 6 항에 있어서,

상기 신뢰 점수가 상기 수신된 발음 또는 상기 수신된 발음 중 일부의 인식 결과의 신뢰도의 상기 등급을 결정하는 것을 특징으로 하는 방법.
제 1 내지 7항 중 어느 한 항에 있어서,

상기 수신된 발음 또는 상기 수신된 발음 중 일부의 인식 결과의 신뢰도의 등급이 상기 발음 화자(speaker)의 반응(reaction)들에 근거하여 측정되는 것을 특징으로 하는 방법.
제 8 항에 있어서,

상기 반응들이 사용자 및/또는 사용자의 얼굴로부터 얻어진 화상 또는 비디오 시퀀스에 근거하여 가시적인 컴퓨테이션 시스템을 통해 결정되는 것을 특징으로 하는 방법.
제 8 또는 9 항에 있어서,

상기 신뢰 측정들이 상기 발음을 말하는 사람의 감정 상태에 의존하는 것을 특징으로 하는 방법.
제 8 내지 10 항 중 어느 한 항에 있어서,

상기 반응들은 상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 발음들 또는 발음들 중 일부들의 인식 및 해석에 의해 결정되는 것을 특징으로 하는 방법.
제 11 항에 있어서,

상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 상기 발음들 또는 발음들 중 일부들이 이전에 수신된 발음이 부정확하게 또는 정확하게 인식되어 나타나는 미리 정의된 키워드들로 검사되는 것을 특징으로 하는 방법.
제 10 내지 14 항 중 어느 한 항에 있어서,

상기 반응들은 상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 발음들 또는 발음들 중 일부들의 제 2 정보의 해석에 의해 결정되는 것을 특징으로 하는 방법.
제 13 항에 있어서,

상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 발음들 또는 발음들 중 일부들의 상기 제 2 정보는 상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 상기 발음들 또는 발음들 중 일부들의 억양 및/또는 운율이 있는 것을 특징으로 하는 방법.
수신된 발음 또는 그것의 일부들을 돕기 위한 시스템의 적응이 파라미터들의 집합을 반복적으로 적응함으로써 수행되는 자동 음성 인식 시스템의 통제되지 않는 또는 온 라인 적응을 수행하기 위한 방법에 있어서,

보다 이른 파라미터들의 적어도 한 집합이 시스템 급강하의 인식 성능의 경우에 일반적으로 사용된 파라미터들을 교환하기 위해 저장되는 것을 특징으로 하는 방법.
제 15 항에 있어서,

파라미터들의 처음 집합이 저장되는 것을 특징으로 하는 방법.
제 15 또는 16 항에 있어서,

시스템의 인식 성능이 저장된 보다 이른 파라미터들에 근거하고 가장 최근에 적응된 파라미터들에 근거하는 실제 인식 결과들을 비교함으로써 판단되는 것을 특징으로 하는 방법.
제 15 내지 17 항 중 어느 한 항에 있어서,

시스템의 인식 성능이 제 1 내지 17 항 중 어느 한 항에서 규정된 방법에 근거하여 판단되는 것을 특징으로 하는 방법.
제 1 내지 18 항 중 어느 한 항에 있어서,

시스템의 적응이 은닉 마코프 모델들의 적응을 사용하여 수행되는 것을 특징으로 하는 방법.
제 19 항에 있어서,

화자 종속 은닉 마코프 모델의 성능을 수행하게 화자 독립 은닉 마코프 모델을 적합화하는데 사용되는 것을 특징으로 하는 방법.
통제되지 않는 및/또는 온 라인 적응을 갖는 음성 인식 시스템에 있어서,

사용자가 말한 단어를 수신하고 아날로그 신호를 출력하기 위한 마이크로폰(1),

상기 아날로그 신호를 디지털 신호로 변환하기 위해 상기 마이크로폰(1)에 연결된 A/D 변환 단계(2),

상기 디지털 신호로부터 사용자의 상기 수신된 단어들의 특징 벡터들을 추출하기 위해 상기 A/D 변환 단계(2)에 연결된 특징 추출 모듈(3),

상기 특징 벡터들 및 화자 독립 및/또는 화자 적응된 모델들의 집합에 근거한 사용자의 상기 수신된 단어들을 인식하기 위해 상기 특징 추출 모듈(3)에 연결된 인식 모듈(4),

상기 화자 적응된 모델 집합을 발생하기 위해 및/또는 적응하기 위해 상기 인식 모듈(4)로부터 인식 결과를 수신하는 적응 모듈(7)을 포함하는 음성 인식 시스템으로,

화자 적응된 모델 집합의 발생 및/또는 적응을 위해 어떤 수신된 단어를 사용하는지 여부를 나타내는 상기 인식 모듈(4)에 연결되고 상기 적응 모듈(7)에 신호를 공급하는 결정 유닛(11)을 특징으로 하는 음성 인식 시스템.
제 21 항에 있어서,

상기 결정 유닛(11)으로부터 상기 적응 모듈(7)로 공급된 상기 신호는 상기 어떤 수신된 단어에 근거한 상기 적응 모듈(7)에 의해 화자 적응된 모델 집합의 적응의 세기를 나타내는 것을 특징으로 하는 음성 인식 시스템.
제 21 또는 22 항에 있어서,

상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 인식 모듈(4) 및 상기 결정 유닛(11)의 중간에 연결된 운율 추출 모듈(8)에 의해 발생된 제 1 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.
제 21 내지 23 항 중 어느 한 항에 있어서,

상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 인식 모듈(4) 및 상기 결정 유닛(11)의 중간에 연결된 해석 모듈(9)에 의해 발생된 제 2 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.
제 21 내지 24 항 중 어느 한 항에 있어서,

상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 인식 모듈(4) 및 상기 결정 유닛(11)의 중간에 연결된 확인 모듈(10)에 의해 발생된 제 3 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.
제 21 내지 24 항 중 어느 한 항에 있어서,

상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 인식 모듈(4) 및 상기 결정 유닛(11)의 중간에 연결된 신뢰 측정들 모듈(12)에 의해 발생된 제 4 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.
제 21 내지 24 항 중 어느 한 항에 있어서,

상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 결정 유닛(11)에 연결된 비젼 모듈(12)에 의해 발생된 제 5 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.