KR20000067829A - 반통제된 화자 적응 - Google Patents

반통제된 화자 적응 Download PDF

Info

Publication number
KR20000067829A
KR20000067829A KR1019990058674A KR19990058674A KR20000067829A KR 20000067829 A KR20000067829 A KR 20000067829A KR 1019990058674 A KR1019990058674 A KR 1019990058674A KR 19990058674 A KR19990058674 A KR 19990058674A KR 20000067829 A KR20000067829 A KR 20000067829A
Authority
KR
South Korea
Prior art keywords
adaptation
pronunciation
received
module
recognition
Prior art date
Application number
KR1019990058674A
Other languages
English (en)
Other versions
KR100697961B1 (ko
Inventor
고론치질케
콤페랄프
부호너페터
이와하시나오토
Original Assignee
소니 인터내셔널(유로파) 게엠베하
이데이 노부유끼
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 인터내셔널(유로파) 게엠베하, 이데이 노부유끼, 소니 가부시끼 가이샤 filed Critical 소니 인터내셔널(유로파) 게엠베하
Publication of KR20000067829A publication Critical patent/KR20000067829A/ko
Application granted granted Critical
Publication of KR100697961B1 publication Critical patent/KR100697961B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

통제되지 않은 또는 온 라인 자동 음성 인식 시스템들에서 잘못 인식된 단어들에 현재 적응하기 위해 신뢰 측정들이 사용되거나 또는 사용자 반응(reaction)은 하나의 인식된 음소, 몇개의 음소들, 한 단어, 몇개의 단어들 또는 전 발음이 화자(speaker) 적응된 모델 집합에서 화자 독립 모델 집합의 적응에 사용되는지 여부를 결정하기 위해 해석되며, 만약 적응이 실행되면, 이 인식된 발음 또는 이 인식된 발음 중 일부로 아주 강한 적응이 수행된다. 또한, 화자 적응 성능의 확인은 인식 속도가 감소(상당히)하지 않으나, 같은 레벨에서 단지 증가하거나 유지하는 것을 보장하기 위해 제안된다.

Description

반통제된 화자 적응{Semi-supervised speaker adaptation}
본 발명은 자동 음성 인식(ASR), 특히, 자동 음성 인식 시스템의 통제되지 않는 또는 온 라인 적응을 수행하기 위한 방법에 관한 것이고, 본 발명의 방법들을 실행할 수 있는 음성 인식 시스템에 관한 것이다.
기술 상태에서 음성 인식기들은 어떤 음성 분할들의 음향학적인 특성들을 통계 분포 모델링의 집합으로 구성한다. 이 음향학적인 특성들은 특징 벡터들로 부호화된다. 예를 들자면, 한 가우시안 분포는 각 음소로 생각할 수 있다. 이 분포들은 상태(state)들에 덧붙여진다. (확률적) 상태 천이 망(통상, 은닉 마코프 모델)은 상태들의 시퀀스들과 특징 벡터들의 시퀀스들에 대한 확률들을 규정한다. 한 상태 통과는 예를 들면 10㎳의 음성 신호인 한 프레임을 채우는 1개의 특징 벡터를 소모한다.
이런 인식기의 확률적 파라미터들은 화자 종속(SD) 시스템을 따르는 단일 화자 또는 화자 독립(SI) 시스템을 따르는 여러 화자 둘 중 하나로부터 대용량의 음성 데이터를 사용하여 학습된다.
화자 적응(SA)은 SI 시스템들의 인식 속도들을 증가시키기 위한 방법으로 광범위하게 사용된다. 기술 상태에서 화자 종속 시스템들은 화자 독립 시스템들보다 훨씬 높은 인식 속도들을 산출한다. 그러나, 여러 적용들에 대해, 시스템을 학습하기 위한 단일 화자로부터 충분한 데이터를 모으는 것은 불가능하다. 소비자 장치의 경우 이것은 더욱 원치 않는 것일 수도 있다. 인식 속도들에서 이 부정합을 극복하기 위해, 화자 적응 알고리즘들은 화자 종속 시스템들에 근접한 인식 속도를 달성하기 위해 광범위하게 사용되지만 화자 종속 시스템들과 비교하여 화자 종속 데이터의 일부분을 단지 사용할 뿐이다. 이 시스템들은 화자들 음향 상태를 더 좋게 정합하기 위해 적응된 후에 화자 독립 모델들을 처음에 취한다.
통상, 적응은 통제되어 실행된다. 즉, 말에 사용된 단어들은 알려져 있고 인식기는 그것들을 인식하게 된다. 이로써 분할 비 분포들의 시간 얼라인먼트가 달성된다. 분포들에 대응하는 실제 특징 벡터들과 파라미터들 사이의 부정합은 적응에 기반을 둔다. 통제된 적응은 그/그녀가 실제로 인식기를 사용할 수 있기전에 모든 새로운 화자가 처리되도록 적응 기간을 필요로한다.
도 5는 종래 기술에 따른 이런 전형적인 음성 인식 시스템의 블록도를 도시한다. 마이크로폰(51)으로 수신된 말에 사용된 발음들은 특징 추출이 예를 들어 10㎳마다 특징 벡터를 얻기 위해 수행되는 특징 추출 모듈(53)에 연결된 A/D 변환 단계(52)에서 디지털 신호로 변환된다. 이런 특징 벡터는 음성 인식 시스템의 학습중에 사용되거나 또는 학습 후에 처음에 화자 독립 모델들의 적응에 사용되고 말하는데 사용되는 발음들을 인식하기 위해 인식기를 사용하는 중에 사용된다.
학습에 대한, 특징 추출 모듈(53)은 스위치(54)의 콘택트들(a 및 c)을 통해 학습 모듈(55)에 연결된다. 은닉 마코프 모델들(HMMs)로 행해지는 전형적인 음성 인식 시스템의 학습 모듈(55)은 화자 독립(SI) HMMs의 집합을 얻는다. 통상적으로 이것은 여러 다른 화자들을 포함하는 대규모의 데이터 베이스를 사용하는 자동 음성 인식 장치의 제조에 의해 수행된다.
음성 인식 시스템이 SI 모델들의 집합을 로드한 후에, 스위치(54)의 콘택트들(a 및 b)은 특징 추출 모듈(53)에 의해 추출된 특징 벡터들이 시스템이 소비자에 의해 사용될 수 있고 그/그녀에 적응될 수 있도록 하기 위해 인식 모듈(57)로 보내지도록 연결된다. 그런 후 인식 모듈(57)은 추출된 특징 벡터들과 화자 독립 모델 집합에 근거한 인식 결과를 계산한다. 개별적인 화자에 적응하는 동안 인식 모듈(57)은 기억 장치(59)에 저장될 화자 적응된 모델 집합을 계산하는 적응 모듈(58)에 연결된다. 앞으로, 인식 모듈(57)은 추출된 특징 벡터와 화자 적응된 모듈 집합에 근거한 인식 결과를 계산한다. 화자 적응된 모델 집합의 또 다른 적응은 특정 화자들에 대한 시스템의 성능을 더 개선시키기 위해 반복적으로 수행될 수 있다. MAP(maximum a posteriori) 적응 또는 MLLR(maximum likelihood linear regression : 최대 유사도 선형 회귀) 적응과 같은, 화자 적응에 대해 몇가지의 현존하는 방법들이 존재한다.
통상, 화자 적응 기술들은 새로운 화자들의 음향 상태를 더 좋게 정합시키기 위해 은닉 마코프 모델들의 파라미터들을 수정한다. 상술한 바와 같이, 통상 이는 일괄 또는 오프 라인 적응에 행해진다. 이는 한 화자가 그/그녀가 인식하기 위해 시스템을 사용할 수 있기 전에 적응을 행하기 위해 처리된, 미리 규정된 텍스트를 판독해야 한다는 것을 의미한다. 이것이 끝나자마자 시스템은 인식하기 위해 사용될 수 있다. 텍스트가 시스템에 알려지고 텍스트에 대응하는 모델들과 일치하는 음성 신호의 강요된 얼라인먼트가 적응하기 위해 수행되고 사용되기 때문에, 이 모드는 또한 통제된 적응으로 불린다.
그러나, 통제되지 않은 또는 온 라인 방법은 다수의 소비자 장치에 아주 적합하다. 이 경우에, 적응은 시스템이 쓰이는 동안 사용된다. 인식된 발음은 적응하는데 사용되고 수정된 모델들은 다음 발음 기타 등등을 인지하기 위해 사용된다. 이 경우에 말에 사용된 텍스트는 시스템에 알려지지 않지만, 인식된 단어(들)이 대신 사용된다.
유럽 특허 제 EP 0 763 816 A2호는 HMM 학습에 대한 최적 기준들로 신뢰 측정들을 사용하는 것을 제안한다. 이 신뢰 측정들은 "정확 가능성" 또는 "부정확 가능성"으로 인식 결과를 분류하기 위해 사용된 부가적인 지식 원들이다. 여기서, 신뢰 측정들은 최대로 인식된 단어 열들(n)의 확인을 위해 사용되고 이 확인 절차의 결과, 즉 손실 기능의 파생어는, 모델들의 학습을 위한 최적 기준으로 사용된다. 이 경우에, 모든 발음들은 학습하기 위해 사용되고 방법은 혼동할 수 있는 단어들의 유사도내의 차를 최대화하기 위해 사용된다. 그러나, 이 문서는 이전의 시스템을 사용하여 학습하는 HMM에 관한 것이다.
반면에, 유럽 특허 제 EP 0 773 532 A2호는 미리 규정한 키워드 "웁스(oops)"를 말함으로써 오인을 정정하기 위한 방법을 공지하고 그 이후 사용자는 타이핑하므로써 또는 시스템이 에러 그 자체를 보정하게함으로써 잘못 인식된 단어들을 정정할 수도 있다. 임의의 경우에, (연속의) 단어(들)가 잘못 인식되었을 때 시스템은 음성 모델들을 단지 학습/적응한다.
본 발명은 통제되지 않은 또는 온 라인 적응을 사용하는 음성 인식 시스템들내의 화자 독립 은닉 마코프 모델들의 적응에 관한 것이다. 이 시스템들에서 HMMs는 각각 새로운 발음 다음에 또는 심지어 발음들 중 부분들 다음에 꾸준히 정제되어야 한다. 또, 시스템에서 나오는 단어들은 여러 번 반복되지 않으며 시스템에 잘 알려지지 않는다. 그러므로, 증가한 화자 적응만이 가능한데, 즉 아주 작은 적응 데이터만이 동시에 이용가능하고, 부가적으로 정확한 단어로 추측되는 인식 모듈의 출력때문에, 잘못 인식이 화자 독립 시스템의 성능에 따라 발생하는 문제점이 발생한다. 그 후에 이 단어들은 적응하기 위해 사용되는데 단어가 잘못 인식되면 적응 알고리즘은 틀린 방법으로 모델들을 수정할 것이다. 인식 성능은 이것이 반복적으로 발생하는 때에 급격하게 감소할 수도 있다.
그러므로, 종래의 기술과 관련하여 상술한 문제점들을 극복하는 통제되지 않는 적응에 대한 방법 및 장치를 제안하는 것이 본 발명의 근원적인 목적이다.
본 발명의 방법들은 독립 청구항들 1 및 17에서 규정되고 본 발명의 장치는 독립 청구항 23에서 규정된다. 그 후의 양호한 실시예들은 다음의 종속 청구항들에서 각각 규정된다.
본 발명에 따라서, 일종의 측정은 인식 결과가 얼마나 신뢰할 만한 것인가를 나타낸다. 그 후의 시스템의 적응은 상기 인식 결과의 신뢰도의 등급에 근거한다. 그러므로 본 발명에 따른 이 방법은 적응에 대한 어휘를 통제하는 사용자 또는 고정된 집합이 불필요하므로 반 통제된 화자 적응이라 불린다.
신뢰할 수 있는 인식의 경우 발음은 특정한 화자에 적응하기 위해 사용될 수 있지만, 신뢰할 수 없는 인식의 경우 발음은 모델들의 잘못된 변형을 피하기 위해 무시된다. 대안적으로, 신뢰도의 등급에 따라 가중치는 적응의 세기를 결정하도록 계산될 수 있다.
적응에 대한 발음을 사용할지 여부를 결정하는 발명 및 발명의 몇가지 방법들은 다음의 전형적인 실시예들의 상세한 설명으로 더 잘 이해될 것이며 그 후의 첨부된 도면들과 관련하여 설명될 것이다.
도 1은 본 발명의 한 실시예에 따라 음성 인식 시스템을 도시한 도면.
도 2는 신뢰 측정들이 사용되는 본 발명에 따라 제 1 적응 방법을 도시한 도면.
도 3은 대화 내력이 관찰되는 본 발명에 따라 제 2 적응 방법을 도시한 도면.
도 4는 본 발명에 따라 처음의 화자 독립 모델들로 전환하는 방법을 도시한 도면.
도 5는 종래 기술에 따라 전형적인 음성 인식 시스템을 도시한 도면.
도 2는 본 발명에 따른 제 1 적응 방법을 도시하는데 신뢰 측정들은 잘못 인식된 단어에 적응하는 것을 피하고 적응 등급을 결정하기 위해 사용된다. 이 방법은 스텝 S21에서 시작되는 순환 루프(loop)내에서 반복적으로 실행된다.
상기 제 1 스텝(S21)에서 사용자 발음의 인식은 종래 기술에 따른 음성 인식 시스템과 유사하게 수행된다. 다음 스텝(S22)에서 신뢰 측정은 스텝(S21)의 인식 결과에 적용된다. 이 스텝에서 신뢰 측정들은 신뢰할 수 있는 인식 결과가 어느 정도인가를 측정하는데 사용된다. 만약 신뢰 측정이 어떤 임계값보다 작다면 적응 절차가 다음 사용자 발음의 인식이 수행되는 스텝(S21)에서 다시 시작되므로 인식된 단어는 신뢰할 수 없는 것으로 간주되고 적응하기 위해 사용될 수 없게 된다. 반면에, 임계값을 넘는, 신뢰 측정에서, 적응 절차가 다음 사용자 발음을 인식하기 위해 스텝(S21)에서 다시 시작하기 전에 인식 결과는 신뢰할 수 있는 것으로 간주되고 스텝(S23)에서 적응하기 위해 사용된다.
본 발명에 따른 신뢰 측정을 계산하기 위해, 우선 1개 또는 몇개의 특징들은 인식 가정 및/또는 음성 신호로부터 추출된다. 그 후에 결정은 정확하게 또는 부정확하게 인식될 때 음소/단어/구가 분류될 수 있는지 여부를 이 특징들을 기반으로하게 된다. 이 결정은 어려운 결정은 아니지만, 수신된 발음의 정확성에 대한 일정한 확률이 계산된다. 예를 들어 결정은 입력으로 특징들을 얻고 몇개의 내부 파라미터들에 근거하여 신뢰 측정을 계산하는 신경망 또는 결정 트리들을 기반으로 한다.
신경망이 신뢰 측정을 계산하기 위해 사용될 때, 출력 즉, 신뢰 측정은 통상적으로 0과 1 사이의 값이고; 이 값이 1에 보다 근접할수록 적당한 음소/단어/구 또는 그것의 시퀀스들이 더 정확하게 인식된다. 그러므로, 0과 1 사이의 임계값은 규정되고 상기 임계값을 넘는 신뢰 측정들은 정확하게 인식 결과를 분류한다.
계산된 신뢰 측정에 근거한 특징들은 인식 결과로부터 추출되거나 인식 결과에 근거한 음성 신호로부터 직접 계산된다. 이런 특징들은 n개의 최대(n-best) 인식 가정, HMM 상태 기간들, 인식된 단어들에 기초하는 인식된 음소들의 기간, 또는 분할 확률들의 (상대적인)점수들로 예를 들 수 있다. 분할 확률들은 몇개의 프레임들을 포함하는 전체 음성 분할에 주어진 단어 가정내에 포함된 이 음소에 대한 확률을 결정하는 확률적 모델에 의해 계산된다.
그 이후에 신뢰 측정은 적응의 등급을 결정하기 위해 또한 직접 사용될 수 있다. 물론, 신뢰 측정의 가장 간단한 경우는 단지 1개의 특징만을, 예를 들어 인식동안 HMMs에 의해 제공된 점수, 추출하기 위한 것이며 단어가 임계값에 근거하여 정확하게 인식되는지 여부를 직접 결정하기 위한 것이다. 이 경우에, 적응 등급은 항상 일정하다.
고정된 임계값에 대안적으로, 신뢰 측정은 스텝(S23)에서 수행되는 적응의 세기를 결정하는 가중치를 계산하기 위해 사용될 수 있다.
또한, 결정이 적응 중에, 예를 들어 결정하기 위해 사용되는 임계값이 음성 신호의 유도된 특징들에 따라 적응될 수 있는 방법에 기초하여 다른 파라미터들을 변화하는 것이 가능하다.
HMM 모델들의 화자 적응 중에 문제점이 발생하는데, 이것은 신뢰 측정의 특징들에 영향을 끼치기 때문이다. 이것은 HMM 모델들의 이런 변화를 변하지 않도록 하기 위한 특징들의 정규화를 요구하거나 또는 신뢰 측정이 비교된 임계값 또는 신뢰 측정의 파라미터들 또는 특징들의 자동 온 라인 적응을 요구한다. 이 적응은 신뢰 측정의 정확성과 같은 기준을 최적화하는 형식적인 알고리즘에 근거한다. 후자는 비전, 해석 및 운율 모듈들에서 결정된 바와 같이 사용자 반응에 근거하여 평가될 수 있다.
게다가, 신뢰 측정은 전체 사용자 발음들뿐만 아니라 전 발음이 적응에 항상 거부되지 않도록 하기 위한 단어 양식 또는 음소 양식뿐만 아니라 단일 잘못 인식된 단어들 또는 잘못 인식된 음소들을 포함하는 단어들에 적용될 수 없다. 또한 또 다른 독단적인 길이의 음성 분할에 신뢰 측정들을 적용하는 것이 가능하다.
단어가 잘못 인식된 시스템에서 나타난 바와 같이, 신뢰 측정들에 의해 좌우되는 이런 적응은 사용자로부터 활성화할 필요가 없다. 그러므로, 모든 사용자 발음 또는 사용자에 의해 발음된 모든 단어가 이런 발음 또는 단어가 잘못 인식될 수 있고 적응 등급이 정확히 인식된 결과의 확률에 따른다는 사실과 관계없이 적응하기 위해 사용되므로, 이 방법은 종래 기술에 따른 시스템보다 자동 음성 인식 시스템내에 통제되지 않은 또는 온 라인 적응에 대해 상당히 좋은 인식 속도를 달성한다.
도 3은 대화 내력이 발음이나 단일 단어 또는 여러 단어들이 적응하는데 사용되는지 여부를 결정하기 위해 관찰되는 본 발명에 따른 제 2 적응 방법을 도시한다.
대화 시스템에서, 사용자의 반응은 인식된 단어가 정확한지 여부를 종종 나타낸다. 이런 사용자 반응을 판단하기 위한 방법은 도 3에 도시된다. 도 2에 도시된 방법과 유사한, 이 방법은 스텝(S31)에서 시작되는 순환 루프내에서 반복적으로 실행된다.
스텝(S31)에서 사용자 발음 수(i)의 인식은 종래의 기술에 따른 상기 시스템들과 유사하게 수행된다. 그 후에, 인식 결과는 사용자가 발음 수 i전에 발음된 그의 발음에 시스템들 반응을 만족하는지 여부를 판단할 스텝(S32)에서 해석을 한다. 예를 들자면 이런 발음 수 i-1은 "TV를 켜라"로 될 수 있고 몇가지 이유 때문에 시스템은 "라디오를 켜라"로 인식될 수 있고 따라서 라디오가 켜진다. 사용자가 이 실수를 깨달았을 때, 그/그녀의 다음 발음(즉, 발음 수 i)은 "아니야, 라디오가 아니라 TV야" 또는 "틀렸어. 난 TV라고 말했어"와 다소 유사하게 될 것이다. 이 경우에, 시스템은 이전에 인식된 발음이 잘못 인식되었던 것이고 적응는데 사용될 수 없다는 것을 발음 수 i에 근거하여 스텝 S32에서 해석될 것이다. 사용자 발음 수 i-1이 적응하기 위해 사용되는 스텝 S33은 이 경우에 생략되고 시스템이 활성화 또는 응답을 수행하는 스텝 S34는 스텝 S33 후에, 즉 스텝 S32 후에 직접 실행되지 않는다. 스텝 S34 내의 시스템의 활성화 또는 응답후에, i는 사용자의 다음 발음 수 i+1 이 스텝 S31 내에서 인식되기 전에 스텝 S35에서 증가된다.
발음의 어법 또는 해석 결과는 별도로하고 또한 사용자의 감정 상태, 즉 억양 및/또는 운율에 대한 정보는 사용자가 스텝 S32에서 만족하는지 여부를 참작할 수 있다. 억양 및/또는 운율을 사용하여 발음을 해석함으로써, 특정 키워드는 이전에 인식된 발음의 잘못 인식이 발생되는 것을 인식하기 위한 시스템을 필요로하지 않는다. 예를 들면, 그/그녀의 이전에 말한 발음이 잘못 인식된 후에, 사용자가 화난 상태로 시스템에 "TV를 켜라"라고 말한 경우, 시스템은 그/그녀가 그/그녀의 생각을 바꾸지 않았다고 해석할 수 있지만, 이전에 인식된 명령이 적응에 사용되지 않도록 하기 위해 잘못 인식된 것으로 해석할 수 있다.
또, 예를 들어 사칭자(mimic)와 같이, 사용자의 반응들을 해석할 수 있는 컴퓨터에 연결된 비디오 카메라와 같은, 가시적인 컴퓨테이션 시스템에 의해 관찰된 사용자 반응들은 예를 들면 사용자 및/또는 사용자의 얼굴로부터 받은 화상 또는 비디오 시퀀스에 근거하여, 인식된 발음을 확인하기 위해 사용될 수 있다.
이 경우에 배경 목소리들 또는 잡음을 기반으로한 몇개의 단어들로 인식된 인식기라 하더라도 사칭자가 화내거나 또는 놀래는 경우 또는 사용자의 입술이 닫혀있는 경우는 결정될 수 있다.
그 사용자 반응들의 조합 또는 단지 반응 하나에 따라 그리고 세기에 따라, 적응의 등급은 결정될 수 있다. 신뢰 측정의 경우에서와 마찬가지로, 적응의 등급이 일정하도록 하기 위해 임계값을 설정하고 그래서 어려운 결정을 규정하는 것이 또한 가능하다.
도 4는 적응된 모델들의 성능이 아주 나쁜 경우, 시스템이 처음의 SI 모델들로 전환되는, 본 발명에 따른 방법을 도시한다.
이 경우에, 인식 성능이 떨어질 수도 있으므로 시스템은 잘못 인식된 단어들을 사용하여 (반복적으로)적응이 되거나, 또는 새로운 화자가 시스템을 사용하는 상황을 인식한다. 그러므로, 시스템은 원래의 화자 독립 모델들로 전환될 것이다. 도 2 및 3에서 도시된 방법들과 유사하게 이 방법은 병렬로 실행되는 스텝들(S41 및 S43)에서 시작하는 순환 루프내에서 반복적으로 실행된다.
그러므로, 스텝(S43)에서 같은 사용자 발음의 인식이 처음의 화자 독립 모델들을 사용하여 수행되는 동안, 상기 스텝(S41)에서 사용자 발음의 인식은 적응된 모델들을 사용하여 수행된다. 양쪽 인식 결과들로 신뢰 측정은 각각의 스텝들(S42 및 S44)에 적용될 수도 있다. 다음의 스텝(S45)에서 양쪽의 결과들은, 예를 들어 신뢰 측정들, 스텝 S46에서 처음의 화자 독립 모델들에 따라 적응을 개재할지 또는 스텝 S47에서 적응된 모델들을 또 사용하고 적응할지, 스텝들(41 및 43)에서 수행된 병렬 인식이 다음 사용자 발음으로 수행되기 전에 결정하기 위해 비교된다.
이 방법은 상기 양쪽의 인식 결과들을 비교하기 위해 신뢰 측정들에 사용하는 것에 한정되지 않는다. 시스템이 다른 사용자 반응들을, 예를 들어 각각의 발음 또는 억양 및/또는 운율에 대한 전 및/또는 후의 어떤 시간에서의 그/그녀의 행동에서 사용하는 것이 또한 가능하다. 또한 시스템은 모델들이 사용되거나, 인식 결과들이 정확한 것인지 결정하기 위해 사용자를 요구하고 그런 후 또 다른 인식/적응에 대한 각각의 모델 집합을 사용한다고 생각할 수 있다.
그러므로, 원시 모델들을 유지하고 적응된 모델들의, 예를 들어 적응 스텝들의 어떤 수 다음에 또는 음성 정지에서 성능을 비교함으로써, 처음의 모델들은 시스템에 의해 또한 사용되고 적응은 적응된 모델들이 처음의 모델들과 마찬가지로 수행되지 않는다는 것을 나타내는 화자 독립 모델들 및/또는 신뢰 측정들을 사용하여 인식 결과의 경우에 개재된다. 그래서, 인식 속도는 감소(상당히)하지 않으며, 같은 레벨에서 증가하거나 또는 유지하는 것을 보장될 수 있다. 이 방법을 수행함으로써 사용자의 기대는 사용자가 마치 인간처럼 말하는 방식으로 사용하기 위한 자동 음성 인식 시스템을 기대함으로 틀림없이 만족된다.
화자 적응된 모델들은 인식 속도가 결코 감소(상당히)하지 않는다는 것을 보장하기 위해 화자 독립 모델들과 비교될뿐만 아니라 최고의 인식 성능을 갖는 것들을 선택하기 위해 보다 오래된 화자 적응된 모델들에 가장 최근의 화자 적응된 모델들을 비교하고 그들에 근거하여 적응을 계속한다.
물론, 상술된 본 발명에 따른 4개의 모든 방법들 또는 그들의 부분 집합은 통제되지 않거나 온 라인 적응 모드에서 잘못 인식된 단어들 또는 문장들을 위해 본 적응에 조합될 수 있다. 이 방법들에서는 적응이 인식된 단어들이나 인식된 발음으로 행해지는지 여부가 제어된다. 부가적으로 인식 속도가 결코 감소(상당히)하지 않는다는 것이 보장된다. 상술한 바와 같이, 제안된 알고리즘들은 적응 방법들 그 자체들로부터, 즉 그들이 임의의 화자 적응 알고리즘과 조합될 수 있는 것으로부터, 독립적이다.
통제되지 않거나 온 라인 화자 적응에 대한 하나 또는 몇개의 발명 방법들 중 하나를 사용하는 본 발명에 따른 인식 시스템의 전형적인 실시예는 도 1에 도시된다.
도 5에 도시된 종래 기술에 따른 음성 인식 시스템과 대조하여 도 1에 도시된 발명 시스템은 종래 기술 시스템 또는 유사한 회로의 학습 모듈(55)과 같은 학습 모듈을 포함하지 않는다. 학습이 본 발명에 관련이 있는 적응에 독립적으로 수행되므로 이것은 본 발명에 따른 시스템에 한정하지 않는다. 물론, 적응/인식 모드 및 학습 모드 중간에서 전환하기 위해, 즉 도 1에 도시된 바와 같이, 인식 모듈(4) 또는 기억 장치(5)에 저장된 화자 독립 모듈들의 집합에 교대로 접근할 수 있는 도시되지 않은 학습 모듈 중 하나에 특징 벡터들을 이끌기 위해 특징 추출 모듈뒤에 제공된 스위치는 또한 제공된다.
도 1은 본 발명에 따른 반통제된 화자 적응에 사용된 자동 음성 인식 시스템의 일부를 도시한다. 그러므로, 마이크로폰(1)에 의해 발생된 아날로그 음성 신호는 특징 추출이, 예를 들어 매 10㎳로, 특징 벡터를 얻기 위해, 특징 추출 모듈(3)에 의해 수행되기 전에 A/D 변환 단계(2)에서 디지털 신호로 변환된다. 이 특징 벡터는 화자 독립 모델 집합이 저장된 기억 장치(5), 화자 적응된 모델 집합이 저장된 기억 장치(6), 및 화자 독립 모델 집합의 적응에 의해 화자 적응된 모델 집합을 발생하기 위한 적응 방법을 사용하는 적응 모듈(7)에, 예를 들어 MAP 또는 MLLR, 접근할 수 있는 인식 모듈(4)로 돌려진다. 그러므로, 적응 모듈(7)은 화자 적응된 모델 집합을 저장하기 위해 사용된 기억 장치(6)을 통해 기억 장치(5)에 저장된 화자 독립 모델 집합에 접근할 수 있다. 지금까지, 모든 모듈들 또는 기억 장치들은 종래 기술에 따른 음성 인식 시스템에서와 같이 같은 방법에 사용된다.
본 발명에 따라, 인식 모듈은 또한 상술한 바와 같이 한 음소, 몇개의 음소들, 한 단어, 몇개의 단어들 또는 전체 발음은 적응에 사용되는지 여부를 결정하기 위해 양쪽의 방법들을 수행하는 운율 추출 모듈(8) 및 해석 모듈(9)로 인식 모듈의 결과들을 분배한다. 또한, 인식 모듈의 결과들은 상술한 바와 같이 신뢰 측정을 계산하는 신뢰 측정 모듈(13)에 분배된다. 이 모듈들은 적응이 화자 적응된 모델 집합을 적응하기 위해 단일 음소(들), 단어, 몇개의 단어들 또는 전 발음(들)을 교대로 사용하는 적응 모듈(7)에 결과를 제공하기 위해 상기 음소(들) 단일 단어, 몇개의 단어들 또는 전 발음들로 수행되는지 여부를 결정하는 결정 유닛(11)으로 그 각각의 결과들을 보낸다. 결정 유닛(11)은 어떤 발음에, 즉 그의 가시적인 감정 상태, 예를 들어 그의 사칭자가 화를 내거나 또는 놀라는 경우, 또는 사용자가 전체에 무엇인가 말한 경우 또는 인식된 발음이 어떤 사람에 의해 말해지는 경우에 대응하는 사용자들의 가시적인 행동을 나타내는 비젼 모듈(12)의 출력을 또한 수신한다.
시스템이 화자 독립 모델들 또는 화자 적응된 모델들을 사용하는지의 결정은 인식 모듈(4)의, 즉 화자 적응된 모델 집합에 근거한 결과 및 화자 독립 모델 집합에 근거한 결과, 양쪽 결과를 수신하는 확인 모듈(10)에서 수행된다. 확인 모듈(10)의 결과는 운율 추출 모듈(8), 해석 모듈(9) 및 신뢰 측정 모듈(13)을 통과한 인식 및 결과들에 사용하기 위한 모델 집합을 결정하는 인식 모듈(4)에 제어 신호를 또한 통과하는 결정 모듈(11)에 영향을 끼친다.
발음 또는 발음의 일부가 적응에 사용되는지 결정하기 위해 임계값을 변화시키는 것은 별도로하고, 결정 모듈(11)의 입력 특징들은 적응될 수 있거나 또는 결정 모듈(11)의 파라미터들 또한 적응될 수 있다.
물론, 결정 유닛(11)은 적응 모듈(7)에서 수행되는 적응의 세기를 결정하기 위한 상기 한 음소, 몇개의 음소들, 한 단어, 몇개의 단어들 또는 전 발음(들)의 신뢰율을 또한 결정한다. 또한, 운율 추출 모듈(8), 해석 모듈(9), 확인 모듈(10) 및 신뢰 측정 모듈(13)내에 사용된 파라미터들은 상술한 바와 같이 동적으로 변할 수 있다. 결정 모듈(11)이 화자 독립 모델들에 즉시 전환하지 않지만 이 결정이 이루어지기 전에 얼마 이상의 발음들을 대기하는 것 또한 가능하다.
그러므로, 상술한 양호한 실시예에 따라, 결정 유닛(11)은 말한 발음 또는 그것의 일부들, 발음 또는 발음 중 일부들을 말할 때, 사용자의 운율에 대한 정보의 신뢰 측정(파라미터들 또는 특징들이 적응될 수 있는), 말한 발음의 문맥, 가시적인 사용자 행동의 해석 및 적응의 등급을 결정하기 위한 사용자의 확인에 근거하여 결정된 사용자 반응의 해석을 수신한다. 물론 본 발명은 이것에 한정되지 않고 또한 이런 결정은 이 정보의 부분 집합을 근거로 할 수 있다.

Claims (27)

  1. 자동 음성 인식 시스템의 통제되지 않는 및/또는 온 라인 적응을 수행하기 위한 방법에 있어서,
    수신된 발음 또는 발음 중 일부들에 의한 상기 시스템의 적응 등급은 상기 수신된 발음 또는 그것의 일부들의 인식 결과의 신뢰도의 등급에 근거하는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서,
    상기 수신된 발음 또는 상기 수신된 발음 중 일부는 인식의 신뢰도의 등급이 임계값을 넘을 때 적응하기 위해 사용되고 상기 임계값 아래일 때 무시하는 것을 특징으로 하는 방법.
  3. 제 1 또는 2 항에 있어서,
    상기 임계값이 고정되거나 또는 동적으로 변화할 수 있는 것을 특징으로 하는 방법.
  4. 제 1 내지 3 항 중 어느 한 항에 있어서,
    상기 수신된 발음 또는 상기 수신된 발음 중 일부의 인식 결과의 신뢰도의 등급이 신뢰 측정들에 근거하여 측정되는 것을 특징으로 하는 방법.
  5. 제 4 항에 있어서,
    상기 신뢰 측정들이 근거하는 파라미터들 및/또는 특징들은 적응적인 것을 특징으로 하는 방법.
  6. 제 4 또는 5 항에 있어서,
    상기 신뢰 측정들이 각각의 수신된 발음 또는 상기 발음 중 일부에 대한 신뢰 점수에 근거하여 한 발음, 단어 또는 음소로 계산되는 것을 특징으로 하는 방법.
  7. 제 6 항에 있어서,
    상기 신뢰 점수가 상기 수신된 발음 또는 상기 수신된 발음 중 일부의 인식 결과의 신뢰도의 상기 등급을 결정하는 것을 특징으로 하는 방법.
  8. 제 1 내지 7항 중 어느 한 항에 있어서,
    상기 수신된 발음 또는 상기 수신된 발음 중 일부의 인식 결과의 신뢰도의 등급이 상기 발음 화자(speaker)의 반응(reaction)들에 근거하여 측정되는 것을 특징으로 하는 방법.
  9. 제 8 항에 있어서,
    상기 반응들이 사용자 및/또는 사용자의 얼굴로부터 얻어진 화상 또는 비디오 시퀀스에 근거하여 가시적인 컴퓨테이션 시스템을 통해 결정되는 것을 특징으로 하는 방법.
  10. 제 8 또는 9 항에 있어서,
    상기 신뢰 측정들이 상기 발음을 말하는 사람의 감정 상태에 의존하는 것을 특징으로 하는 방법.
  11. 제 8 내지 10 항 중 어느 한 항에 있어서,
    상기 반응들은 상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 발음들 또는 발음들 중 일부들의 인식 및 해석에 의해 결정되는 것을 특징으로 하는 방법.
  12. 제 11 항에 있어서,
    상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 상기 발음들 또는 발음들 중 일부들이 이전에 수신된 발음이 부정확하게 또는 정확하게 인식되어 나타나는 미리 정의된 키워드들로 검사되는 것을 특징으로 하는 방법.
  13. 제 10 내지 14 항 중 어느 한 항에 있어서,
    상기 반응들은 상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 발음들 또는 발음들 중 일부들의 제 2 정보의 해석에 의해 결정되는 것을 특징으로 하는 방법.
  14. 제 13 항에 있어서,
    상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 발음들 또는 발음들 중 일부들의 상기 제 2 정보는 상기 수신된 발음 또는 상기 수신된 발음 중 일부들 다음에 수신된 상기 발음들 또는 발음들 중 일부들의 억양 및/또는 운율이 있는 것을 특징으로 하는 방법.
  15. 수신된 발음 또는 그것의 일부들을 돕기 위한 시스템의 적응이 파라미터들의 집합을 반복적으로 적응함으로써 수행되는 자동 음성 인식 시스템의 통제되지 않는 또는 온 라인 적응을 수행하기 위한 방법에 있어서,
    보다 이른 파라미터들의 적어도 한 집합이 시스템 급강하의 인식 성능의 경우에 일반적으로 사용된 파라미터들을 교환하기 위해 저장되는 것을 특징으로 하는 방법.
  16. 제 15 항에 있어서,
    파라미터들의 처음 집합이 저장되는 것을 특징으로 하는 방법.
  17. 제 15 또는 16 항에 있어서,
    시스템의 인식 성능이 저장된 보다 이른 파라미터들에 근거하고 가장 최근에 적응된 파라미터들에 근거하는 실제 인식 결과들을 비교함으로써 판단되는 것을 특징으로 하는 방법.
  18. 제 15 내지 17 항 중 어느 한 항에 있어서,
    시스템의 인식 성능이 제 1 내지 17 항 중 어느 한 항에서 규정된 방법에 근거하여 판단되는 것을 특징으로 하는 방법.
  19. 제 1 내지 18 항 중 어느 한 항에 있어서,
    시스템의 적응이 은닉 마코프 모델들의 적응을 사용하여 수행되는 것을 특징으로 하는 방법.
  20. 제 19 항에 있어서,
    화자 종속 은닉 마코프 모델의 성능을 수행하게 화자 독립 은닉 마코프 모델을 적합화하는데 사용되는 것을 특징으로 하는 방법.
  21. 통제되지 않는 및/또는 온 라인 적응을 갖는 음성 인식 시스템에 있어서,
    사용자가 말한 단어를 수신하고 아날로그 신호를 출력하기 위한 마이크로폰(1),
    상기 아날로그 신호를 디지털 신호로 변환하기 위해 상기 마이크로폰(1)에 연결된 A/D 변환 단계(2),
    상기 디지털 신호로부터 사용자의 상기 수신된 단어들의 특징 벡터들을 추출하기 위해 상기 A/D 변환 단계(2)에 연결된 특징 추출 모듈(3),
    상기 특징 벡터들 및 화자 독립 및/또는 화자 적응된 모델들의 집합에 근거한 사용자의 상기 수신된 단어들을 인식하기 위해 상기 특징 추출 모듈(3)에 연결된 인식 모듈(4),
    상기 화자 적응된 모델 집합을 발생하기 위해 및/또는 적응하기 위해 상기 인식 모듈(4)로부터 인식 결과를 수신하는 적응 모듈(7)을 포함하는 음성 인식 시스템으로,
    화자 적응된 모델 집합의 발생 및/또는 적응을 위해 어떤 수신된 단어를 사용하는지 여부를 나타내는 상기 인식 모듈(4)에 연결되고 상기 적응 모듈(7)에 신호를 공급하는 결정 유닛(11)을 특징으로 하는 음성 인식 시스템.
  22. 제 21 항에 있어서,
    상기 결정 유닛(11)으로부터 상기 적응 모듈(7)로 공급된 상기 신호는 상기 어떤 수신된 단어에 근거한 상기 적응 모듈(7)에 의해 화자 적응된 모델 집합의 적응의 세기를 나타내는 것을 특징으로 하는 음성 인식 시스템.
  23. 제 21 또는 22 항에 있어서,
    상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 인식 모듈(4) 및 상기 결정 유닛(11)의 중간에 연결된 운율 추출 모듈(8)에 의해 발생된 제 1 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.
  24. 제 21 내지 23 항 중 어느 한 항에 있어서,
    상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 인식 모듈(4) 및 상기 결정 유닛(11)의 중간에 연결된 해석 모듈(9)에 의해 발생된 제 2 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.
  25. 제 21 내지 24 항 중 어느 한 항에 있어서,
    상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 인식 모듈(4) 및 상기 결정 유닛(11)의 중간에 연결된 확인 모듈(10)에 의해 발생된 제 3 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.
  26. 제 21 내지 24 항 중 어느 한 항에 있어서,
    상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 인식 모듈(4) 및 상기 결정 유닛(11)의 중간에 연결된 신뢰 측정들 모듈(12)에 의해 발생된 제 4 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.
  27. 제 21 내지 24 항 중 어느 한 항에 있어서,
    상기 결정 유닛(11)으로부터 상기 적응 모듈(7)에 공급된 상기 신호는 상기 결정 유닛(11)에 연결된 비젼 모듈(12)에 의해 발생된 제 5 제어 신호에 근거하여 야기되는 것을 특징으로 하는 음성 인식 시스템.
KR1019990058674A 1998-12-17 1999-12-17 반-지시된 화자 적응 KR100697961B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP98124024A EP1011094B1 (en) 1998-12-17 1998-12-17 Semi-supervised speaker adaption
EP98124024.5 1998-12-17

Publications (2)

Publication Number Publication Date
KR20000067829A true KR20000067829A (ko) 2000-11-25
KR100697961B1 KR100697961B1 (ko) 2007-03-23

Family

ID=8233165

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990058674A KR100697961B1 (ko) 1998-12-17 1999-12-17 반-지시된 화자 적응

Country Status (6)

Country Link
US (1) US6799162B1 (ko)
EP (2) EP1426923B1 (ko)
JP (1) JP2000181482A (ko)
KR (1) KR100697961B1 (ko)
CN (1) CN1248192C (ko)
DE (2) DE69829187T2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100811568B1 (ko) * 2004-10-01 2008-03-10 에이티 앤드 티 코포레이션 대화형 음성 응답 시스템들에 의해 스피치 이해를 방지하기 위한 방법 및 장치
KR100933107B1 (ko) * 2001-03-28 2009-12-21 콸콤 인코포레이티드 함축적인 화자 적응을 사용하는 음성 인식 시스템
KR20160059265A (ko) * 2014-11-18 2016-05-26 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US7580836B1 (en) * 2000-06-15 2009-08-25 Intel Corporation Speaker adaptation using weighted feedback
ATE239966T1 (de) * 2000-11-07 2003-05-15 Ericsson Telefon Ab L M Anwendung von referenzdaten für spracherkennung
GB2375211A (en) * 2001-05-02 2002-11-06 Vox Generation Ltd Adaptive learning in speech recognition
DE10122828A1 (de) * 2001-05-11 2002-11-14 Philips Corp Intellectual Pty Verfahren zum Training oder zur Adaption eines Spracherkenners
KR100762588B1 (ko) * 2001-06-26 2007-10-01 엘지전자 주식회사 화자적응과 오입력 거절을 결합한 음성인식 방법
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7031918B2 (en) * 2002-03-20 2006-04-18 Microsoft Corporation Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora
US20030212761A1 (en) * 2002-05-10 2003-11-13 Microsoft Corporation Process kernel
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
US7340396B2 (en) * 2003-02-18 2008-03-04 Motorola, Inc. Method and apparatus for providing a speaker adapted speech recognition model set
US7835910B1 (en) * 2003-05-29 2010-11-16 At&T Intellectual Property Ii, L.P. Exploiting unlabeled utterances for spoken language understanding
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US8874438B2 (en) 2004-03-12 2014-10-28 Siemens Aktiengesellschaft User and vocabulary-adaptive determination of confidence and rejecting thresholds
US7818175B2 (en) * 2004-07-30 2010-10-19 Dictaphone Corporation System and method for report level confidence
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
CN100458913C (zh) * 2005-01-24 2009-02-04 乐金电子(惠州)有限公司 语音识别***的发音验证方法
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung
KR100679044B1 (ko) 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US7707131B2 (en) 2005-03-08 2010-04-27 Microsoft Corporation Thompson strategy based online reinforcement learning system for action selection
US7885817B2 (en) * 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
US7734471B2 (en) * 2005-03-08 2010-06-08 Microsoft Corporation Online learning for dialog systems
US20060206333A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Speaker-dependent dialog adaptation
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
WO2007105409A1 (ja) * 2006-02-27 2007-09-20 Nec Corporation 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP4594885B2 (ja) * 2006-03-15 2010-12-08 日本電信電話株式会社 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP5426363B2 (ja) * 2006-04-03 2014-02-26 ヴォコレクト・インコーポレーテッド 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
US7788205B2 (en) * 2006-05-12 2010-08-31 International Business Machines Corporation Using stochastic models to diagnose and predict complex system problems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
US8386254B2 (en) * 2007-05-04 2013-02-26 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US8612364B2 (en) * 2009-10-29 2013-12-17 Xerox Corporation Method for categorizing linked documents by co-trained label expansion
US9218807B2 (en) * 2010-01-08 2015-12-22 Nuance Communications, Inc. Calibration of a speech recognition engine using validated text
JP5633042B2 (ja) * 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
TWI466101B (zh) * 2012-05-18 2014-12-21 Asustek Comp Inc 語音識別方法及系統
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN103578468B (zh) * 2012-08-01 2017-06-27 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP5852550B2 (ja) * 2012-11-06 2016-02-03 日本電信電話株式会社 音響モデル生成装置とその方法とプログラム
KR20140082157A (ko) * 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
CN104143330A (zh) * 2013-05-07 2014-11-12 佳能株式会社 语音识别方法和语音识别***
WO2014197336A1 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9589560B1 (en) * 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10269342B2 (en) 2014-10-29 2019-04-23 Hand Held Products, Inc. Method and system for recognizing speech using wildcards in an expected response
US9984685B2 (en) * 2014-11-07 2018-05-29 Hand Held Products, Inc. Concatenated expected responses for speech recognition using expected response boundaries to determine corresponding hypothesis boundaries
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
JP6824795B2 (ja) * 2017-03-17 2021-02-03 ヤフー株式会社 修正装置、修正方法および修正プログラム
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110517679B (zh) * 2018-11-15 2022-03-08 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质
KR20210144384A (ko) 2020-05-22 2021-11-30 송문선 산화와 환원에 의한 질소산화물과 배가스 처리 시스템
JP7395446B2 (ja) * 2020-09-08 2023-12-11 株式会社東芝 音声認識装置、方法およびプログラム
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk ***画像入力による音声認識方法
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
US5040213A (en) * 1989-01-27 1991-08-13 Ricoh Company, Ltd. Method of renewing reference pattern stored in dictionary
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
US5983179A (en) * 1992-11-13 1999-11-09 Dragon Systems, Inc. Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation
US5559926A (en) * 1993-12-22 1996-09-24 Lucent Technologies Inc. Speech recognition training using bio-signals
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
JPH08202388A (ja) * 1995-01-24 1996-08-09 Omron Corp 音声認識装置及び音声認識方法
US5842168A (en) * 1995-08-21 1998-11-24 Seiko Epson Corporation Cartridge-based, interactive speech recognition device with response-creation capability
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US5794189A (en) 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
DE19708184A1 (de) 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100933107B1 (ko) * 2001-03-28 2009-12-21 콸콤 인코포레이티드 함축적인 화자 적응을 사용하는 음성 인식 시스템
KR100933108B1 (ko) * 2001-03-28 2009-12-21 콸콤 인코포레이티드 함축적인 화자 적응을 사용하는 음성 인식 시스템
KR100933109B1 (ko) * 2001-03-28 2009-12-21 콸콤 인코포레이티드 함축적인 화자 적응을 사용하는 음성 인식 시스템
KR101031660B1 (ko) * 2001-03-28 2011-04-29 콸콤 인코포레이티드 함축적인 화자 적응을 사용하는 음성 인식 시스템
KR101031744B1 (ko) * 2001-03-28 2011-04-29 콸콤 인코포레이티드 함축적인 화자 적응을 사용하는 음성 인식 시스템
KR101031717B1 (ko) * 2001-03-28 2011-04-29 콸콤 인코포레이티드 함축적인 화자 적응을 사용하는 음성 인식 시스템
KR100811568B1 (ko) * 2004-10-01 2008-03-10 에이티 앤드 티 코포레이션 대화형 음성 응답 시스템들에 의해 스피치 이해를 방지하기 위한 방법 및 장치
KR20160059265A (ko) * 2014-11-18 2016-05-26 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치

Also Published As

Publication number Publication date
KR100697961B1 (ko) 2007-03-23
DE69829187T2 (de) 2005-12-29
DE69829187D1 (de) 2005-04-07
DE69833987D1 (de) 2006-05-18
CN1248192C (zh) 2006-03-29
US6799162B1 (en) 2004-09-28
DE69833987T2 (de) 2006-11-16
EP1426923B1 (en) 2006-03-29
JP2000181482A (ja) 2000-06-30
EP1011094B1 (en) 2005-03-02
EP1426923A1 (en) 2004-06-09
CN1264888A (zh) 2000-08-30
EP1011094A1 (en) 2000-06-21

Similar Documents

Publication Publication Date Title
KR100697961B1 (ko) 반-지시된 화자 적응
US11514901B2 (en) Anchored speech detection and speech recognition
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US6594630B1 (en) Voice-activated control for electrical device
US9153231B1 (en) Adaptive neural network speech recognition models
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
US20090119103A1 (en) Speaker recognition system
EP1022725B1 (en) Selection of acoustic models using speaker verification
EP1269464A2 (en) Discriminatively trained mixture models in continuous speech recognition
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
WO2005096271A1 (ja) 音声認識装置及び音声認識方法
US11282495B2 (en) Speech processing using embedding data
JPH10254475A (ja) 音声認識方法
Rose Word spotting from continuous speech utterances
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
KR100940641B1 (ko) 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
EP1022724B1 (en) Speaker adaptation for confusable words
JP3039399B2 (ja) 非母国語音声認識装置
US20030187645A1 (en) Automatic detection of change in speaker in speaker adaptive speech recognition system
KR20060064493A (ko) 음성 인터페이스 시스템 및 방법
Grangier et al. Learning the inter-frame distance for discriminative template-based keyword detection
BenZeghiba Joint speech and speaker recognition
JP3105708B2 (ja) 音声認識装置
Bourlard Pronunciation models and their evaluation using conFidence measures
Shu An Investigation on Adaptation for Speech Recognition on Edinburgh Recording Data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120305

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130308

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee