KR20040068023A - 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법 - Google Patents

은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법 Download PDF

Info

Publication number
KR20040068023A
KR20040068023A KR1020040004435A KR20040004435A KR20040068023A KR 20040068023 A KR20040068023 A KR 20040068023A KR 1020040004435 A KR1020040004435 A KR 1020040004435A KR 20040004435 A KR20040004435 A KR 20040004435A KR 20040068023 A KR20040068023 A KR 20040068023A
Authority
KR
South Korea
Prior art keywords
state
determining
generation
value
computer readable
Prior art date
Application number
KR1020040004435A
Other languages
English (en)
Inventor
덩리
찌엔-라이 쩌우
프랭크토스텐베른트 사이데
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20040068023A publication Critical patent/KR20040068023A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

음성 인식 방법은 되풀이(recursion)를 이용하여 2개의 선행 프레임과 관련된 생성-관련값에 기초하는 특정한 프레임에서 스테이트에 대하여, 생성-관련값, 특정한 성도 공진 주파수를 결정하는 방법을 제공한다. 생성-관련값은 스테이트에 대한 관측된 특성 벡터의 확률 분포를 결정하는데 이용된다. 프레임에 대하여 수신된 관측값에 대한 확률은 확률 분포로부터 결정된다. 일 실시예에서, 생성-관련값은 값에 대한 노이즈-프리 되풀이 정의(recursive definition)를 이용하여 결정된다. 이 되풀이의 이용은 실질적으로 디코딩 속도를 향상시킨다. 디코딩 알고리즘이 공지된 발성 표기(phonetic transcript)로 데이터를 트레이닝하는데 적용될 경우에, 선행 기술에서 얻어진 음성 분절을 향상시키는, 강제된 알고리즘이 생성된다.

Description

은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법{METHOD OF SPEECH RECOGNITION USING HIDDEN TRAJECTORY HIDDEN MARKOV MODELS}
본 발명은 패턴 인식에 관한 것이다. 보다 상세하게는, 본 발명은 음성 인식(speech recognition)에 관한 것이다.
음성 인식 시스템 등의 패턴 인식 시스템은 입력 신호를 취하고 그 신호를 디코딩하여 그 신호에 의해 표현되는 패턴을 찾으려고 시도하는 것이다. 예를 들어, 음성 인식 시스템에서, 음성 신호(speech signal)(흔히, 테스트 신호라 함)는 인식 시스템에 의해 수신되고 그 음성 신호에 의해 표현되는 워드 스트링을 식별하도록 디코딩된다.
대부분의 음성 인식 시스템은, 어쿠스틱(acoustic) 유닛 또는 음성 유닛(speech unit)이라고도 칭하는 발성 표기 유닛(phonetic unit)이 단일층의 연결 스테이트(state)로 표현되는 은닉 마르코프 모델(Hidden Markov Model)을 이용한다. 트레이닝 신호를 이용하여, 상기 스테이트를 점유하고 스테이트 간을 천이(transition)하는 확률 분포가 각 발성 표기 유닛에 대하여 결정된다. 음성 신호를 디코딩하기 위해, 이 신호는 복수의 프레임으로 분할되고, 각 프레임은 특성 벡터(feature vector)로 변환된다. 이 특성 벡터는 스테이트 분포와 비교되어 프레임에 의해 표현될 수 있는 매우 가능성이 높은 HMM 스테이트 시퀀스를 식별하게 된다. 이 시퀀스에 대응하는 발성 표기 유닛이 선택된다.
HMM-기반 인식 시스템은 비교적 많은 간단한 음성 인식 작업에서 잘 동작하지만, 이 시스템은 일부 주요한 동적 양상의 음성을 모델링하지 않는다(그리고 대화형 음성과 같은 어려운 작업에 대해서는 제대로 동작하지 못하는 것으로 알려져 있다). 그 결과, 이 시스템은 트레이닝용으로 사용되는 음성 신호와 디코딩되는 음성 신호 간의 동적 발음 차이를 수용할 수 없게 된다. 예를 들어, 일반적인 회화 설정에서, 화자는 자신의 음성을 약간 부정확하게 발음하거나 상당히 부정확하게 발음하는 경향이 있다. 이것은 사용자의 음성 발음의 궤적이 다음 타겟으로 다시 향하기 전에 원하는 타겟에 도달하지 못할 수 있다는 것을 의미한다. 트레이닝 신호는 전형적으로 약간 부정확한 발음이 아닌 매우 정확한 발음으로 화자가 제공하는 음성의 "리딩" 스타일을 이용하여 형성되기 때문에, 약간 부정확한 발음의 음성은 트레이닝된 HMM 스테이트와 일치하지 않는다. 그 결과, 인식자는 일반적인 음성을 위한 이상적인 인식 결과보다 뒤떨어지는 결과를 제공하게 된다.
매우 정확한 발음의 음성에서도 유사한 문제점이 발생한다. 매우 정확한 발음의 음성을 위해, 화자는 많은 노력을 기울여 자신의 음성이 서로 구별가능하도록 발성한다. 이러한 노력의 예로는, 유사한 발성 표기 유닛의 사운드와 구별가능하도록 소정의 발성 표기 유닛의 사운드를 변경하거나, 소정의 발성 표기 유닛의 사운드를 더 길게 유지하거나, 각 사운드가 이웃하는 것들과 구별되어 인식될 수 있도록 사운드를 갑작스럽게 천이하는 것이 있다. 이러한 메커니즘 각각은 HMM 시스템을 이용하여 음성을 인식하는 것을 어렵게 만들며, 그 이유는 기술 각각에 의해 트레이닝 데이터 내에 존재하는 특성 벡터와 종종 일치하지 않는 음성 신호에 대한 일 세트의 특성 벡터가 발생하기 때문이다. 매우 정확하게 발음된 음성 또는 약간 부정확하게 발음된 음성에 대응하는 특성 벡터가 (얻기 위해서는 상당한 비용이 드는) 트레이닝 데이터의 특성 벡터와 일치하더라도, 매우 정확한 발음 또는 약간 부정확한 발음에 의해 발생하는 특성 벡터 궤적에서의 변화의 근본 원인을 고려하지 않는 HMM 시스템용 발성 표기의 혼란 증가 때문에 종래의 HMM 기술은 여전히 제대로 수행되지 못할 것이다.
또한, HMM 시스템은 사람들이 말하는 속도 변화를 처리하는데 어려움이 있다. 따라서, 어떤 사람이 트레이닝 신호보다 느리거나 빠르게 말하면, 이 HMM 시스템은 음성 신호를 디코딩하는데 있어서 더 많은 에러를 유발하는 경향이 있다.
HMM 시스템의 대안이 제시되어 왔다. 특히, 음성 신호의 제작 관련 파라미터의 방식 또는 궤적을 직접 모델링하는 것이 제시되어 왔다. 그러나, 이러한 모델은 그 궤적에 기초한 디코딩을 위한 효율적인 수단을 제공하지 못했다.
이러한 점을 고려할 때, 다양한 스피킹 스타일 때문에 음성 제작 메커니즘에 의해 야기되는 특성 궤적의 변화를 고려하면서 보다 빠른 디코딩이 가능한 음성 인식 프레임워크가 필요하다.
도 1은 본 발명이 사용될 수 있는 연산 환경의 블럭도.
도 2는 본 발명이 사용될 수 있는 대안적인 연산 환경의 블럭도.
도 3은 간단한 유한 스테이트도.
도 4는 본 발명의 일 실시예하의 디코딩 방법의 흐름도.
도 5는 본 발명의 일 실시예하의 음성 인식 시스템의 블럭도.
<도면의 주요 부분에 대한 부호의 설명>
130: 시스템 메모리
134: 오퍼레이팅 시스템
135: 애플리케이션 프로그램들
136: 기타 프로그램 모듈들
137: 프로그램 데이터
144: 오퍼레이팅 시스템
145: 애플리케이션 프로그램들
146: 기타 프로그램 모듈들
147: 프로그램 데이터
160: 사용자 입력 인터페이스
170: 네트워크 인터페이스
171: LAN
172: 모뎀
173: WAN
180: 원격 컴퓨터
190: 비디오 인터페이스
191: 모니터
196: 프린터
197: 스피커
208: 통신 인터페이스
음성 인식 방법은 선행 프레임에 대해 결정된 생성-관련값에 기초한 특정 프레임에서의 스테이트에 대해, 생성-관련값 특히 성도 공진 주파수(vocal tract resonance frequencies)를 결정하는 것을 제공한다. 생성-관련값은 스테이트에 대한 확률 분포를 결정하기 위해 사용된다. 프레임에 대해 수신된 관측값에 대한 확률은 확률 분포로부터 결정된다. 일 실시예 하에서, 생성-관련값은 그 값에 대한 노이즈-프리 되풀이 정의를 사용하여 결정된다. 이 되풀이의 사용은 종래보다 디코딩 속도를 실질적으로 향상시킨다.
본 발명의 몇몇 양태에서, 은닉 궤적(Hidden Trajectory)과 은닉 마르코프 모델의 조합은, 공지된 발성 표기 또는 HMM 스테이트 시퀀스를 갖는 트레이닝 어쿠스틱 데이터를 디코딩하는데 사용됨으로써, 트레이닝 데이터와 스테이트 세트간의 정렬을 제공한다. 이 강제된 정렬은 음 분절(phone segmentation)을 향상시키고, 반복적인 방식(iterative matter)에서 조합된 모델을 트레이닝 하는데 사용된다.
다른 본 발명의 양태하에서, 생성-관련값은, 전체가 동시에 트레이닝되는 복수의 타겟 중 하나에 기초하여 산출된다.
도 1은 본 발명이 구현될 수 있는 적절한 연산 시스템 환경(100)의 예를 도시한다. 연산 시스템 환경(100)은 적절한 연산 환경의 단지 일례이며, 본 발명의 사용 범위 또는 기능성을 한정하려는 것은 아니다. 연산 환경(100)이 임의의 의존성 또는 예시적인 동작 환경(100)에 도시된 구성 요소의 조합이나 어느 하나와 관련한 필요 조건을 갖는 것으로 해석되어서는 안된다.
본 발명은 다양한 다른 일반적인 목적 또는 연산 시스템 환경이나 구성의 특별한 목적으로 이용한다. 본 발명용이 적절하게 사용될 수 있는 공지된 연산 시스템, 환경, 및/또는 구성의 일례들은, 퍼스널 컴퓨터, 서버 컴퓨터, 휴대용(hand-held) 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로 프로세서-기반 시스템, 셋톱 박스, 프로그램 가능한 소비자 전기 기기, 네트워크 PC, 미니 컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기한 시스템 또는 장치 중의 어느 하나를 포함하는 분산형 연산 환경 등을 포함하지만, 이에 국한되지는 않는다.
본 발명은 프로그램 모듈 등과 같은 컴퓨터에 의해 실행되는 컴퓨터-실행가능한 명령의 일반적인 콘텍스트를 설명한다. 일반적으로, 프로그램 모듈은 특정 태스크를 실행하거나 특정 추상적 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 콤포넌트, 데이터 구조 등을 포함한다. 또한, 본 발명은, 태스크가 통신 네트워크를 통해 링크된 원격 처리 장치에 의해 실행되는 분산형 연산 환경에서 사용될 수도 있다. 분산형 연산 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 근거리 및 원격 컴퓨터 저장 매체 둘 다에 위치될 수 있다.
도 1을 참조하면, 본 발명을 구현하는 예시적인 시스템은 컴퓨터(110) 형태인 범용 연산 장치를 포함한다. 컴퓨터(110)의 콤포넌트는, 처리 장치(120), 시스템 메모리(130), 시스템 메모리를 포함하는 각종의 시스템 콤포넌트를 처리 장치(120)에 접속하는 시스템 버스(121)를 포함하며, 이에 국한되지는 않는다. 시스템 버스(121)는 메모리 버스 또는 메모리 제어기, 주변 버스 및 각종의 버스 아키텍쳐 중의 임의의 것을 사용하는 로컬 버스를 포함하는 몇몇 타입의 버스 구조 중의 하나일 수 있다. 예로서, 이러한 아키텍쳐는 ISA(Industry Standard Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) local 버스, 및 메자닌(Mezzanine) 버스로 잘 알려진 PCI(Peripheral Component Interconnect) 버스가 있고, 이에 한정되지는 않는다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능한 매체를 구비한다. 컴퓨터 판독가능한 매체는 컴퓨터(110)에 의해 액세스가능한 임의의 입수가능한 매체일 수 있고, 휘발성 및 불휘발성, 제거가능형(removable) 및 제거불가능형(non-removable) 매체를 모두 포함한다. 일례로서, 컴퓨터 판독가능한 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있으며, 이에 국한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터로 판독가능한 명령, 데이터 구조, 프로그램 모듈 등의 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술에 의해 구현되는 휘발성 및 비휘발성, 제거가능형 및 제거불가능형 매체를 모두 포함한다. 컴퓨터 저장 매체는, RAM, ROM, EEPROM, 플래시 메모리 등의 메모리 기술, CD-ROM, DVD 등의 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 등의 자기 저장 장치, 또는 원하는 정보를 저장하는데 사용할 수 있고 컴퓨터(110)에 의해 액세스될 수 있는 다른 임의의 매체를 포함하지만, 이러한 예로 한정되지 않는다. 통신 매체는, 전형적으로 컴퓨터로 판독가능한 명령, 데이터 구조, 프로그램 모듈 등의 데이터를 반송파 등의 전송 메커니즘과 같은 변조된 데이터 신호로 구현하는 것으로, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는, 그 신호내의 정보를 인코딩하는 방식으로 설정되거나 변경된 하나 이상의 특성을 갖는 신호를 의미한다. 일례로서, 통신 매체는, 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 어쿠스틱, RF, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함하며, 이에 국한되는 것은 아니다. 상기한 매체의 임의의 조합은 컴퓨터로 판독가능한 매체의 범위 내에 포함된다.
시스템 메모리(130)는 리드 온리 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및 불휘발성 메모리의 형태로 컴퓨터 저장 매체를 구비한다. 기본 입출력 시스템(BIOS)(133)은 기동시 등과 같이 컴퓨터(110)내의 각 요소 간의 정보를 전송하는데 기여하는 기본 루틴을 포함하는 것으로, 통상은 ROM(131)에 저장되어 있다. RAM(132)은 통상 데이터 및/또는 처리 장치(120)에 의해 즉시 액세스 가능하고/하거나 현재 동작중인 프로그램 모듈을 포함한다. 도 1은 일례로서, 오퍼레이팅 시스템(134), 애플리케이션 프로그램들(135), 다른 프로그램 모듈들(136) 및 프로그램 데이터(137)를 도시하지만, 이에 한정되는 것은 아니다.
컴퓨터(110)는 다른 제거가능형/제거불가능형 휘발성/불휘발성의 컴퓨터 저장 매체를 포함하여도 된다. 도 1에서는, 일례로서, 제거불가능하고 휘발성인 자기 매체에 대하여 데이터의 판독 또는 기입을 행하는 하드디스크 드라이브(141), 제거가능하고 불휘발성인 자기 디스크(152)에 대하여 데이터의 판독 또는 기입을 행하는 자기 디스크 드라이브(151), 및 CD-ROM 등의 광학 매체와 같은 제거가능하고 불휘발성인 광학 디스크(156)에 대하여 데이터의 판독 또는 기입을 행하는 광학 디스크 드라이브(155)를 도시하지만, 이에 한정되는 것은 아니다. 상기 예시적인 오퍼레이팅 시스템에서 이용할 수 있는 다른 제거가능형/제거불가능형 및 휘발성/불휘발성의 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, 디지털 버서틀 디스크, 디지털 비디오 테이프, 고체 스테이트 RAM, 고체 스테이트 ROM 등을 포함하지만, 이에 한정되는 것은 아니다. 하드디스크 드라이브(141)는 통상 인터페이스(140)와 같은 제거불가능한 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 통상 인터페이스(150)와 같은 제거가능형 메모리 인터페이스를 통해 시스템 버스(121)에 접속된다.
도 1에 예시되며 상술한 드라이브 및 이와 연관된 컴퓨터 저장 매체는 컴퓨터 판독가능한 지시, 데이터 구조, 프로그램 모듈 및 컴퓨터(10)용 다른 데이터의 저장을 제공한다. 도 1에서, 예컨대, 하드디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146) 및 프로그램 데이터(147)를 저장하는 것으로 예시된다. 이들 콤포넌트들은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 다른 프로그램 모듈(136) 및 프로그램데이터(137)와 동일하거나 또는 다를 수 있음에 유의해야 한다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146) 및 프로그램 데이터(147)는 최소한 이들이 다른 복사본인 것을 예시하기 위하여 여기서 다른 번호로 주어진다.
사용자는 커맨드 및 정보를 입력 장치들, 예컨대, 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼 또는 터치패드와 같은 포인팅 장치(161)를 통해 컴퓨터(110)에 기입한다. 다른 입력 장치들(도시안됨)은 조이스틱, 게임패드, 접시위성, 스캐너 등을 포함한다. 이들 및 다른 입력 장치들은 종종 시스템 버스에 접속된 사용자 입력 인터페이스(160)를 통해 처리 유닛(120)에 접속되나, 다른 인터페이스 및 버스 구조, 예컨대 병렬 포트, 게임 포트 또는 USB(Universal Serial Bus)에 의해 접속된다. 모니터(191) 또는 다른 타입의 표시 장치는 또한 비디오 인터페이스(190)와 같은 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터뿐만 아니라, 컴퓨터는 또한 출력 주변 인터페이스(190)를 통해 접속되는 스피커(197) 및 프린터(196)와 같은 다른 주변 출력 장치들을 포함한다.
컴퓨터(110)는 하나 이상의 원격 컴퓨터들, 예컨대 원격 컴퓨터(180)와의 논리 접속을 이용하는 네트워킹된 환경에서 동작한다. 원격 컴퓨터(180)는 개인용 컴퓨터, 휴대용 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치 또는 다른 공통 네트워크 노드일 수 있으며, 전형적으로 컴퓨터(110)에 관해 상술한 많은 또는 모든 엘리먼트들을 포함한다. 도 1에 도시된 논리 접속은 LAN(Local Area Network)(171) 및 WAN(Wide Area Network)(173)을 포함하나, 다른 네트워크를 또한포함할 수 있다. 이런 네트워킹 환경은 사무실, 기업체 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔히 있다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 모뎀(172), 또는 전형적으로 인터넷과 같은 WAN(173)을 통한 통신을 구축하기 위한 다른 수단을 포함한다. 내부 또는 외부일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 다른 적당한 메커니즘을 통해 시스템 버스(121)에 접속된다. 네트워킹된 환경에서, 컴퓨터(110)에 관해 예시된 프로그램 모듈 또는 그 일부는 원격 메모리 저장 장치에 저장된다. 일례로서, 도 1은 원격 컴퓨터(180)상에 상주하는 원격 애플리케이션 프로그램(185)을 도시하나, 이에 국한되지는 않는다. 도시된 네트워크 접속은 예시적인 것이며 컴퓨터들 사이에 통신 링크를 구축하는 다른 수단이 사용될 수 있다는 것을 이해해야 한다.
도 2는 예시적인 연산 환경인 이동 장치(200)의 블럭도이다. 이동 장치(200)는 마이크로프로세서(202), 메모리(204), 입출력(I/O) 콤포넌트들(206) 및 원격 컴퓨터들 또는 다른 이동 장치들과 통신하는 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상술한 콤포넌트들은 적당한 버스(210)를 통해 서로 통신을 위해 접속된다.
메모리(204)는 이동 장치(200)로의 일반적인 전력이 셧다운될 때 메모리(204)에 저장된 정보가 상실되지 않도록 배터리 백업 모듈(도시안됨)을 갖는 RAM(Random Access Memory)과 같은 비휘발성 전자 메모리로서 구현된다.메모리(204)의 일부는 바람직하게 프로그램 실행을 위한 어드레스가능 메모리로서 할당되며, 메모리(204)의 다른 일부는 디스크 드라이브상의 저장을 시뮬레이트(simulate)하는 것과 같은 저장에 바람직하게 사용된다.
메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214)과 더불어 오브젝트 스토어(object store)(216)를 포함한다. 동작 동안, 오퍼레이팅 시스템(212)은 메모리(204)로부터 프로세서(202)에 의해 바람직하게 실행된다. 하나의 바람직한 실시예에서, 오퍼레이팅 시스템(212)은 마이크로소프트(사)로부터 상용가능한 WINDOWS?CE 브랜드 오퍼레이팅 시스템이다. 오퍼레이팅 시스템(212)은 바람직하게 이동 장치들을 위해 설계되며, 한 세트의 노출된 애플리케이션 프로그램밍 인터페이스들 및 방법을 통해 애플리케이션(214)에 의해 활용될 수 있는 데이터베이스 특징들을 구현한다. 오브젝트 스토어(216)에서의 오브젝트는 노출된 애플리케이션 프로그램밍 인터페이스 및 방법으로의 호출(call)에 적어도 부분적으로 응답하여 애플리케이션(214) 및 오퍼레이팅 시스템(212)에 의해 유지된다.
통신 인터페이스(208)는 이동 장치(200)로 하여금 정보를 송수신하게 하는 수많은 장치들 및 기술을 나타낸다. 장치들은 유선 및 무선 모뎀들, 위성 수신기 및 드물게 지적되는 방송 튜너들을 포함한다. 이동 장치(200)는 또한 데이터를 교환하기 위해 컴퓨터에 직접 접속될 수 있다. 이 경우, 통신 인터페이스(208)는 모두가 스트리밍 정보를 전송할 수 있는 적외선 송수신기, 또는 직렬 또는 병렬 통신 접속일 수 있다.
입출력 콤포넌트들(206)은 터치감응 스크린, 버튼, 롤러 및 마이크로폰 또한제너레이터와 같은 각종 입력 장치들과, 오디오 제너레이터, 진동 장치 및 디스플레이를 포함하는 각종 출력 장치들을 포함한다. 상기 리스트된 장치들은 예로서 제시된 것이며, 모두가 이동 장치(200)에 현존할 필요는 없다. 또한, 다른 입출력 장치들은 본 발명의 범위내에서 이동 장치(200)에 첨부 또는 발견될 수 있다.
본 발명은 음성의 생성 모델을 제공한다. 이런 모델하에서, 음성은 음성학적 유닛의 시퀀스의 언어적 정의를 음성적(phonetically)으로 구현하기 위하여 화자에 의해 시도(attempt)된 출력으로서 표현된다. 이런 시도 동안, 화자는 현재의 음성학적 유닛과 연관된 타겟을 향한 궤적을 따르는 생성-관련값을 생성한다. 본 발명이 실시예하에서, 이런 궤적은 노이즈-프리, 2차, 이산 시간, 임계적으로 댐핑되는(critically-damped), 단일 이득을 갖는 저역통과 필터로서 모델링된다.
본 발명의 모델은 특정 형태의 은닉 궤적 모델(Hidden Trajectory Model)이다. 이 은닉 궤적 모델은 2개의 층, 은닉 생성-관련 파라미터(예를 들면, 성도 공진 주파수)를 기술하는 다이나믹 또는 궤적 모델 콤포넌트와, 생성-관련 파라미터를 Mel-주파수 셉스트럴 계수(Mel-Frequency Cepstral Coefficients)와 같은 관측가능한 어쿠스틱 특성으로 해석하는 맵핑 모델 콤포넌트를 포함한다. 궤적 모델은 생성-관련 파라미터에 대한 일련의 궤적값(z(1), ... , z(t), ... , z(T))를 예측한다. 맵핑 모델은 궤적값의 시퀀스가 주어진 어쿠스틱 관측 벡터 o(t)의 시퀀스를 예측한다.
궤적 및 맵핑 모델은 다음 수학식들로 간단하게 표현될 수 있다.
여기서,는 스테이트-종속 예측 궤적(이하, 간략화를 위해 g(t)로서 참조됨)이고, z(t)는 은닉 트루(true) 궤적이고, u(t)는 프레임 t에서 개별 음성 스테이트 또는 음성 유닛이고, u(1...t)는 시간 1에서 시간 t까지의 개별적인 음성 스테이트 또는 음성 유닛의 시퀀스이고,는 특성 공간에 생성-관련 파라미터를 맵핑하는 스테이트-종속 맵핑 함수이다. 실제로, 각 음성 유닛 u는 좌측에서 우측으로 순차적으로 접속된 소수의 HMM형 더 작은 유닛(일부 다음 수학식에서 s로서 표시됨)으로 쪼개진다.
써맨드(summands) w(t) 및 v(t)는 각기 공분산 매트릭스 Q=Cww및 R=Cw와 제로 평균을 갖는 i.i.d. 가우시안 노이즈를 지칭하며, 이는 예측된 값으로부터 실제 관측의 편차를 모델화한 것이다. 즉,
본 발명하에서, 임의의 시간 t에서 궤적은 다음 수학식 5와 같이 정의된 되풀이, 노이즈-프리 함수를 이용하여 계산된다.
여기서,는 시간 t에서 음성 유닛 u의 궤적에 대한 타겟이고,는 음성 유닛 u와 관련된 시상수이고, g(t-1)은 선행 프레임에서의 궤적의 값이며,g(t-2)는 2번째 선행 프레임에서의 궤적의 값이다. g(t-1) 및 g(t-2)는 상이한 값를 사용하여 계산될 수 있으며, 이는 상이한 음성 유닛에 대해 계산될 수 있기 때문이다.
수학식 5의 되풀이 계산은 노이즈 항(term)을 포함하지 않음에 유의하라. 잡음 항을 제거함으로써, 본 발명은 트레이닝 및 디코딩을 간략화하고 있다.
수학식 5를 다음 수학식들과 같이 커노리컬 형태(canonical form)로 다시 쓸 수 있다.
본 발명의 일 실시예에서, 생성-관련 궤적을 어쿠스틱 특성으로 맵핑하는데 사용된 스테이트-종속 맵핑 함수는 본 형태의 테일러 시리즈(Taylor series)이다.
여기서, m은 혼합 지수이고,는 예측된 궤적값이다. 일 실시예에서,는 초기에 콘택스트-독립 HMM(Hidden Markov Model) 스테이트의 혼합 m에 대한 평균과 동일하게 설정된다. 따라서, 본 실시예는 결합된 은닉 궤적 및 은닉 마르코프(Hidden Markov) 모델을 제공한다.
본 발명의 일 양태에 의하면, 사일런스 및 노이즈 음의 예측 벡터가 Hm,s=0이라고 가정함으로써 형성된다. 그 결과, 사일런스 및 노이즈의 예측 특성 벡터는 생성-관련값의 궤적에 따르지 않는다. 이는 사일런스 및 노이즈가 음성 생성의 인터럽션을 나타내는 생성 모델과 일치한다.
이러한 맵핑 기능을 이용하고, 나머지(residual) 및 노이즈 항을 조합하면, 수학식 2 및 4가 다음과 같이 된다.
모델 파라미터,,,,, Q, Rm,s는 예측 최대 트레이닝 알고리즘(Expectation-Maximization training algorithm)을 이용하여 트레이닝되는데, 여기서는 HMM 평균 추정치와 일치하도록 임의로 선택된 것이다. 알고리즘은 트레이닝 관측 벡터 세트에 혼합 웨이트, 궤적 및 궤적 스퀘어를 포함하는 특정한 은닉 변수값을 예측하기 위해 충분한 통계를 내도록 모델 파라미터의 초기 추정치(initial estimates)를 이용한다.
E-단계의 제1 반복(iteration)을 행하기 위해, 모델 파라미터의 초기 추정치가 제공되어야 한다. 일 실시예에서는,에 대한 초기 추정치를 클랏트(Klatt) 음성 신디사이저와 일부 스펙트로그램 분석 결과의 조합된 지식을 이용하여 선택한다. 또한, 본 발명의 일 실시예에서는, 모델을 트레이닝하는데 이용될 트레이닝 데이터 세트가, 은닉 마르코프 모델의 스테이트와 트레이닝 데이터의 프레임 간의 정렬을 식별하도록, 우선 기존의 은닉 마르코프 모델에 부가된다.
타겟, 시상수및 HMM 모델에 의한 정렬 경계 세트를 이용하여, 수학식 5를 이용하여 궤적 세트 g(t)가 추정된다. 이전에 트레이닝된 HMM에서의 HMM 스테이트의 평균(means)은의 초기 추정치로서 사용된다.
각 궤적의 판정에서의 노이즈 w(t)가 0이고, 혼합에 랜덤하게 할당된 관측 벡터가, 관측된 특성 벡터 o(t)와 계산된 특성 벡터간의 스퀘어 에러의 합을 최소화하기 위해 각 스테이트의 각 혼합마다 추정된다.
각 혼합 및 각 스테이트에 대하여 일단가 결정되었으면, 각 스테이트의 각 혼합에 대하여 공분산 행렬가 추정될 수 있다.
Q의 추정치는, 먼저 관측 노이즈 v(t)가 최소화되도록 궤적 g(t)의 결정시에노이즈 w(t)를 추정함으로써 결정된다. 이 결과는 다음 식으로 나타난다.
그러면 Q는 다음 식으로서 초기화된다.
일 실시예에서는,및 Q가 대각선 행렬로 가정되어, 행렬의 대각선만이 계산된다.
초기화 이후, E-단계는 다음의 수학식을 수반한다.
여기서,는 스테이트 s와 혼합 m의 혼합 웨이트이고,
o(t)는 시간 t에서 관측된 트레이닝 벡터이며,
g(t)는 시간 t에서의 예측 궤적값이고,
zt는 시간 t에서의 실제 궤적값이고,
m은 혼합 콤포넌트이고,
M은 스테이트 s와 관련된 혼합 콤포넌트의 수이고,
각 혼합 콤포넌트의 가능성 P(m)은 일정하고 1/M과 동일하며,
"trans"는 행렬의 전치 행렬(transpose)을 나타내며,
E[x]는 x의 예상값을 나타낸다.
상기한 계산에 의해 EM 알고리즘의 E-단계가 완성된다.
초기 모델 파라미터 및 E-단계로부터의 결과를 이용하여 M-단계에서 모델 파라미터를 재추정한다. 구체적으로는, 모델 파라미터는 다음과 같이 계산된다.
또한,이 그래디언트 디센트 알고리즘(gradient descent algorithm)을 사용하여 결정되며,은 반복 중에 임계량보다 적게 변동할 때까지 점진적으로갱신된다. 특히,은 수학식 28을 사용하여 갱신된다.
본 발명의 한 양태에 따르면, 음성 유닛 u에 대한 타겟 Tu(t)은 개별적으로 트레이닝되기보다는 동시에 트레이닝된다. 그 이유는, 한 음성 유닛에 대한 타겟을 변동시키면 다음번 음성 유닛에 대한 g(t) 값이 변동하기 때문이다. 트레이닝은 하기의 매트릭스 방정식을 이용하여 실시된다.
여기서은 음성 유닛 u(t)와 연관된 매트릭스의 단일 원소이다.
E-단계 및 M-단계를 다수회 반복하여 최종 세트의 모델 파라미터를 만든다. 한 실시예에 따르면, E-단계 및 M-단계를 한번 반복한 후마다 현재 형태의 은닉 궤적 은닉 마르코프 모델(Hidden Trajectory Hidden Markov Model)을 이용하여 트레이닝 벡터 O(t)의 시퀀스를 디코딩한다. 이러한 디코딩은 새로운 스테이트 경계 세트를 제공하고, 이 세트는 EM 알고리즘의 다음번 반복시에 사용될 수 있다. 일단 파라미터의 최종 세트가 결정되면, 이를 관측된 어쿠스틱 벡터의 세트를 디코딩하는데 사용할 수 있다.
트레이닝이 끝난 후의 디코딩 태스크는 어쿠스틱 관측의 시퀀스를 가장 유사하게 생성할 것같은 워드 시퀀스를 찾는 것이 수반된다. 트레이닝중의 디코딩 태스크에는 주어진 워드 시퀀스에 대한 어쿠스틱 관측의 시퀀스의 가장 유망한 시간 정렬을 찾는 것이 수반된다. 본 발명의 한 실시예에 따르면, 접속된 스테이트의 네트워크로 이루어진 유한-스테이트 트랜스듀서를 사용하여 디코딩이 실시된다. 네트워크내의 각 스테이트는 HMM 스테이트를 나타내고, 스테이트들간의 접속은 사전(dictionary)을 기초로 하며, 사전은 사전내의 각 워드에 대한 스테이트의 시퀀스를 규정한다. 그러므로, 스테이트 네트워크 전체의 모든 경로는 사전내의 한 워드를 나타낸다. 네트워크는, 사전에서 각 워드의 종료 스테이트가 각 워드의 시작 스테이트에 접속하도록, 그 자체가 닫혀져있다.
간단한 예의 스테이트 네트워크가 도 3에 도시되어 있다. 도 3의 스테이트네트워크는 4개의 워드 "slow", "sit", "cat", "can"을 나타낸다. 도시되지는 않았지만, 각각의 종료 스테이트(300, 302, 304)는 각각의 시작 스테이트(306, 308)에 접속한다. 각 스테이트는 천이(310)와 같은 자체 천이를 포함한다.
디코딩에는 입력 특성 벡터가 주어진 네트워크 전체에서 가장 큰 확률 경로를 찾는 것이 수반된다. 각각의 입력 특성 벡터에 대해, 가장 유망한 각각의 가능한 스테이트로의 천이는 스테이트로까지 가는 전체 경로의 확률에 기초하여 선택된다. 모든 특성 벡터가 처리된 다음, 가장 큰 확률의 워드의 끝에서 종료하는 경로가 디코딩된 워드 시퀀스로서 선택된다.
한 실시예에 따르면, 경로에 대한 확률은, 경로를 따라 언어 모델 스테이트 h 간의 천이의 확률; 경로를 따라 스테이트 s 간의 천이의 가능성을 나타내는 HMM 천이 확률; 시간 프레임 t의 스테이트 s 에서 궤적 G의 현재값에 종속하는 스테이트 확률을 포함하는 다수의 별개의 확률에 따른다.
도 4는 본 발명에 따른 디코딩 방법의 흐름도이다. 단계 400에서 디코딩 시스템이 시작된다. 여기서는 시작 스테이트,s=0, h=0, G(0, -1)=target relaxed, 시간 t=0에서 target relaxed,에 대한 단일 활성 경로를 생성하는데, "target relaxed"는 릴렉스된 위치에서 인간의 발음기관(articulation)과 연관된 궤적값을 나타낸다.
단계 402에서, 입력 신호로부터 입력값이 선택된다. 후술하는 바와 같이, 입력 신호를 프레임으로 분할하고, 각각의 프레임을 Mel-Frequency Cepstrum 계수와 같은 특성 벡터로 변환하고, 각 시점 t에서 디코딩을 위해 하나의 특성 벡터를선택하는 것이 실행된다.
단계 404에서, 선택된 특성 벡터를 이용하여 스테이트 확률의 세트가 계산된다. 특히, HMM 스테이트 s, 언어 모델 스테이트 h, 시간 t에서 활성인 궤적 c(G)의 클래스의 조합마다 별도의 스테이트 확률이 계산된다. 본 발명의 한 실시예에 따르면, 연속적인 궤적값 G에는 224개의 클래스 중 하나가 지정된다. 이렇게 하면 디코딩이 실행가능하게 된다. 만일 클래스를 사용하지 않으면, 가능한 G 값 모두에 대해 별도의 스테이트 스코어를 계산하여야 한다. 궤적의 클래스는 탐색 스페이스를 한정할 목적으로 사용되는 것이며, 확률 계산 자체에는 사용되지 않는다. 확률 계산을 위해, 연속적인 G 값이 직접 사용된다.
활성 [s, h, c(G)] 세트에 대한 스테이트 확률은 다음의 식과 같이 계산된다:
이 수학식은 전술한 수학식 13과 유사하다. 다만, 계산된 궤적 g(t)가 실제 궤적 z(t)를 대체하고, 가능한 혼합 콤포넌트 전체에 대해 확률이 합산된다는 점이 다르다. 따라서, 각각의 혼합 성분에 대한 정규 분포에 관측 특성 벡터 o(t)를 부가하여 확률이 결정되며, 여기서 각각의 정규 분포는 평균, 즉 HMM 평균,을 갖는데, 이 평균은 스테이트 s의 시간 t에서 궤적 g(t)의 현재값에 기초하여 동적으로 조정된다. 확률의 로그는 수치적인 언더플로를 방지하기 위해 사용된다.
각각의 스테이트 확률을 스테이트에 도달하는 경로에 대한 경로 확률과 결합하여 각각의 세트 [s, h, c(G)]에 대한 전체 확률을 형성한다. 모든 활성 세트 중 가장 큰 전체 확률은 단계 406에서 결정된다.
단계 408에서는 처리할 입력 신호의 프레임이 더 있는지 판정한다. 더 있다면, 프로세스는 단계 410으로 가서, 가장 큰 전체 확률의 임계치내에 있지 않은 세트를 제거한다.
단계 410에서 제거되지 않은 각각의 세트 [s, h, c(G)]에 대해, 단계 412에서 후속자 세트 [s', h', c'(G)]가 식별된다. 현재의 스테이트 s 및 언어 모델 스테이트 h로부터 각각의 가능한 스테이트 s' 및 언어 모델 스테이트 h'를 식별하기 위해 사전을 사용한다. 먼저 후속자 스테이트 s'를 이용하고 현재의 세트 [s, h, c(G(t))]와 연관된 궤적 G(t)의 연속적인 값을 이용하여 후속자 스테이트의 궤적 G(t+1)의 값을 결정함으로써 궤적의 후속자 클래스가 결정된다. 특히, 궤적 G(t+1)의 값은 다음과 같이 계산된다:
여기서 매트릭스및 Vu(t+1)의 파라미터는 후속자 스테이트 s'가 그 일부인 음성 유닛에 기초하여 선택되며, G(t)는 세트 [s, h, c(G(t))]에 대한 궤적 G의 현재 연속값이다.
그 후, 연속값 G(t+1)의 클래스가 결정되어 궤적의 후속자 클래스, c'(G)를결정하며, 이에 따라 후속자 세트 [s', h', c'(G)]가 규정된다.
그런 다음, 현재 세트에서 후속자 세트로의 천이의 로그 확률을 세트 [s, h, c(G)]에서 끝나는 최선의 경로에 대한 로그 확률에 가산하여 후속자 세트 [s', h', c'(G)]로 들어가는 경로에 대한 확률을 생성한다. 워드내의 천이인 경우, 세트 천이 확률은 스테이트 s에서 스테이트 s'로의 천이의 HMM 천이 확률에만 근거한다. 그러나, 워드들간에 천이가 있다면, 천이 확률은 HMM에 의해 제공되는 스테이트 s와 s'간의 천이의 로그 확률과, 특정 워드 시퀀스의 가능성을 기술하는 언어 모델에 의해 제공되는 스테이트 h에서 스테이트 h'로의 천이의 로그 확률의 합으로 된다.
만일 후속자 스테이트가 이미 생성되었다면, 후속자 세트로 가는 현재 경로에 대한 확률을 그 세트로 가는 기존의 경로에 대한 확률과 비교한다. 현재 경로의 확률이 기존 경로에 대한 확률보다 크다면, 기존 경로는 현재 경로로 대체된다. 그러나, 후속자 세트 [s', h', c'(G)]로 가는 기존 경로의 확률이 현재 경로보다 크다면, 기존 경로를 유지하고 현재 경로는 삭제한다. 따라서, 단계 412에서, 각각의 가능한 후속자 세트로 가는 가장 큰 확률의 경로만이 유지된다.
단계 412 후에, 다음 입력 프레임에 대한 일군의 후속자 세트가 식별되며, 각각의 후속자 세트는 그것으로 들어오는 단 하나의 경로를 갖게 된다. 또한, 각각의 후속자 세트는 상기한 후속자 스테이트로 들어오는 경로에 의해 표현된 워드 또는 스테이트의 시퀀스가 복구될 수 있도록 하는 역추적 데이터 구조를 포함하고 있다. 트레이닝 후 디코딩이 완료된 경우, 상기한 데이터 구조는 상기한 경로를따라 식별된 최종 워드와, 이 최종 워드의 앞에 있는 워드에 대해 구축된 이전의 데이터 구조에의 포인터와, 선택적으로 상기한 최종 워드가 끝나는 시점(time point)를 포함하게 된다. 따라서, 상기한 데이터 구조 내의 포인터를 이용하여 역추적을 실시함으로써 상기한 경로의 워드 시퀀스 및 필요한 경우 상기한 입력 프레임에 관련된 워드 시퀀스의 분절을 복구할 수 있는, 상기한 경로를 따른 각각의 워드에 대한 데이터 구조의 체인을 이루게 된다. 상기한 트레이닝 중에 디코딩을 실시하는 경우, 상기한 데이터 구조는 워드에 대신하여 스테이트 ID를 포함하게 된다.
단계 408에서 더 이상 처리할 프레임이 존재하지 않는 경우, 단계 414에서 상기한 시스템은 워드의 끝에서 끝나는 최고 확률 경로를 상기한 입력 신호를 나타내는 것으로 선택한다. 그 후, 상기한 경로에 대한 백 포인터 데이터 구조를 역추적하여 상기한 경로에 의해 표현된 워드 또는 스테이트의 시퀀스를 찾아낸다. 그러면, 이 워드 또는 스테이트의 시퀀스를 디코딩된 출력으로서 사용한다.
도 5는 본 발명이 채용될 수 있는 음성 인식 시스템의 블럭도를 나타낸 것이다. 도 5에서, 화자(500) - 트레이너 또는 사용자 - 는 마이크로폰(504)에 대해 말을 한다. 마이크로폰(504)은 하나 또는 그 이상의 잡음원(502)으로부터 가산 잡음을 수신한다. 상기한 마이크로폰(504)에서 검출된 오디오 신호는 전자 신호로 변환되어 AD 컨버터(506)에 입력된다.
AD 컨버터(506)는 마이크로폰(504)으로부터의 아날로그 신호를 일련의 디지털 값으로 변환한다. 일부 실시예에서, AD 변환기(506)는 상기한 아날로그 신호를16㎑ 및 16bps로 샘플링하여 32Kbps의 음성 데이터를 생성한다. 일실시예에서, 이들 디지털 값은 그 값을 25㎳의 프레임 - 이 프레임은 10㎳ 떨어져 시작됨 - 으로 그룹화하는 프레임 구성자(507)에 제공된다.
상기한 프레임 구성자(507)에 의해 생성된 데이터 프레임은 각 프레임으로부터 형상을 추출해내는 형상 추출자(508)에 제공된다. 형상 추출 모듈의 예로는, 선형 예측 코딩(Linear Predictive Coding; LPC), LPC 기반 셉스트럼(cepstrum), 지각형 선형 예측(Perceptive Linear Prediction; PLP), 청각(auditory) 모델 형상 추출 및 Mel-주파수 셉스트럼 계수(MFCC) 형상 추출을 수행하는 모듈을 들 수 있다. 여기서 주목할 점은, 본 발명은 상기한 형상 추출 모듈에 국한되지 않으며, 본 발명의 범위 내에서 상기한 것과 다른 모듈을 이용할 수도 있다는 것이다.
입력 신호가 트레이닝 신호인 경우에는, 이 일련의 형상 벡터는 트레이너(524)에 입력되어, 상기한 형상 벡터 및 트레이닝 텍스트(526)를 이용하여 본 발명에 따른 생성적 모델을 트레인해낸다. 예를 들어, 위에서 설명한 EM 트레이닝 알고리즘을 이용하여 상기한 생성적 모델을 트레인해낼 수 있다.
위에서 설명한 바와 같이, 상기한 EM 트레이닝 알고리즘은 반복 수행될 수도 있다. 이 경우, 상기한 EM 알고리즘의 반복 수행 시마다, 트레이닝 형상 벡터가 디코더(512)에 입력되어, 상기한 트레이닝 신호 및 스테이트의 프레임들 사이의 정렬 경계(alignment boundaries)가 식별되게 된다. 그 후, 이들 정렬 경계는 다음의 반복 트레이닝을 위해 트레이너(524)에 제공되게 된다. 이러한 트레이닝의 디코딩 처리 중에, 상기한 스테이트 네트워크는 트레이닝 텍스트(526)에서 규정되어있는 스테이트 시퀀스에 제한된다. 따라서, 상기한 트레이닝의 디코딩시에는 렉시콘(514)이 사용되지 않는다.
디코더(512)는 언어 모델(516), 생성적 모델(528), 상기한 형상 벡터, 렉시콘(514) 또는 트레이닝 텍스트(526)의 스트림에 기초하여, 최고 가능 워드 시퀀스를 식별해낸다. 일실시예에서, 상기한 렉시콘(514)은 상기한 디코더(512)에 의해 디코딩된(traversed) 유한한(finite) 스테이트 네트워크를 정의하여 상기한 형상 벡터 시퀀스로부터 워드를 식별해낸다.
신뢰 측정 모듈(520)에는 최고 가능한 가정(hypothesis) 워드의 시퀀스가 입력된다. 상기한 신뢰 측정 모듈(520)은 2차 어쿠스틱 모델(도시되지 않음)에 기초하여 상기한 음성 인식기에 의해 가장 잘못 식별되었을 것으로 판단되는 워드들 식별해낸다. 그런 다음, 상기한 신뢰 측정 모듈(520)은 상기한 가정 워드의 시퀀스를, 잘못 식별되었을 것으로 판단되는 워드를 나타내는 식별자와 함께, 출력 모듈(522)에 제공한다. 본 기술분야의 전문가라면 상기한 신뢰 측정 모듈(520)은 본 발명의 실시에 필수적인 것이 아님을 알 수 있을 것이다.
이상, 본 발명을 특정 실시예를 참조하여 설명하였지만, 본 기술분야에 숙련된 자라면 본 발명의 사상 및 범주를 일탈하지 않고도 그 형태 및 상세에 있어서 각종의 변형이 이루어 질 수 있음을 알 수 있을 것이다.
본 발명에 따르면, 생성-관련값은 그 값에 대한 노이즈-프리 되풀이 정의를 사용하여 결정되며, 이 되풀이의 사용은 종래보다 디코딩 속도를 실질적으로 향상시킬 수 있다.

Claims (34)

  1. 음성 인식 방법에 있어서,
    되풀이 정의(recursive definition)를 이용하여 적어도 하나의 선행 프레임에 대하여 결정된 생성-관련값(production related value)에 기초한 디코딩 스테이트(state) 및 입력 신호의 프레임에 대한 생성-관련값을 결정하는 단계;
    상기 스테이트에 대한 생성-관련값을 이용하여 상기 스테이트에 대한 확률 분포를 결정하는 단계; 및
    상기 스테이트에 대한 상기 확률 분포에 기초한 상기 프레임에 관련된 관측값에 대한 확률을 결정하는 단계
    를 포함하는 음성 인식 방법.
  2. 제1항에 있어서, 스테이트에 대한 확률 분포의 결정 단계는 상기 생성-관련값을 이용하여 상기 분포의 평균을 결정하는 단계를 포함하는 음성 인식 방법.
  3. 제2항에 있어서, 상기 분포의 평균을 결정하는 단계는 상기 스테이트에 대하여 트레이닝된 값을 이용하여 상기 평균을 결정하는 단계를 더 포함하는 음성 인식 방법.
  4. 제3항에 있어서, 상기 스테이트에 대해 트레이닝된 값은 은닉 마르코프모델(Hidden Markov Model) 스테이트에 관련된 평균과 동일하게 초기에 설정되는 음성 인식 방법.
  5. 제3항에 있어서, 상기 스테이트에 대해 트레이닝된 값은 상기 생성-관련값에 대한 기대값을 포함하고 상기 평균을 결정하는 단계는 상기 기대값과 생성-관련값 사이의 차를 결정하는 단계를 포함하는 음성 인식 방법.
  6. 제5항에 있어서, 상기 평균을 결정하는 단계는 상기 차에 상기 스테이트에 관련된 값을 승산하여 적(product)을 생성하는 단계를 더 포함하는 음성 인식 방법.
  7. 제6항에 있어서, 상기 평균을 결정하는 단계는 상기 스테이트와 관련된 부가값에 상기 적을 가산하는 단계를 더 포함하는 음성 인식 방법.
  8. 제1항에 있어서, 생성-관련값을 결정하는 단계는 2개의 사전 결정된 생성-관련값에 기초한 상기 생성-관련값을 결정하는 단계를 포함하는 음성 인식 방법.
  9. 제8항에 있어서, 상기 생성-관련값을 결정하는 단계는 타겟에 기초하는 상기 생성-관련값을 결정하는 단계를 더 포함하는 음성 인식 방법.
  10. 제9항에 있어서, 상기 타겟은 상기 스테이트에 의해 부분적으로 형성되는 음성 유닛과 관련되는 음성 인식 방법.
  11. 제10항에 있어서, 상기 타겟은, 각각이 별개의 음성 유닛과 관련되는 복수의 타겟 중 하나인 음성 인식 방법.
  12. 제11항에 있어서, 상기 복수의 타겟은 모든 상기 타겟이 동시에 갱신되도록 트레이닝되는 음성 인식 방법.
  13. 제1항에 있어서, 상기 확률을 이용하여 관측값들의 시퀀스에 의해 표현되는 워드(word)들의 시퀀스를 식별하는 확률을 이용하는 단계를 더 포함하는 음성 인식 방법.
  14. 제1항에 있어서, 상기 확률을 이용하여 트레이닝 스크립트에서 음(phone)들의 시퀀스의 일시적 경계들을 식별하는 단계를 더 포함하는 음성 인식 방법.
  15. 제1항에 있어서, 생성-관련값을 결정하는 단계는 상기 결정에서 노이즈 항(term)을 포함하지 않는 단계를 포함하는 음성 인식 방법.
  16. 컴퓨터 판독가능 매체에 있어서,
    제1 시점(a first point in time)에 대한 제1 생성-관련값을 결정하는 단계;
    상기 생성-관련값을 이용하여 제2 시점에 대한 제2 생성-관련값을 결정하는 단계;
    상기 제1 및 제2 생성-관련값을 이용하여 노이즈 항을 이용하지 않고 제3 시점에 대한 제3 생성-관련값을 결정하는 단계
    를 포함하는 단계들을 실행하기 위한 컴퓨터 실행가능 명령을 기록한 컴퓨터 판독가능 매체.
  17. 제16항에 있어서, 제3 생성-관련값을 결정하는 단계는 타켓을 이용하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  18. 제17항에 있어서, 상기 타겟은, 각각이 상이한 음성학적 유닛(phonological unit)과 관련되는 복수의 타겟 중 하나인 컴퓨터 판독가능 매체.
  19. 제18항에 있어서, 상기 복수의 타겟은 동시에 트레이닝되는 컴퓨터 판독가능 매체.
  20. 제16항에 있어서, 상기 단계들은 상기 제3 생성-관련값을 이용하여 디코딩 스테이트에 대한 확률 분포를 결정하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  21. 제20항에 있어서, 상기 단계들은 관측값을 상기 스테이트에 대한 상기 확률 분포에 적용하여 상기 스테이트에 제공된 상기 관측값에 대한 확률을 결정하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  22. 제21항에 있어서, 상기 스테이트는 은닉 마르코프 모델 스테이트를 포함하는 컴퓨터 판독가능 매체.
  23. 제21항에 있어서, 상기 단계들은 관측값들의 시퀀스를 디코딩하여 상기 관측값들과 스테이트들의 모임(collection) 사이의 한 세트의 정렬 경계(alignment boundary)들을 결정하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  24. 제23항에 있어서, 상기 단계들은 상기 정렬 경계들을 이용하여 한 세트의 모델 파라미터들을 트레이닝하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  25. 제24항에 있어서, 상기 모델 파라미터들 중 적어도 하나는 스테이트에 대한 확률 분포를 정의하는데 이용되는 컴퓨터 판독가능 매체.
  26. 제23항에 있어서, 디코딩은 세트들의 네트워크를 통한 경로를 식별하는 단계를 포함하고, 각각의 세트는 상기 생성-관련값의 클래스(class)와 스테이트를 포함하는 컴퓨터 판독가능 매체.
  27. 제26항에 있어서, 각각의 세트는 언어 모델 스테이트를 더 포함하는 컴퓨터 판독가능 매체.
  28. 음성 인식 모델을 트레이닝하는 방법에 있어서,
    트레이닝 데이터의 한 세트의 프레임 각각에 대한 은닉 궤적 파라미터 값을 결정하는 단계;
    상기 은닉 궤적 파라미터 값들을 이용하여 상기 은닉 궤적 파라미터에 대한 복수의 타겟에서 모든 타겟을 동시에 설정하는 단계
    를 포함하는 음성 인식 모델 트레이닝 방법.
  29. 제28항에 있어서, 각각의 타겟은 상이한 음성 유닛과 관련되는 음성 인식 모델 트레이닝 방법.
  30. 제28항에 있어서, 각각의 은닉 궤적 파라미터는 선행 프레임에서 상기 은닉 궤적 파라미터 값에 의존하는 음성 인식 모델 트레이닝 방법.
  31. 제30항에 있어서, 각각의 은닉 궤적 파리미터 값은 상기 프레임과 관련된 사전 결정된 타겟에 더 의존하는 음성 인식 모델 트레이닝 방법.
  32. 제31항에 있어서, 상기 사전 결정된 타겟은 상기 프레임과 정렬되는 음성 유닛과 관련되는 음성 인식 모델 트레이닝 방법.
  33. 제32항에 있어서, 상기 음성 유닛은 트레이닝 데이터의 프레임들을 디코딩함으로써 상기 프레임과 정렬되는 음성 모델 트레이닝 방법.
  34. 제33항에 있어서, 상기 타겟을 활용하여 트레이닝 데이터의 프레임들을 디코드하는 단계를 포함하는 음성 모델 트레이닝 방법.
KR1020040004435A 2003-01-21 2004-01-20 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법 KR20040068023A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/348,192 2003-01-21
US10/348,192 US7617104B2 (en) 2003-01-21 2003-01-21 Method of speech recognition using hidden trajectory Hidden Markov Models

Publications (1)

Publication Number Publication Date
KR20040068023A true KR20040068023A (ko) 2004-07-30

Family

ID=32655484

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040004435A KR20040068023A (ko) 2003-01-21 2004-01-20 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법

Country Status (5)

Country Link
US (1) US7617104B2 (ko)
EP (1) EP1443495A1 (ko)
JP (1) JP2004226982A (ko)
KR (1) KR20040068023A (ko)
CN (1) CN1521729A (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
CN1949364B (zh) * 2005-10-12 2010-05-05 财团法人工业技术研究院 语音识别的前级检测***与方法
US7653535B2 (en) 2005-12-15 2010-01-26 Microsoft Corporation Learning statistically characterized resonance targets in a hidden trajectory model
US8010356B2 (en) 2006-02-17 2011-08-30 Microsoft Corporation Parameter learning in a hidden trajectory model
US7680663B2 (en) * 2006-08-21 2010-03-16 Micrsoft Corporation Using a discretized, higher order representation of hidden dynamic variables for speech recognition
US7805308B2 (en) * 2007-01-19 2010-09-28 Microsoft Corporation Hidden trajectory modeling with differential cepstra for speech recognition
US9009039B2 (en) * 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
CN102915122B (zh) * 2012-07-19 2015-11-11 上海交通大学 基于语言模型的智能移动平台拼音输入法
AU2012385479B2 (en) * 2012-07-20 2018-12-13 Interactive Intelligence, Inc. Method and system for real-time keyword spotting for speech analytics
CN102760436B (zh) * 2012-08-09 2014-06-11 河南省烟草公司开封市公司 一种语音词库筛选方法
CN107657280B (zh) * 2013-03-15 2021-08-03 英特尔公司 用于处理样本的方法和装置
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
CN103607219B (zh) * 2013-11-07 2016-02-03 电子科技大学 一种电力线通信***的噪声预测方法
JP2017508188A (ja) 2014-01-28 2017-03-23 シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. 適応型音声対話のための方法
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN108766430B (zh) * 2018-06-06 2020-08-04 华中师范大学 一种基于巴氏距离的语音特征映射方法及***
CN108735201B (zh) * 2018-06-29 2020-11-17 广州视源电子科技股份有限公司 连续语音识别方法、装置、设备和存储介质
CN109635777B (zh) * 2018-12-24 2022-09-13 广东理致技术有限公司 一种视频数据编辑识别方法及装置
CN110148424B (zh) * 2019-05-08 2021-05-25 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
JPH071435B2 (ja) * 1993-03-16 1995-01-11 株式会社エイ・ティ・アール自動翻訳電話研究所 音響モデル適応方式
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
JPH0990981A (ja) * 1995-09-22 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> パターン認識のためのモデル学習方法
JP3029803B2 (ja) * 1996-11-20 2000-04-10 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識のための単語モデル生成装置及び音声認識装置
JP2000075888A (ja) * 1998-09-01 2000-03-14 Oki Electric Ind Co Ltd ヒドン・マルコフ・モデルの学習方法及び音声認識システム
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
JP2002091480A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音響モデル生成装置及び音声認識装置
JP2002123285A (ja) * 2000-10-13 2002-04-26 Sony Corp 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置

Also Published As

Publication number Publication date
US7617104B2 (en) 2009-11-10
CN1521729A (zh) 2004-08-18
JP2004226982A (ja) 2004-08-12
EP1443495A1 (en) 2004-08-04
US20040143435A1 (en) 2004-07-22

Similar Documents

Publication Publication Date Title
KR101120765B1 (ko) 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법
US7206741B2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP6052814B2 (ja) 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
US5865626A (en) Multi-dialect speech recognition method and apparatus
EP1199708B1 (en) Noise robust pattern recognition
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
KR20040068023A (ko) 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
CN112397056B (zh) 语音评测方法及计算机存储介质
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP2007078943A (ja) 音響スコア計算プログラム
Deng Speech recognition using autosegmental representation of phonological units with interface to the trended HMM
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质
Casar et al. Overcoming HMM time independence assumption using n-gram based modelling for continuous speech recognition
CN114974249A (zh) 一种语音识别方法、装置及存储介质
Badenhorst Data sufficiency analysis for automatic speech recognition
JP2004117476A (ja) 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体
Knill et al. CUED/F-INFENG/TR 230

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application