KR101004495B1

KR101004495B1 - 증분 베이즈 학습을 사용하는 잡음 추정 방법

Info

Publication number: KR101004495B1
Application number: KR1020040022082A
Authority: KR
Inventors: 알레잔드로 아세로; 리 뎅; 제임스지. 드롭포
Original assignee: 마이크로소프트 코포레이션
Priority date: 2003-03-31
Filing date: 2004-03-31
Publication date: 2010-12-31
Also published as: US20040190732A1; EP1465160A2; MXPA04002919A; ATE526664T1; RU2370831C2; CA2461083C; CN1534598A; ES2371548T3; BRPI0400793A; CA2461083A1; EP1465160B1; AU2004201076B2; AU2004201076A1; EP1465160A3; RU2004109571A; US7165026B2; KR20040088360A; JP2004302470A; JP4824286B2; CN100336102C

Abstract

본 방법과 장치는 시변 잡음 프라이어 분포를 취하고 하이퍼파라미터(평균 및 분산)가 이전 시간 단계에서 계산된 포스테리어 근사치를 사용하여 순환적으로 갱신 되는, 증분 베이즈 학습(incremental Bayes learning)을 이용하여 잡음을 포함하는 신호의 추가적인 잡음을 추정한다. 시도메인(time domain) 내에서의 추가적인 잡음은 증분 베이즈 학습의 적용 이전에 로그-스펙트럼 혹은 셉스트럼 도메인 내에서 표현된다. 각각의 개별적인 프레임들의 잡음에 대한 평균과 분산의 추정치 결과를 이용하여 동일한 로그-스펙트럼 또는 셉스트럼 도메인 내에서 음성 특성 향상을 수행한다.

증분 베이즈 학습, 잡음 추정, 가우스, 순환 알고리즘, 음성 인식 시스템, 패턴 인식 시스템

Description

증분 베이즈 학습을 사용하는 잡음 추정 방법{METHOD OF NOISE ESTIMATION USING INCREMENTAL BAYES LEARNING}

도 1은 본 발명을 실행할 수 있는 컴퓨팅 환경을 도시한 블럭도.

도 2는 본 발명을 실행할 수 있는 대안적인 컴퓨팅 환경을 도시한 블럭도.

도 3은 본 발명의 일실시예에서 잡음 추정 방법을 도시한 흐름도.

도 4는 본 발명을 이용할 수 있는 패턴 인식 시스템의 블럭도.

<도면의 주요 부분에 대한 부호의 설명>

120: 프로세싱 유닛

130: 시스템 메모리

137: 프로그램 데이터

144: 오퍼레이팅 시스템

216: 오브젝트 저장소

400: 스피커

404: 마이크로폰

418: 음향 모델

422: 출력 모듈

본 발명은 잡음 추정(noise estimation)에 관한 것으로, 보다 상세히는 패턴 인식(pattern recognition)에 사용되는 신호들 내의 잡음 추정에 관한 것이다.

음성 인식 시스템(speech recognition system)과 같은 패턴 인식 시스템은 입력 신호를 받아 그 신호를 해독하여 그 신호에 의해 표현되는 패턴을 찾으려 한다. 예를 들면, 음성 인식 시스템에서, (자주 테스트 신호라고 칭하는) 음성 신호가 인식 시스템에 의해 받아들여지고 해독되어 그 음성 신호에 의해 표현된 일련의 단어들을 식별한다.

입력 신호는 전형적으로 몇몇 형태의 잡음에 의해서 손상된다. 패턴 인식 시스템의 성능을 향상시키기 위해서는, 종종 잡음을 포함하는 신호 내의 잡음을 추정하는 것이 바람직하다.

과거에는, 신호 내의 잡음을 추정하기 위해 몇몇의 프레임워크를 사용해 왔다. 한 프레임워크에서는, 입력 신호의 각 프레임 내의 잡음을 그 신호 내의 다른 프레임들에서 발견되는 잡음과는 독립적으로 추정하는 일괄(batch) 알고리즘들이 사용된다. 그 다음에 개개의 잡음 추정치들의 전체 평균을 내어 모든 프레임들에 대해 일치하는 잡음 값(consensus noise value)을 형성한다. 제2 프레임워크에서는, 현재 프레임 내의 잡음을 하나 이상의 이전 또는 다음 프레임들의 잡음 추정치에 근거하여 추정하는 순환 알고리즘(recursive algorithm)이 사용된다. 이런 순환 기법(recursive technique)에서는 잡음이 시간이 지남에 따라 천천히 변화하게 된다.

한 순환 기법에서는, 잡음을 포함하는 신호는 순수(clean) 신호와 잡음 신호간의 비선형 함수가 된다고 가정한다. 계산을 돕기 위해, 비선형 함수는 일부 전개점(expansion point)에 관하여 계산되는 트렁케이티드 테일러 급수 전개(truncated taylor series expansion)에 의해 근사화된다. 일반적으로, 테일러 급수 전개는 그 일부 전개점에서 비선형 함수의 최적의 추정값을 제공한다. 그러므로, 테일러 급수 근사는 전개점의 선택 만큼만 양호하다. 종래 기술 분야에서는, 그러나, 테일러 급수의 전개점은 각 프레임마다 최적화되지 않았다. 결과적으로, 순환 알고리즘에 의해 생성된 잡음 추정치는 이상적이지 못했다.

음향 환경(acoustic environment)에서 반복적으로 선형화된 비선형 모델을 사용하는 비정적 잡음의 일련의 지점 추정에 최대 라이크리후드(Maximum-likelihood: ML)와 최대 포스테리어리(maximum a posteriori: MAP) 기법이 사용되어 왔다. 일반적으로, 잡음 분포를 위하여 간단한 가우스(Gaussian) 모델을 사용하면, MAP 추정치는 보다 나은 질의 잡음 추정치를 제공하였다. 그러나, MAP 기법에서, 사전에 가우스 잡음 프라이어(prior)와 연관된 평균과 분산 파라미터들은 한 각 무음성 테스트 어터런스(utterance)의 세그먼트에서 고정된다. 비정적 잡음에서, 이 근사치는 실제 잡음 프라이어 통계를 적절하게 반영하지 않을 수 있다.

이에 비추어 보았을 때, 패턴 신호들 내의 잡음 추정에 보다 효과적인 잡음 추정 기법이 필요하다.

비정적 잡음(nonstationary noise)을 추정하는 새로운 접근법은 증분 베이즈 학습(incremental bayes learning)을 사용하는 것이다. 일면으로는, 이 기법은 하이퍼파라미터(hyperparameter)(평균 및 분산)에 의해 정의될 수 있는, 잡음 추정치(noise estimate)가 이전 시간 또는 프레임 단계에서 계산된 근사치 포스테리어를 사용하여 순환적으로 갱신되는 시변 잡음 프라이어 분포(time-varying noise prior distribution)를 가정함으로써 정의될 수 있다. 다른면에서는, 이 기법은 연속하는 각 프레임마다, 현재 프레임의 잡음 추정치가 현재 프레임에 대한 데이터 라이크리후드(data likelihood)의 가우스 근사치(Gaussian approximation)와 사전 프레임들의 시퀀스 내의 잡음의 가우스 근사치를 근거로 한 각 프레임에서 잡음을 추정하는 것으로 정의된다.

도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일 예이며 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 결합에 관한 임의의 종속성(dependency) 또는 요건(requirement)을 갖는 것으로 해석되어서는 안된다.

본 발명은 많은 다른 범용 또는 특수목적 컴퓨팅 시스템 환경들 또는 구성에서 동작할 수 있다. 본 발명에서 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 헨드헬드(hand- held) 혹은 랩탑(laptop) 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스(set top box), 프로그램가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 대형 컴퓨터, 전화 시스템, 상기의 시스템 또는 장치중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이에 한정되지 않는다.

본 발명은 일반적으로 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령에 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 프로그램과 모듈에 의해 수행되는 태스크는 도면과 함께 하단에 기술된다. 본 기술 분야에서 숙련된 기술을 가진 자들은 이하에 설명된 컴퓨터 판독가능 매체의 임의의 형태에 구현될 수 있는, 컴퓨터 실행가능 명령으로 상기 기술(description) 및/또는 본 명세서에 도시된 도면들을 구현할 수 있다.

본 발명은 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산 컴퓨팅 환경에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 국부 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다.

도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 메모리 버스, 즉 메모리 컨트롤러, 주변 버스, 및 로컬 버스를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로써, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 메자닌(Mezzanine) 버스로도 알려진 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 한정되는 것은 아니다.

컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있으며, 휘발성 및 비휘발성 매체, 이동식(removable) 및 이동불가식(non-removable) 매체를 둘다 포함한다. 예로써, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 이동불가식 매체를 둘다 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터(110)에 의해 액세스될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 피변조 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는 신호 내의 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중 임의의 결합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.

컴퓨터(110)는 또한 다른 이동식/이동불가식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 이동불가식 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드디스크 드라이브(141), 이동식 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 이동식 비휘발성 광학 디스크(156)로부터 판독하거나 그 광학 디스크에 기록하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 이동식/이동불가식, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 이동불가식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.

사용자는 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼, 또는 터치 패드 등의 포인팅 장치(161)를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 조이스틱, 게임패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 헨드헬드(hand-held) 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 LAN(171) 및 WAN(173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(180)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.

도 2는 예시적인 컴퓨팅 환경인 모바일 장치(200)의 블럭도이다. 모바일 장치(200)는 마이크로프로세서(202), 메모리(204), I/O 구성요소(206), 및 원격 컴퓨터 또는 기타 모바일 장치와의 통신을 위한 통신 인터페이스(208)를 포함한다. 일실시예에서, 앞서 언급한 구성요소들은 적절한 버스(210)를 통해 서로간의 통신을 위해 연결된다.

메모리(204)는 모바일 장치(200)의 일반 전원이 꺼졌을 때에도 메모리(204)에 저장된 정보를 잃어버리지 않은 배터리 백업 모듈(도시되지 않음)을 갖는 RAM과 같은 비휘발성 전자 메모리로 구현된다. 메모리(204)의 일부는 프로그램 실행을 위한 주소 지정 메모리로서 할당되는 것이 바람직한 반면, 메모리(204)의 다른 부분은 디스크 드라이브상의 저장장치를 모방한 것처럼, 저장장치로서 사용되는 것이 바람직하다.

메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214) 및 오 브젝트 저장소(216)를 포함한다. 동작중에, 오퍼레이팅 시스템(212)은 메모리(204)로부터 프로세서(202)에 의해 실행되는 것이 바람직하다. 바람직한 일실시예의 오퍼레이팅 시스템(212)은 마이크로소프트사에서 상업적으로 사용가능한 MICROSOFT

CE 브랜드 오퍼레이팅 시스템이다. 오퍼레이팅 시스템(212)은 모바일 장치용으로 설계되는 것이 바람직하고, 한 세트의 노출된 애플리케이션 프로그래밍 인터페이스와 메소드(method)들을 통한 애플리케이션(214)에 의해 이용될 수 있는 특성을 가진 데이터베이스를 구현한다. 오브젝트 저장소(216)의 오브젝트들은 적어도 부분적으로는 노출된 애플리케이션 프로그래밍 인터페이스와 메소드들로의 호출에 응답함으로써, 애플리케이션(214)과 오퍼레이팅 시스템(212)에 의해 유지된다.

통신 인터페이스(208)는 모바일 장치(200)가 정보를 송신 및 수신하도록 하게하는 많은 장치와 기술들을 말한다. 이 장치들은 몇몇을 명하자면 유무선 모뎀, 위성 수신기 및 방송 동조기(broadcast tuner) 등을 포함한다. 모바일 장치(200)는 컴퓨터에 직접적으로 접속되어 그것과 데이터를 교환할 수 있다. 이런 경우, 통신 인터페이스(208)는 적외선 송수신기 혹은 직렬 또는 병렬 통신 접속이 될 수 있으며 이들 모두는 스트리밍 정보를 전송할 수 있다.

I/O 구성요소(206)는 접촉감응식 화면(touch-sensitive screen), 버튼, 롤러, 및 마이크로폰 등의 다양한 입력 장치와, 오디오 생성기, 진동 장치(vibrating device), 및 디스플레이를 포함한 다양한 출력 장치를 포함한다. 앞서 나열된 장치들은 일례에 불과한 것으로, 모바일 장치(200)상의 모든 것들을 제시할 필요는 없다. 이외에도, 다른 I/O 장치가 본 발명의 범위 내에서 모바일 장치(200)에 첨가되거나 모바일 장치(200)와 함께 발견될 수 있다.

본 발명의 일면에는, 패턴 인식 신호의 잡음을 추정하는 시스템과 방법이 제공된다. 이를 위해, 본 발명은 적어도 하나의 이웃한 프레임에 근거한 잡음 추정치의 일부에 기반하여 잡음을 포함하는 신호의 각 프레임의 잡음을 추정하는 순환 알고리즘을 사용한다. 본 발명에는, 시변 잡음 프라이어 분포를 취하며 잡음 추정치는 이전 프레임에서 계산된 포스테리어 잡음의 근사치를 사용하여 순환적으로 갱신 되는, 증분 베이즈 학습을 사용하여 단일 프레임에 대한 잡음 추정이 이루어진다. 상기 순환 과정을 통해, 잡음 추정치는 비정적 잡음을 추적(track)한다.

을 (로그-스펙트럼(spectra) 또는 셉스트럼(cepstra)과 같은) 로그 도메인에 표현되는 잡음 음성 관측 데이터(noisy speech observation data)의 시퀀스라 하고, 일반성이 손상되지 않은 스칼라 값이라고 가정한다. 데이터

은 동일한 데이터 길이 t를 갖는 손상된 잡음 시퀀스

n₁,n₂,...,...,n_t를 순차적으로 추정하기 위해 사용된다. 베이즈 학습 프레임워크(Bayesian learning framework)에서는, (미정 파라미터로 취급되는) 잡음 n에 관한 지식은 p(n)의 소정의 선험적 분포(a priori distribution)에 포함되어 있다고 가정한다. 잡음 시퀀스가 정적, 즉, 잡음의 통계적인 특성이 영구 불변이라면, 임의의 시간에서 잡음 파라미터 n에 관한 종래의 베이즈 추론(즉, 포스테리어를 계산)은 "일괄 모드(batch-mode)" 베이즈의 규칙

,

에 의해 이루어질 수 있다. 여기서, Θ은 잡음 파라미터 공간의 허용되는 영역이다.

이면 잡음 n에 대한 임의의 추정치가 원칙적으로 가능하다. 예를 들면, 잡음 n에 대한 종래의 MAP점 추정치는 포스테리어

의 전역 혹은 국부 최대값으로 계산된다. 최소 평균 제곱 오차(minimum mean square error: MMSE) 추정치는 포스테리어

의 예측값이다.

그러나, 잡음 시퀀스가 비정적이고 잡음 음성

의 트레이닝 데이터(training data)가 가장 실질적은 음성 특징 향상 애플리케이션에서와 같이 순차적으로 나타날때, 시변인 잡음 통계를 추적하기 위해서는 새로운 잡음 추정 기법이 요구된다. 한 순환적인 애플리케이션에서, 베이즈의 규칙은:

로써 표현될 수 있으며

여기에서,

n_t또는

이 주어지면 잡음 음성 y_t와 그것의 과거

간의 조건적 독립성을 취하고

의 평탄성(smoothness) 포스테리어를 취하면, 이전 수학식은:

와 같이 쓰여질 수 있다.

비정적 잡음의 증분 학습은 수학식. 1의 반복된 사용에 의해 다음과 같이 확립될 수 있다. 초기에, 잡음 음성 데이터 y가 없다면, 포스테리어 PDF는 알려진 프라이어

(여기에서 p(n₀)는 단지 알려진 잡음 프레임들의 분석과 가정된 가우스로부터 얻는다.)으로 부터 온다. 그 다음 수학식 1을 이용함으로써, t=1일때:

이 생성되고,

t=2일때는 수학식 2에서 이미 계산된

을 사용하여:

이 생성되고,

t=3일때는, 수학식 1은:

, 등과 같이 된다. 그러므로 이 과정은 순환적으로 포스테리어(

가 유효하다면) 시퀀스를 생성한다.

은 비정적 잡음 시퀀스 에 대해 증분 베이즈의 추론을 행하는 토대를 제공한다. 지금까지 기술되었던 증분 베이즈의 추론의 일반적인 원리는 프레임관련(framewise) 데이터 PDF 을 제공하며, 잡음 프라이어가 가우스라는 간소화 가정하에 특정 음향 왜곡 모델(acoustic distortion model)에 적용될 것이다.

잡음에 적용함으로써, 증분 베이즈 학습은 가장 최근의 과거까지 관찰된 데이터가 주어지면 포스테리어를 이용하여 잡음에 관한 현재 현재 "프라이어" 분포를 갱신하는데, 이는 이 포스테리어가 현재 시간에 선행되는 파라미터에 대한 가장 완전한 정보이기 때문이다. 이 방법은 제1단계에서 잡음을 포함하는 신호(300)가 프레임으로 나누어지는 도 3에서 도시되어 있다. 단계 302에서, 각 프레임마다 증분 베이즈 학습은 각 프레임의 잡음 추정치가 시변 잡음 프라이어 분포를 취하고 잡음 추정치가 이전 시간 프레임에서 계산된 포스테리어 잡음의 근사치를 이용하여 순환적으로 갱신되는 증분 베이즈 학습을 적용시킨다. 그러므로, 수학식 3에 제시된 포스테리어 시퀀스는 (한 프레임 크기 만큼 시간 편이된) 대상이 되는 잡음 분포 파라미터에 대한 시변 프라이어 시퀀스(즉, 프라이어 전개)가 된다. 일실시예에서, 수학식 1에서 지시된 이전 프레임의 잡음 추정치, 바람직하게는 포스테리어 평탄성을 취한 바로 이전의 프레임을 이용하면서, 단계 302는 현재 프레임에 대한 데이터 라이크리후드

을 계산하는 것을 포함할 수 있다.

(간략하게 기술할 것인) 가우스가 아닌 데이터 라이크리후드

에서, 포스테리어는 필연적으로 가우스가 아니게 된다. 연속해서 수학식 1을 적용시키면 이전 포스테리어들의 고속 전개 조합이 산출되어 인트랙터블 형태(intractable form)에 이를 수 있다. 그 인트랙터빌러티(intractability)를 극복하기 위해 근사식이 필요하다. 사용된 근사식은 y_t와 n_t간의 비선형 관계를 선형화하는 1차 테일러 급수 전개를 적용시키기 위한 것이다. 이로써,

의 가우스 형태가 생성된다. 그러므로, 과거 데이터 이력(history)

에 대한 포스테리어로부터 상속되는, 시변 잡음 프라이어 PDF p(n_τ+1)가 가우스에 의해 근사화될 수 있다:

여기서 μ_nτ와

은 프라이어 PDF에 특성을 부여하는 하이퍼파라미터(평균과 분산)라 칭한다. 그 다음 순환식 베이즈의 규칙 수학식 1에서 계산되는 수학식 3의 포스테리어 시퀀스는 후술될 하이퍼파라미터의 시간적 전개를 결정하는 원칙화된 방법을 제공한다.

데이터 라이크리후드

을 계산하는 음향-왜곡 및 순수-음성 모델을 이제 제공할 것이다. 초기에는 순수 음성 χ의 로그-스펙트럼에 대해 시불변 가우스 모델의 혼합을 가정한다:

그 다음 로그-스펙트럼 도메인의 간단한 비선형의 음향-왜곡 모델은:

와 같이 사용될 수 있다.

여기서 비선형 함수는:

이다.

데이터 라이크리후드

을 위한 유용한 형태를 얻기 위해, 테일러 급수 전개를 이용하여 수학식 6에서의 비선형 g를 선형화 시킨다.

이는

의 선형화된 모델을 제공하며, 이 수학식에서 n₀는 테일러 급수 전개점이며 1차 급수 전개 계수는 다음과 같이 쉽게 계산된다:

.

식 7에서 함수 g와 g'를 평가함에 있어서, 순수 음성 값 χ는 "최적화된" 혼합 가우스 컴포넌트 m₀의 평균 (μ_χ(m₀))로 취해진다.

식 7은 (n이 고정된 이후에) 임의의 변수들 χ로부터 y까지의 선형 변환을 정의한다. 이 변환에 근거하여, 라플라스(Laplace) 근사식을 이용하여 χ(수학식 5)의 PDF로부터 이하의 y의 PDF를 얻는다:

여기에서 최적화된 혼합 컴포넌트는

에 의해 결정되고,

여기에서 근사된 가우스들의 평균과 분산은

와 같다.

후술될 바와 같이,

에 대한 가우스 추정치를 이용하여 해당 알고리즘을 전개시킨다. 비록 상기에서는 테일러 급수 전개와 라플라스 근사식을 이용하여

에 대한 가우스 추정치를 제공하였지만, 본 발명의 사상을 벗어나지 않는 한 다른 기법들을 이용하여 가우스 추정치를 제공할 수 있음에 유의해야 할 것이다. 예를 들면, 수학식 8에서 라플라스 근사식을 이용하는 것외에, 근사식을 위한 수치적 기법 또는 (적은 수의 컴포넌트를 가진) 가우스 혼합 모델이 사용될 수 있다.

잡음 프라이어에서 시변 평균과 분산 추정하는 알고리즘을 이제 제공할 수 있다. 수학식 8의

과 수학식 4의

에서와 같이 근사화된 가우스 형 태가 주어지면, 평균 μ_nτ와 분산

의 시변 하이퍼파라미터의 순차적인 추정치로서 표현되는 잡음 프라이어 전개를 결정하는 알고리즘이 제공될 수 있다. 수학식 4와 8을 수학식 1로 치환하면:

을 얻을 수 있다.

여기서

, 이고 잡음 평탄성의 가설이 사용되었다. 각 좌측과 우측의 평균과 분산 각각을 수학식 10에서 일치시켜 다음의 프라이어 전개 공식을 얻는다.

여기에서

이다. 수학식 11을 확립시킴에 있어서, 잡음에 대한 테일러 급수 전개점으로서의 이전 시간의 프라이어 평균; 즉

이 사용된다. (a₁ = g'_m0로 설정한) 가우스 계산에서 잘 확립된 결과 또한 사용하였다:

,

여기서,

한 세트의 간단하지만 효과적인 가정에 근거하여, 근사화된 순환 베이즈의 규칙의 2차항 일치를 이용하여 수학식 11에서 요약된 잡음 프라이어 전개 공식을 성공적으로 도출해 낸다. 평균 잡음 추정치는 RMS 에러 감소에 의해 더욱 정확하게 측정되는 것이 발견된 반면, 분산 정보는 신뢰성의 측정을 제공하기 위해서 사용될 수 있다.

상술한 잡음 추정 기법들은 2002년 4월 5일에 출원된 발명의 명칭이 "동적 음성 형태와 잡음 정규화에 기반한 정정 벡터를 사용한 잡음 감소 방법(METHOD OF NOISE REDUCTION USING CORRECTION VECTORS BASED ON DYNAMIC ASPECT OF SPEECH AND NOISE NORMALIZATION)"인 출원번호 10/117,142호에 개시된 바와 같이 잡음 정규화 기법 또는 잡음 제거법에 사용될 수 있다. 본 발명은 2002년 9월 6일에 출원된 발명의 명칭이 "손상된 신호로 부터 잡음을 제거하는 비선형 감시 모델(NON-LINEAR OBSERVATION MODER FOR REMOVING NOISE FROM CORRUPED SIGNALS)"인 출원번호 10/237,163호에 개시된 바와 같이 잡음을 포함하는 신호로부터 각 프레임마다 식별된 추정된 잡음을 제거시켜 순수 신호를 산출하는 잡음 감소 시스템의 일부로서 보다 직접적으로 사용될 수도 있다.

도 4는 본 발명의 잡음 추정 기법을 이용하여 잡음 감소를 수행하는 환경의 블럭도를 도시한다. 특히, 도 4는 본 발명의 잡음 추정 기법을 사용하여 음향 모델을 트레이닝할 때 사용되는 트레이닝 신호 내에서의 잡음을 감소시키며 및/혹은 테스트 신호의 언어적 항목을 식별하는 음향 모델에 적용시키는 테스트 신호내의 잡음을 감소시키는 음성 인식 시스템을 도시한다.

도 4에는, 트레이너 혹은 사용자인, 스피커(400)가 마이크로폰(404)에 말한다. 마이크로폰(404)은 하나이상의 잡음 소스(402)로부터 추가적인 잡음(additive noise)도 받는다. 마이크로폰(404)에 의해 감지되는 오디오 신호는 아날로그-디지털 변환기(analog-to-digital converter: A-to-D 변환기)(406)에 제공되는 전자 신호로 변환된다.

도 4의 실시예에서 마이크로폰(404)을 통해 들어가는 추가적인 잡음(402)이 도시됐지만, 다른 실시예에서, 추가적인 잡음(402)이 A-D 변환기(406) 이후의 디지털 신호로서 입력 음성 신호에 추가될 수 있다.

A-D 변환기(406)는 마이크로폰(404)의 아날로그 신호를 일련의 디지털 값들로 변환시킨다. 몇몇의 실시예에서, A-D 변환기(406)는 샘플당 16 킬로헤르쯔 및 16비트의 아날로그 신호를 추출하여, 초당 32 킬로바이트의 음성 데이터를 만든다. 이들 디지털 값들은 일실시예에서, 상기 값들을 10 밀리세컨드 시간차를 두고 개시되는 25 밀리세컨드 프레임들로 그룹화하는 프레임 생성자(407)에 제공된다.

프레임 생성자(407)에 의해 생성된 데이터의 프레임들은 각 프레임으로부터 특성을 추출하는 특성 추출기(feature extractor)(408)에 제공된다. 특성 추출 모듈들의 예는 선형 예측 코딩(Linear Predictive Coding: LPC), LPC 파생 셉스트럼, 지각 선형 예측(Perceptive Linear Prediction: PLP), 청각 모델 특성 추출, 및 멜-주기 셉스트럼 계수(Mel-Frequency Cepstrum Coefficients: MFCC) 특성 추출을 수행하는 모듈들을 포함한다. 본 발명은 상기 특성 추출 모듈들로 한정하지 않고 기타 모듈들을 본 발명의 문맥 내에서 사용될 수 있다.

특성 추출 모듈은 음성 신호의 프레임과 각각 결합하는 특성 벡터의 스트림을 생성한다. 이 특성 벡터의 스트림은 본 발명의 잡음 추정 기법을 사용하여 각 프레임의 잡음을 추정하는 잡음 감소 모듈(410)에 제공된다.

잡음 감소 모듈(410)의 출력은 일련의 "순수" 특성 벡터이다. 입력 신호가 트레이닝 신호라면, 상기 일련의 "순수" 특성 벡터는 "순수" 특성 벡터와 트레이닝 텍스트(426)를 사용하여 음향 모델(418)을 트레이닝 하는 트레이너(424)에 제공된다. 이런 모델들을 트레이닝하는 기법은 본 발명이 속한 기술 분야에서 알려졌고, 본 발명의 이해에 있어서 그 기술(description)을 요하지 않는다.

입력 신호가 테스트 신호라면, "순수" 특성 벡터는 복호기(412)에 제공되며 이 복호기는, 특성 벡터의 스트림, 사전(lexicon)(414), 언어 모델(416), 및 음향 모델(418)에 기반하여 가장 근접한 단어 시퀀스를 식별한다. 복호화를 위해 사용된 특정 방법은 본 발명에서 중요한 사항이 아니며 복호화를 위한 몇몇의 알려진 방법들 중 임의의 것을 사용할 수 있다.

가설 단어들의 가장 유망한 시퀀스가 신뢰 측정 모듈(420)에 제공된다. 신뢰 측정 모듈(420)은 제2 음향 모델(도시되지 않음)에 부분적으로 근거하여, 어떤 단어들이 음성 인식기에 의해 부적절하게 식별되어 왔을 가능성이 가장 높은 것인 지를 식별한다. 그 다음 신뢰 측정 모듈(420)은 가설 단어의 시퀀스를 부적절하게 식별되었을 수 있는 단어를 지시하는 식별자와 함께 출력 모듈(422)에 제공한다. 본 발명이 속한 기술 분야에서 숙련된 기술을 가진 자들은 신뢰 측정 모듈(420)은 본 발명의 실행에 필요하지 않다고 인식할 수 있다.

도 4에는 음성 인식 시스템을 도시하지만, 본 발명은 임의의 패턴 인식 시스템에서 사용할 수 있고 음성에 한정되는 것은 아니다.

본 발명은 특정 실시예의 참조로서 기술되고 있지만, 본 발명이 속한 기술 분야에서 숙련된 기술을 가진 자들에 의해 변형은 본 발명의 진의와 범주에 벗어나지 않는 형태와 구체화 내에서 이루어질 수 있다.

Claims

잡음을 포함하는 신호(noisy signal) 내의 잡음(noise)을 추정하는 방법에 있어서,

상기 잡음을 포함하는 신호를 프레임들로 나누는 단계; 및

시변 잡음 프라이어 분포(time-varying noise prior distribution)가 상정되고 잡음 추정치가 이전 프레임에서 계산된 포스테리어 잡음(posterior noise)의 근사치를 사용하여 순환적으로 갱신되는, 증분 베이즈 학습(incremental Bayes learning)을 사용하여 프레임에 대한, 평균과 분산(variance)을 모두 포함하는 잡음 추정치를 결정하는 단계

를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제1항에 있어서,

상기 잡음 추정치를 결정하는 단계는,

이전 프레임에서 계산된 포스테리어 잡음의 근사치를 사용하여 상기 잡음을 포함하는 신호의 제1 프레임에 대한 잡음 추정치를 결정하는 단계;

상기 잡음을 포함하는 신호의 제2 프레임에 대한 데이터 라이크리후드 추정치(data likelihood estimate)를 결정하는 단계; 및

상기 제2 프레임에 대한 상기 데이터 라이크리후드 추정치와 상기 제1 프레임에 대한 잡음 추정치를 사용하여 상기 제2 프레임에 대한 잡음 추정치를 결정하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제2항에 있어서,

상기 제2 프레임에 대한 상기 데이터 라이크리후드 추정치 결정 단계는,

상기 잡음을 포함하는 신호(noisy signal)가 순수(clean) 신호와 잡음(noise) 신호의 비선형 함수라는 정의에 근거한 수학식에서 상기 제2 프레임에 대한 상기 데이터 라이크리후드 추정치를 사용하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제3항에 있어서,

상기 수학식은 또한 상기 비선형 함수의 근사(an approximation to the non-linear function)에 근거하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제4항에 있어서,

상기 근사는 상기 제1 프레임에 대한 상기 잡음 추정치에 의해 정의된 점에서의 상기 비선형 함수와 동일한 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제5항에 있어서,

상기 근사는 테일러 급수 전개(Taylor series expansion)인 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제6항에 있어서,

상기 근사는 라플라스 근사식(Laplace approximation)을 취하는 것을 더 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제2항에 있어서,

상기 제2 프레임에 대한 상기 데이터 라이크리후드 추정치를 사용하는 단계는 비선형 함수의 테일러 급수 전개에 대한 전개점으로서 상기 제1 프레임에 대한 상기 잡음 추정치를 사용하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제1항에 있어서,

상기 포스테리어 잡음의 근사치 사용은 가우스 근사치(Gaussian approximation)의 사용을 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제1항에 있어서,

각 잡음 추정치는 가우스 근사치에 근거한 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제10항에 있어서,

상기 잡음 추정치를 결정하는 단계는 연속되는 각 프레임에 대한 잡음 추정치를 결정하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
잡음을 포함하는 신호 내의 잡음을 추정하는 방법에 있어서,

잡음을 포함하는 신호를 프레임들로 나누는 단계; 및

연속되는 각 프레임들마다, 현재 프레임에 대한 잡음 추정치가 상기 현재 프레임에 대한 데이터 라이크리후드 가우스 근사치와 일련의 이전 프레임들의 잡음의 가우스 근사치에 근거하도록 각 프레임의 잡음을 추정하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제12항에 있어서,

상기 각 프레임의 잡음을 추정하는 단계는 상기 잡음을 포함하는 신호가 순수 신호와 잡음 신호의 비선형 함수라는 정의에 근거하여 현재 프레임의 데이터 라이크리후드의 근사치를 결정하는 수학식을 사용하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제13항에 있어서,

상기 수학식은 또한 상기 비선형 함수의 근사에 기초하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제14항에 있어서,

상기 근사는 이전 프레임에 대한 잡음 추정에 의해 정의되는 점에서 상기 비선형 함수와 동일한 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제15항에 있어서,

상기 근사는 테일러 급수 전개인 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제16항에 있어서,

상기 근사는 라플라스 근사를 더 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
제12항에 있어서,

상기 잡음 추정치는 잡음 평균 추정치와 잡음 분산 추정을 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
구현될 때, 컴퓨터로 하여금 제1항 내지 제18항 중 어느 한 항의 방법을 수행하게 하는 컴퓨터 판독가능한 명령어(instruction)를 포함한 컴퓨터 판독가능 기록 매체.
제1항 내지 제18항 중 어느 한 항의 방법을 수행하도록 적응된 시스템.