KR101004495B1 - 증분 베이즈 학습을 사용하는 잡음 추정 방법 - Google Patents

증분 베이즈 학습을 사용하는 잡음 추정 방법 Download PDF

Info

Publication number
KR101004495B1
KR101004495B1 KR1020040022082A KR20040022082A KR101004495B1 KR 101004495 B1 KR101004495 B1 KR 101004495B1 KR 1020040022082 A KR1020040022082 A KR 1020040022082A KR 20040022082 A KR20040022082 A KR 20040022082A KR 101004495 B1 KR101004495 B1 KR 101004495B1
Authority
KR
South Korea
Prior art keywords
noise
estimate
signal
frame
approximation
Prior art date
Application number
KR1020040022082A
Other languages
English (en)
Other versions
KR20040088360A (ko
Inventor
알레잔드로 아세로
리 뎅
제임스지. 드롭포
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20040088360A publication Critical patent/KR20040088360A/ko
Application granted granted Critical
Publication of KR101004495B1 publication Critical patent/KR101004495B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Noise Elimination (AREA)
  • Complex Calculations (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Picture Signal Circuits (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 방법과 장치는 시변 잡음 프라이어 분포를 취하고 하이퍼파라미터(평균 및 분산)가 이전 시간 단계에서 계산된 포스테리어 근사치를 사용하여 순환적으로 갱신 되는, 증분 베이즈 학습(incremental Bayes learning)을 이용하여 잡음을 포함하는 신호의 추가적인 잡음을 추정한다. 시도메인(time domain) 내에서의 추가적인 잡음은 증분 베이즈 학습의 적용 이전에 로그-스펙트럼 혹은 셉스트럼 도메인 내에서 표현된다. 각각의 개별적인 프레임들의 잡음에 대한 평균과 분산의 추정치 결과를 이용하여 동일한 로그-스펙트럼 또는 셉스트럼 도메인 내에서 음성 특성 향상을 수행한다.
증분 베이즈 학습, 잡음 추정, 가우스, 순환 알고리즘, 음성 인식 시스템, 패턴 인식 시스템

Description

증분 베이즈 학습을 사용하는 잡음 추정 방법{METHOD OF NOISE ESTIMATION USING INCREMENTAL BAYES LEARNING}
도 1은 본 발명을 실행할 수 있는 컴퓨팅 환경을 도시한 블럭도.
도 2는 본 발명을 실행할 수 있는 대안적인 컴퓨팅 환경을 도시한 블럭도.
도 3은 본 발명의 일실시예에서 잡음 추정 방법을 도시한 흐름도.
도 4는 본 발명을 이용할 수 있는 패턴 인식 시스템의 블럭도.
<도면의 주요 부분에 대한 부호의 설명>
120: 프로세싱 유닛
130: 시스템 메모리
137: 프로그램 데이터
144: 오퍼레이팅 시스템
216: 오브젝트 저장소
400: 스피커
404: 마이크로폰
418: 음향 모델
422: 출력 모듈
본 발명은 잡음 추정(noise estimation)에 관한 것으로, 보다 상세히는 패턴 인식(pattern recognition)에 사용되는 신호들 내의 잡음 추정에 관한 것이다.
음성 인식 시스템(speech recognition system)과 같은 패턴 인식 시스템은 입력 신호를 받아 그 신호를 해독하여 그 신호에 의해 표현되는 패턴을 찾으려 한다. 예를 들면, 음성 인식 시스템에서, (자주 테스트 신호라고 칭하는) 음성 신호가 인식 시스템에 의해 받아들여지고 해독되어 그 음성 신호에 의해 표현된 일련의 단어들을 식별한다.
입력 신호는 전형적으로 몇몇 형태의 잡음에 의해서 손상된다. 패턴 인식 시스템의 성능을 향상시키기 위해서는, 종종 잡음을 포함하는 신호 내의 잡음을 추정하는 것이 바람직하다.
과거에는, 신호 내의 잡음을 추정하기 위해 몇몇의 프레임워크를 사용해 왔다. 한 프레임워크에서는, 입력 신호의 각 프레임 내의 잡음을 그 신호 내의 다른 프레임들에서 발견되는 잡음과는 독립적으로 추정하는 일괄(batch) 알고리즘들이 사용된다. 그 다음에 개개의 잡음 추정치들의 전체 평균을 내어 모든 프레임들에 대해 일치하는 잡음 값(consensus noise value)을 형성한다. 제2 프레임워크에서는, 현재 프레임 내의 잡음을 하나 이상의 이전 또는 다음 프레임들의 잡음 추정치에 근거하여 추정하는 순환 알고리즘(recursive algorithm)이 사용된다. 이런 순환 기법(recursive technique)에서는 잡음이 시간이 지남에 따라 천천히 변화하게 된다.
한 순환 기법에서는, 잡음을 포함하는 신호는 순수(clean) 신호와 잡음 신호간의 비선형 함수가 된다고 가정한다. 계산을 돕기 위해, 비선형 함수는 일부 전개점(expansion point)에 관하여 계산되는 트렁케이티드 테일러 급수 전개(truncated taylor series expansion)에 의해 근사화된다. 일반적으로, 테일러 급수 전개는 그 일부 전개점에서 비선형 함수의 최적의 추정값을 제공한다. 그러므로, 테일러 급수 근사는 전개점의 선택 만큼만 양호하다. 종래 기술 분야에서는, 그러나, 테일러 급수의 전개점은 각 프레임마다 최적화되지 않았다. 결과적으로, 순환 알고리즘에 의해 생성된 잡음 추정치는 이상적이지 못했다.
음향 환경(acoustic environment)에서 반복적으로 선형화된 비선형 모델을 사용하는 비정적 잡음의 일련의 지점 추정에 최대 라이크리후드(Maximum-likelihood: ML)와 최대 포스테리어리(maximum a posteriori: MAP) 기법이 사용되어 왔다. 일반적으로, 잡음 분포를 위하여 간단한 가우스(Gaussian) 모델을 사용하면, MAP 추정치는 보다 나은 질의 잡음 추정치를 제공하였다. 그러나, MAP 기법에서, 사전에 가우스 잡음 프라이어(prior)와 연관된 평균과 분산 파라미터들은 한 각 무음성 테스트 어터런스(utterance)의 세그먼트에서 고정된다. 비정적 잡음에서, 이 근사치는 실제 잡음 프라이어 통계를 적절하게 반영하지 않을 수 있다.
이에 비추어 보았을 때, 패턴 신호들 내의 잡음 추정에 보다 효과적인 잡음 추정 기법이 필요하다.
비정적 잡음(nonstationary noise)을 추정하는 새로운 접근법은 증분 베이즈 학습(incremental bayes learning)을 사용하는 것이다. 일면으로는, 이 기법은 하이퍼파라미터(hyperparameter)(평균 및 분산)에 의해 정의될 수 있는, 잡음 추정치(noise estimate)가 이전 시간 또는 프레임 단계에서 계산된 근사치 포스테리어를 사용하여 순환적으로 갱신되는 시변 잡음 프라이어 분포(time-varying noise prior distribution)를 가정함으로써 정의될 수 있다. 다른면에서는, 이 기법은 연속하는 각 프레임마다, 현재 프레임의 잡음 추정치가 현재 프레임에 대한 데이터 라이크리후드(data likelihood)의 가우스 근사치(Gaussian approximation)와 사전 프레임들의 시퀀스 내의 잡음의 가우스 근사치를 근거로 한 각 프레임에서 잡음을 추정하는 것으로 정의된다.
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일 예이며 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 결합에 관한 임의의 종속성(dependency) 또는 요건(requirement)을 갖는 것으로 해석되어서는 안된다.
본 발명은 많은 다른 범용 또는 특수목적 컴퓨팅 시스템 환경들 또는 구성에서 동작할 수 있다. 본 발명에서 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 헨드헬드(hand- held) 혹은 랩탑(laptop) 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스(set top box), 프로그램가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 대형 컴퓨터, 전화 시스템, 상기의 시스템 또는 장치중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이에 한정되지 않는다.
본 발명은 일반적으로 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령에 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 프로그램과 모듈에 의해 수행되는 태스크는 도면과 함께 하단에 기술된다. 본 기술 분야에서 숙련된 기술을 가진 자들은 이하에 설명된 컴퓨터 판독가능 매체의 임의의 형태에 구현될 수 있는, 컴퓨터 실행가능 명령으로 상기 기술(description) 및/또는 본 명세서에 도시된 도면들을 구현할 수 있다.
본 발명은 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산 컴퓨팅 환경에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 국부 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 메모리 버스, 즉 메모리 컨트롤러, 주변 버스, 및 로컬 버스를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로써, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 메자닌(Mezzanine) 버스로도 알려진 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 한정되는 것은 아니다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있으며, 휘발성 및 비휘발성 매체, 이동식(removable) 및 이동불가식(non-removable) 매체를 둘다 포함한다. 예로써, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 이동불가식 매체를 둘다 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터(110)에 의해 액세스될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 피변조 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는 신호 내의 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중 임의의 결합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.
컴퓨터(110)는 또한 다른 이동식/이동불가식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 이동불가식 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드디스크 드라이브(141), 이동식 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 이동식 비휘발성 광학 디스크(156)로부터 판독하거나 그 광학 디스크에 기록하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 이동식/이동불가식, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 이동불가식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.
사용자는 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼, 또는 터치 패드 등의 포인팅 장치(161)를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 조이스틱, 게임패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 헨드헬드(hand-held) 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 LAN(171) 및 WAN(173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(180)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.
도 2는 예시적인 컴퓨팅 환경인 모바일 장치(200)의 블럭도이다. 모바일 장치(200)는 마이크로프로세서(202), 메모리(204), I/O 구성요소(206), 및 원격 컴퓨터 또는 기타 모바일 장치와의 통신을 위한 통신 인터페이스(208)를 포함한다. 일실시예에서, 앞서 언급한 구성요소들은 적절한 버스(210)를 통해 서로간의 통신을 위해 연결된다.
메모리(204)는 모바일 장치(200)의 일반 전원이 꺼졌을 때에도 메모리(204)에 저장된 정보를 잃어버리지 않은 배터리 백업 모듈(도시되지 않음)을 갖는 RAM과 같은 비휘발성 전자 메모리로 구현된다. 메모리(204)의 일부는 프로그램 실행을 위한 주소 지정 메모리로서 할당되는 것이 바람직한 반면, 메모리(204)의 다른 부분은 디스크 드라이브상의 저장장치를 모방한 것처럼, 저장장치로서 사용되는 것이 바람직하다.
메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214) 및 오 브젝트 저장소(216)를 포함한다. 동작중에, 오퍼레이팅 시스템(212)은 메모리(204)로부터 프로세서(202)에 의해 실행되는 것이 바람직하다. 바람직한 일실시예의 오퍼레이팅 시스템(212)은 마이크로소프트사에서 상업적으로 사용가능한 MICROSOFT
Figure 112004013372981-pat00001
CE 브랜드 오퍼레이팅 시스템이다. 오퍼레이팅 시스템(212)은 모바일 장치용으로 설계되는 것이 바람직하고, 한 세트의 노출된 애플리케이션 프로그래밍 인터페이스와 메소드(method)들을 통한 애플리케이션(214)에 의해 이용될 수 있는 특성을 가진 데이터베이스를 구현한다. 오브젝트 저장소(216)의 오브젝트들은 적어도 부분적으로는 노출된 애플리케이션 프로그래밍 인터페이스와 메소드들로의 호출에 응답함으로써, 애플리케이션(214)과 오퍼레이팅 시스템(212)에 의해 유지된다.
통신 인터페이스(208)는 모바일 장치(200)가 정보를 송신 및 수신하도록 하게하는 많은 장치와 기술들을 말한다. 이 장치들은 몇몇을 명하자면 유무선 모뎀, 위성 수신기 및 방송 동조기(broadcast tuner) 등을 포함한다. 모바일 장치(200)는 컴퓨터에 직접적으로 접속되어 그것과 데이터를 교환할 수 있다. 이런 경우, 통신 인터페이스(208)는 적외선 송수신기 혹은 직렬 또는 병렬 통신 접속이 될 수 있으며 이들 모두는 스트리밍 정보를 전송할 수 있다.
I/O 구성요소(206)는 접촉감응식 화면(touch-sensitive screen), 버튼, 롤러, 및 마이크로폰 등의 다양한 입력 장치와, 오디오 생성기, 진동 장치(vibrating device), 및 디스플레이를 포함한 다양한 출력 장치를 포함한다. 앞서 나열된 장치들은 일례에 불과한 것으로, 모바일 장치(200)상의 모든 것들을 제시할 필요는 없다. 이외에도, 다른 I/O 장치가 본 발명의 범위 내에서 모바일 장치(200)에 첨가되거나 모바일 장치(200)와 함께 발견될 수 있다.
본 발명의 일면에는, 패턴 인식 신호의 잡음을 추정하는 시스템과 방법이 제공된다. 이를 위해, 본 발명은 적어도 하나의 이웃한 프레임에 근거한 잡음 추정치의 일부에 기반하여 잡음을 포함하는 신호의 각 프레임의 잡음을 추정하는 순환 알고리즘을 사용한다. 본 발명에는, 시변 잡음 프라이어 분포를 취하며 잡음 추정치는 이전 프레임에서 계산된 포스테리어 잡음의 근사치를 사용하여 순환적으로 갱신 되는, 증분 베이즈 학습을 사용하여 단일 프레임에 대한 잡음 추정이 이루어진다. 상기 순환 과정을 통해, 잡음 추정치는 비정적 잡음을 추적(track)한다.
Figure 112004013372981-pat00002
을 (로그-스펙트럼(spectra) 또는 셉스트럼(cepstra)과 같은) 로그 도메인에 표현되는 잡음 음성 관측 데이터(noisy speech observation data)의 시퀀스라 하고, 일반성이 손상되지 않은 스칼라 값이라고 가정한다. 데이터
Figure 112004013372981-pat00003
은 동일한 데이터 길이 t를 갖는 손상된 잡음 시퀀스
Figure 112004013372981-pat00004
n1,n2,...,...,nt를 순차적으로 추정하기 위해 사용된다. 베이즈 학습 프레임워크(Bayesian learning framework)에서는, (미정 파라미터로 취급되는) 잡음 n에 관한 지식은 p(n)의 소정의 선험적 분포(a priori distribution)에 포함되어 있다고 가정한다. 잡음 시퀀스가 정적, 즉, 잡음의 통계적인 특성이 영구 불변이라면, 임의의 시간에서 잡음 파라미터 n에 관한 종래의 베이즈 추론(즉, 포스테리어를 계산)은 "일괄 모드(batch-mode)" 베이즈의 규칙
Figure 112004013372981-pat00005
,
에 의해 이루어질 수 있다. 여기서, Θ은 잡음 파라미터 공간의 허용되는 영역이다.
Figure 112004013372981-pat00006
이면 잡음 n에 대한 임의의 추정치가 원칙적으로 가능하다. 예를 들면, 잡음 n에 대한 종래의 MAP점 추정치는 포스테리어
Figure 112004013372981-pat00007
의 전역 혹은 국부 최대값으로 계산된다. 최소 평균 제곱 오차(minimum mean square error: MMSE) 추정치는 포스테리어
Figure 112004013372981-pat00008
의 예측값이다.
그러나, 잡음 시퀀스가 비정적이고 잡음 음성
Figure 112004013372981-pat00009
의 트레이닝 데이터(training data)가 가장 실질적은 음성 특징 향상 애플리케이션에서와 같이 순차적으로 나타날때, 시변인 잡음 통계를 추적하기 위해서는 새로운 잡음 추정 기법이 요구된다. 한 순환적인 애플리케이션에서, 베이즈의 규칙은:
Figure 112004013372981-pat00010
로써 표현될 수 있으며
여기에서,
Figure 112004013372981-pat00011
nt 또는
Figure 112004013372981-pat00012
이 주어지면 잡음 음성 yt와 그것의 과거
Figure 112004013372981-pat00013
간의 조건적 독립성을 취하고
Figure 112004013372981-pat00014
의 평탄성(smoothness) 포스테리어를 취하면, 이전 수학식은:
Figure 112004013372981-pat00015
와 같이 쓰여질 수 있다.
비정적 잡음의 증분 학습은 수학식. 1의 반복된 사용에 의해 다음과 같이 확립될 수 있다. 초기에, 잡음 음성 데이터 y가 없다면, 포스테리어 PDF는 알려진 프라이어
Figure 112004013372981-pat00016
(여기에서 p(n0)는 단지 알려진 잡음 프레임들의 분석과 가정된 가우스로부터 얻는다.)으로 부터 온다. 그 다음 수학식 1을 이용함으로써, t=1일때:
Figure 112004013372981-pat00017
이 생성되고,
t=2일때는 수학식 2에서 이미 계산된
Figure 112004013372981-pat00018
을 사용하여:
Figure 112004013372981-pat00019
이 생성되고,
t=3일때는, 수학식 1은:
Figure 112004013372981-pat00020
, 등과 같이 된다. 그러므로 이 과정은 순환적으로 포스테리어(
Figure 112004013372981-pat00021
가 유효하다면) 시퀀스를 생성한다.
Figure 112004013372981-pat00022
Figure 112004013372981-pat00023
Figure 112004013372981-pat00024
은 비정적 잡음 시퀀스 에 대해 증분 베이즈의 추론을 행하는 토대를 제공한다. 지금까지 기술되었던 증분 베이즈의 추론의 일반적인 원리는 프레임관련(framewise) 데이터 PDF 을 제공하며, 잡음 프라이어가 가우스라는 간소화 가정하에 특정 음향 왜곡 모델(acoustic distortion model)에 적용될 것이다.
잡음에 적용함으로써, 증분 베이즈 학습은 가장 최근의 과거까지 관찰된 데이터가 주어지면 포스테리어를 이용하여 잡음에 관한 현재 현재 "프라이어" 분포를 갱신하는데, 이는 이 포스테리어가 현재 시간에 선행되는 파라미터에 대한 가장 완전한 정보이기 때문이다. 이 방법은 제1단계에서 잡음을 포함하는 신호(300)가 프레임으로 나누어지는 도 3에서 도시되어 있다. 단계 302에서, 각 프레임마다 증분 베이즈 학습은 각 프레임의 잡음 추정치가 시변 잡음 프라이어 분포를 취하고 잡음 추정치가 이전 시간 프레임에서 계산된 포스테리어 잡음의 근사치를 이용하여 순환적으로 갱신되는 증분 베이즈 학습을 적용시킨다. 그러므로, 수학식 3에 제시된 포스테리어 시퀀스는 (한 프레임 크기 만큼 시간 편이된) 대상이 되는 잡음 분포 파라미터에 대한 시변 프라이어 시퀀스(즉, 프라이어 전개)가 된다. 일실시예에서, 수학식 1에서 지시된 이전 프레임의 잡음 추정치, 바람직하게는 포스테리어 평탄성을 취한 바로 이전의 프레임을 이용하면서, 단계 302는 현재 프레임에 대한 데이터 라이크리후드
Figure 112010069471114-pat00025
을 계산하는 것을 포함할 수 있다.
(간략하게 기술할 것인) 가우스가 아닌 데이터 라이크리후드
Figure 112004013372981-pat00026
에서, 포스테리어는 필연적으로 가우스가 아니게 된다. 연속해서 수학식 1을 적용시키면 이전 포스테리어들의 고속 전개 조합이 산출되어 인트랙터블 형태(intractable form)에 이를 수 있다. 그 인트랙터빌러티(intractability)를 극복하기 위해 근사식이 필요하다. 사용된 근사식은 yt와 nt간의 비선형 관계를 선형화하는 1차 테일러 급수 전개를 적용시키기 위한 것이다. 이로써,
Figure 112004013372981-pat00027
의 가우스 형태가 생성된다. 그러므로, 과거 데이터 이력(history)
Figure 112004013372981-pat00028
에 대한 포스테리어로부터 상속되는, 시변 잡음 프라이어 PDF p(nτ+1)가 가우스에 의해 근사화될 수 있다:
Figure 112004013372981-pat00029
여기서 μ
Figure 112004013372981-pat00030
은 프라이어 PDF에 특성을 부여하는 하이퍼파라미터(평균과 분산)라 칭한다. 그 다음 순환식 베이즈의 규칙 수학식 1에서 계산되는 수학식 3의 포스테리어 시퀀스는 후술될 하이퍼파라미터의 시간적 전개를 결정하는 원칙화된 방법을 제공한다.
데이터 라이크리후드
Figure 112004013372981-pat00031
을 계산하는 음향-왜곡 및 순수-음성 모델을 이제 제공할 것이다. 초기에는 순수 음성 χ의 로그-스펙트럼에 대해 시불변 가우스 모델의 혼합을 가정한다:
Figure 112004013372981-pat00032
그 다음 로그-스펙트럼 도메인의 간단한 비선형의 음향-왜곡 모델은:
Figure 112004013372981-pat00033
와 같이 사용될 수 있다.
여기서 비선형 함수는:
Figure 112004013372981-pat00034
이다.
데이터 라이크리후드
Figure 112004013372981-pat00035
을 위한 유용한 형태를 얻기 위해, 테일러 급수 전개를 이용하여 수학식 6에서의 비선형 g를 선형화 시킨다.
이는
Figure 112004013372981-pat00036
의 선형화된 모델을 제공하며, 이 수학식에서 n0는 테일러 급수 전개점이며 1차 급수 전개 계수는 다음과 같이 쉽게 계산된다:
Figure 112004013372981-pat00037
.
식 7에서 함수 g와 g'를 평가함에 있어서, 순수 음성 값 χ는 "최적화된" 혼합 가우스 컴포넌트 m0의 평균 (μχ(m0))로 취해진다.
식 7은 (n이 고정된 이후에) 임의의 변수들 χ로부터 y까지의 선형 변환을 정의한다. 이 변환에 근거하여, 라플라스(Laplace) 근사식을 이용하여 χ(수학식 5)의 PDF로부터 이하의 y의 PDF를 얻는다:
Figure 112004013372981-pat00038
여기에서 최적화된 혼합 컴포넌트는
Figure 112004013372981-pat00039
에 의해 결정되고,
여기에서 근사된 가우스들의 평균과 분산은
Figure 112004013372981-pat00040
와 같다.
후술될 바와 같이,
Figure 112004013372981-pat00041
에 대한 가우스 추정치를 이용하여 해당 알고리즘을 전개시킨다. 비록 상기에서는 테일러 급수 전개와 라플라스 근사식을 이용하여
Figure 112004013372981-pat00042
에 대한 가우스 추정치를 제공하였지만, 본 발명의 사상을 벗어나지 않는 한 다른 기법들을 이용하여 가우스 추정치를 제공할 수 있음에 유의해야 할 것이다. 예를 들면, 수학식 8에서 라플라스 근사식을 이용하는 것외에, 근사식을 위한 수치적 기법 또는 (적은 수의 컴포넌트를 가진) 가우스 혼합 모델이 사용될 수 있다.
잡음 프라이어에서 시변 평균과 분산 추정하는 알고리즘을 이제 제공할 수 있다. 수학식 8의
Figure 112004013372981-pat00043
과 수학식 4의
Figure 112004013372981-pat00044
에서와 같이 근사화된 가우스 형 태가 주어지면, 평균 μ와 분산
Figure 112004013372981-pat00045
의 시변 하이퍼파라미터의 순차적인 추정치로서 표현되는 잡음 프라이어 전개를 결정하는 알고리즘이 제공될 수 있다. 수학식 4와 8을 수학식 1로 치환하면:
Figure 112004013372981-pat00046
을 얻을 수 있다.
여기서
Figure 112004013372981-pat00047
, 이고 잡음 평탄성의 가설이 사용되었다. 각 좌측과 우측의 평균과 분산 각각을 수학식 10에서 일치시켜 다음의 프라이어 전개 공식을 얻는다.
Figure 112004013372981-pat00048
여기에서
Figure 112004013372981-pat00049
이다. 수학식 11을 확립시킴에 있어서, 잡음에 대한 테일러 급수 전개점으로서의 이전 시간의 프라이어 평균; 즉
Figure 112004013372981-pat00050
이 사용된다. (a1 = g'm0로 설정한) 가우스 계산에서 잘 확립된 결과 또한 사용하였다:
Figure 112004013372981-pat00051
,
여기서,
Figure 112004013372981-pat00052
한 세트의 간단하지만 효과적인 가정에 근거하여, 근사화된 순환 베이즈의 규칙의 2차항 일치를 이용하여 수학식 11에서 요약된 잡음 프라이어 전개 공식을 성공적으로 도출해 낸다. 평균 잡음 추정치는 RMS 에러 감소에 의해 더욱 정확하게 측정되는 것이 발견된 반면, 분산 정보는 신뢰성의 측정을 제공하기 위해서 사용될 수 있다.
상술한 잡음 추정 기법들은 2002년 4월 5일에 출원된 발명의 명칭이 "동적 음성 형태와 잡음 정규화에 기반한 정정 벡터를 사용한 잡음 감소 방법(METHOD OF NOISE REDUCTION USING CORRECTION VECTORS BASED ON DYNAMIC ASPECT OF SPEECH AND NOISE NORMALIZATION)"인 출원번호 10/117,142호에 개시된 바와 같이 잡음 정규화 기법 또는 잡음 제거법에 사용될 수 있다. 본 발명은 2002년 9월 6일에 출원된 발명의 명칭이 "손상된 신호로 부터 잡음을 제거하는 비선형 감시 모델(NON-LINEAR OBSERVATION MODER FOR REMOVING NOISE FROM CORRUPED SIGNALS)"인 출원번호 10/237,163호에 개시된 바와 같이 잡음을 포함하는 신호로부터 각 프레임마다 식별된 추정된 잡음을 제거시켜 순수 신호를 산출하는 잡음 감소 시스템의 일부로서 보다 직접적으로 사용될 수도 있다.
도 4는 본 발명의 잡음 추정 기법을 이용하여 잡음 감소를 수행하는 환경의 블럭도를 도시한다. 특히, 도 4는 본 발명의 잡음 추정 기법을 사용하여 음향 모델을 트레이닝할 때 사용되는 트레이닝 신호 내에서의 잡음을 감소시키며 및/혹은 테스트 신호의 언어적 항목을 식별하는 음향 모델에 적용시키는 테스트 신호내의 잡음을 감소시키는 음성 인식 시스템을 도시한다.
도 4에는, 트레이너 혹은 사용자인, 스피커(400)가 마이크로폰(404)에 말한다. 마이크로폰(404)은 하나이상의 잡음 소스(402)로부터 추가적인 잡음(additive noise)도 받는다. 마이크로폰(404)에 의해 감지되는 오디오 신호는 아날로그-디지털 변환기(analog-to-digital converter: A-to-D 변환기)(406)에 제공되는 전자 신호로 변환된다.
도 4의 실시예에서 마이크로폰(404)을 통해 들어가는 추가적인 잡음(402)이 도시됐지만, 다른 실시예에서, 추가적인 잡음(402)이 A-D 변환기(406) 이후의 디지털 신호로서 입력 음성 신호에 추가될 수 있다.
A-D 변환기(406)는 마이크로폰(404)의 아날로그 신호를 일련의 디지털 값들로 변환시킨다. 몇몇의 실시예에서, A-D 변환기(406)는 샘플당 16 킬로헤르쯔 및 16비트의 아날로그 신호를 추출하여, 초당 32 킬로바이트의 음성 데이터를 만든다. 이들 디지털 값들은 일실시예에서, 상기 값들을 10 밀리세컨드 시간차를 두고 개시되는 25 밀리세컨드 프레임들로 그룹화하는 프레임 생성자(407)에 제공된다.
프레임 생성자(407)에 의해 생성된 데이터의 프레임들은 각 프레임으로부터 특성을 추출하는 특성 추출기(feature extractor)(408)에 제공된다. 특성 추출 모듈들의 예는 선형 예측 코딩(Linear Predictive Coding: LPC), LPC 파생 셉스트럼, 지각 선형 예측(Perceptive Linear Prediction: PLP), 청각 모델 특성 추출, 및 멜-주기 셉스트럼 계수(Mel-Frequency Cepstrum Coefficients: MFCC) 특성 추출을 수행하는 모듈들을 포함한다. 본 발명은 상기 특성 추출 모듈들로 한정하지 않고 기타 모듈들을 본 발명의 문맥 내에서 사용될 수 있다.
특성 추출 모듈은 음성 신호의 프레임과 각각 결합하는 특성 벡터의 스트림을 생성한다. 이 특성 벡터의 스트림은 본 발명의 잡음 추정 기법을 사용하여 각 프레임의 잡음을 추정하는 잡음 감소 모듈(410)에 제공된다.
잡음 감소 모듈(410)의 출력은 일련의 "순수" 특성 벡터이다. 입력 신호가 트레이닝 신호라면, 상기 일련의 "순수" 특성 벡터는 "순수" 특성 벡터와 트레이닝 텍스트(426)를 사용하여 음향 모델(418)을 트레이닝 하는 트레이너(424)에 제공된다. 이런 모델들을 트레이닝하는 기법은 본 발명이 속한 기술 분야에서 알려졌고, 본 발명의 이해에 있어서 그 기술(description)을 요하지 않는다.
입력 신호가 테스트 신호라면, "순수" 특성 벡터는 복호기(412)에 제공되며 이 복호기는, 특성 벡터의 스트림, 사전(lexicon)(414), 언어 모델(416), 및 음향 모델(418)에 기반하여 가장 근접한 단어 시퀀스를 식별한다. 복호화를 위해 사용된 특정 방법은 본 발명에서 중요한 사항이 아니며 복호화를 위한 몇몇의 알려진 방법들 중 임의의 것을 사용할 수 있다.
가설 단어들의 가장 유망한 시퀀스가 신뢰 측정 모듈(420)에 제공된다. 신뢰 측정 모듈(420)은 제2 음향 모델(도시되지 않음)에 부분적으로 근거하여, 어떤 단어들이 음성 인식기에 의해 부적절하게 식별되어 왔을 가능성이 가장 높은 것인 지를 식별한다. 그 다음 신뢰 측정 모듈(420)은 가설 단어의 시퀀스를 부적절하게 식별되었을 수 있는 단어를 지시하는 식별자와 함께 출력 모듈(422)에 제공한다. 본 발명이 속한 기술 분야에서 숙련된 기술을 가진 자들은 신뢰 측정 모듈(420)은 본 발명의 실행에 필요하지 않다고 인식할 수 있다.
도 4에는 음성 인식 시스템을 도시하지만, 본 발명은 임의의 패턴 인식 시스템에서 사용할 수 있고 음성에 한정되는 것은 아니다.
본 발명은 특정 실시예의 참조로서 기술되고 있지만, 본 발명이 속한 기술 분야에서 숙련된 기술을 가진 자들에 의해 변형은 본 발명의 진의와 범주에 벗어나지 않는 형태와 구체화 내에서 이루어질 수 있다.
비정적 잡음(nonstationary noise)을 추정하는 새로운 접근법은 증분 베이즈 학습(incremental bayes learning)을 사용하는 것이다. 일면으로는, 이 기법은 하이퍼파라미터(hyperparameter)(평균 및 분산)에 의해 정의될 수 있는, 잡음 추정치(noise estimate)가 이전 시간 또는 프레임 단계에서 계산된 근사치 포스테리어를 사용하여 순환적으로 갱신되는 시변 잡음 프라이어 분포(time-varying noise prior distribution)를 가정함으로써 정의될 수 있다. 다른면에서는, 이 기법은 연속하는 각 프레임마다, 현재 프레임의 잡음 추정치가 현재 프레임에 대한 데이터 라이크리후드(data likelihood)의 가우스 근사치(Gaussian approximation)와 사전 프레임들의 시퀀스 내의 잡음의 가우스 근사치를 근거로 한 각 프레임에서 잡음을 추정하는 것으로 정의된다.

Claims (20)

  1. 잡음을 포함하는 신호(noisy signal) 내의 잡음(noise)을 추정하는 방법에 있어서,
    상기 잡음을 포함하는 신호를 프레임들로 나누는 단계; 및
    시변 잡음 프라이어 분포(time-varying noise prior distribution)가 상정되고 잡음 추정치가 이전 프레임에서 계산된 포스테리어 잡음(posterior noise)의 근사치를 사용하여 순환적으로 갱신되는, 증분 베이즈 학습(incremental Bayes learning)을 사용하여 프레임에 대한, 평균과 분산(variance)을 모두 포함하는 잡음 추정치를 결정하는 단계
    를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  2. 제1항에 있어서,
    상기 잡음 추정치를 결정하는 단계는,
    이전 프레임에서 계산된 포스테리어 잡음의 근사치를 사용하여 상기 잡음을 포함하는 신호의 제1 프레임에 대한 잡음 추정치를 결정하는 단계;
    상기 잡음을 포함하는 신호의 제2 프레임에 대한 데이터 라이크리후드 추정치(data likelihood estimate)를 결정하는 단계; 및
    상기 제2 프레임에 대한 상기 데이터 라이크리후드 추정치와 상기 제1 프레임에 대한 잡음 추정치를 사용하여 상기 제2 프레임에 대한 잡음 추정치를 결정하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  3. 제2항에 있어서,
    상기 제2 프레임에 대한 상기 데이터 라이크리후드 추정치 결정 단계는,
    상기 잡음을 포함하는 신호(noisy signal)가 순수(clean) 신호와 잡음(noise) 신호의 비선형 함수라는 정의에 근거한 수학식에서 상기 제2 프레임에 대한 상기 데이터 라이크리후드 추정치를 사용하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  4. 제3항에 있어서,
    상기 수학식은 또한 상기 비선형 함수의 근사(an approximation to the non-linear function)에 근거하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  5. 제4항에 있어서,
    상기 근사는 상기 제1 프레임에 대한 상기 잡음 추정치에 의해 정의된 점에서의 상기 비선형 함수와 동일한 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  6. 제5항에 있어서,
    상기 근사는 테일러 급수 전개(Taylor series expansion)인 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  7. 제6항에 있어서,
    상기 근사는 라플라스 근사식(Laplace approximation)을 취하는 것을 더 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  8. 제2항에 있어서,
    상기 제2 프레임에 대한 상기 데이터 라이크리후드 추정치를 사용하는 단계는 비선형 함수의 테일러 급수 전개에 대한 전개점으로서 상기 제1 프레임에 대한 상기 잡음 추정치를 사용하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  9. 제1항에 있어서,
    상기 포스테리어 잡음의 근사치 사용은 가우스 근사치(Gaussian approximation)의 사용을 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  10. 제1항에 있어서,
    각 잡음 추정치는 가우스 근사치에 근거한 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  11. 제10항에 있어서,
    상기 잡음 추정치를 결정하는 단계는 연속되는 각 프레임에 대한 잡음 추정치를 결정하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  12. 잡음을 포함하는 신호 내의 잡음을 추정하는 방법에 있어서,
    잡음을 포함하는 신호를 프레임들로 나누는 단계; 및
    연속되는 각 프레임들마다, 현재 프레임에 대한 잡음 추정치가 상기 현재 프레임에 대한 데이터 라이크리후드 가우스 근사치와 일련의 이전 프레임들의 잡음의 가우스 근사치에 근거하도록 각 프레임의 잡음을 추정하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  13. 제12항에 있어서,
    상기 각 프레임의 잡음을 추정하는 단계는 상기 잡음을 포함하는 신호가 순수 신호와 잡음 신호의 비선형 함수라는 정의에 근거하여 현재 프레임의 데이터 라이크리후드의 근사치를 결정하는 수학식을 사용하는 단계를 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  14. 제13항에 있어서,
    상기 수학식은 또한 상기 비선형 함수의 근사에 기초하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  15. 제14항에 있어서,
    상기 근사는 이전 프레임에 대한 잡음 추정에 의해 정의되는 점에서 상기 비선형 함수와 동일한 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  16. 제15항에 있어서,
    상기 근사는 테일러 급수 전개인 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  17. 제16항에 있어서,
    상기 근사는 라플라스 근사를 더 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  18. 제12항에 있어서,
    상기 잡음 추정치는 잡음 평균 추정치와 잡음 분산 추정을 포함하는 잡음을 포함하는 신호 내의 잡음을 추정하는 방법.
  19. 구현될 때, 컴퓨터로 하여금 제1항 내지 제18항 중 어느 한 항의 방법을 수행하게 하는 컴퓨터 판독가능한 명령어(instruction)를 포함한 컴퓨터 판독가능 기록 매체.
  20. 제1항 내지 제18항 중 어느 한 항의 방법을 수행하도록 적응된 시스템.
KR1020040022082A 2003-03-31 2004-03-31 증분 베이즈 학습을 사용하는 잡음 추정 방법 KR101004495B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/403,638 US7165026B2 (en) 2003-03-31 2003-03-31 Method of noise estimation using incremental bayes learning
US10/403,638 2003-03-31

Publications (2)

Publication Number Publication Date
KR20040088360A KR20040088360A (ko) 2004-10-16
KR101004495B1 true KR101004495B1 (ko) 2010-12-31

Family

ID=32850571

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040022082A KR101004495B1 (ko) 2003-03-31 2004-03-31 증분 베이즈 학습을 사용하는 잡음 추정 방법

Country Status (12)

Country Link
US (1) US7165026B2 (ko)
EP (1) EP1465160B1 (ko)
JP (1) JP4824286B2 (ko)
KR (1) KR101004495B1 (ko)
CN (1) CN100336102C (ko)
AT (1) ATE526664T1 (ko)
AU (1) AU2004201076B2 (ko)
BR (1) BRPI0400793A (ko)
CA (1) CA2461083C (ko)
ES (1) ES2371548T3 (ko)
MX (1) MXPA04002919A (ko)
RU (1) RU2370831C2 (ko)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US6957226B2 (en) * 2002-06-27 2005-10-18 Microsoft Corporation Searching multi-media databases using multi-media queries
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
KR100755678B1 (ko) * 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JP4868999B2 (ja) * 2006-09-22 2012-02-01 富士通株式会社 音声認識方法、音声認識装置及びコンピュータプログラム
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
US7626889B2 (en) * 2007-04-06 2009-12-01 Microsoft Corporation Sensor array post-filter for tracking spatial distributions of signals and noise
US8214215B2 (en) 2008-09-24 2012-07-03 Microsoft Corporation Phase sensitive model adaptation for noisy speech recognition
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
KR100901367B1 (ko) 2008-10-09 2009-06-05 인하대학교 산학협력단 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
US9159335B2 (en) * 2008-10-10 2015-10-13 Samsung Electronics Co., Ltd. Apparatus and method for noise estimation, and noise reduction apparatus employing the same
US8639502B1 (en) 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
WO2011032207A1 (en) * 2009-09-15 2011-03-24 The University Of Sydney A method and system for multiple dataset gaussian process modeling
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN102543092B (zh) * 2010-12-29 2014-02-05 联芯科技有限公司 一种噪声估计方法及装置
CN102185661B (zh) * 2010-12-31 2013-08-21 哈尔滨工业大学深圳研究生院 基于梯度法贝叶斯准则下的噪声增强分布检测方法及***
US20120245927A1 (en) * 2011-03-21 2012-09-27 On Semiconductor Trading Ltd. System and method for monaural audio processing based preserving speech information
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
CN103295582B (zh) * 2012-03-02 2016-04-20 联芯科技有限公司 噪声抑制方法及其***
US9258653B2 (en) 2012-03-21 2016-02-09 Semiconductor Components Industries, Llc Method and system for parameter based adaptation of clock speeds to listening devices and audio applications
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN104253650B (zh) * 2013-06-27 2016-12-28 富士通株式会社 信道内非线性损伤的估计装置及方法
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103854662B (zh) * 2014-03-04 2017-03-15 ***装备发展部第六十三研究所 基于多域联合估计的自适应语音检测方法
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN105099618A (zh) * 2015-06-03 2015-11-25 香港中文大学深圳研究院 一种基于物理层网络编码的解码方法及相应数据处理方法
US10474950B2 (en) * 2015-06-29 2019-11-12 Microsoft Technology Licensing, Llc Training and operation of computational models
CN109657273B (zh) * 2018-11-16 2023-07-04 重庆大学 一种基于噪声增强的贝叶斯参数估计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
JP2002123285A (ja) 2000-10-13 2002-04-26 Sony Corp 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置
US20030055640A1 (en) 2001-05-01 2003-03-20 Ramot University Authority For Applied Research & Industrial Development Ltd. System and method for parameter estimation for pattern recognition

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
JPH11296515A (ja) * 1998-04-10 1999-10-29 Nippon Telegr & Teleph Corp <Ntt> 言語モデルの近似学習装置及び方法、並びに、近似学習プログラムを記録した記録媒体
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US6571208B1 (en) * 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
GB2363557A (en) * 2000-06-16 2001-12-19 At & T Lab Cambridge Ltd Method of extracting a signal from a contaminated signal
ITRM20000404A1 (it) * 2000-07-21 2002-01-21 Mario Zanchini Dispositivo contenitore pieghevole di rifiuti per autoveicoli, a struttura autoadesiva e con sacchetti sostituibili.
US7061977B2 (en) * 2000-09-11 2006-06-13 Koninklijke Philips Electronics N.V. Apparatus and method for using adaptive algorithms to exploit sparsity in target weight vectors in an adaptive channel equalizer
US6944590B2 (en) * 2002-04-05 2005-09-13 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP3523243B1 (ja) * 2002-10-01 2004-04-26 沖電気工業株式会社 ノイズ低減装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
JP2002123285A (ja) 2000-10-13 2002-04-26 Sony Corp 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置
US20030055640A1 (en) 2001-05-01 2003-03-20 Ramot University Authority For Applied Research & Industrial Development Ltd. System and method for parameter estimation for pattern recognition

Also Published As

Publication number Publication date
US20040190732A1 (en) 2004-09-30
EP1465160A2 (en) 2004-10-06
MXPA04002919A (es) 2005-06-17
ATE526664T1 (de) 2011-10-15
RU2370831C2 (ru) 2009-10-20
CA2461083C (en) 2013-01-29
CN1534598A (zh) 2004-10-06
ES2371548T3 (es) 2012-01-05
BRPI0400793A (pt) 2005-01-11
CA2461083A1 (en) 2004-09-30
EP1465160B1 (en) 2011-09-28
AU2004201076B2 (en) 2009-08-13
AU2004201076A1 (en) 2004-10-21
EP1465160A3 (en) 2005-01-12
RU2004109571A (ru) 2005-10-20
US7165026B2 (en) 2007-01-16
KR20040088360A (ko) 2004-10-16
JP2004302470A (ja) 2004-10-28
JP4824286B2 (ja) 2011-11-30
CN100336102C (zh) 2007-09-05

Similar Documents

Publication Publication Date Title
KR101004495B1 (ko) 증분 베이즈 학습을 사용하는 잡음 추정 방법
EP1396845B1 (en) Method of iterative noise estimation in a recursive framework
US7174292B2 (en) Method of determining uncertainty associated with acoustic distortion-based noise reduction
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
US7617098B2 (en) Method of noise reduction based on dynamic aspects of speech
US7418383B2 (en) Noise robust speech recognition with a switching linear dynamic model
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
KR101120765B1 (ko) 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법
JP2011158918A (ja) クリーン信号確率変数の推定値を識別する方法
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
US6944590B2 (en) Method of iterative noise estimation in a recursive framework
US7103540B2 (en) Method of pattern recognition using noise reduction uncertainty
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
CN112767959A (zh) 语音增强方法、装置、设备及介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131115

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141117

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151118

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee