KR101253102B1 - 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 - Google Patents

음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 Download PDF

Info

Publication number
KR101253102B1
KR101253102B1 KR1020090092779A KR20090092779A KR101253102B1 KR 101253102 B1 KR101253102 B1 KR 101253102B1 KR 1020090092779 A KR1020090092779 A KR 1020090092779A KR 20090092779 A KR20090092779 A KR 20090092779A KR 101253102 B1 KR101253102 B1 KR 101253102B1
Authority
KR
South Korea
Prior art keywords
noise
speech
pure
probability
distortion
Prior art date
Application number
KR1020090092779A
Other languages
English (en)
Other versions
KR20110035170A (ko
Inventor
정호영
강병옥
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090092779A priority Critical patent/KR101253102B1/ko
Priority to US12/626,548 priority patent/US8346545B2/en
Publication of KR20110035170A publication Critical patent/KR20110035170A/ko
Application granted granted Critical
Publication of KR101253102B1 publication Critical patent/KR101253102B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 기술에 관한 것으로, 입력된 음성을 일정 길이의 프레임으로 구분하여 각 프레임의 음성 부재 확률을 추정하고, 이를 바탕으로 동적 잡음을 제거하는 필터를 설계하여 얻은 임시 순수 신호에 잔재된 잡음과, 동적 잡음의 부정확한 추정으로 인해 포함된 왜곡을 처리하는 것을 특징으로 한다. 본 발명에 의하면, 1채널 잡음 처리 기술을 통하여 종래의 음성통화 목적으로 사람이 인지하기 좋도록 처리하는 방식과 달리 음성인식을 위한 왜곡을 일으키지 않고, 잡음을 제거함으로써, 시간에 따라 특성이 변하는 동적 잡음을 해결하며, 음성 구간 내에 존재하는 잡음 성분의 제거를 효과적으로 수행할 수 있다.
음성인식, 잡음처리, 동적잡음 제거, 왜곡 보상, 가우시안 믹스쳐 모델(Gaussian Mixture Model)

Description

음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법{Apparatus for filtering noise of model based distortion compensational type for voice recognition and method thereof}
본 발명은 음성인식을 위한 잡음처리 기술에 관한 것으로서, 특히 잡음환경에서 음성인식 시스템의 성능 확보를 위하여 입력된 잡음 음성 신호에 포함된 잡음의 제거와 동시에 음성신호의 왜곡을 최소화하는데 적합한 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성정동력 산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
잡음 환경에서 발성된 음성신호의 음질을 향상시키는 기술은 수 많은 응용분야를 가지고 있으며, 수많은 잠재적 가치를 가진 연구분야로 현재까지도 그 연구가 활발히 이루어지고 있다.
음질향상 기술의 응용분야의 예를 들면, 음성 코딩(speech coding), 원격 회의(teleconference), 핸즈프리 모바일 통신(hand-free mobile telephony), 보청기(hearing aids), 음성 인식(voice recognition) 등이 있다. 음성의 음질과 명확성에 대한 인간의 인지특성은 단시간 스펙트럼 크기에 의존하는 경향이 있고 음성신호의 위상에는 비교적 둔감한 특성을 가지는데, 이를 근거로 현재까지의 음질 향상 기술은 음성신호에 더해져 있는 부가잡음을 억제하는데 초점을 맞춰 오고 있다.
이와 같이 종래의 기술은 음성통화용으로 잡음 음성의 음질을 개선하는 것을 주된 목적으로 하여, 개선된 음성 상에 왜곡을 가져오게 된다. 이러한 왜곡이 음성인식 성능을 더 향상시키는데 방해가 됨에도 불구하고 음성인식 시스템에는 많이 채택되고 있다. 이러한 종래의 기술 중 대표적인 것은 위너(Wiener) 필터와, 칼만(Kalman) 필터에 기반한 방법으로써 정적 잡음을 제거하는 데에는 효과적이나, 잡음이 심할수록 왜곡을 더 일으키며 동적 잡음에 대처하지 못하는 특성을 가지게 된다.
상기한 바와 같이 동작하는 종래 기술에 의한 잡음 제거 방식에 있어서는, 음질향상과 더불어 왜곡을 일으키게 되어 음질 개선이 음성인식 성능과 직결되지 않는다는 문제가 있다.
또한 종래의 1채널 잡음처리 기술은 정적 잡음의 제거에는 효과적이나 시간에 따라 특성이 변하는 동적 잡음을 제거하는 데에는 한계가 있다는 문제점이 있었 다.
이에 본 발명은, 음성인식을 위해 입력된 음성신호의 잡음을 제거하면서도 신호의 왜곡을 최소화 할 수 있는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법을 제공한다.
또한 본 발명은, 입력된 음성을 일정 길이의 프레임으로 구분하여 각 프레임의 음성 부재 확률을 추정하고, 이를 바탕으로 동적 잡음을 제거하는 필터를 설계하여 얻은 임시 순수 신호에 잔재된 잡음과, 동적 잡음의 부정확한 추정으로 인해 포함된 왜곡을 처리할 수 있는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법을 제공한다.
본 발명의 일 실시예에 따른 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치는, 입력된 음성 신호의 각 프레임 별로 추정된 잡음으로 음성 부재 확률을 산출하는 음성부재 확률 계산부와, 순수 음성과 잡음의 분산을 상기 각 프레임마다 적용하여 추정된 잡음을 갱신하는 잡음 추정 갱신부와, 상기 음성 부재 확률 및 갱신된 추정 잡음을 이용한 필터링를 통하여 왜곡이 포함된 제1 순수 음성을 출력하는 제1잡음 제거 필터와, 상기 제1순수 음성에 깨끗한 음성을 포함하는 가우시안 믹스쳐 모델(GMM)을 이용하여 각 믹스쳐에 대한 사후 확률을 산출하는 사후 확률 계산부와, 상기 사후 확률을 통해 얻어진 순수 음성 추정치를 필터링하여 왜곡이 보상된 최종 음성 신호를 출력하는 제2잡음 제거 필터를 포함한다.
이때, 상기 잡음 제거 장치는, 상기 각 프레임 별로 음성 부재 및 존재에 대한 확률 분포를 산출하여 잡음을 추정하는 잡음 추정부를 더 포함하는 것을 특징으로 한다.
또한 상기 제1잡음 제거 필터 및 제2 잡음 제거 필터는, 위너(wiener) 필터를 기반으로 하는 것을 특징으로 한다.
여기서 상기 제1잡음 제거 필터는, 직전 프레임에서 얻어진 순수 음성과, 스무딩 파리미터 값으로 산출된 제1 사전 신호대 잡음비를 이용하는 것을 특징으로 한다.
그리고 제2잡음 제거 필터는, 직전 프레임을 통해 산출된 순수 음성, 상기 순수 음성과 잡음의 분산 비율과, 기 설정된 스무딩 파라미터 값으로 산출된 제2 사전 신호대 잡음비를 이용하는 것을 특징으로 한다.
한편, 상기 잡음 제거 장치는, 상기 산출된 사후 확률값에서 기 설정된 값보다 큰 믹스쳐들의 평균값을 이용하여 상기 제1순수 음성을 깨끗한 음성 분포 영역으로 이동시켜 왜곡을 보상하는 순수음성 추정부를 더 포함하는 것을 특징으로 한다.
그리고 상기 순수음성 추정부는, 상기 믹스쳐들의 평균값을 기설정된 가중치를 주어 더함으로써, 상기 제1 순수 음성을 보상하여 왜곡이 해소된 순수 음성 추정치를 얻는 것을 특징으로 한다.
그리고 상기 음성부재 확률 계산부는, 주파수 빈(bin)에 대한 순수 음성과 잡음의 분산을 통해 음성의 부재 및 존재에 대한 확률 분포를 산출하고, 상기 확률 분포를 통해 상기 음성 부재 확률을 산출하는 것을 특징으로 한다.
그리고 상기 잡음 추정 갱신부는, 잡음의 특성이 시간에 빠르게 변하는 경우, 현재 프레임의 값이 상대적으로 많이 반영되는 시간 프레임에 따른 스무딩 파라미터를 산출하여 이를 통해 상기 추정된 잡음을 갱신하는 것을 특징으로 한다.
한편, 상기 잡음 제거 장치는, 상기 입력된 음성 신호를 디지털 신호로 변환한 후, 일정 길이의 프레임으로 분할하여 상기 음성부재 확률 계산부로 전달하는 프레임 분할부를 더 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법은, 입력된 음성 신호의 각 프레임 별로 추정된 잡음으로 음성 부재 확률을 산출하는 과정과, 순수 음성과 잡음의 분산을 상기 각 프레임마다 적용하여 추정된 잡음을 갱신하는 과정과, 상기 음성 부재 확률 및 갱신된 추정 잡음을 이용한 제1잡음 제거 필터로 필터링을 수행하여 왜곡이 포함된 제1 순수 음성을 출력하는 과정과, 상기 제1순수 음성에 깨끗한 음성을 포함하는 가우시안 믹스쳐 모델(GMM)을 이용하여 각 믹스쳐에 대한 사후 확률을 산출하는 과정과, 상기 사후 확률을 통해 얻어진 순수 음성 추정치를 이용한 제2잡음 제거 필터로 필터링을 수행하여 왜곡이 보상된 최종 음성 신호를 출력하는 과정을 포함한다.
이때, 상기 음성 부재 확률을 산출하는 과정은, 상기 각 프레임 별로 음성 부재 및 존재에 대한 확률 분포를 산출하여 잡음을 추정하는 과정을 포함하는 것을 특징으로 한다.
그리고 상기 제1잡음 제거 필터 및 제2 잡음 제거 필터는, 위너(wiener) 필 터를 기반으로 하는 것을 특징으로 한다.
여기서 상기 제1잡음 제거 필터는, 직전 프레임에서 얻어진 순수 음성과, 스무딩 파리미터 값으로 산출된 제1 사전 신호대 잡음비를 이용하는 것을 특징으로 한다.
그리고 상기 제2잡음 제거 필터는, 직전 프레임을 통해 산출된 순수 음성, 상기 순수 음성과 잡음의 분산 비율과, 기 설정된 스무딩 파라미터 값으로 산출된 제2 사전 신호대 잡음비를 이용하는 것을 특징으로 한다.
한편, 상기 최종 음성 신호를 출력하는 과정은, 상기 산출된 사후 확률값에서 기 설정된 값보다 큰 믹스쳐들의 평균값을 이용하여 상기 제1순수 음성을 깨끗한 음성 분포 영역으로 이동시켜 왜곡을 보상하는 과정을 더 포함하는 것을 특징으로 한다.
여기서, 상기 순수 음성치는, 상기 믹스쳐들의 평균값을 기설정된 가중치를 주어 더함으로써, 상기 제1 순수 음성을 보상하여 왜곡이 해소된 순수 음성 추정치를 얻는 것을 특징으로 한다.
그리고 상기 음성 부재 확률을 산출하는 과정은, 상기 입력된 음성 신호의 주파수 빈(bin)에 대한 순수 음성과 잡음의 분산을 통해 음성의 부재 및 존재에 대한 확률 분포를 산출하여, 상기 음성의 부재 및 존재에 대한 확률 분포를 통해 상기 음성 부재 확률을 산출하는 것을 특징으로 한다.
그리고 상기 추정된 잡음을 갱신하는 과정은, 잡음의 특성이 시간에 빠르게 변하는 경우, 현재 프레임의 값이 상대적으로 많이 반영되는 시간 프레임에 따른 스무딩 파라미터를 산출하여 이를 통해 상기 추정된 잡음을 갱신하는 것을 특징으로 한다.
한편, 상기 잡음 제거 방법은, 상기 입력된 음성 신호를 디지털 신호로 변환한 후, 일정 길이의 프레임으로 분할하는 과정을 더 포함하는 것을 특징으로 한다.
상기와 같은 본 발명의 실시예에 따른 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법에 따르면 다음과 같은 효과가 있다.
본 발명의 실시예에 따른 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법에 의하면, 1채널 잡음 처리 기술을 통하여 종래의 음성통화 목적으로 사람이 인지하기 좋도록 처리하는 방식과 달리 음성인식을 위한 왜곡을 일으키지 않고 잡음을 제거함으로써, 시간에 따라 특성이 변하는 동적 잡음을 해결하며, 음성 구간 내에 존재하는 잡음 성분을 효율적으로 제거할 수 있는 효과가 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하 게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그 램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 발명의 실시예는, 음성인식을 위해 입력된 음성신호의 잡음을 제거하면서도 신호의 왜곡을 최소화 할 수 있는 잡음 처리 기술을 에 대한 것으로서, 입력된 음성을 일정 길이의 프레임으로 구분하여 각 프레임의 음성 부재 확률을 추정하고, 이를 바탕으로 동적 잡음을 제거하는 필터를 설계하여 얻은 임시 순수 신호에 잔재된 잡음과, 동적 잡음의 부정확한 추정으로 인해 포함된 왜곡을 처리하여 최종 순수 음성 신호를 얻는 것이다.
즉, 본 발명에서는 1채널 잡음 처리 기술을 통하여 종래의 음성통화를 목적으로 사람이 인지하기 좋도록 처리하는 방식과 다르게 음성인식을 위한 것으로 음 성신호의 왜곡을 일으키지 않고 잡음을 제거함으로써, 시간에 따라 특성이 변하는 동적 잡음을 해결하며, 음성 구간 내에 존재하는 잡음 성분의 제거를 효과적으로 수행하기 위한 것이다.
이와 같이 음성인식 시스템의 상용화를 위해서는 인식기를 사용하는 환경에서 발생하게 되는 여러가지 잡음을 제거하는 것이 필수적이다. 다양한 잡음처리 방식 가운데 하나의 마이크를 이용하는 방식이 간단하면서도 다양한 기기에 적용하기가 쉽다. 특히 하나의 마이크 신호를 이용하여 잡음을 제거하는 1채널 잡음처리 방식은 다양한 잡음처리 기술의 기본이며, 다채널 마이크를 이용한 잡음처리 기술도 항상 1채널 잡음처리 기술을 후처리로 요구한다.
그러므로 본 발명의 실시예에서는 기존의 음성통화용 잡음처리 기술과 달리 음성인식을 위해 잡음을 제거하면서도 신호의 왜곡을 최소로 하는 기술에 대해 이하, 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 잡음 제거필터를 이용한 잡음 제거 절차를 도시한 흐름도이다.
도 1을 참조하면, 100단계에서 잡음 제거필터로 입력된 음성을 일정 길이의 프레임으로 구분하여 각 프레임의 음성 부재 확률을 추정하고, 이를 바탕으로 동적 잡음을 제거하는 필터를 설계하는 잡음처리 과정을 수행한다.
그리고 102단계에서는 잡음처리 과정에서 얻은 임시 순수(clean) 신호에 잔재하는 잡음과 동적 잡음의 부정확한 추정으로 인해 포함된 왜곡을 처리하기 위한 왜곡 보상 과정을 수행하는 것이다.
이와 같이 본 발명의 실시예에서는 잡음처리 과정 및 왜곡 보상 과정의 2단계 연속 과정을 통해 동적 잡음의 제거와 왜곡 보상을 동시에 수행하여 음성인식에 적합한 1채널 잡음 처리를 수행할 수 있다.
이에 잡음처리 과정 및 왜곡 보상 과정을 구체적으로 설명하면, 먼저 100단계는 프레임마다 음성 부재 확률을 계산하여 잡음제거 필터를 설계하는 과정을 포함한다. 일반적으로 음성과 잡음은 서로 독립적으로 발생하게 되며, 음성 부재의 경우를 H0라 하고 음성 존재의 경우를 H1이라 할 때 음성 부재 및 존재에 대한 확률 분포는 하기 <수학식 1>과 같다.
Figure 112009060093449-pat00001
여기에서 Yk(t)는 t번째 프레임에서 k번째 주파수 빈(bin)에 대한 입력 잡음음성을 의미하고,
Figure 112009060093449-pat00002
x,k(t) 및
Figure 112009060093449-pat00003
n,k(t)는 k번째 주파수 빈에 대한 순수 음성과 잡음의 분산을 나타낸다.
위의 두 식을 이용한 음성 부재 확률은 하기 <수학식 2>와 같다.
Figure 112009060093449-pat00004
여기서 q는 사전 음성부재 확률을 의미하며 상수로 주어진다.
Figure 112009060093449-pat00005
k(t) =
Figure 112009060093449-pat00006
x,k(t)/
Figure 112009060093449-pat00007
n,k(t) 이고,
Figure 112009060093449-pat00008
(t)=|Yk|2/
Figure 112009060093449-pat00009
n,k(t)이다. 이에 동적 잡음을 추정하기 위해서는 음성 부재 확률의 정확도를 높여야 하며, 음성 부재 확률을 더 정확히 구하기 위해서는 순수 음성과 잡음의 분산을 프레임마다 갱신하는 잡음 추정 갱신 과정이 필요하며, 이는 하기 <수학식 3>으로부터 구할 수 있다.
Figure 112009060093449-pat00010
여기서 잡음의 분산은, 최종적인 잡음의 추정치가 되며 이후의 잡음처리 과정에 계속 적용된다. 따라서 시간 프레임에 따라서 잡음 분산의 갱신을 효율적으로 수행하는 것이 추가적으로 필요하게 된다. 이를 위해 잡음 갱신에 사용되는 스무딩 파라미터를 시간에 따라 적응하는 것을 고안한다. 시간에 따른 스무딩 파라미터는 아래의 <수학식 4>로부터 표현될 수 있다.
Figure 112009060093449-pat00011
잡음의 특성이 시간에 빠르게 변하는 경우 αn(t)의 값이 줄어들어 현재 프레임의 값이 상대적으로 많이 반영되는 형태로 동작하며, 여기서,
Figure 112009060093449-pat00012
은 (1-αn)를 중심으로 상황에 따라 변하는 값을 가진다. αn은 0에서 1사이의 값을 가질 수 있다.
음성 부재 확률과 잡음 추정이 이루어진 상태에서 잡음 제거 필터가 위너 필터를 기반으로 설계된다. 입력된 잡음음성으로부터 추정된 음성 스펙트럼의 크기는 아래 <수학식 5>로 주어진다.
Figure 112009060093449-pat00013
여기서 Gwf ,k(t)는 종래의 위너 필터에 기반한 것이고 Gm은 음성 부재 시 유지되는 최소값을 나타낸다. 여기에 앞에서 구한 음성 부재 확률이 적용되어 시간에 따른 잡음의 존재 정도에 따라 적합한 필터를 설계할 수 있으며, 이것이 동적 잡음을 제거하는데 효과적으로 활용된다. 특히 Gm을 적용하여 종래 위너 필터에서 처리 하지 못하던 돌발성 잡음을 해결할 수 있게 된다.
하지만 시간에 따라 변하는 잡음을 정확하게 추정하기는 어려우며, 부정확한 잡음에 기반하여 잡음제거 필터를 설계하게 됨으로써 이를 이용한 잡음제거 처리 후에는 왜곡을 일으키게 된다. 따라서 <수학식 5>로부터 얻어진 출력은 왜곡을 내포하는 임시 순수 음성이라고 볼 수 있다.
그러므로 <수학식 5> 에서 위너 필터에 기반한 Gwf ,k(t)는
Figure 112009060093449-pat00014
로 주어지며, 필터의 성능은 사전 신호대 잡음비(a priori SNR) ηk(t)에 의존하게 된다. 임시 순수 음성을 얻기 위한 과정이므로 이를 임시 사전 신호대 잡음비(SNR)라 정의하고 아래 <수학식 6>으로 구할 수 있다.
Figure 112009060093449-pat00015
여기서
Figure 112009060093449-pat00016
는 직전 프레임에서 100단계 내지 102단계의 두 단계를 거쳐 얻어지게 되는 최종 순수 음성을 의미한다. 스무딩 파라미터
Figure 112009060093449-pat00017
는 통상 0.95~0.98의 값을 가진다.
102단계에서는 100단계에서 얻은 임시 순수 음성 신호에 발생한 왜곡 성분을 줄이면서, 임시 순수 음성 신호에 잔재된 잡음을 추가로 제거하여 최종 순수 음성 신호를 얻는 과정이다.
다만, 음성 구간에 섞인 잡음을 정확하게 추정하는 것은 어려우며, 이로 인해 임시 순수 음성 신호는 실제의 음성이 분포하는 공간 상에서 약간의 편차를 가지게 되어 왜곡을 피하기가 어렵다. 이에 이러한 왜곡을 줄이기 위해서는 미리 깨끗한 음성 데이터베이스로 훈련한 통계 모델을 이용하여 발생한 편차만큼의 보상을 수행하게 된다. 깨끗한 음성에 대한 통계적 모델은 가우시안 믹스쳐 모델 (Gaussian Mixture Model, 이하 GMM이라 한다)로 주어지며, 전력 스펙트럼 영역에 대해 아래의 <수학식 7>로 표현될 수 있다.
Figure 112009060093449-pat00018
여기서, A는 훈련에 사용된 깨끗한 음성을 나타내고, M은 믹스쳐(mixture)의 개수, K는 전체 주파수 빈의 개수를 나타낸다. 또한, p(m)은 각 믹스쳐에 대한 확률을 의미하며, pk(A2 k|m)은 가우시안 분포 N(A2 k; μm,km,k)로 주어진다.
주어진 GMM에 대하여 100단계에서 추정된 임시 순수 음성이 어느 정도의 왜곡을 가지는지 알기 위해 먼저 각 믹스쳐에 대한 사후 확률을 아래 <수학식 8>과 같이 계산하게 된다.
Figure 112009060093449-pat00019
이는 임시 순수 음성이 각각의 믹스쳐에 대한 확률값을 의미하며, 이 확률값이 기 설정된 값보다 큰 믹스쳐들의 평균값을 이용하여 임시 순수 음성을 깨끗한 음성 분포 영역으로 이동시키게 된다. 이 과정이 왜곡보상 과정이며. 아래의 <수학식 9>로 표현될 수 있다.
Figure 112009060093449-pat00020
<수학식 9>에서 사후 확률이 클수록 임시 순수 음성에 가까운 믹스쳐이며, 이 믹스쳐들의 평균값을 기 설정된 가중치를 주어 더함으로써, 임시 순수 음성을 보상하여 왜곡이 해소된 순수 음성 추정치를 얻게 된다. 여기서 얻은 순수 음성 추정치를 이용하여 최종 순수 음성은 위너 필터에 기반하여 아래 <수학식 10>과 같이 구할 수 있다.
Figure 112009060093449-pat00021
여기서,
Figure 112009060093449-pat00022
는 최종 사전 신호대 잡음비(SNR)를 의미하며 아래의 <수학식 11>로 표현된다.
Figure 112009060093449-pat00023
여기서
Figure 112009060093449-pat00024
는, 스무딩 파라미터이며 0.92~0.95 사이의 값을 가질 수 있다.
도 2는 본 발명의 바람직한 실시예에 다른 모델기반 왜곡 보상형 잡음 제거 장치의 구조를 도시한 블록도이다.
도 2를 참조하면, 모델기반 왜곡 보상형 잡음 제거 장치(200)는 프레임 분할부(202), 잡음 추정부(204), 음성 부재 확률 계산부(206), 잡음 추정 갱신부(208), 임시 사전 SNR 계산부(210), 음성부재 확률 기반 잡음 제거부(212), 음성 GMM DB(214), 사후 확률 계산부(216), 순수 음성 추정부(218), 최종 사전 SNR 계산부(220), 최종 필터 설계부(222) 등을 포함한다.
구체적으로 프레임 분할부(202)는 입력된 잡음 음성 신호를 디지털신호로 변환한 다음 일정 길이의 프레임으로 분할하고, 잡음 추정부(204)는 분할된 각 프레임 별로 잡음 성분을 추정한다.
이에 잡음 성분이 추정된 정보를 음성 부재 확률 계산부(206)로 전달되어 잡음 성분이 추정된 정보, 즉 각 프레임 별 음성 부재 및 음성 존재 정보를 통하여 음성 부재 및 존재에 대한 확률 분포(수학식 1)를 구할 수 있으며, 이를 토대로 현 재 프레임에 대한 음성의 존재 가능성인 음성 부재 확률(수학식 2)을 계산할 수 있다.
잡음 추정 갱신부(208)는 음성 부재 확률의 정확도를 높여서 동적 잡음을 추정하기 위한 것으로, 순수 음성과 잡음의 분산을 프레임마다 갱신하여 더욱 정확한 잡음 성분을 추정하게 된다.
그리고 임시 사전 SNR 계산부(210)에서는 <수학식 6>을 이용하여 제1잡음 제거 필터를 구하기 위한 임시 사전 SNR은 구하게 되며, 이는 음성 부재 확률 기반 잡음 제거부(212)로 전달된다.
음성 부재 확률 기반 잡음 제거부(212)는 왜곡을 내포하는 임시 순수 음성을 얻기 위한 것으로, <수학식 5>와 같이 음성 부재 확률 계산부(206)로부터 전달된 음성 부재 확률과, 임시 사전 SNR을 포함하는 위너 필터를 기반으로 하여 종래의 위너 필터보다 개선된 제1잡음 제거 필터를 통하여 임시 순수 음성을 필터링하여 출력할 수 있다.
이에 출력된 임시 순수 음성은 사후 확률 계산부(216)로 전달되며, 사후 확률 계산부(216)에서는 실제 음성이 분포하는 공간 상에서 편차를 가지고 있는 임시 순수 음성에 깨끗한 음성에 대한 데이터를 포함하는 음성 GMM DB(214)를 이용하여 발생한 편차만큼의 보상을 수행하기 위해서, 음성 GMM DB(214)의 각 믹스쳐에 대한 사후 확률을 <수학식 8>을 이용하여 산출하게 된다.
이후, 순수 음성 추정부(218)에서는 <수학식 9>와 같이 임시 순수 음성에 가까운 믹스쳐들의 평균값을 이용하여 임시 순수 음성을 왜곡없는 음성 분포 영역 으로 이동함으로써, 왜곡이 해소된 순수 음성 추정치를 얻을 수 있다.
최종 사전 SNR 계산부(220)는 <수학식 11>과 같은 스무딩 파라미터를 통하여 제2잡음 제거 필터에 적용되는 최종 사전 SNR을 구하고, 구해진 최종 사전 SNR은 최종 필터 설계부(222)로 전달한다.
이에 최종 필터 설계부(222)에서는 최종 사전 SNR로 위너 필터를 기반한 제2잡음 제거 필터를 형성하며, <수학식 10>과 같이 순수 음성 추정치에 형성된 제2잡음 제거 필터를 이용하여 개선된 최종 순수 음성 신호를 출력하게 된다.
도 3은 본 발명의 바람직한 실시예에 다른 모델기반 왜곡 보상형 잡음 제거 장치의 동작 절차를 도시한 흐름도이다.
도 3을 참조하면, 모델기반 왜곡 보상형 잡음 제거 장치(200)로 잡음 음성 신호가 입력되면, 프레임 분할부(202)는 300단계에서 입력된 잡음 음성 신호를 일정 길이의 프레임으로 분할한 후, 잡음 추정부(204)로 전달하여 잡음 추정부(204)에서는 302단계에서 각 프레임마다의 잡음 성분을 추정하고, 304단계에서는 이를 이용하여 음성부재 확률 계산부(206)에서 현재 프레임에 대한 음성의 존재 가능성을 계산하여 음성 부재 확률을 산출한다.
이후, 306단계에서는 동적잡음을 추정하기 위해 산출된 음성 부재 확률의 정확도를 높여야 하므로, 잡음 추정 갱신부(208)에서는 음성 부재 확률을 토대로 결정된 시간 프레임에 따른 스무딩 파라미터를 이용하여 순수 음성과 잡음의 분산을 프레임마다 갱신함으로써, 최종적인 잡음의 추정치를 출력한다.
308단계에서 음성 부재 확률 기반 잡음 제거부(212)는, 임시 사전 SNR 계산 부(210)에서 이전 프레임의 최종 순수 음성으로 산출된 임시 사전 SNR을 이용하는 위너 필터에 먼저 구한 음성 부재 확률이 적용되어 시간에 다른 잡음의 존재 정도에 따라 제1잡음 제거 필터를 형성하게 되며, 이를 통해 310단계에서 임시 순수 음성을 출력하게 된다.
이때, 임시 순수 음성은 부정확한 잡음에 기반하여 설계된 제1잡음 제거 필터를 통해 구해진 것이므로, 어느 정도의 왜곡을 내포하고 있다. 이에 312단계에서는 312단계에서는 사후 확률 계산부(216)를 통해 연동된 음성 GMM DB(214)에 대하여 임시 순수 음성이 어느 정도의 왜곡을 가지는지 여부를 파악하기 위해서 음성 GMM의 각 믹스쳐에 대한 사후 확률을 산출한다.
그리고 314단계에서 순수 음성 추정부(218)는 계산된 사후 확률을 통해 임시 순수 음성이 각각의 믹스쳐에 대한 확률값을 의미하고 있으므로, 확률값이 큰 믹스쳐들의 평균값을 이용하여 임시 순수 음성을 깨끗한 음성 분포 영역으로 이동 시키는 왜곡 보상을 통해 순수 음성을 추정한다.
이에 316단계에서는 최종 사전 SNR계산부(220)를 통해 제2잡음 제거 필터에 적용되는 최종 사전 SNR을 구한 후, 318단계에서 최종 필터 설계부(222)는 최종 사전 SNR를 포함하는 위너 필터를 기반으로 하는 제2잡음 제거 필터를 형성하여 320단계에서 순수 음성 추정치에서 최종 순수 음성 신호를 출력하게 된다.
이상 설명한 바와 같이, 본 발명의 실시예에 따른 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법은 음성인식을 위해 입력된 음성신호의 잡음을 제거하면서도 신호의 왜곡을 최소화 할 수 있는 잡음 처리 기술에 대한 것으 로, 입력된 음성을 일정 길이의 프레임으로 구분하여 각 프레임의 음성 부재 확률을 추정하고, 이를 바탕으로 동적 잡음을 제거하는 필터를 설계하여 얻은 임시 순수 신호에 잔재된 잡음과, 동적 잡음의 부정확한 추정으로 인해 포함된 왜곡을 처리하여 순수 음성 신호를 얻는다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 실시예에 따른 잡음 제거필터를 이용한 잡음 제거 절차를 도시한 흐름도,
도 2는 본 발명의 바람직한 실시예에 다른 모델기반 왜곡 보상형 잡음 제거 장치의 구조를 도시한 블록도,
도 3은 본 발명의 바람직한 실시예에 다른 모델기반 왜곡 보상형 잡음 제거 장치의 동작 절차를 도시한 흐름도.
< 도면의 주요 부분에 대한 부호 설명 >
200: 모델기반 왜곡 보상형 잡음 제거 장치
202: 프레임 분할부 204: 잡음 추정부
206: 음성부재 확률 계산부 208: 잡음 추정 갱신부
210: 임시 사전 SNR 계산부 212: 음성부재 확률기반 잡음 제거부
214: 음성 GMM DB 216: 사후 확률 계산부
218: 순수 음성 추정부 220: 최종 사전 SNR 계산부
222: 최종 필터 설계부

Claims (20)

  1. 입력된 음성 신호의 각 프레임 별로 추정된 잡음으로 음성 부재 확률을 산출하는 음성부재 확률 계산부와,
    순수 음성과 잡음의 분산을 상기 각 프레임마다 적용하여 추정된 잡음을 갱신하는 잡음 추정 갱신부와,
    상기 음성 부재 확률 및 갱신된 추정 잡음을 이용한 필터링를 통하여 왜곡이 포함된 제1 순수 음성을 출력하는 제1잡음 제거 필터와,
    상기 제1순수 음성에 깨끗한 음성을 포함하는 가우시안 믹스쳐 모델(GMM)을 이용하여 각 믹스쳐에 대한 사후 확률을 산출하는 사후 확률 계산부와,
    상기 사후 확률을 통해 얻어진 순수 음성 추정치를 필터링하여 왜곡이 보상된 최종 음성 신호를 출력하는 제2잡음 제거 필터
    를 포함하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  2. 제 1항에 있어서,
    상기 잡음 제거 장치는,
    상기 각 프레임 별로 음성 부재 및 존재에 대한 확률 분포를 산출하여 잡음을 추정하는 잡음 추정부
    를 더 포함하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  3. 제 1항에 있어서,
    상기 제1잡음 제거 필터 및 제2 잡음 제거 필터는,
    위너(wiener) 필터를 기반으로 하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  4. 제 1항에 있어서,
    상기 제1잡음 제거 필터는,
    직전 프레임에서 얻어진 순수 음성과, 스무딩 파리미터 값으로 산출된 제1 사전 신호대 잡음비를 이용하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  5. 제 1항에 있어서,
    상기 제2잡음 제거 필터는,
    직전 프레임을 통해 산출된 순수 음성, 상기 순수 음성과 잡음의 분산 비율과, 기 설정된 스무딩 파라미터 값으로 산출된 제2 사전 신호대 잡음비를 이용하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  6. 제 1항에 있어서,
    상기 잡음 제거 장치는,
    상기 산출된 사후 확률값에서 기 설정된 값보다 큰 믹스쳐들의 평균값을 이용하여 상기 제1순수 음성을 깨끗한 음성 분포 영역으로 이동시켜 왜곡을 보상하는 순수음성 추정부
    를 더 포함하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  7. 제 6항에 있어서,
    상기 순수음성 추정부는,
    상기 믹스쳐들의 평균값을 기설정된 가중치를 주어 더함으로써, 상기 제1 순수 음성을 보상하여 왜곡이 해소된 순수 음성 추정치를 얻는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  8. 제 1항에 있어서,
    상기 음성부재 확률 계산부는,
    주파수 빈(bin)에 대한 순수 음성과 잡음의 분산을 통해 음성의 부재 및 존재에 대한 확률 분포를 산출하고,
    상기 확률 분포를 통해 상기 음성 부재 확률을 산출하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  9. 제 1항에 있어서,
    상기 잡음 추정 갱신부는,
    잡음의 특성이 시간에 빠르게 변하는 경우, 현재 프레임의 값이 상대적으로 많이 반영되는 시간 프레임에 따른 스무딩 파라미터를 산출하여 이를 통해 상기 추정된 잡음을 갱신하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  10. 제 1항에 있어서,
    상기 잡음 제거 장치는,
    상기 입력된 음성 신호를 디지털 신호로 변환한 후, 일정 길이의 프레임으로 분할하여 상기 음성부재 확률 계산부로 전달하는 프레임 분할부
    를 더 포함하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치.
  11. 입력된 음성 신호의 각 프레임 별로 추정된 잡음으로 음성 부재 확률을 산출하는 과정과,
    순수 음성과 잡음의 분산을 상기 각 프레임마다 적용하여 추정된 잡음을 갱신하는 과정과,
    상기 음성 부재 확률 및 갱신된 추정 잡음을 이용한 제1잡음 제거 필터로 필터링을 수행하여 왜곡이 포함된 제1 순수 음성을 출력하는 과정과,
    상기 제1순수 음성에 깨끗한 음성을 포함하는 가우시안 믹스쳐 모델(GMM)을 이용하여 각 믹스쳐에 대한 사후 확률을 산출하는 과정과,
    상기 사후 확률을 통해 얻어진 순수 음성 추정치를 이용한 제2잡음 제거 필터로 필터링을 수행하여 왜곡이 보상된 최종 음성 신호를 출력하는 과정
    을 포함하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
  12. 제 11항에 있어서,
    상기 음성 부재 확률을 산출하는 과정은,
    상기 각 프레임 별로 음성 부재 및 존재에 대한 확률 분포를 산출하여 잡음을 추정하는 과정을 포함하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
  13. 제 11항에 있어서,
    상기 제1잡음 제거 필터 및 제2 잡음 제거 필터는,
    위너(wiener) 필터를 기반으로 하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
  14. 제 11항에 있어서,
    상기 제1잡음 제거 필터는,
    직전 프레임에서 얻어진 순수 음성과, 스무딩 파리미터 값으로 산출된 제1 사전 신호대 잡음비를 이용하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
  15. 제 11항에 있어서,
    상기 제2잡음 제거 필터는,
    직전 프레임을 통해 산출된 순수 음성, 상기 순수 음성과 잡음의 분산 비율과, 기 설정된 스무딩 파라미터 값으로 산출된 제2 사전 신호대 잡음비를 이용하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
  16. 제 11항에 있어서,
    상기 최종 음성 신호를 출력하는 과정은,
    상기 산출된 사후 확률값에서 기 설정된 값보다 큰 믹스쳐들의 평균값을 이용하여 상기 제1순수 음성을 깨끗한 음성 분포 영역으로 이동시켜 왜곡을 보상하는 과정을 더 포함하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
  17. 제 16항에 있어서,
    상기 순수 음성 추정치는,
    상기 믹스쳐들의 평균값을 기설정된 가중치를 주어 더함으로써, 상기 제1 순수 음성을 보상하여 왜곡이 해소된 순수 음성 추정치를 얻는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
  18. 제 11항에 있어서,
    상기 음성 부재 확률을 산출하는 과정은,
    상기 입력된 음성 신호의 주파수 빈(bin)에 대한 순수 음성과 잡음의 분산을 통해 음성의 부재 및 존재에 대한 확률 분포를 산출하여, 상기 음성의 부재 및 존재에 대한 확률 분포를 통해 상기 음성 부재 확률을 산출하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
  19. 제 11항에 있어서,
    상기 추정된 잡음을 갱신하는 과정은,
    잡음의 특성이 시간에 빠르게 변하는 경우, 현재 프레임의 값이 상대적으로 많이 반영되는 시간 프레임에 따른 스무딩 파라미터를 산출하여 이를 통해 상기 추정된 잡음을 갱신하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
  20. 제 11항에 있어서,
    상기 잡음 제거 방법은,
    상기 음성 부재 확률을 산출하는 과정 이전에, 상기 입력된 음성 신호를 디지털 신호로 변환한 후, 일정 길이의 프레임으로 분할하는 과정을 더 포함하는 것을 특징으로 하는 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 방법.
KR1020090092779A 2009-09-30 2009-09-30 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 KR101253102B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090092779A KR101253102B1 (ko) 2009-09-30 2009-09-30 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
US12/626,548 US8346545B2 (en) 2009-09-30 2009-11-25 Model-based distortion compensating noise reduction apparatus and method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090092779A KR101253102B1 (ko) 2009-09-30 2009-09-30 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110035170A KR20110035170A (ko) 2011-04-06
KR101253102B1 true KR101253102B1 (ko) 2013-04-10

Family

ID=43781287

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090092779A KR101253102B1 (ko) 2009-09-30 2009-09-30 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법

Country Status (2)

Country Link
US (1) US8346545B2 (ko)
KR (1) KR101253102B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11264036B2 (en) 2018-12-31 2022-03-01 Samsung Electronics Co., Ltd. Neural network device for speaker recognition and operating method of the same

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE454696T1 (de) * 2007-08-31 2010-01-15 Harman Becker Automotive Sys Schnelle schätzung der spektraldichte der rauschleistung zur sprachsignalverbesserung
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US9245524B2 (en) * 2010-11-11 2016-01-26 Nec Corporation Speech recognition device, speech recognition method, and computer readable medium
US9538286B2 (en) * 2011-02-10 2017-01-03 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US20120245927A1 (en) * 2011-03-21 2012-09-27 On Semiconductor Trading Ltd. System and method for monaural audio processing based preserving speech information
US9258653B2 (en) 2012-03-21 2016-02-09 Semiconductor Components Industries, Llc Method and system for parameter based adaptation of clock speeds to listening devices and audio applications
WO2014032738A1 (en) * 2012-09-03 2014-03-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
US9294859B2 (en) 2013-03-12 2016-03-22 Google Technology Holdings LLC Apparatus with adaptive audio adjustment based on surface proximity, surface type and motion
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9787273B2 (en) 2013-06-13 2017-10-10 Google Technology Holdings LLC Smart volume control of device audio output based on received audio input
KR102051966B1 (ko) 2014-03-27 2019-12-04 한국전자통신연구원 음성 인식 향상 장치 및 방법
KR20150117114A (ko) 2014-04-09 2015-10-19 한국전자통신연구원 잡음 제거 장치 및 방법
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
WO2018140020A1 (en) * 2017-01-26 2018-08-02 Nuance Communications, Inc. Methods and apparatus for asr with embedded noise reduction
US11348572B2 (en) 2017-10-23 2022-05-31 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027685A1 (en) 2005-07-27 2007-02-01 Nec Corporation Noise suppression system, method and program
KR20070085193A (ko) * 2007-08-07 2007-08-27 한국정보통신대학교 산학협력단 잡음제거 장치 및 방법
KR20090056598A (ko) * 2007-11-30 2009-06-03 삼성전자주식회사 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
JP2009139894A (ja) 2007-12-11 2009-06-25 Advanced Telecommunication Research Institute International 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008035356A (ja) 2006-07-31 2008-02-14 Ricoh Co Ltd ノイズキャンセラ、ノイズキャンセラを有する集音装置及びノイズキャンセラを有する携帯電話機
US8015003B2 (en) 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
US8131543B1 (en) * 2008-04-14 2012-03-06 Google Inc. Speech detection
US8244523B1 (en) * 2009-04-08 2012-08-14 Rockwell Collins, Inc. Systems and methods for noise reduction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027685A1 (en) 2005-07-27 2007-02-01 Nec Corporation Noise suppression system, method and program
KR20070085193A (ko) * 2007-08-07 2007-08-27 한국정보통신대학교 산학협력단 잡음제거 장치 및 방법
KR20090056598A (ko) * 2007-11-30 2009-06-03 삼성전자주식회사 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
JP2009139894A (ja) 2007-12-11 2009-06-25 Advanced Telecommunication Research Institute International 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11264036B2 (en) 2018-12-31 2022-03-01 Samsung Electronics Co., Ltd. Neural network device for speaker recognition and operating method of the same

Also Published As

Publication number Publication date
US8346545B2 (en) 2013-01-01
KR20110035170A (ko) 2011-04-06
US20110077939A1 (en) 2011-03-31

Similar Documents

Publication Publication Date Title
KR101253102B1 (ko) 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
KR101120679B1 (ko) 이득-제한된 잡음 억제
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
JP7094340B2 (ja) 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法
AU2009203194A1 (en) Noise spectrum tracking in noisy acoustical signals
KR20100003530A (ko) 전자기기에서 음성 신호의 잡음 제거 장치 및 방법
US8296135B2 (en) Noise cancellation system and method
KR20090122251A (ko) 스피치 개선을 위한 노이즈 분산 추정기
SE505156C2 (sv) Förfarande för bullerundertryckning genom spektral subtraktion
WO2006123721A1 (ja) 雑音抑圧方法およびその装置
KR20090008164A (ko) 음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체
US9036816B1 (en) Frequency domain acoustic echo cancellation using filters and variable step-size updates
EP2877993A1 (en) Method and device for reconstructing a target signal from a noisy input signal
EP3276621A1 (en) Noise suppression device and noise suppressing method
JP2015143811A (ja) 雑音抑圧装置および雑音抑圧方法
CN112602150A (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN105144290A (zh) 信号处理装置、信号处理方法和信号处理程序
Nuha et al. Noise reduction and speech enhancement using wiener filter
JP2005284163A (ja) 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
KR20110061781A (ko) 실시간 잡음 추정에 기반하여 잡음을 제거하는 음성 처리 장치 및 방법
CN115440240A (zh) 语音降噪的训练方法、语音降噪***及语音降噪方法
CN117174102A (zh) 音频信号噪声抑制的***和方法
KR100848789B1 (ko) 크로스토크를 제거하기 위한 후처리 방법
KR20090111739A (ko) 잡음 제거 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180404

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190325

Year of fee payment: 7