KR20130033372A - 음성 오디오 처리 - Google Patents

음성 오디오 처리 Download PDF

Info

Publication number
KR20130033372A
KR20130033372A KR1020127031843A KR20127031843A KR20130033372A KR 20130033372 A KR20130033372 A KR 20130033372A KR 1020127031843 A KR1020127031843 A KR 1020127031843A KR 20127031843 A KR20127031843 A KR 20127031843A KR 20130033372 A KR20130033372 A KR 20130033372A
Authority
KR
South Korea
Prior art keywords
noise
speech
information
audio
speaker
Prior art date
Application number
KR1020127031843A
Other languages
English (en)
Other versions
KR101434083B1 (ko
Inventor
윌램 엠. 벨트만
마티아스 자나르투
아리지트 레이초우두리
아난드 피. 란가르잔
마이클 이. 데이셔
Original Assignee
인텔 코오퍼레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코오퍼레이션 filed Critical 인텔 코오퍼레이션
Publication of KR20130033372A publication Critical patent/KR20130033372A/ko
Application granted granted Critical
Publication of KR101434083B1 publication Critical patent/KR101434083B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Circuits Of Receivers In General (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

일부 실시예들에서, 보다 효율적인 자동 음성 인식을 위해 오디오 음성 신호를 정화(clean up)하기 위해 특정한 스피커의 성문음(glottal) 정보와 칼만 필터링을 이용하는 음성 처리 엔진이 제공된다.

Description

음성 오디오 처리{SPEECH AUDIO PROCESSING}
본 발명은 일반적으로 오디오 처리에 관한 것으로, 특히, 음성 신호 처리(speech signal processing)에 관한 것이다.
본 발명의 실시예들은 예로서 이용된 것으로, 제한으로서 이용된 것이 아니며, 첨부한 도면에서 비슷한 참조 번호들은 유사한 요소들을 지칭한다.
도 1은 일부 실시예들에 따른 음성 처리 엔진(speech processing engine)의 도이다.
도 2는 일부 실시예들에 따른 합성기(synthesizer)의 도이다.
도 3은 일부 실시예들에 따른, 음성 처리 엔진을 구현하기 위한 구조의 도이다.
도 4는 일부 실시예들에 따른 전자 디바이스 플랫폼(electronic device platform)의 도이다.
보이스 명령(voice command) 및 연속 음성 인식(continuous speech recognition)은, 예를 들어, 제한된 키보드 기능을 갖는 자동차용 애플리케이션들(in-car applications) 및 전화기들을 갖는, 모바일 인터넷 디바이스들(mobile Internet devices)을 위해 사용된다. 임의의 음성 인식 엔진에 깨끗한 입력(clean input)을 제공할 수 있는 것이 바람직하지만, 환경에서의 배경 노이즈가 이러한 목적을 방해한다. 예를 들어, 실험으로, 공개 구술 단어 정확도(open dictation word accuracy)는 자동차 노이즈 및 카페테리아 환경에서 대략 20%로 저하될 수 있다는 것을 알았고, 이는 사용자에게 받아들여지지 않을 수 있다.
오늘날의 음성 엔진은 배경 노이즈의 영향을 줄이기 위해 일부 노이즈 감소 특징들(some noise reduction features)을 갖는다. 그러나, 이러한 특징들은 도전적인 환경에서 오픈 구술을 허용하기에 충분하지 않을 수 있다. 그래서, 음성 신호 처리를 개선하기 위해 칼만 필터링 기술(Kalman filtering techniques)이 사용될 수 있다.
여기에 제시된 일부 실시예들에 의해, 음성 인식 성능은, 오디오 노이즈 필터링 처리를 별도의 음성 인식과 인간 수신 경로들로 양분함(bifurcating)으로써 향상될 수 있다. 즉, 음성 인식 엔진용 전처리(preprocessing) 오디오를 위해 사용되는 "지각(perception)" (또는 청각 접수) 채널 및 별도의 채널을 생성하기 위해 오디오 경로가 복제될 수 있다.
도 1은 일부 실시예들에 따른 음성 처리 엔진(102)의 블록도이다. 그것은 칼만 기반 필터링 엔진(Kalman based filtering engine; 104) 스피커/보이스 모델(106), 환경 노이즈 모델(107), 자동 음성 인식(ASR) 엔진(108), 및 표준 노이즈 억제 블록(110)을 포함한다.
오디오(예컨대, 마이크로부터의 디지털화된 오디오)는 SPE(음성 처리 엔진; speech processing engine)로 들어가서 2개의 경로: 칼만 필터 블록(104)으로 진입하는 음성 인식 경로, 및 사용자에 의한 수신을 위해 블록(110)에서 표준 노이즈 억제 기술을 사용하여 처리되는 오디오 인식 경로(복제된 오디오)로 분리된다. 칼만 필터는 스피커/보이스 모델(106)로부터의 컴포넌트들은 물론, 환경 노이즈 모델(107)로부터의 컴포넌트들을 활용하여, 오디오 신호로부터 노이즈를 필터링하고 필터링된 신호를 자동 음성 인식(ASR) 엔진(108)에 제공한다.
스피커/보이스 모델(106)(적어도 초기 버전)은, 초기 버전이 상당히 기본적일 수 있지만, SPE가 스피커/보이스 모델(106)로부터 동작하므로 SPE 실행 전에 생성되고, SPE가 실행 중인 동안 스피커/보이스 모델이 업데이트될 수 있다. 스피커/보이스 모델(106)은 현재의 스피커와 연관된 특정한 특성들을 제공한다. 이러한 특성들은, 임의의 다른 적절한 정보와 함께, 사용자의 특정한 기본 성문음 주파수(fundamental glottal frequency)를 포함하는, 하나 이상의 성문음 고조파(glottal harmonics)를 포함할 수 있다. 예를 들어, 사전에 취득한 모델들(예컨대, 사용자 트레이닝의 결과)이 사용가능한 경우, 그것들도 스피커/보이스 모델(106)에 포함될 수 있다. 표시된 바와 같이, 특정한 사용자를 위해 사전에 생성된 "깨끗한(clean)" 오디오 정보(x'(n)) 또한 사용될 수 있다.
환경 노이즈 모델(107)은, 스피커/보이스 모델과 유사하게, 가정된 노이즈 환경에 대한 또는 특정하거나 사전에 특성화된 환경(예컨대, 사무실, 자동차, 비행기 등)에 대한 초기 디폴트 데이터/가정에 기초하는 것일 수 있다. 그것은 환경과 연관된 정적 데이터(예컨대, 가정된 배경 노이즈 요소들)일 수 있고 및/또는 그것은 실시간 센서들로부터 획득한 동적 데이터 등을 포함할 수 있다. 예를 들어, 그것은 자동차 속도, 배경 노이즈 마이크 데이터, 및 에어컨 정보와 같은 센서 입력들을 포함할 수 있어, 노이즈 모델 추정자(estimator)의 성능을 향상시킬 수 있다. 일부 실시예들에서, 노이즈 추정 방법은, 보이스 활동 검출기 알고리즘(voice activity detector algorithm)을 사용하여 음성 부재의 기간들을 검출함으로써, 예컨대, 단일 채널에 대해 이용될 수 있다. 노이즈 모델은 노이즈 모델과 칼만 필터링 사이의 반복하는 루프를 사용하여 더 향상될 수 있다.
필터(104)는 수신된 오디오 신호를 필터링하기 위해 스피커 모델과 노이즈 모델 중 어느 하나 또는 둘 다를 사용할 수 있다. 다시, 스피커 모델로부터, 그것은 음성 소스(예컨대, 예를 들어, 구술(dictation), 보이스로 제어할 수 있는(voice controlled), 또는 번역 디바이스를 사용하는 인간 또는 다른 엔티티 스피커)에 의해 생성된 성문음 고조파(glottal harmonics)를 설명하기 위해 주기적인 컴포넌트들을 펄스들의 형태로 칼만 필터링에 추가하는 확장을 사용할 수 있다. 칼만 필터링은 일반적으로 백색 노이즈 입력과 함께 사용되었지만, 인간 음성(human speech)의 경우에, 주기적인 입력의 추가는 음성 생성의 생리학(physiology)과 더 유사할 수 있다. 미리 결정된 모델 정보 및 성문음 고조파 파라미터들을 포함하는 스피커 모델 정보는 스피커 모델에 대한 미리 결정된 또는 사전에 결정된 계수들의 집합을 로드하는데 사용될 수 있다. 칼만 필터링은 반드시 인간 지각을 현저하게 개선하지는 않는 오디오를 야기하지만, 일반적으로 음성 인식 엔진의 성능을 향상시킨다. 따라서, 오디오 경로는 칼만 사전 처리 필터링을 사용하여 인간 지각과 음성 인식 입력 둘 다를 극대화하기 위해 복제된다(두 개의 경로).
칼만 기술을 사용하여 구현된 필터(104)는, 부가적 유색 노이즈(additive colored-noise)를 설명하는 소음 관찰(noisy observation)과 함께, 독립적인 입력 및 구동 노이즈(driving noise)를 사용하여, AR 또는 ARMA 시스템으로서 성대 응답(vocal tract response)을 모델링하는데 사용될 수 있다.
종래의 칼만 애플리케이션들에서, 구동 주기적 입력은 일반적으로 무시되고(neglect) 간략화를 위해 단지 구동 백색 노이즈만 사용된다. 이러한 가정은, 필터가 (이상적인 성능 하에) 깨끗하지만 무성음의(unvoiced) 음성 신호를 생성할 것임을 함축하고, 이는 생리학적인 가치(physiological value)를 갖지 않음은 물론 자연스럽게 들리지도 않는다. 그러나, 그 가정은 단지 필터 파라미터들만 필요한 경우들에 적합할 수 있다.
다른 한편으로, 우리는, 선형 칼만 필터가 보이스 생성에서 관찰된 기본 상호작용 특징들(fundamental interactive features)을 포착할 수 있고, 따라서, 소음 상황(noisy conditions) 하에서 깨끗한 입력의 더 나은 추정들을 산출할 수 있다는 것을 결정하였다. CP 분석 및 소스 모델링과 결합되면, 예를 들어, 그것은 음성 처리 애플리케이션들을 위해 훨씬 더 잘 수행할 수 있다. 이러한 본질의 스킴에 있어서의 오류는 그것의 파라미터 추정 오류들과 연관될 것이고 생리학적/음향적 와전(physiological/acoustical misrepresentation)의 산물에 연관되지 않을 것이다. 따라서, 여기에 개시된 음성 향상 스킴들은, "선형"이라는 제목 하에 다음의 표에 보여진 구조를 갖는, 선형 칼만 필터에 기초한다.
(a) 비선형 (b) 선형
Figure pct00001

Figure pct00002
Figure pct00003

Figure pct00004
상태 xk는 성문음 소스 uk와 환경 노이즈 wk에 의해 생성되는 깨끗한 음성 입력에 대응한다. (x는 SPE로의 실제 입력이 아니다.) 측정된 신호 yk는 관측 노이즈 vk에 의해 손상된다. 전에 설명된 바와 같이, 이전의 칼만 접근법들은 간략화를 위해 주기적인 입력 uk을 무시하여, 백색 노이즈 여기 음성(white noise excited speech)을 산출한다. 그러나, 이러한 주기적 입력 및 상태 천이 매트릭스(state trasition matrix)의 CP 표현의 포함은 깨끗한 입력 xk의 더 나은 추정들을 제공하므로, 더 나은 음성 인식 성능을 제공한다. 다음 섹션에서, 본원에 적용되는 것으로서, 칼만 필터링이 더 자세히 논의될 것이다.
일부 실시예들에서, 칼만 필터링 모델-기반의 접근법이 음성 향상을 위해 사용된다. 깨끗한 음성은 배경 노이즈에 의해 선형적으로 손상되는 특정한 표현을 따르는 것으로 가정한다. 표준 칼만 필터링에서, 깨끗한 음성은 일반적으로 자기회귀(autoregressive; AR) 모델을 사용하여 표현되고, 이는 보통 입력으로서 백색 가우스 노이즈(white Gaussian noise)를 갖는다. 이것은 이산 시간(discrete time) 수학식 1로 표현된다.
Figure pct00005
여기서, x[n]은 깨끗한 음성이고, αn은 AR 또는 선형 예측 코딩(linear prediction coding; LPC) 계수들이고, w[n]은 백색 노이즈 입력이고, p는 AR 모델의 오더(보통 경험 법칙(rule of thumb) p=fs/1000+2을 따르는 것으로 가정되는데, 여기서 fs는 ㎑의 샘플링 레이트이다). 수학식 2와 3에서 설명된 바와 같이, 이 모델은 칼만 필터를 위해 필요로 된 원하는 구조를 생성하기 위해 재작성될 수 있다. 따라서,
Figure pct00006
Figure pct00007
여기서, xk +1 및 xk는 미래 및 현재의 깨끗한 음성의 p 샘플들을 포함하는 벡터들이고, Φ는 제어가능한 표준 형태(controllable canonical form)의 마지막 열에 LPC 계수들을 포함하는 상태 천이 행렬이고, wk는 벡터 이득 G를 통해 현재 샘플에 영향을 미치는 벡터로 변환되는 백색 노이즈 입력을 표현한다. 깨끗한 음성은 프로젝터 벡터 H를 통해 프로젝트되어, 손상된 관찰 또는 소음 음성(noisy speech) yk를 생성하기 위해 배경 노이즈 vk에 선형적으로 추가되는 현재 샘플을 획득한다.
칼만 필터링은 2개의 기본 단계, 전파 단계 및 업데이트 단계를 포함한다. 전파 단계에서, 모델은 이전 추정에 기초하여 현재 샘플을 예측하는데 사용된다(따라서, 표시 n|n-1). 이것은 수학식 4로 표현된다. 이전 p 포인트들을 포함하는 단 하나의 벡터의 단 하나의 버퍼만이 요구된다는 것에 주목한다. 업데이트 단계는 수학식 5-7로 묘사되고, 여기서, 예측된 샘플들은 예측과 추정 사이의 오류를 고려하여 우선 정정된다. 이 오류는, 수학식 6 및 7로 정의되는, 칼만 게인 Kn에 의해 제어된다. 이러한 모든 파라미터들은, 각각의 프레임 내에서 한 번 계산될 수 있다는 것, 즉, 각각의 프레임 내에서 음성이 (보통 25㎳ 이내의 기간의) 정상 프로세스(stationary process)로 간주되는 것에 주목한다.
Figure pct00008
Figure pct00009
Figure pct00010
Figure pct00011
이 프로젝트에서 제안되는 "수정된 칼만 필터(modified Kalman filter)"는, 이 시스템에서 2개의 기본 노이즈 가정, 즉, 성문음 펄스들(glottal pulses)이 보이스 세그먼트들(voiced segments) 동안 AR 모델 또한 구동한다는 가정 및 배경 노이즈는 그것과 연관된 공명(resonances)을 갖는다는 가정(비-백색 프로세스)을 일반화함으로써 표준 필터를 확장한다. 성문음 펄스들은 u[n]으로 표시되고 보컬 폴드 진동(vocal fold vibration)이 있을 때 존재한다. 배경 노이즈는 오더 q의 AR 모델을 따르는 것으로 가정된다(이는 추정될 수 있고, 예컨대, 경험적으로 q=fs/2000으로 획득될 수 있다). 따라서, 시스템의 새로운 구조를 표현하는 2개의 수학식은
Figure pct00012
Figure pct00013
음성 및 노이즈에 대한 모델은 유사한 구조를 갖기 때문에, 칼만 필터에 필요한 상태 수학식은 더 큰 대각 행렬에 내장된 2개의 서브시스템을 생성함으로써 확장될 수 있다. 동일한 시스템 구조는, 수학식 10-13으로 보여지는 바와 같이, 음성 및 노이즈를 추적하는데 사용되고, 여기서 아래첨자 s는 음성을 나타내고, v는 배경 노이즈를 나타낸다. 성문음 펄스들은 현재 샘플에만 도입되고, 그에 대해 벡터 B는 G와 동일한 구조를 갖는다.
Figure pct00014
Figure pct00015
Figure pct00016
Figure pct00017
칼만 전파 및 업데이트를 계산하는 수학식들은, 다른 이유들 중에서도, 노이즈가 필터 자체에 의해 추적되기 때문에, 성문음 펄스들이 포함되어 있고 노이즈 공분산 행렬 Rn이 포함되지 않는다는 점에서, 표준 칼만 필터와 다르다. 이러한 변경들은 수학식 4를 수정하여 수학식 14에 의해 표현되고, 수학식 6을 수정하여 수학식 15에 의해 표현된다. 따라서,
Figure pct00018
Figure pct00019
이러한 수정들로, 필터는 음성 신호 및 배경 노이즈 상황을 더 잘 표현하므로, 더 나은 노이즈 제거 및 ASR 성능을 산출할 수 있다.
새로운 칼만 필터링 기술은 음성 인식의 향상을 위해 사용될 수 있을 뿐만 아니라, 음성 합성을 개선할 수 있다. 도 2를 참조하여, 시간-도메인 기반 합성기를 보여주는 도면이 도시된다. 제안된 스킴은 입력 신호에 적용되는 3개의 상호접속된 프로세스들을 결합하는 디자인을 갖는다. 제1 브랜치는 소스 컴포넌트의 본질을 식별하고 소스 신호를 생성한다. 제2 브랜치는 필터 구조를 검색하고 필터의 선형 예측 계수(LPC)를 정의하기 위해 CP-(closed phase) 분석 또는 풀-프레임 분석 중 어느 하나를 적용한다. 제3 브랜치는 엔벨로프를 검출하고 합성 사운드의 안정성을 보장한다. 이러한 브랜치들은 순차적 또는 병렬 방식으로 계산될 수 있고, 상호작용의 레벨이 적절히 처리되는 한, 상이한 프레임 및 윈도잉 구조들(windowing structures)을 사용할 수 있다(예컨대, 일부 구현들에서, 제1 브랜치는 사각형 윈도우 및 비-중첩 프레임들을 사용할 수 있는 한편, 제2 브랜치는, 예를 들어, 50%의 중첩을 갖는 해밍(Hamming)을 사용할 수 있다).
도 3은, 전력 소비를 줄이기 위해, 예컨대, 모바일 디바이스에서, 오디오 처리 엔진에 대한 프론트-엔드를 구현하기 위한 일반적인 구조를 보여준다. 그것은, 예컨대, 도 1의 SPE(102)를 위한, 상이한 블록들을 구조화하는 전력 효율적 방법(power efficient way)을 도시한다. 그것은 연산 집약적 블록(compute intensive block; 301), 및 메모리 액세스 집약적(memory access intensive)인 백엔드(backend; 305)로 나누어진다. 연산 집약적 프론트 엔드(301)는, 필터 처리 섹션(302), 및 입력 오디오가 그것의 내에 음성을 갖는지를 결정하기 위한 결정 블록(304)을 갖는다. 메모리 집약적 백 엔드(305)는, 스피커 모델을 생성 및 업데이트하기 위한 스피커 모델 블록(306) 및 ASR을 구현하기 위한 음성 인식 블록(308)을 갖는다. 스피커 모델 블록(306)은 또한 노이즈 모델의 전부 또는 일부를 생성하기 위한 노이즈 모델 섹션을 가질 수 있다는 것에 주목한다. 오디오는 프론트 엔드(301)로 들어가서, 필터(302)에 의해 처리되고, 결정 블록(304)에서 결정되는 것과 같이 그것이 음성을 갖는다면, 스피커 모델 및 음성 인식 블록들(306, 308)은 필터(302)로부터 필터링된 음성 신호를 처리하기 위해 활성화된다.
하드웨어의 프론트-엔드에서 메모리 요구사항들을 줄임으로써, 와트당 동작들의 수를 증가시키기 위해 더 낮은 전력 동작의 사용이 가능해질 수 있다. 프런트-엔드(301)에서 음성 향상 알고리즘들의 하드웨어 구현은 저전력을 달성하기 위한 기회를 제공하고, 또한 프로세서 하드웨어의 백-엔드에 웨이크-업 신호를 제공하기 위해 임계값 검출기(304)를 사용하는 것을 가능하게 할 것이다. 백 엔드(305)는 (HMM 및/또는 신경망 기반(neural networks based)) 음성 인식 알고리즘들의 하드웨어 구현을 제공하고, 이는 일반적으로 메모리 집약적이고 높은 성능을 갖는다. 따라서, 연산 집약적 프런트-엔드 및 고성능 백-엔드로 하드웨어(예컨대, SPE 하드웨어)를 나눔으로써, "보이스-웨이크" 및 "항상-듣기" 특성들이 또한 음성 향상 및 인식을 위해 구현될 수 있다.
도 4는 휴대용 컴퓨팅 디바이스, 스마트 폰 등을 위한 전자 디바이스 플랫폼(402)의 일례를 도시한다. 표현된 부분은 하나 이상의 프로세싱 코어(404), 그래픽 프로세서(GPX)(406), 메모리 컨트롤러 허브(MCH)(408), IO 섹션(410), 및 전력 관리 섹션(416)을 포함한다. GPX(406)는 디스플레이(407)와 인터페이스하여 비디오 콘텐츠를 제공한다. MCH(408)는 메모리(409)와 인터페이스하여 추가 메모리(예컨대, 휘발성 또는 비 휘발성)를 갖는 플랫폼을 제공한다. 전력 관리 섹션(416)은 전력 소스(예컨대, 배터리, 어댑터 컨버터들, VR들 등)을 제어하여 상이한 플랫폼 섹션들에 전력을 제공하고, 그것은 또한 실현가능할 때 전력 소비를 줄이기 위해 상이한 액티비티 상태들을 관리한다.
IO 섹션(410)은 오디오 처리 섹션(412) 및 주변 인터페이스(들)(414)를 포함한다. 주변 인터페이스(들)은 다양한 상이한 주변 디바이스들(415)(키보드, 무선 인터페이스, 프린터 등)과 통신하고 그들을 인에이블하기 위한 인터페이스들(예컨대, PCI, USB)을 제공한다. 오디오 처리 섹션(412)은 사용자로부터 오디오 콘텐츠를 제공/수신하기 위한 다양한 오디오 입력/출력(아날로그 및/또는 디지털)을 수신할 수 있다. 또한, 예를 들어, 사용자와 네트워크(예컨대, 셀, 인터넷 등) 사이에서 오디오를 전달(communicate)하기 위해 내부 모듈들과 통신할 수 있다. 오디오 처리 섹션(412)은 다양한 컴포넌트들(예컨대, 플랫폼(402)의 기능들에 의해 결정되는 것으로서 오디오를 처리하기 위한 A/D/A 컨버터들, 코덱들 등)을 포함한다. 특히, 오디오 Px(412)는, 음성 처리를 구현하기 위해, 여기에 논의된 바와 같이, SPE(413)를 포함한다. 특히, 그것은, 도 3에 설명된 바와 같이, 전력 효율적 구조들을 포함할 수 있다.
앞의 설명에서, 수많은 특정 상세들이 명시되어 있다. 그러나, 본 발명의 실시예들은 이러한 특정 상세들 없이 실행될 수 있다는 것이 이해된다. 경우에 따라, 잘 알려진 회로들, 구조들 및 기술들은 설명의 이해를 모호하게 하지 않기 위해 자세히 도시되지 않을 수 있다. 이를 염두에 두고, "하나의 실시예(one embodiment)", "일 실시예(an embodiment)", "예시적인 실시예(example embodiment)", "다양한 실시예들(various embodiments)" 등으로 언급한 것은, 그렇게 설명된 본 발명의 실시예(들)가 특정한 특징들, 구조들, 또는 특성들을 포함할 수 있지만, 모든 실시예가 반드시 특정한 특징들, 구조들, 또는 특성들을 포함하는 것은 아니라는 것을 나타낸다. 또한, 일부 실시예들은 다른 실시예들에 대해 설명된 특징들의 일부 또는 전부를 가질 수도 있고 아무것도 갖지 않을 수도 있다.
이전의 설명 및 다음의 청구항들에서, 다음의 용어들은 다음과 같이 해석되어야 한다: "연결된(coupled)" 및 "접속된(connected)"이라는 용어 및 그들의 파생어들이 사용될 수 있다. 이러한 용어들은 서로에 대한 유의어로서 의도된 것이 아니라는 것이 이해되어야 한다. 오히려, 특정한 실시예들에서, "접속된"은, 두 개 이상의 요소들이 서로 직접 물리적으로 또는 전기적으로 접촉하는 것을 나타내는데 사용된다. "연결된"은, 두 개 이상의 요소들이 협력(co-operate) 또는 서로 상호작용한다는 것을 나타내는데 사용되지만, 그들은 직접 물리적으로 또는 전기적으로 접촉하는 것일 수도 있고 또는 그렇지 않을 수도 있다.
"PMOS 트랜지스터"라는 용어는 P-형 금속 산화물 반도체 전계 효과 트랜지스터를 지칭한다. 마찬가지로, "NMOS 트랜지스터"라는 용어는 N-형 금속 산화물 반도체 전계 효과 트랜지스터를 지칭한다. 달리 명시적으로 표시되거나 그들의 사용의 본질에 의해 규정되지 않는 한, "MOS 트랜지스터", "NMOS 트랜지스터" 또는 "PMOS 트랜지스터"라는 용어들이 사용되는 경우, 그들은 본보기로 사용되고 있다는 것이 이해되어야 한다. 그들은, 단지 몇 가지만 언급하면, 상이한 VT들, 재료 유형들, 절연체 두께들, 게이트(들) 구성들을 갖는 디바이스들을 포함하는 상이한 다양한 MOS 디바이스들을 포괄한다. 더욱이, MOS 등으로 구체적으로 언급되지 않는 한, 트랜지스터라는 용어는 다른 적절한 트랜지스터 유형들, 예컨대, 접합형-전계- 효과 트랜지스터들(junction-field-effect transistors), 바이폴라-접합 트랜지스터들(bipolar-junction transistors), 금속 반도체 FET들, 및 다양한 유형의 3차원 트랜지스터들, MOS 또는 그렇지 않으면, 오늘날 알려지거나 아직 개발되지 않은 것을 포함할 수 있다.
본 발명은 설명된 실시예들로 제한되지 않지만, 첨부된 청구항들의 의도 및 범위 내에서 수정 및 변경하여 실행될 수 있다. 예를 들어, 본 발명은 모든 유형의 반도체 집적 회로("IC") 칩들과 사용하기 위해 적용가능하다는 것이 이해되어야 한다. 이러한 IC 칩들의 예들은, 프로세서들, 컨트롤러들, 칩셋 컴포넌트들, 프로그램가능 로직 어레이들(PLA), 메모리 칩들, 네트워크 칩들 등을 포함하지만, 이것으로 제한되지 않는다.
또한, 도면의 일부에서, 신호 컨덕터 라인들은 라인으로 표현된다는 것이 이해되어야 한다. 더 많은 구성 신호 경로들을 나타내기 위해 일부는 더 두꺼울 수 있고, 다수의 구성 신호 경로들을 나타내기 위해 숫자 라벨을 가질 수 있고, 및/또는 주요 정보 흐름 방향을 나타내기 위해 하나 이상의 엔드에서 화살표들을 가질 수 있다. 이것은, 그러나, 제한 방식으로 해석되어서는 안 된다. 오히려, 이러한 추가된 상세는, 회로의 더 쉬운 이해를 용이하게 하기 위해 하나 이상의 예시적인 실시예와 관련하여 사용될 수 있다. 임의의 표현된 신호 라인들은, 추가 정보를 갖든 아니든, 실제로는 다수의 방향으로 이동할 수 있는 하나 이상의 신호를 포함할 수 있고, 임의의 적절한 유형의 신호 스킴으로 구현된, 차동 쌍(differential pairs), 광섬유 라인들(optical fiber lines), 및/또는 싱글-엔디드 라인들(single-ended lines)로 구현된, 예컨대, 디지털 또는 아날로그 라인들일 수 있다.
예시적인 크기들/모델들/값들/범위들(ranges)이 주어질 수 있지만, 본 발명은 동일한 것으로 제한되지 않는다는 것을 인식하여야 한다. 제조 기술들(예컨대, 포토리소그래피)은 시간이 지남에 따라 발달하므로, 더 작은 크기의 디바이스들이 제조될 수 있을 것으로 기대된다. 또한, IC 칩들과 다른 컴포넌트들에 대한 잘 알려진 전력/접지 접속들은, 설명 및 논의의 간략화를 위해, 그리고 본 발명이 모호해지지 않도록 하기 위해, 도면들 내에 도시될 수도 있고 도시되지 않을 수도 있다. 또한, 본 발명을 모호하게 하는 것을 피하기 위해, 또한 그러한 블록 도 어레인지먼트들의 구현에 대한 세부 내용들은 본 발명이 구현될 플랫폼에 매우 의존적이라는 사실, 즉, 이러한 세부 내용들은 당업자의 이해의 범위 내에 잘 있어야 한다는 사실의 관점에서, 어레인지먼트들은 블록 도 형태로 도시될 수 있다. 특정 상세들(예컨대, 회로들)이 본 발명의 예시적인 실시예들을 설명하기 위해 명시되는 경우에, 본 발명은 이러한 특정 상세들 없이, 또는 그들의 변형으로 실행될 수 있다는 것이 당업자에게 명백해야 한다. 따라서 설명은 제한 대신 예시적인 것으로 간주되어야 한다.

Claims (16)

  1. 제1 및 제2 오디오 음성 경로를 갖는 음성 처리 엔진(speech processing engine) - 상기 제1 경로는 청각 수신기(auditory receiver)에 제공되는 것임 - ; 및
    오디오 음성 신호를 수신하고 그로부터 노이즈를 제거하기 위해 상기 제2 경로에 연결된 칼만 필터(Kalman filter) - 상기 칼만 필터는 스피커 성문음 정보(speaker glottal information)를 포함하는 스피커 모델에 적어도 부분적으로 기초하여 상기 노이즈를 제어하는 것임 -
    를 포함하는 장치.
  2. 제1항에 있어서, 상기 필터는 환경 노이즈 정보를 내장하는(incorporating) 노이즈 모델에 또한 기초하여 노이즈를 제거하는 것인 장치.
  3. 제2항에 있어서, 상기 환경 노이즈 정보는 실시간 정보를 포함하는 장치.
  4. 제3항에 있어서, 상기 실시간 정보는 하나 이상의 노이즈 센서로부터의 정보를 포함하는 장치.
  5. 제1항에 있어서, 상기 스피커 모델은 스피커를 위해 사전에 생성된 노이즈-제거된 음성 신호 정보를 내장하는 장치.
  6. 제1항에 있어서, 상기 필터는 프런트 엔드 섹션에서 구현되고, 상기 스피커 모델은 음성이 상기 오디오 음성 신호에서 검출되는 경우에 인에이블되는 백 엔드 섹션에서 구현되는 장치.
  7. 제6항에 있어서, 상기 음성 처리 엔진은 음성 인식 엔진을 포함하는 장치.
  8. 제7항에 있어서, 상기 음성 인식 엔진은 상기 백 엔드 섹션의 일부인 장치.
  9. 제1 및 제2 오디오 음성 경로를 갖는 음성 처리 엔진을 포함하는 오디오 처리 섹션 - 상기 제1 경로는 청각 수신기에 제공되는 것임 - ; 및
    오디오 음성 신호를 수신하고 그로부터 노이즈를 제거하기 위해 상기 제2 경로에 연결된 칼만 필터 - 상기 칼만 필터는 스피커 성문음 정보를 포함하는 스피커 모델에 적어도 부분적으로 기초하여 상기 노이즈를 제어하는 것임 -
    를 포함하는 전자 디바이스.
  10. 제9항에 있어서, 상기 필터는 환경 노이즈 정보를 내장하는 노이즈 모델에 또한 기초하여 노이즈를 제거하는 것인 전자 디바이스.
  11. 제10항에 있어서, 상기 환경 노이즈 정보는 실시간 정보를 포함하는 전자 디바이스.
  12. 제11항에 있어서, 상기 실시간 정보는 하나 이상의 노이즈 센서로부터의 정보를 포함하는 전자 디바이스.
  13. 제9항에 있어서, 상기 스피커 모델은 스피커를 위해 사전에 생성된 노이즈-제거된 음성 신호 정보를 내장하는 전자 디바이스.
  14. 제9항에 있어서, 상기 필터는 프런트 엔드 섹션에서 구현되고, 상기 스피커 모델은 음성이 상기 오디오 음성 신호에서 검출되는 경우에 인에이블되는 백 엔드 섹션에서 구현되는 전자 디바이스.
  15. 제14항에 있어서, 상기 음성 처리 엔진은 음성 인식 엔진을 포함하는 전자 디바이스.
  16. 제15항에 있어서, 상기 음성 인식 엔진은 상기 백 엔드 섹션의 일부인 전자 디바이스.
KR1020127031843A 2010-06-30 2011-06-30 음성 오디오 처리 KR101434083B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/828,195 2010-06-30
US12/828,195 US8725506B2 (en) 2010-06-30 2010-06-30 Speech audio processing
PCT/US2011/042515 WO2012003269A2 (en) 2010-06-30 2011-06-30 Speech audio processing

Publications (2)

Publication Number Publication Date
KR20130033372A true KR20130033372A (ko) 2013-04-03
KR101434083B1 KR101434083B1 (ko) 2014-08-25

Family

ID=45400342

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127031843A KR101434083B1 (ko) 2010-06-30 2011-06-30 음성 오디오 처리

Country Status (7)

Country Link
US (1) US8725506B2 (ko)
EP (1) EP2589047A4 (ko)
JP (1) JP5644013B2 (ko)
KR (1) KR101434083B1 (ko)
CN (1) CN102934159B (ko)
TW (1) TWI455112B (ko)
WO (1) WO2012003269A2 (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US8812014B2 (en) * 2010-08-30 2014-08-19 Qualcomm Incorporated Audio-based environment awareness
US9947333B1 (en) * 2012-02-10 2018-04-17 Amazon Technologies, Inc. Voice interaction architecture with intelligent background noise cancellation
US9020818B2 (en) 2012-03-05 2015-04-28 Malaspina Labs (Barbados) Inc. Format based speech reconstruction from noisy signals
US9437213B2 (en) 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9384759B2 (en) * 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9361890B2 (en) * 2013-09-20 2016-06-07 Lenovo (Singapore) Pte. Ltd. Context-based audio filter selection
US9413434B2 (en) 2013-10-04 2016-08-09 Intel Corporation Cancellation of interfering audio on a mobile device
WO2015073019A1 (en) 2013-11-15 2015-05-21 Intel Corporation System and method for maintaining speach recognition dynamic dictionary
US9449602B2 (en) * 2013-12-03 2016-09-20 Google Inc. Dual uplink pre-processing paths for machine and human listening
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
CN104463841A (zh) * 2014-10-21 2015-03-25 深圳大学 衰减系数自适应的滤波方法及滤波***
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
EP3217399B1 (en) * 2016-03-11 2018-11-21 GN Hearing A/S Kalman filtering based speech enhancement using a codebook based approach
DE102017209585A1 (de) * 2016-06-08 2017-12-14 Ford Global Technologies, Llc System und verfahren zur selektiven verstärkung eines akustischen signals
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
WO2019169616A1 (zh) * 2018-03-09 2019-09-12 深圳市汇顶科技股份有限公司 语音信号处理方法及装置
CN110738990B (zh) * 2018-07-19 2022-03-25 南京地平线机器人技术有限公司 识别语音的方法和装置
EP4022604A1 (en) * 2019-08-30 2022-07-06 Dolby Laboratories Licensing Corporation Pre-conditioning audio for machine perception
GB202104280D0 (en) * 2021-03-26 2021-05-12 Samsung Electronics Co Ltd Method and apparatus for real-time sound enhancement
CN113053382B (zh) * 2021-03-30 2024-06-18 联想(北京)有限公司 处理方法和装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
AU3352997A (en) * 1996-07-03 1998-02-02 British Telecommunications Public Limited Company Voice activity detector
TW309675B (en) 1996-12-26 1997-07-01 Yiing Lii Method and apparatus for complex fuzzy signal processing
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6408269B1 (en) * 1999-03-03 2002-06-18 Industrial Technology Research Institute Frame-based subband Kalman filtering method and apparatus for speech enhancement
TW425542B (en) 1999-03-19 2001-03-11 Ind Tech Res Inst Kalman filter for speech enhancement
US7117157B1 (en) * 1999-03-26 2006-10-03 Canon Kabushiki Kaisha Processing apparatus for determining which person in a group is speaking
US20020026253A1 (en) 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
JP2002006898A (ja) 2000-06-22 2002-01-11 Asahi Kasei Corp ノイズ低減方法及びノイズ低減装置
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6850887B2 (en) * 2001-02-28 2005-02-01 International Business Machines Corporation Speech recognition in noisy environments
WO2002077972A1 (en) * 2001-03-27 2002-10-03 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US6757651B2 (en) * 2001-08-28 2004-06-29 Intellisist, Llc Speech detection system and method
WO2003036614A2 (en) * 2001-09-12 2003-05-01 Bitwave Private Limited System and apparatus for speech communication and speech recognition
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
US20040064315A1 (en) * 2002-09-30 2004-04-01 Deisher Michael E. Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments
KR100633985B1 (ko) 2004-05-04 2006-10-16 주식회사 팬택앤큐리텔 단말기에서의 에코 및 잡음 제거 장치
WO2006114102A1 (en) * 2005-04-26 2006-11-02 Aalborg Universitet Efficient initialization of iterative parameter estimation
CA2612903C (en) * 2005-06-20 2015-04-21 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
CN101281744B (zh) 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
JP5721098B2 (ja) 2008-03-21 2015-05-20 学校法人東京理科大学 雑音抑圧装置および雑音抑圧方法
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
WO2010046954A1 (ja) * 2008-10-24 2010-04-29 三菱電機株式会社 雑音抑圧装置および音声復号化装置
US9202455B2 (en) * 2008-11-24 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
KR101253102B1 (ko) * 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing

Also Published As

Publication number Publication date
WO2012003269A3 (en) 2012-03-29
CN102934159B (zh) 2015-12-16
US20120004909A1 (en) 2012-01-05
US8725506B2 (en) 2014-05-13
TWI455112B (zh) 2014-10-01
TW201222527A (en) 2012-06-01
KR101434083B1 (ko) 2014-08-25
CN102934159A (zh) 2013-02-13
JP2013531275A (ja) 2013-08-01
EP2589047A4 (en) 2015-11-25
WO2012003269A2 (en) 2012-01-05
EP2589047A2 (en) 2013-05-08
JP5644013B2 (ja) 2014-12-24

Similar Documents

Publication Publication Date Title
KR101434083B1 (ko) 음성 오디오 처리
US7890321B2 (en) Noise reduction device, program and method
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
US8249270B2 (en) Sound signal correcting method, sound signal correcting apparatus and computer program
US20150262590A1 (en) Method and Device for Reconstructing a Target Signal from a Noisy Input Signal
KR20040088360A (ko) 증분 베이즈 학습을 사용하는 잡음 추정 방법
CN111914549A (zh) 时间异步口头意图检测
US11308946B2 (en) Methods and apparatus for ASR with embedded noise reduction
CN105355199B (zh) 一种基于gmm噪声估计的模型组合语音识别方法
CN106098078A (zh) 一种可过滤扬声器噪音的语音识别方法及其***
CN116343765A (zh) 自动语境绑定领域特定话音识别的方法和***
Kaladevi et al. Data Analytics on Eco-Conditional Factors Affecting Speech Recognition Rate of Modern Interaction Systems
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
Park et al. Unsupervised speech domain adaptation based on disentangled representation learning for robust speech recognition
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
Saleem et al. Time domain speech enhancement with CNN and time-attention transformer
EP2645738B1 (en) Signal processing device, signal processing method, and signal processing program
Mporas et al. Speech enhancement for robust speech recognition in motorcycle environment
Li et al. Robust log-energy estimation and its dynamic change enhancement for in-car speech recognition
US20230298612A1 (en) Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition
Aldahoud et al. Robust automatic speech recognition system implemented in a hybrid design DSP-FPGA
Swamy Speech Enhancement, Databases, Features and Classifiers in Automatic Speech Recognition: A Review
CN115457934A (zh) 一种基于端到端模型的语音识别纠错方法
Hirasawa et al. Robot with two ears listens to more than two simultaneous utterances by exploiting harmonic structures
Kumar et al. Delta-melspectra features for noise robustness to DNN-based ASR systems.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170804

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180730

Year of fee payment: 5