KR20120079342A - 위치 기반의 음향 처리 장치 및 방법 - Google Patents

위치 기반의 음향 처리 장치 및 방법 Download PDF

Info

Publication number
KR20120079342A
KR20120079342A KR1020110000576A KR20110000576A KR20120079342A KR 20120079342 A KR20120079342 A KR 20120079342A KR 1020110000576 A KR1020110000576 A KR 1020110000576A KR 20110000576 A KR20110000576 A KR 20110000576A KR 20120079342 A KR20120079342 A KR 20120079342A
Authority
KR
South Korea
Prior art keywords
acoustic model
location
acoustic
sound
user
Prior art date
Application number
KR1020110000576A
Other languages
English (en)
Other versions
KR101791907B1 (ko
Inventor
김남훈
김정수
조정미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020110000576A priority Critical patent/KR101791907B1/ko
Priority to US13/192,902 priority patent/US8942979B2/en
Publication of KR20120079342A publication Critical patent/KR20120079342A/ko
Application granted granted Critical
Publication of KR101791907B1 publication Critical patent/KR101791907B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있다. 음향 처리 장치 및 방법이 개시된다. 위치 기반의 음향 처리 장치는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하고, 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하고, 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성한다.

Description

위치 기반의 음향 처리 장치 및 방법{ACOUSTIC PROCESSING APPARATUS AND METHOD BASED ON POSITION INFORMATION}
사용자의 위치를 검출하고, 검출된 사용자의 위치에서의 가장 적합한 음향 모델을 선택하고, 선택된 음향 모델을 이용하여 사용자의 음성을 인식함으로써, 음성 인식 성능을 향상시킬 수 있는 기술과 관련된다.
최근에 다양한 장치들이 생산되고 있으며, 더불어 이러한 장치들을 편리하게 제어할 수 있는 방법들이 다양하게 제시되고 있다.
특히, 사용자가 음성을 이용하여 이러한 장치들을 제어할 수 있는 기술인 음성 인식 기반의 사용자 인터페이스(UI)에 대한 관심이 증가하고 있다. 일반적인 음성 인식 기반의 사용자 인터페이스는 사용자와 마이크 사이의 거리가 가까운 경우를 가정하고 제작되었다. 따라서, 사용자와 마이크 사이의 거리가 먼 경우, 음성 인식 기반의 사용자 인터페이스는 정확하게 음성을 인식할 수 없다. 다시 말해, 사용자와 마이크 사이의 거리가 먼 경우, 잔향(reverberation), 반향(echo) 등에 의한 환경적인 영향을 많이 받기 때문에, 일반적으로 음성 인식 성능이 현저하게 저하될 수 있다.
따라서, 사용자와 마이크 사이의 거리가 먼 경우에도, 음성을 정확하게 인식할 수 있는 기술에 대한 연구가 다양하게 진행되고 있다.
사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있는 음향 처리 장치 및 방법이 개시된다.
본 발명의 일 실시예에 따른 위치 기반의 음향 처리 장치는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 제 1 추출부와, 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 제 2 추출부 및 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성하는 음향 모델 생성부를 포함할 수 있다.
음향 모델 생성부는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다.
음향 모델 생성부는 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성할 수 있다.
위치 기반의 음향 처리 장치는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 제 1 위치를 검출하는 위치 검출부를 더 포함할 수 있다.
위치 기반의 음향 처리 장치는 제 1 위치로부터 수신되는 음향 신호를 제 3 음향 모델을 이용하여 인식하는 음성 인식부를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 음향 처리 방법은 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 단계와, 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 단계 및 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성하는 단계를 포함할 수 있다.
제 3 음향 모델을 생성하는 단계는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성하는 단계를 포함할 수 있다.
음향 처리 방법은 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성하는 단계를 더 포함할 수 있다.
음향 처리 방법은 사용자의 위치 정보를 검출하는 단계 및 검출된 사용자의 위치 정보에 기초하여 제 1 위치를 검출하는 단계를 더 포함할 수 있다.
음향 처리 방법은 제 1 위치로부터 수신되는 음향 신호를 제 3 음향 모델을 이용하여 인식하는 단계를 더 포함할 수 있다.
개시된 내용에 따르면, 사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있다.
도 1은 본 발명의 일 실시예와 관련된 음향 처리 장치를 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 또 다른 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 음향 처리 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 발명을 실시하기 위한 구체적인 내용에 대하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예와 관련된 음향 처리 장치를 설명하기 위한 도면이다.
도 1을 참조하면, 음향 처리 장치(100)는 위치 설정부(110), 위치 검출부(120), 제 1 추출부(130), 제 2 추출부(140), 음향 모델 생성부(150) 및 음성 인식부(160)를 포함한다.
위치 설정부(110)는 음성 인식 대상 영역에 다수의 위치를 설정할 수 있다. 예를 들면, 위치 설정부(110)는 음성 인식 대상 영역에 M*N 개의 위치를 설정할 수 있다.
음향 모델 생성부(150)는 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성할 수 있다. 음향 모델은 음성 신호의 특성을 표현한 모델을 의미할 수 있다. 예를 들면, 음향 모델에는 각 음소들 및 각 음소들에 대한 음성 특징 정보들이 상호 매칭되어 저장될 수 있다. 예를 들면, 음향 모델은 hidden Markov model(HMM) 등일 수 있다. 실험 데이터는 각각의 설정된 위치에서 음성 신호를 재생하여 얻어진 데이터이거나 통화 품질 측정에 사용되는 artificial mouth와 같은 장치를 이용하여 얻어진 데이터일 수 있다. 예를 들면, 음향 모델 생성부(150)는 ML(Maximum Likelihood) 기법을 이용하여 해당 위치에 가장 적합한 음향 모델을 생성할 수 있다.
위치 검출부(120)는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 위치 설정부(110)에서 설정된 제 1 위치를 검출할 수 있다. 사용자의 위치 정보는 물체의 위치를 검출할 수 있는 다양한 장치들에 의해 검출될 수 있다. 제 1 위치는 음성 인식 대상 영역에 존재하는 설정된 위치들 중 사용자의 위치 정보에 매칭된 위치를 의미한다. 사용자의 위치 정보에 정확하게 일치되는 설정된 위치가 없는 경우, 위치 검출부(120)는 설정된 위치들 중 사용자의 위치 정보에 가장 근접한 위치를 제 1 위치로써 검출할 수 있다.
제 1 추출부(130)는 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출할 수 있다.
제 2 추출부(140)는 제 1 위치의 주변에 존재하는 하나 또는 그 이상의 제 2 위치에 매칭된 제 2 음향 모델을 추출할 수 있다.
음향 모델 생성부(150)는 제 1 음향 모델 및/또는 제 2 음향 모델을 이용하여 제 1 위치에 매칭되는 제 3 음향 모델을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 CAT(Cluster Adaptive Training) 기법을 이용하여 제 3 음향 모델을 생성할 수 있다. 이와 같이, 음향 모델 생성부(150)는 제 1 음향 모델 및/또는 제 2 음향 모델에 기초하여 환경적인 특성을 반영한 제 3 음향 모델을 생성할 수 있다.
음향 모델 생성부(150)는 설정된 모든 위치에 대해 위와 같은 과정을 통해 새로운 음향 모델을 생성할 수 있다. 이에 대한 설명은 도 2를 참조하여 구체적으로 설명한다.
음성 인식부(160)는 제 1 위치로부터 수신되는 음성 신호를 음향 모델 생성부(150)에서 생성된 제 3 음향 모델을 이용하여 인식할 수 있다. 환경적 특성을 반녕한 제 3 음향 모델을 이용하여 음성 신호를 인식함으로써, 음성 인식부(160)는 수신되는 음성 신호를 더욱 정확하게 처리하고 인식할 수 있다.
음향 처리 장치는 현재 사용자의 위치에 대한 정보가 추출될 때마다, 사용자의 위치에 매칭되는 제 3 음향 모델을 생성하고, 생성된 제 3 음향 모델을 이용하여 음성 신호를 처리하고 인식할 수 있다.
또 다른 예를 들면, 음향 처리 장치는 각각의 설정된 위치에 매칭되는 제 3 음향 모델을 모두 생성한 후, 현재 사용자의 위치에 대한 정보가 추출되면 매칭된 제 3 음향 모델을 이용하여 음성 신호를 처리하고 인식할 수 있다. 다시 말하면, 음향 처리 장치는 제 3 음향 모델을 실시간으로 생성할 수도 있고, 미리 생성할 수도 있다.
음향 처리 장치는 사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있다.
도 2는 본 발명의 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 1 및 도 2를 참조하면, 위치 설정부(110)는 음성 인식 대상 영역에 5*4(20개)의 위치를 설정할 수 있다.
위치 검출부(120)는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 제 1 위치(200)를 검출할 수 있다. 제 1 위치(200)는 설정된 위치들 중 검출된 사용자의 위치 정보에 매칭된 위치를 의미한다.
제 2 추출부(140)는 제 1 위치(200)의 주변에 존재하는 제 2 위치들(210, 211, 212, 213, 214, 215, 216, 217)에 매칭된 제 2 음향 모델(λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8)을 추출할 수 있다. 이하에서는, 음향 모델을 λ로 표시한다.
제 2 추출부(140)가 8개의 제 2 위치들을 추출하는 경우를 가정하였으나, 이에 한정되지 않고, 제 2 추출부(140)는 제 1 위치(200)의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출할 수 있다. 예를 들면, 제 2 추출부(140)는 제 1 위치(200)의 주변에 존재하는 4개의 제 2 위치들(210, 212, 214, 216)에 매칭된 제 2 음향 모델들(λ1, λ3, λ5, λ7)을 추출할 수 있다.
음향 모델 생성부(150)는 제 2 음향 모델(λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8)을 이용하여 제 1 위치(200)에 매칭되는 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 제 2 음향 모델(λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8)에 가중치를 주고 선형 조합하여 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 수학식 1을 이용하여 제 3 음향 모델(λx)을 생성할 수 있다.
Figure pat00001
여기서, λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8 는 제 2 음향 모델들, λx는 3 음향 모델 및 w는 가중치를 의미한다.
제 3 음향 모델(λx)은 각각의 제 2 음향 모델(λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8)에 가중치를 곱하고 선형 조합함으로써 얻어질 수 있다.
수학식 1은 일 실시예에 불과하며, 음향 모델 생성부(150)는 일부의 제 2 음향 모델에만 가중치를 주는 등과 같은 다양한 방법을 이용하여 제 2 음향 모델에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다.
음향 모델 생성부(150)는 설정된 20개의 위치에 대해 위와 같은 과정을 통해 각 위치에 대응되는 20개의 새로운 음향 모델을 생성할 수 있다.
도 3은 본 발명의 또 다른 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 1 및 도 3을 참조하면, 위치 설정부(110)는 음성 인식 대상 영역에 5*4(20개)의 위치를 설정할 수 있다.
위치 검출부(120)는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 제 1 위치(300)를 검출할 수 있다. 제 1 위치(300)는 설정된 위치들 중 사용자의 위치 정보에 매칭된 위치를 의미한다.
제 1 추출부(130)는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치(300)에 매칭된 제 1 음향 모델(λ1)을 추출할 수 있다.
제 2 추출부(140)는 제 1 위치(300)의 주변에 존재하는 제 2 위치들(310, 311, 312, 313)에 매칭된 제 2 음향 모델(λ2, λ3, λ4, λ5)을 추출할 수 있다.
제 2 추출부(140)가 제 1 위치(300)의 주변에 존재하는 제 2 위치들(310, 311, 312, 313)에 매칭된 제 2 음향 모델(λ2, λ3, λ4, λ5)을 추출하는 경우를 가정하였으나, 제 2 추출부(140)는 제 1 위치(300)의 주변에 존재하는 위치들 중 1개, 2개, 3개 등과 같이 적어도 하나의 위치에 매칭된 제 2 음향 모델을 추출할 수 있다. 예를 들면, 제 2 추출부(140)가 제 1 위치(300)의 주변에 존재하는 제 2 위치들(310, 312)에 매칭된 제 2 음향 모델(λ2, λ4)을 추출할 수도 있다.
음향 모델 생성부(150)는 제 1 음향 모델(λ1) 및 제 2 음향 모델(λ2, λ3, λ4, λ5)을 이용하여 제 1 위치(300)에 매칭되는 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 제 1 음향 모델(λ1) 및 제 2 음향 모델(λ2, λ3, λ4, λ5)에 가중치를 주고 선형 조합하여 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 수학식 2를 이용하여 제 3 음향 모델(λx)을 생성할 수 있다.
Figure pat00002
여기서, λ는 음향 모델을 의미하고, w는 가중치를 의미한다.
여기서, λ1은 제 1 음향 모델, λ2, λ3, λ4, λ5는 제 2 음향 모델들, λx는 3 음향 모델 및 w는 가중치를 의미한다.
수학식 2는 일 실시예에 불과하며, 음향 모델 생성부(150)는 제 1 음향 모델 및 제 2 음향 모델 중 일부에만 가중치를 주는 등과 같은 다양한 방법을 이용하여 제 2 음향 모델에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다.
음향 모델 생성부(150)는 설정된 20개의 위치에 대해 위와 같은 과정을 통해 각 위치에 대응되는 20개의 새로운 음향 모델을 생성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 음향 처리 방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 음향 처리 장치는 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성한다(400). 음향 처리 장치는 사용자의 위치 정보를 검출한다(410). 음향 처리 장치는 검출된 사용자의 위치 정보에 기초하여 제 1 위치를 검출한다(420). 제 1 위치는 설정된 위치들 중 사용자의 위치 정보에 매칭된 위치를 의미한다. 음향 처리 장치는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출한다(430). 음향 처리 장치는 제 1 위치의 주변에 존재하는 제 2 위치들 중 적어도 하나에 매칭된 제 2 음향 모델을 추출한다(440). 음향 처리 장치는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 1 위치에 매칭되는 제 3 음향 모델을 생성한다(450). 예를 들면, 음향 처리 장치는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다. 음향 처리 장치는 제 1 위치로부터 수신되는 음향 신호를 제 3 음향 모델을 이용하여 인식한다(460).
설명된 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
또한, 실시예는 그 설명을 위한 것이며, 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술분야의 통상의 전문가라면 본 발명의 기술사상의 범위에서 다양한 실시예가 가능함을 이해할 수 있을 것이다.
또한, 본 발명의 일 실시예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

Claims (10)

  1. 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 제 1 추출부;
    상기 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 제 2 추출부; 및
    상기 제 1 음향 모델 및 상기 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성하는 음향 모델 생성부를 포함하는 위치 기반의 음향 처리 장치.
  2. 제 1 항에 있어서,
    상기 음향 모델 생성부는,
    상기 제 1 음향 모델 및 상기 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 상기 제 3 음향 모델을 생성하는 위치 기반의 음향 처리 장치.
  3. 제 1 항에 있어서,
    상기 음향 모델 생성부는,
    상기 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 상기 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성하는 위치 기반의 음향 처리 장치.
  4. 제 1 항에 있어서,
    사용자의 위치 정보를 검출하고, 상기 검출된 사용자의 위치 정보에 기초하여 상기 제 1 위치를 검출하는 위치 검출부를 더 포함하는 위치 기반의 음향 처리 장치.
  5. 제 1 항에 있어서,
    상기 제 1 위치로부터 수신되는 음향 신호를 상기 제 3 음향 모델을 이용하여 인식하는 음성 인식부를 더 포함하는 위치 기반의 음향 처리 장치.
  6. 위치 기반의 음향 처리 장치의 음향 처리 방법에 있어서,
    음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 단계;
    상기 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 단계; 및
    상기 제 1 음향 모델 및 상기 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성하는 단계를 포함하는 위치 기반의 음향 처리 방법.
  7. 제 6 항에 있어서,
    상기 제 3 음향 모델을 생성하는 단계는,
    상기 제 1 음향 모델 및 상기 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 상기 제 3 음향 모델을 생성하는 단계를 포함하는 위치 기반의 음향 처리 방법.
  8. 제 6 항에 있어서,
    상기 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 상기 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성하는 단계를 더 포함하는 위치 기반의 음향 처리 방법.
  9. 제 6 항에 있어서,
    사용자의 위치 정보를 검출하는 단계; 및
    상기 검출된 사용자의 위치 정보에 기초하여 상기 제 1 위치를 검출하는 단계를 더 포함하는 위치 기반의 음향 처리 방법.
  10. 제 6 항에 있어서,
    상기 제 1 위치로부터 수신되는 음향 신호를 상기 제 3 음향 모델을 이용하여 인식하는 단계를 더 포함하는 위치 기반의 음향 처리 방법.
KR1020110000576A 2011-01-04 2011-01-04 위치 기반의 음향 처리 장치 및 방법 KR101791907B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110000576A KR101791907B1 (ko) 2011-01-04 2011-01-04 위치 기반의 음향 처리 장치 및 방법
US13/192,902 US8942979B2 (en) 2011-01-04 2011-07-28 Acoustic processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110000576A KR101791907B1 (ko) 2011-01-04 2011-01-04 위치 기반의 음향 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120079342A true KR20120079342A (ko) 2012-07-12
KR101791907B1 KR101791907B1 (ko) 2017-11-02

Family

ID=46381534

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110000576A KR101791907B1 (ko) 2011-01-04 2011-01-04 위치 기반의 음향 처리 장치 및 방법

Country Status (2)

Country Link
US (1) US8942979B2 (ko)
KR (1) KR101791907B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842588B2 (en) 2014-07-21 2017-12-12 Samsung Electronics Co., Ltd. Method and device for context-based voice recognition using voice recognition model

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9530407B2 (en) * 2014-06-11 2016-12-27 Honeywell International Inc. Spatial audio database based noise discrimination
US11676062B2 (en) 2018-03-06 2023-06-13 Samsung Electronics Co., Ltd. Dynamically evolving hybrid personalized artificial intelligence system

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6230138B1 (en) * 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
DE10122828A1 (de) * 2001-05-11 2002-11-14 Philips Corp Intellectual Pty Verfahren zum Training oder zur Adaption eines Spracherkenners
JP2003131683A (ja) 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7099822B2 (en) * 2002-12-10 2006-08-29 Liberato Technologies, Inc. System and method for noise reduction having first and second adaptive filters responsive to a stored vector
KR100814143B1 (ko) * 2003-10-03 2008-03-14 아사히 가세이 가부시키가이샤 데이터 처리 장치 및 데이터 처리 장치 제어 프로그램
DE602004021716D1 (de) * 2003-11-12 2009-08-06 Honda Motor Co Ltd Spracherkennungssystem
US7475014B2 (en) * 2005-07-25 2009-01-06 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking signal sources with wrapped-phase hidden markov models
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842588B2 (en) 2014-07-21 2017-12-12 Samsung Electronics Co., Ltd. Method and device for context-based voice recognition using voice recognition model

Also Published As

Publication number Publication date
KR101791907B1 (ko) 2017-11-02
US8942979B2 (en) 2015-01-27
US20120173232A1 (en) 2012-07-05

Similar Documents

Publication Publication Date Title
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
EP3707716B1 (en) Multi-channel speech separation
US11887582B2 (en) Training and testing utterance-based frameworks
CN112074901B (zh) 语音识别登入
TWI620170B (zh) 應用於電子裝置的有向性關鍵字驗證方法及其電子裝置
US9536523B2 (en) Method and system for identification of speech segments
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
EP3050052B1 (en) Speech recognizer with multi-directional decoding
US8762144B2 (en) Method and apparatus for voice activity detection
CN112088315A (zh) 多模式语音定位
JP5328744B2 (ja) 音声認識装置及び音声認識方法
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
WO2010096272A1 (en) Speech processing with source location estimation using signals from two or more microphones
CN112513983A (zh) 可穿戴***语音处理
KR101791907B1 (ko) 위치 기반의 음향 처리 장치 및 방법
US20080120100A1 (en) Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor
JP2009258366A (ja) 音声制御装置
JP6487650B2 (ja) 音声認識装置及びプログラム
CN114694667A (zh) 语音输出方法、装置、计算机设备及存储介质
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
Okuno et al. Computational auditory scene analysis and its application to robot audition: Five years experience
Lee et al. Space-time voice activity detection
Lopatka et al. Enhanced voice user interface employing spatial filtration of signals from acoustic vector sensor
Zhang et al. Synthetic Speech Detection Based on Temporal Consistency and Distribution of Speaker Features
Oseni-Adegbite Speaker diarization in a meeting scenario

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant