KR101681988B1 - 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법 - Google Patents

음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법 Download PDF

Info

Publication number
KR101681988B1
KR101681988B1 KR1020150106376A KR20150106376A KR101681988B1 KR 101681988 B1 KR101681988 B1 KR 101681988B1 KR 1020150106376 A KR1020150106376 A KR 1020150106376A KR 20150106376 A KR20150106376 A KR 20150106376A KR 101681988 B1 KR101681988 B1 KR 101681988B1
Authority
KR
South Korea
Prior art keywords
speech
signal
voice
noise signal
speech recognition
Prior art date
Application number
KR1020150106376A
Other languages
English (en)
Inventor
임규형
Original Assignee
현대자동차주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사 filed Critical 현대자동차주식회사
Priority to KR1020150106376A priority Critical patent/KR101681988B1/ko
Application granted granted Critical
Publication of KR101681988B1 publication Critical patent/KR101681988B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)

Abstract

주변의 다른 음성 인식 장치로부터 노이즈 신호를 제공 받아 전처리에 사용함으로써, 음성 인식을 위한 전처리의 정확도를 향상시킬 수 있는 음성 인식 장치, 이를 포함하는 차량, 복수의 음성 인식 장치들과 신호를 주고 받는 서버 및 음성 인식 방법을 제공한다.
사용자의 음성이 입력되면, 입력된 음성을 음성 신호로 변환하여 인식하는 음성 인식 장치는, 상기 음성 신호로부터 제1노이즈 신호를 추출하고, 상기 음성이 입력된 제1시간 및 주변 음성 인식 장치에 상기 음성이 입력된 제2시간에 기초하여 상기 제1노이즈 신호와 상기 주변 음성 인식 장치가 추출한 제2노이즈 신호를 합성하여 합성 노이즈 신호를 생성하고, 상기 합성 노이즈 신호를 이용하여 전처리를 수행하는 전처리부; 및 상기 전처리가 수행된 음성 신호를 인식하는 인식부;를 포함한다.

Description

음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법{SPEECH RECOGNITION APPARATUS, VEHICLE HAVING THE SAME AND SPEECH RECONGITION METHOD}
개시된 발명은 사용자의 음성을 인식하는 음성 인식 장치, 이를 포함하여 인식된 음성에 따라 특정 기능을 수행하는 차량 및 음성 인식 방법에 관한 것이다.
음성 인식 기술은 물리적으로 인터페이스를 조작하지 않고서 사용자가 명령어를 발화하는 것만으로도 기기를 제어할 수 있도록 함으로써, 기기에 대한 사용성을 높여주는 기술이다.
이러한 음성 인식 기술은 다양한 분야에 적용될 수 있는바, 최근에는 운전자의 조작 부하를 감소시키기 위해 차량에 음성 인식 기술을 적용하는 시도가 이루어지고 있다.
음성 인식 기술의 적용이 효과적으로 이루어지기 위해서는 음성 인식의 정확도가 어느 정도 보장되어야 한다. 따라서, 음성 인식의 정확도를 높이기 위한 많은 연구 개발이 이루어지고 있는바, 음성 인식의 정확도를 높이기 위해서는 기본적으로 노이즈 제거가 효율적으로 이루어져야 한다.
주변의 다른 음성 인식 장치로부터 노이즈 신호를 제공 받아 전처리에 사용함으로써, 음성 인식을 위한 전처리의 정확도를 향상시킬 수 있는 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 방법을 제공한다.
사용자의 음성이 입력되면, 입력된 음성을 음성 신호로 변환하여 인식하는 음성 인식 장치는, 상기 음성 신호로부터 제1노이즈 신호를 추출하고, 상기 음성이 입력된 제1시간 및 주변 음성 인식 장치에 상기 음성이 입력된 제2시간에 기초하여 상기 제1노이즈 신호와 상기 주변 음성 인식 장치가 추출한 제2노이즈 신호를 합성하여 합성 노이즈 신호를 생성하고, 상기 합성 노이즈 신호를 이용하여 전처리를 수행하는 전처리부; 및 상기 전처리가 수행된 음성 신호를 인식하는 인식부;를 포함한다.
상기 전처리부는, 상기 음성 신호로부터 상기 합성 노이즈 신호를 제거하여 음성 구간을 추출하고, 상기 음성 구간으로부터 특징을 추출할 수 있다.
상기 인식부는, 상기 추출된 특징을 미리 저장된 모델과 비교하여 상기 음성 신호를 인식할 수 있다.
상기 음성 신호를 입력 받는 음성 입력부; 및 상기 제2시간 및 상기 제2노이즈 신호를 수신하는 통신부;를 더 포함할 수 있다.
상기 통신부는, 외부의 서버로부터 상기 제2시간 및 상기 제2노이즈 신호를 수신할 수 있다.
상기 통신부는, 상기 주변 음성 인식 장치로부터 상기 제2시간 및 상기 제2노이즈 신호를 수신할 수 있다.
상기 통신부는, 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(Zigbee), WFD(Wi-Fi Direct), UWB(Ultra wideband), 적외선 통신(IrDA; Infrared Data Association), BLE (Bluetooth Low Energy), NFC(Near Field Communication) 및 RFID(Radio Frequency Identification) 중 적어도 하나의 무선 통신 모듈을 포함할 수 있다.
상기 통신부는, 상기 주변 음성 인식 장치에 상기 제1시간 및 상기 제1노이즈 신호를 전송할 수 있다.
상기 통신부는, 외부의 서버에 상기 제1시간 및 상기 제1노이즈 신호를 전송할 수 있다.
일 실시예에 따른 차량은, 사용자의 음성을 입력 받는 음성 입력부; 및 상기 입력된 음성이 변환된 음성 신호로부터 제1노이즈 신호를 추출하고, 상기 음성이 입력된 제1시간 및 주변 음성 인식 장치에 상기 음성이 입력된 제2시간에 기초하여 상기 제1노이즈 신호와 상기 주변 음성 인식 장치가 추출한 제2노이즈 신호를 합성하여 합성 노이즈 신호를 생성하고, 상기 합성 노이즈 신호를 이용하여 전처리를 수행하는 전처리부; 및 상기 전처리가 수행된 음성 신호를 인식하는 인식부;를 포함한다.
상기 전처리부는, 상기 음성 신호로부터 상기 합성 노이즈 신호를 제거하여 음성 구간을 추출하고, 상기 음성 구간으로부터 특징을 추출할 수 있다.
상기 인식부는, 상기 추출된 특징을 미리 저장된 모델과 비교하여 상기 음성 신호를 인식할 수 있다.
상기 차량은, 상기 제2시간 및 상기 제2노이즈 신호를 수신하는 통신부;를 더 포함할 수 있다.
상기 통신부는, 외부의 서버로부터 상기 제2시간 및 상기 제2노이즈 신호를 수신할 수 있다.
상기 통신부는, 상기 주변 음성 인식 장치로부터 상기 제2시간 및 상기 제2노이즈 신호를 수신할 수 있다.
일 실시예에 따른 사용자의 음성이 입력되면, 입력된 음성을 음성 신호로 변환하여 인식하는 음성 인식 방법은, 상기 음성 신호로부터 제1노이즈 신호를 추출하고; 상기 음성이 입력된 제1시간 및 주변 음성 인식 장치에 상기 음성이 입력된 제2시간에 기초하여 상기 제1노이즈 신호와 상기 주변 음성 인식 장치가 추출한 제2노이즈 신호를 합성하여 합성 노이즈 신호를 생성하고; 상기 합성 노이즈 신호를 이용하여 전처리를 수행하고; 상기 전처리가 수행된 음성 신호를 인식하는 인식하는 것;을 포함한다.
상기 전처리를 수행하는 것은, 상기 음성 신호로부터 상기 합성 노이즈 신호를 제거하여 음성 구간을 추출하고, 상기 음성 구간으로부터 특징을 추출하는 것을 포함할 수 있다.
상기 전처리가 수행된 음성 신호를 인식하는 것은, 상기 추출된 특징을 미리 저장된 모델과 비교하여 상기 음성 신호를 인식하는 것을 포함할 수 있다.
외부의 서버 또는 상기 주변 음성 인식 장치로부터 상기 제2시간 및 상기 제2노이즈 신호를 수신하는 것을 더 포함할 수 있다.
일 측면에 따른 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 방법에 의하면, 주변의 다른 음성 인식 장치로부터 노이즈 신호를 제공 받아 전처리에 사용함으로써, 음성 인식을 위한 전처리의 정확도를 향상시킬 수 있다.
도 1 및 도 2는 일 실시예에 따른 음성 인식 장치와 그 주변에 위치하는 다른 음성 인식 장치들과의 관계를 개략적으로 나타내기 위한 도면이다.
도 3 및 도 4는 일 실시예에 따른 음성 인식 장치의 제어 블록도이다.
도 5 내지 도 7은 제1음성 인식 장치, 제2음성 인식 장치 및 제3음성 인식 장치에 입력된 음성 신호의 예시를 나타낸 도면이다.
도 8은 복수의 노이즈 신호가 합성되는 과정을 나타낸 도면이다.
도 9는 합성 노이즈 신호가 제거된 음성 신호를 나타낸 도면이다.
도 10은 일 실시예에 따른 차량의 외관도이다.
도 11은 일 실시예에 따른 차량의 내부 구성을 나타낸 도면이다.
도 12는 일 실시예에 따른 서버의 제어 블록도이다.
도 13은 복수의 음성 인식 장치와 서버가 서로 신호를 주고 받는 과정을 나타낸 플로우 차트이다.
이하 첨부된 도면을 참조하여 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법에 관한 실시예를 상세하게 설명하도록 한다.
도 1 및 도 2는 일 실시예에 따른 음성 인식 장치와 그 주변에 위치하는 다른 음성 인식 장치들과의 관계를 개략적으로 나타내기 위한 도면이다. 도 1 및 도 2는 모두 차량을 위에서 내려다 본 평면도이다.
도 1을 참조하면, 일 실시예에 따른 음성 인식 장치(100)는 차량(200)의 내부에 배치될 수 있다. 음성 인식 장치(100)는 음성 인식 엔진이 탑재된 모듈로서 차량(200)에 장착된 구성 요소일 수도 있고, 스마트폰, 스마트 워치, 태블릿 PC 등 차량(200)과 독립된 전자 기기일 수도 있다. 후자의 경우, 차량(200)의 탑승자가 음성 인식 장치(100)를 소지하고 차량(200)에 탑승할 수 있다.
음성 인식 장치(100)의 주변에는 다른 음성 인식 장치들(300,400)이 더 위치할 수 있다. 일 실시예에 따른 음성 인식 장치(100)와 구별하기 위해, 다른 음성 인식 장치들(300,400)은 주변 음성 인식 장치라 지칭하기로 한다.
도 1의 예시에서는 두 개의 음성 인식 장치(300,400)가 더 존재하는 것으로 하였으나, 하나의 음성 인식 장치만 주변에 존재하는 것도 가능하고 세 개 이상의 음성 인식 장치가 주변에 존재하는 것도 가능함은 물론이다.
차량(200)에 탑승한 사용자의 음성을 인식하기 위해, 음성 인식 장치(100)는 음성 신호로부터 노이즈 신호를 추출하여 제거한다. 이 때, 주변 음성 인식 장치(300,400)도 사용자의 음성을 입력 받고, 음성 신호로부터 노이즈 신호를 추출할 수 있다. 추출된 노이즈 신호는 음성 인식 장치(100)로 전송될 수 있다.
음성 인식 장치(100)가 음성 신호로부터 노이즈 신호를 제거함에 있어서, 자신이 추출한 노이즈 신호뿐만 아니라, 주변 음성 인식 장치들(300,400)이 추출한 노이즈 신호를 합성하여 함께 제거할 수 있다. 이 경우, 다른 위치에서 추출된 노이즈를 반영함으로써 전처리의 정확도를 향상시킬 수 있다.
음성 인식 장치(100)와 주변 음성 인식 장치들(300,400)은 도 1에 도시된 바와 같이, 직접 통신하여 신호를 주고 받는 것도 가능하나, 도 2에 도시된 바와 같이, 이들을 관리하는 서버(500)를 통해 신호를 주고 받는 것도 가능하다.
음성 인식 장치(100), 주변 음성 인식 장치(300,400)는 모두 무선 통신을 통해 서버(500)와 연결되고, 주변 음성 인식 장치(300,400)가 노이즈 신호를 추출하여 서버(500)에 전송하면, 서버(500)는 주변 음성 인식 장치(300,400)가 추출한 노이즈 신호를 음성 인식 장치(100)에 전송한다.
주변 음성 인식 장치(300,400)가 추출한 노이즈 신호를 음성 인식 장치(100)에 직접 또는 서버(500)를 통해 전송할 경우, 음성 신호가 입력된 시간 정보를 함께 전송할 수 있다.
음성 인식 장치(100)는 주변 음성 인식 장치(300,400)에 음성 신호가 입력된 시간 차를 고려하여 노이즈 신호를 합성할 수 있다.
주변 음성 인식 장치(300,400)는 스마트폰, 스마트 워치, 태블릿 PC 등 음성 인식이 가능한 전자 기기일 수도 있고, 복수의 주변 음성 인식 장치는 서로 다른 종류의 전자 기기일 수도, 동일한 종류의 전자 기기일 수도 있다. 또한, 주변 음성 인식 장치(300,400) 역시 차량(200)에 장착되는 구성요소일 수도 있다.
도 3 및 도 4는 일 실시예에 따른 음성 인식 장치의 제어 블록도이다.
도 3을 참조하면, 일 실시예에 따른 음성 인식 장치(100)는 입력된 음성 신호에 대해 전처리를 수행하는 전처리부(110), 전처리된 음성 신호를 인식하는 인식부(120) 및 음성 인식 결과에 대한 후처리를 수행하는 후처리부(130) 및 음성 인식에 사용되는 모델을 저장하는 저장부(130)를 포함한다.
전처리부(110)는 음성 신호로부터 노이즈 신호를 제거하고, 특징 벡터를 추출할 수 있다. 전처리가 수행되는 음성 신호는 디지털 신호일 수 있는바, 전처리부(110)에서 아날로그-디지털 변환을 수행하는 것도 가능하고, 디지털 신호로 변환된 음성 신호가 전처리부(110)에 입력되는 것도 가능하다.
일 예로, 전처리부(110)는 입력된 음성 신호의 초기 구간을 실제 음성 구간이 아닌 노이즈 구간으로 보고, 노이즈 구간에 포함되는 신호를 노이즈 신호로 추출할 수 있다. 다만, 상기 방식은 노이즈 신호 추출의 일 예시에 불과하고, 다른 방식에 의해 노이즈가 추출될 수 있음은 물론이다.
전처리부(110)는 음성 신호로부터 노이즈 신호를 제거하는바, 이 때 자신이 추출한 노이즈 신호만 제거하는 것이 아니라, 주변 음성 인식 장치(300,400)가 추출한 노이즈 신호와 자신이 추출한 노이즈 신호를 합성하여 합성 노이즈 신호를 제거할 수 있다.
노이즈 신호를 합성할 때, 음성 인식 장치(100)와 주변 음성 인식 장치(300,400)에 음성이 입력된 시간 정보를 고려할 수 있는바, 전처리부(110)에서 노이즈 신호를 합성하여 전처리를 수행하는 구체적인 동작은 뒤에서 더 자세하게 설명하도록 한다.
그리고, 전처리부(110)는 음성 신호로부터 특징을 추출할 수 있는바, 여기서 추출되는 특징은 벡터 형태일 수 있다. 예를 들어, 전처리부(110)는 노이즈 신호가 제거된 음성 신호에 켑스트럼(Cepstrum), 선형 예측 코딩(Linear Predictive Coefficient: LPC), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터 뱅크 에너지(Filter Bank Energy) 등의 특징 벡터 추출 기술을 적용하여 특징 벡터를 추출할 수 있다.
인식부(120)는 추출된 특징 벡터와 훈련된 기준 패턴과의 비교를 통하여 음성 신호를 인식할 수 있다. 예를 들어, 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)이 사용될 수 있다. 특징 벡터의 비교에 사용되는 기준 패턴이나 모델은 저장부(140)에 저장될 수 있다.
음향 모델은 다시 인식 대상을 특징 벡터 모델로 설정하고 이를 음성 데이터의 특징 벡터와 비교하는 직접 비교 방법과 인식 대상의 특징 벡터를 통계적으로 처리하여 이용하는 통계 방법을 나뉠 수 있다.
직접 비교 방법은 인식 대상이 되는 단어, 음소 등의 단위를 특징 벡터 모델로 설정하고 입력 음성이 이와 얼마나 유사한지를 비교하는 방법으로서, 대표적으로 벡터 양자화(Vector Quantization) 방법이 있다. 벡터 양자화 방법에 의하면 입력된 음성 데이터의 특징 벡터를 기준 모델인 코드북(codebook)과 매핑시켜 대표 값으로 부호화함으로써 이 부호 값들을 서로 비교하는 방법이다.
통계적 모델 방법은 인식 대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열 간의 관계를 이용하는 방법이다. 상태 열은 복수의 노드(node)로 구성될 수 있다. 상태 열 간의 관계를 이용하는 방법은 다시 동적 시간 와핑(Dynamic Time Warping: DTW), 히든 마르코프 모델(Hidden Markov Model: HMM), 신경 회로망을 이용한 방식 등이 있다.
동적 시간 와핑은 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려하여 기준 모델과 비교할 때 시간 축에서의 차이를 보상하는 방법이고, 히든 마르코프 모델은 음성을 상태 천이 확률 및 각 상태에서의 노드(출력 심볼)의 관찰 확률을 갖는 마르코프 프로세스로 가정한 후에 학습 데이터를 통해 상태 천이 확률 및 노드의 관찰 확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식 기술이다.
한편, 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델은 언어를 구성하는 단위들 간의 순서 관계를 음성 인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 언어 모델에는 통계적 언어 모델과 유한 상태 네트워크(Finite State Automata: FSA)에 기반한 모델이 있고, 통계적 언어 모델에는 Unigram, Bigram, Trigram 등 단어의 연쇄 확률이 이용된다.
인식부(120)는 음성을 인식함에 있어 상술한 방식 중 어느 방식을 사용해도 무방하다.
인식부(120)의 인식 결과는 오류를 포함할 수 있다. 따라서, 음성 인식 장치(100)는 후처리부(130)를 더 포함할 수 있으며, 후처리부(130)는 다양한 후처리 알고리즘 중 하나를 적용하여 인식 결과에 포함된 오류를 검출하고 이를 수정할 수 있다. 다만, 음성 인식 장치(100)에 후처리부(130)가 반드시 포함되어야 하는 것은 아닌바, 생략되는 것도 가능하다.
한편, 전처리부(110), 인식부(120) 및 후처리부(130) 중 적어도 하나는 각각의 동작을 수행하는데 필요한 프로그램, 알고리즘 등의 각종 데이터를 저장하는 메모리 및 메모리에 저장된 프로그램을 실행시켜 데이터를 처리하는 프로세서를 포함할 수 있다.
전처리부(110), 인식부(120) 및 후처리부(130) 중 일부 또는 전부는 프로세서나 메모리를 공유할 수 있다. 즉, 하나의 프로세서가 전처리부(110), 인식부(120) 및 후처리부(130) 중 일부의 기능 또는 전부의 기능을 수행하거나, 하나의 메모리가 전처리부(110), 인식부(120) 및 후처리부(130) 중 일부 또는 전부가 필요로 하는 데이터를 저장할 수 있다.
저장부(140)는 플래시 메모리, 롬(Read Only Memory), 이피롬(Erasable Programmable Read Only Memory: EPROM), 이이피롬(Electrically Erasable Programmable Read Only Memory: EEPROM) 등의 비휘발성 메모리 중 적어도 하나를 포함할 수 있고, 램(Random Access Memory, RAM), S램(Static Random Access Memory, S-RAM), D램(Dynamic Random Access Memory, D-RAM) 등의 휘발성 메모리 중 적어도 하나를 더 포함하는 것도 가능하다.
전처리부(110), 인식부(120) 및 후처리부(130)는 저장부(140)와 메모리를 공유할 수도 있고, 별도의 메모리를 구비할 수도 있다.
또한, 프로세서와 메모리는 그 용량에 따라 단일 구성으로 구비될 수도 있고, 복수 구성으로 구비될 수도 있으며, 물리적으로 분리되어 구비될 수도 있고, 단일 칩으로 구비될 수도 있다.
전술한 바와 같이, 음성 인식 장치(100)는 차량(200)에 탑재되는 구성요소일 수도 있고, 차량(200)과 독립적으로 마련되는 전자 기기일 수도 있다.
후자의 경우에는, 도 4에 도시된 바와 같이, 음성 인식 장치(100)가 사용자로부터 음성을 입력 받는 음성 입력부(160) 및 주변 음성 인식 장치(300,400) 또는 서버(500)와 통신하여 신호를 주고 받는 통신부(150)를 더 포함할 수 있다.
음성 입력부(160)는 마이크로폰(microphone)을 포함할 수 있으며, 사용자의 발화(utterance)된 음성이 입력되면 이를 전기적 신호로 변환하여 전처리부(110)로 출력한다. 이 전기적 신호를 음성 신호라 한다.
음성 입력부(160)에 아날로그-디지털 컨버터가 더 포함되어 전처리부(110)에 디지털 음성 신호를 전달하는 것도 가능하나, 음성 인식 장치(100)의 실시예가 이에 한정되는 것은 아니다. 아날로그-디지털 컨버터가 전처리부(110)에 포함되면, 음성 입력부(160)에서는 아날로그 음성 신호를 출력하고 전처리부(110)에서 이를 디지털 음성 신호로 변환할 수 있다.
통신부(150)는 무선 통신 모듈을 포함할 수 있다. 예를 들어, 무선 통신 모듈은 RFID(Radio Frequency Identification), 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(Zigbee), WFD(Wi-Fi Direct), UWB(Ultra wideband), 적외선 통신(IrDA; Infrared Data Association), BLE (Bluetooth Low Energy), NFC(Near Field Communication) 등과 같은 통신 방식을 통해 다른 기기와 무선 신호를 주고 받을 수 있는 통신 모듈일 수 있다.
통신부(150)는 주변 음성 인식 장치(300,400)가 추출한 노이즈 신호 및 주변 음성 인식 장치(300,400)에 음성이 입력된 시간 정보를 수신할 수 있다. 주변 음성 인식 장치(300,400)가 음성 인식 장치(100)와 직접 연결되는 경우에는 주변 음성 인식 장치(300,400)로부터 직접 노이즈 신호 및 음성 입력 시간 정보를 수신하고, 서버(500)를 통해 간접적으로 연결되는 경우에는 서버(500)를 통해 노이즈 신호 및 음성 입력 시간 정보를 수신한다.
또한, 통신부(150)는 차량(200)과 통신을 수행하여 신호를 주고 받을 수도 있다. 예를 들어, 음성 인식 장치(100)가 차량(200)과 연결되면, 사용자가 발화한 음성을 인식하고, 그 인식 결과를 차량(200)에 전달할 수 있다. 차량(200)은 인식된 음성에 따른 제어를 수행할 수 있다.
한편, 음성 인식 장치(100)의 주변에 다른 음성 인식 장치(300,400)가 존재하지 않는 경우도 있을 수 있다. 이 경우, 음성 인식 장치(100)는 노이즈 신호를 합성하지 않고, 전처리부(110)에서 추출한 노이즈 신호를 음성 신호로부터 제거하여 전처리를 수행할 수 있다. 주변에 다른 음성 인식 장치(300,400)가 존재하는지 여부를 판단하는 과정에 대해서는 후술하도록 한다.
이하, 음성 인식 장치(100)가 음성 신호로부터 노이즈 신호를 제거하는 과정을 구체적으로 설명한다. 설명의 편의를 위해 음성 인식 장치(100)를 제1음성 인식 장치라 하고, 주변 음성 인식 장치(300,400)를 제1주변 음성 인식 장치 및 제2주변 음성 인식 장치라 하기로 한다.
도 5 내지 도 7은 제1음성 인식 장치, 제2음성 인식 장치 및 제3음성 인식 장치에 입력된 음성 신호의 예시를 나타낸 도면이다.
제1음성 인식 장치(100)에 입력된 음성 신호가 도 5에 도시된 바와 같은 경우, 실제 음성이 입력된 시간, 즉 음성 구간이 시작되는 시간은 T1으로 추정할 수 있다. 전처리부(110)는 T1 이전에 입력된 신호를 제1노이즈 신호로 추출할 수 있다.
제2음성 인식 장치(300)에 입력된 음성 신호가 도 6에 도시된 바와 같은 경우, 음성 구간이 시작되는 시간은 T2로 추정할 수 있고, 제2음성 인식 장치(300)는 T2 이전에 입력된 신호를 제2노이즈 신호로 추출할 수 있다.
제3음성 인식 장치(400)에 입력된 음성 신호가 도 7에 도시된 바와 같은 경우, 음성 구간이 시작되는 시간은 T3로 추정할 수 있고, 제3음성 인식 장치(400)는 T3 이전에 입력된 신호를 제3노이즈 신호로 추출할 수 있다.
도 8은 복수의 노이즈 신호가 합성되는 과정을 나타낸 도면이고, 도 9는 합성 노이즈 신호가 제거된 음성 신호를 나타낸 도면이다.
제2음성 인식 장치(300)가 추출한 제2노이즈 신호와 제3음성 인식 장치(400)가 추출한 제3노이즈 신호는 제1음성 인식 장치(100)로 전달된다. 전술한 바와 같이, 음성 인식 장치들 간에 직접 통신을 통해 전달될 수도 있고, 서버를 통해 전달될 수도 있다.
전처리부(110)는 제1노이즈 신호, 제2노이즈 신호 및 제3노이즈 신호를 합성하여 합성 노이즈 신호를 생성하고, 이 때 각각의 음성 인식 장치에 실제 음성이 입력된 시간, 즉 음성 구간이 시작되는 시간을 기초로 하여 노이즈 신호를 합성할 수 있다.
구체적으로, 도 8에 도시된 바와 같이, 시간 순서에 따라 노이즈 신호를 합성할 수 있다. 제1노이즈 신호는 T1부터, 제2노이즈 신호는 T2부터, 제3노이즈 신호는 T3부터 나타나는 것으로 합성하여 합성 노이즈 신호를 생성할 수 있다.
전처리부(110)는 도 9에 도시된 바와 같이 음성 신호로부터 합성 노이즈 신호를 제거하여 노이즈 전처리를 수행할 수 있다. 그리고, 노이즈 신호가 제거된 음성 신호 즉, 노이즈 전처리가 수행된 음성 신호로부터 특징 벡터를 추출한다.
사용자가 복수의 음성 인식 장치(100,300,400) 중 제1음성 인식 장치(100)를 선택하여 음성 인식 모드를 온 시킨 경우에는 제1음성 인식 장치(100)가 전술한 바와 같이 동작할 수 있다.
그러나, 사용자가 제2음성 인식 장치(300) 또는 제3음성 인식 장치(400)를 선택한 경우에는 제1음성 인식 장치(100)가 주변 음성 인식 장치로서 동작할 수도 있다.
이 경우, 제1음성 인식 장치(100)는 사용자의 음성 신호로부터 노이즈 신호를 추출하고 실제 음성 입력 시간을 추정하여, 추출된 노이즈 신호 및 음성 입력 시간 정보를 서버(500)에 전달하거나, 선택된 제2음성 인식 장치(300) 또는 제3음성 인식 장치(400)에 전달할 수 있다.
도 10은 일 실시예에 따른 차량의 외관도이고, 도 11은 일 실시예에 따른 차량의 내부 구성을 나타낸 도면이다.
일 실싱예에 따른 차량(200)은 음성 인식 장치(100)를 포함할 수 있다.
도 10을 참조하면, 일 실시예에 따른 차량(200)의 외관은 본체(201)를 이동시키는 차륜(202,203), 본체(201) 내부를 외부로부터 차폐시키는 도어(205L), 본체(201) 내부의 운전자에게 전방의 시야를 제공하는 전면 유리(206), 운전자에게 후방의 시야를 제공하는 사이드 미러(204L,204R)를 포함한다.
차륜(202,203)은 본체(201)의 전방에 마련되는 전륜(202), 본체(201)의 후방에 마련되는 후륜(203)을 포함하며, 본체(201) 내부에 마련되는 구동 장치(미도시)는 본체(201)가 전방 또는 후방으로 이동하도록 전륜(202) 또는 후륜(203)에 회전력을 제공한다. 이와 같은 구동 장치는 화석 연료를 연소시켜 회전력을 생성하는 엔진 또는 축전기로부터 전원을 공급받아 회전력을 생성하는 모터를 채용할 수 있다.
도어(205L,205R(도 6 참조))는 본체(201)의 좌측 및 우측에 회동 가능하게 마련되어 개방 시에 운전자 또는 동승자가 차량(200)의 내부에 탑승할 수 있도록 하며, 폐쇄 시에 차량(200)의 내부를 외부로부터 차폐시킨다.
전면 유리(206)는 본체(201)의 전방 상측에 마련되어 내부의 운전자가 차량(200) 전방의 시각 정보를 획득할 수 있도록 하는 것으로서, 윈드쉴드 글래스(windshield glass)라고도 한다.
또한, 사이드 미러(204L,204R)는 차량(200)의 좌측에 마련되는 좌측 사이드 미러(204L) 및 우측에 마련되는 우측 사이드 미러(204R)를 포함하며, 본체(201) 내부의 운전자가 차량(200)의 측면 및 후방의 시각 정보를 획득할 수 있도록 한다.
이외에도 차량(200)은 후면 또는 측면의 장애물 내지 다른 차량을 감지하는 근접 센서, 강수 여부 및 강수량을 감지하는 레인 센서 등의 감지 장치를 포함할 수 있다.
근접 센서는 차량의 측면 또는 후면에 감지 신호를 발신하고, 다른 차량 등의 장애물로부터 반사되는 반사 신호를 수신할 수 있다. 수신된 반사 신호의 파형을 기초로 차량(200) 측면이나 후면의 장애물의 존재 여부를 감지하고, 장애물의 위치를 검출할 수 있다. 이와 같은 근접 센서의 일 예로서 초음파 또는 적외선을 발신하고, 장애물에 반사된 초음파 또는 적외선을 이용하여 장애물까지의 거리를 검출하는 방식을 채용할 수 있다.
도 11을 참조하면, 대시보드(209)의 중앙 영역에는 AVN(Audio Video Navigation) 단말기(270)가 마련될 수 있다. AVN 단말기(270)는 AVN 디스플레이(271)와 AVN 입력부(272)를 포함한다.
AVN 디스플레이(271)는 오디오 화면, 비디오 화면 및 내비게이션 화면 등을 표시할 수 있고, 뿐만 아니라 차량(200)과 관련된 각종 제어 화면 또는 부가 기능과 관련된 화면을 표시할 수 있다.
AVN 디스플레이(271)는 LCD(Liquid Crystal Display), LED(Light Emitting Diode), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diode), CRT(Cathode Ray Tube) 등으로 구현될 수 있다.
AVN 입력부(272)는 AVN 디스플레이(271)와 인접한 영역에 하드 키 타입으로 마련될 수도 있고, AVN 디스플레이(271)가 터치 스크린 타입으로 구현되는 경우에는 AVN 디스플레이(271)의 전면에 터치 패널 형태로 마련될 수도 있다.
또한, 운전석(208L)와 조수석(208R) 사이에 죠그 셔틀(jog shuttle) 타입의 센터 입력부(273)가 마련될 수도 있다. 사용자는 센터 입력부(273)를 돌리거나 가압하거나 상, 하, 좌 또는 우 방향으로 미는 방식으로 제어 명령을 입력할 수 있다.
차량(200)에는 음향을 출력할 수 있는 음향 출력부(280)가 마련될 수 있고, 음향 출력부(280)는 스피커일 수 있다. 음향 출력부(280)는 오디오 기능, 비디오 기능, 내비게이션 기능 및 기타 부가 기능을 수행함에 있어 필요한 음향을 출력할 수 있다.
일 예로, 음향 출력부(280)는 좌측 도어(205L) 및 우측 도어(205R)에 각각 마련될 수 있고, 필요에 따라 뒷좌석의 도어, 대시보드(209) 등 다른 영역에도 마련되는 것이 가능하다.
한편, 차량(100)에는 공조 장치가 구비되어 난방 및 냉방을 모두 수행할 수 있으며, 가열되거나 냉각된 공기를 통풍구(221)를 통해 배출하여 차량(200) 내부의 온도를 제어할 수 있다.
음성 인식 장치(100)는 AVN 단말기(270)에 포함될 수도 있고, 이와 별개의 모듈로서 차량(200)에 장착되는 것도 가능하다.
사용자로부터 음성을 입력 받는 마이크는 헤드 라이닝(209)에 마련될 수도 있고, 스티어링 휠(207)에 마련될 수도 있으며, AVN 단말기(270)에 마련되는 것도 가능하다. 마이크의 위치에 대해서는 제한을 두지 않는다.
전술한 바와 같이, 주변 음성 인식 장치(300,400)는 차량(200)과 독립된 전자 기기일 수도 있고, 음성 인식 장치(100)와 마찬가지로 차량(200)에 장착된 구성요소일 수도 있다. 후자의 경우, 음성 인식 장치(100)와 주변 음성 인식 장치(300,400)는 CAN(Controller Area Network), LIN(Local Interconnection Network), 플렉스레이(FlexRay), 이더넷(Ethernet) 등과 같은 차량의 내부 통신 프로토콜을 통해 신호를 주고 받는 것도 가능하다.
음성 인식 장치(100)가 차량(200)에 포함되는 경우에는, 서버(500) 또는 주변 음성 인식 장치(300,400)와 통신하기 위해 차량(200)에 마련된 통신 모듈을 이용할 수도 있고, 음성 인식 장치(100)가 자체적으로 통신 모듈을 구비하는 것도 가능하다.
도 12는 일 실시예에 따른 서버의 제어 블록도이다.
일 실시예에 따른 서버(500)는 음성 인식 장치(100) 및 주변 음성 인식 장치(300,400)와 통신을 수행하는 통신부(510), 주변 음성 인식 장치(300,400)로부터 수신한 노이즈 신호를 일시적 또는 비일시적으로 저장하는 저장부(530), 신호의 송수신을 제어하는 제어부(520)를 포함한다.
통신부(510)는 무선 통신 모듈 또는 근거리 통신 모듈을 포함할 수 있다.
무선 통신 모듈은, 이동 통신망 상에서의 기지국, 외부의 장치 중 적어도 하나와 무선 신호를 송수신하기 위한 안테나 또는 무선 통신 칩을 포함할 수 있고, 일 예로, 미국 전기 전자 학회의 무선 랜 규격(IEEE802.11x)을 지원하는 무선 통신 모듈일 수도 있다.
근거리 통신 모듈은 소정 거리 이내의 위치하는 장치와 근거리 통신을 수행하기 위한 모듈을 의미한다. 일 실시예에 적용될 수 있는 근거리 통신 기술에는 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스, 지그비(zigbee), WFD(Wi-Fi Direct), UWB(ultra wideband), 적외선 통신(IrDA, infrared Data Association), BLE (Bluetooth Low Energy), NFC(Near Field Communication) 등이 있다.
음성 인식 장치(100) 및 주변 음성 인식 장치(300,400) 중 적어도 하나가 차량(200)에 장착되는 경우에는 통신부(510)가 차량(200)과 통신하여 음성 인식 장치(100) 및 주변 음성 인식 장치(300,400) 중 적어도 하나와 신호를 주고 받을 수 있다. 차량(200)은 전술한 무선 통신 모듈 또는 근거리 통신 모듈을 포함할 수 있다.
통신부(510)가 주변 음성 인식 장치(300,400)로부터 노이즈 신호와 음성 입력 시간 정보를 수신하면, 저장부(530)는 수신된 노이즈 신호와 음성 입력 시간 정보를 일시적 또는 비일시적으로 저장한다.
제어부(520)는 저장된 노이즈 신호와 음성 입력 시간 정보를 음성 인식 장치(100)에 전송할 수 있다. 제어부(520)가 노이즈 신호를 송수신하는 구체적인 동작은 후술하는 도 13을 참조하여 구체적으로 설명하도록 한다.
서버(500)는 차량(200)에 포함되는 것도 가능하다. 서버(500) 역시 프로세서와 메모리로 이루어지는 것이므로, 서버(500)의 기능을 수행하는 프로세서와 메모리가 차량(200)에 탑재되거나, 차량(200)에 탑재된 프로세서나 메모리에 서버(500)의 기능이 추가될 수 있다. 이 경우, 서버(500)의 구성요소 중 차량(200)의 구성요소와 중복되는 것은 차량(200)과 함께 공유할 수 있다. 예를 들어, 서버(500)의 통신부(510)는 차량(200)에 마련된 통신모듈일 수 있다.
한편, 음성 인식 장치(100)의 전처리부(110), 인식부(120) 및 후처리부(130)가 전술한 동작을 수행하기 위해 해당 동작을 실행시키는 음성 인식 프로그램 또는 음성 인식 어플리케이션이 음성 인식 장치(100)에 설치될 수 있다.
음성 인식 프로그램은 음성 인식 장치(100)의 제조 시에 설치된 것일 수도 있고, 제조 이후에 사용자에 의해 설치된 것일 수도 있다. 또는, 기본적인 음성 인식 프로그램은 제조 시에 설치되고, 다른 음성 인식 장치들과의 노이즈 신호를 공유하여 합성 노이즈 신호를 제거하는 음성 인식 프로그램은 제조 이후에 설치될 수도 있다. 사용자에 의해 음성 인식 프로그램이 설치되는 경우, 음성 인식 프로그램이 컴퓨터 판독 가능한(computer readable) 저장 매체에 기록될 수 있다.
음성 인식 장치(100)는 해당 저장 매체로부터 음성 인식 프로그램을 다운 로딩(down loading)하여 설치할 수 있다. 여기서, 다운 로딩은 기기가 외부의 저장 매체에 기록된 프로그램을 설치하기 위해 가져오는 동작을 의미한다.
저장 매체가 어플리케이션 또는 프로그램을 제공하는 서버에 포함된 경우에는, 인터넷을 통해 서버에 접속하여 음성 인식 프로그램을 다운로딩할 수 있다. 여기서 프로그램을 제공하는 서버는 후술하는 서버(500)와 동일한 것일 수도 있고, 다른 것일 수도 있다.
또한, 저장 매체가 자기 디스크, 광 디스크, CD-ROM, DVD 등의 보조기억장치로 구현되는 경우에는 음성 인식 장치(100)에 보조기억장치를 삽입하는 방식으로 음성 인식 프로그램을 다운로딩하는 것도 가능하다.
도 13은 복수의 음성 인식 장치와 서버가 서로 신호를 주고 받는 과정을 나타낸 플로우 차트이다. 후술하는 과정 중 전부 또는 일부가 일 실시예에 따른 음성 인식 방법에 포함될 수 있다.
도 13의 예시에서는 주변 음성 인식 장치가 두 개 존재하는 것으로 하고, 음성 인식 장치들은 서버를 통해 신호를 주고 받는 경우를 가정한다. 또한, 상기 도 5 내지 도 9의 설명에서와 같이 음성 인식 장치(100)를 제1음성 인식 장치로, 주변 음성 인식 장치(300,400)를 각각 제2음성 인식 장치 및 제3음성 인식 장치라 한다.
먼저, 사용자가 제1음성 인식 장치(100)의 음성 인식 모드를 온(ON) 시킨다. 예를 들어, 제1음성 인식 장치(100)의 전원을 온 시키거나, 제1음성 인식 장치(100)에 마련된 버튼, 터치 패드 등의 입력부를 조작하여 음성 인식 프로그램을 실행시킬 수 있다.
음성 인식 모드가 온 된 제1음성 인식 장치(100)는 대기 상태(610)로 전환된다. 여기서, 대기 상태는 음성 인식 장치가 음성을 인식할 수 있도록 활성화된 상태를 의미할 수 있다.
제1음성 인식 장치(100)는 서버(500)에 대기 상태를 알린다(611). 즉, 자신이 음성 인식 모드가 온 되면, 서버(500)에 접속하여 자신이 대기 상태에 있음을 알려줄 수 있다.
서버(500)는 제2음성 인식 장치(300) 및 제3음성 인식 장치(400)의 음성 인식 모드를 온 시킨다(620). 제2음성 인식 장치(300) 및 제3음성 인식 장치(400)가 온 되면, 음성을 인식할 수 있도록 활성화될 수 있다.
여기서, 제2음성 인식 장치(300)와 제3음성 인식 장치(400)는 서버(500)에 미리 등록되거나, 제1음성 인식 장치(100)에 미리 등록될 수 있다. 예를 들어, 음성 인식 프로그램의 설치 시에 다른 음성 인식 장치가 주변에서 음성 인식을 수행할 경우, 노이즈 신호를 제공해주겠다는 동의를 미리 받을 수 있다.
어느 음성 인식 장치가 노이즈 신호의 제공에 동의했는지에 관한 정보는 제1음성 인식 장치(100)의 저장부(140)에 저장될 수 있다. 제2음성 인식 장치(300)와 제3음성 인식 장치(400)가 노이즈 신호의 제공에 동의한 경우에는 이들의 MAC(Media Access Control) 주소, IP(Internet Protocol) 주소 등의 식별 정보가 제1음성 인식 장치(100)에 등록될 수 있다. 이 경우, 제1음성 인식 장치(100)가 서버(500)에 대기 상태 알림 신호를 전송할 때 제2음성 인식 장치(300)와 제3음성 인식 장치(400)의 식별 정보를 함께 전송할 수 있다.
또는, 어느 음성 인식 장치가 노이즈 신호의 제공에 동의했는지에 관한 정보가 서버(500)의 저장부(530)에 저장되는 것도 가능하다.
다만, 노이즈 신호 제공의 동의 여부와 무관하게, 제2음성 인식 장치(300)와 제3음성 인식 장치(400)가 제1음성 인식 장치(100)와 인접한 위치에 있지 않으면, 동일한 음성 신호에 대한 노이즈 신호를 추출할 수가 없다. 따라서, 서버(500)는 제1음성 인식 장치(100), 제2음성 인식 장치(300) 및 제3음성 인식 장치(400)로부터 그 위치 정보를 추가로 더 제공받는 것도 가능하다.
서버(500)의 제어부(510)는 제1음성 인식 장치(100)와 미리 설정된 기준값 이하의 거리에 위치하는 음성 인식 장치만 활성화시킬 수 있다.
또는, 서버(500)가 차량(200)에 포함되는 경우에는 블루투스 등의 근거리 통신을 통해 연결된 주변 음성 인식 장치에 음성 인식 모드 온 신호를 전송하는 것도 가능하다.
상기 예시들은 제1음성 인식 장치(100)와 인접한 거리에 위치하여 동일한 음성 신호를 인식할 수 있는 제2음성 인식 장치(300) 및 제3음성 인식 장치(400)의 음성 인식 모드를 온 시키는 방식의 예시에 불과하고, 발명의 실시예가 이에 한정되는 것은 아니다.
제1음성 인식 장치(100), 제2음성 인식 장치(300) 및 제3음성 인식 장치(400)가 모드 음성 신호를 입력받을 수 있는 상태가 되면, 제1음성 인식 장치(100)는 비프(BEEP)음을 발생시킨다(612).
비프음이 발생되면, 사용자는 음성을 입력하고, 제1음성 인식 장치(100)는 입력된 음성을 전기적 신호인 음성 신호로 변환하고, 음성 신호로부터 제1노이즈 신호를 추출한다(613).
제2음성 인식 장치(300)와 제3음성 인식 장치(400) 역시 각각 사용자가 발화한 음성을 동시에 입력 받을 수 있다.
제2음성 인식 장치(300)는 음성 신호로부터 제2노이즈 신호를 추출하고(630), 제3음성 인식 장치(400)는 제3노이즈 신호를 추출할 수 있다(640).
제2음성 인식 장치(300)는 추출된 제2노이즈 신호를 서버(500)에 전송할 수 있다(631). 이 때, 제2음성 인식 장치(300)에 실제 음성이 입력된 시간 정보가 함께 전송될 수 있다.
제3음성 인식 장치(400)는 제3노이즈 신호를 서버(500)에 전송한다(641). 이 때, 제3음성 인식 장치(400)에 실제 음성이 입력된 시간 정보가 함께 전송될 수 있다.
서버(500)는 제1음성 인식 장치(100)에 제2노이즈 신호 및 제3노이즈 신호를 전송하고(621), 제1음성 인식 장치(100)는 제1노이즈 신호, 제2노이즈 신호 및 제3노이즈 신호를 각각의 음성 인식 장치에 실제 음성이 입력된 시간 순서에 따라 합성하여 합성 노이즈 신호를 생성한다(614).
그리고, 음성 신호로부터 합성 노이즈 신호를 제거함으로써 노이즈 전처리를 수행한다(615).
한편, 제1음성 인식 장치(100)가 제2음성 인식 장치(300) 및 제3음성 인식 장치(400)와 직접 연결되는 경우에는, 제1음성 인식 장치(100)가 제2음성 인식 장치(300) 및 제3음성 인식 장치(400)와 블루투스 등의 근거리 통신을 통해 연결되어 있는 것을 전제로 할 수 있다. 그리고, 제1음성 인식 장치(100)가 제2음성 인식 장치(300) 및 제3음성 인식 장치(400)에 음성 인식 모드 온 신호를 보내고, 이들로부터 제2노이즈 신호 및 제3노이즈 신호를 제공 받을 수 있다.
전술한 실시예에 따르면, 음성을 인식함에 있어 다양한 노이즈 환경을 반영할 수 있고, 서로 다른 위치에 존재하는 복수의 음성 인식 장치의 서로 다른 음성 인식 엔진을 사용하는 경우에는 각 음성 인식 엔진이 갖는 기술을 활용하는 효과도 얻을 수 있다.
100: 음성 인식 장치
200: 차량
300,400: 주변 음성 인식 장치
110: 전처리부
120: 인식부
130: 후처리부
140: 저장부
500: 서버

Claims (20)

  1. 사용자의 음성이 입력되면, 입력된 음성을 음성 신호로 변환하여 인식하는 음성 인식 장치에 있어서,
    음성 인식 모드가 온(ON) 되면, 주변 음성 인식 장치의 음성 인식 모드를 온 시키기 위한 신호를 상기 주변 음성 인식 장치 또는 상기 주변 음성 인식 장치와 연결된 외부 서버에 송신하는 통신부;
    상기 음성 신호로부터 제1노이즈 신호를 추출하고, 상기 음성이 입력된 제1시간 및 상기 주변 음성 인식 장치에 상기 음성이 입력된 제2시간에 기초하여 상기 제1노이즈 신호와 상기 주변 음성 인식 장치가 추출한 제2노이즈 신호를 합성하여 합성 노이즈 신호를 생성하고, 상기 합성 노이즈 신호를 이용하여 전처리를 수행하는 전처리부; 및
    상기 전처리가 수행된 음성 신호를 인식하는 인식부;를 포함하는 음성 인식 장치.
  2. 제 1 항에 있어서
    상기 전처리부는,
    상기 음성 신호로부터 상기 합성 노이즈 신호를 제거하여 음성 구간을 추출하고, 상기 음성 구간으로부터 특징을 추출하는 음성 인식 장치.
  3. 제 2 항에 있어서,
    상기 인식부는,
    상기 추출된 특징을 미리 저장된 모델과 비교하여 상기 음성 신호를 인식하는 음성 인식 장치.
  4. 제 1항에 있어서
    상기 음성 신호를 입력 받는 음성 입력부;를 더 포함하는 음성 인식 장치.
  5. 제 4 항에 있어서,
    상기 통신부는,
    상기 외부 서버로부터 상기 제2시간 및 상기 제2노이즈 신호를 수신하는 음성 인식 장치.
  6. 제 1 항에 있어서,
    상기 통신부는,
    상기 주변 음성 인식 장치로부터 상기 제2시간 및 상기 제2노이즈 신호를 수신하는 음성 인식 장치.
  7. 제 1 항에 있어서,
    상기 통신부는,
    무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(Zigbee), WFD(Wi-Fi Direct), UWB(Ultra wideband), 적외선 통신(IrDA; Infrared Data Association), BLE (Bluetooth Low Energy), NFC(Near Field Communication) 및 RFID(Radio Frequency Identification) 중 적어도 하나의 무선 통신 모듈을 포함하는 음성 인식 장치.
  8. 제 1 항에 있어서
    상기 통신부는,
    상기 주변 음성 인식 장치에 상기 제1시간 및 상기 제1노이즈 신호를 전송하는 음성 인식 장치.
  9. 제 1 항에 있어서,
    상기 통신부는,
    상기 외부 서버에 상기 제1시간 및 상기 제1노이즈 신호를 전송하는 음성 인식 장치.
  10. 사용자의 음성을 입력 받는 음성 입력부;
    음성 인식 모드가 온(ON) 되면, 주변 음성 인식 장치의 음성 인식 모드를 온 시키기 위한 신호를 상기 주변 음성 인식 장치 또는 상기 주변 음성 인식 장치와 연결된 외부 서버에 송신하는 통신부;
    상기 입력된 음성이 변환된 음성 신호로부터 제1노이즈 신호를 추출하고, 상기 음성이 입력된 제1시간 및 상기 주변 음성 인식 장치에 상기 음성이 입력된 제2시간에 기초하여 상기 제1노이즈 신호와 상기 주변 음성 인식 장치가 추출한 제2노이즈 신호를 합성하여 합성 노이즈 신호를 생성하고, 상기 합성 노이즈 신호를 이용하여 전처리를 수행하는 전처리부; 및
    상기 전처리가 수행된 음성 신호를 인식하는 인식부;를 포함하는 차량.
  11. 제 10 항에 있어서
    상기 전처리부는,
    상기 음성 신호로부터 상기 합성 노이즈 신호를 제거하여 음성 구간을 추출하고, 상기 음성 구간으로부터 특징을 추출하는 차량.
  12. 제 11 항에 있어서,
    상기 인식부는,
    상기 추출된 특징을 미리 저장된 모델과 비교하여 상기 음성 신호를 인식하는 차량.
  13. 삭제
  14. 제 10 항에 있어서,
    상기 통신부는,
    상기 외부 서버로부터 상기 제2시간 및 상기 제2노이즈 신호를 수신하는 차량.
  15. 제 10 항에 있어서,
    상기 통신부는,
    상기 주변 음성 인식 장치로부터 상기 제2시간 및 상기 제2노이즈 신호를 수신하는 차량.
  16. 사용자의 음성이 입력되면, 입력된 음성을 음성 신호로 변환하여 인식하는 음성 인식 방법에 있어서,
    음성 인식 모드가 온(ON) 되면, 주변 음성 인식 장치의 음성 인식 모드를 온 시키기 위한 신호를 상기 주변 음성 인식 장치 또는 상기 주변 음성 인식 장치와 연결된 외부 서버에 송신하고;
    상기 음성 신호로부터 제1노이즈 신호를 추출하고;
    상기 음성이 입력된 제1시간 및 상기 주변 음성 인식 장치에 상기 음성이 입력된 제2시간에 기초하여 상기 제1노이즈 신호와 상기 주변 음성 인식 장치가 추출한 제2노이즈 신호를 합성하여 합성 노이즈 신호를 생성하고;
    상기 합성 노이즈 신호를 이용하여 전처리를 수행하고;
    상기 전처리가 수행된 음성 신호를 인식하는 인식하는 것;을 포함하는 음성 인식 방법.
  17. 제 16 항에 있어서
    상기 전처리를 수행하는 것은,
    상기 음성 신호로부터 상기 합성 노이즈 신호를 제거하여 음성 구간을 추출하고, 상기 음성 구간으로부터 특징을 추출하는 것을 포함하는 음성 인식 방법.
  18. 제 17 항에 있어서,
    상기 전처리가 수행된 음성 신호를 인식하는 것은,
    상기 추출된 특징을 미리 저장된 모델과 비교하여 상기 음성 신호를 인식하는 것을 포함하는 음성 인식 방법.
  19. 제 16항에 있어서
    상기 제2시간 및 상기 제2노이즈 신호를 수신하는 것을 더 포함하는 음성 인식 방법.
  20. 제 19 항에 있어서,
    상기 제2시간 및 상기 제2노이즈 신호는,
    상기 외부 서버 또는 상기 주변 음성 인식 장치로부터 수신되는 음성 인식 방법.
KR1020150106376A 2015-07-28 2015-07-28 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법 KR101681988B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150106376A KR101681988B1 (ko) 2015-07-28 2015-07-28 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150106376A KR101681988B1 (ko) 2015-07-28 2015-07-28 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법

Publications (1)

Publication Number Publication Date
KR101681988B1 true KR101681988B1 (ko) 2016-12-02

Family

ID=57571634

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150106376A KR101681988B1 (ko) 2015-07-28 2015-07-28 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR101681988B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509465A (zh) * 2017-09-15 2019-03-22 阿里巴巴集团控股有限公司 语音信号的处理方法、组件、设备及介质
KR20210081050A (ko) * 2019-12-23 2021-07-01 주식회사 에스에이치비쥬얼 절전 기능을 갖는 전원 분배기 컨트롤러를 구비하는 시스템
KR20230001968A (ko) * 2021-06-29 2023-01-05 혜윰기술 주식회사 차량용 음성 및 제스처 인식 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510645A (ja) * 1999-09-23 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識装置及び消費者電子システム
JP2006227634A (ja) * 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2011128391A (ja) * 2009-12-18 2011-06-30 Toshiba Corp 音声処理装置、音声処理プログラム、音声処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510645A (ja) * 1999-09-23 2003-03-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識装置及び消費者電子システム
JP2006227634A (ja) * 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2011128391A (ja) * 2009-12-18 2011-06-30 Toshiba Corp 音声処理装置、音声処理プログラム、音声処理方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509465A (zh) * 2017-09-15 2019-03-22 阿里巴巴集团控股有限公司 语音信号的处理方法、组件、设备及介质
CN109509465B (zh) * 2017-09-15 2023-07-25 阿里巴巴集团控股有限公司 语音信号的处理方法、组件、设备及介质
KR20210081050A (ko) * 2019-12-23 2021-07-01 주식회사 에스에이치비쥬얼 절전 기능을 갖는 전원 분배기 컨트롤러를 구비하는 시스템
KR102295020B1 (ko) 2019-12-23 2021-08-27 정혜진 절전 기능을 갖는 전원 분배기 컨트롤러를 구비하는 시스템
KR20230001968A (ko) * 2021-06-29 2023-01-05 혜윰기술 주식회사 차량용 음성 및 제스처 인식 장치
KR102492229B1 (ko) * 2021-06-29 2023-01-26 혜윰기술 주식회사 차량용 음성 및 제스처 인식 장치

Similar Documents

Publication Publication Date Title
US10854195B2 (en) Dialogue processing apparatus, a vehicle having same, and a dialogue processing method
US9619645B2 (en) Authentication for recognition systems
US10839797B2 (en) Dialogue system, vehicle having the same and dialogue processing method
KR101579533B1 (ko) 차량 및 그 제어 방법
JP6452708B2 (ja) オーディオパスワードの強度を評価するためのシステムおよび方法
US9756161B2 (en) Voice recognition apparatus, vehicle having the same, and method of controlling the vehicle
US20180350366A1 (en) Situation-based conversation initiating apparatus, system, vehicle and method
US11189276B2 (en) Vehicle and control method thereof
US11004447B2 (en) Speech processing apparatus, vehicle having the speech processing apparatus, and speech processing method
KR101681988B1 (ko) 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법
US10861460B2 (en) Dialogue system, vehicle having the same and dialogue processing method
EP3982359A1 (en) Electronic device and method for recognizing voice by same
CN111421557B (zh) 电子装置及其控制方法
US20230102157A1 (en) Contextual utterance resolution in multimodal systems
KR102339443B1 (ko) 상황 기반 동작 결정 장치, 상황 기반 동작 결정이 가능한 차량, 상황 기반 동작 결정 방법 및 상기 차량의 제어 방법
US10770070B2 (en) Voice recognition apparatus, vehicle including the same, and control method thereof
KR101804765B1 (ko) 차량 및 그 제어방법
CN110580901B (zh) 语音识别设备、包括该设备的车辆及该车辆控制方法
KR102594310B1 (ko) 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
WO2024070080A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2022038724A1 (ja) 音声対話装置、および、音声対話装置における対話対象判定方法
KR20230075915A (ko) 전자 장치 및 그 동작 방법
KR102304342B1 (ko) 음성 인식 방법 및 이에 사용되는 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant