KR20170050908A - 음성 인식이 가능한 전자 장치 및 방법 - Google Patents

음성 인식이 가능한 전자 장치 및 방법

Info

Publication number
KR20170050908A
KR20170050908A KR1020150153033A KR20150153033A KR20170050908A KR 20170050908 A KR20170050908 A KR 20170050908A KR 1020150153033 A KR1020150153033 A KR 1020150153033A KR 20150153033 A KR20150153033 A KR 20150153033A KR 20170050908 A KR20170050908 A KR 20170050908A
Authority
KR
South Korea
Prior art keywords
audio signal
power value
direction information
audio
sound
Prior art date
Application number
KR1020150153033A
Other languages
English (en)
Other versions
KR102444061B1 (ko
Inventor
신기훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150153033A priority Critical patent/KR102444061B1/ko
Priority to PCT/KR2016/012427 priority patent/WO2017078361A1/en
Priority to CN201680063709.3A priority patent/CN108352159B/zh
Priority to US15/340,528 priority patent/US10540995B2/en
Publication of KR20170050908A publication Critical patent/KR20170050908A/ko
Application granted granted Critical
Publication of KR102444061B1 publication Critical patent/KR102444061B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Selective Calling Equipment (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

음성 인식이 가능한 전자 장치 및 방법이 개시된다.  본 발명에 따른 전자 장치의 음성 인식 방법은 복수의 마이크를 통해 음원으로부터 발생된 사운드를 입력받는 단계, 복수의 마이크를 통해 입력된 사운드 각각을 신호 처리하여 생성된 복수의 오디오 신호 각각으로부터 파워값을 산출하고, 산출된 파워값에 기초하여 음원에 대한 방향 정보를 산출하여 저장하는 단계 및 음원의 방향 정보에 기초하여 오디오 신호 내에 포함된 음성 구간에 대한 음성 인식을 수행하는 단계를 포함한다.  이에 따라, 전자 장치는 음성 구간 검출 관련 처리 속도를 향상시키면서 오디오 신호로부터 음성 구간만을 올바르게 검출할 수 있다.

Description

음성 인식이 가능한 전자 장치 및 방법{Electronic device and method for recognizing voice of speech}
본 발명은 음성 인식이 가능한 전자 장치 및 방법에 관한 것으로써, 보다 상세하게는 오디오 신호에서 음성 구간 검출이 가능한 전자 장치 및 방법에 관한 것이다.
음성 신호를 이용하여 각종 전자 장치를 제어하는 음성 인식 기술이 널리 이용되고 있다.  일반적으로, 음성 인식 기술은 하드웨어 또는 소프트웨어 장치나 시스템에서 음성 신호가 입력되면, 입력된 음성 신호로부터 사용자의 발화 음성에 대한 의도를 파악하고, 그에 따른 동작을 수행하는 기술을 말한다.
그러나, 이 같은 음성 인식 기술은 사용자의 발화 음성에 대한 음성 신호 뿐만 아니라, 주변 환경에서 발생하는 각종 소리까지 인식하게 되어 사용자가 의도하는 동작을 올바르게 수행하지 못하는 문제가 발생한다.
따라서, 입력된 오디오 신호로부터 사용자의 발화 음성에 대한 음성 구간만을 검출하기 위한 다양한 음성 구간 검출 알고리즘이 개발되고 있다.
일반적인 음성 구간 검출 방법으로써, 프레임 단위의 오디오 신호별 에너지를 이용하여 음성 구간을 검출하는 방법, 프레임 단위의 오디오 신호별 영 교차율을 이용하여 음성 구간을 검출하는 방법 및 프레임 단위의 오디오 신호로부터 특징 벡터를 추출하고, SVM(Support Vector Machine)을 이용하여 기추출된 특징 벡터로부터 음성 신호 유무를 판단하여 음성 구간을 검출하는 방법 등이 있다.
프레임 단위의 오디오 신호의 에너지 혹은 영 교차율을 이용하여 음성 구간을 검출하는 방법은 각 프레임별 오디오 신호에 대한 에너지 혹은 영 교차율을 이용한다.  따라서, 이 같은 종래의 음성 구간 검출 방법은 프레임별 오디오 신호가 음성 신호인지 여부를 판단하기 위한 연산량이 타 음성 구간 검출 방법에 비해 상대적으로 적으나, 음성 신호 뿐만 아니라 노이즈 신호에 대해서도 음성 구간으로 검출하는 오류가 종종 발생하는 문제가 있다.
한편, 프레임 단위의 오디오 신호로부터 추출된 특징 벡터와 SVM을 이용하여 음성 구간을 검출하는 방법은 전술한 에너지 혹은 영 교차율을 이용하여 음성 구간을 검출하는 방법에 비해 프레임별 오디오 신호로부터 음성 신호만을 검출하는 정확도가 우수하지만, 각 프레임별 오디오 신호로부터 음성 신호 유무를 판단하기 위한 연산량이 많기 때문에 타 음성 구간 검출 방법에 비해 CPU의 자원이 많이 소모되는 문제가 있다.
발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 전자 장치에서 입력된 오디오 신호로부터 음성 신호를 포함하는 음성 구간을 올바르게 검출하도록 함을 목적으로 한다.
나아가, 본 발명은 전자 장치에서 근거리 및 원거리의 음성 신호 입력이 가능하며, 음성 신호의 소리 방향 추적에 기반하여 음성 구간을 검출하도록 함을 목적으로 한다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 전자 장치의 음성 인식 방법은 복수의 마이크를 통해 음원으로부터 발생된 사운드를 입력받는 단계, 상기 복수의 마이크를 통해 입력된 사운드 각각을 신호 처리하여 생성된 복수의 오디오 신호의 파워값을 산출하고, 상기 산출된 파워값에 기초하여 상기 음원에 대한 방향 정보를 산출하여 저장하는 단계 및 상기 음원의 방향 정보에 기초하여 상기 오디오 신호 내에 포함된 음성 구간에 대한 음성 인식을 수행하는 단계를 포함한다.
그리고, 상기 음성 인식을 수행하는 단계는, 상기 복수의 오디오 신호 중 시작과 종료 지점에 대응되는 오디오 신호에 기초하여 음성 구간을 검출하고, 상기 검출된 음성 구간에 대한 음성 인식을 수행할 수 있다.
또한, 상기 저장하는 단계는, 상기 신호 처리된 복수의 오디오 신호로부터 최대 파워값 및 최소 파워값을 산출하는 단계, 상기 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출하는 단계, 상기 산출된 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호를 판단하는 단계 및 상기 판단된 적어도 하나의 오디오 신호에 포함된 음원의 방향 정보 및 상기 판단된 적어도 하나의 오디오 신호에 대응되는 사운드로부터 상기 음원의 방향 정보를 산출하고, 상기 산출된 방향 정보 및 상기 적어도 하나의 오디오 신호에 대한 인덱스를 저장하는 단계를 포함할 수 있다.
그리고, 상기 저장하는 단계는,이전 오디오 신호로부터 산출된 최소 파워값이 기저장되어 있으면, 상기 복수의 오디오 신호로부터 산출된 최소 파워값과 기저장된 최소 파워값을 비교하여 크기가 작은 파워값을 상기 복수의 오디오 신호에 대한 최소 파워값으로 결정하는 단계를 더 포함할 수 있다.
또한, 상기 저장하는 단계는, 기정의된 N 번째 오디오 신호가 입력되면, 상기 N 번째 오디오 신호로부터 산출된 최소 파워값을 초기값으로 리셋하는 단계를 더 포함할 수 있다.
그리고, 상기 산출하는 단계는, 상기 복수의 마이크가 N 개이면, GCC-PHAT(Generalized Cross-Correlation Phase Transform) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 N*(N-1)/2 개의 파워값을 산출하고, 상기 N*(N-1)/2 개의 파워값 중 가장 큰 값을 최대 파워값으로 결정하며, MCRA(Minima-Controlled Recursive Average) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 최소 파워값을 산출할 수 있다.
또한, 상기 방향 정보는, 상기 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 소리 방향과 상기 복수의 마이크 간의 각도 정보이며, 상기 산출하는 단계는, 상기 결정된 최대 파워값에 대응하는 지연값으로부터 상기 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 방향 정보를 산출할 수 있다.
그리고, 상기 음성 인식을 수행하는 단계는, 상기 복수의 방향 정보 중 적어도 두 개의 방향 정보가 기설정된 오차 범위에 속하거나 상기 두 개의 방향 정보의 오차 범위가 기설정된 임계값 미만이면, 상기 적어도 두 개의 방향 정보에 대응되는 오디오 신호에 포함된 음성 구간에 대한 음성 인식을 수행할 수 있다.
또한, 상기 수행하는 단계는, 상기 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대한 인덱스에 기초하여 상기 오디오 신호로부터 음성 구간을 검출하는 단계, 상기 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대응되는 사운드가 발생된 음원의 방향 정보에 기초하여 상기 검출된 음성 구간 내 오디오 신호에 대한 신호 처리를 수행하는 단계 및 상기 신호 처리된 오디오 신호로부터 음성 인식을 수행하여 텍스트로 변환하는 단계를 포함할 수 있다.
그리고, 상기 신호 처리를 수행하는 단계는, LCMA(Linearly Constrained Minimum Variance) 및 MVDR(Minimum Variance Distortionless Response) 중 적어도 하나를 포함하는 빔포밍(Beamforming) 방식, GSS(Geometric Source Separation) 방식 및 BSE(Blind Source Extraction) 방식 중 적어도 하나를 이용하여 상기 검출된 음성 구간 내 오디오 신호에 대한 신호 처리를 수행할 수 있다.
한편, 본 발명의 또다른 실시 예에 따르면, 전자 장치는, 복수의 마이크를 통해 음원으로부터 발생된 사운드를 입력받는 입력부, 상기 음원에 대한 방향 정보를 저장하는 메모리 및 상기 복수의 마이크를 통해 입력된 사운드 각각을 신호 처리하며, 신호 처리된 복수의 오디오 신호의 파워값을 산출하고, 상기 산출된 파워값에 기초하여 상기 음원에 대한 방향 정보를 산출하여 상기 메모리에 저장하며, 상기 음원의 방향 정보에 기초하여 상기 오디오 신호 내에 포함된 음성 구간에 대한 음성 인식을 수행하는 프로세서를 포함한다.
그리고, 상기 프로세서는, 상기 복수의 오디오 신호 중 시작과 종료 지점에 대응되는 오디오 신호에 기초하여 음성 구간을 검출하고, 상기 검출된 음성 구간에 대한 음성 인식을 수행할 수 있다.
또한, 상기 프로세서는, 상기 신호 처리된 복수의 오디오 신호로부터 최대 파워값 및 최소 파워값을 산출하고, 상기 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출하며, 상기 산출된 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대응되는 사운드로부터 상기 음원의 방향 정보를 산출하고, 상기 산출된 방향 정보 및 상기 적어도 하나의 오디오 신호에 대한 인덱스를 상기 메모리에 저장할 수 있다.
그리고, 상기 프로세서는, 이전 오디오 신호로부터 산출된 최소 파워값이 상기 메모리에 기저장되어 있으면, 상기 복수의 오디오 신호로부터 산출된 최소 파워값과 기저장된 최소 파워값을 비교하여 크기가 작은 파워값을 상기 복수의 오디오 신호에 대한 최소 파워값으로 결정할 수 있다.
또한, 상기 프로세서는, 기정의된 N 번째 오디오 신호가 입력되면, 상기 N 번째 오디오 신호로부터 산출된 최소 파워값을 초기값으로 리셋할 수 있다.
그리고, 상기 프로세서는, 상기 복수의 마이크가 N 개이면, GCC-PHAT(Generalized Cross-Correlation Phase Transform) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 N*(N-1)/2 개의 파워값을 산출하고, 상기 N*(N-1)/2 개의 파워값 중 가장 큰 값을 최대 파워값으로 결정하며, MCRA(Minima-Controlled Recursive Average) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 최소 파워값을 산출할 수 있다.
또한, 상기 방향 정보는, 상기 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 소리 방향과 상기 복수의 마이크 간의 각도 정보이며, 상기 프로세서는, 상기 결정된 최대 파워값에 대응하는 지연값으로부터 상기 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 방향 정보를 산출할 수 있다.
그리고, 상기 프로세서는, 상기 복수의 방향 정보 중 적어도 두 개의 방향 정보가 기설정된 오차 범위에 속하거나 상기 두 개의 방향 정보의 오차 범위가 기설정된 임계값 미만이면, 상기 적어도 두 개의 방향 정보에 대응되는 오디오 신호에 포함된 음성 구간에 대한 음성 인식을 수행할 수 있다. 또한, 상기 프로세서는, 상기 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대한 인덱스에 기초하여 상기 오디오 신호로부터 음성 구간을 검출하고, 상기 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대응되는 사운드가 발생된 음원에 대한 방향 정보에 기초하여 상기 검출된 음성 구간 내 오디오 신호에 대한 신호 처리를 수행하며, 상기 신호 처리된 오디오 신호로부터 음성 인식을 수행하여 텍스트로 변환할 수 있다.
그리고, 상기 상기 프로세서는, LCMA(Linearly Constrained Minimum Variance) 및 MVDR(Minimum Variance Distortionless Response) 중 적어도 하나를 포함하는 빔포밍(Beamforming) 방식, GSS(Geometric Source Separation) 방식 및 BSE(Blind Source Extraction) 방식 중 적어도 하나를 이용하여 상기 검출된 음성 구간 내 오디오 신호에 대한 신호 처리를 수행할 수 있다.
한편, 본 발명의 또다른 실시 예에 따르면, 전자 장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램은 복수의 마이크를 통해 음원으로부터 발생된 사운드를 입력받는 단계, 상기 복수의 마이크를 통해 입력된 사운드 각각을 신호 처리하여 생성된 복수의 오디오 신호의 파워값을 산출하고, 상기 산출된 파워값에 기초하여 상기 음원에 대한 방향 정보를 산출하여 저장하는 단계; 및 상기 음원의 방향 정보에 기초하여 상기 오디오 신호 내에 포함된 음성 구간에 대한 음성 인식을 수행하는 단계를 포함한다.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 전자 장치는 음성 구간 검출 관련 처리 속도를 향상시키면서 오디오 신호로부터 음성 구간만을 올바르게 검출할 수 있다.
도 1은 본 발명의 일 실시예에 따른 전자 장치를 통해 음성 인식을 수행하는 환경을 나타내는 예시도,
도 2a는 본 발명의 일 실시예에 따른 음성 인식이 가능한 전자 장치에 대한 개략적인 블록도,
도 2b는 본 발명의 일 실시예에 따른 음성 인식이 가능한 전자 장치에 대한 상세 블록도,
도 3은 본 발명의 일 실시예에 따른 프로세서에서 음성 인식을 수행하는 구성을 나타내는 블록도,
도 4는 본 발명의 일 실시예에 따른 음원 방향 검출 모듈의 상세 블록도,
도 5는 본 발명의 일 실시예에 따른 전자 장치에서 입력된 오디오 신호로부터 음성 구간 검출을 나타내는 예시도,
도 6은 본 발명의 일 실시예에 따른 전자 장치에서 입력된 오디오 신호로부터 음원 방향을 추적한 결과를 나타내는 예시도,
도 8은 본 발명의 일 실시예에 따른 전자 장치에서 음성 인식을 수행하는 방법의 흐름도,
도 9는 본 발명의 일 실시예에 따른 전자 장치에서 음성 구간으로 판단된 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 적어도 하나의 오디오 신호에 대한 인덱스를 저장하는 방법의 제1 흐름도,
도 10은 본 발명의 또다른 실시예에 따른 전자 장치에서 음성 구간으로 판단된 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 음성 구간으로 판단된 적어도 하나의 오디오 신호에 대한 인덱스를 저장하는 방법의 제2 흐름도이다.
본 발명에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 발명의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다.  하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다.  또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다.  이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다.  설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다.  즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다.  이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안된다.  일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안된다.  필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.  본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명의 실시 예에서  "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.  또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
또한, 본 발명의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다.  또한 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 본 발명의 다양한 실시 예를 첨부된 도면을 참조하여 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 전자 장치를 통해 음성 인식을 수행하는 환경을 나타내는 예시도이다.
도 1에 도시된 바와 같이, 음성 인식이 가능한 전자 장치(100)는 사용자(2)의 발화 음성에 대한 음성 신호로부터 음성 인식을 수행한다. 이 같은 음성 인식을 수행하는 전자 장치(100)는 댁 내에 있는 로봇(1), TV(4), 청소기(5)와 같은 각각의 주변 기기이거나 혹은 로봇(1), TV(4), 청소기(5)와 같은 각각의 주변 기기를 제어할 수 있는 단말 장치(3)가 될 수 있다.
이 같은 전자 장치(100)는 전자 장치(100) 내에 탑재된 복수의 마이크를 통해 사용자(2)의 발화 음성에 대한 음성 신호를 입력 받거나 혹은 댁 내에 설치된 복수의 마이크로부터 사용자(2)의 발화 음성에 대한 음성 신호를 수신할 수 있다.
한편, 사용자(2)의 음성 명령이 발화되는 시점에 TV(4) 소리와 같은 주변 환경에서 발생하는 소음이 존재하는 경우, 전자 장치(100)는 복수의 마이크를 통해 사용자(2)의 발화 음성에 대한 음성 신호 및 주변 환경에서 발생하는 소음에 대한 노이즈 신호를 포함하는 음원으로부터 발생된 사운드를 입력 받을 수 있다.
이 같은 복수의 마이크를 통해 음원으로부터 발생된 사운드가 입력되면, 전자 장치(100)는 각각의 마이크를 통해 입력된 사운드 각각을 신호 처리한다. 이후, 전자 장치(100)는 신호 처리된 복수의 오디오 신호의 파워값을 산출하고, 산출된 파워값에 기초하여 음원의 방향을 결정한다. 이후, 전자 장치(100)는 결정된 음원의 방향을 통해 입력된 사운드로부터 신호 처리된 오디오 데이터로부터 노이즈 신호를 제거하고, 음성 신호만을 검출하여 음성 인식을 수행한다. 이에 따라, 전자 장치(100)는 노이즈 신호를 음성 신호로 오인식하는 문제를 개선할 수 있다.
한편, 전자 장치(100) 내에 탑재되거나 댁 내에 설치되는 마이크는 복수의 마이크로폰 어레이를 포함할 수 있으며, 복수의 마이크로폰 어레이를 통해 다양한 방향에서 사용자(2)의 발화 음성에 대한 음성 신호를 포함하는 음원으로부터 발생된 사운드를 입력 받을 수 있다. 이와 같이, 마이크가 복수의 마이크로폰 어레이를 포함할 경우, 전자 장치(100) 내에 탑재되거나 혹은 댁 내에 설치되는 마이크는 단일 구성으로 이루어질 수 있다.
도 2a는 본 발명의 일 실시예에 따른 음성 인식이 가능한 전자 장치에 대한 개략적인 블록도이며, 도 2b는 본 발명의 일 실시예에 따른 음성 인식이 가능한 전자 장치에 대한 상세 블록도이다.
도 2a에 도시된 바와 같이, 전자 장치(100)는 입력부(110), 메모리(120) 및 프로세서(130)를 포함한다.
입력부(110)는 도 2b에 도시된 바와 같이, 복수의 마이크(111)를 포함하며, 복수의 마이크(111)를 통해 음원으로부터 발생된 사운드를 입력받는다.
그러나, 본 발명은 이에 한정되지 않으며, 마이크(111)가 단일 개로 구성될 경우, 해당 마이크(111)는 복수의 마이크로폰 어레이를 통해 다양한 방향에서 음원으로부터 발생된 사운드를 입력받을 수 있다. 여기서, 음원은 사용자의 발화 음성에 대한 음성 신호 및 주변 환경에서 발생하는 소음에 대한 노이즈 신호를 포함할 수 있다.
메모리(120)는 음원에 대한 방향 정보를 저장한다.
프로세서(130)는 복수의 마이크(111)를 통해 입력된 사운드 각각을 신호 처리하며, 신호 처리된 복수의 오디오 신호의 파워값을 산출한다. 이후, 프로세서(130)는 산출된 파워값에 기초하여 음원에 대한 방향 정보를 산출하고, 산출된 음원에 대한 방향 정보를 메모리(120)에 저장한다. 이후, 프로세서(130)는 음원의 방향 정보에 기초하여 오디오 신호 내에 포함된 음성 구간에 대한 음성 인식을 수행한다.
구체적으로, 프로세서(130)는 복수의 마이크(111)를 통해 입력된 각각의 사운드로부터 신호 처리된 오디오 신호가 입력되면, 신호 처리된 각각의 오디오 신호로부터 최대 파워값 및 최소 파워값을 산출한다. 이후, 프로세서(130)는 각각의 오디오 신호로부터 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출한다. 이후, 프로세서(130)는 각각의 오디오 신호로부터 산출된 파워 비와 기설정된 임계값을 비교하여, 기설정된 임계값 이상의 파워 비를 갖는 적어도 하나의 오디오 신호에 대응되는 사운드로부터 음원의 방향 정보를 산출한다. 이후, 프로세서(130)는 산출된 음원의 방향 정보 및 기설정된 임계값 이상의 파워 비를 갖는 적어도 하나의 오디오 신호에 대한 인덱스를 메모리(120)에 저장한다.
여기서, 인덱스 정보는 오디오 신호에 대한 식별 정보로써, 실시예에 따라, 오디오 신호가 입력된 시간에 대한 시간 정보가 될 수 있다.
이후, 프로세서(130)는 메모리(120)에 저장된 음원의 방향 정보 및 인덱스에 기초하여 복수의 오디오 신호 중 사용자의 발화 음성에 대한 시작과 종료 지점에 각각 대응되는 오디오 신호로부터 음성 구간을 검출하고, 검출된 음성 구간에 대한 음성 인식을 수행한다.
구체적으로, 프로세서(130)는 복수의 마이크(111)를 통해 음원으로부터 발생된 사운드가 입력되면, 복수의 마이크(111)를 통해 입력된 각각의 사운드를 오디오 신호로 신호 처리한다. 이후, 프로세서(130)는 신호 처리된 각각의 오디오 신호를 L 개로 샘플링한 후, L 개로 샘플링된 프레임 단위의 오디오 신호를 생성할 수 있다.
이후, 프로세서(130)는 복수의 오디오 신호 각각으로부터 최대 파워값 및 최소 파워값을 산출하고, 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출한다.  여기서, 최대 파워값 및 최대 파워값은 오디오 신호에 대한 신호 세기값이 될 수 있다. 따라서, 프로세서(130)는 복수의 오디오 신호 중 신호 세기값이 가장 큰 최대 파워값과 신호 세기값이 가장 작은 최소 파워값으로부터 파워 비를 산출할 수 있다.
이후, 프로세서(130)는 복수의 오디오 신호 중 최대 파워값 및 최소 파워값으로부터 산출된 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대응되는 사운드가 발생된 음원에 대한 방향 정보 및 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대한 인덱스를 메모리(120)에 저장한다.
실시예에 따라, 프로세서(130)는 복수의 마이크(111)가 N 개이면, GCC-PHAT(Generalized Cross-Correlation Phase Transform) 알고리즘을 이용하여 복수의 오디오 신호로부터 N*(N-1)/2 개의 파워값을 산출한다.  이후, 프로세서(130)는 산출된 N*(N-1)/2 개의 파워값 중 가장 큰 값을 최대 파워값으로 결정할 수 있다. 
예를 들어, 마이크(111)가 2 개이면, 프로세서(130)는 복수의 오디오 신호로부터 1 개의 파워값을 산출할 수 있다.  이 경우, 프로세서(130)는 산출된 파워값을 최대 파워값으로 결정할 수 있다.  한편, 마이크(111)가 3 개이면, 프로세서(130)는 복수의 오디오 신호로부터 3 개의 파워값을 산출할 수 있으며, 3 개의 파워값 중 가장 큰 값을 최대 파워값으로 결정할 수 있다.
한편, 프로세서(130)는 아래 <수학식 1>과 같은 Cross-Correlation 함수를 이용하여 복수의 오디오 신호로부터 N*(N-1)/2 개의 파워값 및 복수의 오디오 신호별 지연값을 산출할 수 있다.  여기서, 복수의 오디오 신호별 지연값은 복수의 마이크(111) 사이의 거리 정도에 따라 오디오 신호가 복수의 마이크(111) 각각에 상이하게 입력되는 시간 정보가 될 수 있다.
Figure pat00001
여기서, i,j는 복수의 마이크(111)로부터 입력된 오디오 신호의 인덱스이며, Xi(k)는 복수의 마이크(111) 중 제1 마이크로부터 입력된 i 번째 오디오 신호에 대한 DFT(Discrete Fourier Transform) 신호이다.  그리고, Xj(k)는 복수의 마이크(111) 중 제2 마이크로부터 입력된 j 번째 오디오 신호에 대한 DFT(Discrete Fourier Transform) 신호이다.  또한, ()*는 공액 복소수(Complex Conjugate)이며, k는 이산 주파수(Discrete Frequency)의 인덱스이다.
한편, 본 발명은 위 <수학식 1>과 같은 Cross-Correlation 함수 뿐만 아니라, 분해능(Resolving Poweer)을 높이기 위한 다양한 화이트닝(Whitening) 방법, 주파수 별로 웨이팅(Weighting)을 다르게 주는 방법 및 발산 방지를 위한 조직화(Regularization) 방법 중 하나를 위 <수학식 1>로부터 변형된 형태로 이용될 수 있다.
한편, 프로세서(130)는 MCRA(Minima-Controlled Recursive Average) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 최소 파워값을 산출할 수 있다.  여기서, GCC-PHAT(Generalized Cross-Correlation Phase Transform) 알고리즘 및 MCRA(Minima-Controlled Recursive Average) 알고리즘은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.
따라서, 프로세서(130)는 위 <수학식 1>과 같은 Cross-Correlation 함수를 이용하여 산출된 파워값 중 가장 큰 값의 최대 파워값과 MCRA 알고리즘을 이용하여 산출된 최소 파워값으로부터 파워 비를 산출할 수 있다.
한편, 프로세서(130)는 최대 파워값과 최소 파워값으로부터 파워 비를 산출하기에 앞서, 이전 오디오 신호로부터 산출된 최소 파워값이 메모리(120)에 기저장되어 있는지 여부를 판단한다.  판단 결과, 최소 파워값이 메모리(120)에 기저장되어 있지 않으면, 프로세서(130)는 위 <수학식 1>과 같은 Cross-Correlation 함수를 이용하여 산출된 파워값 중 가장 큰 값의 최대 파워값과 MCRA 알고리즘을 이용하여 산출된 최소 파워값으로부터 파워 비를 산출할 수 있다.
한편, 이전 오디오 신호로부터 산출된 최소 파워값이 메모리(120)에 기저장되어 있으면, 프로세서(130)는 현재 입력된 복수의 오디오 신호로부터 산출된 최소 파워값과 기저장된 최소 파워값을 비교하여 크기가 작은 최소 파워값을 선택한다.  구체적으로, 기저장된 최소 파워값이 현재 산출된 최소 파워값보다 크기가 작으면, 프로세서(130)는 기저장된 최소 파워값과 현재 입력된 복수의 오디오 신호로부터 산출된 최대 파워값으로부터 파워 비를 산출한다. 
한편, 현재 산출된 최소 파워값이 기저장된 최소 파워값보다 크기가 작은 것으로 판단되면, 프로세서(130)는 메모리(120)에 기저장된 최소 파워값에서 현재 입력된 복수의 오디오 신호로부터 산출된 최소 파워값으로 업데이트 한다.  이후, 프로세서(130)는 현재 입력된 복수의 오디오 신호로부터 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출할 수 있다.
한편, 프로세서(130)는 최소 파워값의 업데이트를 기정의된 K 번째 오디오 신호에 대응되는 사운드가 입력되기 전까지만 수행한다.  즉, 프로세서(130)는 기정의된 K 번째 오디오 신호에 대응되는 사운드가 입력되면, K 번째 오디오 신호로부터 산출된 최소 파워값을 초기값으로 리셋하여 메모리(120)에 저장할 수 있다. 
한편, K+1 번째 오디오 신호에 대응되는 사운드가 입력되면, 프로세서(130)는 K+1 번째 오디오 신호로부터 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출한다. 또한, 프로세서(130)는 K+1 번째 오디오 신호의 최소 파워값과 초기값으로 리셋된 K 번째 오디오 신호의 최소 파워값을 비교한다. 비교 결과, K+1 번째 오디오 신호의 최소 파워값이 작은 것으로 판단되면, 프로세서(130)는 메모리(120)에 기저장된 최소 파워값을 K+1 번째 오디오 신호의 최소 파워값으로 업데이트하고, K+1 번째 오디오 신호의 최소 파워값이 큰 것으로 판단되면, 프로세서(130)는 메모리(120)에 기저장된 최소 파워값을 유지한다.
한편, 전술한 수행 동작을 통해 복수의 오디오 신호로부터 파워 비가 산출되면, 프로세서(130)는 각각의 파워 비와 기설정된 임계값을 비교하여 기설정된 임계값 이상의 파워 비를 갖는 적어도 하나의 오디오 신호에 대응되는 사운드가 발생된 음원의 방향 정보 및 기설정된 임계값 이상의 파워 비를 갖는 적어도 하나의 오디오 신호에 대한 인덱스를 메모리(120)에 저장한다.  따라서, 적어도 하나의 오디오 신호에 대응되는 사운드가 발생된 음원의 방향 정보 및 인덱스가 메모리(120)에 저장되면, 프로세서(130)는 메모리(120)에 저장된 음원의 방향 정보에 기초하여 오디오 신호에 포함된 음성 구간의 시작과 종료 지점을 판단할 수 있다.실시예에 따라, 메모리(120)에 복수의 음원에 대한 방향 정보가 저장되어 있는 경우, 프로세서(130)는 복수의 음원에 대한 방향 정보 중 적어도 두 개의 방향 정보가 기설정된 오차 범위 내에 속하거나 혹은 적어도 두 개의 방향 정보의 오차 범위가 기설정에 임계값 미만이면, 적어도 두 개의 방향 정보에 대응되는 오디오 신호 각각을 시작 및 종료 지점의 오디오 신호로 판단할 수 있다.
여기서, 방향 정보는 복수의 오디오 신호에 대응되는 사운드가 발생된 음원에 대한 소리 방향과 복수의 마이크(111) 간의 각도 정보이다.  따라서, 프로세서(130)는 전술한 <수학식 1>로부터 산출된 지연값으로부터 복수의 오디오 신호에 대응되는 사운드가 발생된 음원의 방향 정보인 각도 정보를 산출할 수 있으며, 메모리(120)에는 기설정된 임계값 이상의 파워 비가 산출된 복수의 오디오 신호에 대한 각도 정보 및 해당 오디오 신호에 대한 인덱스를 포함할 수 있다.
따라서, 프로세서(130)는 메모리(120)에 기저장된 복수의 오디오 신호별 각도 정보 각각이 기설정된 오차 범위 내에 속하는지 여부를 판단하여 기설정된 오차 범위 내에 포함된 각도 정보를 획득할 수 있다.  기설정된 오차 범위 내에 포함된 적어도 두 개의 각도 정도가 획득되면, 프로세서(130)는 획득된 각도 정보에 대응되는 오디오 신호를 정적 음원의 음성 신호로 판단한다. 
한편, 기저장된 복수의 오디오 신호 중 제1 및 제2 오디오 신호 각각의 각도 정보 차이가 기설정된 오차 범위 내에 속하지 않을 경우, 프로세서(130)는 제1 및 제2 오디오 신호 각각의 각도 정보 차이값과 기설정된 임계값을 비교한다. 비교 결과, 제1 및 제2 오디오 신호 각각의 각도 정보 차이값이 기설정된 임계값 미만이면, 프로세서(130)는 제1 및 제2 오디오 신호를 동적 음원의 음성 신호 판단한다.
이 같은 다양한 분석을 통해 메모리(120)에 기저장된 복수의 오디오 신호 중 적어도 두 개의 오디오 신호가 음성 신호로 판단되면, 프로세서(130)는 음성 신호로 판단된 적어도 두 개의 오디오 신호 각각을 시작 및 종료 지점의 오디오 신호로 결정할 수 있다.
적어도 두 개의 오디오 신호가 시작 및 종료 지점의 오디오 신호로 결정되면, 프로세서(130)는 시작 및 종료 지점으로 결정된 오디오 신호의 인덱스에 기초하여 음성 구간을 검출할 수 있다.  음성 구간이 검출되면, 프로세서(130)는 시작 및 종료 지점으로 결정된 오디오 신호에 대한 음원의 방향 정보에 기초하여 음성 구간 내 포함된 오디오 신호에 대한 신호 처리를 수행한다.
구체적으로, 프로세서(130)는 음성 구간 내 포함된 오디오 신호 중 시작 및 종료 지점으로 결정된 오디오 신호에 대한 음원의 방향 정보에 기초하여 해당 방향으로부터 입력된 사운드로부터 신호 처리된 오디오 신호를 증폭하고, 나머지 방향의 오디오 신호를 감쇄시키는 신호 처리를 수행할 수 있다.
실시예에 따라, 프로세서(130)는 LCMA(Linearly Constrained Minimum Variance) 및 MVDR(Minimum Variance Distortionless Response) 중 적어도 하나를 포함하는 빔포밍(Beamforming) 방식, GSS(Geometric Source Separation) 방식 및 BSE(Blind Source Extraction) 방식 중 적어도 하나를 이용하여 기검출된 음성 구간 내 오디오 신호로부터 시작 및 종료 지점으로 결정된 오디오 신호에 대한 음원의 방향 정보에 대응되는 방향의 오디오 신호를 증폭하고, 나머지 방향의 오디오 신호를 감쇄시키는 신호 처리를 수행할 수 있다.
이후, 프로세서(130)는 신호 처리된 음성 구간의 오디오 신호로부터 음성 인식을 수행하여 텍스트로 변환한다.  실시예에 따라, 프로세서(130)는 STT(Speech to Text) 알고리즘을 이용하여 신호 처리된 음성 구간의 오디오 신호로부터 음성 인식을 수행하여 텍스트 형태로 변환할 수 있다. 
한편, 전술한 입력부(110)는 도 2에 도시된 바와 같이, 복수의 마이크(111), 조작부(113), 터치 입력부(115) 및 사용자 입력부(117)를 포함할 수 있다.  복수의 마이크(111)는 사용자의 발화 음성 혹은 기타 생활 환경에서 발생하는 오디오 신호를 프로세서(130)로 출력한다.
조작부(113)는 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad)로 구현될 수 있으며, 터치 입력부(115)는 후술할 디스플레이부(191)가 터치 스크린 형태로 구현될 경우, 디스플레이부(130)와 상호 레어어 구조를 이루는 터치 패드로 구현될 수 있다.  이 경우, 터치 입력부(125)는 후술할 디스플레이부(190)를 통해 디스플레이된 아이콘에 대한 터치 명령을 입력받을 수 있다. 
사용자 입력부(117)는 적어도 하나의 주변 기기(미도시)로부터 IR 신호 혹은 RF 신호를 입력받을 수 있다.  따라서, 전술한 프로세서(130)는 사용자 입력부(117)를 통해 입력된 IR 신호 혹은 RF 신호에 기초하여 전자 장치(100)의 동작을 제어할 수 있다.  여기서, IR 혹은 RF 신호는 전자 장치(100)의 동작을 제어하기 위한 제어 신호 혹은 음성 신호가 될 수 있다.
한편, 본 발명에 따른 전자 장치(100)는 전술한 입력부(110), 메모리(120) 및 프로세서(130) 구성 외에 다양한 구성을 더 포함할 수 있다.
실시예에 따라, 전자 장치(100)가 스마트 폰, 스마트 TV와 같은 디스플레이 장치로 구현될 경우, 도 2에 도시된 바와 같이, 통신부(140), 음성 처리부(150), 촬영부(160), 감지부(170), 신호 처리부(180) 및 출력부(190)를 더 포함할 수 있다.
통신부(140)는 적어도 하나의 주변 기기(미도시)와 데이터 통신을 수행한다.  일 실시예에 따라, 통신부(140)는 사용자의 발화 음성에 대한 음성 신호를 음성 인식 서버(미도시)로 전송하며, 음성 인식 서버(미도시)로부터 인식된 텍스트 형태의 음성 인식 결과를 수신할 수 있다.  또다른 실시예에 따라, 통신부(140)는 웹 서버(미도시)와 데이터 통신을 수행하여 사용자 명령에 대응되는 컨텐츠 혹은 컨텐츠 관련 검색 결과를 수신할 수 있다.
이 같은 통신부(140)는 도 2에 도시된 바와 같이, 근거리 통신 모듈(141), 무선 랜 모듈 등의 무선 통신 모듈(143)과, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), IEEE(Institute of Electrical and Eletronics Engineers) 1394 등의 유선 통신 모듈 중 적어도 하나를 포함하는 커넥터(145)를 포함할 수 있다. 
근거리 통신 모듈(141)은 휴대용 단말 장치(100)와 전자 장치(200) 사이에 무선으로 근거리 통신을 수행하는 구성이다.  이 같은 근거리 통신 모듈(111)은 블루투스(bluetooth)모듈, 적외선 통신(IrDA, infrared data association)모듈, NFC(Near Field Communication)모듈, 와이파이(WIFI)모듈, 지그비(Zigbee) 모듈 중 적어도 하나를 포함할 수 있다.
또한, 무선 통신 모듈(143)이란 IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다.  이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
이처럼 통신부(140)는 상술한 다양한 근거리 통신 방식에 의해 구현될 수 있고, 필요에 따라 본 명세서에 언급되지 않은 다른 통신 기술을 채용할 수 있다.
한편, 커넥터(145)는 USB 2.0, USB 3.0, HDMI, IEEE 1394 등 다양한 소스 장치와의 인터페이스를 제공하는 구성이다.  이 같은 커넥터(145)는 후술할 프로세서(130)의 제어 명령에 따라 커넥터(145)에 연결된 유선 케이블을 통해 외부 서버(미도시)로부터 전송된 컨텐츠 데이터를 수신하거나, 기저장된 컨텐츠 데이터를 외부 기록 매체로 전송할 수 있다.  또한, 커넥터(145)는 커넥터(145)와 물리적으로 연결된 유선 케이블을 통해 전원 소스로부터 전원을 입력받을 수 있다.
음성 처리부(150)는 복수의 마이크(111)를 통해 입력된 오디오 신호 중 사용자에 의해 발화된 음성 구간에 대한 음성 인식을 수행하는 구성이다.  구체적으로, 음성 처리부(150)는 프로세서(130)의 제어 명령에 따라, 입력된 오디오 신호로부터 음성 구간이 검출되면, 검출된 음성 구간에 포함된 복수의 오디오 신호를 증폭시키고, 노이즈 신호인 나머지 오디오 신호를 감쇄시키는 전처리 과정을 수행한다.  이후, 음성 처리부(150)는 오디오 신호가 증폭된 음성 구간에 대해서 STT(Speech to Text) 알고리즘과 같은 음성 인식 알고리즘을 이용하여 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다.
촬영부(160)는 사용자 명령에 따라, 정지 영상 또는 동영상을 촬영하기 위한 것으로써, 전면 카메라, 후면 카메라와 같이 복수 개로 구현될 수 있다.
감지부(170)는 전자 장치(100)의 다양한 동작 상태 및 사용자 인터렉션을 감지한다.  특히, 감지부(170)는 사용자가 전자 장치(100)를 파지하고 있는 파지 상태를 감지할 수 있다.  구체적으로, 전자 장치(100)는 다양한 방향으로 회전되거나 기울어질 수 있다.  이때, 감지부(170)는 지자기 센서, 자이로 센서, 가속도 센서 등과 같은 다양한 센서들 중 적어도 하나를 이용하여 회전 움직임 또는 중력 방향을 기준으로 사용자가 파지하고 있는 전자 장치(100)의 기울기 등을 감지할 수 있다.
신호 처리부(180)는 프로세서(130)의 제어 명령에 따라, 통신부(330)를 통해 수신된 컨텐츠 혹은 메모리(120)에 저장된 컨텐츠의 영상 데이터 및 오디오 데이터를 처리하기 위한 구성 요소가 될 수 있다.  구체적으로, 신호 처리부(180)는 컨텐츠에 포함된 영상 데이터에 대해서, 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환 및 해상도 변환 등과 같은 다양한 영상 처리를 수행할 수 있다.  또한, 신호 처리부(180)는 컨텐츠에 포함된 오디오 데이터에 대해서,디코딩, 증폭, 노이즈 필터링 등과 같은 다양한 오디오 신호 처리를 수행할 수 있다.
출력부(190)는 신호 처리부(180)를 통해 신호 처리된 컨텐츠를 출력한다.  이 같은 출력부(190)는 디스플레이부(191) 및 오디오 출력부(192) 중 적어도 하나를 통해 컨텐츠를 출력할 수 있다.  즉, 디스플레이부(191)는 신호 처리부(180)에 의해 영상 처리된 영상 데이터를 디스플레이하며, 오디오 출력부(192)는 오디오 신호 처리된 오디오 데이터를 가청음 형태로 출력할 수 있다.
한편, 영상 데이터를 디스플레이하는 디스플레이부(191)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현될 수 있다.  특히, 디스플레이부(191)는 터치 입력부(115)와 함께 상호 레이어 구조를 이루는 터치 스크린 형태로 구현될 수 있다.
한편, 전술한 프로세서(130)는 CPU(131), ROM(132), RAM(133) 및 GPU(135)를 포함할 수 있으며, CPU(131), ROM(132), RAM(133) 및 GPU(135)는 버스(137)를 통해 서로 연결될 수 있다.
CPU(131)는 메모리(120)에 액세스하여, 메모리(120)에 저장된 OS를 이용하여 부팅을 수행한다.  또한 CPU(131)는 저장부(120)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.
ROM(132)은 시스템 부팅을 위한 명령어 세트 등이 저장된다.  턴온 명령이 입력되어 전원이 공급되면, CPU(131)는 ROM(132)에 저장된 명령어에 따라 메모리(120)에 저장된 OS를 RAM(133)에 복사하고, OS를 실행시켜 시스템을 부팅시킨다.  부팅이 완료되면, CPU(131)는 저장부(120)에 저장된 각종 프로그램을 RAM(133)에 복사하고, RAM(133)에 복사된 프로그램을 실행시켜 각종 동작을 수행한다.
GPU(135)는 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 디스플레이 화면을 생성한다.  구체적으로, GPU(135)는 수신된 제어 명령에 기초하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산하고, 연상된 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 디스플레이 화면을 생성한다.
이 같은 프로세서(130)는 전술한 입력부(110), 통신부(140) 및 감지부(170) 등과 같은 다양한 구성들과 결합되어 단일칩 시스템(System-on-a-chip 또는 System on chip, SOC, SoC)으로 구현될 수 있다.
한편, 상술한 프로세서(130)의 동작은 메모리(120)에 저장된 프로그램에 의해 이루어질 수 있다.  여기서, 메모리(120)는 ROM(132), RAM(133) 또는 전자 장치(100)에 탈착/장착 가능한 메모리 카드(예, SD 카드, 메모리 스틱), 비휘발성 메모리, 휘발성 메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 중 적어도 하나로 구현될 수 있다.
한편, 상술한 바와 같이, 복수의 오디오 신호로부터 음성 구간을 검출하는 프로세서(130)는 도 3에 도시된 바와 같이, 메모리(120)에 저장된 프로그램 모듈을 이용하여 복수의 오디오 신호로부터 음성 구간을 검출할 수 있다.
도 3은 본 발명의 일 실시예에 따른 프로세서에서 음성 인식을 수행하는 구성을 나타내는 블록도이다.
도 3에 도시된 바와 같이, 프로세서(130)는 음원 방향 검출 모듈(121), 음원 방향 기록부(12), 앤드포인트 검출 모듈(123), 음성 신호 처리 모듈(124) 및 음성 인식 모듈(125)를 포함할 수 있다.
음원 방향 검출 모듈(121)은 복수의 마이크(111-1,111-2) 혹은 복수의 마이크로폰 어레이를 포함하는 마이크(111)를 통해 입력된 사운드로부터 신호 처리된 복수의 오디오 신호가 입력되면, 복수의 오디오 신호 각각으로부터 최대 파워값 및 최소 파워값을 산출하고, 산출된 최대 파워값 및 최소 파워값에 기초하여 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 방향 정보 및 복수의 오디오 신호 각각에 대한 인덱스를 획득할 수 있다.
도 4는 본 발명의 일 실시예에 따른 음원 방향 검출 모듈의 상세 블록도이다.
도 4에 도시된 바와 같이, 음원 방향 검출 모듈(121)은 음원 방향 산출 모듈(121-1) 및 음성 구간 검출 모듈(121-2)를 포함한다.
음원 방향 산출 모듈(121-1)은 Cross-Correlation 함수를 이용하여 복수의 마이크(111-1,111-2)를 통해 입력된 오디오 신호로부터 N*(N-1)/2 개의 파워값 및 복수의 오디오 신호별 지연값을 산출한다.
음성 구간 검출 모듈(121-2)은 음원 방향 산출 모듈(121-1)로부터 산출된 파워값 중 가장 큰 최대 파워값과 그 최대 파워값에 대응되는 지연값을 획득한다. 이후, 음성 구간 검출 모듈(121-2)은 MCRA 알고리즘을 이용하여 복수의 오디오 신호로부터 최소 파워값을 산출한다. 여기서, 최대 파워값 및 최소 파워값은 오디오 신호에 대한 신호 세기값이 될 수 있다.
최소 파워값이 산출되면, 음성 구간 검출 모듈(121-2)은 산출된 최소 파워값과 기저장된 최소 파워값을 비교하여 크기가 작은 최소 파워값을 선택하고, 선택된 최소 파워값과 복수의 오디오 신호로부터 산출된 최대 파워값으로부터 파워 비를 산출한다. 이후, 음성 구간 검출 모듈(121-2)은 최대 파워값과 최소 파워값으로부터 산출된 파워 비와 기설정된 임계값을 비교하여 기설정된 임계값 이상의 파워 비를 갖는 오디오 신호를 검출하고, 검출된 오디오 신호로부터 오디오 신호에 대한 음원의 방향 정보 및 인덱스를 출력한다.
이에 따라, 음원 방향 기록부(122)는 음성 구간 검출 모듈(121-2)을 통해 출력된 오디오 신호에 대한 음원의 방향 정보 및 인덱스를 메모리(120)에 기록할 수 있다.
이 같은 일련을 수행 동작을 통해 복수의 오디오 신호 중 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 인덱스가 메모리(120)에 기록되면, 앤드 포인트 검출 모듈(123)은 메모리(120)에 기록된 음원의 방향 정보에 기초하여 오디오 신호에 포함된 음성 구간의 시작과 종료 지점을 판단할 수 있다. 전술한 바와 같이, 메모리(120)에 기록된 음원의 방향 정보는 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 소리 방향과 복수의 마이크(111-1,111-2) 간의 각도 정보가 될 수 있다.
따라서, 앤드 포인트 검출 모듈(123)은 메모리(120)에 기저장된 복수의 오디오 신호별 각도 정보 각각이 기설정된 오차 범위 내에 속하는지 여부를 판단하여 기설정된 오차 범위 내에 포함된 적어도 두 개의 각도 정도가 획득되면, 획득된 각도 정보에 대응되는 오디오 신호를 정적 음원의 음성 신호로 판단한다. 
한편, 기저장된 복수의 오디오 신호 중 제1 및 제2 오디오 신호 각각의 각도 정보 차이가 기설정된 오차 범위 내에 속하지 않을 경우, 앤드 포인트 검출 모듈(123)은 제1 및 제2 오디오 신호 각각의 각도 정보 차이값이 기설정된 임계값 미만인지에 따라 제1 및 제2 오디오 신호를 동적 음원의 음성 신호 판단할 수 있다.
이 같은 다양한 분석을 통해 메모리(120)에 기저장된 복수의 오디오 신호 중 적어도 두 개의 오디오 신호가 음성 신호로 판단되면, 앤드 포인트 검출 모듈(123)은 음성 신호로 판단된 적어도 두 개의 오디오 신호 각각을 시작 및 종료 지점의 오디오 신호로 결정할 수 있다.
시작 및 종료 지점의 오디오 신호가 결정되면, 음성 신호 처리 모듈(124)은 시작 및 종료 지점으로 결정된 오디오 신호의 인덱스에 기초하여 음성 구간을 검출한다. 이후, 음성 신호 처리 모듈(124)은 시작 및 종료 지점으로 결정된 오디오 신호에 대한 음원의 방향 정보에 대응되는 방향의 오디오 신호를 증폭하고, 나머지 방향의 오디오 신호를 감쇄시키는 신호 처리를 수행한다. 이에 따라, 음성 인식 모듈(125)은 음성 신호 처리 모듈(124)을 통해 신호 처리된 음성 구간의 오디오 신호로부터 음성 인식을 수행하여 사용자의 발화 음성에 대한 음성 신호를 텍스트로 변환할 수 있다.
이와 같이, 본 발명에 따른 전자 장치(100)는 복수의 오디오 신호로부터 산출된 파워 비에 기초하여 기설정된 임계값 이상의 파워 비를 갖는 구간을 음성 구간으로 검출함으로써, 노이즈가 많은 환경에서도 사용자의 발화 음성에 대한 음성 구간을 정확히 검출할 수 있다. 나아가, 본 발명에 따른 전자 장치(100)는 검출된 음성 구간 내에서만 음성 인식을 수행함으로써, 종래에 비해 음성 인식 수행에 필요한 연산량을 최소화할 수 있다.
도 5는 본 발명의 일 실시예에 따른 전자 장치에서 입력된 오디오 신호로부터 음성 구간 검출을 나타내는 예시도이다.
도 5의 (a)에 도시된 바와 같이, 복수의 마이크(111)를 통해 음성 신호를 포함하는 사운드를 입력받을 수 있다.  여기서, A 내지 F 구간(410~460)은 음성 신호를 포함하는 음성 구간이 될 수 있으며, 나머지 구간은 노이즈 신호를 포함하는 노이즈 구간이 될 수 있다.
구체적으로, 전자 장치(100)는 복수의 마이크(111)로부터 음원으로부터 발생된 사운드가 입력되면, 입력된 사운드 각각을 신호 처리한다. 이후, 전자 장치(100)는 신호 처리된 복수의 오디오 신호 각각으로부터 최대 파워값 및 최소 파워값을 산출하고, 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출한다.
도 5의 (b)에 도시된 바와 같이, A 내지 F 구간(410~460)에 대응되는 A' 내지 F' 구간(411~461)의 파워 비는 기설정된 임계값(470) 이상일 수 있다.  따라서, 전자 장치(100)는 기설정된 임계값(470) 이상의 파워 비를 갖는 A' 내지 F' 구간(411~461)을 음성 구간으로 검출할 있다.
한편, 도 5의 (c)에 도시된 바와 같이, 음성 구간으로 A' 내지 F' 구간(411~461)에 대응되는 A" 내지 F" 구간(413~463)의 오디오 신호별 각도는 기설정된 오차 범위 내에 존재하며, 타 구간의 각도는 기설정된 오차 범위 밖에 존재할 수 있다.  이 경우, 전자 장치(100)는 후술할 도 6에 도시된 바와 같이, 기설정된 임계값(470) 이상의 파워 비를 갖는 A' 내지 F' 구간(411~461)을 음성 구간 내 오디오 신호 중 오차 범위 내에 존재하는 각도에 대응되는 방향의 오디오 신호만을 증폭시킬 수 있다.
도 6은 본 발명의 일 실시예에 따른 전자 장치에서 입력된 오디오 신호로부터 음원 방향을 추적한 결과를 나타내는 예시도이다.
도 5에서 설명한 바와 같이, 복수의 마이크(111)를 통해 입력된 오디오 신호부터 음성 구간이 검출될 수 있다.
이 같은 오디오 신호로부터 음성 구간이 검출되면, 전자 장치(100)는 오디오 신호로부터 검출된 음성 구간 내 오디오 신호 중 특정 방향의 오디오 신호를 증폭하고, 나머지 방향의 오디오 신호를 감쇄시키는 신호 처리를 수행할 수 있다.
구체적으로, 전자 장치(100)는 기설정된 임계값 이상의 파워 비를 갖는 복수의 오디오 신호 중 시작 및 종료 지점으로 결정된 적어도 두 개의 오디오 신호에 대한 음원의 각도 정보에 기초하여 기검출된 음성 구간 내 오디오 신호 중 해당 각도 정보에 대응되는 방향의 오디오 신호를 증폭한다.  그리고, 전자 장치(100)는 기검출된 음성 구간 내 오디오 신호 중 해당 각도 정보에 대응되는 방향의 오디오 신호를 제외한 나머지 방향의 오디오 신호를 감쇄시킨다.
이에 따라, 전자 장치(100)는 도 6에 도시된 바와 같이, 음성 구간으로 검출된 A 내지 F구간(410~460)에 대응되는 음성 처리 구간(510~560)의 오디오 신호를 증폭시키고, 나머지 구간의 오디오 신호를 감쇄시킬 수 있다.
한편, 본 발명에 따른 전자 장치(100)는 전술한 실시예를 통해 다양한 사물 인터넷 서비스를 제공할 수 있다.
도 7은 본 발명의 일 실시예에 따른 전자 장치에서 사물 인터넷 서비스를 제공하는 예시도이다.
도 7에 도시된 바와 같이, 전자 장치(100)는 사용자의 발화 음성에 대한 음성 신호로부터 음성 인식을 수행하고, 인식된 음성 명령에 기초하여 댁 내에 있는 제1 및 제2 TV(10,10'), 에어컨(20), 냉장고(30), 세탁기(40)와 같은 가전 기기를 제어할 수 있다.
예를 들어, 사용자는 자신의 방에서 'TV 켜 줘!'라는 음성 명령을 발화 할 수 있다. 이 같은 사용자의 음성 명령이 발화되면, 전자 장치(100)는 복수의 마이크를 통해 사용자의 음성 명령에 대응되는 음성 신호를 포함하는 음원으로부터 발생된 사운드를 입력받으며, 입력된 각각의 사운드를 신호 처리한다.
이후, 전자 장치(100)는 전술한 일련의 수행 동작을 통해 사용자의 음성 명령이 발화된 방향을 파악한다. 이후, 전자 장치(100)는 기저장된 가전 기기별 방향 정보에 기초하여 사용자의 음성 명령이 발화된 것으로 파악된 방향과 관련된 가전 기기를 식별한다.
구체적으로, 전자 장치(100)는 제1 및 제2 TV(10,10'), 에어컨(20), 냉장고(30), 세탁기(40) 각각에 대응되는 식별 정보 및 각 가전 기기에 대한 방향 정보를 저장할 수 있다. 따라서, 전자 장치(100)는 사용자의 음성 명령이 발화된 것으로 파악된 방향과 기저장된 가전 기기별 방향 정보를 비교하여 사용자의 음성 명령이 발화된 것으로 파악된 방향과 기설정된 범위 내에 존재하는 가전 기기를 검출할 수 있다.
전술한 예와 같이, 제1 TV(10)는 거실에 위치하며, 제2 TV(10')는 사용자가 현재 위치한 방에 위치할 수 있다. 그리고, 사용자의 음성 명령이 발화된 것으로 파악된 방향과 기설정된 범위 내에 존재하는 가전 기기는 제2 TV(10')가 될 수 있다. 이 경우, 전자 장치(100)는 사용자의 음성 명령에 기초하여 제1 및 제2 TV(10,10') 중 사용자가 현재 위치한 방에 있는 제2 TV(10')로 파워 온 제어 신호를 전송할 수 있다.
이에 따라, 제2 TV(10')는 전자 장치(100)로부터 수신된 파워 온 제어 신호에 기초하여 파워 온 동작을 수행함으로써, 사용자는 자신이 현재 위치한 방에 있는 제2 TV(10')를 통해 방송을 시청할 수 있다.
이하에서는, 본 발명에 따른 전자 장치(100)에서 음성 인식을 수행하는 방법에 대해서 상세히 설명하도록 한다.
도 8은 본 발명의 일 실시예에 따른 전자 장치에서 음성 인식을 수행하는 방법의 흐름도이다.
도 8에 도시된 바와 같이, 전자 장치(100)는 복수의 마이크를 통해 음원으로부터 발생된 사운드가 입력되면, 입력된 사운드 각각에 대한 신호 처리를 수행하여, 신호 처리된 복수의 오디오 신호를 생성한다 (S710).  구체적으로, 전자 장치(100)는 복수의 마이크를 통해 음원으로부터 발생된 사운드가 입력되면, 입력된 사운드 각각에 대한 신호 처리를 수행하여 신호 처리된 복수의 오디오 신호를 생성한다. 이후, 전자 장치(100)는 신호 처리된 각각의 오디오 신호를 L 개로 샘플링한 후, 샘플링된 프레임 단위의 오디오 신호를 생성할 수 있다.  이 같은 복수의 오디오 신호가 생성되면, 전자 장치(100)는 복수의 오디오 신호 각각으로부터 파워값을 산출한다(S720).  이후, 전자 장치(100)는 복수의 오디오 신호로부터 산출된 파워값에 기초하여 복수의 오디오 신호 중 적어도 하나의 오디오 신호에 대응되는 사운드가 발생된 음원의 방향 정보 및 적어도 하나의 오디오 신호에 대한 인덱스를 저장한다(S730).
이후, 전자 장치(100)는 기저장된 음원의 방향 정보에 기초하여 전체 오디오 신호 내에 포함된 음성 구간의 시작과 종료 지점을 판단한다(S740). 
실시예에 따라, 메모리에 복수의 오디오 신호별 음원의 방향 정보가 저장되어 있는 경우, 전자 장치(100)는 복수의 방향 정보 중 적어도 두 개의 방향 정보가 기설정된 오차 범위 내에 속하거나 혹은 적어도 두 개의 방향 정보의 오차 범위가 기설정에 임계값 미만이면, 적어도 두 개의 방향 정보에 대응되는 오디오 신호 각각을 시작 및 종료 지점의 오디오 신호로 판단할 수 있다. 
이후, 전자 장치(100)는 시작과 종료 지점에 대응되는 오디오 신호의 인덱스에 기초하여 전체 오디오 신호로부터 음성 구간을 검출하고, 검출된 음성 구간에 대한 음성 인식을 수행한다(S750). 
구체적으로, 전자 장치(100)는 시작과 종료 지점에 대응되는 오디오 신호의 인덱스에 기초하여 전체 오디오 신호 중 음성 신호를 포함하는 음성 구간을 검출할 수 있다.  이후, 전자 장치(100)는 음성 구간에 포함된 복수의 오디오 신호를 증폭시키고, 노이즈 신호인 나머지 오디오 신호를 감쇄시키는 전처리 과정을 수행한다. 
실시예에 따라, 전자 장치(100)는 LCMA(Linearly Constrained Minimum Variance) 및 MVDR(Minimum Variance Distortionless Response) 중 적어도 하나를 포함하는 빔포밍(Beamforming) 방식, GSS(Geometric Source Separation) 방식 및 BSE(Blind Source Extraction) 방식 중 적어도 하나를 이용하여 기검출된 음성 구간 내 오디오 신호로부터 시작 및 종료 지점으로 결정된 오디오 신호에 대한 음원의 방향 정보에 대응되는 방향의 오디오 신호를 증폭하고, 나머지 방향의 오디오 신호를 감쇄시키는 신호 처리를 수행할 수 있다.
이후, 전자 장치(100)는 오디오 신호가 증폭된 음성 구간에 대해서 STT(Speech to Text) 알고리즘과 같은 음성 인식 알고리즘을 이용하여 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다.
이하에서는, 전자 장치(100)에서 오디오 신호로부터 음성 구간의 시작 및 종료 지점의 오디오 신호 검출을 위해서 음성 구간으로 판단된 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 적어도 하나의 오디오 신호에 대한 인덱스를 저장하는 방법에 대해서 상세히 설명하도록 한다.
도 9는 본 발명의 일 실시예에 따른 전자 장치에서 음성 구간으로 판단된 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 적어도 하나의 오디오 신호에 대한 인덱스를 저장하는 방법의 제1 흐름도이다.
도 9에 도시된 바와 같이, 전자 장치(100)는 복수의 마이크로부터 입력된 사운드로부터 신호 처리된 복수의 오디오 신호가 생성되면, 복수의 오디오 신호 각각으로부터 최대 파워값 및 최소 파워값을 산출한다(8710).  이후, 전자 장치(100)는 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출한다(S820).  이후, 전자 장치(100)는 복수의 오디오 신호 중 산출된 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호를 판단하고, 판단된 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 적어도 하나의 오디오 신호에 대한 인덱스를 저장한다(S830,S840).
구체적으로, 전자 장치(100)는 복수의 마이크가 N 개이면, GCC-PHAT(Generalized Cross-Correlation Phase Transform) 알고리즘을 이용하여 복수의 오디오 신호로부터 N*(N-1)/2 개의 파워값을 산출한다.  이후, 전자 장치(100)는 산출된 N*(N-1)/2 개의 파워값 중 가장 큰 값을 최대 파워값으로 결정할 수 있다. 
실시예에 따라, 전자 장치(100)는 전술한 <수학식 1>과 같은 Cross-Correlation 함수를 이용하여 복수의 오디오 신호로부터 N*(N-1)/2 개의 파워값 및 복수의 오디오 신호별 지연값을 산출할 수 있다.  여기서, 복수의 오디오 신호별 지연값은 복수의 마이크 사이의 거리 정도에 따라 오디오 신호가 복수의 마이크 각각에 상이하게 입력되는 시간 정보가 될 수 있다.  따라서, 전자 장치(100)는 복수의 프레임별 지연값으로부터 복수의 오디오 신호에 대한 음원의 방향 정보를 산출할 수 있다.
여기서, 방향 정보는 복수의 오디오 신호에 대한 음원의 소리 방향과 복수의 마이크 간의 각도 정보이다.  따라서, 전자 장치(100)는 전술한 <수학식 1>로부터 산출된 지연값으로부터 복수의 오디오 신호에 대한 음원의 방향 정보인 각도 정보를 산출할 수 있다.
한편, 전자 장치(100)는 MCRA(Minima-Controlled Recursive Average) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 최소 파워값을 산출할 수 있다.   따라서, 전자 장치(100)는 위 <수학식 1>과 같은 Cross-Correlation 함수를 이용하여 산출된 파워값 중 가장 큰 값의 최대 파워값과 MCRA 알고리즘을 이용하여 산출된 최소 파워값으로부터 파워 비를 산출할 수 있다.  파워 비가 산출되면, 전자 장치(100)는 복수의 오디오 신호 중 기산출된 파워 비와 기설정된 임계값을 비교하여 기설정된 임계값 이상의 파워 비를 갖는 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 적어도 하나의 오디오 신호에 대한 인덱스를 메모리에 저장할 수 있다.
한편, 전자 장치(100)는 MCRA(Minima-Controlled Recursive Average) 알고리즘을 이용하여 산출된 최소 파워값을 저장할 수 있다.  따라서, 전자 장치(100)는 최소 파워값이 저장된 이후 오디오 신호가 입력되면, 입력된 오디오 신호로부터 산출된 최소 파워값 및 기저장된 최소 파워값을 비교하여 두 최소 파워값 중 낮은 값을 이용하여 파워 비를 산출할 수 있다.
이하에서는, 전자 장치(100)에서 최소 파워값이 기저장된 상태에서, 음성 구간으로 판단된 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 음성 구간으로 판단된 적어도 하나의 오디오 신호에 대한 인덱스를 저장하는 방법에 대해서 상세히 설명하도록 한다.
도 10은 본 발명의 또다른 실시예에 따른 전자 장치에서 음성 구간으로 판단된 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 음성 구간으로 판단된 적어도 하나의 오디오 신호에 대한 인덱스를 저장하는 방법의 제2 흐름도이다.
도 10에 도시된 바와 같이, 복수의 마이크를 통해 입력된 사운드로부터 신호 처리된 복수의 오디오 신호가 생성되면, 전자 장치(100)는 복수의 오디오 신호가 기정의된 K 번째 오디오 신호인지 여부를 판단한다(S910).  판단 결과, 기정의된 K 번째 오디오 신호가 아니면, 전자 장치(100)는 도 9에서 설명한 바와 같이, 복수의 오디오 신호로부터 최대 파워값 및 최소 파워값을 산출하고, 산출된 최소 파워값과 메모리에 기저장된 이전 최소 파워값을 비교한다(S920).  비교 결과, 현재 산출된 최소 파워값이 메모리에 기저장된 최소 파워값 보다 작으면, 전자 장치(100)는 메모리에 기저장된 최소 파워값을 복수의 오디오 신호로부터 산출된 최소 파워값으로 업데이트 한다(S830). 
이후, 전자 장치(100)는 기산출된 최대 파워값과 최소 파워값으로부터 파워 비 및 방향 정보를 산출한다(S940).  복수의 오디오 신호로부터 파워 비 및 방향 정보를 산출하는 방법은 도 9에서 상세히 설명하였기에 상세한 설명은 생략하도록 한다.
한편, 전술한 단계 S920에서 비교 결과, 기저장된 이전 최소 파워값이 산출된 최소 파워값보다 작으면, 전자 장치(100)는 이전 최소 파워값을 파워 비 산출을 위한 값으로 결정한다(S840).  이후, 전자 장치(100)는 전술한 단계 S930을 통해 복수의 오디오 신호로부터 산출된 최대 파워값과 메모리에 기저장된 이전 최소 파워값으로부터 파워 비 및 방향 정보를 산출할 수 있다.
이 같이, 복수의 오디오 신호로부터 파워 비가 산출되면, 전자 장치(100)는 산출된 파워 비와 기설정된 임계값을 비교하여, 복수의 오디오 신호 중 기설정된 임계값 이상의 파워 비를 갖는 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 기설정된 임계값 이상의 파워 비를 갖는 적어도 하나의 오디오 신호에 대한 인덱스를 메모리에 저장한다(S950,S960).
한편, 전술한 단계 S910에서 복수의 오디오 신호가 기정의된 K 번째 오디오 신호이면, 전자 장치(100)는 K 번째 오디오 신호로부터 산출된 최소 파워값을 초기값으로 리셋하여 메모리에 저장한 후, 전술한 단계 S940 내지 S970의 동작을 수행한다(S980). 이 같이, 적어도 하나의 오디오 신호에 대한 음원의 방향 정보 및 적어도 하나의 오디오 신호에 대한 인덱스가 메모리에 저장되면, 전자 장치(100)는 도 8에서 설명한 바와 같이, 메모리에 기저장된 복수의 오디오 신호에 대한 음원의 방향 정보에 기초하여 전체 오디오 신호 내에 포함된 음성 구간의 시작과 종료 지점을 판단하고, 그 판단된 시작 및 종료 지점에 대응되는 오디오 신호의 인덱스 정보에 기초하여 전체 오디오 신호에 포함된 음성 구간을 검출할 수 있다. 
이후, 전자 장치(100)는 음성 구간에 포함된 복수의 오디오 신호를 증폭시키고, 노이즈 신호인 나머지 오디오 신호를 감쇄시키는 전처리 과정을 수행한 후, 오디오 신호가 증폭된 음성 구간에 대해서 STT(Speech to Text) 알고리즘과 같은 음성 인식 알고리즘을 이용하여 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다.한편, 본 발명에 따른 전자 장치(100)는 파워 오프가 되거나 음성 인식 모드가 비활성화되는 등의 이벤트가 발생하기 전까지 전술한 도 8 내지 도 10의 각 단계를 반복 수행하는 것이 바람직하다.
한편, 본 발명에 따른 전자 장치(100)에서 음성을 인식하는 방법은, 상술한 바와 같은 음성 인식을 수행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 비일시적 컴퓨터 판독 가능 매체에 저장될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다.  구체적으로, 상술한 프로그램들은 RAM(Random Access Memory), 플레시메모리, ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electronically Erasable and Programmable ROM), 레지스터, 하드디스크, 리무버블 디스크, 메모리 카드, USB 메모리, CD-ROM 등과 같이, 단말기에서 판독 가능한 다양한 유형의 기록 매체에 저장되어 있을 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : 입력부             111 : 마이크
113 : 조작부              115 : 터치 입력부
117 : 사용자 입력부            120 : 메모리
121 : 이벤트 검출 모듈  123 : 이벤트 정보 기록 모듈
125 : 음성 구간 검출 모듈     130 : 프로세서
131 : CPU                  132 : ROM
133 : RAM                  135 : CPU
137 : 버스                 140 : 통신부
141 : 근거리 통신 모듈  143 : 무선 통신 모듈      
145 : 커넥터              150 : 음성 처리부
160 : 촬영부              170 : 감지부
180 : 신호 처리부        190 : 출력부
191 : 디스플레이부       192 : 오디오 출력부

Claims (21)

  1. 전자 장치의 음성 인식 방법에 있어서,
    복수의 마이크를 통해 음원으로부터 발생된 사운드를 입력받는 단계;
    상기 복수의 마이크를 통해 입력된 사운드 각각을 신호 처리하여 생성된 복수의 오디오 신호의 파워값을 산출하고, 상기 산출된 파워값에 기초하여 상기 음원에 대한 방향 정보를 산출하여 저장하는 단계; 및
    상기 음원의 방향 정보에 기초하여 상기 오디오 신호 내에 포함된 음성 구간에 대한 음성 인식을 수행하는 단계;
    를 포함하는 음성 인식 방법.
  2. 제 1 항에 있어서,
    상기 음성 인식을 수행하는 단계는,
    상기 복수의 오디오 신호 중 시작과 종료 지점에 대응되는 오디오 신호에 기초하여 음성 구간을 검출하고, 상기 검출된 음성 구간에 대한 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 방법.
  3. 제 2 항에 있어서,
    상기 저장하는 단계는,
    상기 신호 처리된 복수의 오디오 신호로부터 최대 파워값 및 최소 파워값을 산출하는 단계;
    상기 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출하는 단계;상기 산출된 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호를 판단하는 단계; 및
    상기 판단된 적어도 하나의 오디오 신호에 대응되는 사운드로부터 상기 음원의 방향 정보를 산출하고, 상기 산출된 방향 정보 및 상기 적어도 하나의 오디오 신호에 대한 인덱스를 저장하는 단계;
    를 포함하는 것을 특징으로 음성 인식 방법.
  4. 제 3 항에 있어서,
    상기 저장하는 단계는,
    이전 오디오 신호로부터 산출된 최소 파워값이 기저장되어 있으면, 상기 복수의 오디오 신호로부터 산출된 최소 파워값과 기저장된 최소 파워값을 비교하여 크기가 작은 파워값을 상기 복수의 오디오 신호에 대한 최소 파워값으로 결정하는 단계;
    를 더 포함하는 음성 인식 방법.
  5. 제 4 항에 있어서,
    상기 저장하는 단계는,
    기정의된 K 번째 오디오 신호가 입력되면, 상기 K 번째 오디오 신호로부터 산출된 최소 파워값을 초기값으로 리셋하는 단계;
    를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  6. 제 3 항에 있어서,
    상기 산출하는 단계는,
    상기 복수의 마이크가 N 개이면, GCC-PHAT(Generalized Cross-Correlation Phase Transform) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 N*(N-1)/2 개의 파워값을 산출하고, 상기 N*(N-1)/2 개의 파워값 중 가장 큰 값을 최대 파워값으로 결정하며,
    MCRA(Minima-Controlled Recursive Average) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 최소 파워값을 산출하는 것을 특징으로 하는 음성 인식 방법.
  7. 제 6 항에 있어서,
    상기 방향 정보는,
    상기 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 소리 방향과 상기 복수의 마이크 간의 각도 정보이며,
    상기 산출하는 단계는,
    상기 결정된 최대 파워값에 대응하는 지연값으로부터 상기 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 방향 정보를 산출하는 것을 특징으로 하는 음성 인식 방법.
  8. 제 1 항에 있어서,
    상기 음성 인식을 수행하는 단계는,
    상기 복수의 방향 정보 중 적어도 두 개의 방향 정보가 기설정된 오차 범위에 속하거나 상기 두 개의 방향 정보의 오차 범위가 기설정된 임계값 미만이면, 상기 적어도 두 개의 방향 정보에 대응되는 오디오 신호에 포함된 음성 구간에 대한 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 방법.
  9. 제 3 항에 있어서,
    상기 수행하는 단계는,
    상기 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대한 인덱스에 기초하여 상기 오디오 신호로부터 음성 구간을 검출하는 단계;
    상기 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대응되는 사운드가 발생된 음원의 방향 정보에 기초하여 상기 검출된 음성 구간 내 오디오 신호에 대한 신호 처리를 수행하는 단계; 및
    상기 신호 처리된 오디오 신호로부터 음성 인식을 수행하여 텍스트로 변환하는 단계;
    를 포함하는 음성 인식 방법.
  10. 제 9 항에 있어서,
    상기 신호 처리를 수행하는 단계는,
    LCMA(Linearly Constrained Minimum Variance) 및 MVDR(Minimum Variance Distortionless Response) 중 적어도 하나를 포함하는 빔포밍(Beamforming) 방식, GSS(Geometric Source Separation) 방식 및 BSE(Blind Source Extraction) 방식 중 적어도 하나를 이용하여 상기 검출된 음성 구간 내 오디오 신호에 대한 신호 처리를 수행하는 것을 특징으로 하는 음성 인식 방법.
  11. 전자 장치에 있어서,
    복수의 마이크를 통해 음원으로부터 발생된 사운드를 입력받는 입력부;
    상기 음원에 대한 방향 정보를 저장하는 메모리; 및
    상기 복수의 마이크를 통해 입력된 사운드 각각을 신호 처리하며, 신호 처리된 복수의 오디오 신호의 파워값을 산출하고, 상기 산출된 파워값에 기초하여 상기 음원에 대한 방향 정보를 산출하여 상기 메모리에 저장하며,
    상기 음원의 방향 정보에 기초하여 상기 오디오 신호 내에 포함된 음성 구간에 대한 음성 인식을 수행하는 프로세서;
    를 포함하는 전자 장치.
  12. 제 11 항에 있어서,
    상기 프로세서는,
    상기 복수의 오디오 신호 중 시작과 종료 지점에 대응되는 오디오 신호에 기초하여 음성 구간을 검출하고, 상기 검출된 음성 구간에 대한 음성 인식을 수행하는 것을 특징으로 하는 전자 장치.
  13. 제 12 항에 있어서,
    상기 프로세서는,
    상기 신호 처리된 복수의 오디오 신호로부터 최대 파워값 및 최소 파워값을 산출하고, 상기 산출된 최대 파워값 및 최소 파워값으로부터 파워 비를 산출하며,
    상기 산출된 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대응되는 사운드로부터 상기 음원의 방향 정보를 산출하고, 상기 산출된 방향 정보 및 상기 적어도 하나의 오디오 신호에 대한 인덱스를 상기 메모리에 저장하는 것을 특징으로 하는 전자 장치.
  14. 제 13 항에 있어서,
    상기 프로세서는,
    이전 오디오 신호로부터 산출된 최소 파워값이 상기 메모리에 기저장되어 있으면, 상기 복수의 오디오 신호로부터 산출된 최소 파워값과 기저장된 최소 파워값을 비교하여 크기가 작은 파워값을 상기 복수의 오디오 신호에 대한 최소 파워값으로 결정하는 것을 특징으로 하는 전자 장치.
  15. 제 14 항에 있어서,
    상기 프로세서는,
    기정의된 K 번째 오디오 신호가 입력되면, 상기 K 번째 오디오 신호로부터 산출된 최소 파워값을 초기값으로 리셋하는 것을 특징으로 하는 전자 장치.
  16. 제 13 항에 있어서,
    상기 프로세서는,
    상기 복수의 마이크가 N 개이면, GCC-PHAT(Generalized Cross-Correlation Phase Transform) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 N*(N-1)/2 개의 파워값을 산출하고, 상기 N*(N-1)/2 개의 파워값 중 가장 큰 값을 최대 파워값으로 결정하며,
    MCRA(Minima-Controlled Recursive Average) 알고리즘을 이용하여 상기 복수의 오디오 신호로부터 최소 파워값을 산출하는 것을 특징으로 하는 전자 장치.
  17. 제 16 항에 있어서,
    상기 방향 정보는,
    상기 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 소리 방향과 상기 복수의 마이크 간의 각도 정보이며,
    상기 프로세서는,
    상기 결정된 최대 파워값에 대응하는 지연값으로부터 상기 복수의 오디오 신호 각각에 대응되는 사운드가 발생된 음원의 방향 정보를 산출하는 것을 특징으로 하는 전자 장치.
  18. 제 11 항에 있어서,
    상기 프로세서는,
    상기 복수의 방향 정보 중 적어도 두 개의 방향 정보가 기설정된 오차 범위에 속하거나 상기 두 개의 방향 정보의 오차 범위가 기설정된 임계값 미만이면, 상기 적어도 두 개의 방향 정보에 대응되는 오디오 신호에 포함된 음성 구간에 대한 음성 인식을 수행하는 것을 특징으로 하는 전자 장치.
  19. 제 13 항에 있어서,
    상기 프로세서는,
    상기 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대한 인덱스에 기초하여 상기 오디오 신호로부터 음성 구간을 검출하고, 상기 파워 비가 기설정된 임계값 이상인 적어도 하나의 오디오 신호에 대응되는 사운드가 발생된 음원에 대한 방향 정보에 기초하여 상기 검출된 음성 구간 내 오디오 신호에 대한 신호 처리를 수행하며, 상기 신호 처리된 오디오 신호로부터 음성 인식을 수행하여 텍스트로 변환하는 것을 특징으로 하는 전자 장치.
  20. 제 19 항에 있어서,
    상기 상기 프로세서는,
    LCMA(Linearly Constrained Minimum Variance) 및 MVDR(Minimum Variance Distortionless Response) 중 적어도 하나를 포함하는 빔포밍(Beamforming) 방식, GSS(Geometric Source Separation) 방식 및 BSE(Blind Source Extraction) 방식 중 적어도 하나를 이용하여 상기 검출된 음성 구간 내 오디오 신호에 대한 신호 처리를 수행하는 것을 특징으로 하는 전자 장치.
  21. 전자 장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
    복수의 마이크를 통해 음원으로부터 발생된 사운드를 입력받는 단계;
    상기 복수의 마이크를 통해 입력된 사운드 각각을 신호 처리하여 생성된 복수의 오디오 신호의 파워값을 산출하고, 상기 산출된 파워값에 기초하여 상기 음원에 대한 방향 정보를 산출하여 저장하는 단계: 및
    상기 음원의 방향 정보에 기초하여 상기 오디오 신호 내에 포함된 음성 구간에 대한 음성 인식을 수행하는 단계:
    를 포함하는 기록 매체에 저장된 컴퓨터 프로그램.

KR1020150153033A 2015-11-02 2015-11-02 음성 인식이 가능한 전자 장치 및 방법 KR102444061B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020150153033A KR102444061B1 (ko) 2015-11-02 2015-11-02 음성 인식이 가능한 전자 장치 및 방법
PCT/KR2016/012427 WO2017078361A1 (en) 2015-11-02 2016-11-01 Electronic device and method for recognizing speech
CN201680063709.3A CN108352159B (zh) 2015-11-02 2016-11-01 用于识别语音的电子设备和方法
US15/340,528 US10540995B2 (en) 2015-11-02 2016-11-01 Electronic device and method for recognizing speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150153033A KR102444061B1 (ko) 2015-11-02 2015-11-02 음성 인식이 가능한 전자 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170050908A true KR20170050908A (ko) 2017-05-11
KR102444061B1 KR102444061B1 (ko) 2022-09-16

Family

ID=58635659

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150153033A KR102444061B1 (ko) 2015-11-02 2015-11-02 음성 인식이 가능한 전자 장치 및 방법

Country Status (4)

Country Link
US (1) US10540995B2 (ko)
KR (1) KR102444061B1 (ko)
CN (1) CN108352159B (ko)
WO (1) WO2017078361A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190026521A (ko) * 2017-09-05 2019-03-13 엘지전자 주식회사 인공지능 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법
WO2019107945A1 (en) * 2017-11-30 2019-06-06 Samsung Electronics Co., Ltd. Method of providing service based on location of sound source and speech recognition device therefor
KR20190108711A (ko) * 2018-03-15 2019-09-25 한양대학교 산학협력단 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
US10645493B2 (en) 2018-08-21 2020-05-05 Samsung Electronics Co., Ltd. Sound direction detection sensor and electronic apparatus including the same

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842428B2 (en) * 2014-06-27 2017-12-12 Samsung Electronics Co., Ltd. Dynamically optimized deferred rendering pipeline
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN106782585B (zh) * 2017-01-26 2020-03-20 芋头科技(杭州)有限公司 一种基于麦克风阵列的拾音方法及***
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11150869B2 (en) * 2018-02-14 2021-10-19 International Business Machines Corporation Voice command filtering
US11238856B2 (en) 2018-05-01 2022-02-01 International Business Machines Corporation Ignoring trigger words in streamed media content
US11200890B2 (en) 2018-05-01 2021-12-14 International Business Machines Corporation Distinguishing voice commands
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
CN110505547B (zh) * 2018-05-17 2021-03-19 深圳瑞利声学技术股份有限公司 一种耳机佩戴状态检测方法及耳机
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CN108766457B (zh) * 2018-05-30 2020-09-18 北京小米移动软件有限公司 音频信号处理方法、装置、电子设备及存储介质
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
CN109256153B (zh) * 2018-08-29 2021-03-02 云知声智能科技股份有限公司 一种声源定位方法及***
JP2021536692A (ja) * 2018-09-13 2021-12-27 アリババ グループ ホウルディング リミテッド ヒューマンマシン音声対話装置及びその操作方法
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200074680A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 단말 장치 및 이의 제어 방법
KR20200076441A (ko) * 2018-12-19 2020-06-29 삼성전자주식회사 전자 장치 및 그의 제어 방법
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109903753B (zh) * 2018-12-28 2022-07-15 广州索答信息科技有限公司 基于声源角度的多人语句分类方法、设备、介质及***
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
CN112216303A (zh) * 2019-07-11 2021-01-12 北京声智科技有限公司 一种语音处理方法、装置及电子设备
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11355108B2 (en) 2019-08-20 2022-06-07 International Business Machines Corporation Distinguishing voice commands
CN110517677B (zh) * 2019-08-27 2022-02-08 腾讯科技(深圳)有限公司 语音处理***、方法、设备、语音识别***及存储介质
CN112578338B (zh) * 2019-09-27 2024-05-14 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111181949B (zh) * 2019-12-25 2023-12-12 视联动力信息技术股份有限公司 一种声音检测方法、装置、终端设备和存储介质
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
TWI736117B (zh) * 2020-01-22 2021-08-11 瑞昱半導體股份有限公司 聲音定位裝置與方法
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111312275B (zh) * 2020-02-13 2023-04-25 大连理工大学 一种基于子带分解的在线声源分离增强***
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112837703A (zh) * 2020-12-30 2021-05-25 深圳市联影高端医疗装备创新研究院 医疗成像设备中语音信号获取方法、装置、设备和介质
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN114268984A (zh) * 2021-11-15 2022-04-01 珠海格力电器股份有限公司 一种信号处理方法、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020048376A1 (en) * 2000-08-24 2002-04-25 Masakazu Ukita Signal processing apparatus and signal processing method

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
JP3337588B2 (ja) * 1995-03-31 2002-10-21 松下電器産業株式会社 音声応答装置
KR100198019B1 (ko) 1996-11-20 1999-06-15 정선종 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법
US5867574A (en) * 1997-05-19 1999-02-02 Lucent Technologies Inc. Voice activity detection system and method
US20020138254A1 (en) * 1997-07-18 2002-09-26 Takehiko Isaka Method and apparatus for processing speech signals
JP4005203B2 (ja) * 1998-02-03 2007-11-07 富士通テン株式会社 車載用音声認識装置
JP2002024145A (ja) * 2000-07-07 2002-01-25 Mitsubishi Electric Corp 電子メール通信端末装置
WO2002052546A1 (en) 2000-12-27 2002-07-04 Intel Corporation Voice barge-in in telephony speech recognition
WO2003036614A2 (en) * 2001-09-12 2003-05-01 Bitwave Private Limited System and apparatus for speech communication and speech recognition
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7016488B2 (en) * 2002-06-24 2006-03-21 Freescale Semiconductor, Inc. Method and apparatus for non-linear processing of an audio signal
JP3910898B2 (ja) 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
EP1691344B1 (en) * 2003-11-12 2009-06-24 HONDA MOTOR CO., Ltd. Speech recognition system
JP4659556B2 (ja) 2005-08-11 2011-03-30 富士通株式会社 音源方向検出装置
KR100751921B1 (ko) 2005-11-11 2007-08-24 고려대학교 산학협력단 멀티채널 음성신호의 잡음제거 방법 및 장치
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US20110142244A1 (en) * 2008-07-11 2011-06-16 Pioneer Corporation Delay amount determination device, sound image localization device, delay amount determination method and delay amount determination processing program
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
EP2339574B1 (en) * 2009-11-20 2013-03-13 Nxp B.V. Speech detector
WO2011094710A2 (en) * 2010-01-29 2011-08-04 Carol Espy-Wilson Systems and methods for speech extraction
JP5668553B2 (ja) 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
CN103403798B (zh) * 2011-04-08 2016-09-28 三菱电机株式会社 声音识别装置及导航装置
US9031259B2 (en) * 2011-09-15 2015-05-12 JVC Kenwood Corporation Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
US8942386B2 (en) * 2011-11-30 2015-01-27 Midas Technology, Inc. Real-time quality monitoring of speech and audio signals in noisy reverberant environments for teleconferencing systems
US9070374B2 (en) * 2012-02-20 2015-06-30 JVC Kenwood Corporation Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus
KR20130101943A (ko) 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
US9131295B2 (en) * 2012-08-07 2015-09-08 Microsoft Technology Licensing, Llc Multi-microphone audio source separation based on combined statistical angle distributions
FR3011377B1 (fr) * 2013-10-01 2015-11-06 Aldebaran Robotics Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede
US9241223B2 (en) * 2014-01-31 2016-01-19 Malaspina Labs (Barbados) Inc. Directional filtering of audible signals
JP6446913B2 (ja) * 2014-08-27 2019-01-09 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US9621984B1 (en) * 2015-10-14 2017-04-11 Amazon Technologies, Inc. Methods to process direction data of an audio input device using azimuth values

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020048376A1 (en) * 2000-08-24 2002-04-25 Masakazu Ukita Signal processing apparatus and signal processing method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190026521A (ko) * 2017-09-05 2019-03-13 엘지전자 주식회사 인공지능 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법
WO2019107945A1 (en) * 2017-11-30 2019-06-06 Samsung Electronics Co., Ltd. Method of providing service based on location of sound source and speech recognition device therefor
US10984790B2 (en) 2017-11-30 2021-04-20 Samsung Electronics Co., Ltd. Method of providing service based on location of sound source and speech recognition device therefor
KR20190108711A (ko) * 2018-03-15 2019-09-25 한양대학교 산학협력단 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
US10645493B2 (en) 2018-08-21 2020-05-05 Samsung Electronics Co., Ltd. Sound direction detection sensor and electronic apparatus including the same
US10873808B2 (en) 2018-08-21 2020-12-22 Samsung Electronics Co., Ltd. Sound direction detection sensor and electronic apparatus including the same

Also Published As

Publication number Publication date
KR102444061B1 (ko) 2022-09-16
CN108352159B (zh) 2023-05-30
CN108352159A (zh) 2018-07-31
US10540995B2 (en) 2020-01-21
US20170125037A1 (en) 2017-05-04
WO2017078361A1 (en) 2017-05-11

Similar Documents

Publication Publication Date Title
KR102444061B1 (ko) 음성 인식이 가능한 전자 장치 및 방법
KR102446392B1 (ko) 음성 인식이 가능한 전자 장치 및 방법
US11664027B2 (en) Method of providing voice command and electronic device supporting the same
US11900939B2 (en) Display apparatus and method for registration of user command
US10762897B2 (en) Method and display device for recognizing voice
US11094323B2 (en) Electronic device and method for processing audio signal by electronic device
KR102339657B1 (ko) 전자 장치 및 이의 제어 방법
US10831440B2 (en) Coordinating input on multiple local devices
US20150088515A1 (en) Primary speaker identification from audio and video data
US20150296317A1 (en) Electronic device and recording method thereof
US10257363B2 (en) Coordinating input on multiple local devices
KR20200129297A (ko) 전자 장치, 사용자 단말 및 이들의 제어 방법
KR102527278B1 (ko) 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
KR20160133305A (ko) 제스쳐 인식 방법, 컴퓨팅 장치 및 제어 장치
KR102623998B1 (ko) 음성인식을 위한 전자장치 및 그 제어 방법
KR102537781B1 (ko) 전자 장치 및 이의 제어 방법
EP4191283A1 (en) Electronic device and control method thereof
KR20190054462A (ko) 전자 장치, 그 제어 방법, 원격 제어 장치 및 그 제어 방법
KR102255369B1 (ko) 대체 서비스 제공 방법 및 그 전자 장치
KR102160736B1 (ko) 디스플레이 장치 및 디스플레이 장치의 표시 방법
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR20150087666A (ko) 휴대 단말의 입력 인터페이스 제공 방법 및 그 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant