KR102492727B1 - 전자장치 및 그 제어방법 - Google Patents

전자장치 및 그 제어방법 Download PDF

Info

Publication number
KR102492727B1
KR102492727B1 KR1020170165426A KR20170165426A KR102492727B1 KR 102492727 B1 KR102492727 B1 KR 102492727B1 KR 1020170165426 A KR1020170165426 A KR 1020170165426A KR 20170165426 A KR20170165426 A KR 20170165426A KR 102492727 B1 KR102492727 B1 KR 102492727B1
Authority
KR
South Korea
Prior art keywords
voice
signal
processor
sensitivity
electronic device
Prior art date
Application number
KR1020170165426A
Other languages
English (en)
Other versions
KR20190065861A (ko
Inventor
유종욱
신기훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170165426A priority Critical patent/KR102492727B1/ko
Priority to CN201880078290.8A priority patent/CN111433737B/zh
Priority to PCT/KR2018/014913 priority patent/WO2019112240A1/en
Priority to EP18209654.5A priority patent/EP3493206A3/en
Priority to US16/207,483 priority patent/US10978058B2/en
Publication of KR20190065861A publication Critical patent/KR20190065861A/ko
Application granted granted Critical
Publication of KR102492727B1 publication Critical patent/KR102492727B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3265Power saving in display device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/63Generation or supply of power specially adapted for television receivers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephone Function (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

본 발명은 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품에 관한 것으로, 전자장치는, 음성신호를 수신하는 음성수신부; 상기 수신된 음성신호에 대하여, 소정 민감도로 사용자의 음성명령에 대응하는 신호의 존재 여부를 판단하고, 상기 음성명령에 대응하는 신호가 존재하는 경우, 상기 음성명령을 판단하여 상기 음성명령에 따라 동작을 수행하고, 상기 음성명령에 대응하는 신호가 존재하지 않는 경우, 상기 음성명령에 대응하는 신호의 존재 여부 판단에 대한 민감도를 조절하도록 제어하는 프로세서를 포함한다. 이에 의하여, 전자장치는 자원을 최소한으로 사용하면서 정밀도를 높게 유지하는 할 수 있다.

Description

전자장치 및 그 제어방법 {ELECTRONIC APPARATUS AND THE CONTROL METHOD THEREOF}
본 발명은 전자장치 및 그 제어방법에 관한 것으로, 보다 구체적으로는, 사용자의 음성인식을 수행할 수 있는 디스플레이장치, 그 제어방법 및 그 컴퓨터프로그램제품에 관한 것이다.
최근 전자장치는 사용자의 음성을 수신하고, 잡음을 제거하여, 잡음이 제거된 음성에 해당하는 명령을 적절히 선택하여, 명령에 해당하는 동작을 수행할 수 있다. 음성을 수신하기 위해서는 전자장치가 동작을 하고 있어야 하나, 사용자가 사용하지 않는 전자장치가 동작하는 것은 자원의 낭비이다. 따라서 사용자가 사용하지 않는 전자장치는 동작모드 이외에 대기모드 상태에서 사용자의 음성을 수신할 준비를 한다.
대기모드에 있는 전자장치는 자원을 최소화하여 동작하고 있으므로, 잡음을 제거하는 프로세스가 실행되기 어렵다. 따라서, 대기모드 상태에 있는 전자장치는 수신된 음성이 사용자의 음성인지 주변의 잡음인지 구분할 수 없다. 이를 해결하기 위해, 대기모드에서 특정 이벤트가 검출되면 동작모드와 비슷하게 잡음을 제거하고, 음성을 검출하도록 진행한다.
종래 기술에 의하면, 특정 이벤트의 검출에서 주로 사용되는 방법은, 전자장치는 음량이 미리 정해진 역치값보다 큰 음성이 수신되었는지를 확인하여, 음량이 역치값 이상이면 잡음을 제거하여, 음성을 검출하도록 진행하고, 음량이 역치값 미만이면 이벤트가 검출되지 않은 것으로 판단하여 대기모드를 유지한다.
그러나 종래 기술에 의하면, 사용자가 전자장치를 사용하지 않는 시끄러운 상황에서 이벤트가 지속적으로 검출될 수 있어, 전자장치를 사용하는데에 불편함이 있을 수 있다. 그 결과, 사용자가 발화하지 않은 음성으로 전자장치가 오작동 할 수 있는 문제점이 존재한다.
또한, 음성명령이 포함되어 있지 않은 사용자의 음성으로 이벤트가 검출되는 경우에 전자장치가 계속적인 오작동 할 수 있는 문제점도 존재한다.
나아가, 이벤트 검출에 사용되는 알고리즘에서, 단순한 알고리즘만으로는 다양한 상황에 대해서 적응적으로 반응할 수 없다는 문제점도 존재한다.
따라서, 전자장치가 최소한의 자원을 이용하면서, 사용자의 음성명령에 민감하게 반응할 수 있도록 하는 방법이 필요하다.
따라서, 본 발명의 목적은, 음성인식에 있어서, 잡음으로 인한 음성이벤트 검출을 줄이기 위해, 이벤트 검출의 민감도를 조절하는 전자장치와 그 제어방법 및 컴퓨터프로그램제품을 제공하는 것이다.
또한, 본 발명의 다른 목적은, 이벤트 검출의 민감도를 조절하면서 효율적인 자원관리를 하는 전자장치 및 그 제어방법을 제공하는 것이다.
상기 목적은, 전자장치에 있어서, 음성신호를 수신하는 음성수신부; 상기 수신된 음성신호에 대하여, 소정 민감도로 사용자의 음성명령에 대응하는 신호의 존재 여부를 판단하고, 상기 음성명령에 대응하는 신호가 존재하는 경우, 상기 음성명령을 판단하여 상기 음성명령에 따라 동작을 수행하고, 상기 음성명령에 대응하는 신호가 존재하지 않는 경우, 상기 음성명령에 대응하는 신호의 존재 여부 판단에 대한 민감도를 조절하도록 제어하는 프로세서를 포함하는 전자장치에 의해 달성될 수 있다. 이에 따라, 전자장치는 상황에 따라 적절하게 민감도를 조절하여 최적의 음성처리를 할 수 있다.
상기 프로세서는 상기 수신된 음성신호에 대하여, 소정 민감도로 음성이벤트를 검출하여 상기 수신된 음성신호가 판단대상신호인지 여부를 결정하고, 상기 결정 여부에 따라 상기 음성이벤트 검출의 민감도를 조절하도록 제어할 수 있다. 이에 따라, 전자장치는 상황에 따라 최소한의 자원을 이용하면서 적절하게 민감도를 조절하여 최적의 음성처리를 할 수 있다.
상기 프로세서는 상기 판단대상신호에서 잡음을 제거할 수 있다. 이에 따라, 전자장치는 음성인식을 위한 정밀도를 높일 수 있다.
상기 프로세서는 상기 음성신호의 소정 특성값이 문턱치를 초과하는지 여부에 따라 상기 음성이벤트의 검출 여부를 판단하고, 상기 문턱치를 조절하여 상기 음성이벤트 검출의 민감도를 조절할 수 있다. 이에 따라, 전자장치는 상황에 맞게 민감도를 조절하여, 자원의 밸런스를 최적화 할 수 있다.
상기 프로세서는 상기 판단대상신호의 검출 빈도가 소정치 이하이면, 상기 음성이벤트 검출의 민감도를 감소시킬 수 있다. 이에 따라, 전자장치는 상황에 맞게 민감도를 조절하여, 자원의 밸런스를 최적화 할 수 있다.
상기 프로세서는 상기 음성이벤트 검출의 정확도가 서로 상이한 복수의 종류의 검출알고리즘 중 적어도 하나를 선택적으로 사용하여 상기 음성이벤트 검출의 민감도를 조절할 수 있다. 이에 따라, 전자장치는 상황에 따라 적절한 알고리즘을 사용하여, 자원의 밸런스를 최적화 할 수 있다.
상기 복수의 종류의 검출알고리즘은, 시간 영역 또는 주파수 영역의 검출알고리즘 중 적어도 하나일 수 있다. 이에 따라, 전자장치는 상황에 따라 적절한 알고리즘을 사용하여, 자원의 밸런스를 최적화 할 수 있다.
상기 프로세서는 상기 판단대상신호로부터 사용자의 음성명령이 인식되는지 여부에 기초하여 상기 사용자의 음성의 존재 여부를 판단할 수 있다. 이에 따라, 전자장치는 상황에 맞도록 최소한의 자원을 이용하면서, 사용자의 음성신호에 대하여 최적의 음성 처리를 수행할 수 있다.
상기 프로세서는 상기 음성명령이 인식되는 빈도가 소정치 이하이면, 상기 음성이벤트 검출의 민감도를 증가시킬 수 있다. 이에 따라, 전자장치는 상황에 맞도록 최소한의 자원을 이용하면서, 사용자의 음성신호에 대하여 최적의 음성 처리를 수행할 수 있다.
상기 프로세서는 상기 음성명령이 인식되는 빈도가 소정치 이상이면, 상기 음성이벤트 검출의 민감도를 감소시킬 수 있다. 이에 따라, 전자장치는 상황에 맞도록 최소한의 자원을 이용하면서, 사용자의 음성신호에 대하여 최적의 음성 처리를 수행할 수 있다.
상기 목적은, 본 발명에 따라, 전자장치를 제어하는 방법에 있어서, 음성수신부를 통하여 수신된 음성신호에 대하여, 소정 민감도로 사용자의 음성명령에 대응하는 신호의 존재 여부를 판단하는 단계; 상기 음성명령에 대응하는 신호가 존재하는 경우, 상기 음성명령을 판단하여 상기 음성명령에 따라 동작을 수행하는 단계; 상기 음성명령에 대응하는 신호가 존재하지 않는 경우, 상기 음성명령에 대응하는 신호의 존재 여부 판단에 대한 민감도를 조절하는 단계를 포함할 수 있다. 이에 따라, 전자장치는 상황에 따라 적절하게 민감도를 조절하여 최적의 음성처리를 할 수 있다.
상기 방법은, 상기 수신된 음성신호에 대하여, 소정 민감도로 음성이벤트를 검출하여 상기 수신된 음성신호가 판단대상신호인지 여부를 결정하는 단계; 상기 결정 여부에 따라 상기 음성이벤트 검출의 민감도를 조절하는 단계를 더 포함할 수 있다. 이에 따라, 전자장치는 상황에 따라 최소한의 자원을 이용하면서 적절하게 민감도를 조절하여 최적의 음성처리를 할 수 있다.
상기 방법은, 상기 판단대상신호에서 잡음을 제거하는 단계를 더 포함할 수 있다. 이에 따라, 전자장치는 음성인식을 위한 정밀도를 높일 수 있다.
상기 방법은, 상기 조절하는 단계는, 상기 음성신호의 소정 특성값이 문턱치를 초과하는지 여부에 따라 상기 음성이벤트 검출 여부를 판단하는 단계; 상기 문턱치를 조절하여 상기 음성이벤트 검출의 민감도를 조절하는 단계를 더 포함할 수 있다. 이에 따라, 전자장치는 상황에 맞게 민감도를 조절하여, 자원의 밸런스를 최적화 할 수 있다.
상기 방법은, 상기 판단대상신호의 검출 빈도가 소정치 이하이면, 상기 음성이벤트 검출의 민감도를 감소하는 단계를 더 포함할 수 있다. 이에 따라, 전자장치는 상황에 맞게 민감도를 조절하여, 자원의 밸런스를 최적화 할 수 있다.
상기 방법은, 상기 음성이벤트 검출의 정확도가 서로 상이한 복수의 종류의 검출알고리즘 중 적어도 하나를 선택적으로 사용하여 상기 음성이벤트 검출의 민감도를 조절하는 단계를 더 포함할 수 있다. 이에 따라, 전자장치는 상황에 따라 적절한 알고리즘을 사용하여, 자원의 밸런스를 최적화 할 수 있다.
상기 방법은, 상기 복수의 종류의 검출알고리즘은 시간 영역 또는 주파수 영역의 검출알고리즘 중 적어도 하나를 포함하는 단계를 더 포함할 수 있다. 이에 따라, 전자장치는 상황에 따라 적절한 알고리즘을 사용하여, 자원의 밸런스를 최적화 할 수 있다.
상기 방법은, 상기 판단대상신호로부터 사용자의 음성명령이 인식되는지 여부에 기초하여 상기 사용자의 음성의 존재 여부를 판단하는 단계를 더 포함할 수 있다. 이에 따라, 전자장치는 상황에 맞도록 최소한의 자원을 이용하면서, 사용자의 음성신호에 대하여 최적의 음성 처리를 수행할 수 있다.
상기 방법은, 상기 음성명령이 인식되는 빈도가 소정치 이하이면, 상기 음성이벤트 검출의 민감도를 증가하는 단계를 더 포함할 수 있다. 이에 따라, 전자장치는 상황에 맞도록 최소한의 자원을 이용하면서, 사용자의 음성신호에 대하여 최적의 음성 처리를 수행할 수 있다.
상기 목적은, 본 발명에 따라, 컴퓨터프로그램제품에 있어서, 인스트럭션을 저장하는 메모리와; 프로세서를 포함하며, 상기 인스트럭션은, 수신된 음성신호에 대하여, 소정 민감도로 사용자의 음성명령에 대응하는 신호의 존재여부를 판단하고, 상기 음성명령에 대응하는 신호가 존재하는 경우, 상기 음성명령을 판단하여 상기 음성명령에 따라 동작을 수행하고, 상기 음성명령에 대응하는 신호가 존재하지 않는 경우, 상기 음성명령에 대응하는 신호의 존재 여부 판단에 대한 민감도를 조절하도록 제어한다. 이에 따라, 전자장치는 상황에 따라 적절하게 민감도를 조절하여 최적의 음성처리를 할 수 있다.
상기한 바와 같이, 본 발명에 의하면, 음성인식에 있어서, 잡음으로 인한 이벤트 검출을 줄일 수 있다.
또한, 본 발명에 의하면, 음성명령이 포함되어 있지 않은 음성으로 인한 이벤트 검출을 줄일 수 있다.
나아가, 본 발명에 의하면, 전자장치의 자원을 효율적으로 사용할 수 있다.
도 1은 본 발명의 일 실시예에 의한 전자장치를 도시한다.
도 2는 본 발명의 일 실시예에 의한 전자장치의 블록도를 도시한다.
도 3은 본 발명의 일 실시예에 따른 전자장치의 동작의 흐름도를 도시한다.
도 4는 본 발명의 일 실시예에 따른 전자장치의 동작의 흐름도를 도시한다.
도 5는 본 발명의 일 실시예에 따른 전자장치의 동작의 흐름도를 도시한다.
도 6은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다.
도 7은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다.
도 8은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다.
도 9는 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다.
도 10은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다.
도 11은 본 발명의 일 실시예에 따른 전자장치의 동작을 도시한다.
도 12는 본 발명의 일 실시예에 따른 전자장치의 동작의 흐름도를 도시한다.
도 13은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다.
도 14는 본 발명의 일 실시예에 따른 전자장치의 동작을 도시한다.
이하에서는 첨부 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
본 발명의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 발명의 실시예에서, '구성되다', '포함하다', '가지다' 등의 용어는 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 본 발명의 실시예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
도 1은 본 발명의 일 실시예에 따른 전자장치를 도시한다. 본 발명의 일 실시예에 따른 전자장치(1)는, 예컨대, TV, 냉장고, 스마트폰, 스마트워치 등의 웨어러블 디바이스, 자동차 등 음성을 인식할 수 있는 장치로 구현될 수 있다. 본 발명의 일 실시예에 따른 전자장치(1)는 이에 한정되지 않고, 사용자의 음성을 인식할 수 있는 장치라면 무엇이든 가능하다.
본 발명의 일 실시예에 따른 전자장치(1)가 수신하는 음성은, 사용자가 낼 수 있는 모든 주파수 영역대의 음성(이하 '음성신호')을 의미한다. 도 1에 도시된 바와 같이 전자장치(1)는 사용자의 음성명령(101)을 포함하는 사용자의 음성과 사용자가 아닌 사람의 음성(102) 그리고 소음(103)을 포함한 모든 음성신호를 수신할 수 있다. 앞서 말한 바와 같이, 전자장치(1)는 사용자의 음성명령(101)이외의 음성을 수신하므로, 전자장치(1)는 수신하는 음성이 사용자의 음성명령(101)인지 정확히 판단할 수 없으므로, 오작동을 일으킬 수 있다. 예컨대, 사용자가 대화중의 음성(102)을 전자장치(1)는 음성명령(101)으로 판단하여, 동작을 실행할 수 있다. 전자장치(1)는 수신하는 음성신호를 음성명령(101)과 음성명령(101)이 아닌 음성신호를 구분하여 오작동을 방지할 수 있다. 이를 위해 전자장치(1)는 음성명령(101)과 음성명령(101)이 아닌 음성을 구분하여 동작할 수 있다. 이에 따라, 전자장치(1)는 음성명령(101)이 아닌 음성신호에 오작동을 하지 않을 수 있다. 전자장치(1)는 자원을 많이 사용하여 정밀도가 높은 음성인식을 할 수 있고, 정밀도가 낮은 음성인식을 이용하면 자원을 덜 사용할 수 있다. 따라서, 전자장치(1)가 자원을 최소한으로 사용하면서 정밀도를 높게 유지할 수 있다.
이하에서는, 최소한의 자원을 사용하면서 민감하게 사용자의 음성명령(101)에 반응할 수 있는 전자장치(1)에 대하여 설명하도록 한다.
도 2는 본 발명의 일 실시예에 의한 전자장치(1)의 블록도를 도시한다. 본 발명의 일 실시예에 따른 전자장치(1)는 프로세서(210) 및 음성 수신부(220)를 포함한다. 전자장치(1)는 프로세서(210) 및 음성수신부(220)이외에 센서부(230), 출력부(240), 통신부(250) 및 저장부(260)와 같은 다른 구성을 더 포함할 수 있다. 다만, 도 2에 도시된 본 발명의 일 실시예에 의한 전자장치(1)의 구성은 하나의 예시일 뿐이며, 본 발명의 일 실시예에 의한 전자장치(1)는 도 2에 도시된 구성 외에 다른 구성으로도 구현될 수 있다. 즉, 본 발명의 일 실시예에 의한 전자장치(1)는 도2에 도시된 구성 외 다른 구성이 추가되거나, 혹은 도 2에 도시된 구성 중 어느 하나가 배제되어 구현될 수도 있다.
음성수신부(220)는 음성신호를 수신한다. 음성수신부(220)는 수신되는 사용자의 음성명령에 해당하는 아날로그 신호를 디지털 신호로 변환하고, 변환된 디지털 신호를 프로세서(210)로 전달하여, 음성인식 모듈을 통해 음성을 인식한다. 음성수신부(220)는 사람의 육성과 같은 형태의 음파를 수신하기 위해 마이크(Mic)를 구비할 수 있다. 마이크는 사람이 낼 수 있는 모든 목소리를 포함하는 음성신호를 수신할 수 있다. 또는, 사람이 내는 목소리뿐만이 아니라, 사람이 듣고 인식할 수 있는 모든 음성신호를 수신할 수도 있다.
전자장치(1)는 모바일기기(미도시)와 같은 장치로부터 음성신호를 간접적으로 수신할 수 있다. 예를 들어, 전자장치(1)와 통신하는 리모트 컨트롤러(미도시) 혹은 스마트폰 등의 모바일기기(미도시)에 구비되어 있는 마이크(Mic)를 통해 음성신호를 수신하여 전자장치(1)로 전송할 수도 있다. 이 경우, 스마트폰 등의 모바일기기는, 예컨대 리모콘 앱(Application)을 설치하고, 리모컨 앱을 실행하여 전자장치(1)의 동작을 제어하기 위한 음성에 해당하는 음성신호를 전자장치(1)로 전송할 수 있다. 리모트 컨트롤러 혹은 모바일기기는 마이크를 통해 수신한 음성신호에 해당하는 아날로그 신호를 디지털 신호로 변환하고, 변환된 디지털 신호를 전자장치(1)로 전송할 수 있다. 프로세서(210)는 리모트 컨트롤러 혹은 모바일기기로부터 수신한 음성신호에 대응하는 음성인식 동작을 수행하도록 한다. 전자장치(1)가 간접적으로 음성신호를 수신하는 경우, 전자장치(1)와 모바일기기와의 통신방법과 전자장치(1)와 외부 서버(미도시)와의 통신방법은 동일할 수도 있고 다를 수도 있다. 예를 들어, 전자장치(1)가 와이파이를 이용하여 모바일기기 및 외부서버와 통신할 수 있으며, 음성수신부와는 블루투스, 외부서버와는 이더넷을 이용하여 통신할 수 있다. 전자장치(1)는 센서부(230)를 더 포함할 수 있다. 센서부(230)는 각종 센서를 이용하여 주변상황을 탐지하여 프로세서(210)로 전달한다. 센서부(230)의 센서는 전자장치(1) 외부상황을 탐지할 수 있는 적외선 센서 및 이미지 센서를 포함할 수 있으며, 시각적 자극 이외의 다른 신호를 탐지하여 프로세서(210)로 전달할 수 있다. 예를 들어, 센서부(230)는 사용자의 위치 또는 사용자의 움직임을 감지할 수 있는 이미지 센서, 진동을 감지할 수 있는 움직임 센서, 위치를 감지할 수 있는 위치센서, 밝기를 감지할 수 있는 조도센서, 색을 감지할 수 있는 컬러센서 등을 포함할 수 있다. 조도센서 또는 컬러센서로도 사용자의 움직임을 감지할 수 있다. 전자장치(1)의 센서부(230)의 센서는 이에 한정되는 것은 아니라 다른 센서를 더 포함할 수 있다. 또한 전자장치(1)는 외부 센서장치로부터 각종 자극에 대한 데이터를 수신하여 상황정보로 사용할 수 있다.
전자장치(1)는 출력부(240)를 더 포함할 수 있다. 출력부(240)는 프로세서(210)의 제어에 따라, 시각, 청각, 촉각 등 사용자가 느낄 수 있는 감각을 출력하여 사용자에게 정보를 알릴 수 있다. 예컨대, 출력부(240)는 디스플레이를 통하여 시각으로 알리거나, 스피커를 이용하여 청각으로 알리거나, 진동장치를 이용하여 촉각으로 사용자에게 알릴 수 있다.
전자장치(1)는 통신부(250)를 더 포함할 수 있다. 통신부(250)는 프로세서(210)의 제어에 따라, 외부장치와의 통신을 할 수 있다. 통신부(250)는 다양한 통신방식 중 어느 하나의 방식에 의해 구현될 수 있다.
예를 들어, 통신부(250)는 유선통신을 수행하기 위한 접속부를 포함하며, 접속부는 HDMI(High Definition Multimedia Interface), HDMI-CEC(Consumer Electronics Control), USB, 컴포넌트(Component) 등의 규격에 따른 신호/데이터를 송/수신할 수 있으며, 이들 각각의 규격에 대응하는 적어도 하나 이상의 커넥터 또는 단자를 포함한다. 통신부(250)는 유선 LAN(Local Area Network)을 통해 복수의 서버들과 유선 통신을 수행할 수 있다. 통신부(250)는 외부장치와 무선통신을 수행하기 위해 RF(Radio Frequency)신호를 송/수신하는 RF회로를 포함하거나, 블루투스(Bluetooth), 와이파이(Wi-Fi), 지그비(Zigbee), UWB(Ultra-Wide Band), Wirelress USB, NFC(Near Field Communication)를 포함하는 여러가지 통신방법 중 적어도 하나의 통신 방법을 이용하여 통신을 수행하도록 구성될 수 있다.
전자장치(1)는 음성수신부(220) 또는 통신부(250)를 통해 수신한 음성신호를 처리하여 음성신호에 해당하는 명령을 수행할 수도 있지만, 음성신호를 외부서버(미도시)로 전송할 수 있다. 외부서버는 수신한 음성신호를 처리하여 음성명령으로 변환할 수 있다. 외부서버는 음성을 텍스트로 변환하는 STT(Speech To Text)와 변환된 텍스트를 명령으로 변환할 수 있다. 또한, 외부서버는 STT와 명령으로 변환하는 기능을 할 수 있다. 또는, 외부서버는 STT역할을 하는 STT-서버와 변환된 텍스트를 명령으로 변환하는 역할을 하는 명령인식서버로 구성될 수 있다. 외부서버는 STT-서버 및 명령인식서버를 모두 포함하는 서버일 수 있다.
따라서, 전자장치(1)는 음성신호를 수신하여 자체적으로 처리한 후 동작을 수행할 수 있다. 또는 전자장치(1)는 명령인식서버에 음성신호를 전송하여 음성신호에 해당하는 명령을 수신할 수 있다.
다른 예로는, 전자장치(1)는 STT-서버에 음성신호를 전송하고 변환된 텍스트를 수신한 후에, 변환된 텍스트에 해당하는 명령을 수행할 수도 있다.
또 다른 예로는, 전자장치(1)는 음성신호를 텍스트로 변환하고, 변환된 텍스트를 명령인식서버에 전송하여 텍스트에 해당하는 명령을 수신하여 텍스트에 해당하는 음성명령을 수행할 수도 있다.
전자장치(1)는 STT-서버에 음성신호를 전송하고, STT-서버는 수신한 음성신호를 텍스트로 변환한 후, 변환된 텍스트를 명령인식서버로 전송하고, 명령인식서버는 수신한 텍스트에 해당하는 명령을 전자장치(1)로 전송할 수 있다. 또는 명령인식서버는 수신한 텍스트에 해당하는 명령을 STT-서버로 전송하고, STT-서버는 수신한 명령을 전자장치(1)에 전송할 수 있다. 전자장치(1)와 외부서버와의 관계는 이에 한정되지 않는다.
프로세서(210)는 음성명령의 변환된 텍스트에 대응하는 전자장치(1)의 기능에 관한 정보 및 외부서버에서 음성인식 결과에 대응하는 기능에 관한 정보를 저장부(260)에 저장하고, 이후 동일한 음성명령이 수신되었을 때 저장된 정보를 참조하여 해당 기능을 수행하도록 제어할 수 있다.
전자장치(1)는 저장부(260)를 더 포함할 수 있다. 저장부(260)는 프로세서(210)의 제어에 따라, 각종 정보를 저장할 수 있으며, 외부장치로부터 수신한 정보를 저장할 수 있다.
프로세서(210)는, 전자장치(1)의 제반 구성들이 동작하기 위한 제어를 수행한다. 프로세서(210)는 이러한 제어 동작을 수행할 수 있도록 하는 제어프로그램(혹은 인스트럭션)과, 제어프로그램이 설치되는 비휘발성의 메모리, 설치된 제어프로그램의 적어도 일부가 로드되는 휘발성의 메모리 및 로드된 제어프로그램을 실행하는 적어도 하나의 프로세서 혹은 CPU(Central Processing Unit)를 포함할 수 있다. 또한, 이와 같은 제어프로그램은, 전자장치(1) 이외의 다른 전자기기에도 저장될 수 있다. 프로세서(210)는 적어도 하나 이상의 구성으로 이루어질 수 있다. 따라서, 프로세서(210)는 2개 이상의 프로세서로 구성될 수 있다.
제어프로그램은 BIOS, 디바이스드라이버, 운영체계, 펌웨어, 플랫폼 및 응용프로그램(어플리케이션) 중 적어도 하나의 형태로 구현되는 프로그램(들)을 포함할 수 있다. 일 실시예로서, 응용프로그램은, 전자장치(1)의 제조시에 전자장치(1)에 미리 설치 또는 저장되거나, 혹은 추수 사용 시에 외부로부터 응용프로그램의 데이터를 수신하여 수신된 데이터에 기초하여 전자장치(1)에 설치될 수 있다. 응용프로그램의 데이터는, 예컨대, 어플리케이션 마켓과 같은 외부 서버로부터 전자장치(1)로 다운로드될 수도 있다. 이와 같은 외부서버는, 본 발명의 컴퓨터프로그램제품의 일례이나, 이에 한정되는 것은 아니다.
프로세서(210)는, 예컨대, 음성신호를 수신하도록 음성수신부(220)를 제어한다. 프로세서(210)는 수신한 음성신호를 처리할 수 있다. 또는 프로세서(210)는 신호처리부(미도시)가 수신한 음성신호를 처리하도록 제어할 수 있다. 도 2에 도시된 전자장치(1)는 신호처리부가 프로세서(210)와 일체의 구성으로 구현된 것으로 도시하나, 이는 하나의 예시일 뿐이며, 본 발명의 다른 실시예에 의한 전자장치(1)는 신호처리부가 프로세서(210)와 별개의 구성으로 구현될 수도 있다.
본 발명의 일 실시예에 따른 전자장치(1)에서 음성수신부(220)는 음성신호를 수신한다. 프로세서(210)는 수신한 음성신호에서 소정 민감도로 사용자의 음성명령(이하, '음성명령'이라고도 함)에 대응하는 신호를 검출한다. 민감도는 수신한 음성신호에 대하여 음성명령에 대응하는 신호가 존재하는지를 얼마나 정밀하게 판단하는지를 나타내는 척도이다. 예를 들면, 민감도가 높으면 프로세서(210)는 음성신호를 비교적 정밀하게 판단하며, 특성이 약한 음성신호까지 처리할 수 있다. 대신, 민감도가 높은 경우 음성 처리에 소요되는 자원이 증가된다. 이와 반대로 민감도가 낮으면 프로세서(210)는 음성신호를 비교적 덜 정밀하게 판단하며, 특성이 강한 음성신호를 처리할 수 있다. 대신, 민감도가 낮은 경우 음성 처리에 소요되는 자원이 저감된다.
프로세서(210)는 사용자의 의도에 따라서 또는 음성 인식 결과에 따라서, 민감도를 높이거나 낮추는 등의 민감도를 조절하여 상황에 맞는 최적의 음성처리를 수행할 수 있다.
도 3은 본 발명의 일 실시예에 따른 전자장치의 동작의 흐름도를 도시한다. 먼저 전자장치(1)는 음성수신부(220)를 통해 음성신호를 수신한다(동작 S301). 프로세서(210)는 수신한 음성신호에서 음성명령에 대응하는 신호가 존재하는지 확인한다(동작 S304). 프로세서(210)가 음성명령에 대응하는 신호가 검출되었는지 여부를 확인하는 방법은 여러가지가 있다. 프로세서(210)는 음성신호에서의 특성값을 이용하여, 특성값이 소정값 이상인지를 확인할 수 있다. 예를 들어, 특성값은 음성신호의 세기, 주파수, 샘플 음성과의 유사도 일 수 있다. 다만, 음성신호의 특성값은 이에 제한되는 것이 아니며, 다른 특성값을 더 포함할 수 있다.
프로세서(210)가 음성명령에 대응하는 신호가 있다고 판단(동작 S304의 Yes)하면, 해당 음성명령에 대응하는 동작을 수행하도록 한다(동작 S305). 프로세서(210)가 음성명령에 대응하는 신호가 없다고 판단(동작 S304의 No)하면, 민감도를 조절할 수 있다(동작 S320). 음성명령에 대응하는 신호가 없다는 것은, 예컨대, 수신한 음성신호에 잡음이 많아서 불필요한 신호가 처리되었다는 것을 의미할 수 있다. 따라서, 이 경우, 프로세서(210)는 잡음에 강인하도록 민감도를 높여서 음성명령에 대응하는 신호가 존재하는지 여부를 재차 판단할 수 있다. 프로세서(210)가 민감도를 조절하는 동작 S320은, 도 6를 참조하여 상세히 후술하도록 한다. 이와 같이, 본 발명에 일 실시예에 의한 전자장치(1)는, 상황에 따라 최소한의 자원을 이용하면서 적절하게 민감도를 조절하여 최적의 음성 처리를 할 수 있다. 본 실시예에는, 민감도를 높이는 예를 설명하였으나, 본 발명은, 이에 한정되지 않으며, 상황에 따라 민감도를 낮추는 것도 가능하다.
음성명령에 대응하는 신호가 존재(동작 S304)하는지 판단하는 동작에는 명령어를 인식하는 동작이 포함되어 있다. 명령어를 인식하는 동작 이전에 음성신호를 필터링하는 단계를 적절하게 사용하면, 전자장치(1)는 자원을 비교적 적게 소모하여 음성명령을 효율적으로 수행할 수 있다.
음성명령에 대응하는 신호가 있는지 판단하는 것(동작 S304)은 전자장치(1)가 아닌 다른 장치가 판단하도록 구성할 수도 있다. 예를 들어, 프로세서(210)는 음성수신부(220) 또는 통신부(250)를 통해 수신한 음성신호를 외부서버(미도시)로 전송할 수 있다. 또는 외부서버(미도시)가 음성신호를 수신하여, 음성신호에 대응하는 명령을 전자장치(1)에 전송할 수도 있다. 이와 같이, 음성을 수신하는 장치, 음성명령에 대응하는 신호가 존재하는지를 판단하는 장치, 음성명령에 대응하는 동작을 수행하는 장치는 하나의 장치일 수 있으며, 복수의 장치에서 상기 동작들을 분할하여 수행할 수도 있다. 이하에서 설명하는 전자장치(1)의 동작에 대하여, 전자장치(1)가 모든 동작을 수행할 수 있지만 일부 동작은 서버가 수행할 수도 있고, 전자장치(1)로부터 서버가 음성신호를 수신하여 모든 동작을 수행할 수도 있다.
도 4는 본 발명의 다른 실시예에 따른 전자장치의 동작의 흐름도를 도시한다. 도 4에 도시된 전자장치(1)에 있어서, 도 3을 참조하여 설명한 전자장치(1)와 동일 내지 유사한 구성에 대한 설명은 생략한다. 프로세서(210)가 음성신호를 수신(동작 S301)하는 과정과 검출된 음성명령에 따라 명령을 수행(동작 S305)하는 과정은 생략한다.
음성신호를 수신하면(동작 S301), 프로세서(210)는 수신한 음성신호를 이용하여 음성이벤트가 검출되었는지를 확인한다(동작 S402). 음성이벤트 검출은 수신하는 음성신호에 사용자의 음성에 해당하는 이벤트가 있는지 여부를 소정의 민감도로 확인하는 것이다. 프로세서(210)는, 도 3의 동작 S304와 유사하게, 음성신호에서의 특성값을 이용하여, 음성이벤트가 검출되었는지 여부를 확인할 수 있다. 음성이벤트의 구체적 검출 과정은, 도 6를 참조하여 상세히 후술한다. 음성이벤트 검출의 확인 결과 음성이벤트가 검출되지 않은 것으로 판단되면(동작 S402의 '비판단대상신호'), 프로세서(210)는 수신한 음성신호를 비판단대상신호로 분류하고 다음 음성신호를 수신하기 위해 대기한다. 음성이벤트가 검출된 것으로 판단되면(동작 S402의 '판단대상신호'), 프로세서(210)는 추가적으로 판단대상신호에서 잡음을 제거할 수 있다(동작 S403). 또는, 프로세서(210)는 잡음을 제거하는 동작 S403을 생략하고 동작 S404를 수행할 수도 있다. 잡음을 제거하는 동작 S403의 자세한 과정은 도 10에서 자세하게 후술하도록 한다.
프로세서(210)는 판단대상신호에서 음성이 검출되는지 여부를 확인한다(동작 S404). 음성이벤트 검출에서 판단대상신호라고 판단하여도, 해당 신호에는 소음만 존재하거나, 명령이 없는 음성부분만 존재할 수도 있다. 판단대상신호에서 음성이 검출되지 않은 것으로 판단되면(동작 S404의 'No'), 프로세서(210)는 음성이벤트 검출 여부(동작 S402)의 민감도를 조절(동작 S320)할 수 있다. 민감도를 조절하는 동작 S320의 자세한 내용은 도 6에서의 상세한 설명과 함께 후술하도록 한다. 판단대상신호에서 음성이 검출된 것으로 판단되면(동작 S404의 'Yes'), 프로세서(210)는 해당 명령에 대응하는 동작을 수행한다(동작 S305). 음성이 검출되었는지 확인(동작 S404)하기 전에 음성이벤트 검출여부(동작 S402)를 판단함으로써, 전자장치(1)는 음성인식에 대한 오작동을 줄일 수 있다.
도 5는 본 발명의 일 실시예에 따른 전자장치의 동작의 흐름도를 도시한다. 도 5에 도시된 전자장치(1)의 동작에 있어서, 도 3 및 도 4를 참조하여 설명한 전자장치(1)의 동작과 동일 내지 유사한 구성에 대한 설명은 생략한다. 음성신호 수신(동작 S301), 잡음제거(동작 S403), 음성검출(동작 S404) 및 명령 수행(동작 S305)에 관한 설명은 생략하며, 음성이벤트 검출 여부(동작 S502)에 관하여 자세히 설명하도록 한다. 음성이벤트 검출(동작 S502) 여부에서 수신된 음성신호가 판단대상신호로 판단되면, 프로세서(210)가 잡음제거(동작 S403) 또는 음성검출(동작 S404) 여부를 확인하는 동작은 동일하다. 수신된 음성신호가 비판단대상신호로 판단되면, 프로세서(210)는 민감도를 조절(동작 S320)할 수 있다. 여기서, 민감도는 음성이벤트 검출(동작 S502) 여부에서의 소정 민감도를 의미한다. 수신된 음성신호가 비판단대상신호로 분류되는 빈도가 높으면, 전자장치(1)가 수신하는 음성신호 대부분이 소음일 수 있다. 따라서, 프로세서(210)는 상황에 맞게 민감도를 조절하여, 자원의 밸런스를 최적화할 수 있다. 음성이벤트 검출(동작 S502)의 결과에 따라, 민감도를 조절하는 동작 S320의 자세한 과정은 도 7에서 자세하게 후술하도록 한다.
이하, 본 발명의 다른 실시예에 의한 전자장치(1) 를 설명한다. 본 발명의 일실시예에 의한 전자장치(1)는 일반모드 및 대기모드를 가진다. 일반모드는 전자장치(1)의 구성이 모두 정상적으로 동작하는 모드를 의미한다. 대기모드는 전자장치(1)의 구성 중 적어도 일부를 턴오프시키거나 혹은 슬립상태로 동작시켜, 전자장치(1)가 소비하는 전력을 감소시키는 모드를 의미한다. 예를 들어, 대기모드에 있는 전자장치(1)는 디스플레이 또는 스피커에 해당하는 출력부(240)를 동작시키지 않을 수 있다. 또는, 대기모드에 있는 전자장치(1)는 음성신호를 수신하기 위한 구성인 프로세서(210) 및 음성수신부(220)를 실행하고 나머지 구성을 동작시키지 않을 수도 있다. 나아가, 프로세서(210)가 복수인 경우, 대기모드 시 일부의 프로세서(210)만을 동작시키고, 나머지 프로세서(210)는 동작시키지 않을 수도 있다. 대기모드 시 턴오프 혹은 슬립상태가 되는 전자장치(1)의 구성은 이에 제한되지 않으며, 실시예에 따라 다양하게 정해질 수 있다.
전자장치(1)가 대기모드에서 동작 중에, 음성신호가 수신될 수 있다. 가령 전자장치(1)의 전원이 꺼져있는 상태, 즉, 소프트오프된 상태에서 음성신호가 수신되면, 음성명령인 경우 프로세서(210)는 전원을 켜서 일반모드로 동작하고, 음성명령에 해당하는 동작을 수행할 수 있다. 이에 따라, 전자장치(1)는 전력소모를 최소화 하면서 사용자가 원할 때, 일반모드로 전환하여 동작을 수행할 수 있다. 전자장치(1)는 전원이 꺼져있는 상태에서 사용자의 음성명령이 없는 음성신호를 수신할 수 있다. 본 발명의 일실시예에 의한 전자장치(1)는, 대기모드 시, 수신하는 음성신호 중 음성명령이 아닌 음성신호에 대한 처리를 효율적으로 수행함으로써, 음성명령이 아닌 음성신호에 대한 오작동을 최소화하고, 불필요한 전력 소모를 저감할 수 있다.
도 3에서의 흐름도를 다시 참조하여 보다 구체적으로 설명하도록 한다. 본 실시예의 프로세서(210)는 2개의 프로세서(제1프로세서 및 제2프로세서)를 포함한다. 대기모드 시, 제1프로세서 및 음성수신부(220)는 정상 동작하고, 제1프로세서 및 음성수신부(220)를 제외한 다른 구성(제2프로세서 포함)은 턴오프되거나, 슬립모드가 된다. 이와 같은, 대기모드 시 각 구성의 턴온/턴오프 제어 혹은 정상상태/슬립상태 제어는 제1프로세서가 수행하거나, 혹은 별도의 프로세서가 이를 수행할 수 있다. 음성수신부(220)가 음성신호를 수신(동작 S301)하면, 제1프로세서는 수신된 음성신호에 음성명령에 대응하는 신호가 있는지 확인(동작 S304)한다. 음성신호에 음성명령에 대응하는 신호가 없으면(동작 S304의 No) 제1프로세서는 민감도를 조절할 수 있다(동작 S320). 음성신호에 음성명령에 대응하는 신호가 있으면(동작 S304의 Yes), 제1프로세서는 제2프로세서가 턴온 혹은 정상상태가 되도록 제어하고, 제2프로세서는 음성신호에 대응하는 음성명령을 수행하도록 제어할 수 있다(동작 S305). 이와 같이 프로세서가 2개 이상이면, 대기모드인 전자장치(1)는 프로세서 1개는 전원이 꺼져 있어서 전력 소모를 최소화할 수 있다.
또는, 프로세서(210)는 3개 이상일 수도 있다. 도 4에서의 흐름도를 참조하여 예시를 설명하도록 한다. 프로세서(210)는 3개의 프로세서(제1프로세서, 제2프로세서 및 제3프로세서)를 포함한다. 대기모드 시, 제1프로세서(미도시) 및 음성수신부(220)는 정상 동작하고, 제1프로세서 및 음성수신부(220)를 제외한 다른 구성(제2프로세서 및 제3프로세서 포함)은 턴오프되거나, 슬립모드가 된다. 이와 같은 대기모드시 각 구성의 턴온/턴오프 제어 혹은 정상상태/슬립상태 제어는 제1프로세서가 수행하거나 혹은 별도의 프로세서가 수행할 수 있다. 음성수신부(220)가 음성신호를 수신(동작 S301)하면 제1프로세서는 수신된 음성신호로 음성이벤트가 검출되는지 여부를 판단(동작 S402)할 수 있다. 음성이벤트가 검출(동작 S402의 'Yes')되면, 제1프로세서는 제2프로세서(미도시)가 턴온 혹은 정상상태가 되도록 제어하고, 제2프로세서는 잡음을 제거하고 음성이 검출되는지 판단할 수 있다(동작 S404). 음성이 검출되면(동작 S404의 Yes), 제2프로세서는 제3프로세서(미도시)가 턴온 혹은 정상상태가 되도록 제어하고, 제3프로세서는 음성신호에 대응하는 명령을 수행할 수 있다(동작 S305).
전술한 프로세서(210)에 대한 설명과 이하에서의 프로세서(210)에 대한 설명은 단일 또는 복수의 프로세서의 동작을 포함할 수 있다.
이하, 프로세서(210)가 민감도를 조절(동작 S320)하는 과정을 설명하도록 한다. 도 6은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다. 본 발명의 일 실시예에 의한 프로세서(210)는, 예컨대, 음성신호의 특성값에 대한 역치값을 조절하거나, 혹은 알고리즘의 수준 또는 이용하는 알고리즘의 수를 조절함으로써 민감도를 조절할 수 있다.
역치값에 관한 예를 들면, 프로세서(210)는 소리세기가 특정값 이상인 음성신호를 판단대상신호로 분류할 수 있다. 이에 따라, 소리세기가 특정값 미만인 음성신호는 비판단대상신호로 분류될 수 있다. 이 경우, 역치값을 높여 민감도를 증감시키면, 판단대상신호가 적어지면서 비판단대상신호가 많아지며, 역치값을 낮추어 민감도를 감소시키면, 그 반대가 된다. 또는, 프로세서(210)는 민감도를 높이기 위하여, 수준이 높은 알고리즘을 사용하거나, 이용하는 알고리즘의 수를 증가시킬 수 있다. 이 경우, 판단대상신호가 적어지면서 비판단대상신호가 많아진다. 만일, 민감도를 낮추기 위하여, 낮은 수준 혹은 적은 수의 알고리즘을 사용하면, 그 반대가 된다. 역치값 및 알고리즘과 관련하여서는 도 11에서 상세히 후술하도록 한다.
이와 같이, 음성이벤트 검출여부 판단 시 민감도가 높으면 민감도가 낮을 때와 비교하여 프로세서(210)의 처리량 또는 연산량이 상대적으로 많을 수 있다. 따라서, 프로세서(210)는 민감도가 높으면 음성이벤트 검출에서 많은 자원을 소모할 수 있지만, 정밀도가 높을 수 있다. 또한, 음성이벤트 검출에서 민감도가 높아진다고 하여 수신하는 음성신호의 횟수에 대비하여 음성이벤트로 검출되는 횟수의 비율이 낮아지는 선형적인 비례관계는 아닐 수 있지만, 민감도와 상기 비율은 상관관계가 있다고 볼 수 있다. 이와 반대로, 음성이벤트 검출에서, 민감도가 낮으면, 민감도가 높은 경우와 반대의 결과가 나올 수 있다.
프로세서(210)는 민감도를 조절함으로써, 자원의 소모는 감수하더라도, 높은 정밀도로 동작하거나, 혹은 비교적 자원을 덜 소모하면서 정밀도를 다소 양보하여 동작할 수 있다. 따라서, 프로세서(210)가 음성이벤트 검출에서의 민감도를 적절히 조절하도록 제어하면, 전자장치(1)는 상황에 맞도록 최소한의 자원을 이용하면서, 사용자의 음성신호에 대하여 최적의 음성 처리를 수행할 수 있다.
만일, 음성이벤트 검출에서의 민감도가 낮으면, 프로세서(210)는 수신한 음성신호에 실제 사용자의 음성이 존재하지 않음에도 불구하고 판단대상신호로 분류할 수도 있다. 따라서, 프로세서(210)는, 이와 같은 오류 검출의 빈도가 높으면, 민감도를 증가하도록 제어하여 음성이벤트 검출 여부(동작 S402)에서 판단대상신호로 분류되는 빈도를 낮출 수 있다. 그 결과, 음성이벤트 검출 여부(동작 S402)에서 처리하는 연산량이 많아져서 소모되는 자원이 많더라도, 후속동작(동작 S403 등)을 수행하는 빈도가 줄어들어 전체적으로 자원의 밸런스를 최적화할 수 있다.
한편, 음성이벤트 검출에서의 민감도가 높더라도, 상황에 따라 전자장치(1)가 오작동을 할 수가 있다. 즉, 프로세서(210)는 사용자의 음성이 포함되어 있는 음성신호를 비판단대상신호로 분류할 수도 있다. 따라서, 음성이벤트 검출 여부(동작 S302)에서 비판단대상신호로 분류되는 빈도가 소정치 이상인 경우, 프로세서(210)는 민감도를 저감(동작 S320)하도록 제어하여 비판단대상신호로 분류되는 빈도를 줄일 수 있다. 프로세서(210)는 음성이벤트 검출 여부(동작 S302)에서 특성값의 역치값을 낮추거나, 수준이 낮은 알고리즘을 이용하거나, 사용하는 알고리즘의 수를 줄이는 등의 방법을 이용하여 민감도를 낮추도록 제어할 수 있다. 이에 따라, 프로세서(210)는 음성이벤트 검출 여부에서 비판단대상신호로 분류하도록 제어하는 빈도가 낮아질 수 있다. 또한, 민감도를 낮춤으로써, 음성이벤트 검출 여부에서 사용되는 자원의 양이 줄어 들 수 있다. 하지만, 민감도를 낮추는 경우에는, 판단대상신호로 분류되는 신호가 많아짐으로 인하여, 프로세서(210)가 후속동작들(동작 S303 내지 동작 S305)을 수행하도록 제어하므로, 전자장치(1)가 소모하는 자원의 양은 많아질 수 있다. 따라서, 프로세서(210)는, 음성이벤트 검출과, 후속 동작에 소요되는 자원의 밸런스를 고려하여, 민감도를 적절한 수준으로 조절할 수도 있다.
이하에서는 도 3의 민감도 조절(동작 S320)과 관련하여 설명한다. 부호 630은 프로세서(210)가 상황에 따라 동작하는 예시를 표로 나타낸 것이다. 음성명령에 대응하는 신호를 발견하지 못하는(동작 S304의 'No') 빈도가 소정치 이상인 경우, 프로세서(210)는 민감도를 높이도록 조절(동작 S320)할 수 있다. 앞서 말한 상황은 음성신호를 수신하였으나, 음성을 검출하지 못한 경우로, 현재 전자장치(1)가 수신하는 음성신호가 소음(103)이 많은 상황일 수 있다. 소음(103)이 많은 상황에서 프로세서(210)는 음성명령에 대응하는 신호 검출(동작 S304) 또는 음성검출(동작 S404)를 수행하면 대부분 'No'의 결과가 나올 것이 예상된다. 따라서, 상기 동작(동작 S304 또는 동작 S404)의 결과값인 'No' 의 빈도가 높다면, 민감도를 높이도록 조절(동작 S621)할 수 있다. 이에 따라, 프로세서(210)는 수신하는 음성신호에 대하여 더 민감하게 반응하여, 음성신호인지 아닌지를 판단하는 정밀도가 오를 수 있다. 이와 반대로, 음성명령에 대응하는 신호를 발견하는(동작 S304의 'Yes') 또는 음성 검출(동작 S404의 'Yes')의 빈도가 소정치 이상인 경우, 프로세서(210)는 민감도를 낮추도록 조절(동작 S622)할 수 있다. 음성명령에 대응하는 신호를 발견하는 빈도가 높은 것은 수신하는 음성신호 대부분이 음성명령에 해당하는 상황일 수 있다. 따라서, 프로세서(210)는 음성명령에 대응하는 신호가 검출(동작 S304) 또는 음성검출(동작 S404)의 결과에 따라 민감도를 조절(동작 S320)하여, 전자장치(1)는 상황에 맞게, 유저의 의도에 맞게 효율적으로 동작할 수 있다.
이하, 프로세서(210)가 민감도를 조절(동작 S320)하는 과정을 설명하도록 한다. 도 7은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다. 도 7에 도시된 과정에 있어서, 도 6를 참조하여 설명한 동일 내지 유사한 과정에 대한 설명은 생략한다. 동작 S403, 동작 S404 및 동작 S305에 대한 설명은 생략한다. 부호 730은 프로세서(210)가 상황에 따라 동작하는 예시를 표로 나타낸 것이다.
음성이벤트 검출(동작 S502)에서 판단대상신호로 분류되는 빈도가 소정치 이상인 경우, 프로세서(210)는 민감도를 높이도록 조절(동작 S320)할 수 있다. 앞서 언급한 상황은 음성이 없는 음성신호를 과다하게 판단대상신호로 분류한 상황일 수 있다. 음성이 없는 음성신호를 과다하게 판단대상신호로 분류하면, 음성이 없는 음성신호를 판단하여 전자장치(1)의 자원을 낭비할 가능성이 존재한다. 따라서, 음성이벤트 검출(동작 S502)에서 판단대상신호로 분류되는 빈도가 소정치 이상인 경우, 프로세서(210)는 민감도를 높이도록 조절할 수 있다. 이에 따라, 프로세서(210)는 수신하는 음성에 대하여 더 민감하게 반응하여, 음성이 없는 음성신호를 판단대상신호로 분류하는 빈도를 줄일 수 있다. 이와 반대로, 음성이벤트 검출(동작 S502)에서 판단대상신호로 분류되는 빈도가 소정치 이하인 경우, 프로세서(210)는 민감도를 낮추도록 조절(동작 S721)할 수 있다. 앞선 언급한 상황은 수신한 음성이 있는 음성신호를 과다하게 비판단대상신호로 분류한 상황일 수 있다. 음성이 있는 음성신호를 과다하게 비판단대상신호로 분류하면, 전자장치(1)를 음성인식 시키기 위해서는 사용자가 수 회 이상 말하는 등 이용에 불편할 수 있다. 따라서, 음성이벤트 검출(동작 S502)에서 판단대상신호로 분류되는 빈도가 소정치 이하인 경우, 프로세서(210)는 민감도를 낮추도록 조절(동작 S721)할 수 있다. 이에 따라, 프로세서(210)는 수신하는 음성에 대하여 더 둔감하게 반응하여, 음성이 있는 음성신호를 판단대상신호로 분류하는 빈도를 높일 수 있다. 판단대상신호로 분류되는 빈도가 소정치 이상인지, 이하인지 따라, 프로세서(210)는 음성이벤트(동작 S502) 검출 여부에서의 민감도를 증가하고 낮출 수(동작 S320) 있지만, 본 발명은 이에 한정된 것이 아니다. 이에 따라, 프로세서(210)는 상황에 맞게 민감도를 조절하여, 자원의 밸런스를 최적화할 수 있다.
도 8은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다. 도 8의 그래프는 전자장치(1)가 수신한 음성신호(801) 및 수신한 음성신호에서 검출된 음성신호(802)를 의미한다. 점선(811 내지 816)은 그래프에서의 각 시점을 나타내며, 1구간은 시점 부호 811과 부호 812 사이의 구간을 의미한다. 2구간 내지 5구간도 1구간과 마찬가지로 정의된다. T1과 T2는 역치값을 의미하며, T2의 역치값은 T1보다 높다. 1구간에서 처음 설정된 역치값은 T1으로 설정되어 있다. 1구간의 수신된 음성신호(821)의 세기는 T1보다는 높지만 T2보다는 낮다. 2구간의 수신된 음성신호(822)는 1구간의 수신된 음성신호와 동일한 음성신호이다. 4구간의 음성신호(823)의 세기는 T2보다 높다. 5구간의 음성신호(824)의 세기는 T2보다는 낮고 T1보다는 높다. 해당 도면에서는 설명의 편의를 위해 음성 세기의 역치값을 이용한 민감도 조절을 하지만, 본 발명에서 음성 세기의 역치값만이 민감도 조절의 대상이 되는 것이 아니며, 다른 알고리즘을 이용할 수도 있다.
1구간에서는 수신한 음성신호(801)는 존재하나 소리가 작은 잡음이다. 1구간의 음성신호(801)는 초기 역치값 T1보다 높으므로, 판단대상신호로 분류된다. 소리가 작은 잡음이 음성이벤트(동작 S402)에서 검출되어 판단대상신호로 분류되면, 프로세서(210)는 음성 검출(동작 S404)이 되는지 판단한다. 음성신호가 작은 잡음이므로, 프로세서(210)는 음성으로 판단하지 않는다. 1구간 같은 결과의 빈도가 소정치 이상이면, 프로세서(210)는 수신하는 음성신호가 대부분 잡음으로 판단하고, 민감도를 증가시킬 수 있다. 예를 들어 프로세서(210)는 역치값을 T1에서 T2로 올리면서 민감도를 증가시킬 수 있다. 역치값이 T2인 민감도가 증가된 상태에서 2구간에서 큰 잡음(822)으로 이루어진 음성신호를 수신하여도, 프로세서(210)는 2구간의 음성신호를 판단대상신호로 분류하지 않는다. 이와 같이, 판단대상신호에서 음성검출이 되지 않는 빈도가 소정치 이상이면, 프로세서(210)는 민감도를 증가시켜서 판단대상신호로 분류되는 빈도를 줄여서, 전자장치(1)의 자원을 효율적으로 사용할 수 있다. 3구간은 음성신호의 입력이 없다. 3구간과 같은 결과가 지속되면, 프로세서(210)는 상황에 맞게 민감도를 조절할 수도 있다. 이어서, 4구간에서 전자장치(1)는 음성으로 이루어진 세기가 큰 음성신호(824)를 수신한다. 해당 음성신호(824)는 역치값 T2보다 큰 음성이므로, 프로세서(210)는 판단대상신호로 분류하고, 음성으로 검출을 한다. 4구간 같은 결과의 빈도가 소정치 이상이면, 프로세서(210)는 수신하는 음성신호가 대부분 음성으로 판단하고, 민감도를 감소시킬 수 있다. 예를 들어, 프로세서(210)는 역치값을 T2에서 T1으로 줄여 민감도를 감소시킬 수 있다. 민감도가 감소된 상태에서 5구간에서 전자장치(1)는 음성으로 이루어진 세기가 작은 음성신호(824)를 수신한다. 5구간의 음성신호는 2구간에서 수신되는 음성신호보다 세기가 작으므로 민감도가 감소되지 않았다면, 프로세서(210)는 5구간의 음성신호를 비판단대상신호로 분류할 것이다. 4구간과 같은 결과의 빈도가 소정치 이상이어서 민감도가 감소했으므로, 프로세서(210)는 작은 세기의 소리도 판단대상신호로 분류할 수 있다. 이와 같이, 프로세서(210)는 음성검출(동작 S404)의 여부에 따라 민감도를 조절(동작 S320)하여 상황과 사용자의 의도에 맞게 음성을 검출할 수 있다.
도 9는 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다. 도 9의 그래프에서, 도 8 및 도 9을 참조하여 설명한 전자장치(1)와 동일 내지 유사한 구성에 대한 설명은 생략한다. 1 내지 4구간, 점선(911 내지 915) 및 수신한 음성신호(901)에 대한 설명은 생략한다. 프로세서(210)는 수신한 음성신호에 대하여 음성이벤트(동작 S502) 검출 여부를 확인한다. 수신한 음성신호 (901)에서 음성이벤트(동작 S502)에서 판단대상신호로 검출된 것은 부호 902로 나타낸다. 1구간 및 2구간은 큰 잡음이 수신되며, 3구간은 수신되는 음성신호가 없고, 4구간에서는 작은 음성이 수신된다. T1, T2 및 T3는 역치값을 의미하며, T3, T2, T1 순서대로 높은 역치값을 가진다. 1구간의 처음 설정된 역치값은 T2로 설정되어 있다.
1구간의 수신된 음성신호(921)의 세기는 T2보다는 높고 T3보다는 낮다. 2구간의 수신된 음성신호(922)의 세기는 1구간의 수신된 음성신호(921)의 세기와 동일하다. 4구간의 수신된 음성신호(924)의 세기는 T1보다는 높고 T2보다는 낮다.
프로세서(210)는 1구간에서 잡음에 해당하는 음성신호(921)는 초기 역치값 T2보다 높으므로 판단대상신호로 분류한다. 1구간 같은 음성신호(921)가 판단대상신호로 분류되는 빈도가 높으면 후속동작을 수행하는 것이 자원의 낭비이다. 따라서, 그 빈도를 줄이기 위해 프로세서(210)는 음성이벤트(동작 S502) 검출에서의 민감도를 역치값을 T2에서 T3로 변경하여 증가시킬 수 있다. 2구간에서는 잡음에 해당하는 음성신호(922)를 수신한다. 프로세서(210)는 2구간에서 수신한 음성신호의 음성이벤트(동작 S502) 검출 여부를 확인한다. 1구간에서의 결과로 민감도가 증가되지 않았다면, 프로세서(210)는 2구간에서 수신한 잡음에 해당하는 음성신호를 판단대상신호로 분류할 수도 있다. 다만, 2구간에서는 민감도가 역치값을 T2에서 T3로 변경하여 증가한 상태이므로, 프로세서(210)는 잡음에 해당하는 음성신호(922)를 비판단대상신호로 분류할 수 있다. 이에 따라, 전자장치(1)는 상황 또는 사용자의 의도에 맞게 음성명령을 인식할 수 있다. 이와 반대로, 수신된 음성신호가 비판단대상신호로 분류되는 빈도가 소정치 이상인 경우, 정상적인 사용자의 음성명령이 인식되지 않을 수 있다. 따라서, 수신된 음성신호가 비판단대상신호로 분류되는 빈도가 소정치 이상인 경우, 프로세서(210)는 민감도를 낮추도록 조절(동작 S721)할 수 있다. 이에 따라, 프로세서(210)는 수신하는 음성에 대하여 둔감하게 반응하며, 음성신호를 비판단대상신호로 분류하는 빈도를 낮출 수 있다. 3구간은 음성신호의 입력이 없다. 3구간과 같은 결과가 지속되면, 프로세서(210)는 상황에 맞게 민감도를 조절할 수도 있다. 따라서, 프로세서(210)는 2구간의 결과로 감소된 민감도보다 민감도를 더 감소(동작 S721)시킬 수 있다. 따라서, 프로세서(210)는 역치값은 T2에서 T1으로 변경하여 민감도를 감소시킨다. 이어서, 프로세서(210)는 4구간에서 감소된 민감도로 음성신호를 수신한다. 민감도가 감소된 상태이므로 프로세서(210)는 작은 음성신호까지도 판단대상신호로 분류할 수 있다. 따라서, 4구간의 음성신호(924)는 판단대상신호로 분류된다. 이와 같이, 프로세서(210)는 음성이벤트(동작 S502)의 검출 여부에 따라 민감도를 조절(동작 S320)하여 상황과 사용자의 의도에 맞게 음성을 검출할 수 있다.
도 10은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다. 도 10의 그래프에서, 도 8을 참조하여 설명한 전자장치(1)와 동일 내지 유사한 구성에 대한 설명은 생략한다. 1 내지 5구간, 점선(1011 내지 1016) 및 수신한 음성신호(1001)에 대한 설명은 생략한다. 프로세서(210)는 수신한 음성신호에서 잡음제거(동작 S403)를 추가적으로 수행할 수 있다. 부호 1002는 수신한 음성신호에서 잡음이 제거된 음성신호이다. 1, 3 및 5구간은 잡음만 있는 구간이며, 2 구간은 잡음이 없는 구간이며, 4구간은 음성과 잡음이 모두 포함되어 있는 구간이다. 잡음제거 동작은 음성검출의 효율을 높이기 위해 사용될 수 있다. 잡음제거(동작 S403) 동작이 수행된 후에 음성이벤트(동작 S402) 검출 여부를 확인할 수도 있고, 음성이벤트(동작 S402) 검출 여부를 확인한 후에 잡음제거(동작 S403) 동작이 수행될 수도 있다. 이에 따라, 전자장치(1)는 음성인식을 위한 정밀도를 높일 수 있다.
도 11은 본 발명의 일 실시예에 따른 전자장치의 동작을 도시한다. 도 4에서의 설명에 이어서 도 11에서는 프로세서(210)가 음성명령에 대응하는 신호가 존재하는지 여부를 판단(동작 S304)할 때 또는 음성이벤트가 검출되는지 여부를 판단(동작 S402, 동작 S802)할 때 사용되는 역치값 및 알고리즘에 관하여 설명한다. 프로세서(210)는 민감도를 음성신호의 특성값의 역치값 또는 사용되는 알고리즘을 변경하여 조절할 수 있다. 음성신호의 특성값에는 음성신호의 세기, 음성신호가 수신된 시간, 음성신호가 수신되는 시간의 길이 등일 수 있으며, 이에 한정되는 것이 아니다. 음성신호의 세기를 예로 들면, 프로세서(210)는 음성신호의 세기의 역치값을 5로 설정할 수 있다. 수신되는 음성신호의 세기가 3이라면, 프로세서(210)는 해당 음성신호를 비판단대상신호로 분류할 수 있다. 프로세서(210)가 민감도를 낮추어 역치값을 2로 설정한다면, 수신되는 음성신호의 세기가 3이라면, 해당 음성신호는 판단대상신호로 분류될 수 있다. 음성의 세기는 하나의 예시일 뿐이며, 프로세서(210)는 다른 특성값을 이용하여 민감도를 조절(동작 S320)할 수 있다. 프로세서(210)는 알고리즘을 이용하여 민감도를 조절(동작 S320)할 수도 있다. 음성이벤트 검출에서 사용될 수 있는 알고리즘은 여러가지가 존재한다. 대표적으로, 도 11에서는 시간 도메인과 주파수 도메인에 관련된 알고리즘을 도시한다. 다만, 본 발명에서 사용되는 알고리즘은 시간 도메인과 주파수 도메인에 관련된 알고리즘만 사용하는 것에 제한되지 않는다. 일반적으로, 시간 도메인 알고리즘은 비교적 자원의 소모가 적고, 간단하지만, 음성인식의 정밀도가 낮을 수 있다. 이와 반대로, 주파수 도메인 알고리즘은 비교적 자원의 소모가 크고, 복잡하지만, 음성인식의 정밀도가 높을 수 있다. 따라서, 프로세서(210)는 상황과 사용자의 의도에 알맞은 알고리즘을 사용하면 음성인식의 효율을 높일 수 있다. 가령, 민감도를 낮추려면 프로세서(210)는 시간 도메인 알고리즘만을 사용할 수 있다. 이에 따라서, 프로세서(210)는 비교적 간단한 특성값을 확인하고 음성이벤트(동작 S402 또는 동작 S802)를 판단할 수 있다. 반대로, 민감도를 높이려면 프로세서(210)는 시간 도메인 알고리즘을 부가하거나, 주파수 도메인 알고리즘으로 변경하거나 부가할 수 있다. 그 결과, 프로세서(210)는 비교적 복잡한 연산을 이용하여 음성이벤트(동작 S402 또는 동작 S802)를 비교적 정밀도 높게 판단할 수 있다. 시간 도메인 알고리즘에 사용되는 것은 에너지, 제로 크로싱 비율(Zero Crossing Rate) 등을 사용할 수 있다. 주파수 도메인 알고리즘에 사용되는 것은 신호대잡음비(Signal to Noise Ratio), MFCC(Mel-Frequency Cepstral Coefficients), Centroid 등을 이용할 수 있다. 사용되는 알고리즘은 이에 한정되는 것이 아니며, 다른 알고리즘이 사용될 수 있다. 이에 따라, 전자장치(1)는 상황에 따라 적절한 알고리즘을 사용하여, 자원의 밸런스를 최적화 할 수 있다.
도 12는 본 발명의 일 실시예에 따른 전자장치의 동작의 흐름도를 도시한다. 도 12에 도시된 전자장치(1)의 동작에 있어서, 도 3, 도 4 및 도 8을 참조하여 설명한 전자장치(1)의 동작과 동일 내지 유사한 구성에 대한 설명은 생략한다. 음성신호 수신(동작 S301), 명령 수행 (동작 S305), 잡음제거(동작 S403) 및 음성이벤트 검출(동작 S802)에 관한 설명은 생략하며, 음성성분 검출(동작 S1204) 및 음성명령 검출(동작 S1205)에 관하여 자세히 설명하도록 한다. 음성성분 검출(동작 S1204)과 음성명령 검출(동작 S1205)은 음성 검출(동작 S404)의 세부 동작일 수 있다. 음성이벤트 검출(동작 S802) 여부에서 수신된 음성신호가 판단대상신호로 판단되면, 프로세서(210)는 판단대상신호에서 음성성분을 검출(동작 S1204) 여부를 판단한다. 판단대상신호에서 음성성분을 검출하지 못하면(동작 S1204의 'No'), 프로세서(210)는 음성이벤트 검출(동작 S802)에서의 민감도를 조절할 수 있다. 판단대상신호에서 음성성분을 검출하면(동작 S1204의 'Yes'), 프로세서(210)는 음성명령을 검출(동작 S1205) 여부를 판단한다. 판단대상신호에서 음성명령이 검출되지 않으면(동작 S1205의 'No'), 프로세서(210)는 음성이벤트 검출(동작 S802)에서의 민감도를 조절할 수 있다. 판단대상신호에서 음성명령이 검출되면(동작 S1205의 'Yes'), 프로세서(210)는 음성명령에 해당하는 명령을 수행한다(동작 S305). 상기 동작 중에서 프로세서(210)가 민감도를 조절(동작 S320)하는 부분은 도 13에서 자세하게 후술하도록 한다.
이하, 프로세서(210)가 민감도를 조절(동작 S320)하는 과정을 설명하도록 한다. 도 13은 본 발명의 일 실시예에 따른 전자장치의 민감도 조절 과정을 도시한다. 도 13에 도시된 과정에 있어서, 도 5 및 도 9를 참조하여 설명한 동일 내지 유사한 과정에 대한 설명은 생략한다. 음성 이벤트 검출 여부(동작 S802), 잡음제거(동작 S403) 및 명령 수행(동작 S305)에 대한 설명은 생략한다. 부호 1330은 프로세서(210)가 상황에 따라 동작하는 예시를 표로 나타낸 것이다.
판단대상신호에서 프로세서(210)는 음성성분이 검출(동작 S1204)되었는지를 판단한다. 음성성분이 있다고 판단(동작 S1204의 'Yes')된 음성신호에서 프로세서(210)는 음성명령이 검출(동작 S1205)되었는지를 판단한다.
판단대상신호에 대하여 음성성분 검출(동작 S1204)에서 음성성분이 검출되지 않으면(동작 S1204의 'No'), 프로세서(210)는 민감도를 조절(동작 S320)할 수 있다. 음성성분이 검출되지 않아서 프로세서(210)가 민감도를 조절하는 동작은 도 13에는 도시하지 않았지만, 이는 도 5에서 음성이 검출되지 않아서(동작 S404의 'No') 프로세서(210)가 민감도를 조절하는 동작의 설명으로 대신할 수 있으므로 자세히 설명하지 않도록 한다. 판단대상신호에 대하여 음성성분 검출(동작 S1204)에서 음성성분이 검출되면(동작 S1204의 'Yes'), 프로세서(210)는 음성명령이 검출(동작 S1205)되었는지 판단할 수 있다. 음성명령이 검출되면(동작 S1205의 'Yes'), 프로세서(210)는 음성명령에 해당하는 동작을 수행할 수 있다(동작 S305). 또는 프로세서(210)는 상황에 따라 추가적으로 민감도를 조절(동작 S320)할 수 있다. 음성명령으로 검출되는 빈도가 소정치 이상인 경우에는, 수신하는 음성신호 대부분이 음성명령일 수 있다. 또는 음성 검출(동작 S404)에서 음성으로 검출되는 빈도가 높고, 비판단대상신호로 분류되는 경우가 있으면, 프로세서(210)는 상황에 따라 추가적으로 민감도를 조절(동작 S320)할 수 있다. 따라서, 프로세서(210)는 음성신호를 판단대상신호로 분류하는 빈도를 높일 수 있다. 이에 따라, 프로세서(210)는 음성이벤트(동작 S802) 검출에서의 민감도를 감소하여(동작 S1322), 음성이벤트(동작 S802) 검출에서의 판단대상신호로 분류하는 빈도를 높이고, 음성명령을 검출하는 빈도를 높일 수 있다. 이와 반대로, 음성명령이 검출되지 않으면(동작 S1205의 'No'), 프로세서(210)는 다음 음성신호를 수신하기 위해 대기한다. 프로세서(210)는 추가적으로 민감도 조절(동작 S320)을 할 수 있다. 음성명령이 검출되지 않은 것(동작 S1205의 'No')으로 판단되는 빈도가 소정치 이상인 경우, 프로세서(210)는 음성이벤트(동작 S802) 검출에서의 민감도를 증가하여(동작 S1321), 음성이벤트(동작 S802) 검출에서의 판단대상신호로 분류하는 빈도를 낮출 수 있다. 이에 따라, 전자장치(1)는 상황에 맞도록 최소한의 자원을 이용하면서, 사용자의 음성신호에 대하여 최적의 음성 처리를 수행할 수 있다.
도 14는 본 발명의 일 실시예에 따른 전자장치의 동작을 도시한다. 도 14의 그래프에서, 도 6, 도 7 및 도 10을 참조하여 설명한 전자장치(1)와 동일 내지 유사한 구성에 대한 설명은 생략한다. 1 내지 4구간 및 점선(1411 내지 1415)에 대한 설명은 생략한다. 부호 1401은 수신한 음성신호 중에서 프로세서(210)가 판단대상신호로 분류한 신호이다. 부호 1402는 판단대상신호(1401) 중에서 음성성분이 있는 것으로 검출된 신호이다. 부호 1403은 음성성분이 있는 것으로 검출된 신호(1402) 중에서 음성명령이 있는 것으로 검출된 신호이다. 1구간 및 3구간에서는 작은 잡음이 수신된다. 2구간에서는 음성성분 및 잡음이 수신된다. 4구간에서는 음성명령 및 잡음이 수신된다.
프로세서(210)는 1구간에서 판단대상신호에 대하여 음성성분이 검출(동작 S1204)되는지 여부를 확인한다. 1구간에서는 잡음만 수신되었으므로 음성성분이 검출되지 않는다. 이어서, 프로세서(210)는 2구간에서 판단대상신호에 대하여 음성성분이 검출(동작 S1204)되는지 여부를 확인한다. 2구간에서는 음성과 잡음이 함께 수신되었으므로, 프로세서(210)는 검출된 음성부분이 있는 것으로 판단한다. 후속 동작으로, 프로세서(210)는 음성명령이 검출(동작 S1205)되는지 여부를 확인한다. 2구간에서는 음성명령은 수신되지 않았으므로, 프로세서(210)는 검출된 음성명령이 없는 것(동작 S1205의 'No')으로 판단한다. 음성명령이 없는 것으로 검출되는 빈도가 높으면, 후속동작을 수행하는 것이 자원의 낭비이다. 따라서, 그 빈도를 줄이기 위해 프로세서(210)는 음성이벤트(동작 S802) 검출에서의 민감도를 증가(동작 S1321)시킬 수 있다. 3구간에서는 작은 잡음만이 수신된다. 2구간에서 민감도가 증가되었으므로, 프로세서(210)는 3구간에서의 음성신호를 비판단대상신호로 분류한다. 이어서, 4구간에서는 음성명령 및 잡음이 수신되었으므로, 프로세서(210)는 음성성분이 검출(동작 S1204의 'Yes')되고, 음성명령이 검출(동작 S1205의 'Yes')되었다고 판단한다. 음성명령이 검출(동작 S1205의 'Yes')되는 빈도가 높으면, 민감도가 높아서 프로세서(210)가 비판단대상신호로 분류한 경우가 존재할 수도 있다. 따라서, 프로세서(210)는 음성이벤트(동작 S802) 검출에서의 민감도를 감소(동작 S1322)하여, 전자장치(1)가 사용자의 음성명령을 인식하지 못하는 경우를 줄일 수 있다. 이에 따라, 전자장치(1)는 상황에 맞도록 최소한의 자원을 이용하면서, 사용자의 음성신호에 대하여 최적의 음성 처리를 수행할 수 있다.
1: 전자장치
210: 프로세서
220: 음성수신부

Claims (20)

  1. 전자장치에 있어서,
    음성신호를 수신하는 음성수신부; 및
    상기 수신된 음성신호의 특성값이 상기 수신된 음성신호에서 음성명령의 검출을 위한 음성이벤트에 대응하는지를 검출 알고리즘을 사용하여 식별하고,
    상기 음성신호의 특성값이 상기 음성이벤트에 대응하는 경우, 상기 검출된 음성명령에 대응하는 동작을 수행하고,
    상기 음성신호에서 상기 음성명령이 검출되지 않으면, 상기 검출 알고리즘의 개수를 증가시키고,
    상기 음성신호의 특성값이 상기 음성이벤트에 대응하지 않으면, 상기 검출 알고리즘의 개수를 감소시키는 프로세서를 포함하는 전자장치.
  2. 제1항에 있어서,
    상기 프로세서는 소정 민감도로 상기 음성신호의 특성값이 상기 음성이벤트에 대응하는지를 판단하여 상기 수신된 음성신호가 판단대상신호인지 여부를 결정하고, 상기 결정 여부에 따라 상기 민감도를 조절하는 전자장치.
  3. ◈청구항 3은(는) 설정등록료 납부시 포기되었습니다.◈
    제2항에 있어서,
    상기 프로세서는 상기 판단대상신호에서 잡음을 제거하는 전자장치.
  4. 제2항에 있어서,
    상기 프로세서는 상기 음성신호의 특성값이 문턱치를 초과하는지 여부에 따라 상기 음성신호의 특성값이 상기 음성이벤트에 대응하는지 여부를 판단하고,
    상기 문턱치를 조절하여 상기 민감도를 조절하는 전자장치.
  5. 제4항에 있어서,
    상기 프로세서는 상기 판단대상신호의 검출 빈도가 소정치 이하이면, 상기 민감도를 감소시키는 전자장치.
  6. 삭제
  7. 제1항에 있어서,
    복수의 상기 검출 알고리즘은, 시간 영역 또는 주파수 영역의 검출 알고리즘 중 적어도 하나인 전자장치.
  8. ◈청구항 8은(는) 설정등록료 납부시 포기되었습니다.◈
    제2항에 있어서,
    상기 프로세서는 상기 판단대상신호로부터 상기 음성명령이 인식되는지 여부에 기초하여 사용자의 음성의 존재 여부를 판단하는 전자장치.
  9. 제8항에 있어서,
    상기 프로세서는 상기 음성명령이 인식되는 빈도가 소정치 이하이면, 상기 민감도를 증가시키는 전자장치.
  10. 제8항에 있어서,
    상기 프로세서는 상기 음성명령이 인식되는 빈도가 소정치 이상이면, 상기 민감도를 감소시키는 전자장치.
  11. 전자장치를 제어하는 방법에 있어서,
    수신된 음성신호의 특성값이 상기 수신된 음성신호에서 음성명령의 검출을 위한 음성이벤트에 대응하는지를 검출 알고리즘을 사용하여 식별하는 단계;
    상기 음성신호의 특성값이 상기 음성이벤트에 대응하는 경우, 상기 검출된 음성명령에 대응하는 동작을 수행하는 단계;
    상기 음성신호에서 상기 음성명령이 검출되지 않으면, 상기 검출 알고리즘의 개수를 증가시키는 단계; 및
    상기 음성신호의 특성값이 상기 음성이벤트에 대응하지 않으면, 상기 검출 알고리즘의 개수를 감소시키는 단계를 포함하는 방법.
  12. 제11항에 있어서,
    소정 민감도로 상기 음성신호의 특성값이 상기 음성이벤트에 대응하는지를 판단하여 상기 수신된 음성신호가 판단대상신호인지 여부를 결정하는 단계; 및
    상기 결정 여부에 따라 상기 민감도를 조절하는 단계를 더 포함하는 방법.
  13. ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈
    제12항에 있어서,
    상기 판단대상신호에서 잡음을 제거하는 단계를 더 포함하는 방법.
  14. ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈
    제12항에 있어서,
    상기 민감도를 조절하는 단계는,
    상기 음성신호의 특성값이 문턱치를 초과하는지 여부에 따라 상기 음성신호의 특성값이 상기 음성이벤트에 대응하는지 여부를 판단하는 단계; 및
    상기 문턱치를 조절하여 상기 민감도를 조절하는 단계를 포함하는 방법.
  15. ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈
    제14항에 있어서,
    상기 민감도를 조절하는 단계는, 상기 판단대상신호의 검출 빈도가 소정치 이하이면, 상기 민감도를 감소하는 단계를 포함하는 방법.
  16. 삭제
  17. ◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈
    제11항에 있어서,
    복수의 상기 검출 알고리즘은, 시간 영역 또는 주파수 영역의 검출 알고리즘 중 적어도 하나를 포함하는 방법.
  18. ◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈
    제12항에 있어서,
    상기 판단대상신호인지 여부를 결정하는 단계는, 상기 판단대상신호로부터 상기 음성명령이 인식되는지 여부에 기초하여 사용자의 음성의 존재 여부를 판단하는 단계를 포함하는 방법.
  19. ◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈
    제18항에 있어서,
    상기 민감도를 조절하는 단계는, 상기 음성명령이 인식되는 빈도가 소정치 이하이면, 상기 민감도를 증가하는 단계를 포함하는 방법.
  20. 컴퓨터 시스템에 있어서,
    인스트럭션을 저장한 메모리; 및
    프로세서를 포함하며,
    상기 프로세서는, 상기 저장된 인스트럭션을 실행하여,
    수신된 음성신호의 특성값이 상기 수신된 음성신호에서 음성명령의 검출을 위한 음성이벤트에 대응하는지를 검출 알고리즘을 사용하여 식별하고,
    상기 음성신호의 특성값이 상기 음성이벤트에 대응하는 경우, 상기 검출된 음성명령에 대응하는 동작을 수행하고,
    상기 음성신호에서 상기 음성명령이 검출되지 않으면, 상기 검출 알고리즘의 개수를 증가시키고,
    상기 음성신호의 특성값이 상기 음성이벤트에 대응하지 않으면, 상기 검출 알고리즘의 개수를 감소시키는 컴퓨터 시스템.
KR1020170165426A 2017-12-04 2017-12-04 전자장치 및 그 제어방법 KR102492727B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020170165426A KR102492727B1 (ko) 2017-12-04 2017-12-04 전자장치 및 그 제어방법
CN201880078290.8A CN111433737B (zh) 2017-12-04 2018-11-29 电子装置及其控制方法
PCT/KR2018/014913 WO2019112240A1 (en) 2017-12-04 2018-11-29 Electronic apparatus and control method thereof
EP18209654.5A EP3493206A3 (en) 2017-12-04 2018-11-30 Electronic apparatus and control method thereof
US16/207,483 US10978058B2 (en) 2017-12-04 2018-12-03 Electronic apparatus and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170165426A KR102492727B1 (ko) 2017-12-04 2017-12-04 전자장치 및 그 제어방법

Publications (2)

Publication Number Publication Date
KR20190065861A KR20190065861A (ko) 2019-06-12
KR102492727B1 true KR102492727B1 (ko) 2023-02-01

Family

ID=64564744

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170165426A KR102492727B1 (ko) 2017-12-04 2017-12-04 전자장치 및 그 제어방법

Country Status (5)

Country Link
US (1) US10978058B2 (ko)
EP (1) EP3493206A3 (ko)
KR (1) KR102492727B1 (ko)
CN (1) CN111433737B (ko)
WO (1) WO2019112240A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102196628B1 (ko) * 2019-01-30 2020-12-30 주식회사 오투오 Usb-c dmp 디바이스
TWI730332B (zh) * 2019-05-27 2021-06-11 瑞昱半導體股份有限公司 處理系統與控制方法
KR20210017392A (ko) 2019-08-08 2021-02-17 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
KR102632388B1 (ko) * 2019-11-25 2024-02-02 삼성전자주식회사 전자장치 및 그 제어방법
WO2021141330A1 (ko) * 2020-01-06 2021-07-15 삼성전자(주) 전자장치 및 그 제어방법
EP4209892A4 (en) * 2020-09-01 2024-05-01 Lg Electronics Inc DISPLAY DEVICE FOR ADJUSTING THE SENSITIVITY OF RECOGNITION OF A SPEECH RECOGNITION STARTING WORD AND METHOD OF OPERATING THE SAME
KR20220111574A (ko) 2021-02-02 2022-08-09 삼성전자주식회사 전자 장치 및 그 제어 방법
CN114743571A (zh) * 2022-04-08 2022-07-12 北京字节跳动网络技术有限公司 一种音频处理方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278389A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
US20160077794A1 (en) 2014-09-12 2016-03-17 Apple Inc. Dynamic thresholds for always listening speech trigger
US20160267908A1 (en) * 2015-03-12 2016-09-15 Sony Corporation Low-power voice command detector

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
CN1323532C (zh) * 2001-11-15 2007-06-27 松下电器产业株式会社 错误隐蔽装置和方法
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
GB2417812B (en) * 2003-05-08 2007-04-18 Voice Signal Technologies Inc A signal-to-noise mediated speech recognition algorithm
KR20080056571A (ko) 2006-12-18 2008-06-23 엘지전자 주식회사 음성 인식 방법 및 그 시스템
US20100225773A1 (en) * 2009-03-09 2010-09-09 Apple Inc. Systems and methods for centering a photograph without viewing a preview of the photograph
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US8990079B1 (en) * 2013-12-15 2015-03-24 Zanavox Automatic calibration of command-detection thresholds
KR102179506B1 (ko) 2013-12-23 2020-11-17 삼성전자 주식회사 전자장치 및 그 제어방법
KR102215579B1 (ko) * 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
CN103854662B (zh) * 2014-03-04 2017-03-15 ***装备发展部第六十三研究所 基于多域联合估计的自适应语音检测方法
KR102216048B1 (ko) * 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
CN106024017A (zh) * 2015-03-18 2016-10-12 展讯通信(上海)有限公司 语音检测方法及装置
US9943253B2 (en) * 2015-03-20 2018-04-17 Innovo IP, LLC System and method for improved audio perception
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
KR101713770B1 (ko) 2015-09-18 2017-03-08 주식회사 베이리스 차량용 음성 인식 시스템 및 그 음성 인식 방법
CN106409294B (zh) * 2016-10-18 2019-07-16 广州视源电子科技股份有限公司 防止语音命令误识别的方法和装置
CN106909686A (zh) * 2017-03-06 2017-06-30 吉林省盛创科技有限公司 一种人机交互构建用户画像聚类计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278389A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
US20160077794A1 (en) 2014-09-12 2016-03-17 Apple Inc. Dynamic thresholds for always listening speech trigger
US20160267908A1 (en) * 2015-03-12 2016-09-15 Sony Corporation Low-power voice command detector

Also Published As

Publication number Publication date
CN111433737A (zh) 2020-07-17
KR20190065861A (ko) 2019-06-12
US10978058B2 (en) 2021-04-13
CN111433737B (zh) 2024-06-14
US20190172451A1 (en) 2019-06-06
EP3493206A2 (en) 2019-06-05
EP3493206A3 (en) 2019-06-12
WO2019112240A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
KR102492727B1 (ko) 전자장치 및 그 제어방법
KR101981878B1 (ko) 스피치의 방향에 기초한 전자 디바이스의 제어
EP3432301B1 (en) Low power detection of an activation phrase
US10332524B2 (en) Speech recognition wake-up of a handheld portable electronic device
EP3028271B1 (en) Method and apparatus for mitigating false accepts of trigger phrases
KR102216048B1 (ko) 음성 명령 인식 장치 및 방법
US9640183B2 (en) Speech recognition using electronic device and server
US9818404B2 (en) Environmental noise detection for dialog systems
US9558758B1 (en) User feedback on microphone placement
US9799337B2 (en) Microphone apparatus for enhancing power conservation
CN112230877A (zh) 一种语音操作方法、装置、存储介质及电子设备
US11437031B2 (en) Activating speech recognition based on hand patterns detected using plurality of filters
US10276180B2 (en) Audio command adaptive processing system and method
WO2022188152A1 (en) Reduced-latency speech processing
US11211910B1 (en) Audio gain selection
CN112367427A (zh) 一种闹钟控制方法、装置、存储介质及移动终端
CN116416979A (zh) 级联音频检出***

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right