KR20210078682A - 전자장치 및 그 제어방법 - Google Patents

전자장치 및 그 제어방법 Download PDF

Info

Publication number
KR20210078682A
KR20210078682A KR1020190170363A KR20190170363A KR20210078682A KR 20210078682 A KR20210078682 A KR 20210078682A KR 1020190170363 A KR1020190170363 A KR 1020190170363A KR 20190170363 A KR20190170363 A KR 20190170363A KR 20210078682 A KR20210078682 A KR 20210078682A
Authority
KR
South Korea
Prior art keywords
sound signal
electronic device
value
threshold
threshold value
Prior art date
Application number
KR1020190170363A
Other languages
English (en)
Inventor
김가을
최찬희
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190170363A priority Critical patent/KR20210078682A/ko
Priority to PCT/KR2020/018442 priority patent/WO2021125784A1/ko
Publication of KR20210078682A publication Critical patent/KR20210078682A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 전자장치 및 그 제어방법에 관한 것으로서, 전자장치는, 소리수신부; 및 소리수신부를 통해 수신되는 소리신호에서 획득된 소음 특성이 제1임계값보다 크고, 소리신호에서 획득된 발화 특성이 제2임계값보다 크면, 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행하고, 제2임계값이 상향되도록 조정하는 프로세서를 포함한다.

Description

전자장치 및 그 제어방법{ELECTRONIC APPARATUS AND METHOD OF CONTROLLING THE SAME}
본 발명은 전자장치 및 그 제어방법에 관한 것으로서, 보다 상세하게는 사용자로부터 발화된 음성을 처리하는 전자장치 및 그 제어방법에 관한 것이다.
인공지능(artificial intelligence, AI) 스피커, 스마트폰(smart phone)이나 태블릿(tablet)과 같은 모바일 장치, 스마트 TV 등의 전자장치는 사용자로부터 발화된 음성을 인식하고, 그 음성인식에 따른 기능을 수행할 수 있다.
전자장치는, 사용자로부터 미리 정해진 시작어 즉, 트리거 워드(trigger word)가 입력되는 것을 인식하여, 음성인식 기능이 활성화되도록 동작할 수 있다.
시작어 인식은, 사용자음성의 오디오 신호와 시작어의 유사성을 판별하는 과정을 포함할 수 있는데, 예를 들면, 오디오 신호와 시작어의 패턴이 유사한 정도가 미리 정해진 기준 이상인 경우, 입력된 음성이 시작어를 포함하는 것으로 식별할 수 있다.
상기와 같은 시작어 인식 과정에서, 소음과 같은 전자장치의 주변 환경의 영향으로 오인식이 발생하는 경우가 있으므로, 시작어 인식의 정확도를 향상시키고자 하는 시도가 이루어지고 있다.
본 발명은, 사용자 음성을 수신하여 처리 가능한 전자장치에서, 사용자의 발화 특성에 대응하여, 소음 환경인지 여부에 따라 소리 신호의 발화 특성을 식별하기 위한 임계값을 재설정하도록 함으로써, 시작어 인식의 정확도가 향상되도록 하는 전자장치 및 그 제어방법을 제공하는 것이다.
본 발명 일 실시예에 따른 전자장치는, 소리수신부; 및 소리수신부를 통해 수신되는 소리 신호의 소음 특성을 나타내는 값이 제1임계값보다 크고, 소리 신호의 발화 특성을 나타내는 값이 제2임계값보다 크면, 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행하고, 제2임계값이 상향되도록 조정하는 프로세서를 포함한다.
발화 특성은, 소리 신호의 소음 대비 신호비를 포함할 수 있다.
프로세서는, 소리 신호의 각 프레임 별로, 소리 신호에 대한 잡음의 크기 비율을 연산하고, 연산된 각 프레임 별 비율의 평균값을 발화 특성의 값으로 결정할 수 있다.
프로세서는, 소리 신호에 미리 정의된 시작어가 포함되어 있는지 여부를 식별하고, 시작어가 포함된 것으로 식별되는 소리 신호의 소음 특성이 제1임계값보다 큰지 여부를 식별할 수 있다.
프로세서는, 소리 신호의 파형과, 미리 정의된 시작어 패턴 간의 유사도에 기초하여 소리 신호에 시작어가 포함되어 있는지 여부를 식별할 수 있다.
유사도의 임계값은 음향 모델을 이용한 학습 알고리즘에 기반하여 미리 설정될 수 있다.
프로세서는, 유사도가 제3임계값보다 큰 소리 신호의 발화 특성의 값이 제2임계값 이하이면, 유사도가 제3임계값보다 큰 제4임계값을 만족하는 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행할 수 있다.
프로세서는, 시작어가 포함된 구간 이전에 기정의된 시간 길이의 구간에 수신되는 소리 신호의 소음 특성의 값이 제1임계값보다 큰지 여부를 식별할 수 있다.
프로세서는, 기정의된 시간 길이의 구간에 수신되는 소리 신호의 전력값을 제1임계값과 비교할 수 있다.
프로세서는, 소음 특성의 값이 제1임계값 이하이면, 제2임계값이 하향되도록 조정할 수 있다.
한편, 본 발명 일 실시예에 따른 전자장치의 제어방법은, 소리수신부를 통해 수신되는 소리 신호에서 소음 특성을 획득하는 단계; 소리 신호에서 발화 특성을 획득하는 단계; 및 소음 특성을 나타내는 값이 제1임계값보다 크고, 발화 특성을 나타내는 값이 제2임계값보다 크면, 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행하고, 제2임계값이 상향되도록 조정하는 단계를 포함한다.
발화 특성은, 소리 신호의 소음 대비 신호비를 포함할 수 있다.
소리 신호의 각 프레임 별로, 소리 신호에 대한 잡음의 크기 비율을 연산하고, 연산된 각 프레임 별 비율의 평균값을 발화 특성의 값으로 결정하는 단계를 더 포함할 수 있다.
소리 신호에 미리 정의된 시작어가 포함되어 있는지 여부를 식별하는 단계; 및하고, 시작어가 포함된 것으로 식별되는 소리 신호의 소음 특성의 값이 제1임계값보다 큰지 여부를 식별하는 단계를 더 포함할 수 있다.
시작어가 포함되어 있는지 여부를 식별하는 단계는, 소리 신호의 파형과, 미리 정의된 시작어 패턴 간의 유사도에 기초하여 소리 신호에 시작어가 포함되어 있는지 여부를 식별할 수 있다.
유사도의 임계값은 음향 모델을 이용한 학습 알고리즘에 기반하여 미리 설정될 수 있다.
유사도가 제3임계값보다 큰 소리 신호의 발화 특성의 값이 제2임계값 이하이면, 유사도가 제3임계값보다 큰 제4임계값을 만족하는 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행하는 단계를 더 포함할 수 있다.
시작어가 포함된 것으로 식별되는 구간 이전에 기정의된 시간 길이의 구간에 수신되는 소리 신호의 소음 특성의 값이 제1임계값보다 큰지 여부를 식별하는 단계를 더 포함할 수 있다.
소음 특성의 값이 제1임계값 이하이면, 제2임계값이 하향되도록 조정하는 단계를 더 포함할 수 있다.
한편, 본 발명 일 실시예에 따른 컴퓨터가 읽을 수 있는 코드로서, 전자장치의 제어방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서, 전자장치의 제어방법은, 소리수신부를 통해 수신되는 소리 신호에서 소음 특성을 획득하는 단계; 소리 신호에서 발화 특성을 획득하는 단계; 및 소음 특성을 나타내는 값이 제1임계값보다 크고, 발화 특성을 나타내는 값이 제2임계값보다 크면, 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행하고, 제2임계값이 상향되도록 조정하는 단계를 포함한다.
상기한 바와 같은 본 발명의 전자장치 및 그 제어방법에 따르면, 소음 환경에서 소리 신호에 대한 사용자의 발화특성을 식별하기 위한 임계값을 재설정함으로써, 사용자로 하여금 큰 소리로 시작어를 발화하도록 유도하여 동작의 정확성을 향상시키는 효과를 기대할 수 있다.
또한, 본 발명의 전자장치 및 그 제어방법에 따르면, 전자장치가 소음 환경에서 사용자의 실제 발화가 아닌 주변 소음이 포함된 소리 신호를 시작어로 잘못 인식하는 오동작의 발생이 감소되어, 시작어 인식의 정확도가 향상되는 효과가 있다.
도 1은 본 발명 일 실시예에 의한 전자장치를 포함하는 음성인식 시스템을 도시한다.
도 2는 본 발명 일 실시예에 따른 전자장치의 구성을 도시한 블록도이다.
도 3은 본 발명 일 실시예에 따른 전자장치의 음성인식모듈의 구성을 도시한 블록도이다.
도 4는 본 발명 일 실시예에 따른 전자장치의 제어방법을 도시한 흐름도이다.
도 5는 본 발명 일 실시예에 따른 전자장치에서 음성인식기능의 활성화를 위한 패턴 매칭을 설명하기 위한 도면이다.
도 6은 본 발명 일 실시예에 따른 전자장치의 소음특성 식별을 설명하기 위한 도면이다.
이하에서는 첨부 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
본 발명의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 발명의 실시예에서, '구성되다', '포함하다', '가지다' 등의 용어는 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 본 발명의 실시예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 모듈로 일체화되어 구현될 수 있다. 또한, 본 발명의 실시예에서, 복수의 요소 중 적어도 하나(at least one)는, 복수의 요소 전부뿐만 아니라, 복수의 요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.
도 1은 본 발명 일 실시예에 의한 전자장치를 포함하는 음성인식 시스템을 도시한다.
일 실시예에서 음성인식 시스템은, 도 1에 도시된 바와 같이, 사용자로부터 발화된 음성 즉, 사운드(sound)로서 소리 신호를 수신할 수 있는 전자장치(10)와, 전자장치(10)와 네트워크를 통해 통신할 수 있는 서버(20)를 포함할 수 있다.
전자장치(10)는 사용자에 의해 발화된 음성(이하, 사용자음성 이라고도 한다)을 수신하고, 그 음성에 대응하는 소리 신호를 처리하여, 대응하는 동작을 수행할 수 있다.
일 실시예에서 전자장치(10)는 수신된 음성에 대응하는 동작으로서, 사용자음성의 처리 결과에 대응하는 사운드 즉, 음향을 출력부(도 2의 110)를 통해 출력함으로써, 사용자에게 오디오 컨텐트를 제공할 수 있다. 전자장치(10)에는, 사운드를 출력할 수 있는 출력부(110)로서 적어도 하나의 스피커(loudspeaker)가 마련될 수 있으며, 본 발명에서 전자장치(10)에 마련되는 스피커의 개수, 형태 및 설치 위치는 한정되지 않는다.
일 실시예에서 전자장치(10)에는, 사용자음성으로서 소리 신호를 수신할 수 있는 소리수신부(도 3의 120)가 마련될 수 있다. 소리수신부(120)는 적어도 하나의 마이크(microphone)로서 구현될 수 있으며, 전자장치(10)에 마련되는 마이크의 개수, 형태 및 설치 위치는 한정되지 않는다.
전자장치(10)의 구현 형태는 한정되지 않으며, 예를 들면, 도 1에 도시된 바와 같이, 인공지능 스피커(artificial intelligence speaker)(이하, AI 스피커 또는 스마트 스피커 라고도 한다)(10a), 스마트 TV와 같은 텔레비전을 포함하는 디스플레이장치(10b), 스마트폰이나 태블릿과 같은 모바일장치(10c) 등의 소리 신호가 수신 가능한 다양한 장치로서 구현될 수 있다.
AI 스피커(10a)로 구현된 전자장치(10)는, 사용자로부터 음성을 수신하고, 그 수신된 음성에 대한 음성인식을 통해 음악 감상, 정보 검색 등 다양한 기능을 수행할 수 있다. AI 스피커는 음성인식 기능과, 클라우드 등을 활용함으로써, 단순하게 사운드를 출력하는 장치가 아니라, 사용자와의 상호작용 즉, 인터랙션(interaction)이 가능한 가상비서/음성비서가 내장된 장치로서 사용자에게 다양한 서비스를 제공할 수 있도록 구현될 수 있다. 이 경우, 전자장치(10)에는 AI 스피커 기능을 위한 어플리케이션이 설치 및 구동될 수 있다.
디스플레이장치(10b)로 구현된 전자장치(10)는, 외부의 신호공급원 즉, 영상소스로부터 제공되는 영상신호를 기 설정된 프로세스에 따라 처리하여 영상으로 표시한다.
일 실시예에서 디스플레이장치(10b)는 방송국의 송출장비로부터 제공되는 방송신호, 방송정보, 또는 방송데이터 중 적어도 하나에 기초한 방송신호를 처리하여 영상으로 표시할 수 있는 텔레비전(TV)을 포함한다.
본 발명에서 컨텐트를 제공하는 영상소스의 종류는 한정되지 않으므로, 디스플레이장치(10b)는, 예를 들어, 셋탑박스, 블루레이(Blu-ray) 또는 DVD(digital versatile disc)와 같은 광디스크 재생장치, 테스크탑(desktop) 또는 랩탑(laptop)을 포함하는 컴퓨터(PC), 콘솔 게임기, 스마트폰(smart phone)이나 태블릿(tablet)과 같은 스마트패드(smart pad)를 포함하는 모바일 장치(mobile device) 등으로부터 영상신호를 수신할 수 있다.
디스플레이장치(10b)가 텔레비전인 경우, 디스플레이장치(10b)는 방송국으로부터 송출되는 RF(radio frequency) 신호 즉, 방송신호를 무선으로 수신할 수 있으며, 이를 위해 방송신호를 수신하는 안테나와 방송신호를 채널 별로 튜닝하기 위한 튜너가 마련될 수 있다.
디스플레이장치(10b)에서, 방송신호는 지상파, 케이블, 위성 등을 통해서 수신 가능하며, 신호공급원은 외부장치나 방송국에 한정되지 않는다. 즉, 데이터의 송수신이 가능한 장치 또는 스테이션이라면 본 발명의 영상소스에 포함될 수 있다.
디스플레이장치(10b)에서 수신되는 신호의 규격은 장치의 구현 형태에 대응하여 다양한 방식으로 구성될 수 있으며, 예를 들면, 디스플레이장치(10b)는 후술하는 인터페이스부(도 2의 140)의 구현 형태에 대응하여, HDMI(High Definition Multimedia Interface), HDMI-CFC(Consumer Electronics Control), 디스플레이 포트(display port, DP), DVI, 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), DVI(Digital Visual Interface), 썬더볼트(Thunderbolt), RGB 케이블, SCART(Syndicat des Constructeurs d'Appareils Radiorecepteurs et Televiseurs), USB 등의 규격에 대응하는 신호를 영상 컨텐트로서 유선으로 수신할 수 있다.
디스플레이장치(10b)는 컨텐트 제공을 위해 마련된 서버 등으로부터 유선 또는 무선 네트워크 통신에 의해 영상 컨텐트를 제공받을 수도 있으며, 통신의 종류는 한정되지 않는다. 예를 들면, 디스플레이장치(10b)는 후술하는 인터페이스부(140)의 구현 형태에 대응하여 와이파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), 블루투스(bluetooth), 블루투스 저에너지(bluetooth low energy), 지그비(Zigbee), UWB(Ultra-Wideband), NFC(Near Field Communication) 등의 규격에 대응하는 신호를 영상 컨텐트로서 무선 네트워크 통신을 통해 수신할 수 있다. 다른 예로서, 디스플레이장치(10b)는 이더넷(Ethernet) 등과 같은 유선 네트워크 통신을 통해 컨텐트 신호를 수신할 수 있다.
일 실시예에서, 디스플레이장치(10b)는 스마트폰과 같은 다양한 주변기기가 무선 통신을 수행하도록 하는 AP의 역할을 수행할 수 있다.
디스플레이장치(10b)는 상기와 같은 유선 또는 무선 네트워크를 통해 실시간 스트리밍에 따른 파일 형태로 제공되는 컨텐트를 수신할 수 있다.
또한, 디스플레이장치(10b)는 내부/외부의 저장매체에 저장된 신호/데이터에 기초한 동영상, 정지영상, 어플리케이션(application), OSD(on-screen display), 다양한 동작 제어를 위한 사용자 인터페이스(user interface, UI)(이하, GUI(graphic user interface) 라고도 한다) 등을 화면에 표시하도록 신호를 처리할 수 있다.
일 실시예에서 디스플레이장치(10b)는 스마트 TV 또는 IP TV(Internet Protocol TV)로 동작 가능하다. 스마트 TV는 실시간으로 방송신호를 수신하여 표시할 수 있고, 웹 브라우징 기능을 가지고 있어 실시간 방송신호의 표시와 동시에 인터넷을 통하여 다양한 컨텐트의 검색 및 소비가 가능하고 이를 위하여 편리한 사용자 환경을 제공할 수 있는 텔레비전이다. 또한, 스마트 TV는 개방형 소프트웨어 플랫폼을 포함하고 있어 사용자에게 양방향 서비스를 제공할 수 있다. 따라서, 스마트 TV는 개방형 소프트웨어 플랫폼을 통하여 다양한 컨텐트, 예를 들어 소정의 서비스를 제공하는 어플리케이션을 사용자에게 제공할 수 있다. 이러한 어플리케이션은 다양한 종류의 서비스를 제공할 수 있는 응용 프로그램으로서, 예를 들어 SNS, 금융, 뉴스, 날씨, 지도, 음악, 영화, 게임, 전자 책 등의 서비스를 제공하는 어플리케이션을 포함한다.
일 실시예에서 디스플레이장치(10b)에는, 음성인식기능을 제공하기 위한 어플리케이션이 설치될 수 있다.
전자장치(10)가, 디스플레이장치(10b) 또는 모바일장치(10c)인 경우, 전자장치(10)에는 영상을 표시할 수 있는 디스플레이가 마련될 수 있다. 디스플레이의 구현 방식은 한정되지 않으며, 예를 들면 액정(liquid crystal), 플라즈마(plasma), 발광 다이오드(light-emitting diode), 유기발광 다이오드(organic light-emitting diode), 면전도 전자총(surface-conduction electron-emitter), 탄소 나노 튜브(carbon nano-tube), 나노 크리스탈(nano-crystal) 등의 다양한 디스플레이 방식으로 구현될 수 있다.
전자장치(10)는 인터페이스부(140)를 통해 서버(20)를 포함한 다양한 외부장치와 통신을 수행할 수 있다.
본 발명에서, 전자장치(10)와 외부장치의 통신방식은 한정되지 않으므로, 전자장치(10)는 다양한 방식의 유선 또는 무선 접속(예를 들어, 블루투스, 와이파이, 또는 와이파이 다이렉트 등)에 의해 외부장치와 통신 가능하도록 구현된다.
서버(20)는 전자장치(10)와 유선 또는 무선 통신을 수행할 수 있도록 마련된다. 서버(20)는, 예를 들면 클라우드 타입으로 구현되어, 전자장치(10) 및/또는 전자장치(10)와 연계된 부가장치(예를 들면, AI 스피커와 연동되도록 해당 어플리케이션이 설치된 스마트폰 등)의 사용자계정을 저장 및 관리할 수 있다.
서버(20)의 구현 형태는 한정되지 않으며, 일례로 음성에 관계된 소리신호를 텍스트로 변환하는 STT(Speech to Text) 서버로서 구현되거나, 음성인식에 관한 메인 서버로서 STT 서버의 기능을 함께 수행하도록 구현될 수 있다. 또한, 서버(20)는 STT 서버와 메인 서버와 같이 복수 개로 마련되어, 전자장치(10)가 복수의 서버와 통신을 수행할 수 있다.
일 실시예에서, 서버(20)에는 사용자로부터 발화된 음성을 인식하기 위한 데이터 즉, 정보가 저장된 데이터베이스(database, DB)가 마련될 수 있다. 데이터베이스는, 예를 들면, 음성의 신호적인 특성을 모델링하여 미리 결정된 복수의 음향모델(Acoustic Model)을 포함할 수 있다. 또한, 데이터베이스는 인식대상 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하여 미리 결정된 언어모델(Language Model)을 더 포함할 수 있다. 음향모델 및/또는 언어모델은 미리 학습을 수행하여 구성될 수 있다.
전자장치(10)는 유선 또는 무선 네트워크에 의해 서버(20)에 접속하여 그 데이터베이스에 억세스함으로써, 수신된 사용자음성을 식별하여 처리하고, 그 처리 결과를 사운드 또는 영상을 통해 출력할 수 있게 된다.
이하에서는, 본 발명의 일 실시예에 따른 전자장치의 보다 구체적인 구성 및 그에 의한 동작에 관해 설명한다.
도 2는 본 발명 일 실시예에 따른 전자장치의 구성을 도시한 블록도이다.
도 2에 도시된 바와 같이, 본 발명 일 실시예의 전자장치(10)는 출력부(110), 소리수신부(120), 신호처리부(161)인터페이스부(140), 저장부(150) 및 프로세서(160)를 포함한다.
다만, 도 2에 도시된 본 발명의 일 실시예에 의한 전자장치(10)의 구성은 하나의 예시일 뿐이며, 다른 실시예에 의한 전자장치는 도 2에 도시된 구성 외에 다른 구성으로 구현될 수 있다. 즉, 본 발명의 전자장치는 도 2에 도시된 구성 외 다른 구성이 추가되거나, 혹은 도 2에 도시된 구성 중 적어도 하나가 배제된 형태로 구현될 수도 있다.
출력부(110)는 음향 즉, 사운드를 출력한다. 출력부(110)는 예를 들어, 가청주파수인 20Hz 내지 20KHz 대역의 사운드를 출력 가능한 적어도 하나의 스피커를 포함할 수 있다. 출력부(110)는 복수의 채널의 오디오신호/소리신호에 대응하는 사운드를 출력할 수 있다.
일 실시예에서 출력부(110)는 소리수신부(120)를 통해 수신되는 사용자음성으로서 소리 신호의 처리에 따른 사운드를 출력할 수 있다.
소리수신부(120)는 사용자로부터 발화된 음성 즉, 음파를 수신할 수 있다.
소리수신부(120)를 통해 입력된 음파는 신호변환부에 의해 전기적인 신호로 변환된다. 일 실시예에서 신호변환부는 아날로그 음파를 디지털 신호로 변환하는 AD 변환부를 포함할 수 있다. 또한, 일 실시예에서 신호변환부는 후술하는 신호처리부(161)에 포함될 수 있다.
본 발명 일 실시예에서 소리수신부(120)는 전자장치(10)에 자체적으로 마련되도록 구현된다.
다만, 다른 실시예에서 소리수신부(120)는 전자장치(10)에 포함되는 구성이 아닌 별도의 장치에 마련된 행태로서 구현될 수 있다.
예를 들면, 전자장치(10)가 텔레비전과 같은 디스플레이장치인 경우, 사용자조작이 가능한 입력장치로서 마련되는 리모컨(remote control)에 설치된 마이크 즉, 소리수신부를 통해 사용자음성이 수신되고, 그에 대응하는 소리신호가 리모컨으로부터 전자장치(10)로 전송될 수 있다. 여기서, 리모컨의 마이크를 통해 수신된 아날로그 음파는 디지털 신호로 변환되어 전자장치(10)로 전송될 수 있다.
일 실시예에서, 입력장치는 리모컨 어플리케이션이 설치된 스마트폰과 같은 단말장치를 포함한다.
인터페이스부(140)는 전자장치(10)가 서버(20), 단말장치 등을 포함한 다양한 외부장치와 신호를 송신 또는 수신하도록 한다.
인터페이스부(140)는 유선 인터페이스부(141)를 포함할 수 있다. 유선 인터페이스부(141)는 HDMI, HDMI-CFC, USB, 컴포넌트(Component), 디스플레이 포트(DP), DVI, 썬더볼트, RGB 케이블 등의 규격에 따른 신호/데이터를 송/수신하는 연결부를 포함할 수 있다. 여기서, 유선 인터페이스부(141)는 이들 각각의 규격에 대응하는 적어도 하나 이상의 커넥터, 단자 또는 포트를 포함할 수 있다.
유선 인터페이스부(141)는 영상소스 등으로부터 신호를 입력받는 입력 포트를 포함하는 형태로 구현되며, 경우에 따라 출력 포트를 더 포함하여 양방향으로 신호를 송수신 가능하게 마련될 수 있다.
유선 인터페이스부(141)는 지상파/위성방송 등 방송규격에 따른 방송신호를 수신할 수 있는 안테나가 연결되거나, 케이블 방송 규격에 따른 방송신호를 수신할 수 있는 케이블이 연결될 수 있도록, HDMI 포트, DisplayPort, DVI 포트, 썬더볼트, 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART 등과 같이, 비디오 및/또는 오디오 전송규격에 따른 커넥터 또는 포트 등을 포함할 수 있다. 다른 예로서, 전자장치(10)는 방송신호를 수신할 수 있는 안테나를 내장할 수도 있다.
유선 인터페이스부(141)는 USB 포트 등과 같은 범용 데이터 전송규격에 따른 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(141)는 광 전송규격에 따라 광게이블이 연결될 수 있는 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(141)는 외부 마이크 또는 마이크를 구비한 외부 오디오기기가 연결되며, 오디오기기로부터 오디오 신호를 수신 또는 입력할 수 있는 커넥터 또는 포트 등을 포함할 수 있다. 인터페이스부(111)는 헤드셋, 이어폰, 외부 스피커 등과 같은 오디오기기가 연결되며, 오디오기기로 오디오 신호를 전송 또는 출력할 수 있는 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(141)는 이더넷(Ethernet) 등과 같은 네트워크 전송규격에 따른 커넥터 또는 포트를 포함할 수 있다. 예컨대, 유선 인터페이스부(141)는 라우터 또는 게이트웨이에 유선 접속된 랜카드 등으로 구현될 수 있다.
유선 인터페이스부(141)는 상기 커넥터 또는 포트를 통해 셋탑박스, 광학미디어 재생장치와 같은 외부기기, 또는 외부 디스플레이장치나, 스피커, 서버 등과 1:1 또는 1:N(N은 자연수) 방식으로 유선 접속됨으로써, 해당 외부기기로부터 비디오/오디오 신호를 수신하거나 또는 해당 외부기기에 비디오/오디오 신호를 송신한다. 유선 인터페이스부(141)는, 비디오/오디오 신호를 각각 별개로 전송하는 커넥터 또는 포트를 포함할 수도 있다.
일 실시예에서 유선 인터페이스부(141)는 전자장치(10)에 내장되나, 동글(dongle) 또는 모듈(module) 형태로 구현되어 전자장치(10)의 커넥터에 착탈될 수도 있다.
인터페이스부(140)는 무선 인터페이스부(142)를 포함할 수 있다. 무선 인터페이스부(142)는 무선 인터페이스부(142)는 전자장치(10)의 구현 형태에 대응하여 다양한 방식으로 구현될 수 있다. 예를 들면, 무선 인터페이스부(142)는 통신방식으로 RF(radio frequency), 지그비(Zigbee), 블루투스(bluetooth), 와이파이(Wi-Fi), UWB(Ultra WideBand) 및 NFC(Near Field Communication) 등 무선통신을 사용할 수 있다.
무선 인터페이스부(142)는 다양한 종류의 통신 프로토콜에 대응하는 무선 통신모듈(S/W module, chip 등)을 포함하는 통신회로(communication circuitry)로서 구현될 수 있다.
일 실시예에서 무선 인터페이스부(142)는 무선랜유닛을 포함한다. 무선랜유닛은 프로세서(160)의 제어에 따라 억세스 포인트(access point, AP)를 통해 무선으로 외부장치와 연결될 수 있다. 무선랜유닛은 와이파이 모듈을 포함한다.
일 실시예에서 무선 인터페이스부(142)는 억세스 포인트 없이 무선으로 전자장치(10)와 외부장치 사이에 1 대 1 다이렉트 통신을 지원하는 무선통신모듈을 포함한다. 무선통신모듈은 와이파이 다이렉트, 블루투스, 블루투스 저에너지 등의 통신방식을 지원하도록 구현될 수 있다. 전자장치(10)가 외부장치와 다이렉트로 통신을 수행하는 경우, 저장부(150)에는 통신 대상 기기인 외부장치에 대한 식별정보(예를 들어, MAC address 또는 IP address)가 저장될 수 있다.
본 발명 일 실시예에 따른 전자장치(10)에서, 무선 인터페이스부(142)는 성능에 따라 무선랜유닛과 무선통신모듈 중 적어도 하나에 의해 외부장치와 무선 통신을 수행하도록 마련된다.
다른 실시예에서 무선 인터페이스부(142)는 LTE와 같은 이동통신, 자기장을 포함하는 EM 통신, 가시광통신 등의 다양한 통신방식에 의한 통신모듈을 더 포함할 수 있다.
무선 인터페이스부(142)는 네트워크 상의 서버와 무선 통신함으로써, 서버와의 사이에 데이터 패킷을 송수신할 수 있다.
무선 인터페이스부(142)는 적외선 통신규격에 따라 IR(Infrared) 신호를 송신 및/또는 수신할 수 있는 IR송신부 및/또는 IR수신부를 포함할 수 있다. 무선 인터페이스부(142)는 IR송신부 및/또는 IR수신부를 통해 리모컨 또는 다른 외부기기로부터 리모컨신호를 수신 또는 입력하거나, 다른 외부기기로 리모컨신호를 전송 또는 출력할 수 있다. 다른 예로서, 전자장치(10)는 와이파이(Wi-Fi), 블루투스(bluetooth) 등 다른 방식의 무선 인터페이스부(142)를 통해 리모컨 또는 다른 외부기기와 리모컨신호를 송수신할 수 있다.
전자장치(10)는 인터페이스부(140)를 통해 수신하는 비디오/오디오신호가 방송신호인 경우, 수신된 방송신호를 채널 별로 튜닝하는 튜너(tuner)를 더 포함할 수 있다.
일 실시예에서 무선 인터페이스부(142)는 소리수신부(120)를 통해 수신된 사용자음성의 정보로서 소정 데이터를 외부장치 즉, 서버(20)로 전송할 수 있다. 여기서, 전송되는 데이터의 형태/종류는 한정되지 않으며, 예를 들면, 사용자로부터 발화된 음성에 대응하는 오디오신호나, 오디오신호로부터 추출된 음성특징 등을 포함할 수 있다.
또한, 무선 인터페이스부(142)는 서버(20)로부터 해당 사용자음성의 처리 결과의 데이터를 수신할 수 있다. 전자장치(10)는 수신된 데이터에 기초하여, 음성 처리결과에 대응하는 사운드를 출력부(110)를 통해 출력할 된다.
다만, 상기한 실시예는 예시로서, 사용자음성을 서버(20)로 전송하지 않고, 전자장치(10) 내에서 자체적으로 처리할 수도 있다. 즉, 다른 실시예에서 전자장치(10)가 STT 서버의 역할을 수행하도록 구현 가능하다.
전자장치(10)는 무선 인터페이스부(142)를 통해 리모컨과 같은 입력장치와 통신을 수행하여, 입력장치로부터 사용자음성에 대응하는 소리 신호를 수신할 수 있다.
일 실시예의 전자장치(10)에서, 서버(20)와 통신하는 통신모듈과 리모컨과 통신하는 통신모듈은 서로 다를 수 있다. 예를 들어, 전자장치(10)는, 서버(20)와 이더넷 모뎀 또는 와이파이 모듈을 통해 통신을 수행하고, 리모컨과 블루투스 모듈을 통해 통신을 수행할 수 있다.
다른 실시예의 전자장치(10)에서, 서버(20)와 통신하는 통신모듈과 리모컨과 통신하는 통신모듈은 같을 수 있다. 예를 들어, 전자장치(10)는 블루투스 모듈을 통해 서버(20) 및 리모컨과 통신을 수행할 수 있다.
저장부(150)는 전자장치(10)의 다양한 데이터를 저장하도록 구성된다. 저장부(150)는 전자장치(10)에 공급되는 전원이 차단되더라도 데이터들이 남아있어야 하며, 변동사항을 반영할 수 있도록 쓰기 가능한 비휘발성 메모리(writable ROM)로 구비될 수 있다. 즉, 저장부(150)는 플래쉬 메모리(flash memory), EPROM 또는 EEPROM 중 어느 하나로 구비될 수 있다.
저장부(150)는 전자장치(10)의 읽기 또는 쓰기 속도가 비휘발성 메모리에 비해 빠른 DRAM 또는 SRAM과 같은 휘발성 메모리(volatile memory)를 더 구비할 수 있다.
저장부(150)에 저장되는 데이터는, 예를 들면 전자장치(10)의 구동을 위한 운영체제를 비롯하여, 이 운영체제 상에서 실행 가능한 다양한 소프트웨어, 프로그램, 어플리케이션, 부가데이터 등을 포함한다.
본 발명 일 실시예에 따른 전자장치(10)에서 저장부(150)에 저장 및 설치되는 어플리케이션은, 소리수신부(120)를 통해 수신되는 사용자음성을 인식하고, 그에 따른 동작을 수행하기 위한 AI 스피커 어플리케이션을 포함할 수 있다.
일 실시예에서, AI 스피커 어플리케이션은, 소리수신부(120)를 통해 미리 정해진 키워드로서 시작어 즉, 트리거 워드(trigger word)의 입력, 전자장치(10)의 특정 버튼에 대한 사용자 조작 등이 식별되면 실행 또는 활성화됨으로써, 사용자로부터 발화된 음성에 대한 음성인식 기능을 수행할 수 있다. 여기서, 어플리케이션의 활성화는 어플리케이션의 실행 상태가 백그라운드 모드(background mode)에서 포그라운드 모드(foreground mode)로 전환하는 것을 포함할 수 있다.
일 실시예의 전자장치(10)에서, 저장부(150)는, 도 2에 도시된 바와 같이, 소리수신부(120)를 통해 수신될 수 있는 사용자음성을 인식하기 위한 데이터 즉, 정보가 저장된 데이터베이스(151)를 포함할 수 있다.
데이터베이스(151)는, 예를 들면, 음성의 신호적인 특성을 모델링하여 미리 결정된 복수의 음향모델을 포함할 수 있다. 또한, 데이터베이스(151)는 인식대상 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하여 미리 결정된 언어모델을 더 포함할 수 있다.
다른 실시예에서, 사용자음성을 인식하기 위한 정보가 저장된 데이터베이스는, 전술한 바와 같이 무선 인터페이스부(142)를 통하여 유선 또는 무선 네트워크에 의해 접속 가능한 외부장치의 일례인 서버(20)에 마련될 수 있다. 서버(20)는, 예를 들면 클라우드 타입으로 구현될 수 있다.
프로세서(160)는 전자장치(10)의 제반 구성들이 동작하기 위한 제어를 수행한다.
프로세서(160)는 이러한 제어 동작을 수행할 수 있도록 하는 제어프로그램에 포함된 인스트럭션을 실행한다. 프로세서(160)는 제어프로그램이 설치된 비휘발성의 메모리로부터 제어프로그램의 적어도 일부를 휘발성의 메모리로 로드하고, 로드된 제어프로그램을 실행하는 적어도 하나의 범용 프로세서를 포함하며, 예를 들면 CPU(Central Processing Unit) 또는 응용 프로세서(application processor, AP)로 구현될 수 있다.
프로세서(160)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다. 프로세서(160)는 복수의 프로세서, 예를 들어, 주 프로세서(main processor) 및 슬립 모드(sleep mode, 예를 들어, 대기 전원만 공급되고 소리 신호를 수신하는 전자장치로서 동작하지 않는)에서 동작하는 부 프로세서(sub processor)를 포함할 수 있다. 또한, 프로세서, 롬 및 램은 내부 버스(bus)를 통해 상호 연결되며, 롬과 램은 저장부(150)에 포함된다.
본 발명에서 프로세서(160)를 구현하는 일례인 CPU 또는 응용 프로세서는 전자장치(10)에 내장되는 PCB 상에 실장되는 메인 SoC(Main SoC)에 포함되는 형태로서 구현 가능하다.
제어프로그램은, BIOS, 디바이스드라이버, 운영체계, 펌웨어, 플랫폼 및 응용프로그램(어플리케이션) 중 적어도 하나의 형태로 구현되는 프로그램(들)을 포함할 수 있다. 일 실시예로서, 응용프로그램은, 전자장치(10)의 제조 시에 전자장치(10)에 미리 설치 또는 저장되거나, 혹은 추후 사용 시에 외부로부터 응용프로그램의 데이터를 수신하여 수신된 데이터에 기초하여 전자장치(10)에 설치될 수 있다. 응용 프로그램의 데이터는, 예를 들면, 어플리케이션 마켓과 같은 외부 서버로부터 전자장치(10)로 다운로드될 수도 있다. 이와 같은 응용프로그램, 외부 서버 등은, 본 발명의 컴퓨터프로그램제품의 일례이나, 이에 한정되는 것은 아니다.
일 실시예에서 프로세서(160)는, 도 2에 도시된 바와 같이, 신호처리부(161)를 포함할 수 있다.
신호처리부(161)는 오디오신호 즉, 소리신호를 처리한다. 신호처리부(161)에서 처리된 소리신호는, 출력부(110)를 통해 사운드로서 출력됨으로써 사용자에게 오디오 컨텐트가 제공될 수 있다.
일 실시예에서 신호처리부(161)는 프로세서(160)의 소프트웨어 블록으로서, 프로세서(160)의 일 기능을 수행하는 형태로 구현될 수 있다.
다른 실시예에서, 신호처리부(161)는, 프로세서(160)를 구현하는 예시인 CPU 또는 응용 프로세서(AP)와 구분된 별도의 구성, 예를 들면, 디지털 신호 프로세서(DSP)와 같은 마이크로 프로세서 또는 IC(integrated circuit)로서 구현되거나, 또는 하드웨어와 소프트웨어의 조합에 의해 구현될 수 있다.
일 실시예에서 프로세서(160)는, 도 2에 도시된 바와 같이, 사용자로부터 발화된 음성신호를 인식할 수 있는 음성인식모듈(162)을 포함할 수 있다.
도 3은 본 발명 일 실시예에 따른 전자장치의 음성인식모듈의 구성을 도시한 블록도이다.
일 실시예에서 음성인식모듈(162)은 사용자발화를 입력으로 수신하며, 미리 정해진 시작어(이하, 트리거 워드 또는 웨이크 업 워드(wake-up word, WUW) 라고도 한다.)의 입력에 응답하여 음성인식을 위한 동작을 개시하도록 구현될 수 있다.
본 발명 일 실시예의 전자장치(10)에서, 음성인식모듈(162)은, 도 3에 도시된 바와 같이, 전처리부(301), 시작어 엔진(302), 임계값 결정부(304) 및 음성인식 엔진(304)을 포함할 수 있다.
전처리부(301)는 사용자발화에 따른 음성신호를 소리수신부(120)로부터 입력받고, 주변 소음 즉, 노이즈를 제거하는 전처리를 수행할 수 있다.
일 실시예에서 전처리에는 디지털 신호 변환, 필터링, 프레이밍 등의 과정들이 포함될 수 있으며, 상기의 과정들에 따라 음성신호에서 불필요한 주변 소음이 제거됨으로써 유의미한 음성신호가 추출될 수 있다.
시작어 엔진(302)은 전처리가 수행된 음성신호로부터 추출된 특징(feature)을 미리 정해진 소정 패턴과 비교하는 패턴 매칭을 수행한다.
일 실시예에서, 시작어 엔진(302)은, 미리 학습을 수행하여 구성된 음향모델을 이용하여 패턴 매칭을 수행할 수 있다.
구체적으로, 시작어 엔진(302)은 입력발화 즉, 사용자 발화에 따른 음성신호(소리신호)의 파형과, 음향모델의 시작어 패턴 간의 유사도에 기초하여, 입력발화가 시작어를 포함하는지 여부를 식별할 수 있다.
시작어 엔진(302)은, 패턴 매칭에 의한 비교 결과, 입력발화의 점수(score) 즉, 발화 스코어가 미리 정해진 시작어 임계값(WUW Threshold) 보다 큰 경우, 입력발화가 시작어를 포함하는 것으로 식별할 수 있다.
여기서, 유사도의 임계값, 즉 시작어 임계값(WUW Threshold)는 음향 모델을 이용한 학습 알고리즘에 기반하여 미리 설정될 수 있다.
본 발명에서 시작어 임계값(WUW Threshold)은 전자장치(1)의 음성인식 기능을 활성화 시기키 위한 조건으로서 정의된다. 다시 말해, 시작어 임계값(WUW Threshold)은, 후술하는 소리 신호의 소음 특성 및 소음 대비 발화 특성과의 비교에 각각 사용되는 소음 임계값 및 SNR 임계값과 구분된다.
본 발명 일 실시예에 따른 전자장치(1)는, 사용자발화가 소음환경에서 이루어진 경우, 서로 다른 값을 가지도록 설정된 2개의 시작어 임계값을 사용하도록 구현될 수 있다. 이러한 소음환경에서 2개의 시작어 임계값을 적용하는 구체적인 예에 관해서는 후술하는 도 4의 실시예에서 보다 상세하게 설명하기로 한다.
임계값 결정부(303)는, 미리 정해진 소음 임계값을 이용하여 사용자발화가 소음환경에서 이루어졌는지를 식별한다. 여기서, 소음환경의 식별은, 사용자발화에 따른 소리신호의 소음특성으로서, 특정 구간에서의 전력 및 소음 임계값 간의 비교에 기초하여 이루어질 수 있다.
또한, 임계값 결정부(303)는, 미리 정해진 SNR 임계값을 이용하여 사용자발화에 따른 소리 신호의 발화특성으로서, 소음 대비 발화된 소리 신호의 비율이 특정 수준 이상인지 여부를 식별한다.
일 실시예에서 임계값 결정부(303)는, 상기와 같은 소리 신호의 소음특성과 소음 임계값 과의 비교 결과 또는 소리 신호의 발화특성과 SNR 임계값과의 임계값의 비교 결과에 기초하여, SNR 임계값을 변경할 수 있다. SNR 임계값의 변경은, 예를 들어, 그 값을 상향 조정하거나, 또는 하향 조정하는 것을 포함할 수 있다. 이러한 SNR 임계값을 변경하는 구체적인 예에 관해서는 후술하는 도 4의 실시예에서 보다 상세하게 설명하기로 한다.
음성인식 엔진(304)은 사용자발화 관한 인식 동작을 수행할 수 있도록, 시용자발화로서 수신되는 음성신호 즉, 소리신호에 대한 음성인식기능을 포함하도록 구현될 수 있다.
본 발명 일 실시예에 따른 전자장치(10)에서, 음성인식 엔진(304)은 사용자발화가 소음환경에서 이루어진 경우, 전술한 2개의 시작어 임계값에 기초한 2단계의 활성화 조건을 만족한 경우, 음성인식 기능이 활성화되어, 전자장치(10)가 수신된 소리 신호에 기초하여 사용자발화에 관한 인식 동작을 수행하도록 구현될 수 있다. 이러한 2단계의 활성화 조건에 따른 음성인식기능의 활성화가 이루어지는 구체적인 예에 관해서는 후술하는 도 4의 실시예에서 보다 상세하게 설명하기로 한다.
일 실시예에서 음성인식 엔진(304)의 음성인식기능은 하나 이상의 음성인식알고리즘을 이용하여 수행될 수 있다. 예를 들면, 음성인식 엔진(304)은 사용자발화된 음성신호로부터 음성특징을 나타내는 벡터를 추출하고, 그 추출된 벡터를 데이터베이스(151) 또는 서버(20)의 음향모델과 비교하여, 음성인식을 수행할 수 있다. 여기서, 음향모델은 미리 수행된 학습에 따른 모델인 것을 일례로 한다.
상기와 같이, 전처리부(301), 시작어 엔진(302), 임계값 결정부(304) 및 음성인식 엔진(304)로 이루어진 음성인식모듈(162)은 프로세서(160)로서 마련된 CPU에 상주하는 임베디드 타입으로 구현된 것을 예로 들어 설명하지만, 본 발명은 이에 한정되지 않는다. 그에 따라, 음성인식모듈(162)은 CPU와 별개인 전자장치(10)의 구성 예를 들면, 음성인식기능을 위한 전용 프로세서로서 마련되는 마이컴(Micro Computer)과 같은 별도의 칩으로 구현될 수 있다.
또한, 음성인식모듈(162)의 각 구성으로서 전처리부(301), 시작어 엔진(302), 임계값 결정부(304), 음성인식 엔진(304)은 일례로서 소프트웨어 블록으로 구현될 수 있으며, 경우에 따라 적어도 하나의 구성이 제외된 형태로 구현되거나, 다른 적어도 하나의 구성이 추가될 수 있다.
이하의 실시예에서, 전자장치(10)가 음성인식 기능을 수행하도록 하기 위하여, 전술한 전처리부(301), 시작어 엔진(302), 임계값 결정부(304), 음성인식 엔진(304) 중 적어도 하나에 의해 수행되는 동작들은 전자장치(10)의 프로세서(160)에 의해 수행되는 것으로 이해될 것이다.
일 실시예에서 프로세서(160)는 소리수신부(120)를 통해 수신되는 소리 신호의 소음특성을 나타내는 값이 소음 임계값(이하, 제1임계값 이라고도 한다) 보다 큰지 여부를 식별하고, 소리 신호의 발화특성을 나타내는 값이 SNR 임계값(이하, 제2임계값 이라고도 한다) 보다 큰지 여부를 식별하여, 소음 특성의 값이 제1임계값보다 크고, 발화 특성의 값이 제2임계값보다 큰 것으로 식별되면, 수신된 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행하고, 제2임계값 즉, SNR 임계값이 상향 조정되도록 할 수 있다. 여기서, 프로세서(160)는 소리 신호의 파형과 미리 정의된 시작어 패턴 간의 유사도가 제1시작어 임계값(이하, 제3임계값 이라고도 한다) 보다 큰 소리 신호 즉, 제1활성화 조건을 만족한 소리 신호에 대해, 그 소음 특성의 값 및 발화 특성의 값이 각각 제1임계값 및 제2임계값보다 큰 지 여부를 식별할 수 있다.
또한, 프로세서(160)는 수신되는 소리 신호의 소음 특성의 값이 제1임계값 이하인 것으로 식별되면, 수신된 소리 신호에 기초하여 사용자발화에 관한 인식 동작을 수행하고, 제2임계값 즉, SNR 임계값이 하향 조정되도록 할 수 있다.
또한, 프로세서(160)는 소리 신호의 발화 특성의 값이 제2임계값 이하인 것으로 식별되면, 소리 신호의 파형과 시작어 패턴 간의 유사도가 제1시작어 임계값보다 큰 제2시작어 임계값(이하, 제4임계값 이라고도 한다) 보다 큰 경우, 즉 제2활성화 조건을 만족하는 경우, 수신된 소리 신호에 기초하여 사용자발화에 관한 인식 동작을 수행할 수 있다.
일 실시예로서, 프로세서(160)의 동작은 전자장치(10)와 별도로 마련되는 컴퓨터프로그램제품(미도시)에 저장된 컴퓨터프로그램으로 구현될 수도 있다. 이 경우, 컴퓨터프로그램제품은 컴퓨터프로그램에 해당하는 인스트럭션이 저장된 메모리와, 프로세서를 포함한다. 인스트럭션은, 프로세서(160)에 의해 실행되면, 소리수신부(120)를 통해 수신되는 소리 신호의 소음특성을 나타내는 값이 제1임계값 보다 크고, 소리 신호의 발화특성을 나타내는 값이 제2임계값 보다 크면, 수신된 소리 신호에 기초하여 사용자발화에 관한 인식 동작을 수행하고, 제2임계값이 상향 조정되도록 하는 것을 포함한다. 또한, 인스트럭션은, 수신되는 소리 신호의 소음 특성을 나타내는 값이 제1임계값 이하이면, 수신된 소리 신호에 기초하여 사용자발화에 관한 인식 동작을 수행하고, 제2임계값이 하향 조정되도록 하는 것을 포함한다.
이에 따라, 전자장치(10)의 프로세서(160)는 별도의 컴퓨터프로그램제품에 저장된 컴퓨터프로그램을 다운로드 및 실행하여, 상기와 같은 인스트럭션의 동작을 수행할 수 있다.
이하, 도면들을 참조하여, 본 발명 전자장치에서 사용자발화에 관한 인식동작이 개선되도록 하는 실시예들을 설명한다.
도 4는 본 발명 일 실시예에 따른 전자장치의 제어방법을 도시한 흐름도이고, 도 5는 본 발명 일 실시예에 따른 전자장치에서 음성인식기능의 활성화를 위한 패턴 매칭을 설명하기 위한 도면이고, 도 6은 본 발명 일 실시예에 따른 전자장치의 소음특성 식별을 설명하기 위한 도면이다.
전자장치(10)는, 도 7에 도시된 바와 같이, 소리수신부(120)를 통해 소리 신호를 수신할 수 있다(401). 여기서, 수신되는 소리 신호는 사용자발화에 따른 신호일 수 있다.
프로세서(160)는, 단계 401에서 수신된 소리 신호가 음성인식기능에 대한 제1활성화 조건을 만족하는지 여부를 식별할 수 있다(402).
일 실시예에서, 프로세서(160)는, 도 5에 도시된 바와 같이, 전처리를 수행함에 따라 주변 소음 즉, 노이즈가 제거된 소리 신호와 미리 정의된 시작어 신호 사이의 패턴 매칭을 수행하여, 제1활성화 조건의 만족 여부를 식별할 수 있다.
구체적으로, 프로세서(160)는, 도 5와 같은 패턴 매칭에 기초하여, 사용자발화 즉, 소리신호의 파형과 시작어 신호 패턴 간 유사도로서 발화스코어(Score speech)를 도출하고, 아래 수학식 1를 이용하여, 도출된 발화스코어 즉, 유사도가 미리 정해진 제1시작어 임계값(WUW Threshold1) 즉, 제3임계값 보다 큰지 여부를 식별할 수 있다.
Figure pat00001
여기서, 제1시작어 임계값(제3임계값)은 소리 신호가 음성인식 기능에 대한 제1활성화 조건을 만족하는지 여부를 식별하기 위한 것으로, 사용자발화가 소음환경에서 이루어진 것인지 여부와 관계없이 적용된다.
일 실시예에서, 제1시작어 임계값은, 예를 들면, 0.1로 미리 설정될 수 있으나, 이는 일례로서 그 값이 한정되는 것은 아니다.
프로세서(160)는, 수학식 1에 의해, 발화스코어가 제1시작어 임계값 보다 큰 것으로 식별되면, 단계 401에서 입력된 소리신호가 제1활성화 조건을 만족하는 것으로 결정할 수 있다.
단계 402에서 소리 신호가 제1활성화 조건을 만족하는 것으로 결정되면, 프로세서(160)는 사용자발화에 따른 소리 신호의 소음 특성을 나타내는 값이 미리 정해진 소음 임계값 즉, 제1임계값 보다 큰지 여부를 식별할 수 있다(403). 여기서, 제1임계값은 사용자 주변이 소음 환경인지 여부를 식별하기 위한 것으로, 주변에 충분히 시끄러운 소음이 존재하는 경우의 소리 신호의 전력값에 대응하도록 미리 설정될 수 있다.
여기서, 프로세서(160)는, 단계 401에서 수신되는 소리 신호에 대해, 사용자에 의해 발화된 시작어가 포함된 구간(이하, 시작어 구간 이라고도 한다)을 식별하고, 시작어 구간 이전의 기정의된 시간 길이의 구간(이하, 소음 특성 확인 구간 이라고도 한다)에서 수신되는 소음 특성을 나타내는 값이 제1임계값보다 큰지 여부를 식별할 수 있다.
본 발명 일 실시예에 따른 전자장치(10)에서, 소리수신부(120)에 의해 스트리밍 방식으로 수신되는 소리 신호는, 도 6에 도시된 바와 같이, 선입선출(First In First Out, FIFO)의 큐(queue) 형태의 자료 구조에 연속되는 프레임 단위로 임시 저장될 수 있다. 즉, 스트리밍 소리 신호는, 다음 프레임이 수신되면, 가장 먼저 저장되었던 프레임을 밀어내는 방식으로 저장된다. 여기서, 저장되는 소리 신호의 길이는 저장 공간에 대응하여 미리 설정될 수 있으며, 예를 들면 2.5 초 길이의 신호가 저장되도록 구현될 수 있다.
일 실시예에서, 프로세서(160)는, 위와 같이 연속되는 프레임 단위로 수신 및 저장되는 스트리밍 소리 신호의 각 프레임에 대해 사용자발화에 따른 시작어가 포함되는지 여부를 모니터링할 수 있다. 프로세서(160)는, 모니터링에 기초하여, 예를 들어, 단계 402에서 설명한 바와 같이, 특정 신호 프레임에서 발화스코어가 제1시작어 임계값 보다 큰 것으로 검출되면, 해당 신호 프레임이 사용자발화 즉, 시작어를 포함하는 것으로 식별할 수 있다.
프로세서(160)는 단계 402에서 식별된 신호 프레임으로부터 기정의된 시간 길이, 예를 들면 약 1초 이전까지의 시간 구간을 시작어 구간으로 식별할 수 있다. 그리고, 프로세서(160)는 식별된 시작어 구간 이전의 기정의된 시간 길이, 예를 들면 약 1.5초의 시간 구간을 소음 특성 확인 구간으로서 식별할 수 있다.
여기서, 소음 특성 확인 구간은, 저장되는 전체 소리 신호의 시간에서 시작어 구간의 시간을 감한 시간에 대응하도록 정의될 수 있으며, 본 발명에서 시작어 구간에 대응하는 시간 길이 및 소음 특성 확인 구간의 시간 길이는 제시된 예시에 한정되지 않는다.
프로세서(160)는 소리 신호의 소음 특성으로서, 소음 특성 확인 구간의 신호 전력을 제1임계값과 비교하여, 발화 시 주변 환경이 충분히 시끄러운지 여부, 다시 말해, 사용자발화가 소음환경에서 이루어진 것인지 여부를 식별할 수 있다.
단계 403에서, 소리 신호의 소음 특성, 즉, 신호전력이 제1임계값보다 큰 것으로 식별되면, 프로세서(160)는 소리 신호의 발화 특성이 미리 정해진 SNR 임계값 즉, 제2임계값 보다 큰지 여부를 식별할 수 있다(404). 여기서, 발화 특성은 소리 신호의 소음 대비 신호비(Signal to Noise Ratio, SNR)를 포함할 수 있다.
일 실시예에서, 프로세서(160)는 소리 신호의 발화 특성으로서, 전체 소리 신호에 대한 소음 비율에 대응하는 사후 SNR(a posteriori SNR)(SNR post)을 연산하고, 아래 수학식 2를 이용하여, 연산된 사후 SNR이 미리 정해진 제2임계값 즉, SNR 임계값(SNR Threshold) 보다 큰지 여부를 식별할 수 있다.
Figure pat00002
여기서, 사후 SNR (SNR post)는 아래의 수학식 3 및 수학식 4를 이용하여 연산될 수 있다.
Figure pat00003
여기서, 프레임 p의 k번째 스펙트럼에 대하여, X(p,k)는 잡음이 포함된 전체 소리 신호를, S(p,k)는 발화 신호를, N(p,k)는 잡음 신호를 각각 나타낸다.
그에 따라, 수신된 입력 소리 신호(음성 신호) X는 수학식 3과 같이, 발화 요소 S와 잡음 요소 N의 각 프레임 p 별 k번째 스펙트럼 요소의 합으로서 나타낼 수 있다.
사후 SNR(SNR post)은, 각 프레임(p) 별로, 잡음이 포함된 전체 소리 신호 X(p,k)에 대한 잡음 즉, 노이즈 N(p,k)의 크기 비율로서 아래의 수학식 4에 의해 연산될 수 있다.
Figure pat00004
그리고, 전체 프레임에 대한 최종 사후 SNR은, 각 프레임(p) 별 사후 SNR의 평균값으로서 연산될 수 있다.
일 실시예의 전자장치(10)에 따르면, 프로세서(160)는, 단계 404에서 이렇게 연산된 최종 사후 SNR을 소리 신호의 발화 특성으로 결정하여, 발화 특성을 제2임계값(SNR Threshold)과 비교함으로써, 소음 환경에서 사용자발화가 충분히 크게 이루어졌는지 여부를 식별할 수 있게 된다.
여기서, 제2임계값 즉, SNR 임계값(SNR Threshold)은, 입력되는 소리 신호가 소음 환경에서 사용자발화에 의해 발생한 것으로 인지할 수 있는 크기에 대응하는 소정 값으로서, 그 초기값이 미리 설정될 수 있으며, 본 발명 일 실시예에서는 초기 SNR 임계값이, 예를 들어, 4로 설정될 수 있으나, 한정되는 것은 아니다.
단계 403의 식별 결과, 전자장치(10)가 충분히 시끄러운 소음 환경에서 동작하는 경우(단계 430에서 YES), 단계 402에서 사용자의 실제 발화가 아닌 주변 소음이 포함된 소리 신호를 시작어를 포함하는 것으로 잘못 인식되는 경우가 발생할 수 있다.
이를 고려하여, 본 발명 일 실시예에 따른 전자장치(10)에서는, 단계 402에서 제1활성화 조건을 만족하는 것으로 식별된 소리 신호에 대해, 단계 403에서 해당 신호의 소음 특성의 값을 제1임계값과 비교하는 방식으로 소음 환경 여부를 식별한 후, 소음 환경인 경우, 단계 404에서 그 소리 신호의 발화 특성을 제2임계값(초기 SNR 임계값)과 더 비교하게 된다.
그에 따라, 단계 404에 의해 소음 환경에서 사용자발화가 충분히 크게 이루어졌는지 여부를 더 판단하고, 그 결과에 기초하여 음성인식 동작을 수행하기 위한 트리거의 실행에 대한 제어가 이루어질 수 있다.
프로세서(160)는, 단계 404에서 소리 신호의 발화 특성의 값이 미리 정해진 제2임계값 예를 들면, 초기 SNR 임계값 보다 큰 것으로 식별된 경우, 트리거를 실행하여 전자장치(10)가 수신된 소리 신호에 기초하여 사용자발화에 관한 음성인식 동작을 수행하도록 제어한다(405). 여기서, 단계 404에서 연산된 최종 사후 SNR이, 예를 들면, 5 로서, 초기 SNR 임계값인 4 보다 큰 경우, 트리거가 실행될 수 있다.
즉, 소음 환경에서(단계 403에서 YES), 사용자발화가 충분히 크게 이루어진 것으로 식별되면(단계 404에서 YES), 프로세서(160)는 트리거를 즉시 실행함으로써, 전자장치(10)에서 음성인식 기능을 활성화시켜 수신되는 소리 신호에 대응하여 동작이 이루어질 수 있게 된다.
그리고, 프로세서(160)는 제2임계값을 미리 정해진 초기 SNR 임계값으로부터 상향 조정할 수 있다(406).
다시 말해, 본 발명 일 실시예에 따른 전자장치(10)에서, 프로세서(160)는 단계 405에서 트리거를 실행한 후, 주변 환경의 변화로서 소음 환경을 반영하도록 제2임계값을 재설정할 수 있다.
일 실시예에서, 프로세서(160)는 아래의 수학식 5에 따라, 초기 SNR 임계값(SNR Th _ init)과 단계 404에서 연산된 사후 SNR(SNR post)를 이용하여 새로운 제2임계값(SNR Threshold)을 도출할 수 있다.
Figure pat00005
예를 들어, 초기 SNR 임계값(SNR Th _ init)이 4이고, 단계 404에서 연산된 사후 SNR(SNR post)이 5인 경우, 새로운 제2임계값(SNR Threshold)은, 수학식 5에 따라 4*log_4 (5) = 4*1.16 = 4.64 로서, 4보다 큰 값을 가지도록 증가 즉, 상향 조정된다.
이렇게 상향 조정된 제2임계값은 다음 번 소리 신호의 수신에 응답하여, 해당 소리 신호에 대해 단계 404 에서 적용되는 값이 된다.
본 발명 일 실시예의 전자장치(10)에서는, 상기와 같이, 주변이 소음 환경인 경우, 그에 대응하여 트리거 실행 조건으로서의 제2임계값(SNR 임계값)을 상향 조정함으로써, 소음 환경에서 사용자에 의해 큰 소리로 발화가 이루어지도록 유도할 수 있다.
한편, 도 4에 도시된 바와 같이, 단계 404에서 소리 신호의 발화 특성의 값이 미리 정해진 제2임계값 예를 들면, 초기 SNR 임계값 이하인 것으로 식별된 경우, 프로세서(160)는, 해당 소리 신호가 제2활성화 조건을 만족하는지 여부를 더 식별할 수 있다(407).
일 실시예에서, 프로세서(160)는, 아래 수학식 6을 이용하여, 단계 401에서 도출된 소리 신호의 파형과 시작어 패턴 간 유사도로서 도출된 발화스코어가 미리 정해진 제2시작어 임계값(WUW Threshold1) 즉, 제4임계값 보다 큰 경우, 소리 신호가 제2활성화 조건을 만족하는 것으로 식별할 수 있다.
Figure pat00006
여기서, 제2시작어 임계값(WUW Threshold2)(제4임계값)은 소리 신호가 음성인식 기능에 대한 제2활성화 조건을 만족하는지 여부를 식별하기 위한 것으로, 사용자발화가 소음 환경인 경우(단계 403에서 YES)에 적용될 수 있다.
제2시작어 임계값(WUW Threshold2)(제4임계값)은, 아래 수학식 7과 같이, 단계 401에서의 제1시작어 임계값(WUW Threshold1)(제3임계값) 보다 큰 값으로 설정될 수 있다.
Figure pat00007
일 실시예에서, 예를 들어 제1시작어 임계값(제3임계값)은 0.1로, 제2시작어 임계값(제4임계값)은 0.15 로 미리 설정될 수 있으나, 이는 예를 들어 제시한 것이므로, 그 값이 한정되는 것은 아니다.
프로세서(160)는, 수학식 6에 의해, 발화스코어가 제2시작어 임계값 보다 큰 것으로 식별되면, 단계 401에서 입력된 소리신호가 제2활성화 조건을 만족하는 것으로 결정할 수 있다.
단계 407에서 소리 신호가 제2활성화 조건을 만족하는 것으로 결정되면, 프로세서(160)는 트리거를 실행하여 전자장치(10)가 수신된 소리 신호에 기초하여 사용자발화에 관한 음성인식 동작을 수행하도록 제어한다(408).
반면, 단계 407에서 소리 신호가 제2활성화 조건을 만족하지 못하는 것으로 결정되면, 즉 수학식 6에 의해 발화스코어가 제2시작어 임계값 이하인 것으로 식별되면, 프로세서(160)가 트리거를 실행하지 않으므로 전자장치(10)가 음성인식 비활성화를 유지하도록 제어된다(409).
그에 따라, 본 발명 일 실시예에 따른 전자장치(10)는, 프로세서(160)가 소음 환경인 경우(단계 403에서 YES), 입력 소리신호의 파형과 시작어 신호의 패턴의 유사도가 제1시작어 임계값 보다 크게 식별되어, 입력 소리 신호가 제1활성화 조건을 만족하더라도(단계 402에서 YES), 소리 신호가 제2활성화 조건까지 만족하는 경우에만(단계 407에서 YES) 음성인식 기능이 활성화되도록, 2단계의 활성화 조건에 기초한 제어가 이루어지게 된다.
다시 말해, 소음 환경에서는, 소리 신호와 시작어 신호 간의 패턴 매칭에 따른 유사도를 나타내는 발화스코어가, 제2시작어 임계값보다 큰 경우에만, 음성인식 기능이 활성화되므로, 단계 402에서 사용자의 실제 발화가 아닌 주변 소음을 포함하는 소리 신호가 시작어를 포함하는 것으로 잘못 인식되더라도, 단계 407에 의해 오인 동작의 가능성이 줄어들게 된다.
한편, 단계 403에서, 소리 신호의 소음 특성 즉, 신호전력이 제1임계값 이하인 것으로 식별되면, 프로세서(160)는 트리거를 실행하여 전자장치(10)가 음성인식 동작을 수행하도록 제어한다(410).
그리고, 프로세서(160)는, 제2임계값을 미리 정해진 초기 SNR 임계값으로부터 하향 조정할 수 있다(411).
다시 말해, 본 발명 일 실시예에 따른 전자장치(10)에서, 프로세서(160)는, 단계 410에서 트리거를 실행 한 후, 단계 403의 식별 결과에 대응하여 전자장치(10)가 주변이 시끄럽지 않은 환경에서 동작하는 것으로 판단되는 경우(단계 403에서 NO), 즉, 주변이 소음환경이 아닌 경우, 이를 반영하도록 제2임계값을 재설정할 수 있다.
일 실시예에서, 프로세서(160)는, 단계 404에서 설명한 바 있는 소리 신호의 발화 특성으로서 전체 소리 신호에 대한 소음 비율에 대응하는 사후 SNR (SNR post)를 연산하고, 전술한 수학식 5에 따라 연산된 사후 SNR과 초기 SNR 임계값을 이용하여 새로운 제2임계값(SNR Threshold)을 도출할 수 있다. 여기서, 주변이 소음환경이 아니므로, 연산된 최종 사후 SNR은 단계 404에서의 경우 보다 작은 값으로 도출되게 되며, 예를 들면 2 가 될 수 있다.
일례로서, 초기 SNR 임계값(SNR Th _ init)이 4.16 이고, 연산된 사후 SNR (SNR post)이 2인 경우, 새로운 제2임계값(SNR Threshold)은, 수학식 5에 따라 4.16*log_4.16 (2) = 4.16*0.49 = 2.02 로서, 4보다 작은 값을 가지도록 감소 즉, 하향 조정된다.
본 발명 일 실시예의 전자장치(10)에서는, 상기와 같이, 주변이 소음 환경이 아닌 경우, 그에 대응하여 트리거 실행 조건으로서의 제2임계값(SNR 임계값)을 하향 조정함으로써, 소음 환경이 아닌 경우, 사용자에 의해 작은 소리로 발화가 이루어져도 즉각적인 음성인식이 가능하도록 동작할 수 있다.
한편, 도 4에 도시된 바와 같이, 단계 402에서 소리 신호가 제1활성화 조건을 만족하지 못하는 것으로 결정되면, 즉 수학식 1에 의해 소리 신호와 시작어 신호 간의 유사성을 나타내는 발화스코어가 제1시작어 임계값 이하인 것으로 식별되면, 프로세서(160)는 트리거를 실행하지 않으므로, 전자장치(10)가 음성인식 비활성화를 유지하도록 제어될 수 있다(412).
상기와 같은 본 발명 일 실시예에 따른 전자장치(10)에서는, 사용자발화에 따른 소리 신호가 제1활성화 조건을 만족하더라도, 소음 환경에서는, 소리 신호의 발화 특성인 소음 대비 신호비(SNR)가 SNR 임계값 이하로서 사용자발화가 소음 대비 충분히 크게 이루어지지 않은 경우, 소리 신호가 제2활성화 조건을 만족하는지 여부를 추가로 식별함으로써, 음성인식 기능에 대해 2단계의 활성화 조건을 적용하게 된다.
그에 따라, 전자장치(10)가 소음 환경에서 사용자의 실제 발화가 아닌 주변 소음이 포함된 소리신호를 시작어를 포함하는 것으로 잘못 인식하는 경우와 같은, 오동작의 발생을 감소시킬 수 있다.
또한, 본 발명 일 실시예에 따른 전자장치(10)에서는 소음 환경에서 소리 신호의 발화 특성인 소음 대비 신호비(SNR)가 SNR 임계값 보다 큰 경우, 즉 사용자발화가 소음 대비 충분히 크게 이루어진 경우, SNR 임계값을 보다 상향되게 조정하여, 소음 환경에서 사용자로 하여금 큰 소리로 시작어를 발화하도록 유도함으로써, 동작의 정확성을 향상시키는 효과를 기대할 수 있게 된다.
또한, 본 발명 일 실시예에 따른 전자장치(10)에서는, 주변이 소음 환경이 아닌 경우, SNR 임계값을 보다 하향되게 조정함으로써, 조용한 환경에서는 그 환경 변화에 따른 전자장치(10)의 즉각적인 동작이 이루어지도록 할 수 있다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며 특허청구범위 내에서 다양하게 실시될 수 있다.
10 : 전자장치 20 : 서버
110 : 출력부 120 : 소리수신부
140 : 인터페이스부 141 : 유선 인터페이스부
142 : 무선 인터페이스부 150 : 저장부
151 : 데이터베이스 160 : 프로세서
161 : 신호처리부 162 : 음성인식모듈

Claims (20)

  1. 전자장치에 있어서,
    소리수신부; 및
    상기 소리수신부를 통해 수신되는 소리 신호의 소음 특성을 나타내는 값이 제1임계값보다 크고,
    상기 소리 신호의 발화 특성을 나타내는 값이 제2임계값보다 크면,
    상기 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행하고, 상기 제2임계값이 상향되도록 조정하는
    프로세서를 포함하는 전자장치.
  2. 제1항에 있어서,
    상기 발화 특성은, 상기 소리 신호의 소음 대비 신호비를 포함하는 전자장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 소리 신호의 각 프레임 별로, 소리 신호에 대한 잡음의 크기 비율을 연산하고, 상기 연산된 각 프레임 별 비율의 평균값을 상기 발화 특성의 값으로 결정하는 전자장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 소리 신호에 미리 정의된 시작어가 포함되어 있는지 여부를 식별하고,
    상기 시작어가 포함된 것으로 식별되는 소리 신호의 상기 소음 특성의 값이 상기 제1임계값보다 큰지 여부를 식별하는 전자장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 소리 신호의 파형과, 미리 정의된 시작어 패턴 간의 유사도에 기초하여 상기 소리 신호에 상기 시작어가 포함되어 있는지 여부를 식별하는 전자장치.
  6. 제5항에 있어서,
    상기 유사도의 임계값은 음향 모델을 이용한 학습 알고리즘에 기반하여 미리 설정되는 전자장치.
  7. 제5항에 있어서,
    상기 프로세서는,
    상기 유사도가 제3임계값보다 큰 소리 신호의 상기 발화 특성의 값이 상기 제2임계값 이하이면, 상기 유사도가 상기 제3임계값보다 큰 제4임계값을 만족하는 상기 소리 신호에 기초하여 상기 사용자 발화에 관한 인식 동작을 수행하는 전자장치.
  8. 제5항에 있어서,
    상기 프로세서는,
    상기 시작어가 포함된 구간 이전에 기정의된 시간 길이의 구간에 수신되는 소리 신호의 상기 소음 특성의 값이 상기 제1임계값보다 큰지 여부를 식별하는 전자장치.
  9. 제7항에 있어서,
    상기 프로세서는,
    상기 기정의된 시간 길이의 구간에 수신되는 소리 신호의 전력값을 상기 제1임계값과 비교하는 전자장치.
  10. 제1항에 있어서,
    상기 프로세서는, 상기 소음 특성의 값이 상기 제1임계값 이하이면, 상기 제2임계값이 하향되도록 조정하는 전자장치.
  11. 전자장치의 제어방법에 있어서,
    소리수신부를 통해 수신되는 소리 신호에서 소음 특성을 획득하는 단계;
    상기 소리 신호에서 발화 특성을 획득하는 단계; 및
    상기 소음 특성을 나타내는 값이 상기 제1임계값보다 크고, 상기 발화 특성을 나타내는 값이 상기 제2임계값보다 크면, 상기 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행하고, 상기 제2임계값이 상향되도록 조정하는 단계;
    를 포함하는 전자장치의 제어방법.
  12. 제11항에 있어서,
    상기 발화 특성은, 상기 소리 신호의 소음 대비 신호비를 포함하는 전자장치의 제어방법.
  13. 제12항에 있어서,
    상기 소리 신호의 각 프레임 별로, 소리 신호에 대한 잡음의 크기 비율을 연산하고, 상기 연산된 각 프레임 별 비율의 평균값을 상기 발화 특성의 값으로 결정하는 단계를 더 포함하는 전자장치의 제어방법.
  14. 제11항에 있어서,
    상기 소리 신호에 미리 정의된 시작어가 포함되어 있는지 여부를 식별하는 단계; 및
    상기 시작어가 포함된 것으로 식별되는 소리 신호의 상기 소음 특성의 값이 상기 제1임계값보다 큰지 여부를 식별하는 단계를 더 포함하는 전자장치의 제어방법.
  15. 제14항에 있어서,
    상기 시작어가 포함되어 있는지 여부를 식별하는 단계는,
    상기 소리 신호의 파형과, 미리 정의된 시작어 패턴 간의 유사도에 기초하여 상기 소리 신호에 상기 시작어가 포함되어 있는지 여부를 식별하는 전자장치의 제어방법.
  16. 제15항에 있어서,
    상기 유사도의 임계값은 음향 모델을 이용한 학습 알고리즘에 기반하여 미리 설정되는 전자장치의 제어방법.
  17. 제15항에 있어서,
    상기 유사도가 제3임계값보다 큰 소리 신호의 상기 발화 특성의 값이 상기 제2임계값 이하이면, 상기 유사도가 상기 제3임계값보다 큰 제4임계값을 만족하는 상기 소리 신호에 기초하여 상기 사용자 발화에 관한 인식 동작을 수행하는 단계를 더 포함하는 전자장치의 제어방법.
  18. 제15항에 있어서,
    상기 시작어가 포함된 구간 이전에 기정의된 시간 길이의 구간에 수신되는 소리 신호의 상기 소음 특성의 값이 상기 제1임계값보다 큰지 여부를 식별하는 단계를 더 포함하는 전자장치의 제어방법.
  19. 제11항에 있어서,
    상기 소음 특성의 값이 제1임계값 이하이면, 상기 제2임계값이 하향되도록 조정하는 단계를 더 포함하는 전자장치의 제어방법.
  20. 컴퓨터가 읽을 수 있는 코드로서, 전자장치의 제어방법을 수행하는 코드를 포함하는 컴퓨터 프로그램이 저장된 기록매체에 있어서, 상기 전자장치의 제어방법은,
    소리수신부를 통해 수신되는 소리 신호에서 소음 특성을 획득하는 단계;
    상기 소리 신호에서 발화 특성을 획득하는 단계; 및
    상기 소음 특성을 나타내는 값이 상기 제1임계값보다 크고, 상기 발화 특성을 나타내는 값이 상기 제2임계값보다 크면, 상기 소리 신호에 기초하여 사용자 발화에 관한 인식 동작을 수행하고, 상기 제2임계값이 상향되도록 조정하는 단계;
    를 포함하는 컴퓨터가 읽을 수 있는 프로그램이 기록된 기록매체.
KR1020190170363A 2019-12-19 2019-12-19 전자장치 및 그 제어방법 KR20210078682A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190170363A KR20210078682A (ko) 2019-12-19 2019-12-19 전자장치 및 그 제어방법
PCT/KR2020/018442 WO2021125784A1 (ko) 2019-12-19 2020-12-16 전자장치 및 그 제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190170363A KR20210078682A (ko) 2019-12-19 2019-12-19 전자장치 및 그 제어방법

Publications (1)

Publication Number Publication Date
KR20210078682A true KR20210078682A (ko) 2021-06-29

Family

ID=76476805

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190170363A KR20210078682A (ko) 2019-12-19 2019-12-19 전자장치 및 그 제어방법

Country Status (2)

Country Link
KR (1) KR20210078682A (ko)
WO (1) WO2021125784A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023282392A1 (ko) * 2021-07-05 2023-01-12 삼성전자주식회사 전자 장치 및 그 제어 방법
US11948569B2 (en) 2021-07-05 2024-04-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047857B1 (en) * 2012-12-19 2015-06-02 Rawles Llc Voice commands for transitioning between device states
KR102420450B1 (ko) * 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
US20170256270A1 (en) * 2016-03-02 2017-09-07 Motorola Mobility Llc Voice Recognition Accuracy in High Noise Conditions
WO2018174310A1 (ko) * 2017-03-22 2018-09-27 삼성전자 주식회사 잡음 환경에 적응적인 음성 신호 처리방법 및 장치
KR102505719B1 (ko) * 2016-08-12 2023-03-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023282392A1 (ko) * 2021-07-05 2023-01-12 삼성전자주식회사 전자 장치 및 그 제어 방법
US11948569B2 (en) 2021-07-05 2024-04-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
WO2021125784A1 (ko) 2021-06-24

Similar Documents

Publication Publication Date Title
US11470382B2 (en) Methods and systems for detecting audio output of associated device
US10553219B2 (en) Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium
US10321204B2 (en) Intelligent closed captioning
EP3190512B1 (en) Display device and operating method therefor
KR102210433B1 (ko) 전자 장치 및 이의 음성 인식 방법
US11651769B2 (en) Electronic device and operating method thereof
WO2020048216A1 (zh) 音效调整方法、装置、电子设备以及存储介质
KR20200052638A (ko) 전자 장치 및 전자 장치의 음성 인식 방법
US10867603B2 (en) Audio-video reproduction device setup using interview-based voice control
KR20210078682A (ko) 전자장치 및 그 제어방법
KR20210025812A (ko) 전자장치, 디스플레이장치 및 그 제어방법
KR20210087760A (ko) 전자장치 및 그 제어방법
US11462214B2 (en) Electronic apparatus and control method thereof
US11688397B2 (en) Electronic apparatus and method of controlling the same
US11942089B2 (en) Electronic apparatus for recognizing voice and method of controlling the same
KR20200080369A (ko) 디스플레이장치, 그 제어방법 및 기록매체
KR20210054246A (ko) 전자장치 및 그 제어방법
KR102124396B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
EP3842924A1 (en) Electronic apparatus and control method thereof
KR102594683B1 (ko) 전자 장치 및 이의 음성 인식 방법
US20220165263A1 (en) Electronic apparatus and method of controlling the same
EP4191577A1 (en) Electronic device and control method therefor
KR102051480B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR20230075781A (ko) 오디오신호 처리를 위한 전자장치 및 그 제어방법
KR20210065308A (ko) 전자장치 및 그 제어방법