KR102469753B1 - 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 - Google Patents

음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 Download PDF

Info

Publication number
KR102469753B1
KR102469753B1 KR1020170163693A KR20170163693A KR102469753B1 KR 102469753 B1 KR102469753 B1 KR 102469753B1 KR 1020170163693 A KR1020170163693 A KR 1020170163693A KR 20170163693 A KR20170163693 A KR 20170163693A KR 102469753 B1 KR102469753 B1 KR 102469753B1
Authority
KR
South Korea
Prior art keywords
signal
sound
received
registration
voice recognition
Prior art date
Application number
KR1020170163693A
Other languages
English (en)
Other versions
KR20190064270A (ko
Inventor
임현택
김상윤
이경민
한창우
김남훈
류종엽
박치연
이재원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170163693A priority Critical patent/KR102469753B1/ko
Priority to US16/202,932 priority patent/US10984790B2/en
Priority to PCT/KR2018/014888 priority patent/WO2019107945A1/en
Priority to EP18882512.9A priority patent/EP3676830B1/en
Priority to CN201880077091.5A priority patent/CN111418008B/zh
Publication of KR20190064270A publication Critical patent/KR20190064270A/ko
Application granted granted Critical
Publication of KR102469753B1 publication Critical patent/KR102469753B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/801Details
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/805Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal
    • G01S3/8055Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal adjusting orientation of a single directivity characteristic to produce maximum or minimum signal
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/28Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves by co-ordinating position lines of different shape, e.g. hyperbolic, circular, elliptical or radial
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • G06F3/03547Touch pads, in which fingers can move on a surface
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

웨이크업 키워드에 기초한 음성 인식 디바이스에 있어서, 제 1 음원으로부터 음향 신호를 수신하는 마이크로폰, 및 수신된 음향 신호를 기반으로, 제 1 음원의 방향을 결정하고, 제 1 음원의 방향이 등록 방향인지를 판단하고, 제 1 음원의 방향이 등록 방향인지 여부에 기초하여, 음향 신호가 웨이크업 키워드를 포함하는지 여부에 상관없이 음향 신호로부터 음성을 인식하는 제어부를 포함하는, 일 실시예에 따른 음성 인식 디바이스가 개시된다.

Description

음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 {method of providing a service based on a location of a sound source and a speech recognition device thereof}
본 개시는, 사용자의 음성 신호로부터 사용자의 의도를 파악하고, 사용자가 원하는 서비스를 제공하는 방법 및 이를 위한 장치에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
이 중, 음성 인식 분야는 빠르게 발전하고 있으며, 사용자의 음성 신호로부터 사용자의 의도를 판단하고, 사용자가 원하는 서비스를 제공하는 음성 인식 디바이스가 상용화되고 있다. 이러한 음성 인식 디바이스를 보다 편리하게 사용하기 위한 방법이 필요하며, 사용자의 의도를 정확하게 판단하는 기술이 요구된다.
일부 실시예는, 음원의 위치에 기초하여, 서비스를 제공할지 여부를 판단하는 방법 및 디바이스를 제공할 수 있다.
일부 실시예는, 음원 주변의 상황을 고려하여 서비스를 제공하는 방법 및 디바이스를 제공할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 1 측면은, 웨이크업 키워드에 기초한 음성 인식 디바이스에 있어서, 제 1 음원으로부터 음향 신호를 수신하는 마이크로폰; 및 수신된 음향 신호를 기반으로, 제 1 음원의 방향을 결정하고, 제 1 음원의 방향이 등록 방향인지를 판단하고, 제 1 음원의 방향이 등록 방향인지 여부에 기초하여, 음향 신호가 웨이크업 키워드를 포함하는지 여부에 상관없이 음향 신호로부터 음성을 인식하는 제어부를 포함하는, 음성 인식 디바이스를 제공할 수 있다.
또한, 마이크로폰은, 제 1 사용자로부터 출력되는 음성 신호와 함께, 제 2 음원으로부터 출력되는 음향 신호를 수신하고, 제어부는, 제 2 음 원으로의 방향이 음영 방향인지를 판단하고, 제 2 음원으로의 방향이 음영 방향인 경우, 제 2 음원으로부터 출력되는 음향 신호는 인식하지 않을 수 있다.
또한, 제어부는, 복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 복수의 방향 각각에서 노이즈 신호가 수신되는지를 결정하고, 복수의 방향 중 노이즈 신호가 기준 시간 이상 수신되는 방향을 음영 방향으로 결정할 수 있다.
또한, 제어부는, 노이즈 신호가 기준 시간 이상 수신되는 시간 구간을 결정하고, 시간 구간에 대응하여 노이즈 신호가 수신되는 방향을 음영 방향으로 결정할 수 있다.
또한, 음성 인식 디바이스는 등록 방향에 대응하여 등록 방향에 위치하는 홈 디바이스의 식별 정보를 저장하는 저장부를 더 포함하고, 제어부는, 제 1 사용자로의 방향이 등록 방향인 것으로 판단됨에 따라, 제 1 사용자로부터 수신된 음성 신호와 함께 등록 방향에 대응하는 홈 디바이스의 식별 정보에 기초하여, 제 1 사용자에게 음성 인식 서비스를 제공할 수 있다.
또한, 음성 인식 디바이스는, 복수의 방향을 나타내는 복수의 발광 소자를 포함하고, 제어부는, 복수의 발광 소자 중 등록 방향에 대응하는 발광 소자를 나머지 발광 소자와 구별하여 발광시킬 수 있다.
또한, 음성 인식 디바이스는 복수의 방향에 대응하는 복수의 터치 소자를 포함하는 사용자 입력부를 더 포함하고, 제어부는, 복수의 터치 소자 중 제 1 방향에 대응하는 터치 소자를 터치하는 사용자 입력을 수신함에 따라, 제 1 방향을 등록 방향으로 결정할 수 있다.
또한, 제어부는, 복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 복수의 방향 각각에 대응하여 웨이크업 키워드가 수신되는 빈도를 결정하고, 복수의 방향 중 결정된 빈도가 임계값 이상인 방향을 등록 방향으로 결정할 수 있다.
또한, 마이크로폰은, 제 1 사용자로부터 출력되는 음성 신호와 함께, 제 1 사용자와 다른 제 2 사용자로부터 출력되는 음성 신호를 수신하고, 제어부는, 제 1 사용자로의 방향에 대응하는 우선 순위가 제 2 사용자로의 방향에 대응하는 우선 순위 보다 높은 경우, 제 2 사용자로부터 출력된 음성 신호를 제외한 제 1 사용자로부터 출력된 음성 신호만을 인식할 수 있다.
또한, 제 1 사용자로부터 출력되는 음성 신호는 제 1 음성 신호 및 제 2 음성 신호를 포함하고, 제어부는, 제 2 음성 신호로의 방향이 제 1 음성 신호로의 방향으로부터 임계 각도 이내인지 여부에 기초하여, 제 2 음성 신호로의 방향이 등록 방향이 아니더라도, 제 2 음성 신호가 웨이크업 키워드를 포함하는지 여부에 상관없이 제 2 음성 신호를 인식할 수 있다.
또한, 제어부는, 제 1 음원의 방향이 등록 방향의 임계 각도 이내인지를 판단함으로써, 제 1 음원의 방향이 등록 방향인지를 판단할 수 있다.
또한, 제어부는, 제 1 음원의 방향의 변화도를 결정하고, 결정된 변화도가 임계 각도 이내인지를 판단함으로써, 제 1 음원의 방향이 등록 방향의 임계 각도 이내인지를 판단할 수 있다.
도 1 은, 일부 실시예에 따른, 디바이스가 음성 인식 서비스를 제공하는 방법을 도시한다.
도 2는, 일부 실시예에 따른, 디바이스가 음원의 위치를 결정하는 방법을 도시한다.
도 3은 일부 실시예에 따른, 디바이스가 음성 신호의 방향을 나타내는 방법을 도시한다.
도 4는 일부 실시예에 따른, 디바이스(1000)가 인공 지능 서버(3000)와 연동하여 음성 인식 서비스를 제공하는 방법을 도시한다.
도 5은 일부 실시예에 따른, 디바이스(1000)가 음향의 방향에 기초하여 음성 인식 서비스를 제공하는 방법의 흐름도를 도시한다.
도 6은 일부 실시예에 따른, 디바이스가 등록 방향을 설정 또는 해제하는 방법을 도시한다.
도 7은 일부 실시예에 따른, 디바이스가 음영 방향을 설정 또는 해제하는 방법을 도시한다.
도 8은 다른 실시예에 따른, 디바이스가 등록 방향 또는 음영 방향을 설정 또는 해제하는 방법을 도시한다.
도 9는 일부 실시예에 따른, 디바이스(1000)가 음성 인식 서비스가 요청된 빈도수에 기초하여 등록 방향 또는 음영 방향을 결정하는 방법의 흐름도이다.
도 10은 일부 실시예에 따른, 디바이스(1000)가 복수의 방향에 대응하여 음성 인식 서비스가 요청된 빈도를 디스플레이하는 방법을 도시한다.
도 11은 일부 실시예에 따른, 디바이스에 저장되는 등록 방향 및 음영 방향에 대한 정보를 도시한다.
도 12는 일부 실시예에 따른, 디바이스가 수신되는 음향 신호의 특징에 기초하여 음영 방향을 설정하는 방법의 흐름도이다.
도 13a, 13b 및 14는, 일부 실시예에 따른, 디바이스(1000)가 수신되는 음향 신호의 특성에 기초하여 음영 방향을 설정하는 방법을 도시한다.
도 15는, 일부 실시예에 따른, 음영 방향에 위치하는 음원으로부터 수신된 음향 신호에 대한 처리 방법의 흐름도이다.
도 16는, 일부 실시예에 따른, 음영 방향에 위치하는 음원으로부터 수신된 음향 신호에 대한 처리 방법을 도시한다.
도 17은 일부 실시예에 따른, 디바이스가 우선 순위에 기초하여, 음성 인식 서비스를 제공하는 방법의 흐름도이다.
도 18은 일부 실시예에 따른, 디바이스가 우선 순위에 기초하여, 음성 인식 서비스를 제공하는 방법을 도시한다.
도 19는 일부 실시예에 따른, 디바이스(1000)가 음성 신호의 방향에 위치한 홈 디바이스(2000)의 기능을 고려하여 음성 인식 서비스를 제공하는 방법의 흐름도이다.
도 20은 일부 실시예에 따른, 디바이스가 모바일 디바이스를 이용하여 방향에 대응하여 저장된 정보를 제공하는 방법을 도시한다.
도 21은 일부 실시예에 따른, 디바이스가 홈 디바이스의 기능을 고려하여 음성 인식 서비스를 제공하는 방법을 도시한다.
도 22는 일부 실시예에 따른, 디바이스가 음성 신호의 방향에 기초하여 제어할 장치를 선택하는 방법을 도시한다.
도 23은 일부 실시예에 따른, 디바이스가 방향 범위에 대응하여 홈 디바이스 또는 장소 정보를 저장하는 방법을 도시한다.
도 24는 일부 실시예에 따른, 기준 거리 내에 위치하는 복수의 디바이스가 등록 방향을 설정하는 방법을 도시한다.
도 25는 일부 실시예에 따른, 디바이스가 음원의 이동 경로를 고려하여, 음성 인식 서비스를 제공하는 방법의 흐름도이다.
도 26은 일부 실시예에 따른, 디바이스가 음원의 이동 경로를 고려하여, 음성 인식 서비스를 제공하는 방법을 도시한다.
도 27은 일부 실시예에 따른, 디바이스가 디바이스의 방향 또는 기울기 정도에 기초하여, 등록 방향을 변경하는 방법을 도시한다.
도 28 및 도 29는 일부 실시예에 따른 디바이스의 블록도이다.
도 30은 일부 실시예에 따른 인공 지능 서버의 블록도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
명세서 전체에서, 음향의 방향 또는 음성의 방향이란, 디바이스로부터 음원으로의 방향을 의미할 수 있다.
도 1 은, 일부 실시예에 따른, 디바이스(1000)가 음성 인식 서비스를 제공하는 방법을 도시한다.
도 1의 (a)를 참조하면, 디바이스(1000)는 웨이크업 키워드에 기초하여 사용자(10)가 음성 인식 서비스를 제공받기를 원하는지 여부를 판단할 수 있다.
예를 들어, 사용자(10)가 "빅스비, 오늘 날씨 알려줘"라는 말을 하였고,, "빅스비"가 디바이스(1000)에 기 결정되어있는 웨이크업 키워드인 경우, 디바이스(1000)는 인공 지능 서버로부터 오늘의 날씨에 관한 정보를 수신하여 사용자(10)에게 제공할 수 있다.
반면, 사용자(10)가 "빅스비"라는 웨이크업 키워드 없이, "오늘 날씨 알려줘"라는 말을 한 경우, 디바이스(1000)는 웨이크업 키워드가 수신되지 않았으므로 어떠한 음성 인식 서비스도 제공하지 않을 수 있다.
웨이크업 키워드에 기초하여 사용자(10)가 음성 인식 서비스를 제공받기를 원하는지 여부를 판단하는 경우, 사용자(10)는 디바이스(1000)에게 음성 인식 서비스를 요청하기 전에 반드시 웨이크업 키워드를 말해야 하는 불편함이 있다.
도 1의 (b)를 참조하면, 디바이스(1000)는 등록 방향으로부터 수신된 음성 신호인 경우, 웨이크업 키워드가 수신되지 않더라도 수신된 음성 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
예를 들어, 사용자(10)가 "오늘 날씨 알려줘"라는 말을 한 경우, 디바이스(1000)는 수신된 음성 신호의 방향(110)을 판단할 수 있다. 음성 신호의 방향 또는 음향 신호의 방향이란, 디바이스(1000)로부터 음원으로의 방향을 의미할 수 있다. 수신된 음성 신호의 방향(110)이 등록 방향인 경우, 디바이스(1000)는 웨이크업 키워드가 수신되지 않더라도, "오늘 날씨 알려줘"라는 문장을 인공 지능 서버에게 전송하고, 인공 지능 서버로부터 오늘의 날씨에 관한 정보를 수신하여 사용자(10)에게 제공할 수 있다.
또한, 실시예에 따라, 디바이스(1000)는 등록 방향에 대응하는 방향 키워드를 웨이크업 키워드로써 결정할 수도 있다. 예를 들어, 디바이스(1000)는 수신된 음성 신호의 방향(110)이 등록 방향이 아니며, 수신된 음성 신호가 기 설정된 웨이크업 키워드를 포함하지 않더라도, 수신된 음성 신호가 등록 방향에 대응하는 방향 키워드를 포함하는 경우, 수신된 음성 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
예를 들어, 디바이스(1000)는 0도를 등록 방향으로 설정하는 사용자 입력을 수신할 수 있다. 이 경우, 디바이스(1000)는 등록 방향으로 설정된 0도에 대응하는 방향 키워드를 나타내는 음향 신호를 출력할 수 있다. 예를 들어, 디바이스(1000)가 0도를 나타내는 방향 키워드로써 "영도" 또는 "정면"을 저장하고 있는 경우, "영도 또는 정면이 등록 방향으로 설정되었습니다" 라는 음향 신호를 출력할 수 있다.
이 후, 디바이스(1000)가 "정면! 티비 켜줘!"라는 음성 신호를 수신했을 때, 음성 신호의 방향이 등록 방향이 아닌 90도이며, 기 설정된 웨이크업 키워드인 "빅스비"를 포함하지 않더라도, 디바이스(1000)는 "정면"이라는 방향 키워드를 검출함에 따라, 수신된 음성 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
도 2는, 일부 실시예에 따른, 디바이스(1000)가 음원(10)의 위치를 결정하는 방법을 도시한다.
도 2를 참조하면, 디바이스(1000)는 복수의 마이크로폰(1620)를 이용하여, 음원(10)의 3 차원 위치를 산출할 수 있다.
예를 들어, 디바이스(1000)는 디바이스(1000) 내에 구비된 복수의 마이크로폰(1620) 중 서로 다른 조합의 두 개의 마이크의 쌍을 선택하고, 각각의 마이크의 쌍에 대응하여, 음향 신호의 시간 지연들을 산출할 수 있다. 디바이스(1000)는 산출된 시간 지연들 및 복수의 마이크로폰(1620)의 위치에 기초하여 음원(10)의 3 차원 위치를 산출할 수 있다. 이러한 방법의 대표적인 알고리즘으로 GCC-PHAT(Generalized cross-correlation with the phase transform)이 있다.
또한, 예를 들어, 디바이스(1000)는 복수의 마이크로폰(1620)를 이용하여 음향 신호를 수신하고, 복수의 마이크로폰(1620) 각각에 대응하여 음향 신호를 음향 데이터로 변경할 수 있다. 디바이스(1000)는 수신된 음향 신호가 특정 방향에서 수신되었다는 가정하에, 복수의 마이크로폰(1620) 각각에 대하여 시간 지연을 산출하고, 복수의 마이크로폰(1620) 각각에 대응하는 음향 데이터를 이에 대응하는 시간 지연만큼 이동 시킨 후 더하여 빔포밍 파워 출력(beamforming power output)을 산출할 수 있다. 이 경우, 가정된 방향이 실제 음원(10)의 방향일 때 음향 데이터를 더한 값이 최대가 되므로, 디바이스(1000)는 모든 가능한 방향에 대하여 빔포밍 파워 출력을 산출하고, 빔포밍 파워 출력이 최대가 되는 방향을 음원(10)의 방향으로 결정할 수 있다. 이러한 방법의 대표적인 알고리즘으로 SRP-PHAT(Steered Response Power with the phase transform)이 있다.
디바이스(1000)는 SRP-PHAT 알고리즘을 이용하여 복수의 음원(10)으로부터 출력된 음향 신호들이 동시에 수신되더라도, 복수의 음원(10) 각각의 방향을 결정할 수 있다. 예를 들어, 빔포밍 파워 출력이 임계값 이상인 방향이 복수개인 경우, 빔포밍 파워 출력이 임계값 이상인 방향 각각에서 음원이 존재하는 것으로 판단할 수 있다.
또한, 디바이스(1000)는 복수의 음원으로부터 출력된 음향 신호들이 동시에 수신되더라도, SRP-PHAT 알고리즘을 이용하여 복수의 음원(10) 각각에 대응하는 음향 신호를 검출할 수 있다. 즉, 제 1 음원으로부터 출력된 음향 신호와 제 2 음원으로부터 출력된 음향 신호가 동시에 수신되더라도, 디바이스(1000)는 수신된 음향 신호로부터 제 1 음원 및 제 2 음원의 위치뿐만 아니라, 제 1 음원이 출력한 음향 신호 및 제 2 음원이 출력한 음향 신호를 구별하여 검출할 수 있다.
이에 따라, 디바이스(1000)는 복수의 마이크로폰(1620)의 위치에 기초하여 음원(10)의 3 차원 좌표를 결정할 수 있으며, 수신되는 음향 신호에 기초하여, 3 차원 좌표의 원점을 기준으로 음원(10)까지의 거리(210), 음원(10)의 방위각(Θ) 및 음원(10)의 고도(Φ)를 산출할 수 있다. 또한, 디바이스(1000)는 음원(10)의 3 차원 위치가 제 1 평면(예를 들어, z-y 평면)에 투영되었을 때, 제 1 평면에 투영된 위치의 방향(220)을 음원(10)의 방향으로 결정할 수 있다.
이후 실시예에서, 음원(10)의 방향은 하나의 평면에 투영된 위치의 방향을 의미하는 것으로 기술하였으나, 실시예에 따라, 3 차원 좌표의 원점으로부터 음원(10)으로의 방향(Do)을 의미할 수도 있다.
도 3은 일부 실시예에 따른, 디바이스(1000)가 음성 신호의 방향을 나타내는 방법을 도시한다.
도 3을 참조하면, 디바이스(1000)는 음성 신호를 수신함에 따라, 수신된 음성 신호의 방향을 결정하고, 결정된 방향을 나타낼 수 있다.
디바이스(1000)는 전체 방향을 복수개의 방향 범위로 분할하고, 각각의 방향 범위에 대응하는 각도를 결정할 수 있다. 예를 들어, 디바이스(1000)는, 기준 방향(310)을 0도 설정하였을 때, 0도에서 90도까지를 제 1 방향 범위, 90도부터 180도까지를 제 2 방향 범위, 180도부터 270도까지를 제 3 방향 범위 및 270도부터 360도까지를 제 4 방향 범위로써 저장할 수 있다. 기준 방향(310)은 디바이스 내에 기 설정되어 있을 수 있다.
복수의 방향 범위는 제품 생산 시에 디바이스(1000)에 미리 저장되어 있을 수 있으며, 사용자에 의해 설정될 수도 있다. 예를 들어, 디바이스(1000)는 360도를 4분할 또는 12분할하는 사용자 입력을 수신함에 따라, 4개의 방향 범위 또는 12개의 방향 범위를 결정할 수 있다.
또한, 디바이스(1000)는 복수의 방향 범위를 나타내는 표시자를 구비할 수 있다. 예를 들어, 디바이스(1000)의 상단 면에 하나의 중심에서 교차되는 복수의 선이 표시됨으로써, 복수의 방향 범위에 대응하는 복수의 영역이 표현될 수 있다.
또한, 디바이스(1000)는 복수의 방향 범위에 대응하는 복수개의 발광 소자를 구비할 수 있다. 예를 들어, 디바이스(1000)는 복수의 영역 중 제 1 방향 범위에 대응하는 영역에 제 1 발광 소자(1210)를 구비할 수 있다. 복수개의 발광 소자는 LED(Light Emitting Diode) 또는 디스플레이 패널 등을 포함할 수 있으나, 이에 제한되지 않는다. 또한, 복수개의 발광 소자는 복수의 방향 범위 각각에 대응되어 배치될 수 있으며, 터치 패드와 레이어 구조를 이루어 터치 스크린으로 구성될 수도 있다.
디바이스(1000)는 음성 신호의 방향에 대응하는 발광 소자를 나머지 발광 소자와 구별하여 발광시킬 수 있다.
예를 들어, 디바이스(1000)는 수신된 음성 신호의 방향을 결정할 수 있다. 수신된 음성 신호의 방향이 결정됨에 따라, 복수의 방향 범위 중 수신된 음성 신호의 방향이 속하는 방향 범위를 결정할 수 있다. 예를 들어, 수신된 음성 신호의 방향이 80도인 경우, 수신된 음성 신호가 0도에서 90도까지를 나타내는 제 1 방향 범위에 속하는 것으로 결정할 수 있다. 디바이스(1000)는 제 1 방향 범위에 대응하는 발광 소자(1210)를 깜박거리거나, 나머지 발광 소자와 구별하여 표현함으로써 수신된 음성 신호의 방향을 나타낼 수 있다.
디바이스(1000)는 수신되는 음성 신호의 방향이 등록 방향인지 여부에 상관없이, 수신된 음성 신호의 방향을 항상 나타낼 수 있다. 또한, 실시예에 따라, 디바이스(1000)는 등록 방향으로부터 음성 신호가 수신되는 경우에만, 수신된 음성 신호의 방향을 나타낼 수 있다. 또한, 실시예에 따라, 디바이스(1000)는 음성 신호의 방향이 등록 방향인 경우와 등록 방향이 아닌 경우를 구별하여 나타낼 수 있다.
도 4는 일부 실시예에 따른, 디바이스(1000)가 인공 지능 서버(3000)와 연동하여 음성 인식 서비스를 제공하는 방법을 도시한다.
도 4를 참조하면, 디바이스(1000)는 인공 지능 서버(3000)와 연동하여 음성 인식 서비스를 제공할 수 있다.
디바이스(1000)는 인공 지능 서버(3000)와 네트워크(4000)를 통해 연결될 수 있다. 네트워크(4000)는 무선 네트워크 또는 유선 네트워크 일 수 있다. 또한, 디바이스(1000)는 모바일 디바이스(5000)와 근거리 무선 네트워크를 통해 연결될 수 있다. 홈 디바이스(2000) 또한 모바일 디바이스(5000)와 근거리 무선 네트워크를 통해 연결될 수 있다.
음성 인식 서비스는 인공지능 비서 서비스(Intelligent personal assistant) 또는 음성 기반 지능형 서비스를 의미할 수 있다.
음성 인식 서비스는 사용자의 음성 요청에 따라 사용자 원하는 서비스를 제공하는 것을 의미할 수 있다. 서비스의 종류는 사용자의 질문에 대한 정보를 제공하는 정보 제공 서비스를 포함할 수 있으며, 사용자의 일정 관리, 사용자의 소셜 네트워크 관리 및 이메일 관리 등의 개인 관리 서비스를 포함할 수 있고, 사용자 댁 내의 장치를 제어하는 장치 제어 서비스를 포함할 수도 있으나, 이에 제한되지 않는다.
사용자의 음성 신호로부터 사용자가 원하는 서비스를 결정하는 과정은, 음성 신호로부터 음소 또는 단어를 검출하는 음성 인식 과정과 검출된 음소 또는 단어로부터 형태소 분석(Morphological Analysis), 구문 분석(Syntax Analysis) 및 의미 분석(Semantic Analysis)을 통해 사용자가 원하는 서비스를 결정하는 자연어 처리 과정으로 나뉘어 질 수 있으며, 각각의 과정은 인공 지능 서버(3000)에서 모두 수행될 수 있으며, 디바이스(1000) 및 인공 지능 서버(3000)에서 나뉘어 수행될 수도 있다.
예를 들어, 디바이스(1000)가 서버 기반 음성 인식 장치인 경우, 디바이스(1000)는 수신된 음성 신호 자체를 인공 지능 서버(3000)에게 전송할 수 있다. 인공 지능 서버(3000)는 수신된 음성 신호에 대하여 음성 인식 및 자연어 처리를 수행하여, 수신된 음성 신호로부터 "오늘", "날씨" 및 "알려줘"라는 단어를 검출하고, 사용자가 원하는 서비스가 오늘의 날씨에 대한 정보 제공임을 결정하고, 오늘의 날씨에 대한 정보를 디바이스(1000)에게 제공할 수 있다.
또한, 예를 들어, 디바이스(1000)가 음성을 인식할 수 있는 임베디드 음성 인식 장치인 경우, 디바이스(1000)는 수신된 음성 신호로부터 "빅스비", "오늘", "날씨" 및 "알려줘"라는 단어를 검출하고, 검출된 단어를 디바이스(1000)에 연결된 인공 지능 서버(3000)에게 전송할 수 있다. 인공 지능 서버(3000)는 수신된 단어에 대하여 자연어 처리 과정을 수행함으로써, 사용자가 원하는 서비스가 오늘의 날씨에 대한 정보 제공임을 결정하고, 오늘의 날씨에 대한 정보를 디바이스(1000)에게 제공할 수도 있다.
또한, 실시예에 따라, 디바이스(1000)는 모바일 디바이스(5000)를 통해 인공 지능 서버(3000)에게 음성 신호 자체 또는 검출된 음소 또는 단어를 전송할 수 있으며, 인공 지능 서버(3000)는 결정된 음성 인식 서비스에 따라 모바일 디바이스(5000)를 통해 디바이스(1000)에게 정보를 제공할 수도 있다.
홈 디바이스(2000)를 제어하기 위한 프로토콜은 인공 지능 서버(3000), 모바일 디바이스(5000) 및 디바이스(1000)간에 미리 결정되어 있을 수 있으며, 예를 들어, 메시지 식별 정보, 디바이스 식별 정보 및 제어 식별 정보를 포함할 수 있다. 이에 따라, TV의 파워를 켜는 요청은, 장치 식별 정보로써 TV의 식별 정보, 제어 식별 정보로써 전원을 켜는 것을 나타내는 식별 정보 및 메시지 식별 정보로써 홈 디바이스의 제어임을 나타내는 식별 정보를 포함할 수 있다. 인공 지능 서버(3000)로부터 TV의 파워를 켜는 요청을 수신함에 따라, 디바이스(1000)는 댁내의 TV의 전원을 켤 수 있다. 이 경우, 디바이스(1000)는 홈 게이트웨이로써 동작할 수 있다.
또한, 실시예에 따라, 디바이스(1000)는 "TV 켜줘"라는 문장을 모바일 디바이스(5000)를 통해 인공 지능 서버(3000)에 전송할 수도 있다. 모바일 디바이스(5000)는 인공 지능 서버(3000)로부터의 파워를 켜는 요청을 수신하고, 모바일 디바이스(2000)와 근거리 무선 연결 설정된 TV를 제어하여 TV의 전원을 켤 수 있다.
디바이스(1000), 모바일 디바이스(5000) 및 홈 디바이스(2000)는 유선 또는 무선 통신 방식에 따라 통신하기 위한 통신 모듈들을 포함할 수 있다. 예를 들어, 디바이스(1000), 모바일 디바이스(5000) 및 홈 디바이스(2000)는 Wi-Fi 모듈, 지그비(ZigBee) 모듈, 블루투스 모듈, 근거리통신(Near-Field Communication: NFC) 모듈, Z-WAVE 모듈 및 유선 통신 모듈을 포함할 수 있다.
또한, 디바이스(1000) 또는 모바일 디바이스(5000)는 홈 디바이스(2000)의 정보를 저장할 수 있으며, 홈 디바이스(2000)의 동작 및 상태를 제어하고, 홈 디바이스(2000)로부터 필요한 정보를 수집하여 관리할 수 있다.
홈 디바이스(2000)들은 디바이스(1000) 또는 모바일 디바이스(5000)로부터 제어 명령을 수신하고, 홈 디바이스(2000) 내의 센서를 이용하여 획득된 정보를 디바이스(1000) 또는 모바일 디바이스(5000)에게 전송 가능하도록 구성될 수 있다.
홈 디바이스(2000)는 댁내에 위치하는 스마트 가전기기(Smart Appliance), 보안기기(security devices), 조명기구(Lighting devices), 에너지기기(Energy devices) 등을 포함할 수 있다. 예를 들어, 스마트 가전기기는 냉장고, 세탁기, 로봇청소기 등이 될 수 있으며, 보안기기는 도어 락, 보안 카메라, 보안 센서 등이 될 수 있고, 조명기기는 형광등, LED 조명기구 등이 될 수 있으며, 에너지기기는 전력측정기, 전력 소켓, 전기 콘센트, 멀티탭 등이 될 수 있다. 또한, 홈 디바이스(2000)은 개인 컴퓨터(Personal Computer: PC), IP(Internet Protocol) 카메라, 인터넷 전화, 유/무선 전화, 가정 내의 이동 전화를 포함할 수 있다.
디바이스(1000), 모바일 디바이스(5000) 또는 인공 지능 서버(3000)는 디바이스(1000)의 식별 정보 또는 사용자의 식별 정보에 대응하여 디바이스(1000)의 방향에 관한 정보를 저장할 수 있다.
도 5은 일부 실시예에 따른, 디바이스(1000)가 음향의 방향에 기초하여 음성 인식 서비스를 제공하는 방법의 흐름도를 도시한다.
단계 S510에서, 디바이스(1000)는 제 1 사용자로부터 음성 신호를 수신할 수 있다.
단계 S520에서, 디바이스(1000)는 수신된 음성 신호에 기초하여, 디바이스(1000)로부터 제 1 사용자로의 방향을 결정할 수 있다.
디바이스(1000)는 제 1 사용자로의 방향을 제 1 사용자의 각도로써 결정할 수 있다. 예를 들어, 디바이스(1000)는 디바이스(1000) 내의 기준 방향을 0도로 설정하였을 때, 기준 방향으로부터 제 1 사용자로의 방향까지의 각도를 산출할 수 있다.
단계 S530에서, 디바이스(1000)는 제 1 사용자로의 방향이 등록 방향인지를 판단할 수 있다.
등록 방향은 사용자의 음성 명령에 의해 디바이스(1000)에 미리 설정될 수 있다. 또한, 등록 방향은 버튼 또는 터치 센서와 같은 사용자 입력부를 통해 디바이스(1000)에 미리 설정될 수 있다. 등록 방향은 90도에서 100도까지와 같이 각도의 범위로써 결정될 수 있다. 디바이스(1000)는 등록 방향의 각도의 범위를 등록 방향의 식별 정보에 대응하여 저장할 수 있다. 디바이스(1000)는 제 1 음원의 각도가 등록 방향의 각도의 범위에 포함되는지 여부에 기초하여 제 1 음원으로의 방향이 등록 방향인지를 판단할 수 있다.
단계 S540에서, 디바이스(1000)는 제 1 사용자로의 방향이 등록 방향인지 여부에 기초하여, 음성 신호로부터 제 1 사용자의 음성을 인식할 수 있다.
디바이스(1000)는 웨이크업 키워드에 기초하여 사용자의 음성을 인식할지 여부를 판단하는 음성 인식 디바이스일 수 있다. 웨이크업 키워드는 웨이크업 키워드 다음의 음성 신호에 기초하여 음성 인식 서비스를 제공해 줄 것을 요청하기 위한 키워드일 수 있다. 즉, 디바이스(1000)는 웨이크업 키워드에 기초하여 사용자가 음성 인식 서비스를 제공받기를 원하는지 여부를 판단할 수 있다. 이에 따라, 수신되는 음성 신호가 웨이크업 키워드인 경우, 디바이스(1000)는 웨이크업 키워드 다음에 수신되는 음성 신호 또는 음성 신호로부터 검출된 단어를 인공 지능 서버에게 전송하고, 인공 지능 서버로부터 수신된 정보에 기초하여 서비스를 제공할 수 있다.
실시예에 따라, 웨이크업 키워드는 "빅스비"와 같은 사람의 목소리 또는 말소리가 아닌 박수 소리일 수 있다. 또한, 디바이스(1000)가 영상 인식 기능을 수행하는 경우, 웨이크업 키워드는 제스쳐 및 불빛 등의 다양한 형태를 포함할 수도 있다. 또한, 웨이크업 키워드는 사용자에 의해 변경될 수도 있다. 예를 들어, 디바이스(1000)는 "브라더를 웨이크업 키워드로 설정해"라는 음성 입력을 수신함에 따라, "브라더"를 웨이크업 키워드로써 저장할 수도 있다.
디바이스(1000)가 디바이스(1000) 자체에서 음성 인식을 수행하지 않는 서버 기반 음성 인식 장치인 경우라도, 미리 결정된 키워드를 인식할 수 있다. 예를 들어, 디바이스(1000)는 미리 결정된 키워드에 대한 음성 신호의 특징을 저장하고, 수신되는 음성 신호가 저장된 특징을 포함하는지 여부를 판단하고, 수신되는 음성 신호가 저장된 특징을 포함하는 경우, 키워드가 수신되었음을 결정할 수 있다.
디바이스(1000)는 웨이크업 키워드가 수신되지 않더라도, 수신되는 음성 신호의 방향이 등록 방향인 경우, 음성 신호로부터 제 1 사용자의 음성을 인식하고, 인식된 내용에 기초하여 음성 인식 서비스를 제공할 수 있다. 이에 따라, 사용자는 매번 웨이크업 키워드를 말하지 않더라도 원하는 음성 인식 서비스를 제공 받을 수 있다.
도 6은 일부 실시예에 따른, 디바이스(1000)가 등록 방향을 설정 또는 해제하는 방법을 도시한다.
도 6을 참조하면, 디바이스(1000)는 사용자의 음성 신호에 기초하여 등록 방향을 설정 또는 해제할 수 있다. 사용자의 음성 신호에 기초하여 등록 방향을 설정 또는 해제할지 여부는 인공 지능 서버(3000)에 의해 결정될 수 있으며, 디바이스(1000)의해 결정될 수도 있다.
예를 들어, 디바이스(1000)는 음원(10)으로부터 "앞으로 등록 위치 여기로 변경해줘"라는 음성 신호를 수신하고, 수신된 음성 신호 및 음성 신호의 방향을 인공 지능 서버(3000)에게 전송할 수 있다. 인공 지능 서버(3000)는 수신된 음성 신호가 등록 방향을 설정하는 사용자 요청임을 판단하고, 음성 신호의 방향이 속하는 방향 범위를 등록 방향으로 설정할 수 있으며, 설정된 등록 방향에 관한 정보를 디바이스(1000)에게 전송할 수 있다.
또한, 예를 들어, 디바이스(1000)는 "등록 위치", "등록 영역", "등록 방향" 및 "웨이크업 존" 등을 등록 방향 키워드로써 저장하고 있을 수 있다. 또한, 디바이스(1000)는 "설정", "등록" 및 "변경"을 설정 키워드로써 저장하고 있을 수 있다. 또한, 디바이스(1000)는 "삭제" 및 "해제"를 해제 키워드로써 저장하고 있을 수 있다.
이에 따라, 디바이스(1000)는 수신된 음성 신호로부터 "등록 위치"라는 등록 방향 키워드가 검출됨에 따라, 함께 수신된 단어 중 설정 키워드 또는 해제 키워드가 존재하는지 여부를 판단하고, "변경"이라는 설정 키워드가 검출됨에 따라, 음성 신호의 방향을 결정하고, 결정된 방향을 등록 방향으로써 저장할 수 있다.
또한, 디바이스(1000)는 음원(10)으로부터"여기 등록 위치 해제해줘"라는 음성 신호를 수신할 수 있다. 디바이스(1000)는 수신된 음성 신호로부터 "등록 위치"라는 등록 방향 키워드가 검출되고, 함께 수신된 단어 중 "해제"라는 해제 키워드가 검출됨에 따라, 음성 신호의 방향을 결정하고, 결정된 방향으로 설정된 등록 방향을 해제할 수 있다.
디바이스(1000) 또는 인공 지능 서버(3000)는 복수의 방향 범위 중 음성 신호의 방향이 속하는 방향 범위를 등록 방향으로써 결정할 수 있다. 예를 들어, 수신된 음성 신호의 방향이 150도인 경우, 수신된 음성 신호가 135도에서 180도까지를 나타내는 제 4 방향 범위에 속하는 것으로 결정되고, 135도에서 180도까지를 나타내는 제 4 방향 범위가 등록 방향으로써 결정될 수 있다.
또한, 디바이스(1000) 또는 인공 지능 서버(3000)는 복수의 방향 범위 중 음성 신호의 방향이 속하는 방향 범위에 설정된 등록 방향을 해제할 수 있다. 예를 들어, 수신된 음성 신호의 방향이 -30도인 경우, 수신된 음성 신호의 방향이 0도에서 -45도까지를 나타내는 제 8 방향 범위에 속하는 것으로 결정되고, 0도에서 -45도까지를 나타내는 제 8 방향 범위가 등록 방향에서 해제될 수 있다.
디바이스(1000)는 수신된 음성 신호의 방향으로 등록 방향이 설정 또는 해제되었음을 나타내는 음성을 출력할 수 있다. 또한, 디바이스(1000)는 디바이스(1000) 내의 등록 방향에 대응하는 영역을 다른 영역과 구별하여 표시할 수 있다. 예를 들어, 디바이스(1000)는 등록 방향에 대응하는 영역의 발광 소자(610) 또는 디스플레이 패널을 제어하여, 등록 방향에 대응하는 영역의 색을 등록 방향이 아닌 영역의 색과 다르게 표시할 수 있다.
디바이스(1000)는 등록 방향을 설정 또는 해제함에 따라, 등록 방향에 관한 정보를 저장할 수 있으며, 인공 지능 서버(3000) 또는 모바일 디바이스(5000)에게 전송할 수 있다.
도 7은 일부 실시예에 따른, 디바이스(1000)가 음영 방향을 설정 또는 해제하는 방법을 도시한다.
도 7을 참조하면, 디바이스(1000)는 사용자의 음성 명령에 기초하여 음영 방향을 설정 또는 해제할 수 있다.
사용자의 음성 명령에 기초하여 음영 방향을 설정 또는 해제하는 방법은 도 6의 등록 방향을 설정 또는 해제하는 방법과 유사하므로, 도 6을 참조하여 설명될 수 있다.
또한, "지금 소리가 나오는 곳을 음영 지역으로 설정해줘"라는 사용자의 음성 신호를 수신하는 경우, 디바이스(1000)는 수신되는 모든 음향의 방향 중 사용자의 음성 신호의 방향을 제외한 나머지 음향 신호의 방향을 음영 방향으로 설정할 수 있다. 예를 들어, 디바이스(1000)가 사용자의 음성 신호와 함께 TV로부터 출력되는 음향 신호를 수신한 경우, 디바이스(1000)는 TV로부터 출력되는 음향 신호의 방향만을 음영 방향으로 설정할 수 있다. 또한, 실시예에 따라, 디바이스(1000)는 수신되는 사용자의 음성 신호의 방향 또한 음영 방향으로 설정할 수도 있다.
디바이스(1000)는 음영 방향으로 설정된 방향을 사용자에게 알릴 수 있다. 예를 들어, TV로부터 출력되는 음향의 방향만이 음영 방향으로 설정됨에 따라, 디바이스(1000)는 수신되는 음향의 특징을 분석하여, 수신되는 음향이 TV로부터 출력되는 음향임을 인식하고, "TV 소리가 나오는 곳을 음영 지역으로 설정하였습니다"라는 음성을 출력할 수 있다.
또한, TV로부터 "안녕하세요"라는 음성 신호가 출력되고 있는 경우, 디바이스(1000)는 TV로부터 출력되는 음성을 인식하고, "안녕하세요 소리가 나오는 곳을 음영 지역으로 설정하였습니다"라는 음성을 출력할 수도 있다.
또한, 디바이스(1000)는 디바이스(1000) 내의 음영 방향에 대응하는 영역을 다른 영역과 구별하여 표시할 수 있다. 예를 들어, 디바이스(1000)는 음영 방향에 대응하는 영역의 발광 소자(710, 720)를 켜지 않음으로써, 음영 방향에 대응하는 영역의 색을 다른 영역의 색과 다르게 표시할 수 있다.
디바이스(1000)가 설치된 위치 기준으로 사용자가 발화하지 않는 방향 또는 노이즈(예를 들어, TV)가 출력되는 방향이 음영 방향으로 설정됨에 따라, 사용자의 음성 인식에 오류가 발생하는 것을 차단할 수 있다.
예를 들어, 음영 방향이 아닌 방향에 위치한 음원으로부터 음성 신호가 출력되는 동시에 음영 방향에 위치한 음원으로부터 노이즈 신호가 출력되는 경우, 디바이스(1000)는 수신되는 음향 신호 중 음영 방향이 아닌 방향에 위치한 음원으로부터 출력되는 음성 신호만을 검출하고, 음영 방향으로부터 수신되는 음향 신호는 무시함으로써, 사용자의 음성 인식에 오류가 발생하는 것을 차단할 수 있다. 이러한 방법은, 도 15 및 16을 참조하여 자세히 후술된다.
도 8은 다른 실시예에 따른, 디바이스(1000)가 등록 방향 또는 음영 방향을 설정 또는 해제하는 방법을 도시한다.
도 8을 참조하면, 디바이스(1000)는 등록 방향 또는 음영 방향을 설정 또는 해제하는 터치 입력을 수신할 수 있다.
디바이스(1000)는 복수의 방향 범위에 대응하는 복수의 터치 센서를 포함할 수 있다. 복수의 터치 센서 중 제 1 터치 센서(810)를 터치하는 사용자 입력을 수신함에 따라, 디바이스(1000)는 제 1 터치 센서(810)에 대응하는 방향 범위를 등록 방향으로 설정할 수 있다. 또한, 제 1 터치 센서(810)를 한번 더 터치하는 사용자 입력을 수신함에 따라, 디바이스(1000)는 제 1 터치 센서(810)에 대응하는 방향 범위를 음영 방향으로 설정할 수 있다. 또한, 제 1 터치 센서(810)를 한번 더 터치하는 사용자 입력을 수신함에 따라, 디바이스(1000)는 음영 방향을 해제할 수 있다.
또한, 실시예에 따라, 디바이스(1000)는 한번의 터치, 연속된 두 번의 터치 또는 롱 터치를 입력하는 사용자 입력을 수신함에 따라, 등록 방향 설정, 음영 방향 설정 및 설정 해제를 수행할 수 있다. 예를 들어, 복수의 터치 센서 중 TV(2100)가 위치한 방향의 터치 센서(820)를 롱 터치하는 사용자 입력을 수신함에 따라, 디바이스(1000)는 TV(2100)가 위치한 방향을 음영 방향으로 설정할 수 있다.
또한, 디바이스(1000)는 등록 방향, 음영 방향이 설정되거나, 설정이 해제될 때마다, 등록 방향, 음영 방향이 설정되거나, 설정이 해제되었음을 알리는 음성을 출력할 수 있으며, 터치된 영역의 색을 달리하여 표현할 수도 있다.
도 9는 일부 실시예에 따른, 디바이스(1000)가 음성 인식 서비스가 요청된 빈도수에 기초하여 등록 방향 또는 음영 방향을 결정하는 방법의 흐름도이다.
단계 S910에서, 디바이스(1000)는 복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 복수의 방향 각각에 대응하여 음성 인식 서비스가 요청된 빈도를 결정할 수 있다.
디바이스(1000)는 음성 인식 서비스를 요청하는 음성 신호가 수신된 방향을 결정할 수 있다. 음성 인식 서비스를 요청하는 음성 신호는 웨이크업 키워드를 포함하는 음성 신호 또는 등록 방향으로부터 수신되는 음성 신호를 포함할 수 있다. 또한, 디바이스(1000)는 복수의 방향 각각에 대응하여 기준 시간 동안 음성 인식 서비스를 요청하는 음성 신호가 수신된 빈도를 결정할 수 있다. 기준 시간은 예를 들어, 일주일 또는 한 달일 수 있다. 또한, 복수의 방향은 복수의 방향 범위일 수 있다. 예를 들어, 디바이스(1000)는 0도에서 45도까지를 나타내는 제 1 방향 범위에 대응하여 기준 시간 동안 음성 인식 서비스가 요청된 빈도를 결정할 수 있다.
디바이스(1000)는 제 1 방향 범위에 위치하는 음원으로부터 요청된 음성 인식 서비스의 횟수를 제 1 방향 범위에 대응하는 빈도로써 결정할 수 있다. 또한, 디바이스(1000)는 기준 시간 동안 모든 방향으로부터 요청된 음성 인식 서비스의 전체 개수 대비 제 1 방향 범위에 위치하는 음원으로부터 요청된 음성 인식 서비스의 개수를 제 1 방향 범위에 대응하는 빈도로써 결정할 수도 있다.
단계 S920에서, 디바이스(1000)는 복수의 방향 중 결정된 빈도가 임계값 이상인 방향을 등록 방향으로 결정할 수 있다.
예를 들어, 등록 방향을 설정하기 위한 임계값은 70% 일 수 있다. 이 경우, 디바이스(1000)는 결정된 빈도가 70% 이상인 방향 범위를 등록 방향으로 결정할 수 있다. 또한, 등록 방향으로 기 설정된 방향 범위에 대응하는 빈도가 기 결정된 빈도(예를 들어, 30%) 이하인 경우, 즉 등록 방향으로부터 음성 인식 서비스가 요청된 횟수가 적은 경우, 디바이스(1000)는 빈도가 30% 이하인 방향 범위에 설정된 등록 방향을 해제할 수 있다. 또한, 등록 방향으로 설정되지 않은 방향 범위에 대응하는 빈도가 0인 경우, 즉, 음성 인식 서비스 요청이 수신되지 않은 경우, 빈도가 0인 방향 범위에 대응하여 음영 방향을 설정할 수 있다.
또한, 실시예에 따라, 등록 방향 및 음영 방향은 기계 학습에 의해 설정될 수도 있다.
도 10은 일부 실시예에 따른, 디바이스(1000)가 복수의 방향에 대응하여 음성 인식 서비스가 요청된 빈도를 디스플레이하는 방법을 도시한다.
도 10을 참조하면, 디바이스(1000)는 디스플레이부(1210)상에 복수의 방향 각각에 대응하여 음성 인식 서비스가 요청된 빈도를 막대 그래프 이미지(1010, 1020, 1030)로 디스플레이할 수 있다. 이 경우, 디바이스(1000)는 등록 방향으로 설정된 방향 범위(1010), 등록 방향 또는 음영 방향으로 설정되지 않은 방향 범위(1020) 및 음영 방향으로 설정된 방향 범위(1030)를 구별하여 디스플레이할 수 있다. 또한, 실시예에 따라, 디바이스(1000)는 등록 방향을 설정하기 위한 임계값 및 음영 방향을 설정하기 위한 임계값을 디스플레이할 수 있다.
또한, 디바이스(1000)는 인공 지능 서버(3000)를 이용하여 복수의 방향 범위 각각에 대응하여, 음성 인식 서비스를 요청하는 음성 신호를 학습함으로써 등록 방향 또는 음영 방향을 자동으로 설정할 수 있다.
인공 지능 서버(3000)는 음성 신호가 수신된 방향 범위에 기 설정되어 있는 설정값 및 음성 신호가 수신된 방향 범위에서 음성 인식 서비스가 요청된 빈도가 입력되었을 때, 음성 신호가 수신된 방향에 설정될 설정값이 출력되도록 학습할 수 있다. 설정값은 등록 방향, 일반 방향 및 음영 방향 중 하나일 수 있으며, 등록 방향은 웨이크업 키워드를 수신하지 않더라도 음성 인식 서비스를 제공하는 방향을 의미하며, 일반 방향은 웨이크업 키워드를 수신해야만 음성 인식 서비스를 제공하는 방향을 의미하며, 음영 방향은 복수의 음원으로부터 음향 신호가 수신되는 경우, 음영 방향으로부터 수신된 음성 신호는 노이즈로 간주하여 음성 신호를 검출하지 않는 방향을 의미할 수 있다.
이에 따라, 사용자는 웨이크업 키워드를 자주 사용하는 장소를 인지할 수 있으며, 사용자가 별도로 등록 방향 또는 음영 방향을 설정하지 않더라도 자동으로 등록 방향 또는 음영 방향이 디바이스(1000)에 설정될 수 있다.
도 11은 일부 실시예에 따른, 디바이스(1000)에 저장되는 등록 방향 및 음영 방향에 대한 정보를 도시한다.
도 11을 참조하면, 디바이스(1000)는 복수의 방향 범위 각각에 대응하여, 등록 방향 또는 음영 방향을 저장할 수 있다. 예를 들어, 복수의 방향 범위가 45도씩 8개의 범위로 구성되고, 90도부터 135도까지를 나타내는 제 3 방향 범위가 등록 방향으로 설정되고, -135도부터 -90도까지를 나타내는 제 6 방향 범위가 음영 방향으로 설정된 경우, 디바이스(1000)는 제 3 방향 범위에 대응하여 등록 방향을 나타내는 설정값을 저장하고, 제 6 방향 범위에 대응하여 음영 방향을 나타내는 설정값을 저장할 수 있다. 또한, 실시예에 따라, 인공 지능 서버(3000) 또는 모바일 디바이스(5000) 또한 등록 방향 및 음영 방향에 관한 정보를 저장할 수 있다.
도 12는 일부 실시예에 따른, 디바이스(1000)가 수신되는 음향 신호의 특징에 기초하여 음영 방향을 설정하는 방법의 흐름도이다.
단계 S1210에서, 디바이스(1000)는 복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 복수의 방향 각각에서 노이즈 신호가 수신되는지를 결정할 수 있다.
노이즈 신호는 사용자의 음성 신호를 제외한 모든 음향 신호를 의미할 수 있다. 예를 들어, 노이즈 신호는 TV로부터 출력되는 음향, 세탁기 또는 에어컨이 구동됨에 따라 발생되는 음향일 수 있다. 또한, 노이즈 신호는 전자 기기로부터 출력되는 기계음일 수 있다.
디바이스(1000)는 수신되는 음향이 노이즈 신호인지 여부를 판단할 수 있다. 디바이스(1000)는 각각의 가전 기기로부터 발생되는 음향 신호의 특징을 저장하고 있을 수 있다. 이에 따라, 디바이스(1000)는 수신되는 음향 신호로부터 특징을 검출하고, 검출된 특징과 기 저장된 특징을 비교하여, 음원을 식별할 수 있다.
또한, 실시예에 따라 디바이스(1000)는 음향 신호를 음향 데이터로 변환하고, 변환된 음향 데이터를 인공 지능 서버(3000)에 전송하고, 인공 지능 서버(3000)가 딥러닝 알고리즘을 이용하여 음향 신호가 노이즈 신호를 포함하는지 여부 및 노이즈 신호를 출력하는 음원을 식별할 수도 있다.
단계 S1220에서, 디바이스(1000)는 복수의 방향 중 노이즈 신호가 기준 시간 이상 수신되는 방향 및 시간 구간을 결정할 수 있다. 예를 들어, 디바이스(1000)는 일주일 동안 수신되는 음향 신호에 기초하여, 한 시간 이상 노이즈 신호가 수신되는 방향 및 시간 구간을 결정할 수 있다. 예를 들어, 디바이스(1000)는 통계적으로 오후 7시부터 10시까지 제 3 방향 범위에 위치한 음원으로부터 노이즈 신호가 수신되는 것으로 결정할 수 있다. 이러한 방법은 도 13a를 참조하여 후술한다.
단계 S1230에서, 디바이스(1000)는 결정된 시간 구간에 대응하여 결정된 방향을 음영 방향으로 결정할 수 있다.
또한, 디바이스(1000)는 기 결정된 학습 모델을 이용하여 음영방향을 설정할지 여부를 학습할 수 있다. 이러한 방법은 도 13b를 참조하여 후술한다.
디바이스(1000)는 결정된 시간 구간에 대응하여 결정된 방향으로 음영 방향이 설정되었음을 알리는 음성 메시지를 출력할 수 있다. 또한, 디바이스(1000)는 음영 방향을 설정하기 전에 사용자에게 결정된 방향으로 음영 방향을 설정할지 여부를 묻는 음성 메시지를 출력할 수도 있다. 이 경우, 디바이스는(1000)는 사용자의 응답에 따라, 음영 방향을 설정하지 않을 수도 있다.
또한, 디바이스(1000)는 결정된 방향에 식별된 음원이 위치하고 있음을 묻는 음성 메시지를 출력할 수도 있다. 디바이스(1000)는 식별된 음원 및 사용자의 응답을 인공 지능 서버(3000)에 전송할 수 있으며, 인공 지능 서버(3000)는 사용자의 응답에 기초하여 딥 러닝 알고리즘을 업데이트할 수 있다.
이에 따라, 사용자가 음영 방향을 별도로 설정하지 않더라도, 사용자의 생활 패턴을 학습하여 디바이스(1000)가 음영 방향을 자동으로 설정할 수 있다.
도 13a, 13b 및 14는, 일부 실시예에 따른, 디바이스(1000)가 수신되는 음향 신호의 특성에 기초하여 음영 방향을 설정하는 방법을 도시한다.
도 13a을 참조하면, 디바이스(1000)는 수신되는 음향 신호에 기초하여, 음원의 종류를 결정하고, 시간대 별로 다른 음영 방향을 설정할 수 있다.
예를 들어, 오후 2시부터 4시까지의 시간 구간에 대응하여 에어컨(2020)이 위치하는 방향(1310)으로 음영 방향이 설정되고, 오후 4시부터 5시까지의 시간 구간에 대응하여 세탁기(2030)가 위치하는 방향으로 음영 방향(1320)이 설정되고, 오전 8시부터 10시 30분까지의 시간 구간에 대응하여 TV(2010) 가 위치하는 방향(1330)으로 음영 방향이 설정될 수 있다.
도 13b는 일부 실시예에 따른, 디바이스(1000)는 사용자의 생활 패턴을 학습하여 음영 방향을 자동으로 설정할 수 있다.
예를 들어, 디바이스(1000)는 기 결정된 학습 모델에 기초하여, 음향 신호가 수신된 시간, 음향 신호의 특징, 음향 신호가 음성 인식 서비스 요청인지 여부가 입력되었을 때, 음향 신호가 수신된 방향에 대해서 음영 방향을 설정할지 여부가 출력되도록 학습할 수 있다.
인공 지능 서버(3000)는 수신되는 음향 신호의 특징에 기초하여, 수신되는 음향 신호가 노이즈인지 여부 및 음원의 종류를 결정할 수 있다. 예를 들어, 음원의 종류에 대응하여 음원이 출력하는 음향 신호의 특징이 기 저장되어 있을 수 있다. 이에 따라, 인공 지능 서버(3000)는 수신되는 음향 신호의 특징에 기초하여, 음원의 종류를 결정할 수 있다. 또한, 인공 지능 서버(3000)는 수신되는 음향 신호가 음성 인식 서비스 요청인지 여부를 결정할 수 있다.
이에 따라, 인공 지능 서버(3000)는 제 1 방향에서, 제 1 음원으로부터 기준 시간 이상 노이즈가 출력되는 경우, 제 1 방향 및 노이즈 신호가 출력되는 시간 구간에 대응하여 음영 방향을 설정할 수 있다.
또한, 인공 지능 서버(3000)는 제 1 방향에서, 제 1 음원으로부터 기준 시간 이상 노이즈가 출력되더라도, 노이즈 신호가 출력되는 시간 구간 동안에 제 1 방향으로부터 음성 인식 서비스를 요청하는 음성 신호를 수신하는 경우, 제 1 방향 및 노이즈 신호가 출력되는 시간 구간에 대응하여 음영 방향을 설정하지 않을 수 있다. 도 14를 참조하면, 디바이스(1000)는 복수의 시간 구간에 대응하여 다른 음영 방향을 저장할 수 있다.
도 15는, 일부 실시예에 따른, 음영 방향에 위치하는 음원으로부터 수신된 음향 신호에 대한 처리 방법의 흐름도이다.
단계 S1510에서, 디바이스(1000)는 복수의 음원으로부터 출력되는 복수의 음향 신호를 수신할 수 있다.
디바이스(1000)는 복수의 음원으로부터 출력되는 복수의 음향 신호를 동시에 수신할 수 있다. 복수의 음원은 음영 방향에 위치하는 음원 및 음영 방향이 아닌 방향에 위치하는 음원을 포함할 수 있다.
단계 S1520에서, 디바이스(1000)는 복수의 음향 신호들 중 음영 방향이 아닌 방향에 위치하는 음원으로부터 출력되는 음향 신호만을 검출할 수 있다.
디바이스(1000)는 복수의 음향 신호들 중 음영 방향이 아닌 방향에 위치하는 음원으로부터 출력되는 음향 신호만을 검출함으로써, 음영 방향에 위치하는 음원으로 출력되는 음향 신호를 검출하지 않을 수 있다.
예를 들어, 디바이스(1000)가 SRP-PHAT 알고리즘을 이용하여 음원으로의 방향을 판단할 때, 음영 방향이 아닌 방향에 대해서만 빔포밍 파워 출력을 산출하고, 산출된 빔포밍 파워 출력이 임계값 이상인 방향을 음원으로의 방향으로 결정함으로써, 음영 방향에 위치하는 음원으로부터 출력되는 음향 신호는 노이즈로 간주되어 검출되지 않을 수 있다.
실시예에 따라, 디바이스(1000)는 음영 방향을 포함하는 모든 방향에 대하여 빔포밍 파워 출력을 산출함으로써, 음영 방향에 위치하는 음원으로의 정확한 방향을 산출하고, 산출된 방향이 음영 방향에 속하는지 여부를 판단함으로써 제 2 음원으로부터 출력되는 음성 신호를 검출하지 않을 수도 있다.
이에 따라, 디바이스(1000)는 수신되는 음향 신호 중 음영 방향이 아닌 방향에 위치하는 음원으로부터 출력된 음향 신호만을 검출하고, 검출된 음향 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
또한, 디바이스(1000)는 수신되는 음성 신호의 방향이 음영 방향인 것으로 판단된 경우, 수신되는 음성 신호에 포함된 웨이크업 키워드를 인식하지 않음으로써, 음영 방향에 위치하는 사용자가 발화하는 음성 인식 서비스 요청을 인식하지 않을 수 있다.
또한, 실시예에 따라, 디바이스(1000)는 수신되는 음성 신호의 방향이 음영 방향인 것으로 판단하더라도, 수신되는 음성 신호에 웨이크업 키워드가 포함되어 있는 경우, 수신되는 음성 신호에 기초하여 음성 인식 서비스를 제공할 수도 있다.
도 16는, 일부 실시예에 따른, 음영 방향에 위치하는 음원으로부터 수신된 음향 신호에 대한 처리 방법을 도시한다.
도 16을 참조하면, 디바이스(1000)로 수신되는 음향 신호는 제 1 음원(10)으로부터 수신되는 음향 신호, 제 2 음원(2010)으로부터 수신되는 음향 신호 및 제 3 음원(1630)으로부터 수신되는 음향 신호를 포함할 수 있다.
디바이스(1000)는 수신되는 음향 신호가, 세 개의 음원으로부터 수신된 음향 신호인 것으로 판단하고, 제 1 음원으로의 방향, 제 2 음원으로의 방향 및 제 3 음원으로의 방향을 결정할 수 있다. 제 1 음원으로의 방향이 등록 방향이고, 제 2 음원으로의 방향 및 제 3 음원으로의 방향이 음영 방향인 경우, 디바이스(1000)는 수신되는 음향 신호 중 제 1 음원으로부터 수신된 음향 신호만을 검출하고, 검출된 음향 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
도 17은 일부 실시예에 따른, 디바이스(1000)가 우선 순위에 기초하여, 음성 인식 서비스를 제공하는 방법의 흐름도이다.
단계 S1710에서, 디바이스(1000)는 제 1 음원으로부터 수신되는 음향 신호와 함께, 제 1 음원과 다른 제 3 음원으로부터 수신되는 음향 신호를 수신할 수 있다.
단계 S1720에서, 디바이스(1000)는 제 1 음원으로의 방향에 대응하는 우선 순위 및 제 3 음원으로의 방향에 대응하는 우선 순위를 비교할 수 있다.
디바이스(1000)는 우선 순위를 설정하는 사용자 입력을 수신할 수 있다. 예를 들어, 디바이스(1000)는 "지금 내 위치를 첫 번째 순위로 설정해"라는 음성 신호를 수신함에 따라, 디바이스(1000)는 음성 신호의 방향을 결정하고, 결정된 방향에 대응하여 첫 번째 우선 순위를 저장할 수 있다. 또한, 실시예에 따라, 디바이스(1000)는 웨이크업 키워드의 사용 빈도의 순위에 따라 우선 순위를 결정할 수도 있다. 또한, 실시예에 따라, 디바이스(1000)는 우선 순위를 설정하는 음성 신호를 수신함에 따라, 음성 신호의 방향을 등록 방향으로 설정할 수도 있다.
단계 S1730에서, 디바이스(1000)는 제 1 음원으로의 방향에 대응하는 우선 순위가 제 3 음원으로의 방향에 대응하는 우선 순위 보다 높은 경우, 제 1 음원으로부터 수신된 음향 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
디바이스(1000)는 수신되는 음향 신호 중 제 1 음원으로부터 수신된 음향 신호를 검출하고, 검출된 음향 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
도 18은 일부 실시예에 따른, 디바이스(1000)가 우선 순위에 기초하여, 음성 인식 서비스를 제공하는 방법을 도시한다.
도 18을 참조하면, 디바이스(1000)는 우선 순위에 기초하여, 음성 인식 서비스를 제공할 음원을 선택할 수 있다.
디바이스(1000)는 복수의 음원으로부터 음향 신호를 동시에 수신할 수 있다.
디바이스(1000)는 수신되는 음향 신호에 기초하여, 복수의 음원 각각에 대한 방향을 결정할 수 있다. 예를 들어, 디바이스(1000)는 제 1 음원(10c)이 150도에 위치하고, 제 2 음원(10b)이 90도에 위치하고, 제 3 음원(10c)이 30도에 위치하는 것으로 결정할 수 있다.
디바이스(1000)는 우선 순위에 기초하여, 수신되는 음향 신호 중 우선 순위가 가장 높은 제 2 음원(10b)으로부터 수신되는 음향 신호를 검출하고, 검출된 음향 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
도 19는 일부 실시예에 따른, 디바이스(1000)가 음성 신호의 방향에 위치한 홈 디바이스(2000)의 기능을 고려하여 음성 인식 서비스를 제공하는 방법의 흐름도이다.
단계 S1910에서, 디바이스(1000)는 제 1 방향에 대응하여 홈 디바이스(2000)의 식별 정보를 저장할 수 있다.
디바이스(1000)는 특정 방향에 대응하여 홈 디바이스(2000)를 설정하는 음성 신호를 수신할 수 있다. 예를 들어, "여기는 냉장고로 등록해줘"라는 음성 신호를 수신함에 따라, 디바이스(1000)는 음성 신호의 방향을 결정하고, 결정된 방향에 대응하여 냉장고의 식별 정보를 저장할 수 있다.
이 경우, 디바이스(1000)는 음성 신호로부터 "냉장고" 및 "등록"이라는 홈 디바이스 설정 키워드를 검출함에 따라, 결정된 방향에 대응하여 냉장고의 식별 정보를 저장할 수 있다.
또한, 디바이스(1000)는 수신된 음성 신호를 문장으로 변환하고 변환된 문장을 인공 지능 서버(3000)로 전송하고, 인공 지능 서버(3000)로부터 홈 디바이스 설정 메시지임을 나타내는 메시지 식별 정보 및 "냉장고"임을 나타내는 홈 디바이스 식별 정보를 수신할 수 있다. 이에 따라, 디바이스(1000)는 결정된 방향에 대응하여 냉장고의 식별 정보를 저장할 수도 있다.
또한, 실시예에 따라, 디바이스(1000)는 홈 디바이스(2000)가 구동될 때 발생되는 노이즈 신호에 기초하여, 홈 디바이스(2000)의 위치를 결정할 수도 있다. 예를 들어, 냉장고가 구동됨으로써 발생되는 노이즈 신호를 수신함에 따라, 디바이스(1000)는 기 저장된 냉장고의 음향 신호의 특징에 기초하여, 수신된 음향 신호가 냉장고로부터 수신되었음을 판단할 수 있다. 이에 따라, 디바이스(1000)는 수신된 노이즈 신호의 방향에 대응하여 냉장고의 식별 정보를 저장할 수도 있다.
또한, 실시예에 따라, 디바이스(1000)는 모바일 디바이스(5000)로부터 홈 디바이스(2000)의 방향 정보를 수신할 수도 있다. 예를 들어, 모바일 디바이스(5000)는 홈 디바이스(2000)의 위치를 설정하는 사용자 입력을 수신함에 따라, 디바이스(1000)에게 설정된 위치의 방향 및 홈 디바이스(2000)의 식별 정보를 수신할 수 있다.
또한, 실시예에 따라, 디바이스(1000)는 IoT(Internet of Things)기술을 이용하여, 홈 디바이스(2000)와의 통신을 통해, 홈 디바이스(2000)의 방향을 결정할 수도 있다.
또한, 실시예에 따라, 인공 지능 서버(3000)가 제 1 방향에 대응하여 홈 디바이스(2000)의 식별 정보를 저장할 수도 있다.
단계 S1920에서, 디바이스(1000)는 제 1 음원으로부터 음향 신호를 수신할 수 있다.
단계 S1920은 도 5의 단계 S510을 참조하여 설명될 수 있다.
단계 S1930에서, 디바이스(1000)는 제 1 음원으로의 방향이 제 1 방향인 것으로 판단됨에 따라, 제 1 방향에 대응하는 홈 디바이스(2000)의 식별 정보에 기초하여 음성 인식 서비스를 제공할 수 있다.
디바이스(1000)는 수신된 음향 신호로부터 검출된 단어 또는 문장과 함께 홈 디바이스(2000)의 식별 정보를 인공 지능 서버로 전송하고, 인공 지능 서버로부터 홈 디바이스(2000)의 기능과 관련된 음성 인식 서비스를 제공받을 수 있다. 홈 디바이스(2000)의 기능과 관련된 음성 인식 서비스는 홈 디바이스(2000)가 제공할 수 있는 음성 인식 서비스를 의미할 수 있다.
예를 들어, 제 1 방향에 대응하여 TV가 저장되어 있고, 제 1 방향에 위치하는 사용자로부터 "챔피언스리그"라는 음성 신호를 수신한 경우, 디바이스(1000)는 "챔피언스리그"라는 문장과 함께 TV의 식별 정보를 인공 지능 서버(3000)에 전송할 수 있다. 인공 지능 서버(3000)는 TV의 식별 정보에 기초하여,"챔피언스리그"와 관련된 음성 인식 서비스 중 TV가 제공하는 기능과 관련된 챔피언스리그 중계 방송을 제공할 음성 인식 서비스로써 결정할 수 있다. 이에 따라, 인공 지능 서버(3000)는 디바이스(1000)에게 챔피언스리그를 방송하는 프로그램으로 채널을 조정할 것을 요청할 수 있다. 디바이스(1000)는 TV가 챔피언스리그 중계 방송을 제공하도록 TV의 채널을 조정할 수 있다.
또한, 실시예에 따라, 디바이스(1000)는 인공 지능 서버(3000)에게 "챔피언스리그"라는 문장과 함께 음성 신호의 방향 정보를 전송할 수도 있다. 인공 지능 서버(3000)는 수신된 방향 정보에 대응하는 TV의 식별 정보를 획득하고, 디바이스(1000)에게 챔피언스리그를 방송하는 프로그램으로 채널을 조정할 것을 요청할 수도 있다.
도 20은 일부 실시예에 따른, 디바이스(1000)가 모바일 디바이스(5000)를 이용하여 방향에 대응하여 저장된 정보를 제공하는 방법을 도시한다.
도 20을 참조하면, 모바일 디바이스(5000)는 등록 방향, 등록 방향의 우선 순위 및 등록 방향에 대응하여 저장된 홈 디바이스(2000)의 식별 정보를 디스플레이할 수 있다.
모바일 디바이스(5000)는 인공 지능 서버(3000) 또는 디바이스(1000)로부터 디바이스(1000)에 설정된 등록 방향, 등록 방향의 우선 순위 및 등록 방향에 대응하여 저장된 홈 디바이스(2000)의 식별 정보를 수신하고, 수신된 정보를 나타내는 이미지(2002, 2004, 2006, 2008)를 디스플레이할 수 있다.
예를 들어, 모바일 디바이스(5000)는 디바이스(1000) 내의 기준 방향으로부터 30도 방향으로 등록 방향이 설정되었으며, 설정된 등록 방향에 대응하여 냉장고가 등록되었으며, 디바이스(1000)로부터 냉장고까지의 거리가 1m이고, 설정된 등록 방향의 우선 순위는 세 번째임을 나타내는 이미지(2008)를 디스플레이할 수 있다.
또한, 실시예에 따라, 모바일 디바이스(5000)는 사용자의 집의 평면도 상에 디바이스(1000)의 위치를 지정하는 사용자 입력을 수신할 수도 있다. 사용자의 집의 평면도 상에 디바이스(1000)의 위치를 지정하는 사용자 입력을 수신함에 따라, 모바일 디바이스(5000)는 디바이스(1000)의 이미지(2002)를 평면도 내의 지정된 위치상에 디스플레이하고, 지정된 위치를 기준으로 등록 방향을 디스플레이할 수 있다.
또한, 실시예에 따라, 모바일 디바이스(5000)는 등록 방향을 설정 또는 해제하는 사용자 입력 또는 방향에 대응하여 우선 순위를 설정 또는 해제하는 사용자 입력을 수신하고, 수신된 사용자 입력을 디바이스(1000)에게 전송할 수 있다.
또한, 방향에 대응하여 홈 디바이스(2000)를 설정 또는 해제하는 사용자 입력을 수신하고, 설정 또는 해제된 홈 디바이스(2000)의 식별 정보 및 방향을 디바이스(1000)에게 전송할 수 있다.
이에 따라, 사용자는 사용자의 댁 내에서 등록 방향이 설정된 영역을 식별 할 수 있으며, 모바일 디바이스(5000)를 이용하여 등록 방향을 설정할 수도 있다.
도 21은 일부 실시예에 따른, 디바이스(1000)가 홈 디바이스(2000)의 기능을 고려하여 음성 인식 서비스를 제공하는 방법을 도시한다.
도 21을 참조하면, 디바이스(1000)는 음향 신호의 방향에 대응하는 홈 디바이스(2000)의 기능을 고려하여 음성 인식 서비스를 제공할 수 있다.
예를 들어, 디바이스(1000)에는 등록 방향 30도에 대응하여 냉장고(2040)의 식별 정보가 저장되어 있을 수 있다. 또한, 디바이스(1000)에는 등록 방향 90도에 대응하여 에어컨(2020)의 식별 정보가 저장되어 있을 수 있다. 또한, 디바이스(1000)에는 등록 방향 150도에 대응하여 TV(2010)의 식별 정보가 저장되어 있을 수 있다.
디바이스(1000)는 "뽀로로 틀어줘"라는 음성 신호를 수신함에 따라, 음성의 방향이 150도임을 결정하고, 150도에 대응하여 TV(2010)의 식별 정보를 획득할 수 있다. 또한, 디바이스(1000)는"뽀로로 틀어줘"라는 문장과 함께 TV(2010)의 식별 정보를 인공 지능 서버(3000)에게 전송할 수 있다.
인공 지능 서버(3000)는 수신된 문장 및 TV(2010)의 식별 정보에 기초하여 유아 프로그램인 뽀로로를 방송하는 채널을 검색할 수 있다. 인공 지능 서버(3000)는 검색된 채널의 번호 및 채널 변경 요청을 디바이스(1000)에게 전송할 수 있다. 디바이스(1000)는 TV(2010)에게 수신된 채널의 번호로 채널을 조정할 것을 요청할 수 있다.
또한, 디바이스(1000)는 "쾌적한 온도로 설정해줘"라는 음성 신호를 수신함에 따라, 음성의 방향이 90도임을 결정하고, 90도에 대응하여 에어컨(2020)의 식별 정보를 획득할 수 있다. 또한, 디바이스(1000)는 "쾌적한 온도로 설정해줘"라는 문장과 함께 에어컨(2020)의 식별 정보, 현재 온도 및 현재 습도에 관한 정보를 인공 지능 서버(3000)에게 전송할 수 있다. 디바이스(1000)는 인공 지능 서버(3000)로부터 에어컨(2020)의 온도를 21도로 조정하는 요청을 수신할 수 있다. 디바이스(1000)는 에어컨(2020)에게 온도를 21도로 조정할 것을 요청할 수 있다.
또한, 디바이스(1000)는 "바나나 가격 찾아줘"라는 음성 신호를 수신함에 따라, 음성의 방향이 30도임을 결정하고, 30도에 대응하여 냉장고(2040)의 식별 정보를 획득할 수 있다. 또한, "바나나 가격 찾아줘"라는 문장과 함께 냉장고(2040)의 식별 정보를 인공 지능 서버(3000)에게 전송할 수 있다. 인공 지능 서버(3000)는 냉장고(2040)의 식별 정보에 기초하여, 냉장고(2040)의 기능 중 정보 검색 기능 및 디스플레이 기능과 관련된 음성 인식 서비스를 결정할 수 있다. 예를 들어, 인공 지능 서버(3000)는 바나나의 가격을 나타내는 페이지에 대한 URL 주소와 함께, URL 주소에 접속하여 페이지를 디스플레이하는 요청을 디바이스(1000)에게 전송할 수 있다. 디바이스(1000)는 냉장고(2040)에게 URL 주소에 접속하여 페이지를 디스플레이할 것을 요청할 수 있다.
실시예에 따라, 인공 지능 서버(3000)는 "바나나 가격"을 검색 키워드로 인터넷을 검색할 것을 디바이스(1000)에게 전송할 수도 있다. 디바이스(1000)는 냉장고(2040)에게 "바나나 가격"을 검색 키워드로 인터넷을 검색할 것을 요청할 수 있다.
도 22는 일부 실시예에 따른, 디바이스(1000)가 음성 신호의 방향에 기초하여 제어할 장치를 선택하는 방법을 도시한다.
디바이스(1000)는 제 1 방향에 대응하여 장소 정보를 저장할 수 있다. 예를 들어, "여기는 부엌으로 등록해줘"하는 음성 신호를 수신함에 따라, 디바이스(1000)는 음성 신호의 방향에 대응하여 부엌의 식별 정보를 저장할 수 있다. 또한, 예를 들어, "부엌 불 켜줘"라는 음성 신호를 수신함에 따라, 디바이스(1000)는 음성 신호의 방향에 대응하여 부엌의 식별 정보를 저장할 수도 있다.
도 22를 참조하면, 디바이스(1000)는 음성 신호의 방향에 기초하여, 댁 내의 복수의 전등 중 제어할 전등을 선택할 수 있다. 예를 들어, 부엌에 위치하는 사용자로부터 "불 켜줘"라는 음성 신호를 수신한 경우, 디바이스(1000)는 수신된 음성 신호의 방향에 대응하는 장소 정보로써 부엌의 식별 정보를 획득할 수 있다. 디바이스(1000)는 부엌의 식별 정보에 기초하여, 복수의 전등 중 부엌에 위치한 전등을 켤 수 있다.
또한, 디바이스(1000)는 음성 신호의 방향에 기초하여, 댁 내의 복수의 TV 중 제어할 TV를 선택할 수도 있다. 예를 들어, 부엌에 위치하는 사용자로부터 "뉴스 틀어줘"라는 음성 신호를 수신한 경우, 디바이스(1000)는 수신된 음성 신호의 방향에 대응하는 장소 정보로써 부엌의 식별 정보를 획득하고, 부엌에 위치한 TV를 제어하여 뉴스 프로그램을 제공할 수 있다.
도 23은 일부 실시예에 따른, 디바이스(1000)가 방향 범위에 대응하여 홈 디바이스(2000) 또는 장소 정보를 저장하는 방법을 도시한다.
도 23에 도시된 바와 같이, 디바이스(1000)는 방향 범위의 식별 정보에 대응하여 홈 디바이스(2000)의 식별 정보 또는 장소 정보를 저장할 수 있다.
도 24는 일부 실시예에 따른, 기준 거리 내에 위치하는 복수의 디바이스(1000)가 등록 방향을 설정하는 방법을 도시한다.
도 24를 참조하면, 복수의 디바이스(1000a, 1000b, 1000c)는 기준 거리 내에 위치할 수 있다.
예를 들어, 댁내의 냉장고, TV 및 에어컨이 모두 음성 인식 디바이스(1000)일 수 있다.
복수의 디바이스(1000a, 1000b, 1000c)가 기준 거리 내에 위치하는 경우, 등록 방향이 겹칠 수 있다. 예를 들어, 댁 내의 한 장소는 냉장고(1000c), TV(1000a) 및 에어컨(1000b) 모두에 대하여 등록 방향일 수 있다. 이에 따라서, 사용자의 음성 신호가 동시에 복수의 디바이스(1000a, 1000b, 1000c)에게 전송되어, 복수의 디바이스(1000a, 1000b, 1000c) 모두가 동일한 음성 신호에 기초하여 음성 인식 서비스를 제공하게 될 수 있다.
따라서, 댁 내의 한 장소에 대하여, 하나의 디바이스에게 등록 방향인 경우, 다른 디바이스들에게는 음영 방향이 되도록, 복수의 디바이스(1000a, 1000b, 1000c) 각각에 등록 방향 및 음영 방향이 설정될 수 있다.
예를 들어, 사용자가 냉장고(1000c)에 대하여 등록 방향을 설정하라는 음성 신호를 전송한 경우, 냉장고(1000c)는 음성 신호의 방향을 등록 방향으로 설정하고, 동일한 음성 신호를 수신한 TV(1000a) 및 에어컨(1000b)은 음성 신호의 방향을 음영 방향으로 설정할 수 있다.
도 25는 일부 실시예에 따른, 디바이스(1000)가 음원의 이동 경로를 고려하여, 음성 인식 서비스를 제공하는 방법의 흐름도이다.
단계 S2510에서, 디바이스(1000)는 제 1 음원으로부터 제 1 음성 신호를 수신한 후, 제 2 음성 신호를 수신할 수 있다. 단계 S2520에서, 디바이스(1000)는 제 1 음성 신호 및 제 2 음성 신호의 방향을 결정할 수 있다. 단계 S2510 내지 S2520은 도 5의 단계 S510 내지 S520을 참조하여 설명될 수 있다.
디바이스(1000)는 제 1 음성 신호의 방향이 등록 방향인 것으로 판단할 수 있다. 이에 따라, 디바이스(1000)는 제 1 음성 신호가 웨이크업 키워드를 포함하는지 여부에 상관없이 제 1 음성 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
또한, 디바이스(1000)는 제 1 음원으로부터 제 1 음성 신호를 수신함에 따라, 디바이스(1000)는 제 1 음성 신호의 특징을 검출할 수 있다.
단계 S2530에서, 제 2 음성 신호의 방향이 제 1 음성 신호의 방향으로부터 임계 각도 이내인지 여부에 기초하여, 제 2 음성 신호의 방향이 등록 방향이 아니더라도, 제 2 음성 신호가 웨이크업 키워드를 포함하는지 여부에 상관없이 제 2 음성 신호를 인식할 수 있다.
디바이스(1000)는 제 2 음성 신호의 방향이 제 1 음성 신호의 방향으로부터 임계 각도 이내인지 여부를 판단할 수 있다. 예를 들어, 디바이스(1000)는 제 1 음성 신호의 방향과 제 2 음성 신호의 방향 사이의 각도에 기초하여 제 1 음원의 변화도를 결정하고, 결정된 변화도가 임계 각도 이내인지를 판단할 수 있다. 제 2 음성 신호의 방향이 제 1 음성 신호의 방향으로부터 임계 각도 이내인 것으로 판단함에 따라, 디바이스(1000)는 제 2 음성 신호가 웨이크업 키워드를 포함하는지 여부에 상관없이 제 2 음성 신호를 인식할 수 있다.
또한, 실시예에 따라, 디바이스(1000)는 제 2 음성 신호의 방향이 등록 방향이 아닌 것으로 결정됨에 따라, 디바이스(1000)는 제 1 음원으로부터 제 1 음성 신호를 수신한 후 기준 시간 내에 제 2 음성 신호가 수신되었는지를 판단할 수 있다.
기준 시간 내에 2 음성 신호가 수신된 경우, 디바이스(1000)는 제 2 음성 신호의 특징을 검출하고, 검출된 특징을 제 1 음성 신호의 특징과 비교하여 제 2 음성 신호의 음원이 제 1 음원인지를 판단할 수 있다.
제 2 음성 신호가 제 1 음원으로부터 수신된 것으로 판단됨에 따라, 디바이스(1000)는 제 2 음성 신호의 방향이 제 1 음성 신호의 방향으로부터 임계 각도 이내인지 여부를 판단할 수 있다.
제 2 음성 신호의 방향이 제 1 음성 신호의 방향으로부터 임계 각도 이내인 것으로 판단함에 따라, 디바이스(1000)는 제 2 음성 신호의 방향이 등록 방향이 아닌 것으로 판단한 경우에도, 웨이크업 키워드의 수신 여부에 상관없이 제 2 음성 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
또한, 도 25에서는, 제 2 음성 신호가 제 1 음성 신호와 구분되어 수신되는 경우를 설명하였으나, 실시예에 따라, 사용자가 하나의 문장을 발화하면서 등록 방향에서 등록 방향이 아닌 경우로 이동하는 경우에도, 웨이크업 키워드의 수신 여부에 상관없이 발화된 문장에 기초하여 음성 인식 서비스를 제공할 수 있다.
또한, 디바이스(1000)는 제 2 음성 신호의 음원이 제 1 음원인 것으로 판단함에 따라, 디바이스(1000)는 기준 시간 동안 제 1 음원이 제 1 음성 신호의 방향에서 제 2 음성 신호의 방향으로 이동한 것으로 결정할 수 있다.
또한, 실시예에 따라, 디바이스(1000)가 음원의 3 차원 위치를 결정하는 경우, 기준 시간 동안 제 1 음원이 제 1 음성 신호로부터 산출된 위치에서 제 2 음성 신호로부터 산출된 위치로 이동한 것으로 결정할 수도 있다.
도 26은 일부 실시예에 따른, 디바이스(1000)가 음원의 이동 경로를 고려하여, 음성 인식 서비스를 제공하는 방법을 도시한다.
도 26을 참조하면, 디바이스(1000)는 음원의 이동 경로를 고려하여, 음향 신호의 방향이 등록 방향이 아닌 경우에도, 웨이크업 키워드의 수신 여부에 상관없이 음성 인식 서비스를 제공할 수 있다.
예를 들어, 디바이스(1000)에는 60도 내지 90도가 등록 방향으로 설정되어 있고, 90도 내지 120도가 등록 방향으로 설정되어 있지 않을 수 있다. 사용자(10)는 90도에서 95도 방향으로 이동하면서, 웨이크업 키워드 없이, 디바이스(1000)에게 음성 신호를 전송할 수 있다.
사용자(10)가 95도 방향에 위치했을 때, 디바이스(1000)는 음성 신호의 방향이 등록 방향이 아니며, 음성 신호에 웨이크업 키워드가 포함되어 있지 않은 것으로 판단한 경우에도, 음성 신호가 동일한 사용자로부터 수신되었고 이전의 음성 신호가 수신된 시간으로부터 기준 시간 내에 수신된 경우, 수신된 음성 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
도 27은 일부 실시예에 따른, 디바이스(1000)가 디바이스(1000)의 방향 또는 기울기 정도에 기초하여, 등록 방향을 변경하는 방법을 도시한다.
도 27의 (a)를 참조하면, 디바이스(1000)는 3 차원 좌표를 기준으로 등록 방향을 결정할 수 있다.
도 27의 (b) 및 (c)를 참조하면, 디바이스(1000)가 기울어지거나 회전함에 따라, 디바이스(1000)는 등록 방향을 변경할 수 있다.
예를 들어, 디바이스(1000)는 디바이스(1000) 내의 위치 센서를 이용하여 디바이스(1000)의 회전 각도, 기울기 방향 및 기울기 각도를 산출할 수 있다. 디바이스(1000)는 산출된 회전 각도, 기울기 방향 및 기울기 각도 및 기 설정된 3 차원 좌표에 기초하여 등록 방향을 변경할 수 있다.
또한, 디바이스(1000)는 사용자에 의해 디바이스(1000)가 움직이더라도 위치 센싱 또는 학습에 의해 기존 등록 방향이 자동으로 보정 또는 변경될 수 있다.
도 28 및 도 29는 일부 실시예에 따른 디바이스(1000)의 블록도이다.
도 28에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는 마이크로폰(1620) 및 제어부(1300)를 포함할 수 있다. 그러나, 도 28에 도시된 구성 요소 모두가 디바이스(1000)의 필수 구성 요소인 것은 아니다. 도 28에 도시된 구성 요소보다 많은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있고, 도 28에 도시된 구성 요소보다 적은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있다.
예를 들어, 도 29에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는, 마이크로폰(1620) 및 제어부(1300) 이외에 사용자 입력부(1100), 디스플레이부(1210), 출력부(1200), 통신부(1500), 센싱부(1400), A/V 입력부(1600) 및 메모리(1700)를 더 포함할 수도 있다.
사용자 입력부(1100)는, 사용자가 디바이스(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다. 또한, 사용자 입력부(1100)는 마이크로폰(1620)과 연결되어 디바이스(1000)를 제어하기 위한 음성 입력을 수신할 수 있다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
디스플레이부(1210)는 디바이스(1000)에서 처리되는 정보를 표시 출력한다. 예를 들어, 디스플레이부(1210)는, 디바이스(1000)에 설정된 등록 방향을 나타내는 이미지를 디스플레이할 수 있다.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다.
또한, 디스플레이부(1210)는 발광 소자(미도시)를 포함할 수 있다. 발광 소자(미도시)는 예를 들어, 발광 다이오드(Light emitting diode) 및 디스플레이 패널을 포함할 수 있으며, 이에 제한되지 않는다.
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 음향 데이터를 출력한다. 진동 모터(1230)는 진동 신호를 출력할 수 있다.
제어부(1300)는, 통상적으로 디바이스(1000)의 전반적인 동작을 제어한다. 예를 들어, 제어부(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. 제어부(1300)는, 도 1 내지 도 27에 설시된 디바이스(1000)의 기능을 수행하기 위하여, 디바이스(1000)의 동작을 제어할 수 있다.
구체적으로, 제어부(1300)는 수신된 음향 신호에 기초하여, 음성 인식 디바이스로부터 제 1 음원으로의 방향을 결정하고, 제 1 음원으로의 방향이 등록 방향인지를 판단하고, 제 1 음원으로의 방향이 등록 방향인지 여부에 기초하여, 음향 신호가 웨이크업 키워드를 포함하는지 여부에 상관없이 음성 인식 서비스를 제공할 수 있다.
또한, 제어부(1300)는, 복수의 발광 소자 중 등록 방향에 대응하는 발광 소자를 나머지 발광 소자와 구별하여 발광시킬 수 있다.
또한, 제어부(1300)는, 복수의 터치 소자 중 제 1 방향에 대응하는 터치 소자를 터치하는 사용자 입력을 수신함에 따라, 제 1 방향을 등록 방향으로 결정할 수 있다.
또한, 제어부(1300)는, 복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 복수의 방향 각각에 대응하여 웨이크업 키워드가 수신되는 빈도를 결정하고, 복수의 방향 중 결정된 빈도가 임계값 이상인 방향을 등록 방향으로 결정할 수 있다.
또한, 제어부(1300)는 음향 신호의 방향이 음영 방향인지를 판단하고, 음향 신호의 방향이 음영 방향인 경우, 수신되는 음향 신호는 인식하지 않을 수 있다.
또한, 제어부(1300)는 복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 복수의 방향 각각에서 노이즈 신호가 수신되는지를 결정하고, 복수의 방향 중 노이즈 신호가 기준 시간 이상 수신되는 방향을 음영 방향으로 결정할 수 있다.
또한, 제어부(1300)는 노이즈 신호가 기준 시간 이상 수신되는 시간 구간을 결정하고, 시간 구간에 대응하여 노이즈 신호가 수신되는 방향을 음영 방향으로 결정할 수 있다.
또한, 제어부(1300)는, 제 1 음원으로의 방향에 대응하는 우선 순위가 제 3 음원으로의 방향에 대응하는 우선 순위 보다 높은 경우, 제 1 음원으로부터 수신된 음향 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
또한, 제어부(1300)는, 등록 방향에 대응하는 홈 디바이스의 식별 정보에 기초하여, 등록 방향에 위치하는 음원으로부터 수신된 음향 신호에 관한 음성 인식 서비스를 결정할 수 있다.
또한, 제 1 음향 신호의 방향이 등록 방향이고, 제 1 음향 신호를 수신한 후, 제 2 음향 신호를 수신한 경우, 제어부(1300)는, 제 2 음향 신호가 제 1 음향 신호가 수신된 후 기준 시간 내에 동일한 음원으로부터 수신되었는지 여부에 기초하여, 제 2 음향 신호가 웨이크업 키워드를 포함하는지 여부 및 제 2 음향 신호의 방향이 등록 방향인지 여부에 상관없이 제 2 음향 신호에 기초하여 음성 인식 서비스를 제공할 수 있다.
센싱부(1400)는, 디바이스(1000)의 상태 또는 디바이스(1000) 주변의 상태를 감지하고, 감지된 정보를 제어부(1300)로 전달할 수 있다.
또한, 제어부(1300)는 통신부(1500)를 제어하여 영상 처리된 이미지를 디바이스(1000)와 연결된 다른 디바이스에게 전송할 수 있다.
센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 조도 센서(1495), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(1500)는, 디바이스(1000)가 외부와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(151)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 디바이스(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다.
메모리(1700)는, 제어부(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 디바이스(1000)로 입력되거나 디바이스(1000)로부터 출력되는 데이터를 저장할 수도 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730), 이미지 필터 모듈(1740) 등으로 분류될 수 있다.
메모리(1700)는 등록 방향, 음영 방향, 홈 디바이스(2000)에 관한 정보, 우선 순위에 관한 정보 및 장소 정보 등을 저장할 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 디바이스(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 제어부(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
모바일 디바이스(5000) 또한, 도 28 및 도 29에 개시된 장치 구성을 포함할 수 있다.
도 30은 일부 실시예에 따른 인공 지능 서버(3000)의 블록도이다.
도 30을 참조하면, 인공 지능 서버(3000)는 제어부(3300), 데이터 저장부(3500) 및 데이터 송수신부(3700)을 포함할 수 있다.
데이터 송수신부(3700)는 인공 지능 서버(3000)가 외부와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 데이터 송수신부(3700)는, 근거리 통신부, 이동 통신부 및 방송 수신부를 포함할 수 있으며, 동일한 명칭으로 기술된 도 29의 장치 구성을 참조하여 설명될 수 있다.
데이터 송수신부(3700)는 디바이스(1000) 또는 모바일 디바이스(5000)로부터 사용자의 음성 데이터, 사용자 정보, 센서 데이터 등을 수신할 수 있으며, 디바이스(1000) 또는 모바일 디바이스(5000)에게 제공할 음성 인식 서비스에 관한 정보를 전송할 수 있다.
데이터 저장부(3500)는 제어부(3300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 인공 지능 서버(3000)로 입력되거나 인공 지능 서버(3000)로부터 출력되는 데이터를 저장할 수도 있다.
데이터 저장부(3500)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
데이터 저장부(3500)는 사용자의 식별 정보, 디바이스(1000)의 식별 정보, 등록 방향, 음영 방향, 홈 디바이스(2000)에 관한 정보, 우선 순위에 관한 정보 및 장소 정보 등을 저장할 수 있다.
제어부(3300)는, 통상적으로 인공 지능 서버(3000)의 전반적인 동작을 제어한다. 예를 들어, 제어부(3300)는, 데이터 저장부(3500)에 저장된 프로그램들을 실행함으로써, 데이터 저장부(3500) 및 데이터 송수신부(3700) 등을 전반적으로 제어할 수 있다. 제어부(3300)는, 도 1 내지 도 27에 설시된 기능을 수행하기 위하여, 인공 지능 서버(3000)의 동작을 제어할 수 있다. 또한, 제어부(3300)는 복수의 프로세서로 구성될 수 있다.
제어부(3300)는, 사용자의 음성 데이터, 사용자 정보 및 센서 데이터 등에 기초하여, 음성 인식 서비스를 결정할 수 있다.
제어부(3300)는, 데이터 학습부(3310), 데이터 인식부(3320), 자연어 처리부(3330) 및 음성 인식 서비스 결정부(3340)를 포함할 수 있다.
자연어 처리부(3330)은 디바이스(1000) 또는 모바일 디바이스(5000)로부터 수신된 단어 또는 문장으로부터 사용자의 의도를 검출할 수 있다.
음성 인식 서비스 결정부(3340)은 디바이스(1000) 또는 모바일 디바이스(5000)로부터 수신된 정보 및 사용자의 의도에 기초하여, 사용자에게 제공할 음성 인식 서비스를 결정하고, 결정된 음성 인식 서비스에 따라 정보를 수집할 수 있다.
데이터 학습부(3310)는 상황 판단을 위한 기준을 학습할 수 있다. 데이터 학습부(3310)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(3310)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다. 상황 판단은 등록 방향을 설정 또는 해제 할지 여부에 대한 판단일 수 있으며, 음영 방향을 설정 또는 해제 할지 여부에 대한 판단일 수 있다.
데이터 인식부(3320)는 데이터에 기초한 상황을 판단할 수 있다. 데이터 인식부(3320)는 학습된 데이터 인식 모델을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식부(3320)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용함으로써, 소정의 데이터에 기초한 소정의 상황을 판단할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델에 의해 출력된 결과 값은, 데이터 인식 모델을 갱신하는데 이용될 수 있다. 데이터는 음성 신호가 수신된 방향 범위에 기 설정된 설정값 및 음성 신호가 수신된 방향 범위에서 음성 인식 서비스가 요청된 빈도일 수 있으며, 이 때 출력된 결과 값은 등록 방향, 일반 방향 및 음영 방향 중 하나일 수 있다. 또한, 데이터는 음향 신호가 수신된 시간, 음향 신호의 특징 및 음성 인식 서비스 요청인지 여부일 수 있으며, 이 때 출력된 결과 값은 음영 방향 설정 또는 해제일 수 있다.
데이터 학습부(3310) 및 데이터 인식부(3320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(3310) 및 데이터 인식부(3320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
이 경우, 데이터 학습부(3310) 및 데이터 인식부(3320)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(3310) 및 데이터 인식부(3320) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(3310) 및 데이터 인식부(3320)는 유선 또는 무선으로 통하여, 데이터 학습부(3310)가 구축한 모델 정보를 데이터 인식부(3320)로 제공할 수도 있고, 데이터 인식부(3320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(3310)로 제공될 수도 있다.
한편, 데이터 학습부(3310) 및 데이터 인식부(3320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(3310) 및 데이터 인식부(3320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (20)

  1. 음성 인식 디바이스에 있어서,
    제 1 음원으로부터 음향 신호(Sound signal)를 수신하는 마이크로폰; 및
    상기 수신된 음향 신호를 기반으로, 상기 제 1 음원의 방향을 결정하고,
    상기 제 1 음원의 방향이 등록 방향인지를 판단하고,
    상기 제 1 음원의 방향이 등록 방향인지 여부에 기초하여, 상기 음향 신호가 웨이크업 키워드를 상기 음향 신호의 일부로서 포함하는지 여부에 상관없이 상기 음향 신호로부터 음성을 인식하는 제어부를 포함하되,
    상기 제어부는, 복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 상기 복수의 방향 각각에 대응하여 상기 웨이크업 키워드가 수신되는 빈도를 결정하고, 상기 복수의 방향 중 상기 결정된 빈도가 임계값 이상인 방향을 상기 등록 방향으로 결정하는, 음성 인식 디바이스.
  2. 제 1 항에 있어서,
    음성 인식 서비스를 요청하는 상기 음향 신호는 웨이크업 키워드를 포함하는 음향 신호를 포함하고,
    상기 웨이크업 키워드는 상기 웨이크업 키워드 다음의 음성 신호에 기초하여 음성 인식 서비스를 제공해 줄 것을 요청하는 키워드를 포함하고,
    상기 웨이크업 키워드는 음성 신호 또는 비음성 신호 중 적어도 하나를 포함하는, 음성 인식 디바이스.
  3. 제 1 항에 있어서,
    상기 제어부는, 복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 노이즈 신호가 수신되는지를 결정하고, 상기 복수의 방향 중 상기 노이즈 신호가 기준 시간 이상 수신되는 방향을 음영 방향으로 결정하는, 음성 인식 디바이스.
  4. 제 3 항에 있어서,
    상기 제어부는, 상기 노이즈 신호가 기준 시간 이상 수신되는 시간을 결정하고, 상기 시간에 대응하여 상기 노이즈 신호가 수신되는 방향을 상기 음영 방향으로 결정하는, 음성 인식 디바이스.
  5. 제 1 항에 있어서,
    상기 제어부는,
    상기 제 1 음원의 방향이 등록 방향의 임계 각도 이내인지를 판단함으로써, 상기 제 1 음원의 방향이 등록 방향인지를 판단하는, 음성 인식 디바이스.
  6. 제 5 항에 있어서,
    상기 제어부는,
    상기 제 1 음원의 방향의 변화도를 결정하고, 상기 결정된 변화도가 임계 각도 이내인지를 판단함으로써, 상기 제 1 음원의 방향이 등록 방향의 임계 각도 이내인지를 판단하는, 음성 인식 디바이스.
  7. 제 1 항에 있어서,
    상기 음성 인식 디바이스는,
    상기 등록 방향에 위치하는 장치의 정보를 저장하는 저장부를 더 포함하고,
    상기 제어부는, 상기 제 1 음원의 방향이 등록 방향인 경우, 상기 등록 방향에 대응하는 장치의 정보에 기초하여, 상기 음성 인식의 결과를 제공하는, 음성 인식 디바이스.
  8. 제 1 항에 있어서,
    상기 음성 인식 디바이스는, 복수의 방향을 나타내는 복수의 발광 소자를 포함하고,
    상기 제어부는, 상기 복수의 발광 소자 중 상기 등록 방향에 대응하는 발광 소자를 나머지 발광 소자와 구별하여 발광시키는, 음성 인식 디바이스.

  9. 제 1 항에 있어서,
    상기 음성 인식 디바이스는 복수의 방향에 대응하는 복수의 터치 소자를 포함하는 사용자 입력부를 포함하고,
    상기 제어부는, 상기 복수의 터치 소자 중 제 1 방향에 대응하는 터치 소자를 터치하는 사용자 입력을 수신함에 따라, 상기 제 1 방향을 상기 등록 방향으로 결정하는, 음성 인식 디바이스.
  10. 제 1 항에 있어서,
    상기 마이크로폰은, 제 1 사용자로부터 출력되는 음성 신호와 함께, 상기 제 1 사용자와 다른 제 2 사용자로부터 출력되는 음성 신호를 수신하고,
    상기 제어부는, 상기 제 1 사용자로의 방향에 대응하는 우선 순위가 상기 제 2 사용자로의 방향에 대응하는 우선 순위 보다 높은 경우, 상기 제 2 사용자로부터 출력된 음성 신호를 제외한 상기 제 1 사용자로부터 출력된 음성 신호만을 인식하는, 음성 인식 디바이스.
  11. 음성 인식 방법에 있어서,
    제 1 음원으로부터 음향 신호(Sound signal)를 수신하는 단계;
    상기 수신된 음향 신호를 기반으로, 상기 제 1 음원의 방향을 결정하는 단계;
    상기 제 1 음원의 방향이 등록 방향인지를 판단하는 단계; 및
    상기 제 1 음원의 방향이 등록 방향인지 여부에 기초하여, 상기 음향 신호가 웨이크업 키워드를 상기 음향 신호의 일부로서 포함하는지 여부에 상관없이 상기 음향 신호로부터 음성을 인식하는 단계를 포함하고,
    복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 상기 복수의 방향 각각에 대응하여 상기 웨이크업 키워드가 수신되는 빈도를 결정하는 단계; 및
    상기 복수의 방향 중 상기 결정된 빈도가 임계값 이상인 방향을 상기 등록 방향으로 결정하는 단계를 더 포함하는, 음성 인식 방법.
  12. 제 11 항에 있어서,
    음성 인식 서비스를 요청하는 상기 음향 신호는 웨이크업 키워드를 포함하는 음향 신호를 포함하고,
    상기 웨이크업 키워드는 상기 웨이크업 키워드 다음의 음성 신호에 기초하여 음성 인식 서비스를 제공해 줄 것을 요청하는 키워드를 포함하고,
    상기 웨이크업 키워드는 음성 신호 또는 비음성 신호 중 적어도 하나를 포함하는, 음성 인식 방법.
  13. 제 11 항에 있어서,
    상기 음성 인식 방법은,
    복수의 방향에서 수신되는 복수의 음향 신호에 기초하여, 노이즈 신호가 수신되는지를 결정하는 단계; 및
    상기 복수의 방향 중 상기 노이즈 신호가 기준 시간 이상 수신되는 방향을 음영 방향으로 결정하는 단계를 더 포함하는, 음성 인식 방법.
  14. 제 13 항에 있어서,
    상기 음성 인식 방법은,
    상기 노이즈 신호가 기준 시간 이상 수신되는 시간을 결정하는 단계; 및
    상기 시간에 대응하여 상기 노이즈 신호가 수신되는 방향을 상기 음영 방향으로 결정하는 단계를 더 포함하는, 음성 인식 방법.
  15. 제 11 항에 있어서,
    상기 제 1 음원의 방향이 등록 방향인지를 판단하는 단계는,
    상기 제 1 음원의 방향이 등록 방향의 임계 각도 이내인지를 판단하는 단계를 포함하는, 음성 인식 방법.
  16. 제 15 항에 있어서,
    상기 제 1 음원의 방향이 등록 방향의 임계 각도 이내인지를 판단하는 단계는,
    상기 제 1 음원의 방향의 변화도를 결정하는 단계; 및
    상기 결정된 변화도가 임계 각도 이내인지를 판단하는 단계를 포함하는, 음성 인식 방법.
  17. 제 11 항에 있어서,
    상기 음성 인식 방법은,
    상기 등록 방향에 위치하는 장치의 정보를 저장하는 단계; 및
    상기 제 1 음원의 방향이 등록 방향인 경우, 상기 등록 방향에 대응하는 장치의 정보에 기초하여, 상기 음성 인식의 결과를 제공하는 단계를 더 포함하는, 음성 인식 방법.
  18. 제 11 항에 있어서,
    상기 음성 인식 방법은,
    복수의 발광 소자 중 상기 등록 방향에 대응하는 발광 소자를 나머지 발광 소자와 구별하여 발광시키는 단계를 더 포함하는, 음성 인식 방법.
  19. 제 11 항에 있어서,
    상기 음성 인식 방법은,
    복수의 터치 소자 중 제 1 방향에 대응하는 터치 소자를 터치하는 사용자 입력을 수신함에 따라, 상기 제 1 방향을 상기 등록 방향으로 결정하는 단계를 더 포함하는, 음성 인식 방법.
  20. 제 11 항에 있어서,
    상기 제 1 음원으로부터 음향 신호를 수신하는 단계는,
    제 1 사용자로부터 출력되는 음성 신호와 함께, 상기 제 1 사용자와 다른 제 2 사용자로부터 출력되는 음성 신호를 수신하는 단계를 포함하고,
    상기 제 1 사용자의 음성을 인식하는 단계는,
    상기 제 1 사용자로의 방향에 대응하는 우선 순위가 상기 제 2 사용자로의 방향에 대응하는 우선 순위 보다 높은 경우, 상기 제 2 사용자로부터 출력된 음성 신호를 제외한 상기 제 1 사용자로부터 출력된 음성 신호만을 인식하는 단계를 포함하는, 음성 인식 방법.
KR1020170163693A 2017-11-30 2017-11-30 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 KR102469753B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020170163693A KR102469753B1 (ko) 2017-11-30 2017-11-30 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스
US16/202,932 US10984790B2 (en) 2017-11-30 2018-11-28 Method of providing service based on location of sound source and speech recognition device therefor
PCT/KR2018/014888 WO2019107945A1 (en) 2017-11-30 2018-11-29 Method of providing service based on location of sound source and speech recognition device therefor
EP18882512.9A EP3676830B1 (en) 2017-11-30 2018-11-29 Speech recognition device and speech recognition method based on sound source direction
CN201880077091.5A CN111418008B (zh) 2017-11-30 2018-11-29 基于声源的位置提供服务的方法以及为此的语音辨识设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170163693A KR102469753B1 (ko) 2017-11-30 2017-11-30 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스

Publications (2)

Publication Number Publication Date
KR20190064270A KR20190064270A (ko) 2019-06-10
KR102469753B1 true KR102469753B1 (ko) 2022-11-22

Family

ID=66633375

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170163693A KR102469753B1 (ko) 2017-11-30 2017-11-30 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스

Country Status (5)

Country Link
US (1) US10984790B2 (ko)
EP (1) EP3676830B1 (ko)
KR (1) KR102469753B1 (ko)
CN (1) CN111418008B (ko)
WO (1) WO2019107945A1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11118294B2 (en) * 2018-01-08 2021-09-14 Lg Electronics Inc. Laundry treatment machine
CN111314821A (zh) * 2018-12-12 2020-06-19 深圳市冠旭电子股份有限公司 一种智能音箱播放方法、装置及智能音箱
US11393478B2 (en) * 2018-12-12 2022-07-19 Sonos, Inc. User specific context switching
JP7309460B2 (ja) * 2019-06-03 2023-07-18 東芝テック株式会社 音声検知装置
KR102246936B1 (ko) 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR102144382B1 (ko) * 2019-10-23 2020-08-12 (주)남경 음성 인식 기술을 이용한 차량용 헤드업 디스플레이 장치
CN110794368B (zh) * 2019-10-28 2021-10-19 星络智能科技有限公司 一种声源定位方法、装置、智能音箱及存储介质
CN111091828B (zh) * 2019-12-31 2023-02-14 华为技术有限公司 语音唤醒方法、设备及***
US20210390137A1 (en) * 2020-06-10 2021-12-16 Enel X North America, Inc. Techniques for determining machine operation using audio
CN111862987B (zh) * 2020-07-20 2021-12-28 北京百度网讯科技有限公司 语音识别方法和装置
CN111916079A (zh) * 2020-08-03 2020-11-10 深圳创维-Rgb电子有限公司 一种电子设备的语音响应方法、***、设备和存储介质
EP3989218A1 (de) * 2020-10-21 2022-04-27 Deutsche Telekom AG Bedienungsfreundlicher virtueller sprachassistent
CN112185357A (zh) * 2020-12-02 2021-01-05 成都启英泰伦科技有限公司 一种同时识别人声和非人声的装置及方法
CN113077803B (zh) * 2021-03-16 2024-01-23 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备
US11948569B2 (en) 2021-07-05 2024-04-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20230006999A (ko) * 2021-07-05 2023-01-12 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102661431B1 (ko) * 2023-11-20 2024-04-26 주식회사 액션파워 분류된 고객 음성 피드백을 생성하는 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090018828A1 (en) * 2003-11-12 2009-01-15 Honda Motor Co., Ltd. Automatic Speech Recognition System
US20150006176A1 (en) * 2013-06-27 2015-01-01 Rawles Llc Detecting Self-Generated Wake Expressions

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234710A1 (en) 2004-04-20 2005-10-20 Microsoft Corporation Canceling a speech interaction session
JP4225430B2 (ja) * 2005-08-11 2009-02-18 旭化成株式会社 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
KR101061443B1 (ko) 2009-07-13 2011-09-02 엘지전자 주식회사 전자 기기, 이동 단말기 및 이를 이용한 기능 수행 방법
US9398379B2 (en) * 2012-04-25 2016-07-19 Sivantos Pte. Ltd. Method of controlling a directional characteristic, and hearing system
KR101946364B1 (ko) 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
JP2014153663A (ja) 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US9245527B2 (en) 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
KR20160026317A (ko) * 2014-08-29 2016-03-09 삼성전자주식회사 음성 녹음 방법 및 장치
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
KR102351366B1 (ko) 2015-01-26 2022-01-14 삼성전자주식회사 음성 인식 방법 및 장치
KR102585228B1 (ko) * 2015-03-13 2023-10-05 삼성전자주식회사 음성 인식 시스템 및 방법
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
KR102444061B1 (ko) 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US20170330564A1 (en) 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090018828A1 (en) * 2003-11-12 2009-01-15 Honda Motor Co., Ltd. Automatic Speech Recognition System
US20150006176A1 (en) * 2013-06-27 2015-01-01 Rawles Llc Detecting Self-Generated Wake Expressions

Also Published As

Publication number Publication date
WO2019107945A1 (en) 2019-06-06
EP3676830A1 (en) 2020-07-08
US10984790B2 (en) 2021-04-20
EP3676830A4 (en) 2020-09-23
CN111418008B (zh) 2023-10-13
CN111418008A (zh) 2020-07-14
KR20190064270A (ko) 2019-06-10
US20190164552A1 (en) 2019-05-30
EP3676830B1 (en) 2022-08-17

Similar Documents

Publication Publication Date Title
KR102469753B1 (ko) 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스
US11687319B2 (en) Speech recognition method and apparatus with activation word based on operating environment of the apparatus
US9721572B2 (en) Device control method and electric device
US10884096B2 (en) Location-based voice recognition system with voice command
KR102384643B1 (ko) 전자 장치 및 그 제어 방법
AU2022271496B2 (en) Controlling a device based on processing of image data that captures the device and/or an installation environment of the device
KR102556492B1 (ko) 텍스트와 연관된 이미지 제공 방법 및 이를 위한 전자 장치
KR102585228B1 (ko) 음성 인식 시스템 및 방법
KR102528466B1 (ko) 복수 화자의 음성 신호 처리 방법 및 그에 따른 전자 장치
CN108023934B (zh) 电子装置及其控制方法
KR20190084789A (ko) 전자 장치 및 그 제어 방법
US11189278B2 (en) Device and method for providing response message to user input
JP6567727B2 (ja) 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
KR102420567B1 (ko) 음성 인식 장치 및 방법
JP6716630B2 (ja) 情報を提供する装置、方法、コンピュータプログラムおよび記録媒体
KR20200085143A (ko) 외부 장치를 등록하는 대화형 제어 시스템 및 방법
US11182922B2 (en) AI apparatus and method for determining location of user
JP2018198058A (ja) 情報提供方法、電子機器、コンピュータプログラム及び記録媒体
JP6681940B2 (ja) ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置
KR102629796B1 (ko) 음성 인식의 향상을 지원하는 전자 장치
US11228815B2 (en) Display apparatus and operation method of the same
KR20190024333A (ko) 전자 장치 및 그 제어 방법
US20220270601A1 (en) Multi-modal smart audio device system attentiveness expression
US11662832B1 (en) System and method for enhancing functionality of electronic devices
KR102642268B1 (ko) 공유 업무 처리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant