KR102134860B1 - 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법 - Google Patents

인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법 Download PDF

Info

Publication number
KR102134860B1
KR102134860B1 KR1020190116698A KR20190116698A KR102134860B1 KR 102134860 B1 KR102134860 B1 KR 102134860B1 KR 1020190116698 A KR1020190116698 A KR 1020190116698A KR 20190116698 A KR20190116698 A KR 20190116698A KR 102134860 B1 KR102134860 B1 KR 102134860B1
Authority
KR
South Korea
Prior art keywords
user
motion
head rotation
voice command
request processing
Prior art date
Application number
KR1020190116698A
Other languages
English (en)
Inventor
서형국
이경한
가에턴 게레로
최재영
Original Assignee
(주)제노임펙트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)제노임펙트 filed Critical (주)제노임펙트
Priority to KR1020190116698A priority Critical patent/KR102134860B1/ko
Application granted granted Critical
Publication of KR102134860B1 publication Critical patent/KR102134860B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • G06K9/00335
    • G06K9/00597
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법에 관한 것으로, 사용자 모션을 3차원적으로 인식하여 머리 회전 쿼터니언을 획득 및 제공하는 모션 인식 카메라; 상기 머리 회전 쿼터니언이 기 설정된 기준 각도 범위에 속하는 경우, 눈 맞춤 이벤트를 발생하는 모션 분석부; 사용자 음성 신호를 수신하는 마이크; 상기 사용자 음성 신호를 자연어 처리하여, 음성 명령을 획득하는 음성 명령어 처리부; 활성화 모드 중에 눈 맞춤 이벤트가 발생하면 요청 처리 모드로 진입하고, 요청 처리 모드 중에 사용자 음성 신호 미수신 상태가 설정 시간 이상 유지되면 활성화 모드로 재진입하는 동작 모드 설정부; 요청 처리 모드 중에 획득된 상기 음성 명령에 상응하는 서비스를 호출 및 실행하는 서비스 실행부; 및 상기 서비스 실행부의 서비스 실행 결과에 상응하는 소리를 실시간 재생하는 스피커를 포함한다.

Description

인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법{Artificial Intelligence speaker and method for activating action based on non-verbal element}
본 발명은 사용자의 머리 회전정보를 바탕으로 사용자 눈 맞춤을 탐지하고, 이를 동작 활성화 정보로 활용할 수 있도록 하는 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법에 관한 것이다.
최근 깊이 신경망과 음성인식 기술의 발전으로 인공지능 스피커가 상용화되며 인공지능 스피커 시장은 급격하게 성장하고 있다. 인공지능 스피커는 음성인식을 이용한 입력장치로써 다양한 형태의 새로운 인터랙션 방식을 발생시켰다. 이러한 음성 기반의 인터페이스는 원격에서 쉽게 사용자가 원하는 정보나 기기제어를 가능하게 하지만 몇몇 상황에서 한계점을 드러낸다.
사용자는 현재 음성만으로 인공지능 스피커와 인터랙션 할 수 있기 때문에 인공지능 스피커를 활성화하기 위해서 사용자는 스피커마다 할당된 호칭을 호명해야 한다. 사용자는 인공지능 스피커가 활성화된 이후에야 자신의 요청사항을 전달할 수 있다.
예를 들어, (1) 사용자가 음악을 재생하기 위해서는 스피커 이름을 불려 스피커가 활성화되기를 기다린 후, (2) 스피커가 활성화될 때에 음악을 켜달라는 요청을 말해야 한다.
이러한 2 단계로 이루어진 인터랙션 방식은 불필요한 시간 소요를 발생시킨다. 또한 맥락에 대한 이해 없이 소리만 가지고 활성화 여부를 판단하기 때문에 의도하지 않은 활성화가 일어날 수도 있다.
이를 해결하기 위해서는 사용자를 고려한 지능적 환경 구성이 필요하다. 이를 구현하기 위해 시각 정보와 소리 신호를 함께 고려하려는 시도는 오래전부터 존재했다. 또한 인공지능 스피커 시스템에 카메라를 설치하여 더욱 정확한 입력 활성화를 시도하고자 한 시도도 존재했다.
그러나 대부분의 연구는 입력의 정확도 및 보안성 측면에서 음성-기반 인간-컴퓨터 상호작용의 성능을 높이는 데 초점을 맞춰왔다
그보다 인공지능 스피커의 활성화 시점의 설계는 대화의 끊김이나 겹침을 부정적인 신호로서 인식하는 사람들의 문화와 관련 있다. 즉, 더욱더 자연스럽고 사회적인 대화를 하는 인공지능 스피커는 사용자가 말하는 동안에는 말을 끊지 않으면서 (not overlap) 동시에 말이 끝난 이후 자신의 말을 재생하기까지의 시간 (silence)을 최소로 해야 한다.
이를 위해 인공지능 스피커는 상대방의 말이 언제 끝났는지, 또한 언제 자신의 말을 시작해야 하는지 그 타이밍을 정확히 알아내야 하며, 이는 사용자가 한 말의 의미를 정확히 알아내는 것만큼 인공지능 스피커 시스템의 사용성을 높이는데 매우 중요하다.
하지만 그러한 입력 활성화의 적절한 시기와 그것이 인공지능 스피커와 사용자가 수행하는 대화의 질에 미치는 영향에 대해서는 거의 연구가 이뤄지지 않은 한계가 있다.
국내등록번호 제10-1970731호 (등록 일자 : 2019.04.15)
이에 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명은 카메라 좌표 내에서 사용자의 머리 회전정보를 바탕으로 사용자-카메라 간의 눈 맞춤을 탐지함으로써, 인공 지능 스피커를 동작 활성화하는 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법을 제공하고자 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 수단으로서, 본 발명의 일 실시 형태에 따르면 사용자 모션을 3차원적으로 인식하여 머리 회전 쿼터니언을 획득 및 제공하는 모션 인식 카메라; 상기 머리 회전 쿼터니언이 기 설정된 기준 각도 범위에 속하는 경우, 눈 맞춤 이벤트를 발생하는 모션 분석부; 사용자 음성 신호를 수신하는 마이크; 상기 사용자 음성 신호를 자연어 처리하여, 음성 명령을 획득하는 음성 명령어 처리부; 활성화 모드 중에 눈 맞춤 이벤트가 발생하면 요청 처리 모드로 진입하고, 요청 처리 모드 중에 사용자 음성 신호 미수신 상태가 설정 시간 이상 유지되면 활성화 모드로 재진입하는 동작 모드 설정부; 요청 처리 모드 중에 획득된 상기 음성 명령에 상응하는 서비스를 호출 및 실행하는 서비스 실행부; 및 상기 서비스 실행부의 서비스 실행 결과에 상응하는 소리를 실시간 재생하는 스피커를 포함하는 인공 지능 스피커를 제공한다.
상기 모션 분석부는 기 설정 시간에 거쳐 머리 회전 쿼터니언을 수집 및 평균한 후, 평균값 기반으로 눈 맞춤 이벤트 발생 여부를 결정하는 것을 특징으로 한다.
상기 음성 명령어 처리부는 활성화 모드 중에 기 설정된 호출 명령어에 대응되는 사용자 음성 신호가 입력되면, 호출 이벤트를 발생하는 기능을 더 포함하는 것을 특징으로 한다.
상기 동작 모드 설정부는 상기 호출 이벤트를 추가 고려하여 요청 처리 모드로의 진입 여부를 결정하는 기능을 더 포함하는 것을 특징으로 한다.
상기 모션 분석부는 호출 이벤트 발생을 위한 모션 제스처를 사전 설정한 후, 상기 머리 회전 쿼터니언을 상기 모션 제스처와 비교 분석한 후 호출 이벤트 발생 여부를 추가 결정하는 기능을 더 포함하는 것을 특징으로 한다.
상기 과제를 해결하기 위한 수단으로서, 본 발명의 다른 실시 형태에 따르면 활성화 모드가 설정되면, 모션 인식 카메라를 통해 사용자 모션을 3차원적으로 인식하여 머리 회전 쿼터니언을 획득하는 단계; 상기 머리 회전 쿼터니언이 기 설정된 기준 각도 범위에 속하는 경우, 요청 처리 모드로 진입하는 단계; 및 요청 처리 모드로 진입하면, 마이크를 통해 사용자 음성을 수신 및 분석하여, 사용자 필요 서비스를 호출 및 실행하는 단계를 포함하는 것을 특징으로 하는 인공 지능 스피커의 동작 활성화 방법을 제공한다.
상기 요청 처리 모드로 진입하는 단계는 기 설정 시간에 거쳐 머리 회전 쿼터니언을 수집 및 평균한 후, 기 설정된 기준 각도 범위와 비교 분석함으로써, 요청 처리 모드로의 진입 여부를 결정하는 것을 특징으로 한다.
본 발명은 사용자 눈 맞춤이라는 비언어적 요소를 통해 인공 지능 스피커를 동작 활성화함으로써, 음성 기반 대비 보다 빠른 응답성을 확보할 수 있도록 한다.
또한 눈 맞춤 인식 방식과 음성 인식 방식을 혼용하여 동작 모드 변경 동작을 수행함으로써, 보다 효과적이고 정확도가 높은 사용자 인터랙션을 지원할 수도 있도록 한다.
도 1 및 도 2는 본 발명의 일 실시예에 따른 인공지능 스피커를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 인공지능 스피커의 비언어적 요소 기반 동작 활성화 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 다른 실시예에 따른 인공지능 스피커의 비언어적 요소 기반 동작 활성화 방법을 설명하기 위한 도면이다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.
본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 인공지능 스피커를 도시한 도면이다.
도 1을 참고하면, 본 발명은 모션 인식 카메라(110), 모션 분석부(120), 마이크(130), 음성 처리부(140), 동작 모드 설정부(150), 서비스 실행부(160), 및 스피커(170) 등을 포함한다.
모션 인식 카메라(110)는 사용자 모션을 3차원적으로 인식하고, 특히 사용자 신체 중 머리의 회전 쿼터니언(quaternion)을 3차원적으로 획득 및 제공하도록 한다.
이는 일반 카메라와 적외선 카메라를 바탕으로 컬러맵, 깊이맵, 적외선맵 등을 출력하며, 이로부터 사용자의 얼굴 정보 및 머리가 카메라 좌표에서 얼마나 회전되어있는지를 나타내는 쿼터니언을 추적하여 제공할 수 있는 깊이 카메라를 통해 구현 가능하며, 깊이 카메라의 대표적인 예로는 키넥트(Kinect) 카메라가 있다.
모션 분석부(120)는 모션 인식 카메라(110)로부터 추출된 머리 회전 쿼터니언을 기반으로 눈 맞춤 이벤트 발생 여부를 결정한다.
참고로, 3차원의 얼굴 모델(Object)을 생성하여 3 차원 가상 환경에 위치시킨 후, 3차원의 얼굴 모델의 z 축을 머리 회전 쿼터니언에 따라 회전시키면, 도 2 와 같은 결과를 얻을 수 있다. 이때, 어느 위치에서건 사용자가 카메라를 정면으로 바라볼 경우, 카메라 입장에서는 머리가 회전하지 않은 것처럼 보인다. 따라서 사용자가 카메라를 정면으로 바라볼 때 추적된 회전 쿼터니언으로는 회전이 거의 일어나지 않는다.
이에 본 발명에서는 이러한 성질을 이용해 z 축 방향의 단위벡터를 사용자의 머리 회전 쿼터니언으로 회전시킨 벡터와 z 축 방향의 단위벡터 사이의 각도가 어느 한계점 이하이면 사용자-카메라간에 눈 맞춤이 되었다고 가정한다. 이때, 한계점은 10도일 수 있으나, 이는 변경 가능한 값이다.
또한, 카메라가 사용자 머리 방향을 추적할 때, 값이 굉장히 불안정한 것을 발견한 특징이 있다. 이에 본 발명은 매 프레임 눈 맞춤 탐지를 할 경우 결과가 불안정해질 수 있다고 판단하고, 이를 보정 해주기 위해 머리 방향 벡터와 z 방향 단위벡터가 이루는 각도들을 버퍼에 넣어서 평균값을 바탕으로 탐지하도록 한다. 이때, 버퍼 크기는 20인 것이 바람직하나, 이는 변경 가능한 값이다. 즉, 머리 회전 쿼터니언을 소정 시간에 걸쳐 수집 및 평균한 후, 평균값이 기 설정 각도 이내에 속하는 지를 확인함으로써, 눈 맞춤 이벤트 발생 여부를 결정하도록 한다.
마이크(130)는 사용자 음성 신호를 수신한다.
음성 처리부(140)는 음성 처리 알고리즘을 구비하고, 이를 통해 사용자 음성 신호를 자연어 처리하여 음성 명령을 획득 및 출력하도록 한다.
더하여, 음성 처리부(140)는 동작 모드 변경을 위한 호출 명령어를 사전 정의한다. 그리고 사용자가 호출 명령어를 말하면, 이에 응답하여 호출 이벤트를 발생 및 출력하도록 한다.
동작 모드 설정부(150)는 활성화 모드와 요청 처리 모드라는 2개의 동작 모드를 구비한다. 그리고 활성화 모드 중에 눈 맞춤 이벤트와 호출 이벤트 중 적어도 하나가 발생하면 요청 처리 모드로 진입하고, 요청 처리 모드 중에 사용자 음성 신호 미수신 상태가 설정 시간 이상 유지되면 활성화 모드로 재진입하도록 한다.
서비스 실행부(160)는 요청 처리 모드시에만 선택적으로 동작 활성화된다. 그리고 인공지능 알고리즘을 이용해 음성 처리부(140)를 통해 획득된 음성 명령에 상응하는 서비스를 호출 및 실행한다. 이때, 서비스는 장치 단독형으로 구현 및 제공될 수 있으나, 필요한 경우, 인터넷망을 통해 연결된 외부 서버와의 협업을 통해 제공될 수도 있도록 한다.
스피커(170)는 서비스 실행부(160)는 서비스 실행부(160)의 서비스 실행 결과에 상응하는 소리를 실시간 재생함으로써, 사용자가 이를 청각적으로 인식할 수 있도록 한다.
도 3은 본 발명의 일 실시예에 따른 인공지능 스피커의 비언어적 요소 기반 동작 활성화 방법을 설명하기 위한 도면이다.
인공지능 스피커가 구동되기 시작하면, 동작 모드 설정부(150)는 활성화 모드를 우선 설정하도록 한다(S1).
그리고 모션 인식 카메라(110)를 통해 자신에 전방에 위치하는 사용자를 촬영하여, 사용자 머리가 어디를 바라보고 있는지가 반영된 머리 회전 쿼터니언(quaternion)을 획득한다(S2).
그리고 모션 분석부(120)를 통해 획득된 머리 회전 쿼터니언이 사전 설정된 기준 각도 이내에 속하면(S3), 모션 분석부(120)는 사용자가 인공지능 스피커 사용을 위해 인공지능 스피커(특히, 모션 인식 카메라)를 바라보고 있다고 판단하고, 눈 맞춤 이벤트를 발생하도록 한다(S4).
그러면, 동작 모드 설정부(150)는 요청 처리 모드로 진입하여 서비스 실행부(160)를 동작 활성화시킨다(S5).
이러한 상태에서 사용자가 음성을 통해 특정 서비스 제공을 요청하면(S6), 서비스 실행부(160)는 이에 상응하는 서비스를 호출 및 실행한 후, 스피커(170)를 통해 서비스 실행 결과를 음성 안내하도록 한다(S7).
반면, 요청 처리 모드로 진입하였으나, 기 설정 시간이 경과하도록 사용자 음성이 입력되지 않으면(S8), 다시 단계 S1의 활성화 모드로 진입하도록 한다(S1).
이와 같이, 본 발명은 사용자의 카메라 눈 맞춤과 같은 비언어적 요소를 탐지하여, 사용자 음성을 인식 및 처리할 수 있는 활성화 모드로 진입할 수 있도록 한다.
한편, 모션 인식 카메라 위치가 사용자 시선이 많이 머물러 있는 곳 근처일 경우에 의도하지 않은 활성화를 일으키는 문제가 발생할 수 있다. 예를 들어, 모션 인식 카메라가 TV 바로 앞에 설치되어 있으면, 사용자가 TV를 시청하는 동안 인공지능 스피커는 사용자가 자신을 쳐다본다고 오해할 수 있다.
이에 본 발명에서는 사용자가 모션 인식 카메라를 바라보면서 호출 명령어를 부르는 경우에 한하여 인공지능 스피커를 동작 활성화시킴으로써, 사용자 인터랙션의 정확도가 극대화될 수 있도록 한다.
도 4는 본 발명의 다른 실시예에 따른 인공지능 스피커의 비언어적 요소 기반 동작 활성화 방법을 설명하기 위한 도면이다.
먼저, 활성화 모드가 설정되면(S1), 모션 인식 카메라(110)를 통해 머리 회전 쿼터니언(quaternion)을 획득한 후(S2). 모션 분석부(120)를 통해 눈 맞춤 이벤트 발생 여부를 확인하도록 한다(S4).
그리고 이와 동시에 마이크(130)를 통해 사용자 음성을 획득한 후(S11), 음성 처리부(140)를 통해 분석함으로써, 사용자가 호출 이벤트 발생을 위한 호출 명령어를 발성하는 지 확인하도록 한다(S12, S13).
그리고 단계 S4 및 단계 S13을 통해 눈 맞춤 이벤트와 호출 이벤트가 동시 발생하는 경우에 한해, 동작 모드 설정부(150)가 요청 처리 모드로 진입하여 사용자 음성 인식 결과에 상응하는 서비스를 호출 및 실행할 수 있도록 한다.
즉, 본 발명에서는 호출 명령어를 부르는 방식과 눈 맞춤을 이용한 방식을 혼합 이용하여, 사용자 의도를 보다 정확하게 파악한 후 인공 지능 스피커를 동작 활성화할 수 있도록 한다.
또한 본 발명에서는 눈 맞춤 대신에 사용자가 여러 가지 방식으로 취하는 모션 제스처에 기반하여 인공 지능 스피커를 동작 활성화할 수도 있도록 한다.
즉, 모션 분석부(120)를 통해 호출 이벤트 발생을 위한 모션 제스처를 사전 정의한 후, 활성화 모드 중에 사용자가 이에 해당하는 모션을 발생함이 확인되면, 호출 이벤트를 즉각 발생할 수 있도록 한다.
예를 들어, 사용자 머리를 두 번 연속 끄덕거리는 모션 또는 사용자 머리를 좌우로 반복 회전시키는 모션을 호출 이벤트 발생에 대응되는 모션 제스처로 설정한 후, 사용자가 해당 모션을 취하는지 모션 인식 카메라(110)를 통해 반복적으로 모니터링하도록 한다. 그리고 활성화 모드 중에 사용자가 기 설정된 모션 제스처를 취하면, 이에 응답하여 호출 이벤트 발생시킴으로써, 인공 지능 스피커가 동작 활성화되어 요청 처리 모드로 동작될 수 있도록 한다.
상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (7)

  1. 사용자 모션을 3차원적으로 인식하여 머리 회전 쿼터니언을 획득 및 제공하는 모션 인식 카메라;
    상기 머리 회전 쿼터니언이 기 설정된 기준 각도 범위에 속하는 경우, 눈 맞춤 이벤트를 발생하는 모션 분석부;
    사용자 음성 신호를 수신하는 마이크;
    적어도 하나의 호출 명령어를 사전 정의한 후, 상기 사용자 음성 신호를 자연어 처리하여 음성 명령을 획득하되, 상기 음성 명령이 상기 호출 명령어인 경우에는 호출 이벤트를 즉각 발생하는 음성 명령어 처리부;
    활성화 모드 중에 눈 맞춤 이벤트와 호출 이벤트가 동시 발생하면 요청 처리 모드로 진입하되, 요청 처리 모드 중에 사용자 음성 신호 미수신 상태가 설정 시간 이상 유지되면 활성화 모드로 재진입하는 동작 모드 설정부;
    요청 처리 모드 중에 획득된 상기 음성 명령에 상응하는 서비스를 호출 및 실행하는 서비스 실행부; 및
    상기 서비스 실행부의 서비스 실행 결과에 상응하는 소리를 실시간 재생하는 스피커를 포함하며,
    상기 모션 분석부는
    기 설정 시간에 거쳐 머리 회전 쿼터니언을 수집 및 평균한 후, 평균값 기반으로 눈 맞춤 이벤트 발생 여부를 결정하는 것을 특징으로 하는 인공 지능 스피커.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서, 상기 모션 분석부는
    호출 이벤트 발생을 위한 모션 제스처를 사전 설정한 후, 상기 머리 회전 쿼터니언을 상기 모션 제스처와 비교 분석한 후 호출 이벤트 발생 여부를 추가 결정하는 기능을 더 포함하는 것을 특징으로 하는 인공 지능 스피커.
  6. 활성화 모드가 설정되면, 모션 인식 카메라를 통해 사용자 모션을 3차원적으로 인식하여 머리 회전 쿼터니언을 획득하는 단계;
    상기 머리 회전 쿼터니언이 기 설정된 기준 각도 범위에 속하는 경우, 눈 맞춤 이벤트를 발생하는 단계; 및
    마이크를 통해 사용자 음성을 수신 및 분석하여 음성 명령을 획득하되, 상기 음성 명령이 사전 정의된 호출 명령어인 경우에는 호출 이벤트를 발생하는 단계; 및
    활성화 모드 중에 눈 맞춤 이벤트와 호출 이벤트가 동시 발생하면 요청 처리 모드로 진입한 후, 상기 음성 명령에 상응하는 서비스를 호출 및 실행하되, 요청 처리 모드 중에 음성 명령이 기 설정 시간 이상 미 획득되면 활성화 모드로 재진입하는 단계를 포함하며,
    상기 호출 이벤트를 발생하는 단계는
    기 설정 시간에 거쳐 머리 회전 쿼터니언을 수집 및 평균한 후, 평균값 기반으로 눈 맞춤 이벤트 발생 여부를 결정하는 것을 특징으로 하는 인공 지능 스피커의 비언어적 요소 기반 동작 활성화 방법.
  7. 삭제
KR1020190116698A 2019-09-23 2019-09-23 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법 KR102134860B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190116698A KR102134860B1 (ko) 2019-09-23 2019-09-23 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190116698A KR102134860B1 (ko) 2019-09-23 2019-09-23 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법

Publications (1)

Publication Number Publication Date
KR102134860B1 true KR102134860B1 (ko) 2020-08-27

Family

ID=72237451

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190116698A KR102134860B1 (ko) 2019-09-23 2019-09-23 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법

Country Status (1)

Country Link
KR (1) KR102134860B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230164837A (ko) * 2022-05-26 2023-12-05 조홍석 Ai 기반의 스피커 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170097585A (ko) * 2016-02-18 2017-08-28 삼성전자주식회사 시각 주의에 기반한 사람-기계 상호작용의 개시
KR20180116100A (ko) * 2017-04-16 2018-10-24 이상훈 시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커
KR101970731B1 (ko) 2017-12-06 2019-05-17 주식회사 열림기술 인공지능 스피커 및 이의 제어 방법
KR20190085895A (ko) * 2019-07-01 2019-07-19 엘지전자 주식회사 사용자의 시선에 따라 제어 가능한 인공 지능 장치 및 그의 동작 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170097585A (ko) * 2016-02-18 2017-08-28 삼성전자주식회사 시각 주의에 기반한 사람-기계 상호작용의 개시
KR20180116100A (ko) * 2017-04-16 2018-10-24 이상훈 시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커
KR101970731B1 (ko) 2017-12-06 2019-05-17 주식회사 열림기술 인공지능 스피커 및 이의 제어 방법
KR20190085895A (ko) * 2019-07-01 2019-07-19 엘지전자 주식회사 사용자의 시선에 따라 제어 가능한 인공 지능 장치 및 그의 동작 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230164837A (ko) * 2022-05-26 2023-12-05 조홍석 Ai 기반의 스피커 시스템
KR102617740B1 (ko) * 2022-05-26 2023-12-27 조홍석 Ai 기반의 스피커 시스템

Similar Documents

Publication Publication Date Title
JP7348288B2 (ja) 音声対話の方法、装置、及びシステム
JP7038210B2 (ja) 対話セッション管理用のシステム及び方法
TWI585746B (zh) 用於操作一虛擬助理之方法、非暫時性電腦可讀儲存媒體及系統
US9263044B1 (en) Noise reduction based on mouth area movement recognition
US20190013025A1 (en) Providing an ambient assist mode for computing devices
US9031847B2 (en) Voice-controlled camera operations
US11699442B2 (en) Methods and systems for speech detection
CN109032345B (zh) 设备控制方法、装置、设备、服务端和存储介质
US10325600B2 (en) Locating individuals using microphone arrays and voice pattern matching
EP3714355B1 (en) Expanding physical motion gesture lexicon for an automated assistant
CN112634911B (zh) 人机对话方法、电子设备及计算机可读存储介质
WO2019227552A1 (zh) 基于行为识别的语音定位方法以及装置
EP4128218A1 (en) Detecting and suppressing commands in media that may trigger another automated assistant
KR102134860B1 (ko) 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법
US20200090663A1 (en) Information processing apparatus and electronic device
JP2004234631A (ja) ユーザと対話型実体エージェントとの間の対話を管理するシステムおよび対話型実体エージェントによるユーザとの対話を管理する方法
US20240201938A1 (en) Pairing audio data channels based on initiating, using a first client device, playback of media on a second client device
WO2023226144A1 (zh) 耳机模式控制方法、耳机设备、头戴式设备及存储介质
KR20240099616A (ko) 끼어들기 기능을 갖는 음성인식장치 및 방법
WO2024123365A1 (en) Separation of conversational clusters in automatic speech recognition transcriptions
CN117219087A (zh) 语音交互方法、装置、设备及存储介质
WO2024123364A1 (en) Annotating automatic speech recognition transcription
CN118339610A (zh) 用于言语处理的基于加速度计的端点化量度和/或基于注视的端点化量度
CN118369641A (zh) 基于调用属性在多个自动化助理之间选择
Zhang et al. Fusing array microphone and stereo vision for improved computer interfaces

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant