KR102168802B1 - 상호 작용 장치 및 방법 - Google Patents

상호 작용 장치 및 방법 Download PDF

Info

Publication number
KR102168802B1
KR102168802B1 KR1020180112984A KR20180112984A KR102168802B1 KR 102168802 B1 KR102168802 B1 KR 102168802B1 KR 1020180112984 A KR1020180112984 A KR 1020180112984A KR 20180112984 A KR20180112984 A KR 20180112984A KR 102168802 B1 KR102168802 B1 KR 102168802B1
Authority
KR
South Korea
Prior art keywords
action
recognizing
interaction
gesture
recognized
Prior art date
Application number
KR1020180112984A
Other languages
English (en)
Other versions
KR20200036089A (ko
Inventor
박천수
김재홍
이재연
장민수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180112984A priority Critical patent/KR102168802B1/ko
Priority to US16/206,711 priority patent/US10800043B2/en
Publication of KR20200036089A publication Critical patent/KR20200036089A/ko
Application granted granted Critical
Publication of KR102168802B1 publication Critical patent/KR102168802B1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Manipulator (AREA)

Abstract

상호 작용 장치 및 방법이 개시된다. 본 발명의 일실시예에 따른 상호 작용 장치는 상호 작용 장치가 대상과 상호 작용하기 위해 상기 대상에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력받는 입력부; 상기 멀티 모달 정보를 이용하여 상기 대상의 교류 행위를 인식하는 인식부 및 상기 교류 행위를 인식한 결과에 기반하여 상기 대상과 상호 작용하기 위한 행위를 수행하는 수행부를 포함한다.

Description

상호 작용 장치 및 방법 {APPARATUS AND METHOD FOR INTERACTION}
본 발명은 사람과 로봇의 상호 작용 기술에 관한 것으로, 보다 상세하게는 사람과 로봇의 상호 작용 중에 교류 행위를 인식하고 상호 작용을 위한 행위를 수행하는 기술에 관한 것이다.
사람은 대화할 때 자신이 대화할 차례를 인지하고, 대화할 차례에 맞게 상대방과 대화할 수 있다. 사람은 상대방의 말을 들어주거나, 상대방이 말할 때 끼어들기도 하며, 맞장구를 치고, 혼자 계속 말할 수도 있다. 이처럼 사람은 상대방과 자연스러운 상호작용을 위해 대화 중에 대화할 차례를 인식하고 발언 행위를 수행할 수 있다. 교류 행위는 사람들 간에 발언 행위를 수행하고, 대화할 차례를 주고 받는 것을 의미한다.
그러나, 사람과 대화하는 로봇은 사람이 대화를 시작하거나 중지하는 시점을 자연스럽게 인식하기 어렵다. 예를 들어, 로봇은 발언 행위를 수행하는 도중에 사람이 발언을 시작하려 하거나, 로봇의 발언을 멈추게 하는 행위를 인식하기 어렵다. 또한, 로봇은 사람이 발언 행위를 수행하는 도중에 사람이 발언을 멈추려하거나, 발언을 계속 유지하려는 행위를 인식하는 것이 어렵다.
한편, KRISTIINA JOKINEN, et al. (2013) "Gaze and Turn-Taking Behavior in Casual Conversational Interactions"는 사람간의 대화 중 휴지 시간 동안 시선을 통해 대화 순서가 바뀌는 연구를 진행하여 사용자의 시선 변화에 따라 대화 순서에 대한 전이가 발생하는 것을 연구하였다.
또한, Angelika Maie,r et al. (2017) "Towards Deep End-of-Turn Prediction for Situated Spoken Dialogue Systems"는 사람 간의 대화 상황에서 음성의 어휘적 특성과 음향적 특성을 이용해 상호작용 끝점을 예측하는 연구를 진행하였다.
한편, 한국공개특허 제 10-2017-0027705 호"로봇과의 대화를 핸들링하는 방법 및 시스템"는 로봇과 인간 사용자간 오디오 대화에 대화 내용과 음성 스킨을 적용하여 대화 실행 규칙을 선택하는 방법 및 시스템에 관하여 개시하고 있다.
상기 종래 기술들은 주로 음성의 활동 상태에서 음성의 특징, 음성의 휴지(pause) 시간과 사용자의 시선 변화를 이용하여 대화 순서를 결정하고 있으며, 교류 행위를 인식하기 위한 제한된 단서만을 고려하고 있어 사람과 로봇의 정확한 교류 행위를 파악하는 데 한계가 있다.
이러한 문제점을 해결하기 위해 본 발명에서는 상호 작용 장치와 대상에 대한 멀티 모달 정보를 이용하여 대상의 다양한 행위에 대해서 상호 작용을 위한 교류 행위를 인식하고, 교류 행위를 인식한 결과에 기반하여 상호 작용을 위한 행위를 수행하는 장치 및 방법에 대해서 제안한다.
본 발명은 로봇과 사람의 자연스러운 대화를 위하여 교류 행위를 인식하여 상호 작용을 위한 행위를 수행하는 것을 목적으로 한다.
또한, 본 발명은 로봇 또는 사람이 발언 행위를 수행하는 중에, 로봇이 사람의 의도를 인식하여 자연스러운 상호 작용을 위한 교류 행위를 인식하는 것을 목적으로 한다.
또한, 본 발명은 로봇과 사람의 교류 행위 인식을 통해 대화 모델의 확장을 지원하는 것을 목적으로 한다.
또한, 본 발명은 쳇봇, 인공지능 및 AI 스피커와 같은 사람과 상호 작용 가능한 시스템에 적용하는 것을 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 일실시예에 따른 상호 작용 장치는 상호 작용 장치가 대상과 상호 작용하기 위해 상기 대상에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력받는 입력부; 상기 멀티 모달 정보를 이용하여 상기 대상의 교류 행위를 인식하는 인식부 및 상기 교류 행위를 인식한 결과에 기반하여 상기 대상과 상호 작용하기 위한 행위를 수행하는 수행부를 포함한다.
이 때, 상기 인식부는 상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 및 상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 중 어느 하나에 기반하여 상기 교류 행위를 인식할 수 있다.
이 때, 상기 인식부는 상기 멀티 모달 정보에 기반하여 상기 상호 작용 장치가 상기 대상의 네 가지 행위를 인식하고, 상기 네 가지 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 인식부는 상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상이 발언을 계속하려는 행위 및 상기 대상이 발언을 멈추려는 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 인식부는 상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 인식부는 상기 멀티 모달 정보로부터 인식한 상기 대상의 입술 모양, 입술 상태 및 제스처 중 적어도 하나 이상에 기반하여 상기 교류 행위를 인식할 수 있다.
이 때, 상기 인식부는 상기 대상의 입술이 열려 있는 상태를 상기 대상의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위 중 어느 하나를 인식할 수 있다.
이 때, 상기 인식부는 상기 대상이 발언 행위를 수행하지 않는 동안 인식한 상기 대상의 입술이 열리는 빈도 및 상기 대상의 입술이 열려 있는 시간을 상기 대상의 입술 상태를 인식하기 위한 가중치로 설정할 수 있다.
이 때, 상기 인식부는 상기 멀티 모달 정보로부터 인식한 상기 대상의 제스처가 부정적인 제스처인 경우, 상기 대상이 발언을 시작하려는 행위로 인식하고 상기 대상의 제스처가 긍정적인 제스처인 경우, 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위로 인식할 수 있다.
이 때, 상기 인식부는 상기 대상의 제스처를 인식하기 위한 가중치에 상기 대상의 긍정적인 제스처보다 상기 대상의 부정적인 제스처에 높은 가중치를 설정하여 상기 대상이 발언을 시작하려는 행위의 인식 가능성을 높게 설정할 수 있다.
또한, 상기의 목적을 달성하기 위한 본 발명의 일실시예에 따른 상호 작용 방법은 상호 작용 장치의 상호 작용 방법에 있어서, 상기 상호 작용 장치가 대상과 상호 작용하기 위해 상기 대상에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력받는 단계; 상기 멀티 모달 정보를 이용하여 상기 대상의 교류 행위를 인식하는 단계 및 상기 교류 행위를 인식한 결과에 기반하여 상기 대상과 상호 작용하기 위한 행위를 수행하는 단계를 포함할 수 있다.
이 때, 상기 인식하는 단계는 상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 및 상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 중 어느 하나에 기반하여 상기 교류 행위를 인식할 수 있다.
이 때, 상기 인식하는 단계는 상기 멀티 모달 정보에 기반하여 상기 상호 작용 장치가 상기 대상의 네 가지 행위를 인식하고, 상기 네 가지 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 인식하는 단계는 상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상이 발언을 계속하려는 행위 및 상기 대상이 발언을 멈추려는 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 인식하는 단계는 상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 인식하는 단계는 상기 멀티 모달 정보로부터 인식한 상기 대상의 입술 모양, 입술 상태 및 제스처 중 적어도 하나 이상에 기반하여 상기 교류 행위를 인식할 수 있다.
이 때, 상기 인식하는 단계는 상기 대상의 입술이 열려 있는 상태를 상기 대상의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위 중 어느 하나를 인식할 수 있다.
이 때, 상기 인식하는 단계는 상기 대상이 발언 행위를 수행하지 않는 동안 인식한 상기 대상의 입술이 열리는 빈도 및 상기 대상의 입술이 열려 있는 시간을 상기 대상의 입술 상태를 인식하기 위한 가중치로 이용할 수 있다.
이 때, 상기 인식하는 단계는 상기 멀티 모달 정보로부터 인식한 상기 대상의 제스처가 부정적인 제스처인 경우, 상기 대상이 발언을 시작하려는 행위로 인식하고 상기 대상의 제스처가 긍정적인 제스처인 경우, 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위로 인식할 수 있다.
이 때, 상기 인식하는 단계는 상기 대상의 제스처를 인식하기 위한 가중치에 상기 대상의 긍정적인 제스처보다 상기 대상의 부정적인 제스처에 높은 가중치를 설정하여 상기 대상이 발언을 시작하려는 행위의 인식 가능성을 높게 설정할 수 있다.
본 발명은 로봇과 사람의 자연스러운 대화를 위하여 교류 행위를 인식하여 상호 작용을 위한 행위를 수행할 수 있다.
또한, 본 발명은 로봇 또는 사람이 발언 행위를 수행하는 중에, 로봇이 사람의 의도를 인식하여 자연스러운 상호 작용을 위한 교류 행위를 인식할 수 있다.
또한, 본 발명은 로봇과 사람의 교류 행위 인식을 통해 대화 모델의 확장을 지원할 수 있다.
또한, 본 발명은 쳇봇, 인공지능 및 AI 스피커와 같은 사람과 상호 작용 가능한 시스템에 적용할 수 있다.
도 1은 본 발명의 일실시예에 따른 상호 작용 시스템을 나타낸 도면이다.
도 2는 본 발명의 일실시예에 따른 상호 작용 장치를 나타낸 블록도이다.
도 3은 본 발명의 일실시예에 따른 상호 작용 방법을 나타낸 동작흐름도이다.
도 4는 도 3에 도시된 교류 행위 인식 단계의 일 예를 세부적으로 나타낸 동작흐름도이다.
도 5는 본 발명의 일실시예에 따른 멀티 모달 정보와 교류 행위 인식 관계를 나타낸 블록도이다.
도 6은 본 발명의 일실시예에 따른 딥 러닝을 이용한 멀티 모달 정보와 교류 행위 인식 관계를 나타낸 블록도이다.
도 7은 본 발명의 일실시예에 따른 대상이 발언을 시작하려는 행위를 인식하는 케이스를 나타낸 도면이다.
도 8은 본 발명의 일실시예에 따른 대상이 상호 작용 장치의 발언을 기다려주는 행위를 인식하는 케이스를 나타낸 도면이다.
도 9는 본 발명의 일실시예에 따른 대상이 발언을 계속하려는 행위를 인식하는 케이스를 나타낸 도면이다.
도 10은 본 발명의 일실시예에 따른 대상이 발언을 멈추려는 행위를 인식하는 케이스를 나타낸 도면이다.
도 11은 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 상호 작용 시스템을 나타낸 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 상호 작용 시스템은 상호 작용 장치(100)가 로봇(10)과 대상(사람)(20)의 상호 작용 행위에 대한 멀티 모달 정보를 입력 받아 교류 행위를 인식하고 상호 작용을 위한 행위를 수행하는 것을 나타낸 것을 알 수 있다.
이 때, 상호 작용 장치(100)는 로봇(10) 포함될 수도 있다.
상호 작용 장치(100)는 먼저 대상(20)에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력 받을 수 있다.
이 때, 상호 작용 장치(100)는 카메라와 같은 영상 센서, 마이크와 같은 음성 센서를 이용하여 감지한 멀티 모달 단서를 이용하여 생성된 멀티 모달 정보를 입력 받을 수 있다.
이 때, 멀티 모달 정보는 대상(20)의 음성 특성 검출(음향적/어휘적 특성), 음성 활동 검출(Voice Activity Detection, VAD), 시선, 입술 모양(특정 단어 인식), 입술 상태(Lip Open/Close) 및 제스처(움직임, 손, 머리, 몸, 부정, 긍정)에 대한 정보를 포함할 수 있다.
이 때, 상호 작용 장치(100)는 멀티 모달 정보에서 멀티 모달 특징을 추출하고, 입력 벡터를 생성할 수 있다. 이 때, 입력 벡터는 시간의 흐름에 따라 정보가 변화할 수 있다(It-1, It, It+1).
이 때, 상호 작용 장치(100)는 수집된 상호 작용 영상 데이터 셋을 이용하여 상호작용을 위한 행위들을 학습할 수 있다.
이 때, 상호 작용 장치(100)는 RNN(Recurrent Neural Network) 모델과 같은 학습 모델을 이용하여 수집된 상호 작용 영상 데이터 셋으로부터 상호 작용을 위한 행위들을 학습하고, 멀티 모달 정보로부터 상호 작용을 위한 교류 행위를 인식할 수 있다.
이 때, 상호 작용 장치(100)는 교류 행위를 인식한 결과에 기반하여 상호 작용을 위한 행위을 결정할 수 있다.
이 때, 인식한 교류 행위에 대응하는 상호 작용을 위한 행위는 음성, 행위, 제스처, 시선 등이 포함될 수 있다.
이 때, 상호 작용 장치(100)는 로봇(10)에 포함된 경우, 상호 작용을 위한 행위를 수행할 수 있고, 로봇(10)과 분리되어 있는 경우, 로봇(10)에게 상호 작용을 위한 행위를 수행하는 명령을 송신할 수 있다.
도 2는 본 발명의 일실시예에 따른 상호 작용 장치를 나타낸 블록도이다.
도 2를 참조하면, 본 발명의 일실시예에 따른 상호 작용 장치(100)는 입력부(110), 인식부(120) 및 수행부(130)를 포함한다.
입력부(110)는 상호 작용 장치(110)가 대상(20)과 상호 작용하기 위해 상기 대상(20)에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력받을 수 있다.
이 때, 입력부(110)는 카메라와 같은 영상 센서, 마이크와 같은 음성 센서를 이용하여 감지한 멀티 모달 단서를 이용하여 생성된 멀티 모달 정보를 입력 받을 수 있다.
이 때, 멀티 모달 정보는 대상(20)의 음성 특성 검출(음향적/어휘적 특성), 음성 활동 검출(Voice Activity Detection, VAD), 시선, 입술 모양(특정 단어 인식), 입술 상태(Lip Open/Close) 및 제스처(움직임, 손, 머리, 몸, 부정, 긍정)에 대한 정보를 포함할 수 있다.
인식부(120)는 상기 멀티 모달 정보를 이용하여 상기 대상의 교류 행위를 인식할 수 있다.
이 때, 인식부(120)는 멀티 모달 정보에서 멀티 모달 특징을 추출하고, 입력 벡터를 생성할 수 있다. 이 때, 입력 벡터는 시간의 흐름에 따라 정보가 변화할 수 있다(It-1, It, It+1).
이 때, 인식부(120)는 수집된 상호 작용 영상 데이터 셋을 이용하여 상호작용을 위한 행위들을 학습할 수 있다.
이 때, 인식부(120)는 RNN(Recurrent Neural Network) 모델과 같은 학습 모델을 이용하여 수집된 상호 작용 영상 데이터 셋으로부터 상호 작용을 위한 행위들을 학습하고, 멀티 모달 정보로부터 상호 작용을 위한 교류 행위를 인식할 수 있다.
이 때, 인식부(120)는 상기 상호 작용 장치(100) 또는 로봇(10)이 발언 행위를 수행하는 동안에 입력 받은 상기 대상(20)에 대한 멀티 모달 정보 및 상기 대상(20)이 발언 행위를 수행하는 동안에 입력 받은 상기 대상(20)에 대한 멀티 모달 정보 중 어느 하나에 기반하여 상기 교류 행위를 인식할 수 있다.
이 때, 인식부(120)는 상기 멀티 모달 정보에 기반하여 상기 상호 작용 장치(100)가 상기 대상(20)의 네 가지 행위(TAKE 행위, WAIT 행위, HOLD 행위 및 RELEASE 행위)를 인식하고, 상기 네 가지 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 인식부(120)는 네 가지 행위를 인식한 결과인 TAKE 행위, WAIT 행위, HOLD 행위 및 RELEASE 행위 중 에서 수학식 1과 같이 최대값을 가지는 상태
Figure 112018094078483-pat00001
Figure 112018094078483-pat00002
(
Figure 112018094078483-pat00003
)를 교류 행위로 인식할 수 있다.
[수학식 1]
Figure 112018094078483-pat00004
이 때, 인식부(120)는 상기 멀티 모달 정보로부터 인식한 상기 대상(20)의 음성 특성(음향적/어휘적 특성), 음성 활동(Voice Activity Detection, VAD), 시선, 입술 모양(특정 단어 인식), 입술 상태(Lip Open/Close) 및 제스처(움직임, 손, 머리, 몸, 부정, 긍정) 중 적어도 하나 이상에 기반하여 상기 교류 행위를 인식할 수 있다.
이 때, 인식부(120)는 상기 상호 작용 장치(100) 또는 로봇(10)이 발언 행위를 수행하는 동안에 입력 받은 상기 대상(20)에 대한 멀티 모달 정보를 이용하여 상기 대상(20)이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치(100) 또는 로봇(10)의 발언을 기다려주는 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 대상(20)이 발언을 시작하려는 행위를 인식한 결과는 TAKE 행위 에 상응할 수 있고, 상기 대상이 상기 상호 작용 장치(100) 또는 로봇(10)의 발언을 기다려주는 행위를 인식한 결과가 WAIT 행위에 상응할 수 있다.
사람과 사람 사이의 상호 작용에서, 사람은 발언 행위를 수행하는 동안에 상대방이 말한 것을 인지하고 대응할 수 있다. 하지만 로봇(10)은 발언 행위 중에 상대방이 말하는 것을 인식할 수 없다. 예를 들어, 챗봇(Chatbot)을 포함한 상용 로봇(NAO, Pepper, 등)은 발언 행위 중에 자신의 발언 행위를 인식할 수 있으나, 상대방의 발언 행위를 인식하지 못하기 때문에, 상대방에 대한 대응 시점을 놓쳐 자연스러운 상호작용이 어렵다.
이 때, 인식부(110)는 멀티 모달 정보로부터 인식한 대상(20)의 입술 모양(특정 단어 인식: 잠깐, 그런데, 그만, 아니야, 잠깐만 및 잠시만 등), 입술 상태(LIP OPEN/CLOSE), 시선(대화 중 시선 정면(gaze_front), 상대방과 눈 맞춤을 통해 말을 시작하려는 의도 인식), 부정 제스처(고개 흔들기 및 손짓 등의 제스처) 및 상호 작용 장치(100)의 상호 작용 상태(발언 행위 수행 중인 상태 여부) 중 적어도 하나 이상에 기반하여 수학식 2와 같이 TAKE 행위를 인식할 수 있다.
[수학식 2]
Figure 112018094078483-pat00005
Figure 112018094078483-pat00006
wi: 가중치
Int: 대상의 발언 행위 개입 행위 여부(interruption)
Gazf: 정면 시선 여부
Lips: 입술 상태(Lip OPEN/CLOSE)
Lipr: 입술 모양(특정 단어 인식, 립 리딩)
VAD: 음성 활동 검출(Voice Activity Detection, VAD)
Gesn: 부정(negative) 제스처
Robs: 로봇의 발언 행위 수행 여부
이 때, 인식부(120)는 멀티 모달 정보에서 TAKE 행위 인식을 위해 각 파라메터들을 인식한 값(Ti)과 가중치(wi)를 적용하여 TAKE 행위를 인식한 결과 값(S(t))을 산출할 수 있다.
이 때, 인식부(110)는 멀티 모달 정보로부터 인식한 대상(20)의 입술 모양(특정 단어 인식: 음, 그래, 맞아, 그렇지 및 맞장구 단어 등), 입술 상태(LIP OPEN/CLOSE), 시선(대화 중 시선 정면(gaze_front), 상대방과 눈 맞춤을 통해 상대방이 말하기를 기다리는 의도 인식), 긍정 제스처(고개 끄덕임 등의 제스처) 및 상호 작용 장치(100)의 상호 작용 상태(발언 행위 수행 중인 상태 여부) 중 적어도 하나 이상에 기반하여 수학식 3과 같이 WAIT 행위를 인식할 수 있다.
[수학식 3]
Figure 112018094078483-pat00007
Figure 112018094078483-pat00008
wi: 가중치
Bac: 맞장구 행위 여부(backchannel)
Gazf: 정면 시선 여부
Lips: 입술 상태(Lip OPEN/CLOSE)
Lipr: 입술 모양(특정 단어 인식, 립 리딩)
VAD: 음성 활동 검출(Voice Activity Detection, VAD)
Gesa: 긍정(affirmation) 제스처
Robs: 로봇의 발언 행위 수행 여부
이 때, 인식부(120)는 멀티 모달 정보에서 WAIT 행위 인식을 위해 각 파라메터들을 인식한 값(Wi)과 가중치(wi)를 적용하여 WAIT 행위를 인식한 결과 값(S(w))을 산출할 수 있다.
이 때, 인식부(120)는 상기 대상(20)의 입술이 열려 있는 상태(LIP OPEN)를 상기 대상(20)의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상(20)이 발언을 시작하려는 행위(TAKE 행위) 및 상기 대상(20)이 상기 상호 작용 장치(100) 또는 로봇(10)의 발언을 기다려주는 행위(WAIT 행위) 중 어느 하나를 인식할 수 있다.
이 때, 인식부(120)는 상기 대상(20)이 발언 행위를 수행하지 않는 동안 인식한 상기 대상(20)의 입술이 열리는 빈도 및 상기 대상(20)의 입술이 열려 있는 시간을 상기 대상(20)의 입술 상태를 인식하기 위한 가중치로 설정할 수 있다.
이로부터, 인식부(120)는 평소에 습관적으로 대화 중에 입을 벌리고 있는 대상(20)의 경우 입 상태 인식의 오류가 발생할 수 있으므로, 대상(20)이 말을 할 때 입 모양이 닫히고 열리는 것을 주기적으로 인식하여 말을 하는 것인지 습관적으로 입을 벌리고 있는 것인지 여부를 확인하고, 교류 행위 인식의 오류 발생을 최소화할 수 있다.
이 때, 인식부(120)는 상기 멀티 모달 정보로부터 인식한 상기 대상(20)의 제스처가 부정적인 제스처인 경우, 상기 대상(20)이 발언을 시작하려는 행위(TAKE)로 인식하고, 상기 대상(20)의 제스처가 긍정적인 제스처인 경우, 상기 대상(20)이 상기 상호 작용 장치(100) 또는 로봇(20)의 발언을 기다려주는 행위(WAIT 행위)로 인식할 수 있다.
이 때, 인식부(120)는 상기 대상(20)의 제스처를 인식하기 위한 가중치에 상기 대상(20)의 긍정적인 제스처보다 상기 대상(20)의 부정적인 제스처에 높은 가중치를 설정하여 상기 대상(20)이 발언을 시작하려는 행위의 인식 가능성을 높게 설정할 수 있다.
또한, 인식부(120)는 상기 대상(20)이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상(20)이 발언을 계속하려는 행위(HOLD 행위) 및 상기 대상(20)이 발언을 멈추려는 행위(RELEASE 행위) 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 대상(20)이 발언을 계속하려는 행위를 인식한 결과는 HOLD 행위에 상응할 수 있고, 상기 대상(20)이 발언을 멈추려는 행위를 인식한 결과는 RELEASE 행위에 상응할 수 있다.
이 때, 인식부(120)는 멀티 모달 정보로부터 인식한 대상(20)의 시선(대화 중 시선 정면, gaze_front, 상대방과 눈 맞춤을 통해 말을 계속하려는 의도 인식), 말을 계속하는 제스처(말을 하면서 손짓 및 몸짓을 함께하는 행위 등의 제스처) 및 상호 작용 장치(100)의 상호 작용 상태(발언 행위 수행 중인 상태 여부) 중 적어도 하나 이상에 기반하여 수학식 4와 같이 HOLD 행위를 인식할 수 있다.
[수학식 4]
Figure 112018094078483-pat00009
Figure 112018094078483-pat00010
wi: 가중치
Ges: 제스처(손짓, 몸짓)
Gazf: 정면 시선 여부
VAD: 음성 활동 검출(Voice Activity Detection, VAD)
Robs: 로봇의 발언 행위 수행 여부
이 때, 인식부(120)는 말을 시작하는 동작(speech_start), 말을 끝내는 동작(speech_end), 손 동작(gesture_hand), 몸 동작(gesture_body) 및 머리 동작(gesture_head) 중 적어도 하나 이상에 기반하여 제스처를 인식한 값(Ges)을 산출할 수 있다.
이 때, 인식부(120)는 멀티 모달 정보에서 HOLD 행위 인식을 위해 각 파라메터들을 인식한 값(Hi)과 가중치(wi)를 적용하여 HOLD 행위를 인식한 결과 값(S(h))을 산출할 수 있다.
이 때, 인식부(120)는 멀티 모달 정보로부터 인식한 대상(20)의 입술 상태(LIP OPEN/CLOSE), 시선(대화 중 시선 정면(gaze_front), 상대방과 눈 맞춤을 통해 말을 멈추고, 시선을 맞추는 행위 인식), 정지 제스처(말을 멈추는 행위 등의 제스처) 및 상호 작용 장치(100)의 상호 작용 상태(발언 행위 수행 중인 상태 여부) 중 적어도 하나 이상에 기반하여 수학식 5와 같이 RELEASE 행위를 인식할 수 있다.
[수학식 5]
Figure 112018094078483-pat00011
Figure 112018094078483-pat00012
wi: 가중치
Gazf: 정면 시선 여부
Lips: 입술 상태(Lip OPEN/CLOSE)
VADp: 발언 행위가 중단된(pause) 음성 활동 검출(Voice Activity Detection, VAD)
Ges: 정지 제스처
Robs: 로봇의 발언 행위 수행 여부
이 때, 인식부(120)는 대상(20)의 연령, 성별, 개인의 특성에 따라 기설정된 발언 행위를 중단하는 구간을 고려하여 음성 활동 검출 값(VADp)을 산출할 수 있다.
이 때, 발언 행위를 중단하는 구간(pause)은 성인의 경우 50ms~500ms 에 상응할 수 있고, 고령자의 경우 성인보다 발언 행위를 중단하는 구간이 더 길 수도 있다.
이 때, 인식부(120)는 멀티 모달 정보에서 RELEASE 행위 인식을 위해 각 파라메터들을 인식한 값(Ri)과 가중치(wi)를 적용하여 RELEASE 행위를 인식한 결과 값(S(r))을 산출할 수 있다.
이 때, 인식부(120)는 상기 대상(20)의 입술이 열려 있는 상태(LIP OPEN)를 상기 대상(20)의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상(20)이 발언을 시작하려는 행위(TAKE 행위) 및 상기 대상(20)이 상기 상호 작용 장치(100) 또는 로봇(10)의 발언을 기다려주는 행위(WAIT 행위) 중 어느 하나를 인식할 수 있다.
이 때, 인식부(120)는 상기 대상(20)이 발언 행위를 수행하지 않는 동안 인식한 상기 대상(20)의 입술이 열리는 빈도 및 상기 대상(20)의 입술이 열려 있는 시간을 상기 대상(20)의 입술 상태를 인식하기 위한 가중치로 설정할 수 있다.
이로부터, 인식부(120)는 평소에 습관적으로 대화 중에 입을 벌리고 있는 대상(20)의 경우 입 상태 인식의 오류가 발생할 수 있으므로, 대상(20)이 말을 할 때 입 모양이 닫히고 열리는 것을 주기적으로 인식하여 말을 하는 것인지 습관적으로 입을 벌리고 있는 것인지 여부를 확인하고, 교류 행위 인식의 오류 발생을 최소화할 수 있다.
이 때, 인식부(120)는 상기 멀티 모달 정보로부터 인식한 발언 행위를 수행 중인 대상(20)의 음성 활동 검출 결과가 기설정된 시간동안 발언 행위를 중단한 경우, 발언을 멈추려는 행위로 인식 할 수 있고(RELEASE 행위), 기설정된 시간 이내에 발언 행위를 계속하는 경우, 발언을 계속하려는 행위로 인식할 수 있다(HOLD 행위).
이 때, 인식부(120)는 대상(20)의 발언 행위가 기설정된 시간동안 발언 행위를 중단된 경우라도, 대상(20)의 제스처가 발언 행위를 계속하려는 제스처인 경우, 발언을 계속하려는 행위(HOLD 행위)로 인식할 수 있다.
이 때, 인식부(120)는 대상(20)의 발언 행위가 기설정된 시간동안 발언 행위를 중단된 경우, 대상(20)의 시선이 상호 작용 장치(100) 또는 로봇(10)을 정면으로 바라보고, 입술 상태가 닫혀 있는 경우(LIP CLOSE), 발언을 멈추려는 행위(RELEASE)로 인식할 수 있다.
이 때, 인식부(120)는 교류 행위를 인식한 결과에 기반하여 상호 작용을 위한 행위을 결정할 수 있다.
이 때, 인식한 교류 행위에 대응하는 상호 작용을 위한 행위는 음성, 행위, 제스처, 시선 등이 포함될 수 있다.
수행부(130)는 상기 교류 행위를 인식한 결과에 기반하여 상기 대상(20)과 상호 작용하기 위한 행위를 수행할 수 있다
이 때, 수행부(130)는 상호 작용 장치(100)가 로봇(10)에 포함된 경우, 상호 작용을 위한 행위를 수행할 수 있고, 로봇(10)과 분리되어 있는 경우, 로봇(10)에게 상호 작용을 위한 행위를 수행하는 명령을 송신할 수 있다.
도 3은 본 발명의 일실시예에 따른 상호 작용 방법을 나타낸 동작흐름도이다. 도 4는 도 3에 도시된 교류 행위 인식 단계의 일 예를 세부적으로 나타낸 동작흐름도이다.
도 3을 참조하면, 본 발명의 일실시예에 따른 상호 작용 방법은 먼저 멀티 모달 정보를 입력 받을 수 있다(S210).
즉, 단계(S210)는 상호 작용 장치(110)가 대상(20)과 상호 작용하기 위해 상기 대상(20)에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력받을 수 있다.
이 때, 단계(S210)는 카메라와 같은 영상 센서, 마이크와 같은 음성 센서를 이용하여 감지한 멀티 모달 단서를 이용하여 생성된 멀티 모달 정보를 입력 받을 수 있다.
이 때, 멀티 모달 정보는 대상(20)의 음성 특성 검출(음향적/어휘적 특성), 음성 활동 검출(Voice Activity Detection, VAD), 시선, 입술 모양(특정 단어 인식), 입술 상태(Lip Open/Close) 및 제스처(움직임, 손, 머리, 몸, 부정, 긍정)에 대한 정보를 포함할 수 있다.
또한, 본 발명의 일실시예에 따른 상호 작용 방법은 교류 행위를 인식할 수 있다(S220).
즉, 단계(S220)는 상기 멀티 모달 정보를 이용하여 상기 대상의 교류 행위를 인식할 수 있다.
도 4를 참조하면, 단계(S220)는 먼저 입력 벡터를 추출할 수 있다(S221).
즉, 단계(S221)는 멀티 모달 정보에서 멀티 모달 특징을 추출하고, 입력 벡터를 생성할 수 있다. 이 때, 입력 벡터는 시간의 흐름에 따라 정보가 변화할 수 있다(It-1, It, It+1).
또한, 단계(S220)는 교류 행위를 학습할 수 있다(S222).
즉, 단계(S222)는 수집된 상호 작용 영상 데이터 셋을 이용하여 상호작용을 위한 행위들을 학습할 수 있다.
이 때, 단계(S222)는 RNN(Recurrent Neural Network) 모델과 같은 학습 모델을 이용하여 수집된 상호 작용 영상 데이터 셋으로부터 상호 작용을 위한 행위들을 학습하고, 멀티 모달 정보로부터 상호 작용을 위한 교류 행위를 인식할 수 있다.
또한, 단계(S220)는 교류 행위를 인식할 수 있다(S223).
즉, 단계(S223)는 상기 상호 작용 장치(100) 또는 로봇(10)이 발언 행위를 수행하는 동안에 입력 받은 상기 대상(20)에 대한 멀티 모달 정보 및 상기 대상(20)이 발언 행위를 수행하는 동안에 입력 받은 상기 대상(20)에 대한 멀티 모달 정보 중 어느 하나에 기반하여 상기 교류 행위를 인식할 수 있다.
이 때, 단계(S223)는 상기 멀티 모달 정보에 기반하여 상기 상호 작용 장치(100)가 상기 대상(20)의 네 가지 행위(TAKE 행위, WAIT 행위, HOLD 행위 및 RELEASE 행위)를 인식하고, 상기 네 가지 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 단계(S223)는 네 가지 행위를 인식한 결과인 TAKE 행위, WAIT 행위, HOLD 행위 및 RELEASE 행위 중 에서 수학식 1과 같이 최대값을 가지는 상태
Figure 112018094078483-pat00013
Figure 112018094078483-pat00014
(
Figure 112018094078483-pat00015
)를 교류 행위로 인식할 수 있다.
이 때, 단계(S223)는 상기 멀티 모달 정보로부터 인식한 상기 대상(20)의 음성 특성(음향적/어휘적 특성), 음성 활동(Voice Activity Detection, VAD), 시선, 입술 모양(특정 단어 인식), 입술 상태(Lip Open/Close) 및 제스처(움직임, 손, 머리, 몸, 부정, 긍정) 중 적어도 하나 이상에 기반하여 상기 교류 행위를 인식할 수 있다.
이 때, 단계(S223)는 상기 상호 작용 장치(100) 또는 로봇(10)이 발언 행위를 수행하는 동안에 입력 받은 상기 대상(20)에 대한 멀티 모달 정보를 이용하여 상기 대상(20)이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치(100) 또는 로봇(10)의 발언을 기다려주는 행위 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 대상(20)이 발언을 시작하려는 행위를 인식한 결과는 TAKE 행위 에 상응할 수 있고, 상기 대상이 상기 상호 작용 장치(100) 또는 로봇(10)의 발언을 기다려주는 행위를 인식한 결과가 WAIT 행위에 상응할 수 있다.
사람과 사람 사이의 상호 작용에서, 사람은 발언 행위를 수행하는 동안에 상대방이 말한 것을 인지하고 대응할 수 있다. 하지만 로봇(10)은 발언 행위 중에 상대방이 말하는 것을 인식할 수 없다. 예를 들어, 챗봇(Chatbot)을 포함한 상용 로봇(NAO, Pepper, 등)은 발언 행위 중에 자신의 발언 행위를 인식할 수 있으나, 상대방의 발언 행위를 인식하지 못하기 때문에, 상대방에 대한 대응 시점을 놓쳐 자연스러운 상호작용이 어렵다.
이 때, 단계(S223)는 멀티 모달 정보로부터 인식한 대상(20)의 입술 모양(특정 단어 인식: 잠깐, 그런데, 그만, 아니야, 잠깐만 및 잠시만 등), 입술 상태(LIP OPEN/CLOSE), 시선(대화 중 시선 정면(gaze_front), 상대방과 눈 맞춤을 통해 말을 시작하려는 의도 인식), 부정 제스처(고개 흔들기 및 손짓 등의 제스처) 및 상호 작용 장치(100)의 상호 작용 상태(발언 행위 수행 중인 상태 여부) 중 적어도 하나 이상에 기반하여 수학식 2와 같이 TAKE 행위를 인식할 수 있다.
이 때, 단계(S223)는 멀티 모달 정보에서 TAKE 행위 인식을 위해 각 파라메터들을 인식한 값(Ti)과 가중치(wi)를 적용하여 TAKE 행위를 인식한 결과 값(S(t))을 산출할 수 있다.
이 때, 단계(S223)는 멀티 모달 정보로부터 인식한 대상(20)의 입술 모양(특정 단어 인식: 음, 그래, 맞아, 그렇지 및 맞장구 단어 등), 입술 상태(LIP OPEN/CLOSE), 시선(대화 중 시선 정면(gaze_front), 상대방과 눈 맞춤을 통해 상대방이 말하기를 기다리는 의도 인식), 긍정 제스처(고개 끄덕임 등의 제스처) 및 상호 작용 장치(100)의 상호 작용 상태(발언 행위 수행 중인 상태 여부) 중 적어도 하나 이상에 기반하여 수학식 3과 같이 WAIT 행위를 인식할 수 있다.
이 때, 단계(S223)는 멀티 모달 정보에서 WAIT 행위 인식을 위해 각 파라메터들을 인식한 값(Wi)과 가중치(wi)를 적용하여 WAIT 행위를 인식한 결과 값(S(w))을 산출할 수 있다.
이 때, 단계(S223)는 상기 대상(20)의 입술이 열려 있는 상태(LIP OPEN)를 상기 대상(20)의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상(20)이 발언을 시작하려는 행위(TAKE 행위) 및 상기 대상(20)이 상기 상호 작용 장치(100) 또는 로봇(10)의 발언을 기다려주는 행위(WAIT 행위) 중 어느 하나를 인식할 수 있다.
이 때, 단계(S223)는 상기 대상(20)이 발언 행위를 수행하지 않는 동안 인식한 상기 대상(20)의 입술이 열리는 빈도 및 상기 대상(20)의 입술이 열려 있는 시간을 상기 대상(20)의 입술 상태를 인식하기 위한 가중치로 설정할 수 있다.
이로부터, 단계(S223)는 평소에 습관적으로 대화 중에 입을 벌리고 있는 대상(20)의 경우 입 상태 인식의 오류가 발생할 수 있으므로, 대상(20)이 말을 할 때 입 모양이 닫히고 열리는 것을 주기적으로 인식하여 말을 하는 것인지 습관적으로 입을 벌리고 있는 것인지 여부를 확인하고, 교류 행위 인식의 오류 발생을 최소화할 수 있다.
이 때, 단계(S223)는 상기 멀티 모달 정보로부터 인식한 상기 대상(20)의 제스처가 부정적인 제스처인 경우, 상기 대상(20)이 발언을 시작하려는 행위(TAKE)로 인식하고, 상기 대상(20)의 제스처가 긍정적인 제스처인 경우, 상기 대상(20)이 상기 상호 작용 장치(100) 또는 로봇(20)의 발언을 기다려주는 행위(WAIT 행위)로 인식할 수 있다.
이 때, 단계(S223)는 상기 대상(20)의 제스처를 인식하기 위한 가중치에 상기 대상(20)의 긍정적인 제스처보다 상기 대상(20)의 부정적인 제스처에 높은 가중치를 설정하여 상기 대상(20)이 발언을 시작하려는 행위의 인식 가능성을 높게 설정할 수 있다.
또한, 단계(S223)는 상기 대상(20)이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상(20)이 발언을 계속하려는 행위(HOLD 행위) 및 상기 대상(20)이 발언을 멈추려는 행위(RELEASE 행위) 중 어느 하나를 상기 교류 행위로 인식할 수 있다.
이 때, 상기 대상(20)이 발언을 계속하려는 행위를 인식한 결과는 HOLD 행위에 상응할 수 있고, 상기 대상(20)이 발언을 멈추려는 행위를 인식한 결과는 RELEASE 행위에 상응할 수 있다.
이 때, 단계(S223)는 멀티 모달 정보로부터 인식한 대상(20)의 시선(대화 중 시선 정면(gaze_front), 상대방과 눈 맞춤을 통해 말을 계속하려는 의도 인식), 말을 계속하는 제스처(말을 하면서 손짓 및 몸짓을 함께하는 행위 등의 제스처) 및 상호 작용 장치(100)의 상호 작용 상태(발언 행위 수행 중인 상태 여부) 중 적어도 하나 이상에 기반하여 수학식 4와 같이 HOLD 행위를 인식할 수 있다.
이 때, 단계(S223)는 말을 시작하는 동작(speech_start), 말을 끝내는 동작(speech_end), 손 동작(gesture_hand), 몸 동작(gesture_body) 및 머리 동작(gesture_head) 중 적어도 하나 이상에 기반하여 제스처를 인식한 값(Ges)을 산출할 수 있다.
이 때, 단계(S223)는 멀티 모달 정보에서 HOLD 행위 인식을 위해 각 파라메터들을 인식한 값(Hi)과 가중치(wi)를 적용하여 HOLD 행위를 인식한 결과 값(S(h))을 산출할 수 있다.
이 때, 단계(S223)는 멀티 모달 정보로부터 인식한 대상(20)의 입술 상태(LIP OPEN/CLOSE), 시선(대화 중 시선 정면(gaze_front), 상대방과 눈 맞춤을 통해 말을 멈추고, 시선을 맞추는 행위 인식), 정지 제스처(말을 멈추는 행위 등의 제스처) 및 상호 작용 장치(100)의 상호 작용 상태(발언 행위 수행 중인 상태 여부) 중 적어도 하나 이상에 기반하여 수학식 5와 같이 RELEASE 행위를 인식할 수 있다.
이 때, 단계(S223)는 대상(20)의 연령, 성별, 개인의 특성에 따라 기설정된 발언 행위를 중단하는 구간을 고려하여 음성 활동 검출 값(VADp)을 산출할 수 있다.
이 때, 발언 행위를 중단하는 구간(pause)은 성인의 경우 50ms~500ms 에 상응할 수 있고, 고령자의 경우 성인보다 발언 행위를 중단하는 구간이 더 길 수도 있다.
이 때, 단계(S223)는 멀티 모달 정보에서 RELEASE 행위 인식을 위해 각 파라메터들을 인식한 값(Ri)과 가중치(wi)를 적용하여 RELEASE 행위를 인식한 결과 값(S(r))을 산출할 수 있다.
이 때, 단계(S223)는 상기 대상(20)의 입술이 열려 있는 상태(LIP OPEN)를 상기 대상(20)의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상(20)이 발언을 시작하려는 행위(TAKE 행위) 및 상기 대상(20)이 상기 상호 작용 장치(100) 또는 로봇(10)의 발언을 기다려주는 행위(WAIT 행위) 중 어느 하나를 인식할 수 있다.
이 때, 단계(S223)는 상기 대상(20)이 발언 행위를 수행하지 않는 동안 인식한 상기 대상(20)의 입술이 열리는 빈도 및 상기 대상(20)의 입술이 열려 있는 시간을 상기 대상(20)의 입술 상태를 인식하기 위한 가중치로 설정할 수 있다.
이로부터, 단계(S223)는 평소에 습관적으로 대화 중에 입을 벌리고 있는 대상(20)의 경우 입 상태 인식의 오류가 발생할 수 있으므로, 대상(20)이 말을 할 때 입 모양이 닫히고 열리는 것을 주기적으로 인식하여 말을 하는 것인지 습관적으로 입을 벌리고 있는 것인지 여부를 확인하고, 교류 행위 인식의 오류 발생을 최소화할 수 있다.
이 때, 단계(S223)는 상기 멀티 모달 정보로부터 인식한 발언 행위를 수행 중인 대상(20)의 음성 활동 검출 결과가 기설정된 시간동안 발언 행위를 중단한 경우, 발언을 멈추려는 행위로 인식 할 수 있고(RELEASE 행위), 기설정된 시간 이내에 발언 행위를 계속하는 경우, 발언을 계속하려는 행위로 인식할 수 있다(HOLD 행위).
이 때, 단계(S223)는 대상(20)의 발언 행위가 기설정된 시간동안 발언 행위를 중단된 경우라도, 대상(20)의 제스처가 발언 행위를 계속하려는 제스처인 경우, 발언을 계속하려는 행위(HOLD 행위)로 인식할 수 있다.
이 때, 단계(S223)는 대상(20)의 발언 행위가 기설정된 시간동안 발언 행위를 중단된 경우, 대상(20)의 시선이 상호 작용 장치(100) 또는 로봇(10)을 정면으로 바라보고, 입술 상태가 닫혀 있는 경우(LIP CLOSE), 발언을 멈추려는 행위(RELEASE)로 인식할 수 있다.
또한, 단계(S220)는 상호 작용을 위한 행위를 결정할 수 있다(S224).
즉, 단계(S224)는 교류 행위를 인식한 결과에 기반하여 상호 작용을 위한 행위을 결정할 수 있다.
이 때, 인식한 교류 행위에 대응하는 상호 작용을 위한 행위는 음성, 행위, 제스처, 시선 등이 포함될 수 있다.
또한, 본 발명의 일실시예에 따른 상호 작용 방법은 상호 작용을 위한 행위를 수행할 수 있다(S230).
즉, 단계(S230)는 상기 교류 행위를 인식한 결과에 기반하여 상기 대상(20)과 상호 작용하기 위한 행위를 수행할 수 있다
이 때, 단계(S230)는 상호 작용 장치(100)가 로봇(10)에 포함된 경우, 상호 작용을 위한 행위를 수행할 수 있고, 로봇(10)과 분리되어 있는 경우, 로봇(10)에게 상호 작용을 위한 행위를 수행하는 명령을 송신할 수 있다.
도 5는 본 발명의 일실시예에 따른 멀티 모달 정보와 교류 행위 인식 관계를 나타낸 블록도이다. 도 6은 본 발명의 일실시예에 따른 딥 러닝을 이용한 멀티 모달 정보와 교류 행위 인식 관계를 나타낸 블록도이다.
도 5 및 6을 참조하면, 본 발명의 일실시예에 따른 상호 작용 장치(100)는 상호 작용 대상자(20)와 로봇(10)으로부터 멀티 모달 정보를 입력 받아, 멀티 모달 단서로부터 음성 특징, 음성 활동, 음성 인식, 입술 모양(립 리딩), 입술 상태(립 상태), 시선, 제스처 및 로봇의 상호 작용 행위 상태에 관한 정보를 입력 벡터로 추출할 수 있다.
이 때, 상호 작용 장치(100)는 멀티 모달 정보에서 추출된 입력 벡터를 이용하여 상호 작용 대상자(20)에 대한 네 가지 교류 행위(TAKE 행위, WAIT 행위, HOLD 행위 및 RELEASE 행위) 중 어느 하나를 인식할 수 있다.
이 때, 도 6에 도시된 바와 같이, 상호 작용 장치(100)는 입력 벡터 들로부터 교류 행위를 인식할 때, 상호 작용 행위 영상에 관한 데이터 셋을 이용하여 학습한 데이터 모델을 이용하여 교류 행위를 인식할 수 있다.
예를 들어, 상호 작용 장치(100)는 RNN(Recurrent Neural Network) 모델과 같은 학습 모델을 이용하여 수집된 상호 작용 영상 데이터 셋으로부터 상호 작용을 위한 행위들을 학습하고, 멀티 모달 정보로부터 상호 작용을 위한 교류 행위를 인식할 수 있다.
도 7은 본 발명의 일실시예에 따른 대상이 발언을 시작하려는 행위를 인식하는 케이스를 나타낸 도면이다.
도 7을 참조하면, 본 발명의 일실시예에 따른 상호 작용 장치(100)는 CASE 1과 같이 발언 행위를 수행하는 중에 상호 작용 대상자(20)가 발언을 시작하려는 행위(끼어들기)에 상응하는 제스처 및 음성 특성을 검출하고, 입술 상태가 열린 경우, TAKE 행위를 인식할 수 있다.
또한, 본 발명의 일실시예에 따른 상호 작용 장치(100)는 CASE 2와 같이 발언 행위를 수행하는 중에 상호 작용 대상자(20)의 부정 제스처를 인식한 경우, TAKE 행위를 인식할 수 있다.
또한, 본 발명의 일실시예에 따른 상호 작용 장치(100)는 CASE 3과 같이 발언 행위를 수행하고 있지 않는 중에 상호 작용 대상자(20)가 발언 행위를 시작한 경우, TAKE 행위를 인식할 수 있다.
도 8은 본 발명의 일실시예에 따른 대상이 상호 작용 장치의 발언을 기다려주는 행위를 인식하는 케이스를 나타낸 도면이다.
도 8을 참조하면, 본 발명의 일실시예에 따른 상호 작용 장치(100)는 CASE 1과 같이 발언 행위를 수행하는 중에 상호 작용 대상자(20)의 맞장구치는 행위(BACKCHANNEL)와 입술 상태가 열린 것을 인식한 경우, WAIT 행위를 인식하고 발언 행위를 계속할 수 있다.
또한, 본 발명의 일실시예에 따른 상호 작용 장치(100)는 CASE 2와 같이 발언 행위를 수행하는 중에 상호 작용 대상자(20)의 긍정 제스처를 인식하는 경우, WAIT 행위를 인식하고, 발언 행위를 계속 할 수 있다.
도 9는 본 발명의 일실시예에 따른 대상이 발언을 계속하려는 행위를 인식하는 케이스를 나타낸 도면이다.
도 9를 참조하면, 본 발명의 일실시예에 따른 상호 작용 장치(100)가 발언 행위를 수행 중인 상호 작용 대상자(20)의 시선이 유지되고, 발언 행위가 중단(휴지, PAUSE) 되더라도, 기설정된 시간 이내에 발언 행위가 재개되거나, 발언을 계속하려는 제스처(손짓, 몸짓 등)이 인식된 경우, HOLD 행위를 인식할 수 있다.
도 10은 본 발명의 일실시예에 따른 대상이 발언을 멈추려는 행위를 인식하는 케이스를 나타낸 도면이다.
도 10을 참조하면, 본 발명의 일실시예에 따른 상호 작용 장치(100)가 CASE 1과 같이, 발언 행위를 수행 중인 상호 작용 대상자(20)가 시선이 유지되고, 기설정된 시간 동안 발언 행위가 중단된 경우, RELEASE 행위를 인식할 수 있다.
또한, 본 발명의 일실시예에 따른 상호 작용 장치(100)가 CASE 2과 같이, 발언 행위를 수행 중인 상호 작용 대상자(20)가 시선이 유지되고, 기설정된 시간 동안 발언 행위가 중단되고, 상호 작용 대상자(20)의 입술 상태가 닫혀 있는 경우(CLOSE), RELEASE 행위를 인식할 수 있다.
도 11은 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.
도 11을 참조하면, 본 발명의 일실시예에 따른 상호 작용 장치(100)는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1100)에서 구현될 수 있다. 도 11에 도시된 바와 같이, 컴퓨터 시스템(1100)은 버스(1120)를 통하여 서로 통신하는 하나 이상의 프로세서(1110), 메모리(1130), 사용자 인터페이스 입력 장치(1140), 사용자 인터페이스 출력 장치(1150) 및 스토리지(1160)를 포함할 수 있다. 또한, 컴퓨터 시스템(1100)은 네트워크(1180)에 연결되는 네트워크 인터페이스(1170)를 더 포함할 수 있다. 프로세서(1110)는 중앙 처리 장치 또는 메모리(1130)나 스토리지(1160)에 저장된 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1130) 및 스토리지(1160)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들어, 메모리는 ROM(1131)이나 RAM(1132)을 포함할 수 있다.
이상에서와 같이 본 발명의 일실시예에 따른 상호 작용 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
10: 로봇 20: 대상
100: 상호 작용 장치 110: 입력부
120: 인식부 130: 수행부
1100: 컴퓨터 시스템 1110: 프로세서
1120: 버스 1130: 메모리
1131: 롬 1132: 램
1140: 사용자 인터페이스 입력 장치
1150: 사용자 인터페이스 출력 장치
1160: 스토리지 1170: 네트워크 인터페이스
1180: 네트워크

Claims (20)

  1. 상호 작용 장치가 대상과 상호 작용하기 위해 상기 대상에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력받는 입력부;
    상기 멀티 모달 정보를 이용하여 상기 대상의 교류 행위를 인식하는 인식부; 및
    상기 교류 행위를 인식한 결과에 기반하여 상기 대상과 상호 작용하기 위한 행위를 수행하는 수행부;
    를 포함하고,
    상기 인식부는
    상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 멀티 모달 정보를 이용하여 발언을 시작하려는 제1 행위 및 상기 상호 작용 장치의 발언을 기다려주는 제2 행위 중 어느 하나를 상기 교류 행위로 인식하되,
    상기 멀티 모달 정보로부터 인식한 상기 대상의 입술 모양 및 제스처 중 어느 하나 이상이 부정적인 것으로 판단되는 경우, 상기 제1 행위를 상기 교류 행위로 인식하고,
    상기 입술 모양 및 상기 제스처 중 어느 하나 이상이 긍정적인 것 판단되는 경우, 상기 제2 행위를 상기 교류 행위로 인식하고,
    상기 수행부는
    상기 교류 행위를 인식한 결과가 상기 제1 행위인 경우, 상기 발언 행위를 중지하고, 상기 교류 행위를 인식한 결과가 상기 제2 행위인 경우, 상기 발언 행위를 계속하는 것을 특징으로 하는 상호 작용 장치.
  2. 청구항 1에 있어서,
    상기 인식부는
    상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 및 상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 중 어느 하나에 기반하여 상기 교류 행위를 인식하는 것을 특징으로 하는 상호 작용 장치.
  3. 청구항 2에 있어서,
    상기 인식부는
    상기 멀티 모달 정보에 기반하여 상기 상호 작용 장치가 상기 대상의 네 가지 행위를 인식하고, 상기 네 가지 행위 중 어느 하나를 상기 교류 행위로 인식하는 것을 특징으로 하는 상호 작용 장치.
  4. 청구항 3에 있어서,
    상기 인식부는
    상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상이 발언을 계속하려는 행위 및 상기 대상이 발언을 멈추려는 행위 중 어느 하나를 상기 교류 행위로 인식하는 것을 특징으로 하는 상호 작용 장치.
  5. 삭제
  6. 삭제
  7. 청구항 4에 있어서,
    상기 인식부는
    상기 대상의 입술이 열려 있는 상태를 상기 대상의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위 중 어느 하나를 인식하는 것을 특징으로 하는 상호 작용 장치.
  8. 청구항 7에 있어서,
    상기 인식부는
    상기 대상이 발언 행위를 수행하지 않는 동안 인식한 상기 대상의 입술이 열리는 빈도 및 상기 대상의 입술이 열려 있는 시간을 상기 대상의 입술 상태를 인식하기 위한 가중치로 설정하는 것을 특징으로 하는 상호 작용 장치.
  9. 청구항 8에 있어서,
    상기 인식부는
    상기 멀티 모달 정보로부터 인식한 상기 대상의 제스처가 부정적인 제스처인 경우, 상기 대상이 발언을 시작하려는 행위로 인식하고 상기 대상의 제스처가 긍정적인 제스처인 경우, 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위로 인식하는 것을 특징으로 하는 상호 작용 장치.
  10. 청구항 9에 있어서,
    상기 인식부는
    상기 대상의 제스처를 인식하기 위한 가중치에 상기 대상의 긍정적인 제스처보다 상기 대상의 부정적인 제스처에 높은 가중치를 설정하여 상기 대상이 발언을 시작하려는 행위의 인식 가능성을 높게 설정하는 것을 특징으로 하는 상호 작용 장치.
  11. 상호 작용 장치의 상호 작용 방법에 있어서,
    상기 상호 작용 장치가 대상과 상호 작용하기 위해 상기 대상에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력받는 단계;
    상기 멀티 모달 정보를 이용하여 상기 대상의 교류 행위를 인식하는 단계; 및
    상기 교류 행위를 인식한 결과에 기반하여 상기 대상과 상호 작용하기 위한 행위를 수행하는 단계;
    를 포함하고,
    상기 인식하는 단계는
    상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 멀티 모달 정보를 이용하여 발언을 시작하려는 제1 행위 및 상기 상호 작용 장치의 발언을 기다려주는 제2 행위 중 어느 하나를 상기 교류 행위로 인식하되,
    상기 멀티 모달 정보로부터 인식한 상기 대상의 입술 모양 및 제스처 중 어느 하나 이상이 부정적인 것으로 판단되는 경우, 상기 제1 행위를 상기 교류 행위로 인식하고,
    상기 입술 모양 및 상기 제스처 중 어느 하나 이상이 긍정적인 것 판단되는 경우, 상기 제2 행위를 상기 교류 행위로 인식하고,
    상기 수행하는 단계는
    상기 교류 행위를 인식한 결과가 상기 제1 행위인 경우, 상기 발언 행위를 중지하고, 상기 교류 행위를 인식한 결과가 상기 제2 행위인 경우, 상기 발언 행위를 계속하는 것을 특징으로 하는 상호 작용 방법.
  12. 청구항 11에 있어서,
    상기 인식하는 단계는
    상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 및 상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 중 어느 하나에 기반하여 상기 교류 행위를 인식하는 것을 특징으로 하는 상호 작용 방법.
  13. 청구항 12에 있어서,
    상기 인식하는 단계는
    상기 멀티 모달 정보에 기반하여 상기 상호 작용 장치가 상기 대상의 네 가지 행위를 인식하고, 상기 네 가지 행위 중 어느 하나를 상기 교류 행위로 인식하는 것을 특징으로 하는 상호 작용 방법.
  14. 청구항 13에 있어서,
    상기 인식하는 단계는
    상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상이 발언을 계속하려는 행위 및 상기 대상이 발언을 멈추려는 행위 중 어느 하나를 상기 교류 행위로 인식하는 것을 특징으로 하는 상호 작용 방법.
  15. 삭제
  16. 삭제
  17. 청구항 14에 있어서,
    상기 인식하는 단계는
    상기 대상의 입술이 열려 있는 상태를 상기 대상의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위 중 어느 하나를 인식하는 것을 특징으로 하는 상호 작용 방법.
  18. 청구항 17에 있어서,
    상기 인식하는 단계는
    상기 대상이 발언 행위를 수행하지 않는 동안 인식한 상기 대상의 입술이 열리는 빈도 및 상기 대상의 입술이 열려 있는 시간을 상기 대상의 입술 상태를 인식하기 위한 가중치로 이용하는 것을 특징으로 하는 상호 작용 방법.
  19. 청구항 18에 있어서,
    상기 인식하는 단계는
    상기 멀티 모달 정보로부터 인식한 상기 대상의 제스처가 부정적인 제스처인 경우, 상기 대상이 발언을 시작하려는 행위로 인식하고 상기 대상의 제스처가 긍정적인 제스처인 경우, 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위로 인식하는 것을 특징으로 하는 상호 작용 방법.
  20. 청구항 19에 있어서,
    상기 인식하는 단계는
    상기 대상의 제스처를 인식하기 위한 가중치에 상기 대상의 긍정적인 제스처보다 상기 대상의 부정적인 제스처에 높은 가중치를 설정하여 상기 대상이 발언을 시작하려는 행위의 인식 가능성을 높게 설정하는 것을 특징으로 하는 상호 작용 방법.
KR1020180112984A 2018-09-20 2018-09-20 상호 작용 장치 및 방법 KR102168802B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180112984A KR102168802B1 (ko) 2018-09-20 2018-09-20 상호 작용 장치 및 방법
US16/206,711 US10800043B2 (en) 2018-09-20 2018-11-30 Interaction apparatus and method for determining a turn-taking behavior using multimodel information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180112984A KR102168802B1 (ko) 2018-09-20 2018-09-20 상호 작용 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200036089A KR20200036089A (ko) 2020-04-07
KR102168802B1 true KR102168802B1 (ko) 2020-10-22

Family

ID=69884420

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180112984A KR102168802B1 (ko) 2018-09-20 2018-09-20 상호 작용 장치 및 방법

Country Status (2)

Country Link
US (1) US10800043B2 (ko)
KR (1) KR102168802B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11824819B2 (en) 2022-01-26 2023-11-21 International Business Machines Corporation Assertiveness module for developing mental model

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11762457B1 (en) 2019-09-27 2023-09-19 Apple Inc. User comfort monitoring and notification
KR102576788B1 (ko) 2020-08-21 2023-09-11 한국전자통신연구원 로봇 인터랙션 행위 생성 장치 및 방법
US11049497B1 (en) * 2020-10-26 2021-06-29 Cresta Intelligence Inc. Contemporaneous machine-learning analysis of audio streams
US11709795B2 (en) 2020-11-12 2023-07-25 Electronics And Telecommunications Research Institute Electronic device including main processor and systolic array processor and operating method of electronic device
CN113460067B (zh) * 2020-12-30 2023-06-23 安波福电子(苏州)有限公司 一种人车交互***
US12033656B2 (en) * 2021-06-19 2024-07-09 Kyndryl, Inc. Diarisation augmented reality aide
CN115237255B (zh) * 2022-07-29 2023-10-31 天津大学 一种基于眼动和语音的自然图像共指目标定位***及方法
CN116301389B (zh) * 2023-05-17 2023-09-01 广东皮阿诺科学艺术家居股份有限公司 一种基于深度学习的多模态智能家具控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US20030171932A1 (en) * 2002-03-07 2003-09-11 Biing-Hwang Juang Speech recognition
US7809569B2 (en) 2004-12-22 2010-10-05 Enterprise Integration Group, Inc. Turn-taking confidence
US20070015121A1 (en) * 2005-06-02 2007-01-18 University Of Southern California Interactive Foreign Language Teaching
US8046221B2 (en) * 2007-10-31 2011-10-25 At&T Intellectual Property Ii, L.P. Multi-state barge-in models for spoken dialog systems
BRPI0913549A2 (pt) * 2008-09-18 2020-05-26 Koninklijke Philips Electronics N.V. Método para controlar pelo menos um dispositivo que utiliza um sistema de telecomunicações, sistema de telecomunicações e programa de computador
US8473420B2 (en) * 2009-06-26 2013-06-25 Microsoft Corporation Computational models for supporting situated interactions in multi-user scenarios
KR101239274B1 (ko) * 2009-07-06 2013-03-06 한국전자통신연구원 상호작용성 로봇
US9015048B2 (en) * 2012-11-30 2015-04-21 At&T Intellectual Property I, L.P. Incremental speech recognition for dialog systems
KR20140104537A (ko) 2013-02-18 2014-08-29 한국전자통신연구원 생체 신호 기반의 감성 인터랙션 장치 및 방법
US20150039312A1 (en) * 2013-07-31 2015-02-05 GM Global Technology Operations LLC Controlling speech dialog using an additional sensor
US20150127340A1 (en) * 2013-11-07 2015-05-07 Alexander Epshteyn Capture
EP2933070A1 (en) 2014-04-17 2015-10-21 Aldebaran Robotics Methods and systems of handling a dialog with a robot
KR101559364B1 (ko) * 2014-04-17 2015-10-12 한국과학기술원 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
KR102558873B1 (ko) 2016-03-23 2023-07-25 한국전자통신연구원 상호 작용 장치 및 그것의 상호 작용 방법
US20180054688A1 (en) * 2016-08-22 2018-02-22 Dolby Laboratories Licensing Corporation Personal Audio Lifestyle Analytics and Behavior Modification Feedback
KR20180046649A (ko) 2016-10-28 2018-05-09 한국과학기술연구원 멀티모달 지각을 이용한 사용자의 상호작용 의도 검출 시스템 및 이를 이용한 사용자의 상호작용 의도 검출 방법
US9812151B1 (en) * 2016-11-18 2017-11-07 IPsoft Incorporated Generating communicative behaviors for anthropomorphic virtual agents based on user's affect
US10467488B2 (en) * 2016-11-21 2019-11-05 TeleLingo Method to analyze attention margin and to prevent inattentive and unsafe driving
JP6629172B2 (ja) 2016-11-28 2020-01-15 日本電信電話株式会社 対話制御装置、その方法及びプログラム
US10959661B2 (en) * 2017-04-05 2021-03-30 The Curators Of The University Of Missouri Quantification of bulbar function
WO2019040669A1 (en) * 2017-08-22 2019-02-28 Silicon Algebra, Inc. METHOD FOR DETECTING EXPRESSIONS AND FACIAL EMOTIONS OF USERS
US10910001B2 (en) * 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
CN112204654B (zh) * 2018-02-15 2024-07-23 暗物智能科技(广州)有限公司 用于基于预测的先发式对话内容生成的***和方法
US10997979B2 (en) * 2018-06-21 2021-05-04 Casio Computer Co., Ltd. Voice recognition device and voice recognition method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11824819B2 (en) 2022-01-26 2023-11-21 International Business Machines Corporation Assertiveness module for developing mental model

Also Published As

Publication number Publication date
US20200094416A1 (en) 2020-03-26
KR20200036089A (ko) 2020-04-07
US10800043B2 (en) 2020-10-13

Similar Documents

Publication Publication Date Title
KR102168802B1 (ko) 상호 작용 장치 및 방법
US10930303B2 (en) System and method for enhancing speech activity detection using facial feature detection
US11017779B2 (en) System and method for speech understanding via integrated audio and visual based speech recognition
JP6818280B2 (ja) 対話システム、対話方法、対話装置、およびプログラム
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
US10776073B2 (en) System and method for managing a mute button setting for a conference call
US20190371318A1 (en) System and method for adaptive detection of spoken language via multiple speech models
JP6719739B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
US11200902B2 (en) System and method for disambiguating a source of sound based on detected lip movement
JP4992218B2 (ja) 情報処理装置および方法、並びにプログラム
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
CN106503786B (zh) 用于智能机器人的多模态交互方法和装置
JP6992957B2 (ja) エージェント対話システム
US20230230303A1 (en) Method and apparatus for providing interactive avatar services
JPWO2008001549A1 (ja) 音声対話装置と音声対話方法及びそのプログラム
Bilac et al. Gaze and filled pause detection for smooth human-robot conversations
US20040095389A1 (en) System and method for managing engagements between human users and interactive embodied agents
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
KR20220023543A (ko) 로봇 인터랙션 행위 생성 장치 및 방법
JP7075168B2 (ja) 装置、方法、プログラム、及びロボット
JP7432960B2 (ja) 対話システムおよびプログラム
JP2023149321A (ja) 対話における失敗からの回復方法及びコンピュータプログラム
JP2023149322A (ja) 対話における失敗からの回復方法及びコンピュータプログラム
KR20220029912A (ko) 통역 상황 정보를 제공하는 방법 및 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right