KR101189053B1 - 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기 - Google Patents

아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기 Download PDF

Info

Publication number
KR101189053B1
KR101189053B1 KR1020090083726A KR20090083726A KR101189053B1 KR 101189053 B1 KR101189053 B1 KR 101189053B1 KR 1020090083726 A KR1020090083726 A KR 1020090083726A KR 20090083726 A KR20090083726 A KR 20090083726A KR 101189053 B1 KR101189053 B1 KR 101189053B1
Authority
KR
South Korea
Prior art keywords
avatar
terminal
video call
execution code
voice
Prior art date
Application number
KR1020090083726A
Other languages
English (en)
Other versions
KR20110025720A (ko
Inventor
홍상우
Original Assignee
에스케이플래닛 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이플래닛 주식회사 filed Critical 에스케이플래닛 주식회사
Priority to KR1020090083726A priority Critical patent/KR101189053B1/ko
Publication of KR20110025720A publication Critical patent/KR20110025720A/ko
Application granted granted Critical
Publication of KR101189053B1 publication Critical patent/KR101189053B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/16Communication-related supplementary services, e.g. call-transfer or call-hold
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/60Subscription-based services using application servers or record carriers, e.g. SIM application toolkits

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Child & Adolescent Psychology (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기에 관한 것으로, 화상 통화 시, 단말기는 상대측 단말기의 사용자에 대응하는 아바타를 표시하고, 상대측 단말기 사용자의 제스처 및 음성 중 적어도 하나를 인식하고 그에 대응하여 생성한 아바타 실행 코드를 상대측 단말기로부터 수신하고, 수신한 아바타 실행 코드에 따라 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력한다. 본 발명에 따르면, 화상 통화 중 상대측의 동작이나 음성 등을 기반으로 출력되는 아바타를 통하여 상대측의 다양한 감정 상태를 사용자에게 전달할 수 있다.
단말기, 화상 통화, 아바타, 제스처, 음성

Description

아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기{Method For Video Call Based on an Avatar And System, Apparatus thereof}
본 발명은 화상 통화 기술에 관한 것으로, 특히 화상 통화 시 화자의 제스처 및 음성 중 적어도 하나를 인식하고, 이를 기반으로 특정 아바타의 상태나 동작 중 적어도 하나를 조절할 수 있도록 지원하는 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기에 관한 것이다.
최근 들어, 단말기는 배터리의 전기적 용량을 유지하면서 그 크기를 소형화시키는 기술의 비약적인 발전에 힘입어 다양한 옵션 기능을 구현할 수 있게 되었다. 예를 들면, 상기 단말기는 카메라를 장착하게 되면서, 특정 피사체에 대한 영상을 수집할 수 있는 기능을 통화 기능과 연계하여 지원하고 있다. 이에 따라, 단말기 사용자는 단말기에 장착된 카메라를 기반으로 타 단말기 사용자와 화상 통화 기능을 이용할 수 있다.
이러한 화상 통화 기능은 단순히 음성으로만 통화를 수행하던 시기에 비하여 상대측의 얼굴이나 배경을 확인하면서 통화를 하기 때문에, 단순히 음성만으로 통화하는 것에 비해서 사용자의 감정 상태를 상대측에게 보다 잘 전달할 수 있는 이 점이 있다.
하지만 현재의 화상 통화는 다양한 환경적 조건 예를 들면, 대역폭, 전송 속도, 단말기의 데이터 처리 용량 등에 따라 제약을 받기 때문에, 영상이 끊어지거나 제대로 전송되지 않는 경우가 많다. 이에 따라, 화상 통화를 수행하더라도 상대측과 관련된 영상을 정확하게 인식하기가 어려운 문제점이 있다.
따라서 본 발명의 목적은 화상 통화 시 화자의 제스처 또는 음성 중 적어도 하나를 인식하여 특정 아바타의 상태 및 동작 중 적어도 하나를 조절한 후, 조절된 아바타를 출력할 수 있는 화상 통화 방법 및 시스템, 이를 지원하는 단말기를 제공함에 있다.
상술한 바와 같은 목적을 달성하기 위하여, 본 발명은 제1 단말기와 제2 단말기를 포함하는 아바타 기반 화상 통화 시스템을 제공한다. 상기 제1 단말기는 화상 통화 채널이 형성되면, 제2 단말기에 대응하는 아바타를 출력하고, 상기 제2 단말기로부터 수신한 아바타 실행 코드를 기반으로 출력된 상기 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력하며, 상기 제2 단말기는 자신의 카메라가 수집한 피사체의 동작 상태 및 동작 변화로부터 인식하는 특정 제스처 및 마이크가 수집한 오디오 신호로부터 인식하는 특정 음성 중 적어도 하나를 기반으로 아바타의 상태 및 동작 중 적어도 하나를 조절하기 위한 상기 아바타 실행 코드를 생성하고, 상기 아바타 실행 코드를 상기 제1 단말기에 전송한다.
본 발명은 또한, 통신망 및 아바타 제공서버를 포함하여 구성되는 아바타 기반 화상 통화 시스템을 제공한다. 상기 통신망은 제1 단말기와 제2 단말기 간의 화상 통화를 제어한다. 상기 아바타 제공서버는 상기 통신망을 매개로 화상 통화 채널이 형성된 후 상기 제1 또는 제2 단말기로부터 아바타 요청 신호를 수신하면, 상 기 아바타 요청 신호를 발신한 단말기로 상대측에 대응하는 아바타를 전송하고, 상기 아바타를 수신한 단말기의 상대측 단말기로부터 화상 통화 데이터를 수신하고, 상기 수신한 화상 통화 데이터에서 상기 상대측이 취하는 특정 제스처 및 음성 인식에 기반하여 아바타 실행 코드를 생성하고, 상기 아바타 실행 코드를 상기 아바타를 수신한 단말기로 전송한다.
본 발명은 또한, 송수신부 및 서버제어부를 포함하여 구성되는 아바타 기반 화상 통화 시스템의 아바타 제공서버를 제공한다. 상기 송수신부는 통신망을 매개로 제1 단말기 또는 제2 단말기와 통신을 수행한다. 상기 서버제어부는 상기 통신망을 매개로 화상 통화 채널이 형성된 후 상기 제1 또는 제2 단말기로부터 아바타 요청 신호를 수신하면, 상기 아바타 요청 신호를 발신한 단말기로 상대측에 대응하는 아바타를 전송하고, 상기 아바타를 수신한 단말기의 상대측 단말기로부터 화상 통화 데이터를 수신하고, 상기 수신한 화상 통화 데이터에서 상기 상대측이 취하는 특정 제스처 및 음성 인식에 기반하여 아바타 실행 코드를 생성하고, 상기 아바타 실행 코드를 상기 아바타를 수신한 단말기로 전송한다.
본 발명은 또한, 카메라와, 표시부, 제어부 그리고 통신부와 저장부의 구성을 포함하는 아바타 기반 화상 통화 시스템의 단말기를 제공한다. 상기 카메라는 화상 통화를 위하여 상기 상대측 단말기로 전송할 영상을 수집하며, 상기 표시부는 상기 상대측 단말기로부터 수신한 상대측의 영상을 출력한다. 그리고 상기 제어부는 상기 상대측 단말기와 화상 통화 채널이 형성되면, 상기 상대측 단말기에 대응하는 아바타를 상기 표시부에 출력하고, 상기 상대측 단말기로부터 상기 상대측의 제스처 및 음성 중 적어도 하나를 인식하여 생성된 아바타 실행 코드를 수신하고, 상기 아바타 실행 코드에 따라 상기 아바타의 상태 및 동작 중 적어도 하나를 조절하여 상기 표시부로 출력하도록 제어한다. 상기 통신부는 화상 통화를 위한 화상 통화 채널을 형성하고, 상기 아바타 실행 코드를 상기 화상 통화 채널 또는 메시지 서비스 채널 등을 이용하여 전송하도록 지원할 수 있다. 그리고 상기 저장부는 상대측 단말기로부터 아바타를 수신하거나, 자신의 단말기에 저장된 특정 아바타를 상기 상대측 단말기의 아바타로 지정하는 경우, 아바타를 상대측 단말기의 전화번호에 연결하여 저장할 수 있다.
본 발명은 또한, 제1 단말기 및 제2 단말기 간에 화상 통화 채널이 형성된 후 상기 제1 또는 제2 단말기로부터 아바타 요청 신호를 수신하면, 아바타 제공서버가 상기 아바타 요청 신호를 발신한 단말기로 상대측에 대응하는 아바타를 전송하는 아바타 전송 단계, 상기 아바타 제공서버가 상기 아바타를 수신한 단말기의 상대측 단말기로부터 화상 통화 데이터를 수신하는 수신 단계, 상기 아바타 제공서버가 상기 수신한 화상 통화 데이터에서 상기 상대측이 취하는 특정 제스처 및 음성 인식에 기반하여 아바타 실행 코드를 생성하는 생성 단계, 상기 아바타 제공서버가 상기 아바타 실행 코드를 상기 아바타를 수신한 단말기로 전송하는 아바타 실행 코드 전송 단계를 포함하는 아바타 기반의 화상 통화 방법을 제공한다.
본 발명은 또한, 제1 단말기와 제2 단말기가 화상 통화 채널을 형성하는 채널 형성 단계, 상기 제1 단말기가 상기 제2 단말기에 대응하는 아바타를 출력하는 출력 단계, 상기 제2 단말기의 카메라가 수집한 영상의 동작 상태 및 동작 변화로 부터 인식한 특정 제스처 및 마이크가 수집한 오디오 신호로부터 음성 인식한 특정 음성 중 적어도 하나를 기반으로 상기 아바타의 상태 및 동작 중 적어도 하나를 조절할 수 있는 아바타 실행 코드를 상기 제1 단말기가 상기 제2 단말기로부터 수신하는 수신 단계, 상기 제1 단말기가 상기 아바타 실행 코드에 따라 상기 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력하는 조절 출력 단계를 포함하는 아바타 기반의 화상 통화 방법을 제공한다.
본 발명의 화상 통화 방법 및 시스템, 이를 지원하는 단말기에 따르면, 화상 통화 시, 단말기는 상대측 단말기의 사용자에 대응하는 아바타를 표시하고, 상대측 단말기 사용자의 제스처 및 음성 중 적어도 하나를 인식하고 그에 대응하여 생성한 아바타 실행 코드를 상대측 단말기 또는 아바타 제공서버로부터 수신하고, 수신한 아바타 실행 코드에 따라 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력하기 때문에, 아바타를 통하여 상대측의 감정상태를 사용자에게 효과적으로 전달할 수 있다. 즉 상대측이 취하는 특정 제스처 및 음성을 통하여 상대측의 현재의 감정상태, 예컨대 기쁨, 슬픔, 놀람, 즐거움, 화남, 짜증남 등을 인식하고, 이를 아바타를 통하여 표현하기 때문에, 화상 통화 시스템은 사용자가 아바타를 통하여 상대측의 감정상태를 인지하면서 화상 통화를 원활하게 수행할 수 있도록 한다. 따라서 화상 통화 중 상대측의 동작이나 음성 등을 기반으로 출력되는 아바타를 통하여 상대측의 다양한 감정 상태를 사용자에게 전달할 수 있다.
이하, 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기의 설명에서는 본 발명의 실시 예에 따른 동작을 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
여기서 '아바타'는 단말기 사용자의 감정상태를 대신하여 표현하는 그래픽 컨텐츠로서, 애니메이션 캐릭터, 동영상, 정지영상, UCC(User Created Contents), 이모티콘, 플래시(flash), 영상과 진동이 조합된 햅틱 컨텐츠 등을 포함한다.
도 1은 본 발명의 실시 예에 따른 화상 통화 운용을 지원하기 위한 화상 통화 시스템의 구성을 개략적으로 나타낸 도면이다.
설명에 앞서, 이하에서는 본 발명의 화상 통화 서비스를 설명하기 위하여 단말기가 이동통신망을 이용하는 형태의 단말기로서 설명하지만, 본 발명이 이에 한정되는 것은 아니다. 즉, 본 발명의 화상 통화 서비스는 이동통신망을 이용하는 단 말기뿐만 아니라, 카메라를 장착하여 화상 통화가 가능한 일반 유선 단말기, 고정형 단말기, IP 단말기 등 다양한 단말기에 적용될 수 있을 것이다. 상기 단말기가 화상 통화를 지원할 수 있는 유선 단말기인 경우, 상기 이동통신망은 유선을 기반으로 하는 화상 통화를 지원할 수 있는 교환기망이 될 수 있다. 또한, 상기 단말기가 화상 통화 지원할 수 있는 IP 단말기인 경우, 상기 이동통신망은 화상 통화를 지원할 수 있는 IP 네트워크로 대체될 수 있다. 즉 단말기 간의 화상 통화 서비스를 지원하는 통신망은 이동통신망, 교환기망, IP 네트워크를 포함한다.
상기 도 1을 참조하면, 본 발명의 화상 통화 시스템은 제1 단말기(100), 제2 단말기(200) 및 이동통신망(300)을 포함할 수 있다.
이와 같은 구성을 가지는 본 발명의 화상 통화 시스템은 제1 단말기(100) 또는 제2 단말기(200)가 이동통신망(300)을 통하여 상대측 단말기에 화상 통화 요청을 수행할 수 있으며, 이 과정에서, 화상 통화 채널이 형성되면, 제1 단말기(100) 및 제2 단말기(200) 중 적어도 하나는 상대측 단말기에 대응하는 상대측 아바타를 화면에 출력할 수 있다. 이때, 상기 상대측 아바타는 각 단말기의 저장부에 기 저장되어 있거나, 상대측 단말기로부터 수신하여 출력할 수 있다.
제1 단말기(100) 및 제2 단말기(200)는 화상 통화 채널이 형성된 이후, 카메라를 통하여 수집되는 피사체의 정지 영상 또는 동영상을 획득하고, 화자의 음성을 획득한다. 제1 단말기(100) 및 제2 단말기(200)는 피사체의 영상에서 특정 동작 상태나 동작의 변화를 추출하여 특정 제스처에 해당하는지를 검사하고, 음성을 인식하여 특정 음성이 인식되는지를 검사한다. 상기 제1 단말기(100) 및 제2 단말 기(200)는 동작 상태 및 동작 변화가 특정 제스처에 해당하거나, 음성 인식 결과가 특정 음성으로 판단되면, 그에 대응하는 아바타 실행 코드를 생성하고, 이를 상대측 단말기에 전송할 수 있다. 그리고 제1 단말기(100) 및 제2 단말기(200)는 상대측 단말기로부터 수신된 아바타 실행 코드를 현재 화면에 출력되고 있는 상대측 아바타에 적용하여 상대측 아바타의 표정이나 상태 및 동작 중 적어도 하나를 제어할 수 있다. 여기서, 상기 제1 단말기(100) 및 제2 단말기(200)는 각각 자신의 아바타를 자신의 표시부에 출력할 수 있으며, 상대측 단말기로 전송하는 아바타 실행 코드에 따라 자신의 아바타의 상태 및 동작 중 적어도 하나를 조절하고, 조절된 자신의 아바타를 표시부에 출력할 수 도 있다. 이러한 과정을 통하여 상기 제1 단말기(100) 및 제2 단말기(200)는 상대측 단말기 사용자의 특정 동작이나 특정 상태 및 특정 음성을 통하여 화자가 나타내고자 하는 바를 아바타의 변화를 통하여 정확하고 빠르게 인식할 수 있다.
이러한 본 실시 예에 따른 화상 통화 서비스 지원을 위하여 상기 제1 단말기(100) 및 제2 단말기(200)는 도 2에 도시된 바와 같은 구성을 포함할 수 있다. 여기서, 상기 제1 단말기(100) 및 제2 단말기(200)는 실질적으로 송신 기능과 수신 기능을 수행하기 위하여 동일한 구성을 포함할 수 있으므로, 이하 설명에서, 상기 제1 단말기(100)와 제2 단말기(200)는 단말기로서 명명하여 설명하기로 하며 도면 번호는 제1 단말기(100)의 도면 번호와 동일하게 부여하여 설명하기로 한다.
도 2는 본 발명의 실시 예에 따른 단말기의 구성을 개략적으로 나타낸 블록도이다.
상기 도 2를 참조하면, 본 발명의 단말기(100)는 통신부(110), 입력부(120), 오디오 처리부(130), 표시부(140), 저장부(150), 카메라(170) 및 제어부(160)의 구성을 포함할 수 있다.
상기 통신부(110)는 상기 제어부(160)의 제어에 따라 화상 통화 데이터를 송신 및 수신한다. 상기 통신부(110)는 송신되는 신호의 주파수를 상승변환 및 증폭하는 무선 주파수 송신부와, 수신되는 신호를 저잡음 증폭하고 주파수를 하강 변환하는 무선 주파수 수신부 등을 포함할 수 있다. 특히, 통신부(110)는 제어부(160) 제어에 따라 자신의 아바타를 상대측 단말기에 전송할 수 있도록 하는 통신 채널, 자신의 아바타 상태나 동작을 조절할 수 있는 아바타 실행 코드를 전송할 수 있도록 하는 통신 채널을 상대측 단말기와 형성할 수 있다. 여기서 상기 통신부(110)는 제어부(160) 제어에 따라 별도의 데이터 통신 채널을 생성하여 아바타와 관련된 데이터 즉, 아바타 데이터 및 아바타의 상태 및 동작을 조절하기 위한 아바타 실행 코드를 전송하거나, 이미 형성되어 있는 화상 통화 채널을 통하여 아바타 데이터 및 아바타 실행 코드를 전송할 수 있다. 또한 상기 통신부(110)는 현재 생성되어 있는 화상 통화 채널을 통하여 상기 아바타 데이터와 아바타 실행 코드를 전송하거나, 별도의 데이터 통신 채널이나 메시지 서비스 채널 예를 들면, SMS(Short Message Service) 또는 MMS(Multimedia Message Service) 채널을 일시적으로 생성하여 상기 아바타 데이터 및 아바타 실행 코드를 전송할 수 있다.
상기 입력부(120)는 숫자 또는 문자 정보를 입력받고 각종 기능들을 설정하기 위한 다수의 입력키 및 기능키들을 포함한다. 상기 기능키들은 특정 기능을 수 행하도록 설정된 방향키, 사이드 키 및 단축키 등을 포함할 수 있다. 또한 상기 입력부(120)는 사용자 설정 및 단말기들의 기능 제어와 관련하여 입력되는 키 신호를 생성하고, 이를 제어부(160)로 전달한다. 즉, 상기 입력부(120)는 상대측 단말기의 전화번호 입력을 위한 입력 신호, 입력된 전화번호를 기반으로 화상 통화 호 형성을 위한 입력 신호, 화상 통화 시 아바타 이용을 설정할 수 있는 모드 선택 신호, 화상 통화 종료를 위한 입력 신호 등을 사용자 요청에 따라 생성하여 상기 제어부(160)로 전달한다.
상기 오디오 처리부(130)는 상기 화상 통화 시 송수신 되는 오디오 데이터를 재생하기 위한 스피커(SPK)와, 화상 통화 시 사용자의 음성 또는 기타 오디오 신호를 수집하기 위한 마이크(MIC)를 포함한다. 여기서, 상기 오디오 처리부(130) 음성 통화를 위해 설치된 스피커와 별도로 화상 통화 시 수신된 오디오 데이터를 출력하기 위한 스피커를 더 포함할 수 있다. 그리고 상기 오디오 처리부(130)는 상기 마이크(MIC)가 수집한 오디오 신호를 음성 인식을 위하여 제어부(160)에 전달할 수 있다.
상기 표시부(140)는 LCD(Liquid Crystal Display), OLED 등이 적용될 수 있으며, LCD가 적용되는 경우 표시부(140)는 LCD 제어부, 데이터를 저장할 수 있는 메모리 및 LCD 표시소자 등을 구비할 수 있다. 상기 LCD 및 OLED 등의 표시 장치를 터치스크린 방식으로 구현하는 경우, 표시부(140) 화면은 입력부로 동작될 수 있다. 특히, 본 발명의 표시부(140)는 화상 통화 시, 카메라(170)를 통해 수집되어 영상 처리된 화상 데이터와, 상대측 단말기가 전송한 화상 데이터 중 적어도 하나 를 표시할 수 있다. 예를 들어, 화상 통화를 수행하는 제1 단말기(100)와 제2 단말기(200)를 가정하면, 제1 단말기(100)의 표시부(140)는 제2 단말기(200)가 전송한 화상 데이터를 표시하는 제1 화면 영역과, 제1 단말기(100)에 장착된 카메라(170)가 수집하여 영상 처리한 화상 데이터를 표시하는 제2 화면 영역을 포함한다. 이때, 상기 제1 화면 영역 및 제2 화면 영역은 동일 평면상에 화면을 분할하여 표시될 수 있으며, 제1 화면 영역 상에 제2 화면 영역이 오버랩 되어 표시될 수 도 있다. 한편, 상기 표시부(140)에 표시되는 제1 화면 영역은 제2 단말기(200)가 전송한 화상 데이터뿐만 아니라, 제2 단말기(200)에 대응하는 상대측 아바타를 함께 출력할 수 있다. 여기서, 기 설정된 아바타는 제1 단말기(100) 사용자가 선택한 아바타가 될 수 있다. 그리고 제2 화면 영역은 제1 단말기(100)의 카메라(170)가 수집한 화상 데이터뿐만 아니라, 제1 단말기(100)에 대응하는 자신의 아바타를 함께 출력할 수 있다. 상기 제2 단말기(200)도 제1 단말기(100)와 유사하게 자신의 화상 데이터와 자신의 아바타 및 상대측 화상 데이터와 상대측 아바타를 출력하는 제1 화면 영역 및 제2 화면 영역 중 적어도 하나를 출력할 수 있다. 이러한 표시부(140) 화면 인터페이스에 대하여 도 4를 참조하여 보다 상세히 설명하기로 한다.
상기 저장부(150)는 본 발명의 실시 예에 따른 기능 동작에 필요한 응용 프로그램을 비롯하여, 화상 통화에 필요한 응용 프로그램, 카메라(170) 동작을 위한 응용 프로그램, 아바타 데이터, 아바타 조절을 위한 아바타 실행 코드들을 저장한다. 그리고 상기 저장부(150)는 화상 통화 시 송수신 되는 화상 통화 데이터에 대하여 지정된 크기만큼 버퍼링하는 기능을 담당할 수 있다. 이러한 상기 저장 부(150)는 크게 프로그램 영역과 데이터 영역을 포함할 수 있다.
상기 프로그램 영역은 단말기(100)를 부팅시키는 운영체제(OS, Operating System), 화상 통화를 위한 카메라(170) 조작 및 오디오 수집을 위한 응용 프로그램, 단말기(100)의 기타 옵션(options) 기능 예컨대, 소리 재생 기능, 이미지 또는 동영상 재생 기능 등에 필요한 응용 프로그램 등을 저장한다. 상기 단말기(100)는 사용자 요청에 상응하여 상기한 각 기능을 활성화하는 경우, 상기 제어부(160)의 제어 하에 해당 응용 프로그램들을 이용하여 각 기능을 제공하게 된다. 특히, 본 발명의 프로그램 영역은 아바타 지원을 위하여 아바타 서비스 모듈, 제스처 인식 모듈, 음성 인식 모듈을 포함할 수 있다. 상기 아바타 서비스 모듈, 제스처 인식 모듈, 음성 인식 모듈은 본 발명의 아바타 기반 화상 통화 서비스 모드가 설정되어 있으며, 화상 통화가 실행되는 경우, 제어부(160)에 로드되어 활성화될 수 있는 응용 프로그램이 될 수 있다. 상기 제스처 인식 모듈은 카메라(170)가 수집한 피사체의 동작 상태 또는 동작 변화로부터 특정 제스처를 인식하는 루틴, 인식된 특정 제스처에 대응하는 아바타 실행 코드를 생성하는 루틴을 포함할 수 있다. 상기 음성 인식 모듈은 오디오 처리부(130)의 마이크(MIC)가 수집한 오디오 신호를 음성 인식하는 루틴, 음성 인식된 단어나 문장 등이 특정 음성에 대응하는지 판단하는 루틴, 특정 음성에 대응하는 경우, 그에 매핑된 아바타 실행 코드를 생성하는 루틴을 포함할 수 있다. 상기 아바타 서비스 모듈은 상기 제스처 인식 모듈 및 상기 음성 인식 모듈로부터 아바타 실행 코드를 수신하는 경우, 수신된 아바타 실행 코드를 자신의 아바타에 적용하는 루틴 및 수신된 아바타 실행 코드를 상대측 단말기에 전송 하는 루틴을 포함할 수 있다.
상기 데이터 영역은 단말기(100)의 사용에 따라 발생하는 데이터가 저장되는 영역으로서, 화상 통화 시, 사용자가 녹화한 데이터, 카메라(170)가 수집한 영상 중 사용자가 저장하고자 하는 데이터, 상기 단말기(100)가 제공하는 다양한 옵션 기능과 관련한 사용자 데이터들 예컨대, 동영상과, 폰 북 데이터와, 오디오 데이터 및 해당 컨텐츠 또는 사용자 데이터들에 대응하는 정보들 등을 저장할 수 있다. 특히, 본 발명의 데이터 영역은 일정 형태의 동작과 상태를 이미지로 출력할 수 있는 아바타 구현을 위한 다양한 아바타 데이터를 저장할 수 있다. 이를 이용하여 단말기(100) 사용자는 폰 북 데이터 저장 시에 특정 전화번호에 대응하는 아바타를 설정할 수 있다. 상기 특정 전화번호에 링크된 상대측 아바타가 존재하며, 해당 전화번호를 가진 단말기와 본 발명의 화상 통화 서비스를 수행하는 경우, 상기 상대측 아바타는 제어부(160)에 의하여 로드되어 표시부(140)에 출력될 수 있다. 이때, 자신의 아바타도 사용자 선택에 따라 표시부(140)에 출력될 수 있다. 상기 아바타는 아바타 실행 코드에 따라 다양한 상태 또는 다양한 동작을 포함하는 애니메이션을 수행할 수 있다. 예를 들면, 상기 아바타는 특정 아바타 실행 코드에 따라 다른 형태나 모양으로 변경될 수 도 있으며, 특정 이미지에서 다른 이미지가 추가되는 형태가 될 수 도 있다. 이러한 아바타의 연출 형태를 위한 아바타 실행 코드는 아바타의 설계자 또는 사용자의 설정 조작 등을 통하여 삭제되거나 추가될 수 있다. 여기서 상기 아바타의 변경 형태는 각 아바타의 형태에 따라 그 모양이 달라질 수 있으며, 이 또한 아바타 설계자 또는 사용자의 설정 조작에 의하여 변경될 수 있다. 한편, 아바타 실행 코드는 상대측 단말기에 전송되어 상대측 단말기가 출력하고 있는 아바타의 상태 및 동작을 조절하여야 하기 때문에, 아바타 실행 코드 전송을 위하여 단말기들 상호 간에 미리 규약 되어지는 것이 바람직하다. 상기 데이터 영역은 상대측 단말기로부터 수신한 제1 아바타 실행 코드 및 자신의 아바타 조절을 위한 제2 아바타 실행 코드를 임시 저장할 수 있으며, 새로운 제1 아바타 실행 코드를 상대측 단말기로부터 수신하기 전까지 이전 제1 아바타 실행 코드의 저장을 유지하거나, 사용자 설정에 따라 반영구적으로 저장할 수 있다.
그리고 상기 데이터 영역은 제스처 인식을 위하여 제스처 인식 DB(Data Base)를 포함할 수 있으며, 음성 인식을 위하여 음성 인식 DB를 포함할 수 있다. 상기 제스처 인식 DB는 피사체의 특정 동작 상태나 동작 변화를 특정 제스처로 인식할 수 있도록 기준을 제공하는 데이터베이스이다. 예를 들어, 피사체가 사람인 경우, 상기 제스처 인식 DB는 사람이 취할 수 있는 정지 상태 또는 동작 상태로 표현할 수 있는 다양한 제스처에 대한 기준 정보들을 포함할 수 있다. 예를 들어, 상기 제스처 인식 DB가 “손 흔드는 동작”에 관한 제스처 기준으로서 손바닥, 일정 각도, 좌우 방향, 일정 횟수에 대한 정보를 가지고 있다고 가정하기로 한다. 그러면, 단말기(100)는 카메라(170)가 수집한 영상에서 피사체가 손바닥을 보이면서, 일정 각도 내에서 좌우 방향으로 일정 횟수 이상 이동시키는 경우, 상기 제스처 인식 DB를 기반으로 상술한 영상을 “손을 흔드는 동작”의 제스처로 인식할 수 있다. 한편, 상기 음성 인식 DB는 오디오 신호로부터 전달되는 신호가 어떠한 음성에 해당하는지를 판별하는 기준에 관한 제1 정보와, 음성 인식된 정보가 기 설정된 특 정 음성에 해당하는지 비교하기 위한 기준에 관한 제2 정보를 포함할 수 있다. 제1 정보는 마이크(MIC)가 수집한 신호로부터 음소, 음절, 단어, 어절, 문장 등을 인식할 수 있도록 제공하는 정보이며, 상기 제2 정보는 인식된 정보가 아바타 실행 코드로 변환하기 위하여 기 설정된 특정 음절, 단어, 어절 또는 문장 등에 해당하는지 비교하기 위한 정보이다.
상기 카메라(170)는 화상 통화 및 제스처 인식을 위한 영상을 수집한다. 이러한 카메라(170)는 렌즈를 통해 촬상되는 영상을 촬영하며, 촬영된 광 신호를 전기적 신호로 변환하는 카메라 센서(도시되지 않음)와, 카메라 센서로부터 촬영되는 아날로그 영상신호를 디지털 데이터로 변환하는 신호처리부(도시되지 않음)를 구비한다. 여기서 카메라 센서는 CCD(Charge Coupled Device) 센서가 적용될 수 있고, 신호처리부는 DSP(Digital Signal Processor)로 구현될 수 있으나, 이에 한정되는 것은 아니다. 이러한 상기 카메라(170)는 카메라 기능 이용을 위한 입력 신호가 수신되는 경우에 활성화될 수 있으며, 화상 통화 기능사용 시 활성화될 수 있다. 상기 카메라(170)는 수집된 영상을 상대측 단말기에 전송하거나 제스처 인식을 위하여 제어부(160)에 전달한다.
상기 제어부(160)는 본 발명의 아바타 기반 화상 통화 서비스 지원을 위하여 단말기(100)의 각 구성을 초기화하고, 필요한 신호 제어를 수행할 수 있다. 특히 제어부(160)는 화상 통화 중 상대측이 취하는 특정 제스처 및 음성 인식을 기반으로 아바타 실행 코드의 송수신 및 아바타 출력을 제어한다.
제어부(160)는 아바타 설정 모드에서 상대측에 대응하는 아바타와, 설정된 아바타를 동작시키는 아바타 실행 코드를 설정할 수 있다. 아바타 및 아바타 실행 코드는 일반, 날씨, 스포츠(골프, 농구, 야구 등) 등 사용자의 관심분야나 취미 등에 따라 다양하게 분류되어 제공될 수 있다. 사용자는 아바타 설정 모드에서 자신 또는 상대측이 좋아하거나 관심 있는 분야의 아바타 또는 아바타 실행 코드를 선택하여 설정할 수 있다.
예컨대 상대측의 특정 제스처 및 음성에 따라 매핑된 아바타 실행 코드는 아바타를 표1과 같이 동작시킬 수 있다. 이때 감정상태는 기쁨, 슬픔, 놀람으로 한정하여 설명하였지만 이에 한정되는 것은 아니다. 또한 각각의 감정상태에 따른 아바타의 동작 또한 이에 한정되는 것은 아니다.
기쁨 슬픔 놀람
일반 아바타가 웃음 아바타가 울음을
터트림
아바타가 눈을
크게 뜸
날씨 아바타가 화창한
날씨에 산책함
아바타가 비를 맞음 아바타 머리 위로
번개가 침
골프 아바타가 퍼팅한 공이
홀컵에 들어가 좋아함
아바타의 티샷이 물에
빠져 울음을 터트림
티샷이 홀인원되어
아바타가 깜짝 놀람
농구 아바타가 삼점 슛에
성공함
아바타가 공을
빼앗김
아바타의 슛이
블락슛을 당함
한편 별도로 아바타 실행 코드를 설정하지 않는 경우, 제어부(160)는 디폴트로 설정된 아바타 실행 코드를 사용할 수 있다. 예컨대 일반 항목이 디폴트로 설정될 수 있다.
상기 제어부(160)는 아바타 기반 화상 통화 서비스 요청 시, 통신부(110)를 통하여 상대측 단말기와 화상 통화 연결을 위한 협상 및 채널 확보를 수행한다. 화상 통화 요청이 있거나 또는 화상 통화 채널이 형성되면, 상기 제어부(160)는 카메라(170)를 활성화하여 피사체에 대한 영상을 수집하고, 수집된 영상을 표시부(140)에 출력하도록 제어하는 한편, 화상 통화 규격에 맞도록 처리할 수 있다. 이때, 상기 제어부(160)는 피사체의 제스처 및 음성 중 적어도 하나로부터 아바타의 상태 및 동작 중 적어도 하나를 변경할 수 있도록 하는 아바타 실행 코드 기반으로 아바타를 출력할 수 있는 기능을 제공한다.
이를 위하여 상기 제어부(160)는 도 3에 도시된 바와 같이 제스처 인식부(165), 음성 인식부(167), 화상 통화 모듈(163) 및 아바타 서비스 모듈(161)을 포함할 수 있다.
상기 제스처 인식부(165)는 상기 저장부(150)에 저장된 제스처 인식 DB를 기반으로 카메라(170)가 수집한 영상의 특정 동작 상태나 특정 동작 변화를 제스처로 인식하고, 인식된 제스처에 대응하는 아바타 실행 코드를 생성하고, 이를 아바타 서비스 모듈(161)에 전달하는 구성이다. 이를 위하여 상기 제스처 인식부(165)는 상기 카메라(170)가 수집한 영상에 대하여 특징점을 추출하고, 특징점의 배치 상태나 배치 상태 변화로부터 피사체가 어떠한 동작을 취하는지를 판단하고, 이를 제스처 인식 DB에 저장된 정보와 비교할 수 있다. 여기서, 상기 제스처 인식 DB는 앞서 설명한 바와 같이, 피사체의 특정 동작 상태 및 변화가 특정 제스처에 해당하는지의 기준을 제공할 뿐만 아니라, 특정 제스처가 어떠한 아바타 실행 코드에 해당하는지에 대한 정보도 저장할 수 있다. 제스처 인식부(165)가 수집한 영상에 대한 특징점을 추출을 통하여 제스처를 인식하기 위해서, 예컨대 PCA(principal component analysis)를 통해 adaboost를 이용할 수 있다. 여기서 adaboost는 객체의 형태 및 특징점을 추출하기 위한 학습 알고리듬으로, Yoav Freund and Robert E. Schapire 에 의한 "A decision-theoretic generalization of on-line learning and an application to boosting", In Computational Learning Theory: Eurocolt '95, pp. 23-37, Springer-Verlag, 1995에 자세히 기재되어 있다.
한편, 상기 제스처 인식부(165)는 카메라(170)가 수집한 영상에 대한 제스처 평가에 대하여 특징점 확인이 아닌 오브젝트 변화 확인을 이용할 수 도 있다. 이를 보다 상세히 설명하면, 화상 통화 모듈(163)은 다양한 이미지 처리 방식을 이용할 수 있는데, 예를 들어, 상기 화상 통화 모듈(163)은 MPEG4 이미지 처리 방식을 이용할 수 있다. 상기 MPEG4는 이미지를 계층적인 오브젝트 단위로 구분할 수 있는데, 예를 들면, 화상 통화 시 수집된 이미지는 크게 배경 오브젝트와 타겟 오브젝트로 구분될 수 있다. 여기서, 상기 타겟 오브젝트가 사람인 경우, 타겟 오브젝트는 다시, 머리 오브젝트, 팔 오브젝트, 몸통 오브젝트 등으로 구분될 수 있으며, 상기 팔 오브젝트는 다시 손가락 오브젝트, 손바닥 오브젝트, 손등 오브젝트, 팔목 오브젝트 등으로 구분될 수 있다. 그리고 상기 손가락 오브젝트는 다시 손가락 마디마디가 각각의 오브젝트로 구분될 수 있다. 상기 화상 통화 모듈(163)이 이미지의 계층적인 방식으로 이미지를 처리하는 경우, 상기 제스처 인식부(165)는 전체 이미지에 대한 제스처 평가를 수행하지 않고, 제스처의 가장 많은 부분을 차지할 수 있는 손 오브젝트만을 추적하며, 손의 변화를 통하여 특정 제스처가 취해지는지를 확인할 수 있다. 이를 통하여 상기 제스처 인식부(165)는 제스처의 인식에 대한 처리 속도를 개선할 수 있을 것이다. 상기 제스처 인식부(165)는 제스처가 인식되면, 그에 대응하는 아바타 실행 코드를 생성하고, 이를 아바타 서비스 모듈(161)에 전달할 수 있다.
상기 음성 인식부(167)는 오디오 처리부(130)로부터 전달되는 오디오 신호를 기 설정된 특정 음성 인식 모델을 기반으로 음성 인식을 수행하게 된다. 예를 들면, 상기 음성 인식부(167)는 음성 인식 모델 생성을 위하여 마이크(MIC)가 수신한 음성 신호를 16KHz로 샘플링 하고, 16bit로 양자화하여 저장할 수 있다. 그리고 상기 양자화된 음성 데이터는 일정 값의 전달함수로 사전 강조하고 25ms의 해밍 윈도우를 곱하여 10ms씩 이동하면서 분석할 수 있다. 이를 통해 음성 특징 파라미터를 결정할 수 있는데, 예를 들면 12차 LPC-MEL spectrum계수와 정규화 된 대수 에너지에 1차 및 2차의 차분 성분을 포함하여 총 39차의 특징 파라미터를 결정할 수 있다. 이러한 특징 파라미터는 본원 발명의 음성 인식 모델에 적용될 수 있는데, 상기 음성 인식 모델은 모델의 각 상태위치마다 음소결정트리를 생성하고, 학습 음성 데이터를 이용하여 SSS(Successive State Splitting : 이하 SSS)에 의해 문맥의존 음향모델의 상태열을 학습하는 방법을 적용할 수 있다. 이 방법은 상태분할을 수행하는데 속도가 빠르기 때문에 SSS에 의해 분할한 상태를 선택하여 분할하는 동시에 전체 분할 가능한 상태에 대해 상태분할을 수행하고 우도가 최대가 되는 상태를 선택할 수 있다. 그리고 상기 음성 인식부(167)에서 적용되는 음향 모델은 은닉 마르코프 망이 적용될 수 도 있다. 또한, 상기 음성 인식부(167)는 다양한 알고리즘을 기반으로 음성파를 주파수 분석하여 모음을 특징짓는 음역 또는 그것과 등가인 특징을 추출해서 분리하는 방법을 적용할 수 도 있다. 상기 음성 인식부(167)는 상술한 음성 인식 알고리즘뿐만 아니라, 다양한 음성 인식 알고리즘을 적용할 수 있다. 이러한 다양한 알고리즘을 기반으로 음성을 인식하면, 음성 인식부(167)는 인식된 음성이 기 설정된 특정 음성에 해당하는지를 판단할 수 있다. 여기서, 상기 특정 음성은 특정 아바타 실행 코드에 대응하는 음성으로서, 아바타 실행 코드를 설계하는 설계자에 의하여 지정되거나 혹은 아바타의 동작이나 상태 변화를 설계하는 설계자에 의하여 지정될 수 있다. 상기 음성 인식부(167)는 음성 인식 DB를 이용하여 현재 인식된 음성이 특정 음성에 해당하는 경우 그에 대응하는 아바타 실행 코드를 생성할 수 있다. 그리고 상기 음성 인식부(167)는 수집된 특정 음성에 대한 아바타 실행 코드를 생성하면, 이를 아바타 서비스 모듈(161)에 전달할 수 있다.
상기 아바타 서비스 모듈(161)은 화상 통화 채널 형성 시, 상대측 단말기에 대응하는 상대측 아바타를 표시부(140)에 출력하도록 제어하며, 사용자 설정에 따라 자신의 단말기에 대응하는 자신의 아바타를 표시부(140) 일측에 출력하도록 제어한다. 그리고 상기 제스처 인식부(165) 및 음성 인식부(167) 중 적어도 하나로부터 수신된 아바타 실행 코드를 상대측 단말기에 전송하거나 자신의 아바타에 적용하도록 제어한다. 즉, 상기 아바타 서비스 모듈(161)은 상기 아바타 실행 코드를 화상 통화 모듈(163)에 전달하여 상대측 단말기에 전송하거나, 제어부(160) 제어에 따라 메시지 서비스를 이용하여 상대측 단말기에 전송할 수 있다. 한편, 상기 아바타 서비스 모듈(161)은 화상 통화 모듈(163)을 통하여 또는 메시지 서비스를 통하여 상대측 단말기로부터 상대측 아바타 조절을 위한 제1 아바타 실행 코드를 수신할 수 있다. 상기 아바타 서비스 모듈(161)은 수신된 제1 아바타 실행 코드를 기반으로 표시부(140)에 출력되고 있는 상대측 아바타의 상태나 동작을 변경하도록 제어할 수 있다. 그리고 상기 아바타 서비스 모듈(161)은 제스처 인식부(165) 및 음성 인식부(167) 중 적어도 하나로부터 수신된 제2 아바타 실행 코드를 이용하여 자신의 아바타 상태 및 동작 중 적어도 하나를 변경하도록 제어할 수 있다. 여기서, 상기 아바타 서비스 모듈(161)은 사용자의 선택에 따라 자신의 아바타를 출력하지 않았거나 또는 자신의 아바타 조절 기능을 수행하지 않도록 설정한 경우, 자신의 아바타 조절 기능을 수행하지 않고, 상대측 아바타 조절 기능만을 수행할 수 도 있다.
한편, 상기 아바타 서비스 모듈(161)은 화상 통화 채널이 형성되었지만, 상대측 단말기에 대응하는 아바타가 없는 경우, 상대측 아바타 선택을 사용자에게 요청할 수 있다. 즉, 상기 아바타 서비스 모듈(161)은 상대측 아바타가 존재하지 않음을 알리는 팝업창을 표시부(140)에 출력하고, 상대측 아바타 선택을 위한 메뉴를 활성화할 수 있다. 이 후, 상기 아바타 서비스 모듈(161)은 사용자가 선택한 상대측 아바타를 표시부(140)에 출력하도록 하는 한편, 현재 화상 통화 채널이 형성된 상대측 단말기의 전화번호에 링크시켜 폰 북 데이터를 업데이트할 수 있다. 또한, 상기 아바타 서비스 모듈(161)은 상대측 아바타가 없는 경우 상대측 단말기에 아바타 데이터를 요청하는 메시지를 전송할 수 있다. 그리고 상기 아바타 서비스 모듈(161)은 상대측 단말기로부터 아바타 데이터를 수신하면, 이를 저장부에 저장하는 한편, 상대측 아바타를 표시부(140) 일측에 출력하도록 제어할 수 있다. 여기서 상기 아바타 서비스 모듈(161)은 상대측 단말기로부터 아바타 데이터를 수신하면, 상대측 전화번호에 아바타 데이터를 링크시켜 저장함으로써 폰 북 데이터를 갱신하도록 제어할 수 있다. 또한, 상기 아바타 서비스 모듈(161)은 사용자가 지정한 상대측 아바타가 존재하지만, 상대측 단말기로부터 아바타 데이터가 수신되는 경우, 상대측 단말기로부터 수신된 아바타 데이터를 기반으로 구현된 상대측 아바타를 표시부(140)에 출력하도록 제어할 수 있다. 그리고 상기 아바타 서비스 모듈(161)은 이전에 상대측 단말기 전화번호에 저장된 상대측 아바타를 새롭게 수신된 아바타 데이터로 갱신하도록 제어할 수 있다.
상기 아바타 서비스 모듈(161)은 자신의 아바타가 존재하지 않는 경우에도, 전술한 바와 유사하게, 자신의 아바타가 존재하지 않음을 나타내는 팝업창을 선택적으로 출력하고, 단말기 사용자가 자신의 아바타를 선택할 수 있는 메뉴 등을 출력하도록 제어할 수 있다. 그리고 상기 아바타 서비스 모듈(161)은 단말기 사용자가 자신의 아바타를 변경한 경우, 아바타 변경에 대한 데이터를 생성하여 상대측 단말기에 전송할 수 있다.
상기 화상 통화 모듈(163)은 카메라(170)가 수집한 화상 데이터와 마이크가 수집한 오디오 데이터를 화상 통화 규격에 맞도록 변환한 후, 통신부(110)를 통하여 상대측 단말기에 전송하거나, 상대측 단말기가 전송한 신호를 수신하여 화상 데이터와 오디오 데이터를 추출한 후, 이를 표시부(140)와 스피커를 통하여 출력하도록 제어하는 구성이다. 이러한 화상 통화 모듈(163)은 카메라(170)가 수집한 영상을 영상 처리하기 위한 영상 코덱 예를 들면, H.263, JPEG, Wavelet, mpeg2, mpeg4 및 H.264 중에 하나를 포함한다. 화상 통화 모듈(163)은 상기 화상 데이터 생성을 위해 전술한 영상 코덱을 포함하는 영상 코덱, 예컨대 H.324M을 포함할 수 있다. 화상 통화 모듈(163)은 그 외 다양한 영상 코덱을 사용하여 화상 통화 데이터를 생성할 수 있다.
예컨대 화상 통화 데이터를 H,263과 H.324M을 이용하여 생성한 후 전송하는 과정을 설명하면 다음과 같다.
상기 H.263은 카메라(170)에서 출력되는 영상신호를 프레임 단위로 처리하여 화상 데이터로 변환하고, 상기 화상 데이터를 표시부(140)의 표시 특성 및 크기에 알맞게 변형하여 출력한다. 이때, 상기 H.263은 화상 데이터를 압축할 수 있다. 즉, 상기 H.263은 표시부(140)에 표시되는 화상 데이터를 기 설정된 방식으로 압축하거나 압축된 화상 데이터를 원래의 화상 데이터로 복원하는 기능을 수행한다. 상기 H.263은 JPEG, Wavelet, mpeg2, mpeg4 및 H.264 등으로 대체될 수 있다.
상기 H.324M은 상기 H.263이 생성한 화상 데이터를 기타 데이터들과 함께 먹싱(Muxing)하여 화상 통화 데이터를 생성하고, 상기 화상 통화 데이터를 상기 통신부(110)에 전달한다. 이를 위하여, 상기 H.324M은 상기 오디오 처리부(130)가 수집한 오디오 데이터를 인코딩하기 위한 오디오 코덱 예를 들면, AMR을 포함할 수 있다. 상기 H.324M은 화상 통화 시, 상기 화상 데이터와 상기 오디오 데이터의 싱크 및 제어를 위한 제어 신호를 생성하는 H.245를 포함할 수 있다. 상기 H.324M은 상기 H.263으로부터의 화상 데이터, 상기 AMR로부터의 오디오 데이터, 상기 H.245로부터의 제어 신호를 수신하여 상기 통신부(110)에 전달하는 H.223을 포함할 수 있다. 즉, 상기 H.223은 상기 화상 데이터, 상기 오디오 데이터 및 상기 제어 신호를 먹싱함으로써 화상 통화 데이터를 생성하고, 상기 화상 통화 데이터를 상기 통신부(110)에 전달한다.
특히, 본 발명의 화상 통화 모듈(163)은 아바타 서비스 모듈(161)이 전송하는 아바타 데이터를 영상 코덱으로 생성한 화상 데이터와 함께 통합하고, 이를 통신부(110)를 통하여 상대측 단말기에 전송할 수 있으며, 수신된 신호로부터 화상 데이터와 아바타 데이터를 각각 분리하여 추출한 이후, 두 개의 데이터를 구분하여 표시부(140)에 출력하도록 제어할 수 있다. 또한, 상기 화상 통화 모듈(163)은 화상 데이터, 오디오 데이터 및 제어 신호를 디먹싱하는 과정에서, 상대측 단말기가 전송한 제1 아바타 실행 코드를 추출하고, 추출된 제1 아바타 실행 코드를 아바타 서비스 모듈(161)에 전달할 수 있다. 그리고 상기 화상 통화 모듈(163)은 화상 데이터, 오디오 데이터 및 제어 신호를 먹싱하는 과정에서 아바타 서비스 모듈(161)이 전달하는 제2 아바타 실행 코드를 함께 먹싱한 신호를 생성하고, 이 신호를 상대측 단말기에 전송하도록 제어할 수 있다.
한편, 상기 화상 통화 모듈(163)은 아바타 서비스 모듈(161)로부터 아바타 데이터와 아바타 실행 코드를 수신하고, 이를 화상 통화에 필요한 신호에 먹싱한 후, 전송하는 것을 예로 하여 설명하였지만, 본 발명이 이에 한정되는 것은 아니다. 즉, 본 발명의 제어부(160)는 화상 통화 모듈(163)과 독립적으로 아바타 서비스 모듈(161)을 운용하여 아바타 데이터와 아바타 실행 코드를 통신부(110)를 통하여 상대측 단말기에 전송할 수 있으며, 또한 수신된 신호를 아바타 서비스 모듈(161)에서 처리하여 표시부에 출력하도록 제어할 수 있다. 이를 위하여 상기 제어부(160)는 아바타 데이터 전송 및 아바타 실행 코드 전송을 위한 통신 채널 예를 들면 데이터 통신 채널 또는 메시지 서비스 채널을 화상 통화 모듈(163)이 생성하는 화상 통화 채널과 독립적으로 생성할 수 있다.
그리고 상기 화상 통화 모듈(163)은 화상 통화를 위하여 필요한 데이터 인코딩 및 디코딩을 위하여 MPEG4를 이용할 수 있으며, 이 경우, 상기 화상 통화 모듈(163)은 이미지와 관련된 이미지 오브젝트, 오디오와 관련된 오디오 오브젝트 등을 송수신하도록 제어하여 화상 통화에 필요한 데이터 전송을 지원할 수 있다. 이때, 상기 화상 통화 모듈(163)은 일부 오브젝트에 대하여 제스처 인식부(165)에 제공할 수 있으며, 제스처 인식부(165)는 앞서 설명한 바와 같이 화상 통화 모듈(163)이 인식한 오브젝트 변환을 통하여 특정 제스처 인식을 수행할 수 있다.
이상에서 설명한 바와 같이, 본 발명의 실시 예에 따른 단말기는 카메라(170)가 수집하는 피사체의 제스처 인식 및 마이크가 수집한 오디오 인식을 통하여 아바타의 상태 및 동작 중 적어도 하나를 변화시킬 수 있도록 하는 아바타 실행 코드를 생성할 수 있고, 이를 기반으로 화상 통화 시 아바타의 상태 및 동작을 변경하여 사용자가 나타내고자 하는 표정이나 기분 등을 보다 정확하게 또는 보다 희화적으로 표현할 수 있다.
한편 상기 단말기는 제스처 인식부(165)와 음성 인식부(167)를 사용자의 선택에 따라 선택적으로 활성화하고 이를 기반으로 아바타 기반 화상 통화 서비스를 지원할 수 있다. 즉, 상기 단말기는 사용자가 제스처 인식을 기준으로 아바타 운용을 수행하기 위한 설정을 한 경우, 음성 인식 기능을 비활성화할 수 있으며, 반대로 음성 인식을 기준으로 아바타 운용을 수행하기 위한 설정을 사용자가 한 경우, 제스처 인식 기능을 비활성화하도록 제어할 수 있다. 그리고 상술한 바와 같이 상기 단말기는 제스처 인식 및 음성 인식을 모두 활성화할 수 있다. 이 과정에서 상기 아바타 실행 코드가 동시 또는 거의 동일한 시간에 형성되어 상대측 단말기로 전송될 수 있으며, 이를 수신한 상대측 단말기는 두개의 아바타 실행 코드를 아바타에 동시 적용하여 출력하되, 동시 적용이 불가능한 경우, 일정 시간 주기로 각각의 아바타 실행 코드가 적용된 아바타를 출력하도록 제어할 수 있다.
도 4는 본 발명의 실시 예에 따른 단말기의 화상 통화 운용을 위한 화면 인터페이스의 일예를 나타낸 도면이다.
상기 도 4를 참조하면, 단말기의 표시부(140)는 401 화면에서와 같이 크게 상대측 단말기로부터 수신된 데이터를 출력하는 제1 화면 영역(141)과 사용자의 카메라가 수집한 영상을 출력하는 제2 화면 영역(143)을 포함할 수 있다.
상기 제1 화면 영역(141)은 상대측 단말기의 카메라가 수집한 영상을 출력하는 상대측 화상 데이터 출력 영역(141a)과 상대측 단말기에 대응하는 상대측 아바타 출력 영역(141b)을 포함한다. 여기서, 상기 상대측 아바타 출력 영역(141b)은 상대측 화상 데이터 출력 영역(141a)과 구분되도록 출력될 수 있다. 즉, 상기 제1 화면 영역(141)은 화면을 분할한 후, 분할된 영역에 상대측 아바타 출력 영역(141b)과 상대측 화상 데이터 출력 영역(141a)을 할당할 수 있다. 또한, 상기 제1 화면 영역(141)은 별도로 화면을 분할하지 않고, 상대측 화상 데이터 출력 영역(141a)에 상대측 아바타를 오버 레이 시켜 출력할 수 도 있다.
상기 제2 화면 영역(143)은 카메라가 수집한 자신의 화상 데이터 출력 영역(143a)과 자신의 아바타 출력 영역(143b)을 포함한다. 여기서, 상기 자신의 아바타 출력 영역(143b)은 표시부(140)의 크기 제한 설정 또는 사용자 선택에 따라 제거될 수 있다. 상기 제2 화면 영역(143)은 제1 화면 영역(141)과 유사하게 화면을 분할한 뒤, 자신의 화상 데이터 출력 영역(143a)과 자신의 아바타 출력 영역(143b)을 구분되게 배치할 수 있다. 그리고 제2 화면 영역(143)은 제1 화면 영역(141) 상에 사용자 아바타가 오버 레이 되도록 출력할 수 도 있다.
한편, 단말기는 상대측 단말기로부터 상대측 아바타의 상태 및 동작 중 적어도 하나를 변경할 수 있는 아바타 실행 코드를 수신한 경우, 402 화면에서와 같이, 상대측 아바타의 상태 및 동작을 변경하여 출력할 수 있다. 예를 들면, 상대측 단말기로부터 “손을 흔드는 동작”에 대응하는 아바타 실행 코드를 화상 통화 채널, 메시지 서비스 채널, 음성 통화 채널 등 특정 채널을 통하여 수신하면, 단말기는 상기 “손을 흔드는 동작”에 대응하는 아바타 실행 코드를 기반으로 아바타의 상태 및 동작을 조작하도록 제어한다. 여기서, 상기 아바타의 상태 및 동작에 대응하는 이미지 또는 애니메이션이 “손을 흔드는 동작”에 대응하도록 변경되는 것은 설계자의 의도나 기호 및 사용자의 설정 등에 따라 조절될 수 있을 것이다. 한편, 단말기는 화상 통화 모듈을 기반으로 상대측 화상 데이터를 지속적으로 수신하기 때문에, 상기 상대측 화상 데이터 출력 영역(141a)에는 상대측의 화상 데이터가 출력된다. 이때, 상대측 단말기 사용자가 손을 흔드는 동작을 취할 경우, 그에 대응하는 실제 영상이 상기 상대측 화상 데이터 출력 영역에 출력될 수 있다.
또한, 도시되지는 않았으나, 단말기 사용자는 특정 음성을 발생시킬 수 있으며, 단말기가 상기 특정 음성을 음성 인식하고, 이를 기반으로 특정 아바타 실행 코드를 생성하면, 상기 단말기 및 상대측 단말기는 상기 특정 음성 인식을 기반으로 생성된 아바타 실행 코드에 따라 변화되는 아바타를 각각 출력할 수 있다.
이상에서는 본 발명의 실시 예에 따른 화상 통화 운용을 위한 시스템과, 시스템을 구성하는 단말기 및 화면 인터페이스에 대하여 살펴보았다. 이하에서는 본 발명의 아바타 기반의 화상 통화 운용 방법을 도면을 참조하여 보다 상세히 설명하기로 한다.
도 5는 본 발명의 실시 예에 따른 화상 통화 방법 중 송신측 단말기의 동작을 설명하기 위한 순서도이다. 한편 설명의 편의상 송신측 단말기를 제2 단말기(200)라 하고, 수신측 단말기를 제1 단말기(100)로 하여 설명하면 다음과 같다.
상기 도 5를 참조하면, 본 발명의 실시 예에 따른 화상 통화 운용 방법에서 제2 단말기(200)는 먼저, 전원이 공급되면 제2 단말기(200)의 각 구성을 초기화하고, 기 설정된 대기화면을 S101 단계에서 출력할 수 있다.
이후 상기 제2 단말기(200)는 사용자의 화상 통화 연결 요청을 위한 입력 신호를 입력부(120)로부터 수신하면, S103 단계에서 화상 통화 연결을 시도한다. 이를 보다 상세히 설명하면, 상기 제2 단말기(200) 사용자는 화상 통화 연결을 위하여 화상 통화가 가능한 제1 단말기(100)의 전화번호를 입력하고, 화상 통화 연결을 지시하는 입력 신호를 입력부(120)를 이용하여 생성할 수 있다. 그러면, 상기 제2 단말기(200)는 입력된 전화번호에 대응하는 제1 단말기(100)와 협상을 통하여 화상 통화를 위한 환경을 결정한다.
한편 S103 단계를 수행하기 전에, 제1 및 제2 단말기(100,200)는 입력부(120)를 통한 사용자의 선택 신호에 따라 아바타 설정 모드에서 상대측에 대응하는 아바타와, 설정된 아바타를 동작시키는 아바타 실행 코드를 설정할 수 있다. 사용자는 아바타 설정 모드에서 자신 또는 상대측이 좋아하거나 관심 있는 분야의 아바타 또는 아바타 실행 코드를 선택하여 설정할 수 있다.
이때, 상기 제2 단말기(200)는 S105 단계에서 상기 화상 통화가 아바타 모드를 기반으로 진행되는 것인지 여부를 확인할 수 있다. 이를 위하여 상기 제2 단말기(200)는 일반 화상 통화 모드 및 아바타 기반 화상 통화 모드를 선택할 수 있는 메뉴를 제공할 수 있다. 또한, 사용자가 S103 단계에서 화상 통화 연결을 요청하는 경우, 제2 단말기(200)는 아바타 모드로 진행할 것인지를 묻는 팝업창을 출력할 수 있다. 아바타 모드로 진행하는 경우, 상기 제2 단말기(200)는 화상 통화 연결 과정에서 제1 단말기(100)에게 아바타 기반 화상 통화 연결을 요청하는 메시지임을 확인할 수 있는 정보를 전송할 수 있다.
한편, 상기 제2 단말기(200)는 아바타 모드가 아닌 경우, S107 단계로 분기하여 일반 화상 통화 기능을 수행할 수 있도록 지원할 수 있다. 즉, 상기 제2 단말기(200)는 별도의 아바타 출력 없이, 카메라(170)가 수집한 영상 및 마이크(MIC)가 수집한 오디오 신호를 제1 단말기(100)에 전송하는 한편, 자신의 표시부(140)에 상기 수집한 영상을 선택적으로 출력할 수 있다. 그리고 상기 제2 단말기(200)는 제1 단말기(100)로부터 수신되는 영상 및 오디오 신호를 출력할 수 있다.
그리고 S105 단계에서 아바타 모드로 설정되어 있는 경우, 제1 단말기(100)에 대응하는 아바타를 표시부(140) 일측에 출력하고, 자신의 단말기(200)에 대응하는 아바타를 사용자 설정에 따라 표시부(140) 일측에 출력할 수 있다. 제1 단말기(100)에 대응하는 아바타가 없는 경우, 상기 제2 단말기(200)는 제1 단말기(100)에 요청하여 해당 아바타에 대응하는 아바타 데이터를 수신하거나, 자신의 저장부(150)에 저장되어 있는 특정 아바타를 제1 단말기(100)에 대응하는 아바타로 설정할 수 있다.
이후, 상기 제2 단말기(200)는 S109 단계로 분기하여 카메라(170)가 수집하는 피사체의 제스처 인식 및 음성 인식 중 적어도 하나를 수행할 수 있다. 상기 제스처 인식은 앞서 설명한 바와 같이, 피사체의 특정 부위나 전체가 특정 동작 상태를 가지거나 특정 동작 변화를 가지는 경우, 해당 상태 및 변화가 기 설정된 특정 제스처에 해당하는지를 판단하는 과정을 포함한다. 그리고 상기 음성 인식은 마이크(MIC)가 수집한 오디오 신호를 음성 인식 DB를 기반으로 음소, 음절, 단어, 어절, 문장 중 적어도 하나의 정보로 인식하고, 인식된 정보가 기 설정된 특정 음성에 해당하는지 판단하는 과정을 포함한다.
그리고 상기 제2 단말기(200)는 S111 단계에서 제스처 인식 및 음성 인식을 기반으로 특정 아바타 실행 코드를 생성한다. 이를 위하여 상기 제2 단말기(200)는 다양한 아바타 실행 코드를 특정 제스처 및 특정 음성 중 적어도 하나에 매핑한 테이블을 저장할 수 있으며, 이를 참조하여, 특정 제스처 인식 및 특정 음성 인식 발생에 따라 특정 아바타 실행 코드를 생성하게 된다.
다음으로, 상기 제2 단말기(200)는 S113 단계에서 상기 생성된 아바타 실행 코드를 제1 단말기(100)에 전송하는 과정을 수행한다. 이때, 상기 제2 단말기(200)는 아바타 실행 코드를 화상 통화 채널을 통하여 제1 단말기(100)에 전송하거나, 새로운 데이터 통신 채널, 메시지 서비스 채널 등을 화상 통화 채널과 관련 없이 새롭게 생성한 후, 제1 단말기(100)에 전송할 수 있다.
덧붙여 상기 제2 단말기(200)는 S115 단계에서 상기 아바타 실행 코드를 적용하여 자신의 아바타의 상태나 동작을 변경하도록 제어할 수 있다. 이 과정에서 사용자가 자신의 아바타를 자신의 표시부(140)에 출력하도록 설정한 경우에 해당하는 것으로, 사용자 설정이 없는 경우, 생략될 수 있는 과정이다. 이때, 상기 아바타 실행 코드에 따라 아바타의 상태 및 동작의 변화 정도는 아바타를 설계한 설계자의 의도에 따라 달라질 수 있으며, 다양한 아바타에 따라 다양한 형태의 상태 및 동작을 취할 수 있다. 그렇다 하더라도, 특정 아바타 실행 코드에 의하여 나타내고자 하는 특정 감정이나 표현 또는 동작은 동일하게 설계되는 것이 바람직하다.
다음으로, 제2 단말기(200)는 S117 단계에서 화상 통화 종료 여부를 확인하고, 종료가 없는 경우, S109 단계 이전으로 분기하여 아바타 기반의 화상 통화 서비스를 지원하며, 이후 과정을 반복적으로 수행할 수 있다.
상술한 설명에서 상기 아바타 실행 코드에 의하여 특정 상태나 동작을 취하는 아바타는 새로운 아바타 실행 코드가 생성되거나 수신되는 경우까지 지속적으로 해당 상태 및 동작을 취할 수 있으며, 화상 통화의 실시간성 적용을 위하여 기 설정된 일정 시간 동안 특정 상태나 동작을 취하도록 설정한 후, 디폴트 상태 및 동작으로 복귀할 수 도 있을 것이다.
도 6은 본 발명의 실시 예에 따른 아바타 기반 화상 통화 운용 방법 중 수신측 단말기의 동작을 설명하기 위한 순서도이다. 한편 설명의 편의상 송신측 단말기를 제2 단말기(200)라 하고, 수신측 단말기를 제1 단말기(100)로 하여 설명하면 다음과 같다.
상기 도 6을 참조하면, 본 발명의 제1 단말기(100)는 전원이 공급되면, 공급된 전원을 이용하여 부팅 과정을 수행하고, 부팅이 완료되면 기 설정된 대기화면은 S201 단계에서 출력하도록 제어할 수 있다.
이후, 상기 제1 단말기(100)는 S203 단계에서 화상 통화를 요청하는 신호를 수신하는지 여부를 확인하고, 이 과정에서 별도의 통화 요청 신호를 수신하지 않는 경우, S205 단계로 분기하여 사용자의 요청에 따라 제1 단말기(100)의 특정 기능 예를 들면, 파일 재생 기능, 파일 검색 기능, 방송 수신 기능, 이미지 수집 기능, 게임 기능 등을 수행할 수 있다. 이후, 상기 제1 단말기(100)는 S205 단계를 수행하면서 S203 단계 이전으로 분기하여 S203 단계를 지속적으로 감시할 수 있다. 실질적으로, 상기 제1 단말기(100)는 S205 단계를 수행하면서 S203 단계를 대기하게 되는데, 화상 통화 요청 신호 수신이 외부로부터 전달되는 경우, 인터럽트 방식으로 스케줄링될 수 있으므로 별도의 화상 통화 요청 신호 수신 이전에 S205 단계에서 사용자 기능을 지원할 수 있다.
한편, S203 단계에서 화상 통화 요청 신호를 수신하는 경우, 상기 제1 단말기(100)는 수신된 화상 통화 요청 신호가 아바타 모드 기반으로 수행되는 것인지 여부를 확인할 수 있다. 이를 위하여, 화상 통화 요청 신호에 아바타 모드를 기반으로 수행하기를 요청하는 메시지가 포함되는 것이 바람직하며, 상기 제1 단말기(100)는 해당 메시지 확인을 통하여 아바타 모드로 화상 통화 서비스를 수행할 것인지를 묻는 팝업창을 표시부에 출력할 수 있다. 또는, 상기 제1 단말기(100)는 디폴트로 아바타 모드를 기반으로 하는 화상 통화 서비스를 지원할 수 있다. 이 경우, S207 단계 및 일반 화상 통화 모드를 수행하는 S209 단계는 생략될 수 있을 것이다.
S207 단계에서 아바타 모드로 설정되는 경우, 제1 단말기(100)는 S211 단계로 진입하여 상대측 아바타 즉, 제2 단말기(200)에 대응하는 아바타를 표시부(140) 일측에 출력할 수 있다. 제2 단말기(200)에 대응하는 아바타는 폰 북에 저장되어 있는 상태에서, 제2 단말기(200)로부터 아바타 기반 화상 통화 요청이 수신되면, 활성화되어 표시부(140)에 출력될 수 있다. 여기서, 상기 제2 단말기(200)에 대응하는 아바타가 없는 경우, 상기 제1 단말기(100)는 제2 단말기(200)로 아바타에 해당하는 아바타 데이터를 요청하는 메시지를 전송하고, 제2 단말기(200)로부터 그에 대응하는 해당 아바타 데이터를 수신할 수 있다. 또한, 상기 제1 단말기(100)는 이러한 과정 수행 없이, 자신의 저장부(150)에 저장되어 있는 특정 아바타를 제2 단말기(200) 사용자에 대응하는 아바타로 설정할 수 도 있다.
이후, 상기 제1 단말기(100)는 S213 단계에서 제2 단말기(200)에 대응하는 아바타의 상태 및 동작을 변경하도록 지시하는 아바타 실행 코드를 수신하는지 여부를 확인하고, 별도의 아바타 실행 코드 수신 과정이 없는 경우, S211 단계 이전으로 분기하여 이하 과정을 반복적으로 수행할 수 있다. 여기서, 상기 제1 단말기(100)는 화상 통화 종료를 위한 입력 신호가 발생하면, 아바타 실행 코드 수신 여부에 관계없이 모드 과정을 종료할 수 있다.
한편, S213 단계에서 아바타 실행 코드를 수신하면, 상기 제1 단말기(100)는 S215 단계로 분기하여 수신된 아바타 실행 코드를 기반으로 제2 단말기(200)의 아바타의 상태나 동작 중 적어도 하나를 변경하도록 제어할 수 있다. 그리고 제1 단말기(100)는 S217 단계에서 화상 통화 종료 여부를 확인하고, 화상 통화가 유지되는 경우, S211 단계 이전으로 분기하여 이하 과정을 반복적으로 수행할 수 있다.
덧붙여 상기 제1 단말기(100)는 제2 단말기(200)와 마찬가지로 자신의 아바타를 표시부(140) 일측에 출력할 수 있으며, 제2 단말기(200)가 수행하는 제스처 인식 및 음성 인식 중 적어도 하나를 수행할 수 있고, 이를 통해 획득된 아바타 실행 코드를 기반으로 자신의 아바타 상태 및 동작을 변경하도록 조절할 수 있다.
요약하면, 본 발명의 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기는 화상 통화를 수행하는 제1 단말기(100)에 대응하는 아바타 및 제2 단말기(200)에 대응하는 아바타 중 적어도 하나를 기 저장하고 있거나, 상대측으로부터 상대측 아바타에 대한 데이터를 수신하여 저장하고, 이를 화상 데이터를 기반으로 재생되는 영상과 함께 출력할 수 있다. 그리고 본 발명의 제1 단말기(100) 및 제2 단말기(200)는 사용자의 제스처나 특정 음성을 인식하고, 아바타의 상태 및 동작 중 적어도 하나를 변경할 수 있는 아바타 실행 코드를 생성한 후, 이를 송수신함으로써, 상대측 단말기에서 출력 중인 자신의 아바타 상태 및 동작 중 적어도 하나를 변경할 수 있고, 또한 생성된 아바타 실행 코드를 기반으로 자신의 단말기에 출력 중인 자신의 아바타 상태 및 동작 중 적어도 하나를 변경하도록 지원한다.
한편 본 발명의 실시예에 따른 화상 통화 시스템은 제1 단말기(100) 또는 제2 단말기(200)가 저장부(150)에 저장된 상대측 아바타를 호출하여 출력하고, 단말기는 상대측의 제스처 인식 또는 음성 인식을 기반으로 생성한 아바타 실행 코드를 상대측 단말기로부터 수신하여 상대측 아바타의 상태 또는 동작을 조절하여 출력하는 예를 개시하였지만 이에 한정되는 것은 아니다. 즉 도 7에 도시된 바와 같이, 제1 단말기(100) 또는 제2 단말기(200)는 상대측에 대응하는 상대측 아바타 및 아바타 실행 코드를 아바타 제공서버(400)를 통하여 수신하여 출력할 수 있다.
본 발명의 다른 실시예에 따른 화상 통화 시스템은, 도 7에 도시된 바와 같이, 이동통신망(300)을 매개로 연결된 제1 단말기(100), 제2 단말기(200) 및 아바타 제공서버(400)를 포함하여 구성된다.
제1 단말기(100)와 제2 단말기(200)는 이동통신망(300)을 매개로 서로 간에 화상 통화를 수행한다. 제1 단말기(100) 또는 제2 단말기(200)는 이동통신망(300)을 통하여 아바타 제공서버(400)로부터 수신한 상대측에 대응하는 상대측 아바타를 출력하고, 상대측이 취하는 특정 제스처 및 음성 인식을 통해 파악한 상대측의 감정상태에 대응하는 아바타 실행 코드를 수신하여 상대측 아바타의 상태 및 동작 중에 적어도 하나를 조절하여 출력한다.
이동통신망(300)은 제1 단말기(100), 아바타 제공서버(400) 및 착신 단말기(200) 사이의 데이터 전송 및 정보 교환을 위한 일련의 데이터 송수신 동작을 수행한다. 특히 제1 단말기(100)로부터 화상 통화 연결 요청을 수신하면, 이동통신망(300)은 제1 단말기(100)와 제2 단말기(200) 간의 화상 통화를 위한 화상 통화 채널을 형성한다. 형성한 화상 통화 채널을 통하여 화상 통화가 개시되면, 이동통신망(300)은 상대측 아바타 및 아바타 실행 코드를 아바타 제공서버(400)로부터 수신하여 제1 또는 제2 단말기(100,200)로 전송한다. 이때 이동통신망(300)은 상대측 아바타 및 아바타 실행 코드를 현재 형성된 화상 통화 채널을 이용하거나, 형성된 화상 통화 채널과는 별도로 데이터 통신 채널 또는 메시지 서비스 채널을 형성하여 제1 또는 제2 단말기(100,200)로 전송한다.
그리고 아바타 제공서버(400)는 이동통신망(300)을 매개로 화상 통화 채널이 형성된 후, 제1 또는 제2 단말기(100,200)로부터 아바타 요청 신호를 수신하면, 아바타 요청 신호를 발신한 단말기로 상대측에 대응하는 상대측 아바타를 전송한다. 아바타 제공서버(400)는 상대측 아바타를 수신한 단말기의 상대측 단말기로부터 화상 통화 데이터를 수신하고, 수신한 화상 통화 데이터에서 상대측이 취하는 특정 제스처 및 음성 인식에 기반하여 아바타 실행 코드를 생성한다. 그리고 아바타 제공서버(400)는 생성한 아바타 실행 코드를 상대측 아바타를 수신한 단말기로 전송한다. 이때 상대측 아바타를 수신한 단말기는 수신한 아바타 실행 코드에 따라 상대측 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력한다.
특히 본 발명의 다른 실시예에 따른 아바타 제공서버(400)는 송수신부(410), 데이터베이스부(420) 및 서버제어부(430)를 포함하여 구성된다.
송수신부(410)는 이동통신망(300)을 매개로 제1 단말기(100) 및 제2 단말기(200)와 통신을 수행한다. 송수신부(410)는 서버제어부(430)의 제어에 따라 이동통신망(300)으로부터 아바타 요청을 수신하고, 이동통신망(300)으로 요청한 상대측 아바타를 전송한다. 그리고 송수신부(410)는 서버제어부(430)의 제어에 따라 이동통신망(300)으로 아바타 실행 코드를 전송한다.
데이터베이스부(420)는 상대측 단말기의 전화번호에 연결하여 저장하는 상대측 아바타, 제스처 인식을 위한 제스처 인식 데이터베이스, 음성 인식을 위한 음성 인식 데이터베이스, 인식된 제스처 및 특정 음성에 매핑된 아바타 실행 코드를 저장한다. 즉 데이터베이스부(420)은 제1 및 제2 단말기(100,200)의 사용자에 의해 설정된 상대측 아바타와, 상대측 아바타를 동작시키는 아바타 실행 코드를 저장한다. 사용자는 상대측에 대응되게 상대측 아바타를 설정할 수 있다. 상대측 아바타는 사용자의 선택 신호에 따라 상대측의 전화번호에 매핑하여 설정된 아바타와, 디폴트로 설정된 일반 아바타를 포함한다. 디폴트로 설정된 일반 아바타는 사용자가 설정한 상대측 이외의 사람과 화상 통화를 수행할 경우에 사용될 수 있다.
그리고 서버제어부(430)는 아바타 제공서버(400)의 전반적인 제어 동작을 수행한다. 특히 서버제어부(430)는 화상 통화 중 상대측이 취하는 특정 제스처 및 음성 인식을 기반으로 한 사용자 단말의 아바타 출력을 제어한다.
서버제어부(430)는 아바타 설정 모드에서, 제1 및 제2 단말기(100,200)를 통한 사용자의 선택 신호에 따라 상대측에 대응하는 상대측 아바타를 설정하고, 설정된 상대측 아바타를 동작시키는 아바타 실행 코드를 설정할 수 있다. 이때 서버제어부(430)에 의한 상대측 아바타 및 아바타 실행 코드의 설정은 도 2의 제어부(160)에 의한 설정 방식과 동일한 방식으로 수행될 수 있기 때문에, 상세한 설명은 생략한다.
서버제어부(430)는 이동통신망(300)을 매개로 제1 및 제2 단말기(100,200) 간에 화상 통화 채널이 형성된 이후에, 이동통신망(300)을 통하여 제1 또는 제2 단말기(100,200)로부터 아바타 요청 신호를 수신하면, 아바타 요청 신호를 발신한 단말기로 상대측 아바타를 전송한다. 서버제어부(430)는 상대측 아바타를 수신한 단말기의 상대측 단말기로부터 화상 통화 데이터를 수신한다. 서버제어부(430)는 수신한 화상 통화 데이터에서 상대측이 취하는 특정 제스처 및 음성 인식에 기반하여 아바타 실행 코드를 생성한다. 그리고 서버제어부(430)는 생성한 아바타 실행 코드를 상대측 아바타를 수신한 단말기로 전송한다. 이때 상대측 아바타를 수신한 단말기는 수신한 아바타 실행 코드에 따라 상대측 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력한다.
이때 서버제어부(430)는 상대측 아바타를 데이터베이스부(420)에서 호출하거나 상대측 단말기로부터 수신하여 사용자 단말기로 전송한다. 즉 화상 통화 채널이 형성되면, 서버제어부(430)는 상대측에 대응하는 상대측 아바타가 데이터베이스부(420)에 설정되어 있는 지를 확인한다. 확인 결과 설정되어 있으면, 서버제어부(430)는 설정된 상대측 아바타를 호출한다. 확인 결과 미설정되어 있으면, 서버제어부(430)는 데이터베이스부(420)에 저장된 일반 아바타를 호출하거나 상대측 단말기로 상대측 아바타를 요청하여 수신할 수 있다. 그리고 서버제어부(430)는 호출하거나 수신한 상대측 아바타를 사용자 단말기로 전송한다. 이때 서버제어부(430)는 상대측 단말기로부터 상대측 아바타를 요청하여 수신할 때, 현재 형성된 화상 통화 채널을 이용할 수도 있고, 데이터 통신 채널 또는 메시지 서비스 채널을 화상 통화 채널과는 별도로 형성할 수 있다. 서버제어부(430)는 상대측 단말기로부터 수신한 상대측 아바타를 상대측의 전화번호에 연결하여 데이터베이스부(420)에 저장할 수 있다.
서버제어부(430)는 수신한 화상 통화 데이터의 영상에서 상대측의 제스처를 인식하고, 수신한 화상 통화 데이터의 음성에서 상대측의 음성을 인식한다. 즉 서버제어부(430)는 수신한 영상에서 상대측 영상을 추출하고, 추출한 상대측 영상에서 관심영역을 추적하여 객체의 제스처를 인식한다. 이때 관심영역은 얼굴, 양 손, 양 팔 중에 적어도 하나를 포함한다. 서버제어부(430)는 수신한 음성에서 상대측의 감정을 표현하는 단어나 어구의 포함 여부와, 음성 톤의 높낮이로부터 상대측의 음성을 인식한다.
서버제어부(430)는 제스처 인식을 통하여 다음과 같이 아바타 실행 코드를 생성할 수 있다. 즉 수신한 화상 통화 데이터의 영상에서 특정 상태 및 동작 변화를 추출한다. 서버제어부(430)는 추출된 특정 상태 및 동작 변화가 기 설정된 특정 제스처에 대응하는지 비교한다. 비교 결과 특정 제스처에 대응하는 경우, 서버제어부(430)는 특정 제스처에 기 매핑된 아바타 실행 코드를 추출하여 생성한다.
서버제어부(430)는 음성 인식을 통하여 다음과 같이 아바타 실행 코드를 생성할 수 있다. 즉 서버제어부(430)는 수신한 화상 통화 데이터의 음성을 상기와 같이 인식한다. 서버제어부(430)는 인식한 음성에 기 설정된 특정 음성 있는 지를 판단한다. 판단 결과 특정 음성이 있는 경우, 서버제어부(430)는 특정 음성에 기 매핑된 아바타 실행 코드를 추출하여 생성한다.
한편 서버제어부(430)는 특정 제스처 및 특정 음성에 기 매핑된 아바타 실행 코드를 추출하여 생성할 수도 있다.
그리고 서버제어부(430)는 생성한 아바타 실행 코드를 현재 설정된 화상 통화 채널, 별도의 데이터 통신 채널 또는 메시지 서비스 채널을 통하여 사용자 단말기로 전송한다.
이와 같이 본 발명의 다른 실시예에 따른 화상 통화 시스템의 아바타 제공서버(430)는 화상 통화 채널이 형성되면 제1 및 제2 단말기(100,200)로 상대측에 대응하는 상대측 아바타를 전송하고, 상대측의 제스처 및 음성 인식을 기반으로 생성한 아바타 실행 코드를 상대측 아바타를 수신한 단말기로 전송한다. 그리고 상대측 아바타를 수신한 단말기는 아바타 실행 코드에 따라 상대측 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력하기 때문에, 상대측 아바타를 통하여 상대측의 감정상태를 사용자에게 효과적으로 전달할 수 있다.
본 발명의 다른 실시예에 따른 화상 통화 시스템에서 상대측의 감정을 전달하기 위한 화상 통화 방법에 대해서 도 7 및 도 8을 참조하여 설명하면 다음과 같다. 여기서 도 8은 본 발명의 다른 실시 예에 따른 화상 통화 방법을 설명하기 위한 순서도이다.
먼저 S201 단계에서 제1 단말기(100)가 제2 단말기(200)와의 화상 통화 연결 요청을 발신하면, S203 단계에서 이동통신망(300)은 이를 수신하여 제2 단말기(200)로 화상 통화 착신을 요청한다.
다음으로 S205 단계에서 제2 단말기(200)가 화상 통화 착신 요청에 대한 수락 신호를 이동통신망(300)으로 전송하면, S207 단계에서 이동통신망(300)은 제1 단말기(100)와 제2 단말기(200) 간에 화상 통화 채널을 형성한다. 제1 단말기(100)와 제2 단말기(200)는 형성된 화상 통화 채널을 통하여 각각 획득한 화상 통화 데이터를 서로 교환하며 화상 통화를 수행한다.
한편 S201 단계를 수행하기 전에, 아바타 제공서버(400)는 제1 단말기(100)를 통한 사용자의 선택 신호에 따라 아바타 설정 모드에서 상대방에 대응하는 아바타와, 설정된 아바타를 동작시키는 아바타 실행 코드를 설정할 수 있다. 사용자는 아바타 설정 모드에서 자신 또는 상대방이 좋아하거나 관심 있는 분야의 아바타 또는 아바타 실행 코드를 선택하여 설정할 수 있다.
다음으로 S209 단계에서 제1 단말기(100)는 사용자로부터 아바타 모드가 선택되는 지의 여부를 판단한다. 이때 사용자는 입력부(120)를 통하여 아바타 모드를 선택할 수 있다.
S209 단계의 판단 결과 아바타 모드가 선택되지 않은 경우, 제1 단말기(100)는 일반적인 화상 통화 모드를 유지한다.
S209 단계의 판단 결과 아바타 모드가 선택된 경우, S211 단계에서 제1 단말기(100)는 제2 단말기(200)의 사용자(상대측)에 대응하는 아바타 요청 신호를 이동통신망(300)으로 전송한다. S213 단계에서 이동통신망(300)은 수신한 아바타 요청 신호를 아바타 제공서버(400)로 전달한다.
다음으로 S215단계에서 아바타 제공서버(400)는 데이터베이스부(420)에서 제1 또는 제2 단말기(100,200) 사용자에 의해 설정된 상대측 아바타를 추출하여 이동통신망(300)으로 전송한다. 이때 상대측 아바타는 제2 단말기(200) 사용자에 대응되게 설정된 아바타일 수 있다. 아바타 제공서버(400)는 상대측 아바타를 현재 형성된 화상 통화 채널, 별도의 데이터 통신 채널 또는 메시지 서비스 채널을 통하여 전송할 수 있다.
다음으로 S217 단계에서 이동통신망(300)은 수신한 상대측의 화상 통화 데이터와 상대측 아바타를 제1 단말기(100)로 전송한다. 이어서 S218 단계에서 제1 단말기(100)는 수신한 상대측 아바타와 화상 통화 데이터를 출력한다. 즉 제1 단말기(100)는 수신한 화상 통화 데이터에서 음성은 오디오 처리부(130)를 거쳐 스피커(SPK)를 통해 출력한다. 제1 단말기(100)는 수신한 화상 통화 데이터에서 상대측 영상과 상대측 아바타를 함께 표시부(140)에 표시한다. 이때 제1 단말기(100)가 상대측 아바타를 표시할 때, 상대측 영상과 상대측 아바타를 구분하여 표시하거나, 상대측 영상이 출력되는 영역에 상대측 아바타를 오버 레이 시켜 표시할 수 있다.
다음으로 S219 단계에서 이동통신망(300)은 제2 단말기(200)로부터 수신한 화상 통화 데이터를 아바타 제공서버(400)로 전송한다.
다음으로 S221 단계에서 아바타 제공서버(400)는 수신한 화상 통화 데이터를 분석하여 상대측이 취하는 특정 제스처 및 음성을 인식한다. 이어서 S223 단계에서 아바타 제공서버(400)는 인식한 특정 제스처 및 음성을 기반으로 아바타 실행 코드를 생성한다.
즉 아바타 제공서버(400)는 수신한 영상에서 상대측 영상을 추출하고, 추출한 상대측 영상에서 관심영역을 추적하여 객체의 제스처를 인식한다. 이때 관심영역은 얼굴, 양 손, 양 팔 중에 적어도 하나를 포함한다. 아바타 제공서버(400)는 수신한 음성에서 상대측의 감정을 표현하는 단어나 어구의 포함 여부와, 음성 톤의 높낮이로부터 상대측의 음성을 인식한다.
아바타 제공서버(400)는 제스처 인식을 통하여 다음과 같이 아바타 실행 코드를 생성할 수 있다. 즉 아바타 제공서버(400)는 수신한 화상 통화 데이터의 영상에서 특정 상태 및 동작 변화를 추출한다. 아바타 제공서버(400)는 추출된 특정 상태 및 동작 변화가 기 설정된 특정 제스처에 대응하는지 비교한다. 비교 결과 특정 제스처에 대응하는 경우, 아바타 제공서버(400)는 특정 제스처에 기 매핑된 아바타 실행 코드를 추출하여 생성한다.
아바타 제공서버(400)는 음성 인식을 통하여 다음과 같이 아바타 실행 코드를 생성할 수 있다. 즉 아바타 제공서버(400)는 수신한 화상 통화 데이터의 음성을 상기와 같이 인식한다. 아바타 제공서버(400)는 인식한 음성에 기 설정된 특정 음성 있는 지를 판단한다. 판단 결과 특정 음성이 있는 경우, 아바타 제공서버(400)는 특정 음성에 기 매핑된 아바타 실행 코드를 추출하여 생성한다.
한편 아바타 제공서버(400)는 특정 제스처 및 특정 음성에 기 매핑된 아바타 실행 코드를 추출하여 생성할 수도 있다.
다음으로 S225단계에서 아바타 제공서버(400)는 생성한 아바타 실행 코드를 이동통신망(300)으로 전송한다. 이어서 S227단계에서 이동통신망(300)은 수신한 아바타 실행 코드를 제1 단말기(100)로 전달한다. 이때 아바타 제공서버(400)는 아바타 실행 코드를 현재 형성된 화상 통화 채널, 별도의 데이터 통신 채널 또는 메시지 서비스 채널을 통하여 전송할 수 있다.
그리고 S229 단계에서 제1 단말기(100)는 수신한 아바타 실행 코드에 따라 상대측 아바타를 변형하여 출력한다. 즉 제1 단말기(100)는 수신한 아바타 실행 코드에 따라 상대측 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력한다. 예컨대 제1 단말기(100)가 상대측 아바타를 표시할 때, 상대측 영상과 상대측 아바타를 구분하여 표시하거나, 상대측 영상이 출력되는 영역에 상대측 아바타를 오버 레이 시켜 표시할 수 있다.
한편 본 발명의 다른 실시예에 따른 화상 통화 방법에서는 아바타 제공서버(400)가 제1 단말기(100)로 제2 단말기(200) 사용자의 감정상태를 표현하는 상대측 아바타를 제공하는 예를 개시하였지만, 반대로 제2 단말기(200)로 제1 단말기(100) 사용자의 감정상태를 표현하는 상대측 아바타를 제공할 수도 있다. 또는 제1 및 제2 단말기(100,200)에 상대측의 감정상태를 표현하는 상대측 아바타를 각각 제공할 수도 있다.
이상 본 발명을 몇 가지 바람직한 실시 예를 사용하여 설명하였으나, 이들 실시 예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
본 발명은 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기에 관한 것으로, 화상 통화 시 사용자의 제스처 및 음성을 기반으로 상대측 단말기 또는 자신의 단말기 표시부에 출력 중인 상대측 아바타의 표정이나 동작 등을 제어하여 출력함으로써, 단말기 사용자들은 화상 통화를 수행하면서 상대측이 나타내고자 하는 감정이나 표현 등을 상대측 아바타를 통하여 빠르고 정확하게 인식할 수 있다.
도 1은 본 발명의 실시 예에 따른 화상 통화 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 실시 예에 따른 단말기의 구성을 개략적으로 나타낸 도면이다.
도 3은 도 2의 단말기 구성 중 제어부의 구성을 보다 상세히 나타낸 도면이다.
도 4는 도 2의 표시부를 구성하는 화면 인터페이스의 일예를 나타낸 도면이다.
도 5는 본 발명의 실시 예에 따른 화상 통화 방법 중 송신측 단말기의 운용을 설명하기 위한 순서도이다.
도 6은 본 발명의 실시 예에 따른 화상 통화 방법 중 수신측 단말기의 운용을 설명하기 위한 순서도이다.
도 7은 본 발명의 다른 실시 예에 따른 화상 통화 시스템의 구성을 개략적으로 나타낸 도면이다.
도 8은 본 발명의 다른 실시 예에 따른 화상 통화 방법을 설명하기 위한 순서도이다.
* 도면의 주요 부분에 대한 설명 *
100 : 제1 단말기 110 : 통신부
120 : 입력부 130 : 오디오 처리부
140 : 표시부 150 : 저장부
160 : 제어부 161 : 아바타 서비스 모듈
163 : 화상통화 모듈 165 : 제스처 인식부
167 : 음성 인식부 170 : 카메라
200 : 제2 단말기 300 : 이동통신망
400 : 아바타 제공서버 410 : 송수신부
420 : 데이터베이스부 430 : 서버제어부

Claims (22)

  1. 화상 통화 채널이 형성되면, 제2 단말기에 대응하는 아바타를 출력하고, 상기 제2 단말기로부터 수신한 아바타 실행 코드를 기반으로 출력된 상기 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력하는 제1 단말기;
    카메라가 수집한 피사체의 동작 상태 및 동작 변화로부터 특정 제스처 및 마이크가 수집한 오디오 신호로부터 음성의 높낮이와 감정을 표현하는 특정 단어 또는 특정 어구 중 어느 하나를 포함하는 음성을 인식하고, 상기 인식된 정보를 기초로 상기 아바타의 상태 및 동작 중 적어도 하나를 조절하기 위한 상기 아바타 실행 코드를 생성하고, 상기 아바타 실행 코드를 상기 제1 단말기에 전송하는 상기 제2 단말기;
    를 포함하는 것을 특징으로 하는 아바타 기반 화상 통화 시스템.
  2. 제1 단말기와 제2 단말기 간의 화상 통화를 제어하는 통신망;
    상기 통신망을 매개로 화상 통화 채널이 형성된 후 상기 제1 또는 제2 단말기로부터 아바타 요청 신호를 수신하면, 상기 아바타 요청 신호를 발신한 단말기로 상대측에 대응하는 아바타를 전송하고, 상기 아바타를 수신한 단말기의 상대측 단말기로부터 화상 통화 데이터를 수신하고, 상기 수신한 화상 통화 데이터에서 상기 상대측이 취하는 특정 제스처 및 음성의 높낮이와 감정을 표현하는 특정 단어 또는 특정 어구 중 어느 하나를 포함하는 음성을 인식하여 아바타 실행 코드를 생성하고, 상기 아바타 실행 코드를 상기 아바타를 수신한 단말기로 전송하는 아바타 제공서버;
    를 포함하는 것을 특징으로 하는 아바타 기반 화상 통화 시스템.
  3. 통신망을 매개로 제1 단말기 또는 제2 단말기와 통신을 수행하는 송수신부;
    상기 통신망을 매개로 화상 통화 채널이 형성된 후 상기 제1 또는 제2 단말기로부터 아바타 요청 신호를 수신하면, 상기 아바타 요청 신호를 발신한 단말기로 상대측에 대응하는 아바타를 전송하고, 상기 아바타를 수신한 단말기의 상대측 단말기로부터 화상 통화 데이터를 수신하고, 상기 수신한 화상 통화 데이터에서 상기 상대측이 취하는 특정 제스처 및 음성의 높낮이와 감정을 표현하는 특정 단어 또는 특정 어구 중 어느 하나를 포함하는 음성을 인식하여 아바타 실행 코드를 생성하고, 상기 아바타 실행 코드를 상기 아바타를 수신한 단말기로 전송하는 서버제어부;
    를 포함하는 것을 특징으로 하는 아바타 기반 화상 통화 시스템의 아바타 제공서버.
  4. 제 3 항에 있어서,
    상기 상대측 단말기의 전화번호에 연결하여 저장하는 상기 아바타, 상기 제스처 인식을 위한 제스처 인식 데이터베이스, 상기 음성 인식을 위한 음성 인식 데이터베이스, 상기 인식된 제스처 및 특정 음성에 매핑된 아바타 실행 코드를 저장하는 데이터베이스부;
    를 더 포함하는 것을 특징으로 하는 아바타 기반 화상 통화 시스템의 아바타 제공서버.
  5. 화상 통화를 위하여 상대측 단말기로 전송할 영상을 수집하는 카메라;
    상기 상대측 단말기로부터 수신한 상대측의 영상을 출력하는 표시부;
    상기 상대측 단말기와 화상 통화 채널이 형성되면, 상기 상대측 단말기에 대응하는 아바타를 상기 표시부에 출력하고, 상기 상대측 단말기로부터 상기 상대측의 제스처 및 음성의 높낮이와 감정을 표현하는 특정 단어 또는 특정 어구 중 어느 하나를 포함하는 음성을 인식하여 생성된 아바타 실행 코드를 수신하고, 상기 아바타 실행 코드에 따라 상기 아바타의 상태 및 동작 중 적어도 하나를 조절하여 상기 표시부로 출력하는 제어부;
    를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 시스템의 단말기.
  6. 제 5 항에 있어서,
    상기 상대측 단말기의 전화번호에 연결하여 저장하는 아바타, 상기 제스처 인식을 위한 제스처 인식 데이터베이스, 상기 음성 인식을 위한 음성 인식 데이터베이스, 상기 인식된 제스처 및 특정 음성에 매핑된 아바타 실행 코드를 저장하는 저장부;
    를 더 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 시스템의 단말기.
  7. 제 5 항에 있어서,
    상기 제어부는
    상기 제스처 인식을 통하여 상기 아바타 실행 코드를 생성하는 제스처 인식부;
    상기 음성 인식을 통하여 상기 아바타 실행 코드를 생성하는 음성 인식부;
    상기 아바타를 출력하고 상태 및 동작 중 적어도 하나를 조절하는 아바타 서비스 모듈;
    상기 화상 통화를 지원하기 위한 화상 통화 모듈;
    을 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 시스템의 단말기.
  8. 제1 단말기 및 제2 단말기 간에 화상 통화 채널이 형성된 후 상기 제1 또는 제2 단말기로부터 아바타 요청 신호를 수신하면, 아바타 제공서버가 상기 아바타 요청 신호를 발신한 단말기로 상대측에 대응하는 아바타를 전송하는 아바타 전송 단계;
    상기 아바타 제공서버가 상기 아바타를 수신한 단말기의 상대측 단말기로부터 화상 통화 데이터를 수신하는 수신 단계;
    상기 아바타 제공서버가 상기 수신한 화상 통화 데이터에서 상기 상대측이 취하는 특정 제스처 및 음성의 높낮이와 감정을 표현하는 특정 단어 또는 특정 어구 중 어느 하나를 포함하는 음성을 인식하여 아바타 실행 코드를 생성하는 생성 단계;
    상기 아바타 제공서버가 상기 아바타 실행 코드를 상기 아바타를 수신한 단말기로 전송하는 아바타 실행 코드 전송 단계;
    를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  9. 제 8 항에 있어서,
    상기 아바타 전송 단계 또는 아바타 실행 코드 전송 단계에서,
    상기 아바타 제공서버가 상기 아바타 또는 상기 아바타 실행 코드를 상기 화상 통화 채널, 데이터 통신 채널 및 메시지 서비스 채널 중 적어도 하나를 통하여 전송하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  10. 제 8 항에 있어서, 상기 생성 단계는,
    상기 아바타 제공서버가 상기 수신한 화상 통화 데이터의 영상에서 특정 상태 및 동작 변화를 추출하는 단계;
    상기 아바타 제공서버가 상기 추출된 특정 상태 및 동작 변화가 기 설정된 특정 제스처에 대응하는지 비교하는 단계;
    상기 비교 결과 상기 특정 제스처에 대응하는 경우, 상기 아바타 제공서버가 상기 특정 제스처에 기 매핑된 아바타 실행 코드를 검출하는 단계;
    를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  11. 제 8 항에 있어서, 상기 생성 단계는,
    상기 아바타 제공서버가 상기 수신한 화상 통화 데이터의 음성의 높낮이와 감정을 표현하는 특정 단어 또는 특정 어구 중 어느 하나를 추출하여 음성을 인식하는 단계;
    상기 아바타 제공서버가 상기 인식한 음성에 기 설정된 특정 음성 있는 지를 판단하는 단계;
    상기 판단 결과 상기 특정 음성이 있는 경우, 상기 아바타 제공서버가 상기 특정 음성에 기 매핑된 아바타 실행 코드를 검출하는 단계;
    를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  12. 제 8 항에 있어서, 상기 아바타 수신 단계 이전에 수행되는,
    상기 아바타 제공서버가 아바타 설정 모드에서 사용자 또는 상대측이 좋아하거나 관심 있는 분야의 아바타 또는 아바타 실행코드를 선택하여 설정하는 단계;
    를 더 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  13. 제1 단말기와 제2 단말기가 화상 통화 채널을 형성하는 채널 형성 단계;
    상기 제1 단말기가 상기 제2 단말기에 대응하는 아바타를 출력하는 출력 단계;
    상기 제2 단말기의 카메라가 수집한 영상의 동작 상태 및 동작 변화로부터 특정 제스처 및 마이크가 수집한 오디오 신호로부터 음성의 높낮이와 감정을 표현하는 특정 단어 또는 특정 어구 중 어느 하나를 포함하는 음성을 인식하여 상기 아바타의 상태 및 동작 중 적어도 하나를 조절할 수 있는 아바타 실행 코드를 생성한 상기 제2 단말기로부터 상기 제1 단말기가 상기 아바타 실행 코드를 수신하는 수신 단계;
    상기 제1 단말기가 상기 아바타 실행 코드에 따라 상기 아바타의 상태 및 동작 중 적어도 하나를 조절하여 출력하는 조절 출력 단계;
    를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  14. 제 13 항에 있어서,
    상기 수신 단계에서 상기 아바타 실행 코드를 생성하는 단계는
    상기 제2 단말기가 상기 카메라로 수집한 영상의 특정 상태 및 동작 변화를 추출하는 단계;
    상기 제2 단말기가 추출된 특정 상태 및 동작 변화가 기 설정된 특정 제스처에 대응하는지 비교하는 단계;
    상기 비교 결과 상기 특정 제스처에 대응하는 경우, 상기 제2 단말기가 상기 특정 제스처에 기 매핑된 아바타 실행 코드를 검출하는 단계;
    를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  15. 제 13 항에 있어서,
    상기 수신 단계에서 상기 아바타 실행 코드를 생성하는 단계는
    상기 제2 단말기가 마이크로 수집한 음성의 높낮이와 감정을 표현하는 특정 단어 또는 특정 어구를 추출하여 인식하는 단계;
    상기 제2 단말기가 상기 인식한 음성에 기 설정된 특정 음성이 있는 지를 판단하는 단계;
    상기 판단 결과 상기 특정 음성이 있는 경우, 상기 제2 단말기가 상기 특정 음성에 기 매핑된 아바타 실행 코드를 검출하는 단계;
    를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  16. 제 13 항에 있어서,
    상기 출력 단계 또는 조절 출력 단계는
    상기 제1 단말기가 화면을 분할하고, 분할된 영역에 상기 아바타 및 상기 제2 단말기로부터 수신한 영상을 구분하여 출력하는 단계; 또는
    상기 제1 단말기가 상기 제2 단말기로부터 수신한 영상을 출력하는 영역에 상기 아바타를 오버 레이 시켜 출력하는 단계;
    를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  17. 제 13 항에 있어서,
    상기 출력 단계는
    상기 제1 단말기가 상기 제2 단말기의 전화번호에 연결되어 저장된 아바타를 검출하여 출력하는 단계;
    를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  18. 제 13 항에 있어서,
    상기 출력 단계는
    상기 제1 단말기가 상기 제2 단말기로부터 아바타에 대응하는 아바타 데이터를 수신하고, 상기 수신한 아바타 데이터를 기반으로 아바타를 출력하는 단계; 또는
    상기 제1 단말기가 저장부에 기 저장된 특정 아바타를 상기 제2 단말기의 아바타로 지정하고, 상기 지정한 아바타를 출력하는 단계;
    중 어느 하나의 단계를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  19. 제 18 항에 있어서,
    상기 출력 단계는
    상기 제1 단말기가 상기 수신된 아바타 또는 지정된 아바타를 상기 제2 단말기의 전화번호와 연결하여 저장하는 단계;
    를 더 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  20. 제 13 항에 있어서,
    상기 수신 단계에서
    상기 제1 단말기가 상기 아바타 또는 상기 아바타 실행 코드를 상기 화상 통화 채널, 데이터 통신 채널 및 메시지 서비스 채널 중 적어도 하나를 통하여 수신하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  21. 제 13 항에 있어서, 상기 채널 형성 단계 이전에 수행되는,
    상기 제1 단말기가 아바타 설정 모드에서 자신 또는 상대측이 좋아하거나 관심 있는 분야의 아바타 또는 아바타 실행코드를 선택하여 설정하는 단계;
    를 더 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
  22. 제 8 항 내지 제 21 항 중 어느 한 항에 있어서,
    상기 아바타는 상대방 감정상태를 대신하여 표현하는 그래픽 컨텐츠로서, 애니메이션 캐릭터, 동영상, 정지영상, UCC(User Created Contents), 이모티콘, 플래시(flash), 영상과 진동이 조합된 햅틱 컨텐츠 중에 하나를 포함하는 것을 특징으로 하는 아바타 기반의 화상 통화 방법.
KR1020090083726A 2009-09-05 2009-09-05 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기 KR101189053B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090083726A KR101189053B1 (ko) 2009-09-05 2009-09-05 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090083726A KR101189053B1 (ko) 2009-09-05 2009-09-05 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기

Publications (2)

Publication Number Publication Date
KR20110025720A KR20110025720A (ko) 2011-03-11
KR101189053B1 true KR101189053B1 (ko) 2012-10-10

Family

ID=43933142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090083726A KR101189053B1 (ko) 2009-09-05 2009-09-05 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기

Country Status (1)

Country Link
KR (1) KR101189053B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015170832A1 (ko) * 2014-05-09 2015-11-12 삼성전자 주식회사 디스플레이 장치 및 그의 화상 통화 수행 방법
WO2020153785A1 (ko) * 2019-01-24 2020-07-30 삼성전자 주식회사 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법
EP4059673A1 (en) * 2021-03-18 2022-09-21 Ricoh Company, Ltd. Information processing apparatus, nonverbal information conversion system, information processing method, and carrier means

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101285076B1 (ko) * 2011-09-09 2013-07-17 동국대학교 산학협력단 인간의 행동을 모방하는 가상 객체를 이용한 통신 방법 및 그 방법에 따른 통신 시스템
KR101312771B1 (ko) * 2011-12-14 2013-09-27 건국대학교 산학협력단 아바타를 사용한 영상 채팅 장치 및 방법
CN104780339A (zh) * 2015-04-16 2015-07-15 美国掌赢信息科技有限公司 一种即时视频中的表情特效动画加载方法和电子设备
US11553157B2 (en) 2016-10-10 2023-01-10 Hyperconnect Inc. Device and method of displaying images
JP7078035B2 (ja) * 2017-03-31 2022-05-31 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
KR101932844B1 (ko) 2017-04-17 2018-12-27 주식회사 하이퍼커넥트 영상 통화 장치, 영상 통화 방법 및 영상 통화 중개 방법
KR102044242B1 (ko) 2017-12-27 2019-11-13 주식회사 하이퍼커넥트 영상 통화 서비스를 제공하는 단말 및 서버
CN108052927B (zh) * 2017-12-29 2021-06-01 北京奇虎科技有限公司 基于视频数据的手势处理方法及装置、计算设备
KR102266888B1 (ko) 2018-12-31 2021-06-21 주식회사 하이퍼커넥트 영상 통화 서비스를 제공하는 단말기 및 서버
KR102282963B1 (ko) 2019-05-10 2021-07-29 주식회사 하이퍼커넥트 단말기, 서버 및 그것의 동작 방법
KR102311603B1 (ko) 2019-10-01 2021-10-13 주식회사 하이퍼커넥트 단말기 및 그것의 동작 방법
KR102293422B1 (ko) 2020-01-31 2021-08-26 주식회사 하이퍼커넥트 단말기 및 그것의 동작 방법
KR20210109202A (ko) * 2020-02-27 2021-09-06 삼성전자주식회사 제스쳐 입력에 대응하는 시각적 효과를 제공하기 위한 전자 장치 및 그의 동작 방법
CN116745743A (zh) * 2020-12-31 2023-09-12 斯纳普公司 具有触觉反馈响应的通信界面
EP4272063A1 (en) 2020-12-31 2023-11-08 Snap Inc. Media content items with haptic feedback augmentations
US11997422B2 (en) 2020-12-31 2024-05-28 Snap Inc. Real-time video communication interface with haptic feedback response
EP4272059A1 (en) 2020-12-31 2023-11-08 Snap Inc. Electronic communication interface with haptic feedback response
KR102487847B1 (ko) * 2022-07-19 2023-01-16 주식회사 엘젠 청각장애인용 통화 서비스 제공 시스템 및 방법
KR20240047109A (ko) * 2022-10-04 2024-04-12 삼성전자주식회사 메타버스의 사용자와 콜을 수행하는 전자 장치 및 그 동작 방법
US11991220B2 (en) 2022-10-04 2024-05-21 Samsung Electronics Co., Ltd. Electronic device performing call with user of metaverse and method for operating the same

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100884467B1 (ko) * 2007-12-17 2009-02-20 에스케이 텔레콤주식회사 고속 커뮤니케이션 방법과 이를 위한 단말기

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100884467B1 (ko) * 2007-12-17 2009-02-20 에스케이 텔레콤주식회사 고속 커뮤니케이션 방법과 이를 위한 단말기

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015170832A1 (ko) * 2014-05-09 2015-11-12 삼성전자 주식회사 디스플레이 장치 및 그의 화상 통화 수행 방법
KR20150128386A (ko) * 2014-05-09 2015-11-18 삼성전자주식회사 디스플레이 장치 및 그의 화상 통화 수행 방법
US9749582B2 (en) 2014-05-09 2017-08-29 Samsung Electronics Co., Ltd. Display apparatus and method for performing videotelephony using the same
KR102193029B1 (ko) * 2014-05-09 2020-12-18 삼성전자주식회사 디스플레이 장치 및 그의 화상 통화 수행 방법
WO2020153785A1 (ko) * 2019-01-24 2020-07-30 삼성전자 주식회사 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법
EP4059673A1 (en) * 2021-03-18 2022-09-21 Ricoh Company, Ltd. Information processing apparatus, nonverbal information conversion system, information processing method, and carrier means

Also Published As

Publication number Publication date
KR20110025720A (ko) 2011-03-11

Similar Documents

Publication Publication Date Title
KR101189053B1 (ko) 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기
KR101170338B1 (ko) 화상 통화 방법 및 시스템
US20220254343A1 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
CN110288077B (zh) 一种基于人工智能的合成说话表情的方法和相关装置
US11468894B2 (en) System and method for personalizing dialogue based on user's appearances
WO2021036644A1 (zh) 一种基于人工智能的语音驱动动画方法和装置
KR101533065B1 (ko) 화상통화 중 애니메이션 효과 제공 방법 및 장치
US20190279642A1 (en) System and method for speech understanding via integrated audio and visual based speech recognition
CN110322760B (zh) 语音数据生成方法、装置、终端及存储介质
WO2021008538A1 (zh) 语音交互方法及相关装置
CN109819167B (zh) 一种图像处理方法、装置和移动终端
US20220101856A1 (en) System and method for disambiguating a source of sound based on detected lip movement
CN111954063B (zh) 视频直播间的内容显示控制方法及装置
CN108174236A (zh) 一种媒体文件处理方法、服务器及移动终端
CN109391842B (zh) 一种配音方法、移动终端
CN112735388B (zh) 网络模型训练方法、语音识别处理方法及相关设备
CN112115282A (zh) 基于搜索的问答方法、装置、设备及存储介质
CN113689530B (zh) 一种驱动数字人的方法、装置及电子设备
CN106649712A (zh) 输入表情信息的方法及装置
CN113611318A (zh) 一种音频数据增强方法及相关设备
WO2021051588A1 (zh) 一种数据处理方法、装置和用于数据处理的装置
CN115396390B (zh) 基于视频聊天的互动方法、***、装置及电子设备
KR101179465B1 (ko) 상대방의 감정을 전달하는 영상통화 시스템 및 방법
CN111292743B (zh) 语音交互方法及装置、电子设备
CN115526772A (zh) 视频处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150922

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161005

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170711

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181004

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190916

Year of fee payment: 8