KR100853122B1

KR100853122B1 - 이동통신망을 이용한 실시간 대체 영상 서비스 방법 및시스템

Info

Publication number: KR100853122B1
Application number: KR1020070014756A
Authority: KR
Inventors: 허재회
Original assignee: 주식회사 인스프리트
Priority date: 2007-02-13
Filing date: 2007-02-13
Publication date: 2008-08-20
Also published as: KR20080075625A

Abstract

본 발명은 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템에 관한 것으로서, 화상 통화 중 실시간으로 피사체의 음성과 영상을 분석하고 이를 캐릭터로 대체시킴으로써 보다 고품질의 영상 통화 서비스를 제공할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템에 관한 것이다.

본 발명의 이동통신망을 이용한 대체 영상 서비스 시스템은, 수신된 동영상 비디오 신호를 분석하여 영상의 특징점 정보의 변화를 추출하는 실시간 페이스 트래킹 기능을 수행하는 비디오 처리부와, 수신된 오디오 신호를 분석하여 음성 정보를 추출하는 실시간 립싱크 기능을 수행하는 오디오 처리부와, 캐릭터 컨텐츠에 상기 영상 특징 정보와 음성 정보를 결합하여 실시간으로 동영상인 대체 영상을 생성하는 RSC 인코딩 모듈을 포함하는 RSC 서버가 상기 이동통신망에 연결된 것을 특징으로 한다.

이동통신망, 실시간, 대체 영상

Description

이동통신망을 이용한 실시간 대체 영상 서비스 방법 및 시스템 {Method and system for providing Real-time Subsititutive Communications using mobile telecommunications network}

도 1은 종래 기술에 따른 동영상 제작 시스템의 구성도.

도 2는 본 발명의 제 1 실시예에 따른 대체 영상 서비스 시스템의 구성도.

도 3은 본 발명의 제 1 실시예에 따른 대체 영상 통화 서비스 플랫폼의 구성도.

도 4는 본 발명의 제 1 실시예에 따른 대체 영상 통화 서버의 구성도.

도 5a 및 도 5b는 본 발명에 따른 대체 영상 서비스에 이용되는 특징점이 표시된 입력 영상과 캐릭터 영상의 예시도.

도 6은 본 발명의 제 1 실시예에 따른 대체 영상 서비스 개념도.

도 7은 본 발명의 제 1 실시예에 따른 대체 영상 서비스 방법에서의 호 처리 순서도.

도 8a 및 도 8b는 본 발명의 제 1 실시예에 따른 2G 단말기와 3G 단말기 사이의 대체 영상 서비스 방법 예시도.

도 9는 본 발명의 제 1 실시예에 따른 대체 영상 서비스용 이동통신단말기의 디스플레이 구성도.

도 10은 본 발명의 제 2 실시예에 따른 대체 영상 통화 서비스 시스템의 구성도.

도 11은 본 발명의 제 2 실시예에 따른 대체 영상 서비스용 이동통신단말기의 구성도.

도 12는 본 발명의 제 2 실시예에 따른 대체 영상 서비스 방법에서의 호 처리 순서도.

도 13은 본 발명의 제 3 실시예에 따른 대체 영상 서비스 방법에서의 호 처리 순서도.

대체 영상이라 함은 캐릭터(또는 아바타)와 같이 피사체의 실제 영상을 대신하는 영상을 말하는데, 이러한 대체 영상은 현재 컴퓨터 애니메이션, 이동통신, 방송 등의 분야에서 널리 이용되고 있으며, 이와 관련하여 사람의 실제 영상과 유사한 대체 영상을 제공하기 위한 많은 시도가 있었다.

이러한 종래 기술의 하나로서 2000년 9월 20일자로 출원된 국내 특허 출원 제 10-2000-0055309 호 "3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된 음성 합성을 지원하는 3차원 동영상 저작 도구의 제작 시스템 및 방법"은, 출력 음성과 대체 영상의 입술의 움직임을 일치시키는 립싱크 기능을 구비한 동영상 제작 시스템에 관한 발명으로서 도 1에 도시된 바와 같은 구성을 가진다.

도 1의 동영상 제작 시스템(100)은, 사용자가 입력한 텍스트 정보를 음성 정보로 변환하는 TTS(Text To Speech) 기능을 수행하는 음성 정보 변환 엔진(110)과, 음성에 포함된 각각의 음소에 대응하는 캐릭터의 입 모양과 미리 정해진 표정 모델에 따라 설정된 다수의 얼굴 모양에 대한 데이터베이스로 구성되는 음성 라이브러리(130)와, 음성 정보 변환 엔진(110)으로부터 입력된 초성, 중성, 종성의 각 음소 정보를 추출하고, 이를 음성 라이브러리(130)에 저장된 캐릭터의 입 모양 및 얼굴 모양과 매칭시켜 화면에 표시될 캐릭터의 입 모양과 얼굴 모양을 변화시키는 립싱크 생성 엔진(120)과, 캐릭터가 취할 수 있는 머리, 팔, 다리 등 몸체의 움직임에 관한 캐릭터 모션 정보를 데이터베이스로 구성한 모션 라이브러리(150)와, 모션 라이브러리(150)에 저장된 모션 정보에 맞추어 캐릭터 몸체의 모션을 설정하는 애니메이션 생성 엔진(140)과, 립싱크 생성 엔진(120)에 의해 생성된 캐릭터의 입 모양, 얼굴 모양과 애니메이션 생성 엔진(140)에 의해 생성된 캐릭터 몸체의 모션을 합성하여 동영상의 형태로 출력하는 합성 엔진(160)으로 구성된다.

그런데, 도 1의 종래 기술의 발명은 입력되는 음성의 음소에 맞추어 캐릭터의 입 모양을 변화시킬 수는 있으나 캐릭터의 얼굴 모양과 캐릭터 몸체의 모션은 입력 음성의 음소에 연동되지 않으므로, 결국 미리 저장된 다양한 형태의 얼굴 모양과 모션 중 사용자가 지정한 것을 입 모양에 결합시키기 때문에 전체적인 캐릭터의 얼굴 표정과 동작이 부조화스러울 뿐 아니라, 실제 영상이 하나의 파일 단위로 입력되고 캐릭터 영상도 하나의 파일 단위로 생성되고 두 개의 파일을 합쳐서 동영상을 생성하는 순차적 방식에 의존하므로, 비디오 스트림 및 오디오 스트림의 형태로 입력되는 실제 영상의 움직임에 맞추어 캐릭터 얼굴의 표정과 캐릭터의 모션이 실시간으로 변경되는 자연스러운 동영상 캐릭터의 생성이 곤란하므로, 실시간 통신이 필수적인 이동통신망에서 통화자를 대신하는 대체 영상으로 이용하기에는 부적절하다.

도 1의 종래 기술과 유사한 방식의 기술을 이동통신망에 적용한 선행 기술들이 다수 존재하지만 이들은 모두 도 1에서와 같은 오프라인 상에서의 캐릭터 생성 방법을 단순히 이동통신망에 적용할 수 있다고만 주장하는 수준에 불과하며, 따라서 이동통신망을 통해 실시간 입력되는 비디오 스트림과 오디오 스트림을 캐릭터 영상과 실시간으로 결합하여 제공할 수 있는 실시간 캐릭터 생성 및 대체 영상 제공 방법이 실제로 구현된 예가 없는 상황이다.

실제로, 3D MAX, MAYA 등 오프라인 방식(즉, 비실시간 방식)의 컴퓨터 그래픽 프로그램들의 경우 기본적으로 640*480의 해상도를 가지는 VGA급 영상을 대상으로 하는데, 풀컬러 영상을 표시하기 위해서는 픽셀당 3byte(=bit)의 데이터량이 필요하며 따라서 한 화면의 데이터량이 640*480*24=7372800bit=921Kbyte가 된다. 오프라인 상에서 워크스테이션이나 PC를 이용하여 상기 데이터를 처리하는데에는 별 다른 어려움이 없지만, 동일 영상 데이터를 이동통신망을 이용하여 교환한다고 할 때 문제가 발생하게 된다.

예컨대, 화상 통화를 지원하는 3G 이통통신망인 WCDMA망에 적용되는 MPEG4 압축방법에서 지원하는 전송 속도(64Kbps)로 상기 영상 데이터를 전송할 경우, t=640*480*24/64000=115.2(s)로 약 2분 미만의 시간이 소요되어 버리므로 이동통신망에 적용하기에는 사실상 불가능하다.

결국, 이동통신의 경우 전송 속도와 전송 대역폭의 한계로 인해 각 이동통신망에 허용되는 범위 내에서 비디오 신호와 오디오 신호를 모두 고비율로 압축하여 전송해야 하고, 실시간으로 대체 영상을 제공하기 위해서는 비디오 스트림의 형태로 입력되는 연속적인 비디오 신호에 포함된 영상에서 특징점들을 추출하는 동시에 압축된 오디오 신호에서 통화자의 음성만을 추출하고, 추출된 데이터를 대체 영상용 캐릭터와 합성하여 대체 영상을 실시간으로(즉, 전체 지연 시간이 1초 미만일 것) 생성할 수 있는 신속하고도 간단한 시스템 및 방법이 요구된다.

또한, 이동통신의 경우 사용자의 이동, 전파 장애물의 출현, 전파 음영 지역의 존재 등으로 인해 통화 중에도 데이터 전송 상태가 급변하는 경우가 많기 때문에, 이와 같은 경우에 대비한 대체 영상 서비스 방법 및 시스템이 요구된다.

나아가 실시간으로 제공되는 대체 영상 서비스의 실용화를 위해서는, 이동통신만이 가지는 특성들을 최대한 활용하여 보다 간단하고 신속한 방법으로 대체 영상을 생성하고 전송할 수 있는 방법과 시스템이 강구되어야 한다.

상기 문제점을 고려하여, 본 발명은 실시간 통신의 특성이 중요시되는 이동통신망에 최적화된 형태의 서비스를 제공하기 위해, 화상 통화 중 실시간으로 피사체의 음성과 영상을 분석하고 이를 캐릭터로 대체시킴으로써 보다 고품질의 영상 통화 서비스를 제공할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 통신 환경에 따라 데이터 전송 상태가 급변하는 이동통신망에 최적화된 형태의 서비스를 제공하기 위해, 오디오 신호와 비디오 신호의 품질 상태에 따라 오디오 신호와 비디오 신호가 상호 보완적으로 작용함으로써 통신 환경의 변화에도 불구하고 대체 영상을 지속적으로 생성하여 전송할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 비디오 신호를 위주로 하여 대체 영상을 생성하고 오디오 신호에 근거한 표준화된 입 모양으로 대체 영상의 입 모양을 보완함으로써, 보다 전달력이 우수한 대체 영상을 생성하여 전송할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 발음에 따른 입 모양을 위주로 하여 대체 영상을 생성하여 전송함으로써 청각 장애인의 경우에도 대체 영상 통화가 가능한, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 하나의 이동통신단말기가 하나의 이동통신사용자에게 거의 전적으로 할당되는 이용되는 이동통신의 특성을 고려하여, 이동통신사용자별로 학 습된 개인 메타데이터를 생성함으로써 대체 영상을 보다 간단하고 신속하게 생성하여 제공할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 대체 영상 통화시에 상대방에게 전달되는 자신의 대체 영상의 전송 상태를 확인할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 화상 통신 기능이 제공되지 않는 기존의 2G 단말기와의 통화시에도 대체 영상 서비스를 제공할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템을 제공하는 것을 목적으로 한다.

또한, WCDMA, HSDPA, IP-TV, 유선전화망, 인터넷망 등 다양한 통신망을 연동할 수 있는 3세대 통신환경 및 그 이상의 진화된 통신환경에서도 적용 가능한 구조를 가지는 실시간 대체 영상 서비스 방법 및 시스템을 제공하는 것을 목적으로 한다.

본 발명의 상기한 목적 및 그 이상의 목적과 효과는 이하에서 상술되는 발명의 구성에 대한 상세한 설명 부분에서 더욱 명확히 이해될 수 있을 것이다.

상기 목적을 달성하기 위해 본 발명의 이동통신망을 이용한 대체 영상 서비스 시스템은, 수신된 동영상 비디오 신호를 분석하여 영상의 특징점 정보의 변화를 추출하는 실시간 페이스 트래킹 기능을 수행하는 비디오 처리부와, 수신된 오디오 신호를 분석하여 음성 정보를 추출하는 실시간 립싱크 기능을 수행하는 오디오 처리부와, 캐릭터 컨텐츠에 상기 영상 특징 정보와 음성 정보를 결합하여 실시간으로 동영상인 대체 영상을 생성하는 RSC 인코딩 모듈을 포함하는 RSC 서버가 상기 이동통신망에 연결된 것을 특징으로 한다.

또한, 상기 비디오 처리부는, 상기 수신된 비디오 신호를 디코딩하는 비디오 디코더와, 디코딩된 비디오 신호에 포함된 복원 영상의 윤곽 특징점 및 개별 특징점 정보의 변화를 추출하는 RFT 엔진을 포함하며, 상기 RFT 엔진은, 상기 복원 영상의 특징점 정보와 미리 저장된 사람 얼굴의 기본적 윤곽의 특징점 정보를 비교하여 상기 복원 영상이 사람의 얼굴 영상인지를 판별하는 페이스 분석 모듈과, 상기 복원 영상이 사람의 얼굴 영상으로 판별될 경우 얼굴 부분의 개별 특징점의 변화를 실시간으로 추적하는 페이스 트래킹 모듈과, 상기 복원 영상이 사람의 얼굴 영상으로 판별될 경우 얼굴 부분의 윤곽의 특징점 정보를 실시간으로 추적하는 모션 트래킹 모듈을 포함하며, 상기 페이스 트래킹 모듈과 상기 모션 트래킹 모듈에서 추적한 상기 특징점들의 변화는 대체 영상 서비스용 캐릭터의 특징 정보로서 상기 RSC 인코딩 모듈로 전송되는 것을 특징으로 한다.

또한, 상기 오디오 처리부는 상기 수신된 오디오 신호를 디코딩하는 오디오 디코더와, 디코딩된 오디오 신호에서 음성 신호를 추출하여 실시간 립싱크를 수행하는 RLS 엔진을 포함하며, 상기 RLS 엔진은, 입력된 오디오 신호를 필터링하여 미리 설정된 주파수 범위의 신호만을 음성 신호로 추출하는 음성 분석 모듈과, 상기 음성 분석 모듈에서 추출한 음성 신호에 입 모양 정보 데이터베이스를 매칭시켜 실 시간으로 립싱크 변수를 추출하는 RTLS 모듈을 포함하며, 상기 립싱크 변수는 상기 대체 영상 서비스용 캐릭터의 음성을 특정하는 캐릭터 음성 정보로서 상기 RSC 인코딩 모듈로 전송되는 것을 특징으로 한다.

또한, 상기 RSC 인코딩 모듈은, 상기 캐릭터 특징 정보와 상기 캐릭터 음성 정보를 수신하고 이들을 상기 대체 영상 서비스용 캐릭터와 결합하여 실시간으로 대체 영상을 생성하는 RSC 애니메이션 엔진과, 상기 생성된 대체 영상을 렌더링하는 렌더러와, 상기 렌더링된 대체 영상을 인코딩하여 전송하는 비디오 인코더를 포함하는 것을 특징으로 한다.

또한, 상기 RTLS 모듈에서 매칭되는 입 모양 정보 데이터베이스는 모든 종류의 모음에 대한 입 모양, 초성과 종성의 차이에 따른 모음의 변화된 입 모양, 각 글자의 구성에 따른 상기 입 모양들의 변화 과정에 관한 데이터, 및 음성 신호의 주파수 범위에 따라 변화되는 입 모양 데이터를 포함하는 것을 특징으로 한다.

또한, 상기 RTLS 모듈에서 매칭되는 입 모양 정보 데이터베이스는 상기 시스템에 의해 설정된 기준 주파수 범위의 음성에 맞추어 표준화된 입 모양 데이터와 상기 기준 주파수보다 높거나 낮은 주파수 범위의 음성에 맞추어 변화된 입 모양 데이터를 저장하고 있으며, 상기 RTLS 모듈은 상기 음성 분석 모듈에서 추출한 상기 음성 신호의 주파수 범위가 상기 기준 주파수 범위와 다를 경우 입력된 음성 신호의 주파수 범위에 맞추어 립싱크 변수를 추출하는 것을 특징으로 한다.

또한, 상기 RTLS 모듈은 상기 캐릭터 음성 정보에 포함된 음성 파라미터 DNA에 따라 생성되는 상기 립싱크 변수를 각각의 사용자 단말기별로 분류하여 개인화 된 메타 데이터로 반복 저장하여 학습하고, 향후 동일 사용자 단말기로부터의 오디오 신호 수신시에 상기 학습된 개인화된 메타 데이터를 디폴트 음성 모델로 이용하여 상기 수신된 오디오 신호로부터 상기 립싱크 변수를 추출하는 것을 특징으로 한다.

또한, 상기 RSC 인코딩 모듈은, 상기 영상 특징 정보를 기준으로 상기 대체 영상의 윤곽과 얼굴을 생성하고, 상기 음성 정보에 포함된 립싱크 변수를 이용하여 상기 대체 영상의 입 모양을 보정하는 것을 특징으로 한다.

또한, 상기 RSC 인코딩 모듈은, 상기 음성 정보를 기준으로 상기 대체 영상의 입 모양을 생성하며, 상기 영상 특징 정보를 기준으로 상기 입 모양을 제외한 대체 영상의 얼굴 부분을 생성하는 것을 특징으로 한다.

또한, 상기 시스템은 상기 RSC 서버와 연동되어 대체 영상 통화 호를 위한 호 처리 및 대체 영상 서비스 관리를 수행하며, 대체 영상 서비스 가입자 정보 및 가입자별 캐릭터 정보를 포함하는 대체 영상 서비스 정보를 구비하는 SGN 서버를 더 포함하는 것을 특징으로 한다.

또한, 상기 시스템은 WEB/WAP 서버를 이용하여 사용자 단말기들과 연결되며, 상기 사용자 단말기로부터 요청받은 대체 영상 서비스용 캐릭터의 등록과 대체 영상 서비스 가입을 수행하며, 상기 대체 영상 서비스 가입과 대체 영상 서비스용 캐릭터의 등록에 관한 정보를 상기 SGN 서버로 전달하는 CMS 서버; 및 상기 등록된 캐릭터를 저장하기 위한 저장장치를 더 포함하는 것을 특징으로 한다.

또한, 상기 시스템은 멀티미디어메시지의 생성, 저장 및 전송을 수행하는 MMSC; 및 상기 MMSC에 저장된 메시지에 포함된 오디오 신호를 분석하여 메시지 음성 정보를 추출하는 비실시간 립싱크 기능을 수행하는 메시지 오디오 처리부와, 캐릭터 컨텐츠에 상기 메시지 음성 정보를 결합하여 비실시간으로 동영상 캐릭터를 생성하고 생성된 동영상 캐릭터를 상기 MMSC로 전송하는 대체 영상 메시지 인코딩 모듈을 구비한 LSS 서버를 더 포함하는 것을 특징으로 한다.

또한, 상기 시스템에서 상기 RSC 서버와 상기 LSS 서버와 상기 SGN 서버와 상기 CMS 서버와 상기 저장장치는 RSC 서비스 플랫폼을 구성하며, 상기 RSC 서비스 플랫폼은 상기 이동통신망과의 연동을 위한 미디어 게이트웨이를 더 포함하는 것을 특징으로 한다.

한편, 상기 대체 영상 시스템을 이용한 본 발명에 따른 대체 영상 서비스 방법은, 이동통신용 발신 단말기로부터의 대체 영상 통화 호 설정 요청에 따라 상기 위치등록기에서 대체 영상 서비스 가입 여부를 판단하는 단계; 상기 판단 결과 상기 발신 단말기가 대체 영상 서비스 가입자의 단말기일 경우, 상기 코어 망에서 대체 영상 통화 호 설정을 수행하고, 상기 RSC 서버에서 상기 발신 단말기에 대해 등록된 캐릭터를 활성화하여 대체 영상 서비스를 준비하는 단계; 상기 RSC 서버에서 상기 발신 단말기로부터 입력된 상기 비디오 신호와 상기 오디오 신호로부터 각기 추출된 상기 영상 특징 정보와 상기 음성 정보를 상기 활성화된 캐릭터와 결합하여 실시간으로 대체 영상을 생성하는 단계; 및 상기 RSC 서버에서 상기 코어 망을 통해 착신 단말기로 상기 대체 영상을 전송함에 의해 실시간 대체 영상을 이용한 화상 통화를 수행하는 단계를 포함하는 것을 특징으로 한다.

한편, 본 발명에 따른 대체 영상 서비스용 이동통신단말기는, 사용자의 실제 영상 획득을 위한 카메라부와, 오디오 신호의 입출력을 담당하는 마이크로폰과 스피커를 포함하는 오디오부와, 대체 영상 서비스 요청을 위한 소프트키와 핫키 중 적어도 하나가 구비된 키입력부와, 상기 실제 영상과 대체 영상을 디스플레이하기 위한 표시부와, 상기 대체 영상 생성을 수행하는 RSC 모듈과, 상기 대체 영상용 캐릭터 및 표준 입 모양 정보를 포함하는 데이터를 저장하는 데이터 메모리와, 상기 대체 영상 생성 기능을 수행하기 위한 소프트웨어 프로그램을 포함하는 단말기 동작 프로그램을 저장하는 프로그램 메모리와, 전송 신호의 송신과 수신을 수행하는 송수신기, 및 상기 구성요소들과 연결되어 각 구성요소의 기능을 제어하는 적어도 하나의 마이크로프로세서로 구성되는 제어부를 포함하도록 구성되는 것을 특징으로 한다.

또한, 상기 대체 영상 서비스용 이동통신단말기를 이용한 대체 영상 서비스 방법은, 상기 이동통신단말기의 상기 소프트키와 상기 핫키 중 적어도 하나의 키를 이용한 대체 영상 서비스 요청에 따라, 상기 이동통신단말기에서 상기 대체 영상을 생성하는 단계; 상기 대체 영상 서비스 요청에 따라, 이동통신망의 위치등록기에서 대체 영상 서비스 가입 여부를 판단하는 단계; 및 상기 판단 결과 상기 이동통신단말기가 대체 영상 서비스 가입자의 단말기일 경우, 상기 이동통신망에서 대체 영상 통화 호 설정을 수행하고 착신 단말기로 상기 대체 영상을 전송함에 의해 실시간 대체 영상을 이용한 화상 통화를 수행하는 단계를 포함하는 것을 특징으로 한다.

한편, 본 발명의 다른 특징에 따라 영상 처리 부분의 일부가 단말기에 구현 된 대체 영상 서비스 시스템의 경우, 카메라에서 획득한 비디오 신호 처리를 위한 비디오 디코더와, 상기 비디오 신호에 포함된 상기 실제 영상의 특징점 추출을 통해 대체 영상용 캐릭터 특징 정보를 생성하는 RFT 엔진을 포함하여 캐릭터 특징 정보 추출을 수행하는 RSC 모듈을 포함하도록 구성된 이통통신단말기; 및 상기 이동통신망의 코어 망에 연결되어 있으며, 상기 이동통신단말기로부터 압축된 상태로 수신된 오디오 신호를 복원하고 분석하여 음성 정보를 추출하는 실시간 립싱크 기능을 수행하는 오디오 처리부와, 대체 영상용 캐릭터 컨텐츠에 상기 음성 정보와 상기 이동통신단말기로의 대체 영상용 캐릭터 특징 정보를 결합하여 실시간으로 동영상인 대체 영상을 생성하는 RSC 인코딩 모듈을 포함하는 RSC 서버를 포함하는 것을 특징으로 한다.

또한, 영상 처리 부분의 일부가 단말기에 구현된 대체 영상 서비스 시스템을 이용하여 대체 영상 서비스를 수행하는 방법은, 상기 이동통신단말기로부터의 대체 영상 통화 호 설정 요청에 따라, 상기 이동통신단말기에서 상기 실제 영상에 대한 상기 캐릭터 특징 정보를 추출하는 단계; 상기 대체 영상 통화 호 설정 요청에 따라 상기 RSC 서버에서 대체 영상 서비스 가입 정보를 판단하는 단계; 상기 RSC 서버에서, 상기 대체 영상 서비스 가입 정보에 따라 상기 이동통신단말기에 대해 등록된 캐릭터를 활성화하고, 상기 오디오 처리부에서 추출한 상기 음성 정보와 상기 이동통신단말기로부터의 상기 캐릭터 특징 정보를 상기 등록된 캐릭터와 결합하여 실시간으로 대체 영상을 생성하는 단계; 및 상기 RSC 서버에서 상기 코어 망을 통해 착신 단말기로 상기 대체 영상을 전송함에 의해 실시간 대체 영상을 이용한 화 상 통화를 수행하는 단계를 포함하는 것을 특징으로 한다.

이하에서는, 첨부도면에 도시된 본 발명의 일 실시예를 참조하여 본 발명을 더 상세히 설명하기로 한다.

도 2의 대체 영상 서비스 시스템은 3G 통신망의 하나인 WCDMA(Wideband Code Division Multiple Access)망을 코어 망으로 이용하지만, 예컨대 IP(Internet Protocol) 기반 화상 통신에서 사용하는 SIP(Session Initiation Protocol) 전송 프로토콜과 H.323 코덱 기술 및 3.5G 이동통신서비스라 불리는 HSDPA(High Speed Downlink Packet Access, 고속하향패킷접속)에서 사용하는 SS7 프로토콜과 H.324M 프로토콜 및 H263 코덱 등 서로 다른 통신망에서 사용하는 다양한 프로토콜과 코덱 기술을 통합적으로 지원할 수 있으며, 서킷망의 TDM(Time Division Multiplexing, 시분할다중화) 트래픽과 데이터의 실시간 전송을 위한 패킷망의 RTP(Real-time Transport Protocol) 트래픽을 연결할 수 있는 미디어 게이트웨이(205)와 연동하기 때문에, 3G 이동통신사용자와 유선 화상 전화 사용자 간, 및 3G 이동통신사용자와 웹 화상 전화 사용자 간의 이종 통신망을 통한 대체 영상 통화 서비스를 지원할 수 있도록 구성되어 있으며, WCDMA, HSDPA, IP-TV, 유선전화망, 인터넷망 등 다양한 통신망을 연동할 수 있는 3세대 통신환경 및 그 이상의 진화된 통신환경에서도 적용 가능한 구조를 가지고 있다.

따라서, 도 2에 도시된 것과 다른 종류의 코어 망을 이용하거나 다른 종류의 통신망과 연동하는 경우에도 본 발명의 대체 영상 서비스 기능을 수행하기 위한 RSC 서비스 플랫폼(300)과 동일 또는 동등한 구성요소를 이용하여 대체 영상 서비스 시스템을 구성할 수 있음을 미리 밝혀 둔다.

도 2에서, 통상적인 WCDMA망의 구성요소는 이동통신망에 연결된 다수의 이동통신단말기(201)와, 기지국인 Node-B(202)와, 제어기인 RNC(203)와, 교환기인 MSC(204)과, 위치등록기인 HLR/HSS(206)과, 멀티미디어메시지센터인 MMSC(207)와, 인증서버인 AuC(208)와 이종 통신망과의 연동을 위한 미디어 게이트웨이인 G/W(205) 등이다.

한편, 본 발명에 따른 대체 영상 서비스 제공을 위해, 대체 영상 서비스를 위해 RSC 서비스 플랫폼(300)이 추가되고, 상기 G/W(205)는 상기 RSC 서비스 플랫폼(300)과 이종 통신망과의 연동을 지원하기 위한 프로토콜과 코덱 등을 구비하도록 구성되며, WEB/WAP 서버(408)와 같은 이종 통신망을 통해 컨텐츠 제공자(CP)(404)와, 사용자 단말기(401, 402)들이 접속되어 있다.

여기서, 이동통신단말기(201)는 2G, 3G 단말기 외에 향후 출시가능한 4G 단말기 등을 모두 포함하는 개념이며, Node-B(202)는 이동통신단말기(201)로 통화 채널을 연결해 주는 기지국이며, RNC(Radio Network Controller)(203)는 다수의 Node-B(202)를 제어하고 코어 망의 교환기와 연동하는 제어기이며, MSC(Mobile Switching Center)(204)는 RNC(203)를 코어 망과 연결하고 호를 스위칭하는 교환기이다.

G/W(Media GateWay)(205)는 통신망에 따라 트래픽 포맷의 형식을 변환하는 장비로서, 패킷음성전달망에서 서킷망의 TDM 트래픽을 패킷망의 비동기 전송 방식(ATM, Asynchronous Transfer Mode) 혹은 IP 트래픽으로 변환하는 트랜스 코딩(Trans-coding) 기능과 통화 호 제어를 위한 시그널 스위칭 기능을 수행한다.

HLR/HSS(Home Location Register/Home Subscriber Server)(206)은 이동통신가입자정보(즉, 위치정보, 인증정보, 서비스정보, 권한 및 부가정보 등)을 실시간으로 관리하며, MSC/VLR(204), AuC(208), MMSC(207), 및 RSC 서비스 플랫폼(300)과의 연동을 통해 발/착신, 인증, 멀티미디어메시지, 패킷 전송, 위치정보, 대체 영상 서비스와 같은 부가 서비스 설정 상태를 관리하고 기타 지능망 서비스를 제공한다.

AuC(Authentication Center, AC)(208)는 인증키와 알고리즘을 이용하여 서비스 가입자 인증과 무선상 암호를 제공하며, HLR/HSS(206)에 연동되어 동작을 수행한다.

MMSC(Multimedia Message Service Center(207)는 단문메시지서비스센터(SMSC)의 기능을 포함하도록 구성되어, 음성 메시지, 단문 메시지, 멀티미디어 메시지 서비스를 제공하며, 코어 망에 연결되어 인터넷 이메일을 포함하는 어떠한 형태의 멀티미디어 메시지도 수용할 수 있도록 메시지 서비스를 제공한다.

RSC(Real-time Substitutive Communications, 실시간 대체 영상 통화) 서비스 플랫폼(300)은 본 발명의 대체 영상 통화 구현을 위해 제공되는 핵심 구성요소로서, 대체 영상 통화를 위한 호 처리 및 서비스 관리를 위한 SGN(Signal Gateway Network) 서버(304), 실시간으로 대체 영상을 생성하기 위한 RSC 서버(306), 비실시간 대체 영상 서비스를 위한 LSS(Lip-Sync Service) 서버(308), 대체 영상용 캐릭터 컨텐츠와 서비스 가입자별 서비스 내용 및 학습된 개인 메타데이터를 포함하는 각종 데이터를 저장하는 저장장치(Storage)(307), 및 캐릭터의 등록과 캐릭터의 템플릿 변환 등 캐릭터 컨텐츠 관리를 하기 위한 CMS(Contents Management Service) 서버(406)를 포함하도록 구성된다. RSC 서비스 플랫폼(300)의 구성과 동작에 대해서는 다른 도면을 참조하여 상세히 후술하기로 한다.

대체 영상 서비스 제공을 위해서는 사전에 컨텐츠 제공자인 CP(404)들이나 사용자들이 대체 영상의 기본 모델로 이용될 수 있는 다양한 캐릭터 컨텐츠를 WEB/WAP(408) 서버를 통해 CMS(406)에 등록하여 저장장치(307)에 제공하고, 사용자들이 이동통신단말기(201)나 무선 인터넷 단말기 등의 무선 단말기(401) 또는 PC 등의 유선 단말기(402)를 이용하여 WEB/WAP서버(408)를 대체 영상 서비스 가입 및 캐릭터 설정 등의 절차를 수행한다.

도 3은 본 발명의 제 1 실시예에 따른 RSC(대체 영상 통화) 서비스 플랫폼의 구성도이다.

먼저, RSC 서버(306)는 수신된 비디오 신호를 복원 및 분석하여 영상의 특징점 정보의 변화를 추출하는 실시간 페이스 트래킹(Real-time Face Tracking, RFT) 기능을 수행하는 비디오 처리부와 수신된 오디오 신호를 복원하고 분석하여 음성 정보를 추출하는 실시간 립싱크(Real-time Lip-Sync, RLS) 기능을 수행하는 오디오 처리부, 및 저장장치(307)의 컨텐츠 DB에서 선택된 캐릭터에 RSC 엔진 모듈로부터의 영상 특징 정보와 음성 정보를 결합하여 동영상 캐릭터를 생성하는 RSC 인코딩 모듈을 포함하도록 구성된다.

SGN 서버(304)는 대체 영상 서비스 애플리케이션을 관리하고 운용하는 구성요소이다. SGN 서버(304)는 장치드라이버를 포함하여 RSC 서버(306), 컨텐츠 관리 서비스(Contents Management Service, CMS) 서버(406), 저장장치(307), 립싱크 서비스 서버(Lip-Synce Service)(308) 등 RSC 서비스 플랫폼(300)의 타 구성요소들 제어하고, 대체 영상 서비스와 관련하여 서비스 가입자가 설정한 정보(대체 영상용 캐릭터의 종류(즉, 캐릭터 ID), 캐릭터의 전송 시간, 방식, 모드 등)를 관리하며 설정된 서비스 가입자 정보에 따라 대체 영상 서비스가 이루어지도록 타 구성요소들을 제어한다.

발신자의 대체 영상 서비스 가입 여부 및 단말기에 대한 정보(예컨대, 대체 영상 서비스가 가능한 종류의 단말기인지)는 HLR/HSS(206)에 저장되어 RSC 서비스 플랫폼(300)으로의 호 처리에 이용되며, 서비스 가입 여부 및 단말기 종류 확인 이후의 대체 영상 서비스 제어는 SGN 서버(304)에 의해 수행된다. 대체 영상 서비스에 이용될 캐릭터 컨텐츠의 ID 또한 SGN 서버(304)에 의해 RSC 서버(306)로 전송되며, 이에 의해 RSC 서버(306)가 각각의 캐릭터를 식별할 수 있게 된다.

CMS 서버(406)는 컨텐츠 제공자 또는 대체 영상 서비스 이용자에 의해 제공되는 캐릭터 컨텐츠 및 서비스 가입자가 설정한 서비스 환경 정보(예컨대, 대체 영상용 캐릭터의 종류, 캐릭터의 전송 시간, 방식, 모드 등)를 등록하며, 등록된 서 비스 환경 정보를 SGN 서버(304)에 전달하여 SGN 서버(304)가 대체 영상 서비스를 제어할 수 있도록 한다. 또한, CMS 서버(406)은 컨텐츠 제공자가 제공한 캐릭터 컨텐츠의 템플릿을 편집하여 RSC 서버(306)에서의 실시간 적용이 가능한 형태로 변환하고, 변환된 캐릭터 컨텐츠를 저장장치(307)에 저장하는 기능을 수행한다.

LSS 서버(308)는 사용자 단말기의 요청에 의해 MMSC(207)에서 생성 및 전송되는 문자 또는 음성메시지나, 발신단말기와 착신단말기 간에 실시간 통화가 이루어지지 않을 경우(예컨대, 단말기 전원 오프, 통화권 이탈, 통화 중 등)에 자동으로 메시지를 생성하는 다른 부가서비스에 의해 MMSC(207)에서 생성 및 전송되는 문자 또는 음성 메시지에 캐릭터를 결합시켜 대체 영상 멀티미디어메시지(MMS)를 제공하는 비실시간 대체 영상 서비스 기능을 수행한다. LLS 서버(308)는 미리 녹음되거나 TTS에 의해 생성된 음성 파일을 대상으로 하여 캐릭터를 결합시키므로 실시간 대체 영상 생성 기능을 수행하지는 않는다.

LSS 서버(308)는 후술될 도 4의 RSC 서버(306)의 구성요소 중 오디오 신호 처리부와 RSC 인코딩 모듈(350)에 각각 대응되는 메시지 오디오 처리부(미도시)와 MMS 인코딩 모듈(미도시)를 포함하며, 입력된 메시지가 문자 메시지일 경우 이를 음성 메시지로 변환하기 위한 TTS 엔진(미도시)를 포함하도록 구성된다.

LSS 서버(308)의 메시지 오디오 신호 처리부는 MMSC(207)에 저장된 메시지에 포함된 메시지 오디오 신호를 분석하여 메시지 음성 정보를 추출하는 비실시간 립싱크 기능을 수행하며, MMS 인코딩 모듈은 SGN 서버(304) 및 저장장치(307)와 연동하여 사용자가 설정하거나 시스템에 설정된 캐릭터 영상을 불러와서 이를 메시지 오디오 신호 처리부로부터의 메시지 음성 정보와 결합시켜 메시지 음성 정보에 따라 입 모양이 결정되는 대체 영상을 생성하고 이를 MMSC(207)로 전송하는 기능을 수행한다.

저장장치(307)는 CMS 서버(406)에 등록된 모든 캐릭터 컨텐츠를 제공하고, SGN 서버(304)의 제어에 따라 RSC 서버(306)와 LSS 서버(308)로 캐릭터 컨텐츠를 전송하는 기능을 수행한다.

도 4는 본 발명의 제 1 실시예에 따른 대체 영상 통화(RSC) 서버의 구성도이다.

먼저, RSC 서버(306)는 비디오 디코더(310)와 RFT 엔진(320)을 포함하는 비디오 신호 처리부와, 오디오 디코더(330)와 RLS 엔진(340)을 포함하는 오디오 신호 처리부, 및 RSC 인코딩 모듈(350)로 구성된다.

비디오 디코더(310)는 이동통신망을 통해 수신한 비디오 신호를 디코딩하여 RFT 엔진(320)으로 전달한다.

RFT 엔진(320)은 페이스 분석 모듈(Face Analysis Module, F.A.)(322), 페이스 트래킹 모듈(Face Tracking Module, F.T.)(324) 및 모션 트래킹 모듈(Motion Tracking Module, M.T.)(326)을 포함하도록 구성된다.

페이스 분석 모듈(322)은 자체 메모리(미도시)를 이용하여 사람 얼굴의 기본적인 윤곽에 대한 특징점 정보를 미리 저장하고 있으며, 비디오 디코더(310)에서 입력된 영상의 윤곽을 이루는 특징점들을 추출하여 이를 저장된 기본 윤곽 특징점 정보와 비교함으로써 입력 영상이 사람의 얼굴 영상인지를 확인한다.

이와 관련하여 도 5a에는 윤곽 특징점이 표시된 입력 영상과 캐릭터 영상이 도시되어 있다.

도 5a의 좌측 영상은 이동통신단말기에서 전송한 비디오 신호에 포함된 실제 영상이며, 우측 영상은 RSC 서버(306)에서 생성하는 캐릭터 영상이다. 두 영상에는 사람 얼굴의 기본적 윤곽(즉, 머리, 눈썹, 눈, 코, 입 등의 상대적 위치)에 대한 특징점(및 연결선)들이 표시되어 있으며, 다수의 윤곽 특징점(및 윤곽 특징점의 연결선)들은 대체 영상 서비스 수행 여부를 결정하기 위해 입력 영상이 사람의 얼굴 영상인지를 신속하게 확인하는데 이용된다.

페이스 분석 모듈(322)에서 윤곽 특징점 판단 결과, 입력 영상이 사람의 얼굴이 아닌 경우, 디폴트 캐릭터를 이용한 대체 영상을 제공하거나 또는 대체 영상 서비스를 제공하지 않도록 시스템이 설정될 수 있다.

다시 도 4로 돌아가서, 페이스 분석 모듈(322)에서 입력 영상이 사람의 얼굴인 것으로 판단되면, 페이스 트래킹 모듈(324)은 입력 영상의 얼굴 부분의 개별 특징점의 변화 즉, 이동 상태를 실시간으로 추적하며, 모션 트래킹 모듈(326)은 입력 영상의 윤곽 특징점 변화를 실시간으로 추적한다.

이와 관련하여 도 5b에는 개별 특징점이 추가로 표시된 입력 영상과 캐릭터 영상이 도시되어 있다.

좌측의 영상에는, 윤곽 특징점 외에, 입력된 영상에 포함된 사람 얼굴의 특징을 나타내는 개별 특징점(즉, 머리, 눈썹, 눈, 코, 입, 귀 등의 구체적 형태)들 이 추가로 표시되어 있으며, 우측에는 윤곽 특징점과 개별 특징점들의 상대적 위치를 그대로 반영하여 생성된 캐릭터 영상이 도시되어 있다. 입력 영상의 머리의 움직임 표정의 변화 등은 윤곽 특징점과 개별 특징점의 위치 변화를 발생시키며, 이러한 위치 변화는 페이스 트래킹 모듈(324)과 모션 트래킹 모듈(326)에 의해 각각 실시간으로 추적되어 캐릭터 영상에 반영된다.

본 발명의 경우 입력 영상의 눈썹, 눈, 코, 입 귀 등의 구체적 형태를 표현할 수 있도록 각 부분마다 다수의 개별 특징점들이 추가되어 있어서, 입력 영상의 특징을 그대로 재현한 캐릭터를 생성할 수 있다.

다시 도 4로 돌아가서, 페이스 트래킹 모듈(324)과 모션 트래킹 모듈(326)에서 추적하여 제공하는 특징점들의 변화는 대체 영상용 캐릭터의 동작과 표정을 결정하는데 이용되는 캐릭터 특징 정보로서 RSC 인코딩 모듈(350)의 RSC 애니메이션 엔진(352)으로 전달된다.

한편, 오디오 디코더(330)는 입력된 오디오 신호를 디코딩하여 RLS 엔진(340)에 제공한다.

RLS 엔진(340)은 입력된 오디오 신호 중 음성 신호를 추출하는 음성 분석 모듈(Voice Analysis Module)(342)과, 실시간 립싱크를 수행하는 실시간 립싱크 모듈(Real-Time Lip-Sync Modue)(344)과, 립싱크된 음성 신호를 변조하는 음성 변조 모듈(Voice Disguise Module)(346)을 포함하도록 구성된다.

먼저, 음성 분석 모듈(342)은 입력된 오디오 신호 중 음성만을 추출하기 위 해서, 본 발명에서 설정한 소정의 음성 대역에 해당하는 주파수의 신호를 제외한 나머지 대역의 신호를 필터링하여 제거한 후 음성 대역 신호를 증폭한다.

즉, 통상적으로 사람의 가청주파수는 약 20~20,000Hz이고 평상시 대화에 사용되는 음성의 주파수는 약 100~5,000Hz이지만, 이동통신 이용시에 약 300~3,400Hz 대역의 음성 신호만을 처리하더라도 실험자의 83% 이상이 상대방의 음성을 명확하게 인식한다는 음성학적 특성을 고려하여 하여 300~3,400Hz 대역의 신호만을 필터링한다.

300~3,400Hz의 주파수 대역에도 음성 이외의 다른 종류의 오디오 신호가 포함될 수 있지만, 음색, 음의 고저, 패턴의 규칙성 등과 같은 오디오 특성이 음성과 구별되므로, 이를 이용하여 음성 분석 모듈(332)에서는 미리 설정된 음성 패턴과 상이한 오디오 특성을 가진 주파수를 제외한 음성 신호만을 분리하게 된다.

이와 같은 음성 추출 방식은 대부분 제한된 범위 내의 진폭과 주파수를 갖는 음성 신호를 위주로 처리하는 이동통신의 특성을 이용하여, 기존의 오프라인 상에서의 복잡한 음성 추출 방법을 이용하지 않고도, 간단하고도 효과적으로 오디오 신호에서 음성 신호만을 추출할 수 있도록 한다.

이어서, 사람이 전화 통화시 사용하는 대부분의 발음에 따른 입 모양이 저장장치(307)에 입 모양 데이터베이스로 저장된 상태에서, 실시간 립싱크 모듈(334)은 음성 분석 모듈(332)에서 획득한 음성 신호에 포함된 각 음성에 고유한 음성 파라미터 DNA를 추출함에 의해 개개인의 음성 패턴에 따른 립싱크 변수를 추출하며, 추출된 립싱크 변수는 입 모양 데이터베이스에 저장된 입 모양 중 하나에 대응되도록 매칭된다.

정확한 립싱크 변수를 추출하기 위해서는, 입 모양 데이터베이스에 저장되는 입 모양에는 모든 종류의 모음에 대한 입 모양과, 초성과 종성의 차이에 따른 모음의 변화된 입 모양(예컨대, "ㅏ" 발음의 경우에도 "가"와 "파"의 경우에는 입 모양의 변화 상태가 상이함), 연음 등의 특성에 따른 입 모양의 변화 과정 등을 모두 고려해야 하며, 결국 모든 한글의 글자와 발음(글자로 표현하기는 곤란하지는 대화에 이용되는 발음들을 포함함) 및 주요 단어에 대해 입 모양과 그 변화 과정을 실험적인 방법으로 확보하여 입 모양 데이터베이스로 저장할 필요가 있다.

또한, 입 모양 데이터베이스는 시스템의 의해 설정된 소정의 기준 주파수 범위에 속하는 각각의 발음에 대응되도록 표준화된 입 모양 데이터 외에도 기준 주파수 보다 높거나 낮은 발음에 대응되도록 변화된 입 모양 데이터까지도 포함하고 있다.

따라서, 개인별 음성 파라미터 DNA의 차이로 인해 예컨대 추출된 음성 신호의 주파수 범위가 상기 기준 주파수 범위를 벗어나는 경우, 실시간 립싱크 모듈(344)은 추출된 음성 신호의 주파수 범위에 상응하는 변화된 입 모양 데이터를 매칭시킴으로써 보다 정확하게 입 모양을 표현할 수 있는 립싱크 변수를 추출할 수 있다.

한편, 실시간 립싱크 모듈(344)에서 추출하여 제공되는 립싱크 변수는 SGN 서버(304)의 제어에 의해 저장장치(307)로 보내어져, 해당 이동통신단말기(201)에 대응하는 데이터 필드에 저장되어 개인화된 메타 데이터로 축적되고, 이에 따라 각 사용자의 음성 특징에 대한 학습 데이터가 구축되며, 향후 동일 이동통신단말기(201)를 이용한 대체 영상 통화 서비스 시에 표준 음성에 대응하는 립싱크 변수가 아닌 개인화된 메타 데이터에 따른 립싱크 변수가 곧바로 디폴트 음성 모델로 이용되므로 보다 정확하고 신속한 입 모양 매칭을 가능하게 한다.

즉, 입력된 음성 신호의 고유한 특징을 나타내는 음성 파라미터 DNA를 추출하여 개개인의 음성 패턴 메타데이터로 별도로 저장하고, 소정 기간 또는 소정 회수 만큼의 반복 저장을 통해 해당 음성 신호의 고유한 특징을 학습하게 되며, 이를 이용하여 애니메이션 생성 시에 표준화된 모핑(morphing)을 하지 않고 학습된 메타데이터를 이용하여 개개인의 음성 특성에 맞는 애니메이션 싱크를 적용할 수 있게 된다.

예컨대, 최초로 대체 영상 서비스를 이용하는 경우에 적용되는 입 모양 데이터는 기준 주파수 범위의 음성에 대응하여 매칭되지만, 상기 기준 주파수 범위를 벗어나는 음성 주파수 범위를 가지는 사용자가 수초 이상 또는 수회에 걸쳐 대체 영상 통화를 수행하는 경우, 추출된 음성 신호의 주파수 범위에 상응하는 변화된 입 모양 데이터를 나타내는 립 싱크 변수가 추출되어 개인화된 메타 데이터로 축적되므로, 향후 동일 사용자의 대체 영상 통화시에는 상기 기준 주파수 범위가 아닌 해당 사용자의 음성 주파수 범위에 맞는 변화된 입 모양 데이터를 곧바로 매칭시킬 수 있게 된다.

음성 변조 모듈(346)은 주파수 대역, 음색, 억양 등을 달리하는 다양한 종류의 음성(예컨대, 남성, 여성, 연예인, 밝은 목소리, 우울한 목소리 등 임의로 지정 할 수 있음)을 캐릭터 음성 데이터베이스로 저장하고, 통화자의 실제 음성 대신을 대신하여 캐릭터의 음성으로 이용할 수 있도록 한다.

실시간 립싱크 모듈(334)에서 추출된 립 싱크 변수와 선택적으로 음성 변조 모듈(346)에서 제공되는 캐릭터 변조 음성 변수는 캐릭터의 입 모양과 목소리를 결정하기 위한 캐릭터 음성 정보로서 RSC 인코딩 모듈(350)로 전송된다.

RSC 인코딩 모듈(350)는 RFT 엔진(320)과 RLS 엔진(340)으로부터의 캐릭터 특징 정보와 캐릭터 음성 정보를 저장장치(307)의 컨텐츠 DB에서 선택된 캐릭터 컨텐츠 및 입 모양 데이터와 결합하여 동영상을 생성하며, 이를 위해 RSC 애니메이션 엔진(Realtime Subsitutive Communications Animation Engine)(352)과, 이미지 렌더러(Image Renderer)(354)와, 비디오 인코더(Video Encoder)(356)를 포함하도록 구성된다.

사람마다 발음 특성이 상이하므로 서로 다른 통화자는 동일한 발음에 대해서도 조금씩 다른 입 모양을 가지기 마련이며, 동일한 사람의 경우에도 동일한 발음에 대해 때에 따라 상이한 입 모양으로 발음할 뿐 아니라 서로 다른 발음에 대한 입 모양이 거의 유사할 수 있다. 이러한 현상은 페이스 트래킹 방식으로 추출된 영상에서의 입 모양만으로는 음성을 정확하게 예측할 수 없음을 의미한다.

따라서, 본 발명의 RSC 애니메이션 엔진(352)은 페이스 트래킹 모듈(324)과 모션 트래킹 모듈(326)로부터 입력된 캐릭터 특징 정보와, 실시간 립싱크 모듈(344)과 음성 변조 모듈(346)로부터 입력된 캐릭터 음성 정보를 실시간으로 결합 하여 음성이 포함된 캐릭터 동영상을 생성한다.

본 발명에 따라 캐릭터 동영상을 생성하기 위한 하나의 방법은, RSC 애니메이션 엔진(352)에서 저장장치(307)의 캐릭터 데이터베이스에 포함된 캐릭터 중에서 사용자가 설정한 캐릭터(사용자의 설정이 없을 경우, 미리 지정된 디폴트 캐릭터)를 불러와서, 실시간 페이스 트래킹 엔진(320)으로부터 수신한 캐릭터 영상 정보에 포함된 특징점들을 반영시켜 전송용 대체 영상을 생성한 후, 실시간 립싱크 엔진(340)으로부터 수신한 캐릭터 음성 정보에 따른 입 모양 데이터를 저장장치(307)에서 불러와서 전송용 대체 영상의 캐릭터 입 모양을 보정하는 것이다. 이러한 보정은 대체 영상의 캐릭터 입 모양의 특징점들을 상기 입 모양 데이터에 맞추어 조정함에 의해 수행된다.

이와 달리, 캐릭터 동영상을 생성하기 위한 다른 방법은, 설정된 캐릭터 및 실시간 립싱크 엔진(340)으로부터 수신한 캐릭터 음성 정보에 따른 입 모양 데이터를 저장장치(307)에서 불러와서 이를 RSC 애니메이션 엔진(352)에서 합성하여 전송용 대체 영상을 생성한 후, 실시간 페이스 트래킹 엔진(320)으로부터 수신한 캐릭터 영상 정보에 포함된 캐릭터 특징점들을 반영시켜(입 모양 부분 제외) 전송용 대체 영상의 캐릭터의 표정을 보완하는 것이다. 이때, 캐릭터 영상 정보에 포함된 입 모양 부분에 대한 캐릭터 특징점들은 대체 영상 생성에 이용되지 않고 폐기된다.

이상의 방법에 따르면, 캐릭터 영상 정보에 포함된 캐릭터 영상의 입 모양 부분이 캐릭터 음성 정보에 따라 제공되는 입 모양으로 대체되기 때문에, 예컨대 " ㅏ" 발음의 경우 캐릭터가 "ㅏ" 발음에 해당하는 정확한 입 모양을 표현하도록 해 준다.

또한, 이러한 입 모양 보완 특성과 관련하여, RLS 엔진(340)에서는 각 음소에 대해 기준 주파수 범위에 대응하는 표준화된 입 모양 데이터를 이용하여 생성한 표준 입 모양을 대체 영상에 적용할 수 있으며, 이러한 경우 개별 사용자의 입 모양 차이에도 불구하고 대체 영상의 입 모양이 음성 정보의 내용에 최적화되어 표시되도록 해주며, 특히 청각장애인과 같이 입 모양과 같은 시각 정보에 의존하여 정보를 받아들이는 사람들도 본 발명의 서비스를 이용할 수 있도록 하는 효과를 가진다.

한편, 이상의 경우는 이동통신환경이 양호한 경우를 상정한 것이지만, 실제의 이동통신환경 특히, 도심에서의 이동통신환경의 경우에는 통신신호의 전송환경이 통화자의 이동, 장애물의 출현 등으로 인해 시시각각으로 변하게 된다. 따라서, 비디오 디코더(310)에 입력된 비디오 신호의 품질이 우수한 상황에서는 캐릭터 영상 정보를 위주로 하여 캐릭터 영상을 생성하며, 오디오 디코더(330)에 입력된 오디오 신호의 품질이 상대적으로 우수한 상황에서는 캐릭터 음성 정보를 위주로 하여 캐릭터 영상을 생성하는 것이 바람직하다.

이를 위해, RSC 애니메이션 엔진(352)에는 비디오 디코더(310)와 오디오 디코더(330)로부터 신호 품질에 대한 정보(QoS)를 수신하여 비디오 신호와 오디오 신호가 각각의 품질 기준치를 초과하는지를 판단하고, 비디오 신호와 오디오 신호 중 상대적으로 양호한 신호를 판단하는 수단(미도시)이 구비될 수 있다. 물론, 이동통신망 내의 타 구성요소에서 제공되는 QoS 데이터가 있을 경우에는 상기 신호 판단 수단이 별도로 구비될 필요가 없을 것이다.

상기 신호 판단 수단은 해당 신호의 품질 저하 여부를 일시적인 손실과 장기간의 손실로 구분할 수 있다. 일시적인 손실은 비디오 신호와 오디오 신호의 프레임 일부가 손실된 경우이며, 장기간의 손실은 통신환경의 변경으로 인해 통화가 차단되거나 신호 수신이 장시간 불량해지는 경우이다.

RSC 애니메이션 엔진(352)은 비디오 신호와 오디오 신호의 일부 프레임에 일시적 손실이 발생할 경우, 손실이 발생하지 않은 신호를 근거로 캐릭터 영상과 입 모양을 생성하여, 신호의 일시적 손실에 상관없이 대체 영상을 지속적으로 제공할 수 있도록 한다. 예를 들어, 비디오 신호의 일부 구간의 데이터가 손실된 경우에는 해당 구간의 캐릭터 영상의 입 모양은 캐릭터 음성 정보를 이용하여 보완하고, 오디오 신호의 일부 구간의 데이터가 손실된 경우에는 해당 구간의 캐릭터 영상의 입 모양은 캐릭터 영상 정보를 이용하여 보완하는 것이다.

한편, 신호 수신이 장시간 불량해질 경우에 있어서, 오디오 신호가 지속적으로 품질 기준치에 미달할 경우에는 비디오 신호만을 기준으로 캐릭터 영상과 입 모양을 생성하며, 비디오 신호가 지속적으로 품질 기준치에 미달할 경우에는 오디오 신호를 기준으로 캐릭터 입 모양과 캐릭터 영상을 생성하게 된다. 이와 같이 오디오 신호를 기준으로 캐릭터 영상을 생성하기 위해서는, 각 발음에 적합한 얼굴 표정의 특징점 분포를 미리 데이터베이스로 준비해 두어야 한다.

또한, RSC 애니메이션 엔진(350)은 대체 영상의 생성을 위해 비디오 신호와 오디오 신호의 동기를 맞추는 동기 수단(미도시)을 포함한다. RSC 애니메이션 엔진(352)의 동기 수단은 주기적으로 캐릭터 영상과 캐릭터 음성을 동기시키며, 상기한 바와 같이 비디오 신호와 오디오 신호의 품질의 변동으로 인해 영상 보완이 수행될 경우에도 동기 신호를 생성하여 캐릭터 영상과 캐릭터 음성을 동기시킨다.

이어서, 이미지 렌더러(354)는 캐릭터 영상 데이터를 컴파일하여 데이터량을 축소시키는 동시에 캐릭터 영상과 캐릭터 음성을 다시 한번 동기시켜 캐릭터 영상의 움직임을 가장 자연스러운 패턴으로 최적화시키는 기능을 수행한다. 또한 이미지 렌더러(354)는 캐릭터 영상 정보의 급격한 변화 등을 자연스럽게 보간하는 영상 보간법 등 공지의 다양한 영상 처리 방법을 적용할 수 있다.

마지막으로 비디오 인코더(356)는 이동통신망에서 지원하는 적절한 영상 포맷으로 캐릭터 대체 영상을 인코딩하여 전송한다.

도 6은 본 발명의 제 1 실시예에 따른 대체 영상 서비스 순서를 도시하고 있다.

먼저, (1) 컨텐츠 업로드 단계에서, CP(404)들이 CMS 서버(406)에 다양한 캐릭터 컨텐츠를 미리 등록하여 놓는다. 대체 영상 서비스에 가입한 사용자들의 경우에도 자신의 유무선 단말기(201, 401, 402)를 이용하여 자신이 생성한 캐릭터 컨텐츠를 CMS 서버(406)에 등록할 수 있다.

이어서, (2) 컨텐츠 구입 및 설정 단계에서, 사용자가 자신의 유무선 단말기(201, 401, 402)를 이용하여 대체 영상 서비스에 가입함에 따라 사용자가 설정한 서비스 환경이 CMS 서버(406)에 등록된다.

그러면, (3) 컨텐츠 ID 등록 단계에서, CMS 서버(406)는 대체 영상 서비스 가입 여부와 가입자의 단말기 정보 등을 HLR/HSS(206)로 통지하고, 서비스 등록 사항을 SGN 서버(304)에 통보하며, 사용자가 등록한 컨텐츠의 ID를 RSC 서버(306)에 등록하여 대체 영상 서비스 수행을 준비한다.

이제, (4) 통화시도 단계에서, 대체 영상 서비스 가입자가 자신의 단말기를 이용하여 대체 영상 통화를 요청하면, (5) 호 설정 요청/응답 단계에서, 발신 MSC(204), HLR/HSS(206) 및 SGN 서버(304)가 연동하여 서비스 가입 여부를 확인한 후 대체 영상 서비스를 위한 호를 설정하며, (6) 대체 영상 호 처리 단계에서, RSC(306)에서 대체 영상을 생성하여 착신 MSC(204)로 전송함으로써, (7) 대체 영상 통화 연결 단계에서, 발신자(201, 401)와 착신자(201) 간에 대체 영상 통화가 실시간으로 수행된다.

한편, 착신자와의 통화가 불가능한 경우 또는 발신자가 음성 메시지나 문자 메시지를 생성하여 이를 대체 영상 메시지로 전송하고자 할 경우, MMSC(미도시)가 SGN 서버(304) 및 LSS 서버(308)와 연동하여 대체 영상 서비스 가입자인 발신자가 설정한 캐릭터 영상을 이용하여 대체 영상 MMS를 생성한 후 이를 착신자의 이동통신단말기로 전송하게 된다.

RSC 서버(306)를 경유하는 대체 영상 통화는 통화 중에 입력되는 비디오 신 호와 오디오 신호를 실시간으로 분석하여 대체 영상을 제공하는 실시간 서비스이지만, LSS 서버(308)를 이용한 대체 영상 서비스는 미리 생성되어 저장된 음성 메시지(또는 문자 메시지를 변환한 음성 메시지)를 파일 단위로 분석하여 대체 영상을 제공하는 비실시간 서비스인 점에서 차이가 있다.

도 7은 본 발명의 제 1 실시예에 따른 대체 영상 서비스 방법에서의 호 처리 순서를 도시하고 있다.

본 발명의 대체 영상 서비스를 위해서 사용자가 사전에 서비스에 가입하고 자신이 대체 영상 통화에 이용할 캐릭터를 설정한다(S310). 이 단계에서 사용자는 자신이 직접 작성한 캐릭터를 업로드하여 대체 영상 통화용으로 사용하도록 설정할 수도 있다.

다음, 서비스 가입자가 대체 영상 통화를 위해 발신단말기를 이용하여 상대방에게 전화를 걸어 대체 영상 호 설정 요청을 한다(S320). 대체 영상 통화 호 설정 요청은 특정 서비스 코드와 함께 착신단말기의 전화번호를 입력하거나, 발신 단말기에 제공되는 소프트키 또는 핫키와 함께 착신단말기의 전화번호를 입력함에 의해 수행된다.

이어서, 대체 영상 호 설정 요청이 발신MSC를 거쳐 전송되며, 발신MSC에 연결된 HLR/HSS(미도시)에서 각 단말기의 대체 영상 서비스 가입 여부 및 화상 통화 가능 단말 여부를 확인하게 되고, 대체 영상 서비스가 가능할 경우 호 설정 요청은 발신G/W를 거쳐 RSC 플랫폼으로 전송된다. RSC 플랫폼은 사용자 인증, 사용자 설 정 캐릭터 활성화 등 대체 영상 통화 준비를 수행한 후(S322), 호 설정 요청을 착신단말기가 이용하는 이동통신망으로 전송하며, 착신G/W와 착신MSC를 거친 대체 영상 호 설정 요청을 착신단말기가 수신하게 되고(S324), 착신단말기의 대체 영상 호 연결 응답(S328)에 의해 대체 영상 통화를 위한 호 설정이 이루어지게 된다(S328).

상기 단계에서 호 설정이 완료되면, 발신단말기와 착신단말기 사이에 실시간 대체 영상 통화가 수행된다. 발신단말기에서 발신MSC를 통해 실제 영상을 전송하게 되면(S360), 발신G/W에서 RSC 플랫폼에서 처리할 수 있는 포맷의 영상으로 전환하여(S330) RSC 플랫폼으로 전송하며, RSC 플랫폼에서는 실제 영상에 대응하는 대체 영상을 생성하여(S340) 착신측 통신망의 G/W로 전달하고, 착신G/W는 해당 통신망의 통신 방식에 적절한 포맷의 미디어로 전환하여(S350) 착신MSC를 거쳐 착신단말기로 대체 영상을 전송하며(S370), 착신단말기도 이에 응답하여 사용자의 실제 영상을 전송하게 되고(S380), 전송된 실제 영상은 RSC 플랫폼에서 대체 영상으로 전환되어 발신단말기로 전송하게 되면서(S390), 대체 영상 통화가 수행된다.

도 7에 도시된 발신G/W, 착신G/W와 같은 소위 미디어 게이트웨이는 이종 통신망을 연동시키기 위한 구성요소로서, 각 통신망에 적용되는 전송 프로토콜과 미디어 코덱 등을 포함하고 있어서 발신측 통신망으로부터 전송된 미디어 데이터를 착신측 통신망에서 지원가능한 형태의 미디어 데이터로 변환하는 기능을 수행한다.

따라서, 이러한 미디어 게이트웨이를 코어 망에서 구비하지 않은 통신망에 본 발명의 대체 영상 시스템이 적용될 경우, RSC 플랫폼에서 생성한 대체 영상을 착신 단말기가 이용하는 통신망에 적합한 포맷으로 변환하는 수단이 RSC 플랫폼에 제공되어야 한다.

한편, 발신단말기와 착신단말기 사이에 일반 통화를 수행하는 중에, 단말기에 구비된 소프트키 또는 핫키를 통해 대체 영상 통화를 요청할 수 있으며, 이러한 경우에는 도 7의 대체 영상 호 설정 구간의 대체 영상 통화 준비 단계(S322) 및 실시간 대체 영상 통화 구간의 전체 단계가 곧바로 실행된다.

한편, 본 발명은 화상 통화를 지원하지 않는 종류의 단말기(예컨대, 2G 단말기)의 경우에도 적용될 수 있는데, 도 8a와 도 8b는 화상 통화가 가능한 3G 단말기와 화상 통화를 지원하지 않는 2G 단말기 사이에서의 대체 영상 서비스 방법을 예시적으로 도시하고 있다.

먼저, 도 8a는 대체 영상 서비스에 가입한 발신자의 3G 단말기와 서비스 미가입자인 착신자의 2G 단말기 사이의 대체 영상 서비스 방법이다. 먼저, 발신단말기가 대체 영상 통화를 요청하면, 발신단말기를 관리하는 HLR(206)에서 착신단말기의 HLR과 연동하여 착신단말기의 화상 통화 가능 여부를 확인하고, 이때 착신단말기가 2G 단말기로 판명됨에 따라 발신단말기에 발신자지정 대체 영상을 제공하도록 설정하고, 착신단말기로부터 입력되는 음성에 맞추어 발신단말기로 대체 영상을 제공한다.

한편, 도 8b는 대체 영상 서비스에 가입한 발신자의 2G 단말기 및 착신자의 3G 단말기 사이의 대체 영상 서비스 방법이다. 발신단말기는 자신의 단말기로 대체 영상을 수신할 수는 없지만 상대방의 단말기에 전송될 자신의 대체 영상을 지정 할 수는 있다. 먼저, 발신단말기(2G)에서 대체 영상 통화를 요청하면, 발신단말기를 관리하는 HLR(206)에서 착신단말기가 3G 단말기임을 확인하고, 발신자가 지정한 대체 영상용 캐릭터에 발신자의 음성 정보를 결합하여 대체 영상을 생성하고 이를 착신단말기로 전송한다.

이때, 착신자가 대체 영상 서비스 가입자일 경우, 상대방이 지정한 대체 영상에 관계없이, 자신이 설정한 캐릭터 영상의 상대방의 대체 영상으로 표현되도록 지정할 수 있으며, 만약 하나의 통화 호에 발신자 지정 대체 영상와 착신자 지정 대체 영상이 충돌하는 경우에는 착신자 지정 대체 영상을 우선하는 것이 바람직하다.

정리하면, 화상 통화를 지원하는 단말기를 보유한 대체 영상 서비스 가입자의 경우 자신의 대체 영상과 상대방의 대체 영상을 모두 지정할 수 있으며, 화상 통화를 지원하지 않는 단말기를 보유한 대체 영상 서비스 가입자의 경우 상대방에게 전송되는 자신의 대체 영상만을 지정할 수 있다.

도 9는 본 발명의 제 1 실시예에 따른 대체 영상 통화용 단말기의 디스플레이 구성을 도시하고 있다.

대체 영상 통화시 단말기의 디스플레이(710)에는 통상의 소프트키와 함께 대체 영상 통화 호 설정 요청을 위한 소프트키(720)가 표시된다. 또한 단말기의 키패드 상에는 통상의 버튼(740) 외에 대체 영상 호 설정 요청을 위한 핫키(730)가 별도로 구비될 수 있다.

도 9의 좌측 첫번째 단말기 화면은 소프트키(720)를 이용하여 화상 통화 중에 대체 영상 호 설정 요청을 수행되어 대체 영상이 전송되어 메인 영상으로 디스플레이되는 과정과, 다시 일반 화상 통화로 복귀하면서 실제 영상이 메인 영상으로 디스플레이 되는 과정이 도시되어 있다.

한편, 도 9에서는 상대방의 영상(실제 영상 또는 대체 영상일 수 있다)(712)과 자신의 실제 영상(713) 및 자신의 대체 영상(714)이 단말기 화면에 동시에 표시되고 있는 점에 주의해야 한다. 통상의 단말기에는 카메라와 같은 영상 입력 수단이 구비되어 있으므로 자신의 실제 영상을 표현하는 것은 일반적이지만, 도 9와 같이 상대방의 영상과, 자신의 대체 영상이 추가로 동시에 표현되기 위해서는, 단말기의 디스플레이 화면을 분할하는 기술 외에 단말기 자체에서 대체 영상을 생성하는 기술 또는 하나의 단말기에 2 개의 발신 채널과 수신 채널을 할당하는 기술이 구현된 3G 이상의 단말기를 이용하여야 할 것이다.

먼저, 하나의 단말기에 2 이상의 발신 채널과 수신 채널이 구비된 경우로서 예컨대, 3G 통신망의 일종인 WCDMA 망에서 이용되는 단말기의 경우, 듀얼 채널 기술을 지원하므로 대체 영상 통화시 RSC 플랫폼에서 발신자의 대체 영상과 착신자의 실제 영상(또는 대체 영상)을 각각 음성 트래픽 채널과 데이터 트래픽 채널의 2개 채널을 통해 발신 단말기로 전송할 수 있으며, 이에 따라 도 9에 도시된 바와 같이 하나의 단말기에 상대방의 영상과 자신의 대체 영상이 모두 표현될 수 있다.

한편, RSC 플랫폼에서 대체 영상을 생성하여 전송하는 것이 아니라 단말기에서 자체적으로 대체 영상을 생성하여 전송하는 경우에도 도 9와 같이 하나의 단말 기에 상대방의 영상과 자신의 대체 영상 및 실제 영상이 모두 표현될 수 있으며, 이에 대해서는 본 발명의 제 2 실시예에서 상술하기로 한다.

도 10은 본 발명의 제 2 실시예에 따른 대체 영상 서비스 시스템의 구성도이다.

도 10은, RSC 서비스 플랫폼이 이동통신망에서 분리되어 이동통신사용자의 단말기(1000)에 구현된 점(단, 제 2 실시예의 경우에도 컨텐츠 등록과 관리를 위한 CMS 서버(406)는 이동통신망 내에 구비되어야 한다)이 제 1 실시예와 다르며, 나머지 구성은 동일 내지 유사하다.

도 11은 본 발명의 제 2 실시예에 따른 대체 영상 서비스 시스템에서 이용되는 RSC 모듈 탑재 이동통신단말기의 구성이다.

도 11의 RSC 모듈 탑재 이동통신단말기(1000)는 사용자의 실제 영상 획득을 위한 카메라부(1120)와, 오디오 신호의 입출력을 담당하는 마이크로폰과 스피커를 포함하는 오디오부(1140)와, 대체 영상 서비스 요청을 위한 소프트키와 핫키가 구비된 키입력부(1160)와 실제 영상과 대체 영상을 디스플레이하기 위한 표시부(1180)와 대체 영상 생성을 수행하는 RSC 모듈(1300)과, 대체 영상용 캐릭터를 포함하는 데이터를 저장하는 데이터 메모리와 대체 영상 생성 기능을 수행하기 이한 소프트웨어 프로그램을 포함하는 단말기 동작 프로그램을 저장하는 프로그램 메모리로 구성된 메모리(1140)와, 전송 신호의 송신과 수신을 각각 담당하는 송신 기(Tx)(1220)와 수신기(Rx)(1240) 및 안테나에 연결되어 송수신 주파수를 분리하는 듀플렉서(1260), 및 다른 구성요소들과 연결되어 각 구성요소의 기능을 제어하는 적어도 하나의 마이크로프로세서로 구성되는 제어부(1100)를 포함하도록 구성된다.

RSC 모듈(1300)은 제 1 실시예의 RSC 서버에 대응되는 구성으로서, 비디오 신호 처리를 위한 비디오 디코더(1310) 및 RFT 엔진(1320)과, 오디오 신호 처리를 위한 오디오 디코더(1330) 및 RLS 엔진(1340)과, RFT 엔진(1320)으로부터의 캐릭터 특징 정보와 RLS 엔진(1340)으로부터의 캐릭터 음성 정보를 메모리(1140)에 저장된 설정 캐릭터와 결합하여 대체 영상을 생성하고 이를 렌더링한 후 이동통신망의 전송 대역폭과 전송 속도에 적합한 포맷으로 변환하는 RSC 인코딩 모듈(1350)를 포함하도록 구성된다.

도 12는 본 발명의 제 2 실시예에 따른 대체 영상 서비스 방법에서의 호 처리 순서를 도시하고 있다.

제 2 실시예의 대체 영상 서비스를 위해서는, 사용자가 사전에 서비스에 가입하고, 자신이 대체 영상 통화에 이용할 캐릭터를 직접 생성하거나 또는 CMS 서버(또는 CMS 서버에 연결된 저장장치)(406)로부터 다운로드하여 자신의 단말기에 저장하는 대체 영상 서비스 가입 구간(미도시)이 선행되어야 한다.

다음, 발신단말기로부터의 대체 영상 통화 호 설정 요청(S1322)에 의해 발신단말기와 착신단말기 사이에 실시간 대체 영상 통화가 수행되는데, 이때 발신단말기는 RSC 모듈 탑재 단말기이므로 자체적으로 대체 영상을 생성하여(S1320) 호 설 정을 요청하게 되며, 이에 따라 발신측 G/W에서는 해당 대체 영상을 G/W간의 통신에 적합한 포맷으로 전환하여(S1324) 착신측 G/W로 전달하며, 착신G/W에서는 수신한 대체 영상을 자체 통신망에 적절한 포맷으로 전환하여(S1326) 착신MSC를 거쳐 착신단말기로 전송한다.

이어서 착신단말기는 발신단말기로부터 대체 영상을 수신하고(S1328), 이에 대응하여 자체적으로 착신자의 대체영상을 생성하고(S1330), 생성된 착신자의 대체 영상을 포함하는 대체 영상 호 연결 응답 신호를 착신MSC, 착신G/W, 발신G/W, 발신MSC를 거쳐 적절한 형태의 미디어 포맷으로 전환하면서 발신단말기로 전송하며(S1332, S1334), 발신단말기에서 이를 수신하여 재생함으로써(S1338) 대체 영상 통화가 개시된다.

이상의 과정에서 CMS 서버를 제외한 RSC 서비스 플랫폼은 대체 영상 통화 연결에 기여하지 않는다. 그러나, 두 개의 단말기 중 하나의 단말기가 대체 영상 생성 기능을 구비하지 않은 2G 또는 3G 단말기인 경우, RSC 서비스 플랫폼이 개입하여 대체 영상을 생성하고 이를 전송하게 되므로, 결국 제 1 실시예와 제 2 실시예의 결합 형태로 대체 영상 서비스가 수행된다.

한편, 제 2 실시예에서와 같이 이동통신단말기에 RSC 모듈이 구현될 경우, 대체 영상의 생성 과정이 이동통신환경의 변화에 무관하게 진행되므로 대체 영상 생성시에 신호 품질 판별 수단 등의 도움이 불필요하게 된다.

또한, 제 2 실시예의 경우, 도 8에서와 같이, 이동통신단말기에 입력되는 자신의 실제 영상과 함께 자체 RSC 모듈에서 생성된 대체 영상이 동시에 디스플레이 될 수 있으므로, 사용자는 상대방에게 전달되는 자신의 실제 영상뿐만 아니라 대체 영상의 표현 상황을 관찰할 수 있으며, 실제 영상과 대체 영상 중 원하는 영상을 송신하도록 송신 영상을 전환할 수 있고, 반복적인 서비스 이용을 통해 대체 영상 서비스가 원활한 실제 영상의 형태와 그렇지 않은 형태를 판별할 수 있으므로(예컨대, 대체 영상 생성이 가능한 머리의 회전 각도, 움직임의 속도, 단말기와 얼굴과의 거리 등) 적절한 형태의 실제 영상의 입력을 통해 대체 영상 서비스를 더욱 효과적으로 이용할 수 있게 된다.

한편, 제 2 실시예의 경우에는, 비디오 신호 처리를 위한 구성과 오디오 신호 처리를 위한 구성 및 대체 영상 생성을 위한 구성이 모두 이동통신단말기의 RSC 모듈에 탑재되었지만, 제 1 실시예와 제 2 실시예의 중간적인 구성으로서, 도 11의 비디오 디코더(1310)와 RFT 엔진(1320)으로 구성된 비디오 처리부만이 사용자 단말기에 RSC 모듈(1300)로서 구성되고, 오디오 디코더(1330)와 RLS 엔진(1320) 및 RSC 인코딩 모듈은 이동통신망 내의 RSC 서버에 구현될 수도 있다. 제 3 실시예는 이와 같이 대체 영상 생성 기능이 단말기와 서버 사이에 적절하게 분리된 경우에 관한 것이다.

도 13은 본 발명의 제 3 실시예에 따른 대체 영상 서비스 방법에서의 호 처리 순서를 도시하고 있다.

제 3 실시예의 경우에도 대체 영상 가입 등의 사전 절차 단계가 수행되어야 함은 물론이다.

이어서, 이동통신단말기에서 대체 영상 통화 호 설정을 요청하면서(S1210) 자체 단말기의 비디오 디코더와 RFT 엔진을 이용하여 추출한 캐릭터 특징 정보를 전송하면(S1205), RSC 서버에서는 이동통신단말기에서 전송한 오디오 신호를 디코딩하고 캐릭터 음성 정보를 추출하여 이를 수신된 캐릭터 특징 정보 및 설정 캐릭터에 결합함으로써 대체 영상을 생성하며, 생성된 대체 영상은 착신G/W와 착신MSC를 거쳐 착신단말기에 수신된다(S1250).

이어서, 착신단말기도 동일한 방식으로 캐릭터 특징 정보를 생성하여(S1260), 대체 영상 호 연결 응답 신호를 전송(S1270)하고, 이동통신망 내에서 대체 영상 생성(S1290) 및 필요한 미디어 전환(S1280, 1295)이 이루어져서 발신단말기에 다시 수신되고 발신단말기가 수신된 대체 영상을 재생함으로써(S1230) 대체 영상 통화가 수행된다.

제 3 실시예의 경우에는 이동통신단말기에서 비디오 신호를 처리하여 캐릭터 특징 정보만을 이동통신망으로 전송하므로, 비디오 신호 자체의 전송에 따른 대역폭 및 신호 전송 속도의 제한이 크게 완화될 수 있다. 오디오 신호의 전송을 위한 대역폭은 비디오 신호 전송에 필요한 대역폭에 비해 크게 작기 때문에, 오디오 신호는 이동통신단말기에서 처리하지 않고 그대로 이동통신망으로 전송하여 RSC 서버에서 처리되도록 하더라도 오디오 신호 전송에 따른 대역폭, 전송 속도 문제는 발생하지 않게 된다.

한편, 제 4 실시예로서, 비디오 신호 처리부와 오디오 신호 처리부가 모두 이동통신단말기에 RSC 모듈로 구현된 경우를 상정할 수 있으며, 이 경우는 RSC 서버는 RSC 애니메이션 엔진과, 렌더러와 비디오 인코더를 포함하는 RSC 인코딩 모듈만으로 구성될 것이다. 당업자라면 상기한 제 1, 2, 3 실시예와의 비교를 통해 제 4 실시예의 특징과 장단점을 이해할 수 있을 것이므로, 이에 대한 도시와 설명은 생략하기로 한다.

지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였지만, 본 발명이 속하는 기술분야의 당업자는, 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으며 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다.

그리고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 특정되는 것이며, 특허청구범위의 의미 및 범위 그리고 그 균등물로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

본 발명에 따르면, 실시간 통신의 특성이 중요시되는 이동통신망에 최적화된 형태의 서비스를 제공하기 위해, 화상 통화 중 실시간으로 피사체의 음성과 영상을 분석하고 이를 캐릭터로 대체시킴으로써 보다 고품질의 영상 통화 서비스를 제공할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템이 제공된다.

또한, 본 발명에 따르면, 통신 환경에 따라 데이터 전송 상태가 급변하는 이동통신망에 최적화된 형태의 서비스를 제공하기 위해, 오디오 신호와 비디오 신호의 품질 상태에 따라 오디오 신호와 비디오 신호가 상호 보완적으로 작용함으로써 통신 환경의 변화에도 불구하고 대체 영상을 지속적으로 생성하여 전송할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템이 제공된다.

또한, 본 발명에 따르면, 비디오 신호를 위주로 하여 대체 영상을 생성하고 오디오 신호에 근거한 표준화된 입 모양으로 대체 영상의 입 모양을 보완함으로써, 보다 전달력이 우수한 대체 영상을 생성하여 전송할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템이 제공된다.

또한, 본 발명에 따르면, 발음에 따른 입 모양을 위주로 하여 대체 영상을 생성하여 전송함으로써 청각 장애인의 경우에도 대체 영상 통화가 가능한, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템이 제공된다.

또한, 본 발명에 따르면, 하나의 이동통신단말기가 하나의 이동통신사용자에게 거의 전적으로 할당되는 이용되는 이동통신의 특성을 고려하여, 이동통신사용자별로 학습된 개인 메타데이터를 생성함으로써 대체 영상을 보다 간단하고 신속하게 생성하여 제공할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템이 제공된다.

또한, 본 발명에 따르면, 대체 영상 통화시에 상대방에게 전달되는 자신의 대체 영상의 전송 상태를 확인할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템이 제공된다.

또한, 본 발명에 따르면, 화상 통신 기능이 제공되지 않는 기존의 2G 단말기와의 통화시에도 대체 영상 서비스를 제공할 수 있는, 이동통신망을 이용한 대체 영상 서비스 방법 및 시스템이 제공된다.

또한, 본 발명에 따르면, WCDMA, HSDPA, IP-TV, 유선전화망, 인터넷망 등 다양한 통신망을 연동할 수 있는 3세대 통신환경 및 그 이상의 진화된 통신환경에서도 적용 가능한 구조를 가지는 실시간 대체 영상 서비스 방법 및 시스템이 제공된다.

Claims

이동통신망을 이용한 대체 영상 서비스 시스템에 있어서,

수신된 동영상 비디오 신호를 분석하여 영상의 특징점의 변화를 나타내는 영상 특징 정보를 추출하는 실시간 페이스 트래킹 기능을 수행하는 비디오 처리부와, 수신된 오디오 신호를 분석하여 음성 정보를 추출하는 실시간 립싱크 기능을 수행하는 오디오 처리부와, 캐릭터 컨텐츠에 상기 영상 특징 정보와 음성 정보를 결합하여 실시간으로 동영상인 대체 영상을 생성하는 RSC 인코딩 모듈을 포함하는 RSC 서버가 상기 이동통신망에 연결되며,

상기 오디오 처리부는 상기 수신된 오디오 신호를 디코딩하는 오디오 디코더와, 디코딩된 오디오 신호에서 음성 신호를 추출하여 실시간 립싱크를 수행하는 RLS 엔진을 포함하며,

상기 RLS 엔진은, 입력된 오디오 신호를 필터링하여 미리 설정된 주파수 범위의 신호만을 음성 신호로 추출하는 음성 분석 모듈과, 상기 음성 분석 모듈에서 추출한 음성 신호에 입 모양 정보 데이터베이스를 매칭시켜 실시간으로 립싱크 변수를 추출하는 RTLS 모듈을 포함하며,

상기 립싱크 변수는 상기 대체 영상 서비스용 캐릭터의 음성 정보로서 상기 RSC 인코딩 모듈로 전송되며,

상기 RTLS 모듈은 상기 캐릭터 음성 정보에 포함된 음성 파라미터 DNA에 따라 생성되는 립싱크 변수를 각각의 사용자 단말기별로 분류하여 개인화된 메타 데이터로 반복 저장하여 학습하고, 향후 동일 사용자 단말기로부터의 오디오 신호 수신시에 상기 학습된 개인화된 메타 데이터를 디폴트 음성 모델로 이용하여 상기 수신된 오디오 신호로부터 상기 립싱크 변수를 추출하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 1 항에 있어서,

상기 비디오 처리부는, 상기 수신된 비디오 신호를 디코딩하는 비디오 디코더와, 디코딩된 비디오 신호에 포함된 복원 영상의 윤곽 특징점 및 개별 특징점 정보의 변화를 추출하는 RFT 엔진을 포함하며,

상기 RFT 엔진은, 상기 복원 영상의 특징점 정보와 미리 저장된 사람 얼굴의 기본적 윤곽의 특징점 정보를 비교하여 상기 복원 영상이 사람의 얼굴 영상인지를 판별하는 페이스 분석 모듈과, 상기 복원 영상이 사람의 얼굴 영상으로 판별될 경우 얼굴 부분의 개별 특징점의 변화를 실시간으로 추적하는 페이스 트래킹 모듈과, 상기 복원 영상이 사람의 얼굴 영상으로 판별될 경우 얼굴 부분의 윤곽의 특징점 정보를 실시간으로 추적하는 모션 트래킹 모듈을 포함하며,

상기 페이스 트래킹 모듈과 상기 모션 트래킹 모듈에서 추적한 상기 특징점들의 변화는 대체 영상 서비스용 캐릭터의 특징 정보로서 상기 RSC 인코딩 모듈로 전송되는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
삭제
제 1 항에 있어서,

상기 RSC 인코딩 모듈은, 상기 캐릭터 특징 정보와 상기 캐릭터 음성 정보를 수신하고 이들을 상기 대체 영상 서비스용 캐릭터와 결합하여 실시간으로 대체 영상을 생성하는 RSC 애니메이션 엔진과, 상기 생성된 대체 영상을 렌더링하는 렌더러와, 상기 렌더링된 대체 영상을 인코딩하여 전송하는 비디오 인코더를 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 4 항에 있어서,

상기 RTLS 모듈에서 매칭되는 입 모양 정보 데이터베이스는 모든 종류의 모음에 대한 입 모양, 초성과 종성의 차이에 따른 모음의 변화된 입 모양, 각 글자의 구성에 따른 상기 입 모양들의 변화 과정에 관한 데이터, 및 음성 신호의 주파수 범위에 따라 변화되는 입 모양 데이터를 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 5 항에 있어서,

상기 RTLS 모듈에서 매칭되는 입 모양 정보 데이터베이스는 상기 시스템에 의해 설정된 기준 주파수 범위의 음성에 맞추어 표준화된 입 모양 데이터와 상기 기준 주파수보다 높거나 낮은 주파수 범위의 음성에 맞추어 변화된 입 모양 데이터를 저장하고 있으며, 상기 RTLS 모듈은 상기 음성 분석 모듈에서 추출한 상기 음성 신호의 주파수 범위가 상기 기준 주파수 범위와 다를 경우 입력된 음성 신호의 주파수 범위에 맞추어 립싱크 변수를 추출하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
삭제
제 1 항에 있어서,

상기 RLS 엔진은 상기 RTLS 모듈에서 립싱크된 상기 음성 신호를 변조하는 음성 변조 모듈을 더 포함하며, 상기 음성 변조 모듈은 주파수 대역과 음색을 달리하는 다양한 음성에 각기 대응하는 캐릭터 음성 변조 변수를 생성하여 상기 RTLS에서 추출한 립싱크 변수와 함께 상기 RSC 인코딩 모듈에 상기 캐릭터 음성 정보로 제공하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 8 항에 있어서,

상기 RSC 인코딩 모듈은, 상기 영상 특징 정보를 기준으로 상기 대체 영상의 윤곽과 얼굴을 생성하고, 상기 음성 정보에 포함된 립싱크 변수를 이용하여 상기 대체 영상의 입 모양을 보정하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 8 항에 있어서,

상기 RSC 인코딩 모듈은, 상기 음성 정보를 기준으로 상기 대체 영상의 입 모양을 생성하며, 상기 영상 특징 정보를 기준으로 상기 입 모양을 제외한 대체 영상의 얼굴 부분을 생성하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 9 항 또는 제 10 항에 있어서,

상기 RSC 서버와 연동되어 대체 영상 통화 호를 위한 호 처리 및 대체 영상 서비스 관리를 수행하며, 대체 영상 서비스 가입자 정보 및 가입자별 캐릭터 정보를 포함하는 대체 영상 서비스 정보를 구비하는 SGN 서버를 더 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 11 항에 있어서,

WEB/WAP 서버를 이용하여 사용자 단말기들과 연결되며, 상기 사용자 단말기로부터 요청받은 대체 영상 서비스용 캐릭터의 등록과 대체 영상 서비스 가입을 수행하며, 상기 대체 영상 서비스 가입과 대체 영상 서비스용 캐릭터의 등록에 관한 정보를 상기 SGN 서버로 전달하는 CMS 서버; 및

상기 등록된 캐릭터를 저장하기 위한 저장장치를 더 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 12 항에 있어서,

멀티미디어메시지의 생성, 저장 및 전송을 수행하는 MMSC; 및

상기 MMSC에 저장된 메시지에 포함된 오디오 신호를 분석하여 메시지 음성 정보를 추출하는 비실시간 립싱크 기능을 수행하는 메시지 오디오 처리부와, 캐릭터 컨텐츠에 상기 메시지 음성 정보를 결합하여 비실시간으로 동영상 캐릭터를 생성하고 생성된 동영상 캐릭터를 상기 MMSC로 전송하는 대체 영상 메시지 인코딩 모듈을 구비한 LSS 서버를 더 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 13 항에 있어서,

상기 RSC 서버와 상기 LSS 서버와 상기 SGN 서버와 상기 CMS 서버와 상기 저장장치는 RSC 서비스 플랫폼을 구성하며, 상기 RSC 서비스 플랫폼은 상기 이동통신망과의 연동을 위한 미디어 게이트웨이를 더 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
기지국, 제어기, 교환기, 위치등록기를 포함하는 이동통신망의 코어 망 및 멀티미디어메시지센터에 게이트웨이를 통해 연결되어 있는 대체 영상 서비스 플랫폼을 포함하는 대체 영상 서비스 시스템으로 대체 영상 서비스를 제공하는, 이동통신망을 이용한 대체 영상 서비스 방법에 있어서,

상기 대체 영상 서비스 플랫폼은,

압축된 상태로 수신된 동영상 비디오 신호를 복원 및 분석하여 영상의 특징점 정보의 변화를 추출하는 실시간 페이스 트래킹 기능을 수행하는 비디오 처리부와, 압축된 상태로 수신된 오디오 신호를 복원하고 분석하여 음성 정보를 추출하는 실시간 립싱크 기능을 수행하는 오디오 처리부와, 캐릭터 컨텐츠에 상기 영상 특징 정보와 음성 정보를 결합하여 실시간으로 동영상인 대체 영상을 생성하는 RSC 인코딩 모듈을 포함하는 RSC 서버;

상기 RSC 서버와 연동되어 대체 영상 통화 호를 위한 호 처리 및 대체 영상 서비스 관리를 수행하며, 대체 영상 서비스 가입자 정보 및 가입자별 캐릭터 정보를 포함하는 대체 영상 서비스 정보를 구비하며, 대체 영상 서비스 가입자 목록을 상기 상기 위치등록기로 통지하는 SGN 서버;

WEB/WAP 서버를 이용하여 사용자 단말기들과 연결되며, 상기 사용자 단말기로부터 요청받은 대체 영상 서비스용 캐릭터의 등록과 대체 영상 서비스 가입을 수행하며, 상기 대체 영상 서비스 가입과 대체 영상 서비스용 캐릭터의 등록에 관한 정보를 상기 SGN 서버로 전달하는 CMS 서버; 및

상기 등록된 캐릭터를 저장하기 위한 저장장치를 포함하며,

상기 대체 영상 서비스 방법은,

이동통신용 발신 단말기로부터의 대체 영상 통화 호 설정 요청에 따라 상기 위치등록기에서 대체 영상 서비스 가입 여부를 판단하는 단계;

상기 판단 결과 상기 발신 단말기가 대체 영상 서비스 가입자의 단말기일 경 우, 상기 코어 망에서 대체 영상 통화 호 설정을 수행하고, 상기 RSC 서버에서 상기 발신 단말기에 대해 등록된 캐릭터를 활성화하여 대체 영상 서비스를 준비하는 단계;

상기 RSC 서버에서 상기 발신 단말기로부터 입력된 상기 비디오 신호와 상기 오디오 신호로부터 각기 추출된 상기 영상 특징 정보와 상기 음성 정보를 상기 활성화된 캐릭터와 결합하여 실시간으로 대체 영상을 생성하는 단계; 및

상기 RSC 서버에서 상기 코어 망을 통해 착신 단말기로 상기 대체 영상을 전송함에 의해 실시간 대체 영상을 이용한 화상 통화를 수행하는 단계를 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 방법.
제 15 항에 있어서,

상기 대체 영상 서비스 플랫폼은, 멀티미디어 메시지에 저장된 오디오 신호를 분석하여 메시지 음성 정보를 추출하는 비실시간 립싱크 기능을 수행하는 메시지 오디오 처리부와, 캐릭터 컨텐츠에 상기 메시지 음성 정보를 결합하여 비실시간으로 동영상 캐릭터를 생성하고 생성된 동영상 캐릭터를 MMSC로 전송하는 대체 영상 메시지 인코딩 모듈을 구비한 LSS 서버를 더 포함하며,

상기 대체 영상 서비스 방법은,

상기 MMSC에서 상기 LSS 서버로 멀티미디어 메시지를 전송하는 단계;

상기 LSS 서버에서 상기 멀티미디어 메시지에 포함된 메시지 음성 정보를 추출하고 상기 발신 단말기에 대해 등록된 캐릭터에 상기 메시지 음성 정보를 결합하 여 동영상 캐릭터인 대체 영상을 생성하는 단계;

상기 LSS서버에서 상기 대체 영상을 상기 MMSC로 전송하는 단계; 및

상기 MMSC에서 상기 착신 단말기로 상기 대체 영상이 결합된 대체 영상 메시지를 전송하는 단계를 더 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 방법.
제 16 항에 있어서,

상기 발신 단말기는 대체 영상 서비스용 핫키를 구비하며, 상기 핫키는 소프트키와 단말기 버튼 중 적어도 하나로 구현되며, 상기 발신 단말기로부터의 대체 영상 통화 호 설정 요청은 상기 발신 단말기에 구비된 대체 영상 서비스용 핫키를 누름에 의해 수행되는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 방법.
제 17 항에 있어서,

상기 저장장치는 상기 등록된 캐릭터에 대해 표준화된 입 모양 및 각 입 모양에 따른 캐릭터 얼굴 특징에 대한 디폴트 정보를 저장하며,

상기 발신 단말기는 대체 영상 서비스 가입자의 단말기로서 화상 통화를 지원하지 않는 단말기이고 상기 착신 단말기는 화상 통화를 지원하는 단말기이며,

상기 RSC 서버에서 실시간으로 대체 영상을 생성하는 상기 단계는, 상기 발신 단말기로부터 입력된 상기 오디오 신호로부터 추출된 상기 음성 정보를 상기 디 폴트 정보와 결합하여 실시간으로 대체 영상을 생성하는 단계인 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 방법.
제 18 항에 있어서,

상기 착신 단말기는 대체 영상 서비스 가입자의 단말기로서 화상 통화를 지원하는 단말기이며,

상기 대체 영상 서비스 방법은,

상기 RSC 서버에서 상기 발신 단말기로부터 입력된 상기 비디오 신호와 상기 오디오 신호로부터 각기 추출된 상기 영상 특징 정보와 상기 음성 정보를 상기 착신 단말기에 대해 등록된 캐릭터와 결합하여 실시간으로 대체 영상을 생성하는 단계; 및

상기 RSC 서버에서, 상기 발신 단말기에 대해 등록된 캐릭터에 의해 생성된 대체 영상을 무시하고, 상기 착신 단말기에 대해 등록된 캐릭터에 의해 생성된 대체 영상을 상기 코어 망을 통해 착신 단말기로 전송함에 의해 실시간 대체 영상을 이용한 화상 통화를 수행하는 단계를 더 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 방법.
제 15 항 내지 제 19 항 중 어느 한 항에 있어서,

상기 RSC 서버에서 상기 대체 영상 생성 시에 이용한 상기 음성 정보를 각각의 발신 단말기별로 분류하여 상기 음성 정보에 포함된 음성 파라미터 DNA를 상기 저장장치에 개인화된 메타 데이터로 반복 저장하여 학습하는 단계; 및

향후 동일 발신 단말기에 대한 대체 영상 생성시에 상기 학습된 개인화된 메타 데이터를 디폴트 음성 모델로 이용하는 단계를 더 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 방법.
사용자의 실제 영상 획득을 위한 카메라부와, 오디오 신호의 입출력을 담당하는 마이크로폰과 스피커를 포함하는 오디오부와, 대체 영상 서비스 요청을 위한 소프트키와 핫키 중 적어도 하나가 구비된 키입력부와, 상기 실제 영상과 대체 영상을 디스플레이하기 위한 표시부와, 상기 대체 영상 생성을 수행하는 RSC 모듈과, 상기 대체 영상용 캐릭터 및 표준 입 모양 정보를 포함하는 데이터를 저장하는 데이터 메모리와, 상기 대체 영상 생성 기능을 수행하기 위한 소프트웨어 프로그램을 포함하는 단말기 동작 프로그램을 저장하는 프로그램 메모리와, 전송 신호의 송신과 수신을 수행하는 송수신기, 및 상기 구성요소들과 연결되어 각 구성요소의 기능을 제어하는 적어도 하나의 마이크로프로세서로 구성되는 제어부를 포함하며,

상기 RSC 애니메이션 엔진은, 오디오 신호의 일부구간 또는 전체구간의 데이터가 손실된 경우 상기 RFT 엔진으로부터의 캐릭터 특징 정보를 기준으로 상기 대체 영상의 윤곽과 얼굴을 생성하고, 상기 RLS 엔진으로부터의 캐릭터 음성 정보를 이용하여 상기 대체 영상의 입 모양을 보정하며,

상기 RSC 애니메이션 엔진은, 비디오 신호의 일부구간 또는 전체구간의 데이터가 손실된 경우 상기 음성 정보를 기준으로 상기 대체 영상의 입 모양을 생성하며, 상기 RFT 엔진으로부터의 캐릭터 특징 정보를 기준으로 상기 입 모양을 제외한 대체 영상의 얼굴 부분을 생성하는 것을 특징으로 하는, 대체 영상 서비스용 이동통신단말기.
제 21 항에 있어서,

상기 RSC 모듈은,

상기 비디오 신호 처리를 위한 비디오 디코더;

상기 비디오 신호에 포함된 상기 실제 영상의 특징점 추출을 통해 상기 대체 영상용 캐릭터 특징 정보를 생성하는 RFT 엔진;

상기 오디오 신호 처리를 위한 오디오 디코더;

상기 오디오 신호에 포함된 음성 정보 추출 및 상기 표준 입 모양 정보와의 매칭을 통해 상기 대체 영상용 캐릭터의 입 모양을 결정할 캐릭터 음성 정보를 생성하는 RLS 엔진;

상기 RFT 엔진으로부터의 캐릭터 특징 정보와 상기 RLS 엔진으로부터의 캐릭터 음성 정보를 상기 데이터 메모리에 저장된 상기 대체 영상용 캐릭터와 결합하여 상기 대체 영상을 생성하는 RSC 애니메이션 엔진;

상기 RSC 애니메이션 엔진에서 생성된 대체 영상을 렌더링하는 렌더러; 및

상기 렌더러에서 렌더링된 대체 영상을 인코딩하는 비디오 인코더를 포함하는 것을 특징으로 하는, 대체 영상 서비스용 이동통신단말기.
제 22 항에 있어서,

상기 제어부는 상기 카메라부에서 획득한 사용자의 실제 영상과, 상기 RSC 모듈에서 생성된 상기 사용자의 대체 영상을 상기 표시부에 동시에 디스플레이하는 것을 특징으로 하는, 대체 영상 서비스용 이동통신단말기.
제 23 항에 있어서,

상기 제어부는 상기 송수신기를 통해 수신된 통화 상대방의 실제 영상과 대체 영상 중 적어도 하나를 상기 표시부에 추가로 디스플레이하는 것을 특징으로 하 는, 대체 영상 서비스용 이동통신단말기.
제 24 항에 있어서,

상기 RLS 엔진은 상기 추출된 음성 정보에 포함된 음성 파라미터 DNA를 사용자의 메타 데이터로 상기 데이터 메모리에 반복 저장하고, 향후 음성 정보 추출시에 상기 반복 저장에 의해 학습된 개인화된 메타 데이터를 디폴트 음성 모델로 이용하는 것을 특징으로 하는, 대체 영상 서비스용 이동통신단말기.
삭제
삭제
삭제
이동통신망을 이용한 대체 영상 서비스 시스템에 있어서,

카메라에서 획득한 비디오 신호 처리를 위한 비디오 디코더와, 상기 비디오 신호에 포함된 상기 실제 영상의 특징점 추출을 통해 대체 영상용 캐릭터 특징 정보를 생성하는 RFT 엔진을 포함하여 캐릭터 특징 정보 추출을 수행하는 RSC 모듈을 포함하도록 구성된 이통통신단말기; 및

상기 이동통신망의 코어 망에 연결되어 있으며, 상기 이동통신단말기로부터 압축된 상태로 수신된 오디오 신호를 복원하고 분석하여 음성 정보를 추출하는 실시간 립싱크 기능을 수행하는 오디오 처리부와, 대체 영상용 캐릭터 컨텐츠에 상기 음성 정보와 상기 이동통신단말기로의 대체 영상용 캐릭터 특징 정보를 결합하여 실시간으로 동영상인 대체 영상을 생성하는 RSC 인코딩 모듈을 포함하는 RSC 서버를 포함하며,

상기 추출된 음성 정보에 포함된 음성 파라미터 DNA를 사용자 메타 데이터로 데이터 메모리에 반복 저장하고, 향후 음성 정보 추출시에 상기 저장에 의해 학습된 개인화된 메타 데이터를 디폴트 음성 모델로 이용하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 29 항에 있어서,

상기 RFT 엔진은 상기 복원 영상의 특징점 정보와 미리 저장된 사람 얼굴의 기본적 윤곽의 특징점 정보를 비교하여 상기 복원 영상이 사람의 얼굴 영상인지를 판별하는 페이스 분석 모듈과, 상기 복원 영상이 사람의 얼굴 영상으로 판별될 경우 얼굴 부분의 개별 특징점의 변화를 실시간으로 추적하는 페이스 트래킹 모듈과, 상기 복원 영상이 사람의 얼굴 영상으로 판별될 경우 얼굴 부분의 윤곽의 특징점 정보를 실시간으로 추적하는 모션 트래킹 모듈을 포함하며,

상기 페이스 트래킹 모듈과 상기 모션 트래킹 모듈에서 추적한 상기 특징점들의 변화는 상기 대체 영상 서비스용 캐릭터의 특징 정보로서 상기 RSC 서버의 상기 RSC 인코딩 모듈로 전송되는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
제 30 항에 있어서,

상기 오디오 처리부는 상기 압축된 상태로 수신된 오디오 신호를 복원하는 오디오 디코더와, 상기 오디오 디코더로부터 상기 오디오 신호를 수신하고 음성 신호를 추출하여 실시간 립싱크를 수행하는 RLS 엔진을 포함하며,

상기 RLS 엔진은, 입력된 오디오 신호를 필터링하여 미리 설정된 주파수 범위의 신호만을 음성 신호로 추출하는 음성 분석 모듈과, 상기 음성 분석 모듈에서 추출한 음성 신호에 입 모양 정보 데이터베이스를 매칭시켜 실시간으로 립싱크 변수를 추출하는 RTLS 모듈을 포함하며,

상기 립싱크 변수는 상기 대체 영상 서비스용 캐릭터의 음성 정보로서 상기 RSC 인코딩 모듈로 전송되는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 시스템.
삭제
제 29 항 내지 제 31 항 중 어느 한 항에 따른 대체 영상 서비스 시스템을 이용하여 대체 영상 서비스를 수행하는 방법에 있어서,

상기 이동통신단말기로부터의 대체 영상 통화 호 설정 요청에 따라, 상기 이동통신단말기에서 상기 실제 영상에 대한 상기 캐릭터 특징 정보를 추출하는 단계;

상기 대체 영상 통화 호 설정 요청에 따라 상기 RSC 서버에서 대체 영상 서비스 가입 정보를 판단하는 단계;

상기 RSC 서버에서, 상기 대체 영상 서비스 가입 정보에 따라 상기 이동통신단말기에 대해 등록된 캐릭터를 활성화하고, 상기 오디오 처리부에서 추출한 상기 음성 정보와 상기 이동통신단말기로부터의 상기 캐릭터 특징 정보를 상기 등록된 캐릭터와 결합하여 실시간으로 대체 영상을 생성하는 단계; 및

상기 RSC 서버에서 상기 코어 망을 통해 착신 단말기로 상기 대체 영상을 전송함에 의해 실시간 대체 영상을 이용한 화상 통화를 수행하는 단계를 포함하는 것을 특징으로 하는, 이동통신망을 이용한 대체 영상 서비스 방법.