KR101099884B1

KR101099884B1 - 동화상데이터의 부호화방법, 복호화방법, 이들을 실행하는단말장치, 및 쌍방향 대화형 시스템

Info

Publication number: KR101099884B1
Application number: KR20067024236A
Authority: KR
Inventors: 토시아키 가키이; 히사오 마키; 요이치 하타; 히또시 기야
Original assignee: 히또시 기야; 스미토모덴키고교가부시키가이샤
Priority date: 2004-04-23
Filing date: 2005-02-23
Publication date: 2011-12-28
Also published as: US7983497B2; JP4763312B2; CA2553434A1; CN101820537A; TW200601838A; WO2005104552A1; JP2006101472A; EP1701546A4; US20100118935A1; CN101820537B; TWI372563B; CA2553434C; EP1701546A1; CN1914915A; NO20065381L; US20050237380A1; AU2005236997A1; KR20070044397A; AU2005236997B2

Abstract

본 발명은, 실시간의 쌍방향 대화를 실현하는 쌍방향 대화형 시스템과 같은 표시화상의 일부 영역에만 정보가 집중되어 있는 동화상데이터를 전송하는 특수한 대화환경에 있어서 유효한 동화상데이터의 부호화방법 등에 관한 것이다. 해당 부호화방법은, 동화상데이터를 구성하는 화상프레임을 복수의 직사각형 영역으로 분할하고, 이들 복수의 직사각형 영역 각각을, 사전에 설정된 ROI와 비ROI에 대응시킨다. 그리고, ROI에 대응된 직사각형 영역의 부호량이 비ROI에 대응된 직사각형 영역의 부호량보다도 많아지도록, 이들 직사각형 영역을 순차적으로 압축함으로써, 각 화상프레임의 부호화데이터를 생성해 가는 것을 특징으로 한다.

Description

동화상데이터의 부호화방법, 복호화방법, 이들을 실행하는 단말장치, 및 쌍방향 대화형 시스템{MOVING PICTURE DATA ENCODING METHOD, DECODING METHOD, TERMINAL DEVICE FOR EXECUTING THEM, AND BI-DIRECTIONAL INTERACTIVE SYSTEM}

본 발명은, 네트워크에 접속된 복수의 단말장치에 의해 구성되는 쌍방향 대화형 시스템 특유의 대화환경에 매우 적합한 화상처리기술에 관한 것이며, 특히, 상기 단말장치간에 송수신되는 동화상데이터의 부호화ㆍ복호화 방법 등에 관한 것이다.

최근, 원격지의 대화자간에 서로 상대쪽 대화자의 영상을 서로 시선 일치한 상태로 모니터에 표시하면서 TV회의나 카운슬링 등의 친밀한 대화를 실현하는 쌍방향 대화형 시스템이 제안되고 있다. 이 시선 일치 기술에는 다양한 기술이 제안되고 있으며, 상대쪽 대화자의 영상이 표시되는 모니터의 소정위치에 CCD카메라와 같은 촬상디바이스를 배치함으로써 시선 일치를 실현하고 있다(특허문헌 1 참조).

[특허문헌 1]

일본국 특허제3074677호 공보

[비특허문헌 1]

쇼와 42년 전기통신학회 연합대회(No.1998)

발명자들은, 상술한 바와 같은 쌍방향 대화형 시스템에 대해서 검토한 결과, 이하와 같은 과제를 발견하였다. 즉, 소정의 전송수단을 통해서 대화자의 동화상데이터를 서로 전송하는 경우, 현재의 통신환경에서는 회선의 전송용량이나 화상수리능력에 한계가 있으며, 데이터 압축이 실행되는 것이 일반적이다. 이와 같은 동화상의 압축방식으로서는, MPEG방식이 영화전달서비스 등 널리 이용되고 있다. 그러나, 이 MPEG방식은, 시간축방향으로도 압축이 실행되기 때문에, 실시간에서의 쌍방향 대화에서는 표시 지연을 피할 수 없고, 원격지간에의 원활한 쌍방향 대화를 실현할 수 없다고 하는 과제가 있었다.

한편, 발명자들은 상기 쌍방향 대화형 시스템과 같은 시선 일치한 상태에서의 대화에 있어서의 심리적 고찰에 의해, 대화 시에 있어서의 대화자의 시선의 상당수는, 상대 대화자의 표정을 관찰하기 위해서 상기 상대 대화자의 얼굴이나 비언어적(nonverbal) 표현으로 되는 손의 움직임에 집중되어 있음을 발견하였다. 이런 경우, 대화 시에 있어서의 대화자의 영상을 포함하는 전체화면을 순차적으로 전송할 필요는 없고, 대화 시의 중요한 관찰영역, 즉 대화자의 얼굴이나 손의 움직임 등 상기 대화자에게 있어서의 흥미영역(ROI: Region of Interest)에만 주목해서 동화상 전송하면 전송량을 삭감할 수 있으며, 또, 쌍방향 대화의 고속응답성의 실현에 매우 효과적임을 발견하였다.

이와 같이, 흥미영역에만 주목된 화상처리로서는, 예를 들면 JPEG2000 Part-I방식의 ROI부호화가 공지되어 있다. 이 ROI부호화는, 흥미영역의 화질을 비흥미영역의 화질보다도 향상시키는 화상처리기술이다. 여기서, 일반적으로 JPEG2000 방식은, 정지화상의 압축방식으로서 공지되어 있으며, 화상데이터에 대해서 이산 웨이블렛 변환(Discrete Wavelet Transform), 스칼라 양자화(Scalar Quantization), 엔트로피 부호화(Entropy Encode) 및 레이트 제어에 상당하는 처리(EBCOT: Embedded Block Coding with Optimized Truncation)를 거쳐서 화상 압축을 실행하고 있다. ROI부호화는, 이 정지화상 내에 설정되는 흥미영역에 있어서의 웨이블렛 계수를 비흥미영역에 있어서의 웨이블렛 계수보다도 높게 설정함으로써 비흥미영역과 비교해서 흥미영역의 화질을 향상시킨다.

그러나, JPEG2000 Part-I방식의 ROI부호화는, 흥미영역과 비흥미영역에서 압축레벨에 차이는 있지만, 합계 부호량은 불변이기 때문에 부호화 처리 자체를 경감할 수 없으며, 또, 얻어지는 부호화데이터의 전송량을 삭감할 수도 없다. 부가해서, ROI부호화는, 웨이블렛 계수를 조절함으로써 실행되지만, 이 웨이블렛 계수는, 복수 개의 공간화소를 이용해서 계산되기 때문에, 복호화된 정지화상에 있어서 흥미영역과 비흥미영역과의 경계가 불명확해져서, 흥미영역만을 다른 화상에 삽입하는 등의 화상처리를 할 수 없다고 하는 과제가 있었다.

본 발명은, 상술한 바와 같은 과제를 해결하기 위해서 이루어진 것이며, 네트워크에 접속된 복수의 단말장치에 의해 구성된 쌍방향 대화형 시스템에 매우 적합한 화상처리기술로서, 각 단말장치에 있어서의 처리 부하를 효과적으로 경감시키는 동시에 상기 처리의 고속화를 실현하기 위한 구조를 구비한 동화상데이터의 부호화방법, 복호화방법, 그들을 실행하는 컴퓨터프로그램, 상기 컴퓨터프로그램이 기록된 기록매체, 이들을 실행하는 단말장치, 및 상기 단말장치를 포함하는 쌍방향 대화형 시스템을 제공하는 것을 목적으로 하고 있다.

본 발명에 관한 동화상데이터의 부호화방법은, 동화상데이터를 구성하는 화상프레임 각각을 시간축을 따라서 순차적으로 압축해 가는 화상처리기술로서, 상술한 쌍방향 대화형 시스템과 같이, 표시되어야 할 화면 프레임 내의 일부 영역에만 유의한 정보가 포함되는 동작환경에 있어서 자원의 유효 이용을 가능하게 하는 동시에, 실시간의 데이터 송수신을 가능하게 하는 화상처리기술이다. 또한, 동화상데이터를 구성하는 화상프레임 각각은 정지화상과 등가이다. 또, 인물상 등의 영상에서는, 배경을 정지화상으로 간주할 수 있다. 따라서, 본 발명은, Power Point(마이크로소프트사의 등록상표), 표계산 소프트웨어(예를 들면 “Excel" 등), 워드프로세서 소프트웨어(예를 들면 “Word" 등), 브라우저 등의 어플리케이션(Application) 소프트웨어에 의해 생성되는 자료데이터(텍스트, 사진, 영상 등)의 전송에도 유효하다. 즉, 관련되는 어플리케이션 소프트웨어에 의해 생성되는 표시데이터는, 시간경과와 함께 부분적인 변화(예를 들면, 커서의 이동이나 문자의 추가표시 등)가 빈번히 발생하기 때문에, 일정시간마다의 표시데이터를 1화상프레임으로 함으로써 전체적으로 동화상데이터로서 취급하는 것도 가능하다. 이런 연유로, 이 명세서에 있어서, 동화상데이터에는, 촬상장치 등에 의해 저장된 영상데이터 외에, 상기 어플리케이션 소프트웨어 등에 의해 생성된 표시데이터, 정지화상과 영상의 편성 등도 포함된다. 또한, 상기 어플리케이션 소프트웨어 등에 의해 생성된 데이터파일은, 일단 화상데이터로 변환된 후에 압축 등의 처리가 실행된다.

구체적으로, 본 발명에 관한 동화상데이터의 부호화방법은, 화상 압축에 앞서, 동화상데이터를 구성하는 화상프레임 중 부호화되어야 할 화상프레임을, 복수의 영역으로 분할하고, 상기 복수의 분할영역 각각을, 화상프레임 내에 있어서 설정되는 흥미영역 및 상기 흥미영역과는 다른 비흥미영역 중 어느 한 영역에 대응하는 것을 특징으로 하고 있다. 그리고, 해당 동화상데이터의 부호화방법은, 복수의 분할영역 중 흥미영역(이하, ROI라고 함)에 대응된 분할영역의 부호량이 비흥미영역(이하, 비ROI라고 함)에 대응된 분할영역의 부호량보다도 많아지도록 상기 복수의 분할영역을 각각 압축함으로써, 각 화상프레임의 부호화데이터를 생성해 간다. 또한, 화상프레임의 분할영역의 형상은, 정사각형, 직사각형 등의 직사각형 형상으로는 한정되지 않고, 예를 들면, 삼각형, 마름모꼴, 사다리꼴, 평행사변형 등의 다양한 다각형 형상이어도 된다. 또한, 이들 분할영역은, 복수 종류의 다각형의 편성이나 원형이나 타원형상 등의 일부를 구성하는 곡선을 포함하는 등 각각이 다른 형상으로 구성되어도 된다. 단, 이하의 설명으로는, 간단하기 때문에, 이들 분할영역을 직사각형 영역으로서 표기한다.

상술한 바와 같이, 본 발명에 관한 동화상데이터의 부호화방법은, 동화상데이터를 구성하는 화상프레임을 시간축을 따라서 개별적으로 압축해 가기 때문에, 시간축방향의 압축도 동시에 실행하는 MPEG방식과는 달리, 고속응답성이 우수하다. 또, 해당 동화상데이터의 부호화방법은, 동화상데이터를 구성하는 화상프레임을 개별적으로 압축해 가기 때문에, 예를 들면 정지화상압축방식인 JPEG2000(이하, JP2라고 함)을 이용할 수 있다. 이 JP2에는, 복수의 방식이 이미 제안되어 있으며, 본 발명에는 어떠한 방식도 적용 가능하지만, 일례로서 상술한 Part-I방식 등은 라이센스 프리(license free)이기도 해서 널리 이용 가능한 기술이다. 예를 들면, 1개의 화상프레임을 복수의 직사각형 영역으로 분할하는 기술은, JP2에 있어서의 타일링(tiling)기술을 이용함으로써 용이하게 실현할 수 있다. 여기서, JP2의 타일링이란, 처리단위를 작게 함으로써 대규모 화상의 부호화나 병렬처리를 가능하게 하는 기술로서, 1개의 화상프레임을 몇 개의 타일(상기 직사각형 영역에 상당)로 분할하고, 분할된 이들 타일을 개별적으로 취급할 수 있다.

따라서, 분할되는 복수의 직사각형 영역을 각각 ROI 및 비ROI 중 어느 한 쪽에 대응시키고, 이들 대응관계에 따라서 직사각형 영역마다 압축레벨을 조절하면, 기존의 JP2 기술을 이용해서 종래의 ROI부호화와 동등한 효과를 나타내는 해당 동화상데이터의 부호화방법이 실현 가능해진다. 또, 해당 동화상데이터의 부호화방법에서는, 분할된 직사각형 영역마다 압축레벨이 다른 부호화가 실행되기 때문에, 종래의 ROI부호화와 같이 ROI와 비ROI와의 경계가 불명확해지는 일은 없다.

또한, 상기 ROI의 설정은, 이용자 자신이 사전에 설정하거나 또는 통신 도중에 설정을 변경해도 되며, 또, 복수의 분할영역 중, 영역 내 화상의 움직임이 검지된 분할영역을 ROI에 자동적으로 대응시키도록 해도 된다.

본 발명에 관한 동화상데이터의 부호화방법에 있어서, 상기 ROI에는 복수의 직사각형 영역이 대응되어도 되고, 이런 경우, 각각 부호량이 다르도록 압축되는 것이 바람직하다. 이것은, 상술한 발명자의 식견에 의한 것으로서, 쌍방향 대화형 시스템과 같은 시선 일치한 상태에서의 대화에 있어서의 심리적 고찰에 의해 발견된 사실로서, 대화 시에 있어서의 대화자의 시선의 상당수는, 상대 대화자의 표정을 관찰하기 위해서 상기 상대 대화자의 얼굴이나 비언어적 표현으로 되는 손의 움직임에 집중되어 있는 데에 기인하고 있다. 즉, 상대 대화자의 표정, 머리의 움직임, 손의 움직임, 상반신의 움직임 등이, 고속표시(예를 들면, 30프레임/초(fps), 지연 200msec이하)되어 있으면, 배경이나 옷의 섬세한 모양 등의 정보전송은 불필요하다. 단, 상대 대화자의 표정에서는, 시선, 눈매, 미간의 미묘한 변화 등, 가장 섬세하며 또한 고속표시가 요구되는 한편, 비언어적 표현으로 되는 손의 움직임은, 손의 움직임, 윤곽의 고속응답이동표시가 중요하다. 그때의 손 그 자체의 화질은 열화(劣化)해도 대화의 본질에는 경도의 영향으로 끝난다. 따라서, 상기 쌍방향 대화형 시스템 특유의 대화환경을 고려해서, 상기 ROI는, 대화 시에 고정세(高精細) 고속응답의 얼굴, 머리부분을 포함하는 고정세하고 또한 고속표시영역과, 손, 팔, 가슴 등을 포함하는 중정세(中精細)하고 또한 고속표시영역으로 분할되어 있는 것이 보다 바람직하며, 이런 경우, 배경 등을 포함하는 저정세(低精細)하고 또한 저속표시영역으로서 비ROI가 할당된다. 이와 같이 대화에의 영향도를 고려해서, 압축레벨이 단계적으로 변화된 복수 종류의 영역에 화상프레임 내를 분류해 두는 것이, 화상처리부하를 경감한 상태에서 원활한 쌍방향 대화를 실현하는 데에 보다 유효하다.

화상프레임 내에 있어서의 각 영역의 대화에의 영향도를 고려하면, 상기 복수의 직사각형 영역 중 비ROI에 대응하는 직사각형 영역에 대한 부호화 처리에 있어서, 상기 직사각형 영역의 부호량을 일정기간 중 0으로 해도 된다(비ROI를 부호화하지 않음). 즉, 비ROI에 상당하는 저정세하며 또한 저속표시영역에 포함되는 배경 등은, 오히려 정지화면을 고정세하게 첩부 표시하는 것이 유효하기 때문이다. 예를 들면, 자택에서 원격대화를 하는 경우, 집안을 최소한의 촬영으로 대응할 수 있다. 장래적으로는, 인물만을 추출해서, 배경은 모두 데이터베이스로부터 선택된 화상(직사각형 영역)을 첩부하는 것도 고려할 수 있다. 현실적으로는, 배경 등의 비ROI는 일정시간마다 밖에 부호화하지 않고, 인물의 얼굴 등의 ROI만을 부호화해도, 해당 동화상데이터의 부호화방법에서는 이들 ROI와 비ROI의 경계가 명확하므로, 비ROI를 부호화하지 않는 기간은 그 대응 직사각형 영역에 이미 복호화된 이전의 화상을 첩부하는 것이 유효하다. 특히 이런 경우, 화상프레임 전체의 부호화 처리를 경감할 수 있으므로, 부호화의 소프트웨어 실장도 기대할 수 있다.

본 발명에 관한 동화상데이터의 부호화방법에 있어서, 상기 복수의 직사각형 영역 중 ROI에 대응된 직사각형 영역에 상당하는 부호화데이터는, 또한 암호화되어도 된다. 단, 암호화 대상은 ROI에만은 한정되지 않고, 사용자가 임의로 설정하면 된다. 이것은, 쌍방향 대화형 시스템을 이용하고 있는 대화자의 프라이버시 보호를 위해서 특히 중요하다. 상술한 바와 같이 대화자간에 시선 일치 상태를 실현하는 쌍방향 대화형 시스템은, 단순 비지니스영상물(business scene)로 이용되는 TV회의시스템 외에, 재해ㆍ사고 등에 의한 후유증을 앓고 있는 사람의 카운슬링 등, 치료시스템에의 적용이 유망시되고 있기 때문이다. 한편, 쌍방향 대화에서는 실시간에서의 암호화와 복호화가 필요하기 때문에, 대화 시에 중요해지는 영역만의 암호화에 의해, 보다 효율적인 화상처리가 가능해진다. 대화 시에 중요하게 되는 영역(ROI)은, 주로 상대 대화자 영상의 얼굴이며, 이 부분을 판별할 수 없으면, 개인 특정은 매우 곤란하다. 따라서, 고정세(저압축률)하고 또한 고속표시영역인 ROI만을 중점적으로 암호화해 두면, 대화자의 프라이버시가 충분히 보호될 수 있다. 또, 개인 특정에는 음성도 중요하며, 화상과 독립된 암호화에 의해, 보다 강고한 보안이 구축 가능해진다.

본 발명에 관한 동화상데이터의 부호화방법에 있어서, 상기 동화상데이터를 구성하는 화상프레임은, ROI에 1개의 직사각형 영역이 일치하도록 분할되어도 된다. 이런 경우, 직사각형 영역의 분할수를 줄일 수 있다. 한편, 대화 개시 시에 설정되는 ROI의 사이즈는, 대화 중에 변동하는 경우가 있다. 그런 연유로, ROI의 사이즈변동에 대응해서 직사각형 영역의 분할사이즈를 동적으로 변경함으로써, 화상처리의 보다 효율적인 부하분산이 가능해진다. 또한, 직사각형 영역의 사이즈를 ROI의 사이즈변동에 대응해서 변경하지 않는 경우일지라도, ROI의 사이즈변동에 대응해서, 상기 ROI에 대응된 직사각형 영역을 동적으로 변경하는 것도 가능하다. 또, 대화 중에 있어서의 ROI의 사이즈변경도 대화자 자신이 마우스 등의 입력수단을 이용해서 임의로 변경하면 된다. 이 명세서에 있어서, 「동적」이란, 상황변화에 따라서 자동적으로 추수(追隨)하는 경우 외에, 이용자가 상황에 따라서 임의로 설정 변경하는 경우를 포함한다.

상술한 바와 같은 대화 중에 있어서의 직사각형 영역의 사이즈나 대응관계의 변경은, 눈이나 입, 얼굴의 움직임과 달리, 손의 움직임 등은, 사람에 따라서도 상당한 차이가 있는 데에 기인해서 실행된다. 즉, 정지하고 있는 손에 대해서 항상 일정한 압축을 하는 것은 아니고, 손의 움직임에 변화가 많은 사람, 적은 사람, 나아가서는, 그때의 대화의 상황에 맞춰서, 고정압축률이나 고정분할이 아니라, 압축률이나 분할사이즈를 적응성 있게 함으로써, 보다 최적인 화상처리가 가능하게 된다.

상술한 바와 같은 동화상데이터의 부호화방법에, JP2 기술이 적용되는 경우, 타일링에 의해 분할된 각 직사각형 영역(타일)마다 압축레벨을 변화시킴으로써(압축레벨이 높아질수록 부호량은 적어짐), 실질적으로 ROI부호화와 동등한 효과를 얻을 수 있는 동시에, JP2 기술에 의해 용이하게 복호화할 수 있다. 그러나, 부호화 대상인 화상프레임 내에 있어서의 비ROI에 대응된 직사각형 영역의 부호량을 0으로 하는 경우, 화상프레임의 부호화데이터를 JP2 기술에 의해서 복호화해도, 비ROI의 화상은 얻을 수 없다. 이와 같은 경우의 복호화(본 발명에 관한 동화상데이터의 복호화방법)는, 우선 ROI에 대응된 직사각형 영역으로서 압축된 부호화데이터를 복호화하는 동시에, 비ROI에 대응된 직사각형 영역으로서, 이미 복호화 후에 격납되어 있던 다른 화상프레임이 대응하는 직사각형 영역을 준비한다. 그리고, 복호화된 ROI에 대응하는 직사각형 영역과, 준비된 다른 화상프레임의 대응 직사각형 영역이 합성되고, 새로운 화상프레임이 생성된다. 여기서, 각 직사각형 영역에 대한 압축이나 표시품질의 제어는, 처리를 실행하는 CPU성능이나 네트워크의 라인 성능을 모니터하면서 동적으로 변경하는 것이 바람직하다.

또한, 본 발명에 관한 동화상데이터의 부호화방법에서는, 부호화되어야 할 화상프레임의 일부, 예를 들면 비ROI에 상당하는 직사각형 영역에, 송신 대상인 동화상데이터와는 다른 정보원으로부터 얻어진 화상(압축레벨이 낮아도 대화에 지장을 일으키지 않는 정지화상의 일부나 동화상의 화상프레임의 일부)을 삽입함으로써, 보다 임장감(臨場感)이 있는 대화가, 회선용량이나 화상처리 능력 등 현재의 통신환경에 제한되는 일없이 가능해진다.

구체적으로는, 우선, 부호화되어야 할 화상프레임으로서 복수의 분할영역으로 구성된 가상화상프레임을 설정하고, 이들 복수의 분할영역을 JP2의 타일링에 있어서의 처리단위인 타일로서 취급한다. 그리고, 이들 복수의 분할영역 각각에, 동화상데이터(상대쪽 대화자의 동화상)를 구성하는 화상프레임 중 부호화되어야 할 화상프레임으로부터 분할된 복수의 분할화상 중 적어도 어느 하나와 함께, 상기 동화상데이터와는 다른 정보원으로부터 얻어진 잘라낸 화상을 할당한다. 여기서, 할당되는 잘라낸 화상으로서는, 예를 들면 키보드로부터 입력된 모니터 화상(정지화상)으로부터 잘라내진 일부(이하, 텍스트 화상이라고 함), 광 펜(light pen)에 의한 화이트보드(White Board)기능을 이용한 손으로 직접 쓴 문자의 모니터 화상(정지화상으로부터 잘라내진 일부(이하, 화이트보드 화상이라고 함), 다른 동화상데이터를 구성하는 화상프레임의 일부 등, 카메라, 스캐너 등의 디지털기기에 의해 저장된 정지화상이나 동화상이 있다. 또, 새롭게 설정되는 가상화상프레임의 전체 사이즈 및 분할영역의 수는, 본래의 부호화 대상인 동화상데이터의 화상프레임과 동일할 필요는 없다. 단, 상기 가상화상프레임을 구성하는 분할영역의 사이즈는, 본래의 부호화 대상인 동화상데이터의 화상프레임의 분할 대상과 동일할 필요는 없지만, 동일한 쪽이 화상분할처리가 불필요하게 되기 때문에 보다 바람직하다.

상기 가상화상프레임을 구성하는 복수의 분할영역에 상술한 바와 같이 할당된 복수 종류의 화상 각각은, JP2의 타일링 기술을 이용함으로써, 타일에 상당하는 이들 복수 종류의 화상은 각각 다른 압축레벨에 의해 개별적으로 부호화가 가능하다. 이것에 의해, 이들 복수의 분할영역마다 설정되는 부호화 레벨에 따라서 개별적으로 압축함으로써, 각 가상화상프레임의 부호화데이터가 생성된다.

이상과 같이 부호화 대상인 동화상데이터의 화상프레임으로서 설정되는 가상화상프레임을 시간축을 따라서 순차적으로 부호화함으로써, 프레임마다 정지화상과 동화상의 1화상프레임분이 혼재된 동화상 재생용의 부호화데이터를 얻을 수 있다.

또한, 상기 가상화상프레임을 구성하는 복수의 분할영역 각각은, 상기 가상화상프레임 내에 있어서 설정되는 ROI 및 상기 ROI와는 다른 비ROI 중 어느 한 쪽에 대응되어도 된다. 이때, 상술한 구성과 마찬가지로, 복수의 분할영역 각각은, ROI에 대응된 분할영역의 부호량이 비ROI에 대응된 분할영역의 부호량보다도 많아지도록 압축되는 것이 바람직하다.

또, 상기 ROI의 설정은, 이용자 자신이 사전에 설정하거나 또는 사용 중에 설정 변경해도 되며, 또, 복수의 분할영역 중, 영역 내 화상의 움직임이 검지된 분할영역을 ROI에 대응하도록 해도 된다.

본 발명에 관한 동화상데이터의 부호화방법에서는, 상기 가상화상프레임을 구성하는 복수의 분할영역 중 적어도 어느 한 영역에 할당된 화상의 부호화데이터를, 또한 암호화해도 된다. 또, 이들 복수의 분할영역 중 적어도 어느 한 영역에 대한 부호화 처리에 있어서, 상기 분할영역의 부호량을 일정기간 중 0으로 해도 된다. 이런 경우, 부호화 처리를 실행하는 쪽에서 사전에 준비된 화상을 삽입함으로써, 표시용 화상프레임(복호화된 화상과 부호량 O의 영역에 삽입된 화상에 의해 구성)을 얻을 수 있다. 이상과 같이 설정되는 가상화상프레임도, 각각 JPEG2000에 의해 압축되는 것이 바람직하다.

상술한 바와 같은 동화상데이터의 부호화ㆍ복호화 방법은, 쌍방향 대화형 시스템에 있어서의 각 단말장치에 있어서 실행된다. 이 단말장치는, 상대쪽 대화자의 영상을 표시하는 표시장치와, 상기 표시장치의 전방에 위치하는 상기 대화자를 촬상하기 위한 촬상부와, 상술한 동화상데이터의 부호화ㆍ복호화 방법을 실행하는 제어부와, 그리고, 제어부에 의해 압축된 부호화데이터를 상기 전송수단에 송출하는 입출력부를 적어도 구비한다.

상술한 바와 같은 동화상데이터의 부호화ㆍ복호화 방법은, 컴퓨터 등에서 실행되는 프로그램이어도 되고, 이런 경우, 해당 프로그램은, 유선, 무선을 불문하고 네트워크를 통해서 전달되어도 되며, 또, CD, DVD, 플래시메모리 등의 기록매체에 격납되어 있어도 된다.

또한, 본 발명에 관한 각 실시예는, 이하의 상세한 설명 및 첨부 도면에 의해 한층 더 깊게 이해 가능해진다. 이들 실시예는 단지 예시를 위해서 예시되는 것으로서, 본 발명을 한정하는 것이라고 생각해서는 안된다.

또, 본 발명의 가일층의 응용범위는, 이하의 상세한 설명에서 분명해진다. 그러나, 상세한 설명 및 특정의 사례는 본 발명의 매우 적합한 실시예를 표시하는 것이지만, 예시를 위해서만 표시되고 있는 것으로서, 본 발명의 사상 및 범위에 있어서의 여러 가지의 변형 및 개량은 이 상세한 설명에서 당업자에게는 자명한 것은 분명하다.

본 발명에 의하면, 실시간의 쌍방향 대화를 실현하는 쌍방향 대화형 시스템과 같은 표시화상의 일부 영역에만 정보가 집중되어 있는 동화상데이터를 전송하는 특수한 대화환경에서의 이용을 특히 상정하며, 화상프레임으로부터 분할된 복수의 직사각형 영역을 ROI와 비ROI 중 어느 한 쪽에 대응시키고, 상기 ROI에 대응된 직사각형 영역과 비ROI에 대응된 직사각형 영역에서 압축레벨로 변화시켜서 각 화상프레임의 부호화를 실행함으로써, 관련되는 쌍방향 대화형 시스템에 있어서의 동화상데이터의 부호화 처리의 경감 및 고속화를 가능하게 한다.

도 1은 다른 지점간에 있어서 전송수단을 통해서 시선 일치를 실현하는 쌍방향 대화형 시스템(본 발명에 관한 단말장치 및 쌍방향 대화형 시스템)의 1구성을 나타낸 도면;

도 2는 도 1에 도시된 촬상장치를 나타낸 도면으로서, 시선 일치를 위한 CCD카메라의 설치방법을 설명하기 위한 도면;

도 3은 시차각(視差角)을 설명하기 위한 도면;

도 4는 CCD카메라가 설치되어야 할 영역을 나타낸 도면;

도 5는 본 발명에 관한 단말장치의 구조를 나타낸 블록도;

도 6은 각 단말장치에서 실행되는 동화상데이터의 송신동작 및 수신동작을 각각 설명하기 위한 플로차트;

도 7은 도 6 중의 영역(a)에 있어서의 동화상데이터의 송신동작에 있어서의 프레임 부호화(본 발명에 관한 동화상데이터의 부호화방법)를 설명하기 위한 플로차트;

도 8은 타일링을 설명하기 위한 도면;

도 9는 ROI(흥미영역)의 설정방법의 일례를 설명하기 위한 도면;

도 10은 타일과 ROI와의 대응관계를 설명하기 위한 도면(No.1);

도 11은 타일과 ROI와의 대응관계를 설명하기 위한 도면(No.2);

도 12는 ROI(흥미영역)의 설정방법의 다른 예를 설명하기 위한 도면;

도 13은 각 타일에 있어서의 화상의 움직임 검지를 설명하기 위한 도면;

도 14는 본 발명에 관한 쌍방향 대화형 시스템에 있어서의 동화상데이터의 송수신동작을 개념적으로 설명하기 위한 도면;

도 15는 본 발명에 관한 쌍방향 대화형 시스템에 있어서의 동화상데이터의 송수신동작의 다른 예를 개념적으로 설명하기 위한 도면;

도 16은 도 14 및 도 15에 도시된 동화상데이터의 송수신동작에 있어서의 프레임 부호화의 제1 응용예를 개념적으로 설명하기 위한 도면;

도 17은 도 16에 도시된 제1 응용예의 구체적인 예를 개념적으로 설명하기 위한 도면;

도 18은 도 14에 도시된 동화상데이터의 송수신동작에 있어서의 프레임 부호화의 제2 응용예를 개념적으로 설명하기 위한 도면;

도 19는 도 14에 도시된 동화상데이터의 송수신동작에 있어서의 프레임 부호화의 제2 응용예를 개념적으로 설명하기 위한 도면;

도 20은 본 발명에 관한 동화상데이터의 송수신동작에 있어서의 프레임 부호화의 제3 응용예를 개념적으로 설명하기 위한 도면;

도 21은 도 20에 도시된 제3 응용예에 관한 프레임 부호화에 의해 얻어진 부호화데이터의 복호화 동작을 개념적으로 설명하기 위한 도면;

도 22는 도 20 및 도 21에 도시된 제3 응용예에 관한 프레임 부호화가 적용되었을 때의 표시용 화상프레임의 일례를 예시한 도면;

도 23은 도 20 및 도 21에 도시된 제3 응용예에 관한 프레임 부호화가 적용되었을 때의 표시용 화상프레임의 일례를 예시한 도면.

<도면의 주요부분에 대한 부호의 설명>

3(3A, 3B): 대화자 A, B 5(5A, 5B): 촬상부(CCD카메라)

6(6A, 6B): 촬상유닛 8(8A, 8B): 모니터화면

20A, 20B: 단말장치 21(21A, 21B): 표시부(표시장치)

24(24A, 24B): 마이크 26(26A, 26B): 영상처리장치

80, 90: 모니터 화상 80a: 흥미영역

261, 265: 입출력부(I/O) 262: 화상데이터베이스(D/B)

263: 제어부 264: 묘화부

600(600A, 600B): 촬상장치 700: 외부기록장치

800: 화상데이터 810: 타일

이하, 본 발명에 관한 동화상데이터의 부호화ㆍ복호화 방법 등의 각 실시형태를, 도 1~도 23을 이용해서 상세히 설명한다. 또한, 도면의 설명에 있어서, 동일부위, 동일부재에는 동일부호를 붙여서 중복하는 설명을 생략한다.

본 발명에 관한 동화상데이터의 부호화ㆍ복호화 방법은, 소정의 전송수단을 통해서 접속된 단말장치에 있어서 실행 가능하며, 이와 같은 단말장치간에의 대화를 실현하는, 예를 들면 상기 특허문헌 1에 기재된 쌍방향 대화형 시스템에 적용 가능하다.

우선, 여기에서는, 해당 동화상데이터의 부호화ㆍ복호화 방법을 실행하는 단말장치가 적용 가능한 쌍방향 대화형 시스템에 대해서 설명한다. 또한, 이 쌍방향 대화형 시스템은, 시선 일치한 상태에서의 대화를 실현하는 시스템이지만, 해당 촬상장치를 포함하는 단말장치는, 대화자간에 시선 일치할 수 없는 구성이어서 단순 대화자 영상의 동화상데이터의 송수신이 가능한 쌍방향 대화형 시스템에도 적용 가능하다.

(쌍방향 대화형 시스템 및 단말장치)

도 1은, 다른 지점에 있는 대화자간의 시선 일치를 가능하게 하는 쌍방향 대화형 시스템 전체를 나타낸 논리구성도이다. 이 시스템은, A지점(제1 지점)에 있는 대화자(3A)(제1 대화자)와 B지점(제2 지점)에 있는 대화자(3B)(제2 대화자)와의 사이에 쌍방향 대화를 실현하는 시스템이다. 이 시스템은 다른 지점에 있는 대화자간에도 친밀한 신뢰관계를 확립하여 면밀한 커뮤니케이션을 실현하는 시스템이며, 예를 들면 카운슬링ㆍ시스템이나 가정학습을 지향한 서비스제공시스템으로서 이용할 수 있다. 그런 경우, 적어도 한쪽의 대화자로서, 교사, 의사, 심리학자 등의 서비스제공자를 상정하고 있다. 따라서, 이 시스템은 이들 서비스제공자가 서비스를 제공하기 위해서 필요한 정보, 및 이상적인 대화환경을 제공할 수 있도록 다양한 기능 및 구성을 구비한다.

구체적으로는, A지점에 있어서, (a) 대화자(3A)(예를 들면 카운셀러)가 앉는 의자(4A)(높이조절기구(40A)를 가짐)와, (b) 대화자(3A)가 향하는 테이블(2A)과, (c) 전송수단(27)을 통해서 대화자간의 시선을 일치시키기 위한 기구를 구비한 단말장치(20A)가 설치되고, 대화자(3A)는 파티션(partition)(22A)에 의해 격리되어 있다. 한편, B지점에는, (a) 대화자(3B)(예를 들면 카운슬링을 받는 클라이언트(client))가 앉는 의자(4B)(높이조절기구(40B)를 가짐)와, (b) 대화자(3B)가 향하는 테이블(2B)과, (c) 전송수단(27)을 통해서 대화자간의 시선을 일치시키기 위한 기구를 구비한 단말장치(20B)가 설치되고, 대화자(3B)는 파티션(22B)에 의해 격리되어 있다. 여기서, 전송수단(27)은, A지점의 단말장치(20A)와 B지점의 단말장치(20B)와의 사이에서 화상정보 및 음성정보의 송수신을 가능하게 하기 때문에, 광파이버전송로(31)(주요전송로) 및 위성통신전송로(32)(백업용 전송로) 등을 포함한다. 또한, 이 전송수단(27)은 유선, 무선의 어느 것이어도 된다. 또, 전송수단은, 이미 부설된 전화회선망 등의 네트워크를 포함하며, 추가로 다양한 데이터베이스를 구비한 전자게시판 시스템(BBS: Bulletin Board System)도 포함한다.

A지점에 있어서, 상술한 의자(4A)는 대화자(3A)의 위치를 규정하기 위해서 기능한다. 이 의자(4A)는 단말장치(20A)의 표시부(표시장치)(21A)와의 거리를 일정 하게 유지하기 위해서 고정되는 것이 바람직하다. 그러나, 상기 의자(4A)가 고정되어 있지 않은 경우일지라도, 테이블(2A)을 대화자(3A)와 표시부(21A)에 설치함으로써 이 의자(4A)와 표시부(21A)와의 거리를 일정하게 유지하는 것이 가능하게 된다(테이블(2A)의 존재가 대화자(3A)의 심리적인 거리의 기준으로 되는 사실이 확인되어 있음). 또한, 상대쪽의 대화자(3B)(예를 들면, 카운슬링을 받는 사람 등)가 있는 B지점의 단말장치(20B)의 구성도 마찬가지이다.

A지점에 있어서, 단말장치(20A)는, (1) B지점의 단말장치(20B)로부터 전송수단(27)을 통해서 전송되어 온 화상정보에 의거해서 대화자(3B)의 영상 등을 표시하는, 테이블(2A) 위에 배치된, 모니터 TV(1A)를 구비한 표시부(21A)와, (2) CCD카메라(촬상부)(5A)를 소정위치에 유지하기 위한 본체부(6A)와, (3) B지점의 단말장치(20B)로부터 전송수단(27)을 통해서 전송되어 온 음성정보에 의거해서 대화자(3B)의 음성을 출력하기 위한 음성출력부(23A)(스피커)와, (4) 대화자(3A)의 음성을 음성정보로서 집음(集音)하고, B지점의 단말장치(20B)를 향해서 전송하기 위한 음성입력부(24A)(마이크)를 구비한다. 또한, 이 시스템은 카운슬링ㆍ시스템으로서 보다 면밀한 커뮤니케이션을 실현하기 위해서, (5) 대화자(3A)가 문자나 도형을 입력하고, 입력된 문자나 도형을 표시부(21A)에 표시하는 동시에, 문자도형정보로서 B지점의 단말장치(20B)를 향해서 전송하기 위한 문자도형입력부(25A)(키보드, 포인팅ㆍ디바이스, 터치패널 등의 인터페이스)와, (6) 상기 각 구성요소와 전송수단(27)과의 사이에 형성되고, 신호처리, 전송제어 및 영상데이터의 편집작업 등을 실행하는 영상처리장치(26A)(제어부 포함함)를 구비한다. 또한, B지점의 단말장 치(20B)도, 상술한 A지점의 단말장치(20A)와 마찬가지로 구성되어 있으며, 구체적으로는, 표시부(21B), CCD카메라(5B)와 본체부(6B)로 이루어지는 촬상장치(600B), 음성출력부(23B), 음성입력부(24B), 문자도형입력부(25B), 및 영상처리장치(26B)를 구비한다.

또한, A지점 및 B지점의 단말장치(20A, 20B)에 있어서, 촬상장치(600A, 600B)의 구성을 설명한다. 또한, 설명의 형편상, A지점 및 B지점의 각 단말장치(20A, 20B)에 공통되는 구성요소에 대해서 언급하는 경우에는, 예를 들면 촬상장치(600)와 같이, 각 지점을 구별하는 문자 A, B를 생략해서 설명한다. 또, 특히 설명이 되어 있지 않은 경우에는, 원칙으로서 A지점의 단말장치(20A)에 대해서 설명하고 있는 것으로서, 공통되는 구성을 가지는 B지점의 단말장치(20B)에 대해서는 중복하는 설명은 생략한다.

이 촬상장치(600)는, 촬상부인 CCD카메라(5(5A)), 상기 CCD카메라(5)를 지지한 상태로 소정위치에 설치하기 위한 본체부(6)을 구비한다. 모니터 TV(1(1A))는 테이블(2(2A)) 위에 탑재되어 있으며, 대화자(3(3A))는 이 모니터 TV(1)로부터 거리 L(m) 떨어져서 배치된 높이조정기구(40(40A))를 구비한 의자(4(4A))에 앉아 있다. 이 거리 L(LA)은 0.5m이상 5m이하로 설정된다. 촬영되는 대화자(3) 및 모니터 TV(1)간에는, 외경 ø20㎜이하, 길이 약 100㎜의 원통형상의 CCD카메라(5)가 설치되어 있다. 또, 이 CCD카메라(5)는 그 촬상방향이 촬영되는 대화자(3)에게 향해지도록 설치되어 있다. 그리고 CCD카메라(5)로 촬상된 대화자(3)의 영상은, 화상정보로서 다른 쪽의 대화자쪽으로 전송된다(전송수단(27)을 통해서 B지점의 단말장 치(20B)에 전송됨). 또한, 대화자에 따라서는 표시부(21)와 상기 대화자간의 간격이 조금 어긋날 가능성도 있다. 따라서, 이와 같은 상황에도 대처하기 위해, CCD카메라(5)는 초점 심도가 깊은 것을 선택하는 것이 바람직하다.

다음에, CCD카메라(5)의 구체적인 설치위치를 도 2를 이용해서 설명한다.

우선, 촬상장치(600)의 본체부(6)는 전송되어 온 다른 쪽의 대화자의 영상을 표시하기 위한 표시부(21) 위에 설치된다. 또한, 스위치(210)는 모니터 TV(1)의 전원을 온/오프하는 전원스위치, 모니터화면(8)에 대해서 표시되는 화상을 수평방향이나 수직방향으로 이동시키기 위한 영상위치조절 스위치, 색보정 스위치 등을 포함한다. CCD카메라(5)는, 전송되어 온 다른 쪽의 대화자(3B)의 영상(9)이 표시되는 모니터화면(8)의 전방의 소정위치에 본체부(6)에 의해서 배치된다. 또한, 이 모니터화면(8)은 4인치 정도이면 충분히 이용할 수 있다.

구체적으로는, CCD카메라(5)는 모니터화면(8)으로부터 전방 w(㎝)의 위치로서, 상기 모니터화면(8)에 표시된 대화자의 영상(9)의 머리부분(9a) 부근에 배치된다. 원통형상 CCD카메라(5)의 중심축은, 점선으로 나타내는 대화자 영상(9)의 눈 위치의 위쪽 h(㎝)의 부위에 위치하고 있다.

이와 같이 CCD카메라(5)는, 모니터 TV(1)의 화면(8)에 표시된 대화자 영상(9)의 눈 위치보다 위인 머리부분 부근에 위치하고 있기 때문에, 쌍방향 대화에 특별한 지장은 발생하지 않는다. 예를 들면, CCD카메라(5)가 화면(8)에 표시된 대화자 영상(9)의 눈 위치(도면 중, 점선으로 나타내는 위치)의 위쪽 h = 약 10(㎝)에 설치되고, 모니터 TV(1) 및 대화자(3)간의 거리 L이 약 2.5(m)로 설정되어 있는 시스템 구성의 경우, 시차각은 2.3˚로 충분히 검지한계의 시차각 3˚를 하회하는 것이 가능하다(모니터화면(8)과 CCD카메라(5)의 간격 w가 10(㎝) 정도에 있는 경우에서도, 시차각의 변동에는 특별히 영향은 없음). 즉, 시선 일치 시에 상대의 눈(모니터화면(8)에 표시된 다른 쪽의 대화자(3B)의 영상의 눈)이 똑똑히 보이면, 그 머리부분 부근에 카메라(5)가 설치되어 있어도, 모니터 TV(1)의 화면(8)이 대형이면, 쌍방향 대화에 지장은 거의 없음이 확인되고 있다. 이 화면(8)의 크기는, 실험 결과, 가로 35㎝, 세로 26㎝정도 이상의 크기가 있으면 양호한 쌍방향 대화를 실현할 수 있음도 확인되고 있다. 또한, 상호의 대화자가 지인간이면, 화면의 크기는 작아도 심리적인 장해도 적은 경향을 나타내는 결과도 얻을 수 있으며, 화면 사이즈에 관해서는 용도에 따라서 적절히 사용하면 된다.

또한, 시선 일치 상태는, 모니터화면(8)에 대해서 CCD카메라(5)의 위치를 조절함으로써 실현 가능하다. 또, CCD카메라(5)에 대해서 모니터화면(8)상에 표시되는 화상을 이동시켜도 실현 가능하다. 예를 들면, 수동으로 시선 일치를 실현하는 경우, 대화자 자신이 CCD카메라(5)를 이동시키거나, 스위치(210)를 조절함으로써 모니터 화상을 이동시키면 된다. 또 자동으로 시선 일치를 실현하는 경우에는, 카메라를 이동시키기 위한 구동기구를 새롭게 설치하거나, 화상인식기술을 이용해서 모니터 화상을 이동시키면 된다.

또한, 시차각에 대하여, 도 3을 이용해서 설명한다. 이 명세서에 있어서, 시차각이란, 도 3에 도시된 바와 같이, 모니터화면(8)에 표시된 대화자 영상(9)으로 향해진, 촬영되는 대화자(3)의 시선과, CCD카메라(5)로 향해진, 상기 대화자(3)의 시선이 이루는 각도 θ를 말한다. 환언하면, 대화자(3)의 시선에 대한 CCD카메라(5)의 설치 위치의 어긋난 각도를 의미하고 있다. 또, 여기서 설명하는 시선 일치란, 비특허문헌 1에서 보고되어 있는 바와 같이, CCD카메라(5)의 설치 위치에 의한 부자연스러움의 허용한계 이하를 의미하고 있다. 정량적으로는, 시차각으로서, 좌우방향 4.5˚이하(대화자 영상(9)의 눈 중심(A)에 대하여, 상기 영상(9)의 양 관자놀이쪽), 바로 위방향 12˚(영상 중심(A)에 대하여, 영상(9)의 머리부분(9b)쪽), 바로 아래방향 8˚(영상 중심(A)에 대하여, 영상(9)의 몸통쪽)이하를 시선 일치 범위 내로 하고 있다. 물론, 이 시차각은 작은 것이 좋으며, 좌우상하방향 3˚이하가 검지한계로 되어 있다. 따라서, CCD카메라(5)가 설치 가능한 영역은, 도 4에 도시된 원뿔영역이다. 또한, 이 원뿔영역은, 대화자(3)의 눈(30)과 모니터화면(8)에 표시된 대화자 영상(9)의 중심점(A)(이 실시형태에서는, 대화자 영상(9)의 두 눈의 중심을 상기 대화자 영상(9)의 중심점(A)으로서 정의하고 있음)을 연결하는 상기 대화자(3)의 시선(31)에 대하여, 소정거리 L(m) 떨어졌을 때의 모니터화면(8)상의 시선 일치 영역(9b), 및, 상기 대화자(3)의 눈(30)의 위치로 규정된다.

또한, 모니터화면(8)상에 표시되는 대화자 영상(9)의 사이즈가 작은 경우에는, 반드시 상기 CCD카메라(5)와 대화자 영상(9)의 머리부분이 겹쳐져 있을 필요는 없다. 오히려 대화자 영상(9)의 머리부분이 CCD카메라(5)에 숨어 버려 잘 보이지 않게 된다. 상술한 바와 같이 시선 일치의 조건은 시차각 3˚의 영역 내에 CCD카메라(5)와 대화자 영상(9)의 눈이 존재하는 것이며, 구체적으로 화면으로부터 50㎝ 떨어진 위치에서 약 3㎝정도(도 2에 있어서의 h)이다. 따라서, 이 범위 내이면 CCD 카메라(5)와 대화자 영상(9)의 머리부분을 비켜 놓아도 시선 일치 상태는 유지된다. 이 대화자 영상(9)과 CCD카메라(5)를 비켜 놓기 위해서는, 예를 들면 모니터화면(8)상에 있어서의 화상표시위치를 조절하거나, CCD카메라(5)의 지지부를 조절해서 CCD카메라(5) 자체의 위치를 변경함으로써 실현된다.

발명자들은, 상술한 바와 같은 구조를 가지는 쌍방향 대화형 시스템에 있어서 시선 일치한 상태에서의 대화에 있어서의 심리적 고찰을 실행하고, 대화 시에 있어서의 대화자의 시선의 상당수는, 상대 대화자의 표정을 관찰하기 위해서 상기 상대 대화자의 얼굴이나 비언어적 표현으로 되는 손의 움직임에 집중되어 있음을 발견하였다. 이런 경우, 대화 시에 있어서의 대화자 영상을 포함하는 전체화면을 순차적으로 전송할 필요는 없고, 대화 시의 중요한 관찰영역, 즉 대화자의 얼굴이나 손의 움직임 등 상기 대화자에게 있어서의 흥미영역(ROI: Region of Interest)에만 주목해서 동화상 전송하면 전송량을 삭감할 수 있으며, 또, 쌍방향 대화의 고속응답성의 실현에 매우 효과적임을 발견하였다. 그래서, 본 발명에 관한 동화상데이터의 부호화ㆍ복호화 방법은, 쌍방향 대화형 시스템 등에 의해 송수신되는 동화상데이터의 각 화상프레임 내에 ROI를 포함하는 경우의 화상처리에 있어서, 처리부하를 효과적으로 경감시키는 동시에 상기 처리의 고속화를 실현한다. 또한, 해당 동화상데이터의 부호화ㆍ복호화 방법은, 단말장치에 있어서 실행된다.

(단말장치)

도 5는, 본 발명에 관한 동화상데이터의 부호화ㆍ복호화 방법을 실행하기 위한 단말장치의 구성을 나타낸 도면이다. 이 단말장치는, 모니터 등의 표시장치(21)(도 1에 도시된 쌍방향 대화형 시스템에 있어서의 표시부(21A, 21B)에 상당)와, 영상처리부(26)(도 1에 도시된 쌍방향 대화형 시스템에 있어서의 영상처리장치(26A, 26B)에 상당)와, 외부기록장치(700)와, 마우스 등의 포인팅 디바이스(포인팅 디바이스)(900)와, 터치 펜(920)과, 표시장치(21)의 전방에 위치하는 대화자를 촬상하는 CCD카메라(5) 등의 촬상부 및 촬상유닛(6)으로 이루어지는 촬상장치(600), 스피커(910)를 구비한다. 상기 영상처리부(26)는, 촬상수단에 포함되는 촬상유닛(6)으로부터의 화상정보나 다른 정보 미디어의 저장이나 전송수단(27)을 통해서 상대쪽 대화자의 동화상데이터(부호화데이터)의 송수신을 실행하기 위한 데이터 입출력부(261)(도면 중, I/O)와, 본 발명에 관한 동화상데이터의 부호화ㆍ복호화 방법을 실행하는 제어부(263)와, 송수신되는 동화상데이터를 격납해 두기 위한 화상데이터베이스(262)(도면 중, 화상 D/B)와, 표시장치(21)에 제어부(263)의 지시에 따라서 소정의 패턴을 표시하게 하는 묘화부(264)와, 마우스 등의 포인팅 디바이스(900)로부터의 위치정보의 저장이나 외부기록장치(700)와의 데이터 주고 받음을 가능하게 하는 데이터 입출력부(265)(도면 중, I/O)와, 상대 대화자의 음성이 출력되는 스피커(910)를 제어하기 위한 음원 컨트롤러(930)를 구비한다.

또한, 외부기록장치(700)는, 예를 들면 자기테이프, CD, 광디스크, 하드디스크, DVD, 플래시 메모리 등을 포함하고, 본 발명에 관련되는 동화상데이터의 부호화ㆍ복호화 방법을 실행하는 컴퓨터프로그램이나 상대쪽 대화자의 동화상데이터 등이 격납된다.

(동화상데이터의 부호화ㆍ복호화 방법)

다음에, 상술한 바와 같은 구조를 구비한 단말장치의 제어부(263)에 있어서 실행되는 부호화ㆍ복호화(본 발명에 관한 동화상데이터의 부호화ㆍ복호화 방법)를 설명한다. 도 6 중의 영역(a)은, 각 단말장치에서 실행되는 동화상데이터의 송신동작을 설명하기 위한 플로차트이며, 도 6 중의 영역(b)은, 각 단말장치에서 실행되는 동화상데이터의 수신동작을 설명하기 위한 플로차트이다. 또, 도 7은, 도 6 중의 영역(a)에 있어서의 동화상의 송신동작에 있어서의 프레임 부호화(본 발명에 관한 동화상데이터의 부호화방법)를 설명하기 위한 플로차트이다. 또한, 이하에서 설명되는 동화상데이터를 구성하는 화상프레임의 부호화 및 복호화는, JP2 기술에 의해 실행되는 것으로 한다.

우선, 동화상데이터의 송신동작에서는, 도 6 중의 영역(a)의 플로차트에 도시된 바와 같이, 대화에 앞서서, 화상프레임 내의 ROI를 설정하는 사전처리가 실시된다(스텝 ST10). 이 스텝 ST10에 있어서 설정된 ROI 정보는, 일단 메모리에 격납되고, 제어부(263)가, 이 격납된 ROI 정보를 이용해서 동화상데이터를 구성하는 화상프레임을 각각 시간축을 따라서 순차적으로 부호화해 간다(스텝 ST20). 또한, 이 프레임 부호화는, I/O265를 통해서 외부기록장치(700)로부터 읽어들인 컴퓨터프로그램을 제어부(263)가 실행함으로써 실행된다.

제어부(263)는, 상술한 프레임 부호화(스텝 ST20)에 의해 부호화된 부호화데이터를 순차적으로 I/O261를 통해서 전송수단(27)으로 송출한다(스텝 ST30). 그리고, 이들 프레임 부호화 및 부호화데이터의 송신동작은, 30프레임/초의 처리속도로 대화가 종료될 때까지 실행된다(스텝 ST40).

한편, 동화상데이터의 수신동작에서는, 도 6 중의 영역(b)의 플로차트에 도시된 바와 같이, 제어부(263)는, 전송수단(27)으로부터 I/0261을 통해서 화상프레임의 부호화데이터를 순차적으로 수신하고(스텝 ST50), 상기 화상프레임을 구성하는 직사각형 영역(타일)의 복호화를 실시한다(스텝 ST60). 그리고, 제어부(263)는, 화상프레임마다 전체타일의 복호화가 종료된 시점에서 복호화된 타일의 합성작업을 실행하고, 표시장치(21)에 표시해야 할 새로운 화상프레임을 생성한다(스텝 ST70). 또한, 수신한 부호화데이터 중에 있어서의 비ROI에 상당하는 타일의 부호량이 0인 경우에는, 화상 D/B262로부터 사전에 격납된 화상을 대응하는 타일화상으로서 합성함으로써, 표시해야 할 화상프레임을 생성한다. 또, 상술한 복호화 처리는, 대화 종료까지 순차적으로 실행된다(스텝 ST80).

또한, 도 6 중의 영역(a)의 플로차트 중의 프레임 부호화에 대해서, 도 7의 플로차트를 이용해서 상세히 설명한다.

제어부(263)에서는, JP2의 타일링 기술을 이용해서 화상프레임의 분할을 실행하고(스텝 ST201), 전처리(스텝 ST10)에서 설정된 ROI 정보에 의거해서, 분할된 전체타일을 ROI 포함되는 직사각형 영역인지, 혹은 비ROI에 포함되는 직사각형 영역인지로 분류한다.

또한, 이 스텝 ST201에 있어서의 타일링은, 도 8에 도시된 바와 같이, 대화자 영상(9)이 표시된 모니터 화상(80)을 포함하는 화상프레임(800)을, 몇 개의 동일한 사이즈의 타일(810)(T₁₇~T₇₇)로 분할하고, 이후, 이들 타일을 1매의 독립된 화 상으로서 취급할 수 있다. 타일의 사이즈는 대화자 자신이 임의로 선택 가능하며, 그 최소단위는 1×1화소, 최대는 (2³²-1)×(2³²-1)화소이다. 또, 화상프레임(8OO)의 사이즈를 모니터 화상(80)의 사이즈는 일치하고 있어도 된다. 단, 모니터 화상(80)의 데이터 사이즈는 작은 것이 타일링을 실행하는 제어부(예를 들면, CPU)의 부하 저감에는 유효하다. 그래서, 일단 광각렌즈 카메라에 의해 저장된 화상데이터 중 일부를 모니터 화상(80)으로서 타일링 처리하고, 모니터화면(8)에 표시할 때에 처리용의 모니터 화상(80)을 확대 표시해도 된다.

화상프레임(800) 내에 있어서의 ROI의 설정은, 대화 개시 전에 대화자 자신이 자기 영상을 모니터 화상에서 확인하면서 설정하는 것이 바람직하다. 구체적으로 ROI의 설정은, 도 3에 도시된 바와 같이, 대화자(3) 자신이 표시부(21)의 모니터화면(8)에 대면하고, 터치 펜(920)을 이용해서 실행한다. 이런 경우, 도 9에 도시된 바와 같이, 모니터화면(8)상에서 터치 펜(920)에 의해 지시된 시점 P1과 종점 P2로 규정되는 직사각형 영역을 ROI(80a)로 설정하면 된다. 예를 들면, 도 8에 도시된 화상프레임(800) 중에서 대화자 영상(9)의 얼굴을 포함하는 직사각형 영역이 ROI(80a)로 설정되었을 경우, 도 10에 도시된 바와 같이, 화상프레임(800)을 구성하는 타일 T₁₁~T₇₇ 중 타일 T₂₃, T₂₄, T₂₅, T₃₃, T₃₄, T₃₅가 ROI(80a)에 대응된다. 또한, 이와 같은 ROI의 설정은, 후술하는 바와 같이 1개의 화상프레임(800) 내의 복수 개소로 분할해서 각각 설정하는 것도 가능하다. 이런 경우, 복수의 ROI 각각에 대해서 압축레벨이나 암호화 레벨에 변화를 부여함으로써, 대화자 자신이 화상품질, 시 큐리티, 배경화상 등에 대한 자기결정권을 가질 수 있다.

또, 화상프레임(800)은, 도 11에 도시된 바와 같이, ROI(80a)에 1개의 타일 T₁₂가 일치되도록 분할되어도 된다. 이런 경우, 화상프레임(800)의 분할수를 줄일 수 있다. 또한, 대화 개시 시에 설정되는 ROI(80a)의 사이즈는, 대화 중에 변동하는 경우(대화자 자신이 움직이는 경우)가 있다. 그런 연유로, ROI(80a)의 사이즈 변동에 대응해서 타일(810)의 분할사이즈를 동적으로 변경시킴으로써, 화상처리의 보다 효율적인 부하분산이 가능하게 된다. 또, 도 8 및 도 10에 도시된 바와 같이, 복수의 타일(810)에 의해 ROI(80a)가 구성되는 경우에도, ROI(80a)의 사이즈 변동에 대응해서, 상기 ROI(80a)에 대응된 타일(810)을 동적으로 변경하는 것도 가능하다. 또한, 대화 중의 동적 변경은, 대화자 자신이 상황에 따라서 수동 변경되는 경우와, 제어부 등에서 상황 변화를 모니터하면서 자동 변경되는 경우 모두 포함된다.

상술한 바와 같은 대화 중에 있어서의 타일 사이즈나 대응관계의 동적 변경은, 눈이나 입, 얼굴의 움직임과 달리, 손의 움직임 등은, 사람에 따라서도 상당한 차이가 있는 데에 기인해서 실행된다. 즉, 정지하고 있는 손에 대해서 항상 일정한 압축을 하는 것은 아니고, 손의 움직임에 변화가 많은 사람, 적은 사람, 나아가서는, 그때의 대화의 상황에 맞춰서, 고정 압축률이나 고정 분할이 아니라, 압축률이나 분할사이즈를 적응성 있게 함으로써, 보다 최적인 화상처리가 가능하게 된다.

다음에, 상술한 바와 같은 타일링(스텝 ST201)에 계속해서, 분할된 타 일(810)마다 JP2 기술의 부호화가 실행된다. 또한, 이 실시형태에서는, 스텝 ST201에 있어서 ROI(80a)에 대응된 타일에 대해서만 부호화를 실행하고, 비ROI에 대응된 타일에 대해서는 부호량을 O으로 한다(부호화를 실행하지 않음). 또한, 이 실시형태에서는, 부호화가 실행되지 않는 경우일지라도, 타일의 존재만을 나타내는 수바이트의 부호화 열대응시킴으로써, 복호화의 파탄을 회피하고 있다.

제어부(263)에서 실행되는 프레임 부호화는 타일마다, 우선, 처리대상인 타일이 ROI(80a)에 대응되고 있는지, 비ROI에 대응되고 있는지를 판단하고(스텝 ST202), ROI(80a)에 대응된 타일만 부호화를 실행하는 한편, 비ROI에 대응된 타일에 대해서는 부호화 처리를 실행하지 않는다(부호량: 0).

스텝 ST202에 있어서 ROI(80a)에 대응되고 있다고 판단되면, 부호화 처리로서, 이산 웨이블렛 변환(DWT: 스텝 ST203), 스칼라 양자화(스텝 ST204), 및 EBCOT(스텝 ST205)가 순차적으로 실행된다.

여기서, 스텝 ST203의 이산 웨이블렛 변환(DWT)은, 타일 화상을 대역 분할하는 처리이다. JP2 기술에서는, 2분할 필터뱅크의 리프팅(lifting) 구성에 의거하는 DWT가 채용되고 있다. 리프팅 구성에 의거하는 DWT에는, 가역변환인 정수(整數)형 DWT와 비가역변환인 실수(實數)형 DWT의 2종류가 존재한다. 손실(lossy)(비가역) 부호화에는, 실수형 DWT가, 무손실(lossless)(가역) 부호화에는 정수형 DWT가 각각 이용된다.

또, 스텝 ST204에 있어서의 스칼라 양자화는, DWT 계수에 대해서, 각 대역마다 스칼라 양자화를 실행한다. 단, 정수형 DWT를 이용했을 경우에는, 이 처리는 생 략된다. 이 스칼라 양자화를 위한 양자화 스텝 사이즈는, 다음과 같이 표현된다.

[수 1]

여기서, Δ_b는 서브밴드(6)의 양자화 스텝, R_b는 서브밴드 b의 다이나믹렌지(dynamic range)이다. E_b와μ_b는 각각 5비트와 11비트로 나타내지며, 역양자화를 위해서 복호기에 전송된다. 또한, 상기 양자화 스텝 사이즈는, 화질 우선도가 높은, 즉 고화질이 요망되는 타일에 대해서는, 작은 스텝 사이즈가 설정되고, 저화질이어도 되는 비ROI에 대응된 타일에 대해서는 큰 스텝 사이즈가 설정된다. 또, 이 양자화 스텝 사이즈를 1로 설정하면 실질적으로 이 스칼라 양자화를 실행하지 않는 것과 등가이다.

다음에, 스텝 ST205에 있어서의 EBCOT(Embedded Block Coding with Optimized Truncation)는, 엔트로피 부호화 및 레이트 제어에 상당하는 처리를 담당하는 알고리즘으로서, 계수비트 모델링, 산술부호화, 및 층분할ㆍ부호절취에 의해 3공정으로 구성된다. 이 EBCOT에는, 코드블록이라고 불리는 부호화 단위가 존재한다. 코드블록은, DWT 영역에 있어서의 직사각형 영역으로 정의되며, 모든 대역으로 동일한 사이즈를 가진다. 또, 상기 3공정 중 산술부호화를 제외한 공정은, 코드블록 사이즈 단위로 독립적으로 실행된다.

계수비트 모델링에서는, 코드블록 내의 계수를 비트 플레인(bit plane) 분해하고, 각 비트 플레인에 있어서의 계수비트의 문맥정보(콘택스트(context))가 판정된다. 콘택스트 판정 시에는, 사전에 준비된 통계 모델에 의거하는 Context Assignment Map이 준비되어 있다. Context Aassignment Map은, 대역마다 다르다. 계수비트가 가지는 문맥정보에 의해서, 1개의 비트 플레인을 3개의 부호화 패스(서브 비트 플레인)로 분해, 정렬이 실행된다.

다음에, 산술부호화는, 각 부호화 패스를 2치(値) 산술부호화기인 MQ코더(coder)를 이용해서 부호화한다. MQ코더에는 부호화를 위한 문맥정보가 필요하게 되지만, 이것에는 계수비트 모델링에 의해 얻어진 문맥정보가 이용된다.

층분할ㆍ부호절취에서는, 코드블록마다 생성된 부호화 데이터열이, 재생 화상프레임에 있어서의 SNR 향상의 기여도의 높이에 따라서, 부여된 부호화 레이트 내에서 복수의 SNR 층으로 분할된다. 최상위의 층이 최고 화질에의 영향이 크고, 또, 최상위로부터 최하위의 각 층을 순서로 수신함으로써, 재생 화상프레임의 화질을 단계적으로 향상시키는 것이 가능하게 된다. 층으로 분할 가능한 위치는 각 부호화 패스의 종단부에 한정되고, 이 종단부가 절단점이라고 불린다. 또한, JP2에 있어서의 레이트 제어는, 화질에의 기여가 높은 순서로 나열 변경된 데이터에 대하여, 부여된 부호화 레이트를 초과하는 데이터를, 절단점을 단위로서 버림으로써 달성된다.

이상과 같이, 1개의 화상프레임을 구성하는 전체타일에 대해서, 부호화(스텝 ST203~ST205) 또는 부호화의 스킵(skip)이 종료되면(스텝 ST206), 얻어진 각 타일 의 부호화데이터를 정리해서 1개의 화상프레임의 부호화데이터가 생성된다(스텝 ST207).

또한, 상술한 스텝 ST201에서는, 전처리(스텝 ST10)에 있어서 대화자 자신이 설정된 ROI 정보를 이용해서, 소정 사이즈로 분할된 각 타일마다, ROI와 비ROI를 대응했지만, 이 ROI의 설정은, 분할된 타일 중, 화상의 움직임이 검지된 타일을 ROI에 자동적으로 대응하도록 해도 된다. 도 12는, ROI의 설정방법의 다른 예를 예시한 도면이다.

우선, 분할영역으로서, 화상프레임이 소정사이즈의 타일로 분할된다(스텝 ST201a). 그리고, 분할된 타일마다 화상의 움직임 검지가 실행되고(스텝 ST201b), 실제로 화상의 움직임이 검지된 타일을 ROI로 설정한다(스텝 ST201c). 이상의 처리가 모든 타일에 실행된 후(스텝 ST201d), 이후의 스텝 ST202가 실행된다.

도 13은, 분할된 타일마다의 움직임 검지 동작을 설명하기 위한 도면이다. 도 13 중의 영역(a)에는, 이전의 화상프레임 A(타일 T₁₁~T₂₃으로 구성) 중 타일 T₂₂와, 이후의 화상프레임 B(타일 T₁₁~T₂₃으로 구성)가 대응하는 타일 T₂₂ 상호간을 비교하는 상태가 도시되어 있다. 구체적인 비교로는, 이전의 화상프레임 A에 있어서의 타일 T₂₂ 내의 사전에 지정된 화소의 휘도값 a1, a2, a3과, 이후의 화상프레임 B에 있어서의 타일 T₂₂ 내의 대응하는 화소의 휘도값 b1, b2, b3을 구하고, 이들 대응하는 화소 상호간의 차이를 합계함으로써 움직임량을 산출한다. 즉, 타일 T₂₂의 움직 임량은, 이하의 식으로 나타내진다.

(a1-b1)+(a2-b2)+(a3-b3)

이상의 식에 의해 산출된 움직임량이 소정의 한계치를 초과하고 있는 경우에, 타일 T₂₂가 ROI로 설정된다. 또한, 휘도값을 비교하기 위한 화소수는, 타일마다 달라도 된다.

도 13 중의 영역(b)은, 상술한 움직임 검지 동작을 포함하는 부호화 처리를 개념적으로 나타낸 블록도이다. 이 도 13 중의 영역(b)에 도시된 바와 같이, 처리대상인 이후의 화상프레임 B에 있어서의 각 타일에 대해서, 비교대상인 이전의 화상프레임 A에 있어서의 대응 타일을 이용한 움직임 검지가 실행되고, 이 검지 결과에 의거해서, ROI로서 부호화되거나, 비ROI로서 부호화(비ROI의 경우는 부호량 0이어도 됨)되고, 이 이후의 화상프레임 B의 부호화데이터를 얻을 수 있다.

다음에, 도 14는, 상술한 바와 같은 동화상데이터의 부호화방법이 적용된 쌍방향 대화형 시스템(본 발명에 관한 쌍방향 대화형 시스템)에 있어서의 동화상데이터의 송수신동작을 개념적으로 설명하기 위한 도면이다. 또한, 이하의 설명에서는, CCD카메라(5)로부터 저장된 대화자 영상이 표시된 모니터 화상(80)을 6분할 타일링하는 예를 예시한다.

송신쪽 단말장치(20A)에서는, 우선, CCD카메라(5)로부터 순차적으로 저장된 화상프레임(대화자 영상이 표시된 모니터 화상(80))을 6개의 타일(T₁₁~T₂₃)에 타일링하고, 화상프레임마다, ROI(80a)에 대응되어 있는 타일 T₁₂를 부호화한다. 한편, 비 ROI에 대응된 타일 T₁₁, T₁₃, T₂₁~T₂₃은 일정기간마다 부호화된다. 이때, 송신쪽 단말장치(20A)는, 예를 들면 전송속도 10Mbps의 전송회선에 30프레임/초(fps)로 송출되는 화상프레임의 부호화데이터(압축된 타일 T₁₂의 부호만을 포함함)를 송출하면서, 일정기간마다 모든 타일 T₁₁~T₂₃의 압축데이터를 포함하는 부호화데이터를 송출한다. 이와 같이, 1개의 화상프레임을 구성하는 타일을 부호화 대상과 비부호화 대상으로 사전에 분류함으로써, 해당 송신쪽 단말장치(20A)에 있어서의 화상처리의 부하가 경감된다.

한편, 수신쪽 단말장치(20B)에서는, 30fps로 순차적으로 수신되는 부호화데이터를 복호화하지만, 이때, 일정기간 동안, ROI(80a)에 대응되어 있는 타일 T₁₂는 복호화 데이터를 얻을 수 있지만, 비ROI에 대응된 타일 T₁₁, T₁₃, T₂₁~T₂₃에 대해서는 복호화 데이터를 얻을 수 없다(송신쪽 단말장치(20A)로부터 송출되는 부호량은 0). 이런 경우, 수신쪽 단말장치(20B)에서는, 먼저 수신해서 복호화된 다른 화상데이터의 타일 T₁₁, T₁₃, T₂₁~T₂₃에 상당하는 타일 화상을 복호화된 타일 화상과 합성함으로써, 새롭게 표시되어야 할 화상프레임(90)을 생성한다.

이와 같이, 실시간의 쌍방향 대화를 실현하는 쌍방향 대화형 시스템과 같은 표시화상의 일부 영역에만 정보가 집중되어 있는 동화상데이터를 전송하는 특수한 대화환경에 있어서, 화상프레임으로부터 분할된 복수의 타일을 ROI와 비ROI 중 어느 한 쪽에 대응시키고, 상기 ROI에 대응된 타일과 비ROI에 대응된 타일에서 압축 레벨로 변화시켜서 각 화상프레임의 부호화를 실행함으로써, 관련되는 쌍방향 대화형 시스템에 있어서의 동화상데이터의 부호화 처리의 경감 및 고속화를 가능하게 한다.

또한, 상술한 수신동작에서는, 복호화된 모든 타일을 합성하거나, 또는, 복호화된 타일과 이전의 화상프레임의 타일로서 격납되어 있던 타일을 합성함으로써 표시용 화상프레임(90)을 생성하고 있지만, 표시용 화상프레임의 생성은 이에 한정되는 것은 아니다. 도 15는, 본 발명에 관한 쌍방향 대화형 시스템에 있어서의 동화상데이터의 송수신동작의 다른 예를 개념적으로 설명하기 위한 도면이다.

송신동작에서는, 도 14에 도시된 동작과 마찬가지로, 송신쪽 단말장치(20A)에 있어서, 타일 T₁₁~T₂₃ 각각에 대하여, ROI부호화 및 비ROI부호화 중 어느 한 쪽이 실행되고, 얻어진 부호화데이터가 수신쪽 단말장치(20B)에 송신된다. 수신쪽 단말장치(20B)에서는, ROI에 대응된 타일의 부호화데이터가 복호화되는 한편, 비ROI에 대응된 타일의 부호화데이터도 복호화된다. 그리고, 필요한 타일 T₁₂만을 확대 처리함으로써 표시용 화상프레임(90)을 생성한다.

또한, 이 도 15에 도시된 예에서는, 복수의 타일이 ROI로 설정되어 있지만, 회의의 진행상황에 대응해서 표시대상인물이 표시되어 있는 1개의 타일을 동적으로 변경하면서 ROI 설정해도 된다. 이런 경우, 사전에 확대 표시되는 타일만의 부호량이 전송되므로, 보다 처리부하가 저감된다.

예를 들면, 복수의 인물이 참가한 TV회의에 있어서, 송신쪽 단말장치(20A)에 서 사전에 각 회의 참가자를 표시하는 타일을 할당해 두고, 회의 참가자 중 어느 한 사람이 거수했을 경우 등, 화상의 움직임이 검지된 타일을 ROI로 설정하고, 각 타일에 대해서 ROI부호화 또는 비ROI부호화를 실행한다. 한편, 수신쪽 단말장치(20B)에서는, 복호화된 타일 중 ROI에 대응된 타일만을 표시용 화상프레임(90)으로서 확대 처리해도 된다.

또, 상술한 도 14에 도시된 예에서는 화상프레임을 6분할 타일링하고, 분할된 타일 T₁₁~T₂₃을 ROI와 비ROI 중 어느 한 쪽에 대응시켰지만, 이 ROI는 또한 요구되는 화질 레벨이 다른 복수의 영역으로 분류되어도 된다. 도 16은, 도 14에 도시된 동화상데이터의 송수신동작의 제1 응용예(특히 송신동작)를 개념적으로 설명하기 위한 도면이다.

상대 대화자의 표정에서는, 시선, 눈매, 미간의 미묘한 변화 등, 가장 섬세하며 또한 고속표시가 요구되는 한편, 비언어적 표현으로 되는 손의 움직임은, 손의 움직임, 윤곽의 고속응답이동표시가 중요하다. 그때의 손 그 자체의 화질은 열화해도 대화의 본질에는 경도의 영향으로 끝난다. 따라서, 상기 쌍방향 대화형 시스템 특유의 대화환경을 고려하여, 도 16에서는, 송신쪽 단말장치(20A)에 있어서 대화 시에 고정세 고속응답의 얼굴, 머리부분을 포함하는 고정세 또한 고속표시영역(제1 ROI)으로서 타일 T₁₂를 대응시키고, 손, 팔, 가슴 등을 포함하는 중정세하고 또한 고속표시영역(제2 ROI)으로서 타일 T₂₂를 대응시키며, 나머지의 타일 T₁₁, T₁₃, T₂₁, T₂₃을 비ROI에 대응시키고 있다. 이와 같이 대화에의 영향도를 고려해서, 압축 레벨이 단계적으로 변화된 복수 종류의 영역에 화상프레임 내를 분류해 두는 것이, 화상처리부하를 경감한 상태에서 원활한 쌍방향 대화를 실현하는 데에 있어서 보다 유효하다.

또한, 화상프레임 내에 있어서의 각 영역의 대화에의 영향도를 고려하면, 비ROI에 대응하는 타일 T₁₁, T₁₃, T₂₁, T₂₃의 부호량을 일정기간 중 0으로 해도 된다. 구체적으로는, 비ROI에 대해서는 부호화하지 않고, 부호화되지 않는 타일의 존재만을 나타내는 수바이트의 부호화열을 송신해 둠으로써, 복호화의 파탄을 회피한다.

또한, ROI에 대응된 타일 T₁₂를 암호화함으로써, 쌍방향 대화형 시스템을 이용하고 있는 대화자의 프라이버시 보호가 가능하게 된다. 상술한 바와 같이 대화자간에 시선 일치 상태를 실현하는 쌍방향 대화형 시스템은, 단지 비지니스 영상물로 이용되는 TV회의 시스템 외에, 재해ㆍ사고 등에 의한 후유증을 앓고 있는 사람의 카운슬링 등, 치료시스템에의 적용이 유망시되고 있기 때문이다. 한편, 쌍방향 대화에서는 실시간에서의 암호화와 복호화가 필요하기 때문에, 대화 시에 중요하게 되는 영역만의 암호화에 의해, 보다 효율적인 화상처리가 가능하게 된다. 대화 시에 중요하게 되는 영역(R0I)은, 주로 상대 대화자 영상의 얼굴이며, 이 부분이 판별 불가능하면, 개인특정은 매우 곤란하다. 따라서, 고정세(저압축률)하고 또한 고속표시영역인 ROI만을 중점적으로 암호화해 두면, 대화자의 프라이버시가 충분히 보호될 수 있다. 또, 개인특정에는 음성도 중요하며, 화상과 독립된 암호화에 의해, 보다 강고한 시큐리티가 구축 가능해진다.

또한, 쌍방향 대화는, 상대쪽 대화자의 얼굴을 보면서(시선 일치 가능한 상태를 유지하면서) 실행되지만, 상대쪽 대화자 영상을 통해서만의 대화에서는 아무래도 현실의 face-to-face 대화(동화상이나 자료화상을 이용한 비주얼대화)에 있어서의 임장감은 얻을 수 없다. 임장감 있는 대화환경으로서는, 쌍방향 대화에 있어서도, face-to-face 대화와 마찬가지로, 자료를 이용한 원활한 대화, 얼굴뿐만이 아니라, 상반신이나 방 전체를 비추는 것 같은 다양한 화상이 요구된다. 따라서, 상대쪽 대화자 영상의 표시와 병행해서 텍스트 등의 자료를 자유자재로 표시해서 임장감 있는 대화를 실현하는 것이 이상적이다. 그러나, 이와 같이 복수의 정보원으로부터의 정지화상이나 동화상의 추가송신에는 대용량의 통신용량이 필요하게 되며, 대화시스템 보급에의 장해로 된다.

이와 같은 임장감 있는 쌍방향 대화로서는, 음악, 연극, 각종 취미, 자격 전반 등의 원격실기지도도 포함되며, 특히 이와 같은 대화환경에서는, 복수 시점에서 관찰된 화상을 합성하는 동시에, 그때의 영상에 대응한 텍스트를 수시 표시해 나가는 것이 바람직하다. 나아가서는, 원격실기지도에 한정되지 않고, 현장 지도에 있어서도 복수 시점에서의 관찰 화상을 합성하는 동시에 텍스트도 표시녹화와 재생관찰지도가 바람직하다.

도 17은, 상술한 도 16에 도시된 제1 응용예의 구체적인 예를 개념적으로 설명하기 위한 도면이다. 이 도 17에는, 동물원의 감시용 모니터에 표시되는 화상프레임이 도시되어 있다. 이 화상프레임도, 타일마다 화상의 움직임을 검지해서 암호화의 유무를 설정하거나, 타일마다 사전에 암호의 유무나 강도를 설정해 둔다. 또 한, 이와 같은 응용예에서는, ROI 설정된 타일만이 암호화되는 것이 아니라, 임의의 타일에 대해서 암호화 설정된다.

즉, 우리 안의 동물이 표시되어 있는 타일 T₁₁, T₁₂, T₁₃에 대해서는 암호화하지 않고, 상기 동물에 움직임이 있었을 때에만 부호화데이터를 전송한다. 한편, 우리 바로 앞에 있는 인물이 표시된 타일 T₂₁, T₂₂, T₂₃에 대해서는, 프라이버시 보호의 관점에서 저레벨의 암호화를 실행하도록 해 둔다.

부호화되어야 할 동화상데이터에는, Power Point, 표계산 소프트웨어, 워드프로세서 소프트웨어, 브라우저 등의 어플리케이션 소프트웨어에 의해 생성되는 자료데이터도 적용 가능하며, 이하에서는, 이 부호화 동작을 도 18 및 도 19를 이용해서 설명한다. 또한, 도 18 및 도 19는, 모두 도 14에 도시된 동화상데이터의 송수신동작에 있어서의 프레임 부호화의 제2 응용예를 개념적으로 설명하기 위한 도면이다. 또, 상기 어플리케이션 소프트웨어 등에 의해 생성된 데이터 파일은, 일단 화상데이터로 변환된 후에 압축 등의 처리가 실시된다.

상기 어플리케이션 소프트웨어에 의해 생성되는 표시데이터 등은, 시간경과와 함께 부분적인 변화(예를 들면, 커서의 이동이나 문자의 추가표시 등)가 빈번히 발생되기 때문에, 일정시간마다의 표시데이터를 1화상프레임으로 함으로써 전체적으로 동화상데이터로서 취급하는 것도 가능하다. 이런 연유로, 이 명세서에 있어서, 동화상데이터에는, 촬상장치 등에 의해 저장된 영상데이터 외에, 상기 어플리케이션 소프트웨어 등에 의해 생성된 표시데이터, 정지화상과 영상의 편성 등도 포 함된다.

우선, 도 18에 도시된 예에서는, 텍스트나 사진(영상이어도 됨) 등의 화상프레임에 대해서 타일링을 한다. 이때, 포인터의 이동을 검지함으로써, 상기 포인터가 존재하는 타일 T₂₂를 부호화한다.

한편, 도 19의 예에서는, 도 19 중의 영역(a)에 도시된 바와 같이, 송신쪽 단말장치에 있어서의 모니터화면(8A) 내에는, 전송용 화상영역(이 영역이 전송용 화상프레임(80)으로서 타일링되어 있음)이 설정되는 동시에, 상기 영역 외에 Power Point, 표계산 소프트웨어, 워드프로세서 소프트웨어, 브라우저 등의 어플리케이션 소프트웨어에 의해 생성되는 자료데이터가 표시되어 있다.

도 19 중의 영역(b)에 도시된 바와 같이, 상기 자료데이터가 모니터화면(8A)상을 화살표 S1로 도시된 방향으로 드래그(drag)되고, 그 일부가 전송용 화상영역에 들어가면, 송신쪽 단말장치에서는, 타일 T₂₁ 내에 있어서 화상의 움직임이 발생된 것을 검지할 수 있다. 그런 연유로, 송신쪽 단말장치에서는, 관련되는 타일 T₂₁을 부호화하고, 수신쪽 단말장치에 전송한다.

수신쪽 단말장치에서는, 도 19 중의 영역(c)에 도시된 바와 같이, 모니터화면(8B)상에, 복호화된 타일 T₂₁만이 새롭게 합성된 화상프레임(90)이 표시된다.

또한, 본 발명에 관한 동화상데이터의 부호화방법의 제3 응용예에서는, 부호화되어야 할 화상프레임의 일부, 예를 들면 비ROI에 상당하는 직사각형 영역에, 송신대상인 동화상데이터와는 다른 정보원으로부터 얻어진 화상(압축레벨이 낮아도 대화에 지장을 일으키지 않는 정지화상의 일부나 다른 동화상을 구성하는 화상프레임의 일부)을 삽입하도록 구성되어 있다. 이 구성에 의해, 보다 임장감이 있는 쌍방향 대화가, 회선용량이나 화상처리능력 등 현재의 통신환경에 제한되는 일없이 가능하게 된다. 이하, 본 발명에 관련되는 동화상데이터의 부호화방법의 제3 응용예를, 도 20~도 23을 이용해서 상세히 설명한다.

도 20은, 본 발명에 관한 동화상데이터의 송수신동작에 있어서의 프레임 부호화의 제3 응용예(특히, 송신동작)를 개념적으로 설명하기 위한 도면이다.

이 제3 응용예에서는, 부호화되어야 할 화상프레임(80)으로서 복수의 분할영역 VT₁₁~VT₃₃으로 구성된 가상화상프레임을 설정하고, 이들 복수의 분할영역 VT₁₁~VT₃₃을 JP2의 타일링에 있어서의 처리단위인 타일로서 취급한다. 또한, 화상프레임(80)은 3×3으로 분할되어 있지만, 가상화상프레임은 4×4로 분할되어 있다(분할사이즈는 화상프레임(80)에 있어서의 직사각형 영역 T₁₁~T₂₃과 동일).

그리고, 가상화상프레임을 구성하는 분할영역 중 화상프레임(80)의 ROI로 설정된 직사각형 영역 T₁₂, T₂₂가, 상기 가상화상프레임의 분할영역 VT₁₂, VT₂₂에 할당된다. 가상화상프레임의 분할영역 V₁₃에는, 대화자 전체를 촬상한 동화상프레임(86)의 일부(86a)가 할당된다. 가상화상프레임의 분할영역 VT₃₁, VT₃₂에는, 키보드로부터 입력된 문자정보를 나타내는 텍스트 화상(88)의 일부(88a, 88b)가 각각 할당된다. 가상화상프레임의 분할영역 VT₁₁, VT₂₁에는, 광 펜(920) 등에 의해 입력된 손으로 직 접 쓴 문자정보를 나타내는 화이트 보드 화상(87)의 일부(87a, 87b)가 각각 할당된다. 또한, 가상화상프레임의 분할영역 VT₃₃에는 화상은 할당되어 있지 않은 것으로 한다.

분할영역 VT₁₁~VT₃₃에 상술한 바와 같이 할당된 복수 종류의 화상 각각에는, 도 20의 부호화 레벨 매트릭스에 도시된 바와 같이, 사전에 부호화 레벨이 지정되어 있다. 또한, "H"는 고압축률 지시를 의미하고, "M"은 중압축률 지시를 의미하며, "L"은 저압축률 지시를 의미하고 있다. 또, 부호화 레벨 매트릭스 중의 사선영역은, 가상화상프레임의 분할영역 VT₃₃의 부호화 레벨을 나타내는 영역이지만, 분할영역 VT₃₃에는 화상이 할당되어 있지 않기 때문에, 부호화는 실행되지 않는다(부호량 = 0). 이 부호화 레벨 매트릭스로 지정된 부호화 레벨에 따라서 각 분할영역 VT₁₁~VT₃₃이 JP2 기술에 의해 개별적으로 압축되고, 얻어진 분할영역 VT₁₁~VT₃₃의 부호화데이터를 합성함으로써 각 가상화상프레임의 부호화데이터가 생성된다.

이상과 같이 부호화 대상인 동화상데이터의 화상프레임으로서 설정되는 가상화상프레임을 시간축을 따라서 순차적으로 부호화함으로써, 정지화상과 동화상의 1화상프레임만큼이 혼재된 동화상 재생용의 부호화데이터를 순차적으로 얻을 수 있다.

한편, 도 21은, 도 20에 도시된 제3 응용예에 관련되는 프레임 부호화에 의해 얻어진 부호화데이터의 복호화 동작을 개념적으로 설명하기 위한 도면이다.

소정의 전송수단(27)을 통해서 송신된 부호화데이터는, 도 20 중에 도시된 가상화상프레임의 분할영역 VT₁₁~VT₃₃의 부호화데이터로 구성되어 있기 때문에, 이들 분할영역 VT₁₁~VT₃₃의 부호화데이터를 각각 복호화함으로써, 분할영역 VT₁₁~VT₃₃에 할당된 화상이 프레임 요소로서 얻을 수 있다. 또한, 가상화상프레임의 분할영역 VT₃₃의 부호량은 0이기 때문에, 이 분할영역 VT₃₃에 대응하는 프레임 요소로서, 대화자 자신의 자기 영상(85)이 준비된다.

이상과 같이 복호화된 프레임 요소와 별도로 준비된 대화자 자신의 자기 영상이 합성됨으로써, 도 21에 도시된 바와 같은 표시용 화상프레임(90)을 얻을 수 있다. 상대쪽 단말장치로부터 송신되어 오는 부호화데이터를 시간축을 따라서 순차적으로 복호화함으로써, 정지화상과 동화상의 1화상프레임만큼이 혼재된 동화상 재생용의 화상프레임을 순차적으로 얻을 수 있다.

도 22 및 도 23 각각은, 도 20에 도시된 제3 응용예에 관한 프레임 부호화가 적용되었을 때의 표시용 화상프레임의 일례를 예시한 도면이다. 어느 표시용 화상프레임도 도 21에 도시된 바와 같이 복합화에 의해, 또는 복합화와 다른 화상의 합성에 의해 얻을 수 있다.

도 22에 도시된 표시용 화상프레임(90)은, 복호화된 분할영역에 할당된 화상으로 구성된 영역(90a)과, 대화자 자신의 자기 영상(90b)이 합성되어 있다. 이 도 22에 도시된 표시용 화상프레임(90)의 예에서는, 사선영역(90c)에 텍스트 화상 등의 정지화상이 할당되고, 나머지의 영역에 상대쪽 대화자 영상의 ROI가 할당되어 있다. 이와 같이, 본 발명에 관한 동화상데이터의 부호화방법의 제3 응용예에서는, 부호화 처리 시에 가상화상프레임의 분할영역 VT₁₁~VT₃₃ 중 어느 한 쪽에 상대쪽 대화자 영상의 ROI를 할당해도 되며, 또, 상대쪽 대화자 영상과 텍스트 화상 등의 정지화상의 비율도 임의로 변경할 수 있다.

또, 도 23에 도시된 표시용 화상프레임(90)은, 지도자와 피아노연주자가 피아노 레슨을 실행하는 경우를 상정하고, 상기 지도자쪽에 표시되는 동화상을 구성하는 1화상프레임이다. 이 도 23에 도시된 바와 같이, 가상화상프레임을 구성하는 4분할영역 중 3분할영역에는 피아노연주자를 다각적으로 촬상한 각 화상이 할당되는 동시에, 나머지의 영역에는 악보 등이 표시한 텍스트 화상이 할당되어 있다. 또, 이와 같이 다각적으로 촬영된 화상을 가상화상프레임의 분할영역에 할당하는 경우에는, 다른 지점 사이에서 TV회의를 실행하는 한쪽에 참가한 참가자 각각의 화상을 가상화상프레임을 구성하는 몇 개의 분할영역에 할당하는 동시에, 나머지의 분할영역에 회의자료를 표시한 텍스트 화상을 할당하도록 해도 된다.

이상의 본 발명의 설명에서, 본 발명을 다양하게 변형할 수 있음은 분명하다. 그와 같은 변형은, 본 발명의 사상 및 범위로부터 일탈하는 것이라고는 인정할 수 없고, 모든 당업자에게 있어서 자명한 개량은, 이하의 청구의 범위에 포함되는 것이다.

본 발명은, 실시간의 쌍방향 대화를 실현하는 쌍방향 대화형 시스템과 같은 표시화상의 일부 영역에만 정보가 집중되어 있는 동화상데이터를 전송하는 특수환경에서의 사용이 가능하다.

Claims

동화상데이터를 구성하는 화상프레임 각각을 시간축을 따라서 순차적으로 압축해 가는 동화상데이터의 부호화방법으로서,

상기 동화상데이터를 구성하는 화상프레임 중 부호화되어야 할 화상프레임을, 복수의 영역으로 분할하고,

상기 복수의 분할영역 각각을, 상기 화상프레임 내에 있어서 설정되는 흥미영역 및 상기 흥미영역과는 다른 비흥미영역 중 어느 한 영역에 대응시키고,

상기 복수의 분할영역 중 상기 흥미영역에 대응된 분할영역의 부호량이 상기 비흥미영역에 대응된 분할영역의 부호량보다도 많아지도록 상기 복수의 분할영역을 각각 압축함으로써, 각 화상프레임의 부호화데이터를 생성해갈 때, 상기 복수의 분할영역 중 상기 비흥미영역에 대응하는 분할영역에 대한 부호화처리에 있어서 상기 분할영역의 부호량을 일정기간 중 0으로 하는 것을 특징으로 하는 동화상데이터의 부호화방법.
제1항에 있어서,

상기 복수의 분할영역 중, 영역 내 화상의 움직임이 검지된 분할영역이 상기 흥미영역에 대응되는 것을 특징으로 하는 동화상데이터의 부호화방법.
제1항에 있어서,

상기 흥미영역에는 복수의 분할영역이 대응되고, 이들 흥미영역에 대응된 분할영역은, 각각 부호량이 다르도록 압축되는 것을 특징으로 하는 동화상데이터의 부호화방법.
삭제
제1항 내지 제3항 중 어느 한 항에 있어서,

상기 복수의 분할영역 중 상기 흥미영역에 대응된 분할영역에 상당하는 부호화데이터가, 또한 암호화되는 것을 특징으로 하는 동화상데이터의 부호화방법.
제1항 또는 제2항에 있어서,

상기 동화상데이터를 구성하는 화상프레임은, 상기 흥미영역이 하나의 분할영역을 구성하도록 분할되는 것을 특징으로 하는 동화상데이터의 부호화방법.
제6항에 있어서,

상기 흥미영역의 사이즈 변동에 대응해서, 상기 분할영역의 분할사이즈가 동적으로 변경되는 것을 특징으로 하는 동화상데이터의 부호화방법.
제1항 내지 제3항 중 어느 한 항에 있어서,

상기 흥미영역의 사이즈 변동에 대응해서, 상기 흥미영역에 대응된 분할영역이 동적으로 변경되는 것을 특징으로 하는 동화상데이터의 부호화방법.
제1항 내지 제3항 중 어느 한 항에 있어서,

상기 동화상데이터를 구성하는 화상프레임은, 각각 JPEG2000에 의해 압축되는 것을 특징으로 하는 동화상데이터의 부호화방법.
삭제
컴퓨터에 의해 제1항 내지 제3항 중 어느 한 항에 기재된 동화상데이터의 부호화방법을 실행하는 컴퓨터프로그램이 기록된 것을 특징으로 하는 컴퓨터로 읽을 수 있는 기록매체.
촬상된 대화자 영상을 소정의 전송수단을 통해서 상대쪽 대화자에게 서로서로 제시함으로써 상기 대화자와 상기 상대쪽 대화자 사이에서의 대화를 실현하는 쌍방향 대화형 시스템으로서,

상기 전송수단과,

상기 전송수단을 통해서 동화상데이터의 송수신이 가능한 복수의 단말장치로서, 각각이, 상기 상대쪽 대화자의 영상을 표시하는 표시장치, 상기 표시장치의 전방에 위치하는 상기 대화자를 촬상하기 위한 촬상부, 제1항 내지 제3항 중 어느 한 항에 기재된 동화상데이터의 부호화 방법을 실현하는 제어부, 및 상기 제어부에 의해 압축된 부호화데이터를 상기 전송수단에 송출하는 입출력부를 가진 복수의 단말장치

를 구비한 것을 특징으로 하는 쌍방향 대화형 시스템,
제12항에 있어서,

상기 흥미영역은, 표시위치조절을 위해서 표시되는 상기 대화자 자신의 자기영상에 대해서 설정되는 것을 특징으로 하는 쌍방향 대화형 시스템.
제12항에 있어서,

상기 흥미영역의 설정과 동시에, 상기 분할영역의 압축레벨 및 암호화의 유무가 설정되는 것을 특징으로 하는 쌍방향 대화형 시스템.
제1항에 기재된 동화상데이터의 부호화방법에 의해 압축된 화상프레임마다,

상기 화상프레임을 구성하는 각 분할영역의 부호화데이터를 복호화하고, 상기 복호화된 각 분할영역을 합성해서 새롭게 화상프레임을 생성하는 동화상데이터의 복호화방법으로서,

상기 흥미영역에 대응된 분할영역으로서 압축된 부호화데이터를 복호화하는 동시에,

상기 비흥미영역에 대응된 분할영역으로서, 이미 복호화 후에 격납(格納)되어 있던 다른 화상프레임의 대응영역을 준비하고,

복호화된 상기 흥미영역에 대응된 분할영역과, 준비된 다른 화상프레임의 대응영역을 합성하고, 표시용 화상프레임을 생성하는 것을 특징으로 하는 동화상데이터의 복호화방법.
삭제
컴퓨터에 의해 제15항에 기재된 동화상데이터의 복호화방법을 실행하는 컴퓨터프로그램이 기록된 것을 특징으로 하는 컴퓨터로 읽을 수 있는 기록매체.
촬상된 대화자 영상을 소정의 전송수단을 통해서 상대쪽 대화자에게 서로서로 제시함으로써 상기 대화자와 상기 상대쪽 대화자 사이에서의 대화를 실현하는 쌍방향 대화형 시스템으로서,

상기 전송수단과,

상기 전송수단을 통해서 동화상데이터의 송수신이 가능한 복수의 단말장치로서, 각각이, 상기 상대쪽 대화자의 영상을 표시하는 표시장치, 상기 표시장치의 전방에 위치하는 상기 대화자를 촬상하기 위한 촬상부, 제15항에 기재된 동화상데이터의 복호화 방법을 실현하는 제어부, 및 상기 제어부에 의해 압축된 부호화데이터를 상기 전송수단에 송출하는 입출력부를 가지는 복수의 단말장치

를 구비한 것을 특징으로 하는 쌍방향 대화형 시스템.
촬상된 대화자 영상을 소정의 전송수단을 통해서 상대쪽 대화자에게 서로서로 제시함으로써 상기 대화자와 상기 상대쪽 대화자 사이에서의 대화를 실현하는 쌍방향 대화형 시스템에 적용 가능한 단말장치로서,

상기 상대쪽 대화자의 영상을 표시하는 표시장치와,

상기 표시장치의 전방에 위치하는 상기 대화자를 촬상하기 위한 촬상부와,

제1항에 기재된 동화상데이터의 부호화방법을 실현하는 제어부와,

상기 제어부에 의해 압축된 부호화데이터를 상기 전송수단으로 송출하는 입출력부를 구비한 것을 특징으로 하는 쌍방향 대화형 시스템의 단말장치.
제19항에 있어서,

표시위치조절을 위해서 상기 표시장치에 표시되는 상기 대화자 자신의 자기 영상에 대해서 상기 흥미영역을 설정하기 위한 입력수단을 구비하는 것을 특징으로 하는 쌍방향 대화형 시스템의 단말장치.
제20항에 있어서,

상기 입력수단은, 상기 흥미영역의 설정과 동시에, 상기 분할영역의 압축레벨 및 암호화의 유무에 관한 정보를 저장하는 것을 특징으로 하는 쌍방향 대화형 시스템의 단말장치.
제19항에 있어서,

상기 제어부는, 제1항에 기재된 동화상데이터의 부호화방법에 의해 압축된 상기 전송수단에 송출된 화상데이터를 상기 입출력부를 통해서 수신하고, 상기 화상데이터를 구성하는 각 분할영역의 부호화데이터를 복호화하고, 상기 복호화된 각 분할영역과 함께 사전에 준비된 다른 화상프레임의 대응영역을 합성해서 표시용 화상프레임을 생성하는 것을 특징으로 하는 쌍방향 대화형 시스템의 단말장치.
동화상데이터를 구성하는 화상프레임 각각을 시간축을 따라서 순차적으로 압축해 가는 동화상데이터의 부호화방법으로서,

부호화되어야 할 화상프레임으로서 복수의 분할영역으로 구성된 가상화상프레임을 설정하고,

상기 가상화상프레임을 구성하는 상기 복수의 분할영역 각각에, 상기 동화상데이터를 구성하는 화상프레임 중 부호화되어야 할 화상프레임으로부터 분할된 복수의 분할화상 중 적어도 어느 하나와 함께, 상기 동화상데이터와는 다른 정보원으로부터 얻어진 잘라낸 화상을 할당해서,

상기 가상화상프레임을 구성하는 상기 복수의 분할영역에 할당된 화상 각각을, 상기 복수의 분할영역마다 설정되는 부호화 레벨에 따라서 개별적으로 압축함으로써, 복수 종류의 화상정보를 포함하는 각 가상화상프레임의 부호화데이터를 생성해 가는 것을 특징으로 하는 동화상데이터의 부호화방법.
제23항에 있어서,

상기 복수의 분할영역 각각은, 상기 가상화상프레임 내에 있어서 설정되는 흥미영역 및 상기 흥미영역과는 다른 비흥미영역 중 어느 한 영역에 대응되고,

상기 복수의 분할영역 각각은, 상기 흥미영역에 대응된 분할영역의 부호량이 상기 비흥미영역에 대응된 분할영역의 부호량보다도 많아지도록 압축되는 것을 특징으로 하는 동화상데이터의 부호화방법.
제24항에 있어서,

상기 복수의 분할영역 중, 영역 내 화상의 움직임이 검지된 분할영역이 상기 흥미영역에 대응되는 것을 특징으로 하는 동화상데이터의 부호화방법
제23항 내지 제25항 중 어느 한 항에 있어서,

상기 가상화상프레임을 구성하는 상기 복수의 분할영역 중 적어도 어느 한 영역에 할당된 화상의 부호화데이터가, 또한 암호화되는 것을 특징으로 하는 동화상데이터의 부호화방법.
제23항에 있어서,

상기 복수의 분할영역 중 적어도 어느 한 영역에 대한 부호화처리에 있어서, 상기 분할영역의 부호량은 일정기간 중 0인 것을 특징으로 하는 동화상데이터의 부호화방법.
제23항 내지 제25항 중 어느 한 항에 있어서,

상기 가상화상프레임은, 각각 JPEG2000에 의해 압축되는 것을 특징으로 하는 동화상데이터의 부호화방법.
삭제
컴퓨터에 의해 제23항 내지 제25항 중 어느 한 항에 기재된 동화상데이터의 부호화방법을 실행하는 컴퓨터프로그램이 기록된 것을 특징으로 하는 컴퓨터로 읽을 수 있는 기록매체.
촬상된 대화자 영상을 소정의 전송수단을 통해서 상대쪽 대화자에게 서로서로 제시함으로써 상기 대화자와 상기 상대쪽 대화자 사이에서의 대화를 실현하는 쌍방향 대화형 시스템으로서,

상기 전송수단과,

상기 전송수단을 통해서 동화상데이터의 송수신이 가능한 복수의 단말장치로서, 각각이, 상기 상대쪽 대화자의 영상을 표시하는 표시장치, 상기 표시장치의 전방에 위치하는 상기 대화자를 촬상하기 위한 촬상부, 제23항 내지 제25항 중 어느 한 항에 기재된 동화상데이터의 부호화 방법을 실현하는 제어부, 및 상기 제어부에 의해 압축된 부호화데이터를 상기 전송수단에 송출하는 입출력부를 가진 복수의 단말장치

를 구비한 것을 특징으로 하는 쌍방향 대화형 시스템.
촬상된 대화자 영상을 소정의 전송수단을 통해서 상대쪽 대화자에게 서로서로 제시함으로써 상기 대화자와 상기 상대쪽 대화자 사이에서의 대화를 실현하는 쌍방향 대화형 시스템에 적용 가능한 단말장치로서,

상기 상대쪽 대화자의 영상을 표시하는 표시장치와,

상기 표시장치의 전방에 위치하는 상기 대화자를 촬상하기 위한 촬상부와,

제23항에 기재된 동화상데이터의 부호화방법을 실현하는 제어부와,

상기 제어부에 의해 압축된 부호화데이터를 상기 전송수단에 송출하는 입출력부를 구비한 것을 특징으로 하는 쌍방향 대화형 시스템의 단말장치.
제32항에 있어서,

상기 분할영역의 압축레벨 및 암호화의 유무에 관한 정보를 저장하는 입력수단을 구비하는 것을 특징으로 하는 쌍방향 대화형 시스템의 단말장치.
제32항에 있어서,

상기 제어부는, 제27항에 기재된 동화상데이터의 부호화방법에 의해 압축된 상기 전송수단에 송출된 화상데이터를 상기 입출력부를 통해서 수신하고, 상기 화상데이터를 구성하는 각 분할영역의 부호화데이터를 복호화하고, 상기 복호화된 각 분할영역과 함께 부호량 0의 분할영역으로 바꿔 준비된 화상을 합성해서 표시용 화상데이터를 생성하는 것을 특징으로 하는 쌍방향 대화형 시스템의 단말장치.