KR0180543B1

KR0180543B1 - 화상통신장치

Info

Publication number: KR0180543B1
Application number: KR1019950008477A
Authority: KR
Inventors: 겐지 이찌게; 다꾸야 이마이데; 류지 니시무라; 노리오 야쯔다; 히로유끼 구리야마; 마유꼬 오다
Original assignee: 가나이 쯔또무; 가부시키가이샤 히다찌세이사꾸쇼
Priority date: 1994-04-15
Filing date: 1995-04-12
Publication date: 1999-05-01
Also published as: CN1132406C; KR950030647A; CN1112326A; US5710590A

Abstract

비디오폰 및 영상기록장치 등 영상부호화장치 및 화상통신장치에 관한 것으로써, 만족스러운 화질을 유지하면서 아날로그 전화회선 등의 저속의 전송로에서도 이용될 수 있는 화상통신장치를 제공하고 실시간 방식으로 고품질의 비디오 화상을 만들어낼 수 있는 비디오폰 시스템을 제공하기 위해, 입력한 화상데이타로부터 하나 이상의 특정부분의 비디오 데이타를 추출하는 추출처리회로와 추출된 비디오 데이타와 그 이외의 비디오 데이타를 개별로 부호화하는 부호화회로와 부호화한 비디오 데이타를 다중화하는 다중화회로를 마련하고 특정피사체를 특정부분마다 추출하고 추출한 부분화상에 부호량의 분배를 실행하는 구성으로 하였다.

이것에 의해, 전송 데이타량이 현저히 삭감되어 아날로그 전화회선 등의 전송률이 낮은 회선에서도 실시간 방식으로 고화질의 통신이 가능한 비디오폰 시스템을 구성할 수 있고 피사체의 중요한 요소를 지식기술 형태로 전송하고 그 밖의 요소는 비디오 신호로써 전송할 수 있고 시청자는 자연스럽게 재생된 영상을 시청할 수 있고 화면 전체의 비디오 데이타를 전송하면서 인물의 얼굴표정 등 커뮤니케이션에 중요한 요소는 실시간으로 전송할 수 있는 효과가 얻어진다.

Description

화상통신장치

제1도는 본 발명의 제1실시예에 따른 화상통신장치를 도시한 도면.

제2도는 본 발명에 따른 화상통신장치의 전체구성을 도시한 도면.

제3도는 제1실시예의 화상추출회로의 구성을 도시한 도면.

제4도는 제1실시예의 부호화방법을 설명하기 위한 도면.

제5도는 제1실시예의 부호화방법을 설명하기 위한 도면.

제6도는 본 발명에 따른 제2실시예를 도시한 도면.

제7도는 제2실시예의 부호화수단의 구성을 도시한 도면.

제8도는 메모리 내의 비디오데이타의 메모리맵을 도시한 도면.

제9도는 제2실시예의 부호화방법을 설명하기 위한 도면.

제10도는 제2실시예의 디스플레이의 구성을 도시한 도면.

제11a도~제11c도는 인물의 입의 화상모델을 설명하기 위한 도면.

제12도는 본 발명에 따른 제2실시예를 도시한 도면.

제13도는 메모리 내의 비디오데이터의 메모리맵을 도시한 도면.

제14도는 제3실시예의 부호화방법을 도시한 도면.

제15a도 및 제15b도는 화상을 지식기술로 변화하는 방법의 일예를 설명하기 위한 도면.

제16도는 데이타베이스 내용의 1예를 도시한 도면.

제17도는 지식기술의 1예를 도시한 도면.

제18도는 송신측과 수신측 사이의 회선접속 직후의 수신측의 화상을 도시한 도면.

제19a도 및 제19b도는 화상수신방법의 1예를 설명하기 위한 도면.

본 발명은 예를 들면 비디오폰, 화상기록장치 등의 화상부호화장치 및 화상통신장치에 관한 것이다.

종래에는 음성 및 톤(tone)을 송수신하기 위한 통신장치로서 비디오 전화 장치(A. N. Netravali, B. G. Haskell, Digital Picture, pp. 115-119, ATT Bell Lab.(1988))가 사용되었다. 이 장치는 촬상장치, 음성입력장치와 화상 및 음성을 부호화하는 부호화회로를 구비하는 송신장치, 화상 및 음성신호를 복호화하는 복호화기, 스피커 및 CRT를 포함하는 표시장치를 구비한 수신장치, 통신망을 통해 화상과 음성을 송수신(통신)하기 위한 통신제어기를 구비한다. 이러한 종래의 장치에 있어서, 카메라로 촬영된 화상의 내용을 모두 부호화해서 전송로를 통해 전송하므로, 다량의 데이타를 전송하는 것이 필요하게 된다. 따라서, 저속의 아날로그회선을 거쳐 통신(전송)하는 형식의 저렴한 비디오폰은 화질이 크게 열화되고 화상의 움직임이 매끄럽지 못하고 부자연스럽다는 문제가 있었다.

상기와 같은 문제점을 처리하기 위해, 여러 가지 시도들이 있었다. 예를 들어, 일본국 특허공개공보 소화 57-129076호에 개시된 비디오폰 장치에 따르면, 사전에 촬영된 배경과 현재 생성된 비디오 화상을 비교하여 그 배경을 소거하는 것에 의해 기밀유지를 실행하고 전송될 화상정보의 양을 삭감한다.

그러나, 시스템 이용자가 서로의 화상을 보면서 통신을 하는 경우, 일반적으로 가장 중요한 것은 인물의 화상이다. 즉, 대부분의 경우에 있어서 인물 각각의 배경화상은 그다지 중요하지 않다. 제한된 부호량의 효율적 분배를 고려하면 얻어진 프레임 내의 화상의 구성요소들을 균일하게 부호화하고, 즉 통신자에게 있어서 중요도가 다른 피사체에 동등한 부호량을 균일하게 할당하는 것은 비효율적이다.

또, 일본국 특허공개공보 소화 57-129076호에 개시된 비디오폰장치에 있어서는 사전에 배경화상을 촬영하는 순서가 필요하게 된다. 즉, 이용자의 사용상 편리성이 고려되지 않았다.

본 발명의 목적은 충분한 화질을 유지하면서 아날로그 전화회선 등의 저속의 전송로에서도 이용할 수 있는 화상통신장치를 제공하는 것이다.

본 발명에 따른 상기 목적을 달성하기 위해서, 본원 발명은 피사체의 특정부분의 화상을 추출하는 화상추출수단, 추출된 화상부분을 부호화하는 부호화수단 및 상대방과 화상데이터로 통신하는 수단을 마련한다.

화상추출수단은 피사체의 특정부분의 화상을 추출한다. 추출된 화상은 각각 부호화방법 또는 부호화 파라미터의 변경에 의해 부호화되어 적절한 화상부분의 중요도에 따른 부호량이 발생된다. 이것에 의해 화면 화상의 각각의 부분에 최적으로 부호가 분배된다.

또, 비디오폰 장치나 비디오 회의 시스템에 있어서는 촬상장치로 촬영된 비디오신호를 부호화하여 ISDN(Integrated Services Digital Network) 등의 전송로를 통해 전송된다. 예를 들면, 컴포넌트 NTSC(National Television System Committee) 신호가 전송데이타 내에 압축되어 있지 않는 경우, 비트당의 전송속도는 컬러 텔레비전의 스튜디오 규격에 따르면 초당 216메가비트(Mbps)이다. 따라서, 보다 효율적으로 신호를 부호화하여 전송데이타의 비트수를 감소시키는 것이 필요로 된다. 부호화방법으로서는 일본국 텔레비전 학회지, Vol.45, No. 7(1991), pp.793-799에 개시된 방법을 주로 사용한다. 즉, 움직인 부분만을 전송하는 프레임간 추측 또는 예측에 의한 조건부 화소보충방식을 기준으로 이용하고, 이것에 이산코사인변환(DCT) 등 다른 부호화방법을 조합시킨 것이 이용되었다. 이와 같은 고능률 부호화기술의 진보에 의해 비즈니스나 산업분야에서는 ISDN회선을 사용한 비디오폰이나 텔레비전 회의 시스템이 널리 보급되어 왔다. 화상을 부호화해서 전송하는 통신방법은 예를 들면 일본국 특허공개공보 소화 62-120179호 및 계통적 화상 부호화(미야하라 마코토 저, pp.1-14, IPC)에 기재되어 있다.

그러나, 아날로그 전송을 이용하는 비디오폰 등의 저렴한 통신시스템도 알려져 있지만, 낮은 전송레이트로 전송하기 위해 화질을 상당히 희생시켰다. 따라서, 다음과 같은 문제점이 있었다. 특히, 인물의 얼굴에 있어서 표정을 만족할 만큼 전송하거나 표시할 수 없고 표정의 변화를 실시간 방식으로 전달할 수 없으므로 얼굴 동작이 부자연스럽다는 결과를 가져왔다.

본 발명의 다른 목적은 상기와 같은 문제점을 해결하기 위한 것으로서, 아날로그 전화회선과 같은 전송레이트가 낮은 회선에 있어서도 실시간 방식으로 고품질의 비디오화상을 생성할 수 있는 비디오폰 시스템을 제공하는 것이다.

본 발명은 상기 목적을 달성하기 위해 이루어진 것으로서, 피사체에 관련된 모델지식을 축적하고 있는 데이타베이스, 카메라로 촬영한 피사체를 추출하고 특징을 연산하는 추출처리수단과 추출처리수단에서 특징을 분석하여 데이타 베이스에 대응하는 지식기술로 특징을 변환하는 부호화수단을 구비하는 비디오카메라, 부호화수단에 의해 생성된 지식기술을 신호전송경로의 신호시스템과 일치하는 신호로 변환하고 수신측에 지식기술을 전송하고 송신측으로부터 보내져 온 신호를 지식기술로 변환하는 인터페이스수단, 송신측으로부터의 지식기술에 따라 데이타베이스를 참조해서 비디오신호를 합성하는 복호화수단을 구비한 시스템을 마련한다.

상기 목적을 달성하기 위한 수단은 다음과 같이 작용한다.

송신측이 화상을 송신할 때, 추출처리수단과 부호화수단에 부가해서 디지털비디오카메라에 공지의 신호처리회로나 제어회로로 이루어지는 비디오카메라는 촬상신호에 의해 촬영된 비디오신호의 처리에 있어서 공지의 신호처리를 실행하여 비디오신호 등의 화상신호를 생성한다. 추출처리수단은 신호처리회로에 의해 생성된 비디오신호에서 피사체를 추출하고, 추출된 피사체의 크기, 형태, 색, 중심좌표, 기울기 등의 특징요소를 연산한다. 마이크로컴퓨터 등을 구비한 부호화수단은 추출처리수단으로부터의 특징 정보를 분석하고, 피사체를 구성하는 요소와 그 상태를 인식하고, 인식된 정보 항목을 피사체에 관련된 모델지식을 포함한 데이타베이스에 대응하는 지식기술로 변환한다. 인터페이스수단에 의해 부호화수단이 생성한 지식기술을 전송경로의 신호방식과 일치하는 신호로 변환하고 그 결과를 전송경로로 전송한다.

전송경로를 거쳐 수신된 신호는 인터페이스수단에 의해 지식기술로 변환된다. 복호화수단은 지식기술을 복호화하여 송신된 화상을 복원한다. 이 동작에 있어서, 복호화수단은 피사체에 관한 모델화상을 여러 개 축적하고 있는 데이타베이스를 액세스하고 송신측에서 전송된 화상을 구성하는 요소와 관련된 비디오 데이터 항목을 선택하여 원래의 화상을 복원한다.

즉, 송신측은 화상 그 자체를 전송하는 것이 아니고, 인물의 얼굴 등 송신될 피사체의 화상을 그것을 표현하는 지식기술로 사전에 변환하고, 이 지식기술을 송신데이타로서 출력한다. 수신측에 있어서 지식기술을 상기한 바와 같이 피사체의 화상으로 복호화한다.

이와 같이 구성하는 것에 의해, 전송데이타량이 현저히 삭감되어 아날로그 전화회선 등의 전송레이트가 낮은 통신회선을 사용하더라도 실시간 방식으로 고화질의 통신이 가능한 비디오폰 시스템을 구성할 수 있다.

이하, 본 발명에 따른 화상통신장치의 제1실시예를 설명한다.

제2도는 장치를 사용해서 통신을 실행하는 이용자(1), 촬상장치(2), 음성입력장치(마이크), 표시장치(4), 부호화장치(5), 통신망(6)을 구비한 비디오폰 장치 등의 화상통신장치의 구성을 도시한 도면이다.

통신장치를 이용하는 이용자(1)는 원격지에 있는 동일한 통신장치를 이용하고 있는 통신상태와 통신망을 통해서 통신한다. 촬상장치(2)는 이용자(1)의 화상을 촬영하여 화상비디오신호를 부호화장치(5)에 입력한다. 마이크(3)는 이용자의 음성을 음성신호로 변환하고 부호화장치(5)에 공급한다. 부호화장치(5)는 비디오신호 및 음성신호를 통신망(6)에 적합한 부호신호(통신신호)로 부호화하고 이 신호를 통신망(6)으로 공급한다. 이용자(1)에서 통신망(6)으로의 통신신호의 송신에 부가해서, 부호화장치(5)는 통신망(6)을 통해 통신상대(1)에서 보내져 온 통신신호를 수신하고 그 신호를 복호화하고 상대(1)의 비디오신호 및 음성신호를 복원한다. 이렇게 얻어진 통신상대(1)의 비디오신호 및 음성신호는 표시장치(4)로 공급되어 화상 및 음성으로서 표시된다.

제1도는 제2도의 부호화장치(5)의 구성예를 도시한 도면이다. (20)은 입력단자, (21) 및 (22)는 출력단자, (23)은 입출력단자, (24)는 추출회로, (25a)는 추출처리 전의 입력신호, (25b)는 추출처리 후의 입력신호, (27a) 및 (27b)는 부호화회로, (28)은 다중화회로, (29)는 송수신부, (30)은 분리회로, (31a) 및 (31b)는 복호화회로, (32)는 합성처리회로이다. 본 발명에 따르면, 음성은 통상의 방법으로 처리되므로, 음성에 관한 설명은 생략한다. 촬상장치 및 마이크에서 발생된 이용자(1)의 비디오신호는 입력단자(20)에서 수신된다. 이 신호는 추출회로(24), 부호화회로(27a) 및 (27b), 다중화회로(28)를 포함하는 부호화수단에 의해 송신측의 부호화를 실행하고, 부호화된 신호는 송수신부(29)에 의해 통신용 신호로 변환하고, 입출력단자(23)를 통해서 통신망으로 출력한다. 송수신부(29)는 송신과 수신을 동시에 실행하고 통신상대로부터의 화상 및 음성을 포함한 통신신호를 입출력단자(23)를 통해서 수신한다. 수신된 신호는 분리회로(30), 복호화회로(31a) 및 (31b), 합성처리회로(32)를 포함하는 복호화수단에 의해 복호화되어 상대의 화상신호를 복원한다. 화상신호는 출력단자(22)에서 출력된다. 비디오신호는 표시장치(4)로 보내지고 상대의 화상으로 표시된다. 도시하지는 않지만, 확인을 위해 이용자(1)의 화상을 표시장치(4)에 표시하는 경우에 송수신부(29)에 있어서 송신신호를 수신신호로 처리하도록 전환동작만 실행하면 좋다. 또는, 입력비디오신호를 합성처리회로(23)에 공급하여 수신된 화상과 혼합하고, 표시장치(4)에 표시된 화상을 합성하면 좋다.

추출회로(24)의 신호를 수신하는데 있어서, 제어회로(26)는 최적의 입력화상을 얻기 위해 제어신호를 촬상장치로 보낸다. 입력화상신호는 우선 추출회로(24)로 공급되어 피사체의 부분화상을 추출한다. 이 실시예에 있어서, 촬상되는 피사체는 장치의 이용자 본인이다. 부분화상은 이용자의 눈, 입 등이다. 눈과 입의 화상은 그 윤곽이 피사체의 다른 부분보다 빈번히 변화하므로 다량의 정보항목을 할당할 필요가 있다. 추출한 부분화상(추출신호(25b))과 그 밖의 부분화상(비추출신호(25a))은 각각 부호화회로(27a) 및 (27b)에 입력되어 부호화된다. 부호화방법은 한정되지 않지만, 추출된 부분화상에 대해서는 보다 고품질의 화상으로 복원되도록 부호화회로(27b)에서는 더 많은 수의 부호가 발생된다. 부호화회로(27a)에 관해서는 통상의 비디오폰에 이용되고 있는 부호화방식(ITU-T Recommendation H. 261, Video codes for audiovisual services at px64 kbits(1993), 일본국 텔레비전 학회지 vol. 47(1991), No. 7, pp. 793「비디오폰과 텔레비전회의 부호화기술」)을 사용해도 좋다. 부호화회로(27b)는 엔트로피 부호화방식 등의 부호화방법(W. F. Schreiber. Fundamentals of Electronic Imaging System, Springer-Verlag(1993), pp.106)에 따라 동작되어도 좋다.

다중화회로(28)는 전단의 부호화회로(27a) 및 (27b)에서 생성된 부호신호를 다중화하고, 이 다중화된 신호를 송수신부(29)로 보낸다. 추출회로(24)는 부분화상의 추출에 부가해서 각 추출된 부분에 대해 크기, 윤곽, 기준점의 위치 또는 추출된 부분의 중심좌표를 계산하고 제어회로(26)로 결과 데이터항목을 출력한다.

피사체를 검출하고 그 피사체의 특징량을 구하기 위해, 예를 들면 상술한 일본국 특허공개공보 소화 59-208983호에 개시된 바와 같은 일정 시간간격으로 샘플링된 화상의 차분에서 피사체의 특징량을 구하는 방법을 적용해도 좋다. 또, 일본국 특허공개공보 평성 4-205070호에 개시된 바와 같은 미리 설정된 조건, 예를 들면 휘도신호와 색차신호에 의해 특정된 조건을 충족시키는 비디오신호의 부분을 피사체 후보로 하여 사용해도 좋다. 이렇게 현재 추출되어 있는 후보 영역과 기억수단에 기억되어 있는 일정 시간주기 전의 피사체 영역을 비교하여 서로 중복된 영역을 판정하고, 중복된 영역을 둘러싸는 영역을 피사체의 영역으로서 추출한다.

추출회로(24)의 데이타 항목에 따라, 제어회로(26)는 촬상장치(2)의 방향 및 확대율을 조정하도록 출력단자(21)로 제어신호를 출력한다. 그 결과, 촬상장치(2)는 바람직하고 자동적으로 이용자(1)를 향하고 또한 정확한 크기의 화상을 촬영할 수 있다. 이 처리순서는 필요에 따라 실행되고, 촬상장치(2)는 자동적으로 촬상장치 앞의 통신자의 움직임을 따라간다. 촬상장치(2)의 방향과 확대율을 조정하기 위해, 장치(2)를 기계적 또는 전자적으로 조작해도 좋다. CCD 등의 촬상소자를 구비한 촬상장치에 있어서, 상기 방향의 전자적 조정은 촬상장치의 출력으로 이용된 화소 이외의 여유화소를 구비한 CCD를 이용하는 것에 의해 실현 가능하게 된다. 또, 확대율의 조정은 일반적으로 전자줌이라 불리는 조작에 의해 전자적으로 실행된다. 부호화회로(27b)에 있어서, 후에 실행될 복호화동작을 위해 추출된 화상의 크기와 위치는 추출된 화상과 함께 부호화된다.

수신측 동작에 있어서, 수신된 신호는 분리회로(30)에 의해 추출부분(추출된 부분)과 비추출부분(추출되지 않은 부분)으로 분리된다. 분리된 부분은 각각 부호화회로(27a) 및 (27b)에 대응하는 복호화회로(31a) 및 (31b)에 의해 각각 복호화된다. 그 결과, 추출 부분의 화상과 비추출부분의 화상이 얻어진다. 그리고, 이 화상은 추출된 화상의 크기 및 위치의 정보 항목에 따라 화상을 생성하도록 합성처리회로(32)로 공급된다.

제3도는 제1도의 추출회로(24)의 구성예를 도시한 도면이다. 추출방법은 일본국 특허공개공보 평성 4-205070호에 개시된 것과 기본적으로 동일하다. 이 구성에 있어서, (40) 및 (43)은 입력단자, (41)은 각 입력화소마다 1비트의 데이터를 갖고 추출영역의 판별결과를 유지하는 기억수단, (45)는 기억수단, (42)는 판정회로, (44)는 어드레스 생성회로, (46) 및 (47)은 출력단자이다. 비디오신호는 입력단자(40)를 거쳐 판정회로(42)로 공급된다. 입력단자(43)는 각 추출부분의 추출조건을 입력하는 것이다. 이 경우, 추출조건으로서 휘도신호 및 색신호의 레벨을 지정할 수 있다. 여러 개의 조건 항목이 각 추출부분마다 설정된다. 예를 들면, 입 부분에 있어서 입술의 붉은 부분과 치아의 흰 부분으로서 여러 개의 휘도신호레벨과 색신호레벨의 조합이 설정된다. 입술색은 사람마다 차이가 있으므로, 휘도신호 및 색신호의 설정레벨은 각각 허용범위를 갖는다. 판정회로(42)는 입력단자(40)에서 수신된 화상에 대해서 추출조건과 일치하는 화상영역을 판정한다. 기억수단(41)은 판정회로(42)의 처리결과 즉 추출화상영역을 각 프레임에 저장한다. 또, 기억수단(41)은 추출화상영역을 각 추출부분마다 저장한다. 이 판정결과는 재차 판정회로(42)에 입력되어 다음 프레임의 추출영역의 후보로서 이용된다. 즉, 판정회로(42)는 기억수단(41)에 유지된 각 추출부분의 직전의 시점의 추출영역을 약간 확대하여 화상영역을 생성하고, 생성된 영역 내에서 각 추출부분마다 판정을 한다. 판정회로(42)는 각 추출부분마다 화상의 크기 및 위치를 산출하고 출력단자(46)로 그 결과를 출력한다. 크기 및 위치의 데이타 항목은 촬상장치의 제어를 위해 사용된다. 이 제어동작에 따라 이용자 얼굴 화상을 일정한 윤곽으로 촬영할 수 있다. 각 추출부분의 위치 데이타 항목은 어드레스 생성회로(44)에 입력되고, 기억수단(41) 내의 어드레스를 발생하여 추출부분을 각각의 분리위치에 저장한다. 제4도는 어드레스 생성결과의 1예를 도시한 것으로서, 추출부분의 비디오 데이타를 조합해서 전송용 CIF(Common Interchange Format) 등의 1프레임을 구성하도록 한다. 기억수단(45)에 저장된 화상데이타는 후에 리드되어 출력단자(47)에서 출력된다.

제5도는 추출부분(부호A)과 비추출부분(부호B)을 갖는 2종류의 비디오 데이타 항목의 다중화 방법을 도시한 것이다. 신호의 다중화는 다음과 같이 실행된다. 추출부분의 부호A는 각 프레임마다 최신 데이타가 전송되는 반면, 비추출부분은 소정의 프레임수 간격으로 1개의 화상이 전송된다. 또, 추출부분은 부분적 화상이므로 화상이 나중에 복호화회로에 의해 복호화될 때 재현위치의 정보가 요구된다. 따라서, 부호A는 각 추출된 화상의 위치정보도 포함한다.

본 실시예에 따르면, 보다 많은 부호량이 입과 눈에 관련된 화상에 대해서 보다 많은 양의 정보를 할당할 수 있다. 그 결과, 만족할 만한 화상의 질을 얻기 위해 필요한 전체 전송데이타량을 저감할 수 있고, 또 전송데이타량을 증가시키지 않고도 고화질의 화상을 얻을 수 있다.

제6도는 본 발명의 또 다른 실시예를 도시한 도면이다. 상술한 실시예와 비교할 때, 이 실시예에서는 상술한 실시예의 표시위치로서 사람의 머리부분의 입체화상 디스플레이를 사용한다. (90)은 입체화상 디스플레이이고, (91)은 부호화장치이다.

제7도는 입력단자(120), 출력단자(121) 및 (122), 입력단자(123), 입출력단자(124), 추출처리회로(125), 제어회로(126), 부호화회로(127), 다중화회로(128), 송수신부(129), 분리회로(130), 복호화회로(131), 합성처리회로(132)를 갖는 부호화장치(91)의 구성을 도시한 도면이다. 각 회로블록의 기능은 상술한 실시예의 대응하는 구성요소와 동일하다. 추출처리회로(125)는 디스플레이(90)에 인물의 얼굴을 나타내기 위해 얼굴의 구성요소와 얼굴 전체를 추출한다. 추출을 실행하는 구성요소는 얼굴 전체, 눈, 입, 코, 눈썹 등인 것으로 한다. 요소들은 부호화동작에 있어서 우선순위를 할당한다. 예를 들면, 얼굴 전체의 화상은 입의 화상보다 변화가 적으므로 낮은 우선순위가 할당된다. 눈과 입은 중요도가 동일하므로 입과 동등한 우선순위를 할당하고 많은 부호량을 할당한다.

얼굴에 따른 입체화상 디스플레이의 형상을 변형시키는 것이 불가능한 경우, 디스플레이(90)는 평균적인 얼굴을 모델로 해서 얼굴의 각 구성요소의 위치를 고정시킨다. 입체화상 디스플레이의 1예로서, 예를 들면 일본국 특허공개공보 평성 5-27346호 및 일본국 특허공개공보 평성 3-22753호에 개시된 것이 있다. 평면 또는 2차원 디스플레이에 있어서 촬상동작시 대략 피사체의 실제요소와 각 요소의 크기가 일치하면 충분하였으나, 3차원 디스플레이에 있어서는 요소의 위치를 입체 디스플레이의 실제 요소와 정확히 일치시키는 것이 필요하다. 이러한 목적을 위해, 먼저 눈 및 입의 위치를 조정하여 디스플레이를 고정하고, 그 결과 자동적으로 구성요소의 크기가 결정된다. 이 위치맞춤에 있어서, 추출처리회로(125)가 추출동작동안 소자 사이의 위치관계를 산출하고 눈 및 입의 위치를 구한다. 제어회로(126)는 추출처리회로(125)에 의해 얻어진 위치에 따라 동작하여 촬상장치 측에서 촬상위치 및 확대율을 조정한다. 이 조정처리는 소위 전자줌 기능에 의해 가로세로의 줌비율을 변화시켜 실현하는 것이 적절하다. 얼굴 화상은 송신측에서 입체 디스플레이(90)에 맞도록 조정이 실행되고, 그 후 구성요소가 추출된다.

추출처리회로(125)는 제3도에 도시한 상술한 실시예와 동일한 방법으로 구성된다. 그러나, 추출된 얼굴의 구성요소가 여러 개이거나 가변인 경우에는, 상술한 바와 같이 전송프레임의 포맷(제4도)에 맞도록 추출한 요소를 조합하는 것은 곤란하다. 따라서, 제8도에 도시한 바와 같이 기억수단(45)의 또 하나의 레이아웃을 이용한다. 이것은 단순히 소정 크기의 기억블록에 각 구성요소를 수납한 것이다. 추출처리회로(125)에서 출력된 데이터 항목은 기억수단(45)으로 리드명령을 발행하는 것에 의해 얻어진다. 즉, 얻어진 데이터 항목은 각 추출된 부분의 화상을 구성한다.

부호화회로(127)는 추출처리회로(125)의 출력을 부호화한다. 부호화방법 또는 데이타의 부호화에 이용된 각종 파라미터는 상술한 실시예와 마찬가지로 우선순위와 종류에 따라 각 추출된 화상마다 결정된다. 부호화된 화상의 각각은 다중화회로(128)에 의해 우선순위에 따라 다중화된다.

제9도는 다중화처리의 1예를 도시한 도면이다. 각 프레임은 예를 들면 적용 프레임의 내부 포맷을 나타내는 정보나 프레임을 식별하기 위한 프레임 식별기(ID) 등의 정보를 갖는 헤더부호 및 각 추출된 부분의 비디오 데이타 필드를 구비한다. 각 구성요소의 비디오데이타 항목은 우선순위에 따라 분배되고 소정수의 프레임의 관련된 부분은 1프레임 분의 정보를 구성한다. 제9도의 분배방법에 따르면, 우선순위가 낮은 얼굴 부분만이 소정수의 프레임으로 분배되어 전송된다. 여러 개의 프레임으로 부호를 분배하는 방법은 다중화회로(128) 내에서의 데이타 버퍼링 동작이 필요하다.

다중화된 부호는 송수신부(129)를 거쳐 통신망으로 송신된다. 수신측에 있어서, 부호는 분리회로(130), 복호화회로(131), 합성처리회로(132)에 의해 처리된다. 분리회로(130)는 송신측에서 보내져 온 다중화된 부호에서 우선순위마다 부호를 분리한다. 분리된 부호는 복호화회로(131)에 의해 각각 복호화되고 각 구성요소의 화상을 복원한다. 각 우선순위마다 수신된 비디오 데이타 항목간의 프레임 빈도가 다르므로, 복호화회로(131)는 기억수단을 구비하고 메모리 내에서 각 구성요소마다 비디오 데이타를 갱신한다. 이 내부기억수단은 제8도에 도시한 추출처리회로의 메모리포맷과 동일해도 좋다. 기억수단에서 리드된 신호는 복호화회로(131)의 출력신호로서 이용된다.

복호화회로(131)로부터의 비디오출력의 수신시, 합성처리회로(132)는 각 구성요소의 화상을 합성한다. 각 요소의 위치는 디스플레이(90)로부터의 정보를 따르므로 위치정보를 비디오 데이타와 함께 송신측에서 전송할 필요는 없다. 그러나, 디스플레이(90)용 포맷이 일정하다면, 디스플레이(90)는 상술한 정보조차도 전송할 필요가 없다.

제10도는 입체 디스플레이의 표시부(140), 표시부(140)에 화상을 투사하기 위한 투사부(141), 기억수단(142), 입출력(I/O)단자(143)를 구비하는 입체 디스플레이(90)의 구성을 도시한 것이다. 기억수단(142)은 디스플레이(140)의 포맷에 관한 데이타를 저장한다. 이 데이타는 얼굴 구성요소의 3차원적 위치와 크기를 나타내는 데이터를 포함한다. 디스플레이의 형태가 변하지 않으면 이 데이타 항목도 변하지 않으므로 디스플레이마다의 고정 ROM(리드전용메모리)이면 좋다. 포맷정보는 I/O단자(143)를 통해서 부호화장치로 보내지고, 부호화장치는 디스플레이에 따른 화상을 디스플레이에 공급한다. 상술한 바와 같이, 정보가 디스플레이와 부호화장치 사이에서 입출력(통신)되면 다른 형태의 디스플레이를 사용하는 것도 가능하다.

상술한 바와 같이, 입체화상 디스플레이를 사용해서 화상통신 시스템을 구성하면, 상술한 실시예의 효과에 부가해서 통신상대가 3차원적으로 이용자와 가까운 거리에 재생된다는 유리한 특징이 얻어진다. 그 결과, 통신자는 통신상대가 바로 앞에 있는 듯한 통신을 실행할 수 있다. 또, 본 실시예에 따르면 사람 얼굴의 화상만이 전송된다. 즉, 배경화상은 전송데이타 내로 전송되지 않는다. 또, 부호량은 우선순위 또는 중요도에 따라 각 부분에 할당된다. 따라서, 전송레이트가 낮은 전송로에서도 고화질의 화상이 전송된다.

제12도는 본 발명의 또 다른 실시예를 도시한 도면이다. 제12도는 특히 부호화장치의 구성을 도시한 도면으로서, 상술한 실시예와 동일한 구성요소에는 동일부호를 붙이고 있다. 제12도의 장치는 기억수단(180a) 및 (180b), 변위산출회로(181), 부호화회보(182), 복호화회로(183)를 구비한다.

이 실시예에 있어서, 얼굴부분의 화상을 추출하는 것에 부가해서 얼굴 각 부분의 구조와 관련된 정보를 부호화하도록 동작이 실행된다. 상술한 바와 같이, 인물의 얼굴은 여러 개의 부분으로 구성되고, 각 부분은 고유의 구조를 갖고 있다. 제11도는 인물의 얼굴 구조의 1예를 도시한 도면이다.

입 부분의 화상은 제11a도에 도시된 바와 같이 윗입술, 아랫입술, 윗니, 아랫니 및 입속으로 구성되어 있다고 고려한다. 각 개인에 있어서 이들 화상은 기본적으로 통신 도중에는 변화하지 않는다. 따라서, 정보는 기본적인 화상정보(기본정보)와 그 변화 또는 변형정보로 나뉘어진다. 입 화상의 경우, 기본정보(기본형태)는 제11b도에 도시한 바와 같이 입술화상데이타이고, 변형정보는 제11c도에 도시한 바와 같이 윗입술과 아랫입술 사이로 입속을 보여주는 것에 의해 특정된다. 입의 변형 비디오 데이타는 변형정보에 따라 기본정보를 변형하는 것에 의해 재생된다. 그 밖의 추출된 부분에 대해서도 마찬가지의 처리가 실시된다.

입력단자(120)에서 출력된 화상은 추출처리회로(125)로 공급되어 추출동작을 실행한다. 추출결과로서 얻어진 기본정보는 기억수단(180a)에 저장되고, 시시각각 변화하는 추출된 화상은 변위산출회로(181)로 공급된다. 입 부분의 기본정보는 2가지 방식으로 결정된다. 첫 번째 방법은 기본정보를 얻는 시점을 이용자에 의해 규정하는 것이다. 두 번째 방법으로는 기본정보를 장치에 의해 얻는 것이다. 입의 1예로서, 보통 다문 상태의 입의 화상과 관련된 정보를 기본정보로 하고, 변형의 정도를 변형정보로 한다. 첫 번째 방법에 있어서, 입을 다문 상태의 입화상을 얻어질 때의 순간이 이용자에 의해 결정된다. 두 번째 방법에 있어서 입의 화상만이 추출동작에 의해 얻어진다. 입의 열림상태(크기)를 통신개시 후 또는 소정의 시점에서부터 일정기간동안 감시하고, 그 크기가 최소값으로 되는 시점을 결정한다. 이 시점에서 입을 다물었다고 간주하고 기본정보로 하는 것이다.

이들 방법 중 어느 하나의 방법에 의해 얻어진 입부분의 기본정보와 특정 시점에서 추출된 화상은 변위산출회로(181)에 의해 비교되고, 변위정보가 산출된다. 부호화회로(182)는 기본정보 및 변형 또는 변위정보를 입력으로서 수신하여 그 정보를 부호화한다. 각 추출된 화상에 있어서, 얻어진 각각의 기본정보와 변형정보 항목은 다중화회로(128)에서 다중화되어 송수신부(129)를 거쳐 송신된다.

제13도는 기억수단(180a) 내의 데이타 항목의 메모리포맷이다. 이 포맷은 추출처리회로(125) 내의 기억수단과 동일해도 좋다.

제14도는 다중화회로(128)에 의해 다중화된 데이타 포맷을 도시한 도면이다. 기본정보는 소정수의 프레임마다 전송된다. 기본정보를 포함하지 않는 프레임은 변형정보를 전송하는데 사용된다. 각각의 기본정보 및 변형정보는 각각의 추출부분의 데이타 항목을 구성한다.

데이타 수신시에 있어서, 수신된 부호는 분리회로(130)에 의해 각각의 추출블록의 부호로 분해된다. 또, 그 부호는 기본정보의 부호화 변위정보의 부호로 분류된다. 분리된 정보단위는 복호화회로(183)에 의해 기본정보 또는 변위정보의 데이타로 복호화된다. 기본정보 및 변위정보 항목은 각각 기억수단(180b) 및 합성처리회로(132)로 보내진다. 합성처리회로(132)는 기억수단(180b)에서 기본정보를 리드하여 변위정보에 따라 기본정보를 변형하는 동작을 실행하여 각 추출부분을 재생하고, 그후 각 추출부분을 적합한 위치에 배열해서 화상을 합성한다. 합성된 화상은 출력단자(122)에서 출력화상으로서 출력된다.

상술한 실시예에 따르면, 각 추출부분은 기본 화상 데이타를 포함하는 기본정보와 기본정보에 관련된 변위 데이타를 포함하는 변위정보로 분해되어 전송된다. 부호량이 많은 기본정보는 각 프레임으로 전송되지 않는다. 즉, 기본정보가 소정의 프레임 간격을 두고 전송되는 반면, 부호량이 적은 변위정보는 각 프레임으로 전송되므로 전송부호량을 대폭 삭감할 수 있다.

다음에, 촬상장치에 의해 얻어진 화상을 지식기술로 변환하여 송신하고, 또 지식기술 데이타를 포함하는 데이타 베이스를 참조해서 수신된 지식기술을 구성하는 비디오 데이타를 원래의 화상으로 변환하는 처리에 대해서 기술한다.

특히, 추출처리회로(24)에 의해 추출된 화상이 부호화회로(27b)에 의해 부호화되는 경우, 데이타 베이스(240)가 참조되고, 추출된 화상은 지식기술로 변환된다.

또, 지식기술 형태의 화상데이타를 수신하는 경우, 복호화회로(31b)는 지식기술에 따라 데이타 베이스를 액세스하여 비디오 데이타를 원래의 화상으로 복호화한다. 이 동작에 있어서, 촬상된 피사체와 관련된 화상을 다수 구비하는 데이타 베이스에서 송신측에서 전송된 화상을 구성하는 각각의 요소에 대응하는 비디오 데이타 항목을 선택적으로 리드한다. 선택된 비디오 데이타 항목은 서로 결합되어 원래의 비디오 화상으로 복원된다. 다음에, 지식기술에 대해 구체적으로 설명한다. 지식의 기술방법에 관해서는 예를 들면 아구이, 나가사키 저, 지적화상처리, 제8장, pp. 132-139, 쇼코도 발행(1994) 등에 기재되어 있다.

인물의 화상을 지식기술로 변환하는 방법의 1예를 제15a도, 제15b도를 참조로 설명한다. 제15a도는 촬상장치로 인물을 촬영할 때 얻어진 피사체의 화상을 도시한 도면이다. 이와 같은 화상에서 인물과 관련된 화상을 추출하고 머리카락, 얼굴, 눈, 입 및 몸 등의 구성요소로 분해하고, 각 요소의 중시좌표, 폭, 높이, 크기 및 색을 포함하는 특징량을 구한다. 또한, 양쪽 눈의 홍채, 입속의 넓이 및 높이, 눈 및 눈썹의 기울기도 특징량으로서 얻어진다. 이 특징량은 제16도에 도시한 바와 같이 데이터 베이스와 관련된 요소번호가 각각 할당된 데이터 항목으로 변환된다.

제17도는 지식기술의 1예를 도시한 도면이다. 각 요소마다 지식기술 항목의 1세트는 (요소번호, 색(r-y,b-y), 위치(△x,△y), 크기)의 형태로 규정된다. 이 표현에 있어서, 위치(△x,△y)는 적절한 피사체의 중심좌표와 각 요소의 중심좌표의 차를 나타낸다. 제17도에서 알 수 있는 바와 같이, 피사체 구성요소의 지식기술 데이타 항목을 프레임 구분(구획)부호에 이어서 기술한다. 예를 들어, 피사체가 10개의 구성요소로 구성되고, 요소번호 등의 각 요소가 8비트 데이타 항목으로 나타내어지는 것으로 하면, 각 프레임당 필요한 데이타량은 결과적으로 480비트로 된다. 상술한 바와 같이, 화상을 지식기술로 변환하면 데이타 전송량을 대폭 삭감할 수 있다. 또, 데이타 전송 전에 변화된 구성요소의 지식기술만을 전송하도록 시스템을 구성하면 전송 데이타량을 한층 더 삭감할 수 있다.

지식기술로부터 원래의 화상을 복원하기 위해, 지식기술의 요소번호에 대응하는 화상을 데이타 베이스에서 리드해서 서로 결합하고 피사체의 화상을 합성한다. 화면상에 구성요소를 각각 배치하는 경우, 지식기술 내의 요소의 위치(0,0)가 화면의 중심위치에 오도록 배치한다. 상술한 바와 같이, 위치는 피사체의 중심좌표와 각 요소의 중심좌표의 차이므로, 위치(0,0)는 피사체의 중심좌표를 나타낸다. 이와 같은 구성에 의해 어떠한 경우에서도 피사체가 항상 화면의 중앙에 오도록 위치 보정할 수 있다.

화면상에서의 깊이방향에 있어서, 각각의 화상은 크기가 작은 것일수록 상층에 오도록 배치한다. 또, 데이타 베이스 내에서의 피부나 양쪽 눈의 홍채 등의 구성요소 화상의 색이 지식기술로 표현된 색으로 대체되는 경우, 송신측의 원래의 화상에 가까운 화상을 복원할 수 있다.

상술한 바와 같이, 화상 그 자체는 송신데이타로서 사용되지 않는다. 송신하는 피사체(인물의 얼굴 등)의 화상은 그 화상을 표현하는 지식기술로 변환하여 지식기술 데이타를 통신상대에게 보낸다. 수신측에서는 수신된 지식기술에 따라 피사체의 원래의 화상을 복원한다. 그 결과, 전송 데이타량이 대폭 삭감되어 아날로그 전화회선 등의 데이타 전송레이트가 낮은 회선을 사용해도 실시간으로 고화질의 비디오폰 시스템을 제공할 수 있다.

또, 피사체의 중요한 요소를 지식기술 형태로 전송하고 그 밖의 요소는 비디오 신호로서 전송하는 것도 가능하다. 이 동작에 있어서, 지식기술은 실시간으로 전송되는 반면, 화면전체의 화상정보는 전송(통신)경로의 전송레이트의 범위에서 느린 전달속도로 전송된다. 예를 들면, 인물의 얼굴의 화상을 전송할 때에는 커뮤니케이션에 중요한 요소인 눈이나 입이 실시간으로 전송된다. 또, 촬상장치로 촬영한 피사체의 화상을 추출처리회로에 의해 피사체의 전체 화상에서 추출하고 그 이외의 부분의 화상을 1개의 색으로 치환하는 경우, 전송 데이타는 보다 효과적으로 압축된다.

그러나, 상술한 방법에 있어서는 화면 전체의 정보전송의 속도가 느리므로, 회선이 연결된 직후에는 제18도에 도시한 바와 같이 눈과 입만이 화면에 나타난다. 그래서, 이러한 난점을 해소하기 위해 데이타 베이스 내에 사람(인물)의 머리부분의 모델화상을 마련한다. 회선 접속 직후에는 제19a도에 도시된 바와 같이 눈과 입의 화상이 모델화상과 합성되도록 눈과 입을 실시간으로 수신된 지식기술에 따라 합성하고, 합성된 화상을 화면상에 표시해도 좋다. 제19b도에 도시된 바와 같이, 모델화상을 송신측에서 순차 수신된 화상으로 치환하면 회선접속 직후에도 자연스러운 화상으로 표시된다. 즉, 표시되는 화상은 부자연스럽게 인공적으로 표현되지 않고 모델화상에서 송신측 인물의 화상으로 변화하므로, 시청자는 자연스럽게 재생된 화상을 시청할 수 있다.

상술한 바와 같이 아날로그 전화회선 등의 데이타 전송레이트가 낮은 회선을 사용하는 경우에도 화면 전체의 비디오 데이타를 전송하면서 인물의 얼굴표정 등 커뮤니케이션에 중요한 요소는 실시간으로 전송할 수 있다. 따라서, 제1도의 실시예와 마찬가지의 효과를 얻을 수 있다.

이상, 본 발명자에 의해서 이루어진 발명을 상기 실시예에 따라서 구체적으로 설명했지만, 본 발명은 상기 실시예에 한정되는 것은 아니고 본 발명의 효과를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

Claims

촬상수단, 음성입력수단, 상기 촬상수단에 의해 생성된 화상으로부터 피사체의 적어도 일부분의 화상을 추출하는 추출수단, 상기 음성입력수단에 의해 입력된 음성 및 상기 추출수단에 의해 추출된 화상 부분을 개별적으로 부호화하는 부호화수단, 상기 부호화수단에 의해 상기 화상부분 및 음성을 부호화하여 얻어진 데이타를 통신망을 거쳐서 통신하는 통신수단, 상기 통신수단으로부터 수신한 데이타를 복호화하고 상기 추출된 화상부분 및 음성을 복원하는 복호화수단, 화상을 합성하는 합성수단, 오목볼록을 구비하는 표면을 갖고, 상기 합성수단에 의해 합성된 화상을 표시하는 표시장치, 상기 표시장치의 오목볼록 상에 표시될 화상의 구성요소의 크기 및 3차원 위치를 나타내는 정보를 기억하는 메모리, 상기 메모리에서 상기 합성수단으로 상기 정보를 전송하는 데이타 입출력 수단 및 상기 합성된 화상데이타에 대응해서 합성된 화상을 상기 표시장치에 투영하는 투영수단을 포함하고, 상기 합성수단은 상기 복호화수단에 의해 복호화된 상기 추출된 화상부분과 상기 데이타 입출력수단에서 수신된 정보에 따라 상기 화상을 합성하고, 상기 3차원 위치 및 크기에 따라서 상기 표시장치의 오목볼록과 동일하게 되는 합성된 화상을 나타내는 데이타를 생성하는 화상통신장치.
제1항에 있어서, 상기 추출된 부분의 화상은 인물의 얼굴의 일부이고, 상기 표시장치 표면의 오목볼록은 인물의 얼굴과 동일한 일반적인 윤곽을 갖는 화상통신장치.
제1항에 있어서, 상기 추출된 부분의 화상은 화상통신장치의 이용자의 인물의 얼굴의 일부이고, 상기 메모리에 기억된 정보는 상기 이용자의 인물의 얼굴의 추출되지 않은 남겨진 부분을 나타내는 화상통신장치.