KR20040079637A

KR20040079637A - 3차원 얼굴기술자를 이용한 얼굴인식방법 및 장치

Info

Publication number: KR20040079637A
Application number: KR1020030014615A
Authority: KR
Inventors: 이원숙; 기석철
Original assignee: 삼성전자주식회사
Priority date: 2003-03-08
Filing date: 2003-03-08
Publication date: 2004-09-16

Abstract

3차원 얼굴 기술자를 이용한 얼굴 검색방법 및 장치가 개시된다. 3차원 얼굴 기술자를 이용한 얼굴 검색장치는 3차원 얼굴 기술자를 이용한 얼굴 인식장치는 다수의 포즈를 가진 이미지들, 얼굴 회전을 가진 비디오들 및 3차원 얼굴 매쉬모델 중의 하나로 등록하고 훈련시켜 포즈값을 포함한 전체 특징점 공간 베이시스를 생성하여 데이터베이스에 저장하는 베이시스 생성부, 각 유저별로 N 포즈의 영상, 얼굴 회전을 가진 비디오 스트림, 및 3차원 얼굴 매쉬모델 중의 하나와 베이시스 생성부로부터 제공되는 포즈값을 포함한 전체 특징점 공간 베이시스를 이용하여 3차원 전체 얼굴기술자를 생성하여 데이터베이스에 저장하는 전체 얼굴기술자 생성부, 인식하고자 하는 임의의 유저의 영상, 비디오 스트림, 3차원 얼굴 메쉬모델 중의 하나와 베이시스 생성부로부터 제공되는 포즈값을 포함한 전체 특징점 공간 베이시스를 이용하여 3차원 부분 얼굴기술자를 생성하고, 인식하고자 하는 임의의 유저의 포즈값과 전체 얼굴기술자 생성부로부터 제공되는 3차원 전체 얼굴기술자를 이용하여 3차원 부분 얼굴기술자 데이터베이스를 생성하는 부분 얼굴기술자 생성부, 및 부분 얼굴기술자 생성부에서 생성되는 인식하고자 하는 임의의 유저에 대한 부분 얼굴기술자를 이용하여 3차원 부분 얼굴기술자 데이터베이스를 검색하여 유사도를 측정하고 검색 결과를 출력하는 검색부를 포함한다.

Description

3차원 얼굴기술자를 이용한 얼굴인식방법 및 장치 {Method and apparatus for face recognition using 3D face descriptor}

본 발명은 얼굴 인식에 관한 것으로서, 특히 3차원 얼굴 기술자를 이용한 얼굴 인식방법 및 장치에 관한 것이다.

얼굴 인식을 위하여 종래에는 PCA(Pricipal Component Analysis)와 ICA(Independent Component Analysis) 방식을 주로 이용하였으며, 최근에는 얼굴 기술자를 이용한 얼굴 인식방법이 『M. Abdel-Mottaleb, J. H. Connell, R. M. Bolle, and R. Chellappa, "Face Descriptor syntax," Merging proposals p181, p551, and p650, ISO/MPEG m5207, Mebourne, 1999』에 개시되어 있다.

그러나, 상기 얼굴 기술자는 2차원에서 생성된 것으로서 국한된 정보를 가지고 있기 때문에 다양한 포즈 변화를 갖는 이미지에 대하여 적용시 얼굴 인식율에 한계가 있다. 또한, 3차원 얼굴정보와 관련된 종래기술들은 얼굴의 3차원 정보를 찾아내기 위하여 특별한 장치를 사용하거나, 다수의 카메라를 필요로 하거나, 2차원 영상으로부터 특징점을 찾아내어 3차원 정보를 만든 다음 3차원 마스크를 생성하는 복잡한 과정을 거쳐야 하는 문제가 있다.

따라서, 본 발명이 이루고자 하는 기술적 과제는 다수의 포즈를 갖는 이미지, 얼굴 회전을 가진 비디오 스트림, 3차원 얼굴 매쉬 모델 중의 하나로 생성된 3차원 얼굴 기술자를 이용하여 얼굴 사진, 얼굴이 포함된 비디오 및 3차원 얼굴 매쉬 모델 중의 어떠한 형태의 이미지가 들어오더라도 얼굴 인식이 가능한 3차원 얼굴 기술자를 이용한 일굴 인식방법 및 장치를 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는 표정, 포즈 및 조명에 강인할 뿐 아니라 얼굴기술자의 크기가 작은 2차원 얼굴기술자 생성방법 및 장치를 제공하는데 있다.

상기 기술적 과제를 달성하기 위하여 본 발명에 따른 3차원 얼굴 기술자를 이용한 얼굴 인식장치는 다수의 포즈를 가진 이미지들, 얼굴 회전을 가진 비디오들 및 3차원 얼굴 매쉬모델 중의 하나로 등록하고 훈련시켜 포즈값을 포함한 전체 특징점 공간 베이시스를 생성하여 데이터베이스에 저장하는 베이시스 생성부; 각 유저별로 N 포즈의 영상, 얼굴 회전을 가진 비디오 스트림, 및 3차원 얼굴 매쉬모델 중의 하나와 베이시스 생성부(11)로부터 제공되는 포즈값을 포함한 전체 특징점 공간 베이시스를 이용하여 3차원 전체 얼굴기술자를 생성하여 데이터베이스에 저장하는 전체 얼굴기술자 생성부; 인식하고자 하는 임의의 유저의 영상, 비디오 스트림, 3차원 얼굴 메쉬모델 중의 하나와 상기 베이시스 생성부로부터 제공되는 포즈값을 포함한 전체 특징점 공간 베이시스를 이용하여 3차원 부분 얼굴기술자를 생성하고, 인식하고자 하는 임의의 유저의 포즈값과 상기 전체 얼굴기술자 생성부로부터 제공되는 3차원 전체 얼굴기술자를 이용하여 3차원 부분 얼굴기술자 데이터베이스를 생성하는 부분 얼굴기술자 생성부; 및 상기 부분 얼굴기술자 생성부에서 생성되는 인식하고자 하는 임의의 유저에 대한 부분 얼굴기술자를 이용하여 3차원 부분 얼굴기술자 데이터베이스를 검색하여 유사도를 측정하고 검색 결과를 출력하는 검색부를 포함한다.

상기 기술적 과제를 달성하기 위하여 본 발명에 따른 3차원 얼굴 기술자를 이용한 얼굴 인식방법은 (a) 다수의 포즈를 가진 이미지들, 얼굴 회전을 가진 비디오들 및 3차원 얼굴 매쉬모델 중의 하나인 등록데이터에 대하여 전체 특징점공간을 통해 전체 얼굴기술자로 등록한 다음, 부분 얼굴기술자로 표현하여 부분 얼굴기술자 데이터베이스를 생성하는 단계; (b) 임의의 포즈를 가진 이미지, 얼굴 회전을 가진 비디오 및 3차원 얼굴 매쉬모델 중의 하나인 검색데이터에 대하여 부분 특징점공간을 통해 부분 얼굴기술자로 표현하는 단계; 및 (c) 상기 (b) 단계에서 표현된 부분 얼굴기술자를 이용하여 상기 (a) 단계에서 생성된 부분 얼굴기술자 데이터베이스를 검색하는 단계를 포함한다.

상기 다른 기술적 과제를 달성하기 위하여 본 발명에 따른 2차원 얼굴기술자 생성장치는 얼굴영상의 중심부에 대하여 히스토그램 및 가우시안 분석을 수행하여 얼굴톤 특징벡터를 생성하는 얼굴톤 특징 생성부; 정규화된 얼굴영상에 대하여 퓨리에변환, PCLDA 프로젝션 및 LDA 프로젝션을 순차적으로 수행하여 전체퓨리에특징벡터를 생성하는 전체퓨리에특징 생성부; 및 얼굴영상의 k개의 성분에 대하여 퓨리에변환, PCLDA 프로젝션 및 LDA 프로젝션을 순차적으로 수행하여 성분별퓨리에특징벡터를 생성하는 성분별퓨리에특징 생성부를 포함한다.

상기 다른 기술적 과제를 달성하기 위하여 본 발명에 따른 2차원 얼굴기술자 생성방법은 (a) 얼굴영상의 중심부에 대하여 히스토그램 및 가우시안 분석을 수행하여 얼굴톤 특징벡터를 생성하는 단계; (b) 정규화된 얼굴영상에 대하여 퓨리에변환, PCLDA 프로젝션 및 LDA 프로젝션을 순차적으로 수행하여 전체퓨리에특징벡터를 생성하는 단계; 및 (c) 얼굴영상의 k개의 성분에 대하여 퓨리에변환, PCLDA 프로젝션 및 LDA 프로젝션을 순차적으로 수행하여 성분별퓨리에특징벡터를 생성하는 단계를 포함한다.

도 1은 본 발명에 따른 3차원 얼굴 기술자를 이용한 얼굴인식장치의 구성을 나타내는 블럭도,

도 2는 도 1에 있어서 베이시스 생성부의 새부적인 구성을 나타내는 블럭도,

도 3은 도 1에 있어서 전체 기술자 생성부의 새부적인 구성을 나타내는 블럭도,

도 4는 도 1에 있어서 검색부의 새부적인 구성을 나타내는 블럭도,

도 5는 본 발명에 따른 3차원 얼굴 기술자를 이용한 얼굴인식방법을 설명하는 도면,

도 6은 도 6은 전체 특징점공간을 만들 때 사용되지 않은 시점에서 들어오는 영상을 인식하여야 하는 경우 해결방법을 보여주는 도면,

도 7은 본 발명에 따른 2차원 얼굴 기술자 생성과정을 설명하는 블럭도,

도 8은 개인별 얼굴 톤값을 나타낸 그래프,

도 9는 본 발명에 적용된 시점 구체에서의 모자이크 이론을 설명하는 도면, 및

도 10은 도 9에 도시된 시점 구체에서의 모자이크를 2차원적으로 나타낸 도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일실시예에 대하여 상세히 설명하기로 한다.

도 1은 본 발명에 따른 3차원 얼굴 기술자를 이용한 얼굴인식장치의 구성을 나타내는 블럭도로서, 베이시스 생성부(11), 전체 얼굴기술자 생성부(13), 부분 얼굴기술자 생성부(15) 및 검색부(17)로 이루어진다. 먼저 본 발명에서 사용되는 용어에 대하여 먼저 정의하기로 한다. 3차원 전체 특징점 공간은 전체 얼굴기술자를 만들어내는 특징점 공간으로서, 전체의 각도를 덮는 다양한 시점에서 들어온 얼굴 특징점들이 모아진 공간을 의미한다. 3차원 부분 특징점 공간은 부분 얼굴기술자를 만들어내는 특징점 공간으로서, 전체 특징점 공간에서 프로젝션 또는 보간에 의해 생성되어지는 특징점 공간을 의미한다. 3차원 전체 얼굴기술자는 3차원 얼굴정보를 가지고 있는 기술자로서, 들어온 데이터를 3차원 전체 특징점 공간에 투영하여 얻어진다. 3차원 부분 얼굴기술자는 3차원 얼굴정보 중의 일부만을 가지고 있는 기술자로서, 전체 얼굴기술자들에서 투사하여 얻어지거나, 그후에 보간법을 사용하여 얻어지거나, 3차원 부분 특징점 공간에 투영하여 얻어질 수 있다.

도 1을 참조하면, 베이시스 생성부(11)는 특징점 공간의 베이시스를 생성하기 위한 것으로서, 다수의 포즈를 가진 이미지들, 얼굴 회전을 가진 비디오들 및 3차원 얼굴 매쉬모델 중의 하나로 등록하고 훈련시켜 포즈값을 포함한 전체 특징점 공간 베이시스를 생성하여 데이터베이스에 저장한다.

전체 얼굴기술자 생성부(13)는 각 유저별로 N 포즈의 영상, 얼굴 회전을 가진 비디오 스트림, 및 3차원 얼굴 매쉬모델 중의 하나와 베이시스 생성부(11)로부터 제공되는 포즈값을 포함한 전체 특징점 공간 베이시스를 이용하여 3차원 전체 얼굴기술자를 생성하여 데이터베이스에 저장한다.

부분 얼굴기술자 생성부(15)는 인식하고자 하는 임의의 유저의 영상, 비디오 스트림, 3차원 얼굴 메쉬모델 중의 하나와 베이시스 생성부(11)로부터 제공되는 포즈값을 포함한 전체 특징점 공간 베이시스를 이용하여 3차원 부분 얼굴기술자를 생성하고, 인식하고자 하는 임의의 유저의 포즈값과 전체 얼굴기술자 생성부(13)로부터 제공되는 3차원 전체 얼굴기술자를 이용하여 3차원 부분 얼굴기술자 데이터베이스를 생성한다.

검색부(17)는 부분 얼굴기술자 생성부(15)에서 생성되는 인식하고자 하는 임의의 유저에 대한 부분 얼굴기술자를 이용하여 3차원 부분 얼굴기술자 데이터베이스를 검색하여 유사도를 측정하고 검색 결과를 출력한다.

한편, 3차원 얼굴 매쉬모델로부터 3차원 얼굴기술자를 생성하기 위해서는, 3차원 얼굴 매쉬모델을 2차원으로 투사한 다음, 이후에는 2차원 영상과 동일한 방법으로 처리한다. 즉, 3차원 얼굴 매쉬모델을 3차원 그래피컬 툴을 이용하여 로딩하여 텍스쳐 정보를 추출하고, 텍스터 정보로부터 눈의 위치를 계산하여 3차원 모델에서 눈을 찾아낸다. 이후, 3차원에서 모델을 주어진 각도로 돌린 다음, 각각 2차원 평면으로 투사하여 이미지 파일을 생성한다. 이때 크기와 수평 이동변수는 3차원 모델의 눈의 위치로부터 계산하여 표준화시킨다.

도 2는 도 1에 있어서 베이시스 생성부(11)의 세부적인 구성을 나타내는 블럭도로서, 제1 내지 제3 영상 데이터베이스(211,212,213), 제1 내지 제3 신호처리부(214,215,216), 포즈 데이터베이스(217), 포즈영상 데이터베이스(218), 부분영상 특징점공간 생성부(219) 및 특징점 공간 압축부(220)로 이루어진다. 여기서, 제1 내지 제3 신호처리부(214,215,216), 포즈영상 데이터베이스(218), 부분영상 특징점공간 생성부(219)은 특징점공간 생성부(200)를 구성한다.

도 2를 참조하면, 제1 내지 제3 영상 데이터베이스(211,212,213)는 각각 다수의 포즈를 가진 이미지들, 얼굴 회전을 가진 비디오들 및 3차원 얼굴 매쉬모델에 해당한다.

제1 신호처리부(214)는 제1 영상 데이터베이스(211)에 저장된 다수 예컨데 N개의 포즈를 가진 이미지들에 대하여 얼굴영역을 추출하고 눈위 위치를 찾아 스케일링 및 트랜슬레이션을 수행하는 정규화과정을 수행하여 N 개의 포즈데이터와 N 개의 얼굴부분으로 정형화된 영상을 생성한다. 제2 신호처리부(215)는 제2 영상 데이터베이스(212)에 저장된 얼굴 회전을 가진 비디오들에 대하여 얼굴을 트랙킹하여 얼굴을 검출한 다음, 포즈 데이터베이스(217)에 저장된 포즈값을 참조하여 주어진 포즈 이미지를 추출하고 정규화과정을 수행하여 N 개의 포즈데이터와 N 개의 얼굴부분으로 정형화된 영상을 생성한다. 제3 신호처리부(216)는 제2 영상 데이터베이스(212)에 저장된 3차원 얼굴 매쉬모델에 대한 텍스쳐 정보로부터 눈의 위치를 추출하고 포즈 데이터베이스(217)에 저장된 포즈값을 참조하여 주어진 포즈로 영상을 프로젝션하여 N 개의 포즈데이터와 N 개의 얼굴부분으로 정형화된 영상을 생성한다.

포즈영상 데이터베이스(218)는 제1 내지 제3 신호처리부(214,215,216)로부터 각각 생성되는 N 개의 포즈데이터와 N 개의 얼굴부분으로 정형화된 영상을 저장한다. 부분영상 특징점공간 생성부(219)는 포즈영상 데이터베이스(218)에 저장된 N 개의 포즈데이터와 N 개의 얼굴부분으로 정형화된 영상을 이용하여 제1 내지 제N 포즈기반 부분 특징점 공간을 생성한다. 특징점공간 압축부(220)는 부분영상 특징점공간 생성부(219)로부터 제공되는 제1 내지 제N 포즈기반 부분 특징점 공간을 서로 합친 다음, 공간 압축 기법을 수행하여 최종적으로 포즈값을 포함하는 전체 특징점 공간 베이시스를 생성한다. 이와 같이, 전체 특징점 공간 베이시스는 시점 정보를 가지고 있기 때문에 3차원 얼굴 부분기술자를 검색시 끄집어 낼 수 있다. 한편, 특징점공간 압축부(220)는 주성분분석(PCA) 기법을 이용하여 가장 큰 고유벡터(eigenvector) 순으로 정렬하여 특징점 공간을 압축하며, 압축은 반드시 행해질 필요는 없고, 경우에 따라 수행되어진다.

도 3은 도 1에 있어서 전체 얼굴기술자 생성부(13)의 세부적인 구성을 나타내는 블럭도로서, 제1 내지 제3 영상(311,312,313), 특징점공간 생성부(314), 특징점공간 프로젝션부(315), 포즈값을 포함한 전체 특징점 공간 베이시스 데이터베이스(316) 및 특징기술자 압축부(317)로 이루어진다. 여기서, 특징점공간 생성부(314)는 도 2에 도시된 특징점공간 생성부(200)와 동일한 구성요소로 이루어지며 동일한 작용을 수행한다.

도 3을 참조하면, 제1 내지 제3 영상(311,312,313)은 각각 유저별 N 포즈의 영상, 얼굴 회전을 가진 비디오 스트림, 및 3차원 얼굴 매쉬모델에 해당한다.

특징점공간 생성부(314)는 도 2에 도시된 특징점공간 생성부(200)와 마찬가지로, N개의 포즈기반 부분 특징점공간을 생성한다. 특징점공간 프로젝션부(315)는 특징점공간 생성부(314)로부터 제공되는 N개의 포즈기반 부분 특징점공간과 포즈값을 포함하는 전체 특징점공간 베이시스 데이터베이스(316)에 프로젝션되어 N개의 좌표값을 획득한다. 특징기술자 압축부(317)는 주성분분석(PCA) 기법을 이용하여 가장 큰 고유벡터(eigenvector) 순으로 정렬하여 특징기술자를 압축하며, 압축은 반드시 행해질 필요는 없고, 경우에 따라 수행되어진다. 즉, 제1 내지 제3 영상(311,312,313)을 각각 별도로 신호처리하여 N개의 시점 데이터와 N개의 얼굴부분으로 정형화된 영상을 생성하고, 이를 N개의 부분 영상 얼굴 특징점공간에 투사되어 소정의 공간압축기법을 거쳐 3차원 전체 얼굴기술자를 생성하여 데이터베이스에 저장한다.

도 4는 도 1에 있어서 부분 얼굴기술자 생성부(15, 400)의 세부적인 구성을 나타내는 블럭도로서, 제1 내지 제3 영상(411,412,413), 제1 내지 제3 신호처리부(414,415,416), 포즈 데이터베이스(417), 포즈 추출부(418), 부분 특징점공간 베이시스 생성부(419), 포즈값을 포함한 전체 특징점 공간 베이시스 데이터베이스(420), 3차원 부분 얼굴기술자 생성부(421), 프로젝션/보간부(422), 3차원 전체 얼굴기술자 데이터베이스(423) 및 3차원 부분 얼굴기술자 데이터베이스(424)로 이루어진다. 한편, 검색부(425)는 도 1에 도시된 검색부(17)에 해당한다.

도 4를 참조하면, 제1 내지 제3 영상(411,412,413)은 각각 인식하고자 하는 임의의 유저의 영상, 비디오 스트림, 3차원 얼굴 메쉬모델에 해당한다. 제1 내지 제3 신호처리부(414,415,416)는 도 2에 도시된 제1 내지 제3 신호처리부(214,215,216)와 동일한 동작을 수행한다.

포즈 추출부(418)는 제1 내지 제3 신호처리부(414,415,416)로부터 신호처리되어 제공되는 영상데이터로부터 포즈값을 추출하고, 포즈값과 정규화한 영상부분으로 분리하여 제공한다. 부분 특징점 공간 베이시스 생성부(419)는 포즈값을 포함하는 전체 특징점공간 베이시스 데이터베이스(420)과 포즈 추출부(418)로부터 제공되는 포즈값을 이용하여 부분 특징점 공간 베이시스를 생성한다.

3차원 부분 얼굴기술자 생성부(421)는 포즈 추출부(418)로부터 제공되는 정규화된 영상부분과 부분 특징점 공간 베이시스 생성부(419)의 출력으로부터 3차원 부분 얼굴기술자를 생성한다. 프로젝션/보간부(422)는 포즈 추출부(418)로부터 제공되는 포즈값을 3차원 전체 얼굴기술자 데이터베이스(422)에 투사하거나, 3차원 전체 얼굴기술자 데이터베이스(422)를 이용하여 보간을 수행하여 3차원 부분 얼굴기술자 데이터베이스(423)를 생성한다.

검색부(424)는 3차원 부분 얼굴기술자 생성부(421)로부터 제공되는 부분 얼굴기술자를 이용하여 3차원 부분 얼굴기술자 데이터베이스(423)를 검색하여 유사도를 측정하고, 검색결과를 출력한다.

요약하면, 검색은 임의의 데이터가 입력되는 경우 등록이 된 사용자 중에 누구에 해당하는지 알아내는 것이다. 그런데, 입력되는 데이터는 사용자의 모든 3차원 얼굴 기술자를 표현할 만큼의 정보를 포함하고 있지 않기 때문에 주어진 부분 정보를 사용하여 검색이 이루어져야 한다. 입력데이터는 얼굴이 담긴 사진영상이나 비디오, 또는 3차원 메쉬모델 중 어느 것이나 무방하다. 이와 같은 입력데이더들이 훈련단계로 가기 위해서 입력데이터 성격에 맞도록 제1 내지 제3 신호처리부(414,415,416)에서 신호처리한 다음, 하나의 정형화된 얼굴영상과 시점데이터를 추출해 낸다. 한편, 3차원 메쉬 모델은 정면 얼굴을 추출해 낸다. 여기서, 시점 데이터는 전체 특징 공간에서 그 포즈에 해당하는 부분 특징 공간을 생성하는데 사용되며, 정형화된 얼굴영상은 그 공간에 투영되어 부분 얼굴기술자를 생성한다. 또한, 시점 데이터는 등록된 사용자에 대한 3차원 전체 얼굴기술자 데이터베이스(423)에서 그 포즈에 해당하는 부분 얼굴기술자를 생성하는데 사용된다. 마지막으로, 검색시에는 부분 얼굴기술자의 유사성을 측정하게 된다.

도 5는 본 발명에 따른 3차원 얼굴 기술자를 이용한 얼굴인식방법을 설명하는 것으로서, 51 단계에서는 다수의 포즈를 가진 이미지들, 얼굴 회전을 가진 비디오들 및 3차원 얼굴 매쉬모델 중의 하나인 등록데이터에 대하여 전체 특징점공간을 통해 전체 얼굴기술자로 등록한 다음, 부분 얼굴기술자로 표현하여 부분 얼굴기술자 데이터베이스를 생성한다.

53 단계에서는 임의의 포즈를 가진 이미지, 얼굴 회전을 가진 비디오 및 3차원 얼굴 매쉬모델 중의 하나인 검색데이터에 대하여 부분 특징점공간을 통해 부분 얼굴기술자로 표현한다.

55 단계에는 상기 52 단계에서 표현된 부분 얼굴기술자를 이용하여 상기 51 단계에서 생성된 부분 얼굴기술자 데이터베이스를 검색한다.

도 6은 전체 특징점공간을 만들 때 사용되지 않은 시점에서 들어오는 영상을 인식하여야 하는 경우 해결방법을 설명하는 것으로서, 검색시 주어진 시점 즉, 포즈를 사이에 둔 등록시 사용되었던 두 시점 즉, 포즈 A와 포즈 B에 대한 3차원 부분 특징점공간을 선형검색기법을 이용하여 보간함으로써 주어진 시점에 대한 부분 특징점 공간을 생성한다. 또한, 검색시 주어진 시점 즉, 포즈를 사이에 둔 등록시 사용되었던 두 시점 즉, 포즈 A와 포즈 B에 대한 3차원 부분 특징점공간을 선형검색기법을 이용하여 보간함으로써 주어진 시점에 대한 부분 얼굴기술자를 생성한다.

도 7은 본 발명에 따른 2차원 얼굴 기술자 생성과정을 설명하는 블럭도로서, 얼굴톤 특징 생성부(710), 전체퓨리에특징 생성부(730) 및 성분별퓨리에특징 생성부(750)로 이루어진다. 도 7에 도시된 2차원 얼굴기술자 생성과정은 도 2에 있어서 베이시스 생성부(11)의 특징점 공간 생성부(200)와 전체 얼굴기술자 생성부(13)의 특징점 공간 생성부(314)에 적용될 수 있다.

도 7을 참조하면, 얼굴톤특징 생성부(710)에 있어서 히스토그램 처리부(711)는 i번째 포즈를 갖는 얼굴영상의 중심 영역에 대하여 히스토그램을 생성한다. 가우시안 분석부(713)에서는 히스토그램 처리부(710)에 생성된 히스토그램에 대하여가우시안 분석을 수행하여 가우시안 분포를 가정한 후 평균값(μ^skin)을 찾아낸다. 스칼라 정규화부(715)에서는 가우시안 분석부(713)에서 생성된 평균값(μ^skin)에 대하여 스칼라 정규화를 수행하여 일정한 상수값, 예를 들면 정수형이 되도록 하고, 그 값을 얼굴톤특징벡터로 생성한다. 얼굴톤특징 생성부(710)에 있어서 50 명이 5가지의 포즈를 취한 경우에 대하여 얼굴톤특징을 생성하기 위하여, 모든 얼굴들의 동일한 포즈에서의 평균값(μ^skin)을 알아내어 수평이동시킨 결과, 도 8과 같은 그래프를 얻을 수 있다.

전체퓨리에특징 생성부(730)에 있어서, 제1 퓨리에 변환부(731)는 정규화된 얼굴영상(f(x,y))에 대하여 퓨리에 변환을 수행한다. 제1 특징벡터 생성부(732)은 제1 퓨리에 변환부(731)로부터 생성되는 퓨리에 스펙트럼(F(u,v))의 라스터 스캐닝 실수부와 허수부에 의해 정의되는 엘리먼트를 갖는 제1 특징벡터(x₁ ^h)를 생성하고, 제2 특징벡터 생성부(733)은 제1 퓨리에 변환부(731)로부터 생성되는 퓨리에 진폭(｜F(u,v)｜)을 라스터 스캥닝하여 제2 특징벡터(x₂ ^h)를 생성한다. 제1 및 제2 PCLDA 프로젝션부(734,735)는 제1 및 제2 특징벡터 생성부(732,733)로부터 생성되는 제1 및 제2 특징벡터(x₁ ^h,x₂ ^h)를 제1 및 제2 특징벡터(x₁ ^h,x₂ ^h)의 주성분(PC)들에 대한 선형판별분석(LDA)에 의해 획득되며 베이시스 행렬(Ψ₁ ^h,Ψ₂ ^h)에 의해 정의되는판별공간상으로 프로젝션시킨다. 제1 벡터 정규화부(736)는 제1 및 제2 PCLDA 프로젝션부(734,735)에서 프로젝션된 벡터를 소정의 단위벡터(y₁ ^h,y₂ ^h)로 정규화시킨다. 제1 LDA 프로젝션부(737)는 제1 벡터 정규화부(736)에서 정규화된 벡터들(y₁ ^h,y₂ ^h)을 결합시켜 단일 벡터로 구성한 다음, 베이시스 행렬(Ψ₃ ^h)에 의해 정의된 판별공간으로 프로젝션시킨다. 제1 양자화부(738)는 제1 LDA 프로젝션부(737)에서 프로젝션된 벡터(Z^h)를 일정한 방식을 이용하여 5비트 십진수(unsigned integer)로 클리핑시켜 양자화하여 전체퓨리에특징벡터를 생성한다.

성분별퓨리에특징 생성부(750)에 있어서, 제2 퓨리에 변환부(751)는 얼굴영상의 k개의 성분(f^j(x,y), j=1,...,k)에 대하여 퓨리에 변환을 수행한다. 여기서, 성분은 얼굴영상에서 눈, 코, 입 등에 해당한다. 제3 특징벡터 생성부(752)은 제2 퓨리에 변환부(751)로부터 생성되는 k개의 퓨리에 스펙트럼(F^j(u,v))의 라스터 스캐닝 실수부와 허수부에 의해 정의되는 엘리먼트를 갖는 k개의 제1 특징벡터(x₁ ^j)를 생성하고, 제4 특징벡터 생성부(753)은 제2 퓨리에 변환부(751)로부터 생성되는 k 개의 퓨리에 진폭(｜F^j(u,v)｜)을 라스터 스캥닝하여 k개의 제2 특징벡터(x₂ ^j)를 생성한다. 제3 및 제4 PCLDA 프로젝션부(754,755)는 제3 및 제4 특징벡터생성부(752,753)로부터 생성되는 k개의 제1 및 제2 특징벡터(x₁ ^j,x₂ ^j)를 k개의 제1 및 제2 특징벡터(x₁ ^j,x₂ ^j)의 주성분(PC)들에 대한 선형판별분석(LDA)에 의해 획득되며 베이시스 행렬(Ψ₁ ^j,Ψ₂ ^j)에 의해 정의되는 판별공간상으로 프로젝션시킨다. 제2 벡터 정규화부(756)는 제3 및 제4 PCLDA 프로젝션부(754,755)에서 프로젝션된 벡터를 소정의 단위벡터(y₁ ^j,y₂ ^j)로 정규화시킨다. 제2 LDA 프로젝션부(757)는 제2 벡터 정규화부(756)에서 정규화된 k개의 벡터들(y₁ ^j,y₂ ^j)을 결합시켜 단일 벡터로 구성한 다음, 베이시스 행렬(Ψ₃ ^j)에 의해 정의된 판별공간으로 프로젝션시킨다. 제2 양자화부(758)는 제2 LDA 프로젝션부(757)에서 프로젝션된 벡터(Z^j)를 일정한 방식을 이용하여 5비트 십진수(unsigned integer)로 클리핑시켜 양자화하여 성분별퓨리에특징벡터를 생성한다.

상기한 바와 같이, 얼굴영상의 중심부로부터 얻어지는 얼굴톤특징벡터, 전체 얼굴영상 및 성분별 영상으로부터 얻어지는 전체퓨리에 특징벡터 및 성분별퓨리에 특징벡터를 이용하여 2차원 얼굴 기술자를 생성하게 되면, 표정, 포즈 및 조명에 강인할 뿐 아니라 얼굴기술자의 크기가 작아지는 효과가 있다.

도 9는 본 발명에 적용된 시점 구체에서의 모자이크 이론을 설명하는 것으로서, 독립된 모델들은 시점 구체 표면의 각 구역에서 메워진다. 비선형인 전체 모델들은 각각의 부분 특징점 공간에서의 특정한 시점들로부터 만들어진 선형공간들의 합으로서 만들어진다. 그 결과, 시점에 불변한 얼굴인식이 가능한 이점이 있다. 도 9에서는 중앙의 정면얼굴을 가지고서 인식가능한 구역의 예를 나타낸다.

도 10은 도 9에 도시된 시점 구체에서의 모자이크를 2차원적으로 나타낸 도면으로서, 한 시점은 준구역(quasi region)까지 지원하는데, 여기서 준구역은 소정 각도, 바람직하게는 15°정도까지 확장된 구역을 의미한다. 따라서, 대략 30°정도로 떨어진 시점들을 모아 시점 구체를 지원할 수 있게 된다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

상술한 바와 같이 본 발명에 따르면, 다수의 포즈를 갖는 이미지, 얼굴 회전을 가진 비디오 스트림, 3차원 얼굴 매쉬 모델 중의 하나로 생성된 3차원 얼굴 기술자를 이용하여 얼굴 사진, 얼굴이 포함된 비디오 및 3차원 얼굴 매쉬 모델 중의 어떠한 형태의 이미지가 들어오더라도 얼굴 인식이 가능한 이점이 있다. 또한, 이미지, 비디오, 및 3차원 메쉬모델을 모두 하나의 3차원 얼굴기술자로 생성할 수 있으므로 통상의 정면얼굴만 인식하는 얼굴기술자에 비하여 매우 높은 인식율을 보장할 수 있다. 또한, 포즈에 기반한 3차원 얼굴기술자를 생성할 수 있으므로 어떠한 시점의 얼굴이 들어오더라도 인식할 수 있기 때문에 감시시스템에 매우 효율적으로 적용할 수 있는 이점이 있다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

다수의 포즈를 가진 이미지들, 얼굴 회전을 가진 비디오들 및 3차원 얼굴 매쉬모델 중의 하나로 등록하고 훈련시켜 포즈값을 포함한 전체 특징점 공간 베이시스를 생성하여 데이터베이스에 저장하는 베이시스 생성부;

각 유저별로 N 포즈의 영상, 얼굴 회전을 가진 비디오 스트림, 및 3차원 얼굴 매쉬모델 중의 하나와 베이시스 생성부(11)로부터 제공되는 포즈값을 포함한 전체 특징점 공간 베이시스를 이용하여 3차원 전체 얼굴기술자를 생성하여 데이터베이스에 저장하는 전체 얼굴기술자 생성부;

인식하고자 하는 임의의 유저의 영상, 비디오 스트림, 3차원 얼굴 메쉬모델 중의 하나와 상기 베이시스 생성부로부터 제공되는 포즈값을 포함한 전체 특징점 공간 베이시스를 이용하여 3차원 부분 얼굴기술자를 생성하고, 인식하고자 하는 임의의 유저의 포즈값과 상기 전체 얼굴기술자 생성부로부터 제공되는 3차원 전체 얼굴기술자를 이용하여 3차원 부분 얼굴기술자 데이터베이스를 생성하는 부분 얼굴기술자 생성부; 및

상기 부분 얼굴기술자 생성부에서 생성되는 인식하고자 하는 임의의 유저에 대한 부분 얼굴기술자를 이용하여 3차원 부분 얼굴기술자 데이터베이스를 검색하여 유사도를 측정하고 검색 결과를 출력하는 검색부를 포함하는 것을 특징으로 하는 3차원 얼굴기술자를 이용한 얼굴 인식장치.
(a) 다수의 포즈를 가진 이미지들, 얼굴 회전을 가진 비디오들 및 3차원 얼굴 매쉬모델 중의 하나인 등록데이터에 대하여 전체 특징점공간을 통해 전체 얼굴기술자로 등록한 다음, 부분 얼굴기술자로 표현하여 부분 얼굴기술자 데이터베이스를 생성하는 단계;

(b) 임의의 포즈를 가진 이미지, 얼굴 회전을 가진 비디오 및 3차원 얼굴 매쉬모델 중의 하나인 검색데이터에 대하여 부분 특징점공간을 통해 부분 얼굴기술자로 표현하는 단계; 및

(c) 상기 (b) 단계에서 표현된 부분 얼굴기술자를 이용하여 상기 (a) 단계에서 생성된 부분 얼굴기술자 데이터베이스를 검색하는 단계를 포함하는 것을 특징으로 하는 3차원 얼굴기술자를 이용한 얼굴 인식방법.
얼굴영상의 중심부에 대하여 히스토그램 및 가우시안 분석을 수행하여 얼굴톤 특징벡터를 생성하는 얼굴톤 특징 생성부;

정규화된 얼굴영상에 대하여 퓨리에변환, PCLDA 프로젝션 및 LDA 프로젝션을 순차적으로 수행하여 전체퓨리에특징벡터를 생성하는 전체퓨리에특징 생성부; 및

얼굴영상의 k개의 성분에 대하여 퓨리에변환, PCLDA 프로젝션 및 LDA 프로젝션을 순차적으로 수행하여 성분별퓨리에특징벡터를 생성하는 성분별퓨리에특징 생성부를 포함하는 것을 특징으로 하는 2차원 얼굴기술자 생성장치.
(a) 얼굴영상의 중심부에 대하여 히스토그램 및 가우시안 분석을 수행하여 얼굴톤 특징벡터를 생성하는 단계;

(b) 정규화된 얼굴영상에 대하여 퓨리에변환, PCLDA 프로젝션 및 LDA 프로젝션을 순차적으로 수행하여 전체퓨리에특징벡터를 생성하는 단계; 및

(c) 얼굴영상의 k개의 성분에 대하여 퓨리에변환, PCLDA 프로젝션 및 LDA 프로젝션을 순차적으로 수행하여 성분별퓨리에특징벡터를 생성하는 단계를 포함하는것을 특징으로 하는 2차원 얼굴기술자 생성방법.