KR20200029659A

KR20200029659A - 얼굴 인식 방법 및 장치

Info

Publication number: KR20200029659A
Application number: KR1020180106659A
Authority: KR
Inventors: 김대진; 강봉남
Original assignee: 포항공과대학교 산학협력단
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2020-03-19
Also published as: KR102244013B9; KR102244013B1

Abstract

얼굴 인식 방법 및 장치가 개시된다. 상기 얼굴 인식 방법 및 장치는 외부서버로부터 영상 이미지를 수신하도록 하는 명령, 유효 영상 이미지를 추출하도록 하는 명령, 유효 영상 이미지를 정렬하도록 하는 명령, 컨볼루셔널 신경망을 학습하여 글로벌 외형 특징을 추출하도록 하는 명령, 쌍 관계 네트워크를 학습하여 관계형 로컬 특징을 추출하도록 하는 명령 및 신원 식별 특징을 임베딩하도록 하는 명령을 포함하는 메모리, 상기 메모리에 저장된 적어도 하나의 명령을 실행하는 프로세서를 포함하여, 영상 이미지 내 대상자의 얼굴 영역 내 국소 부위들에 나타나는 고유 특징들을 조합하여 관계형 로컬 특징을 추출하고, 추출된 관계형 로컬 특징 및 전체적인 얼굴 영역의 특징을 나타내는 글로벌 외형 특징을 결합함으로써, 기저장된 사용자 및 대상자 간의 신원 식별성이 향상된 얼굴 인식 방법 및 장치를 제공할 수 있다.

Description

얼굴 인식 방법 및 장치{METHOD AND APPARATUS FOR FACE RECOGNITION}

본 발명은 얼굴 인식 방법 및 장치에 관한 것으로, 더욱 상세하게는 인공신경망(Neural Network)을 이용한 얼굴 인식 방법 및 장치에 관한 것이다.

생체 인식 기술은 지문, 얼굴, 홍채 및 정맥 등의 고유한 신체 특징을 이용하여 특정인을 인식하는 기술이다.

이러한 생체 인식 기술은 열쇠 또는 비밀번호처럼 타인에 의해 도용되거나 복제되기 어렵고, 변경되거나 또는 분실될 위험이 없으므로 오늘날 보안 분야에 주로 활용되고 있다.

다양한 신체 특징 중에서도 얼굴 인식 기술은, 홍채 인식 또는 정맥 등의 기타 생체 인식 기술들에 비해서, 사용자로 하여금 인식 절차가 간편하고 자연스러운 장점이 있어, 주요 연구 대상으로 각광받고 있다.

얼굴 인식 기술은 촬영 이미지 또는 영상 이미지로부터 얼굴 영역을 검출하여, 검출된 얼굴의 대상자를 식별하는 기술이다. 그러나, 대상자의 얼굴은 조명, 포즈 및 표정의 변화 또는 가려짐에 의해 쉽게 변형 가능함으로, 촬영 이미지 또는 영상 이미지로부터 추출된 얼굴 영역을 바탕으로 사전 등록된 사용자와 대상자가 동일인임을 판별하기는 어렵다.

종래의 얼굴 인식 기술로는 학습된 컨볼루셔널 신경망(Convolutional Neural Network, 이하 CNN) 모델에 의해 얼굴을 식별하는 방법이 이용되고 있다.

그러나, 종래의 학습된 컨볼루셔널 신경망(CNN)을 이용한 얼굴 인식 기술은 촬영 이미지 또는 영상 이미지를 카테고리(category) 별로 분류하는 데에 그 목적을 둠으로써, 촬영 이미지 또는 영상 이미지 내 얼굴 인식을 위해 어떤 특징이 사용되는지 또는 식별성이 높은 특징이 어떤 특징인지를 식별하지 못해, 대상 식별의 정확도가 떨어지는 단점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 고속, 고정밀 및 고신뢰성의 얼굴 인식 방법을 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 고속, 고정밀 및 고신뢰성의 얼굴 인식 장치를 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 고속, 고정밀 및 고신뢰성의 쌍 관계 네트워크 모델링 방법을 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 고속, 고정밀 및 고신뢰성의 쌍 관계 네트워크 모델링 장치를 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 얼굴 인식 방법은, 식별하고자 하는 대상자의 얼굴이 촬영된 영상 이미지를 수신하는 단계, 상기 영상 이미지를 정규화하는 단계, 복수의 얼굴 특징점들을 추출하도록 학습된 컨볼루셔널 신경망(CNN, Convolutional Neural Network)에 상기 영상 이미지를 입력하여, 상기 영상 이미지 내 얼굴 특징점들을 포함하는 특징맵(Feature map)을 도출하는 단계, 상기 특징맵에 글로벌 평균 풀링(GAP, Global Average Pooling)을 적용하여, 상기 영상 이미지 내 대상자의 얼굴 전역에 대한 외형 특징을 표현하는 글로벌 외형 특징을 출력하는 단계, 쌍 관계 네트워크(PRN, Pairwise Related Network)에 상기 특징맵을 입력하여 복수의 로컬 외형 특징들을 추출하여 관계쌍을 형성하는 단계; 및 상기 관계쌍에 신원 식별 특징을 임베딩(Embeding)하여 관계형 로컬 특징을 추출하는 단계를 포함한다.

여기서, 상기 학습된 쌍 관계 네트워크는 상기 학습 이미지의 글로벌 외형 특징 및 관계형 로컬 특징으로부터 추출된 손실 함수의 가중치가 학습된 모델일 수 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 얼굴 인식 방법은 상기 영상 이미지를 정규화하는 단계 이전에 상기 영상 이미지를 정렬하는 단계를 더 포함할 수 있다.

상기 영상 이미지를 정렬하는 단계는 상기 영상 이미지 내 대상자의 두 눈의 위치 정보를 이용하여 평면 내 각도(RIP, Rotation in Plane)가 0이 되도록 회전 정렬하는 단계, 상기 영상 이미지 내 얼굴 특징점들을 이용하여, 상기 영상 이미지의 X축 위치를 정렬하는 단계 및 상기 영상 이미지 내 얼굴 특징점들을 이용하여, 상기 영상 이미지의 Y축 위치 및 크기를 정렬하는 단계를 포함할 수 있다.

이때, 상기 영상 이미지의 X축 위치를 정렬하는 단계는 상기 얼굴 특징점들 중 제1 방향을 기준으로 최외각에 위치하는 제1 특징점을 추출하는 단계, 상기 제1 방향과 반대인 제2 방향을 기준으로 최외각에 위치하는 제2 특징점을 추출하는 단계 및 상기 영상 이미지의 중심으로부터 상기 제1 특징점 및 상기 제2 특징점의 X축 거리가 동일하게 제공되도록, 상기 영상 이미지의 X축 위치를 조정하는 단계를 포함할 수 있다.

또한, 상기 영상 이미지의 Y축 위치 및 크기를 정렬하는 단계는 상기 영상 이미지 내 대상자의 두 눈 사이의 중점인 제3 특징점을 추출하는 단계, 상기 영상 이미지 내 대상자의 입술 중점인 제4 특징점을 추출하는 단계 및 상기 제3 특징점 및 상기 제4 특징점을 이용하여, 상기 영상 이미지의 크기 및 Y축 위치를 조정하는 단계를 포함할 수 있다.

상기 영상 이미지는 Y축을 기준으로, 상기 제3 특징점이 상면으로부터 30% 간격만큼 하향 이격되어 위치되고, 상기 제4 특징점이 하면으로부터 35% 간격만큼 상향 이격되어 위치될 수 있다.

상기 특징맵을 도출하는 단계는, 복수의 컨볼루션 계층(Convolution layer)들에 의해 상기 정규화된 영상 이미지의 채널별 합성곱을 산출하는 단계 및 상기 채널별 합성곱에 최대 풀링(Max Pooling)을 적용하는 단계를 포함할 수 있다.

이때, 적어도 하나의 상기 컨볼루션 계층은 레지듀얼 함수(Residual Function)를 포함하는 병목(Bottleneck) 구조로 제공될 수 있다.

상기 글로벌 외형 특징을 출력하는 단계에서는 특정 크기의 필터(filter)를 이용하여, 상기 특징맵에 평균 풀링(Average Pooling)을 적용할 수 있다.

또한, 상기 관계쌍을 형성하는 단계는 상기 컨볼루셔널 신경망으로부터 출력된 상기 특징맵을 입력 받는 단계, 상기 특징맵 내 복수의 얼굴 특징점들을 중심으로 로컬 외형 특징 그룹을 추출하는 단계 및 상기 로컬 외형 특징 그룹으로부터 복수의 상기 로컬 외형 특징들을 추출하여 상기 관계쌍을 형성하는 단계를 포함할 수 있다.

이때, 상기 로컬 외형 특징 그룹을 추출하는 단계는 상기 특징맵 내 얼굴 영역 중 적어도 일부 영역을 관심 영역(ROI, Region Of Interest)으로 설정하여 투영하는 단계 및 상기 관심 영역 내 위치한 적어도 하나의 상기 얼굴 특징점으로부터, 상기 로컬 외형 특징들을 포함하는 상기 로컬 외형 특징 그룹을 추출하는 단계를 포함할 수 있다.

상기 관계형 로컬 특징을 추출하는 단계는 LSTM(Long Short-term Memory uint) 기반의 순환 네트워크에 의해, 상기 신원 식별 특징을 상기 관계쌍에 임베딩(Embeding)하는 단계, 제1 멀티 레이어 퍼셉트론(MLP, Multi Layer Perceptron)에 의해 제1 가중치를 산출하여, 적어도 하나의 상기 관계형 로컬 특징에 개별 적용하는 단계, 적어도 하나의 상기 관계형 로컬 특징을 집계 함수에 의해 합산하여 예측 관계형 특징을 추출하는 단계 및 제2 멀티 레이어 퍼셉트론에 의해 제2 가중치를 산출하여, 상기 예측 관계형 특징에 적용하여 상기 쌍 관계 네트워크를 생성하는 단계를 더 포함할 수 있다.

이때, 상기 관계형 로컬 특징은 단일 벡터 형태로 제공될 수 있다.

또한, 상기 LSTM 기반의 순환 네트워크는 복수의 완전 연결된 계층(FC Layer, Fully Connected Layer)들을 포함하고, 손실 함수(Loss Function)를 이용하여 학습될 수 있다.

상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 얼굴 인식 장치는 상기 프로세서(processor)를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고, 상기 적어도 하나의 명령은, 식별하고자 하는 대상자의 얼굴이 촬영된 영상 이미지를 수신하도록 하는 명령, 상기 영상 이미지를 정규화하도록 하는 명령, 복수의 얼굴 특징점들을 추출하도록 학습된 컨볼루셔널 신경망에 상기 영상 이미지를 입력하여 상기 영상 이미지 내 얼굴 특징점들을 포함하는 특징맵을 도출하도록 하는 명령, 상기 특징맵에 글로벌 평균 풀링을 적용하여 상기 영상 이미지 내 대상자의 얼굴 전역에 대한 외형 특징을 표현하는 글로벌 외형 특징을 출력하도록 하는 명령, 쌍 관계 네트워크에 상기 특징맵을 입력하여 복수의 로컬 외형 특징들을 추출하여 관계쌍을 형성하도록 하는 명령 및 상기 관계쌍에 신원 식별 특징을 임베딩하여 관계형 로컬 특징을 추출하도록 하는 명령을 포함한다.

이때, 상기 프로세서는 상기 영상 이미지를 정규화하기 전에 상기 영상 이미지를 정렬할 수 있다.

또한, 상기 프로세서는 상기 특징맵을 도출하도록 하는 명령 수행 시, 복수의 컨볼루션 계층들에 의해 상기 정규화된 영상 이미지의 채널별 합성곱을 산출하고, 상기 채널별 합성곱에 최대 풀링을 적용하여 상기 특징맵을 출력할 수 있다.

여기서, 적어도 하나의 상기 컨볼루션 계층은 레지듀얼 함수를 포함하는 병목 구조로 제공될 수 있다.

또한, 상기 프로세서는 상기 글로벌 외형 특징을 출력하도록 하는 명령 수행 시, 특정 크기의 필터를 이용하여 상기 특징맵에 평균 풀링을 적용할 수 있다.

상기 프로세서는 상기 관계쌍을 형성하도록 하는 명령 수행 시, 상기 컨볼루셔널 신경망으로부터 출력된 상기 특징맵을 입력 받고, 상기 특징맵 내 복수의 얼굴 특징점들을 중심으로 로컬 외형 특징 그룹을 추출하며, 상기 로컬 외형 특징 그룹으로부터 복수의 상기 로컬 외형 특징들을 추출하여 상기 관계쌍을 형성할 수 있다.

이때, 상기 프로세서는 상기 로컬 외형 특징 그룹의 추출 시, 상기 영상 이미지의 얼굴 영역 내 국부 영역을 관심 영역으로 추출하고, 상기 추출된 관심 영역을 기준으로 적어도 하나의 상기 로컬 외형 특징들을 포함하는 상기 로컬 외형 특징 그룹을 추출할 수 있다.

또한, 상기 프로세서는 상기 관계형 로컬 특징의 생성 시, LSTM 기반의 순환 네트워크에 의해, 상기 신원 식별 특징을 상기 관계쌍에 임베딩하고, 제1 멀티 레이어 퍼셉트론에 의해 제1 가중치를 산출하여 적어도 하나의 상기 관계형 로컬 특징에 개별 적용하며, 적어도 하나의 상기 관계형 로컬 특징을 집계 함수에 의해 합산하여 예측 관계형 특징을 추출하고, 제2 멀티 레이어 퍼셉트론에 의해 제2 가중치를 산출하고, 상기 예측 관계형 특징에 적용할 수 있다.

상기 목적을 달성하기 위한 본 발명의 또다른 실시예에 따른 쌍 관계 네트워크 모델링 방법은 학습된 컨볼루셔널 신경망으로부터 복수의 얼굴 특징점들을 포함하는 특징맵을 입력 받는 단계, 상기 특징맵 내 복수의 얼굴 특징점들을 중심으로 로컬 외형 특징 그룹을 추출하는 단계, 상기 로컬 외형 특징 그룹으로부터 복수의 로컬 외형 특징들을 추출하여 관계쌍을 형성하는 단계, LSTM 기반의 순환 네트워크에 의해, 신원 식별 특징을 상기 관계쌍에 임베딩하여 관계형 로컬 특징을 추출하는 단계 및 상기 관계형 로컬 특징 및 상기 학습된 컨볼루셔널 신경망으로부터 수신된 글로벌 외형 특징을 결합한 특징을 복수의 완전 연결된 계층들에 통과시켜, 손실 함수가 최소화되도록 학습하는 단계를 포함한다.

상기 목적을 달성하기 위한 본 발명의 또다른 실시예에 따른 쌍 관계 네트워크 모델링 장치는 프로세서 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령이 저장된 메모리를 포함하고, 상기 적어도 하나의 명령은 학습된 컨볼루셔널 신경망으로부터 복수의 얼굴 특징점들을 포함하는 특징맵을 입력 받도록 하는 명령, 상기 특징맵 내 복수의 얼굴 특징점들을 중심으로 로컬 외형 특징 그룹을 추출하도록 하는 명령, 상기 로컬 외형 특징 그룹으로부터 복수의 로컬 외형 특징들을 추출하여 관계쌍을 형성하도록 하는 명령, LSTM 기반의 순환 네트워크에 의해, 신원 식별 특징을 상기 관계쌍에 임베딩하여 관계형 로컬 특징을 추출하도록 하는 명령 및 상기 관계형 로컬 특징 및 상기 학습된 컨볼루셔널 신경망으로부터 수신된 글로벌 외형 특징을 결합한 특징을 복수의 완전 연결된 계층들에 통과시켜, 손실 함수가 최소화되도록 학습하도록 하는 명령을 포함한다.

본 발명의 실시예에 따른 얼굴 인식 방법 및 장치는 컨볼루셔널 신경망(Convolutional Neural Network, CNN)에 의해 출력된 글로벌 외형 특징 및 쌍 관계 네트워크(Pairwise Related Network, PRN)를 통해 출력된 관계형 로컬 특징을 결합하여 영상 이미지 내 대상자의 신원을 식별함으로써 고정밀 및 고정확한 얼굴 인식 방법 및 장치를 제공할 수 있다.

또한, 상기 얼굴 인식 방법 및 장치는 정렬된 영상 이미지를 정규화함으로써, 피사체인 대상자의 얼굴 표정의 변화 또는 포즈 변화와 같은 학습 이미지 변형에도 신원 식별이 가능한 고정밀 및 고신뢰성의 얼굴 인식 방법이 제공될 수 있다.

또한, 상기 얼굴 인식 방법 및 장치는 적어도 하나의 컨볼루션 계층(Convolution layer)이 레지듀얼 함수(residual function)를 포함하는 병목(Bottleneck) 구조로 제공되어, 컨볼루셔널 신경망(CNN) 모델의 학습 시간이 단축된 고속의 얼굴 인식 방법이 제공될 수 있다.

또한, 상기 얼굴 인식 방법 및 장치는 쌍 관계 네트워크(PRN) 모델로부터 관계형 로컬 특징을 생성하여 영상 이미지 내 대상자의 얼굴 부위별 특징을 나타내는 로컬 외형 특징들의 관계 구조를 파악함으로써, 고정확한 얼굴 인식 방법이 제공될 수 있다.

도 1은 본 발명의 실시예에 따른 얼굴 인식 장치의 블록 구성도이다.
도 2는 본 발명의 실시예에 따른 얼굴 인식 장치 내 프로세서에 의해 실행되는 얼굴 인식 방법의 순서도이다.
도 3은 본 발명의 실시예에 따른 학습 이미지를 추출하는 단계를 설명하기 위한 순서도이다.
도 4는 본 발명의 실시예에 따른 유효 영상 이미지를 정렬하는 단계를 설명하기 위한 이미지이다.
도 5는 본 발명의 실시예에 따른 얼굴 인식 방법을 설명하기 위한 블록 구성도이다.
도 6은 본 발명의 실시예에 따른 컨볼루셔널 신경망 모델을 설명하기 위한 이미지이다.
도 7은 본 발명의 실시예에 따른 쌍 관계 네트워크 모델의 블록 구성도이다.
도 8은 본 발명의 실시예에 따른 쌍 관계 네트워크 모델이 관계쌍을 형성하는 단계를 설명하기 위한 이미지이다.
도 9는 본 발명의 실시예에 따른 신원 식별 특징을 추출하는 단계를 설명하기 위한 이미지이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 실시예에 따른 얼굴 인식 장치의 블록 구성도이다.

도 1을 참조하면, 얼굴 인식 장치는 프로세서(1000) 및 메모리(5000)를 포함할 수 있다.

프로세서(1000)는 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphics Processing Unit; GPU) 또는 본 발명에 실시예에 따른 방법들이 수행되는 전용 프로세서를 의미할 수 있다.

프로세서(1000)는 후술될 메모리(5000)에 저장된 프로그램 명령(program command)을 실행할 수 있다.

또한, 프로세서(1000)는 후술될 메모리(5000)에 저장된 명령을 변경할 수 있다. 실시예에 따르면, 프로세서(1000)는 기계학습에 의해 메모리(5000)의 정보를 갱신할 수 있다. 다시 말하면, 프로세서(5000)는 기계학습에 의해 메모리(5500)에 저장된 명령을 변경할 수 있다.

메모리(5000)는 휘발성 저장 매체 및/또는 비휘발성 저장 매체로 구성될 수 있다. 예를 들어, 메모리(5000)는 읽기 전용 메모리(read only memory; ROM) 및/또는 랜덤 액세스 메모리(random access memory; RAM)로 구성될 수 있다.

메모리(5000)는 적어도 하나의 명령을 저장할 수 있다. 보다 구체적으로 설명하면, 메모리(5000)는 프로세서(1000)에 의해 실행되는 적어도 하나의 명령을 저장할 수 있다.

메모리(5000)는 앞서 설명한 바와 같이, 적어도 하나의 명령을 포함할 수 있다. 실시예에 따르면, 메모리(5000)는 외부서버(S)로부터 영상 이미지를 수신하도록 하는 명령, 유효 영상 이미지를 추출하도록 하는 명령, 유효 영상 이미지를 정렬하도록 하는 명령, 컨볼루셔널 신경망(CNN) 모델을 학습하여 글로벌 외형 특징을 추출하도록 하는 명령, 쌍 관계 네트워크(PRN) 모델을 학습하여 관계형 로컬 특징을 추출하도록 하는 명령 및 신원 식별 특징을 임베딩(Embeding)하도록 하는 명령을 포함할 수 있다.

메모리(5000)는 프로세서(1000)의 실행에 의해 산출된 적어도 하나의 데이터를 저장할 수 있다.

이상 본 발명의 실시예에 따른 얼굴 인식 장치를 살펴보았다. 이하에서는 본 발명의 실시예에 따른 얼굴 인식 방법을 설명하겠다.

도 2는 본 발명의 실시예에 따른 얼굴 인식 장치 내 프로세서에 의해 실행되는 얼굴 인식 방법의 순서도이다.

도 2를 참조하면, 프로세서(1000)는 외부 서버(S)로부터 복수의 영상 이미지들을 수신할 수 있다(S1000). 실시예에 따르면, 영상 이미지는 식별하고자 하는 대상자의 얼굴이 촬영된 컬러 이미지일 수 있으며, 외부 서버(S)는 VGGFace2 DB, Labeled Faces in the Wild(LFW) DB 및 YouTube Face(YTF) DB 중 적어도 하나일 수 있다.

이후, 프로세서(1000)는 컨볼루셔널 신경망(CNN) 모델을 이용하여, 수신된 영상 이미지로부터 글로벌 외형 특징을 추출할 수 있다(S3000).

보다 구체적으로 설명하면, 프로세서(1000)는 컨볼루셔널 신경망(CNN)을 학습하기 위해 복수의 학습 이미지를 추출할 수 있다(S3100). 학습 이미지는 컨볼불셔널 신경망(CNN) 모델을 학습하기 위한 이미지 데이터로, 훈련 이미지들 및 검증 이미지들을 포함할 수 있다. 학습 이미지를 추출하는 단계는 하기 도 3에서 보다 구체적으로 설명하겠다.

도 3은 본 발명의 실시예에 따른 학습 이미지를 추출하는 단계를 설명하기 위한 이미지이다.

도 3을 참조하면, 프로세서(1000)는 수신된 영상 이미지 내 복수의 얼굴 특징점들을 추출할 수 있다(S3110). 여기서, 얼굴 특징점들은 후술될 컨볼루셔널 신경망(CNN) 모델 및 쌍 관계 네트워크(PRN) 모델에 의해, 대상자의 신원을 식별하기 위한 데이터로 사용될 수 있다. 예를 들면, 프로세서(1000)는 얼굴 검출기 또는 특징점 검출기를 이용하여, 복수의 얼굴 특징점들을 추출할 수 있다.

여기서, 프로세서(1000)는 얼굴 특징점들이 검출되지 않은 영상 이미지들을 제외시킬 수 있다. 이에 따라, 프로세서(1000)는 복수의 얼굴 특징점들을 포함하는 유효 영상 이미지를 추출할 수 있다(S3130).

프로세서(1000)는 추출된 유효 영상 이미지를 정렬할 수 있다(S3150). 실시예에 따르면, 프로세서(1000)는 추출된 유효 영상 이미지 내 복수의 얼굴 특징점들을 이용하여, 해당 유효 영상 이미지를 정렬할 수 있다.

도 4는 본 발명의 실시예에 따른 유효 영상 이미지를 정렬하는 단계를 설명하기 위한 이미지이다.

도 4를 참조하면, 프로세서(1000)는 유효 영상 이미지를 회전 정렬할 수 있다(S3151).

보다 구체적으로 설명하면, 프로세서(1000)는 영상 이미지 내 대상자의 두 눈의 위치 정보를 추출할 수 있다. 프로세서(1000)는 추출된 두 눈의 위치 정보를 이용하여, 두 눈이 수평선 상에 위치되도록 유효 영상 이미지를 회전할 수 있다. 다시 말하면, 프로세서(1000)는 두 눈의 평면 내 각도(RIP, Rotation in Plane)가 0이 되도록 유효 영상 이미지를 회전시켜, 수평으로 정렬시킬 수 있다.

프로세서(1000)는 수평 정렬된 유효 영상 이미지에 대해 X축 정렬을 진행할 수 있다(S3151).

보다 구체적으로 설명하면, 프로세서(1000)는 추출된 얼굴 특징점들 중에서 제1 특징점(P_L) 및 제2 특징점(P_R)을 추출할 수 있다. 여기서, 제1 특징점(P_L)은 추출된 얼굴 특징점들 중에서 제1 방향(-x축 방향) 끝에 위치하는 특징점일 수 있다. 실시예에 따르면, 제1 특징점(P_L)은 유효 영상 이미지 내에서 최좌측에 위치하는 특징점일 수 있다. 또한, 제2 특징점(P_R)은 추출된 얼굴 특징점들 중에서 제2 방향(+x축 방향) 끝에 위치하는 특징점일 수 있다. 예를 들어, 제2 특징점(P_R)은 유효 영상 이미지 내에서 최우측에 위치하는 특징점일 수 있다.

프로세서(1000)는 제1 특징점(P_L) 및 제2 특징점(P_R)을 이용하여 해당 유효 영상 이미지 내 얼굴 영역의 수평 중심(P_W)을 추출할 수 있다(S2333). 여기서, 수평 중점(P_W)은 수평 중심(Pw)은 제1 특징점(P_L)까지의 거리 및 제2 특징점(P_R)까지의 거리가 동일한 지점일 수 있다.

프로세서(1000)는, 추출된 수평 중심(P_W)이 X축을 기준으로 중심에 위치하도록, 유효 영상 이미지를 이동시킬 수 있다. 이에 따라, 유효 영상 이미지가 X축 정렬될 수 있다.

회전 정렬 및 X축 정렬이 완료된 유효 영상 이미지는 프로세서(1000)에 의해 Y축 정렬될 수 있다(S3155).

보다 구체적으로 설명하면, 프로세서(1000)는 유효 영상 이미지 내 얼굴 특징점들로부터 제3 특징점(E_C) 및 제4 특징점(L_C)을 추출할 수 있다. 이때, 제3 특징점(E_C)은 영상 이미지 내 두 눈 간의 중점일 수 있으며, 제4 특징점(L_C)은 유효 영상 이미지 내 입의 중점(L_C)일 수 있다.

이후, 프로세서(1000)는 추출된 제3 특징점(E_C) 및 제4 특징점(L_C)의 거리비에 따라, 유효 영상 이미지의 Y축 및 크기를 정렬할 수 있다. 실시예에 따르면, 프로세서(1000)는 Y축을 기준으로, 제3 특징점(E_C)이 해당 유효 영상 이미지 내 상면으로부터 30% 간격만큼 하향 위치되고, 제4 특징점(L_C)이 해당 유효 영상 이미지 내 하면으로부터 35% 간격만큼 상향 위치되도록 크기를 정렬할 수 있다.

본 발명의 실시예에 따른 얼굴 인식 방법은 컨볼루셔널 신경망(CNN) 및 쌍 관계 네트워크(PRN) 모델을 학습하기 위한 학습 이미지를 사전 정렬함으로써, 피사체인 대상자의 얼굴 표정의 변화 또는 포즈 변화와 같은 학습 이미지 변형에도 신원 식별이 가능한 고정밀 및 고신뢰성의 얼굴 인식 방법이 제공될 수 있다.

다시 도 3을 참조하면, 프로세서(1000)는 정렬된 유효 영상 이미지의 크기를 재조정할 수 있다(S3170). 예를 들어, 프로세서(1000)는 유효 영상 이미지의 해상도의 크기를 140 X 140으로 조정할 수 있다.

이후, 프로세서(1000)는 정규화 이미지를 추출할 수 있다(S3190). 다시 말하면, 프로세서(1000)는 유효 영상 이미지 내 화소(RGB) 값을 정규화 할 수 있다.

실시예에 따라 보다 구체적으로 설명하면, 프로세서(1000)는 유효 영상 이미지 내 개별 화소(RGB) 값을 255로 나누어, 개별 화소(RGB) 값이 각각 0과 1 의 값을 갖도록 정규화 시킬 수 있다. 이에 따라, 프로세서(1000)는 복수의 유효 영상 이미지들을 정규화하여, 복수의 정규화 이미지들을 생성할 수 있다.

다시 도 2를 참조하면, 프로세서(1000)는 생성된 복수의 정규화 이미지들을 이용하여, 컨볼루셔널 신경망(CNN) 모델을 생성할 수 있다(S3500). 이에 따라, 프로세서(1000)는 생성된 컨볼루셔널 신경망(CNN) 모델을 이용하여, 영상 이미지로부터 글로벌 외형 특징을 추출할 수 있다(S3000). 하기에서는 컨볼루셔널 신경망(CNN) 모델로부터 글로벌 외형 특징을 추출하는 단계를 보다 구체적으로 설명하겠다.

도 5는 본 발명의 실시예에 따른 얼굴 인식 방법을 설명하기 위한 블록 구성도이다.

도 5를 참조하면, 프로세서(1000)는 유효 영상 이미지들 중 정규화된 훈련 이미지들 및 검증 이미지들을 이용하여, 딥러닝(Deep learning) 학습에 의해 가중치가 반영된 컨볼루셔널 신경망(CNN) 모델을 생성할 수 있다. 따라서, 컨볼루셔널 신경망(CNN) 모델은 입력되는 적어도 하나의 영상 이미지 내 대상자의 신원을 구분하기 위한 글로벌 외형 특징(f^g)을 출력할 수 있다.

도 6은 본 발명의 실시예에 따른 컨볼루셔널 신경망(CNN) 모델을 설명하기 위한 이미지이다.

도 6을 참조하면, 컨볼루셔널 신경망(CNN)은 컨볼루션 계층(Convolution layer), 풀링 계층(Pooling layer), 완전 연결 계층(Fully-connected layer, fc) 및 출력단(output layer)을 포함할 수 있다.

실시예에 따르면, 컨볼루셔널 신경망(CNN)은 제1 내지 제5 컨볼루션 계층(Convolution layer)들로 구성될 수 있다. 제1 내지 제5 컨볼루션 계층(Convolution layer)들은 입력되는 영상 이미지에 복수의 필터(Filter)를 적용하여 복수의 합성곱을 산출할 수 있다.

예를 들어, 제1 컨볼루션 계층(Convolution layer)은 영상 이미지의 RGB 개별 채널에 스트라이드(Stride)가 1인 64개의 5 X 5 크기의 컨볼루션 필터(Convolution Filter)를 적용할 수 있다.

이후, 제2 컨볼루션 계층(Convolution layer)에서는 제1 컨볼루션 계층(Convolution layer)의 출력에 스트라이드(Stride)가 2이고, 3 X 3 크기인 최대 풀링(Max Pooling)을 적용할 수 있다. 이에 따라, 제2 컨볼루션 계층(Convolution layer)에서는 제1 컨볼루션 계층(Convolution layer)의 출력을 기준으로 특정 영역 내 최대값을 추출함으로써, 로컬 외형 특징이 강조된 특징맵(feature map)을 생성할 수 있다.

실시예에 따르면, 특징맵(feature map)의 크기는 9 X 9 X 2048 일 수 있으며, 로컬 외형 특징은 상기 특징맵(Feature)을 구성하는 국소 영역에 대한 얼굴 특징일 수 있다. 로컬 외형 특징이 강조된 특징맵(Feature)은 후술될 쌍 관계 네트워크(PRN) 모델의 입력으로 사용될 수 있다.

또한, 제2 내지 제5 컨볼루션 계층(Convolution layer)들에서는 레지듀얼 함수(residual function)를 포함하는 병목(Bottleneck) 구조를 제공할 수 있다. 이에 따라, 제2 내지 제5 컨볼루션 계층(Convolution layer)들에서는 차원(dimension)이 줄어들어 합성곱의 연산량이 감소할 수 있다. 따라서, 본 발명의 실시예에 따른 얼굴 인식 방법은 컨볼루셔널 신경망(CNN) 모델의 학습 시간이 줄어들어, 신속한 얼굴 식별이 가능할 수 있다.

컨볼루셔널 신경망(CNN) 모델의 출력단(output layer)에서는 제5 컨볼루션 계층(Convolution layer)에서 출력된 특징맵(Feature)을 입력으로 하여, 각 채널별(RGB) 9 x 9 필터를 적용한 글로벌 평균 풀링 계층(Grobal Average Pooling layer)에 의해 글로벌 외형 특징(f^g)을 추출할 수 있다.

추출된 글로벌 외형 특징(f^g)은 후술될 쌍 관계 네트워크(PRN) 모델로부터 생성된 관계형 로컬 특징과 결합하여 후술될 손실 함수(loss function)의 입력으로 사용될 수 있다.

다시 도 2를 참조하면, 프로세서(1000)는 관계형 로컬 특징을 추출할 수 있다(S5000). 보다 구체적으로 설명하면, 프로세서(1000)는 앞서 설명한 바와 같이, 컨볼루셔널 신경망(CNN) 모델로부터 출력된 로컬 외형 특징을 이용하여 관계형 로컬 특징(F)을 추출하는 쌍 관계 네트워크(PRN) 모델을 생성할 수 있다. 쌍 관계 네트워크(PRN) 모델에 대해서는 하기 도 7을 참조하여 보다 구체적으로 설명하겠다.

도 7은 본 발명의 실시예에 따른 쌍 관계 네트워크 모델의 블록 구성도이다.

도 7을 설명하면, 쌍 관계 네트워크(PRN) 모델은 앞서 설명한 바와 같이, 컨볼루셔널 신경망(CNN) 모델로부터 출력된 특징맵(feature map)에서 로컬 외형 특징들을 추출하여 관계쌍으로 구성된 관계형 로컬 특징(r)을 생성할 수 있다.

도 8은 본 발명의 실시예에 따른 쌍 관계 네트워크 모델이 관계쌍을 형성하는 단계를 설명하기 위한 이미지이다.

도 8을 참조하면, 쌍 관계 네트워크(PRN) 모델은 컨볼루셔널 신경망(CNN) 모델로부터 추출된 특징맵(feature map)을 입력 받을 수 있다. 앞서 설명한 바와 같이, 컨볼루셔널 신경망(CNN) 모델로부터 추출된 특징맵(feature map)은 복수의 얼굴 특징점들을 포함할 수 있다.

이후, 쌍 관계 네트워크(PRN) 모델은, 입력된 특징맵(feature map) 내 복수의 특징점들을 중심으로, 로컬 외형 특징 그룹(F)을 추출할 수 있다.

실시예에 따르면, 쌍 관계 네트워크(PRN) 모델은 적어도 하나의 특징점이 포함된 1 X 1 크기의 관심 영역(region of interest, ROI)을 추출할 수 있다. 이때, 관심 영역(ROI)은 영상 이미지 내 특정 얼굴 부위를 나타내는 영역일 수 있다.

이후, 쌍 관계 네트워크(PRN) 모델은 추출된 관심 영역(ROI)을 9 X 9 X 2048 형태로 프로젝션(Projection)하여, 복수의 로컬 외형 특징(f^l)들을 포함하는 로컬 외형 특징 그룹(F)을 추출할 수 있다.

다시 도 7을 참조하면, 쌍 관계 네트워크(PRN) 모델은 추출된 복수의 로컬 외형 특징(f^l)들을 대상으로 관계형 로컬 특징(r_i,j)을 생성할 수 있다. 여기서, 관계형 로컬 특징(r_i,j)은 앞서 설명한 바와 같이, 복수의 로컬 외형 특징(f^l)들이 관계쌍을 이뤄 형성된 특징일 수 있다.

이에 따라, 본 발명의 실시예에 따른 얼굴 인식 방법은 쌍 관계 네트워크(PRN) 모델로부터 로컬 외형 특징 그룹(F)을 생성하여 영상 이미지 내 대상자의 얼굴 부위별 특징을 나타내는 로컬 외형 특징(f^l)들의 관계 구조를 파악함으로써, 대상자의 고정확한 얼굴 인식이 가능할 수 있다.

하기에서는 [수학식 1] 내지 [수학식 4]를 참조하여, 쌍 관계 네트워크(PRN) 모델에 대해 보다 구체적으로 설명하겠다.

먼저, 쌍 관계 네트워크(PRN) 모델이 생성하는 관계형 로컬 특징(r_i,j)은 하기 [수학식 1]과 같이, 두 개의 로컬 외형 특징 간의 관계로 표현될 수 있다.

G_θ: 가중치 θ를 갖는 멀티 레이어 퍼셉트론(Multi-layer perceptron, MLP)

P_i,j : 로컬 외형 특징 그룹(F) 내 i번째 특징(f^l _i) 및 j번째 특징(f^l _j)을 포함하는 관계쌍

이후, 쌍 관계 네트워크(PRN) 모델은 조합 순서와 관계 없이 적어도 하나의 관계쌍에 대해 학습함으로써, 조합 순서를 결정하기 위해 하기 [수학식 2]와 같이, 집계 함수를 사용하여 관계쌍을 학습할 수 있다.

r_i,j: 관계쌍

A(r_i,j) : 관계쌍의 집계 함수

[수학식 2]과 같이, 쌍 관계 네트워크(PRN) 모델은 집계 함수를 이용하여, 집계된 적어도 하나의 관계쌍들을 합산할 수 있다.

이때, 쌍 관계 네트워크(PRN) 모델은 순서에 상관없이 조합 가능한 특징들의 관계쌍을 형성할 수 있다. 이에 따라, 쌍 관계 네트워크(PRN) 모델은 집계 함수를 사용하여 조합 순서 정보와 상관 없이 관계쌍들의 합을 산출할 수 있다.

이후, 쌍 관계 네트워크(PRN) 모델은 집계된 관계형 로컬 특징(r_i,j)에 가중치 F_Φ를 부여하여, 하기 [수학식 3]과 같이, 예측 관계형 특징 모델(M)을 형성할 수 있다. 이때, 쌍 관계 네트워크(PRN) 모델의 가중치 G_θ 및 F_Φ들은 계층당 복수의뉴런들로 구성된 다계층 멀티 레이어 퍼셉트론(Multi-layer perceptron, MPL)에 반영될 수 있다. 예를 들어, 가중치 G_θ 및 F_Φ들은 각 계층당 1000개의 뉴런으로 구성된 3계층 멀티 레이어 퍼셉트론(MPL)에 반영될 수 있다.

M: 예측 관계형 특징 모델

f_agg: 집계된 관계형 특징

F_Φ: 가중치 Φ를 갖는 멀티 레이어 퍼셉트론(MLP)

따라서, [수학식 1] 내지 [수학식 3]을 참조하면, 쌍 관계 네트워크(PRN) 모델은 하기 [수학식 4]와 같이 표현할 수 있다.

다시 도 2를 참조하면, 프로세서(1000)는 쌍 관계 네트워크(PRN) 모델에 신원 식별 특징(S_id)를 임베딩할 수 있다(S7000). 쌍 관계 네트워크(PRN) 모델에 신원 식별 특징(S_id)를 반영하는 단계는 하기 도 9에서 보다 구체적으로 설명하겠다.

도 9는 본 발명의 실시예에 따른 신원 식별 특징을 임베딩하는 단계를 설명하기 위한 이미지이다.

도 9를 참조하면, 쌍 관계 네트워크(PRN) 모델로부터 추출된 관계형 로컬 특징(p_i,j)은 서로 다른 신원을 가진 대상자에 대해서 식별 가능한 고유 특징을 가질 수 있다. 이에 따라, 관계형 로컬 특징(p_i,j)은 상기 대상자에 대해 종속적인 특징을 가질 수 있다. 따라서, 프로세서(1000)는 하기 [수학식 5]와 같이, 대상자의 특징 정보를 나타내는 신원 식별 특징(S_id)을 추출하여, 관계쌍(r_i,j)에 임베딩(Embeding)함으로써 쌍 관계 네트워크(PRN) 모델(PRN)에 반영할 수 있다.

프로세서(1000)는 하기 [수학식 5]과 같이, 대상자의 신원 식별 특징(S_id)을 추출할 수 있다.

S_id: 신원 식별 특징

여기서, 신원 식별 특징(S_id)은 로컬 외형 특징 그룹(F)을 이용하여 LSTM(Long Short-term Memory units) 계층 기반 순환 네트워크(E_Ψ)를 사용하여 하기 [수학식 6]과 같이 모델링 될 수 있다.

E_Ψ: 순환 네트워크

F : 로컬 외형 특징 그룹

이때, 순환 네트워크(E_Ψ)는 LSTM 계층 및 완전 연결된 계층(Fully Connected Layer, FC layer)들로 구성될 수 있다. 실시예에 따르면, LSTM 계층은 2048개의 메모리 셀을 가질 수 있으며, LSTM 계층의 출력은 256 및 9630개의 뉴런으로 각각 구성된 2계층의 멀티 레이터 퍼셉트론(MPL)의 입력이 될 수 있다.

또한, 순환 네트워크(E_Ψ)는 크로스 엔트로피(Cross-entropy) 손실 함수를 사용하여 신원 식별 특징(S_id)을 학습할 수 있다. 이때, 손실 함수의 입력으로는 컨볼루셔널 신경망(CNN) 모델로부터 추출된 글로벌 외형 특징(f^g) 및 쌍 관계 네트워크(PRN) 모델로부터 추출된 관계형 로컬 특징(p_i,j)이 이용될 수 있다.

실시예에 따르면, 손실 함수는 글로벌 외형 특징(f^g) 및 관계형 로컬 특징(p_i,j)이 결합된 특징을 입력으로 하여, 2개의 완전 연결된 계층(FC layer)에 의해 손실이 최소화 되도록 학습될 수 있다.

따라서, 본 발명의 실시에에 따른 얼굴 인식 방법은 컨볼루셔널 신경망(CNN) 모델 및 쌍 관계 네트워크(PRN) 모델로부터 각각 추출된 글로벌 외형 특징(f^g) 및 관계형 로컬 특징(p_i,j)을 결합하여, 영상 이미지 내 대상자의 얼굴 영상에 대한 국소 영역 및 전체 영역의 특징을 모두 고려함으로써, 대상자의 신원 식별성이 강화된 얼굴 인식 방법을 제공할 수 있다.

이상, 본 발명의 실시예에 따른 얼굴 인식 방법 및 장치를 살펴보았다.

본 발명의 실시예에 따른 얼굴 인식 방법 및 장치는 외부서버로부터 영상 이미지를 수신하도록 하는 명령, 유효 영상 이미지를 추출하도록 하는 명령, 유효 영상 이미지를 정렬하도록 하는 명령, 컨볼루셔널 신경망을 학습하여 글로벌 외형 특징을 추출하도록 하는 명령, 쌍 관계 네트워크를 학습하여 관계형 로컬 특징을 추출하도록 하는 명령 및 신원 식별 특징을 임베딩하도록 하는 명령을 포함하는 메모리, 상기 메모리에 저장된 적어도 하나의 명령을 실행하는 프로세서를 포함하여, 영상 이미지 내 대상자의 얼굴 영역 내 국소 부위들에 나타나는 고유 특징들을 조합하여 관계형 로컬 특징을 추출하고, 추출된 관계형 로컬 특징 및 전체적인 얼굴 영역의 특징을 나타내는 글로벌 외형 특징을 결합함으로써, 기저장된 사용자 및 대상자 간의 신원 식별성이 향상된 얼굴 인식 방법 및 장치를 제공할 수 있다.

본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

1000: 프로세서 5000: 메모리
S: 외부서버

Claims

식별하고자 하는 대상자의 얼굴이 촬영된 영상 이미지를 수신하는 단계;
상기 영상 이미지를 정규화하는 단계;
복수의 얼굴 특징점들을 추출하도록 학습된 컨볼루셔널 신경망(CNN, Convolutional Neural Network)에 상기 영상 이미지를 입력하여, 상기 영상 이미지 내 얼굴 특징점들을 포함하는 특징맵(Feature map)을 도출하는 단계;
상기 특징맵에 글로벌 평균 풀링(GAP, Global Average Pooling)을 적용하여, 상기 영상 이미지 내 대상자의 얼굴 전역에 대한 외형 특징을 표현하는 글로벌 외형 특징을 출력하는 단계;
쌍 관계 네트워크(PRN, Pairwise Related Network)에 상기 특징맵을 입력하고, 복수의 로컬 외형 특징들을 추출하여 관계쌍을 형성하는 단계; 및
상기 관계쌍에 신원 식별 특징을 임베딩(Embeding)하여 관계형 로컬 특징을 추출하는 단계를 포함하는, 얼굴 인식 방법.
청구항 1항에 있어서,
상기 쌍 관계 네트워크는 상기 학습 이미지의 글로벌 외형 특징 및 관계형 로컬 특징으로부터 추출된 손실 함수의 가중치가 학습된 모델인, 얼굴 인식 방법.
청구항 2항에 있어서,
상기 영상 이미지를 정규화하는 단계 이전에 상기 영상 이미지를 정렬하는 단계를 더 포함하는, 얼굴 인식 방법.
청구항 3항에 있어서,
상기 영상 이미지를 정렬하는 단계는
상기 영상 이미지 내 대상자의 두 눈의 위치 정보를 이용하여 평면 내 각도(RIP, Rotation in Plane)가 0이 되도록 회전 정렬하는 단계;
상기 영상 이미지 내 얼굴 특징점들을 이용하여, 상기 영상 이미지의 X축 위치를 정렬하는 단계; 및
상기 영상 이미지 내 얼굴 특징점들을 이용하여, 상기 영상 이미지의 Y축 위치 및 크기를 정렬하는 단계를 포함하는, 얼굴 인식 방법.
청구항 4항에 있어서,
상기 영상 이미지의 X축 위치를 정렬하는 단계는
상기 얼굴 특징점들 중 제1 방향을 기준으로 최외각에 위치하는 제1 특징점을 추출하는 단계;
상기 제1 방향과 반대인 제2 방향을 기준으로 최외각에 위치하는 제2 특징점을 추출하는 단계; 및
상기 영상 이미지의 중심으로부터 상기 제1 특징점 및 상기 제2 특징점의 X축 거리가 동일하게 제공되도록, 상기 영상 이미지의 X축 위치를 조정하는 단계를 포함하는, 얼굴 인식 방법.
청구항 4항에 있어서,
상기 영상 이미지의 Y축 위치 및 크기를 정렬하는 단계는
상기 영상 이미지 내 대상자의 두 눈 사이의 중점인 제3 특징점을 추출하는 단계;
상기 영상 이미지 내 대상자의 입술 중점인 제4 특징점을 추출하는 단계; 및
상기 제3 특징점 및 상기 제4 특징점을 이용하여, 상기 영상 이미지의 크기 및 Y축 위치를 조정하는 단계를 포함하는, 얼굴 인식 방법.
청구항 6항에 있어서,
상기 영상 이미지는
Y축을 기준으로, 상기 제3 특징점이 상면으로부터 30% 간격만큼 하향 이격되어 위치되고, 상기 제4 특징점이 하면으로부터 35% 간격만큼 상향 이격되어 위치되는, 얼굴 인식 방법.
청구항 1항에 있어서,
상기 특징맵을 도출하는 단계는,
복수의 컨볼루션 계층(Convolution layer)들에 의해 상기 정규화된 영상 이미지의 채널별 합성곱을 산출하는 단계; 및
상기 채널별 합성곱에 최대 풀링(Max Pooling)을 적용하는 단계를 포함하는, 얼굴 인식 방법.
청구항 8항에 있어서,
적어도 하나의 상기 컨볼루션 계층은 레지듀얼 함수(Residual Function)를 포함하는 병목(Bottleneck) 구조로 제공되는, 얼굴 인식 방법.
청구항 1항에 있어서,
상기 글로벌 외형 특징을 출력하는 단계에서는
특정 크기의 필터(filter)를 이용하여, 상기 특징맵에 평균 풀링(Average Pooling)을 적용하는, 얼굴 인식 방법.
청구항 1항에 있어서,
상기 관계쌍을 형성하는 단계는
상기 컨볼루셔널 신경망으로부터 출력된 상기 특징맵을 입력 받는 단계;
상기 특징맵 내 복수의 얼굴 특징점들을 중심으로 로컬 외형 특징 그룹을 추출하는 단계; 및
상기 로컬 외형 특징 그룹으로부터 복수의 상기 로컬 외형 특징들을 추출하여 상기 관계쌍을 형성하는 단계를 포함하는, 얼굴 인식 방법.
청구항 11항에 있어서,
상기 로컬 외형 특징 그룹을 추출하는 단계는
상기 특징맵 내 얼굴 영역 중 적어도 일부 영역을 관심 영역(ROI, Region Of Interest)으로 설정하여 투영하는 단계; 및
상기 관심 영역 내 위치한 적어도 하나의 상기 얼굴 특징점으로부터, 상기 로컬 외형 특징들을 포함하는 상기 로컬 외형 특징 그룹을 추출하는 단계를 포함하는, 얼굴 인식 방법.
청구항 1항에 있어서,
상기 관계형 로컬 특징을 추출하는 단계는
LSTM(Long Short-term Memory uint) 기반의 순환 네트워크에 의해, 상기 신원 식별 특징을 상기 관계쌍에 임베딩(Embeding)하는 단계;
제1 멀티 레이어 퍼셉트론(MLP, Multi Layer Perceptron)에 의해 제1 가중치를 산출하여, 적어도 하나의 상기 관계형 로컬 특징에 개별 적용하는 단계;
적어도 하나의 상기 관계형 로컬 특징을 집계 함수에 의해 합산하여 예측 관계형 특징을 추출하는 단계; 및
제2 멀티 레이어 퍼셉트론에 의해 제2 가중치를 산출하여, 상기 예측 관계형 특징에 적용하여 상기 쌍 관계 네트워크를 생성하는 단계를 더 포함하는, 얼굴 인식 방법.
청구항 제1항에 있어서,
상기 관계형 로컬 특징은 단일 벡터 형태로 제공되는, 얼굴 인식 방법.
청구항 제13항에 있어서,
상기 LSTM 기반의 순환 네트워크는 복수의 완전 연결된 계층(FC Layer, Fully Connected Layer)들을 포함하고, 손실 함수(Loss Function)를 이용하여 학습되는, 얼굴 인식 방법.
프로세서(processor); 및
상기 프로세서(processor)를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고,
상기 적어도 하나의 명령은,
식별하고자 하는 대상자의 얼굴이 촬영된 영상 이미지를 수신하도록 하는 명령,
상기 영상 이미지를 정규화하도록 하는 명령,
복수의 얼굴 특징점들을 추출하도록 학습된 컨볼루셔널 신경망에 상기 영상 이미지를 입력하여, 상기 영상 이미지 내 얼굴 특징점들을 포함하는 특징맵을 도출하도록 하는 명령,
상기 특징맵에 글로벌 평균 풀링을 적용하여, 상기 영상 이미지 내 대상자의 얼굴 전역에 대한 외형 특징을 표현하는 글로벌 외형 특징을 출력하도록 하는 명령,
쌍 관계 네트워크에 상기 특징맵을 입력하여 복수의 로컬 외형 특징들을 추출하여 관계쌍을 형성하도록 하는 명령 및
상기 관계쌍에 신원 식별 특징을 임베딩하여 관계형 로컬 특징을 추출하도록 하는 명령을 포함하는, 얼굴 인식 장치.
청구항 16항에 있어서,
상기 프로세서는 상기 영상 이미지를 정규화하기 전에 상기 영상 이미지를 정렬하는 얼굴 인식 장치.
청구항 16항에 있어서,
상기 프로세서는,
상기 특징맵을 도출하도록 하는 명령 수행 시, 복수의 컨볼루션 계층들에 의해 상기 정규화된 영상 이미지의 채널별 합성곱을 산출하고, 상기 채널별 합성곱에 최대 풀링을 적용하여 상기 특징맵을 출력하는, 얼굴 인식 장치.
청구항 18항에 있어서,
적어도 하나의 상기 컨볼루션 계층은 레지듀얼 함수를 포함하는 병목 구조로 제공되는, 얼굴 인식 장치.
청구항 16항에 있어서,
상기 프로세서는,
상기 글로벌 외형 특징을 출력하도록 하는 명령 수행 시, 특정 크기의 필터를 이용하여, 상기 특징맵에 평균 풀링을 적용하는, 얼굴 인식 장치.
청구항 16항에 있어서,
상기 관계형 로컬 특징은 단일 벡터 형태로 제공되는, 얼굴 인식 장치.
청구항 16항에 있어서,
상기 프로세서는
상기 관계쌍을 형성하도록 하는 명령 수행 시, 상기 컨볼루셔널 신경망으로부터 출력된 상기 특징맵을 입력 받고, 상기 특징맵 내 복수의 얼굴 특징점들을 중심으로 로컬 외형 특징 그룹을 추출하며, 상기 로컬 외형 특징 그룹으로부터 복수의 상기 로컬 외형 특징들을 추출하여 상기 관계쌍을 형성하는, 얼굴 인식 장치.
청구항 22항에 있어서,
상기 프로세서는
상기 로컬 외형 특징 그룹의 추출 시, 상기 영상 이미지의 얼굴 영역 내 국부 영역을 관심 영역으로 추출하고, 상기 추출된 관심 영역을 기준으로 적어도 하나의 상기 로컬 외형 특징들을 포함하는 상기 로컬 외형 특징 그룹을 추출하는 얼굴 인식 장치.
청구항 16항에 있어서,
상기 프로세서는,
상기 관계형 로컬 특징을 추출하도록 하는 명령 수행 시, LSTM 기반의 순환 네트워크에 의해, 상기 신원 식별 특징을 상기 관계쌍에 임베딩하고, 제1 멀티 레이어 퍼셉트론에 의해 제1 가중치를 산출하여 적어도 하나의 상기 관계형 로컬 특징에 개별 적용하며, 적어도 하나의 상기 관계형 로컬 특징을 집계 함수에 의해 합산하여 예측 관계형 특징을 추출하고, 제2 멀티 레이어 퍼셉트론에 의해 제2 가중치를 산출하여 상기 예측 관계형 특징에 적용하는, 얼굴 인식 장치.
학습된 컨볼루셔널 신경망으로부터 복수의 얼굴 특징점들을 포함하는 특징맵을 입력 받는 단계;
상기 특징맵 내 복수의 얼굴 특징점들을 중심으로 로컬 외형 특징 그룹을 추출하는 단계;
상기 로컬 외형 특징 그룹으로부터 복수의 로컬 외형 특징들을 추출하여 관계쌍을 형성하는 단계;
LSTM 기반의 순환 네트워크에 의해, 신원 식별 특징을 상기 관계쌍에 임베딩하여 관계형 로컬 특징을 추출하는 단계; 및
상기 관계형 로컬 특징 및 상기 학습된 컨볼루셔널 신경망으로부터 수신된 글로벌 외형 특징을 결합한 특징을 복수의 완전 연결된 계층들에 통과시켜, 손실 함수가 최소화되도록 기계학습하는 단계를 포함하는, 쌍 관계 네트워크 모델링 방법.
프로세서; 및
상기 프로세서를 통해 실행되는 적어도 하나의 명령이 저장된 메모리를 포함하고,
상기 적어도 하나의 명령은
학습된 컨볼루셔널 신경망으로부터 복수의 얼굴 특징점들을 포함하는 특징맵을 입력 받도록 하는 명령,
상기 특징맵 내 복수의 얼굴 특징점들을 중심으로 로컬 외형 특징 그룹을 추출하도록 하는 명령,
상기 로컬 외형 특징 그룹으로부터 복수의 로컬 외형 특징들을 추출하여 관계쌍을 형성하도록 하는 명령,
LSTM 기반의 순환 네트워크에 의해, 신원 식별 특징을 상기 관계쌍에 임베딩하여 관계형 로컬 특징을 추출하도록 하는 명령 및
상기 관계형 로컬 특징 및 상기 학습된 컨볼루셔널 신경망으로부터 수신된 글로벌 외형 특징을 결합한 특징을 복수의 완전 연결된 계층들에 통과시켜, 손실 함수가 최소화되도록 기계학습하도록 하는 명령을 포함하는, 쌍 관계 네트워크 모델링 장치.