WO2021145502A1

WO2021145502A1 - 얼굴 및 스트레스 인식 장치 및 방법

Info

Publication number: WO2021145502A1
Application number: PCT/KR2020/001301
Authority: WO
Inventors: 이상윤; 전태재; 배한별; 이용주; 장성준
Original assignee: 연세대학교 산학협력단
Priority date: 2020-01-15
Filing date: 2020-01-28
Publication date: 2021-07-22
Also published as: KR20210091966A

Abstract

본 발명은 얼굴 및 스트레스를 인식하고자 하는 대상자의 얼굴이 포함된 입력 영상을 인가받고, 미리 학습된 패턴 추정 방식에 따라 입력 영상에서 얼굴 영역을 추출하는 얼굴 영역 추출부, 추출된 얼굴 영역을 인가받고, 미리 학습된 패턴 추정 방식에 따라 얼굴 특징을 추출하는 얼굴 특징 추출부, 추출된 얼굴 특징과 기저장된 적어도 하나의 사용자 얼굴 특징을 비교하여 매칭되는 얼굴 특징을 탐색하여 얼굴 인증을 수행하는 얼굴 인식부 및 추출된 얼굴 특징을 미리 학습된 패턴 분류 방식에 따라 분류하여 스트레스 수준을 판별하는 스트레스 인식부를 포함하여, 낮은 성능의 장치에서도 고속으로 얼굴 인식과 스트레스 인식을 함께 수행할 수 있는 얼굴 및 스트레스 인식 장치 및 방법을 제공할 수 있다.

Description

얼굴 및 스트레스 인식 장치 및 방법

본 발명은 얼굴 및 스트레스 인식 장치 및 방법에 관한 것으로, 얼굴 인식과 스트레스 인식을 고속으로 동시에 수행할 수 있는 얼굴 및 스트레스 인식 장치 및 방법에 관한 것이다.

얼굴 인식 기술은 사진, 동영상 속 사람의 얼굴로부터 사람의 신원을 파악하는 기술로, 주로 보안 응용 영역에서 다양하게 이용되고 있다. 얼굴 인식 기술은 사진, 동영상 속 선택된 사람의 얼굴로부터 추출한 특징과 미리 저장된 사람의 얼굴 특징 데이터베이스 속 특징을 비교함으로써 이루어진다.

한편 영상 기반 스트레스 인식 기술은 사진, 동영상 속 사람의 얼굴로부터 사람이 받는 스트레스 수준을 추정하는 기술을 의미한다. 스트레스 인식 기술은 사람이 스트레스를 받으면, 눈, 입, 머리 등의 움직임이 평상시와 다르다는 점을 활용하여 영상을 기반으로 사용자의 스트레스 여부를 인지한다. 스트레스 인식 기술은 사용자의 스트레스 여부를 판별하여, 사용자를 안정시키는 다양한 응용 프로그램에 이용될 수 있다.

특히 상기한 얼굴 인식 기술과 영상 기반 스트레스 인식 기술은 모두 사용자와 화상을 통해 대화를 수행하는 챗봇(Chatbot) 시스템 등에 적용될 수 있다. 챗봇 시스템에서 얼굴 인식 기술은 대화를 하고 있는 사용자의 신원을 파악하여 해당 사용자에게 맞는 맞춤형 대화를 하는데 활용될 수 있고, 영상 기반 스트레스 인식 기술은 챗봇이 대화를 하고 있는 사용자의 스트레스 수준을 파악하여 스트레스를 받은 것으로 판단되면, 챗봇이 사용자의 스트레스를 감소시키는 방향으로 피드백을 주도록 하는 방식으로 활용될 수 있다.

상기한 두 기술이 모두 사용자의 얼굴 영상을 입력으로 인가받는다는 공통점이 있지만, 기존에는 두 기술이 서로 별개의 기술로 연구됨에 따라 각각 설계된 알고리즘에 따라 얼굴 인식과 스트레스 인식이 병렬로 수행된다. 따라서 높은 사양의 장치 성능이 요구되며, 전체 처리 속도가 저하된다는 단점이 있다.

본 발명의 목적은 고속으로 동시에 얼굴 인식과 스트레스 인식을 수행할 수 있는 얼굴 및 스트레스 인식 장치 및 방법을 제공하는데 있다.

본 발명의 다른 목적은 공통 신경망을 이용하여 저비용으로 구성될 수 있는 얼굴 및 스트레스 인식 장치 및 방법을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 얼굴 및 스트레스 인식 장치는 얼굴 및 스트레스를 인식하고자 하는 대상자의 얼굴이 포함된 입력 영상을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 입력 영상에서 얼굴 영역을 추출하는 얼굴 영역 추출부; 추출된 얼굴 영역을 인가받고, 미리 학습된 패턴 추정 방식에 따라 얼굴 특징을 추출하는 얼굴 특징 추출부; 추출된 얼굴 특징과 기저장된 적어도 하나의 사용자 얼굴 특징을 비교하여 매칭되는 얼굴 특징을 탐색하여 얼굴 인증을 수행하는 얼굴 인식부; 및 추출된 얼굴 특징을 미리 학습된 패턴 분류 방식에 따라 분류하여 스트레스 수준을 판별하는 스트레스 인식부를 포함한다.

상기 얼굴 특징 추출부는 깊이별 분리 컨볼루션 기법에 따라 인가된 얼굴 영역의 각 채널별로 개별적 컨볼루션 연산을 하는 깊이별 컨볼루션을 수행하고, 이후 1 X 1 컨볼루션으로 해당 영역의 모든 채널을 가중합하는 포인트별 컨볼루션을 수행하는 단계적으로 연결된 다수의 인공 신경망을 포함할 수 있다.

상기 얼굴 특징 추출부는 깊이별 컨볼루션이 수행된 결과를 서로 혼합하고, 혼합된 결과에 대해 포인트별 컨볼루션을 수행할 수 있다.

상기 얼굴 인식부는 추출된 얼굴 특징과 기저장된 적어도 하나의 사용자 얼굴 특징 각각 사이의 코사인 유사도를 계산하고, 계산된 코사인 유사도가 기지정된 문턱값 이하이면, 코사인 유사도가 문턱값 이하인 얼굴 특징에 대응하는 사용자로 인증할 수 있다.

상기 스트레스 인식부는 추출된 얼굴 특징을 미리 학습된 패턴 분류 방식에 따라 분류하여 스트레스 벡터를 획득하고, 획득된 스트레스 벡터의 원소값을 분석하여 스트레스 수준을 판별할 수 있다.

상기 얼굴 및 스트레스 인식 장치는 학습 시에 사용자 식별자와 스트레스 수준이 레이블된 학습 영상을 획득하고, 상기 얼굴 인식부에서 계산되는 상기 학습 영상에서 추출된 얼굴 특징과 사용자 식별자에 대응하는 얼굴 특징 사이의 코사인 유사도를 오차로 획득하여, 오차를 역전파하여 상기 얼굴 영역 추출부와 상기 얼굴 특징 추출부를 학습시키는 학습부를 더 포함할 수 있다.

상기 학습부는 상기 얼굴 영역 추출부와 상기 얼굴 특징 추출부가 학습된 이후, 학습된 상기 얼굴 특징 추출부에서 추출된 얼굴 특징으로부터 상기 스트레스 인식부가 획득한 스트레스 벡터를 인가받고, 인가된 스트레스 벡터의 각 원소값 중 상기 학습 영상에 레이블된 스트레스 수준에 대응하는 타겟 스트레스에 기지정된 마진값을 추가하여 타겟 변환 각도값을 획득하며, 획득된 타겟 변환 각도값에 대해 크로스 엔트로피 손실을 계산하여 역전파하여 상기 스트레스 인식부를 학습시킬 수 있다.

상기 얼굴 영역 추출부는 각각 패턴 추정 방식이 미리 학습되어 입력되는 영상의 각 영역을 얼굴 분류 벡터, 경계 박스 회귀 벡터 및 얼굴 랜드마크 위치 벡터로 분류하는 단계적으로 연결된 다수의 신경망을 포함할 수 있다.

상기 다수의 신경망 각각은 경계 박스 회귀 벡터를 이용하여 얼굴 후보 영역의 위치를 조절한 후, NMS 알고리즘에 따라 서로 영역이 겹치는 얼굴 후보 영역들을 병합하여 얼굴 후보 영역의 수를 줄일 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 얼굴 및 스트레스 인식 방법은 얼굴 및 스트레스를 인식하고자 하는 대상자의 얼굴이 포함된 입력 영상을 획득하는 단계; 미리 학습된 패턴 추정 방식에 따라 상기 입력 영상에서 얼굴 영역을 추출하는 단계; 추출된 얼굴 영역을 인가받고, 미리 학습된 패턴 추정 방식에 따라 얼굴 특징을 추출하는 단계; 추출된 얼굴 특징과 기저장된 적어도 하나의 사용자 얼굴 특징을 비교하여 매칭되는 얼굴 특징을 탐색하여 상기 대상자의 얼굴을 인증하는 단계; 및 추출된 얼굴 특징을 미리 학습된 패턴 분류 방식에 따라 분류하여 스트레스 수준을 인식하는 단계를 포함한다.

따라서, 본 발명의 실시예에 따른 얼굴 및 스트레스 인식 장치 및 방법은 사용자의 얼굴 영상을 입력으로 인가받아 공동 신경망을 통해 얼굴 특징을 추출하고, 추출된 얼굴 특징을 기반으로 얼굴 인식을 수행하는 한편, 스트레스 인식을 위한 부가 신경망이 얼굴 특징을 기반으로 스트레스를 인식하도록 함으로써, 낮은 성능의 장치에서도 고속으로 얼굴 인식과 스트레스 인식을 함께 수행할 수 있도록 한다.

도 1은 본 발명의 일 실시예에 따른 얼굴 및 스트레스 인식 장치의 개략적 구조를 나타낸다.

도 2는 도 1의 얼굴 영역 추출부의 상세 구성을 나타낸다.

도 3은 도 2의 얼굴 영역 추출부에서 각 구성의 세부 구조의 일예를 나타낸다.

도 4는 도 1의 얼굴 특징 추출부의 인공 신경망 구성을 설명하기 위한 도면이다.

도 5는 도 1의 스트레스 인식부를 학습시키기 위한 학습부의 동작을 설명하기 위한 도면이다.

도 6은 본 발명의 일 실시예에 따른 얼굴 및 스트레스 인식 방법을 나타낸다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “...부”, “...기”, “모듈”, “블록” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도1 은 본 발명의 일 실시예에 따른 얼굴 및 스트레스 인식 장치의 개략적 구조를 나타낸다.

도 1을 참조하면, 본 실시예에 따른 얼굴 및 스트레스 인식 장치는 영상 입력부(100), 얼굴 영역 추출부(200), 얼굴 특징 추출부(300), 얼굴 인식부(400), 스트레스 인식부(500)를 포함할 수 있다.

영상 입력부(100)는 입력 영상을 획득하여 얼굴 영역 추출부(200)로 전달한다. 여기서 입력 영상은 이미지 센서 등으로 획득된 영상으로 얼굴 및 스트레스 인지 대상자의 얼굴이 포함된 영상이다. 영상 입력부(100)는 카메라 등의 장치를 포함하여 입력 영상을 획득할 수도 있으나, 이미 획득된 영상이 저장된 저장 장치 또는 외부의 장치나 기기로부터 영상을 인가받는 통신 수단으로 구현될 수도 있다.

얼굴 영역 추출부(200)는 영상 입력부(100)로부터 입력 영상을 인가받아 미리 학습된 패턴 추정 방식에 따라 영상에 포함된 대상자의 얼굴이 포함된 얼굴 영역을 추출한다. 여기서 얼굴 영역 추출부(200)는 패턴 추정 방식이 인공 신경망으로 구현되어 입력 영상에서 얼굴이 포함된 영역을 추출할 수 있다.

얼굴 인식과 스트레스 인식은 모두 영상에 포함된 대상자의 얼굴을 분석하여 수행되며, 따라서 영상에서 얼굴을 제외한 나머지 영역은 얼굴 또는 스트레스를 인식하는데 불필요한 영역일 뿐만 아니라, 노이즈로서 얼굴 또는 스트레스 인식에 장애가 될 수 있다. 이에 얼굴 영역 추출부(200)는 영상 입력부(100)에서 인가된 영상에서 얼굴 영역만을 추출한다. 그리고 추출된 얼굴 영역을 얼굴 특징 추출부(300)로 전달한다.

얼굴 영역 추출부(200)는 단일 인공 신경망으로 구현될 수도 있으나, 얼굴 영역 검출 성능의 향상을 위해 다수의 인공 신경망으로 구현될 수도 있다. 그리고 얼굴 영역 추출부(200)가 다수의 인공 신경망으로 구현되는 경우, 단계별 멀티태스크 방식으로 구현될 수 있다.

얼굴 특징 추출부(300)는 얼굴 영역 추출부(200)에서 추출된 얼굴 영역을 인가받고, 인가된 얼굴 영역에서 미리 학습된 패턴 추정 방식에 따라 얼굴의 특징을 획득한다. 얼굴 특징 추출부(300)는 얼굴 영역에서 각 대상자의 서로 다른 얼굴을 구별할 수 있도록 하기 위한 특징을 추출한다.

얼굴 특징 추출부(300) 또한 얼굴 영역 추출부(200)와 유사하게 미리 학습된 인공 신경망으로 구현될 수 있다.

한편, 얼굴 인식부(400)는 얼굴 특징 추출부(300)에서 추출된 얼굴 특징과 미리 저장된 적어도 하나의 사용자 각각의 얼굴 특징을 비교하여, 얼굴 특징 추출부(300)에서 추출된 얼굴 특징이 저장된 적어도 하나의 얼굴 특징 중 하나와 매칭되는지 판별한다. 얼굴 인식부(400)는 추출된 얼굴 특징과 저장된 적어도 하나의 얼굴 특징 사이의 코사인 유사도(Cosine Similarity)를 계산하고, 계산된 코사인 유사도가 기지정된 문턱값 이하이면, 동일한 사용자에 대한 얼굴 특징인 것으로 판별하여 매칭되는 것으로 판별한다. 반면, 문턱값을 초과하면 다른 사람에 대한 얼굴 특징인 것으로 판별한다.

여기서 얼굴 인식부(400)는 적어도 하나의 사용자 각각의 얼굴 특징을 직접 저장할 수도 있으나, 별도의 저장 장치 또는 데이터 베이스에 저장된 사용자별 얼굴 특징을 인가받아 추출된 얼굴 특징과 비교할 수도 있다.

그리고 얼굴 인식부(400)는 추가적으로 저장된 적어도 하나의 얼굴 특징 중 추출된 얼굴 특징과 매치되는 얼굴 특징이 검출되면, 기지정된 동작을 수행할 수 있다. 일 예로 얼굴 인식부(400)는 사용자 인증을 수행하거나, 매칭된 얼굴 특징의 사용자에 대한 사용자 정보를 호출할 수도 있다. 호출된 사용자 정보는 챗봇과 같은 시스템에서 사용자에 대한 서비스를 제공하기 위해 이용될 수 있다. 한편, 얼굴 인식부(400)는 미리 저장된 사용자 얼굴 특징에 추출된 얼굴 특징에 매칭되는 얼굴 특징이 검색되지 않으면, 인증된 사용자가 비인증되었음을 통지할 수도 있다.

스트레스 인식부(500)는 얼굴 특징 추출부(300)로부터 얼굴 특징이 인가되면, 인가된 얼굴 특징에 대해 미리 학습된 패턴 분류 방식에 따라 분류하여 사용자의 스트레스 수준을 인식한다. 얼굴 특징 추출부(300)에서 추출된 얼굴 특징은 얼굴 인식을 위해 추출된 특징이지만, 스트레스 인식 또한 기본적으로 얼굴 인식과 유사하게 얼굴 특징을 추출하여 스트레스를 인식한다. 따라서 본 실시예에서는 얼굴 인식을 위해 추출된 얼굴 특징을 추가적으로 학습된 패턴 분류 방식에 따라 분류함으로써, 사용자의 스트레스 수준을 판별한다.

여기서 스트레스 인식부(500)는 스트레스를 기지정된 다수의 레벨로 구분하고, 대상자의 스트레스 수준을 다수의 스트레스 레벨 중 하나로 인식할 수 있다. 일 예로 스트레스 인식부(500)는 스트레스 레벨을 스트레스 낮음, 스트레스 중간 및 스트레스 높음의 3개 레벨로 구분하고, 대상자의 스트레스 수준을 3개의 레벨 중 하나로 판별할 수 있다. 즉 얼굴 특징 추출부(300)가 1 * 512크기로 512차원의 얼굴 특징을 추출한 경우, 스트레스 인식부(500)는 미리 학습된 패턴 분류 방식에 따른 값을 갖는 512 * 3 크기의 가중치 벡터를 포함하여, 1 * 3 크기의 스트레스 벡터를 출력할 수 있다. 그리고 1 * 3 크기의 스트레스 벡터의 각 원소 값에 따라 스트레스 수준을 판별하여 출력할 수 있다. 그러나 이는 단순한 예로서 스트레스 레벨은 3개 이상의 다수개로 구분될 수도 있다. 즉 스트레스 레벨을 5개로 구분하는 경우, 스트레스 인식부(500)는 512 * 5 크기의 가중치 벡터를 포함하여, 1 * 5 크기의 스트레스 벡터의 원소 값에 따라 스트레스 수준을 판별할 수 있다.

한편 얼굴 및 스트레스 인식 장치는 학습 단계에서 얼굴 영역 추출부(200)와 얼굴 특징 추출부(300) 및 스트레스 인식부(500)를 학습시키기 위한 학습부(600)를 더 포함할 수 있다.

얼굴 및 스트레스 인식 장치는 학습 단계에서 얼굴 영역 추출부(200)와 얼굴 특징 추출부(300)는 얼굴 인식부(400)의 얼굴 인식 결과를 기반으로 학습이 수행될 수 있다. 학습 단계에서 학습부(600)는 사용자 식별자와 스트레스 수준이 레이블된 학습 영상을 입력 영상으로 영상 입력부(100)로 인가한다. 그리고 학습 영상에 대해 얼굴 특징 추출부(300)에서 추출된 얼굴 특징을 인가받고, 사용자 식별자를 얼굴 인식부(400)로 인가하여, 얼굴 인식부(400)가 얼굴 특징 추출부(300)에서 추출된 얼굴 특징과 사용자 식별자에 대응하는 얼굴 특징 사이의 코사인 유사도를 계산한 결과를 인가받고, 계산한 결과에 따른 오차를 역전파함으로써, 얼굴 영역 추출부(200)와 얼굴 특징 추출부(300)를 학습시킨다.

학습부(600)는 얼굴 특징 추출부(300)에서 추출된 얼굴 특징과 얼굴 인식부(400)에서 인가된 얼굴 특징 사이의 차이에서 계산되는 오차가 기지정된 기준 오차 이하가 될 때까지 반복하여 오차를 역전파하거나, 기지정된 횟수로 반복하여 역전파하여 얼굴 영역 추출부(200)와 얼굴 특징 추출부(300)를 학습시킬 수 있다.

한편 학습부(600)는 얼굴 영역 추출부(200)와 얼굴 특징 추출부(300)가 학습되면 스트레스 인식부(500)를 추가적으로 학습시킬 수 있다. 학습부(600)는 스트레스 인식부(500)가 학습된 얼굴 영역 추출부(200)와 얼굴 특징 추출부(300)를 통해 추출된 얼굴 특징으로부터 스트레스 벡터를 획득하면, 획득된 스트레스 벡터를 학습 영상에 레이블된 스트레스 수준과 비교하여 손실을 계산하고, 계산된 손실을 스트레스 인식부(500)로 역전파하여 스트레스 인식부(500)를 학습시킬 수 있다. 이때 학습부(600)는 스트레스 인식부(500)의 학습 성능을 향상시키기 위해, 마진(margin)을 추가적으로 적용하여 학습시킬 수 있다. 학습부(600)가 스트레스 인식부(500)를 학습시키는 상세한 기법은 후술하도록 한다.

결과적으로 본 실시예에 따른 얼굴 및 스트레스 인식 장치는 입력 영상으로부터 얼굴 특징을 우선 추출하여 얼굴 인식을 수행하고, 추출된 얼굴 특징을 기반으로 간단한 추가 구성으로 스트레스 특징을 추출하여 스트레스 인식을 수행할 수 있도록 함으로써, 저비용의 장치로도 고속으로 얼굴 인식과 스트레스 인식을 함께 수행할 수 있도록 한다. 따라서 챗봇과 같이 사용자를 인식하고 사용자의 상태에 적합한 대응을 수행해야 하는 시스템에 최적의 솔루션을 제공할 수 있다.

도 2는 도 1의 얼굴 영역 추출부의 상세 구성을 나타내고, 도 3은 도 2의 얼굴 영역 추출부에서 각 구성의 세부 구조의 일예를 나타낸다.

상기한 바와 같이, 얼굴 영역 추출부(200)가 단계별 멀티태스크 방식으로 구현되는 경우, 영상 크기 조절부(210)와 단계적으로 연결되는 다수의 영역 검출부(220 ~ 240)를 포함하도록 구성될 수 있다. 도 2에서는 일예로 얼굴 영역 추출부(200)가 영상 크기 조절부(210)와 3개의 영역 검출부(220 ~ 240)를 포함하는 경우를 가정하여 도시하였다.

여기서 3개의 영역 검출부(220 ~ 240) 각각은 컨볼루션 신경망(Convolution Neural Network: 이하 CNN)로 구현될 수 있다. 그리고 3개의 영역 검출부(220 ~ 240)는 순차적으로 더 복잡한 구조를 갖도록 구성될 수 있다. 얼굴 영역 추출부(200)가 단계적으로 연결되는 다수의 영역 검출부(220 ~ 240)를 포함하고, 다수의 영역 검출부(220 ~ 240)가 순차적으로 더 복잡한 구조를 갖는 인공 신경망으로 구현되는 경우, 매우 복잡한 구성을 갖는 단일 인공 신경망에 비해 더욱 빠르고 정확하게 얼굴 영역을 검출할 수 있다.

얼굴 영역 추출부(200)에서 영상 크기 조절부(210)는 인가된 입력 영상에 대해 크기를 점차로 줄여가며 변형하여, 다양한 크기의 입력 영상을 포함하는 영상 피라미드(Image Pyramid)를 획득한다.

그리고 획득된 영상 피라미드의 여러 크기의 입력 영상 각각을 제1 영역 검출부(220)로 전달하고, 제1 영역 검출부(220)는 미리 학습된 패턴 추정 방식에 따라 입력 영상에서 1차 얼굴 영역을 검출한다.

제1 영역 검출부(220)는 우선 슬라이딩 윈도우 방식을 이용하여 영상 피라미드의 다양한 크기의 영상에서 신속하게 얼굴 후보 영역을 탐색할 수 있다. 제1 영역 검출부(220)는 입력 영상의 각 영역을 얼굴 분류 벡터, 경계 박스 회귀(Bounding box regression) 벡터 및 얼굴 랜드마크 위치 벡터로 분류할 수 있으며, 경계 박스 회귀 벡터를 이용하여 얼굴 후보 영역의 위치를 조절하고, NMS(Non-Maximum Suppression) 알고리즘에 따라 서로 영역이 겹치는 얼굴 후보 영역들을 병합하여 얼굴 후보 영역의 수를 줄여 다수의 1차 얼굴 영역을 검출한다. 여기서 도 3에 도시된 바와 같이, 3개의 영역 검출부(220 ~ 240) 중 제1 영역 검출부(220)가 가장 구조가 단순한 구조를 갖는 것은 신속하게 1차 얼굴 영역을 검출할 수 있도록 하기 위함이다.

제1 영역 검출부(220)가 1차 얼굴 영역을 검출하면, 제1 영역 검출부(220)보다 복잡한 구조의 CNN으로 구현되는 제2 영역 검출부(230)가 다수의 1차 얼굴 영역 중 얼굴 영역이 아닌 영역을 제거하고, 경계 박스 회귀 벡터를 이용하여 얼굴 후보 영역의 위치를 조절하고, NMS 알고리즘에 따라 서로 영역이 겹치는 얼굴 후보 영역들을 병합하여 다수의 2차 얼굴 영역을 획득한다. 여기서 2차 얼굴 영역의 개수는 1차 얼굴 영역의 개수 이하로 획득될 수 있다.

그리고 제3 영역 검출부(240)는 2차 영역 검출부(230)와 유사하게 다수의 2차 얼굴 영역 중 얼굴 영역이 아닌 영역을 제거하고, 경계 박스 회귀 벡터를 이용하여 얼굴 후보 영역의 위치를 조절하며, NMS 알고리즘에 따라 서로 영역이 겹치는 얼굴 후보 영역들을 병합하여 최종 얼굴 영역 벡터와 함께 얼굴 랜드마크 위치 벡터를 획득한다.

얼굴 영역 추출부(200)는 3개의 영역 검출부(220 ~ 240)가 단계적으로 얼굴 영역을 검출함에 따라 매우 정확하게 얼굴 영역과 얼굴 랜드마크 위치를 획득할 수 있음을 알 수 있다.

상기한 바와 같이 얼굴 특징 추출부(300)는 얼굴 영역 추출부(200)와 마찬가지로 일반적인 CNN 등의 인공 신경망으로 구현될 수 있다. 그러나 본 실시예에서 얼굴 특징 추출부(300)는 CNN에서 연산량을 줄여 경량화하기 위해 주로 이용되는 기법인 깊이별 분리 컨볼루션(Depthwise Separable Convolution)과 그룹 컨볼루션(Group Convolution) 및 병목 구조(Bottleneck Architecture)를 적용하여 구성될 수도 있다.

깊이별 분리 컨볼루션은 도 4의 (a)에 도시된 바와 같이, 깊이별 컨볼루션(depthwise convolution)과 포인트별 컨볼루션(pointwise convolution)으로 분리되어 구성될 수 있다. 깊이별 컨볼루션은 얼굴 영역 추출부(200)에서 추출된 얼굴 영역 이미지를 각 채널별로 개별적으로 컨볼루션 연산하고, 포인트별 컨볼루션은 1 X 1 컨볼루션으로 해당 영역의 모든 채널을 가중합하는 병목 구조로 구성될 수 있다. 병목 구조의 포인트별 컨볼루션은 특징맵의 개수를 증가시키면서 내부 파라미터의 수를 감소시켜, 성능을 높이면서도 연산량을 감소시킬 수 있도록 한다. 일예로 얼굴 특징 추출부(300)는 512 차원 얼굴 특징을 추출하여 1 * 512 크기의 얼굴 특징 벡터를 출력할 수 있다.

즉 깊이별 분리 컨볼루션은 적은 연산량으로 깊은 레이어를 구성할 수 있도록 하여 특징 추출 성능을 향상시킬 수 있다.

한편 그룹 컨볼루션은 도 4의 (b)에 도시된 바와 같이, 기지정된 개수의 그룹으로 채널을 분리하여 연산함으로써, 연산량을 감소시킬 수 있도록 한다. 다만 그룹 컨볼루션을 연속하여 적용하는 경우, 입력된 영상의 전체적인 특징을 추출하기 어렵다. 이에 그룹 컨볼루션은 도 4의 (b)에서와 같이 그룹 컨볼루션된 결과에 채널 셔플 기법을 적용하여 구분된 그룹을 서로 혼합하고, 이후 포인트별 컨볼루션이 수행되도록 하여 영상의 전체적인 특징을 함께 추출할 수 있도록 한다.

즉 그룹 컨볼루션 기법은 (a)에 도시된 깊이별 분리 컨볼루션 기법에서 깊이별 컨볼루션으로 획득된 결과에 채널 셔플 기법을 적용한 후 포인트별 컨볼루션이 수행되도록 하는 방식으로 깊이별 분리 컨볼루션 기법과 함께 적용될 수 있다.

깊이별 분리 컨볼루션과 그룹 컨볼루션을 적용한 CNN의 구성은 공지된 기술이므로, 여기서는 상세한 설명은 생략한다.

도 5를 참조하면, 학습부(600)는 스트레스 인식부(500)로부터 스트레스 벡터를 인가받는다. 그리고 인가된 스트레스 벡터의 각 원소를 기지정된 방식에 따라 각도값으로 변환하고, 변환된 각도값 중 학습 영상에 레이블된 스트레스 수준에 따른 타겟 스트레스에 대해 적응적 각도 마진을 적용한다.

학습부(600)는 스트레스 인식부(500)가 1 * 512 크기의 얼굴 특징을 인가받아 3개의 스트레스 레벨에 대응하는 1 * 3 크기의 스트레스 벡터를 출력하면, 스트레스 벡터의 원소(x ₁, x ₂, x ₃) 각각을 수학식 θ _yi = cos ^-1(x) 에 대입하여 각도값으로 변환한다. 그리고 변환된 각도값(θ _yi) 중 학습 영상에 레이블된 스트레스 수준에 따른 타겟 스트레스(x _t)에 대해서만 기지정된 마진값(m)을 추가하여 타겟 변환 각도값(θ _yt)을 수학식 θ _yt = θ _yi + m와 같이 획득한다.

타겟 변환 각도값(θ _yt)이 획득되면, 학습부(600)는 수학식 1에 따라 크로스 엔트로피 손실(Cross-entropy loss)을 계산하고 계산된 크로스 엔트로피 손실을 스트레스 인식부(500)로 역전파하여 스트레스 인식부(500)를 학습시킨다.

도 1 내지 도 5를 참조하여, 본 실시예에 따른 얼굴 및 스트레스 인식 방법을 설명하면, 얼굴 및 스트레스 인식 대상이 되는 사람이 포함된 입력 영상을 획득한다(S10).

그리고 획득된 입력 영상에 대해 미리 학습된 패턴 추정 방식에 따라 영상에 포함된 사람의 얼굴 영역을 추출한다(S20). 이때, 얼굴 영역 추출은 단계적으로 연결된 다수의 인공 신경망을 이용하여, 얼굴 영역을 빠르고 정확하게 추출할 수 있다.

여기서 단계적으로 연결된 다수의 인공 신경망은 순차적으로 복잡한 구조를 가질 수 있으며, 각 인공 신경망은 CNN으로 구현되어 입력되는 영상의 각 영역을 얼굴 분류 벡터, 경계 박스 회귀 벡터 및 얼굴 랜드마크 위치 벡터로 분류하고, 경계 박스 회귀 벡터를 이용하여 얼굴 후보 영역의 위치를 조절한 후, NMS 알고리즘에 따라 서로 영역이 겹치는 얼굴 후보 영역들을 병합하여 얼굴 후보 영역의 수를 줄임으로써, 얼굴 영역을 획득할 수 있다.

입력 영상에서 얼굴 영역이 추출되면, 미리 학습된 패턴 추정 방식에 따라 추출된 얼굴 영역으로부터 얼굴 특징을 추출한다(S30). 여기서 얼굴 특징 또한 단계적으로 연결된 다수의 인공 신경망을 이용하여 추출할 수 있으며, 단계적으로 연결된 다수의 인공 신경망은 깊이별 분리 컨볼루션 기법에 따라 깊이별 컨볼루션을 수행하는 신경망과 포인트별 컨볼루션을 수행하는 신경망으로 구성될 수 있다. 이는 연산량을 줄여 신경망을 경량화하기 위해서이다. 또한 그룹 컨볼루션 기법을 추가로 적용하여 깊이별 컨볼루션으로 획득된 결과를 서로 혼합하고, 혼합된 결과에 대해 포인트별 컨볼루션을 수행하도록 구성될 수 있다. 이는 입력된 영상의 전체적인 특징이 얼굴 특징으로 추출될 수 있도록 하기 위함이다.

얼굴 특징이 추출되면, 추출된 얼굴 특징과 기저장된 적어도 하나의 사용자 각각의 얼굴 특징을 비교하여 매칭되는 얼굴 특징을 탐색하여 얼굴 인증을 수행한다(S40). 여기서 추출된 얼굴 특징은 기저장된 적어도 하나의 사용자 얼굴 특징 각각과의 코사인 유사도가 계산되고, 계산된 코사인 유사도가 기지정된 문턱값 이하이면, 동일한 사용자에 대한 얼굴 특징인 것으로 판별하여 매칭되는 것으로 판별할 수 있다. 그리고 기저장된 적어도 하나의 사용자 얼굴 특징 중 추출된 얼굴 특징에 매칭되는 사용자 얼굴 특징이 존재하면 얼굴 인증을 수행한다. 즉 입력 영상에 얼굴이 포함된 사람이 인증된 사용자임을 확인할 수 있다.

한편, 얼굴 특징이 추출되면, 미리 학습된 패턴 분류 방식에 따라 추출된 얼굴 특징을 분류하여 스트레스 벡터를 추출한다(S50). 그리고 추출된 스트레스 벡터를 분석하여 사용자의 스트레스 수준을 인식한다(S60).

그리고 얼굴 및 스트레스 인식 방법은 학습 시에 얼굴 인식 학습 단계(S70)와 스트레스 인식 학습 단계(S80)를 더 포함할 수 있다. 얼굴 인식 학습 단계(S70)에서는 사용자 식별자와 스트레스 수준이 레이블된 학습 영상을 입력 영상으로 획득하고, 학습 영상에서 추출된 얼굴 특징과 사용자 식별자에 대응하는 얼굴 특징 사이의 코사인 유사도를 계산하여 획득되는 오차를 역전파하여 얼굴 인식을 위한 학습을 수행할 수 있다. 여기서 얼굴 인식 학습은 오차가 기지정된 기준 오차 이하가 되거나 기지정된 횟수에 도달할 때까지 반복하여 수행될 수 있다.

그리고 스트레스 인식 학습 단계(S80)는 얼굴 인식 학습이 완료된 이후 수행된다. 스트레스 인식 학습 단계(S80)에서는 얼굴 특징을 기반으로 획득된 스트레스 벡터를 학습 영상에 레이블된 스트레스 수준과 비교하여 손실을 계산하고, 계산된 손실을 역전파하여 수행될 수 있다. 이때, 스트레스 벡터가 획득되면, 획득된 스트레스 벡터의 각 원소값을 기지정된 방식으로 각도 값으로 변환하고, 변환된 각도값 중 학습 영상에 레이블된 스트레스 수준에 따른 타겟 스트레스에 대해서만 기지정된 마진값을 추가하여 타겟 변환 각도값을 획득한 후, 타겟 변환 각도값에 대해 크로스 엔트로피 손실을 계산하여 역전파하여 학습을 수행할 수 있다.

본 발명에 따른 방법은 컴퓨터에서 실행시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

얼굴 및 스트레스를 인식하고자 하는 대상자의 얼굴이 포함된 입력 영상을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 입력 영상에서 얼굴 영역을 추출하는 얼굴 영역 추출부;

추출된 얼굴 영역을 인가받고, 미리 학습된 패턴 추정 방식에 따라 얼굴 특징을 추출하는 얼굴 특징 추출부;

추출된 얼굴 특징과 기저장된 적어도 하나의 사용자 얼굴 특징을 비교하여 매칭되는 얼굴 특징을 탐색하여 얼굴 인증을 수행하는 얼굴 인식부; 및

추출된 얼굴 특징을 미리 학습된 패턴 분류 방식에 따라 분류하여 스트레스 수준을 판별하는 스트레스 인식부를 포함하는 얼굴 및 스트레스 인식 장치.
제1 항에 있어서, 상기 얼굴 특징 추출부는

깊이별 분리 컨볼루션 기법에 따라 인가된 얼굴 영역의 각 채널별로 개별적 컨볼루션 연산을 하는 깊이별 컨볼루션을 수행하고, 이후 1 X 1 컨볼루션으로 해당 영역의 모든 채널을 가중합하는 포인트별 컨볼루션을 수행하는 단계적으로 연결된 다수의 인공 신경망을 포함하는 얼굴 및 스트레스 인식 장치.
제2 항에 있어서, 상기 얼굴 특징 추출부는

깊이별 컨볼루션이 수행된 결과를 서로 혼합하고, 혼합된 결과에 대해 포인트별 컨볼루션을 수행하는 얼굴 및 스트레스 인식 장치.
제1 항에 있어서, 상기 얼굴 인식부는

추출된 얼굴 특징과 기저장된 적어도 하나의 사용자 얼굴 특징 각각 사이의 코사인 유사도를 계산하고, 계산된 코사인 유사도가 기지정된 문턱값 이하이면, 코사인 유사도가 문턱값 이하인 얼굴 특징에 대응하는 사용자로 인증하는 얼굴 및 스트레스 인식 장치.
제4 항에 있어서, 상기 스트레스 인식부는

추출된 얼굴 특징을 미리 학습된 패턴 분류 방식에 따라 분류하여 스트레스 벡터를 획득하고, 획득된 스트레스 벡터의 원소값을 분석하여 스트레스 수준을 판별하는 얼굴 및 스트레스 인식 장치.
제5 항에 있어서, 상기 얼굴 및 스트레스 인식 장치는

학습 시에 사용자 식별자와 스트레스 수준이 레이블된 학습 영상을 획득하고, 상기 얼굴 인식부에서 계산되는 상기 학습 영상에서 추출된 얼굴 특징과 사용자 식별자에 대응하는 얼굴 특징 사이의 코사인 유사도를 오차로 획득하여, 오차를 역전파하여 상기 얼굴 영역 추출부와 상기 얼굴 특징 추출부를 학습시키는 학습부를 더 포함하는 얼굴 및 스트레스 인식 장치.
제6 항에 있어서, 상기 학습부는

상기 얼굴 영역 추출부와 상기 얼굴 특징 추출부가 학습된 이후, 학습된 상기 얼굴 특징 추출부에서 추출된 얼굴 특징으로부터 상기 스트레스 인식부가 획득한 스트레스 벡터를 인가받고, 인가된 스트레스 벡터의 각 원소값 중 상기 학습 영상에 레이블된 스트레스 수준에 대응하는 타겟 스트레스에 기지정된 마진값을 추가하여 타겟 변환 각도값을 획득하며, 획득된 타겟 변환 각도값에 대해 크로스 엔트로피 손실을 계산하여 역전파하여 상기 스트레스 인식부를 학습시키는 얼굴 및 스트레스 인식 장치.
제1 항에 있어서, 상기 얼굴 영역 추출부는

각각 패턴 추정 방식이 미리 학습되어 입력되는 영상의 각 영역을 얼굴 분류 벡터, 경계 박스 회귀 벡터 및 얼굴 랜드마크 위치 벡터로 분류하는 단계적으로 연결된 다수의 신경망을 포함하는 얼굴 및 스트레스 인식 장치.
제8 항에 있어서, 상기 다수의 신경망 각각은

경계 박스 회귀 벡터를 이용하여 얼굴 후보 영역의 위치를 조절한 후, NMS 알고리즘에 따라 서로 영역이 겹치는 얼굴 후보 영역들을 병합하여 얼굴 후보 영역의 수를 줄이는 얼굴 및 스트레스 인식 장치.
얼굴 및 스트레스를 인식하고자 하는 대상자의 얼굴이 포함된 입력 영상을 획득하는 단계;

미리 학습된 패턴 추정 방식에 따라 상기 입력 영상에서 얼굴 영역을 추출하는 단계;

추출된 얼굴 영역을 인가받고, 미리 학습된 패턴 추정 방식에 따라 얼굴 특징을 추출하는 단계;

추출된 얼굴 특징과 기저장된 적어도 하나의 사용자 얼굴 특징을 비교하여 매칭되는 얼굴 특징을 탐색하여 상기 대상자의 얼굴을 인증하는 단계; 및

추출된 얼굴 특징을 미리 학습된 패턴 분류 방식에 따라 분류하여 스트레스 수준을 인식하는 단계를 포함하는 얼굴 및 스트레스 인식 방법.
제10 항에 있어서, 상기 얼굴 특징을 추출하는 단계는

깊이별 분리 컨볼루션 기법에 따라 인가된 얼굴 영역의 각 채널별로 개별적 컨볼루션 연산을 하는 깊이별 컨볼루션을 수행하는 단계; 및

1 X 1 컨볼루션으로 해당 영역의 모든 채널을 가중합하는 포인트별 컨볼루션을 수행하는 단계를 포함하는 얼굴 및 스트레스 인식 방법.
제11 항에 있어서, 상기 얼굴 특징을 추출하는 단계는

상기 포인트별 컨볼루션을 수행하는 단계 이전, 깊이별 컨볼루션이 수행된 결과를 서로 혼합하는 단계를 더 포함하는 얼굴 및 스트레스 인식 방법.
제10 항에 있어서, 상기 얼굴을 인증하는 단계는

추출된 얼굴 특징과 기저장된 적어도 하나의 사용자 얼굴 특징 각각 사이의 코사인 유사도를 계산하는 단계; 및

계산된 코사인 유사도가 기지정된 문턱값 이하이면, 코사인 유사도가 문턱값 이하인 얼굴 특징에 대응하는 사용자로 인증하는 단계를 포함하는 얼굴 및 스트레스 인식 방법.
제13 항에 있어서, 상기 스트레스 수준을 인식하는 단계는

추출된 얼굴 특징을 미리 학습된 패턴 분류 방식에 따라 분류하여 스트레스 벡터를 획득하는 단계; 및

획득된 스트레스 벡터의 원소값을 분석하여 스트레스 수준을 판별하는 단계를 포함하는 얼굴 및 스트레스 인식 방법.
제14 항에 있어서, 상기 얼굴 및 스트레스 인식 방법은

학습 단계를 더 포함하고,

상기 학습 단계는

사용자 식별자와 스트레스 수준이 레이블된 학습 영상을 획득하는 단계; 및

상기 학습 영상에서 추출된 얼굴 특징과 사용자 식별자에 대응하는 얼굴 특징 사이의 코사인 유사도로 획득되는 오차를 역전파하는 단계를 포함하는 얼굴 및 스트레스 인식 방법.
제15 항에 있어서, 상기 학습 단계는

오차를 역전파하는 단계 이후,

상기 학습 영상에서 추출된 얼굴 특징으로부터 획득되는 스트레스 벡터의 각 원소값 중 상기 학습 영상에 레이블된 스트레스 수준에 대응하는 타겟 스트레스에 기지정된 마진값을 추가하여 타겟 변환 각도값을 획득하는 단계; 및

획득된 타겟 변환 각도값에 대해 크로스 엔트로피 손실을 계산하여 역전파하는 단계를 포함하는 얼굴 및 스트레스 인식 방법.