KR102261880B1 - 딥러닝 기반 비대면 안면 인식 서비스 제공 방법, 장치 및 시스템 - Google Patents

딥러닝 기반 비대면 안면 인식 서비스 제공 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR102261880B1
KR102261880B1 KR1020200049938A KR20200049938A KR102261880B1 KR 102261880 B1 KR102261880 B1 KR 102261880B1 KR 1020200049938 A KR1020200049938 A KR 1020200049938A KR 20200049938 A KR20200049938 A KR 20200049938A KR 102261880 B1 KR102261880 B1 KR 102261880B1
Authority
KR
South Korea
Prior art keywords
face
image frame
photographing device
tracking
detecting
Prior art date
Application number
KR1020200049938A
Other languages
English (en)
Inventor
김동기
Original Assignee
주식회사 핀텔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 핀텔 filed Critical 주식회사 핀텔
Priority to KR1020200049938A priority Critical patent/KR102261880B1/ko
Application granted granted Critical
Publication of KR102261880B1 publication Critical patent/KR102261880B1/ko

Links

Images

Classifications

    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06K9/3233
    • G06K9/481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

딥러닝 기반 비대면 안면 인식 서비스 제공 방법이 제공되며, 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 단계, 객체가 적어도 하나의 촬영 장치와 기 설정된 거리 내로 이동하는 경우, 객체의 얼굴을 검출하는 단계, 적어도 하나의 영상 프레임 내에서, 기 저장된 얼굴 데이터와 매칭된 얼굴 데이터의 검출 횟수에 기초하여 빈도순으로 정렬하는 단계, 객체의 얼굴 데이터와, 기 저장된 얼굴 데이터 간 특징벡터에 대한 코사인 유사도를 산출하고, 기 저장된 인공지능 알고리즘 내 다중 분류기로부터 투표(Voting)를 진행한 결과에 기반하여 점수를 부여하는 단계 및 빈도 및 점수에 기반하여 추출된 객체의 얼굴 데이터로 안면 인식을 수행하는 단계를 포함한다.

Description

딥러닝 기반 비대면 안면 인식 서비스 제공 방법, 장치 및 시스템{METHOD, APPRATUS AND SYSTEM FOR PROVIDING DEEP LEARNING BASED FACIAL RECOGNITION SERVICE}
본 발명은 딥러닝 기반 비대면 안면 인식 서비스 제공 방법에 관한 것으로, 사람의 인체를 얼굴이 인식가능한 위치로 이동할 때까지 추적한 후 얼굴이 인식되는 경우 전처리를 통하여 인식을 위한 이미지 셋을 제공할 수 있는 방법을 제공한다.
딥러닝은 신경망 네트워크로 많은 수의 계층을 만들어 학습하는 기계학습 분야이다. 신경망 네트워크 중 CNN의 특징 추출(Feature Extraction)은 컨볼루션 레이어와 풀링 레이어를 차례로 쌓은 형태로 되어있다. 컨볼루션 레이어는 필터와 같이 컨볼루션 연산을 통해 입력 영상을 변환하며, 풀링 레이어는 입력을 다운 샘플링하기 위해 적용되는 레이어로써 입력 값의 불필요한 정보를 없애고 압축하는 데 이용한다. 즉, 풀링 레이어는 이미지의 차원을 축소하는 역할을 한다. 컨볼루션 신경망인 CNN은 뇌의 시각 피질이 이미지를 처리하고 인식하는 원리를 이용한 신경망이다. 주로 영상 인식 분야에서 적용되며 여러 분야에서 탁월한 성능을 보여주고 있는 인공 신경망이며, CNN 기반 객체 탐지 알고리즘은, R-CNN(Region-CNN), SIFT(Scale Invariant Feature Transform), HOG(Histogram of Oriented Gradient) 등의 알고리즘을 포함하며 연구 및 개발되는 분야 중 하나이다.
이때, 다수의 객체를 추적하는 방법이 연구 및 개발되었는데, 이와 관련하여, 선행기술인 한국등록특허 제10-1926510호(2019년03월07일 공고)에는, 기 설정되는 관측 영역을 촬영하여 획득되는 영상을 출력하고, 영상 촬영부로부터의 영상으로부터 획득되는 프레임별 이미지에서 객체를 추출하고, 생성되는 객체 이미지 내 다수 객체를 추적하여 객체 추적 영상을 출력하고, 다수 객체 추적을 수행하면서 객체 간 겹침 현상 및 하이젝킹 현상이 발생하는지를 판단하고, 객체 간 겹침 현상과 하이젝킹 현상 중 적어도 하나의 현상이 발생한 것으로 판단하면, 발생한 현상을 제거하는 과정을 통해 보정된 객체 추적 영상을 출력하는 구성이 개시된다.
다만, 상술한 구성을 이용한다고 할지라도 안면을 감지, 추적 및 인식하는 일련의 과정에서 트랙렛(Tracklet)에 의해 부여되는 점수를 기반으로 유사도나 일치 여부를 확인하고, 영상 프레임 내에 추적하고자 하는 목표 객체 이외에도 다양한 피사체나 배경이 혼합된 환경적인 특성으로 인하여 결과에 오류가 발생하는 경우가 존재한다. 객체의 이미지 셋(Image Set)에 포함되지 않은 회전이나 각도가 감지되는 경우에는 동일한 객체임에도 불구하고 추적이 불가능해지는 문제점으로 회귀하게 된다. 이에, 각도 변화에 강건하면서도 컴퓨팅 및 네트워킹 자원의 소모가 적고 실시간으로 처리될 수 있는 플랫폼의 연구 및 개발이 요구되고 있다.
본 발명의 일 실시예는, 얼굴을 먼저 감지하는 대신 사람의 인체의 비율이나 너비를 이용하여 바디의 형태로 객체를 인식한 후, 카메라와 객체 간 기 설정된 거리 이하로 유지될 때까지 객체를 추적하고, 기 설정된 거리 내에서 객체가 인식되는 경우 얼굴을 인식하는 방법을 이용함으로써, 인식 실패나 오류율을 줄이면서도 상대적으로 분석이 빠른 바디를 먼저 인식하기 때문에 전체 프레임 분석에 비하여 보다 빠르고 정확하게 인식을 수행할 수 있으며, 적어도 하나의 촬영 장치에 할당되는 적어도 하나의 채널에서 인공지능 알고리즘을 사용할 때 공통으로 적용되는 딥러닝 인스턴스를 공유할 수 있도록 함으로써 컴퓨팅 자원 및 네트워킹 자원의 점유율을 줄일 수 있고, 다양한 각도의 얼굴 이미지 셋을 이용함으로써 인식률을 높이고, 얼굴 인식 전 전처리 과정으로 얼굴 정렬(Face Aliagnment)을 수행함으로써 비교의 정확도를 높일 수 있고, 다중채널인식을 이용하여 다양한 위치에서 객체를 인식할 때 중복인식을 제거할 수 있는, 딥러닝 기반 비대면 안면 인식 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 단계, 객체가 적어도 하나의 촬영 장치와 기 설정된 거리 내로 이동하는 경우, 객체의 얼굴을 검출하는 단계, 적어도 하나의 영상 프레임 내에서, 기 저장된 얼굴 데이터와 매칭된 얼굴 데이터의 검출 횟수에 기초하여 빈도순으로 정렬하는 단계, 객체의 얼굴 데이터와, 기 저장된 얼굴 데이터 간 특징벡터에 대한 코사인 유사도를 산출하고, 기 저장된 인공지능 알고리즘 내 다중 분류기로부터 투표(Voting)를 진행한 결과에 기반하여 점수를 부여하는 단계 및 빈도 및 점수에 기반하여 추출된 객체의 얼굴 데이터로 안면 인식을 수행하는 단계를 포함한다.
본 발명의 다른 실시예는, 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 바디감지부, 객체가 적어도 하나의 촬영 장치와 기 설정된 거리 내로 이동하는 경우, 객체의 얼굴을 검출하는 얼굴검출부, 적어도 하나의 영상 프레임 내에서, 기 저장된 얼굴 데이터와 매칭된 얼굴 데이터의 검출 횟수에 기초하여 빈도순으로 정렬하는 빈도정렬부, 객체의 얼굴 데이터와, 기 저장된 얼굴 데이터 간 특징벡터에 대한 코사인 유사도를 산출하고, 기 저장된 인공지능 알고리즘 내 다중 분류기로부터 투표(Voting)를 진행한 결과에 기반하여 점수를 부여하는 스코어링부, 및 빈도 및 점수에 기반하여 추출된 객체의 얼굴 데이터로 안면 인식을 수행하는 안면인식부를 포함한다.
본 발명의 또 다른 실시예는, 대향되는 위치의 피사체를 촬영하여 전송하는 적어도 하나의 촬영 장치, 및 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 바디감지부, 객체가 적어도 하나의 촬영 장치와 기 설정된 거리 내로 이동하는 경우, 객체의 얼굴을 검출하는 얼굴검출부, 적어도 하나의 영상 프레임 내에서, 기 저장된 얼굴 데이터와 매칭된 얼굴 데이터의 검출 횟수에 기초하여 빈도순으로 정렬하는 빈도정렬부, 객체의 얼굴 데이터와, 기 저장된 얼굴 데이터 간 특징벡터에 대한 코사인 유사도를 산출하고, 기 저장된 인공지능 알고리즘 내 다중 분류기로부터 투표(Voting)를 진행한 결과에 기반하여 점수를 부여하는 스코어링부, 및 빈도 및 점수에 기반하여 추출된 객체의 얼굴 데이터로 안면 인식을 수행하는 안면인식부를 포함하는 안면 인식 서비스 제공 서버를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 얼굴을 먼저 감지하는 대신 사람의 인체의 비율이나 너비를 이용하여 바디의 형태로 객체를 인식한 후, 카메라와 객체 간 기 설정된 거리 이하로 유지될 때까지 객체를 추적하고, 기 설정된 거리 내에서 객체가 인식되는 경우 얼굴을 인식하는 방법을 이용함으로써, 인식 실패나 오류율을 줄이면서도 상대적으로 분석이 빠른 바디를 먼저 인식하기 때문에 전체 프레임 분석에 비하여 보다 빠르고 정확하게 인식을 수행할 수 있으며, 적어도 하나의 촬영 장치에 할당되는 적어도 하나의 채널에서 인공지능 알고리즘을 사용할 때 공통으로 적용되는 딥러닝 인스턴스를 공유할 수 있도록 함으로써 컴퓨팅 자원 및 네트워킹 자원의 점유율을 줄일 수 있고, 다양한 각도의 얼굴 이미지 셋을 이용함으로써 인식률을 높이고, 얼굴 인식 전 전처리 과정으로 얼굴 정렬(Face Aliagnment)을 수행함으로써 비교의 정확도를 높일 수 있고, 다중채널인식을 이용하여 다양한 위치에서 객체를 인식할 때 중복인식을 제거할 수 있다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 기반 비대면 안면 인식 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 안면 인식 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 딥러닝 기반 비대면 안면 인식 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 딥러닝 기반 비대면 안면 인식 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.
본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 기반 비대면 안면 인식 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 딥러닝 기반 비대면 안면 인식 서비스 제공 시스템(1)은, 적어도 하나의 촬영 장치(100), 안면 인식 서비스 제공 서버(300) 및 적어도 하나의 관리자 단말(400)을 포함할 수 있다. 다만, 이러한 도 1의 딥러닝 기반 비대면 안면 인식 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 촬영 장치(100)는 네트워크(200)를 통하여 안면 인식 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 안면 인식 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 촬영 장치(100) 및 적어도 하나의 관리자 단말(400)과 연결될 수 있다. 또한, 적어도 하나의 관리자 단말(400)은, 네트워크(200)를 통하여 안면 인식 서비스 제공 서버(300)와 연결될 수 있다.
여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5th Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.
적어도 하나의 촬영 장치(100)는, 딥러닝 기반 비대면 안면 인식 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 기 설정된 범위의 영역을 촬영하고, 촬영된 영상 데이터를 실시간 또는 주기적으로 안면 인식 서비스 제공 서버(300)로 전송하는 장치일 수 있다.
여기서, 적어도 하나의 촬영 장치(100)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 촬영 장치(100)는, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 촬영 장치(100)는, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
안면 인식 서비스 제공 서버(300)는, 딥러닝 기반 비대면 안면 인식 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 안면 인식 서비스 제공 서버(300)는, 적어도 하나의 관리자 단말(400)에서 인식할 얼굴 데이터를 등록하는 경우, 적어도 하나의 촬영 장치(100)로부터 수집된 영상 데이터 내 영상 프레임을 분석하고, 영상 프레임 내 객체를 감지(Detection), 추적(Tracking) 및 인식(Recognition)하는 서버일 수 있다. 이를 위하여, 안면 인식 서비스 제공 서버(300)는, 적어도 하나의 인공지능 알고리즘을 모델링 및 저장할 수 있다. 또, 안면 인식 서비스 제공 서버(300)는, 적어도 하나의 관리자 단말(400)에서 객체의 바디 데이터를 전송하는 경우, 바디 데이터에 기반하여 적어도 하나의 촬영 장치(100)까지 객체가 근접할 때까지는 이를 감지 및 추적하는 서버일 수 있다. 물론, 안면 인식 서비스 제공 서버(300)는 바디 데이터가 존재하지 않더라도 동일 객체임을 바디의 형상이나 너비 또는 비율 등으로 식별할 수 있으므로 바디 데이터를 수집하는 것이 필수적인 조건은 아니다. 그리고, 안면 인식 서비스 제공 서버(300)는, 적어도 하나의 촬영 장치(100)에서 발생된 적어도 하나의 이벤트에 대한 정의를 싱크로나이저(Synchronizer)에서 수행하도록 함으로써 다중채널의 동기화를 수행하는 서버일 수 있다. 또한, 안면 인식 서비스 제공 서버(300)는, GPU의 과도한 사용을 방지하기 위하여, 기 저장된 인공지능 알고리즘 내 분석기에서 공통으로 사용되는 딥러닝 인스턴스를 공유하도록 설정하는 서버일 수 있다.
여기서, 안면 인식 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
적어도 하나의 관리자 단말(400)은, 딥러닝 기반 비대면 안면 인식 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하거나 이용하지 않고 객체의 얼굴 데이터를 안면 인식 서비스 제공 서버(300)로 업로드하는 단말일 수 있다. 그리고, 적어도 하나의 관리자 단말(400)은, 기 저장된 인공지능 알고리즘의 학습과정에서 지도에 참여하는 정도에 따라 오류를 교정하는 데이터를 안면 인식 서비스 제공 서버(300)로 입력하거나, 오류 리포트를 안면 인식 서비스 제공 서버(300)로부터 수신하여 출력하는 단말일 수 있다.
여기서, 적어도 하나의 관리자 단말(400)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 관리자 단말(400)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 관리자 단말(400)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
도 2는 도 1의 시스템에 포함된 안면 인식 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3 및 도 4는 본 발명의 일 실시예에 따른 딥러닝 기반 비대면 안면 인식 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 2를 참조하면, 안면 인식 서비스 제공 서버(300)는, 바디감지부(310), 얼굴검출부(320), 빈도정렬부(330), 스코어링부(340), 안면인식부(350), 데이터베이스화부(360), 얼굴정렬부(370), 다중채널 동기화부(380) 및 공유 설정부(390)를 포함할 수 있다.
본 발명의 일 실시예에 따른 안면 인식 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 촬영 장치(100) 및 적어도 하나의 관리자 단말(400)로 딥러닝 기반 비대면 안면 인식 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 촬영 장치(100) 및 적어도 하나의 관리자 단말(400)은, 딥러닝 기반 비대면 안면 인식 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 촬영 장치(100) 및 적어도 하나의 관리자 단말(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.
도 2를 설명하기 이전에, 본 발명의 일 실시예에서 사용되는 인공지능 알고리즘인 딥러닝 CNN(Convolutional Neural Network)과 이 기반으로 개발된 YOLO(You Only Look Once)에 대한 개념을 간단히 설명하기로 한다. 여기서 서술된 개념은 본 발명의 일 실시예를 설명하면서 중복하여 기재하지 않기로 한다.
영상에서 객체 인식을 하는 방법으로 최근에는 인공지능을 활용한 방식이 빈번하게 사용되고 있는데, 그 중 가장 폭넓게 활용하는 방식은 R-CNN 계열의 알고리즘을 들수 있다. 영역 기반의 합성곱을 활용한 방식으로 여러 개의 신경망이 연속적으로 이어져 있고, 각 신경망에 해당하는 가중치 값들이 존재한다. 이 가중치 값은 학습에 의하여 결정되고, 이렇게 결정된 값들은 객체 인식에 이용되는데, Fast R-CNN, Faster R-CNN, Mask R-CNN이 등이 존재한다. 첫 번째 Fast R-CNN은 단일 단계 학습을 통해 백본 네트워크(Backbone Network)를 확보할 수 있다. 3가지 방법 중에 유일하게 기 학습된 가중치를 사용하지 않고, Xavier 초기값을 사용할 수 있다. 단일 단계 학습을 할 수 있어 간단하게 인공지능 모델을 확보할 수 있는 장점이 있지만, 다수의 관심 영역(Region of Interest, ROI) 경계 상자(Boundary Box) 후보군을 생성하는데 시간이 소요된다는 단점이 있다. 이는 주로 긴 연산 시간을 갖는 선택적 검색(Selective Search) 알고리즘 수행에 기인한다.
이 점을 개선하기 위하여 Faster R-CNN에서는 새로운 방법을 제시했는데, 특히 관심 영역 경계 상자 후보군을 생성하는데, 새로운 심층 신경망을 사용한다. 즉, 기존의 알고리즘은 주로 CPU 자원을 활용한 연산을 사용하여 비교적 많은 연산 시간이 소요되었지만, 심층 신경망을 통한다면 GPU를 사용하기 때문에 연산 시간이 단축된다. 이 같은 심층 신경망은 관심 영역의 후보군을 제공하는 기능을 한다고 하여 영역 제안 네트워크(Region Proposal Network)라고 하는데, 백본 네트워크에 비해 상대적으로 적은 신경망 층을 가지고 있다. 이 신경망을 통해 객체 인식을 하는 필요한 하드웨어 자원의 대부분이 CPU에서 GPU로 이동할 수 있다. 다만, 이 같은 구조로 완성된 모델을 만들기 위해서는 여러 단계를 거친 학습 수행이 필요하다. Faster R-CNN은 백본 네트워크, 영역 제안 네트워크, 분류 네트워크(Classifier Network)로 구성되며 이 3 개의 심층 신경망을 학습하기 위해서는 여러 단계의 수행이 필요하므로 다중 단계 학습 기법으로 완성된 모델을 구하는데 시간이 연장될 수도 있다.
R-CNN 계열 방법의 마지막인 Mask R-CNN의 가장 큰 특징은 객체 인식의 분할(Segmentation)까지 가능하다는 점이다. 그 전까지 객체 인식은 영상 내에서 사각 박스를 통해 객체의 위치를 추정하고 그 종류를 구분하였지만, Mask R-CNN에서는 객체 인식 기술에 객체의 위치를 화소 단위로 구분할 수 있도록 심층 신경망을 설계한다. 이 심층 신경망의 역할은 각 화소가 객체에 해당되는 것인지 아닌지를 구분하는 것으로 바이너리 마스크(Binary Mask)라고 한다. 백본 네트워크로부터 얻은 특징 지도(Feature Map)에 바이너리 마스크를 씌워서 화소 단위로 구분을 짓는다. 다만, 일반적인 특징 지도의 크기는 원본 영상의 크기도 4분의 1일에서 16분의 1크기의 수준으로 작다. 이렇게 작아진 특징 지도에서 화소 단위로 객체 영역을 결정하더라도 원본 영상에서는 그 오차가 크게 나타난다. 이 같은 오차를 감소시키기 위하여 관심 영역 정렬(ROI Align)이라는 기법을 사용하는데, 이는 ROI 풀(Pool) 영역에서 생기는 소수점 오차를 2차 선형보간법으로 감소시키는 방법이다.
YOLO 중 YOLO-v3은, 하나의 합성곱 신경망이 동시에 여러 개의 경계 상자 (Bounding Box)를 예측하고, 각 경계 상자에 대하여 분류 확률(Class Probability)을 예측하는 알고리즘이다. 이때, 사용되는 합성곱 신경망은 특징 지도를 생성하는 용도로 활용되는데 알고리즘의 중추를 담당한다고 하여 백본 네트워크라고 부른다. 이 특징 지도는 여러 개의 그리드 셀(Grid Cell)로 구성되는데, 각 셀마다 스코어(Score) 방식을 적용하여 대상 객체의 종류와 위치를 동시에 결정하는 알고리즘이다. 이 알고리즘은 차량, 사람, 비행기, 동물 등을 포함하여 총 20가지 종류를 매 영상 프레임마다 인식하도록 구성된다. 이하에서는, 상술한 개념을 기반으로 본 발명의 일 실시예를 설명하기로 한다.
도 2를 참조하면, 바디감지부(310)는, 적어도 하나의 촬영 장치(100)로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적할 수 있다. 이때, 바디감지부(310)는, 영상 프레임 내 관심 영역(Region of Interest) 내 포함된 객체 중 기 설정된 픽셀 또는 기 설정된 크기보다 큰 객체를 감지 및 추적할 수 있다. 여기서, 기 설정된 픽셀은 감지(검지) 기준인 95 픽셀일 수 있고, 이 보다 크거나 같은 객체만을 추적하도록 설정될 수 있다. 이 기준은 검출된 얼굴이 인식에 충분할 수준에 맞게 선정된 것이나, 실시예에 따라 증감될 수 있음은 자명하다 할 것이다.
바디감지부(310)는, 객체를 추적하는 트랙렛(Tracklet)을 이용하여 시계열적으로 배열된 영상 프레임 내에서, 객체의 바디를 이루는 적어도 하나의 인체 부위별 비율에 기초하여 감지 및 추적할 수 있다. 영상 프레임에서 객체를 식별하는 과정은, 상술한 바와 같이 총 3 단계로 나뉘어진다. 첫 번째는 감지(Detection), 두 번째는 추적(Tracking), 그리고 마지막인 세 번째는 인식(Recogntion)이다. 이때, 영상 프레임은 시계열적으로 나열된 일련의 이미지이기 때문에, 시간 도메인을 축으로 각 이미지가 서로 연결되게 된다. 해당 이미지 내에서 객체를 검출하기 위해서는, 각 영상 프레임으로부터 객체를 검출하고, 객체의 이동 경로를 연결함으로써 객체에 대한 이동 경로를 나타내는 정보인 트랙렛(Tracklet)을 검출하고, 전체 영상 프레임 내에서 검출된 트랙렛을 연결함으로써 객체에 대한 추적 경로(Trajectory)를 생성하게 된다. 이때, 트랙렛이란, 기 설정된 구간, 다소 짧은 구간에서 객체의 이동 경로를 나타내는 검출 정보를 의미하는데, 임의의 구간 내의 시계열적인 영상 프레임 내에서 객체가 검출하면, 각 영상 프레임 내에서 검출된 객체가 동일 또는 유사한 경우, 동일 또는 유사한 객체를 연결시킴으로써 추출될 수 있다. 예를 들어, 제 1 영상 프레임, 제 2 영상 프레임, 제 3 영상 프레임이 존재하고, 세 개의 영상 프레임 내에서 A 객체 및 B 객체가 검출된 경우를 가정하면, 트랙렛은 제 1 영상 프레임 내 A 객체가 제 2 영상 프레임 내 A 객체와 유사 또는 동일한 경우, 제 1 영상 프레임의 A 객체와 제 2 영상 프레임 내 A 객체를 연결시키는 방식이다. 물론, B 도 마찬가지로 적용된다.
바디감지부(310)는, 객체를 추적하는 트랙렛(Tracklet)을 이용하여 시계열적으로 배열된 영상 프레임 내에서, 객체의 바디를 이루는 적어도 하나의 인체 부위별 비율에 기초하여 감지 및 추적할 때, 시계열적으로 배열된 제 1 영상 프레임에서 검출된 객체의 바디와, 제 2 영상 프레임에서 검출된 객체의 바디를 매칭하기 위하여, 유클라디안(Euclidean) 거리에 이분 매칭(Bipartite Matching) 알고리즘을 적용할 수 있다. 여기서, 바디감지부(310)는, 트랙렛이 기 설정된 영상 프레임의 수 동안 객체의 바디와 매칭이 되지 않는 경우, 트랙렛을 배제할 수 있다. 예를 들어, 기 설정된 영상 프레임은 10 영상 프레임일 수 있으나 이에 한정되지는 않는다.
얼굴검출부(320)는, 객체가 적어도 하나의 촬영 장치(100)와 기 설정된 거리 내로 이동하는 경우, 객체의 얼굴을 검출할 수 있다. 그 이유는, 고화질임에도 불구하고, 얼굴을 인식하고 추적하는 것은, 고개돌림, 아래보기 또는 너무 작은 얼굴 등으로 인하여 여전히 어렵다는 것에서부터 출발한다. 이에 따라, 얼굴보다 상대적으로 큰 몸(Body)의 형상을 추적함으로써, 얼굴이 카메라에서 식별가능한 또는 인식가능한 정도까지 커졌을 때, 즉 카메라 방향으로 걸어올 때까지를 추적하는 것이다. 예를 들어, 얼굴과 몸의 비율이 1:8이고, 몸통의 너비와 키의 비율이 1:3, 다리와 몸통의 비율이 1:1인 사람이 존재한다고 가정하자. 이렇게 되면, 해당 비율을 가진 사람을 식별할 수 있게 된다. 이때, 해당 비율이나 크기를 가진 사람(객체)이 적절한 거리 내로 진입할 때까지 추적한 후 얼굴을 인식하는 방법을 이용하는 것인데, 사람의 몸은 상대적으로 얼굴보다 매우 크기 때문에 인식에 실패할 확률이 매우 낮아지게 되며, 후보 얼굴의 상대적 좌표가 인식된 몸(바디)을 기반으로, 예를 들어, 몸의 상부면을 기준으로 파악하면, 상대적으로 작은 공간에서 전체 영상 프레임 분석에 비해 빠르고 정확하게 얼굴을 인식할 수 있다. 또, 이러한 방법을 사용할 경우, 프레임 스키핑(Skipping)의 영향을 최소화할 수 있다.
빈도정렬부(330)는, 적어도 하나의 영상 프레임 내에서, 기 저장된 얼굴 데이터와 매칭된 얼굴 데이터의 검출 횟수에 기초하여 빈도순으로 정렬할 수 있다. 빈도는 횟수나 주기 등으로 변경될 수도 있다.
스코어링부(340)는, 객체의 얼굴 데이터와, 기 저장된 얼굴 데이터 간 특징벡터에 대한 코사인 유사도를 산출하고, 기 저장된 인공지능 알고리즘 내 다중 분류기로부터 투표(Voting)를 진행한 결과에 기반하여 점수를 부여할 수 있다. 이때, 다중 분류기는, 상술한 CNN 기반 인공지능 알고리즘에서 입력값을 분류함으로써 결과값을 출력하기 위한 장치인데, 각 특징요소를 구분하는 분류기를 조합하거나 복수 또는 다중으로 구성하여 이용하기도 한다. 또, 복수개의 분류기를 조합할 대에는 작은 샘플을 기반으로 학습 분류기를 이용하거나, 복수의 판별식을 이용하는 함수 분류기를 이용하기도 한다. 예를 들어, k-최근접 이웃(K-Nearest Neighbor) 분류기는, 동일한 측정 벡터를 이용하여 입력 패턴을 동일하게 표현하지만, 분류기의 파라미터는 각기 다르게 적용함으로써 분류기의 계수를 서로 구분할 수 있다. 이와 같은 다중분류기는, 각 결과값을 투표방법(Voting method)을 거쳐서 최종 결과값을 출력하게 된다. 이는 각기 다른 분류기를 수행하는 시간 및 투표를 수행하는 시간이 오래 걸리는 반면에, 정확한 구분을 수행할 수 있다. 예를 들어, 입력 데이터(Input)가 입력되는 경우, 벡터화를 수행한 후, 제 1 분류기 내지 제 N 분류기는 입력 데이터를 인식 및 비교를 통하여 유사도에 기반한 점수를 산출할 수 있고, 이에 기반하여 최종적으로 투표를 통하여 결과값을 도출할 수 있다. 결과값이 기 저장된 A의 얼굴과 가장 유사한 프레임은, B 영상 프레임이라고 도출될 수도 있다. 즉, 점수를 도출하는 것이 외에도, 가장 유사한 영상 프레임을 고르는 방식으로 결과값의 형태가 달라질 수도 있다.
이때, 기 설정된 인공지능 알고리즘은, 심층 컨볼루션 신경망(Deep Convolutional Neural Network)일 수 있다. 심층 컨볼루션 신경망을 이용한 안면 인식(Face Verification)은 크게 세 가지 방식을 포함할 수 있는데, 첫 번째는, 멀티 클래스 분류(Multi-class Classification)을 이용하여 얼굴 데이터(Face Representation)를 학습하는 것이다 모델에서 추출한 얼굴 데이터는, 결합 베이지안 메트릭 학습(Joint Bayesian Metric Learning)이나, 서포트 벡터 머신(Support Vector Machine)과 같은 방법을 적용하여 두 입력 쌍 사이의 유사도를 측정할 수 있다. 두 번째 방법은, 인증(Identification) 모델과 식별(Verification) 모델을 조합하여 얼굴 이미지에 최적화된 모델을 만드는 것이다. 이 방법으로는 다른 경우보다 더 보편적인 얼굴 데이터(Face Representation)를 제공하지만, 이 모델들을 조합하여 안면 이미지에 적합하게 최적화하는 경우 인식률이 높아진다. 마지막 방법은 동일 인물의 포지티브 쌍(Positive Pair)와 다른 인물의 네거티브 쌍(Negative Pair)를 이용하여 안면 이미지에 대한 식별 모델을 훈련시키는 것이다. 이 모델은 입력된 두 이미지가 같은지 혹은 다른지를 결정하는 데에 사용되는 특징 데이터(Feature Representation)를 학습하며, 훈련 집합을 멀티 클래스(Multi-Class)로 분류할 필요가 없으므로 훈련 집단의 클래수 수에 대한 의존성을 띄지 않는다. 나열된 방법 이외에도 다양한 방법이 적용될 수 있으며 나열된 것들로 한정되지 않으며, 열거되지 않은 이유로 배제되지 않는다.
안면인식부(350)는, 빈도 및 점수에 기반하여 추출된 객체의 얼굴 데이터로 안면 인식을 수행할 수 있다. 결과적으로, 매칭된 얼굴이 가장 많이 인식되고(빈도), 가장 높은 점수를 받은(점수) 영상 프레임이 안면 인식의 이미지 셋으로 선정되게 되어, 안면 인식 과정에서 이용되게 된다.
데이터베이스화부(360)는, 바디감지부(310)에서 적어도 하나의 촬영 장치(100)로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하기 이전에, 추적하고자 하는 객체의 적어도 하나의 각도에서 촬영된 얼굴 데이터 및 객체의 바디를 이루는 적어도 하나의 인체 부위 간 비율을 저장할 수 있다. 이때, 얼굴 데이터는 정면을 포함하고, 정면을 기준으로 상하좌우 방향으로 기 설정된 각도만큼 적용된 상태에서 촬영된 이미지 셋(Image Set)일 수 있다. 예를 들어, 적어도 하나의 각도는 45도일 수 있으나 이에 한정되는 것은 아니다. 또, 이미지 셋을 구성하는 사진은 9 개일 수 있으나 역시 이에 한정되는 아님은 자명하다 할 것이다.
얼굴정렬부(370)는, 얼굴검출부(320)에서 객체가 적어도 하나의 촬영 장치(100)와 기 설정된 거리 내로 이동하는 경우, 객체의 얼굴을 검출한 후, 검출된 얼굴 내 포함된 인체 부위에 대응하는 적어도 하나의 랜드마크(Landmark)를 기준으로 얼굴 정렬(Face Alignment)을 수행할 수 있다. 이때, 적어도 하나의 랜드마크는, 두 개의 눈 양단에 대응하는 점 및 코의 중심부와 인중이 만나는 점을 포함할 수 있다. 그리고, 얼굴정렬부(370)는, 검출된 얼굴 내 포함된 인체 부위에 대응하는 적어도 하나의 랜드마크(Landmark)를 기준으로 얼굴 정렬(Face Alignment)을 수행할 때, 첫 번째로 두 개의 눈 양단에 대응하는 점이 동일한 가로축 상에 위치하도록 얼굴을 회전할 수 있다. 그 다음 두 번째로, 얼굴정렬부(370)는, 두 개의 눈과 코 사이의 거리가 기 설정된 제 1 픽셀이 되도록 크기를 조절할 수 있다. 마지막으로, 얼굴정렬부(370)는, 두 개의 눈을 기준으로 상부면과, 코를 기준으로 하부면을 잘라내고, 코를 기준으로 좌우 각각 기 설정된 제 2 픽셀이 되도록, 나머지를 제거할 수 있다. 결과적으로, 눈과 코를 제외한 얼굴의 상단부 및 하단부는 잘라진 채로 안면 인식이 행해진다. 이때, 제 1 픽셀의 크기는 예를 들어, 48 픽셀(Pixel)이고, 상부면과 하부면을 잘라낼 때, 눈 위와 코 아래로 40 픽셀 거리의 영역만 남기고 잘라내진다. 또, 제 2 픽셀은 예를 들어, 64 픽셀이고, 최종적으로 128x128 크기의 이미지로 잘린다.
다중채널 동기화부(380)는, 바디감지부(310)에서 적어도 하나의 촬영 장치(100)로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하기 이전에, 적어도 하나의 촬영 장치(100)에서 발생한 적어도 하나의 이벤트를 수집할 수 있다. 이때, 다중채널 동기화부(380)는, 수집된 적어도 하나의 이벤트가 영상 프레임 내 객체가 기 설정된 방향으로 이동하고, 기 설정된 계수선(Counting Line)을 지나가는 이벤트인 계수(Count) 이벤트이면, 데이터베이스에 저장되거나 메인메모리와 비교되기 이전에, 싱크로나이저(Synchronizer)를 이용하여 적어도 하나의 이벤트의 종류를 정의하는 다중채널 동기화를 수행할 수 있다. 다중채널 동기화를 통하여, 단 한 번만 사람 수를 세고 데이터베이스에 저장하는 것이 가능해진다. 각 채널은 특정 지역을 감시하는 감시 카메라, 즉 촬영 장치(100)인데, 각 채널에서 검출된 정보는 안면 인식 서비스 제공 서버(300)의 메인 메모리에 일정시간 보유한다. 계수 이벤트가 발생하면, 싱크로나이저가 보유 정보와 비교하여 이벤트의 종류를 데이터베이스에 저장하기 전에, 정의한다. 정보 보유를 통하여 얻는 이득은, 예를 들어, 검출 리스트 확인을 통하여 다단계 인식 및 신뢰도 상승, 다양한 위치에서 사람 인식의 가능성 상승, 겹쳐서 인식될 경우 재평가를 통하여 오인식률 감소 및 다른 위치 또는 같은 장소에 후보가 여러 번 보임으로 인하여 발생하는 중복 인식 제거 등일 수 있으나, 나열된 효과를 한정되지는 않는다.
공유설정부(390)는, 바디감지부(310)에서 적어도 하나의 촬영 장치(100)로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하기 이전에, 적어도 하나의 촬영 장치(100)에 할당되고, 적어도 하나의 채널에서 사용하는 적어도 하나의 분석기의 공통의 딥러닝 인스턴스를 추출하고, 공통의 딥러닝 인스턴스가 적어도 하나의 분석기에서 공유되도록 설정하여 GPU 메모리 수요를 최소화할 수 있다. 여기서, 적어도 하나의 촬영 장치(100)는 적어도 하나의 채널을 할당받아 이용하고, 각 채널마다 상술한 분류기가 할당되는 것이 일반적이나, 이렇게 할당되는 경우GPU 이용률, 즉 수요량이 급증하게 되고, 컴퓨팅 자원은 한정적인데 급증된 수요를 맞추려면 시간이 느려질 수 밖에 없다. 따라서, 딥러닝에서 공통된 인스턴스(Instance), 즉 클래스 구조로 할당된 실체를 각 분류기가 공유하는 경우 다중채널에서 GPU 수요량이 낮아질 수 있다.
이하, 상술한 도 2의 안면 인식 서비스 제공 서버의 구성에 따른 동작 과정을 도 3 및 도 4를 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.
도 3을 참조하면, (a) 본 발명의 일 실시예는, 사람의 몸(Body)을 먼저 감지하고, 그 후에 기 설정된 크기로 얼굴이 인식되는 경우, 즉 사람이 카메라까지 걸어올 때까지 바디를 추적한 후, 그 다음에 얼굴을 감지, 추적 및 인식하는 방법을 이용할 수 있다. 종래기술은, 검지된 얼굴 중 가장 높은 점수를 사용하지만, 환경의 복잡성에 기인하거나 고개 회전으로 추적이 실패하는 경우가 많았다. 또, 비교를 위한 특징 추출에 적합하지 않았기 때문에, 본 발명의 일 실시예에서는, 등록된 사람을 실시간으로 인식하는데, 하나는 바디를, 다른 하나는 얼굴을 인식하는 것을 큰 축으로 한다.
(b) 사람을 검지 및 추적하는 방법, 즉 바디를 추적하는 방법에 관한 것이다. 시계열적인 영상 프레임 내에서 A는 좌측 상단으로부터 중앙 하단으로, B는 우측 상단으로부터 중앙 하단으로 이동하는 것을 알 수 있는데, A는 좌측 상단에서 중앙 하단으로 내려오고 있는 중이므로, 우측 하단 방향인 것을 예측할 수 있다. 또, B는 우측 상단에서 중앙 하단으로 내려오고 있는 중이므로, 이러한 동선을 파악하면, B는 좌측 하단 방향으로 오고 있으며 현재 시점 이후에는 더 좌측 하단 방향으로 이동할 것이 예상된다. 이렇게 예측을 한 예측 포지션과, 실제로 검출된 실제 포지션을 비교하면 그 다음 경로를 또 예측할 수 있게 되고 이러한 방식으로 추적(Trackin)이 이루어진다.
이때, 상술한 바와 같이 YOLO-v3을 이용하여, 관심 영역 내의 사람을 감지하지만, 일반적으로 관심 영역 내에는 다수의 사람이 존재할 수 있다. 추적 연산의 양을 줄이기 위해서는, 플랫폼 상에서 검지기준인 95 픽셀보다 크거나 같은 객체만 추적하도록 한다. 사람을 추적할 때, 상술한 트랙렛은 사람의 수에 대응하게 설정된다. 사람이 6 명이라면, 트랙렛도 6 개가 된다. 이동하는 사람의 경우, 바디를 기준으로 설정하고, 추적중인 사람의 현재 영상 프레임의 바디와, 다음 영상 프레임에서의 바디 간의 매칭률에 따라 트랙렛의 방향이 달라지게 된다. 유사도는 유클라이디안 거리를 이용할 수 있지만 이에 한정되는 것은 아니다.
(c) 얼굴을 인식할 때에는 크게 세 가지 단계를 거치게 된다. 첫 번째는 얼굴 정렬(줄맞춤), 두 번째는 얼굴 인식, 세 번째는 검출이다. 첫 번째 과정은 (c)에 도시되는데, 두 눈 양측의 점에 1 개씩 총 4개의 점과, 코 중심 부분과 인중 사이의 경계선에 1 개의 점, 총 5 개의 얼굴 랜드마크를 기준으로 얼굴을 줄맞춤하게 된다. 두 눈이 동일한 가로선에 위치하도록 얼굴을 회전시키고, 두 눈의 위치와 코 사이의 거리가 48 픽셀이 되도록 사진 크기를 조정하며, 마지막으로 눈 위와 코 아래로 40 픽셀 거리만 남기고 잘라내면 (c)의 하단 우측 이미지와 같은 얼굴 데이터가 얻어진다.
도 4의 (a)는 얼굴 인식 과정에서 이용될 얼굴 이미지 셋이다. 인식 과정에서는 후보 얼굴과 등록된 얼굴 세트를 매칭시키는 방향으로 진행된다. 실제적으로는 특정 각도에서 등록된 얼굴과 다른 각도로 검출된 후보 얼굴이 비교되는데, 이런 경우 허위양성 또는 허위음성의 오류가 발생할 수 있다. 다라서, 사람의 얼굴을 등록할 때 3x3 배열로 총 9 개의 얼굴을 등록하여 같은 각도의 얼굴을 비교할 확률을 높일 수 있다. 이를 통하여, 인식 과정은 인식률에 종속된다. (a)는 9 개의 등록 얼굴을 보여준다. 가운데 얼굴은 0 도의 각도로 정면에 얼굴면과 직각 위치에 있는 카메라로 촬영되었으며, 다른 사진의 경우 정면 45도의 각도로 상, 하, 좌, 우 그리고 대각선 방향으로 촬영되었다. 각 사진은 도 3의 (d)와 같은 과정을 거쳐 수정된 뒤 저장된다.
세 번째 단계는 검출 단계인데, 각 트랙렛은 상술한 바와 같이, 움직이는 사람의 정보를 포함하고 있고, 각 트랙렛 후보에 관한 유용한 정보를 분석할 수 있다. 추적중에 각 트랙렛에서 얼굴 이미지 셋을 추출하여 인식 과정에 넘겨줄 수 있고, 얼굴은 평가되어 가장 확률이 높은 얼굴이 투표 시스템을 통하여 뽑히게 된다. 각 얼굴은 매칭 방식을 통하여 인식될 수 있다. 각 얼굴은 등록 과정과 같은 방법으로 전처리(줄맞춤)될 수 있고, SeqFace를 이용하여 각 얼굴의 특징점을 512-D 벡터 형태로 추출한다. 이후, 매칭 단계에서 후보 얼굴들은 등록된 얼굴과 벡터의 코사인 유사도를 계산 후 비교하여 후보와 제일 높은 점수를 갖는, 즉 부합하는(Matched) 얼굴이 선택된다.
다만, 후보의 얼굴 크기, 환경조건 및 각도에 따라 매칭 과정에서 의도치 않은 결과를 낼 수도 있다. 따라서, 투표자(Voter)에게 점수와 발생 빈도를 기반으로 모든 부합하는(Matched) 얼굴을 평가하도록 설계할 수 있다. 첫 째로, 각 부합하는 얼굴의 발생횟수를 카운트하여 빈도순으로 정리한다. 두 번째로, 코사인 유사도 점수가 가장 높은 얼굴이 가장 부합하는(Matched) 얼굴이 되도록 한다. 만일, 발생빈도가 가장 높은 얼굴이 2 개 이상일 경우, 코사인 유사도 점수에 기반하여 가장 부합하는 얼굴을 결정한다. 결론적으로, 최종 결과는, 가장 많이 검출된 얼굴과, 가장 높은 점수로 결정된다.
(b)는 다중채널 동기화의 개념을 도시한 도면이다. 각 감시 범위에서 사람의 얼굴이 특정 방향으로 계수선을 지나갈 때에만 사람을 고려할 수 있다. 지나가는 이벤트의 정의는, 계수선과 정면 얼굴 경계 상자(Bounding Box) 간 상호 유무로 정해진다. 다중채널 동기화를 통하여 본 발명의 일 실시예에 따른 플랫폼에서는, 단 한 번만 사람의 수를 세고, 데이터베이스에서 저장하는 것이 가능해진다. 각 채널은 특정 영역을 감시하는 감시 카메라로, 각 채널에서 검출한 정보는 메인 메모리에서 일정 시간 동안 보유한다. 계수 이벤트가 발생하면, (b)와 같이 싱크로나이저가 보유 정보와 비교하여 이벤트의 종류를 데이터베이스에 저장하기 전, 정의한다. 정보보유를 통하여 얻는 이득은 상술한 바와 같다.
이와 같은 도 2 내지 도 4의 딥러닝 기반 비대면 안면 인식 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 딥러닝 기반 비대면 안면 인식 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5는 본 발명의 일 실시예에 따른 도 1의 딥러닝 기반 비대면 안면 인식 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 5를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 5에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.
도 5를 참조하면, 안면 인식 서비스 제공 서버는, 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하고(S5100), 객체가 적어도 하나의 촬영 장치와 기 설정된 거리 내로 이동하는 경우, 객체의 얼굴을 검출한다(S5200).
또, 안면 인식 서비스 제공 서버는, 적어도 하나의 영상 프레임 내에서, 기 저장된 얼굴 데이터와 매칭된 얼굴 데이터의 검출 횟수에 기초하여 빈도순으로 정렬하고(S5300), 객체의 얼굴 데이터와, 기 저장된 얼굴 데이터 간 특징벡터에 대한 코사인 유사도를 산출하고, 기 저장된 인공지능 알고리즘 내 다중 분류기로부터 투표(Voting)를 진행한 결과에 기반하여 점수를 부여한다(S5400).
마지막으로, 안면 인식 서비스 제공 서버는, 빈도 및 점수에 기반하여 추출된 객체의 얼굴 데이터로 안면 인식을 수행한다(S5500).
상술한 단계들(S5100~S5400)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S5100~S5400)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.
이와 같은 도 5의 딥러닝 기반 비대면 안면 인식 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 딥러닝 기반 비대면 안면 인식 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5를 통해 설명된 일 실시예에 따른 딥러닝 기반 비대면 안면 인식 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 일 실시예에 따른 딥러닝 기반 비대면 안면 인식 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 딥러닝 기반 비대면 안면 인식 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (12)

  1. 안면 인식 서비스 제공 서버에서 실행되는 안면 인식 서비스 제공 방법에 있어서,
    적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 단계;
    상기 객체가 상기 적어도 하나의 촬영 장치와 기 설정된 거리 내로 이동하는 경우, 상기 객체의 얼굴을 검출하는 단계;
    상기 적어도 하나의 영상 프레임 내에서, 기 저장된 얼굴 데이터와 매칭된 얼굴 데이터의 검출 횟수에 기초하여 빈도순으로 정렬하는 단계;
    상기 객체의 얼굴 데이터와, 기 저장된 얼굴 데이터 간 특징벡터에 대한 코사인 유사도를 산출하고, 기 저장된 인공지능 알고리즘 내 다중 분류기로부터 투표(Voting)를 진행한 결과에 기반하여 점수를 부여하는 단계;
    상기 빈도 및 점수에 기반하여 추출된 상기 객체의 얼굴 데이터로 안면 인식을 수행하는 단계;
    를 포함하고,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 단계에서, 상기 영상 프레임 내 관심 영역(Region of Interest) 내 포함된 객체 중 기 설정된 픽셀 또는 기 설정된 크기보다 큰 객체를 감지 및 추적하는 단계를 포함하고,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 단계 이전에, 추적하고자 하는 객체의 적어도 하나의 각도에서 촬영된 얼굴 데이터 및 상기 객체의 바디를 이루는 적어도 하나의 인체 부위 간 비율을 저장하는 단계를 더 포함하고,
    상기 얼굴 데이터는 정면을 포함하고, 상기 정면을 기준으로 상하좌우 방향으로 기 설정된 각도만큼 적용된 상태에서 촬영된 이미지 셋(Image Set)이고,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 단계는, 상기 객체를 추적하는 트랙렛(Tracklet)을 이용하여 시계열적으로 배열된 영상 프레임 내에서, 상기 객체의 바디를 이루는 적어도 하나의 인체 부위별 비율에 기초하여 감지 및 추적하는 단계를 포함하는 것인, 딥러닝 기반 비대면 안면 인식 서비스 제공 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서,
    상기 객체를 추적하는 트랙렛(Tracklet)을 이용하여 시계열적으로 배열된 영상 프레임 내에서, 상기 객체의 바디를 이루는 적어도 하나의 인체 부위별 비율에 기초하여 감지 및 추적하는 단계는,
    상기 시계열적으로 배열된 제 1 영상 프레임에서 검출된 객체의 바디와, 제 2 영상 프레임에서 검출된 객체의 바디를 매칭하기 위하여, 유클라디안(Euclidean) 거리에 이분 매칭(Bipartite Matching) 알고리즘을 적용하는 단계;
    상기 트랙렛이 기 설정된 영상 프레임의 수 동안 상기 객체의 바디와 매칭이 되지 않는 경우, 상기 트랙렛을 배제하는 단계;
    를 수행함으로써 실행되는 것인, 딥러닝 기반 비대면 안면 인식 서비스 제공 방법.
  6. 제 1 항에 있어서,
    상기 기 설정된 인공지능 알고리즘은, 심층 컨볼루션 신경망(Deep Convolutional Neural Network)인 것인, 딥러닝 기반 비대면 안면 인식 서비스 제공 방법.
  7. 제 1 항에 있어서,
    상기 객체가 상기 적어도 하나의 촬영 장치와 기 설정된 거리 내로 이동하는 경우, 상기 객체의 얼굴을 검출하는 단계 이후에,
    상기 검출된 얼굴 내 포함된 인체 부위에 대응하는 적어도 하나의 랜드마크(Landmark)를 기준으로 얼굴 정렬(Face Alignment)을 수행하는 단계;
    를 더 포함하는 것인, 딥러닝 기반 비대면 안면 인식 서비스 제공 방법.
  8. 제 7 항에 있어서,
    상기 적어도 하나의 랜드마크는, 두 개의 눈 양단에 대응하는 점 및 코의 중심부와 인중이 만나는 점을 포함하고,
    상기 검출된 얼굴 내 포함된 인체 부위에 대응하는 적어도 하나의 랜드마크(Landmark)를 기준으로 얼굴 정렬(Face Alignment)을 수행하는 단계는,
    상기 두 개의 눈 양단에 대응하는 점이 동일한 가로축 상에 위치하도록 얼굴을 회전하는 단계;
    상기 두 개의 눈과 코 사이의 거리가 기 설정된 제 1 픽셀이 되도록 크기를 조절하는 단계; 및
    상기 두 개의 눈을 기준으로 상부면과, 상기 코를 기준으로 하부면을 잘라내고, 상기 코를 기준으로 좌우 각각 기 설정된 제 2 픽셀이 되도록, 나머지를 제거하는 단계;
    를 포함하는 것인, 딥러닝 기반 비대면 안면 인식 서비스 제공 방법.
  9. 제 1 항에 있어서,
    상기 적어도 하나의 촬영 장치는 적어도 하나의 채널을 할당받아 이용하고,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 단계 이전에,
    상기 적어도 하나의 촬영 장치에서 발생한 적어도 하나의 이벤트를 수집하는 단계;
    상기 수집된 적어도 하나의 이벤트가 상기 영상 프레임 내 객체가 기 설정된 방향으로 이동하고, 기 설정된 계수선(Counting Line)을 지나가는 이벤트인 계수(Count) 이벤트이면, 데이터베이스에 저장되거나 메인메모리와 비교되기 이전에, 싱크로나이저(Synchronizer)를 이용하여 상기 적어도 하나의 이벤트의 종류를 정의하는 다중채널 동기화를 수행하는 단계;
    를 더 포함하는 것인, 딥러닝 기반 비대면 안면 인식 서비스 제공 방법.
  10. 제 1 항에 있어서,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 단계 이전에,
    상기 적어도 하나의 촬영 장치에 할당되고, 적어도 하나의 채널에서 사용하는 적어도 하나의 분석기의 공통의 딥러닝 인스턴스를 추출하는 단계;
    상기 공통의 딥러닝 인스턴스가 상기 적어도 하나의 분석기에서 공유되도록 설정하여 GPU 메모리 수요를 최소화하는 단계;
    를 더 포함하는 것인, 딥러닝 기반 비대면 안면 인식 서비스 제공 방법.
  11. 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 바디감지부;
    상기 객체가 상기 적어도 하나의 촬영 장치와 기 설정된 거리 내로 이동하는 경우, 상기 객체의 얼굴을 검출하는 얼굴검출부;
    상기 적어도 하나의 영상 프레임 내에서, 기 저장된 얼굴 데이터와 매칭된 얼굴 데이터의 검출 횟수에 기초하여 빈도순으로 정렬하는 빈도정렬부;
    상기 객체의 얼굴 데이터와, 기 저장된 얼굴 데이터 간 특징벡터에 대한 코사인 유사도를 산출하고, 기 저장된 인공지능 알고리즘 내 다중 분류기로부터 투표(Voting)를 진행한 결과에 기반하여 점수를 부여하는 스코어링부;
    상기 빈도 및 점수에 기반하여 추출된 상기 객체의 얼굴 데이터로 안면 인식을 수행하는 안면인식부;
    를 포함하고,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적할 때, 상기 영상 프레임 내 관심 영역(Region of Interest) 내 포함된 객체 중 기 설정된 픽셀 또는 기 설정된 크기보다 큰 객체를 감지 및 추적하고,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하기 이전에, 추적하고자 하는 객체의 적어도 하나의 각도에서 촬영된 얼굴 데이터 및 상기 객체의 바디를 이루는 적어도 하나의 인체 부위 간 비율을 저장하고,
    상기 얼굴 데이터는 정면을 포함하고, 상기 정면을 기준으로 상하좌우 방향으로 기 설정된 각도만큼 적용된 상태에서 촬영된 이미지 셋(Image Set)이고,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적할 때 상기 객체를 추적하는 트랙렛(Tracklet)을 이용하여 시계열적으로 배열된 영상 프레임 내에서, 상기 객체의 바디를 이루는 적어도 하나의 인체 부위별 비율에 기초하여 감지 및 추적하는 것인, 딥러닝 기반 비대면 안면 인식 서비스 제공 장치.
  12. 대향되는 위치의 피사체를 촬영하여 전송하는 적어도 하나의 촬영 장치; 및
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하는 바디감지부, 상기 객체가 상기 적어도 하나의 촬영 장치와 기 설정된 거리 내로 이동하는 경우, 상기 객체의 얼굴을 검출하는 얼굴검출부, 상기 적어도 하나의 영상 프레임 내에서, 기 저장된 얼굴 데이터와 매칭된 얼굴 데이터의 검출 횟수에 기초하여 빈도순으로 정렬하는 빈도정렬부, 상기 객체의 얼굴 데이터와, 기 저장된 얼굴 데이터 간 특징벡터에 대한 코사인 유사도를 산출하고, 기 저장된 인공지능 알고리즘 내 다중 분류기로부터 투표(Voting)를 진행한 결과에 기반하여 점수를 부여하는 스코어링부, 및 상기 빈도 및 점수에 기반하여 추출된 상기 객체의 얼굴 데이터로 안면 인식을 수행하는 안면인식부를 포함하는 안면 인식 서비스 제공 서버;
    를 포함하고,
    상기 안면 인식 서비스 제공 서버는,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적할 때, 상기 영상 프레임 내 관심 영역(Region of Interest) 내 포함된 객체 중 기 설정된 픽셀 또는 기 설정된 크기보다 큰 객체를 감지 및 추적하고,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적하기 이전에, 추적하고자 하는 객체의 적어도 하나의 각도에서 촬영된 얼굴 데이터 및 상기 객체의 바디를 이루는 적어도 하나의 인체 부위 간 비율을 저장하고,
    상기 적어도 하나의 촬영 장치로부터 수집된 영상 프레임 내에 포함된 객체의 바디(Body)를 감지 및 추적할 때 상기 객체를 추적하는 트랙렛(Tracklet)을 이용하여 시계열적으로 배열된 영상 프레임 내에서, 상기 객체의 바디를 이루는 적어도 하나의 인체 부위별 비율에 기초하여 감지 및 추적하고,
    상기 얼굴 데이터는 정면을 포함하고, 상기 정면을 기준으로 상하좌우 방향으로 기 설정된 각도만큼 적용된 상태에서 촬영된 이미지 셋(Image Set)인 것인, 딥러닝 기반 비대면 안면 인식 서비스 제공 시스템.
KR1020200049938A 2020-04-24 2020-04-24 딥러닝 기반 비대면 안면 인식 서비스 제공 방법, 장치 및 시스템 KR102261880B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200049938A KR102261880B1 (ko) 2020-04-24 2020-04-24 딥러닝 기반 비대면 안면 인식 서비스 제공 방법, 장치 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200049938A KR102261880B1 (ko) 2020-04-24 2020-04-24 딥러닝 기반 비대면 안면 인식 서비스 제공 방법, 장치 및 시스템

Publications (1)

Publication Number Publication Date
KR102261880B1 true KR102261880B1 (ko) 2021-06-08

Family

ID=76399342

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200049938A KR102261880B1 (ko) 2020-04-24 2020-04-24 딥러닝 기반 비대면 안면 인식 서비스 제공 방법, 장치 및 시스템

Country Status (1)

Country Link
KR (1) KR102261880B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344132A (zh) * 2021-06-30 2021-09-03 成都商汤科技有限公司 身份识别方法、***、装置、计算机设备及存储介质
CN113570576A (zh) * 2021-07-28 2021-10-29 成都云芯医联科技有限公司 一种通过血小板计数方法评估肝硬化指数检测的方法
CN115860995A (zh) * 2022-12-09 2023-03-28 广州沐思信息科技有限公司 基于云计算的智能培训监督方法及***
KR102614756B1 (ko) 2023-07-10 2023-12-15 주식회사 바론시스템 폐쇄 공간에서 다양한 보급형 영상 기기를 통한 딥러닝얼굴 인식 시스템 및 이의 실행 방법
KR20230168845A (ko) 2022-06-08 2023-12-15 이미진 안경구독서비스장치 및 그 장치의 구동방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063621A (ko) * 2004-12-07 2006-06-12 한국전자통신연구원 사용자 인식 시스템 및 그 방법
KR20160088224A (ko) * 2015-01-15 2016-07-25 삼성전자주식회사 객체 인식 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063621A (ko) * 2004-12-07 2006-06-12 한국전자통신연구원 사용자 인식 시스템 및 그 방법
KR20160088224A (ko) * 2015-01-15 2016-07-25 삼성전자주식회사 객체 인식 방법 및 장치

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344132A (zh) * 2021-06-30 2021-09-03 成都商汤科技有限公司 身份识别方法、***、装置、计算机设备及存储介质
CN113570576A (zh) * 2021-07-28 2021-10-29 成都云芯医联科技有限公司 一种通过血小板计数方法评估肝硬化指数检测的方法
CN113570576B (zh) * 2021-07-28 2024-03-12 成都云芯医联科技有限公司 一种通过血小板计数方法评估肝硬化指数检测的方法
KR20230168845A (ko) 2022-06-08 2023-12-15 이미진 안경구독서비스장치 및 그 장치의 구동방법
CN115860995A (zh) * 2022-12-09 2023-03-28 广州沐思信息科技有限公司 基于云计算的智能培训监督方法及***
CN115860995B (zh) * 2022-12-09 2024-02-06 广州兴趣岛信息科技有限公司 基于云计算的智能培训监督方法及***
KR102614756B1 (ko) 2023-07-10 2023-12-15 주식회사 바론시스템 폐쇄 공간에서 다양한 보급형 영상 기기를 통한 딥러닝얼굴 인식 시스템 및 이의 실행 방법

Similar Documents

Publication Publication Date Title
KR102261880B1 (ko) 딥러닝 기반 비대면 안면 인식 서비스 제공 방법, 장치 및 시스템
US11062123B2 (en) Method, terminal, and storage medium for tracking facial critical area
Khan et al. Deep unified model for face recognition based on convolution neural network and edge computing
Li et al. Pose recognition with cascade transformers
CN108470332B (zh) 一种多目标跟踪方法及装置
Li et al. Simultaneously detecting and counting dense vehicles from drone images
US10140508B2 (en) Method and apparatus for annotating a video stream comprising a sequence of frames
WO2021139324A1 (zh) 图像识别方法、装置、计算机可读存储介质及电子设备
Zhou et al. Robust vehicle detection in aerial images using bag-of-words and orientation aware scanning
Cohen et al. Rapid building detection using machine learning
Wang et al. A coupled encoder–decoder network for joint face detection and landmark localization
Ye et al. Scene text detection via integrated discrimination of component appearance and consensus
Luotamo et al. Multiscale cloud detection in remote sensing images using a dual convolutional neural network
CN110263731B (zh) 一种单步人脸检测***
CN113706481A (zh) ***质量检测方法、装置、计算机设备和存储介质
CN113780145A (zh) ***形态检测方法、装置、计算机设备和存储介质
CN115187844A (zh) 基于神经网络模型的图像识别方法、装置及终端设备
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
Takasaki et al. A study of action recognition using pose data toward distributed processing over edge and cloud
CN115497124A (zh) 身份识别方法和装置及存储介质
Bisio et al. Traffic analysis through deep-learning-based image segmentation from UAV streaming
Némesin et al. Quality-driven and real-time iris recognition from close-up eye videos
Son et al. Combination of facial recognition and interaction with academic portal in automatic attendance system
CN114663835A (zh) 一种行人跟踪方法、***、设备及存储介质
Sukkar et al. A Real-time Face Recognition Based on MobileNetV2 Model

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant