KR20210028185A - 사람 자세 분석 시스템 및 방법 - Google Patents

사람 자세 분석 시스템 및 방법 Download PDF

Info

Publication number
KR20210028185A
KR20210028185A KR1020217000622A KR20217000622A KR20210028185A KR 20210028185 A KR20210028185 A KR 20210028185A KR 1020217000622 A KR1020217000622 A KR 1020217000622A KR 20217000622 A KR20217000622 A KR 20217000622A KR 20210028185 A KR20210028185 A KR 20210028185A
Authority
KR
South Korea
Prior art keywords
detector
feature
image
person
hand
Prior art date
Application number
KR1020217000622A
Other languages
English (en)
Inventor
동욱 조
매기 장
폴 크루스제우스키
Original Assignee
렌치 잉크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 렌치 잉크. filed Critical 렌치 잉크.
Publication of KR20210028185A publication Critical patent/KR20210028185A/ko

Links

Images

Classifications

    • G06K9/00362
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1116Determining posture transitions
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • A61B5/1128Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06K9/4628
    • G06K9/6271
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2576/00Medical imaging apparatus involving image processing or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Surgery (AREA)
  • Physiology (AREA)
  • Dentistry (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)

Abstract

데이터베이스에 연결되는 특징 추출기, 복수의 컨볼루션 신경망(CNN) 계층을 갖는 CNN를 포함하는, 영상으로부터 사람 자세 정보를 추출하기 위한 시스템 및 방법이 제공된다. 상기 시스템/방법은 상기 사람 관련 영상 특징으로부터 2D 신체 골격 정보를 결정하기 위한 2D 신체 골격 검출기; 상기 사람 관련 영상 특징으로부터 신체 윤곽 정보를 결정하기 위한 신체 윤곽 검출기; 상기 사람 관련 영상 특징으로부터 손 윤곽 검출기를 결정하기 위한 손 윤곽 검출기; 상기 사람 관련 영상 특징으로부터 손 골격을 결정하기 위한 손 골격 검출기; 상기 사람 관련 영상 특징으로부터 3D 신체 골격을 결정하기 위한 3D 신체 골격 검출기; 및 상기 사람 관련 영상 특징으로부터 안면 특징점을 결정하기 위한 안면 특징점 검출기 중 적어도 하나를 더 포함한다.

Description

사람 자세 분석 시스템 및 방법
본 발명은 사람 자세 분석 분야에 관한 것으로, 특히 경량 컨볼루션 신경망(CNN)을 사용하는 사람 자세 분석 시스템 및 방법에 관한 것이다.
사람의 자세 분석을 위한 초기 접근 방식은 사람의 신체에 부착된 가시적 마커를 사용하여 카메라로 인식하거나 깊이 센서로 캡처한 영상을 사용하여 사람의 형상을 이해하거나 신체 부위의 위치를 알아낸다. 영상 특징 감지 접근법 또는 구조 분석과 같은 고전적인 컴퓨터 비전 기술을 사용하여 일반적으로 사용 가능한 컬러 영상을 분석하려는 시도가 있었다. 이러한 방법은 다양한 자연적인 영상을 처리할만큼은 아니다.
최근에는 인체 관절의 위치를 파악하고 2D 영상 공간에서 인체 골격을 구성하는 방법이 제안되었다. 이러한 방법은 대규모의 영상 데이터베이스로 학습된 심층 신경망 모델을 기반으로 구현된다.
영상의 신체 골격, 신체 형상, 3 차원 신체 골격, 손과 같은 각 신체 부위의 상세한 자세 등과 같은 영상에서 사람에 대한 여러 측면의 분석이 이루어질 수 있다. 대부분의 기존 방법은 사람의 단일 측면을 분석하는 데 중점을 둔다. 일부 방법은 사람을 국소화하고 영상으로 신체 윤곽을 분할한다. 다른 방법은 오직 사람의 손과 그 관절만 국소화한다. 사람의 영상에 대한 통합 분석을 통해 사람의 자세를 더 잘 이해할 수 있다.
또한 대부분의 강력한 방법은 실시간 분석을 위해 많은 계산이 필요하므로, 소비자 전자 제품이나 모바일 장치와 같은 저렴한 장치에서는 구현할 수 없다.
따라서, 사람의 자세 분석을 위한 개선된 방법 및 시스템이 필요하다.
본 발명의 하나의 넓은 의미의 양상에 따르면, 영상으로부터 사람 자세 정보를 추출하기 위한 시스템이 제공되고 있으며, 상기 시스템은 상기 영상에서 사람 관련 영상 특징을 추출하기 위한 특징 추출기 - 상기 특징 추출기는 기준 영상의 데이터 세트를 포함하는 데이터베이스에 연결 가능하고 제 1 복수의 컨볼루션 신경망(CNN) 계층을 포함하는 제 1 CNN 아키텍처가 제공되며, 각 컨벌루션 계층은 학습된 커널 가중치를 사용하여 그 입력 데이터에 컨벌루션 연산을 적용함 - ; 및 다음 모듈: 상기 사람 관련 영상 특징으로부터 2D 신체 골격 정보를 결정하기 위한 2D 신체 골격 검출기; 상기 사람 관련 영상 특징으로부터 신체 윤곽 정보를 결정하기 위한 신체 윤곽 검출기; 상기 사람 관련 영상 특징으로부터 손 윤곽 검출기를 결정하기 위한 손 윤곽 검출기; 상기 사람 관련 영상 특징으로부터 손 골격을 결정하기 위한 손 골격 검출기; 상기 사람 관련 영상 특징으로부터 3D 신체 골격을 결정하기 위한 3D 신체 골격 검출기; 및 상기 사람 관련 영상 특징으로부터 안면 특징점을 결정하기 위한 안면 특징점 검출기 중 적어도 하나를 포함하고, 상기 2D 신체 골격 검출기, 상기 신체 윤곽 검출기, 상기 손 윤곽 검출기, 상기 손 골격 검출기, 상기 3D 신체 골격 검출기, 및 상기 안면 특징점 검출기 각각에는 제 2 복수의 컨볼루션 신경망 (CNN) 계층을 포함하는 제 2 CNN 아키텍쳐가 제공된다.
상기 시스템의 일 실시 예에서, 상기 특징 추출기는: 상기 영상으로부터 저수준 특징을 추출하기 위한 저수준 특징 추출기; 및 중간 특징을 추출하기 위한 중간 특징 추출기를 포함하고, 상기 저수준 특징 및 상기 중간 특징이 함께 상기 사람 관련 영상 특징을 형성한다.
상기 시스템의 일 실시 예에서,상기 제 1 및 제 2 아키텍처 중 적어도 하나는 심층 CNN 아키텍처를 포함한다.
상기 시스템의 일 실시 예에서, 상기 제 1 및 제 2 CNN 계층 중 하나는 경량의 계층을 포함한다.
본 발명의 또 다른 넓은 의미의 양상에 따르면, 영상으로부터 사람 자세 정보를 추출하는 방법을 제공하고 있으며, 상기 방법은 영상을 수신하는 단계; 특징 추출기를 사용하여 상기 영상에서 사람 관련 영상 특징을 추출하는 단계 - 상기 특징 추출기는 기준 영상의 데이터 세트를 포함하는 데이터베이스에 연결 가능하며 제 1 복수의 컨볼루션 신경망(CNN) 계층을 포함하는 제 1 CNN 아키텍처가 제공되고, 각 컨볼루션 계층은 학습된 커널 가중치를 사용하여 그 입력 데이터에 컨볼루션 연산을 적용함 - ; 및 다음 모듈: 상기 사람 관련 영상 특징으로부터 2D 신체 골격 정보를 결정하기 위한 2D 신체 골격 검출기; 상기 사람 관련 영상 특징으로부터 상기 신체 윤곽 정보를 결정하기 위한 신체 윤곽 검출기; 상기 사람 관련 영상 특징으로부터 손 윤곽 검출기를 결정하기 위한 손 윤곽 검출기; 상기 사람 관련 영상 특징으로부터 손 골격을 결정하기 위한 손 골격 검출기; 상기 사람 관련 영상 특징으로부터 3D 신체 골격을 결정하기 위한 3D 신체 골격 검출기; 및 상기 사람 관련 영상 특징으로부터 안면 특징점을 결정하기 위한 안면 특징점 검출기중 적어도 하나를 사용하여 상기 사람 자세 정보를 결정하는 단계를 포함하고, 상기 2D 신체 골격 검출기, 상기 신체 윤곽 검출기, 상기 손 윤곽 검출기, 상기 손 골격 검출기, 상기 3D 신체 골격 검출기 및 상기 안면 특징점 검출기 각각에는 제2 복수의 컨볼루션 신경망(CNN) 계층을 포함하는 제 2 CNN 아키텍처가 제공된다.
상기 방법의 일 실시 예에서, 상기 특징 추출기는: 상기 영상으로부터 저수준 특징을 추출하기 위한 저수준 특징 추출기; 및 중간 특징을 추출하기 위한 중간 특징 추출기를 포함하고, 상기 저수준 특징 및 상기 중간 특징이 함께 상기 사람 관련 영상 특징을 형성한다.
상기 방법의 일 실시 예에서, 상기 제 1 및 제 2 아키텍처 중 적어도 하나는 심층 CNN 아키텍처를 포함한다.
상기 방법의 일 실시 예에서, 상기 제 1 및 제 2 CNN 계층 중 하나는 경량의 계층을 포함한다.
본 발명의 추가 특징 및 이점은 첨부된 도면과 결합된 다음의 상세한 설명으로부터 명백해질 것이다:
도 1은 영상에서 사람의 자세 정보를 추출하는 시스템을 나타내는 블록도로서, 이 시스템은 일 실시 예에 따른, 특징 추출기, 2D 신체 골격 검출기, 신체 윤곽 검출기, 손 윤곽 검출기 및 3D 신체 골격 검출기, 안면 특징점 검출기 및 손 골격 검출기를 포함하는 시스템을 포함함;
도 2는 일 실시 예에 따른, 도 1의 특징 추출기를 예시하는 블록도;
도 3은 일 실시 예에 따른, 도 1의 2D 신체 골격 검출기의 블록도;
도 4는 일 실시 예에 따른 도 1의 신체 윤곽 검출기를 도시한 블록도;
도 5는 일 실시 예에 따른 도 1의 손 윤곽 검출기를 나타낸 블록도;
도 6은 일 실시 예에 따른 도 1의 손 골격 검출기를 도시한 블록도;
도 7은 일 실시 예에 따른 도 1의 3D 신체 골격 검출기를 나타내는 블록도;
도 8은 일 실시 예에 따른, 도 1의 안면 특징점 검출기를 예시하는 블록도; 및
도 9는 일 실시 예에 따라 사람 자세 정보의 추출 단계 중 적어도 일부를 실행하도록 적응된 처리 모듈의 블록도이다.
첨부된 도면 전체에 걸쳐, 유사한 특징은 유사한 참조 번호로 식별된다는 점에 유의해야 한다.
도 1은 영상으로부터 사람의 자세 정보를 추출하기 위한 시스템(10)의 일 실시 예를 도시한다. 시스템(10)은 영상을 수신하고, 수신된 영상 내에서 사람을 국소화하고, 각 영상으로부터 사람의 자세 정보를 자동으로 추론하도록 구성된다.
일 실시 예에서, 사람 자세 정보는 사람 골격 및 신체 부위 형상의 기하학적 정보를 포함한다. 사람의 골격은 뼈 관절 위치 및/또는 뼈 방향과 길이에 의해 표현될 수 있으며 신체 부위 형상은 윤곽 및/또는 표면 메시와 위치로 표현될 수 있다. 예를 들어, 사람의 자세 정보는 관절이 있는 2D 및/또는 3D 신체 골격, 신체 형상 또는 윤곽, 및/또는 손과 같은 신체 부위의 골격 및 윤곽 등과 같은 정보를 포함할 수 있다.
시스템(10)은 영상 데이터 세트에 의해 학습된 사람 관련 영상 특징을 영상으로부터 먼저 추출하고 추출된 사람 관련 영상 특징으로부터 사람 자세 정보를 결정하도록 구성된다.
일 실시 예에서, 사람 관련 영상 특징은 인체와 관련된 기본 정보 및 점, 가장자리, 선, 윤곽선, 강도, 그라데이션, 영상 내의 작은 개체와 큰 개체의 대비, 해당 개체와의 관계 등과 같이, 영상에서 얻은 인체 부위를 포함한다.
일 실시 예에서, 데이터 세트는 인체 기하학적 구조와 관련된 지상 실측 정보 라벨 및 사람이 있거나 없는 기준 영상 세트를 포함한다. 라벨에는 영상의 2D 신체 관절 위치(x, y) 및 비저빌리티(visibility) (예를 들어, 이용 불가능, 가시적, 영상에 존재하지만 가려짐 등); 영상의 2D 손 관절 위치 및 비저빌리티; 영상의 2D 안면 특징점 위치 및 비저빌리티, 인체의 윤곽, 손의 윤곽, 3D 신체 관절 위치 등을 포함한다. 데이터 세트에 포함된 모든 기준 영상은 이와 관련된 모든 라벨을 가지고 있지 않다고 이해되어야 한다.
일 실시 예에서, 기준 영상의 데이터 세트는 학습을 위한 적어도 수만 개의 영상을 포함하고 대규모로 자격이 주어질 수 있다.
시스템(10)은 자세 정보의 강력한 추정을 위해 컨벌루션 신경망(CNN) 아키텍처를 사용한다. CNN은 컨볼루션 신경망 계층으로 구성되며, 이하에서는 컨볼루션 계층이라고 한다. 각 컨벌루션 계층은 이전 컨벌루션 계층에서 입력 데이터 또는 처리된 데이터를 수신하고 그 입력 데이터에 컨벌루션 연산을 적용한 후 그 출력 데이터를 다음 계층으로 보낸다. 일 실시 예에서, 컨볼루션 계층의 출력은 텐서(tensor) 또는 다차원 배열의 형태로 되어 있다.
각 컨벌루션 계층은 훈련된 커널 가중치를 사용하여 컨벌루션 연산을 그 입력 데이터에 적용한다. 컨벌루션 계층의 가중치 학습은 기준 영상의 데이터 세트를 사용하는 역 전파 기법으로 수행된다. 일 실시 예에서, 각각의 컨볼루션 계층은 CNN의 보다 강력한 결정을 허용하기 위해 정류된 선형 유닛(ReLU)과 같은 비선형 활성화 함수를 입력 데이터에 적용하도록 구성된다. ReLU 함수 이외의 함수가 컨벌루션 계층에 의해 사용될 수 있음을 이해해야 한다.
일 실시 예에서, 시스템(10)은 심층 CNN을 사용한다. 일 구체 예에서, CNN은 3 개 이상의 컨벌루션 계층으로 구성된다. 계층 수가 적은 얕은 아키텍처에 비해, 심층 CNN 아키텍처는 더 많은 뉴런 또는 가중치를 보존하고 다양한 입력 데이터를 수용하며 이들을 잡음이나 혼란의 영향을 받지 않고 강력하게 분석한다.
동일하거나 다른 실시 예에서, CNN 아키텍처는 경량 컨볼루션 계층을 포함한다. 이 경우, 각 컨볼루션 계층은 커널의 수 및/또는 이들의 크기를 줄이거나 다운 샘플링을 적용하여 "계산적으로 가볍게" 만들어진다. 이 경우 아키텍처는 로우-엔드 장치에서 수행되는 실시간 사람 자세 분석에 적합할 수 있다.
일 실시 예에서, CNN 아키텍처에 대한 다음 접근법이 따른다.
추정 결과의 정확도에 큰 영향을 주지 않는 컨벌루션 계층은 제거될 수 있다. 예를 들어, 다운 샘플링을 수행하는 풀링(pooling) 계층은 제거될 수 있고, 풀링 계층 이전에 위치한 이웃하는 컨볼루션 계층은 컨볼루션 동작 중에 다운 샘플링을 수행할 수 있다.
영상의 일반적인 사람 크기를 고려하여 최소한의 입력 영상 해상도를 선택할 수 있다. 예를 들어, 영상 80x80 픽셀의 사람은 사람 관련 영상 특징을 많이 잃지 않고 잘 분석될 수 있다. 저해상도 영상은 세부 사항이 부족할 수 있지만, 신체 자세의 근사치를 양호하게 얻기에는 충분할 수 있다. 일 실시 예에서, 영상의 해상도는 48x48입니다. 다른 실시 예에서, 영상의 해상도는 96x96이다. 추가 실시 예에서, 영상의 해상도는 256x144이다. 또 다른 실시 예에서, 영상의 해상도는 400x320이다.
사람의 수용 필드를 고려하여 분석할 최대 해상도를 제한함으로써 컨볼루션 계층의 수와 커널의 크기를 결정할 수 있다. 예를 들어, 84x84 픽셀이 있는 영역은 입력 영상을 4로 다운 샘플링한 후 11x11 커널을 갖는 두 개의 컨볼루션 계층에 의해 덮일 수 있다. 10 개의 3x3 컨볼루션 계층은 계층 수는 많아지지만 계산 비용은 낮추면서 동일한 영역을 커버할 수 있다.
결과의 정확도가 사용자가 선택한 최소한의 목표 정확도보다 높으면 각 컨벌루션 계층에서 정의된 출력 깊이의 크기는 감소될 수 있다. 계산 비용은 각 치수(커널 너비, 높이 및 깊이)의 커널 크기와 출력 깊이 크기에 비례한다. 가중치의 크기는 커널의 너비, 높이 및 깊이의 곱과 바이어스의 수의 합으로 결정할 수 있다.
CNN 모델은 데이터 세트와 설계된 아키텍처가 주어지는 경우 머신에서 학습 한 가중치 및 바이어스를 모은 것이다. CNN 모델은 가장 높은 정확도를 제공하기 위해 경험적으로 선택될 수 있다.
다시 도 1을 참조하면, 시스템은 데이터베이스(20)와 통신하는 특징 추출기(30)를 포함한다. 시스템은 또한 2D 신체 골격 검출기(40), 신체 윤곽 검출기(60), 손 윤곽 검출기(70) 및 3D 신체 골격 검출기(90)를 포함하며, 이들 모두는 특징 추출기(30)와 통신한다. 시스템(10)은 2D 신체 골격 검출기(40)와 통신하는 안면 특징점 검출기(50) 및 손 윤곽 검출기(70)와 통신하는 손 골격 검출기(80)를 더 포함한다.
데이터베이스(20)는 내부에 기준 영상의 데이터 세트를 저장하고 있다. 일 실시 예에서, 데이터베이스(20)는 시스템(10)에 포함된 메모리에 저장된다. 다른 실시 예에서, 데이터베이스(20)는 시스템(10)에 포함되지 않은 메모리에 저장된다.
도 2에 도시된 바와 같이, 특징 추출기(30)는 저수준 특징 추출기(110) 및 적어도 하나의 중간 특징 추출기(120)를 포함한다.
도 2를 참조하면, 특징 추출기(30)는 저수준 특징 추출기(110)와 하나 이상의 중간 특징 추출기(120)로 구성된다. 저수준 특징 추출기(110)는 영상을 수신하고 강도, 가장자리, 그라디언트, 곡률, 점, 객체 형상 등과 같은 영상의 국소적 영역의 요소적 특성을 나타내는 영상 저수준 특징을 영상으로부터 추출하도록 구성된다. 중간 특징 추출기(120)는 저수준 특징을 수신하고 저수준 특징 추출기(110)에 의해 추출된 저수준 특징을 상관시킴으로써 얻어진 고수준 특징에 대응하는 중간 특징을 결정하도록 구성되며, 신체 부위의 형상 및/또는 관련성과 같은 사람의 자세 정보와 관계된다. 저수준 특징과 중간 특징은 특징 추출기(30)에 의해 출력되는 사람 관련 영상 특징을 함께 형성한다.
도 2에 도시된 바와 같이, 저수준 추출기(110)는 상이한 영상 스케일의 반복적 블록을 포함하고 각 블록은 ReLU 활성화를 갖는 일련의 컨볼루션 층을 포함한다.
저수준 특징 추출기(110)는 대규모 영상 데이터 세트로부터 학습된 가장자리, 윤곽선, 색깔 부분, 이들의 방향, 또는 그외 일부 관찰 부분과 같은 일반적인 영상 특징을 보존한다.
기간망으로 Inception, VGG, ResNet과 같이 입증된 CNN 아키텍처를 고려할 수 있다. 경량의 기간망은 위에서 언급한 것처럼 최소한의 사람 자세 관련 특징을 유지하면서 계산 비용을 줄이도록 설계될 수 있다.
중간 특징 추출기(120)는 CNN 모델이 학습될 때 중급 감독을 위해 구성된다. 중급 감독은 마지막 출력 계층에 추가하여 중간 계층(또는 중간 특성 추출기의 출력 계층)에 손실 계층을 추가하여 CNN 모델의 학습을 가능하게 한다. 신경망에서 손실 계층은 출력 계층과 지상 실측 데이터 간의 차이를 비교하고 역으로 전파하여 각 계층에서의 가중치와 바이어스를 학습시킨다.
중간 특징 추출기(120)에 존재하는 컨볼루션 계층의 수와 각 중간 단계에 대한 이들의 매개 변수는 전술한 바와 같이 입력 영상 및 타겟 객체, 즉 인간의 크기에 따라 조정된다. 각 중간 단계는 기준 영상 데이터 세트를 사용하여 학습된다. 예를 들어, 영상의 인간 관절이 동일한 위치에 표시되는 2D 관절 히트 맵(heat map)의 스택을 2D 관절 위치를 이용하여 생성할 수 있다. 히트 맵 상의 정확한 관절 위치는 응답 값이 높은 반면 이 위치는 관절 위치로부 거리가 멀어지면 응답 값이 낮거나 없다. 주석이 달린 2D 관절 위치를 사용하여 데이터 세트에서 생성된 지상 실측 히트 맵은 모델 학습 중에 학습 모델에서 추론된 추정 히트 맵과 비교된다. 모델은 신경망 내 연결된 계층 전체에서 순방향 및 역방향 전파 프로세스를 반복하여 가중치 및 바이어스를 조정하여 학습된다.
일 실시 예에서, 중간 특징 추출기(120)의 컨벌루션 계층의 다중 단계를 학습함으로써, 사람의 자세와 관련된 특징은 더욱 심층의 네트워크 계층을 통해 개선되므로 더 강력한 결과를 얻을 수 있다. 또한 모델 학습이 더 효율적이 된다.
저수준 특징 추출기(110) 및 중간 특징 추출기(120)의 각 계층의 출력은 사람 관련 영상 특징 텐서로서 제시될 수 있는 사람 관련 영상 특징을 형성한다. 목적에 따라 사람 관련 영상 특징 텐서의 서브세트를 상세한 사람 자세 분석에 사용할 수 있다
도 3은 2D 신체 관절 추정 네트워크(210) 및 사후 처리 모듈(220)을 포함하는 2D 신체 골격 검출기(40)의 일 실시 예를 도시한다.
2D 신체 골격 검출기(40)는 특징 추출기(30)에 의해 생성된 사람 관련 영상 특징의 서브세트를 입력으로서 수신하고 2D 관절 히트 맵을 출력으로 생성한다. 사람 관련 영상 특징의 서브세트는 인간 관절 및 형태와 관련된 특징적인 특징을 보존하는 특징 추출기(30)의 상이한 컨볼루션 계층의 출력 특징 텐서의 조합을 포함한다.
일 실시 예에서, 각 출력 특징 텐서의 품질을 측정하는 것이 어려울 수 있다. 이 경우, 저수준 특징 추출기(110) 및/또는 중간 특징 추출기(120)의 끝에 가까운 컨볼루션 계층은 일반적으로 컨볼루션 계층 전체에서 정제되기 때문에, 고려될 수 있다. 예를 들어, 저수준 특징 추출기(110) 및 제 N 중간 특징 추출기(110)에서 마지막 컨볼루션 계층의 출력 특징 텐서는 2D 신체 골격 검출기(40)에 데이터를 제공하도록 선택될 수 있다. 입력 특징의 서브세트가 처리되면, 2D 신체 골격 검출기(40)는 추정된 히트 맵을 추론하고, 이 맵은 히트 맵에서 국소적 최대 값인 관철 위치의 후보를 결정하는 데에 사용되고, 히트 맵 응답 값은 수동으로 정의된 임계 값을 초과한다. 영상에 다수의 인물이 존재하는 경우 후, 처리 단계에서 인물을 분리하고 골격을 구성하기 위해 조인트 클러스터링(joint clustering)을 수행한다.
도 4는 컨볼루션 층을 포함하는 신체 윤곽 분할 모듈(310) 및 사후 처리 모듈(320)을 포함하는 신체 윤곽 검출기(60)의 일 실시 예를 도시한다.
신체 윤곽 검출기(60)는 영상의 모든 인체를 분할하여 인체의 마스크 영상을 생성하도록 구성된다. 신체 윤곽 분할 모듈(310)의 컨벌루션 계층은 특징 추출기(30)로부터 사람 관련 영상 특징 텐서를 수신하고 인체 윤곽으로 바디 마스크 영상을 구성한다. 마스크는 각 픽셀에 비트 마스킹을 적용하여 영상의 다른 개체를 분할하는 데 사용된다. 바디 마스크 영상은 픽셀이 사람에 속하는 경우 마스크 값이 1이고 사람이 아닌 픽셀은 0인 이진 영상이다. 사람 관련 영상 특징 텐서의 스케일은 입력 영상의 너비 및 높이에 비해 일반적으로 2 내지 16의 인수로 감소하므로, 컨볼루션 작업 중에 업 스케일링을 수행하여 바디 마스크 영상 해상도를 높이고 더 많은 세부 정보를 유지할 수 있다.
사후 처리 모듈(320)은 신체 윤곽 분할 모듈(310)로부터 추론된 마스크 영상을 가져와서 소스 입력 영상과 동일한 해상도로 마스크 영상의 크기를 조정한다. 바디 마스크 영상은 영상에서 사람의 위치와 형상을 식별하는 데 사용할 수 있다.
도 5는 컨볼루션 계층으로 형성된 손 윤곽 분할 모듈(410) 및 사후 처리 모듈(420)을 포함하는 손 윤곽 검출기(70)에 대한 일 실시 예를 도시한다.
손 윤곽 검출기 모듈(410)은 입력 영상에 존재하는 인체의 손을 분할하고, 신체 윤곽 검출기(60)와 유사하게 왼손 및/또는 오른손에 대한 마스크 영상을 생성하도록 구성된다. 손 윤곽 분할 모듈(410)의 컨벌루션 계층은 특징 추출기(30)로부터 사람 관련 영상 특징 텐서를 수신하고 인체 윤곽으로 손 마스크 영상을 구성한다.
사후 처리 모듈(420)은 추론된 핸드 마스크 영상의 크기를 조정하도록 구성된다. 손 마스크 영상은 영상에서 가시적인 손의 위치와 형상을 식별하는 데 사용될 수 있다. 이 정보는 각 손 자세의 추가 분석에 사용할 수 있다.
일 실시 예에서, 손 윤곽 검출기(70)는 신체 윤곽 검출기(60)와 병합될 수 있고 병합된 검출기(60 및 70)는 함께 학습될 수 있다. 이러한 병합된 검출기의 신경망 계층은 보다 효율적인 계산을 위해 공유될 수 있다.
도 6은 컨벌루션 계층을 포함하는 손 관절 추정 모듈(510) 및 사후 처리 모듈(520)을 포함하는 손 골격 검출기(80)에 대한 일 실시 예를 도시한다.
손 골격 검출기(80)는 손의 영상, 즉 손 영상을 수신하고, 손 영상에서 손 관절을 추정한다. 손 영상은 시스템에 지정되지 않은 영상와 같은 손의 영상일 수 있다. 또는, 손 영상은 손 윤곽 검출기(70)에 의해 검출된 손 영역(또는 바운딩 박스)을 사용하여 입력 영상 데이터(20)에서 잘린 손 영상일 수 있다.
손 관절 추정 모듈(510)은 특징 추출 네트워크(110 및 120)의 아키텍처와 2D 신체 관절 추정 네트워크(210)의 아키텍처를 결합하는 유사한 아키텍처로 설계될 수 있다. 일 실시 예에서, 손 골격 검출기(80)는 특징 추출기(30)로부터 사람 관련 영상 특징 텐서를 직접 수신하도록 설계될 수 있다.
손 자세 추정을 위한 사후 처리 모듈(520)은 추정된 히트 맵을 취하여 관절 위치의 후보를 결정하고 손 골격을 구성한다.
도 7은 컨볼루션 계층을 포함하는 3D 신체 관절 추정 모듈(610) 및 사후 처리 모듈(620)을 포함하는 3D 신체 골격 검출기(90)에 대한 일 실시 예를 도시한다.
3D 신체 골격 검출기(90)는 단일 영상으로부터 인체 관절의 3D 좌표를 추정하도록 구성된다. 3 차원 인체 골격 검출기(90)는 인체 관련 영상 특징 텐서를 수신하여 영상에서 검출된 인체의 정규화된 3 차원 좌표를 추정한다. 사후 처리 모듈(620)은 정규화된 3D 위치를 영상 및 실제 공간으로 매핑하도록 구성된다.
도 8은 컨볼루션 계층을 포함하는 안면 특징점 추정 모듈(710) 및 및 사후 처리 모듈(720)을 포함하는 안면 특징점 검출기(50)에 대한 일 실시 예를 도시한다.
안면 특징점 검출기(50)는 눈, 귀, 코 등과 같은 안면 특징점의 대략적인 위치를 추정하는 2D 신체 골격 검출기(40)에 의해 결정된 잘린(cropped) 안면 영상을 수신한다. 안면 특징점 추정 모듈(710)의 컨벌루션 계층에 의해 눈의 윤곽점, 상하 입술, 턱, 눈썹, 코 등과 같은 보다 상세한 특징점의 위치를 추정한다. 검출된 안면 특징점의 정렬 및/또는 아웃라이어 필터링은 사후 처리 모듈(720)에 의해 수행될 수 있다.
특징 추출기(30)에 의해 결정된 동일한 사람 관련 영상 특징이 사람 자세 정보를 추론하기 위해 검출기(40-90) 중 적어도 일부에 의해 공유된다는 것을 이해해야 한다. 일 실시 예에서, 특징 추출기(30)는 영상으로부터 획득될 수 있는 모든 사람 관련 영상 특징을 결정하고 이를 텐서 형태로 각 신경망 계층에 저장한다.
일 실시 예에서, 특징 추출기(30)는 크기 불변 특징 변환(SIFT) 및 경사 지향 히스토그램(HOG)과 같은 특징 설명자를 명시적으로 정의함으로써 설계될 수 있다. 이러한 특징 추출기는 데이터 세트에 관계없이 영상 특징을 사전 정의한다.
일 실시 예에서, 추출기(30) 및 검출기(40-90) 각각에는 적어도 하나의 개별 프로세서 또는 처리 유닛, 개별 통신 유닛 및 개별 메모리가 제공된다. 다른 실시 예에서, 추출기(30) 및 검출기(40-90)로 구성된 그룹 중 적어도 2 개는 동일한 프로세서, 동일한 통신 및/또는 동일한 메모리를 공유한다. 예를 들어, 추출기(30) 및 검출기(40-90)는 동일한 프로세서, 동일한 통신 유닛 및 동일한 메모리를 공유할 수 있다. 이때, 추출기(30)와 검출기(40-90)는 개인용 컴퓨터, 랩톱, 태블릿, 스마트 폰 등과 같은 컴퓨터 기계의 프로세서에 의해 실행되는 서로 다른 모듈에 해당할 수 있다.
상기 설명은 검출기(40-90)를 포함하는 시스템(10)을 언급하지만, 시스템(10)은 검출기(40-90) 중 하나만을 포함할 수 있음을 이해해야 한다. 예를 들어, 시스템(10)은 적어도 2 개의 검출기(40-90)를 포함할 수 있다.
일 실시 예에서, 복수의 검출기 간에 동일한 사람 관련 영상 특징을 공유하면 각 검출기에 대한 계산을 최소화함으로써 분석이 일관되고 빠르게 된다.
도 9는 일부 실시 예에 따라 영상으로부터 전술한 자세 정보 추출을 실행하기 위한 예시적인 처리 모듈(800)을 예시하는 블록도이다. 처리 모듈(800)은 일반적으로 메모리(804)에 저장된 모듈 또는 프로그램 및/또는 명령을 실행하고 이에 의해 처리 동작을 실행하기 위한 하나 이상의 컴퓨터 처리 장치(CPU) 및/또는 그래픽 처리 장치(GPU)(802), 메모리(804), 및 이들 구성 요소를 상호 연결하기 위한 하나 이상의 통신 버스(806)를 포함한다. 통신 버스(806)는 시스템 구성 요소 사이의 통신을 상호 연결하고 제어하는 회로(때때로 칩셋이라고 함)를 선택적으로 포함한다. 메모리(804)는 DRAM, SRAM, DDR RAM 또는 기타 랜덤 액세스 솔리드 스테이트 메모리 장치와 같은 고속 랜덤 액세스 메모리를 포함하고, 하나 이상의 자기 디스크 저장 장치, 광 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비 휘발성 솔리드 스테이트 저장 장치와 같은 비 휘발성 메모리를 포함할 수 있다. 메모리(804)는 선택적으로 CPU(들)(802)로부터 원격에 위치한 하나 이상의 저장 장치를 포함한다. 메모리(804) 또는 메모리(804) 내의 비휘발성 메모리 장치(들)는 비 일시적 컴퓨터 판독 가능 저장 매체를 포함한다. 일부 실시 예에서, 메모리(804), 또는 메모리(804)의 컴퓨터 판독 가능 저장 매체는 다음의 프로그램, 모듈 및 데이터 구조, 또는 그 서브세트를 저장한다:
영상에서 사람 관련 영상 특징을 추출하는 특징 추출 모듈(810);
2D 신체 관절 위치를 추정하기 위한 2D 신체 골격 검출 모듈(812);
신체 윤곽을 식별하고 분할하기 위한 신체 윤곽 검출 모듈(814);
손 윤곽을 식별하고 분할하기 위한 손 윤곽 검출 모듈(816);
3D 신체 관절 위치를 추정하기 위한 3D 신체 골격 검출 모듈(818);
안면 특징점 위치를 추정하기 위한 안면 특징점 검출 모듈(820): 및
손 관절 위치를 추정하 위기 위한 손 골격 검출 모듈(822).
상기 식별된 요소들 각각은 앞서 언급된 메모리 장치들 중 하나 이상에 저장될 수 있고, 위에서 설명된 기능을 수행하기 위한 명령 세트에 대응한다. 상기 식별된 모듈 또는 프로그램(즉, 명령어 세트)은 별도의 소프트웨어 프로그램, 절차 또는 모듈로 구현될 필요가 없으며, 따라서 이러한 모듈의 다양한 서브세트는 다양한 실시 예에서 결합되거나 아니면 재배열될 수 있다. 일부 실시 예에서, 메모리(804)는 위에서 식별된 모듈 및 데이터 구조의 서브세트를 저장할 수 있다. 또한, 메모리(804)는 위에서 설명되지 않은 추가 모듈 및 데이터 구조를 저장할 수 있다.
처리 모듈(800)을 나타내지만, 도 9는 본 명세서에서 설명된 실시 예들의 구조적 개략도 보다는 관리 모듈에 존재할 수 있는 다양한 특징들의 기능적 설명으로서 더 의도된다. 실제로, 그리고 당업자에 의해 인식되는 바와 같이, 개별적으로 도시된 항목은 결합될 수 있고 일부 항목은 분리될 수 있다.
위에서 설명된 본 발명의 실시 예는 단지 예시를 위한 것이다. 따라서 본 발명의 범위는 첨부된 청구 범위의 범위에 의해서만 제한되도록 의도된다.

Claims (8)

  1. 영상으로부터 사람 자세 정보를 추출하기 위한 시스템에 있어서,
    상기 영상에서 사람 관련 영상 특징을 추출하기 위한 특징 추출기 - 상기 특징 추출기는 기준 영상의 데이터 세트를 포함하는 데이터베이스에 연결 가능하고 제 1 복수의 컨볼루션 신경망 (CNN) 계층을 포함하는 제 1 CNN 아키텍처가 제공되며, 각 컨벌루션 계층은 학습된 커널 가중치를 사용하여 그 입력 데이터에 컨벌루션 연산을 적용함 - ; 및
    상기 사람 관련 영상 특징으로부터 2D 신체 골격 정보를 결정하기 위한 2D 신체 골격 검출기;
    상기 사람 관련 영상 특징으로부터 신체 윤곽 정보를 결정하기 위한 신체 윤곽 검출기;
    상기 사람 관련 영상 특징으로부터 손 윤곽 검출기를 결정하기 위한 손 윤곽 검출기;
    상기 사람 관련 영상 특징으로부터 손 골격을 결정하기 위한 손 골격 검출기;
    상기 사람 관련 영상 특징으로부터 3D 신체 골격을 결정하기 위한 3D 신체 골격 검출기; 및
    상기 사람 관련 영상 특징으로부터 안면 특징점을 결정하기 위한 안면 특징점 검출기
    중 적어도 하나
    를 포함하고,
    상기 2D 신체 골격 검출기, 상기 신체 윤곽 검출기, 상기 손 윤곽 검출기, 상기 손 골격 검출기, 상기 3D 신체 골격 검출기, 및 상기 안면 특징점 검출기 각각에는 제 2 복수의 컨볼루션 신경망 (CNN) 계층을 포함하는 제 2 CNN 아키텍쳐가 제공되는, 시스템.
  2. 제 1 항에 있어서, 상기 특징 추출기는:
    상기 영상으로부터 저수준 특징을 추출하기 위한 저수준 특징 추출기; 및
    중간 특징을 추출하기 위한 중간 특징 추출기
    를 포함하고, 상기 저수준 특징 및 상기 중간 특징이 함께 상기 사람 관련 영상 특징을 형성하는, 시스템.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 제 1 및 제 2 아키텍처 중 적어도 하나는 심층 CNN 아키텍처를 포함하는, 시스템.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 제 1 및 제 2 CNN 계층 중 하나는 경량의 계층을 포함하는, 시스템.
  5. 영상으로부터 사람 자세 정보를 추출하는 방법에 있어서,
    영상을 수신하는 단계;
    특징 추출기를 사용하여 상기 영상에서 사람 관련 영상 특징을 추출하는 단계 - 상기 특징 추출기는 기준 영상의 데이터 세트를 포함하는 데이터베이스에 연결 가능하며 제 1 복수의 컨볼루션 신경망(CNN) 계층을 포함하는 제 1 CNN 아키텍처가 제공되고, 각 컨볼루션 계층은 학습된 커널 가중치를 사용하여 그 입력 데이터에 컨볼루션 연산을 적용함 - ; 및
    상기 사람 관련 영상 특징으로부터 2D 신체 골격 정보를 결정하기 위한 2D 신체 골격 검출기;
    상기 사람 관련 영상 특징으로부터 상기 신체 윤곽 정보를 결정하기 위한 신체 윤곽 검출기;
    상기 사람 관련 영상 특징으로부터 손 윤곽 검출기를 결정하기 위한 손 윤곽 검출기;
    상기 사람 관련 영상 특징으로부터 손 골격을 결정하기 위한 손 골격 검출기;
    상기 사람 관련 영상 특징으로부터 3D 신체 골격을 결정하기 위한 3D 신체 골격 검출기; 및
    상기 사람 관련 영상 특징으로부터 안면 특징점을 결정하기 위한 안면 특징점 검출기
    중 적어도 하나를 사용하여 상기 사람 자세 정보를 결정하는 단계
    를 포함하고,
    상기 2D 신체 골격 검출기, 상기 신체 윤곽 검출기, 상기 손 윤곽 검출기, 상기 손 골격 검출기, 상기 3D 신체 골격 검출기 및 상기 안면 특징점 검출기 각각에는 제2 복수의 컨볼루션 신경망(CNN) 계층을 포함하는 제 2 CNN 아키텍처가 제공되는, 방법.
  6. 제 5 항에 있어서, 상기 특징 추출기는:
    상기 영상으로부터 저수준 특징을 추출하기 위한 저수준 특징 추출기; 및
    중간 특징을 추출하기 위한 중간 특징 추출기
    를 포함하고, 상기 저수준 특징 및 상기 중간 특징이 함께 상기 사람 관련 영상 특징을 형성하는, 방법.
  7. 제 5 항 또는 제 6 항에 있어서, 상기 제 1 및 제 2 아키텍처 중 적어도 하나는 심층 CNN 아키텍처를 포함하는, 방법.
  8. 제 5 항 내지 제 7 항 중 어느 한 항에 있어서, 상기 제 1 및 제 2 CNN 계층 중 하나는 경량의 계층을 포함하는, 방법.
KR1020217000622A 2018-06-29 2019-06-27 사람 자세 분석 시스템 및 방법 KR20210028185A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862691818P 2018-06-29 2018-06-29
US62/691,818 2018-06-29
PCT/CA2019/050887 WO2020000096A1 (en) 2018-06-29 2019-06-27 Human pose analysis system and method

Publications (1)

Publication Number Publication Date
KR20210028185A true KR20210028185A (ko) 2021-03-11

Family

ID=68985280

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217000622A KR20210028185A (ko) 2018-06-29 2019-06-27 사람 자세 분석 시스템 및 방법

Country Status (6)

Country Link
US (1) US20210264144A1 (ko)
EP (1) EP3813661A4 (ko)
JP (1) JP7417555B2 (ko)
KR (1) KR20210028185A (ko)
CA (1) CA3105272A1 (ko)
WO (1) WO2020000096A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7014304B2 (ja) * 2018-10-22 2022-02-01 富士通株式会社 認識方法、認識プログラム、認識装置および学習方法
CN111435432B (zh) * 2019-01-15 2023-05-26 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN110335277A (zh) * 2019-05-07 2019-10-15 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
US20210312236A1 (en) * 2020-03-30 2021-10-07 Cherry Labs, Inc. System and method for efficient machine learning model training
US20230154092A1 (en) * 2020-04-23 2023-05-18 Intel Corporation Kinematic interaction system with improved pose tracking
CN111694429B (zh) 2020-06-08 2023-06-02 北京百度网讯科技有限公司 虚拟对象驱动方法、装置、电子设备及可读存储
CN111985414B (zh) * 2020-08-21 2024-02-23 成都数字天空科技有限公司 一种关节点位置确定方法及装置
CN112131965B (zh) * 2020-08-31 2023-10-13 深圳云天励飞技术股份有限公司 一种人体姿态估计方法、装置、电子设备及存储介质
CN112336342B (zh) * 2020-10-29 2023-10-24 深圳市优必选科技股份有限公司 手部关键点检测方法、装置及终端设备
US20220142514A1 (en) * 2020-11-06 2022-05-12 Hinge Health, Inc. Deriving insights into motion of an object through computer vision
US11445121B2 (en) * 2020-12-29 2022-09-13 Industrial Technology Research Institute Movable photographing system and photography composition control method
WO2022181252A1 (ja) * 2021-02-26 2022-09-01 日本電気株式会社 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体
WO2022181251A1 (ja) * 2021-02-26 2022-09-01 日本電気株式会社 関節点検出装置、関節点検出方法、及びコンピュータ読み取り可能な記録媒体
CN114496263B (zh) * 2022-04-13 2022-07-12 杭州研极微电子有限公司 用于体重指数估计的神经网络模型建立方法及存储介质
WO2024015620A1 (en) * 2022-07-15 2024-01-18 Omnimed Tracking performance of medical procedures

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4931218B2 (ja) 2007-02-22 2012-05-16 キヤノン株式会社 撮像装置、物体検出方法及び姿勢パラメータの算出方法
US8437506B2 (en) * 2010-09-07 2013-05-07 Microsoft Corporation System for fast, probabilistic skeletal tracking
CN105981041A (zh) * 2014-05-29 2016-09-28 北京旷视科技有限公司 使用粗到细级联神经网络的面部关键点定位
CN104346607B (zh) * 2014-11-06 2017-12-22 上海电机学院 基于卷积神经网络的人脸识别方法
CN105069423B (zh) * 2015-07-29 2018-11-09 北京格灵深瞳信息技术有限公司 一种人体姿态检测方法及装置
JP6873600B2 (ja) 2016-03-04 2021-05-19 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
CA3015492C (en) * 2016-03-21 2021-11-23 The Procter & Gamble Company Systems and methods for providing customized product recommendations
US10706348B2 (en) * 2016-07-13 2020-07-07 Google Llc Superpixel methods for convolutional neural networks
US10372228B2 (en) * 2016-07-20 2019-08-06 Usens, Inc. Method and system for 3D hand skeleton tracking
US10582907B2 (en) * 2016-10-31 2020-03-10 Siemens Healthcare Gmbh Deep learning based bone removal in computed tomography angiography
US10360494B2 (en) 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
CA2995242A1 (en) * 2018-02-15 2019-08-15 Wrnch Inc. Method and system for activity classification

Also Published As

Publication number Publication date
EP3813661A4 (en) 2022-04-06
JP7417555B2 (ja) 2024-01-18
WO2020000096A1 (en) 2020-01-02
US20210264144A1 (en) 2021-08-26
JP2021529389A (ja) 2021-10-28
CA3105272A1 (en) 2020-01-02
EP3813661A1 (en) 2021-05-05

Similar Documents

Publication Publication Date Title
KR20210028185A (ko) 사람 자세 분석 시스템 및 방법
EP3620979B1 (en) Learning method, learning device for detecting object using edge image and testing method, testing device using the same
CN109635141B (zh) 用于检索图像的方法、电子设备和计算机可读存储介质
CN111052126B (zh) 行人属性识别与定位方法以及卷积神经网络***
Davison et al. Objective micro-facial movement detection using facs-based regions and baseline evaluation
US9275273B2 (en) Method and system for localizing parts of an object in an image for computer vision applications
US9418458B2 (en) Graph image representation from convolutional neural networks
KR102592270B1 (ko) 얼굴 랜드마크 검출 방법과 장치, 컴퓨터 장치, 및 저장 매체
CN109960742B (zh) 局部信息的搜索方法及装置
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
KR20210025729A (ko) 눈 이미지 세그먼테이션 및 이미지 품질 추정을 위한 뉴럴 네트워크
CN110569731A (zh) 一种人脸识别方法、装置及电子设备
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN110838125A (zh) 医学图像的目标检测方法、装置、设备、存储介质
Woźniak et al. Graphic object feature extraction system based on cuckoo search algorithm
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
Aydogdu et al. Comparison of three different CNN architectures for age classification
CN112381061A (zh) 一种面部表情识别方法及***
Wang et al. A feature-supervised generative adversarial network for environmental monitoring during hazy days
CN112541394A (zh) 黑眼圈及鼻炎识别方法、***及计算机介质
CN115205933A (zh) 面部表情识别方法、装置、设备及可读存储介质
KR20220050617A (ko) 약한 지도학습 기반 객체 위치 검출 방법 및 장치
CN107729863A (zh) 人体指静脉识别方法
KR20150101858A (ko) 생체 인식 방법