KR20240035292A - 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치 및 그 동작 방법 - Google Patents

카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20240035292A
KR20240035292A KR1020220159491A KR20220159491A KR20240035292A KR 20240035292 A KR20240035292 A KR 20240035292A KR 1020220159491 A KR1020220159491 A KR 1020220159491A KR 20220159491 A KR20220159491 A KR 20220159491A KR 20240035292 A KR20240035292 A KR 20240035292A
Authority
KR
South Korea
Prior art keywords
joint feature
camera
image
feature point
position coordinate
Prior art date
Application number
KR1020220159491A
Other languages
English (en)
Inventor
이상훈
이홍표
박성관
서찬원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to PCT/KR2023/011608 priority Critical patent/WO2024053876A1/ko
Publication of KR20240035292A publication Critical patent/KR20240035292A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

복수의 카메라 간의 캘리브레이션을 수행하는 전자 장치 및 그 동작 방법을 제공한다. 본 개시의 일 실시예에 따른 전자 장치는 제1 카메라로부터 획득한 제1 이미지로부터 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 제2 카메라로부터 획득된 제2 이미지로부터 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출하고, 추출된 제1 관절 특징점을 3차원 위치 좌표로 리프팅(lifting)하여 관절들의 3차원 관절 특징점을 획득하고, 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득하고, 프로젝션 관계에 기초하여 제1 카메라와 제2 카메라 간의 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행할 수 있다.

Description

카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치 및 그 동작 방법 {AN ELECTRONIC DEVICE FOR PERFORMING CAMERA CALIBRATION AND A METHOD FOR OPERATING THE SAME}
본 개시는 복수의 카메라의 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치 및 그 동작 방법에 관한 것이다. 구체적으로, 본 개시는 제1 카메라 및 제2 카메라 각각으로부터 획득된 제1 이미지 및 제2 이미지로부터 2차원 특징점(2D feature points)을 추출하고, 추출된 2차원 특징점에 기초하여 제1 카메라와 제2 카메라 간의 위치 관계에 관한 정보를 획득하는 전자 장치를 개시한다.
복수의 카메라를 이용하여 카메라와 객체까지의 거리, 즉 깊이 값을 획득하기 위하여 삼각 측량법(triangulation)이 사용된다. 삼각 측량법을 이용하여 정확한 객체의 깊이 값을 획득하기 위해서는 복수의 카메라 간의 위치 관계, 즉 복수의 카메라 간의 위치 및 방향에 관한 정보를 미리 알고 있을 필요가 있다. 특히, 카메라가 일정한 위치에 고정되어 있지 않은 경우, 예를 들어, 스마트 폰의 카메라, 홈 CCTV, 또는 로봇청소기의 카메라의 경우 이동으로 인하여 카메라의 위치와 시야(view)가 달라질 수 있다. 복수의 카메라 간의 변경된 위치 관계를 정확하게 예측하기 위해서는 카메라 캘리브레이션을 다시 수행하여야 한다.
일반적으로, 복수의 카메라 간의 위치 관계를 예측하는 카메라 캘리브레이션을 수행하는 방법으로는 SfM(Structure-from-Motion), 스테레오 비전(stereo vision), 시각 측위(visual localization), 또는 체커 보드(checker board) 이용하는 방법 등 다양한 방법이 개시되어 있다.
기존 방식 중 SfM은 복수의 카메라를 이용하여 서로 다른 각도에서 촬영된 복수의 이미지로부터 2차원 특징점(2D features points)을 추출하고, 추출된 2차원 특징점 중 대응되는 2차원 특징점을 매칭시킴으로써 카메라의 위치 관계를 예측하는 방식이다. SfM은 동일한 평면 상에 존재하는 2차원 특징점의 쌍(pair)에만 적용되므로, 다른 평면에는 적용되지 않는 한계점이 있다. 다른 방식 중 체커 보드를 사용하는 방식은 복수의 카메라를 이용하여 체커 보드를 촬영하여 복수의 이미지를 획득하고, 획득된 복수의 이미지에서 체커 보드의 격자점들을 매칭하는 방식으로 카메라 간의 위치 관계를 예측하는 방식이다. 체커 보드를 사용하는 방식은 체커 보드 상의 모든 격자점들이 동일 평면 상에 존재하여야 한다는 점이 전제되어야 하며, 체커 보드를 반드시 필요로 하므로 번거롭고, 카메라의 위치가 변경되는 경우 체커 보드를 다시 준비하여야 한다는 문제점이 있다.
따라서, 2차원 특징점이 동일 평면 상에 존재하여야 되거나 또는 체커 보드 등 별도의 장치가 없이도 복수의 카메라 간의 위치 관계를 정확하게 예측할 필요가 있다.
상술한 기술적 과제를 해결하기 위하여 본 개시의 일 측면(aspect)은 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치를 제공한다. 본 개시의 일 실시예에 따른 전자 장치는 통신 인터페이스, 적어도 하나의 명령어들(instructions)를 저장하는 메모리, 및 적어도 하나의 명령어들을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는 통신 인터페이스를 통해 제1 카메라로부터 사용자를 촬영한 제1 이미지를 획득하고, 제2 카메라로부터 사용자를 촬영한 제2 이미지를 획득할 수 있다. 상기 적어도 하나의 프로세서는 제1 이미지로부터 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 제2 이미지로부터 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출할 수 있다. 상기 적어도 하나의 프로세서는 추출된 제1 관절 특징점을 3차원 위치 좌표로 리프팅(lifting)하여 관절들의 3차원 관절 특징점을 획득할 수 있다. 상기 적어도 하나의 프로세서는 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득할 수 있다. 상기 적어도 하나의 프로세서는 획득된 프로젝션 관계에 기초하여 제1 카메라와 제2 카메라 간의 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행할 수 있다.
상술한 기술적 과제를 해결하기 위하여 본 개시의 다른 측면(another aspect)은 전자 장치가 카메라 캘리브레이션을 수행하는 방법을 제공한다. 상기 방법은 제1 카메라로부터 사용자를 촬영한 제1 이미지를 획득하고, 제2 카메라로부터 사용자를 촬영한 제2 이미지를 획득하는 단계를 포함할 수 있다. 상기 방법은 제1 이미지로부터 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 제2 이미지로부터 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출하는 단계를 포함할 수 있다. 상기 방법은 추출된 제1 관절 특징점을 3차원 위치 좌표로 리프팅(lifting)하여 관절들의 3차원 관절 특징점을 획득하는 단계를 포함할 수 있다. 상기 방법은 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득하는 단계를 포함할 수 있다. 상기 방법은 획득된 프로젝션 관계에 기초하여, 제1 카메라와 제2 카메라 간의 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행하는 단계를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위하여 본 개시의 또 다른 측면은 컴퓨터로 읽을 수 있는 저장 매체를 포함하는 컴퓨터 프로그램 제품(Computer Program Product)를 제공한다. 상기 저장 매체는 제1 카메라로부터 사용자를 촬영한 제1 이미지를 획득하고, 제2 카메라로부터 상기 사용자를 촬영한 제2 이미지를 획득하는 동작, 제1 이미지로부터 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 제2 이미지로부터 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출하는 동작, 추출된 제1 관절 특징점을 3차원 위치 좌표로 리프팅(lifting)하여 관절들의 3차원 관절 특징점을 획득하는 동작, 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득하는 동작, 및 획득된 프로젝션 관계에 기초하여 제1 카메라와 제2 카메라 간의 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행하는 동작을 전자 장치가 수행하기 위하여, 상기 전자 장치에 의해 판독 가능한 명령어들(instructions)을 포함할 수 있다.
본 개시는, 다음의 자세한 설명과 그에 수반되는 도면들의 결합으로 쉽게 이해될 수 있으며, 참조 번호(reference numerals)들은 구조적 구성요소(structural elements)를 의미한다.
도 1a는 본 개시의 일 실시예에 따른 전자 장치가 카메라 캘리브레이션을 수행하는 동작을 설명하기 위한 개념도이다.
도 1b는 본 개시의 일 실시예에 따른 전자 장치가 카메라 캘리브레이션을 수행하는 동작을 도시한 도면이다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 구성 요소를 도시한 블록도이다.
도 3은 본 개시의 일 실시예에 따른 전자 장치의 각 구성 요소들의 동작 및 구성 요소들 간 송수신되는 데이터를 도시한 도면이다.
도 4는 본 개시의 일 실시예에 따른 전자 장치가 카메라 캘리브레이션을 수행하는 방법을 도시한 흐름도이다.
도 5는 본 개시의 일 실시예에 따른 전자 장치가 3차원 관절 특징점이 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단하는 방법을 도시한 흐름도이다.
도 6은 본 개시의 일 실시예에 따른 전자 장치가 3차원 관절 특징점이 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단하는 동작을 도시한 도면이다.
도 7은 본 개시의 일 실시예에 따른 전자 장치가 복수의 이미지 프레임들 중 카메라 캘리브레이션에 적용하기에 적합한 이미지 프레임을 식별하고, 식별된 이미지 프레임을 이용하여 카메라 캘리브레이션을 수행하는 방법을 도시한 흐름도이다.
도 8은 본 개시의 일 실시예에 따른 전자 장치가 복수의 이미지 프레임들 중 카메라 캘리브레이션에 적용하기에 적합한 이미지 프레임을 식별하는 동작을 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시예에 따른 전자 장치가 재투영(reprojection)을 통해 카메라 캘리브레이션의 정확도를 판단하는 방법을 도시한 흐름도이다.
도 10은 본 개시의 일 실시예에 따른 전자 장치가 재투영을 통해 카메라 캘리브레이션의 정확도를 판단하는 동작을 도시한 도면이다.
도 11은 본 개시의 일 실시예에 따른 전자 장치가 사용자의 3차원 자세(3D pose)를 획득하고, 획득된 3차원 자세로부터 카메라 캘리브레이션의 정확도를 판단하는 방법을 도시한 흐름도이다.
도 12a는 카메라 캘리브레이션이 정확하게 수행된 결과에 따른 3차원 자세를 도시한 도면이다.
도 12b는 카메라 캘리브레이션이 부정확하게 수행되어 리캘리브레이션이 필요한 3차원 자세를 도시한 도면이다.
도 13은 본 개시의 일 실시예에 따른 전자 장치가 복수의 사용자가 포함된 이미지로부터 복수의 특징점을 추출하고, 추출된 복수의 특징점을 이용하여 카메라 캘리브레이션을 수행하는 방법을 도시한 흐름도이다.
도 14는 본 개시의 일 실시예에 따른 전자 장치가 복수의 사용자가 포함된 이미지로부터 복수의 특징점을 추출하고, 추출된 복수의 특징점을 이용하여 복수의 사용자를 구별하는 동작을 도시한 도면이다.
본 명세서의 실시예들에서 사용되는 용어는 본 개시의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.
본 개시 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 본 명세서에 기재된 "...부", "...모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 시스템"이라는 표현은, 그 시스템이 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
또한, 본 개시에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
본 개시에서, '카메라 캘리브레이션(camera calibration)'은 복수의 카메라 간의 위치 관계를 예측 또는 획득하는 동작을 의미한다. 카메라 간의 위치 관계는 서로 다른 위치에 배치된 복수의 카메라의 위치 및 방향에 관한 정보를 포함할 수 있다. 본 개시의 일 실시예에서, 카메라 캘리브레이션은 R로 표시되는 회전 행렬(rotation matrix) 및 t로 표시되는 변환 벡터(translation vector)를 획득하는 동작을 포함할 수 있다. 카메라 캘리브레이션은 '카메라 간의 포즈 추정(pose estimation)'이라는 표현으로 지칭될 수도 있다.
본 개시에서, '관절(joint)'은 뼈와 뼈가 서로 연결되는 인체의 부분으로서, 예를 들어, 머리, 목, 팔, 어깨, 허리, 무릎, 다리, 또는 발에 포함되는 하나 이상의 부위를 나타낸다.
본 개시에서, '관절 특징점'은 신체에 포함되는 복수의 관절에 관한 위치 좌표값을 나타낸다.
본 개시에서, 사용자의 '3차원 자세(3D pose)'는 사용자의 관절의 3차원 특징점의 3차원 위치 좌표값으로 구성된 자세를 의미한다. 3차원 자세에서 '자세'는 카메라 캘리브레이션의 다른 표현인 카메라 간의 포즈(pose)의 의미와는 다르다.
본 개시에서, '인공지능(Artificial Intelligence)'과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
본 개시에서, '인공지능 모델'은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망 모델은 심층 신경망(DNN: Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크(Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
이하에서는 도면을 참조하여 본 개시의 실시예들을 상세하게 설명한다.
도 1a는 본 개시의 일 실시예에 따른 전자 장치가 카메라 캘리브레이션을 수행하는 동작을 설명하기 위한 개념도이다.
도 1a를 참조하면, 제1 카메라(210)는 사용자(1)를 촬영하여 제1 이미지(10)를 획득하고, 제2 카메라(220)는 사용자(1)를 촬영하여 제2 이미지(20)를 획득할 수 있다. 제1 카메라(210)와 제2 카메라(220)는 서로 다른 위치에 배치되고, 다른 방향으로 객체(도 1에 도시된 실시예에서는 '사용자(1)')를 향하도록 배치될 수 있다. 제1 카메라(210)에 의해 촬영된 제1 이미지(10) 및 제2 카메라(220)에 의해 촬영된 제2 이미지(20)는 2차원 이미지(2D image)일 수 있다. 전자 장치(100, 도 2 참조)는 제1 카메라(210)로부터 제1 이미지(10)를 획득하고, 제2 카메라(220)로부터 제2 이미지(20)를 획득할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 제1 카메라(210) 및 제2 카메라(220)와 유선 또는 무선 통신 네트워크를 통해 연결되고, 유선 또는 무선 통신 네트워크를 통해 제1 이미지(10) 및 제2 이미지(20)를 수신할 수 있다.
전자 장치(100)는 제1 이미지(10) 및 제2 이미지(20)로부터 각각 관절 특징점을 추출한다(동작 ①). 본 개시의 일 실시예에서, 전자 장치(100)는 제1 이미지(10)로부터 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n)을 추출하고, 제2 이미지(20)로부터 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)을 추출할 수 있다. 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n) 및 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)은 사용자(1)의 신체에 포함되는 복수의 관절, 예를 들어, 머리, 목, 팔, 어깨, 허리, 무릎, 다리, 또는 발에 포함되는 하나 이상의 부위에 관한 복수의 2차원 위치 좌표값을 포함할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 2차원 이미지로부터 사람의 관절에 관한 관절 특징점에 해당되는 2차원 위치 좌표값을 추출하도록 미리 학습된(trained) 인공지능 모델(Artificial Intelligence model)을 이용하여 제1 이미지(10) 및 제2 이미지(20) 각각으로부터 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n) 및 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)을 획득할 수 있다.
전자 장치(100)는 제1 이미지(10)로부터 추출된 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n)을 3차원 위치 좌표값으로 리프팅(lifting)하여 3차원 관절 특징점(P1, P2, ..., Pn)을 획득할 수 있다(동작 ②). 본 개시의 일 실시예에서, 전자 장치(100)는 RGB 이미지에 포함된 관절 특징점으로부터 3차원 관절 특징점을 획득하도록 미리 학습된 인공지능 모델을 이용하여 2차원 위치 좌표값인 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n)으로부터 3차원 관절 특징점(P1, P2, ... , Pn)을 획득할 수 있다. 예를 들어, 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n) 중 제5 특징점(Pi1_5)은 리프팅에 의해 3차원 위치 좌표값 중 제5 위치 좌표값(P5)으로 변환될 수 있다.
전자 장치(100)는 3차원 관절 특징점(P1, P2, ..., Pn)을 제2 이미지(20)의 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)과 매칭시키기 위한 프로젝션 관계를 획득할 수 있다(동작 ③). 본 개시의 일 실시예에서, 전자 장치(100)는 3차원 관절 특징점(P1, P2, ..., Pn)을 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)의 2차원 위치 좌표값과 매칭되도록 투영(projection)하기 위한 프로젝션 관계에 관한 정보를 획득할 수 있다. 3차원 관절 특징점(P1, P2, ..., Pn)의 투영 결과에 따라 3차원 관절 특징점(P1, P2, ..., Pn)과 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)의 조합은 2D-3D 대응 관계(2D-3D correspondence)를 가질 수 있다. 도 1a에 도시된 실시예에서, 3차원 관절 특징점(P1, P2, ... ,Pn) 중 제5 위치 좌표값(P5)은 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n) 중 제5 특징점(Pi2_5)으로 투영되고, 제5 위치 좌표값(P5)과 제5 특징점(Pi2_5)은 2D-3D 대응 관계를 가질 수 있다. 본 개시 일 실시예에서 '프로젝션 관계'는 2D-3D 대응 관계에 기초하여 3차원 위치 좌표값을 2차원 위치 좌표값으로 투영하기 위한 회전 방향 및 이동 거리값에 관한 정보를 포함할 수 있다.
전자 장치(100)는 프로젝션 관계에 기초하여 제2 카메라(220)의 위치 관계를 예측한다(동작 ④). 본 개시의 일 실시예에서, 전자 장치(100)는 3차원 관절 특징점(P1, P2, ..., Pn)과 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)의 프로젝션 관계에 기초하여, 제2 카메라(220)의 위치 및 방향을 예측할 수 있다.
전자 장치(100)는 제1 카메라(210)와 제2 카메라(220) 간의 상대적인 위치 관계를 획득할 수 있다(동작 ⑤). 본 개시의 일 실시예에서, 전자 장치(100)는 카메라 간의 포즈(pose)로서, 제1 카메라(210)의 위치 및 방향에 대한 제2 카메라(220)의 상대적인 위치 및 방향에 관한 정보를 획득할 수 있다. 예를 들어, 전자 장치(100)는 PnP(Perspective-n-Point) 방법으로 카메라 간의 상대적인 위치 관계를 추정할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 회전 행렬(rotation matrix, R)과 변환 벡터(translation vector, t)를 포함하는 카메라 간의 상대적인 위치 관계에 관한 정보를 획득할 수 있다.
전자 장치(100)는 카메라 간의 상대적인 위치 관계를 이용하여 카메라 캘리브레이션(camera calibration)을 수행할 수 있다. 전자 장치(100)가 제1 카메라(210)로부터 획득한 제1 이미지(10) 및 제2 카메라(220)로부터 획득한 제2 이미지(20)를 이용하여 카메라 캘리브레이션을 수행하는 구체적인 방법에 대해서는 도 1b를 참조하여 설명하기로 한다.
도 1b는 본 개시의 일 실시예에 따른 전자 장치가 카메라 캘리브레이션을 수행하는 동작을 도시한 도면이다.
도 1b를 참조하면, 제1 카메라(210)는 사용자를 촬영하여 2차원 이미지(2D image)인 제1 이미지(10)를 획득하고, 제2 카메라(220)는 사용자를 촬영하여 2차원 이미지인 제2 이미지(20)를 획득할 수 있다. 전자 장치(100, 도 2 참조)는 제1 카메라(210)로부터 제1 이미지(10)를 획득하고, 제2 카메라(220)로부터 제2 이미지(20)를 획득할 수 있다.
전자 장치(100)는 제1 이미지(10) 및 제2 이미지(20)로부터 각각 관절 특징점을 추출할 수 있다. 도 1b에 도시된 실시예에서, 전자 장치(100)는 제1 이미지(10)로부터 사용자의 관절, 예를 들어, 머리, 목, 팔, 어깨, 허리, 무릎, 다리, 또는 발에 포함되는 특징점인 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n)을 추출하고, 제2 이미지(20)로부터 사용자의 관절에 관한 특징점인 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)을 추출할 수 있다. 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n) 및 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)은 사용자의 관절들에 관한 복수의 2차원 위치 좌표값을 포함할 수 있다. 전자 장치(100)는 관절들에 관한 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n)에 기초하여, 사용자의 2차원 자세(2D pose)를 획득할 수 있다. 마찬가지로, 전자 장치(100)는 관절들에 관한 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)에 기초하여 사용자의 2차원 자세를 획득할 수 있다.
전자 장치(100)는 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n)을 2D-3D 리프팅(2D-3D lifting)하여 3차원 관절 특징점(P1, P2, ... , Pn)을 획득할 수 있다. 전자 장치(100)는 2D-3D 리프팅을 수행하여, 2차원 위치 좌표값으로 구성된 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n)을 3차원 위치 좌표값인 3차원 관절 특징점(P1, P2, ... , Pn)으로 변환할 수 있다. 도 1b에 도시된 실시예에서, 전자 장치(100)는 2D-3D 리프팅을 통해 3차원 관절 특징점(P1, P2, ... , Pn)을 포함하는 3차원 이미지(30)를 획득할 수 있다. 전자 장치(100)는 3차원 이미지(30)에 포함된 3차원 관절 특징점(P1, P2, ... , Pn)에 기초하여 사용자의 3차원 자세(3D pose)를 예측할 수 있다.
전자 장치(100)는 3차원 관절 특징점(P1, P2, ... , Pn)을 제2 이미지(20)로부터 추출된 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)과 매칭시키기 위한 프로젝션 관계(R, t)를 획득할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 3차원 관절 특징점(P1, P2, ..., Pn)을 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)의 2차원 위치 좌표값과 매칭되도록 투영(projection)하기 위한 프로젝션 관계(R, t)에 관한 정보를 획득할 수 있다. 본 개시의 일 실시예에서, 프로젝션 관계(R, t)는 회전 행렬(rotation matrix, R)과 변환 벡터(translation vector, t)를 포함하는 카메라 간의 상대적인 위치 관계에 관한 정보를 포함할 수 있다.
전자 장치(100)는 프로젝션 관계(R, t)에 기초하여 제1 카메라(210)와 제2 카메라(220) 간의 상대적인 위치 관계를 예측하고, 이를 통해 카메라 캘리브레이션을 수행할 수 있다.
일반적으로 사용되는 기존의 카메라 캘리브레이션 방법으로는 SfM(Structure-from-Motion), 스테레오 비전(stereo vision), 시각 측위(visual localization), 또는 체커 보드(checker board) 이용하는 방법 등이 개시되어 있다. 기존 방식 중 SfM은 복수의 카메라를 이용하여 서로 다른 각도에서 촬영된 복수의 이미지로부터 2차원 특징점(2D features points)을 추출하고, 추출된 2차원 특징점 중 대응되는 2차원 특징점을 매칭시킴으로써 카메라의 위치 관계를 예측하는 방식이다. SfM은 동일한 평면 상에 존재하는 2차원 특징점의 쌍(pair)에만 적용되므로, 다른 평면에는 적용되지 않는 한계점이 있다. 다른 방식 중 체커 보드를 사용하는 방식은 복수의 카메라를 이용하여 체커 보드를 촬영하여 복수의 이미지를 획득하고, 획득된 복수의 이미지에서 체커 보드의 격자점들을 매칭하는 방식으로 카메라 간의 위치 관계를 예측하는 방식이다. 체커 보드를 사용하는 방식은 체커 보드 상의 모든 격자점들이 동일 평면 상에 존재하여야 한다는 전제 조건이 필요하며, 체커 보드를 반드시 필요로 하므로 번거롭고, 카메라의 위치가 변경되는 경우 체커 보드를 다시 준비하여야 한다는 문제점이 있다. 또한, 스테레오 비전 또는 시각 측위 방법은 기준점의 3차원 위치 좌표값을 미리 알고 있어야 하는 등의 전제 조건이 반드시 필요하다.
본 개시는 2차원 특징점이 동일 평면 상에 존재하여야 하는 등의 전제 조건이나 체커 보드 등 별도의 장치없이, 사용자의 관절에 관한 특징점을 이용하여 카메라 간의 위치 관계를 예측하여 카메라 캘리브레이션을 수행하는 전자 장치(100) 및 그 동작 방법을 제공하는 것을 목적으로 한다.
도 1a 및 도 1b에 도시된 실시예에 따른 전자 장치(100)는 제1 카메라(210) 및 제2 카메라(220)로부터 각각 획득한 제1 이미지(10) 및 제2 이미지(20)로부터 사용자의 관절들에 관한 2차원 위치 좌표값인 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n) 및 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)을 획득하고, 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n)을 3차원 위치 좌표값인 3차원 관절 특징점(P1, P2, ... , Pn)으로 리프팅(lifting)하며, 리프팅을 통해 획득한 3차원 관절 특징점(P1, P2, ... , Pn)을 제2 관절 특징점(Pi2_1, Pi2_2, ... , Pi2_n)으로 투영(projection)하기 위한 프로젝션 관계(R, t)를 획득하고, 프로젝션 관계(R, t)에 기초하여 제1 카메라(210)와 제2 카메라(220) 간의 상대적인 위치 관계를 획득함으로써 카메라 캘리브레이션을 수행할 수 있다. 본 개시의 일 실시예에 따른 전자 장치(100)는 사용자의 관절들에 관한 2차원 특징점을 이용하는 바, 2차원 특징점들이 동일 평면 상에 존재하여야 한다는 전제 조건이 적용되지 않고, 체커 보드 등 불필요한 장치 없이도 카메라 캘리브레이션의 정확도 및 속도를 향상시키는 기술적 효과를 제공한다. 또한, 본 개시의 일 실시예에 따른 전자 장치(100)는 제1 관절 특징점(Pi1_1, Pi1_2, ... , Pi1_n)을 리프팅하여 3차원 관절 특징점(P1, P2, ... , Pn)을 획득하는 바, 기준점의 3차원 위치 좌표값을 미리 알고 있을 필요도 없다.
본 개시의 일 실시예에 따른 전자 장치(100)는 카메라가 고정된 상황이 아니고, 카메라의 위치 또는 시야(view)가 달라지는 환경, 예를 들어, 모바일 디바이스의 카메라, 홈 CCTV, 또는 로봇 청소기의 카메라 등의 환경에서 사용자의 이미지로부터 추출된 관절 특징점을 이용하여 카메라 캘리브레이션을 수행하는 바, 일상 생활에서 활용도를 높일 수 있다.
본 개시의 일 실시예에 따른 전자 장치(100)는 카메라 캘리브레이션을 수행하여 획득한 제1 카메라(210)와 제2 카메라(220) 간의 상대적인 위치 관계, 제1 이미지(10), 및 제2 이미지(20)에 기초하여, 삼각측량법(triangulation)을 통해 사용자의 3차원 자세(3D pose)를 획득할 수 있다.
도 2는 본 개시의 일 실시예에 따른 전자 장치(100)의 구성 요소를 도시한 블록도이다.
전자 장치(100)는 스마트 폰(smart phone), 태블릿 PC, 노트북 컴퓨터(laptop computer), 디지털 카메라, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, 또는 MP3 플레이어 등 모바일 디바이스일 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 TV, 에어컨, 로봇청소기, 또는 의류 관리기 등 가전 기기(home appliance)일 수도 있다. 그러나, 이에 한정되는 것은 아니고, 본 개시의 다른 실시예에서, 전자 장치(100)는 스마트 워치, 안경형 증강 현실 장치(예를 들어, AR(Augmented Reality) 글래스), 머리 착용형 장치(head-mounted-device, HMD), 또는 신체 부착형 장치(예컨대, 스킨 패드(skin pad)) 등 웨어러블 디바이스(wearable device)로 구현될 수도 있다.
도 2를 참조하면, 전자 장치(100)는 통신 인터페이스(110), 프로세서(120), 및 메모리(130)를 포함할 수 있다. 통신 인터페이스(110), 프로세서(120), 및 메모리(130)는 각각 전기적 및/또는 물리적으로 서로 연결될 수 있다. 도 2에는 전자 장치(100)의 동작을 설명하기 위한 필수적 구성 요소만이 도시되었고, 전자 장치(100)가 포함하는 구성 요소가 도 2에 도시된 바와 같이 한정되는 것은 아니다. 본 개시의 일 실시예에서, 전자 장치(100)는 이미지 또는 사용자 인터페이스(User Interface, UI)를 표시하는 디스플레이부를 더 포함할 수 있다. 전자 장치(100)가 모바일 디바이스로 구현되는 경우, 전자 장치(100)는 통신 인터페이스(110) 및 프로세서(120)에 전원을 공급하는 배터리를 더 포함할 수 있다.
제1 카메라(210) 및 제2 카메라(220)는 현실 공간(예를 들어, 실내 공간)에 포함되는 객체를 촬영하여 이미지를 획득하도록 구성된다. 제1 카메라(210) 및 제2 카메라(220)는 각각 렌즈 모듈, 이미지 센서, 및 이미지 프로세싱 모듈을 포함할 수 있다. 제1 카메라(210) 및 제2 카메라(220)는 이미지 센서(예를 들어, CMOS 또는 CCD)에 의해 객체에 관한 정지 이미지(still image) 또는 동영상(video)을 획득할 수 있다. 이미지 프로세싱 모듈은 이미지 센서를 통해 획득된 단일 이미지 프레임으로 구성된 정지 이미지 또는 복수의 이미지 프레임으로 구성된 동영상 데이터를 인코딩하여 프로세서(120)에 전달할 수 있다.
본 개시의 일 실시예에서, 제1 카메라(210)는 사용자를 촬영하여 제1 이미지를 획득하고, 제2 카메라(220)는 사용자를 촬영하여 제2 이미지를 획득할 수 있다. 제1 카메라(210) 및 제2 카메라(220)는 유선 또는 무선 통신 네트워크를 통해 전자 장치(100)와 연결되고, 데이터를 송수신할 수 있다. 도 2에 도시된 실시예에서, 제1 카메라(210) 및 제2 카메라(220)는 전자 장치(100)와는 별개의 장치로 도시되어 있지만, 본 개시가 이에 한정되는 것은 아니다. 본 개시의 일 실시예에서, 제1 카메라(210)는 전자 장치(100)의 구성 요소로서 포함되고, 제2 카메라(220)는 전자 장치(100)와 별개의 장치로 구현될 수 있다. 본 개시의 다른 실시예에서, 제1 카메라(210) 및 제2 카메라(220)는 모두 전자 장치(100)의 구성 요소로서 포함될 수도 있다.
통신 인터페이스(110)는 외부 디바이스 또는 서버와 데이터 통신을 수행하도록 구성된다. 본 개시의 일 실시예에서, 통신 인터페이스(110)는 유선 또는 무선 통신 네트워크를 통해 제1 카메라(210) 및 제2 카메라(220)와 연결되고, 제1 카메라(210)로부터 제1 이미지를 수신하고, 제2 카메라(220)로부터 제2 이미지를 수신할 수 있다. 통신 인터페이스(110)는 예를 들어, 유선 랜, 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(zigbee), WFD(Wi-Fi Direct), 적외선 통신(IrDA, infrared Data Association), BLE(Bluetooth Low Energy), NFC(Near Field Communication), 와이브로(Wireless Broadband Internet, Wibro), 와이맥스(World Interoperability for Microwave Access, WiMAX), SWAP(Shared Wireless Access Protocol), 와이기그(Wireless Gigabit Allicance, WiGig) 및 RF 통신을 포함하는 데이터 통신 방식 중 적어도 하나를 이용하여 제1 카메라(210) 및 제2 카메라(220)로부터 각각 제1 이미지 및 제2 이미지를 수신할 수 있다. 통신 인터페이스(110)는 수신된 제1 이미지 및 제2 이미지의 이미지 데이터를 프로세서(120)에 제공할 수 있다.
프로세서(120)는 메모리(130)에 저장된 프로그램의 하나 이상의 명령어들(instructions)을 실행할 수 있다. 프로세서(120)는 산술, 로직 및 입출력 연산과 이미지 프로세싱을 수행하는 하드웨어 구성 요소로 구성될 수 있다. 도 2에는 프로세서(120)가 하나의 엘리먼트로 도시되었으나, 이에 한정되는 것은 아니다. 본 개시의 일 실시예에서, 프로세서(120)는 하나 이상의 복수 개의 엘리먼트들로 구성될 수 있다. 프로세서(120)는 CPU(Central Processing Unit), AP(Application Processor), DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU(Graphic Processing Unit), VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU(Neural Processing Unit)와 같은 인공지능 전용 프로세서일 수 있다. 프로세서(120)는, 메모리(130)에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(120)가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
메모리(130)는 예를 들어, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 또는 광 디스크 중 적어도 하나의 타입의 저장매체로 구성될 수 있다.
메모리(130)에는 전자 장치(100)가 캘리브레이션을 수행하는 동작들과 관련된 명령어들(instructions)이 저장될 수 있다. 본 개시의 일 실시예에서, 메모리(130)에는 프로세서(120)가 판독할 수 있는 명령어들, 알고리즘(algorithm), 데이터 구조, 프로그램 코드(program code), 및 애플리케이션 프로그램(application program) 중 적어도 하나가 저장될 수 있다. 메모리(130)에 저장되는 명령어들, 알고리즘, 데이터 구조, 및 프로그램 코드는 예를 들어, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다.
메모리(130)에는 관절 특징점 추출 모듈(132), 리프팅 모듈(134), 카메라 캘리브레이션 모듈(136), 및 3차원 자세 추정 모듈(138)에 관한 명령어들, 알고리즘, 데이터 구조, 또는 프로그램 코드가 저장되어 있을 수 있다. 메모리(130)에 포함되는 '모듈'은 프로세서(120)에 의해 수행되는 기능이나 동작을 처리하는 단위를 의미하고, 이는 명령어들, 알고리즘, 데이터 구조, 또는 프로그램 코드와 같은 소프트웨어로 구현될 수 있다.
도 3은 본 개시의 일 실시예에 따른 전자 장치(100)의 각 구성 요소들의 동작 및 구성 요소들 간 송수신되는 데이터를 도시한 도면이다.
이하에서는, 도 2 및 도 3을 함께 참조하여, 프로세서(120)가 메모리(130)에 저장된 모듈들에 포함된 명령어들 또는 프로그램 코드들을 실행함으로써 수행하는 기능 또는 동작을 설명하기로 한다.
관절 특징점 추출 모듈(132)은 2차원 이미지로부터 사람의 관절에 관한 특징점을 추출하는 기능 및/또는 동작과 관련된 명령어들 또는 프로그램 코드로 구성된다. 본 개시의 일 실시예에서, 관절 특징점 추출 모듈(132)은 2차원 이미지를 입력 데이터로 적용하고, 2차원 이미지로부터 추출된 사람의 관절, 예를 들어, 머리, 목, 팔, 어깨, 허리, 무릎, 다리, 또는 발에 포함되는 하나 이상의 부위에 관한 복수의 2차원 위치 좌표값에 관한 정답값(groundtruth)을 출력 데이터로서 적용하는 지도형 학습(supervised learning)을 통해 트레이닝된(trained) 인공지능 모델을 포함할 수 있다. 인공지능 모델은 예를 들어, CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크(Deep Q-Networks) 등의 심층 신경망 모델(deep neural network, DNN)으로 구성될 수 있다. 본 개시의 일 실시예에서, 관절 특징점 추출 모듈(132)은 2차원 RGB 이미지로부터 관절들의 2차원 특징점을 추출하고, 추출된 2차원 특징점을 이용하여 2차원 자세(2D pose)를 출력하도록 학습된 자세 예측 모델(pose estimation model)을 포함할 수 있다. 자세 예측 모델은 예를 들어, TensorFlow Lite 또는 LitePose 등 심층 신경망 모델로 구성될 수 있으나, 이에 한정되는 것은 아니다.
프로세서(120)는 관절 특징점 추출 모듈(132)의 명령어들 또는 프로그램 코드를 실행함으로써, 제1 이미지로부터 관절에 관한 2차원 위치 좌표값인 제1 관절 특징점을 추출하고, 제2 이미지로부터 관절에 관한 2차원 위치 좌표값인 제2 관절 특징점을 추출할 수 있다. 본 개시의 일 실시예에서, 프로세서(120)는 심층 신경망 모델로 구성된 자세 예측 모델에 제1 이미지를 입력하고, 자세 예측 모델을 이용하는 추론(inference)을 통해 제1 이미지로부터 제1 관절 특징점을 추출할 수 있다. 마찬가지로, 프로세서(120)는 자세 예측 모델에 제2 이미지를 입력하고, 자세 예측 모델을 이용하는 추론을 통해 제2 이미지로부터 제2 관절 특징점을 추출할 수 있다. 프로세서(120)는 추출된 제1 관절 특징점에 기초하여 제1 이미지로부터 사용자의 2차원 자세(2D pose)를 획득할 수 있다. 프로세서(120)는 제2 관절 특징점에 기초하여 제2 이미지로부터 사용자의 2차원 자세를 획득할 수 있다.
관절 특징점 추출 모듈(132)은 제1 관절 특징점 데이터를 리프팅 모듈(134)에 제공하고, 제2 관절 특징점 데이터를 카메라 캘리브레이션 모듈(136)에 제공할 수 있다.
리프팅 모듈(134)은 2차원 위치 좌표값으로부터 3차원 위치 좌표값을 획득하는 기능 및/또는 동작과 관련된 명령어들 또는 프로그램 코드로 구성된다. 본 개시의 일 실시예에서, 리프팅 모듈(134)은 RGB 이미지로부터 획득된 2차원 특징점을 입력 데이터로 적용하고, 2차원 특징점에 대응되는 3차원 위치 좌표값을 출력 정답값(groundtruth)으로 적용하는 지도형 학습으로 트레이닝된 인공지능 모델을 포함할 수 있다. 리프팅 모듈(134)에 포함되는 인공지능 모델은 예를 들어, 멀티 스테이지 CNN(multi-stage Convolutional Neural Network)로 구성될 수 있으나, 이에 한정되는 것은 아니다. 리프팅 모듈(134)은 예를 들어, RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크(Deep Q-Networks) 등의 심층 신경망 모델(deep neural network, DNN)을 포함할 수도 있다.
프로세서(120)는 리프팅 모듈(134)의 명령어들 또는 프로그램 코드를 실행함으로써, 2차원 위치 좌표값인 제1 관절 특징점을 리프팅하여 3차원 위치 좌표값인 3차원 관절 특징점을 획득할 수 있다. 본 개시의 일 실시예에서, 프로세서(120)는 리프팅 모듈(134)에 포함된 심층 신경망 모델에 제1 관절 특징점을 입력하고, 심층 신경망 모델을 이용하는 추론을 통해 3차원 위치 좌표값인 3차원 관절 특징점을 획득할 수 있다. 프로세서(120)는 3차원 관절 특징점에 기초하여 사용자의 3차원 자세(3D pose)를 나타내는 리프팅 이미지를 획득할 수 있다.
본 개시의 일 실시예에서, 프로세서(120)는 리프팅을 통해 획득한 3차원 관절 특징점에 포함되는 3차원 위치 좌표값들 중 Z축 방향에 따른 위치 좌표값들의 분포에 기초하여, 3차원 관절 특징점으로 구성된 사용자의 3차원 자세가 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단할 수 있다. 사용자의 자세가 카메라 캘리브레이션에 적용하기에 적절하지 않다고 판단된 경우, 프로세서(120)는 사용자에게 기 설정된 자세를 취할 것을 요구하는 가이드 정보를 디스플레이부 상에 디스플레이할 수 있다. 프로세서(120)가 3차원 관절 특징점의 Z축 좌표값들에 기초하여 카메라 캘리브레이션에 적용 적합성을 판단하는 구체적인 실시예에 대해서는 도 5 및 도 6에서 상세하게 설명하기로 한다.
리프팅 모듈(134)은 3차원 위치 좌표값을 카메라 캘리브레이션 모듈(136)에 제공할 수 있다.
본 개시의 일 실시예에서, 프로세서(120)는 제1 카메라(210)로부터 일정 시간 동안 촬영된 복수의 이미지 프레임을 획득하고, 리프팅 모듈(134)을 이용하여 복수의 이미지 프레임 각각으로부터 추출된 복수의 제1 관절 특징점을 리프팅하여 복수의 3차원 관절 특징점을 획득할 수 있다. 프로세서(120)는 복수의 3차원 관절 특징점에 포함되는 복수의 3차원 위치 좌표값들 중 Z축 방향에 따른 위치 좌표값들의 분포 정도가 최대인 이미지 프레임을 식별하고, 식별된 이미지 프레임에 관한 정보를 카메라 캘리브레이션 모듈(136)에 제공할 수 있다. 프로세서(120)가 복수의 이미지 프레임으로부터 3차원 위치 좌표값들 중 Z축 좌표값의 분포 정도가 최대인 이미지 프레임을 식별하고, 식별된 이미지 프레임을 이용하여 카메라 캘리브레이션을 수행하는 구체적인 실시예에 대해서는 도 7 및 도 8에서 상세하게 설명하기로 한다.
카메라 캘리브레이션 모듈(136)은 프로젝션 관계에 기초하여 카메라 간의 상대적인 위치 관계를 획득하는 기능 및/또는 동작과 관련된 명령어들 또는 프로그램 코드로 구성된다. 본 개시의 일 실시예에서, 카메라 캘리브레이션 모듈(136)은 3차원 위치 좌표값을 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 회전 방향 및 위치 이동에 관한 프로젝션 관계의 정보를 획득할 수 있다. 본 개시의 일 실시예에서, '프로젝션 관계(R, t)'는 회전 행렬(rotation matrix, R)과 변환 벡터(translation vector, t)를 포함하는 카메라 간의 상대적인 위치 관계에 관한 정보를 포함할 수 있다.
프로세서(120)는 카메라 캘리브레이션 모듈(136)의 명령어들 또는 프로그램 코드를 실행함으로써, 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 프로젝션하기 위한 프로젝션 관계(R, t)를 획득할 수 있다. 본 개시의 일 실시예에서, 프로세서(120)는 3차원 관절 특징점이 제2 관절 특징점의 2차원 위치 좌표값과 매칭되도록 3차원 관절 특징점을 투영(projection)하기 위한 회전 방향 및 이동 거리값에 관한 정보를 획득할 수 있다. 프로세서(120)는 프로젝션 관계에 기초하여 제1 카메라(210)와 제2 카메라(220) 간의 상대적인 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행할 수 있다.
카메라 캘리브레이션 모듈(136)은 프로젝션 관계(R, t)에 관한 정보를 3차원 자세 추정 모듈(138)에 제공할 수 있다.
3차원 자세 추정 모듈(138)은 카메라 캘리브레이션 결과를 반영하여 사용자의 3차원 자세를 추정하는 기능 및/또는 동작과 관련된 명령어들 또는 프로그램 코드로 구성된다. 본 개시의 일 실시예에서, 3차원 자세 추정 모듈(138)은 삼각측량법(triangulation)을 이용하여 사용자의 관절의 특징점에 관한 3차원 위치 좌표값을 계산하고, 계산된 3차원 위치 좌표값을 이용하여 사용자의 3차원 자세를 예측할 수 있다.
프로세서(120)는 3차원 자세 추정 모듈(138)의 명령어들 또는 프로그램 코드를 실행함으로써, 카메라 캘리브레이션 결과를 반영한 사용자의 관절의 특징점에 관한 3차원 위치 좌표값을 획득할 수 있다. 프로세서(120)는 삼각측량법을 이용하여, 제1 관절 특징점, 제2 관절 특징점, 및 카메라 캘리브레이션에 의해 획득된 제1 카메라와 제1 카메라(210)와 제2 카메라(220) 간의 상대적인 위치 관계에 기초하여 사용자의 관절들의 3차원 위치 좌표값을 계산할 수 있다. 프로세서(120)는 3차원 위치 좌표값에 기초하여 사용자의 3차원 자세를 예측할 수 있다.
본 개시의 일 실시예에서, 프로세서(120)는 카메라 캘리브레이션 정보에 기초하여 3차원 위치 좌표값을 2차원 위치 좌표값으로 재투영(re-projection)하여 제1 위치 좌표값 및 제2 위치 좌표값을 획득하고, 재투영 결과 획득된 제1 위치 좌표값과 제2 위치 좌표값에 기초하여 캘리브레이션의 정확도를 판단할 수 있다. 본 개시의 일 실시예에서, 프로세서(120)는 예측된 3차원 자세(3D pose)로부터 관절들 사이의 뼈 길이를 측정하고, 측정된 뼈 길이에 기초하여 캘리브레이션의 정확도를 판단할 수 있다. 프로세서(120)가 카메라 캘리브레이션의 정확도를 판단하는 구체적인 실시예에 대해서는 도 9 내지 도 12b에서 상세하게 설명하기로 한다.
도 4는 본 개시의 일 실시예에 따른 전자 장치(100)가 카메라 캘리브레이션을 수행하는 방법을 도시한 흐름도이다.
단계 S410에서, 전자 장치(100)는 제1 카메라로부터 사용자를 촬영한 제1 이미지를 획득하고, 제2 카메라로부터 사용자를 촬영한 제2 이미지를 획득한다. 본 개시의 일 실시예에서, 전자 장치(100)는 유선 또는 무선 통신 네트워크를 통해 제1 카메라 및 제2 카메라로부터 각각 제1 이미지 및 제2 이미지의 이미지 데이터를 수신할 수 있다. 전자 장치(100)는 예를 들어, 유선 랜, 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(zigbee), WFD(Wi-Fi Direct), 적외선 통신(IrDA, infrared Data Association), BLE(Bluetooth Low Energy), NFC(Near Field Communication), 와이브로(Wireless Broadband Internet, Wibro), 와이맥스(World Interoperability for Microwave Access, WiMAX), SWAP(Shared Wireless Access Protocol), 와이기그(Wireless Gigabit Allicance, WiGig) 및 RF 통신을 포함하는 데이터 통신 방식 중 적어도 하나를 이용하여 제1 카메라(210) 및 제2 카메라(220)로부터 각각 제1 이미지 및 제2 이미지를 수신할 수 있다.
단계 S420에서, 전자 장치(100)는 제1 이미지로부터 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 제2 이미지로부터 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출한다. 본 개시의 일 실시예에서, 전자 장치(100)는 2차원 이미지로부터 사람의 관절, 예를 들어, 머리, 목, 팔, 어깨, 허리, 무릎, 다리, 또는 발에 포함되는 하나 이상의 부위에 관한 복수의 2차원 위치 좌표값을 출력하도록 트레이닝된(trained) 인공지능 모델에 제1 이미지를 입력하고, 인공지능 모델을 이용하는 추론을 통해 제1 관절 특징점을 획득할 수 있다. 마찬가지로, 전자 장치(100)는 인공지능 모델에 제2 이미지를 입력하고, 인공지능 모델을 이용하는 추론을 통해 제2 관절 특징점을 획득할 수 있다. 인공지능 모델은 2차원 이미지를 입력 데이터로 적용하고, 2차원 이미지에 포함된 사람의 관절의 2차원 특징점을 정답값(groundtruth)으로 적용하는 지도형 학습(supervised learning)을 통해 트레이닝된(trained) 심층 신경망 모델(DNN)로 구현될 수 있다. 심층 신경망 모델은 예를 들어, 자세 예측 모델일 수 있다. '자세 예측 모델'은 도 2 및 도 3에서 설명한 것과 동일하므로, 중복되는 설명은 생략한다.
단계 S430에서, 전자 장치(100)는 추출된 제1 관절 특징점을 리프팅(lifting)하여 관절들의 3차원 관절 특징점을 획득한다. 본 개시의 일 실시예에서, 전자 장치(100)는 RGB 이미지로부터 추출된 2차원 특징점을 입력 데이터로 적용하고, 2차원 특징점에 대응되는 3차원 위치 좌표값을 출력 정답값(groundtruth)으로 적용하는 지도형 학습을 통해 트레이닝된 인공지능 모델에 제1 관절 특징점을 입력하고, 인공지능 모델을 이용하는 추론을 통해 관절들의 3차원 관절 특징점을 획득할 수 있다. 인공지능 모델은 예를 들어, 리프팅 기능 및/또는 동작을 수행하는 멀티 스테이지 CNN 모델로 구성될 수 있으나, 이에 한정되는 것은 아니다.
단계 S440에서, 전자 장치(100)는 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득한다. 본 개시의 일 실시예에서, 전자 장치(100)는 3차원 관절 특징점이 제2 관절 특징점의 2차원 위치 좌표값과 매칭되도록 3차원 관절 특징점을 투영하기 위한 회전 방향 및 이동 거리값에 관한 프로젝션 관계를 획득할 수 있다. 본 개시의 일 실시예에서, '프로젝션 관계'는 회전 행렬(rotation matrix, R)과 변환 벡터(translation vector, t)를 포함하는 카메라 간의 상대적인 위치 관계에 관한 정보를 포함할 수 있다.
단계 S450에서, 전자 장치(100)는 획득된 프로젝션 관계에 기초하여 제1 카메라와 제2 카메라 간의 상대적인 위치 관계를 예측하여 카메라 캘리브레이션을 수행한다.
도 5는 본 개시의 일 실시예에 따른 전자 장치(100)가 3차원 관절 특징점이 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단하는 방법을 도시한 흐름도이다.
도 5에 도시된 단계 S510 내지 S530은 도 4에 도시된 단계 S430이 수행된 이후에 수행될 수 있다. 도 5의 단계 S520 또는 S530이 수행된 이후에는 도 4에 도시된 S440이 수행될 수 있다.
도 6은 본 개시의 일 실시예에 따른 전자 장치(100)가 3차원 관절 특징점(P1 내지 Pn)이 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단하는 동작을 도시한 도면이다.
이하에서는, 도 5와 도 6을 함께 참조하여 전자 장치(100)의 동작을 설명하기로 한다.
도 5를 참조하면, 단계 S510에서 전자 장치(100)는 3차원 관절 특징점에 포함되는 3차원 위치 좌표값의 Z축 방향 좌표값의 분포에 기초하여, 3차원 관절 특징점을 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단한다.
도 6을 함께 참조하면, 전자 장치(100)는 제1 관절 특징점을 리프팅(lifting)하여 3차원 관절 특징점(P1 내지 Pn)을 포함하는 리프팅 이미지(600)를 획득할 수 있다. 3차원 관절 특징점(P1 내지 Pn)은 사용자의 관절들, 예를 들어, 머리, 목, 팔, 어깨, 허리, 무릎, 다리, 또는 발에 포함되는 하나 이상의 부위에 관한 3차원 위치 좌표값들을 포함할 수 있다. 예를 들어, 제1 3차원 관절 특징점(P1)은 (x1, y1, z1)의 위치 좌표값을 가지고, 제2 3차원 관절 특징점(P2)은 (x2, y2, z2)의 위치 좌표값을 가지며, 제n 3차원 관절 특징점(Pn)은 (xn, yn, zn)의 위치 좌표값을 가질 수 있다.
전자 장치(100)의 프로세서(120, 도 2 참조)는 3차원 관절 특징점(P1 내지 Pn)에 포함되는 3차원 위치 좌표값 중 Z축 방향에 따른 좌표값의 분포에 기초하여, 3차원 관절 특징점을 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단할 수 있다. 도 6에 도시된 실시예에서, 프로세서(120)는 제1 3차원 관절 특징점(P1)의 Z축 방향의 좌표값인 z1, 제2 3차원 관절 특징점(P2)의 Z축 방향의 좌표값인 z2, ... , 제n 3차원 관절 특징점(Pn)의 Z축 방향의 좌표값인 zn값의 분포 정도를 분석하고, 분포 정도에 기초하여 3차원 관절 특징점(P1 내지 Pn)이 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단할 수 있다. 본 개시의 일 실시예에서, 프로세서(120)는 z1 내지 zn값의 분포 정도가 크면 클수록 3차원 관절 특징점(P1 내지 Pn)을 카메라 캘리브레이션에 적용하기에 적합하다고 판단할 수 있다.
다시 도 5를 참조하면, 판단 결과에 따라 3차원 관절 특징점이 카메라 캘리브레이션에 적용되기에 적합하다고 판단되는 경우(S520), 전자 장치(100)는 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득한다(단계 S440).
판단 결과, 3차원 관절 특징점이 카메라 캘리브레이션에 적용되기에 적합하지 않다고 판단된 경우, 전자 장치(100)는 사용자에게 기 설정된 자세를 취할 것을 요구하는 가이드 정보를 디스플레이한다(단계 S530). 본 개시의 일 실시예에서, '기 설정된 자세'는 Z축 방향의 움직임 정도가 큰 자세일 수 있다. 기 설정된 자세는 사용자 입력에 의해 설정될 수 있지만, 이에 한정되는 것은 아니다. 기 설정된 자세는 가이드 정보로서 미리 입력된 자세일 수도 있다. 기 설정된 자세는 예를 들어, 한 손을 앞으로 뻗은 자세일 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 디스플레이부를 더 포함하고, 프로세서(120, 도 2 참조)는 사용자에게 기 설정된 자세를 취하도록 요구하는 가이드 정보를 디스플레이부 상에 표시하도록 디스플레이부를 제어할 수 있다.
가이드 정보가 디스플레이된 이후, 전자 장치(100)는 가이드 정보에 따라 기 설정된 자세를 취하는 사용자를 다시 촬영하여 제1 이미지 및 제2 이미지를 획득한다(단계 S410).
리프팅을 통해 획득된 3차원 관절 특징점을 이용하여 카메라 캘리브레이션을 수행하기 위해서는, 리프팅된 3차원 관절 특징점의 정확도가 중요하다. 도 5 및 도 6에 도시된 실시예에서, 전자 장치(100)는 3차원 관절 특징점(P1 내지 Pn)에 포함되는 3차원 위치 좌표값들 중 Z축 방향에 따른 좌표값의 분포에 기초하여, 3차원 관절 특징점(P1 내지 Pn)이 카메라 캘리브레이션에 적용되기에 적합한 정확한 값인지 여부를 판단할 수 있다. 또한, 본 개시의 일 실시예에 따른 전자 장치(100)는 3차원 관절 특징점(P1 내지 Pn)이 카메라 캘리브레이션에 적용하기에 적합하지 않은 경우에는 Z축 방향으로 움직임 정도가 많은 자세를 사용자가 취하도록 유도하는 가이드 정보를 디스플레이함으로써, 카메라 캘리브레이션의 정확도를 향상시키는 기술적 효과를 제공할 수 있다.
도 7은 본 개시의 일 실시예에 따른 전자 장치(100)가 복수의 이미지 프레임들 중 카메라 캘리브레이션에 적용하기에 적합한 이미지 프레임을 식별하고, 식별된 이미지 프레임을 이용하여 카메라 캘리브레이션을 수행하는 방법을 도시한 흐름도이다.
도 7에 도시된 단계 S710은 도 4의 단계 S410을 구체화한 단계이다. 도 7에 도시된 단계 S720은 도 4의 단계 S420을 구체화한 단계이다. 도 7에 도시된 단계 S730은 도 4의 단계 S430을 구체화한 단계이다. 도 7에 도시된 단계 S740 및 S750은 도 4의 단계 S440을 구체화한 단계들이다.
도 8은 본 개시의 일 실시예에 따른 전자 장치(100)가 복수의 이미지 프레임들(f1_1 내지 f1_n, f2-_1 내지 f2_n) 중 카메라 캘리브레이션에 적용하기에 적합한 이미지 프레임을 식별하는 동작을 설명하기 위한 도면이다.
이하에서는, 도 7과 도 8을 함께 참조하여 전자 장치(100)의 동작을 설명하기로 한다.
도 7을 참조하면, 단계 S710에서 전자 장치(100)는 제1 카메라(210)로부터 복수의 제1 이미지 프레임을 획득하고, 제2 카메라(220)로부터 복수의 제2 이미지 프레임을 획득한다. 도 8을 함께 참조하면, 전자 장치(100)는 일정 시간 동안 제1 카메라(210)에 의해 촬영된 복수의 제1 이미지 프레임들(f1_1 내지 f1_n)을 획득하고, 제2 카메라(220)에 의해 촬영된 복수의 제2 이미지 프레임들(f2_1 내지 f2_n)을 획득할 수 있다. 복수의 제1 이미지 프레임들(f1_1 내지 f1_n) 및 복수의 제2 이미지 프레임(f2_1 내지 f2_n)은 시간의 흐름에 따른 사용자의 움직임을 반영하는 사용자의 2차원 자세(2D pose)에 관한 정보를 포함할 수 있다.
도 7의 단계 S720에서, 전자 장치(100)는 복수의 이미지 프레임 각각으로부터 복수의 제1 관절 특징점을 추출한다. 도 8을 함께 참조하면, 전자 장치(100)의 프로세서(120, 도 2 참조)는 학습된(trained) 인공지능 모델을 이용하여 복수의 제1 이미지 프레임들(f1_1 내지 f1_n)으로부터 복수의 관절들의 2차원 위치 좌표값인 복수의 제1 관절 특징점을 추출할 수 있다. 본 개시의 일 실시예에서, 프로세서(120)는 자세 예측 모델(pose estimation)을 이용하여 복수의 제1 이미지 프레임들(f1_1 내지 f1_n)으로부터 복수의 제1 관절 특징점을 추출할 수 있다. 프로세서(120)가 인공지능 모델을 이용하여 이미지로부터 관절 특징점을 추출하는 구체적인 방법은 도 2 내지 도 4에서 설명한 방법과 동일하므로, 중복되는 설명은 생략한다. 도 8에 도시된 실시예에서, 프로세서(120)는 복수의 제1 이미지 프레임들(f1_1 내지 f1_n) 중 제1-1 이미지 프레임(f1_1)으로부터 제1 관절 특징점(Pf1_1 내지 Pf1_n)을 추출하고, 제1-2 이미지 프레임(f1_2)으로부터 제1 관절 특징점(Pf2_1 내지 Pf2_n)을 추출하며, 제1-n 이미지 프레임(f1_n)으로부터 제1 관절 특징점(Pfn_1 내지 Pfn_n)을 추출할 수 있다.
도 7의 단계 S730에서, 전자 장치(100)는 복수의 제1 관절 특징점을 리프팅하여 복수의 3차원 관절 특징점을 획득한다. 도 8을 함께 참조하면, 프로세서(120)는 2D-3D 리프팅을 수행하여, 복수의 제1 관절 특징점으로부터 3차원 위치 좌표값인 복수의 3차원 관절 특징점을 획득할 수 있다. 프로세서(120)가 리프팅을 수행하는 방법은 도 2 내지 도 4에서 설명한 방법과 동일하므로, 중복되는 설명은 생략한다. 도 8에 도시된 실시예에서, 프로세서(120)는 제1-1 이미지 프레임(f1_1)의 제1 관절 특징점(Pf1_1 내지 Pf1_n)을 리프팅하여 3차원 관절 특징점(P1_1 내지 P1_n)을 포함하는 제1 리프팅 이미지(i1)를 획득하고, 제1-2 이미지 프레임(f1_2)의 제1 관절 특징점(Pf2_1 내지 Pf2_n)을 리프팅하여 3차원 관절 특징점(P2_1 내지 P2_n)을 포함하는 제2 리프팅 이미지(i2)를 획득하며, 제1-n 이미지 프레임(f1_n)의 제1 관절 특징점(Pfn_1 내지 Pfn_n)을 리프팅하여 3차원 관절 특징점(Pn_1 내지 Pn_n)을 포함하는 제n 리프팅 이미지(in)를 획득할 수 있다.
도 7의 단계 S740에서, 전자 장치(100)는 복수의 3차원 관절 특징점의 Z축 방향의 좌표값들의 분포 정도가 최대인 이미지 프레임을 식별한다. 본 개시의 일 실시예에서, 프로세서(120)는 복수의 리프팅 이미지(i1 내지 in) 중 3차원 관절 특징점에 포함된 복수의 3차원 위치 좌표값 중 Z축 좌표값의 분포 정도가 가장 큰 리프팅 이미지를 식별할 수 있다. 프로세서(120)는 식별된 리프팅 이미지가 복수의 제1 이미지 프레임(f1_1 내지 f1_n) 중 어느 이미지 프레임인지를 식별하고, 복수의 제2 이미지 프레임(f2_1 내지 f2_n) 중 식별된 이미지 프레임에 대응되는 이미지 프레임을 결정할 수 있다. 여기서, '대응되는 이미지 프레임'의 의미는 식별된 이미지 프레임이 획득된 시점과 동일한 시점에 획득된 이미지 프레임을 의미할 수 있다. 예를 들어, Z축 좌표값의 분포 정도가 가장 큰 리프팅 이미지가 복수의 제1 이미지 프레임(f1_1 내지 f1_n) 중 제1-2 이미지 프레임(f1_2)으로부터 변환되었다면, 제1-2 이미지 프레임(f1_2)에 대응되는 이미지 프레임은 제2 카메라(220)에 의해 제1-2 이미지 프레임(f1_2)이 획득된 시점과 동일한 시점에 획득된 제2-2 이미지 프레임(f2_2)일 수 있다. 프로세서(120)는 복수의 제2 이미지 프레임(f2_1 내지 f2_n) 중 제1-2 이미지 프레임(f1_2)에 대응되는 이미지를 제2-2 이미지 프레임(f2_2)로 결정할 수 있다.
도 7의 단계 S750에서, 전자 장치(100)는 식별된 이미지 프레임으로부터 획득된 3차원 관절 좌표값과 복수의 제2 이미지 프레임 중 식별된 이미지 프레임에 대응되는 제2 이미지로부터 추출된 제2 관절 특징점 간의 프로젝션 관계를 획득한다. 도 8에 도시된 실시예에서, 복수의 리프팅 이미지(i1 내지 in) 중 3차원 관절 특징점에 포함된 복수의 3차원 위치 좌표값 중 Z축 좌표값의 분포 정도가 가장 큰 리프팅 이미지가 제1-2 리프팅 이미지(i1_2)로 식별된 경우, 프로세서(120)는 제2 리프팅 이미지(i2)에 포함된 3차원 관절 특징점(P2_1 내지 P2_n)과 제2 카메라(220)에 의해 획득된 복수의 제2 이미지 프레임(f2_1 내지 f2_n) 중 제1-2 이미지 프레임(f1_2)과 대응되는 이미지로 결정된 제2-2 이미지 프레임(f2_2)로부터 추출된 제2 관절 특징점(Pf2_1 내지 Pf2_n) 간의 프로젝션 관계를 획득할 수 있다.
리프팅을 통해 획득된 3차원 관절 특징점을 이용하여 카메라 캘리브레이션을 수행하기 위해서는, 리프팅된 3차원 관절 특징점의 정확도가 중요하다. 도 7 및 도 8에 도시된 실시예에 따른 전자 장치(100)는 일정 시간 동안 제1 카메라(210)에 의해 획득된 복수의 제1 이미지 프레임들(f1_1 내지 f1_n)로부터 추출된 복수의 제1 관절 특징점들을 리프팅하고, 복수의 리프팅 이미지(i1 내지 in) 중 3차원 관절 특징점들 중 Z축 방향의 좌표값의 분포 정도가 최대인 리프팅 이미지를 식별하며, 식별된 리프팅 이미지의 3차원 관절 특징점을 이용하여 카메라 캘리브레이션을 수행하는 바, 캘리브레이션의 정확도를 향상시킬 수 있다.
도 9는 본 개시의 일 실시예에 따른 전자 장치(100)가 재투영(reprojection)을 통해 카메라 캘리브레이션의 정확도를 판단하는 방법을 도시한 흐름도이다.
도 9에 도시된 단계들 S910 내지 S960은 도 4에 도시된 단계 S450이 수행된 이후에 수행된다.
도 10은 본 개시의 일 실시예에 따른 전자 장치(100)가 재투영을 통해 카메라 캘리브레이션의 정확도를 판단하는 동작을 도시한 도면이다.
이하에서는, 도 9와 도10을 함께 참조하여 전자 장치(100)가 카메라 캘리브레이션의 정확도를 판단하는 동작에 대하여 설명하기로 한다.
도 9를 참조하면, 단계 S910에서 전자 장치(100)는 제1 관절 특징점, 제2 관절 특징점, 및 제1 카메라와 제2 카메라 간의 위치 관계에 기초하여, 사용자의 관절들의 3차원 위치 좌표값을 획득한다. 본 개시의 일 실시예에서, 전자 장치(100)는 삼각측량법(triangulation)을 이용하여 제1 이미지로부터 추출된 2차원 위치 좌표값인 제1 관절 특징점, 제2 이미지로부터 추출된 2차원 위치 좌표값인 제2 관절 특징점, 및 카메라 간의 상대적인 위치 관계에 기초하여 관절들의 3차원 위치 좌표값을 계산할 수 있다. 도 10을 함께 참조하면, 전자 장치(100)의 프로세서(120, 도 2 참조)는 삼각측량법을 이용하여 계산된 사용자의 관절들의 3차원 위치 좌표값을 포함하는 3차원 이미지(1000)를 획득할 수 있다. 프로세서(120)는 3차원 이미지(1000)에 포함된 3차원 위치 좌표값에 기초하여, 사용자의 3차원 자세(3D pose)를 추정할 수 있다.
도 9의 단계 S920에서, 전자 장치(100)는 카메라 캘리브레이션 정보에 기초하여 3차원 위치 좌표값을 재투영(reprojection)하여 제1 위치 좌표값 및 제2 위치 좌표값을 획득한다. 도 10을 함께 참조하면, 프로세서(120)는 카메라 캘리브레이션 정보에 포함된 회전 행렬(R)과 변환 행렬(t)을 이용하여 3차원 위치 좌표값을 2차원 위치 좌표값으로 재투영할 수 있다. 프로세서(120)는 3차원 이미지(1000)를 카메라 캘리브레이션 정보를 이용하여 제1 카메라의 위치 및 방향을 기준으로 재투영함으로써 제1 위치 좌표값(Pr1_1 내지 Pr1_n)을 포함하는 재투영 이미지(1010)를 획득할 수 있다. 마찬가지로, 프로세서(120)는 3차원 이미지(1000)를 카메라 캘리브레이션 정보를 이용하여 제2 카메라의 위치 및 방향을 기준으로 재투영함으로써 제2 위치 좌표값(Pr2_1 내지 Pr2_n)을 포함하는 재투영 이미지(1020)를 획득할 수 있다.
도 9의 단계 S930에서, 전자 장치(100)는 제1 위치 좌표값과 제1 관절 특징점 간의 차이값 및 제2 위치 좌표값과 제2 관절 특징점 간의 차이값을 산출한다. 도 10을 함께 참조하면, 프로세서(120)는 재투영을 통해 획득된 제1 위치 좌표값(Pr1_1 내지 Pr1_n)과 제1 이미지(10)로부터 추출된 제1 관절 특징점(Pi1_1 내지 Pi1_n) 간의 제1 차이값을 산출할 수 있다. 또한, 프로세서(120)는 재투영을 통해 획득된 제2 위치 좌표값(Pr2_1 내지 Pr2_n)과 제2 이미지(20)로부터 추출된 제2 관절 특징점(Pi2_1 내지 Pi2_n) 간의 제2 차이값을 산출할 수 있다.
도 9의 단계 S940에서, 전자 장치(100)는 산출된 차이값을 기 설정된 임계치(α)와 비교한다. 도 10을 함께 참조하면, 프로세서(120)는 산출된 제1 차이값 및 제2 차이값 중 적어도 하나를 기 설정된 임계치(α)와 비교할 수 있다.
비교 결과, 차이값이 임계치(α) 미만인 경우(단계 S950), 전자 장치(100)는 카메라 캘리브레이션의 정확도를 판단한 이후 종료한다. 본 개시의 일 실시예에서, 차이값이 임계치(α) 미만인 경우, 프로세서(120)는 카메라 캘리브레이션이 정확하게 수행되었다고 판단할 수 있다.
비교 결과, 차이값이 임계치(α) 이상인 경우(단계 S960), 전자 장치(100)는 카메라 캘리브레이션이 부정확하다고 판단하고, 리캘리브레이션(re-calibration)을 수행한다. 도 10에 도시된 실시예를 참조하면, 산출된 제1 차이값 및 제2 차이값 중 적어도 하나가 임계치(α) 이상인 경우, 프로세서(120)는 카메라 캘리브레이션이 부정확하다고 판단할 수 있다. 카메라 캘리브레이션이 부정확하게 수행되었다고 판단된 경우, 프로세서(120)는 리캘리브레이션의 수행을 결정할 수 있다.
도 11은 본 개시의 일 실시예에 따른 전자 장치(100)가 사용자의 3차원 자세(3D pose)를 획득하고, 획득된 3차원 자세로부터 카메라 캘리브레이션의 정확도를 판단하는 방법을 도시한 흐름도이다.
도 11에 도시된 단계들 S1110 내지 S1160은 도 4에 도시된 단계 S450이 수행된 이후에 수행된다.
단계 S1110에서, 전자 장치(100)는 제1 관절 특징점, 제2 관절 특징점, 및 제1 카메라와 제2 카메라 간의 위치 관계에 기초하여, 사용자의 3차원 자세(3D pose)를 획득한다. 본 개시의 일 실시예에서, 전자 장치(100)는 삼각측량법(triangulation)을 이용하여 제1 이미지로부터 추출된 2차원 위치 좌표값인 제1 관절 특징점, 제2 이미지로부터 추출된 2차원 위치 좌표값인 제2 관절 특징점, 및 카메라 간의 상대적인 위치 관계에 기초하여 관절들의 3차원 위치 좌표값을 계산할 수 있다. 전자 장치(100)는 계산된 관절들의 3차원 위치 좌표값에 기초하여, 사용자의 3차원 자세를 획득할 수 있다.
단계 S1120에서, 전자 장치(100)는 3차원 자세로부터 관절들 사이의 뼈 길이를 측정한다. 본 개시의 일 실시예에서, 전자 장치(100)의 프로세서(120, 도 2 참조)는 3차원 자세에 포함된 3차원 위치 좌표값들 간의 거리를 측정함으로써, 관절들 사이의 뼈 길이를 획득할 수 있다.
도 12a는 카메라 캘리브레이션이 정확하게 수행된 결과에 따른 3차원 자세를 도시한 도면이다. 단계 S1120를 도 12a와 함께 참조하면, 프로세서(120)는 3차원 자세를 나타내는 3차원 이미지(1210)로부터 관절들 간의 뼈 길이를 측정할 수 있다. 예를 들어, 프로세서(120)는 3차원 이미지(1210)에서 어깨를 나타내는 제3 특징점(P3)의 3차원 위치 좌표값과 팔꿈치를 나타내는 제4 특징점(P4)의 3차원 위치 좌표값 간의 거리를 측정함으로써, 상완골(Humerus)의 길이인 제1 길이(l1)의 정보를 획득할 수 있다. 또한, 프로세서(120)는 예를 들어, 3차원 이미지(1210)에서 제4 특징점(P4)의 3차원 위치 좌표값과 팔목을 나타내는 제5 특징점(P5)의 3차원 위치 좌표값 간의 거리를 측정함으로써, 노뼈(Radius) 또는 자뼈(Ulna)의 뼈 길이인 제2 길이(l2)의 정보를 획득할 수 있다.
다시 도 11을 참조하면, 단계 S1130에서 전자 장치(100)는 측정된 뼈 길이를 일반 사람의 뼈 길이와 비교하여 차이값을 산출한다. 본 개시의 일 실시예에서, 전자 장치(100)는 일반 사람들의 표준 체형에 따른 뼈 길이에 관한 정보를 획득할 수 있다. 예를 들어, 전자 장치(100)는 표준 인체 치수 또는 인체 표준 정보를 획득하고, 획득된 표준 인체 치수 또는 인체 표준 정보로부터 일반적인 사람의 뼈 길이에 관한 정보를 획득할 수 있다. 그러나, 이에 한정되는 것은 아니고, 전자 장치(100)는 일반적인 사람의 뼈 길이에 관한 데이터를 메모리(130, 도 2 참조)에 미리 저장하고 있을 수 있다. 도 12a에 도시된 실시예를 함께 참조하면, 프로세서(120)는 측정된 제1 길이(l1)를 일반적인 사람의 표준 상완골 길이와 비교하고, 제2 길이(l2)를 일반적인 사람의 표준 노뼈 또는 자뼈의 길이와 비교할 수 있다.
도 11의 단계 S1140에서, 전자 장치(100)는 산출된 차이값을 기 설정된 임계치(β)와 비교한다.
비교 결과, 차이값이 임계치(β) 미만인 경우(단계 S1150), 전자 장치(100)는 카메라 캘리브레이션의 정확도를 판단한 이후 종료한다. 본 개시의 일 실시예에서, 차이값이 임계치(β) 미만인 경우, 프로세서(120)는 카메라 캘리브레이션이 정확하게 수행되었다고 판단할 수 있다. 도 12a를 함께 참조하면, 측정된 제1 길이(l1)와 표준 상완골의 길이 간의 제1 차이값이 임계치(β) 미만이고, 측정된 제2 길이(l2)와 표준 노뼈 길이 간의 제2 차이값이 임계치(β) 미만인 경우, 프로세서(120)는 카메라 캘리브레이션이 정확하게 수행되었다고 판단할 수 있다.
비교 결과, 차이값이 임계치(β) 이상인 경우(단계 S1160), 전자 장치(100)는 카메라 캘리브레이션이 부정확하다고 판단하고, 리캘리브레이션(re-calibration)을 수행한다. 도 12b는 카메라 캘리브레이션이 부정확하게 수행되어 리캘리브레이션이 필요한 3차원 자세를 도시한 도면이다. 도 12b를 단계 S1160과 함께 참조하면, 프로세서(120)는 3차원 자세를 나타내는 3차원 이미지(1220)로부터 관절들 간의 뼈 길이를 측정할 수 있다. 예를 들어, 프로세서(120)는 3차원 이미지(1220)에서 제3 특징점(P3)의 3차원 위치 좌표값과 제4 특징점(P4)의 3차원 위치 좌표값 간의 거리를 측정함으로써, 제1 길이(l1')를 획득하고, 제4 특징점(P4)의 3차원 위치 좌표값과 제5 특징점(P5)의 3차원 위치 좌표값 간의 거리를 측정함으로써, 제2 길이(l2')의 정보를 획득할 수 있다. 프로세서(120)는 제1 길이(l1')를 일반적인 사람의 표준 상완골의 길이와 비교하여 차이값을 산출하고, 제2 길이(l2')를 일반적인 사람의 표준 노뼈 또는 표준 자뼈의 길이와 비교하여 차이값을 산출할 수 있다. 산출된 차이값이 임계치(β) 이상인 경우, 프로세서(120)는 카메라 캘리브레이션이 부정확하다고 판단할 수 있다. 카메라 캘리브레이션이 부정확하게 수행되었다고 판단된 경우, 프로세서(120)는 리캘리브레이션의 수행을 결정할 수 있다.
도 9 내지 도 12b에 도시된 실시예에서, 전자 장치(100)는 카메라 캘리브레이션의 정확도를 판단하고, 카메라 캘리브레이션이 부정확하게 수행되었다고 판단되는 경우 리캘리브레이션(re-calibration)을 수행할 것을 결정할 수 있다. 따라서, 본 개시의 일 실시예에 따른 전자 장치(100)는 카메라 캘리브레이션 오류를 미연에 방지하고, 캘리브레이션의 정확도를 향상시킬 수 있다.
도 13은 본 개시의 일 실시예에 따른 전자 장치(100)가 복수의 사용자가 포함된 이미지로부터 복수의 특징점을 추출하고, 추출된 복수의 특징점을 이용하여 카메라 캘리브레이션을 수행하는 방법을 도시한 흐름도이다.
도 13에 도시된 단계 S1310은 도 4에 도시된 단계 S420을 구체화한 단계이다. 도 13에 도시된 단계 S1320 및 S1330은 도 4에 도시된 단계 S430을 구체화한 단계들이다. 도 13에 도시된 단계 S1340은 도 4에 도시된 단계 S440을 구체화한 단계이다. 도 13에 도시된 단계 S1340이 수행된 이후 도 4의 단계 S450이 수행된다.
도 14는 본 개시의 일 실시예에 따른 전자 장치(100)가 복수의 사용자(1410, 1420)가 포함된 이미지(1401, 1402)로부터 복수의 특징점을 추출하고, 추출된 복수의 특징점을 이용하여 복수의 사용자(1410, 1420)를 구별하는 동작을 도시한 도면이다.
이하에서는, 도 13과 도 14를 함께 참조하면, 전자 장치(100)가 이미지(1401, 1402)로부터 복수의 사용자(1410, 1420)를 구별하는 동작에 대하여 설명하기로 한다.
도 13을 참조하면, 단계 S1310에서 전자 장치(100)는 제1 이미지로부터 복수의 사용자의 관절들의 복수의 제1 관절 특징점을 추출하고, 제2 이미지로부터 복수의 사용자의 관절들의 복수의 제2 관절 특징점을 추출한다. 도 14를 함께 참조하면, 전자 장치(100)의 프로세서(120, 도 2 참조)는 제1 카메라(210)에 의해 촬영된 제1 이미지(1401)로부터 제1 사용자(1410)의 제1 관절 특징점을 추출하고, 제2 사용자(1420)의 제1 관절 특징점을 추출할 수 있다. 또한, 프로세서(120)는 제2 카메라(220)에 의해 촬영된 제2 이미지(1402)로부터 제1 사용자(1410)의 제2 관절 특징점을 추출하고, 제2 사용자(1420)의 제2 관절 특징점을 추출할 수 있다. 전자 장치(100)가 제1 이미지(1401) 및 제2 이미지(1402)로부터 관절 특징점을 추출하는 방법은 도 2 내지 도 4에서 설명한 방법과 동일하므로, 중복되는 설명은 생략한다.
도 13의 단계 S1320에서, 전자 장치(100)는 복수의 제1 관절 특징점 및 복수의 제2 관절 특징점을 리프팅하여 복수의 제1 3차원 관절 특징점 및 복수의 제2 3차원 관절 특징점을 획득한다. 도 14를 함께 참조하면, 프로세서(120)는 2D-3D 리프팅을 수행하여, 제1 이미지(1401)로부터 추출된 복수의 제1 관절 특징점으로부터 복수의 사용자(1410, 1420)의 관절들의 3차원 위치 좌표값인 복수의 제1 3차원 관절 특징점(1411, 1421)을 포함하는 3차원 이미지(1403, 1404)획득할 수 있다. 제1 3차원 이미지(1403)은 복수의 사용자(1410, 1420)의 3차원 관절 특징점(1411, 1421)을 포함할 수 있다. 프로세서(120)는 제1 이미지(1401)로부터 추출된 제1 사용자(1410)의 관절들의 2차원 위치 좌표값인 제1 관절 특징점을 리프팅하여 제1 3차원 관절 특징점(1411)을 획득하고, 제2 사용자(1420)의 관절들의 2차원 위치 좌표값인 제2 관절 특징점을 리프팅하여 제1 3차원 관절 특징점(1421)을 획득할 수 있다. 제2 3차원 이미지(1404)은 복수의 사용자(1410, 1420)의 3차원 관절 특징점(1412, 1422)을 포함할 수 있다. 프로세서(120)는 제2 이미지(1402)로부터 추출된 제1 사용자(1410)의 관절들의 2차원 위치 좌표값인 제2 관절 특징점을 리프팅하여 제2 3차원 관절 특징점(1412)을 획득하고, 제2 사용자(1420)의 관절들의 2차원 위치 좌표값인 제2 관절 특징점을 리프팅하여 제2 3차원 관절 특징점(1422)을 획득할 수 있다. 프로세서(120)가 2차원 관절 특징점을 리프팅하여 3차원 관절 특징점을 획득하는 구체적인 방법은 도 2 내지 도 4에서 설명한 것과 동일하므로, 중복되는 설명은 생략한다.
도 13의 단계 S1330에서, 전자 장치(100)는 복수의 제1 3차원 관절 특징점으로 구성된 제1 3차원 자세와 복수의 제2 3차원 관절 특징점으로 구성된 제2 3차원 자세를 매칭함으로써, 제1 이미지 및 제2 이미지에 포함된 복수의 사용자를 구별한다. 도 14에 도시된 실시예를 함께 참조하면, 프로세서(120)는 복수의 제1 3차원 관절 특징점(1411, 1421)에 기초하여 제1 사용자(1410)와 제2 사용자(1420)의 제1 3차원 자세를 예측하고, 복수의 제2 3차원 관절 특징점(1412, 1422)에 기초하여 제1 사용자(1410)와 제2 사용자(1420)의 제2 3차원 자세를 예측할 수 있다. 프로세서(120)는 예측된 제1 3차원 자세와 제2 3차원 자세에 기초하여 대응되는 자세끼리 매칭하고, 매칭 결과에 기초하여 제1 사용자(1410)의 3차원 자세와 제2 사용자(1420)의 3차원 자세를 구별할 수 있다.
도 13의 단계 S1340에서, 전자 장치(100)는 복수의 사용자의 구별 결과에 기초하여, 복수의 제1 3차원 관절 특징점을 복수의 제2 관절 특징점으로 각각 투영(projection)하기 위한 프로젝션 관계를 획득한다. 도 14에 도시된 실시예를 함께 참조하면, 프로세서(120)는 제1 사용자(1410)와 제2 사용자(1420)의 구별 결과에 기초하여, 리프팅을 통해 획득된 제1 사용자(1410)의 3차원 관절 특징점(1411)을 제2 이미지(1402)로부터 추출된 제1 사용자(1410)의 2차원 위치 좌표값인 제2 관절 특징점으로 투영하기 위한 프로젝션 관계를 획득할 수 있다. 또한, 프로세서(120)는 리프팅을 통해 획득된 제2 사용자(1420)의 3차원 관절 특징점(1421)을 제2 이미지(1402)로부터 추출된 제2 사용자(1420)의 2차원 위치 좌표값인 제2 관절 특징점으로 투영하기 위한 프로젝션 관계를 획득할 수 있다. 프로세서(120)가 프로젝션 관계를 획득하는 방법은 도 2 내지 도 4에서 설명한 방법과 동일하므로, 중복되는 설명은 생략한다.
전자 장치(100)는 획득된 프로젝션 관계에 기초하여, 카메라 캘리브레이션을 수행한다 (단계 S450).
도 13 및 도 14에 도시된 실시예에서, 전자 장치(100)는 복수의 사용자(1410, 1420)의 3차원 자세(3D pose)를 예측하고, 3차원 자세에 기초하여 제1 사용자(1410)와 제2 사용자(1420)를 구별하며, 구별 결과에 기초하여 프로젝션 관계를 획득하고, 이를 통해 카메라 캘리브레이션을 수행하는 바, 캘리브레이션의 정확도를 향상시키는 기술적 효과를 제공한다.
본 개시는 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치(100)를 제공한다. 본 개시의 일 실시예에 따른 전자 장치(100)는 통신 인터페이스(110), 적어도 하나의 명령어들(instructions)를 저장하는 메모리(130), 및 상기 적어도 하나의 명령어들을 실행하는 적어도 하나의 프로세서(120)를 포함할 수 있다. 상기 적어도 하나의 프로세서(120)는 통신 인터페이스(110)를 통해 제1 카메라로부터 사용자를 촬영한 제1 이미지를 획득하고, 제2 카메라로부터 사용자를 촬영한 제2 이미지를 획득할 수 있다. 상기 적어도 하나의 프로세서(120)는 제1 이미지로부터 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 제2 이미지로부터 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출할 수 있다. 상기 적어도 하나의 프로세서(120)는 추출된 제1 관절 특징점을 3차원 위치 좌표로 리프팅(lifting)하여 관절들의 3차원 관절 특징점을 획득할 수 있다. 상기 적어도 하나의 프로세서(120)는 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득할 수 있다. 상기 적어도 하나의 프로세서(120)는 획득된 프로젝션 관계에 기초하여 제1 카메라와 제2 카메라 간의 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(120)는 3차원 관절 특징점이 제2 관절 특징점의 2차원 위치 좌표값과 매칭되도록 3차원 관절 특징점을 투영하기 위한 회전 방향 및 이동 거리값에 관한 정보를 획득할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(120)는 3차원 관절 특징점에 포함되는 3차원 위치 좌표값들 중 Z축 방향에 따른 위치 좌표값들의 분포에 기초하여, 3차원 관절 특징점으로 구성된 사용자의 자세(pose)가 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단할 수 있다.
본 개시의 일 실시예에서, 상기 전자 장치(100)는 디스플레이부를 더 포함하고, 상기 적어도 하나의 프로세서(120)는 사용자의 자세가 카메라 캘리브레이션에 적용하기에 적절하지 않다고 판단된 경우 사용자에게 기 설정된 자세를 취할 것을 요구하는 가이드 정보를 디스플레이하도록 디스플레이부를 제어할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(120)는 제1 카메라로부터 일정 시간 동안 촬영된 복수의 이미지 프레임을 획득하고, 복수의 이미지 프레임 각각으로부터 추출된 복수의 제1 관절 특징점을 리프팅하여 복수의 3차원 관절 특징점을 획득할 수 있다. 상기 적어도 하나의 프로세서(120)는 복수의 3차원 관절 특징점에 포함되는 복수의 3차원 위치 좌표값들 중 Z축 방향에 따른 위치 좌표값들의 분포 정도가 최대인 이미지 프레임을 식별할 수 있다. 상기 적어도 하나의 프로세서(120)는 식별된 이미지 프레임으로부터 획득된 3차원 관절 좌표값과 제2 관절 특징점 간의 프로젝션 관계에 기초하여 카메라 캘리브레이션을 수행할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(120)는 제1 관절 특징점, 제2 관절 특징점, 및 제1 카메라와 제2 카메라 간의 위치 관계에 기초하여 사용자의 관절들의 3차원 위치 좌표값을 획득하고, 획득된 관절들의 3차원 위치 좌표값에 기초하여 사용자의 3차원 자세(pose)를 추정할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(120)는 제1 카메라와 제2 카메라 간의 캘리브레이션 정보에 기초하여 3차원 위치 좌표값을 2차원 위치 좌표값으로 재투영(re-projection)하여 제1 위치 좌표값 및 제2 위치 좌표값을 획득할 수 있다. 상기 적어도 하나의 프로세서(120)는 재투영 결과 획득된 제1 위치 좌표값과 제1 관절 특징점 간의 차이값 및 제2 위치 좌표값과 제2 관절 특징점 간의 차이값을 각각 산출할 수 있다. 상기 적어도 하나의 프로세서(120)는 산출된 차이값들을 기 설정된 임계치와 비교한 결과에 따라 카메라 캘리브레이션의 정확도를 판단할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(120)는 3차원 자세로부터 관절들 사이의 뼈 길이를 측정하고, 측정된 뼈 길이를 일반적인 사람의 뼈 길이와 비교하여 차이값을 산출할 수 있다. 상기 적어도 하나의 프로세서(120)는 산출된 차이값을 기 설정된 임계치와 비교한 결과에 기초하여 카메라 캘리브레이션의 재수행 여부를 결정할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(120)는 제1 이미지로부터 복수의 사용자의 관절들의 2차원 위치 좌표인 복수의 제1 관절 특징점을 추출하고, 제2 이미지로부터 상기 복수의 사용자의 관절들의 2차원 위치 좌표인 복수의 제2 관절 특징점을 추출할 수 있다. 상기 적어도 하나의 프로세서(120)는 복수의 제1 관절 특징점 및 복수의 제2 관절 특징점을 3차원 위치 좌표값으로 리프팅하여, 복수의 제1 3차원 관절 특징점 및 복수의 제2 3차원 관절 특징점을 획득할 수 있다. 상기 적어도 하나의 프로세서(120)는 획득된 복수의 제1 3차원 관절 특징점으로 구성된 제1 3차원 자세와 복수의 제2 3차원 관절 특징점으로 구성된 제2 3차원 자세를 매칭함으로써, 제1 이미지 및 제2 이미지에 포함된 복수의 사용자를 구별할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(120)는 복수의 사용자의 구별 결과에 기초하여, 복수의 제1 3차원 관절 특징점을 복수의 제2 관절 특징점으로 각각 투영하기 위한 프로젝션 관계를 획득할 수 있다.
본 개시는 전자 장치(100)가 카메라 캘리브레이션을 수행하는 방법을 제공한다. 상기 방법은 제1 카메라(210)로부터 사용자를 촬영한 제1 이미지를 획득하고, 제2 카메라(220)로부터 사용자를 촬영한 제2 이미지를 획득하는 단계(S410)를 포함할 수 있다. 상기 방법은 제1 이미지로부터 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 제2 이미지로부터 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출하는 단계(S420)를 포함할 수 있다. 상기 방법은 추출된 제1 관절 특징점을 3차원 위치 좌표로 리프팅(lifting)하여 관절들의 3차원 관절 특징점을 획득하는 단계(S430)를 포함할 수 있다. 상기 방법은 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득하는 단계(S440)를 포함할 수 있다. 상기 방법은 획득된 프로젝션 관계에 기초하여, 제1 카메라(210)와 제2 카메라(220) 간의 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행하는 단계(S450)를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 프로젝션 관계를 획득하는 단계(S440)는 3차원 관절 특징점이 제2 관절 특징점의 2차원 위치 좌표값과 매칭되도록 3차원 관절 특징점을 투영하기 위한 회전 방향 및 이동 거리값에 관한 정보를 획득하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 방법은 3차원 관절 특징점에 포함되는 3차원 위치 좌표값들 중 Z축 방향에 따른 위치 좌표값들의 분포에 기초하여, 3차원 관절 특징점으로 구성된 사용자의 자세(pose)가 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단하는 단계(S510)를 더 포함할 수 있다.
본 개시의 일 실시예에서, 상기 방법은 사용자의 자세가 카메라 캘리브레이션에 적용하기에 적절하지 않다고 판단된 경우 사용자에게 기 설정된 자세를 취할 것을 요구하는 가이드 정보를 디스플레이하는 단계(S530)를 더 포함할 수 있다.
본 개시의 일 실시예에서, 상기 방법은 제1 관절 특징점, 제2 관절 특징점, 및 제1 카메라(210)와 제2 카메라(220) 간의 위치 관계에 기초하여 사용자의 관절들의 3차원 위치 좌표값을 획득하는 단계를 더 포함할 수 있다. 상기 방법은 획득된 관절들의 3차원 위치 좌표값에 기초하여 사용자의 3차원 자세(pose)를 추정하는 단계를 더 포함할 수 있다.
본 개시의 일 실시예에서, 상기 방법은 제1 카메라와 제2 카메라 간의 캘리브레이션 정보에 기초하여 3차원 위치 좌표값을 2차원 위치 좌표값으로 재투영(re-projection)하여 제1 위치 좌표값 및 제2 위치 좌표값을 획득하는 단계(S920)를 더 포함할 수 있다. 상기 방법은 재투영 결과 획득된 제1 위치 좌표값과 제1 관절 특징점 간의 차이값 및 제2 위치 좌표값과 제2 관절 특징점 간의 차이값을 각각 산출하는 단계(S930)를 더 포함할 수 있다. 상기 방법은 산출된 차이값들을 기 설정된 임계치와 비교하는 단계(S940)를 더 포함할 수 있다. 상기 방법은 비교 결과에 따라 카메라 캘리브레이션의 정확도를 판단하는 단계를 더 포함할 수 있다.
본 개시의 일 실시예에서, 상기 방법은 3차원 자세로부터 관절들 사이의 뼈 길이를 측정하는 단계(S1120), 측정된 뼈 길이를 일반적인 사람의 뼈 길이와 비교하여 차이값을 산출하는 단계(S1130), 및 산출된 차이값을 기 설정된 임계치와 비교한 결과에 기초하여 카메라 캘리브레이션의 재수행 여부를 결정하는 단계를 더 포함할 수 있다.
본 개시의 일 실시예에서, 상기 제1 관절 특징점 및 제2 관절 특징점을 추출하는 단계(S420)는 제1 이미지로부터 복수의 사용자의 관절들의 2차원 위치 좌표인 복수의 제1 관절 특징점을 추출하고, 제2 이미지로부터 복수의 사용자의 관절들의 2차원 위치 좌표인 복수의 제2 관절 특징점을 추출하는 단계(S1310)를 포함할 수 있다. 본 개시의 일 실시예에서, 상기 3차원 관절 특징점을 획득하는 단계(S430)는 복수의 제1 관절 특징점 및 복수의 제2 관절 특징점을 3차원 위치 좌표값으로 리프팅하여, 복수의 제1 3차원 관절 특징점 및 복수의 제2 3차원 관절 특징점을 획득하는 단계(S1320), 및 획득된 복수의 제1 3차원 관절 특징점으로 구성된 제1 3차원 자세와 복수의 제2 3차원 관절 특징점으로 구성된 제2 3차원 자세를 매칭함으로써, 제1 이미지 및 제2 이미지에 포함된 복수의 사용자를 구분하는 단계(S1330)를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 프로젝션 관계를 획득하는 단계는 복수의 사용자의 구분 결과에 기초하여, 복수의 제1 3차원 관절 특징점을 복수의 제2 관절 특징점으로 각각 투영하기 위한 프로젝션 관계를 획득하는 단계(S1340)를 포함할 수 있다.
본 개시는 컴퓨터로 읽을 수 있는 저장 매체를 포함하는 컴퓨터 프로그램 제품(Computer Program Product)를 제공한다. 상기 저장 매체는 제1 카메라(210)로부터 사용자를 촬영한 제1 이미지를 획득하고, 제2 카메라(220)로부터 상기 사용자를 촬영한 제2 이미지를 획득하는 동작, 제1 이미지로부터 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 제2 이미지로부터 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출하는 동작, 추출된 제1 관절 특징점을 3차원 위치 좌표로 리프팅(lifting)하여 관절들의 3차원 관절 특징점을 획득하는 동작, 3차원 관절 특징점을 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득하는 동작, 및 획득된 프로젝션 관계에 기초하여 제1 카메라(210)와 제2 카메라(220) 간의 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행하는 동작을 전자 장치(100)가 수행하기 위하여, 상기 전자 장치(100)에 의해 판독 가능한 명령어들(instructions)을 포함할 수 있다.
본 개시에서 설명된 전자 장치(100)에 의해 실행되는 프로그램은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 프로그램은 컴퓨터로 읽을 수 있는 명령어들을 수행할 수 있는 모든 시스템에 의해 수행될 수 있다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령어(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.
소프트웨어는, 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 컴퓨터 프로그램으로 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체로는, 예를 들어 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독 가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.
컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장되는 경우를 구분하지 않는다. 예를 들어, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
또한, 본 명세서에 개시된 실시예들에 따른 프로그램은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.
컴퓨터 프로그램 제품은 소프트웨어 프로그램, 소프트웨어 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치(100)의 제조사 또는 전자 마켓(예를 들어, 삼성 갤럭시 스토어)을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션(downloadable application))을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 전자 장치(100)의 제조사의 서버, 전자 마켓의 서버, 또는 소프트웨어 프로그램을 임시적으로 저장하는 중계 서버의 저장 매체가 될 수 있다.
컴퓨터 프로그램 제품은, 전자 장치(100) 및/또는 서버로 구성되는 시스템에서, 서버의 저장매체 또는 전자 장치(100)의 저장매체를 포함할 수 있다. 또는, 전자 장치(100)와 통신 연결되는 제3 장치(예를 들어, 웨어러블 디바이스)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 전자 장치(100)로부터 제3 장치로 전송되거나, 제3 장치로부터 전자 장치로 전송되는 소프트웨어 프로그램 자체를 포함할 수 있다.
이 경우, 전자 장치(100) 또는 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 전자 장치(100) 및 제3 장치 중 적어도 하나 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.
예를 들면, 전자 장치(100)가 메모리(130, 도 2 참조)에 저장된 컴퓨터 프로그램 제품을 실행하여, 전자 장치(100)와 통신 연결된 타 전자 장치가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.
또 다른 예로, 제3 장치가 컴퓨터 프로그램 제품을 실행하여, 제3 장치와 통신 연결된 전자 장치가 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다.
제3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제3 장치는 전자 장치(100)로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제3 장치는 프리로드(pre-load)된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 컴퓨터 시스템 또는 모듈 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (20)

  1. 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치(100)에 있어서,
    통신 인터페이스(110);
    적어도 하나의 명령어들(instructions)를 저장하는 메모리(130); 및
    상기 적어도 하나의 명령어들을 실행하는 적어도 하나의 프로세서(120);
    를 포함하고,
    상기 적어도 하나의 프로세서(120)는,
    상기 통신 인터페이스(110)를 통해 제1 카메라(210)로부터 사용자를 촬영한 제1 이미지를 획득하고, 제2 카메라(220)로부터 상기 사용자를 촬영한 제2 이미지를 획득하고,
    상기 제1 이미지로부터 상기 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 상기 제2 이미지로부터 상기 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출하고,
    상기 추출된 제1 관절 특징점을 3차원 위치 좌표로 리프팅(lifting)하여 상기 관절들의 3차원 관절 특징점을 획득하고,
    상기 3차원 관절 특징점을 상기 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득하고,
    상기 획득된 프로젝션 관계에 기초하여 상기 제1 카메라(210)와 상기 제2 카메라(220) 간의 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행하는, 전자 장치(100).
  2. 제1 항에 있어서,
    상기 적어도 하나의 프로세서(120)는,
    상기 3차원 관절 특징점이 상기 제2 관절 특징점의 2차원 위치 좌표값과 매칭되도록 상기 3차원 관절 특징점을 투영하기 위한 회전 방향 및 이동 거리값에 관한 정보를 획득하는, 전자 장치(100).
  3. 제1 항 및 제2 항 중 어느 하나의 항에 있어서,
    상기 적어도 하나의 프로세서(120)는,
    상기 3차원 관절 특징점에 포함되는 3차원 위치 좌표값들 중 Z축 방향에 따른 위치 좌표값들의 분포에 기초하여, 상기 3차원 관절 특징점으로 구성된 사용자의 자세(pose)가 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단하는, 전자 장치(100).
  4. 제3 항에 있어서,
    디스플레이부;
    를 더 포함하고,
    상기 적어도 하나의 프로세서(120)는,
    상기 사용자의 자세가 카메라 캘리브레이션에 적용하기에 적절하지 않다고 판단된 경우 상기 사용자에게 기 설정된 자세를 취할 것을 요구하는 가이드 정보를 디스플레이하도록 상기 디스플레이부를 제어하는, 전자 장치(100).
  5. 제3 항에 있어서,
    상기 적어도 하나의 프로세서(120)는,
    상기 제1 카메라(210)로부터 일정 시간 동안 촬영된 복수의 제1 이미지 프레임을 획득하고, 상기 제2 카메라(220)로부터 일정 시간 동안 촬영된 복수의 제2 이미지 프레임을 획득하고,
    상기 복수의 제1 이미지 프레임 각각으로부터 추출된 복수의 제1 관절 특징점을 리프팅하여 복수의 3차원 관절 특징점을 획득하고,
    상기 복수의 제1 이미지 프레임 중 상기 복수의 3차원 관절 특징점의 3차원 위치 좌표값들 중 Z축 방향에 따른 위치 좌표값들의 분포 정도가 최대인 이미지 프레임을 식별하고,
    상기 복수의 제2 이미지 프레임 중 상기 식별된 이미지 프레임에 대응되는 상기 제2 이미지로부터 상기 제2 관절 특징점을 추출하고,
    상기 식별된 이미지 프레임으로부터 획득된 3차원 관절 좌표값과 상기 제2 이미지로부터 추출된 제2 관절 특징점 간의 프로젝션 관계에 기초하여 카메라 캘리브레이션을 수행하는, 전자 장치(100).
  6. 제1항 내지 제5 항 중 어느 하나의 항에 있어서,
    상기 적어도 하나의 프로세서(120)는,
    상기 제1 관절 특징점, 상기 제2 관절 특징점, 및 상기 제1 카메라(210)와 상기 제2 카메라(220) 간의 위치 관계에 기초하여 상기 사용자의 관절들의 3차원 위치 좌표값을 획득하고,
    상기 획득된 관절들의 3차원 위치 좌표값에 기초하여 상기 사용자의 3차원 자세(pose)를 추정하는, 전자 장치(100).
  7. 제6 항에 있어서,
    상기 적어도 하나의 프로세서(120)는,
    상기 제1 카메라(210)와 상기 제2 카메라(220) 간의 캘리브레이션 정보에 기초하여 상기 3차원 위치 좌표값을 2차원 위치 좌표값으로 재투영(re-projection)하여 제1 위치 좌표값 및 제2 위치 좌표값을 획득하고,
    재투영 결과 획득된 상기 제1 위치 좌표값과 상기 제1 관절 특징점 간의 차이값 및 상기 제2 위치 좌표값과 상기 제2 관절 특징점 간의 차이값을 각각 산출하고,
    산출된 차이값들을 기 설정된 임계치와 비교한 결과에 따라 카메라 캘리브레이션의 정확도를 판단하는, 전자 장치(100).
  8. 제6 항에 있어서,
    상기 적어도 하나의 프로세서(120)는,
    상기 3차원 자세로부터 관절들 사이의 뼈 길이를 측정하고,
    상기 측정된 뼈 길이를 일반적인 사람의 뼈 길이와 비교하여 차이값을 산출하고,
    상기 산출된 차이값을 기 설정된 임계치와 비교한 결과에 기초하여 카메라 캘리브레이션의 재수행 여부를 결정하는, 전자 장치(100).
  9. 제1 항 내지 제8 항 중 어느 하나의 항에 있어서,
    상기 적어도 하나의 프로세서(120)는,
    상기 제1 이미지로부터 복수의 사용자의 관절들의 2차원 위치 좌표인 복수의 제1 관절 특징점을 추출하고, 상기 제2 이미지로부터 상기 복수의 사용자의 관절들의 2차원 위치 좌표인 복수의 제2 관절 특징점을 추출하고,
    상기 복수의 제1 관절 특징점 및 상기 복수의 제2 관절 특징점을 3차원 위치 좌표값으로 리프팅하여, 복수의 제1 3차원 관절 특징점 및 복수의 제2 3차원 관절 특징점을 획득하며,
    상기 획득된 복수의 제1 3차원 관절 특징점으로 구성된 제1 3차원 자세와 상기 복수의 제2 3차원 관절 특징점으로 구성된 제2 3차원 자세를 매칭함으로써, 상기 제1 이미지 및 상기 제2 이미지에 포함된 상기 복수의 사용자를 구별하는, 전자 장치(100).
  10. 제9 항에 있어서,
    상기 적어도 하나의 프로세서(120)는,
    상기 복수의 사용자의 구별 결과에 기초하여, 상기 복수의 제1 3차원 관절 특징점을 상기 복수의 제2 관절 특징점으로 각각 투영하기 위한 프로젝션 관계를 획득하는, 전자 장치(100).
  11. 카메라 캘리브레이션(camera calibration)을 수행하는 방법에 있어서,
    제1 카메라(210)로부터 사용자를 촬영한 제1 이미지를 획득하고, 제2 카메라(220)로부터 상기 사용자를 촬영한 제2 이미지를 획득하는 단계(S410);
    상기 제1 이미지로부터 상기 사용자의 관절들의 2차원 위치 좌표인 제1 관절 특징점을 추출하고, 상기 제2 이미지로부터 상기 관절들의 2차원 위치 좌표인 제2 관절 특징점을 추출하는 단계(S420);
    상기 추출된 제1 관절 특징점을 3차원 위치 좌표로 리프팅(lifting)하여 상기 관절들의 3차원 관절 특징점을 획득하는 단계(S430);
    상기 3차원 관절 특징점을 상기 제2 관절 특징점의 2차원 위치 좌표값으로 투영(projection)하기 위한 프로젝션 관계를 획득하는 단계(S440); 및
    상기 획득된 프로젝션 관계에 기초하여, 상기 제1 카메라(210)와 상기 제2 카메라(220) 간의 위치 관계를 예측함으로써 카메라 캘리브레이션을 수행하는 단계(S450);
    를 포함하는, 방법.
  12. 제11 항에 있어서,
    상기 프로젝션 관계를 획득하는 단계(S440)는,
    상기 3차원 관절 특징점이 상기 제2 관절 특징점의 2차원 위치 좌표값과 매칭되도록 상기 3차원 관절 특징점을 투영하기 위한 회전 방향 및 이동 거리값에 관한 정보를 획득하는 단계를 포함하는, 방법.
  13. 제11 항 및 제12 항 중 어느 하나의 항에 있어서,
    상기 3차원 관절 특징점에 포함되는 3차원 위치 좌표값들 중 Z축 방향에 따른 위치 좌표값들의 분포에 기초하여, 상기 3차원 관절 특징점으로 구성된 사용자의 자세(pose)가 카메라 캘리브레이션에 적용하기에 적합한지 여부를 판단하는 단계(S510);
    를 더 포함하는, 방법.
  14. 제13 항 중 어느 하나의 항에 있어서,
    상기 사용자의 자세가 카메라 캘리브레이션에 적용하기에 적절하지 않다고 판단된 경우 상기 사용자에게 기 설정된 자세를 취할 것을 요구하는 가이드 정보를 디스플레이하는 단계(S530);
    를 더 포함하는, 방법.
  15. 제11항 내지 제14 항 중 어느 하나의 항에 있어서,
    상기 제1 관절 특징점, 상기 제2 관절 특징점, 및 상기 제1 카메라(210)와 상기 제2 카메라(220) 간의 위치 관계에 기초하여 상기 사용자의 관절들의 3차원 위치 좌표값을 획득하는 단계; 및
    상기 획득된 관절들의 3차원 위치 좌표값에 기초하여 상기 사용자의 3차원 자세(pose)를 추정하는 단계;
    를 더 포함하는, 방법.
  16. 제15 항에 있어서,
    상기 제1 카메라(210)와 상기 제2 카메라(220) 간의 캘리브레이션 정보에 기초하여 상기 3차원 위치 좌표값을 2차원 위치 좌표값으로 재투영(re-projection)하여 제1 위치 좌표값 및 제2 위치 좌표값을 획득하는 단계(S920);
    재투영 결과 획득된 상기 제1 위치 좌표값과 상기 제1 관절 특징점 간의 차이값 및 상기 제2 위치 좌표값과 상기 제2 관절 특징점 간의 차이값을 각각 산출하는 단계(S930);
    산출된 차이값들을 기 설정된 임계치와 비교하는 단계(S940); 및
    비교 결과에 따라 카메라 캘리브레이션의 정확도를 판단하는 단계;
    를 더 포함하는, 방법.
  17. 제15 항에 있어서,
    상기 3차원 자세로부터 관절들 사이의 뼈 길이를 측정하는 단계(S1120);
    상기 측정된 뼈 길이를 일반적인 사람의 뼈 길이와 비교하여 차이값을 산출하는 단계(S1130); 및
    상기 산출된 차이값을 기 설정된 임계치와 비교한 결과에 기초하여 카메라 캘리브레이션의 재수행 여부를 결정하는 단계;
    를 더 포함하는, 방법.
  18. 제11 항 내지 제17 항 중 어느 하나의 항에 있어서,
    상기 제1 관절 특징점 및 제2 관절 특징점을 추출하는 단계(S420)는,
    상기 제1 이미지로부터 복수의 사용자의 관절들의 2차원 위치 좌표인 복수의 제1 관절 특징점을 추출하고, 상기 제2 이미지로부터 상기 복수의 사용자의 관절들의 2차원 위치 좌표인 복수의 제2 관절 특징점을 추출하는 단계(S1310)를 포함하고,
    상기 3차원 관절 특징점을 획득하는 단계(S430)는,
    상기 복수의 제1 관절 특징점 및 상기 복수의 제2 관절 특징점을 3차원 위치 좌표값으로 리프팅하여, 복수의 제1 3차원 관절 특징점 및 복수의 제2 3차원 관절 특징점을 획득하는 단계(S1320); 및
    상기 획득된 복수의 제1 3차원 관절 특징점으로 구성된 제1 3차원 자세와 상기 복수의 제2 3차원 관절 특징점으로 구성된 제2 3차원 자세를 매칭함으로써, 상기 제1 이미지 및 상기 제2 이미지에 포함된 상기 복수의 사용자를 구별하는 단계(S1330);
    를 포함하는, 방법.
  19. 제18 항에 있어서,
    상기 프로젝션 관계를 획득하는 단계는,
    상기 복수의 사용자의 구별 결과에 기초하여, 상기 복수의 제1 3차원 관절 특징점을 상기 복수의 제2 관절 특징점으로 각각 투영하기 위한 프로젝션 관계를 획득하는(S1340), 방법.
  20. 제11 항 내지 제19 항 중 어느 하나의 항에 기재된 방법을 구현하기 위한 적어도 하나의 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020220159491A 2022-09-08 2022-11-24 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치 및 그 동작 방법 KR20240035292A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2023/011608 WO2024053876A1 (ko) 2022-09-08 2023-08-07 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치 및 그 동작 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220114495 2022-09-08
KR1020220114495 2022-09-08

Publications (1)

Publication Number Publication Date
KR20240035292A true KR20240035292A (ko) 2024-03-15

Family

ID=90272852

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220159491A KR20240035292A (ko) 2022-09-08 2022-11-24 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR20240035292A (ko)

Similar Documents

Publication Publication Date Title
US11468636B2 (en) 3D hand shape and pose estimation
US10832039B2 (en) Facial expression detection method, device and system, facial expression driving method, device and system, and storage medium
JP6116784B1 (ja) 3次元モデル生成システム、3次元モデル生成方法、及びプログラム
KR102003813B1 (ko) 자동화된 3차원 모델 생성
KR20220062338A (ko) 스테레오 카메라들로부터의 손 포즈 추정
JP2021192250A (ja) 単眼カメラを用いたリアルタイム3d捕捉およびライブフィードバックのための方法およびシステム
JP2019536154A (ja) 直方体検出のための深層機械学習システム
EP3644277A1 (en) Image processing system, image processing method, and program
KR20190101834A (ko) 얼굴의 특징점의 움직임에 따라 모션이 수행된 아바타를 표시하는 전자 장치와 이의 동작 방법
US11688136B2 (en) 3D object model reconstruction from 2D images
KR20230098244A (ko) 적응형 골격 관절 원활화
KR101794399B1 (ko) 사용자 얼굴의 복합 다중 감정 인식 방법 및 시스템
EP4143787A1 (en) Photometric-based 3d object modeling
EP3725217A1 (en) Electronic device and method for measuring heart rate
US20230120037A1 (en) True size eyewear in real time
CN114998490B (zh) 一种虚拟对象生成方法、装置、设备及存储介质
KR20220063847A (ko) 대상자의 보행 패턴을 식별하는 방법 및 이를 수행하는 전자 장치
CN114677572B (zh) 对象描述参数的生成方法、深度学习模型的训练方法
CN114120448B (zh) 图像处理方法和装置
KR20240035292A (ko) 카메라 캘리브레이션(camera calibration)을 수행하는 전자 장치 및 그 동작 방법
CN116266408A (zh) 体型估计方法、装置、存储介质及电子设备
KR20220076048A (ko) 전자 장치 및 전자 장치의 제어 방법
KR20230090852A (ko) 복수의 카메라를 이용하여 촬영된 손의 3차원 골격 데이터를 획득하는 전자 장치 및 방법
US20240020901A1 (en) Method and application for animating computer generated images
US20240073402A1 (en) Multi-perspective augmented reality experience