KR20230049969A - 글로벌 측위 장치 및 방법 - Google Patents

글로벌 측위 장치 및 방법 Download PDF

Info

Publication number
KR20230049969A
KR20230049969A KR1020210133117A KR20210133117A KR20230049969A KR 20230049969 A KR20230049969 A KR 20230049969A KR 1020210133117 A KR1020210133117 A KR 1020210133117A KR 20210133117 A KR20210133117 A KR 20210133117A KR 20230049969 A KR20230049969 A KR 20230049969A
Authority
KR
South Korea
Prior art keywords
network
image
loss
feature
coordinate map
Prior art date
Application number
KR1020210133117A
Other languages
English (en)
Inventor
문혜원
김지연
손민정
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210133117A priority Critical patent/KR20230049969A/ko
Priority to US17/699,657 priority patent/US20230114734A1/en
Priority to CN202210483160.0A priority patent/CN115953464A/zh
Priority to EP22175221.5A priority patent/EP4163873A1/en
Priority to JP2022112854A priority patent/JP2023056466A/ja
Publication of KR20230049969A publication Critical patent/KR20230049969A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/04Interpretation of pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

글로벌 측위 장치 및 방법에 관한 것이다. 일 실시 예에 따른 글로벌 측위 모델에 기초한 글로벌 측위 방법은 입력 이미지를 제1 네트워크에 인가하여, 피처를 추출하는 단계, 추출된 피처를 제2 네트워크에 인가하여, 입력 이미지에 대응하는 좌표 맵을 추정하는 단계 및 추정된 좌표 맵에 기초하여, 입력 이미지에 대응하는 포즈를 추정하는 단계를 포함할 수 있다.

Description

글로벌 측위 장치 및 방법{METHOD AND APPARATUS FOR GLOBAL LOCALIZATION}
아래의 개시는 글로벌 측위 장치 및 방법에 관한 것이다.
글로벌 측위(Global localization) 기술은 목표 공간에 대한 사전 맵 정보가 있을 때, 이를 기반으로 기기의 6-DOF 포즈를 추정하는 기술을 의미한다. 정해진 맵의 좌표를 기준으로 기기의 절대적인 위치를 추정하며, 목표 공간 내에서 기기의 초기 포즈 추정 또는 이후 기기의 위치의 트래킹을 놓친 상황에서 활용될 수 있다. 기기에서 촬영 혹은 센싱된 이미지를 사용하는 글로벌 측위 기술 방식은 쿼리 이미지와 매칭되는 이미지를 1개 이상 찾아 해당 이미지에 대응되는 포즈 정보를 추정하는 이미지 검색(image retrieval) 방식, 포즈 회귀 딥 네트워크(pose regression deep network)를 사용하여 쿼리 이미지로부터 포즈를 바로 회귀하는 직접 포즈 회귀(direct pose regression) 방식, 3D 맵을 구성하는 포인트 클라우드에 피처 정보를 저장해 두고, 쿼리 이미지의 2D 피처와 매칭하여, 2D-3D 매칭 관계를 찾는 희소 피처 매칭(sparse feature matching) 방식, 2D-3D 매칭 관계를 회귀 문제로 구하는 장면 좌표 회귀(Scene coordinate regression) 방식을 포함할 수 있다.
아래 실시 예들을 통해 글로벌 측위를 위한 뉴럴 네트워크의 학습 방법의 개선을 통해 2D-3D 매칭을 추정하여 기기의 글로벌 측위를 계산하는 기술의 정확도 및 활용도를 개선할 수 있다.
아래 실시 예들을 통해 글로벌 측위를 위한 뉴럴 네트워크를 학습하는 과정에서, 3D 맵으로부터 획득 가능한 합성 이미지를 학습 데이터로 이용하여 이미지를 촬영한 기기의 정확한 포즈 정보가 라벨링된 학습 데이터를 획득하기 어려운 문제를 해결할 수 있다.
아래 실시 예들을 통해 글로벌 측위를 위한 뉴럴 네트워크를 학습하는 과정에서, GAN에 기초한 도메인 적응을 이용하여 합성 이미지로 학습된 모델의 실제 이미지에 대한 성능이 저하되는 문제를 해결할 수 있다.
일 실시 예에 따른 글로벌 측위 방법은 입력 이미지를 제1 네트워크에 인가하여, 피처를 추출하는 단계; 상기 추출된 피처를 제2 네트워크에 인가하여, 상기 입력 이미지에 대응하는 좌표 맵을 추정하는 단계; 및 상기 추정된 좌표 맵에 기초하여, 상기 입력 이미지에 대응하는 포즈를 추정하는 단계를 포함하고, 상기 제1 네트워크 및 상기 제2 네트워크 중 적어도 하나는 3차원 맵 데이터에 의하여 획득된 합성 이미지에 기초하여 상기 제1 네트워크에서 추출된 제1 피처 및 실제 이미지에 기초하여 상기 제1 네트워크에서 추출된 제2 피처에 기초하여 획득된 제1 GAN 로스(loss); 및 상기 제1 피처에 기초하여 상기 제2 네트워크에서 추정된 제1 좌표 맵 및 상기 제2 피처에 기초하여 상기 제2 네트워크에서 추정된 제2 좌표 맵에 기초하여 획득된 제2 GAN 로스 중 적어도 하나에 기초하여 학습된다.
상기 제1 네트워크 및 상기 제2 네트워크 중 적어도 하나는 상기 제1 좌표 맵 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제1 로스; 및 상기 제1 좌표 맵에 기초하여 추정된 제1 포즈 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제2 로스 중 적어도 하나에 더 기초하여 학습될 수 있다.
상기 정답 데이터는 상기 합성 이미지를 촬영한 가상의 카메라의 포즈 및 상기 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 포함할 수 있다.
상기 포즈는 상기 입력 이미지를 촬영한 기기의 6DOF 포즈를 포함할 수 있다.
일 실시 예에 따른 글로벌 측위 모델의 학습 방법은 제1 네트워크 및 제2 네트워크를 포함하는 글로벌 측위 모델의 학습 방법에 있어서, 3차원 맵 데이터에 기초하여, 합성 데이터 세트 - 상기 합성 데이터 세트는 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지 및 상기 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 포함함 - 를 획득하는 단계; 상기 합성 이미지를 상기 제1 네트워크에 인가하여 획득된 제1 피처 및 실제 카메라로 촬영된 실제 이미지를 상기 제1 네트워크에 인가하여 획득된 제2 피처에 기초하여, 제1 GAN 로스를 획득하는 단계; 상기 제1 피처를 상기 제2 네트워크에 인가하여 획득된 제1 좌표 맵 및 상기 제2 피처를 상기 제2 네트워크에 인가하여 획득된 제2 좌표 맵에 기초하여, 제2 GAN 로스를 획득하는 단계; 상기 제1 좌표 맵 및 상기 합성 이미지에 대응하는 상기 3차원 좌표 데이터에 기초하여, 제1 로스를 획득하는 단계; 상기 제1 좌표 맵에 대응하여 추정된 제1 포즈 및 상기 가상의 카메라의 포즈에 기초하여, 제2 로스를 획득하는 단계; 및 상기 제1 로스, 상기 제2 로스, 상기 제1 GAN 로스 및 상기 제2 GAN 로스 중 적어도 하나에 기초하여, 상기 제1 네트워크 및 상기 제2 네트워크 중 적어도 하나를 학습시키는 단계를 포함한다.
상기 합성 데이터 세트를 획득하는 단계는 상기 합성 이미지를 상기 제1 네트워크에 인가하여, 제1 피처를 추출하는 단계; 상기 추출된 제1 피처를 상기 제2 네트워크에 인가하여, 상기 합성 이미지의 각 픽셀에 대응하는 제1 좌표 맵을 추정하는 단계; 상기 추정된 제1 좌표 맵에 기초하여, 상기 합성 이미지에 대응하는 제1 포즈를 추정하는 단계; 상기 실제 이미지를 상기 제1 네트워크에 인가하여, 제2 피처를 추출하는 단계; 및 상기 추출된 제2 피처를 상기 제2 네트워크에 인가하여, 상기 실제 이미지의 각 픽셀에 대응하는 제2 좌표 맵을 추정하는 단계를 더 포함할 수 있다.
상기 학습시키는 단계는 상기 제1 GAN 로스에 기초하여, 합성 이미지에서 추출된 피처 및 실제 이미지에서 추출된 피처를 구분하는 제1 감별기와 상기 제1 네트워크를 적대적으로 학습시키는 단계를 포함할 수 있다.
상기 학습시키는 단계는 상기 제2 GAN 로스에 기초하여, 합성 이미지에서 추정된 좌표 맵 및 실제 이미지에서 추정된 좌표 맵을 구분하는 제2 감별기와 상기 제2 네트워크를 적대적으로 학습시키는 단계를 포함할 수 있다.
상기 학습시키는 단계는 상기 제1 로스에 기초하여 획득된 그래디언트를 상기 제1 네트워크 및 상기 제2 네트워크에 반복적으로 역전파하는 단계를 포함할 수 있다.
상기 학습시키는 단계는 상기 제2 로스에 기초하여 획득된 그래디언트를 상기 제1 네트워크 및 상기 제2 네트워크에 반복적으로 역전파하는 단계를 포함할 수 있다.
일 실시 예에 따른 글로벌 측위 장치에 있어서, 입력 이미지의 피처를 추출하는 제1 네트워크, 상기 제1 네트워크의 출력에 기초하여 상기 입력 이미지의 좌표 맵을 추정하는 제2 네트워크, 및 상기 제2 네트워크의 출력에 기초하여 글로벌 측위 결과에 해당하는 포즈를 추정하는 포즈 추정기를 포함하는 글로벌 측위 모델이 기록된 메모리를 포함하고, 상기 글로벌 측위 모델은 3차원 맵 데이터에 기초하여, 합성 데이터 세트 - 상기 합성 데이터 세트는 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지 및 상기 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 포함함 - 를 획득하는 단계; 상기 제1 네트워크 및 상기 제2 네트워크의 파라미터를 업데이트하기 위하여, 상기 글로벌 측위 모델에 관한 적어도 하나의 로스에 기초하여 획득된 그래디언트를 반복적으로 역전파하는 단계; 및 상기 제1 네트워크 및 상기 제2 네트워크의 파라미터를 상기 메모리에 저장하는 단계에 의해 제조되며, 상기 글로벌 측위 모델에 관한 로스는 상기 합성 이미지에 기초하여 상기 제1 네트워크에서 추출된 제1 피처 및 실제 이미지에 기초하여 상기 제1 네트워크에서 추출된 제2 피처에 기초하여 획득된 제1 GAN 로스; 및 상기 제1 피처에 기초하여 상기 제2 네트워크에서 추정된 제1 좌표 맵 및 상기 제2 피처에 기초하여 상기 제2 네트워크에서 추정된 제2 좌표 맵에 기초하여 획득된 제2 GAN 로스 중 적어도 하나를 포함한다.
상기 글로벌 측위 장치는 상기 입력 이미지를 상기 제1 네트워크에 인가하여, 상기 제1 네트워크에서 출력된 상기 입력 이미지의 피처를 획득하고, 상기 피처를 상기 제2 네트워크에 인가하여, 상기 제2 네트워크에서 출력된 상기 입력 이미지에 대응하는 좌표 맵을 획득하며, 상기 좌표 맵에 기초하여, 상기 포즈 추정기에서 출력된 상기 입력 이미지에 대응하는 포즈를 획득하는, 적어도 하나의 프로세서를 더 포함할 수 있다.
상기 글로벌 측위 모델에 관한 로스는 상기 제1 좌표 맵 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제1 로스; 및 상기 제1 좌표 맵에 기초하여 상기 포즈 추정기에서 추정된 제1 포즈 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제2 로스 중 적어도 하나를 더 포함할 수 있다.
상기 반복적으로 역전파하는 단계는 상기 제1 GAN 로스에 기초하여, 제1 감별기에 상기 제1 피처를 입력하여 획득된 그래디언트를 상기 제1 감별기 및 상기 제1 네트워크에 반복적으로 역전파하는 단계; 및 상기 제1 GAN 로스에 기초하여, 상기 제1 감별기에 상기 제2 피처를 입력하여 획득된 그래디언트를 상기 제1 감별기 및 상기 제1 네트워크에 반복적으로 역전파하는 단계를 포함하고, 상기 제1 감별기는 합성 이미지에서 추출된 피처에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추출된 피처에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함할 수 있다.
상기 반복적으로 역전파하는 단계는 상기 제2 GAN 로스에 기초하여, 제2 감별기에 상기 제1 좌표 맵을 입력하여 획득된 그래디언트를 상기 제2 감별기 및 상기 제2 네트워크에 반복적으로 역전파하는 단계; 및 상기 제2 GAN 로스에 기초하여, 상기 제2 감별기에 상기 제2 좌표 맵을 입력하여 획득된 그래디언트를 상기 제2 감별기 및 상기 제2 네트워크에 반복적으로 역전파하는 단계를 포함하고, 상기 제2 감별기는 합성 이미지에서 추정된 좌표 맵에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추정된 좌표 맵에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함할 수 있다.
일 실시 예에 따른 컴퓨터 판독 가능한 기록매체에 저장된 글로벌 측위기에 있어서, 상기 글로벌 측위기는 3차원 맵 데이터에 기초하여, 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지 및 상기 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 획득하는 단계; 상기 글로벌 측위기에 포함된 뉴럴 네트워크의 파라미터를 업데이트하기 위하여, 상기 글로벌 측위기에 관한 적어도 하나의 로스에 기초하여 획득된 그래디언트를 반복적으로 역전파하는 단계; 및 상기 뉴럴 네트워크의 파라미터를 상기 기록매체에 저장하는 단계에 의해 제조되며, 상기 글로벌 측위기에 포함된 뉴럴 네트워크는 입력 이미지의 피처를 추출하는 제1 네트워크 및 상기 제1 네트워크의 출력에 기초하여 상기 입력 이미지의 좌표 맵을 추정하는 제2 네트워크를 포함하고, 상기 글로벌 측위기에 관한 적어도 하나의 로스는 상기 합성 이미지에 기초하여 상기 제1 네트워크에서 추출된 제1 피처 및 실제 이미지에 기초하여 상기 제1 네트워크에서 추출된 제2 피처에 기초하여 획득된 제1 GAN 로스; 및 상기 제1 피처에 기초하여 상기 제2 네트워크에서 추정된 제1 좌표 맵 및 상기 제2 피처에 기초하여 상기 제2 네트워크에서 추정된 제2 좌표 맵에 기초하여 획득된 제2 GAN 로스 중 적어도 하나를 포함한다.
상기 글로벌 측위기에 관한 적어도 하나의 로스는 상기 제1 좌표 맵 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제1 로스; 및 상기 제1 좌표 맵에 기초하여 추정된 제1 포즈 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제2 로스 중 적어도 하나를 더 포함할 수 있다.
상기 반복적으로 역전파하는 단계는 상기 제1 GAN 로스에 기초하여, 제1 감별기에 상기 제1 피처를 입력하여 획득된 그래디언트를 상기 제1 감별기 및 상기 제1 네트워크에 반복적으로 역전파하는 단계; 및 상기 제1 GAN 로스에 기초하여, 상기 제1 감별기에 상기 제2 피처를 입력하여 획득된 그래디언트를 상기 제1 감별기 및 상기 제1 네트워크에 반복적으로 역전파하는 단계를 포함하고, 상기 제1 감별기는 합성 이미지에서 추출된 피처에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추출된 피처에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함할 수 있다.
상기 반복적으로 역전파하는 단계는 상기 제2 GAN 로스에 기초하여, 제2 감별기에 상기 제1 좌표 맵을 입력하여 획득된 그래디언트를 상기 제2 감별기 및 상기 제2 네트워크에 반복적으로 역전파하는 단계; 및 상기 제2 GAN 로스에 기초하여, 상기 제2 감별기에 상기 제2 좌표 맵을 입력하여 획득된 그래디언트를 상기 제2 감별기 및 상기 제2 네트워크에 반복적으로 역전파하는 단계를 포함하고, 상기 제2 감별기는 합성 이미지에서 추정된 좌표 맵에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추정된 좌표 맵에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함할 수 있다.
도 1은 일 실시 예에 따른 글로벌 측위(global localization) 모델(100)의 프레임워크를 예시한 도면이다.
도 2는 일 실시 예에 따른 글로벌 측위 모델의 입력 데이터인 이미지를 설명하기 위한 도면이다.
도 3은 일 실시 예에 따른 좌표 맵을 설명하기 위한 도면이다.
도 4는 일 실시 예에 따른 글로벌 측위 모델에 따른 글로벌 측위 결과에 해당하는 포즈를 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른 글로벌 측위 모델의 학습 방법의 프레임워크를 예시한 도면이다.
도 6a 및 도 6b는 일 실시 예에 따른 3차원 맵 데이터를 설명하기 위한 도면들이다.
도 7은 일 실시 예에 따른 글로벌 측위 모델의 학습 방법의 동작 흐름도이다.
도 8은 일 실시 예에 따른 글로벌 측위 모델(800)의 프레임워크를 예시한 도면이다.
도 9는 일 실시 예에 따른 글로벌 측위 모델의 학습 방법의 프레임워크를 예시한 도면이다.
도 10은 일 실시 예에 따른 글로벌 측위 장치의 구성의 예시도이다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시 예에 따른 글로벌 측위(global localization) 모델(100)의 프레임워크를 예시한 도면이다.
도 1을 참조하면, 일 실시 예에 따른 글로벌 측위 모델(혹은 글로벌 측위기)(100)은 이미지(101)를 입력 받아, 글로벌 측위 결과에 해당하는 포즈(102)를 출력하는 글로벌 측위 방법을 수행하는 모델에 해당할 수 있다. 글로벌 측위 모델(100)은 학습된 뉴럴 네트워크(neural network)인 제1 네트워크(110) 및 제2 네트워크(120)를 포함할 수 있으며, 포즈 추정기(130)를 포함할 수 있다. 이하에서, 글로벌 측위 모델(100)은 간략하게 '모델'로 지칭될 수 있다.
일 실시 예에 따른 이미지(101)는 3차원의 공간에 위치한 객체를 2차원의 평면에 투영한 상으로, 촬영 위치 및 촬영 각도에 따라 이미지에 투영된 객체의 형상은 달라질 수 있다.
예를 들어, 도 2를 참조하면, 3차원의 공간에 위치한 객체(201)를 특정 위치 및 특정 각도로 촬영하여, 2차원의 평면에 투영된 이미지(202)가 획득될 수 있다. 촬영 위치 및/또는 촬영 각도가 달라지면, 이미지(202)에 포함된 객체(201)의 형상은 달라질 수 있다. 이미지(202)에 포함된 객체(201)의 형상은 객체의 촬영 위치 및 촬영 각도, 다시 말해 객체(201)를 촬영 또는 센싱한 기기(203)의 포즈에 따라 객체(201)의 실제 형상이 투영 변환된 것에 해당할 수 있다.
다시 도 1을 참조하면, 모델(100)은 입력된 이미지(101)에 투영된 객체의 3차원의 공간에 대응하는 3차원의 좌표를 알 수 있는 경우, 객체의 촬영 위치 및 촬영 각도, 다시 말해 객체를 촬영 또는 센싱한 기기의 포즈를 추정할 수 있다. 모델(100)은 학습된 뉴럴 네트워크(110, 120)에 기초하여 객체의 투영을 포함하는 이미지의 각 픽셀에 대응하는 3차원 좌표(이하, 좌표 맵)을 추정할 수 있다. 모델(100)은 포즈 추정기(130)에 기초하여 이미지(101) 내 픽셀의 2차원 좌표와 해당 픽셀에 대응하는 3차원 좌표의 관계에 기초하여, 입력된 이미지(101)를 촬영한 기기의 포즈(102)를 추정할 수 있다.
일 실시 예에 따른 글로벌 측위 모델(100)은 학습에 의해 파라미터가 결정된 적어도 하나의 레이어를 포함하는 뉴럴 네트워크인 제1 네트워크(110) 및 제2 네트워크(120)를 포함할 수 있다.
일 실시 예에 따른 글로벌 측위 모델(100)에 기초한 글로벌 측위 방법은 입력 이미지(101)를 제1 네트워크(110)에 인가하여, 피처를 추출하는 단계, 추출된 피처를 제2 네트워크(120)에 인가하여, 입력 이미지(101)에 대응하는 좌표 맵을 추정하는 단계 및 추정된 좌표 맵에 기초하여, 입력 이미지(101)에 대응하는 포즈(102)를 추정하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 제1 네트워크(110)는 입력된 이미지로부터 피처(feature)를 추출하도록 학습된 뉴럴 네트워크에 해당할 수 있다.
일 실시 예에 따르면, 제2 네트워크(230)는 제1 네트워크(110)에서 추출된 피처에 기초하여, 입력된 이미지(101)에 대응하는 좌표 맵을 추정하도록 학습된 뉴럴 네트워크에 해당할 수 있다. 좌표 맵은 이미지의 각 픽셀에 대응하는 3차원 공간 내 영역의 3차원 좌표에 해당할 수 있다.
예를 들어, 도 3을 참조하면, 이미지(310)에 포함된 픽셀(311)은 3차원 공간 내 점(321)에 대응될 수 있으며, 해당 픽셀(311)에 대응하는 3차원 공간 내 점(321)의 3차원 좌표 값은 (xp, yp, zp)에 해당할 수 있다. 좌표 맵(320)은 이미지(310)에 포함된 픽셀들(p = {pi,j | i = 0, 1, …, n, j= 0, 1, …, m})에 대응하는 원소들(c = {ci,j | i = 0, 1, …, n, j= 0, 1, …, m})의 행렬을 포함할 수 있으며, 각 픽셀(pi,j)에 대응하는 원소(ci,j)의 값은 해당 픽셀에 대응하는 3차원 좌표(ci,j = [xi,j, yi,j, zi,j])에 해당할 수 있다.
다시 도 1을 참조하면, 일 실시 예에 따른 포즈 추정기(130)는 제2 네트워크(120)에서 추정된 좌표 맵에 기초하여, 입력된 이미지(101)에 대응하는 포즈(102)를 추정할 수 있다. 예를 들어, 포즈 추정기(130)는 좌표 맵을 입력 받아 포즈(102)를 출력하는 solvePnP(Perspective-n-Point) 함수를 포함할 수 있다. 포즈 추정기(130)에서 출력되는 포즈(102)는 입력된 이미지(101)를 촬영 혹은 센싱한 기기의 위치 정보 및 방향 정보를 포함할 수 있다. 예를 들어, 기기는 카메라, 카메라를 포함하는 장치, 이미지 센서를 포함하는 장치를 포함할 수 있다.
일 실시 예에 따른 포즈(102)는 6DOF 포즈를 포함할 수 있다. 6DOF 포즈는 수직, 수평 및 깊이 방향의 서로 직교하는 3개의 축에 대한 3차원의 위치 정보 및 3개의 축에 대한 기울기 정도에 관한 방향 정보를 포함할 수 있다.
예를 들어, 도 4를 참조하면, 글로벌 측위 모델은 이미지 내 픽셀의 2차원 좌표와 해당 픽셀에 대응하는 3차원 좌표의 관계에 기초하여, 객체(401)의 투영을 포함하는 이미지를 촬영한 기기(예를 들어, 카메라)(402)의 해당 객체(401)가 위치한 공간에서의 위치 정보 및 방향 정보를 포함하는 6DOF 포즈를 추정할 수 있다.
일 실시 예에 따르면, 글로벌 측위 모델(100)은 학습된 뉴럴 네트워크인 제1 네트워크(110) 및 제2 네트워크(120)를 포함할 수 있으며, 제1 네트워크(110) 및 제2 네트워크(120)는 역전파 알고리즘에 따른 학습 과정에 의해 결정된 파라미터를 포함할 수 있다.
다시 말해, 일 실시 예에 따른 글로벌 측위 모델(100)은 3차원 맵 데이터에 기초하여, 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지 및 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 획득하는 단계, 글로벌 측위 모델에 포함된 뉴럴 네트워크인 제1 네트워크(110) 및 제2 네트워크(120)의 파라미터를 업데이트하기 위하여, 글로벌 측위 모델에 관한 적어도 하나의 로스(loss)에 기초하여 획득된 그래디언트를 반복적으로 역전파하는 단계 및 제1 네트워크(110) 및 제2 네트워크(120)의 파라미터를 저장하는 단계를 포함하는 글로벌 측위 모델의 학습 과정에 의해 생성 혹은 제조될 수 있다.
일 예로, 제1 네트워크(110) 및/또는 제2 네트워크(120)는 학습 데이터에 포함된 이미지에 대응하는 정답 데이터를 출력하도록 학습될 수 있다. 학습 데이터에 포함된 이미지는 해당 이미지에 대응하는 정확한 좌표 맵 및 해당 이미지에 대응하는 정확한 포즈로 레이블링(labeling) 된 합성 이미지를 포함할 수 있다. 합성 이미지는 3차원 맵 데이터에 기초하여 가상의 카메라로 촬영된 이미지를 가정하여 생성된 이미지로, 실제 공간을 실제 카메라로 촬영한 실제 이미지(real image)와 구분될 수 있다. 합성 이미지를 포함하는 학습 데이터에 관하여는 이하에서 상술한다.
일 실시 예에 따르면, 제1 네트워크(110) 및 제2 네트워크(120) 중 적어도 하나는 학습 데이터에 포함된 합성 이미지에 대응하여 제2 네트워크(120)에 의해 추정된 좌표 맵 및 학습 데이터에 포함된 합성 이미지(synthetic image)에 대응하는 정답 데이터에 기초하여 획득된 제1 로스 및 합성 이미지에 대응하여 포즈 추정기(130)에서 추정된 포즈 및 학습 데이터에 포함된 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제2 로스 중 적어도 하나에 기초하여 학습될 수 있다. 학습 데이터에 포함된 합성 이미지에 대응하는 정답 데이터는 해당 합성 이미지에 대응하는 좌표 맵의 그라운드 트루스(ground truth; GT) 및 해당 합성 이미지에 대응하는 포즈의 그라운드 트루스를 포함할 수 있다. 제1 로스 및/또는 제2 로스에 기초하여 글로벌 측위 모델을 학습하는 구체적인 방법은 이하에서 상술한다.
또 일 예로, 제1 네트워크(110) 및/또는 제2 네트워크(120)는 실제 이미지와 합성 이미지를 구분하는 감별기(discriminator)에 따른 GAN로스(loss)에 기초하여 감별기와 적대적으로 학습될 수 있다. 보다 구체적으로, 제1 네트워크(110) 및 제2 네트워크(120) 중 적어도 하나는 제1 GAN 로스 및 제2 GAN 로스 중 적어도 하나에 기초하여 학습될 수 있다. 제1 GAN 로스는 3차원 맵 데이터에 의하여 획득된 합성 이미지에 기초하여 제1 네트워크(110)에서 추출된 제1 피처 및 실제 이미지에 기초하여 제1 네트워크(110)에서 추출된 제2 피처에 기초하여 획득된 로스에 해당할 수 있다. 제2 GAN 로스는 제1 피처에 기초하여 제2 뉴럴 네트워크(120)에서 추정된 제1 좌표 맵 및 제2 피처에 기초하여 제2 뉴럴 네트워크(120)에서 추정된 제2 좌표 맵에 기초하여 획득된 로스에 해당할 수 있다. 제1 GAN 로스 및/또는 제2 GAN 로스에 기초하여 글로벌 측위 모델을 학습하는 구체적인 방법은 이하에서 상술한다.
도 5는 일 실시 예에 따른 글로벌 측위 모델의 학습 방법의 프레임워크를 예시한 도면이다.
도 5를 참조하면, 일 실시 예에 따른 글로벌 측위 모델의 학습 데이터는 합성 데이터 세트(501) 및 실제 이미지(505)를 포함할 수 있다. 합성 데이터 세트(501)는 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지(504) 및 합성 이미지(504)의 각 픽셀에 대응하는 3차원 좌표 데이터를 포함할 수 있다. 합성 이미지(504)의 각 픽셀에 대응하는 3차원 좌표 데이터는 합성 이미지(504)에 대응하는 좌표 맵의 정답 데이터(혹은 GT 좌표 맵)(503)에 해당할 수 있다. 일 실시 예에 따르면, 합성 데이터 세트(501)에 포함된 합성 이미지(504)는 합성 이미지(504)를 촬영한 가상 카메라의 포즈 정보를 알 수 있다. 다시 말해, 합성 데이터 세트(501)는 합성 이미지(504)에 대응하는 포즈의 정답 데이터(혹은 GT 포즈)(502)를 더 포함할 수 있다. 다시 말해, 일 실시 예에 따른 합성 데이터 세트(501)에 포함된 합성 이미지(504)는 좌표 맵의 정답 데이터(503) 및 포즈의 정답 데이터(502)로 레이블링 될 수 있다.
일 실시 예에 따르면, 합성 데이터 세트(501)는 3차원 맵 데이터에 기초하여 획득될 수 있다. 예를 들어, 도 6a를 참조하면, 3차원 맵 데이터(610)는 임의의 공간에 대응하는 포인트 클라우드(611)를 포함할 수 있다. 다시 말해, 3차원 맵 데이터(610)는 임의의 공간에 포함된 적어도 하나의 객체를 3차원의 가상의 공간 내 점들의 집합인 포인트 클라우드(611)로 모델링한 데이터에 해당할 수 있다. 예를 들어, 도 6b를 참조하면, 포인트 클라우드에 포함된 점들은 3차원의 가상의 공간 내 특정 위치(621)를 원점으로 하는 3차원의 좌표계(620)로 표시될 수 있으며, 각 점에 대응하는 3차원의 좌표는 해당 점의 3차원 공간 내 위치를 의미하는 것으로 이해될 수 있다. 일 실시 예에 따른 포인트 클라우드에 포함된 점들은 위치를 지시하는 3차원 좌표 및 색상을 지시하는 RGB 값을 포함할 수 있다.
다시 도 5를 참조하면, 일 실시 예에 따른 3차원 맵 데이터에 기초하여, 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지(504)가 획득될 수 있다. 합성 이미지(504)는 3차원 맵 데이터에 대응하는 공간의 특정 위치에 특정 각도로 배치된 가상의 카메라로 3차원 맵 데이터에 포함된 객체를 촬영한 것으로 가정하여 합성된 객체의 투영 이미지에 해당할 수 있다. 다시 말해, 합성 이미지(504)는 3차원 맵 데이터에 포함된 일부 점들을 투영 변환함으로써, 생성한 이미지로 실제 공간을 실제 카메라로 촬영하여 생성된 실제 이미지(505)와 구분될 수 있다. 투영 변환은 가상의 카메라의 위치 및 각도에 기초하여 결정될 수 있다. 일 실시 예에 따르면, 합성 이미지(504)는 합성 이미지(504)에 투영된 점들의 RGB 값에 기초한 색상 정보를 더 포함할 수 있다.
일 실시 예에 따른 합성 이미지(504)는 각 픽셀에 대응하는 영역의 3차원 맵 데이터 내 3차원 좌표 값을 정확히 알 수 있으므로, 합성 이미지(504)에 대응하는 좌표 맵의 정답 데이터(503)가 획득될 수 있다. 또한, 일 실시 예에 따른 합성 이미지(504)는 3차원의 맵 데이터에 기초하여, 가상의 카메라의 배치를 가정하여 생성된 이미지에 해당하므로, 합성 이미지(504)를 촬영한 가상의 기기의 포즈를 정확히 알 수 있으므로, 합성 이미지(504)에 대응하는 포즈의 정답 데이터(502) 역시 획득될 수 있다.
일 실시 예에 따르면, 합성 데이터 세트(501)는 합성 이미지(504) 및 합성 이미지(504)에 대응하는 GT 좌표(503) 맵 및 GT 포즈(502)를 포함하므로 학습 과정에서 제2 네트워크(520)에 의해 추정된 좌표 맵에 관한 제1 로스(506) 및 포즈 추정기(530)에 의해 추정된 포즈에 관한 제2 로스(507)가 계산될 수 있다.
일 실시 예에 따르면, 제1 로스(506)는 합성 이미지(504)에 대응하여 제2 네트워크(520)에서 출력된 제1 좌표 맵 및 합성 이미지(504)에 대응하는 GT 좌표 맵(503)에 기초하여 획득될 수 있다. 제1 좌표 맵은 합성 이미지(504)에 대응하여 제1 네트워크(510)에서 출력된 제1 피처가 제2 네트워크(520)에 인가된 결과로 출력될 수 있다. 일 예로, 제1 로스(506)에 기초하여 획득된 그래디언트(gradient)는 제1 네트워크(510) 및 제2 네트워크(520)에 반복적으로 역전파됨으로써, 제1 네트워크(510) 및 제2 네트워크(520)의 가중치가 갱신될 수 있다. 제1 로스(506)에 기초하여 획득된 그래디언트는 제2 네트워크에서 합성 이미지(504)에 대응하여 출력된 제1 좌표 맵과 합성 이미지(504)에 대응하는 GT 좌표 맵(503)의 차이에 의해 획득된 그래디언트에 대응될 수 있다.
일 실시 예에 따르면, 제2 로스(507)는 합성 이미지(504)에 대응하여 포즈 추정기(530)에서 출력된 제1 포즈 및 합성 이미지(504)에 대응하는 GT 포즈(502)에 기초하여 획득될 수 있다. 제1 포즈는 합성 이미지(504)에 대응하여 제2 네트워크(520)에서 출력된 제1 좌표 맵이 포즈 추정기(530)에 입력된 결과로 출력될 수 있다. 일 예로, 제2 로스(507)에 기초하여 획득된 그래디언트는 제1 네트워크(510) 및 제2 네트워크(520)에 반복적으로 역전파됨으로써, 제1 네트워크(510) 및 제2 네트워크(520)의 가중치가 갱신될 수 있다. 제2 로스(507)에 기초하여 획득된 그래디언트는 포즈 추정기(530)에서 합성 이미지(504)에 대응하여 출력된 제1 포즈와 합성 이미지(504)에 대응하는 GT 포즈(502)의 차이에 의해 획득된 그래디언트에 대응될 수 있다.
일 예로, 제2 네트워크(520)의 가중치를 ws라고 할 때, ws는 GT 좌표 맵과의 차이를 최소화하는 과정과 GT 포즈와의 차이를 최소화하는 두 과정을 거쳐 학습될 수 있다. GT 좌표 맵과의 차이를 최소화하는 과정과 GT 포즈와의 차이를 최소화하는 두 과정에 대한 식은 각각 아래의 수학식 1 및 2와 같이 정의될 수 있다.
Figure pat00001
Figure pat00002
수학식 1에서, f는 제1 네트워크(510)의 출력, S는 제2 네트워크(520), s = S(f; w)는 제2 네트워크(520)의 가중치(weights)인 w에 의해 f로부터 출력된 좌표 맵, s*는 GT 좌표 맵, Ls는 제1 로스(506)에 해당할 수 있다. 제1 로스(506) Ls는 제2 네트워크(520)에서 추정된 좌표 맵 s와 GT 좌표 맵 s* 사이의 오차(error)로, 합성 이미지(504)에 포함된 픽셀 i에 대하여 추정된 si 및 정답 데이터인 si *의 놈(norm)의 합으로 정의될 수 있다.
수학식 2에서, P는 포즈 추정기, p = P(S(f; w))는 제2 네트워크(520)에서 출력된 좌표 맵 s = S(f; w)에 기초하여, 포즈 추정기(530)에서 출력된 포즈, Lp는 제2 로스(507)에 해당할 수 있다. 제2 로스(507) Lp는 포즈 추정기(530)에서 추정된 포즈 p 와 GT 포즈 p*사이의 오차로, 회전 오차(rotation error)
Figure pat00003
와 평행 이동 오차(translation error)
Figure pat00004
중 최대 값으로 결정될 수 있다.
일 실시 예에 따르면, 합성 데이터 세트(501)에 대해서만 글로벌 측위 모델의 학습을 수행하는 경우, 합성 이미지(504)와 다른 도메인에 해당하는 실제 이미지(505)에 대해서는 글로벌 측위의 성능이 저하될 수 있다. 글로벌 측위 모델의 합성 이미지(504)와 실제 이미지(505) 사이의 도메인 격차(domain gap)를 줄이기 위해 제1 감별기(discriminator)(540) 및 제2 감별기(550)를 이용하여 학습 과정을 수행할 수 있다.
일 실시 예에 따르면, 제1 감별기(540)는 제1 네트워크(510)의 출력인 피처의 도메인 분류를 수행할 수 있으며, 제2 감별기(550)는 제2 네트워크(520)의 출력인 좌표 맵의 도메인 분류를 수행할 수 있다. 도메인 분류는 입력 데이터가 합성 이미지(504)에 대응하는 것인지, 또는 실제 이미지(505)에 대응하는 것인지를 판단하는 동작에 해당할 수 있다.
예를 들어, 제1 감별기(540)는 합성 이미지(504)에서 추출된 피처에 대응하여 합성 이미지(504)를 지시하는 값을 출력하고, 실제 이미지(505)에서 추출된 피처에 대응하여 실제 이미지(505)를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함할 있다. 제1 감별기(540)는 입력된 피처가 합성 이미지(504)에서 추출된 피처로 판단되는 경우 합성 이미지(504)를 지시하는 값(예를 들어, 1)을 출력하고, 입력된 피처가 실제 이미지(505)에서 추출된 피처로 판단되는 경우 실제 이미지(505)를 지시하는 값(예를 들어, 0)을 출력하도록 학습될 수 있다.
또 예를 들어, 제2 감별기(550)는 합성 이미지(504)에서 추정된 좌표 맵에 대응하여 합성 이미지(504)를 지시하는 값을 출력하고, 실제 이미지(505)에서 추정된 좌표 맵에 대응하여 실제 이미지(505)를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함할 수 있다. 제2 감별기(550)는 입력된 좌표 맵이 합성 이미지(504)에 대응하여 추정된 좌표 맵으로 판단되는 경우 합성 이미지(504)를 지시하는 값(예를 들어, 1)을 출력하고, 입력된 좌표 맵이 실제 이미지(505)에 대응하여 추정된 좌표 맵으로 판단되는 경우 실제 이미지(505)를 지시하는 값(예를 들어, 0)을 출력하도록 학습될 수 있다.
일 실시 예에 따르면, 제1 네트워크(510)는 제1 GAN 로스(508)에 기초하여, 제1 감별기(540)와 적대적으로 학습될 수 있다. 제1 GAN 로스(508)는 합성 이미지(504)에 기초하여 제1 네트워크(510)에서 추출된 제1 피처 및 실제 이미지(505)에 기초하여 제1 네트워크(510)에서 추출된 제2 피처에 기초하여 획득될 수 있다. 보다 구체적으로 제1 GAN 로스(508)는 글로벌 측위 모델에 합성 이미지(504)가 입력된 경우, 제1 피처에 기초하여 제1 감별기(540)에서 출력된 결과와 제1 피처에 대응하는 도메인 분류의 정답 데이터인 합성 이미지(504)를 지시하는 값의 차이에 기초하여 계산될 수 있다. 제1 GAN 로스(508)는 글로벌 측위 모델에 실제 이미지(505)가 입력된 경우, 제2 피처에 기초하여 제1 감별기(540)에서 출력된 결과와 제2 피처에 대응하는 도메인 분류의 정답 데이터인 실제 이미지(505)를 지시하는 값의 차이에 기초하여 계산될 수 있다.
일 예로, 제1 GAN 로스(508)에 기초하여 획득된 그래디언트는 제1 감별기(540) 및 제1 네트워크(510)에 반복적으로 역전파됨으로써, 제1 감별기(540) 및 제1 네트워크(510)의 가중치가 갱신될 수 있다. 제1 GAN 로스(508)에 기초하여 획득된 그래디언트는 제1 감별기(540)에서 입력된 피처에 대응하여 출력된 도메인 분류 결과와 입력된 피처에 대응하는 도메인 분류의 정답 데이터의 차이에 의해 획득된 그래디언트에 대응될 수 있다. 예를 들어, 제1 GAN 로스(508)에 기초하여, 제1 감별기(540)는 입력된 피처에 대응하여 도메인 분류의 정답 데이터를 출력하도록 학습될 수 있으며, 제1 네트워크(510)는 제1 감별기(540)가 도메인 분류를 수행하기 어려운 피처를 추출하도록 학습될 수 있다.
일 실시 예에 따르면, 학습 과정에서 합성 이미지(504) 및 실제 이미지(505)는 글로벌 측위 모델에 번갈아서 입력될 수 있다. 일 예로, 합성 이미지(504)가 입력됨에 따라, 제1 GAN 로스(508)에 기초하여, 제1 피처를 제1 감별기(540)에 입력하여 획득된 그래디언트를 역전파하는 과정 및 실제 이미지(505)가 입력됨에 따라, 제1 GAN 로스(508)에 기초하여, 제2 피처를 제1 감별기(540)에 입력하여 획득된 그래디언트를 역전파하는 과정은 번갈아서 수행될 수 있다. 또 일 예로, 합성 이미지(504)가 입력됨에 따라, 제2 GAN 로스(509)에 기초하여, 제1 좌표 맵을 제2 감별기(550)에 입력하여 획득된 그래디언트를 역전파하는 과정 및 실제 이미지(505)가 입력됨에 따라, 제2 GAN 로스(509)에 기초하여, 제2 좌표 맵을 제2 감별기(550)에 입력하여 획득된 그래디언트를 역전파하는 과정은 번갈아서 수행될 수 있다.
일 실시 예에 따르면, 제2 네트워크(520)는 제2 GAN 로스(509)에 기초하여, 제2 감별기(550)와 적대적으로 학습될 수 있다. 제2 GAN 로스(509)는 제1 피처에 기초하여 제2 네트워크(520)에서 추정된 제1 좌표 맵 및 제2 피처에 기초하여 제2 네트워크(520)에서 추정된 제2 좌표 맵에 기초하여 획득될 수 있다. 상술한 바와 같이, 제1 피처는 제1 네트워크(510)에서 합성 이미지(504)에 대응하여 출력된 피처에 해당할 수 있으며, 제2 피처는 제1 네트워크(510)에서 실제 이미지(505)에 대응하여 출력된 피처에 해당할 수 있다. 보다 구체적으로, 제2 GAN 로스(509)는 글로벌 측위 모델에 합성 이미지(504)가 입력된 경우, 제1 좌표 맵에 기초하여 제2 감별기(550)에서 출력된 결과와 제1 좌표 맵에 대응하는 도메인 분류의 정답 데이터인 합성 이미지(504)를 지시하는 값의 차이에 기초하여 계산될 수 있다. 제2 GAN 로스(509)는 글로벌 측위 모델에 실제 이미지(505)가 입력된 경우, 제2 좌표 맵에 기초하여 제2 감별기(550)에서 출력된 결과와 제2 좌표 맵에 대응하는 도메인 분류의 정답 데이터인 실제 이미지(505)를 지시하는 값의 차이에 기초하여 계산될 수 있다.
일 예로, 제2 GAN 로스(509)에 기초하여 획득된 그래디언트는 제2 감별기(550) 및 제2 네트워크(520)에 반복적으로 역전파됨으로써, 제2 감별기(550) 및 제2 네트워크(520)의 가중치가 갱신될 수 있다. 제2 GAN 로스(509)에 기초하여 획득된 그래디언트는 제2 감별기(550)에서 입력된 좌표 맵에 대응하여 출력된 도메인 분류 결과와 입력된 좌표 맵에 대응하는 도메인 분류의 정답 데이터의 차이에 의해 획득된 그래디언트에 대응될 수 있다. 예를 들어, 제2 GAN 로스(509)에 기초하여, 제2 감별기(550)는 입력된 좌표 맵에 대응하여 도메인 분류의 정답 데이터를 출력하도록 학습될 수 있으며, 제2 네트워크(520)는 제2 감별기(550)가 도메인 분류를 수행하기 어려운 좌표 맵을 추출하도록 학습될 수 있다.
일 실시 예에 따르면, 제2 GAN 로스(509)의 그래디언트는 제2 감별기(550) 및 제2 네트워크(520) 뿐 아니라, 제1 네트워크(510)에도 역전파될 수 있으며, 이로 인하여 제1 네트워크(510)의 가중치가 갱신될 수 있다.
일 실시 예에 따르면, 제1 GAN 로스(508)에 기초하여 획득된 그래디언트의 역전파 과정은 제1 GAN 로스(508)에 기초하여, 제1 감별기(540)에 제1 피처를 입력하여 획득된 출력에 대응하는 오차의 그래디언트를 제1 감별기(540) 및 제1 네트워크(510)에 역전파하는 과정 및 제1 GAN 로스(508)에 기초하여, 제1 감별기(540)에 제2 피처를 입력하여 획득된 출력에 대응하는 오차의 그래디언트를 제1 감별기(540) 및 제1 네트워크(510)에 반복적으로 역전파하는 과정을 포함할 수 있다. 일 예로, 제1 감별기(540)에 제1 피처를 입력하여 획득된 출력에 대응하는 오차의 그래디언트 및 제1 감별기(540)에 제2 피처를 입력하여 획득된 출력에 대응하는 오차의 그래디언트는 번갈아서 역전파될 수 있다.
일 실시 예에 따르면, 제1 네트워크(510) 및 제2 네트워크(520) 중 적어도 하나를 학습시키는 단계는 제2 GAN 로스(509)에 기초하여, 합성 이미지(504)에서 추정된 좌표 맵 및 실제 이미지(505)에서 추정된 좌표 맵을 구분하는 제2 감별기(550)와 제2 네트워크(520)를 적대적으로 학습시키는 단계를 포함할 수 있다. 제2 GAN 로스(509)는 제1 피처에 기초하여 제2 네트워크(520)에서 추정된 제1 좌표 맵 및 제2 피처에 기초하여 제2 네트워크(520)에서 추정된 제2 좌표 맵에 기초하여 획득된 로스를 포함할 수 있다. 일 예로, 합성 이미지(504) 및 실제 이미지(505)는 번갈아서 모델에 입력될 수 있으며, 제2 GAN 로스(509)에 기초하여 획득된 오차의 그래디언트는 제2 감별기(550) 및 제2 네트워크(520)에 반복적으로 역전파될 수 있다.
일 실시 예에 따르면, 제2 GAN 로스(509)에 기초하여 획득된 오차의 그래디언트의 역전파 과정은 제2 GAN 로스(509)에 기초하여, 제2 감별기(550)에 제1 피처를 입력하여 획득된 출력에 대응하는 오차의 그래디언트를 제2 감별기(550) 및 제2 네트워크(520)에 역전파하는 과정 및 제2 GAN 로스(509)에 기초하여, 제2 감별기(550)에 제2 피처를 입력하여 획득된 출력에 대응하는 오차의 그래디언트를 제2 감별기(550) 및 제2 네트워크(520)에 반복적으로 역전파하는 과정을 포함할 수 있다. 일 예로, 합성 이미지(504) 및 실제 이미지(505)는 번갈아서 모델에 입력될 수 있으며, 제2 감별기(550)에 제1 피처를 입력하여 획득된 출력에 대응하는 오차의 그래디언트 및 제2 감별기(550)에 제2 피처를 입력하여 획득된 출력에 대응하는 오차의 그래디언트는 번갈아서 역전파될 수 있다.
일 예로, 일 실시 예에 따른 제1 감별기(540)의 가중치를 wD1라고 하고, 제2 감별기(550)의 가중치를 wD2라고 할 때, wD1 및 wD2는 각각 도메인 분류의 정답 데이터와의 차이를 최소화하는 과정을 거쳐 학습될 수 있으며, 두 과정에 대한 식은 각각 아래의 수학식 3 및 4와 같이 정의될 수 있다.
Figure pat00005
Figure pat00006
수학식 3 및 4에서 d*∈{0,1}는 도메인 분류의 정답 데이터로, 합성 이미지(504) 혹은 실제 이미지(505)를 지시하는 이진 변수(binary variable)를 사용할 수 있으며, D1은 제1 감별기(540), D1(f; w)는 입력된 피처 f에 대응하여 제1 감별기(540)에서 출력된 도메인 분류 결과, LD1은 제1 GAN 로스(508), D2는 제2 감별기(550), D2(s; w)는 입력된 좌표 맵 s에 대응하여 제2 감별기(550)에서 출력된 도메인 분류 결과, LD2는 제2 GAN 로스(509)에 해당할 수 있다. 제1 GAN 로스(508) LD1 및 제2 GAN 로스(509) LD2는 이진 크로스 엔트로피(binary cross entropy)를 사용할 수 있다.
상술한 바와 같이, 제1 GAN 로스(508)에 기초하여, 제1 네트워크(510)는 제1 감별기(540)와 적대적으로 학습될 수 있으며, 제1 로스(506) 및 제2 로스(507)에 기초하여 학습될 수 있다. 일 예로, 제1 네트워크(510)의 학습 과정은 제1 GAN 로스(508) 및 제1 로스(506)에 기초하여, 제1 네트워크(510)의 가중치를 업데이트하기 위한 학습 과정, 및 제1 GAN 로스(508) 및 제2 로스(507)에 기초하여, 제1 네트워크(510)의 가중치를 업데이트하기 위한 학습 과정의 두 단계로 각각 수학식 5 및 6과 같이 정의될 수 있다.
Figure pat00007
Figure pat00008
상술한 바와 같이, 제2 GAN 로스(509)에 기초하여, 제2 네트워크(520)는 제2 감별기(550)와 적대적으로 학습될 수 있으며, 제1 로스(506) 및 제2 로스(507)에 기초하여 학습될 수 있다. 일 예로, 제2 네트워크(520)의 학습 과정은 제2 GAN 로스(509) 및 제1 로스(506)에 기초하여, 제2 네트워크(520)의 가중치를 업데이트하기 위한 학습 과정, 및 제2 GAN 로스(509) 및 제2 로스(507)에 기초하여, 제2 네트워크(520)의 가중치를 업데이트하기 위한 학습 과정의 두 단계로 각각 수학식 7 및 8과 같이 정의될 수 있다.
Figure pat00009
Figure pat00010
상술한 바와 같이, 제2 GAN 로스(509)의 그래디언트는 제2 감별기(550) 및 제2 네트워크(520) 뿐 아니라, 제1 네트워크(510)에도 역전파될 수 있는 바, 제1 네트워크(510)는 제2 GAN 로스(509)에 기초하여 제1 네트워크(510)의 가중치를 업데이트하기 위한 학습 과정이 수행될 수 있다.
도 7은 일 실시 예에 따른 글로벌 측위 모델의 학습 방법의 동작 흐름도이다.
도 7을 참조하면, 일 실시 예에 따른 글로벌 측위 모델의 학습 방법은 3차원 맵 데이터에 기초하여, 합성 데이터 세트를 획득하는 단계(710), 제1 GAN 로스를 획득하는 단계(720), 제2 GAN 로스를 획득하는 단계(730), 제1 로스를 획득하는 단계(730), 제2 로스를 획득하는 단계(740) 및 제1 네트워크 및 제2 네트워크 중 적어도 하나를 학습시키는 단계(760)를 포함할 수 있다. 일 실시 예에 따른 글로벌 측위 모델의 학습 방법의 동작은 적어도 하나의 프로세서에 의해 수행될 수 있다.
일 실시 예에 따른 단계(710)는 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지 및 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 포함하는 합성 데이터 세트를 획득하는 단계를 포함할 수 있다. 상술한 바와 같이, 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터는 GT 좌표 맵에 대응될 수 있으며, 합성 데이터 세트는 합성 이미지에 대응하는 GT 포즈를 더 포함할 수 있다.
일 실시 예에 따른 글로벌 측위 모델의 학습 방법은 단계(710) 이후에 합성 이미지를 제1 네트워크에 인가하여, 제1 피처를 추출하는 단계, 추출된 제1 피처를 제2 네트워크에 인가하여, 합성 이미지의 각 픽셀에 대응하는 제1 좌표 맵을 추정하는 단계, 및 추정된 제1 좌표 맵에 기초하여, 합성 이미지에 대응하는 제1 포즈를 추정하는 단계를 더 포함할 수 있으며, 실제 카메라로 촬영된 실제 이미지를 제1 네트워크에 인가하여, 제2 피처를 추출하는 단계 및 추출된 제2 피처를 제2 네트워크에 인가하여, 실제 이미지의 각 픽셀에 대응하는 제2 좌표 맵을 추정하는 단계를 더 포함할 수 있다.
일 실시 예에 따른 제1 GAN 로스를 획득하는 단계(720)는 합성 이미지를 제1 네트워크에 인가하여 획득된 제1 피처 및 실제 이미지를 제1 네트워크에 인가하여 획득된 제2 피처에 기초하여, 제1 GAN 로스를 획득하는 단계를 포함할 수 있다.
일 실시 예에 따른 제2 GAN 로스를 획득하는 단계(730)는 제1 피처를 제2 네트워크에 인가하여 획득된 제1 좌표 맵 및 제2 피처를 제2 네트워크에 인가하여 획득된 제2 좌표 맵에 기초하여, 제2 GAN 로스를 획득하는 단계를 포함할 수 있다.
일 실시 예에 따른 제1 로스를 획득하는 단계(740)는 제1 좌표 맵 및 합성 이미지에 대응하는 3차원 좌표 데이터에 기초하여, 제1 로스를 획득하는 단계를 포함할 수 있다.
일 실시 예에 따른 제2 로스를 획득하는 단계(750)는 제1 좌표 맵에 대응하여 추정된 제1 포즈 및 가상의 카메라의 포즈에 기초하여, 제2 로스를 획득하는 단계를 포함할 수 있다.
일 실시 예에 따른 학습시키는 단계(760)는 단계는 제1 로스, 제2 로스, 제1 GAN 로스 및 제2 GAN 로스 중 적어도 하나에 기초하여, 제1 네트워크 및 제2 네트워크 중 적어도 하나를 학습시키는 단계를 포함할 수 있다. 일 예로, 단계(760)는 글로벌 측위 모델에 포함된 뉴럴 네트워크(예를 들어, 제1 네트워크 및 제2 네트워크 중 적어도 하나)의 파라미터를 업데이트하기 위하여, 글로벌 측위 모델에 관한 적어도 하나의 로스(예를 들어, 제1 로스, 제2 로스, 제1 GAN 로스 및 제2 GAN 로스 중 적어도 하나)에 기초하여 획득된 그래디언트를 반복적으로 역전파하는 단계 및 뉴럴 네트워크의 파라미터를 저장하는 단계를 포함할 수 있다. 뉴럴 네트워크의 파라미터는 글로벌 측위 모델이 저장된 기록 매체 혹은 메모리에 저장될 수 있다.
일 실시 예에 따르면, 학습시키는 단계(760)는 제1 GAN 로스에 기초하여, 합성 이미지에서 추출된 피처 및 실제 이미지에서 추출된 피처를 구분하는 제1 감별기와 제1 네트워크를 적대적으로 학습시키는 단계를 포함할 수 있다. 예를 들어, 단계(760)는 제1 GAN 로스에 기초하여, 제1 감별기에 제1 피처를 입력하여 획득된 그래디언트를 제1 감별기 및 제1 네트워크에 반복적으로 역전파하는 단계 및 제1 GAN 로스에 기초하여, 제1 감별기에 제2 피처를 입력하여 획득된 그래디언트를 제1 감별기 및 제1 네트워크에 반복적으로 역전파하는 단계를 포함할 수 있다. 상술한 바와 같이, 1 감별기는 합성 이미지에서 추출된 피처에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추출된 피처에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함할 수 있다.
일 실시 예에 따르면, 학습시키는 단계(760)는 제2 GAN 로스에 기초하여, 합성 이미지에서 추정된 좌표 맵 및 실제 이미지에서 추정된 좌표 맵을 구분하는 제2 감별기와 제2 네트워크를 적대적으로 학습시키는 단계를 포함할 수 있다. 예를 들어, 단계(760)는 제2 GAN 로스에 기초하여, 제2 감별기에 제1 좌표 맵을 입력하여 획득된 그래디언트를 제2 감별기 및 제2 네트워크에 반복적으로 역전파하는 단계 및 제2 GAN 로스에 기초하여, 제2 감별기에 제2 좌표 맵을 입력하여 획득된 그래디언트를 제2 감별기 및 제2 네트워크에 반복적으로 역전파하는 단계를 포함할 수 있다. 상술한 바와 같이, 제2 감별기는 합성 이미지에서 추정된 좌표 맵에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추정된 좌표 맵에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함할 수 있다.
일 예로, 학습시키는 단계(760)는 제1 로스에 기초하여 획득된 그래디언트를 제1 네트워크 및 제2 네트워크에 반복적으로 역전파하는 단계를 포함할 수 있다. 또 일 예로, 학습시키는 단계(760)는 제2 로스에 기초하여 획득된 그래디언트를 제1 네트워크 및 제2 네트워크에 반복적으로 역전파하는 단계를 포함할 수 있다.
도 8은 일 실시 예에 따른 글로벌 측위 모델(800)의 프레임워크를 예시한 도면이다.
도 8을 참조하면, 일 실시 예에 따른 글로벌 측위 모델(800)은 이미지(801)를 입력 받아, 글로벌 측위 결과에 해당하는 포즈(802)를 출력하는 글로벌 측위 방법을 수행하는 모델에 해당할 수 있다. 글로벌 측위 모델(800)은 학습된 뉴럴 네트워크(neural network)를 포함할 수 있으며, 뉴럴 네트워크는 제1 네트워크(810) 및 제3 네트워크(820)를 포함할 수 있다.
일 실시 예에 따르면, 글로벌 측위 모델(800)의 입력 데이터인 이미지(801) 및 출력 데이터인 포즈(802)는 도 1에서 상술한 글로벌 측위 모델(100)의 입력 데이터인 이미지(101) 및 출력 데이터인 포즈(102)에 각각 대응될 수 있다.
일 실시 예에 따른 제1 네트워크(810)는 입력된 이미지로부터 피처를 추출하도록 학습된 뉴럴 네트워크로, 도 1에서 상술한 제1 네트워크(110)에 대응될 수 있다.
일 실시 예에 따르면, 제3 네트워크(820)는 제1 네트워크(810)에서 추출된 피처에 기초하여, 입력된 이미지(801)에 대응하는 포즈를 추정하도록 학습된 뉴럴 네트워크에 해당할 수 있다. 도 1에서 상술한 포즈 추정기(130)는 제2 네트워크(120)의 출력인 좌표 맵을 입력으로 받아 입력된 이미지(101)에 대응하는 포즈(102)를 PnP 알고리즘 등을 통해 추정하는 모듈인 한편, 제3 네트워크(820)는 제1 네트워크(810)의 출력인 피처를 입력으로 받아 입력된 이미지(801)에 대응하는 포즈(802)를 추정하는 뉴럴 네트워크라는 점에서, 도 8에 도시된 글로벌 측위 모델(800)은 도1에 도시된 글로벌 측위 모델(100)과 차이가 있다.
일 실시 예에 따르면, 글로벌 측위 모델(800)에 포함된 제1 네트워크(810) 및 제3 네트워크(820)는 역전파 알고리즘에 따른 학습 과정에 의해 결정된 파라미터를 포함할 수 있다. 다시 말해, 일 실시 예에 따른 글로벌 측위 모델(800)은 3차원 맵 데이터에 기초하여, 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지를 획득하는 단계, 글로벌 측위 모델(800)에 포함된 뉴럴 네트워크(810, 820)의 파라미터를 업데이트하기 위하여, 글로벌 측위 모델에 관한 적어도 하나의 로스(loss)에 기초하여 획득된 그래디언트를 반복적으로 역전파하는 단계 및 뉴럴 네트워크(810, 820)의 파라미터를 저장하는 단계를 포함하는 글로벌 측위 모델의 학습 과정에 의해 생성 혹은 제조될 수 있다.
일 예로, 제1 네트워크(810) 및/또는 제4네트워크(820)는 학습 데이터에 포함된 이미지에 대응하는 정답 데이터를 출력하도록 학습될 수 있다. 일 실시 예에 따르면, 제1 네트워크(810) 및 제3 네트워크(820)는 학습 데이터에 포함된 합성 이미지에 대응하여 제3 네트워크(820)에서 추정된 포즈 및 학습 데이터에 포함된 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제2 로스에 기초하여 학습될 수 있다. 학습 데이터에 포함된 합성 이미지에 대응하는 정답 데이터는 해당 합성 이미지에 대응하는 포즈의 그라운드 트루스를 포함할 수 있다. 제2 로스는 도 1 내지 도 7을 통하여 상술한 제2 로스에 대응될 수 있다. 제2 로스에 기초하여 글로벌 측위 모델을 학습하는 구체적인 방법은 이하에서 상술한다.
또 일 예로, 제1 네트워크(810) 및 제3 네트워크(820)는 실제 이미지와 합성 이미지를 구분하는 감별기에 따른 GAN로스(loss)에 기초하여 감별기와 적대적으로 학습될 수 있다. 보다 구체적으로, 제1 네트워크(810)는 제1 GAN 로스에 기초하여 학습될 수 있다. 제1 GAN 로스는 도 1 내지 도 7을 통하여 상술한 제1 GAN 로스에 대응될 수 있다. 다시 말해, 제1 GAN 로스는 3차원 맵 데이터에 의하여 획득된 합성 이미지에 기초하여 제1 네트워크(810)에서 추출된 제1 피처 및 실제 이미지에 기초하여 제1 네트워크(810)에서 추출된 제2 피처에 기초하여 획득된 로스에 해당할 수 있다. 제1 GAN 로스에 기초하여 글로벌 측위 모델을 학습하는 구체적인 방법은 이하에서 상술한다.
도 9는 일 실시 예에 따른 글로벌 측위 모델의 학습 방법의 프레임워크를 예시한 도면이다.
도 9를 참조하면, 일 실시 예에 따른 글로벌 측위 모델의 학습 데이터는 합성 데이터 세트(901) 및 실제 이미지(903)를 포함할 수 있다. 합성 데이터 세트(901)는 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지(903) 및 합성 이미지(903)에 대응하는 포즈의 정답 데이터(혹은 GT 포즈)(902)를 포함할 수 있다. 상술한 바와 같이, 합성 데이터 세트(901)에 포함된 합성 이미지(903)는 합성 이미지(504)를 촬영한 가상 카메라의 포즈 정보를 알 수 있으므로, 포즈의 정답 데이터(902)로 레이블링 될 수 있다.
일 실시 예에 따르면, 제2 로스(905)는 도 5에서 상술한 제2 로스(507)에 대응될 수 있다. 다시 말해, 제2 로스(905)는 제3 네트워크(920)에서 합성 이미지(903)에 대응하여 추정된 포즈 및 합성 이미지(903)에 대응하는 포즈의 정답 데이터(902)에 기초하여 획득될 수 있다. 일 예로, 제2 로스(902)에 기초하여 획득된 그래디언트는 제1 네트워크(910) 및 제3 네트워크(920)에 반복적으로 역전파됨으로써, 제1 네트워크(910) 및 제3 네트워크(920)의 가중치가 갱신될 수 있다.
일 실시 예에 따르면, 제1 네트워크(910)는 제1 GAN 로스(906)에 기초하여, 제1 감별기(930)와 적대적으로 학습될 수 있다. 제1 감별기(930)는 도 5를 통해 상술한 제1 감별기(540)에 대응될 수 있다. 다시 말해, 제1 감별기(930)는 입력된 피처가 합성 이미지(903)에서 추출된 피처로 판단되는 경우 합성 이미지(903)를 지시하는 값(예를 들어, 1)을 출력하고, 입력된 피처가 실제 이미지(904)에서 추출된 피처로 판단되는 경우 실제 이미지(904)를 지시하는 값(예를 들어, 0)을 출력하도록 학습될 수 있다.
일 실시 예에 따르면, 제1 GAN 로스(906)는 도 5를 통해 상술한 제1 GAN 로스(508)에 대응될 수 있다. 제1 GAN 로스(906)에 기초하여 획득된 그래디언트는 제1 감별기(930) 및 제1 네트워크(910)에 반복적으로 역전파됨으로써, 제1 감별기(930) 및 제1 네트워크(910)의 가중치가 갱신될 수 있다. 예를 들어, 제1 GAN 로스(906)에 기초하여, 제1 감별기(930)는 입력된 피처에 대응하여 도메인 분류의 정답 데이터를 출력하도록 학습될 수 있으며, 제1 네트워크(910)는 제1 감별기(930)가 도메인 분류를 수행하기 어려운 피처를 추출하도록 학습될 수 있다.
도 10은 일 실시 예에 따른 글로벌 측위 장치의 구성의 예시도이다.
도 10을 참조하면, 일 실시 예에 따른 글로벌 측위 장치(1000)는 프로세서(1001), 메모리(1003) 및 입출력 장치(1005)를 포함할 수 있다. 장치(1000)는 예를 들어, 사용자 디바이스(예: 스마트폰, 퍼스널 컴퓨터, 태블릿 PC 등), AR glasses, 서버를 포함할 수 있다.
일 실시 예에 따른 장치(1000)는 글로벌 측위 모델이 기록된 메모리(1003)를 포함할 수 있다. 글로벌 측위 모델은 도 1 내지 도 7을 통하여 상술한 글로벌 측위 모델 또는 도 8 내지 도 9를 통하여 상술한 글로벌 측위 모델을 포함할 수 있다. 일 실시 예에 따른 메모리(703)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.
이하에서, 메모리(703)에 기록된 글로벌 측위 모델은 도 1 내지 도 7을 통하여 상술한 글로벌 측위 모델인 것으로 예로 들어 설명한다. 다시 말해, 글로벌 측위 모델은 입력 이미지의 피처를 추출하는 제1 네트워크, 제1 네트워크의 출력에 기초하여 입력 이미지의 좌표 맵을 추정하는 제2 네트워크, 및 제2 네트워크의 출력에 기초하여 글로벌 측위 결과에 해당하는 포즈를 추정하는 포즈 추정기를 포함할 수 있다.
상술한 바와 같이, 글로벌 측위 모델은 글로벌 측위 모델의 학습 방법에 의해 생성 및 제조될 수 있다. 예를 들어, 글로벌 측위 모델은 3차원원 맵 데이터에 기초하여, 합성 데이터 세트를 획득하는 단계, 글로벌 측위 모델에 포함된 뉴럴 네트워크의 파라미터를 업데이트하기 위하여, 글로벌 측위 모델에 관한 적어도 하나의 로스에 기초하여 획득된 그래디언트를 반복적으로 역전파하는 단계, 뉴럴 네트워크의 파라미터를 메모리(1003)에 저장하는 단계에 의해 제조 혹은 생성될 수 있다. 일 예로, 글로벌 측위 모델에 포함된 뉴럴 네트워크는 도 1을 통해 상술한 바와 같이 제1 네트워크 및 제2 네트워크를 포함할 수 있다. 또 일 예로, 글로벌 측위 모델에 포함된 뉴럴 네트워크는 도 8을 통해 상술한 바와 같이 제1 네트워크 및 제3 네트워크를 포함할 수도 있다.
일 실시 예에 따르면, 메모리(1003)는 상술한 글로벌 측위 모델이 구현된 프로그램을 저장할 수 있으며, 프로세서(1001)는 메모리(1003)에 저장된 프로그램을 실행하고, 장치(1000)를 제어할 수 있다. 일 예로, 프로세서(1001)는 입력 이미지를 제1 네트워크에 인가하여, 제1 네트워크에서 출력된 입력 이미지의 피처를 획득하고, 피처를 제2 네트워크에 인가하여, 제2 네트워크에서 출력된 입력 이미지에 대응하는 좌표 맵을 획득하며, 좌표 맵에 기초하여 포즈 추정기에서 출력된 입력 이미지에 대응하는 포즈를 획득할 수 있다.
일 측에 따른 장치(1000)는 입출력 장치(1005)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터, 서버 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다. 예를 들어, 장치(1000)는 입출력 장치(705)를 통해 이미지를 수신할 수 있으며, 글로벌 측위 모델의 결과인 이미지에 대응하여 추정된 포즈를 출력할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 입력 이미지를 제1 네트워크에 인가하여, 피처를 추출하는 단계;
    상기 추출된 피처를 제2 네트워크에 인가하여, 상기 입력 이미지에 대응하는 좌표 맵을 추정하는 단계; 및
    상기 추정된 좌표 맵에 기초하여, 상기 입력 이미지에 대응하는 포즈를 추정하는 단계
    를 포함하고,
    상기 제1 네트워크 및 상기 제2 네트워크 중 적어도 하나는
    3차원 맵 데이터에 의하여 획득된 합성 이미지에 기초하여 상기 제1 네트워크에서 추출된 제1 피처 및 실제 이미지에 기초하여 상기 제1 네트워크에서 추출된 제2 피처에 기초하여 획득된 제1 GAN 로스(loss); 및
    상기 제1 피처에 기초하여 상기 제2 네트워크에서 추정된 제1 좌표 맵 및 상기 제2 피처에 기초하여 상기 제2 네트워크에서 추정된 제2 좌표 맵에 기초하여 획득된 제2 GAN 로스
    중 적어도 하나에 기초하여 학습된,
    글로벌 측위 방법.
  2. 제1항에 있어서,
    상기 제1 네트워크 및 상기 제2 네트워크 중 적어도 하나는
    상기 제1 좌표 맵 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제1 로스; 및
    상기 제1 좌표 맵에 기초하여 추정된 제1 포즈 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제2 로스
    중 적어도 하나에 더 기초하여 학습된,
    글로벌 측위 방법.
  3. 제2항에 있어서,
    상기 정답 데이터는
    상기 합성 이미지를 촬영한 가상의 카메라의 포즈 및 상기 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 포함하는,
    글로벌 측위 방법.
  4. 제1항에 있어서,
    상기 포즈는
    상기 입력 이미지를 촬영한 기기의 6DOF 포즈를 포함하는,
    글로벌 측위 방법.
  5. 제1 네트워크 및 제2 네트워크를 포함하는 글로벌 측위 모델의 학습 방법에 있어서,
    3차원 맵 데이터에 기초하여, 합성 데이터 세트 - 상기 합성 데이터 세트는 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지 및 상기 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 포함함 - 를 획득하는 단계;
    상기 합성 이미지를 상기 제1 네트워크에 인가하여 획득된 제1 피처 및 실제 카메라로 촬영된 실제 이미지를 상기 제1 네트워크에 인가하여 획득된 제2 피처에 기초하여, 제1 GAN 로스를 획득하는 단계;
    상기 제1 피처를 상기 제2 네트워크에 인가하여 획득된 제1 좌표 맵 및 상기 제2 피처를 상기 제2 네트워크에 인가하여 획득된 제2 좌표 맵에 기초하여, 제2 GAN 로스를 획득하는 단계;
    상기 제1 좌표 맵 및 상기 합성 이미지에 대응하는 상기 3차원 좌표 데이터에 기초하여, 제1 로스를 획득하는 단계;
    상기 제1 좌표 맵에 대응하여 추정된 제1 포즈 및 상기 가상의 카메라의 포즈에 기초하여, 제2 로스를 획득하는 단계; 및
    상기 제1 로스, 상기 제2 로스, 상기 제1 GAN 로스 및 상기 제2 GAN 로스 중 적어도 하나에 기초하여, 상기 제1 네트워크 및 상기 제2 네트워크 중 적어도 하나를 학습시키는 단계
    를 포함하는,
    글로벌 측위 모델의 학습 방법.
  6. 제5항에 있어서,
    상기 합성 데이터 세트를 획득하는 단계는
    상기 합성 이미지를 상기 제1 네트워크에 인가하여, 제1 피처를 추출하는 단계;
    상기 추출된 제1 피처를 상기 제2 네트워크에 인가하여, 상기 합성 이미지의 각 픽셀에 대응하는 제1 좌표 맵을 추정하는 단계;
    상기 추정된 제1 좌표 맵에 기초하여, 상기 합성 이미지에 대응하는 제1 포즈를 추정하는 단계;
    상기 실제 이미지를 상기 제1 네트워크에 인가하여, 제2 피처를 추출하는 단계; 및
    상기 추출된 제2 피처를 상기 제2 네트워크에 인가하여, 상기 실제 이미지의 각 픽셀에 대응하는 제2 좌표 맵을 추정하는 단계
    를 더 포함하는,
    글로벌 측위 모델의 학습 방법.
  7. 제5항에 있어서,
    상기 학습시키는 단계는
    상기 제1 GAN 로스에 기초하여, 합성 이미지에서 추출된 피처 및 실제 이미지에서 추출된 피처를 구분하는 제1 감별기와 상기 제1 네트워크를 적대적으로 학습시키는 단계
    를 포함하는,
    글로벌 측위 모델의 학습 방법.
  8. 제5항에 있어서,
    상기 학습시키는 단계는
    상기 제2 GAN 로스에 기초하여, 합성 이미지에서 추정된 좌표 맵 및 실제 이미지에서 추정된 좌표 맵을 구분하는 제2 감별기와 상기 제2 네트워크를 적대적으로 학습시키는 단계
    를 포함하는,
    글로벌 측위 모델의 학습 방법.
  9. 제5항에 있어서,
    상기 학습시키는 단계는
    상기 제1 로스에 기초하여 획득된 그래디언트를 상기 제1 네트워크 및 상기 제2 네트워크에 반복적으로 역전파하는 단계
    를 포함하는,
    글로벌 측위 모델의 학습 방법.
  10. 제5항에 있어서,
    상기 학습시키는 단계는
    상기 제2 로스에 기초하여 획득된 그래디언트를 상기 제1 네트워크 및 상기 제2 네트워크에 반복적으로 역전파하는 단계
    를 포함하는,
    글로벌 측위 모델의 학습 방법.
  11. 하드웨어와 결합되어 제1항 내지 제10항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  12. 글로벌 측위 장치에 있어서,
    입력 이미지의 피처를 추출하는 제1 네트워크, 상기 제1 네트워크의 출력에 기초하여 상기 입력 이미지의 좌표 맵을 추정하는 제2 네트워크, 및 상기 제2 네트워크의 출력에 기초하여 글로벌 측위 결과에 해당하는 포즈를 추정하는 포즈 추정기를 포함하는 글로벌 측위 모델이 기록된 메모리를 포함하고,
    상기 글로벌 측위 모델은
    3차원 맵 데이터에 기초하여, 합성 데이터 세트 - 상기 합성 데이터 세트는 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지 및 상기 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 포함함 - 를 획득하는 단계;
    상기 제1 네트워크 및 상기 제2 네트워크의 파라미터를 업데이트하기 위하여, 상기 글로벌 측위 모델에 관한 적어도 하나의 로스에 기초하여 획득된 그래디언트를 반복적으로 역전파하는 단계; 및
    상기 제1 네트워크 및 상기 제2 네트워크의 파라미터를 상기 메모리에 저장하는 단계
    에 의해 제조되며,
    상기 글로벌 측위 모델에 관한 로스는
    상기 합성 이미지에 기초하여 상기 제1 네트워크에서 추출된 제1 피처 및 실제 이미지에 기초하여 상기 제1 네트워크에서 추출된 제2 피처에 기초하여 획득된 제1 GAN 로스; 및
    상기 제1 피처에 기초하여 상기 제2 네트워크에서 추정된 제1 좌표 맵 및 상기 제2 피처에 기초하여 상기 제2 네트워크에서 추정된 제2 좌표 맵에 기초하여 획득된 제2 GAN 로스
    중 적어도 하나를 포함하는,
    글로벌 측위 장치.
  13. 제12항에 있어서,
    상기 입력 이미지를 상기 제1 네트워크에 인가하여, 상기 제1 네트워크에서 출력된 상기 입력 이미지의 피처를 획득하고, 상기 피처를 상기 제2 네트워크에 인가하여, 상기 제2 네트워크에서 출력된 상기 입력 이미지에 대응하는 좌표 맵을 획득하며, 상기 좌표 맵에 기초하여 상기 포즈 추정기에서 출력된 상기 입력 이미지에 대응하는 포즈를 획득하는,
    적어도 하나의 프로세서
    를 더 포함하는,
    글로벌 측위 장치.
  14. 제12항에 있어서,
    상기 글로벌 측위 모델에 관한 로스는
    상기 제1 좌표 맵 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제1 로스; 및
    상기 제1 좌표 맵에 기초하여 상기 포즈 추정기에서 추정된 제1 포즈 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제2 로스
    중 적어도 하나를 더 포함하는,
    글로벌 측위 장치.
  15. 제12항에 있어서,
    상기 반복적으로 역전파하는 단계는
    상기 제1 GAN 로스에 기초하여, 제1 감별기에 상기 제1 피처를 입력하여 획득된 그래디언트를 상기 제1 감별기 및 상기 제1 네트워크에 반복적으로 역전파하는 단계; 및
    상기 제1 GAN 로스에 기초하여, 상기 제1 감별기에 상기 제2 피처를 입력하여 획득된 그래디언트를 상기 제1 감별기 및 상기 제1 네트워크에 반복적으로 역전파하는 단계
    를 포함하고,
    상기 제1 감별기는
    합성 이미지에서 추출된 피처에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추출된 피처에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함하는,
    글로벌 측위 장치.
  16. 제12항에 있어서,
    상기 반복적으로 역전파하는 단계는
    상기 제2 GAN 로스에 기초하여, 제2 감별기에 상기 제1 좌표 맵을 입력하여 획득된 그래디언트를 상기 제2 감별기 및 상기 제2 네트워크에 반복적으로 역전파하는 단계; 및
    상기 제2 GAN 로스에 기초하여, 상기 제2 감별기에 상기 제2 좌표 맵을 입력하여 획득된 그래디언트를 상기 제2 감별기 및 상기 제2 네트워크에 반복적으로 역전파하는 단계
    를 포함하고,
    상기 제2 감별기는
    합성 이미지에서 추정된 좌표 맵에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추정된 좌표 맵에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함하는,
    글로벌 측위 장치.
  17. 컴퓨터 판독 가능한 기록매체에 저장된 글로벌 측위기에 있어서,
    상기 글로벌 측위기는
    3차원 맵 데이터에 기초하여, 임의의 포즈에 대응하는 가상의 카메라로 촬영된 합성 이미지 및 상기 합성 이미지의 각 픽셀에 대응하는 3차원 좌표 데이터를 획득하는 단계;
    상기 글로벌 측위기에 포함된 뉴럴 네트워크의 파라미터를 업데이트하기 위하여, 상기 글로벌 측위기에 관한 적어도 하나의 로스에 기초하여 획득된 그래디언트를 반복적으로 역전파하는 단계; 및
    상기 뉴럴 네트워크의 파라미터를 상기 기록매체에 저장하는 단계
    에 의해 제조되며,
    상기 글로벌 측위기에 포함된 뉴럴 네트워크는
    입력 이미지의 피처를 추출하는 제1 네트워크 및 상기 제1 네트워크의 출력에 기초하여 상기 입력 이미지의 좌표 맵을 추정하는 제2 네트워크를 포함하고,
    상기 글로벌 측위기에 관한 적어도 하나의 로스는
    상기 합성 이미지에 기초하여 상기 제1 네트워크에서 추출된 제1 피처 및 실제 이미지에 기초하여 상기 제1 네트워크에서 추출된 제2 피처에 기초하여 획득된 제1 GAN 로스; 및
    상기 제1 피처에 기초하여 상기 제2 네트워크에서 추정된 제1 좌표 맵 및 상기 제2 피처에 기초하여 상기 제2 네트워크에서 추정된 제2 좌표 맵에 기초하여 획득된 제2 GAN 로스
    중 적어도 하나를 포함하는,
    글로벌 측위기.
  18. 제17항에 있어서,
    상기 글로벌 측위기에 관한 적어도 하나의 로스는
    상기 제1 좌표 맵 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제1 로스; 및
    상기 제1 좌표 맵에 기초하여 추정된 제1 포즈 및 상기 합성 이미지에 대응하는 정답 데이터에 기초하여 획득된 제2 로스
    중 적어도 하나를 더 포함하는,
    글로벌 측위기.
  19. 제17항에 있어서,
    상기 반복적으로 역전파하는 단계는
    상기 제1 GAN 로스에 기초하여, 제1 감별기에 상기 제1 피처를 입력하여 획득된 그래디언트를 상기 제1 감별기 및 상기 제1 네트워크에 반복적으로 역전파하는 단계; 및
    상기 제1 GAN 로스에 기초하여, 상기 제1 감별기에 상기 제2 피처를 입력하여 획득된 그래디언트를 상기 제1 감별기 및 상기 제1 네트워크에 반복적으로 역전파하는 단계
    를 포함하고,
    상기 제1 감별기는
    합성 이미지에서 추출된 피처에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추출된 피처에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함하는,
    글로벌 측위기.
  20. 제17항에 있어서,
    상기 반복적으로 역전파하는 단계는
    상기 제2 GAN 로스에 기초하여, 제2 감별기에 상기 제1 좌표 맵을 입력하여 획득된 그래디언트를 상기 제2 감별기 및 상기 제2 네트워크에 반복적으로 역전파하는 단계; 및
    상기 제2 GAN 로스에 기초하여, 상기 제2 감별기에 상기 제2 좌표 맵을 입력하여 획득된 그래디언트를 상기 제2 감별기 및 상기 제2 네트워크에 반복적으로 역전파하는 단계
    를 포함하고,
    상기 제2 감별기는
    합성 이미지에서 추정된 좌표 맵에 대응하여 합성 이미지를 지시하는 값을 출력하고, 실제 이미지에서 추정된 좌표 맵에 대응하여 실제 이미지를 지시하는 값을 출력하기 위한 뉴럴 네트워크를 포함하는,
    글로벌 측위기.

KR1020210133117A 2021-10-07 2021-10-07 글로벌 측위 장치 및 방법 KR20230049969A (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020210133117A KR20230049969A (ko) 2021-10-07 2021-10-07 글로벌 측위 장치 및 방법
US17/699,657 US20230114734A1 (en) 2021-10-07 2022-03-21 Method and apparatus with global localization
CN202210483160.0A CN115953464A (zh) 2021-10-07 2022-05-05 全局定位方法和装置
EP22175221.5A EP4163873A1 (en) 2021-10-07 2022-05-24 Method and apparatus with global localization
JP2022112854A JP2023056466A (ja) 2021-10-07 2022-07-14 グローバル測位装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210133117A KR20230049969A (ko) 2021-10-07 2021-10-07 글로벌 측위 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230049969A true KR20230049969A (ko) 2023-04-14

Family

ID=81850199

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210133117A KR20230049969A (ko) 2021-10-07 2021-10-07 글로벌 측위 장치 및 방법

Country Status (5)

Country Link
US (1) US20230114734A1 (ko)
EP (1) EP4163873A1 (ko)
JP (1) JP2023056466A (ko)
KR (1) KR20230049969A (ko)
CN (1) CN115953464A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230049969A (ko) * 2021-10-07 2023-04-14 삼성전자주식회사 글로벌 측위 장치 및 방법
CN117152370B (zh) * 2023-10-30 2024-02-02 碳丝路文化传播(成都)有限公司 基于aigc的3d地形模型生成方法、***、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11107228B1 (en) * 2020-04-02 2021-08-31 Ford Global Technologies, Llc Realistic image perspective transformation using neural networks
KR20230049969A (ko) * 2021-10-07 2023-04-14 삼성전자주식회사 글로벌 측위 장치 및 방법

Also Published As

Publication number Publication date
US20230114734A1 (en) 2023-04-13
CN115953464A (zh) 2023-04-11
EP4163873A1 (en) 2023-04-12
JP2023056466A (ja) 2023-04-19

Similar Documents

Publication Publication Date Title
CN111325796B (zh) 用于确定视觉设备的位姿的方法和装置
US10360247B2 (en) System and method for telecom inventory management
CN110568447B (zh) 视觉定位的方法、装置及计算机可读介质
JP6430064B2 (ja) データを位置合わせする方法及びシステム
US11222471B2 (en) Implementing three-dimensional augmented reality in smart glasses based on two-dimensional data
CN108256479B (zh) 人脸跟踪方法和装置
KR102472767B1 (ko) 신뢰도에 기초하여 깊이 맵을 산출하는 방법 및 장치
US11051000B2 (en) Method for calibrating cameras with non-overlapping views
KR20220009393A (ko) 이미지 기반 로컬화
US8467596B2 (en) Method and apparatus for object pose estimation
EP3182371B1 (en) Threshold determination in for example a type ransac algorithm
US9129435B2 (en) Method for creating 3-D models by stitching multiple partial 3-D models
KR20180087994A (ko) 스테레오 매칭 방법 및 영상 처리 장치
KR20190073244A (ko) Icp 기술에 기초하는 이미지 프로세싱 방법
RU2019101759A (ru) Обнаружение объектов в видеоданных
JP6850399B2 (ja) 単眼画像の深度回復方法及び装置、コンピュータ機器
US11436755B2 (en) Real-time pose estimation for unseen objects
CN112154486B (zh) 用于多用户增强现实购物的***和方法
US11315313B2 (en) Methods, devices and computer program products for generating 3D models
CN113052907B (zh) 一种动态环境移动机器人的定位方法
JP2020524355A5 (ko)
KR20230049969A (ko) 글로벌 측위 장치 및 방법
JP2018120283A (ja) 情報処理装置、情報処理方法及びプログラム
US10346949B1 (en) Image registration
KR101817440B1 (ko) 다중 카메라를 통한 3차원 모델 기반 객체 인식 기법과 시스템