KR102525583B1

KR102525583B1 - 경량형 증강현실장치의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 장치 및 이를 위한 방법

Info

Publication number: KR102525583B1
Application number: KR1020200133111A
Authority: KR
Inventors: 장준환; 박우출; 양진욱; 윤상필; 최민수; 이준석; 송수호; 구본재
Original assignee: 한국전자기술연구원
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2023-04-26
Also published as: WO2022080554A1; KR20220050254A

Abstract

본 발명의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 경량형 증강현실장치는 증강현실장치로부터 촬영된 영상의 주 프레임 및 부 프레임을 포함하는 복수의 프레임을 지속적으로 수신하는 통신모듈과, 상기 주 프레임 및 상기 부 프레임으로부터 포즈 정보를 획득하는 포즈도출부와, 심층학습모델을 이용하여 상기 주 프레임 및 상기 부 프레임으로부터 뎁스 맵을 도출하는 뎁스도출부와, 상기 포즈 정보 및 상기 뎁스 맵을 기초로 3차원 맵을 생성하고, 생성된 3차원 맵을 상기 통신모듈을 통해 상기 증강현실장치로 전송하는 3차원맵생성부를 포함한다.

Description

경량형 증강현실장치의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 장치 및 이를 위한 방법{Apparatus for generating 3D map using stereo frame of lightweight augmented reality device and method therefor}

본 발명은 3차원 맵 구성 기술에 관한 것으로, 보다 상세하게는, 경량형 증강현실장치의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 장치 및 이를 위한 방법에 관한 것이다.

가상현실(virtual reality, VR)은 컴퓨터 등을 사용한 인공적인 기술로 만들어낸 실제와 유사하지만 실제가 아닌 어떤 특정한 환경이나 상황 혹은 그 기술 자체를 의미한다. 증강현실(augmented reality, AR)은 가상현실(VR)의 한 분야로 실제로 존재하는 환경에 가상의 사물이나 정보를 합성하여 마치 원래의 환경에 존재하는 사물처럼 보이도록 하는 컴퓨터 그래픽 기법이다. 즉, 증강현실은 사용자가 눈으로 보는 현실세계에 가상 물체를 겹쳐 보여주는 기술이다. 현실세계에 실시간으로 부가정보를 갖는 가상세계를 합쳐 하나의 영상으로 보여주므로 혼합현실(mixed reality, MR)이라고도 한다. 현실세계를 가상세계로 보완해주는 개념인 증강현실은 컴퓨터 그래픽으로 만들어진 가상환경을 사용하지만 주역은 현실 환경이다. 컴퓨터 그래픽은 현실 환경에 필요한 정보를 추가 제공하는 역할을 한다. 사용자가 보고 있는 실사 영상에 3차원 가상영상을 겹침(overlap)으로써 현실 환경과 가상화면과의 구분이 모호해지도록 한다는 뜻이다.

가상현실 기술은 가상환경에 사용자를 몰입하게 하여 실제 환경을 볼 수 없다. 하지만 실제 환경과 가상의 객체가 혼합된 증강현실기술은 사용자가 실제 환경을 볼 수 있게 하여 보다 나은 현실감과 부가 정보를 제공한다.

한국공개특허 제2020-0108484호 2020년 09월 18일 공개 (명칭: 뉴럴 네트워크를 이용하여 상황을 인지하는 증강 현실 제공 장치, 제공 방법 및 상기 방법을 실행하기 위하여 매체에 저장된 컴퓨터 프로그램)

경량형 증강현실장치의 경우 최대 안경과 비슷한 크기를 가질 것이기 때문에 폭이 20cm이하이다. 증강현실 서비스를 위해서는 증강현실장치의 위치 및 시선을 추적해야 한다. 이를 위하여, 스테레오 카메라를 사용한다면 경량화된 증강현실장치의 경우, 20cm이하의 좁은 범위에 스테레오 카메라(카메라부)를 설치해야 하고 이 상태에서는 좁은 시차를 가질 수밖에 없다. 이런 좁은 시차로는 먼 공간에 대한 거리 검출이 부정확하게 되고 이는 증강현실 서비스 형태에 제한을 가져온다. 매순간 증강현실장치의 위치를 검출해야만 이질감 없는 서비스를 제공할 수 있는 증강현실 디바이스의 특성상 위치 검출의 정밀도보다는 실시간 검출에 초점을 두는 경우가 대부분이다. 또한 위치 검출 정밀도를 향상시키기 위한 기법들의 경우, 경량화된 증강현실장치의 컴퓨팅 연산 능력으로부터 원하는 성능을 얻기가 어렵다. 더욱이, 경량형 증강현실장치의 경우 전력(배터리) 문제로 인해 그 성능은 더욱 제한적이다.

상술한 점을 감안한 본 발명의 목적은 경량형 증강현실장치의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 장치 및 이를 위한 방법을 제공함에 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 장치는 증강현실장치로부터 촬영된 영상의 주 프레임 및 부 프레임을 포함하는 복수의 프레임을 지속적으로 수신하는 통신모듈과, 상기 주 프레임 및 상기 부 프레임으로부터 포즈 정보를 획득하는 포즈도출부와, 심층학습모델을 이용하여 상기 주 프레임 및 상기 부 프레임으로부터 뎁스 맵을 도출하는 뎁스도출부와, 상기 포즈 정보 및 상기 뎁스 맵을 기초로 3차원 맵을 생성하고, 생성된 3차원 맵을 상기 통신모듈을 통해 상기 증강현실장치로 전송하는 3차원맵생성부를 포함한다.

상기 포즈도출부는 상기 주 프레임 및 상기 부 프레임에서 동일한 대상을 나타내는 특징점을 추출하고, 상기 주 프레임에서의 특징점의 좌표 및 상기 부 프레임에서의 특징점의 좌표 사이의 변화를 통해 포즈 정보 및 포즈 매트릭스를 순차로 도출하는 것을 특징으로 한다.

상기 뎁스도출부는 상기 증강현실장치의 알려진 카메라 매트릭스 및 상기 포즈 매트릭스를 이용하여 변환 매트릭스를 도출하고, 상기 변환 매트릭스를 이용하여 상기 주 프레임으로부터 상기 부 프레임을 모사하는 모사 부 프레임을 생성하고, 상기 심층학습모델을 통해 상기 부 프레임의 픽셀과 모사 부 프레임의 픽셀의 좌표 차이에 따라 뎁스 맵을 도출하는 것을 특징으로 한다.

상기 뎁스도출부는 학습용 주 프레임 및 학습용 부 프레임으로부터 도출된 포즈 매트릭스 및 알려진 카메라 매트릭스를 이용하여 변환 매트릭스를 도출하고, 상기 변환 매트릭스를 이용하여 상기 학습용 주 프레임으로부터 상기 학습용 부 프레임을 모사하는 모사 학습용 부 프레임을 생성하고, 모델의 원형에 대해 현실 세계에서 동일한 대상을 나타내는 부분의 상기 학습용 부 프레임의 픽셀과 상기 모사 학습용 부 프레임의 픽셀의 좌표 차이와 뎁스 간의 상관관계를 학습시켜 상기 학습용 부 프레임의 픽셀과 상기 모사 학습용 부 프레임의 픽셀의 좌표 차이에 따라 뎁스 맵을 도출하는 심층학습모델을 생성하는 것을 특징으로 한다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 경량형 증강현실장치의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 방법은 포즈도출부가 통신모듈을 통해 증강현실장치로부터 촬영된 영상의 주 프레임 및 부 프레임을 포함하는 복수의 스테레오 프레임을 수신하면, 상기 주 프레임 및 상기 부 프레임으로부터 포즈 정보를 도출하는 단계와, 뎁스도출부가 심층학습모델을 이용하여 상기 주 프레임 및 상기 부 프레임으로부터 뎁스 맵을 도출하는 단계와, 3차원맵생성부가 상기 포즈 정보 및 상기 뎁스 맵을 기초로 3차원맵을 생성하는 단계와, 3차원맵생성부가 상기 생성된 3차원 맵을 상기 통신모듈을 통해 상기 증강현실장치로 전송하는 3차원맵생성부를 포함한다.

상기 주 프레임 및 상기 부 프레임으로부터 포즈 정보를 도출하는 단계는 상기 포즈도출부가 상기 주 프레임 및 상기 부 프레임 각각에서 동일한 대상을 나타내는 특징점을 추출하는 단계와, 상기 포즈도출부가 상기 주 프레임에서의 특징점의 좌표 및 상기 부 프레임에서의 특징점의 좌표 사이의 변화를 통해 포즈 정보 및 포즈 매트릭스를 순차로 도출하는 단계를 포함한다.

상기 포즈 정보 및 상기 뎁스 맵을 기초로 3차원맵을 생성하는 단계는 상기 뎁스도출부가 상기 증강현실장치의 알려진 카메라 매트릭스 및 상기 포즈 매트릭스를 이용하여 변환 매트릭스를 도출하는 단계와, 상기 뎁스도출부가 상기 변환 매트릭스를 이용하여 상기 주 프레임으로부터 부 프레임을 모사하는 모사 부 프레임을 생성하는 단계와, 상기 뎁스도출부가 상기 심층학습모델을 통해 상기 부 프레임의 픽셀과 모사 부 프레임의 픽셀의 좌표 차이에 따라 뎁스 맵을 도출하는 단계를 포함한다.

상기 방법은 상기 주 프레임 및 상기 부 프레임으로부터 포즈 정보를 도출하는 단계 전, 상기 뎁스도출부가 학습용 주 프레임 및 학습용 부 프레임으로부터 도출된 포즈 매트릭스 및 알려진 카메라 매트릭스를 이용하여 변환 매트릭스를 도출하는 단계와, 상기 뎁스도출부가 상기 변환 매트릭스를 이용하여 상기 학습용 주 프레임으로부터 상기 학습용 부 프레임을 모사하는 모사 학습용 부 프레임을 생성하는 단계와, 상기 뎁스도출부가 모델의 원형에 대해 현실 세계에서 동일한 대상을 나타내는 부분의 상기 학습용 부 프레임의 픽셀과 상기 모사 학습용 부 프레임의 픽셀의 좌표 차이와 뎁스 간의 상관관계를 학습시켜 상기 학습용 부 프레임의 픽셀과 상기 모사 학습용 부 프레임의 픽셀의 좌표 차이에 따라 뎁스 맵을 도출하는 심층학습모델을 생성하는 단계를 더 포함한다.

본 발명은 전술한 바와 같이 서비스서버는 증강현실장치가 촬영한 영상의 스테레오 프레임을 수신하고, 이로부터 3차원 맵을 도출한다. 그리고 본 발명은 증강현실장치는 서비스서버가 도출한 3차원 맵을 이용하여 촬영되는 영상에 가상의 객체를 정합할 수 있다. 본 발명의 3차원 맵은 정밀한 3차원 좌표를 제공하기 때문에 가상의 객체를 정합할 때 정밀한 정합이 가능하다. 이에 따라, 보다 사실감이 높은 증강 현실을 제공할 수 있다. 더욱이, 본 발명의 3차원 맵은 증강현실장치가 직접 도출하는 것이 아니라, 서비스서버에 의해 생성되기 때문에 증강현실장치가 경량화된 경우이더라도 고품질의 서비스를 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 증강현실 영상을 제공하기 위한 시스템의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 경량형 증강현실장치의 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 가상현실 영상을 제공하기 위한 서비스서버의 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 제어부의 세부 구성을 설명하기 위한 도면이다.
도 5 및 도 6은 본 발명의 실시예에 따른 포즈 매트릭스를 도출하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 실시예에 따른 포즈 매트릭스 및 카메라 매트릭스를 이용하여 변환 매트릭스를 도출하는 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 변환 매트릭스를 이용하여 모사 프레임을 생성하는 방법을 설명하기 위한 도면이다.
도 9는 본 발명의 실시예에 따른 2개의 프레임의 픽셀의 차이를 상관관계를 학습하는 방법을 설명하기 위한 도면이다.
도 10은 본 발명의 실시예에 따른 경량형 증강현실장치의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 방법을 설명하기 위한 흐름도이다.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.

먼저, 본 발명의 실시예에 따른 증강현실(augmented reality: AR) 영상을 제공하기 위한 시스템에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 증강현실 영상을 제공하기 위한 시스템의 구성을 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 실시예에 따른 가상현실 영상을 제공하기 위한 시스템은 증강현실장치(10) 및 서비스서버(20)를 포함한다. 증강현실장치(10)와 서비스서버(20)는 무선 통신을 통해 연결된다.

증강현실장치(10)는 사용자에게 증강현실 영상을 제공할 수 있는 모든 장치가 될 수 있다. 대표적으로, 증강현실장치(10)는 스마트 글라스를 예시할 수 있다.

서비스서버(20)는 증강현실장치(10)와 가장 가까운 위치에 있는 에지 클라우드 서버(Edge Cloud Server)이거나, 증강현실장치(10)과 Wi-Fi 등으로 연결된 고성능의 PC 등이 될 수 있다.

본 발명에 따르면, 서비스서버(20)는 증강현실장치(10)가 촬영한 영상의 스테레오 프레임을 수신하여 스테레오 프레임으로부터 3차원 맵을 생성하고, 생성된 3차원 맵을 증강현실장치(10)에 제공한다. 이와 같이, 본 발명에 따르면, 서비스서버(20)의 자원, 즉, 컴퓨팅 연산을 이용하여 3차원 맵을 생성함으로써 증강현실장치(10)는 고성능이 요구되지 않는다. 따라서 증강현실장치(10)는 경량화 될 수 있다.

그러면, 본 발명의 실시예에 따른 증강현실장치(10)에 대해서 설명하기로 한다. 도 2는 본 발명의 실시예에 따른 경량형 증강현실장치의 구성을 설명하기 위한 도면이다.

도 2를 참조하면, 본 발명의 실시예에 따른 증강현실장치(10)는 카메라부(11), 통신부(12), 센서부(13), 오디오부(14), 입력부(15), 표시부(16), 저장부(17) 및 제어부(18)를 포함한다.

카메라부(11)는 영상을 촬영하기 위한 것이다. 특히, 본 발명의 실시예에 따른 카메라부(11)는 스테레오 카메라가 될 수 있다. 이에 따라, 카메라부(11)가 촬영된 영상은 주 프레임과 부 프레임을 포함한다. 이를 위하여, 카메라부(12)는 주 프레임 및 부 프레임 각각에 대응하는 2개의 렌즈 및 2개의 이미지 센서를 포함할 수 있다. 각 이미지 센서는 피사체에서 반사되는 빛을 입력받아 전기신호로 변환하며, CCD(Charged Coupled Device), CMOS(Complementary Metal-Oxide Semiconductor) 등을 기반으로 구현될 수 있다. 카메라부(11)는 하나 이상의 아날로그-디지털 변환기(Analog to Digital Converter)를 더 포함할 수 있으며, 이미지 센서에서 출력되는 전기신호를 디지털 수열로 변환하여 제어부(18)로 출력할 수 있다.

통신부(12)는 서비스서버(20)와 통신을 위한 것이다. 통신부(12)는 송신되는 신호의 주파수를 상승 변환 및 증폭하는 RF(Radio Frequency) 송신기(Tx) 및 수신되는 신호를 저 잡음 증폭하고 주파수를 하강 변환하는 RF 수신기(Rx)를 포함할 수 있다. 그리고 통신부(12)는 송신되는 신호를 변조하고, 수신되는 신호를 복조하는 모뎀(Modem)을 포함할 수 있다.

센서부(13)는 관성을 측정하기 위한 것이다. 이러한 센서부(13)는 관성센서(Inertial Measurement Unit: IMU), 도플러속도센서(Doppler Velocity Log: DVL) 및 자세방위각센서(Attitude and Heading Reference. System: AHRS) 등을 포함한다. 센서부(13)는 증강현실장치(10)의 회전 및 이동의 위치 및 속도를 포함하는 관성 정보를 측정하여 측정된 증강현실장치(10)의 관성 정보를 제어부(18)로 제공한다.

오디오부(14)는 오디오 신호를 출력하기 위한 스피커(SPK)와, 오디오 신호를 입력받기 위한 마이크(MIKE)를 포함한다. 오디오부(14)는 제어부(18)의 제어에 따라 오디오 신호를 스피커(SPK)를 통해 출력하거나, 마이크(MIKE)를 통해 입력되는 오디오 신호를 제어부(18)로 전달할 수 있다. 특히, 오디오부(14)는 가상현실 영상의 오디오 신호를 출력하는 역할을 수행한다.

입력부(15)는 증강현실장치(10)를 제어하기 위한 사용자의 키 조작을 입력받고 입력 신호를 생성하여 제어부(18)에 전달한다. 입력부(15)는 증강현실장치(10)를 제어하기 위한 각 종 키들을 포함할 수 있다. 입력부(15)는 표시부(16)가 터치스크린으로 이루어진 경우, 각 종 키들의 기능이 표시부(16)에서 이루어질 수 있으며, 터치스크린만으로 모든 기능을 수행할 수 있는 경우, 입력부(15)는 생략될 수도 있다.

표시부(16)는 증강현실장치(10)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공한다. 표시부(16)는 증강현실장치(10)의 부팅 화면, 대기 화면, 메뉴 화면, 등의 화면을 출력하는 기능을 수행한다. 특히, 표시부(16)는 본 발명의 실시예에 따른 3차원 맵을 화면으로 출력하는 기능을 수행한다. 이러한 표시부(16)는 액정표시장치(LCD, Liquid Crystal Display), 유기 발광 다이오드(OLED, Organic Light Emitting Diodes), 능동형 유기 발광 다이오드(AMOLED, Active Matrix Organic Light Emitting Diodes) 등으로 형성될 수 있다. 한편, 표시부(16)는 터치스크린으로 구현될 수 있다. 이러한 경우, 표시부(16)는 터치센서를 포함한다. 터치센서는 사용자의 터치 입력을 감지한다. 터치센서는 정전용량 방식(capacitive overlay), 압력식, 저항막 방식(resistive overlay), 적외선 감지 방식(infrared beam) 등의 터치 감지 센서로 구성되거나, 압력 감지 센서(pressure sensor)로 구성될 수도 있다. 상기 센서들 이외에도 물체의 접촉 또는 압력을 감지할 수 있는 모든 종류의 센서 기기가 본 발명의 터치센서로 이용될 수 있다. 터치센서는 사용자의 터치 입력을 감지하고, 터치된 위치를 나타내는 입력 좌표를 포함하는 감지 신호를 발생시켜 제어부(18)로 전송할 수 있다. 특히, 표시부(16)가 터치스크린으로 이루어진 경우, 입력부(15)의 기능의 일부 또는 전부는 표시부(16)를 통해 이루어질 수 있다.

저장부(17)는 증강현실장치(10)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 특히, 저장부(17)는 카메라 매트릭스, 포즈 매트릭스 등을 저장할 수 있다. 또한, 저장부(17)는 증강현실 영상을 제공하기 위해 실제 영상에 정합하기 위한 가상 객체를 저장할 수 있다. 저장부(17)에 저장되는 각 종 데이터는 증강현실장치(10) 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다.

제어부(18)는 증강현실장치(10)의 전반적인 동작 및 증강현실장치(10)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 또한, 제어부(18)는 기본적으로, 증강현실장치(10)의 각 종 기능을 제어하는 역할을 수행한다. 제어부(18)는 CPU(Central Processing Unit), BP(baseband processor), AP(application processor), GPU(Graphic Processing Unit), DSP(Digital Signal Processor) 등을 예시할 수 있다.

제어부(18)는 카메라부(11)를 통해 영상을 촬영하고 촬영된 영상을 주 프레임 및 부 프레임을 포함하는 스테레오 프레임 단위로 통신부(11)를 통해 서비스서버(20)로 전송한다. 그러면, 서비스서버(20)는 주 프레임 및 부 프레임을 포함하는 복수의 스테레오 프레임으로부터 3차원 맵을 생성하고, 생성된 3차원 맵을 증강현실장치(10)로 전송할 것이다. 이에 따라, 제어부(18)는 통신부(11)를 통해 3차원 맵을 수신하고, 수신된 3차원 맵을 이용하여 촬영된 영상에 가상의 객체를 정합함으로써 증강현실 영상을 제공할 수 있다.

다음으로, 본 발명의 실시예에 따른 경량형 증강현실장치(10)의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 서비스서버(20)에 대해서 설명하기로 한다. 도 3은 본 발명의 실시예에 따른 가상현실 영상을 제공하기 위한 서비스서버의 구성을 설명하기 위한 도면이다. 도 3을 참조하면, 본 발명의 실시예에 따른 서비스서버(20)는 통신모듈(21), 저장모듈(22) 및 제어모듈(23)을 포함한다.

통신모듈(21)은 네트워크를 통해 증강현실장치(10)와 통신하기 위한 것이다. 통신모듈(21)은 증강현실장치(10)와 데이터를 송수신 할 수 있다. 통신모듈(21)은 송신되는 신호의 주파수를 상승 변환 및 증폭하는 RF(Radio Frequency) 송신기(Tx) 및 수신되는 신호를 저 잡음 증폭하고 주파수를 하강 변환하는 RF 수신기(Rx)를 포함할 수 있다. 또한, 통신모듈(21)은 데이터를 송수신하기 위해 송신되는 신호를 변조하고, 수신되는 신호를 복조하는 모뎀(modem)을 포함할 수 있다. 이러한 통신모듈(21)은 제어모듈(23)로부터 전달 받은 데이터, 예컨대, 3차원 맵을 증강현실장치(10)로 전송할 수 있다. 또한, 통신모듈(21)은 증강현실장치(10)로부터 수신되는 데이터, 예컨대, 스테레오 프레임을 제어모듈(23)로 전달할 수 있다.

저장모듈(22)는 서비스서버(20)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 예컨대, 저장모듈(22)는 증강현실장치(10)에 대응하여 3차원 맵을 생성하기 위한 각 종 파라미터, 예컨대, 증강현실장치(10)의 카메라 매트릭스 등을 저장할 수 있다. 저장모듈(121)에 저장되는 각 종 데이터는 서비스서버(20) 관리자의 조작에 따라 등록, 삭제, 변경, 추가될 수 있다.

제어모듈(23)은 서비스서버(20)의 전반적인 동작 및 서비스서버(20)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 제어모듈(130)은 중앙처리장치(central processing unit), 디지털신호처리기(digital signal processor) 등이 될 수 있다. 또한, 제어모듈(23)은 추가로 이미지 프로세서(Image processor) 혹은 GPU(Graphic Processing Unit)를 더 구비할 수 있다.

그러면, 전술한 제어모듈(23)의 세부 구성에 대해서 보다 상세하게 설명하기로 한다. 도 4는 본 발명의 실시예에 따른 제어부의 세부 구성을 설명하기 위한 도면이다. 도 5 및 도 6은 본 발명의 실시예에 따른 포즈 매트릭스를 도출하는 방법을 설명하기 위한 도면이다. 도 7은 본 발명의 실시예에 따른 포즈 매트릭스 및 카메라 매트릭스를 이용하여 변환 매트릭스를 도출하는 방법을 설명하기 위한 도면이다. 도 8은 본 발명의 실시예에 따른 변환 매트릭스를 이용하여 모사 프레임을 생성하는 방법을 설명하기 위한 도면이다. 도 9는 본 발명의 실시예에 따른 2개의 프레임의 픽셀의 차이를 상관관계를 학습하는 방법을 설명하기 위한 도면이다.

도 4를 참조하면, 제어모듈(23)은 포즈도출부(210), 뎁스도출부(220) 및 3차원맵생성부(230)을 포함한다.

포즈도출부(210)는 증강현실장치(10)의 포즈를 획득하기 위한 것이다. 포즈도출부(210)은 증강현실장치(10)의 카메라부(11)를 통해 촬영된 영상의 스테레오 프레임의 주 프레임 및 부 프레임 각각에서 동일한 대상을 나타내는 특징점(Feature Point)을 추출하고, 추출된 특징점(Feature Point)의 좌표 변화를 산출하여 포즈 정보를 산출한다.

예컨대, 주 프레임(MF)에 대응하는 제1 포즈(Pose1) 및 부 프레임(SF)에 대응하는 제2 포즈(Pose2)는 도 5에 도시된 바와 같다고 가정한다. 이러한 경우의 주 프레임(MF) 및 부 프레임(SF)의 화면 예를 도 6에 도시하였다. 예컨대, 도 6에서 주 프레임(MF) 및 부 프레임(SF)에서 동일한 대상을 나타내는 특징점 P가 추출되었다고 가정한다. 주 프레임(MF)에서의 특징점 P(t-1)의 좌표와 부 프레임(SF)에서의 특징점 P(t)의 좌표는 차이가 있음을 알 수 있다. 따라서 포즈도출부(210)는 동일한 대상을 나타내는 특징점 P를 추출하고, 추출된 특징점 P의 주 프레임(MF)에서의 특징점 P(m)의 좌표와 부 프레임(SF)에서의 특징점 P(s)의 좌표의 변화를 통해 포즈 정보를 도출할 수 있다. 이와 같이, 포즈도출부(210)는 특징점의 변화를 산출하여 포즈 정보(위치, 회전 정보)를 도출하고, 포즈 정보를 매트릭스로 표현하여 포즈 매트릭스를 도출한다.

뎁스도출부(220)는 심층학습모델(DLM: Deep learning Model)을 이용하여 뎁스 맵(Depth map)을 획득하기 위한 것이다. 뎁스도출부(220)는 학습용 주 프레임(MF) 및 학습용 부 프레임(SF)을 포함하는 학습 데이터를 이용하여 심층학습모델(DLM: Deep learning Model)을 생성하며, 이러한 방법은 다음과 같다. 뎁스도출부(220)는 먼저 도 7에 도시된 바와 같이, 포즈 매트릭스(PM: Pose Matrix) 및 카메라 매트릭스(CM: Camera Matrix)를 이용하여 변환 매트릭스(TM: Transition Matrix)를 도출한다. 여기서, 포즈 매트릭스(PM)는 포즈도출부(210)에 의해 학습용 주 프레임(MF) 및 학습용 부 프레임(SF)으로부터 도출된 포즈 정보를 매트릭스로 표현한 것이다. 또한, 카메라 매트릭스(CM)는 증강현실장치(10)의 카메라부(11)의 내부 파라미터이다. 이러한 카메라 매트릭스(CM)는 증강현실장치(10)로부터 미리 수신되어 저장모듈(220)에 저장된다. 그리고 뎁스도출부(220)는 도 8에 도시된 바와 같이, 변환 매트릭스(TM)를 이용하여 학습용 주 프레임(MF)을 변환하여 학습용 부 프레임(SF)을 모사하는 모사 학습용 부 프레임(SF’)을 생성한다. 그리고 뎁스도출부(220)는 도 9에 도시된 바와 같이, 모델의 원형에 대해 현실 세계에서 동일한 대상을 나타내는 부분의 학습용 부 프레임(SF)의 픽셀과 모사 학습용 부 프레임(SF’)의 픽셀의 좌표 차이와 뎁스 간의 상관관계를 학습(deep learning)시켜 학습용 부 프레임(SF)의 픽셀과 모사 학습용 부 프레임(SF’)의 픽셀의 좌표 차이에 따라 뎁스 맵(Depth map)을 도출하는 심층학습모델(DLM)을 생성한다.

전술한 바와 같이, 심층학습모델(DLM)을 생성한 후, 뎁스도출부(220)는 증강현실장치(10)로부터 통신모듈(21)을 통해 수신된 주 프레임(MF)과 부 프레임(SF)이 입력되면, 도 7에 도시된 바와 같이, 포즈 매트릭스(PM) 및 카메라 매트릭스(CM)를 이용하여 변환 매트릭스(TM)를 도출한다. 그런 다음, 뎁스도출부(220)는 도 8에 도시된 바와 같이, 변환 매트릭스(TM)를 이용하여 주 프레임(MF)을 변환하여 부 프레임(SF)을 모사하는 모사 부 프레임(SF’)을 생성한다. 이어서, 뎁스도출부(220)는 부 프레임(SF) 및 모사 부 프레임(SF’)을 심층학습모델(DLM)에 입력한다. 그러면, 심층학습모델(DLM)은 부 프레임(SF)의 픽셀과 모사 부 프레임(SF’)의 픽셀의 좌표 차이에 따라 뎁스 맵(Depth map)을 도출한다. 즉, 상기 픽셀의 좌표 차이는 상기 부 프레임과 모사 부 프레임에서 서로 대응 위치에 있는 오브젝트(예: 도 9의 스마일 모양)를 각기 맵핑한 픽셀 간의 좌표 차이를 의미한다.

3차원맵생성부(230)는 포즈도출부(210)가 획득한 포즈 정보 및 뎁스도출부(220)가 도출한 뎁스 맵을 이용하여 촬영된 영상의 프레임으로부터 3차원 맵을 도출한다. 즉, 포즈 정보로부터 증강현실장치(10)의 주 프레임(MF)과 부 프레임(SF) 간의 위치 및 회전 정보를 알 수 있고, 뎁스 맵을 통해 주 프레임(MF)과 부 프레임(F1) 간의 뎁스를 알 수 있기 때문에 3차원맵생성부(230)는 위치 및 회전 정보와, 뎁스를 이용하여 해당 프레임의 픽셀의 2차원 좌표를 3차원 좌표로 변환하여 3차원 맵을 생성할 수 있다.

다음으로, 본 발명의 실시예에 따른 경량형 증강현실장치(10)의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 방법에 대해서 설명하기로 한다. 도 10은 본 발명의 실시예에 따른 경량형 증강현실장치의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 방법을 설명하기 위한 흐름도이다. 도 10의 실시예어서, 전술한 바와 같이, 모델의 원형을 학습(deep learning)시켜 복수의 프레임의 픽셀 간의 좌표의 차이에 따라 뎁스 맵을 도출하는 심층학습모델(DLM)이 생성된 상태라고 가정한다.

도 10을 참조하면, 통신모듈(21)은 S110 단계에서 증강현실장치(10)로부터 스테레오 영상의 주 프레임 및 부 프레임을 포함하는 복수의 프레임을 수신한다.

그러면, 포즈도출부(210)는 S120 단계에서 주 프레임(MF) 및 부 프레임(SF)을 기초로 포즈 정보 및 포즈 매트릭스를 도출한다. 즉, 포즈도출부(210)는 도 5 및 도 6을 참조하면, 주 프레임(MF) 및 부 프레임(SF) 각각에서 동일한 대상을 나타내는 특징점 P를 추출하고, 추출된 특징점 P의 주 프레임(MF)에서의 특징점 P(m)의 좌표와 부 프레임(SF)에서의 특징점 P(s)의 좌표의 변화를 통해 포즈 정보를 도출할 수 있다. 이와 같이, 포즈도출부(210)는 특징점의 변화를 산출하여 포즈 정보(위치, 회전 정보)를 도출하고, 포즈 정보를 매트릭스로 표현하여 포즈 매트릭스를 도출한다.

다음으로, 뎁스도출부(220)는 S130 단계에서 포즈 매트릭스 및 심층학습모델(DLM)을 이용하여 주 프레임(MF) 및 부 프레임(SF)으로부터 뎁스 맵을 도출한다. 이러한 S130 단계에 대해 보다 상세하게 설명하면 다음과 같다.

뎁스도출부(220)는 우선, 도 7에 도시된 바와 같이, 포즈도출부(210)에 의해 주 프레임(MF) 및 부 프레임(SF)으로부터 도출된 포즈 매트릭스(PM) 및 증강현실장치(10)의 카메라부(11)에 대해 알려진 카메라 매트릭스(CM)를 이용하여 변환 매트릭스(TM)를 도출한다. 그런 다음, 뎁스도출부(220)는 도 8에 도시된 바와 같이, 변환 매트릭스(TM)를 이용하여 주 프레임(MF)을 변환하여 부 프레임(SF)을 모사하는 모사 부 프레임(SF’)을 생성한다. 이어서, 뎁스도출부(220)는 부 프레임(SF) 및 모사 부 프레임(SF’)을 심층학습모델(DLM)에 입력한다. 그러면, 심층학습모델(DLM)은 부 프레임(SF)과 모사 부 프레임(SF’)에서 서로 대응 위치에 있는 오브젝트를 각기 맵핑한 픽셀 간의 좌표 차이에 따라 뎁스 맵(Depth map)을 도출할 수 있다.

다음으로, 3차원맵생성부(230)는 S140 단계에서 포즈도출부(210)가 도출한 포즈 정보 및 뎁스도출부(220)가 도출한 뎁스 맵을 이용하여 촬영된 영상의 프레임의 3차원 맵을 생성한다. 즉, 포즈 정보로부터 증강현실장치(10)의 주 프레임(MF)과 부 프레임(SF) 간의 위치 및 회전 정보를 알 수 있고, 뎁스 맵을 통해 주 프레임(MF)과 부 프레임(F1) 간의 뎁스를 알 수 있기 때문에 3차원맵생성부(230)은 위치 및 회전 정보와, 뎁스를 이용하여 해당 프레임의 픽셀의 2차원 좌표를 3차원 좌표로 변환할 수 있다.

다음으로, 3차원맵생성부(230)는 S150 단계에서 통신모듈(21)을 통해 증강현실장치(10)로 생성된 3차원 맵을 전송한다. 이에 따라, 증강현실장치(10)의 제어부(18)는 통신부(11)를 통해 3차원 맵을 수신할 수 있다. 그러면, 제어부(180)는 S160 단계에서 저장부(17)에 저장된 가상 객체를 불러와서 카메라부(11)를 통해 촬영된 영상에 가상 객체를 정합하되, 수신된 3차원 맵에 따라 가상 객체를 정합하여 증강현실 영상을 생성한다. 그런 다음, 제어부(18)는 S170 단계에서 표시부(16)를 통해 증강현실 영상을 출력할 수 있다.

본 발명은 전술한 바와 같이 도출된 3차원 맵을 이용하여 촬영되는 영상에 가상의 객체를 정합할 수 있다. 본 발명의 3차원 맵은 정밀한 3차원 좌표를 제공하기 때문에 가상의 객체를 정합할 때 정밀한 정합이 가능하다. 이에 따라, 보다 사실감이 높은 증강 현실을 제공할 수 있다. 더욱이, 본 발명의 3차원 맵은 증강현실장치(10)가 직접 도출하는 것이 아니라, 서비스서버(20)에 의해 생성되기 때문에 증강현실장치(10)는 경량화 될 수 있다.

한편, 앞서 설명된 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

10: 증강현실장치 11: 카메라부
12: 통신부 13: 센서부
14: 오디오부 15: 입력부
16: 표시부 17: 저장부
18: 제어부 20: 서비스서버
21: 통신모듈 22: 저장모듈
23: 제어모듈 210: 포즈도출부
220: 뎁스도출부 230: 3차원맵생성부

Claims

스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 서비스서버에 있어서,
증강현실장치로부터 촬영된 영상의 주 프레임 및 부 프레임을 포함하는 복수의 프레임을 지속적으로 수신하는 통신모듈;
상기 주 프레임 및 상기 부 프레임으로부터 포즈 정보를 획득하는 포즈도출부;
심층학습모델을 이용하여 상기 주 프레임 및 상기 부 프레임으로부터 뎁스 맵을 도출하는 뎁스도출부; 및
상기 포즈 정보 및 상기 뎁스 맵을 기초로 3차원 맵을 생성하고, 생성된 3차원 맵을 상기 통신모듈을 통해 상기 증강현실장치로 전송하는 3차원맵생성부;를 포함하되,
상기 포즈도출부는
상기 주 프레임 및 상기 부 프레임에서 동일한 대상을 나타내는 특징점을 추출하고,
상기 주 프레임에서의 특징점의 좌표 및 상기 부 프레임에서의 특징점의 좌표 사이의 변화를 통해 포즈 정보 및 포즈 매트릭스를 순차로 도출하고,
상기 뎁스도출부는
상기 증강현실장치의 알려진 카메라 매트릭스 및 상기 포즈 매트릭스를 이용하여 변환 매트릭스를 도출하고,
상기 변환 매트릭스를 이용하여 상기 주 프레임으로부터 상기 부 프레임을 모사하는 모사 부 프레임을 생성하고,
상기 심층학습모델을 이용하여 상기 뎁스 맵(Depth map)을 획득하되, 상기 부 프레임과 모사 부 프레임에서 서로 대응 위치에 있는 오브젝트를 각기 맵핑한 픽셀 간의 좌표 차이에 따라 뎁스 맵을 도출하는 것을 특징으로 하는
스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 서비스서버.
삭제
삭제
제1항에 있어서,
상기 뎁스도출부는
학습용 주 프레임 및 학습용 부 프레임으로부터 도출된 포즈 매트릭스 및 알려진 카메라 매트릭스를 이용하여 변환 매트릭스를 도출하고,
상기 변환 매트릭스를 이용하여 상기 학습용 주 프레임으로부터 상기 학습용 부 프레임을 모사하는 모사 학습용 부 프레임을 생성하고,
모델의 원형에 대해 현실 세계에서 동일한 대상을 나타내는 부분의 상기 학습용 부 프레임과 상기 모사 학습용 부 프레임에서 서로 대응 위치에 있는 오브젝트를 각기 맵핑한 픽셀 간의 좌표 차이와 뎁스 간의 상관관계를 학습시켜 상기 학습용 부 프레임의 픽셀과 상기 모사 학습용 부 프레임의 픽셀의 좌표 차이에 따라 뎁스 맵을 도출하는 심층학습모델을 생성하는 것을 특징으로 하는
스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 서비스서버.
스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 방법에 있어서,
포즈도출부가 통신모듈을 통해 증강현실장치로부터 촬영된 영상의 주 프레임 및 부 프레임을 포함하는 복수의 스테레오 프레임을 수신하면, 상기 주 프레임 및 상기 부 프레임으로부터 포즈 정보를 도출하는 단계;
뎁스도출부가 심층학습모델을 이용하여 상기 주 프레임 및 상기 부 프레임으로부터 뎁스 맵을 도출하는 단계;
3차원맵생성부가 상기 포즈 정보 및 상기 뎁스 맵을 기초로 3차원맵을 생성하는 단계; 및
3차원맵생성부가 상기 생성된 3차원 맵을 상기 통신모듈을 통해 상기 증강현실장치로 전송하는 단계;를 포함하되,
상기 주 프레임 및 상기 부 프레임으로부터 포즈 정보를 도출하는 단계는
상기 포즈도출부가 상기 주 프레임 및 상기 부 프레임 각각에서 동일한 대상을 나타내는 특징점을 추출하는 단계; 및
상기 포즈도출부가 상기 주 프레임에서의 특징점의 좌표 및 상기 부 프레임에서의 특징점의 좌표 사이의 변화를 통해 포즈 정보 및 포즈 매트릭스를 순차로 도출하는 단계;를 포함하고,
상기 포즈 정보 및 상기 뎁스 맵을 기초로 3차원맵을 생성하는 단계는
상기 뎁스도출부가 상기 증강현실장치의 알려진 카메라 매트릭스 및 상기 포즈 매트릭스를 이용하여 변환 매트릭스를 도출하는 단계;
상기 뎁스도출부가 상기 변환 매트릭스를 이용하여 상기 주 프레임으로부터 부 프레임을 모사하는 모사 부 프레임을 생성하는 단계; 및
상기 뎁스도출부가 상기 심층학습모델을 이용하여 상기 뎁스 맵(Depth map)을 획득하되, 상기 부 프레임과 모사 부 프레임에서 서로 대응 위치에 있는 오브젝트를 각기 맵핑한 픽셀 간의 좌표 차이에 따라 뎁스 맵을 도출하는 것을 특징으로 하는
스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 방법.
삭제
삭제
제5항에 있어서,
상기 주 프레임 및 상기 부 프레임으로부터 포즈 정보를 도출하는 단계 전,
상기 뎁스도출부가 학습용 주 프레임 및 학습용 부 프레임으로부터 도출된 포즈 매트릭스 및 알려진 카메라 매트릭스를 이용하여 변환 매트릭스를 도출하는 단계;
상기 뎁스도출부가 상기 변환 매트릭스를 이용하여 상기 학습용 주 프레임으로부터 상기 학습용 부 프레임을 모사하는 모사 학습용 부 프레임을 생성하는 단계; 및
상기 뎁스도출부가 모델의 원형에 대해 현실 세계에서 동일한 대상을 나타내는 부분의 상기 학습용 부 프레임의 픽셀과 상기 모사 학습용 부 프레임의 픽셀의 좌표 차이와 뎁스 간의 상관관계를 학습시켜 상기 학습용 부 프레임의 픽셀과 상기 모사 학습용 부 프레임의 픽셀의 좌표 차이에 따라 뎁스 맵을 도출하는 심층학습모델을 생성하는 단계;
를 더 포함하는 것을 특징으로 하는
스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 방법.