KR102167835B1

KR102167835B1 - 영상 처리 방법 및 장치

Info

Publication number: KR102167835B1
Application number: KR1020190053786A
Authority: KR
Inventors: 김윤경; 박영욱
Original assignee: 주식회사 카카오
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2020-10-20

Abstract

일 실시예에 따른 영상 처리 방법은 적어도 하나의 건물을 포함하는 영상 및 영상의 촬영 정보를 획득하고, 지도 정보로부터 건물의 형상 정보를 획득하고, 영상을 가공하여 건물에 포함된 픽셀들 간의 상대적인 거리를 포함하는 제1 맵을 생성하고, 형상 정보를 촬영 정보에 대응하는 투사면에 투사함으로 추정되는 제2 맵을 생성하고, 제1 맵과 제2 맵을 기초로 영상에 포함된 복수의 픽셀들 중 건물에 대응하는 픽셀들의 뎁스를 포함하는 건물 뎁스맵을 생성하여 출력할 수 있다.

Description

영상 처리 방법 및 장치{APPARATUS AND METHOD OF PROCESSING IMAGE}

아래의 실시예들은 영상 처리 방법 및 장치에 관한 것이다.

일반적으로 주변 건물, 도로 및 기타 지형 지물을 포함하는 영상에 대한 정보는 레이저를 목표물에 비춰 객체와의 거리 및 다양한 물성을 감지하여 3D 영상으로 모델링하는 라이다(Lidar)를 이용하여 수집될 수 있다. 이때, 영상에 대한 정보는 특정 좌표계에 속한 점들의 집합(예를 들어, 3차원 좌표계의 (X, Y, Z) 좌표)로 정의되는 '포인트 클라우드(Point Cloud)' 형태로 저장될 수 있다.

특히, 영상과 일치하는 건물의 깊이값을 나타내는 지도 정보는 라이다를 이용해 획득한 포인트 클라우드와 영상 간의 정합을 통해 얻을 수 있다. 하지만, 이러한 과정은 많은 비용이 소요될 뿐만 아니라 실제 보여지는 영상과 전술한 영상 정합을 통해 획득한 건물의 깊이값은 실제로 보여지는 영상과 차이가 있어 정밀한 표현에는 부적절하다.

일 측에 따르면, 영상 처리 방법은 적어도 하나의 건물을 포함하는 영상 및 상기 영상의 촬영 정보를 획득하는 단계; 지도 정보로부터 상기 건물의 형상 정보를 획득하는 단계; 상기 영상을 가공하여 상기 건물에 포함된 픽셀들 간의 상대적인 거리를 포함하는 제1 맵을 생성하는 단계; 상기 형상 정보를 상기 촬영 정보에 대응하는 투사면에 투사함으로 추정되는 제2 맵을 생성하는 단계; 상기 제1 맵과 상기 제2 맵을 기초로, 상기 영상에 포함된 복수의 픽셀들 중 상기 건물에 대응하는 픽셀들의 뎁스(depth)를 포함하는 건물 뎁스맵(depth map)을 생성하는 단계; 및 상기 건물 뎁스맵을 출력하는 단계를 포함한다.

상기 제1 맵을 생성하는 단계는 상기 영상 내에 포함된 객체들 간의 상대적인 거리 정보를 나타내는 영상 뎁스맵(image depth map)을 생성하는 단계; 시맨틱 세그먼테이션(semantic segmentation)을 기초로, 상기 객체들의 클래스(class) 별 영역을 분류한 영상 분류맵을 생성하는 단계; 인스턴스 세그먼테이션(Instance Segmentation)을 기초로, 상기 영상 내에 포함된 개별 건물들을 분류한 건물 분류맵을 생성하는 단계; 및 상기 건물 분류맵을 이용하여, 상기 영상 분류맵에서 분류된 객체들의 클래스를 이용하여 재구성된 영상 뎁스맵으로부터 상기 개별 건물들 별로 건물 영역을 분리함으로써 상기 제1 맵을 생성하는 단계를 포함할 수 있다.

상기 건물 분류맵을 생성하는 단계는 상기 영상 내에 포함된 객체들 중 건물 유형에 해당하는 바운딩 박스(bounding box)를 이용하여 상기 영상 내에 포함된 개별 건물들을 분류한 건물 분류맵을 생성하는 단계를 포함할 수 있다.

상기 개별 건물 별로 건물 영역을 분리함으로써 상기 제1 맵을 생성하는 단계는 상기 영상 분류맵에서 분류된 객체들의 클래스를 이용하여 상기 영상 뎁스맵을 재구성하는 단계; 및 상기 건물 분류맵을 이용하여 상기 재구성된 영상 뎁스맵에서 상기 개별 건물들 별로 상기 건물 영역을 분리하는 단계를 포함할 수 있다.

상기 영상 뎁스맵을 재구성하는 단계는 상기 영상 분류맵과 상기 영상 뎁스맵을 오버랩(overlap)하여 상기 영상 분류맵에서 분류된 객체들 중 건물 클래스를 제외한 나머지 클래스들에 해당하는 적어도 하나의 객체를 제거함으로써 상기 영상 뎁스맵을 재구성하는 단계를 포함할 수 있다.

상기 제2 맵을 생성하는 단계는 상기 촬영 정보를 기초로, 상기 영상을 3차원 지도에 맵핑하는 단계; 상기 형상 정보를 기초로, 상기 영상의 촬영 위치에서 상기 3차원 지도에 맵핑된 상기 영상의 각 지점으로 방향 벡터를 투사하는 단계; 및 상기 방향 벡터의 충돌 여부를 기초로, 상기 영상에서 상기 개별 건물들 각각을 식별하여 상기 제2 맵을 생성하는 단계를 포함할 수 있다.

상기 영상 처리 방법은 상기 건물의 식별 정보 및 상기 건물의 층수 중 적어도 하나를 포함하는 건물 정보를 획득하는 단계를 더 포함하고, 상기 제2 맵을 생성하는 단계는 상기 건물 정보 및 상기 건물의 형상 정보를 기초로, 상기 건물의 3D 모델을 구성하는 단계; 상기 촬영 정보를 상기 건물의 3D 모델에 적용함으로써 상기 제2 맵을 생성하는 단계를 포함할 수 있다.

상기 건물 뎁스맵을 생성하는 단계는 상기 제1 맵에 포함된 개별 건물들 각각의 영역과 상기 제2 맵에 포함된 개별 건물들 각각의 비교 결과를 기초로, 상기 제2 맵에 포함된 개별 건물들의 건물 정보를 상기 제1 맵에 맵핑하는 단계; 및 상기 맵핑 결과를 기초로, 상기 제1 맵에 포함된 픽셀들의 상대적인 거리를 실제 거리로 스케일링(scaling) 함으로써 상기 건물 뎁스맵을 생성하는 단계를 포함할 수 있다.

상기 맵핑 결과를 기초로, 상기 건물 뎁스맵을 생성하는 단계는 상기 맵핑 결과를 기초로, 상기 영상을 촬영한 위치로부터 상기 개별 건물들까지의 실제 거리를 산출 하는 단계; 및 상기 제1 맵에 포함된 픽셀들의 상대적인 거리를 상기 실제 거리로 스케일링 함으로써 상기 건물 뎁스맵을 생성하는 단계를 포함할 수 있다.

상기 건물 뎁스맵을 생성하는 단계는 상기 건물에 해당하는 픽셀들 별로 상기 건물의 식별 정보, 상기 건물의 법선 벡터(normal vector), 및 상기 건물의 깊이 값 중 적어도 하나를 인코딩 하여 상기 건물 뎁스맵을 생성하는 단계를 더 포함할 수 있다.

상기 촬영 정보는 상기 영상을 촬영한 위치를 나타내는 위치 정보 및 상기 영상을 촬영한 촬영 장치의 자세 정보를 포함할 수 있다.

도 1은 일 실시예에 따른 영상 처리 방법을 나타낸 흐름도.
도 2는 일 실시예에 따른 제1 맵을 생성하는 방법을 나타낸 흐름도.
도 3은 일 실시예에 따른 로드뷰 영상, 영상 뎁스맵, 영상 분류맵, 건물 분류맵을 도시한 도면.
도 4는 일 실시예에 따른 제2 맵을 생성하는 방법을 설명하기 위한 도면.
도 5는 일 실시예에 따른 건물 뎁스맵을 생성하는 방법을 나타낸 흐름도.
도 6은 일 실시예에 따른 건물 뎁스맵을 생성하는 과정을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 영상 처리 장치의 기능 블럭도.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. 아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 입력, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 입력, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 일 실시예에 따른 영상 처리 방법을 나타낸 흐름도이다. 도 1을 참조하면, 일 실시예에 따른 영상 처리 장치는 적어도 하나의 건물을 포함하는 영상 및 영상의 촬영 정보를 획득한다(110). 영상은 예를 들어, 주행 영상, 로드뷰(road view) 영상 또는 스트리트뷰(street view) 영상일 수 있으며, 반드시 이에 한정되는 것은 아니다. 영상은 예를 들어, 차량을 이용해 촬영한 영상들을 360도의 파노라마 형태로 연결한 거리 곳곳의 실사 영상일 수 있다.

영상의 촬영 정보는 예를 들어, 영상을 촬영한 위치를 나타내는 위치 정보 및 영상을 촬영한 촬영 장치의 자세 정보를 포함할 수 있다. 촬영 장치는 예를 들어, 차량에 장착되어 도로 주행 시에 차량의 전면(font view), 양 측면(side view) 또는 후면(rear view) 등을 촬영하도록 구성된 촬영 장치일 수 있다. 영상의 일 예시는 예를 들어, 아래의 도 3의 로드뷰 영상(310)를 참조할 수 있다.

영상 처리 장치는 영상을 가공하여 건물에 포함된 픽셀들 간의 상대적인 거리를 포함하는 제1 맵을 생성한다(120). '제1 맵'은 예를 들어, 영상에 포함된 개별 건물에 포함된 픽셀들이 나타내는 건물의 형상 및 개별 건물에 포함된 픽셀들 간의 상대적인 거리 정보 또는 상대적인 깊이 값을 포함할 수 있다. 영상 처리 장치가 제1 맵을 생성하는 과정은 아래의 도 2 내지 도 3을 참조하여 구체적으로 설명한다.

영상 처리 장치는 지도 정보로부터 건물의 형상 정보를 획득하고, 형상 정보를 촬영 정보에 대응하는 투사면에 투사함으로 추정되는 제2 맵을 생성한다(130). 지도 정보는 예를 들어, 2차원 지도 정보일 수도 있고, 또는 3차원 지도 정보일 수도 있다. 지도 정보는 예를 들어, 카카오 맵일 수 있으며, 건물의 평면도 형상을 포함할 수 있다. 지도 정보는 지도 상의 위치 및 건물 정보를 포함할 수 있다. 지도 상의 위치는 예를 들어, 위도와 경도의 GPS 좌표 형태로 나타날 수 있다. 건물 정보는 예를 들어, 건물 식별자 및/또는 건물 상세 정보를 포함할 수 있다. 건물의 식별자는 예를 들어, 건물명, 건물 ID, 주소 등과 같이 건물을 식별할 수 있는 정보에 해당할 수 있다. 건물 상세 정보는 예를 들어, 건물 위치, 건물의 층수, 연락처, 층별 매장 정보 등 건물에 대한 각종 정보를 포함할 수 있다. 지도 정보는 영상 처리 장치의 메모리에 저장된 것일 수도 있고, 외부의 지도 데이터베이스로부터 호출한 것일 수도 있다. 건물의 형상 정보는 예를 들어, 해당 건물의 대략적인 외형 형상 및 층수 등을 포함할 수 있다. 실시예에 따라서, 영상 처리 장치는 예를 들어, 건물의 평면도 형상과 건물의 층수 정보로부터 건물의 높이를 유추함으로써 건물의 3차원 외형 형상 정보를 추정할 수도 있다.

'제2 맵'은 건물 정보를 영상 내 혹은 제1 맵에 맵핑하기 위한 것으로서, 영상을 3차원 상에 투영하여 추정된 건물의 실제적인 거리 정보, 및 건물 정보를 포함할 수 있다. 일 실시예에 따라 생성된 제2 맵은 건물의 형상 정보를 촬영 정보에 대응하는 투사면에 투사함으로 추정된 것이므로 아래의 도 4의 405와 같이 실제 건물의 형상과 추정된 건물의 형상 간에 차이가 발생할 수 있다. 이러한 실제 건물의 형상과 추정된 건물의 형상 간의 차이는 아래의 도 6에서 설명하는 것과 같이 제1 맵과 제2 맵 간의 맵핑 결과에 따라 수행되는 스케일링 과정을 통해 수정될 수 있다. 따라서, 제2 맵의 생성 과정에서 건물의 형상 정보와 촬영 정보 간의 스케일이 유사할 필요가 없다. 영상 처리 장치가 형상 정보를 촬영 정보에 대응하는 투사면에 투사하여 제2 맵을 생성하는 과정은 아래의 도 4를 참조하여 구체적으로 설명한다.

영상 처리 장치는 제1 맵과 제2 맵을 기초로, 영상에 포함된 복수의 픽셀들 중 건물에 대응하는 픽셀들의 뎁스(depth)를 포함하는 건물 뎁스맵(depth map)을 생성한다(140). 영상 처리 장치는 예를 들어, 건물에 해당하는 픽셀들 별로 건물의 식별 정보, 건물의 법선 벡터(normal vector), 및 건물의 깊이 값 중 적어도 하나를 인코딩 하여 건물 뎁스맵을 생성할 수 있다. 이때, 영상 처리 장치는 예를 들어, 제1 맵에서 건물에 해당하는 픽셀들 별로 건물의 식별 정보, 건물의 법선 벡터, 및 건물의 깊이 값 중 적어도 하나를 RGB 인코딩하여 건물 뎁스맵을 생성할 수 있다. 영상 처리 장치가 건물 뎁스맵을 생성하는 과정은 아래의 도 5 내지 도 6을 참조하여 구체적으로 설명한다.

영상 처리 장치는 뎁스맵을 출력한다(150). 영상 처리 장치는 예를 들어, 디스플레이를 통해 뎁스맵을 출력하거나, 또는 통신 인터페이스를 통해 뎁스맵을 영상 처리 장치의 외부로 출력할 수 있다.

도 2는 일 실시예에 따른 제1 맵을 생성하는 방법을 나타낸 흐름도이고, 도 3은 일 실시예에 따른 로드뷰 영상, 영상 뎁스맵, 영상 분류맵, 및 건물 분류맵을 도시한 도면이다. 도 3을 참조하면, 로드뷰 영상(310), 영상 뎁스맵(320), 영상 분류맵(330), 및 건물 분류맵(340)이 도시된다.

도 2 및 도 3을 참조하면, 일 실시예에 따른 영상 처리 장치는 영상(310) 내에 포함된 객체들 간의 상대적인 거리 정보를 나타내는 영상 뎁스맵(image depth map)(320)을 생성할 수 있다(210). 영상 뎁스맵(320)은 영상(310) 내에 포함된 객체들 간의 상대적인 거리 또는 상대적인 위치를 나타낼 수 있다. 예를 들어, 영상(310) 내에서 맨 앞에 위치하는 객체는 영상 뎁스맵(320)에서 흰색에 가깝게 밝게 표시되고, 뒤로 갈수록 점차 객체의 색상이 어둡게 나타날 수 있다. 영상 뎁스맵(320)에 나타나는 객체들이 어두운 정도에 따라 객체들 간의 상대적인 거리 또는 상대적인 위치가 표현될 수 있다. 영상 처리 장치는 예를 들어, 심층 신경망(Deep Neural Network)을 통해 영상(310)에 대응하는 영상 뎁스맵(320)을 생성할 수 있다. 이때, 심층 신경망은 예를 들어, 하나의 객체를 여러 방향에서 촬영하여 그 깊이값을 미리 만들어 둔 학습 데이터에 의해 학습된 것일 수 있다.

영상 처리 장치는 예를 들어, 시맨틱 세그먼테이션(semantic segmentation)을 기초로, 객체들의 클래스(class) 별 영역을 분류한 영상 분류맵(330)을 생성할 수 있다(220). 영상 처리 장치는 시맨틱 세그먼테이션을 이용하여 픽셀 단위로 영상(310) 내의 해당 객체가 건물인지 여부를 결정하여 클래스 별 영역을 분류함으로써 영상 분류맵(330)을 생성할 수 있다. 영상 처리 장치는 예를 들어, 심층 신경망을 통해 영상(310)에 대응하는 영상 분류맵(330)을 생성할 수 있다.

'세그먼테이션(segmentation)'은 주어진 영상(310) 안에 어느 특정한 클래스에 해당하는 객체가 있다면, 해당 객체가 어느 위치에 포함되어 있는지를 픽셀 단위로 분할하는 모델을 만들기 위한 것이다. 세그먼테이션은 주어진 영상 내 각 위치 상의 픽셀들을 하나씩 조사하면서, 현재 조사 대상인 픽셀이 어느 특정한 클래스에 해당하는 객체의 일부인 경우, 해당 픽셀의 위치에 그 클래스를 나타내는 '값'을 표기하는 방식으로 예측 결과물을 생성할 수 있다. 예를 들어, 조사 대상 픽셀이 어느 클래스에도 해당하지 않는 경우, 이를 '배경(background)' 클래스로 규정하여 예측 결과물의 해당 위치에 0을 표기할 수 있다. 이렇게 생성된 결과물을 '마스크(mask)'라고도 부를 수 있다.

일 실시예에서 이용하는 시맨틱 세그먼테이션은 분할의 기본 단위를 클래스로 하여, 동일한 클래스에 해당하는 객체를 예측 마스크 상에 동일한 색상으로 표시할 수 있다. 이에 따라 영상 분류맵(330)에서 동일한 클래스에 속하는 객체들은 서로 동일한 색상으로 표시될 수 있다.

일 실시예에서, 클래스는 예를 들어, 차도, 인도, 건물, 자동차, 사람, 하늘의 6개 클래스를 포함할 수 있으며, 반드시 이에 한정되는 것은 아니다.

영상 처리 장치는 인스턴스 세그먼테이션(Instance Segmentation)을 기초로, 영상 내에 포함된 개별 건물들을 분류한 건물 분류맵(340)을 생성할 수 있다(230). 전술한 영상 분류맵(330)으로는 건물들의 전반적인 영역을 분류할 수 있지만, 개별 건물의 분류는 불가능하다. '인스턴스 세그먼테이션'은 전술한 시맨틱 세그먼테이션과는 달리 객체를 분할의 기본 단위로 한다. 따라서, 인스턴스 세그먼테이션에 의하면, 동일한 클래스에 해당하더라도 서로 다른 객체에 해당하면 예를 들어, 건물 분류맵(340)과 같이 각각의 객체를 예측 마스크 상에 다른 색상으로 표시될 수 있다. 영상 처리 장치는 예를 들어, 영상(310) 내에 포함된 객체들 중 건물 유형에 해당하는 바운딩 박스(bounding box)를 이용하여 영상 내에 포함된 개별 건물들을 분류한 건물 분류맵(340)을 생성할 수 있다. 영상 처리 장치는 바운딩 박스를 정의하기 위해서, 전체 영상 상에서 박스의 좌측 상단의 좌표 (x₁, y₁)와, 우측 하단의 좌표 (x₂, y₂)를 결정할 수 있다. 이와 더불어, 영상 처리 장치는 바운딩 박스 안에 포함된 객체에 대한 각 클래스 별 신뢰도 점수 또한 산출할 수 있다. 다시 말해, 영상 처리 장치는 예를 들어, '바운딩 박스 (x₁, y₁, x₂, y₂) 안에 클래스 X의 객체가 존재할 가능성은 sX이다'는 식의 결과물을 산출할 수 있다.

영상 처리 장치는 건물 분류맵(340)을 이용하여, 영상 분류맵(330)에서 분류된 객체들의 클래스를 이용하여 재구성된 영상 뎁스맵으로부터 개별 건물들 별로 건물 영역을 분리함으로써 제1 맵을 생성할 수 있다(240). 여기서, '재구성된 영상 뎁스맵'은 영상에 포함된 건물 영역만을 포함하는 맵에 해당할 수 있다. 재구성된 영상 뎁스맵의 일 예시는 아래의 도 6의 610을 참조할 수 있다. 또한, 제1 맵의 일 예시는 아래 도 6의 620을 참조할 수 있다.

단계(240)에서, 영상 처리 장치는 영상 분류맵(330)에서 분류된 객체들의 클래스를 이용하여 영상 뎁스맵(320)을 재구성할 수 있다. 영상 처리 장치는 영상 뎁스맵(320)에서 건물 영역을 제외한 나머지의 불필요한 영역(예를 들어, 차도, 인도, 자동차, 사람, 하늘 등)을 제거하기 위하여, 전술한 영상 분류맵(330)에서 건물에 해당하는 동일 색상의 영역을 픽셀 단위로 추출함으로써 영상 뎁스맵(320)을 재구성할 수 있다.

영상 처리 장치는 영상 뎁스맵(320)과 영상 분류맵(330)을 오버랩(overlap)하여 영상 분류맵(330)에서 분류된 객체들 중 건물 클래스를 제외한 나머지 클래스들에 해당하는 적어도 하나의 객체를 제거함으로써 영상 뎁스맵(320)을 610와 같이 재구성할 수 있다.

단계(240)에서, 영상 처리 장치는 건물 분류맵(340)을 이용하여 재구성된 영상 뎁스맵에서 개별 건물들 별로 건물 영역을 분리할 수 있다. 건물 분류맵(340)에는 같은 건물 영역이라고 하더라도 서로 다른 건물들은 다른 색상으로 표시될 수 있다. 따라서, 영상 처리 장치는 개별 건물마다 다른 색상으로 표시된 건물 분류맵(340)을 이용하여 건물 영역에 포함된 건물들을 개별 건물별로 구분하여 제1 맵(아래 도 6의 620 참조)을 생성할 수 있다.

이때, 영상 뎁스맵(320), 영상 분류맵(330), 및 건물 분류맵(340)은 영상(310) 자체로부터 구성되며, 건물의 형상 및/또는 영상 내 객체들에 대한 상대적인 거리에 대한 정보는 가지지만, 건물 정보를 가지지는 않는다.

도 4는 일 실시예에 따른 제2 맵을 생성하는 방법을 설명하기 위한 도면이다. 도 4의 (a)를 참조하면, 일 실시예에 따른 제2 맵(400)이 도시되고, 도 4의 (b)를 참조하면, 방향 벡터(410), 촬영 위치(420), 영상(430), 및 촬영 위치(420)를 중심으로 하는 3차원 구(440)가 도시된다. 영상(430)은 예를 들어, 도 3에 도시된 로드뷰 영상(310)일 수 있다.

예를 들어, 차량과 같은 이동 장치는 촬영 장치를 탑재하고, 일정 간격으로 주변을 촬영하여 거리 영상을 획득할 수 있다. 촬영 장치는 적어도 하나의 카메라, 카메라의 위치 정보를 수신하는 GPS(Global Positioning System) 장치, 카메라의 자세 정보를 측정하는 적어도 하나의 센서 등을 포함할 수 있다. 센서는 카메라의 자세를 측정하는 센서로서, 방위각 정보를 측정할 수 있다. 예를 들면, 센서는 각속도 센서, 자이로 센서, 가속도 센서 등을 포함할 수 있다. 방위각 정보를 기초로 카메라가 어느 방향을 바라보고, 어느 기울기로 영상을 촬영한 것인지가 파악될 수 있다. 또한, 촬영 장치는 GPS 장치 등과 같은 위치 측정 장치를 이용하여, 촬영 지점의 3차원 위치(촬영 위치)를 측정할 수 있다.

예를 들어, 촬영 장치가 어느 지점을 촬영하여 영상(430)을 획득했다고 하자. 영상(430)은 촬영 장치의 위치 정보 및 자세 정보(또는 방위각 정보)와 함께 저장될 수 있다. 일 실시예에서는 촬영 정보를 포함하는 대표적인 영상이 로드뷰 영상인 경우를 일 예로 들어 설명하지만, 영상이 반드시 이에 한정되는 것은 아니며, 이외의 다양한 영상들이 이용될 수 있다.

촬영 장치가 촬영 위치(420)에서 촬영된 영상(430)이 도시된다. 영상(430)은 촬영 장치의 위치 정보 및 촬영 장치의 자세 정보, 다시 말해 방위각 정보를 포함할 수 있다. 영상(430)은 방위각 정보를 기초로, 촬영 위치(420)를 중심으로 하는 3차원 구(440)에 배치될 수 있다. 이때, 영상(430)의 촬영 방향은 방위각 정보에 해당하는 방향 벡터(410)로 표현될 수 있다.

예를 들어, 영상 처리 장치는 한 위치에서 촬영된 로드뷰 영상들을 연결하여 구 모양의 3차원 공간을 만들 수 있다. 따라서, 임의의 로드뷰 영상이 놓인 3차원 공간의 크기는 해당 로드뷰 영상을 촬영한 카메라에 의해 결정될 수 있다. 로드뷰 영상은 예를 들어, 어안 렌즈와 같은 특수 렌즈를 가진 카메라로 촬영되어, 촬영 위치에서의 일정 각도 범위를 둥근 모양으로 표현한 것일 수 있다. 따라서, 로드뷰 영상은 구의 일부에 놓일 수 있다. 또는 예를 들어, 일반 카메라로 촬영한 일반 영상을 이용하는 경우, 카메라 정보를 포함하는 촬영 정보를 기초로 일반 영상을 구형 영상으로 변환한 영상이 사용될 수 있다.

일 실시예에 따른 영상 처리 장치가 제2 맵(400)을 생성하는 과정은 다음과 같다.

영상 처리 장치는 촬영 정보를 기초로, 영상(430)을 3차원 지도에 맵핑할 수 있다. 영상 처리 장치는 앞서 지도 정보로부터 획득한 형상 정보를 기초로, 영상의 촬영 위치(420)에서 3차원 지도에 맵핑된 영상의 각 지점으로 방향 벡터(410)를 투사할 수 있다. 영상 처리 장치는 방향 벡터(410)의 충돌 여부를 기초로, 영상(430)에서 개별 건물들 각각을 식별하여 제2 맵을 생성할 수 있다. 여기서, 3차원 지도는 지도상의 위치 및 건물 정보를 포함할 수 있다. 건물 정보는 건물 식별자를 포함하며, 각 건물의 상세 정보를 더 포함할 수 있다. 여기서, 3차원 지도는 예를 들어, 2차원 평면 지도에서 각 건물의 높이 정보에 따라 건물을 세워 생성된 것일 수 있다.

보다 구체적으로, 영상 처리 장치는 영상(430)을 3차원 지도에 매핑할 수 있다. 이때, 영상 처리 장치는 영상(430)의 촬영 정보를 기초로 영상(430)을 3차원 공간상에 위치시킬 수 있다. 영상 처리 장치는 예를 들어, 3차원 지도에서 영상(430)의 촬영 위치(420)에 해당하는 지점을 찾고, 해당 지점에 영상(430)에 관계된 구(440)를 위치시킬 수 있다.

실시예에 따라서, 영상 처리 장치는 영상(430)에 관계된 3차원 지도만을 요구하기 위해, 영상(430)에 포함된 건물들이 포함되도록 촬영 위치(420)로부터 일정 반경을 설정하고, 지도 데이터베이스 등에 촬영 위치(420)로부터 일정 반경에 해당하는 3차원 지도를 요청할 수도 있다.

영상 처리 장치는 영상(430)의 촬영 위치(420)에서, 3차원 지도에 매핑된 영상(430)의 각 지점으로 방향 벡터(ray)(410)를 투사하여 건물 영역을 추출할 수 있다. 이때, 각 지점으로 향하는 방향 벡터(410)는 영상(430)의 촬영 위치(420)에서 각 지점으로 향하는 벡터로서, 영상(430)의 촬영 정보를 기초로 벡터의 시점과 방향이 계산될 수 있다. 영상 처리 장치는 영상(430)에서 건물 식별자(예를 들면, A, B, C, ... , K, L)가 같은 지점들을 묶어 건물 영역을 개별 건물로 분할할 수 있다. 영상 처리 장치는 분할된 건물 영역에 부여된 건물 식별자를 기초로 건물 영역을 구분함과 동시에 분할된 건물 영역 각각이 어느 건물인지 식별할 수 있다. 영상 처리 장치는 식별한 건물마다 해당 건물의 상세 정보를 매핑할 수 있다. 이때, 건물의 상세 정보는 건물 식별자에 대응하여 미리 저장될 수 있다.

3차원 상에 위치하는 영상(430)은 3차원 지도에 매핑될 수 있다. 따라서, 영상(430)의 어느 지점은 건물과 같은 물체가 매핑되어 있을 수 있고, 촬영 위치(20)에서 건물이 매핑된 지점으로 투사된 방향 벡터는 3차원 건물에 충돌할 수 있다. 영상 처리 장치는 촬영 위치에서 영상(430)의 어느 지점으로 방향 벡터(410)를 투사하고, 방향 벡터(410)가 충돌하면, 해당 지점을 건물 영역으로 판단할 수 있다. 예를 들어, 영상(430)의 어느 지점이 하늘인 경우, 하늘에 해당하는 지점에는 건물과 같은 물체가 매핑되어 있지 않다. 따라서, 이 경우에는 촬영 위치(420)에서 하늘에 해당하는 지점으로 방향 벡터(410)를 투사하더라도, 방향 벡터(410)는 충돌하지 않는다. 이를 통해, 영상 처리 장치는 영상(430)에서 하늘에 해당하는 지점을 건물 영역이 아니라고 판단할 수 있다.

또한, 영상 처리 장치는 3차원 지도에서 방향 벡터(410)가 충돌한 물체(건물)의 정보, 예를 들면, 건물 식별자를 찾고, 영상(430)의 해당 지점에 건물 식별자를 부여할 수 있다. 영상 처리 장치는 영상(430)을 픽셀 단위로 구분하고, 픽셀마다 방향 벡터(410)를 투사하여, 영상 전체의 건물 정보를 수집할 수 있다. 이와 같은 방법을 '벡터 충돌 방법' 또는 '광선 교차 방법(ray intersection)'이라고 부를 수 있다.

전술한 과정을 통해 제2 맵(400)은 건물 정보 및 실제적인 거리 정보를 포함할 수 있다.

실시예에 따라서, 영상 처리 장치는 건물의 식별 정보 및 건물의 층수 중 적어도 하나를 포함하는 건물 정보를 획득할 수 있다. 이 경우, 영상 처리 장치는 건물 정보 및 건물의 형상 정보를 기초로, 건물의 3D 모델을 구성할 수 있다. 영상 처리 장치는 촬영 정보를 건물의 3D 모델에 적용함으로써 제2 맵(400)을 생성할 수 있다.

다만, 일 실시예에서 생성된 제2 맵(400)은 형상 정보를 촬영 정보에 대응하는 투사면에 투사함으로 추정된 것이므로 405와 같이 실제 건물의 형상과 추정된 건물의 형상 간에 차이가 발생할 수 있다. 이러한 실제 건물의 형상과 추정된 건물의 형상 간의 차이는 아래의 도 6에서 설명하겠지만, 제1 맵과 제2 맵 간의 맵핑 결과에 따라 수행되는 스케일링 과정을 통해 수정될 수 있다.

도 5는 일 실시예에 따른 건물 뎁스맵을 생성하는 방법을 나타낸 흐름도이고, 도 6은 일 실시예에 따른 건물 뎁스맵을 생성하는 과정을 설명하기 위한 도면이다. 도 6을 참조하면, 일 실시예에 따른 영상 뎁스맵에서 건물 영역(615)만을 추출하여 재구성한 영상 뎁스맵(610), 제1 맵(620), 제2 맵(630) 및 건물 뎁스맵(640)이 도시된다.

도 5 및 도 6을 참조하면, 일 실시예에 따른 영상 처리 장치는 제1 맵(620)에 포함된 개별 건물들 각각의 영역과 제2 맵(630)에 포함된 개별 건물들 각각의 비교 결과를 기초로, 제2 맵에 포함된 개별 건물들의 건물 정보를 제1 맵(620)에 픽셀 단위로 맵핑할 수 있다(510). 이때, 제1 맵(620)은 앞서 재구성된 영상 뎁스맵(610)에 건물 분류맵(340)을 결합하여 건물 별로 구분함으로써 영상 내의 각 건물 별로 구분된 건물 영역(615)을 나타내는 맵일 수 있다. 영상 처리 장치는 예를 들어, 제1 맵(620)에 포함된 개별 건물들 각각의 영역과 제2 맵(630)에 포함된 개별 건물들 각각의 영역을 비교하여 제1 맵(620)의 일정 건물 영역에 가장 많이 포함되는 제2 맵(630)의 개별 건물 정보(예를 들어, A 건물)를 제1 맵(620)에 픽셀 단위로 맵핑할 수 있다.

이때, 제1 맵(620)에 나타난 개별 건물들의 형상은 정확하지만, 개별 건물들 간의 거리는 부정확할 수 있다. 또한, 제2 맵(630)에 나타난 개별 건물들 간의 거리를 정확하지만, 개별 건물들의 형상은 부정확할 수 있다. 따라서, 일 실시예에서는 제1 맵(620)과 제2 맵(630)을 맵핑함으로써 건물의 형상 및 거리 관계를 보다 명확하게 표현할 수 있다.

예를 들어, 제1 맵(620)의 픽셀들은 건물들을 서로 구별하는 정보 및 픽셀들 사이의 상대적인 거리를 포함할 수 있다. 제2 맵(630)의 픽셀들은 해당 픽셀이 속한 건물의 식별 정보, 해당 건물까지의 실제 거리, 및 해당 픽셀이 속한 건물 벽면의 법선 벡터를 포함할 수 있다.

제1 맵(620)의 제1 건물과 제2 맵(630)의 A 건물이 서로 맵핑되는 경우, 영상 처리 장치는 제2 맵(630)의 A 건물에 속한 픽셀의 정보에 기초하여 제1 맵(620) 내 제1 건물에 속한 픽셀의 정보를 결정할 수 있다. 예를 들어, 영상 처리 장치는 제2 맵(630) 내 픽셀에 포함된 건물의 식별 정보 및 건물 벽면의 법선 벡터를 제1 맵(620) 내 픽셀의 정보로 추가할 수 있다.

영상 처리 장치는 단계(510)의 맵핑 결과를 기초로, 제1 맵(620)에 포함된 픽셀들의 상대적인 거리를 실제 거리로 스케일링(scaling) 함으로써 건물 뎁스맵(640)을 생성할 수 있다(520). 단계(520)에서, 영상 처리 장치는 제1 맵(620) 내 픽셀들 사이의 상대적인 거리에 기초하여 제2 맵(630) 내 픽셀에 포함된 건물까지의 실제 거리를 스케일링 함으로써, 제1 맵(620) 내 픽셀까지의 실제 거리를 결정할 수 있다.

영상 처리 장치는 전술한 맵핑 과정을 통해 건물 뎁스맵(640)을 생성할 수 있다. 건물 뎁스맵(640)은 개별 건물들(645)의 정확한 건물 형상 및 건물 정보를 나타낼 뿐만 아니라, 건물들 간의 거리 관계 또한 실제 거리에 맞게 표현할 수 있다.

도 7은 일 실시예에 따른 영상 처리 장치의 기능 블럭도이다. 도 6을 참조하면, 일 실시예에 따른 영상 처리 장치(700)는 통신 인터페이스(710), 프로세서(730), 메모리(750), 및 디스플레이(770)를 포함할 수 있다. 통신 인터페이스(710), 프로세서(730), 메모리(750), 및 디스플레이(770)는 통신 버스(705)를 통해 서로 연결될 수 있다.

통신 인터페이스(710)는 적어도 하나의 건물을 포함하는 영상 및 영상의 촬영 정보를 획득한다. 통신 인터페이스(710)는 예를 들어, 지도 데이터베이스로부터 지도 정보를 수신할 수 있다.

프로세서(730)는 영상 가공부(731) 및 데이터 융합부(733)를 포함할 수 있다.

영상 가공부(731)는 데이터 입력부로부터 전달받은 영상을 가공하여 건물에 포함된 픽셀들 간의 상대적인 거리를 포함하는 제1 맵을 생성한다. 영상 가공부(731)는 영상을 가공하여 예를 들어, 영상 뎁스맵, 영상 분류맵, 건물 분류맵을 생성하고, 영상 뎁스맵, 영상 분류맵, 건물 분류맵으로부터 제1 맵을 생성할 수 있다.

또한, 영상 가공부(731)는 형상 정보를 촬영 정보에 대응하는 투사면에 투사함으로 추정되는 제2 맵을 생성한다. 제2 맵은 '건물 형상 맵'이라고도 부를 수 있다.

데이터 융합부(733)는 제1 맵과 제2 맵을 기초로, 영상에 포함된 복수의 픽셀들 중 건물에 대응하는 픽셀들의 뎁스를 포함하는 건물 뎁스맵을 생성한다. 데이터 융합부(733)는 건물 뎁스맵을 디스플레이(770)를 통해 출력할 수 있다.

메모리(750)는 영상, 영상의 촬영 정보, 지도 정보, 건물의 형상 정보를 저장할 수 있다. 메모리(750)는 프로세서(730)가 생성한 영상 뎁스맵, 영상 분류맵, 건물 분류맵을 저장할 수 있다. 또한, 메모리(750)는 프로세서(730)가 생성한 제1 맵, 제2 맵 및 건물 뎁스맵을 저장할 수 있다.

프로세서(730)는 도 1 내지 도 6을 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(730)는 프로그램을 실행하고, 영상 처리 장치를 제어할 수 있다. 프로세서(730)에 의하여 실행되는 프로그램 코드는 메모리(750)에 저장될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기된 하드웨어 표시 장치는 실시예의 입력을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 비록 한정된 도면에 의해 실시예들이 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 표시 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

적어도 하나의 건물을 포함하는 영상 및 상기 영상의 촬영 정보를 획득하는 단계;
상기 영상을 가공하여 상기 건물에 포함된 픽셀들 간의 상대적인 거리를 포함하는 제1 맵을 생성하는 단계;
지도 정보로부터 상기 건물의 형상 정보를 획득하고, 상기 형상 정보를 상기 촬영 정보에 대응하는 투사면에 투사함으로 추정되는 제2 맵을 생성하는 단계;
상기 제1 맵과 상기 제2 맵을 기초로, 상기 영상에 포함된 복수의 픽셀들 중 상기 건물에 대응하는 픽셀들의 뎁스(depth)를 포함하는 건물 뎁스맵(depth map)을 생성하는 단계; 및
상기 건물 뎁스맵을 출력하는 단계
를 포함하고,
상기 제1 맵을 생성하는 단계는
상기 영상 내에 포함된 개별 건물들을 분류한 건물 분류맵을 이용하여, 객체들의 클래스(class)에 의해 재구성된 영상 뎁스맵으로부터 상기 개별 건물들 별로 건물 영역을 분리함으로써 상기 제1 맵을 생성하는 단계
를 포함하고,
상기 건물 뎁스맵을 생성하는 단계는
상기 제2 맵에 포함된 개별 건물들의 건물 정보가 맵핑된 상기 제1 맵에 포함된 픽셀들의 상대적인 거리를 실제 거리로 스케일링(scaling) 함으로써 상기 건물 뎁스맵을 생성하는 단계
를 포함하는, 영상 처리 방법.
제1항에 있어서,
상기 제1 맵을 생성하는 단계는
상기 영상 내에 포함된 객체들 간의 상대적인 거리 정보를 나타내는 영상 뎁스맵(image depth map)을 생성하는 단계;
시맨틱 세그먼테이션(semantic segmentation)을 기초로, 상기 객체들의 클래스(class) 별 영역을 분류한 영상 분류맵을 생성하는 단계; 및
인스턴스 세그먼테이션(Instance Segmentation)을 기초로, 상기 건물 분류맵을 생성하는 단계
를 더 포함하는, 영상 처리 방법.
제2항에 있어서,
상기 건물 분류맵을 생성하는 단계는
상기 영상 내에 포함된 객체들 중 건물 유형에 해당하는 바운딩 박스(bounding box)를 이용하여 상기 영상 내에 포함된 개별 건물들을 분류한 건물 분류맵을 생성하는 단계
를 포함하는, 영상 처리 방법.
제2항에 있어서,
상기 개별 건물 별로 건물 영역을 분리함으로써 상기 제1 맵을 생성하는 단계는
상기 영상 분류맵에서 분류된 객체들의 클래스를 이용하여 상기 영상 뎁스맵을 재구성하는 단계; 및
상기 건물 분류맵을 이용하여 상기 재구성된 영상 뎁스맵에서 상기 개별 건물들 별로 상기 건물 영역을 분리하는 단계
를 포함하는, 영상 처리 방법.
제4항에 있어서,
상기 영상 뎁스맵을 재구성하는 단계는
상기 영상 분류맵과 상기 영상 뎁스맵을 오버랩(overlap)하여 상기 영상 분류맵에서 분류된 객체들 중 건물 클래스를 제외한 나머지 클래스들에 해당하는 적어도 하나의 객체를 제거함으로써 상기 영상 뎁스맵을 재구성하는 단계
를 포함하는, 영상 처리 방법.
제1항에 있어서,
상기 제2 맵을 생성하는 단계는
상기 촬영 정보를 기초로, 상기 영상을 3차원 지도에 맵핑하는 단계;
상기 형상 정보를 기초로, 상기 영상의 촬영 위치에서 상기 3차원 지도에 맵핑된 상기 영상의 각 지점으로 방향 벡터를 투사하는 단계; 및
상기 방향 벡터의 충돌 여부를 기초로, 상기 영상에서 개별 건물들 각각을 식별하여 상기 제2 맵을 생성하는 단계
를 포함하는, 영상 처리 방법.
제1항에 있어서,
상기 건물의 식별 정보 및 상기 건물의 층수 중 적어도 하나를 포함하는 건물 정보를 획득하는 단계
를 더 포함하고,
상기 제2 맵을 생성하는 단계는
상기 건물 정보 및 상기 건물의 형상 정보를 기초로, 상기 건물의 3D 모델을 구성하는 단계; 및
상기 촬영 정보를 상기 건물의 3D 모델에 적용함으로써 상기 제2 맵을 생성하는 단계
를 포함하는, 영상 처리 방법.
제1항에 있어서,
상기 건물 뎁스맵을 생성하는 단계는
상기 제1 맵에 포함된 개별 건물들 각각의 영역과 상기 제2 맵에 포함된 개별 건물들 각각의 비교 결과를 기초로, 상기 제2 맵에 포함된 개별 건물들의 건물 정보를 상기 제1 맵에 맵핑하는 단계; 및
상기 맵핑 결과를 기초로, 상기 건물 뎁스맵을 생성하는 단계
를 포함하는, 영상 처리 방법.
제8항에 있어서,
상기 맵핑 결과를 기초로, 상기 건물 뎁스맵을 생성하는 단계는
상기 맵핑 결과를 기초로, 상기 영상을 촬영한 위치로부터 상기 개별 건물들까지의 실제 거리를 산출하는 단계; 및
상기 제1 맵에 포함된 픽셀들의 상대적인 거리를 상기 실제 거리로 스케일링(scaling) 함으로써 상기 건물 뎁스맵을 생성하는 단계
를 포함하는, 영상 처리 방법.
제1항에 있어서,
상기 건물 뎁스맵을 생성하는 단계는
상기 건물에 해당하는 픽셀들 별로 상기 건물의 식별 정보, 상기 건물의 법선 벡터(normal vector), 및 상기 건물의 깊이 값 중 적어도 하나를 인코딩하여 상기 건물 뎁스맵을 생성하는 단계
를 더 포함하는, 영상 처리 방법.
제1항에 있어서,
상기 촬영 정보는
상기 영상을 촬영한 위치를 나타내는 위치 정보 및 상기 영상을 촬영한 촬영 장치의 자세 정보를 포함하는, 영상 처리 방법.
하드웨어와 결합되어 제1항 내지 제11항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.