KR102097869B1 - Deep Learning-based road area estimation apparatus and method using self-supervised learning - Google Patents

Deep Learning-based road area estimation apparatus and method using self-supervised learning Download PDF

Info

Publication number
KR102097869B1
KR102097869B1 KR1020180068801A KR20180068801A KR102097869B1 KR 102097869 B1 KR102097869 B1 KR 102097869B1 KR 1020180068801 A KR1020180068801 A KR 1020180068801A KR 20180068801 A KR20180068801 A KR 20180068801A KR 102097869 B1 KR102097869 B1 KR 102097869B1
Authority
KR
South Korea
Prior art keywords
map
learning
road
image
road area
Prior art date
Application number
KR1020180068801A
Other languages
Korean (ko)
Other versions
KR20190124113A (en
Inventor
손광훈
조재훈
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of KR20190124113A publication Critical patent/KR20190124113A/en
Application granted granted Critical
Publication of KR102097869B1 publication Critical patent/KR102097869B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06K9/00791
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30256Lane; Road marking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예에 다른 도로 영역 추정 장치 및 방법은 미리 선행 학습 및 교정 학습되어, 인가된 단안 영상에서 도로 특징을 추출하는 인코더 및 미리 교정 학습되어, 인코더에서 도로 특징이 추출된 영역을 복원하여 도로 영역을 추정하는 디코더를 포함하고, 인코더는 스테레오 영상으로부터 자가 지도 학습 자료로서 획득된 의사 지상 평면 자료를 이용하여 수행된다.The road area estimation apparatus and method according to an embodiment of the present invention are pre-trained and corrected learning in advance, and an encoder for extracting road features from an applied monocular image and pre-corrected learning to restore an area where road features are extracted from the encoder. It includes a decoder to estimate the road area, and the encoder is performed using pseudo-ground plane data obtained as self-supervised learning data from stereo images.

Description

자가 지도 학습을 이용한 딥러닝 기반 도로 영역 추정 장치 및 방법{Deep Learning-based road area estimation apparatus and method using self-supervised learning}Deep learning-based road area estimation apparatus and method using self-supervised learning}

본 발명은 도로 영역 추정 장치 및 방법에 관한 것으로, 특히 자가 지도 학습을 이용한 딥러닝 기반 도로 영역 추정 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for estimating a road area, and more particularly, an apparatus and method for estimating a road area based on deep learning using self-directed learning.

운전자 보조 시스템(Advanced Driver Assistance System: 이하 ADAS)과 자율 주행 차량(Autonomous Vehicles) 및 이동 로봇의 항법 장치 등의 장치에서 영상 또는 특정 영상으로부터 도로 영역을 추정하는 도로 영역 추정 기술은 여전히 컴퓨터 비전 및 로봇 기술의 핵심 기술 중 하나로 남아있으며, 현재도 다양한 연구가 진행되고 있다.The road area estimation technology to estimate the road area from an image or a specific image in devices such as the Advanced Driver Assistance System (ADAS) and navigation devices of autonomous vehicles and mobile robots is still computer vision and robot It remains one of the core technologies, and various studies are under way.

기존의 도로 영역 추정 기술은 주로 단안 카메라를 사용하여 획득된 영상에서 색상, 경계선(edge) 또는 질감(Texture)을 이용하여 도로 영역을 추정하였다. 그러나 이러한 방법은 설계자에 의해 설계된 예측 모델 형태라는 제약으로 인해, 복잡하고 다양한 환경의 도로를 모두 고려할 수 없다는 한계가 있다.In the existing road area estimation technology, a road area is estimated using color, an edge, or texture in an image mainly obtained using a monocular camera. However, this method has a limitation in that it cannot take into account all roads in a complex and diverse environment due to the constraint of the form of a predictive model designed by the designer.

이에 대한 대안으로 스테레오 카메라 또는 라이다(LIDAR) 등을 이용하여, 영상과 영상에 대한 깊이 정보를 함께 획득하여 도로 영역을 추정하는 방안이 제안되었다. 영상과 깊이 정보가 함께 획득되므로, 영상의 기하학적 레이아웃을 용이하게 확인할 수 있어, 도로를 상대적으로 정확하게 추정할 수 있다. 그러나 이 방식을 적용하기 위해서는 스테레오 카메라 또는 라이다라는 장치를 필요로 할 뿐만 아니라, 설치 위치 등을 고려한 추가적인 카메라 보정을 필요로 한다.As an alternative to this, a method of estimating a road area by acquiring depth information about an image and an image using a stereo camera or a LIDAR has been proposed. Since the image and depth information are acquired together, it is possible to easily check the geometric layout of the image, so that the road can be estimated relatively accurately. However, in order to apply this method, not only a stereo camera or a lidar device is required, but also an additional camera calibration considering the installation location and the like.

한편, 최근에는 딥 러닝(Deep learning) 기법으로 학습된 인공 신경망(artificial neural network)을 이용하여 영상으로부터 도로 영역을 추정하고자 하는 연구가 진행되고 있다.On the other hand, recently, studies have been conducted to estimate a road area from an image using an artificial neural network learned by a deep learning technique.

일반적으로 도로 영역 추정 기술에서의 딥 러닝 기법은 대규모의 시멘틱 레이블 영상(semantically labeled data)를 요구하는 지도 학습(supervised learning) 방식을 따른다. 다만 학습을 위해 제공되는 시멘틱 레이블 영상의 개수가 부족하면, 인공 신경망이 정상적으로 학습되지 않아 도로 영역을 정확하게 추정하지 못하는 문제가 있다. 즉 학습 자료의 부족으로 인해 도로 영역을 추정할 수 없게 되는 문제가 있다.In general, the deep learning technique in the road area estimation technique follows a supervised learning method that requires large-scale semanically labeled data. However, if the number of semantic label images provided for learning is insufficient, there is a problem in that the artificial neural network is not normally trained and thus the road area cannot be accurately estimated. That is, there is a problem that the road area cannot be estimated due to the lack of learning materials.

그러나 시멘틱 레이블 영상은 지상 영역 또는 도로 영역에 대한 주석을 사람이 직접 추가하는 수작업을 동반하므로, 제작에 높은 비용이 요구한다. 따라서 학습을 위한 시멘틱 레이블 영상을 획득하는 것은 용이하지 않다.However, the semantic label image is accompanied by a manual task of manually adding annotations to the ground area or the road area, and thus requires high production cost. Therefore, it is not easy to acquire a semantic label image for learning.

현재 도로 영역 추정을 위해 사용되는 시멘틱 레이블 영상 자료로는 KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute) Vision Benchmark Suite, EHV-road dataset이 알려져 있으나, KITTI의 4만여개의 영상 중 도로 주석이 레이블된 영상은 289개뿐이며, EHV-road dataset에서는 5천여개의 영상 중 188개뿐이다.Currently, the KITTI (Karlsruhe Institute of Technology and Toyota Technological Institute) Vision Benchmark Suite, EHV-road dataset is known as the semantic label image data used for road area estimation, but the road annotation label image among the 40,000 images of KITTI There are only 289, and 188 out of 5,000 videos in the EHV-road dataset.

즉 획득 가능한 시멘틱 레이블 영상의 수가 절대적으로 부족하며 이로 인해, 도로 영역 추정 기술에서의 딥 러닝 기법을 적용하는 것이 용이하지 않다는 한계가 있다.That is, the number of semantic label images that can be obtained is absolutely insufficient, and thus, there is a limitation that it is not easy to apply a deep learning technique in a road area estimation technique.

한국 등록 특허 제10-1748675호 (2017.06.13 등록)Korean Registered Patent No. 10-1748675 (Registered on June 13, 2017)

본 발명의 목적은 자가 지도 학습을 통해 시멘틱 레이블되지 않은 영상을 선행 학습시켜, 적은 수의 시멘틱 레이블 영상에 의한 학습으로도 영상에서 도로를 정확하게 추정할 수 있는 딥러닝 기반 도로 영역 추정 장치 및 방법을 제공하는데 있다.An object of the present invention is a deep learning-based road area estimation apparatus and method capable of accurately estimating a road in an image by pre-learning a semantic unlabeled image through self-supervised learning and learning with a small number of semantic label images. To provide.

본 발명의 다른 목적은 다수의 시멘틱 레이블되지 않은 스테레오 영상에서 자유공간 맵 및 표면 법선 맵을 획득하고, 획득된 자유공간 맵 및 표면 법선 맵을 이용하여 의사 지상평면을 멀티 태스킹으로 자가 지도 학습시켜, 시멘틱 레이블 영상에 의한 학습과 유사한 수준의 선행 학습 효과를 획득할 수 있는 딥러닝 기반 도로 영역 추정 장치 및 방법을 제공하는데 있다.Another object of the present invention is to obtain a free space map and a surface normal map from a plurality of semantic unlabeled stereo images, and to self-learn a pseudo-ground plane by multitasking using the obtained free space map and a surface normal map, It is to provide an apparatus and method for estimating a road region based on deep learning that can acquire a level of pre-learning effect similar to learning by semantic label image.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 도로 영역 추정 장치는 미리 선행 학습 및 교정 학습되어, 인가된 단안 영상에서 도로 특징을 추출하는 인코더; 및 미리 교정 학습되어, 상기 인코더에서 도로 특징이 추출된 영역을 복원하여 도로 영역을 추정하는 디코더; 를 포함하고, 상기 인코더는 스테레오 영상으로부터 자가 지도 학습 자료로서 획득된 의사 지상 평면 자료를 이용하여 수행된다.An apparatus for estimating a road area according to an embodiment of the present invention for achieving the above object may be pre-trained and corrected-learned in advance, and an encoder for extracting road features from an applied monocular image; And a decoder that estimates a road area by reconstructing an area in which the road feature is extracted by the encoder, by performing correction learning in advance. Including, the encoder is performed using pseudo-ground plane data obtained as self-supervised learning data from a stereo image.

상기 도로 영역 추정 장치는 상기 인코더가 컨볼루션 신경망(Convolutional Neural Networks: CNN)으로 구현되고, 상기 디코더가 역방향 컨볼루션 신경망(backward convolution Neural Networks)인 디컨볼루션 신경망(Deconvolution Neural Networks: DCNN)으로 구현되어, 결합된 완전 컨볼루션 망(Fully Convolutional Network: FCN)으로 구현될 수 있다.In the road area estimation apparatus, the encoder is implemented as convolutional neural networks (CNN), and the decoder is implemented as deconvolution neural networks (DCNN), which are backward convolution neural networks. Therefore, it can be implemented as a combined fully convolutional network (FCN).

상기 인코더는 각각 적어도 하나의 컨볼루션 레이어, 적어도 하나의 배치 정규화 레이어 및 적어도 하나의 활성화 함수 레이어를 포함하는 다수의 필터층과 다수의 필터층 사이에 배치되는 적어도 하나의 풀링 레이어를 포함하고, 상기 디코더는 각각 적어도 하나의 컨볼루션 레이어, 적어도 하나의 배치 정규화 레이어, 적어도 하나의 활성화 함수 레이어를 포함하는 다수의 필터층과 다수의 필터층 사이에 배치되는 적어도 하나의 언풀링 레이어를 포함할 수 있다.The encoder includes a plurality of filter layers each including at least one convolutional layer, at least one batch normalization layer and at least one activation function layer and at least one pooling layer disposed between the plurality of filter layers, and the decoder Each filter layer may include a plurality of filter layers each including at least one convolutional layer, at least one batch normalization layer, and at least one activation function layer, and at least one unpooling layer disposed between the plurality of filter layers.

상기 인코더는 상기 스테레오 영상의 1쌍의 영상 사이의 차이로부터 획득되는 디스패리티 맵으로부터 상기 의사 지상 평면 자료로서 획득되는 자유공간 맵 및 표면 법선 맵과 상기 스테레오 영상의 1쌍의 영상 중 하나의 단일 영상을 이용하여 지도 학습(supervised learning) 방식으로 선행 학습될 수 있다.The encoder is a single image of a free space map and a surface normal map obtained as the pseudo-ground plane data from a disparity map obtained from a difference between a pair of images of the stereo image and a pair of images of the stereo image. It can be pre-learned using a supervised learning method.

상기 자유공간 맵은 상기 디스패리티 맵에서 기설정된 방식으로 스틱셀 맵이 획득되고, 상기 스틱셀 맵으로부터 판별되는 장애물 영역을 제거하여 획득된 운전 가능영역 맵을 상기 단일 영상과 결합하여 획득되는 장애물 기반 도로 판별 맵이고, 상기 표면 법선 맵은 상기 디스패리티 맵으로부터 깊이 정보를 획득하고, 획득된 깊이 정보에 따라 상기 단일 영상에서 각 표면에 대한 법선을 계산하여, 상기 단일 영상 내의 평면을 추정하는 평면 기반 도로 판별 맵일 수 있다.In the free space map, a stick cell map is obtained in a predetermined manner in the disparity map, and an obstacle-based obtained by combining a driving area map obtained by removing an obstacle region determined from the stick cell map with the single image It is a road discrimination map, and the surface normal map is plane-based for acquiring depth information from the disparity map, and calculating a normal for each surface in the single image according to the acquired depth information, to estimate a plane in the single image It may be a road discrimination map.

상기 선행 학습은 상기 단일 영상이 인가되는 상기 인코더에 출력을 동시에 인가받도록 병렬로 연결되는 자유공간 디코더 및 표면 법선 디코더가 상기 인코더에 병렬로 연결되고, 상기 자유공간 디코더 및 상기 표면 법선 디코더의 출력이 각각 상기 자유공간 맵 및 상기 표면 법선 맵에 대응하도록 상기 인코더와 상기 자유공간 디코더 및 상기 표면 법선 디코더가 지도 학습될 수 있다.In the preceding learning, a free space decoder and a surface normal decoder connected in parallel so as to simultaneously receive output to the encoder to which the single image is applied are connected in parallel to the encoder, and the outputs of the free space decoder and the surface normal decoder are connected. The encoder, the free space decoder and the surface normal decoder may be supervised to correspond to the free space map and the surface normal map, respectively.

상기 인코더 및 상기 디코더는 도로 영역이 미리 주석으로 표시된 시멘틱 레이블 영상을 이용하여 지도 학습 방식으로 상기 교정 학습 될 수 있다.The encoder and the decoder may be calibrated and learned by a supervised learning method using a semantic label image in which a road area is pre-marked.

상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 도로 영역 추정 방법은 스테레오 영상으로부터 자가 지도 학습 자료로서 획득된 의사 지상 평면 자료를 이용하여 선행 학습을 수행하는 단계; 도로 영역이 미리 주석으로 표시된 시멘틱 레이블 영상을 이용하여 지도 학습 방식으로 교정 학습을 수행하는 단계; 상기 선행 학습 및 상기 교정 학습된 패턴 인식 기법에 따라 인가된 단안 영상에서 도로 특징을 추출하는 단계; 및 상기 교정 학습된 패턴 인식 기법에 따라 도로 특징이 추출된 영역을 복원하여 도로 영역을 추정하는 단계; 를 포함한다.A road area estimation method according to another embodiment of the present invention for achieving the above object comprises: performing prior learning using pseudo-ground plane data obtained as self-directed learning data from a stereo image; Performing corrective learning in a supervised learning method using a semantic label image in which a road area is pre-marked; Extracting road features from the monocular image applied according to the preceding learning and the corrected learning pattern recognition technique; And estimating a road area by restoring an area where road features are extracted according to the corrected and learned pattern recognition technique. It includes.

따라서, 본 발명의 도로 영역 추정 장치 및 방법은 다수의 시멘틱 레이블되지 않은 스테레오 영상에서 의사 지상평면을 학습하기 위한 자유공간 맵 및 표면 법선 맵을 각각 획득한 후, 시멘틱 레이블되지 않은 스테레오 영상 중 하나의 단일 영상으로부터 자유공간 맵 및 표면 법선 맵을 멀티 태스킹 자가 지도 학습시킴으로써, 스테레오 영상이 아닌 단안 영상에서도 용이하게 도로를 식별할 수 있도록 한다.Accordingly, the apparatus and method for estimating a road area of the present invention acquire a free space map and a surface normal map for learning a pseudo ground plane from a plurality of semantic unlabeled stereo images, and then obtain one of the semantic unlabeled stereo images. By multi-tasking self-learning of a free space map and a surface normal map from a single image, it is possible to easily identify a road in a monocular image rather than a stereo image.

또한 자가 지도 학습 방식으로 선행 학습한 이후, 시멘틱 레이블 영상을 이용하여 교정 학습시킴으로써, 적은 수의 시멘틱 레이블 영상만을 이용하여도 정확하게 도로 영역을 추정할 수 있다. 그러므로 영상에 시멘틱 레이블링을 위한 작업량을 줄일 수 있으며, 저비용으로 정확하데 도로를 추정할 수 있는 도로 영역 추정 장치를 제공할 수 있다.In addition, after pre-learning using a self-directed learning method, corrective learning is performed using a semantic label image to accurately estimate a road area using only a small number of semantic label images. Therefore, it is possible to reduce the amount of work for semantic labeling on the image, and to provide a road area estimation apparatus capable of accurately estimating the road at a low cost.

도1 은 본 발명의 일 실시예에 따른 도로 영역 추정 장치의 개략적 구성을 나타낸다.
도2 는 도1 의 도로 영역 추정 장치를 학습시키기 위한 학습 시스템의 일 실시예에 대한 개략적 구성을 나타낸다.
도3 은 도2 의 자가 지도 학습 자료 획득부의 상세 구성의 일 예를 나타낸다.
도4 는 도3 의 자가 지도 학습 자료 획득부에 의해 획득되는 자가 지도 학습 자료의 일예를 나타낸다.
도5 는 도2 의 선행 학습부의 상세 구성의 일 예를 나타낸다.
도6 은 도5 의 의사 지상평면 획득부에 의해 획득되는 의사 지상평면을 설명하기 위한 도면이다.
도7 은 도2 의 교정 학습부의 상세 구성의 일 예를 나타낸다.
도8 은 본 발명의 일 실시예에 따른 도로 영역 추정 방법 및 이의 학습 방법에 대한 개략적 구성을 나타낸다.
도9 는 도8 의 자가 지도 학습 자료 획득 단계의 상세 구성의 일 예를 나타낸다.
도10 은 도8 의 선행 학습 단계의 상세 구성의 일 예를 나타낸다.
도11 은 도8 의 교정 학습 단계의 상세 구성의 일 예를 나타낸다.
도12 는 도8 의 본 발명의 일 실시예에 따른 도로 영역 추정 방법의 상세 구성을 나타낸다.
도13 은 본 발명의 일 실시예에 따른 다중 태스크 선행 학습 방식과 개별 선행 학습 방식의 성능을 비교한 결과를 나타낸다.
도14 는 본 발명의 일 실시예에 따라 학습된 도로 영역 추정 장치 및 방법에 의해 추정된 도로 영역의 성능을 비교한 결과를 나타낸다.
1 shows a schematic configuration of a road area estimation apparatus according to an embodiment of the present invention.
FIG. 2 shows a schematic configuration of an embodiment of a learning system for learning the road area estimation apparatus of FIG. 1.
FIG. 3 shows an example of a detailed configuration of the self-directed learning data acquisition unit of FIG. 2.
4 shows an example of the self-directed learning material acquired by the self-directed learning material acquisition unit of FIG. 3.
5 shows an example of a detailed configuration of the preceding learning unit of FIG. 2.
6 is a view for explaining a pseudo-ground plane obtained by the pseudo-ground plane obtaining unit of FIG. 5.
7 shows an example of a detailed configuration of the calibration learning unit of FIG. 2.
8 shows a schematic configuration of a road area estimation method and a learning method according to an embodiment of the present invention.
FIG. 9 shows an example of a detailed configuration of the self-supervised learning data acquisition step of FIG. 8.
10 shows an example of a detailed configuration of the preceding learning step of FIG. 8.
FIG. 11 shows an example of a detailed configuration of the calibration learning step of FIG. 8.
12 shows a detailed configuration of a method for estimating a road area according to an embodiment of the present invention in FIG. 8.
13 shows a result of comparing the performance of a multi-task pre-learning method and an individual pre-learning method according to an embodiment of the present invention.
14 shows a result of comparing the performance of a road area estimated by a learned road area estimation apparatus and method according to an embodiment of the present invention.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다. In order to fully understand the present invention, the operational advantages of the present invention, and the objects achieved by the practice of the present invention, reference should be made to the accompanying drawings and the contents described in the accompanying drawings, which illustrate preferred embodiments of the present invention.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다. Hereinafter, the present invention will be described in detail by explaining preferred embodiments of the present invention with reference to the accompanying drawings. However, the present invention may be implemented in various different forms, and is not limited to the described embodiments. In addition, in order to clearly describe the present invention, parts irrelevant to the description are omitted, and the same reference numerals in the drawings indicate the same members.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. Throughout the specification, when a part “includes” a certain component, this means that other components may be further included, rather than excluding other components, unless otherwise specified. In addition, terms such as "... unit", "... group", "module", and "block" described in the specification mean a unit that processes at least one function or operation, which is hardware or software or hardware. And software.

도1 은 본 발명의 일 실시예에 따른 도로 영역 추정 장치의 개략적 구성을 나타낸다.1 shows a schematic configuration of a road area estimation apparatus according to an embodiment of the present invention.

도1 을 참조하면, 본 발명의 실시예에 따른 도로 영역 추정 장치(100)는 도로 영역이 추정되어야 할 영상을 획득하는 단안 영상 획득부(110), 단안 영상 획득부(110)에서 획득된 영상에서 도로 특징을 추출하는 인코더(120) 및 도로 특징에 따라 영상에서 도로 영역을 추출하는 디코더(130)를 포함한다.Referring to FIG. 1, in the road area estimation apparatus 100 according to an embodiment of the present invention, an image obtained by the monocular image acquiring unit 110 and the monocular image acquiring unit 110 that acquires an image to which the road area is to be estimated It includes an encoder 120 for extracting road features from and a decoder 130 for extracting road regions from images according to road features.

우선 단안 영상 획득부(110)는 도로 영역이 추정되어야 할 영상으로 단안 영상(Monocular image)을 획득한다. 여기서 단안 영상은 일반적인 카메라로부터 획득될 수 있는 영상으로 깊이 정보가 포함되지 않은 영상이다.First, the monocular image acquiring unit 110 acquires a monoocular image as an image to which a road area is to be estimated. Here, the monocular image is an image that can be obtained from a general camera and does not include depth information.

인코더(120)는 인공 신경망으로 구현되고 지정된 패턴 인식 기법에 따라 미리 학습되어 단안 영상 획득부(110)에서 획득된 단안 영상으로부터 도로를 추출한다.The encoder 120 is implemented as an artificial neural network and is pre-trained according to a designated pattern recognition technique to extract a road from the monocular image obtained by the monocular image acquisition unit 110.

특히 본 실시예에서 인코더(120)는 깊이 정보가 획득될 수 있는 스테레오 영상 중 하나의 단일 영상과, 스테레오 영상으로부터 획득되는 자유공간(Free-space) 맵 및 표면 법선(Surface Normal) 맵을 이용하여 선행 학습됨으로써, 단안 영상에서 용이하게 도로 특징을 추출할 수 있다.In particular, in the present embodiment, the encoder 120 uses a single image of a stereo image from which depth information can be obtained, and a free-space map and a surface normal map obtained from the stereo image. By learning ahead, it is possible to easily extract road features from a monocular image.

여기서 자유공간 맵 및 표면 법선 맵은 단안 영상에 영상에서 의사 지상평면(Pseudo Ground-Truth)을 추출할 수 있도록 하기 위한 자가 지도 학습 자료로서 이용된다.Here, the free space map and the surface normal map are used as self-directed learning materials for extracting a pseudo ground plane from the image in a monocular image.

즉 단안 영상으로부터 도로 특징을 추출하기 위해, 영상 내의 각 영역의 색상, 경계선 또는 질감 등을 이용하는 기존과 달리, 본 실시예에 따른 인코더(120)는 깊이 정보가 포함되지 않은 단안 영상에 대해서 깊이 정보가 포함된 스테레오 영상과 유사하게 장애물과 지상평면을 구분하여 도로 특징을 추출할 수 있도록 사전에 학습됨에 따라 다양한 환경 조건에서 용이하게 도로 특징을 추출할 수 있다.That is, in order to extract road features from the monocular image, unlike the conventional method that uses colors, borders, or textures of each region in the image, the encoder 120 according to the present embodiment includes depth information for a monocular image that does not include depth information. As it is learned in advance so that road features can be extracted by separating obstacles and ground planes similarly to the stereo image that includes, road features can be easily extracted under various environmental conditions.

여기서 인코더(120)는 단안 영상에 도로의 존재 여부와 함께 영상 내에서 도로의 위치 정보를 추출할 수 있다.Here, the encoder 120 may extract location information of the road in the image together with the presence of the road in the monocular image.

한편 디코더(130)는 인공 신경망으로 구현되고 지정된 패턴 인식 기법에 따라 미리 학습되어, 인코더(120)에서 도로 특징이 추출된 영역을 식별하여 단안 영상 내의 도로 영역을 추정한다.On the other hand, the decoder 130 is implemented as an artificial neural network and is pre-trained according to a designated pattern recognition technique to identify a region in which the road feature is extracted from the encoder 120 to estimate the road region in the monocular image.

여기서 인코더(120)는 일 예로 인공 신경망 중 영상 인식 또는 음성 인식에 탁월한 성능을 나타내는 것으로 알려진 컨볼루션 신경망(Convolutional Neural Networks: CNN)으로 구현될 수 있다.Here, the encoder 120 may be implemented as, for example, a convolutional neural network (CNN) known to exhibit excellent performance in image recognition or speech recognition among artificial neural networks.

도1 에 도시된 바와 같이, 컨볼루션 신경망(CNN)으로 구현된 인코더(120)는 각각 적어도 하나의 컨볼루션 레이어(Convolutional layer), 적어도 하나의 배치 정규화 레이어(Batch Normalization layer: BN layer) 및 적어도 하나의 활성화 함수 레이어(Activation function layer)를 포함하는 다수의 필터층과 다수의 필터층 사이에 배치되는 적어도 하나의 풀링 레이어(Pooling layer)를 포함할 수 있다. 여기서 활성화 함수 레이어는 일예로 ReLU(Rectified Linear Unit) 레이어로 구현될 수 있다.As illustrated in FIG. 1, the encoders 120 implemented with a convolutional neural network (CNN) each include at least one convolutional layer, at least one batch normalization layer (BN layer), and at least A plurality of filter layers including one activation function layer and at least one pooling layer disposed between the plurality of filter layers may be included. Here, the activation function layer may be implemented as a ReLU (Rectified Linear Unit) layer, for example.

그리고 디코더(130)는 컨볼루션 신경망(CNN)에 대응하여 역방향 컨볼루션(backward convolution), 즉 디컨볼루션(Deconvolution)을 수행하는 디컨볼루션 신경망(Deconvolution Neural Networks: DCNN)으로 구현될 수 있다. 인코더(120)에 대응하여 디컨볼루션 신경망(DCNN)으로 구현된 디코더(130)는 각각 적어도 하나의 컨볼루션 레이어, 적어도 하나의 배치 정규화 레이어, 적어도 하나의 활성화 함수 레이어를 포함하는 다수의 필터층과 다수의 필터층 사이에 배치되는 적어도 하나의 언풀링 레이어(Unpooling layer)를 포함할 수 있으며, 활성화 함수 레이어는 인코더(120)와 마찬가지로 일예로 ReLU 레이어로 구현될 수 있다.In addition, the decoder 130 may be implemented as a deconvolution neural network (DCNN) that performs backward convolution, that is, deconvolution, in response to a convolutional neural network (CNN). The decoder 130 implemented as a deconvolutional neural network (DCNN) corresponding to the encoder 120 includes a plurality of filter layers each including at least one convolutional layer, at least one batch normalization layer, and at least one activation function layer. At least one unpooling layer disposed between a plurality of filter layers may be included, and the activation function layer may be implemented as a ReLU layer, for example, like the encoder 120.

상기한 바와 같이, 인코더(120)와 디코더(130)가 각각 컨볼루션 신경망(CNN) 및 디컨볼루션 신경망(DCNN)으로 구현된 경우, 인코더(120)와 디코더(130)를 통합하여, 완전 컨볼루션망(Fully Convolutional Network: FCN)라 한다. 즉 본 실시예의 도로 영역 추정 장치는 획득된 단안 영상으로부터 도로 영역을 추정하도록 미리 학습된 완전 컨볼루션망(FCN)으로 구현될 수 있다.As described above, when the encoder 120 and the decoder 130 are implemented with a convolutional neural network (CNN) and a deconvolutional neural network (DCNN), respectively, the encoder 120 and the decoder 130 are integrated to complete convolution. It is called the Fully Convolutional Network (FCN). That is, the road area estimation apparatus of the present embodiment may be implemented as a fully learned convolutional network (FCN) previously estimated to estimate the road area from the obtained monocular image.

완전 컨볼루션망(FCN)으로 구현된 도로 영역 추정 장치에서 인코더(120)는 일반적인 컨볼루션 신경망(CNN)과 달리 최종 레이어에 완전 연결 레이어(Fully connected layer)를 포함하지 않고, 특징이 추출된 위치 정보를 유지할 수 있도록 Convolutionization하여 디코더(130)에 연결된다.In the road area estimation apparatus implemented as a complete convolutional network (FCN), the encoder 120 does not include a fully connected layer in the final layer, unlike a general convolutional neural network (CNN), and features are extracted. It is connected to the decoder 130 by convolutionization to maintain information.

컨볼루션 신경망(CNN)으로 구현되는 인코더(120)는 추출되는 특징을 저해상도로 표현하는 특징이 있다. 따라서 입력된 단안 영상에서 도로 영역을 추출하더라도 도로 영역의 위치를 획득된 단안 영상에 대응하는 크기의 고해상도로 정확하게 표현하기 어렵다는 문제가 있다. 이에 본 발명에서는 디컨볼루션 신경망(DCNN)으로 구현되는 디코더(130)를 인코더(120)와 결합하여 완전 컨볼루션망(FCN)을 구현함으로써, 인코더(120)에서 저해상도로 표현된 도로 영역이 다시 고해상도로 표현되도록 한다.The encoder 120 implemented as a convolutional neural network (CNN) has a feature of expressing the extracted feature with a low resolution. Therefore, even if the road region is extracted from the input monocular image, there is a problem that it is difficult to accurately express the location of the road region with a high resolution of a size corresponding to the obtained monocular image. Accordingly, in the present invention, by implementing a full convolutional network (FCN) by combining the decoder 130 implemented as a deconvolutional neural network (DCNN) with the encoder 120, the road region represented by the low resolution in the encoder 120 again It should be expressed in high resolution.

디컨볼루션 신경망(DCNN)으로 구현되는 디코더(130)는 추출된 특징 표현의 해상도가 점진적으로 확대되도록 학습될 수 있으며, 이중선형 보간법(bilinear interpolation)에 따라 2차원 보간을 순차적으로 수행하여, 인코더(120)에서 도로 특징이 추출된 영역을 원영상 크기로 확대하도록 학습될 수 있다.The decoder 130, which is implemented as a deconvolutional neural network (DCNN), may be trained to gradually increase the resolution of the extracted feature expression, and sequentially performs two-dimensional interpolation according to bilinear interpolation, thereby encoding At 120, the area where the road feature is extracted may be learned to enlarge to the original image size.

한편, 본 실시예에 따른 도로 영역 추정 장치(100)는 도로 추정 영상 출력부(140)를 더 포함할 수 있다. 도로 영역 추정 장치(100)가 자율 주행 차량 및 이동 로봇의 항법 장치 등에 이용되는 경우, 도로 영역 추정 장치(100)가 추정한 도로 영역을 별도로 표시할 필요가 없으나, 운전자 보조 시스템(ADAS) 등에서는 획득된 추정된 도로 영역을 사용자에게 표시해야 할 수도 있다. 이 경우, 도로 영역 추정 장치(100)는 도로 추정 영상 출력부(140)를 더 포함하여, 획득된 영상에서 도1 에 도시된 바와 같이, 추정된 도로 영역을 표시하여 사용자에게 출력하도록 구성될 수 있다.Meanwhile, the road area estimation apparatus 100 according to the present embodiment may further include a road estimation image output unit 140. When the road area estimation device 100 is used for an autonomous vehicle and a navigation device of a mobile robot, it is not necessary to separately display the road area estimated by the road area estimation device 100, but in a driver assistance system (ADAS), etc. The estimated road area obtained may need to be displayed to the user. In this case, the road area estimation apparatus 100 may further include a road estimation image output unit 140 to display the estimated road area and output it to the user, as illustrated in FIG. 1 in the obtained image. have.

도2 는 도1 의 도로 영역 추정 장치를 학습시키기 위한 학습 시스템의 일 실시예에 대한 개략적 구성을 나타낸다.FIG. 2 shows a schematic configuration of an embodiment of a learning system for learning the road area estimation apparatus of FIG. 1.

상기한 바와 같이, 본 실시예에 따른 인공 신경망으로 구현되는 도로 영역 추정 장치(100)는 딥 러닝 방식으로 패턴 인식 기법이 미리 학습되어야만 도로 영역을 추정할 수 있다. 이때, 학습을 위한 시멘틱 레이블 영상이 다수 존재하는 경우, 다수의 시멘틱 레이블 영상을 이용하여 도로 영역 추정 장치(100)를 용이하게 학습시킬 수 있다. 그러나 이미 언급한 바와 같이, 기존에 알려진 시멘틱 레이블 영상은 매우 적은 개수만이 존재하므로, 도로 영역 추정 장치(100)를 충분하게 학습시킬 수 없다.As described above, the apparatus 100 for estimating the road region implemented by the artificial neural network according to the present embodiment can estimate the road region only when the pattern recognition technique is learned in advance by a deep learning method. In this case, when there are a plurality of semantic label images for learning, the road area estimation apparatus 100 may be easily trained using a plurality of semantic label images. However, as already mentioned, only a very small number of known semantic label images exist, and thus the road area estimation apparatus 100 cannot be sufficiently trained.

이에 본 발명에서는 시멘틱 레이블되지 않은 스테레오 영상으로부터 시멘틱 레이블 영상과 유사한 학습 효과를 나타낼 수 있는 의사 지상평면 자료를 획득하여 자가 지도 학습 자료로서 이용한다. 즉 획득된 의사 지상평면 자료를 자가 지도 학습 자료로 이용하여 선행 학습을 먼저 수행하고, 이후 도로 영역을 정확하게 추정할 수 있도록 시멘틱 레이블 영상을 이용하여 재학습 시킨다. 그러므로 적은 수의 시멘틱 레이블 영상만으로도 도로 영역 추정 장치(100)를 충분하게 학습시킬 수 있도록 한다.Accordingly, in the present invention, pseudo ground plane data capable of exhibiting a learning effect similar to that of a semantic label image is obtained from a stereo image that is not a semantic label and used as self-directed learning data. That is, prior learning is first performed using the obtained pseudo-ground plane data as self-directed learning data, and then re-learned using a semantic label image to accurately estimate a road area. Therefore, the road area estimation apparatus 100 can be sufficiently trained with only a small number of semantic label images.

도2 를 참조하면, 도로 영역 추정 장치를 학습시키기 위한 학습 시스템은 자가 지도 학습 자료를 획득하고, 획득된 자가 지도 학습 자료에 따라 인코더(120)에 대한 선행 학습시키는 자가 지도 학습부(200), 자가 지도 선행 학습된 인코더(120)와 학습되지 않은 디코더(130)를 시멘틱 레이블 영상을 이용하여 재학습시키는 교정 학습부(300) 및 교정 학습된 인코더(120)와 디코더(130)를 이용하여 입력되는 단안 영상에서 도로 영역을 추정하는 도로 영역 추정 장치(100)를 포함할 수 있다.Referring to FIG. 2, the learning system for learning the road area estimation apparatus acquires self-supervised learning data, and self-supervised learning unit 200 for pre-training the encoder 120 according to the acquired self-supervised learning data, The self-directed pre-learned encoder 120 and the non-learned decoder 130 are re-learned using a semantic label image, and then input using the corrected learning unit 300 and the corrected-learned encoder 120 and decoder 130. It may include a road area estimation apparatus 100 for estimating the road area from the monocular image.

여기서 도로 영역 추정 장치(100)는 도1 에 도시된 바와 같이, 인코더(120)와 디코더(130)를 포함하고, 완전 컨볼루션망(FCN)으로 구현될 수 있다.Here, the road area estimation apparatus 100 includes an encoder 120 and a decoder 130 as illustrated in FIG. 1, and may be implemented as a full convolutional network (FCN).

자가 지도 학습부(200)는 자가 지도 학습 자료를 획득하는 자가 지도 학습 자료 획득부(210)와 획득된 자가 지도 학습 자료를 이용하여, 도로 영역 추정 장치(100)의 인코더(120)를 선행학습 시키는 선행 학습부(220)를 포함한다.The self-supervised learning unit 200 uses the self-supervised learning data acquisition unit 210 for acquiring self-supervised learning data and the acquired self-supervised learning data to pre-learn the encoder 120 of the road area estimation apparatus 100. It includes a prior learning unit 220.

자가 지도 학습 자료 획득부(210)는 시멘틱 레이블 영상이 아닌 스테레오 영상을 인가받아 도로 영역에 대한 주석이 표시된 시멘틱 레이블 영상과 유사한 효과를 나타낼 수 있는 의사 지상평면 자료를 획득한다. 자가 지도 학습 자료 획득부(210)는 일예로 의사 지상평면 자료로서 자유공간 맵과 표면 법선 맵을 각각 획득할 수 있다.The self-directed learning data acquisition unit 210 receives a stereo image, not a semantic label image, and acquires pseudo-ground plane data capable of exhibiting an effect similar to the semantic label image with annotations on the road area. The self-supervised learning data acquisition unit 210 may obtain a free space map and a surface normal map, respectively, as pseudo-ground plane data.

여기서 자유공간 맵과 표면 법선 맵은 의사 지상평면 자료로서 이용되며, 의사 지상평면 자료는 시멘틱 레이블 영상에서 도로 영역에 대한 주석에 대응할 수 있다. 따라서 자가 지도 학습부(200)는 스테레오 영상을 이용하여, 도로 영역 추정 장치(100)를 용이하게 학습시킬 수 있다.Here, the free space map and the surface normal map are used as pseudo-ground plane data, and the pseudo-ground plane data can correspond to annotations on road areas in the semantic label image. Therefore, the self-directed learning unit 200 may easily train the road area estimation apparatus 100 using a stereo image.

시멘틱 레이블 영상은 사람에 의한 수작업을 필요로 하는 반면, 스테레오 영상은 단지 스테레오 카메라를 이용하여 획득되는 영상이므로 상대적으로 용이하게 획득될 수 있을 뿐만 아니라, 이미 다수의 스테레오 영상이 공개되어 있다. 따라서 본 실시예의 자가 지도 학습 자료 획득부(210)는 스테레오 영상을 이용하여 의사 지상평면 자료를 획득하도록 구성됨으로써, 도로 영역 추정 장치(100)를 학습시키기 위한 대량의 학습 자료를 용이하게 획득할 수 있다.While the semantic label image requires manual work by a person, the stereo image is an image obtained using only a stereo camera, and thus can be obtained relatively easily, and a number of stereo images have already been released. Therefore, the self-supervised learning data acquisition unit 210 of the present embodiment is configured to acquire pseudo-ground plane data using a stereo image, so that a large amount of learning data for learning the road area estimation apparatus 100 can be easily obtained. have.

그리고 선행 학습부(220)는 스테레오 영상의 2개의 영상 중 하나의 단일 영상에 대해 자유공간 맵과 표면 법선 맵 각각을 지도 학습 방식으로 동시에 멀티 태스크 학습 시킨다. 즉 선행 학습부(220)는 스테레오 영상의 2개의 영상 중 하나인 단안 영상으로부터 자유공간 맵과 표면 법선 맵이 획득될 수 있도록 지도 학습시킴으로써, 이후 도로 영역 추정 장치(100)가 단안 영상을 획득하더라도, 단안 영상으로부터 용이하게 도로 영역을 추정할 수 있도록 한다.In addition, the pre-learning unit 220 simultaneously multi-learns each of the free space map and the surface normal map on a single image among two images of the stereo image in a supervised learning method. That is, the pre-learning unit 220 performs map learning so that a free space map and a surface normal map can be obtained from a monocular image, which is one of two images of a stereo image, so that even if the road region estimation apparatus 100 acquires a monocular image , It is possible to easily estimate the road area from the monocular image.

교정 학습부(300)는 자가 지도 학습부(200)에서 학습된 인코더(120)와 학습되지 않은 디코더(130)가 결합된 완전 컨볼루션망(FCN)에 대해 시멘틱 레이블 영상을 이용하여 재학습시켜, 의사 지상평면 자료에서 학습되지 않은 완전 컨볼루션망(FCN)의 미소한 오차가 교정될 수 있도록 한다.The correction learning unit 300 re-learns the full convolutional network (FCN) in which the encoder 120 learned by the self-directed learning unit 200 and the non-learned decoder 130 are combined using a semantic label image. In this case, it is possible to correct minute errors in the complete convolutional network (FCN) that are not learned from the pseudo ground plane data.

그리고 도로 영역 추정 장치(100)는 교정 학습부(300)에서 정밀하게 미세 교정된 인코더(120) 및 디코더(130)를 이용하여, 이후 입력되는 단안 영상에서 도로 영역을 정확하게 추정할 수 있다.In addition, the road area estimation apparatus 100 may accurately estimate the road area from the input monocular image by using the encoder 120 and the decoder 130 that are precisely fine-calibrated by the correction learning unit 300.

상기에서는 설명의 편의를 위하여 선행 학습부(220)의 인코더와 교정 학습부(300)의 인코더 및 디코더 및 도로 영역 추정 장치(100)의 인코더(120)와 디코더(130)는 동일한 구성인 것으로 설명하였다. 그러나 선행 학습부(220)의 인코더와 교정 학습부(300)의 인코더 및 디코더는 도로 영역 추정 장치(100)의 인코더(120)와 디코더(130)를 학습시키기 위해 모의한 모의 인코더 및 디코더로 구현될 수 있다.In the above, for convenience of description, the encoder of the preceding learning unit 220, the encoder and decoder of the calibration learning unit 300, and the encoder 120 and decoder 130 of the road area estimation apparatus 100 are described as having the same configuration. Did. However, the encoders and decoders of the pre-learning unit 220 and the correction learning unit 300 are implemented as simulated encoders and decoders simulated to train the encoders 120 and decoders 130 of the road area estimation apparatus 100. Can be.

본 실시예에서 인공 신경망으로 구현되는 인코더(120) 및 디코더(130)는 별도의 프로세서와 메모리 등의 저장장치와 특정한 기능을 수행할 수 있는 컴퓨터 프로그램 등을 포함하는 별도의 장치로 구현되거나, 고유한 기능을 수행할 수 있는 소프트웨어 모듈로서 구현되어 메모리 등에 저장될 수 있다.In this embodiment, the encoder 120 and the decoder 130 implemented as an artificial neural network are implemented as separate devices including a separate processor and a storage device such as a memory and a computer program capable of performing a specific function, or are unique. It is implemented as a software module that can perform one function and can be stored in a memory or the like.

그리고 인코더(120) 및 디코더(130)는 선행 학습부(220)와 교정 학습부(300)에서 직접 학습될 수도 있으나, 직접 학습될 필요가 없이 모의 인코더 및 모의 디코더로 학습되고 학습된 결과를 인가받도록 구성될 수도 있다. 즉 학습된 모의 인코더 및 모의 디코더 각각의 가중치(weight) 및 바이어스(bias) 값이 인코더(120) 및 디코더(130)에 인가됨으로써 직접 학습된 것과 동일한 결과를 도출할 수 있다.In addition, the encoder 120 and the decoder 130 may be directly learned by the preceding learning unit 220 and the calibration learning unit 300, but the learning and learning results are applied to the simulation encoder and the simulation decoder without having to be directly learned. It may be configured to receive. That is, the weight and bias values of the learned mock encoder and the mock decoder are applied to the encoder 120 and the decoder 130, so that the same results as those directly learned can be obtained.

이 경우, 다수의 도로 영역 추정 장치(100) 각각을 개별적으로 학습 시키지 않고, 학습된 모의 인코더 및 모의 디코더의 가중치(weight) 및 바이어스(bias) 값을 전달함으로써, 다수의 도로 영역 추정 장치(100)가 모두 학습된 것과 동일한 성능을 나타낼 수 있다.In this case, the plurality of road area estimation apparatuses 100 are transmitted by passing the weight and bias values of the learned mock encoder and the simulation decoder without individually training each of the plurality of road area estimation apparatuses 100. ) Can represent the same performance as all learned.

이하에서는 선행 학습부(220)의 인코더와 교정 학습부(300)의 인코더 및 디코더는 모의 인코더인 것으로 가정하여 설명한다.Hereinafter, it is assumed that the encoder of the preceding learning unit 220 and the encoder and decoder of the calibration learning unit 300 are simulated encoders.

도3 은 도2 의 자가 지도 학습 자료 획득부의 상세 구성의 일 예를 나타낸다.FIG. 3 shows an example of a detailed configuration of the self-directed learning data acquisition unit of FIG. 2.

도3 을 참조하면, 자가 지도 학습 자료 획득부(210)는 스테레오 영상 획득부(211), 디스패리티 맵 획득부(212) 및 의사 지상평면 자료 획득부(PGT)를 포함할 수 있다. 스테레오 영상 획득부(211)는 스테레오 영상을 획득한다. 여기서 스테레오 영상 획득부(211)는 스테레오 카메라로 구현되어 스테레오 영상을 직접 획득하거나, 이미 획득된 스테레오 영상이 저장된 저장 매체 또는 외부의 스테레오 영상을 인가받는 통신 모듈 등으로 구현될 수 있다.Referring to FIG. 3, the self-learning learning data acquisition unit 210 may include a stereo image acquisition unit 211, a disparity map acquisition unit 212, and a pseudo ground plane data acquisition unit (PGT). The stereo image acquisition unit 211 acquires a stereo image. Here, the stereo image acquisition unit 211 may be implemented as a stereo camera to directly acquire a stereo image, or may be embodied as a storage medium in which the already acquired stereo image is stored, or a communication module that receives an external stereo image.

스테레오 영상은 도2 에 도시된 바와 같이, 2개의 영상이 한 쌍을 이루며, 2개의 영상은 좌우 영상 또는 상하 영상일 수 있다. 여기서는 일예로 스테레오 영상이 좌우 영상인 것으로 가정하여 도시하였다.As shown in FIG. 2, the stereo image is a pair of two images, and the two images may be left and right images or up and down images. Here, as an example, it is assumed that the stereo image is a left and right image.

디스패리티 맵 획득부(212)는 스테레오 영상 사이의 차이를 분석하여 디스패리티 맵을 획득한다. 디스패리티 맵 획득부(212)는 semi-global matching (SGM)으로 알려진 스테레오 매칭 방법에 따라 디스패리티 맵을 획득할 수 있다. 또한 디스패리티 맵 획득부(212)는 후처리 기법(Post-processing)인 joint bilateral filter 및 left-right consistency check를 이용하여, SGM으로 획득된 디스패리티 맵의 추정 오차를 줄일 수 있다.The disparity map acquiring unit 212 acquires a disparity map by analyzing differences between stereo images. The disparity map acquiring unit 212 may acquire a disparity map according to a stereo matching method known as semi-global matching (SGM). In addition, the disparity map acquiring unit 212 may reduce the estimation error of the disparity map obtained by the SGM using a post-processing joint bilateral filter and a left-right consistency check.

의사 지상평면 자료 획득부(PGT)는 자유공간 맵을 획득하기 위해, 스틱셀 획득부(213) 및 운전 가능영역 판별부(214)와 함께 표면 법선 맵을 획득하는 표면 법선 맵 획득부(215)를 포함할 수 있다.The pseudo ground plane data acquisition unit (PGT) acquires a surface normal map with the stick cell acquisition unit 213 and the driving area determining unit 214 to acquire a free space map, and a surface normal map acquisition unit 215 for obtaining a surface normal map It may include.

스틱셀 획득부(213)는 Stixel World 알고리즘에 따라 RGB 영상과 그에 상응하는 디스패리티 맵으로부터 영상을 조각 별 평면 세그먼트, 즉 직사각형의 스틱 형태로로 단순화하여 스틱셀 맵을 획득한다. 스틱셀 기법은 장애물이 도로면에 수직하게 서 있다는 가정 하에, 영상에서 장애물을 고정픽셀 너비의 스틱셀로 모델링하며, 디스패리티 맵을 사용하여 각 스틱셀의 위치 및 높이를 추정하고, 유사한 움직임을 갖는 스틱셀들을 구분함으로써, 장애물을 판별하는 방식으로 공지된 기술이다.The stick cell acquiring unit 213 acquires a stick cell map by simplifying the image from a RGB image and a corresponding disparity map into a flat segment for each piece, that is, a rectangular stick shape according to the Stixel World algorithm. The stick cell technique models an obstacle as a fixed pixel width stick cell in the image, assuming that the obstacle is standing perpendicular to the road surface, estimates the position and height of each stick cell using a disparity map, and makes similar movements. It is a known technique in a way to distinguish obstacles by classifying the stick cells.

스틱셀 획득부(213)에 의해 다수의 스틱셀로 단순화된 영상은 영상의 기하학적 레이아웃을 용이하게 판별할 수 있도록 한다.The image simplified by a plurality of stick cells by the stick cell acquiring unit 213 makes it possible to easily determine the geometric layout of the image.

이에 운전 가능영역 판별부(214)는 스틱셀 획득부(213)에 판별된 기하학적 레이아웃으로부터 운전 가능영역, 즉 지상평면 영역의 개략적 형태를 도출한다.Accordingly, the driving area determining unit 214 derives a schematic form of the driving area, that is, the ground plane area, from the geometric layout determined by the stick cell acquiring unit 213.

운전 가능영역 판별부(214)는 스틱셀 획득부(213)에서 획득된 스틱셀 맵에서 장애물 영역을 제거함으로써, 나머지 영역을 운전 가능한 도로 영역, 즉 지상평면 영역을 추출하여 운전 가능영역 맵을 획득할 수 있다. 그리고 스테레오 영상 중 하나와 운전 가능영상 맵을 결합하여 자유공간 맵을 출력한다.The driving area determining unit 214 removes the obstacle area from the stick cell map acquired by the stick cell acquiring unit 213 to obtain a driving area map by extracting a remaining road area, that is, a ground plane area, from the stick cell map. can do. Then, one of the stereo images and a driving image map are combined to output a free space map.

여기서 자유공간 맵은 영상에서 장애물을 제거하여 지상평면, 즉 도로 영역을 판별한 맵이므로, 장애물 기반 도로 영역 판별 맵인 것으로 볼 수 있다.Here, the free space map is a map that determines the ground plane, that is, the road area by removing obstacles from the image, so it can be viewed as an obstacle-based road area determination map.

한편 표면 법선 맵 획득부(215)는 베이스 라인 거리와 카메라 초점 거리를 이용하여 디스패리티를 깊이 정보로 변환하고, 변환된 깊이 정보로부터 표면 법선을 계산한다. 표면 법선 맵 획득부(215)는 일예로 영상 평면에서 3차원 좌표계로 깊이 점들(depth points)을 투영하고, 투영된 깊이 점들에서 인접 픽셀 집합에 최소 자승 평면(least-squares planes)을 맞춤으로써 추정될 수 있다. 이에 도3 에 도시된 바와 같이, 표면 법선 맵 또한 영상에서 도로 영역과 나머지 영역이 구분되어 표시될 수 있다. 표면 법선 맵을 획득하는 방법 또한 공지된 기술로서 여기서는 상세하게 설명하지 않는다.Meanwhile, the surface normal map acquisition unit 215 converts disparity into depth information using the baseline distance and the camera focal length, and calculates the surface normal from the converted depth information. The surface normal map acquiring unit 215 projects depth points from an image plane to a 3D coordinate system as an example, and estimates by fitting least-squares planes to a set of adjacent pixels from the projected depth points. Can be. Accordingly, as shown in FIG. 3, the surface normal map may also be displayed by separately distinguishing a road area and a remaining area in an image. The method of obtaining the surface normal map is also a known technique and is not described in detail here.

표면 법선 맵은 디스패리티 맵에서 획득되는 깊이 정보에 기초하여, 영상 내의 평면에 대한 정보를 획득하므로, 자유공간 맵과 달리 표면 법선 맵은 평면 기반 도로 영역 판별 맵인 것으로 볼 수 있다.Since the surface normal map acquires information on a plane in an image based on depth information obtained from the disparity map, the surface normal map can be regarded as a plane-based road area discrimination map unlike the free space map.

즉 의사 지상평면 자료 획득부(PGT)에서 획득되는 자유공간 맵과 표면 법선 맵은 모두 영상에서 사람에 의한 수작업 없이 도로 영역과 이외의 영역을 구분하여 표시함으로써, 의사 지상평면에 대한 자료로 이용될 수 있다. 또한 장애물 기반 도로 판별 결과와 평면 기반 도로 판별 결과를 개별적으로 제공할 수 있다.That is, both the free space map and the surface normal map obtained from the pseudo ground plane data acquisition unit (PGT) are used to be used as data for the pseudo ground plane by distinguishing and displaying road areas and other areas without manual intervention by a person in the image. You can. In addition, it is possible to separately provide an obstacle-based road determination result and a plane-based road determination result.

도4 는 도3 의 자가 지도 학습 자료 획득부에 의해 획득되는 자가 지도 학습 자료의 일예를 나타낸다.4 shows an example of the self-directed learning material acquired by the self-directed learning material acquisition unit of FIG. 3.

도4 에서 (a) 및 (b)는 스테레오 영상을 구성하는 좌우 영상을 나타내고, (c)는 자유 영역 맵을 나타내며, (d)는 표면 법선 맵을 나타낸다.In Fig. 4, (a) and (b) represent left and right images constituting a stereo image, (c) represents a free area map, and (d) represents a surface normal map.

(c) 및 (d)에서 확인되는 바와 같이, 자유 영역 맵과 표면 법선 맵은 영상에서 개략적인 지상평면 영역, 즉 도로 영역을 추정하여 표시할 수 있으므로, 의사 지상평면 자료로서 이용될 수 있다.As shown in (c) and (d), the free area map and the surface normal map can be estimated and displayed as a rough ground plane area, that is, a road area, in the image, and thus can be used as pseudo ground plane data.

도5 는 도2 의 선행 학습부의 상세 구성의 일 예를 나타낸다.5 shows an example of a detailed configuration of the preceding learning unit of FIG. 2.

도5 를 참조하면 선행 학습부(200)는 단일 영상 획득부(221), 모의 인코더(222), 멀티 태스킹부(MT) 및 오차 판별부를 포함한다.Referring to FIG. 5, the prior learning unit 200 includes a single image acquisition unit 221, a simulation encoder 222, a multi-tasking unit MT, and an error determination unit.

단일 영상 획득부(221)는 자가 지도 학습 자료 획득부(210)에서 획득된 스테레오 영상에서 하나의 단일 영상을 획득한다. 일예로 본 실시예에서는 스테레오 영상의 좌 영상을 획득하는 것으로 가정한다.The single image acquisition unit 221 acquires one single image from the stereo image acquired by the self-supervised learning material acquisition unit 210. For example, in this embodiment, it is assumed that a left image of a stereo image is acquired.

한편 모의 인코더(222)는 도로 영역 추정 장치(100)의 인코더(120)를 모의한 구성으로, 도5 에서와 같이 컨볼루션 신경망(CNN)으로 구현될 수 있다. 한편, 멀티 태스킹부(MT)는 자유공간 디코더(223) 및 표면 법선 디코더(224)를 포함하며, 자유공간 디코더(223) 및 표면 법선 디코더(224) 각각은 도로 영역 추정 장치(100)의 디코더(130)를 모의하여 디컨볼루션 신경망(DCNN)으로 구현될 수 있다. 즉 자유공간 디코더(223) 및 표면 법선 디코더(224) 각각은 모의 디코더로 구현될 수 있다.Meanwhile, the simulation encoder 222 is a configuration that simulates the encoder 120 of the road area estimation apparatus 100 and may be implemented as a convolutional neural network (CNN) as shown in FIG. 5. Meanwhile, the multi-tasking unit MT includes a free space decoder 223 and a surface normal decoder 224, and each of the free space decoder 223 and the surface normal decoder 224 is a decoder of the road area estimation apparatus 100 By simulating 130, it can be implemented as a deconvolutional neural network (DCNN). That is, each of the free space decoder 223 and the surface normal decoder 224 may be implemented as a mock decoder.

그리고 선행 학습부(200)는 단일 영상 획득부(221)에서 획득된 단일 영상과 획득된 단일 영상에 대응하는 자유공간 맵과 표면 법선 맵을 이용하여 모의 인코더(222)와 자유공간 디코더(223) 및 표면 법선 디코더(224)를 선행학습 시킨다.In addition, the pre-learning unit 200 uses the single image obtained from the single image acquisition unit 221 and the free space map and the surface normal map corresponding to the obtained single image to simulate the encoder 222 and the free space decoder 223. And the surface normal decoder 224.

여기서 선행 학습부(200)가 이용하는 자유공간 맵과 표면 법선 맵은 자가 지도 학습 자료 획득부(210)가 획득한 자가 자료이며, 지도 학습(supervised learning)을 위한 자료이다. 따라서 선행 학습부(200)는 자가 지도 학습을 수행하는 것으로 볼 수 있다.Here, the free space map and the surface normal map used by the preceding learning unit 200 are self-data acquired by the self-learning learning data acquisition unit 210 and are data for supervised learning. Therefore, the preceding learning unit 200 may be regarded as performing self-directed learning.

이때 멀티 태스킹부(MT)의 자유공간 디코더(223) 및 표면 법선 디코더(224)가 모두 모의 인코더(222)와 결합되는 멀티 태스크(Multi-task) 구조를 가져, 동시에 학습이 수행될 수 있다.At this time, both the free space decoder 223 and the surface normal decoder 224 of the multi-tasking unit MT have a multi-task structure combined with the simulation encoder 222, so that learning can be performed simultaneously.

모의 인코더(222)는 도1 의 인코더(120)와 마찬가지로 단일 영상에서 도로 특징을 추출하기 위해 학습된다. 반면, 멀티 태스킹부(MT)의 자유공간 디코더(223) 및 표면 법선 디코더(224)는 각각 자유공간 맵과 표면 법선 맵에 의해 지도 학습되어 모의 인코더(222)에서 도로 특징이 추출되는 영역을 추정하기 위해 학습된다. 즉 동일한 모의 인코더(222)에서 추출된 도로 특징으로부터, 각각 자유공간 맵 및 표면 법선 맵을 획득하도록 학습된다.The simulation encoder 222, like the encoder 120 of FIG. 1, is trained to extract road features from a single image. On the other hand, the free space decoder 223 and the surface normal decoder 224 of the multi-tasking unit MT are map-learned by the free space map and the surface normal map, respectively, and estimate the region where the road feature is extracted from the simulation encoder 222. To learn. That is, from the road features extracted from the same simulation encoder 222, each is learned to obtain a free space map and a surface normal map.

모의 인코더(222)가 자유공간 디코더(223) 및 표면 법선 디코더(224)에 모두 결합되어 장애물 기반 도로 판별 결과와 평면 기반 도로 판별 결과를 함께 학습하도록 구성됨에 따라 모의 인코더(222)는 시멘틱 레이블 영상을 이용하지 않고도 높은 신뢰성으로 도로를 추출할 수 있도록 학습될 수 있다.As the simulation encoder 222 is configured to combine both the free space decoder 223 and the surface normal decoder 224 to learn the obstacle-based road determination result and the plane-based road determination result together, the simulation encoder 222 is a semantic label image It can be learned to extract the road with high reliability without using.

오차 판별부(225)는 단일 영상 획득부(221)에서 획득된 단일 영상에 대응하는 자유공간 맵과 표면 법선 맵을 자유공간 디코더(223)의 출력 및 표면 법선 디코더(224)의 출력과 비교하여 오차를 판별한다. 이때 오차 판별부(225)는 L1 손실 함수를 이용하여 오차를 판별할 수 있다. 그리고 판별된 오차를 모의 인코더(222)와 자유공간 디코더(223) 및 표면 법선 디코더(224)로 역전파하여 모의 인코더(222)와 자유공간 디코더(223) 및 표면 법선 디코더(224)를 학습시킨다.The error determination unit 225 compares the free space map and the surface normal map corresponding to the single image acquired by the single image acquisition unit 221 with the output of the free space decoder 223 and the output of the surface normal decoder 224 Determine the error. At this time, the error determination unit 225 may determine the error using the L1 loss function. The simulated encoder 222, the free space decoder 223, and the surface normal decoder 224 are back propagated to the simulated error to train the simulation encoder 222, the free space decoder 223, and the surface normal decoder 224. .

특히 본 실시에에서 오차 판별부(225)는 멀티 태스킹부(MT)의 2개의 디코더(223, 224)의 가중치를 동일하게 조절함으로써, 모의 인코더(222)가 자유공간 맵과 표면 법선 맵의 양쪽을 모두 만족시킬 수 있는 지상 표면 특징을 추출할 수 있도록 학습시킨다. 즉 의사 지상 표면을 추출할 수 있도록 모의 인코더(222)를 선행학습 시킨다.In particular, in the present embodiment, the error determination unit 225 adjusts the weights of the two decoders 223 and 224 of the multi-tasking unit MT equally, so that the simulation encoder 222 is both a free space map and a surface normal map. It is trained to extract ground surface features that can satisfy all. That is, the simulation encoder 222 is pre-trained to extract the pseudo-surface.

도6 은 도5 의 의사 지상평면 획득부에 의해 획득되는 의사 지상평면을 설명하기 위한 도면이다.6 is a view for explaining a pseudo-ground plane obtained by the pseudo-ground plane obtaining unit of FIG. 5.

도6 에서 (a)는 입력된 단일 영상을 나타내고, (b)는 자유공간 맵만을 이용하여 학습된 도로 영역 추정 장치가 추정한 도로 영역의 일예를 나타내며, (c)는 자유공간 맵과 표면 법선 맵을 모두 이용하여 학습된 도로 영역 추정 장치가 추정한 도로 영역의 일예를 나타낸다.In FIG. 6, (a) shows an input single image, (b) shows an example of a road area estimated by a road area estimation apparatus learned using only a free space map, and (c) a free space map and a surface normal An example of a road area estimated by the road area estimation apparatus learned using all the maps is shown.

(b)와 (c)에 나타난 도로 영역을 비교하면, 스틱셀 기법에 따라 획득되는 자유공간 맵 만을 이용하여 학습된 경우보다, 자유공간 맵과 표면 법선 맵을 모두 이용하는, 즉 의사 지상평면을 이용하여 학습된 결과가 도로 영역을 더욱 정확하게 추정할 수 있음을 알 수 있다.Comparing the road areas shown in (b) and (c), it uses both the free space map and the surface normal map, that is, the pseudo-ground plane, compared to the case where only the free space map obtained according to the stick cell technique is learned. Therefore, it can be seen that the learned results can more accurately estimate the road area.

도7 은 도2 의 교정 학습부의 상세 구성의 일 예를 나타낸다.7 shows an example of a detailed configuration of the calibration learning unit of FIG. 2.

도7 의 교정 학습부(300)는 학습 영상 획득부(310), 모의 인코더(320), 모의 디코더(330) 및 오차 전파부(3450)를 포함할 수 있다.The calibration learning unit 300 of FIG. 7 may include a learning image acquisition unit 310, a simulation encoder 320, a simulation decoder 330, and an error propagation unit 3450.

학습 영상 입력부(310)는 도로 영역이 주석으로 미리 설정된 시멘틱 레이블 영상을 획득한다. 학습 영상 입력부(310)는 KITTI 또는 EHV-road dataset에 공개된 시멘틱 레이블 영상을 획득할 수 있다.The learning image input unit 310 acquires a semantic label image in which the road area is preset as an annotation. The learning image input unit 310 may acquire a semantic label image disclosed in the KITTI or EHV-road dataset.

한편 모의 인코더(320)는 자가 지도 학습부(200)의 선행 학습부(220)에서 학습된 모의 인코더(222)일 수도 있으나, 학습된 모의 인코더(222)로부터 가중치와 바이어스 값을 전달받은 별도의 인코더일 수도 있다. 즉 모의 인코더(320)는 선행 학습부(220)에 의해 미리 1차 학습된 인코더이다.On the other hand, the mock encoder 320 may be a mock encoder 222 learned from the preceding learning unit 220 of the self-directed learning unit 200, but separate from receiving the weight and bias values from the learned mock encoder 222. It may be an encoder. That is, the mock encoder 320 is an encoder that is firstly learned in advance by the preceding learning unit 220.

한편, 모의 디코더(330)는 선행 학습부(220)의 자유공간 디코더(223) 및 표면 법선 디코더(224)와 별개로 학습되지 않은 디코더일 수 있다. 그러나 모의 디코더(330)는 자유공간 디코더(223) 및 표면 법선 디코더(224)와 마찬가지로, 도로 영상 추정 장치(100)의 디코더(130)을 모의하여 동일 구조를 갖는 디코더로 구현될 수 있다.Meanwhile, the simulation decoder 330 may be a decoder that is not separately learned from the free space decoder 223 and the surface normal decoder 224 of the preceding learning unit 220. However, the simulation decoder 330 may be implemented as a decoder having the same structure by simulating the decoder 130 of the road image estimation apparatus 100, like the free space decoder 223 and the surface normal decoder 224.

오차 전파부(340)는 시멘틱 레이블 영상의 주석에 따라 판별되는 도로 영역과 모의 디코더(330)의 출력을 비교하여 오차를 판별하고, 판별된 오차를 모의 인코더(320)와 모의 디코더(330)로 역전파하여 학습시킨다.The error propagation unit 340 compares the road region determined according to the annotation of the semantic label image with the output of the mock decoder 330 to determine the error, and the determined errors to the mock encoder 320 and the mock decoder 330 Back propagation to learn.

비록 모의 인코더(320)가 선행 학습부(220)에 의해 1차로 학습되어 있으나, 이는 스테레오 영상으로부터 획득된 자가 학습 자료를 이용하여 학습된 것으로서, 사람에 의해 도로 영역이 주석으로 표시된 시멘틱 레이블 영상에 비해 상대적으로 정확도 및 신뢰도가 낮다고 볼 수 있다.Although the simulation encoder 320 is first learned by the preceding learning unit 220, it is learned by using self-learning data obtained from a stereo image, and is displayed on a semantic label image in which a road area is annotated by a person. It can be considered that the accuracy and reliability are relatively low.

이에 본 실시에에서는 1차 학습된 모의 인코더(320)와 학습되지 않은 모의 디코더(330)를 시멘틱 레이블 영상을 이용하여 재학습시켜, 도로 영역 추정 장치의 정확도와 신뢰도를 향상시킨다.Accordingly, in the present embodiment, the first learned mock encoder 320 and the untrained mock decoder 330 are re-learned using a semantic label image to improve the accuracy and reliability of the road area estimation apparatus.

만일 모의 인코더(320)와 모의 디코더(330) 모두가 학습되지 않은 상태라면, 시멘틱 레이블 영상의 개수가 적어 충분히 학습시킬 수는 없다. 그러나 본 실시예에서는 모의 인코더(320)가 선행 학습부(220)에서 자가 지도 학습 방식으로 선행 학습된 상태이므로, 적은 수의 시멘틱 레이블 영상으로도 모의 인코더(320)와 모의 디코더(330)를 충분하게 학습시킨 효과를 획득할 수 있다.If both the mock encoder 320 and the mock decoder 330 have not been trained, the number of semantic label images is small and thus cannot be sufficiently trained. However, in the present embodiment, since the simulation encoder 320 is pre-learned by the self-learning method in the pre-learning unit 220, the simulation encoder 320 and the simulation decoder 330 are sufficient even with a small number of semantic label images. You can get the effect you learned.

그리고 교정 학습부(300)에서 학습된 모의 인코더(320) 및 모의 디코더(330) 각각은 학습 결과로서, 가중치 및 바이어스 값을 도로 영역 추정 장치(100)의 인코더(120)와 디코더(130)로 전송하여 적용함으로써, 도로 영역 추정 장치(100)의 인코더(120)와 디코더(130)를 학습된 상태로 전환시킬 수 있다.In addition, each of the simulation encoder 320 and the simulation decoder 330 learned by the calibration learning unit 300 is a learning result, and the weight and bias values are transferred to the encoder 120 and the decoder 130 of the road area estimation apparatus 100. By transmitting and applying, the encoder 120 and the decoder 130 of the road area estimation apparatus 100 may be converted into a learned state.

결과적으로 본 발명의 실시예에 따른 도로 영역 추정 장치(100)는 자유공간 맵과 표면 법선 맵에 의해 선행 학습되고, 이후 시멘틱 레이블 영상에 의해 재학습된 인코더(120)와 시멘틱 레이블 영상에 의해 학습된 디코더(130)를 포함하여 단안 영상에서 도로 영역을 정확하게 추정할 수 있다.As a result, the road area estimation apparatus 100 according to an embodiment of the present invention is pre-learned by a free space map and a surface normal map, and then learned by the encoder 120 and the semantic label image re-learned by the semantic label image. The road area in the monocular image can be accurately estimated by including the decoded decoder 130.

따라서 자기 지도 학습 자료로서 자유공간 맵과 표면 법선 맵을 획득하여 선행 학습이 가능하므로, 적은 수의 시멘틱 레이블 영상만이 제공되더라도, 신뢰성 있는 도로 영역 추정 학습이 될 수 있어, 저비용으로 학습될 수 있다.Therefore, it is possible to obtain a free space map and a surface normal map as a self-learning learning material, and thus, prior learning is possible, so even if only a small number of semantic label images are provided, it can be a reliable road area estimation learning and can be learned at low cost. .

또한 인코더(120)가 자유공간 맵과 표면 법선 맵으로 2중 선행 학습되므로, 매우 정확하게 도로 영역을 추정할 수 있으며, 2중 선행 학습이 동시에 진행되므로, 학습시간이 증가되지 않는다.In addition, since the encoder 120 double-learns the free space map and the surface normal map, it is possible to estimate the road area very accurately, and since the double-learning progresses simultaneously, the learning time does not increase.

도8 은 본 발명의 일 실시예에 따른 도로 영역 추정 방법 및 이의 학습 방법에 대한 개략적 구성을 나타내고, 도9 는 도8 의 자가 지도 학습 자료 획득 단계의 상세 구성의 일 예를 나타낸다. 그리고 도10 은 도8 의 선행 학습 단계의 상세 구성의 일 예를 나타내고, 도11 은 도8 의 교정 학습 단계의 상세 구성의 일 예를 나타내며, 도12 는 도8 의 본 발명의 일 실시예에 따른 도로 영역 추정 방법의 상세 구성을 나타낸다.8 shows a schematic configuration of a road area estimation method and a learning method thereof according to an embodiment of the present invention, and FIG. 9 shows an example of a detailed configuration of the self-supervised learning data acquisition step of FIG. 8. And Figure 10 shows an example of a detailed configuration of the preceding learning step of Figure 8, Figure 11 shows an example of a detailed configuration of the calibration learning step of Figure 8, Figure 12 is an embodiment of the present invention of Figure 8 A detailed configuration of the road area estimation method according to the present invention is shown.

도1 내지 도7 을 참조하여, 도8 내지 도12 의 도로 영역 추정 방법 및 이의 학습 방법을 설명하면, 우선 도로 영역 추정 장치를 학습시키기 위해, 자가 지도 학습 자료를 획득한다(S100). 여기서 자가 지도 학습 자료는 시멘틱 레이블 되지 않은 영상 자료로서, 스테레오 영상으로부터 획득된다.Referring to FIGS. 1 to 7, when the method of estimating the road area of FIGS. 8 to 12 and the learning method thereof are described, first, in order to train the road area estimation apparatus, self-supervised learning data are acquired (S100). Here, the self-directed learning material is image data that is not semantic label, and is obtained from stereo images.

도9 를 참조하면, 자가 지도 학습 자료를 획득하기 위해, 스테레오 영상을 획득한다(S110). 그리고 스테레오 영상의 2개의 영상 사이의 차이를 semi-global matching(SGM) 등의 스테레오 매칭 방법에 따라 분석하여 디스패리티 맵을 획득한다(S120). 이때, 디스패리티 맵의 오차를 줄이기 위해, joint bilateral filter 및 left-right consistency check과 같은 후처리 기법을 추가로 이용할 수도 있다.Referring to FIG. 9, in order to acquire self-directed learning materials, a stereo image is acquired (S110). The disparity map is obtained by analyzing a difference between two images of a stereo image according to a stereo matching method such as semi-global matching (SGM) (S120). At this time, in order to reduce the error of the disparity map, post-processing techniques such as joint bilateral filter and left-right consistency check may be additionally used.

스테레오 영상의 깊이 정보를 나타내는 디스패리티 맵이 획득되면, 디스패리티 맵을 이용하여 스틱셀 맵을 획득한다(S130). 스틱셀 맵은 영상에서 장애물을 판별하기 위해 이용되는 맵으로서, 공지된 Stixel World 알고리즘에 따라 획득될 수 있다.When a disparity map indicating depth information of a stereo image is obtained, a stick cell map is obtained using the disparity map (S130). The stick cell map is a map used to determine an obstacle in an image, and can be obtained according to a known Stixel World algorithm.

그리고 스틱셀 맵에서 판별되는 장애물을 제외한 나머지 영역을 운전 가능영역으로 판별하여 운전 가능영역 맵을 획득한다(S140). 운전 가능영역 맵이 획득되면, 스테레오 영상 중 하나와 운전 가능영역 맵을 결합하여 자유공간 맵을 획득한다(S150).Then, the remaining area excluding the obstacles determined in the stick cell map is determined as a driving area to obtain a driving area map (S140). When the driving area map is obtained, a free space map is obtained by combining one of the stereo images with the driving area map (S150).

한편 자유공간 맵을 획득하는 것과 병렬로 디스패리티 맵으로부터 기지정된 방식으로 표면 법선 맵을 획득한다(S160).Meanwhile, in parallel with obtaining a free space map, a surface normal map is obtained in a predetermined manner from a disparity map (S160).

그리고 획득된 자유공간 맵 및 표면 법선 맵이 획득되면, 획득된 스테레오 영상의 2개의 영상 중 하나의 단일 영상과 자유공간 맵 및 표면 법선 맵을 이용하여 자가 지도 선행 학습을 수행한다(200). 여기서 학습은 시멘틱 레이블 영상을 제공받아 수행하는 학습이 아니라, 직접 획득한 스테레오 영상과 자유공간 맵 및 표면 법선 맵을 이용하므로, 자가 학습으로 볼 수 있다. 또한 스테레오 영상 중 하나의 단일 영상으로부터 자유공간 맵 및 표면 법선 맵을 도출하도록 학습시키므로, 지도 학습이다. 뿐만 아니라, 이후 시멘틱 레이블 영상을 이용한 학습을 수행하기 이전에 수행하는 사전 학습이므로 선행 학습으로 처리될 수 있다.Then, when the obtained free space map and the surface normal map are obtained, self-map pre-learning is performed using a single image of the two images of the obtained stereo image, a free space map, and a surface normal map (200). Here, the learning is not performed by receiving a semantic label image, but can be viewed as self-learning because it uses a stereo image obtained directly and a free space map and a surface normal map. In addition, since it is learned to derive a free space map and a surface normal map from one single image of a stereo image, it is supervised learning. In addition, since it is a prior learning performed before the learning using the semantic label image is performed, it may be processed as a prior learning.

도10 을 참조하여, 자가 지도 선행 학습 단계를 상세하게 설명하면, 우선 스테레오 영상의 2개의 영상 중 하나의 단일 영상을 획득한다(S210). 여기서 선행 학습 단계에서 스테레오 영상을 이용하지 않고, 단일 영상을 이용하는 것은 도로 영역 추정 장치가 실제로 운용될 때, 스테레오 영상이 아닌 단안 영상으로부터 용이하게 도로 영역을 추정할 수 있도록 학습시키기 위함이다.Referring to FIG. 10, the self-directed pre-learning step will be described in detail. First, a single image of two images of a stereo image is acquired (S210). Here, the stereo image is not used in the preceding learning step, and the single image is used to train the road region estimation apparatus to easily estimate the road region from the monocular image rather than the stereo image when the apparatus is actually operated.

그리고 단일 영상과 함께 이에 대응하는 자유공간 맵과 표면 법선 맵을 획득한다. 이는 지도 학습을 수행하기 위함이다.Then, a free space map and a surface normal map corresponding to the single image are obtained. This is to conduct supervised learning.

단일 영상과 자유공간 맵 및 표면 법선 맵이 획득되면, 모의 인코더(222)는 단일 영상으로부터 도로 영역 특징을 추출하도록 학습된다(S220). 그리고 멀티 태스크부(MT)의 두 개의 디코더(223, 224)가 각각 고해상도 영상으로 복원하도록 학습된다.When a single image, a free space map, and a surface normal map are obtained, the simulation encoder 222 is trained to extract road area features from the single image (S220). In addition, two decoders 223 and 224 of the multi-task unit MT are trained to restore high-resolution images, respectively.

여기서 자유공간 디코더(223)는 모의 인코더(222)가 추출한 도로 영역으로부터 자유공간 맵을 추출하도록 지도 학습된다(S230). 그리고 표면 법선 디코더(224)는 추출한 도로 영역을 고해상도 영상으로부터 표면 법선 맵을 추출하도록 지도 학습된다(S240).Here, the free space decoder 223 is supervised to extract the free space map from the road region extracted by the simulation encoder 222 (S230). Then, the surface normal decoder 224 is supervised to extract the surface normal map from the high-resolution image of the extracted road area (S240).

모의 인코더(222)와 자유공간 디코더(223) 및 표면 법선 디코더(224)의 학습은 오차 판별부가 자유공간 디코더(223) 및 표면 법선 디코더(224)의 출력과 미리 획득된 자유공간 맵 및 표면 법선 맵 사이의 오차를 반복적으로 판별하고, 역전파함으로써 수행된다(S250).The learning of the simulation encoder 222, the free space decoder 223, and the surface normal decoder 224 is performed by the error determination unit output from the free space decoder 223 and the surface normal decoder 224, and the previously obtained free space map and surface normal. It is performed by repeatedly determining errors between maps and back propagating (S250).

다시 도8 을 참조하면, 단일 영상과 자유공간 맵 및 표면 법선 맵을 이용하여 모의 인코더(222)와 자유공간 디코더(223) 및 표면 법선 디코더(224)에 대한 자가 지도 선행 학습이 수행된 이후, 주석으로 도로 영역이 표시된 시멘틱 레이블 영상을 이용하여 교정 학습을 수행한다(S300).Referring back to FIG. 8, after the self-directed pre-learning of the simulation encoder 222 and the free space decoder 223 and the surface normal decoder 224 is performed using a single image and a free space map and a surface normal map, Corrective learning is performed using a semantic label image in which road regions are indicated as annotations (S300).

여기서 교정 학습은 선행 학습된 모의 인코더(222 또는 320)와 학습되지 않은 모의 디코더(330)에 의해 수행된다. 여기서 모의 인코더는 선행 학습된 모의 인코더(222)일 수도 있으나, 모의 인코더(222)의 선행 학습 결과인 가중치와 바이어스 값을 인가받은 별도의 모의 인코더(320)일 수도 있다.Here, the correction learning is performed by the pre-trained mock encoder 222 or 320 and the untrained mock decoder 330. Here, the mock encoder may be a pre-trained mock encoder 222, but may also be a separate mock encoder 320 to which the weight and bias values, which are the results of the pre-learning of the mock encoder 222, are applied.

도11 을 참조하면, 교정 학습 단계는 우선 시멘틱 레이블 영상을 학습 영상으로 획득한다(S310). 상기한 바와 같이, 시멘틱 레이블 영상은 사람의 수작업에 의해 도로 영역이 주석으로 표시된 영상이며, 공개된 영상일 수 있다.Referring to FIG. 11, the correction learning step first acquires a semantic label image as a learning image (S310). As described above, the semantic label image is an image in which a road area is marked with annotation by a human hand, and may be a public image.

학습 영상인 시멘틱 레이블 영상이 획득되면, 선행 학습된 모의 인코더(320)가 학습 영상으로부터 도로 특징을 추출한다(S320). 그리고 모의 디코더(330)는 모의 인코더(320)가 도로 특징을 추출한 영역을 고해상도로 복원하여 도로 영역을 추정한다(S330).When the semantic label image, which is a learning image, is acquired, the pre-trained mock encoder 320 extracts road features from the learning image (S320). Then, the simulation decoder 330 estimates the road region by restoring the region in which the mock encoder 320 extracts the road feature to a high resolution (S330).

이후 모의 디코더(330)에서 출력된 도로 영역과 학습 영상인 시멘틱 레이블 영상의 주석으로 표시된 도로 영역을 비교하여, 미세 오차를 판별하고, 판별된 결과를 모의 디코더(330) 및 모의 인코더(320)로 역전파하여 모의 인코더(320)와 모의 디코더(330)를 학습시킨다.Thereafter, the road region output from the mock decoder 330 is compared with the road region indicated by the annotation of the semantic label image, which is a learning image, to determine a fine error, and the determined results to the mock decoder 330 and the mock encoder 320. Back-propagation trains the mock encoder 320 and the mock decoder 330.

모의 인코더(320)와 모의 디코더(330)가 학습되면, 학습된 모의 인코더(320)와 모의 디코더(330)의 학습 결과를 도로 영역 추정 장치(100)의 인코더(120) 및 디코더(130)에 반영한다. 그리고 도로 영역이 추정되어야 할 영상을 획득한다(S400). 이때 획득되는 영상은 스테레오 영상이 아닌 단안 영상으로, 일반적인 카메라로부터 용이하게 획득될 수 있다.When the simulation encoder 320 and the simulation decoder 330 are learned, the learning results of the learned simulation encoder 320 and the simulation decoder 330 are transmitted to the encoder 120 and the decoder 130 of the road area estimation apparatus 100. Reflect. Then, an image to which the road area is to be estimated is acquired (S400). In this case, the acquired image is a monocular image, not a stereo image, and can be easily obtained from a general camera.

단안 영상이 획득되면, 미리 학습된 바에 따라 획득된 영상으로부터 도로 영역을 추정한다(S500).When the monocular image is acquired, the road area is estimated from the acquired image according to the previously learned image (S500).

도로 영역을 추정하는 단계(S500)를 도12 를 참조하여 설명하면, 우선 선행 학습 및 교정 학습된 인코더(120)가 획득된 영상으로부터 도로 특징을 추출한다(S510). 그리고 교정 학습으로 학습된 디코더(130)는 인코더(120)가 도로 특징을 추출한 영역을 복원하여 도로 영역을 추정한다(S520). 도로 영역이 추정되면, 추정 도로 영역을 출력한다(S530).When the step (S500) of estimating the road area is described with reference to FIG. 12, first, the road learning feature is extracted from the image obtained by the encoder 120 that has been previously learned and corrected (S510). Then, the decoder 130 learned by the correction learning estimates the road region by restoring the region where the encoder 120 extracts the road feature (S520). When the road area is estimated, the estimated road area is output (S530).

도13 은 본 발명의 일 실시예에 따른 다중 태스크 선행 학습 방식과 개별 선행 학습 방식의 성능을 비교한 결과를 나타낸다.13 shows a result of comparing the performance of a multi-task pre-learning method and an individual pre-learning method according to an embodiment of the present invention.

도13 을 참조하면, 장애물 기반으로 도로 영역을 추정하는 자유공간 맵(또는 운전 가능영역 맵)과 평면 형상 기반으로 도로 영역을 추정하는 표면 법선 맵 중 하나만을 이용하여 선행 학습시키는 경우에 비해, 자유공간 맵과 표면 법선 맵의 2가지 맵을 모두 이용하여 선행 학습 시키는 경우에, 더욱 정확하게 도로 영역을 추정할 수 있음을 확인할 수 있다.Referring to FIG. 13, compared to the case of prior learning using only one of a free space map (or a driving area map) for estimating a road area based on an obstacle and a surface normal map for estimating a road area based on a planar shape, freedom In the case of prior learning using both the spatial map and the surface normal map, it can be seen that the road area can be more accurately estimated.

상기한 바와 같이 본 실시예에 따른 도로 영역 추정 장치는 자유공간 맵과 표면 법선 맵의 2가지 맵을 이용하여 선행 지도 학습된다. 이는 시멘틱 레이블 영상이 아닌 스테레오 영상을 이용하여 정확하게 도로 영역을 추정할 수 있도록 도로 영역 추정 장치를 학습시키기 위함이다. 즉 장애물 기반으로 도로 영역을 추정함과 동시에 평면 형상 기반으로 도로 영역을 추정할 수 있도록 하여 정확하게 도로 영역을 추정할 수 있도록 한다.As described above, the apparatus for estimating a road area according to the present embodiment is trained on a prior map using two maps, a free space map and a surface normal map. This is to train a road area estimation apparatus to accurately estimate a road area using a stereo image rather than a semantic label image. That is, it is possible to accurately estimate the road area by estimating the road area on the basis of the plane shape while estimating the road area based on the obstacle.

도14 는 본 발명의 일 실시예에 따라 학습된 도로 영역 추정 장치 및 방법에 의해 추정된 도로 영역의 성능을 비교한 결과를 나타낸다.14 shows a result of comparing the performance of a road area estimated by a learned road area estimation apparatus and method according to an embodiment of the present invention.

도14 에서 (a)는 차선이 표시된 단일 차선 도로를 나타내고, (b)는 차선이 표시된 다중 차선 도로를 나타내며, (c)는 차선이 표시되지 않은 단일 차선 도로를 나타낸다.In FIG. 14, (a) represents a single lane road with lanes indicated, (b) represents a multi-lane road with lanes indicated, and (c) represents a single lane road with no lanes indicated.

그리고 도14 에서 첫번째 행은 도로 영역 추정 장치(100)의 인코더(120)와 디코더(130)가 완전컨볼루션 네트워크(FCN)로 구현되지만 자가 지도 선행 학습되지 않고 시멘틱 레이블 영상으로만 학습된 Oliveira의 도로 영역 추정 장치가 추정한 도로 영역을 나타내고, 두번째 행은 Teichmann의 도로 영역 추정 장치가 추정한 도로 영상을 나타내며, 세번째 행은 본 발명의 실시예에 따라 자유공간 맵과 표면 법선 맵을 이용하여 지도 선행 학습된 이후, 시멘틱 레이블 영상으로 교정 학습된 도로 영역 추정 장치가 추정한 도로 영상을 나타낸다.And in the first row in FIG. 14, the encoder 120 and the decoder 130 of the road area estimation apparatus 100 are implemented as a full convolutional network (FCN), but self-directed pre-learning and only learning with semantic label image The road area estimation device indicates the estimated road area, the second row shows the road image estimated by Teichmann's road area estimation device, and the third line maps using a free space map and a surface normal map according to an embodiment of the present invention. After pre-learning, a road image estimated by a road area estimation apparatus corrected and learned with a semantic label image is shown.

그리고 네번째 행은 첫번째 두번째 및 세번째 행의 각 영상에서 일부 영역을 확대한 영상이다. 확대된 네번째 행을 살펴보면, 본 실시예에 따른 본 실시예에 따라 선행 학습 및 교정 학습된 도로 영역 추정 장치 및 방법에 따라 추정된 도로 영역이 상대적으로 매우 정확하게 도로 영역을 추정할 수 있음을 확인할 수 있다.In addition, the fourth row is an image in which some areas are enlarged in each image of the first second and third rows. Looking at the enlarged fourth row, it can be seen that the road area estimated according to the road area estimation apparatus and method learned and corrected according to the present embodiment according to the present embodiment can estimate the road area relatively accurately. have.

본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 영상 구조, 프로그램 모듈 또는 기타 영상과 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광영상 저장장치 등을 포함할 수 있다.The method according to the present invention can be implemented as a computer program stored in a medium for execution on a computer. The computer readable medium herein can be any available medium that can be accessed by a computer, and can also include any computer storage medium. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, image structures, program modules or other images, and ROM (Read Dedicated memory), RAM (random access memory), CD (compact disk) -ROM, DVD (digital video disk) -ROM, magnetic tape, floppy disk, optical image storage, and the like.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.Although the present invention has been described with reference to the embodiments shown in the drawings, these are merely exemplary, and those skilled in the art will understand that various modifications and other equivalent embodiments are possible therefrom.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.Therefore, the true technical protection scope of the present invention should be defined by the technical spirit of the appended claims.

100: 도로 영상 추정 장치 110: 단안 영상 획득부
120: 인코더 130: 디코더
140: 도로 추정 영상 출력부 300: 자가 지도 학습부
210: 자가 지도 학습 자료 획득부 220: 선행 학습부
300: 교정 학습부 211: 스테레오 영상 획득부
212: 디스패리티 맵 획득부 PGT: 의사지상평면자료 획득부
213: 스틱셀 획득부 214: 운전 가능영역 판별부
215: 표면 법선 맵 획득부 221: 단일 영상 획득부
222: 모의 인코더 MT: 멀티 태스크부
223: 자유공간 디코더 224: 표면 법선 디코더
225: 오차 판별부 310: 학습 영상 획득부
320: 모의 인코더 330: 모의 디코더
340: 오차 전파부
100: road image estimation device 110: monocular image acquisition unit
120: encoder 130: decoder
140: road estimation image output unit 300: self-directed learning unit
210: self-directed learning material acquisition unit 220: prior learning unit
300: correction learning unit 211: stereo image acquisition unit
212: disparity map acquisition unit PGT: pseudo-ground plane data acquisition unit
213: stick cell acquisition unit 214: driving area determining unit
215: surface normal map acquisition unit 221: single image acquisition unit
222: simulation encoder MT: multi-task unit
223: free space decoder 224: surface normal decoder
225: error discrimination unit 310: learning image acquisition unit
320: mock encoder 330: mock decoder
340: error propagation unit

Claims (14)

미리 선행 학습 및 교정 학습되어, 인가된 단안 영상에서 도로 특징을 추출하는 인코더; 및
미리 교정 학습되어, 상기 인코더에서 도로 특징이 추출된 영역을 복원하여 도로 영역을 추정하는 디코더; 를 포함하고,
상기 인코더는
상기 선행 학습 시에 스테레오 영상으로부터 자가 지도 학습 자료로서 획득된 의사 지상 평면 자료를 이용하여 수행되고,
상기 인코더는
상기 스테레오 영상의 1쌍의 영상 사이의 차이로부터 획득되는 디스패리티 맵으로부터 상기 의사 지상 평면 자료로서 획득되는 자유공간 맵 및 표면 법선 맵과 상기 스테레오 영상의 1쌍의 영상 중 하나의 단일 영상을 이용하여 지도 학습(supervised learning) 방식으로 선행 학습되는 도로 영역 추정 장치.
An encoder that is pre-learned and corrected-learned in advance and extracts road features from the applied monocular image; And
A decoder that estimates a road area by restoring an area in which road features have been extracted from the encoder by performing calibration learning in advance; Including,
The encoder
At the time of the preceding learning, it is performed using pseudo-ground plane data obtained as self-directed learning data from a stereo image,
The encoder
A free space map obtained from the disparity map obtained from a difference between a pair of images in the stereo image and a surface normal map obtained from the disparity map and a single image from one pair of images in the stereo image are used. A road area estimation apparatus that is pre-trained by a supervised learning method.
제1 항에 있어서, 상기 도로 영역 추정 장치는
상기 인코더가 컨볼루션 신경망(Convolutional Neural Networks: CNN)으로 구현되고, 상기 디코더가 역방향 컨볼루션 신경망(backward convolution Neural Networks)인 디컨볼루션 신경망(Deconvolution Neural Networks: DCNN)으로 구현되어, 결합된 완전 컨볼루션 망(Fully Convolutional Network: FCN)으로 구현되는 도로 영역 추정 장치.
According to claim 1, The road area estimation apparatus
The encoder is implemented as convolutional neural networks (CNN), and the decoder is implemented as deconvolution neural networks (DCNN), which are backward convolution neural networks, and combined convolutional full convolution. A road area estimation device implemented with a Fully Convolutional Network (FCN).
제2 항에 있어서, 상기 인코더는
각각 적어도 하나의 컨볼루션 레이어, 적어도 하나의 배치 정규화 레이어 및 적어도 하나의 활성화 함수 레이어를 포함하는 다수의 필터층과 다수의 필터층 사이에 배치되는 적어도 하나의 풀링 레이어를 포함하고,
상기 디코더는
각각 적어도 하나의 컨볼루션 레이어, 적어도 하나의 배치 정규화 레이어, 적어도 하나의 활성화 함수 레이어를 포함하는 다수의 필터층과 다수의 필터층 사이에 배치되는 적어도 하나의 언풀링 레이어를 포함하는 도로 영역 추정 장치.
The method of claim 2, wherein the encoder
A plurality of filter layers each including at least one convolutional layer, at least one batch normalization layer and at least one activation function layer and at least one pooling layer disposed between the plurality of filter layers,
The decoder
A road area estimation apparatus including a plurality of filter layers each including at least one convolution layer, at least one batch normalization layer, and at least one activation function layer and at least one unpooling layer disposed between the plurality of filter layers.
삭제delete 제1 항에 있어서, 상기 자유공간 맵은
상기 디스패리티 맵에서 기설정된 방식으로 스틱셀 맵이 획득되고, 상기 스틱셀 맵으로부터 판별되는 장애물 영역을 제거하여 획득된 운전 가능영역 맵을 상기 단일 영상과 결합하여 획득되는 장애물 기반 도로 판별 맵이고,
상기 표면 법선 맵은
상기 디스패리티 맵으로부터 깊이 정보를 획득하고, 획득된 깊이 정보에 따라 상기 단일 영상에서 각 표면에 대한 법선을 계산하여, 상기 단일 영상 내의 평면을 추정하는 평면 기반 도로 판별 맵인 도로 영역 추정 장치.
The method of claim 1, wherein the free space map
A stick cell map is obtained in a predetermined manner from the disparity map, and is an obstacle-based road discrimination map obtained by combining a driving area map obtained by removing an obstacle region determined from the stick cell map with the single image,
The surface normal map
A road area estimation apparatus that is a plane-based road discrimination map for acquiring depth information from the disparity map and calculating a normal for each surface in the single image according to the acquired depth information.
제1 항에 있어서, 상기 선행 학습은
상기 단일 영상이 인가되는 상기 인코더에 출력을 동시에 인가받도록 병렬로 연결되는 자유공간 디코더 및 표면 법선 디코더가 상기 인코더에 병렬로 연결되고, 상기 자유공간 디코더 및 상기 표면 법선 디코더의 출력이 각각 상기 자유공간 맵 및 상기 표면 법선 맵에 대응하도록 상기 인코더와 상기 자유공간 디코더 및 상기 표면 법선 디코더가 지도 학습되는 도로 영역 추정 장치.
The method of claim 1, wherein the prior learning
A free space decoder and a surface normal decoder connected in parallel so as to simultaneously receive output to the encoder to which the single image is applied are connected in parallel to the encoder, and outputs of the free space decoder and the surface normal decoder are respectively free space. A road area estimation apparatus in which the encoder, the free space decoder, and the surface normal decoder are map-learned to correspond to a map and the surface normal map.
제6 항에 있어서, 상기 인코더 및 상기 디코더는
도로 영역이 미리 주석으로 표시된 시멘틱 레이블 영상을 이용하여 지도 학습 방식으로 상기 교정 학습 되는 도로 영역 추정 장치.
The method of claim 6, wherein the encoder and the decoder
A road area estimation apparatus in which the road area is corrected and learned by a supervised learning method using a semantic label image previously marked with an annotation.
도로 영역 추정 장치에서 수행되는 도로 영역 추정 방법으로서,
스테레오 영상으로부터 자가 지도 학습 자료로서 획득된 의사 지상 평면 자료를 이용하여 선행 학습을 수행하는 단계;
도로 영역이 미리 주석으로 표시된 시멘틱 레이블 영상을 이용하여 지도 학습 방식으로 교정 학습을 수행하는 단계;
상기 선행 학습 및 상기 교정 학습된 패턴 인식 기법에 따라 인가된 단안 영상에서 도로 특징을 추출하는 단계; 및
상기 교정 학습된 패턴 인식 기법에 따라 도로 특징이 추출된 영역을 복원하여 도로 영역을 추정하는 단계; 를 포함하되,
상기 선행 학습을 수행하는 단계는
상기 스테레오 영상의 1쌍의 영상 사이의 차이로부터 디스패리티 맵을 획득하는 단계;
상기 디스패리티 맵으로부터 상기 의사 지상 평면 자료로서 획득되는 자유공간 맵 및 표면 법선 맵을 획득하는 단계; 및
상기 스테레오 영상의 1쌍의 영상 중 하나의 단일 영상과 자유공간 맵 및 표면 법선 맵을 이용하여 지도 학습 방식으로 상기 선행 학습을 수행하는 단계;를 포함하는 도로 영역 추정 방법.
A road area estimation method performed by the road area estimation apparatus,
Performing prior learning using pseudo-ground plane data obtained as self-directed learning data from a stereo image;
Performing corrective learning in a supervised learning method using a semantic label image in which a road area is pre-marked;
Extracting road features from the monocular image applied according to the preceding learning and the corrected learning pattern recognition technique; And
Estimating a road area by restoring an area where road features are extracted according to the corrected learning pattern recognition technique; Including,
The step of performing the preceding learning is
Obtaining a disparity map from a difference between a pair of images of the stereo image;
Obtaining a free space map and a surface normal map obtained as the pseudo-ground plane data from the disparity map; And
And performing the preceding learning in a supervised learning method using a single image of a pair of images of the stereo image, a free space map, and a surface normal map.
제8 항에 있어서, 상기 도로 특징을 추출하는 단계는
상기 선행 학습 및 상기 교정 학습으로 학습된 컨볼루션 신경망(Convolutional Neural Networks: CNN)을 이용하여, 도로 특징을 추출하는 도로 영역 추정 방법.
The method of claim 8, wherein the step of extracting the road feature
A road area estimation method for extracting road features using convolutional neural networks (CNN) trained by the preceding learning and the correction learning.
제9 항에 있어서, 상기 도로 영역을 추정하는 단계는
상기 교정 학습으로 학습된 역방향 컨볼루션 신경망(backward convolution Neural Networks)인 디컨볼루션 신경망(Deconvolution Neural Networks: DCNN) 을 이용하여, 도로 영역을 추정하는 도로 영역 추정 방법.
The method of claim 9, wherein estimating the road area is
A road area estimation method for estimating a road area using Deconvolution Neural Networks (DCNN), which are backward convolution neural networks learned by the correction learning.
삭제delete 제8 항에 있어서, 상기 자유공간 맵 및 표면 법선 맵을 획득하는 단계는
상기 디스패리티 맵에서 기설정된 방식으로 스틱셀 맵을 획득하는 단계;
상기 스틱셀 맵으로부터 판별되는 장애물 영역을 제거하여 획득된 운전 가능영역 맵을 획득하는 단계;
상기 운전 가능영역 맵을 상기 단일 영상과 결합하여 장애물 기반 도로 판별 맵인 상기 자유공간 맵을 획득하는 단계;
상기 디스패리티 맵으로부터 깊이 정보를 획득하는 단계;
획득된 깊이 정보에 따라 상기 단일 영상에서 각 표면에 대한 법선을 계산하여, 상기 단일 영상 내의 평면을 추정하는 평면 기반 도로 판별 맵인 표면 법선 맵을 획득하는 단계; 를 포함하는 도로 영역 추정 방법.
The method of claim 8, wherein obtaining the free space map and the surface normal map comprises:
Obtaining a stick cell map in a predetermined manner from the disparity map;
Obtaining an operable area map obtained by removing an obstacle area determined from the stick cell map;
Obtaining the free space map which is an obstacle-based road discrimination map by combining the driving area map with the single image;
Obtaining depth information from the disparity map;
Calculating a normal for each surface in the single image according to the acquired depth information to obtain a surface normal map that is a plane-based road discrimination map for estimating a plane in the single image; Road area estimation method comprising a.
제8 항에 있어서, 상기 선행 학습은
상기 단일 영상으로부터 도로 특징을 추출하고, 도로 특징이 추출된 도로 영역을 추정한 결과가 상기 자유공간 맵 및 상기 표면 법선 맵에 모두 대응하도록 지도 학습하는 도로 영역 추정 방법.
The method of claim 8, wherein the prior learning
A road area estimation method for extracting road features from the single image and performing map learning so that a result of estimating a road area from which road features have been extracted corresponds to both the free space map and the surface normal map.
제8 항에 있어서, 상기 교정 학습은
도로 특징 추출을 위해 상기 선행 학습된 결과에 도로 영역이 미리 주석으로 표시된 시멘틱 레이블 영상을 이용하여 지도 학습 방식으로 상기 도로 특징 추출 및 상기 도로 영역 추정 패턴을 추가 학습하는 도로 영역 추정 방법.
The method of claim 8, wherein the correction learning
A road area estimation method for additionally learning the road feature extraction and the road area estimation pattern using a supervised learning method using a semantic label image in which road areas are pre-annotated in the previously learned results for road feature extraction.
KR1020180068801A 2018-04-25 2018-06-15 Deep Learning-based road area estimation apparatus and method using self-supervised learning KR102097869B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180047873 2018-04-25
KR20180047873 2018-04-25

Publications (2)

Publication Number Publication Date
KR20190124113A KR20190124113A (en) 2019-11-04
KR102097869B1 true KR102097869B1 (en) 2020-04-06

Family

ID=68578352

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180068801A KR102097869B1 (en) 2018-04-25 2018-06-15 Deep Learning-based road area estimation apparatus and method using self-supervised learning

Country Status (1)

Country Link
KR (1) KR102097869B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102587288B1 (en) 2023-07-10 2023-10-10 연세대학교 산학협력단 High-quality Pseudo-label Generation System and Method based on Self-supervised Learning for Training Semantic Segmentation on construction object datasets
KR102600839B1 (en) 2022-11-17 2023-11-10 국방과학연구소 Method and apparatus for generating summarized document using of sentence similarity relation predictive model, method and apparatus for learning predictive model used to generate summarized document

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11694356B2 (en) 2019-11-15 2023-07-04 Argo AI, LLC Methods and systems for joint pose and shape estimation of objects from sensor data
US11734845B2 (en) 2020-06-26 2023-08-22 Toyota Research Institute, Inc. System and method for self-supervised monocular ground-plane extraction
US11398043B2 (en) * 2020-06-26 2022-07-26 Toyota Research Institute, Inc. System and method for self-supervised monocular depth regularization from surface normals
KR102607748B1 (en) * 2022-07-19 2023-11-29 중앙대학교 산학협력단 Apparatus and method for image analysis applying multi-task adaptation
KR20240053987A (en) * 2022-10-18 2024-04-25 네이버랩스 주식회사 Method and system for learning visual feature extraction neural network

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101225626B1 (en) 2010-07-19 2013-01-24 포항공과대학교 산학협력단 Vehicle Line Recognition System and Method
US20140037198A1 (en) 2012-08-06 2014-02-06 Xerox Corporation Image Segmentation Using Hierarchical Unsupervised Segmentation and Hierarchical Classifiers
KR101748675B1 (en) 2016-05-19 2017-06-19 연세대학교 산학협력단 Appapratus and method for extracting road area
US20170262735A1 (en) 2016-03-11 2017-09-14 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
KR101778724B1 (en) 2016-12-05 2017-09-14 동국대학교 산학협력단 Device and method for reconition of road markings

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2941250A1 (en) * 2014-03-19 2015-09-24 Neurala, Inc. Methods and apparatus for autonomous robotic control
KR102147361B1 (en) * 2015-09-18 2020-08-24 삼성전자주식회사 Method and apparatus of object recognition, Method and apparatus of learning for object recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101225626B1 (en) 2010-07-19 2013-01-24 포항공과대학교 산학협력단 Vehicle Line Recognition System and Method
US20140037198A1 (en) 2012-08-06 2014-02-06 Xerox Corporation Image Segmentation Using Hierarchical Unsupervised Segmentation and Hierarchical Classifiers
US20170262735A1 (en) 2016-03-11 2017-09-14 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
KR101748675B1 (en) 2016-05-19 2017-06-19 연세대학교 산학협력단 Appapratus and method for extracting road area
KR101778724B1 (en) 2016-12-05 2017-09-14 동국대학교 산학협력단 Device and method for reconition of road markings

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Self-paced cross-modality transfer learning for efficient road segmentation. Weiyue Wang et al. 2017.*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102600839B1 (en) 2022-11-17 2023-11-10 국방과학연구소 Method and apparatus for generating summarized document using of sentence similarity relation predictive model, method and apparatus for learning predictive model used to generate summarized document
KR102587288B1 (en) 2023-07-10 2023-10-10 연세대학교 산학협력단 High-quality Pseudo-label Generation System and Method based on Self-supervised Learning for Training Semantic Segmentation on construction object datasets

Also Published As

Publication number Publication date
KR20190124113A (en) 2019-11-04

Similar Documents

Publication Publication Date Title
KR102097869B1 (en) Deep Learning-based road area estimation apparatus and method using self-supervised learning
CN110622213B (en) System and method for depth localization and segmentation using 3D semantic maps
US20210142095A1 (en) Image disparity estimation
US11164326B2 (en) Method and apparatus for calculating depth map
EP3822910A1 (en) Depth image generation method and device
US20220284666A1 (en) Structure annotation
US11348263B2 (en) Training method for detecting vanishing point and method and apparatus for detecting vanishing point
CN112991413A (en) Self-supervision depth estimation method and system
KR102219561B1 (en) Unsupervised stereo matching apparatus and method using confidential correspondence consistency
US10891795B2 (en) Localization method and apparatus based on 3D color map
Ding et al. Vehicle pose and shape estimation through multiple monocular vision
KR20210025942A (en) Method for stereo matching usiing end-to-end convolutional neural network
KR102546206B1 (en) Method for semantic segmentation using correlations and regional associations of multi-scale features, and computer program recorded on record-medium for executing method thereof
CN112132770A (en) Image restoration method and device, computer readable medium and electronic equipment
US11544898B2 (en) Method, computer device and storage medium for real-time urban scene reconstruction
KR20200136723A (en) Method and apparatus for generating learning data for object recognition using virtual city model
Huang et al. Measuring the absolute distance of a front vehicle from an in-car camera based on monocular vision and instance segmentation
Lin et al. 3D environmental perception modeling in the simulated autonomous-driving systems
CN114663880A (en) Three-dimensional target detection method based on multi-level cross-modal self-attention mechanism
CN112802202A (en) Image processing method, image processing device, electronic equipment and computer storage medium
CN114494395A (en) Depth map generation method, device and equipment based on plane prior and storage medium
Mathew et al. Monocular depth estimation with SPN loss
CN114332186A (en) Unsupervised single-view ship depth estimation method
US10896333B2 (en) Method and device for aiding the navigation of a vehicle
Zhu et al. Toward the ghosting phenomenon in a stereo-based map with a collaborative RGB-D repair

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant