KR102629651B1

KR102629651B1 - 신경망 이미지 프로세싱을 사용하는 ３ｄ 경계 박스들로서의 직접 차량 검출

Info

Publication number: KR102629651B1
Application number: KR1020197029041A
Authority: KR
Inventors: 카르스텐 베렌트
Original assignee: 로베르트 보쉬 게엠베하
Priority date: 2017-04-04
Filing date: 2018-03-29
Publication date: 2024-01-29
Also published as: WO2018184963A3; EP3607489B1; EP3607489A2; WO2018184963A2; KR20190132404A; US11216673B2; US20200349365A1; CN110678872A

Abstract

신경망 프로세싱을 사용하여 이미징 시스템의 시야에서 하나 이상의 차량들을 검출하고 추적하는 시스템들 및 방법들. 전자 제어기는 호스트 차량상에 장착된 카메라로부터 입력 이미지를 수신한다. 전자 제어기는 상기 입력 이미지에 적어도 부분적으로 기초하여 3차원 경계 박스의 형성을 출력하도록 구성된 신경망을 적용한다. 3차원 경계 박스는 입력 이미지의 시야에서 검출된 차량의 크기 및 위치를 나타낸다. 3차원 경계 박스는 검출된 차량의 후방 또는 전방의 윤곽을 보여주는 제 1 사변형 형상 및 검출된 차량의 측면의 윤곽을 보여주는 제 2 사변형 형상을 포함한다.

Description

신경망 이미지 프로세싱을 사용하는 ３Ｄ 경계 박스들로서의 직접 차량 검출

관련 출원들

본 출원은 그 전체 내용이 여기에서 참조로서 통합되는, 발명의 명칭이 "신경망 이미지 프로세싱을 사용하는 3D 경계 박스들로서의 직접 차량 검출"인 2017년 4월 4일에 출원된 미국 가 출원 번호 제62/481,346호에 대한 우선권을 주장한다.

본 발명은 다른 차량들의 존재의 검출에 관한 것이다. 차량 검출은, 예를 들면, 완전히 또는 부분적으로 자율 주행 시스템들을 포함한 다양한 시스템들에 유용하다.

본 발명은 신경망 프로세싱을 사용하여 이미지들에서 다른 차량들을 직접 검출하고 주석을 달기 위한 시스템들 및 방법들을 제공한다.

일 실시예에서, 발명은 컨볼루션 신경망을 사용하여 차량들을 검출하고 추적하기 위한 시스템들 및 방법들을 제공한다. 호스트 차량에 근접한 영역의 이미지가 캡처된다. 전자 프로세서는 컨볼루션 신경망에 대한 입력으로서 캡처된 이미지를 프로세싱하며 캡처된 이미지에서 검출된 차량들 모두의 위치를 나타내는 3차원 경계 박스들(또는 "경계 박스들")을 직접 출력하기 위해 컨볼루션 신경망을 적용한다. 몇몇 실시예들에서, 컨볼루션 신경망의 출력은 검출된 차량의 후방 또는 전방을 나타내는 제 1 사변형 및 검출된 차량의 측면을 나타내는 제 2 사변형으로서 3차원 경계 박스를 형성한다. 몇몇 실시예들에서, 컨볼루션 신경망의 출력은 6개 포인트들의 세트로서 제 1 사변형 및 제 2 사변형을 형성한다. 뿐만 아니라, 몇몇 실시예들에서, 시스템은 검출된 차량들상에 오버레이된 3차원 경계 박스들과 함께 카메라에 의해 캡처된 이미지를 디스플레이하도록 구성된다. 그러나, 다른 실시예들에서, 시스템은 스크린상에서 차량의 조작자에게 경계 박스들을 디스플레이하지 않고 3차원 경계 박스들에 의해 표시된 대로 검출된 차량들의 크기, 위치, 방위 등에 관한 정보를 이용하도록 구성된다.

또 다른 실시예에서, 발명은 호스트 차량에 가까운 차량을 검출하고 추적하는 방법을 제공한다. 전자 제어기는 호스트 차량에 장착된 카메라로부터 입력 이미지를 수신한다. 상기 전자 제어기는 상기 입력 이미지에 적어도 부분적으로 기초하여 3차원 경계 박스의 형상물을 출력하도록 구성된 신경망을 적용한다. 상기 3차원 경계 박스는 입력 이미지의 시야에서 검출된 차량의 크기 및 위치를 나타낸다. 상기 3차원 경계 박스는 검출된 차량의 후방 또는 전방의 윤곽을 보여주는 제 1 사변형 형태 및 검출된 차량의 측면의 윤곽을 보여주는 제 2 사변형 형태를 포함한다.

또 다른 실시예에서, 발명은 차량 검출 시스템을 제공한다. 시스템은 호스트 차량상에 배치된 카메라, 디스플레이 스크린, 호스트 차량의 움직임을 제어하도록 구성된 차량 시스템, 전자 프로세서, 및 메모리를 포함한다. 상기 메모리는 프로세서에 의해 실행될 때, 차량 검출 시스템의 특정한 기능을 제공하는 명령들을 저장한다. 특히, 상기 명령들은 시스템으로 하여금 카메라로부터의 입력 이미지를 수신하게 하며, 상기 입력 이미지는 호스트 차량이 동작하고 신경망이 입력 이미지에 적용되는 도로 표면을 포함한 시야를 갖는다. 상기 신경망은 각각이 상기 입력 이미지의 시야에서 검출된 복수의 차량들 중 상이한 것에 대응하는 복수의 3차원 경계 박스들을 형성하는 출력을 제공하도록 구성된다. 각각의 3차원 경계 박스는 신경망의 출력에 의해, 검출된 차량의 후방 또는 전방 주위에 배치된 제 1 사변형 형태 및 검출된 차량의 측면 주위에 배치된 제 2 사변형 형태를 형성하는 구조화된 포인트들의 세트로서 형성된다. 제 1 사변형은 제 1 사변형 형태 및 제 2 사변형 형태가 에지를 공유하도록 제 2 사변형 형태에 인접한다. 시스템은 또한 디스플레이 스크린상에서 출력 이미지를 디스플레이하도록 구성된다. 디스플레이된 출력 이미지는 입력 이미지의 적어도 일 부분 및 상기 입력 이미지로 오버레이된 복수의 3차원 경계 박스들의 각각을 포함한다. 상기 시스템은 또한 복수의 3차원 경계 박스들에 적어도 부분적으로 기초하여 상기 복수의 차량들에 대한 호스트 차량의 움직임을 자동으로 제어하도록 차량 시스템을 동작시키기 위해 구성된다.

발명의 다른 양상들은 상세한 설명 및 수반한 도면들의 고려사항에 의해 명백해질 것이다.

본 발명은, 계산 복잡도를 줄이고 차량의 조작자로부터의 재트레이닝 부담을 줄이는(또는 완전히 제거하는) 것 외에, 다수의 차량들이 원격 서버 컴퓨터와 상호 작용하도록 구성되는 구현들에서, 보다 많은 양의 재트레이닝 데이터가 캡처되고 프로세싱되어 보다 강력하게 트레이닝된 신경망을 야기할 수 있다.

도 1은 호스트 차량에 장착된 카메라에 의해 캡처된 도로 씬의 이미지의 스크린 샷을 도시한 도면.
도 2는 도로에서 동작하는 차량들이 2차원 경계 박스들을 사용하여 검출되고 디스플레이 스크린상에 표시되는 도 1의 이미지의 스크린 샷을 도시한 도면.
도 3은 도로에서 동작하는 차량들이 일반적인 다각형들을 사용하여 검출되고 디스플레이 스크린상에 표시되는 도 1의 이미지의 스크린 샷을 도시한 도면.
도 4는 도로에서 동작하는 차량들이 픽셀-레벨 주석들을 사용하여 검출되고 디스플레이 스크린상에 표시되는 도 1의 이미지의 스크린 샷을 도시한 도면.
도 5는 도로에서 동작하는 차량들이 3차원 경계 박스로서 2개의 사변형들의 조합을 사용하여 검출되고 디스플레이 스크린상에 표시되는 도 1의 이미지의 스크린 샷을 도시한 도면.
도 6은 카메라 이미지 데이터에서 차량들을 검출하기 위한 시스템의 블록도.
도 7은 신경망 프로세싱을 사용하여 차량들을 검출하고 주석을 달기 위한 방법의 흐름도.
도 8a 및 도 8b는 컨볼루션 신경망 프로세싱을 사용하는 도 7의 방법의 개략적인 흐름도들.
도 9는 신경망 프로세싱을 사용하여 카메라 이미지 데이터에서 차량들을 검출하고 신경망을 재트레이닝하기 위한 시스템의 블록도.
도 10은 도 9의 시스템을 사용하여 카메라 이미지 데이터에서 차량들을 검출하고 신경망을 재트레이닝하기 위한 방법의 플로차트.
도 11은 원격 서버 컴퓨터를 사용하여 카메라 이미지 데이터에서 차량들을 검출하고 신경망을 재트레이닝하기 위한 시스템의 블록도.

발명의 임의의 실시예들이 상세하게 설명되기 전에, 발명은 그것의 적용 시 다음의 설명에서 제시되거나 또는 다음의 도면들에서 예시된 구성의 세부사항들 및 구성요소들의 배열에 제한되지 않는다는 것이 이해될 것이다. 발명은 다른 실시예들이 가능하며 다양한 방식들로 실시되거나 또는 실행될 수 있다.

도 1 내지 도 5는 호스트 차량에 장착된 카메라에 의해 캡처된 이미지들에서 차량들을 검출하기 위한 접근법들의 상이한 예들을 예시한다. 도 1은 호스트 차량에 장착된 카메라에 의해 캡처된 도로 씬의 이미지를 예시한다. 이 예에서 이미지는 호스트 차량의 관점으로부터의 직선 이미지를 포함하며 카메라의 시야 내에서 호스트 차량과 동일한 도로에서 동작하는 복수의 다른 차량들을 포함한다. 도 1의 예는 단일 카메라에 의해 캡처된 직선 이미지를 도시하지만, 다른 구현들에서, 시스템은 도로의 "어안(fish-eye)" 이미지들을 캡처하도록 구성된 카메라 시스템을 포함할 수 있으며 및/또는 상이한 관점 및/또는 시야들을 갖고 도로 표면의 이미지들을 캡처하기 위해 다수의 카메라들을 포함할 수 있다. 예를 들면, 몇몇 구현들에서, 카메라 시스템은 도로에서 동작하는 다른 차량들의 3차원 이미지 데이터를 캡처/산출하기 위해 카메라 시스템에서 다른 카메라들과 적어도 부분적으로 중첩하는 시야들을 갖고 구성되고 배치되는 다수의 카메라들을 포함할 수 있다.

이하에서 추가로 상세하게 설명되는 바와 같이, 시스템은 호스트 차량과 동일한 도로에서 동작하는 다른 차량들의 위치를 검출하기 위해 카메라(또는 카메라들)에 의해 캡처된 이미지(또는 이미지들)를 분석하도록 구성된다. 몇몇 구현들에서, 시스템은 차량들을 검출하며 3차원 공간에서 검출된 차량에 대응하는 형태의 위치를 규정함으로써 검출된 차량들의 형태 및 위치를 규정하도록 구성된다. 몇몇 구현들에서, 카메라(또는 카메라들)에 의해 캡처된 이미지(또는 이미지들)는 사용자가 검출된 차량(들)의 위치를 나타내도록 이미지상에 오버레이된 규정된 "형태"와 함께 디스플레이 스크린상에서 출력된다.

도 2는 이미지(예컨대, 도 1의 예에서 카메라에 의해 캡처된 바와 같은 이미지)가 프로세싱되며 2차원 직사각형들이 이미지 프레임에서 검출된 차량들 주위에 위치되는 "경계 박스" 접근법을 예시한다. 이하에서 추가로 상세하게 논의되는 바와 같이, 차량 검출 시스템에 의해 적용된 이미지 검출 알고리즘은 그것들이 검출된 차량들을 완전히 둘러싸도록 직사각형 박스들을 위치시키기 위해 동조되고, 조정되며, 및/또는 트레이닝될 수 있다. 몇몇 구현들에서, 시스템은 예를 들면, 거리 추정(예컨대, 호스트 차량과 또 다른 검출된 차량 사이), 충돌 확인/경고, 동적 정속 주행, 및 차선 변경 보조와 같은 동작들을 위한 입력 데이터로서 2차원 경계 박스들(도로에서 동작하는 특정한 차량의 크기 및 위치를 나타내는)의 위치 및 크기를 사용하도록 구성된다. 도 2의 2차원 경계 박스 접근법은 거리 추정 및 충돌 확인과 같은 동작들을 위해 비교적 낮은 계산 비용을 가진다. 그러나, 2차원 경계 박스들을 사용하는 것은 이미지의 제한된 영역에서 비교적 많은 "비-차량" 공간을 야기한다. 이것은 축 정렬 및 축 정렬되지 않은 직사각형들에 대해 사실이다. 부가적으로, 직사각형들은 도로 또는 호스트 차량에 대하여 검출된 차량들의 방위에 대한 임의의 정보를 제공하지 않는다.

도 3의 예에서, 일반적인 다각형들이 이미지들에서 검출된 차량들의 영역에 보다 가깝게 경계를 이루기 위해 사용된다. 이러한 접근법에서, 시스템은 캡처된 이미지에서 검출된 차량의 위치 및 크기를 결정하도록 구성되지만, 또한 검출된 차량의 형태에 가장 가깝게 대응하는 일반적인 차량 형태를 식별하도록 구성된다. 예를 들면, 시스템은 각각이 상이한 일반 차량 형태들 - 예를 들면, 픽-업 트럭, 스포츠형 다목적 차량, 미니밴 등을 나타내는 복수의 일반적인 형태들을 저장하도록 구성될 수 있다. 차량이 캡처된 이미지 또는 이미지들에서 검출될 때, 시스템은 그 후 검출된 차량에 가장 일치하는 복수의 일반적인 형태들 중 하나의 형태를 식별하도록 구성된다. 이러한 접근법은 검출된 차량들을 보다 정확하게 모델링하지만, 그것은 또한 계산 비용을 증가시킨다. 검출 자체를 포함하여, 다각형-기반 모델들을 사용하여 수행된 모든 동작은 도 2의 예에서처럼 2D 경계 박스들을 사용하는 것보다 계산적으로 비싸다.

도 4는 픽셀-레벨 주석들 및 검출들을 사용하여 차량들이 카메라 이미지들에서 검출되는 예를 예시한다. 도 4의 예는 차량의 몸체와 연관되는 것으로 식별되어 온 픽셀들의 각각의 그룹의 윤곽을 보여주는 굵은 라인을 보여준다. 그러나, 몇몇 구현들에서, 차량의 몸체와 연관되는 것으로 식별되는 각각의 개개의 픽셀은 각각의 검출된 차량들의 몸체가 음영 또는 상이한 컬러로 하이라이팅되어 나타나도록 상이한 컬러(예컨대, 밝은 회색)로 하이라이팅된다. 개개의 픽셀 레벨로 차량의 경계들 및 차원들을 검출함으로써, 차량 검출의 이러한 방법은 각각 도 2 및 도 3에서 예시된 2D 경계 박스들 또는 다각형-기반 접근법들보다 정확하다. 그러나, 이러한 접근법은 다시 계산 복잡도를 증가시킨다. 검출된 차량에 가장 잘 맞도록 일반적인 형태를 간단히 사이징하고 배치하는 대신에, 시스템은 픽셀 단위 레벨로 차량의 실제 정확한 보드를 검출하고 형성하기 위해 이미지를 분석하도록 구성된다. 픽셀-레벨로 개개의 오브젝트들을 분리하는 것은 이미지당 수 초까지 차지할 수 있으며, 분리 후, 개개의 차량들의 핸들링, 충돌 확인, 방향 산출들 등이 또한 다각형-기반 접근법보다 계산적으로 비쌀 수 있다.

도 5는 두 개의 사변형들의 조합을 이용하는 또 다른 차량 검출 메커니즘을 예시한다: 차량의 후방(또는 전방)을 식별하는 경계 박스 및 동일한 차량의 단일 측면을 식별하는 대응 경계 박스. 몇몇 구현들에서, 이러한 접근법에서의 사변형들은 평행 사변형들로 단순화될 수 있으며, 고속도로 주행 상황들에서, 두 개의 사변형들은 축-정렬 직사각형 및 평행 사변형의 조합으로서 추가로 단순화될 수 있다. 몇몇 구현들에서, 시스템은 차량의 측면이 캡처된 이미지에서 가시적인지를 결정하도록 구성되며, 그렇지 않다면, 카메라에 의해 캡처된 이미지는 단지 차량의 가시적인 측면들만을 갖고 주석이 달린다. 고정 프레임 카메라들을 갖고, 단지 차량의 임의의 두 개의 측면들만이 임의의 주어진 시간-스텝들에서 가시적이다.

도 5의 고정 모델은 여러개의 이점들을 제공한다. 그것은 3D 경계 박스들로서 해석될 수 있는 단지 몇 개의 직선 평면들로 이루어진다. 다양한 컴퓨터 그래픽들 및 컴퓨터 비전 알고리즘들이 그 후 매우 계산적으로 효율적인 방식들로 배치될 수 있다. 그 결과, 이들 "3D 경계 박스들"을 사용하여 이미지들을 프로세싱하는 것은 도 2의 예의 2D 경계 박스들을 사용하는 것보다 단지 약간 더 높은 계산 비용만을 요구한다. 결과적인 3D 경계 박스들은 부가적으로 검출된 차량들의 3D 형태, 크기, 및 방위에 대한 정보를 제공한다. 뿐만 아니라, 하나 이상의 캡처된 이미지들에 기초하여 차량들의 위치를 검출하고 규정하기 위해 인공 지능(예컨대, 신경망 프로세싱)을 사용하도록 구성되는 시스템들의 트레이닝을 위해 이미지들에 주석을 다는 것은 2D 경계 박스들을 사용하여 이미지들에 주석을 다는 것보다 단지 약간 더 복잡하다.

도 6은 도 5의 3D 경계 박스들을 사용하여 차량의 존재를 검출하기 위한 이미지 프로세싱 시스템의 일 예의 블록도이다. 이것 및 다른 예들은 3D 경계 박스들 기술에 초점을 맞추지만, 이들 예들은, 몇몇 구현들에서, 예를 들면, 도 2 내지 도 4에서 예시된 것들을 포함하여 다른 차량 식별 및 주석 기술들에 추가로 적응될 수 있다.

도 6의 예에서, 카메라(501)는 호스트 차량상에 배치된다. 카메라(501)에 의해 캡처된 이미지들은 전자 제어기(503)로 송신된다. 몇몇 구현들에서, 전자 제어기(503)는 전자 프로세서 및 여기에서 설명된 바와 같이 이미지 프로세싱 및 차량 검출 기능을 제공하기 위해 전자 제어기(503)의 전자 프로세서에 의해 실행되는 지시를 저장한 비-일시적, 컴퓨터-판독 가능한 메모리를 포함하도록 구성된다. 카메라(501)에 의해 캡처된 이미지들은 프로세싱되며(이하에서 추가로 논의되는 바와 같이, 전자 제어기(503) 또는 또 다른 컴퓨터 시스템에 의해) 이미지상에 오버레이된 임의의 검출된 차량들을 식별하는 주석들을 갖고 디스플레이(505)의 스크린상에서 디스플레이된다. 도 7은 도 6의 시스템의 동작의 예를 예시한다. 이미지(601)는 호스트 차량의 앞에 있는 도로를 포함한 시야를 갖고 캡처된다. 신경망 프로세싱이 캡처된 이미지에서 검출된 차량들에 대한 3차원 경계 박스들의 적절한 위치, 크기, 및 형태를 결정하기 위해 캡처된 이미지에 적용된다(블록(603)에서). 디스플레이 스크린(505) 상에 도시된 출력(출력 이미지(605))은 카메라에 의해 캡처된 원래 이미지(601)의 적어도 일 부분 및 임의의 검출된 차량들을 식별하는 이미지(601)로 오버레이된 주석들을 포함한다. 도 7의 예에서, 출력 이미지(605)는 카메라(501)에 의해 캡처된 원래 이미지(601)에서 검출되어 온 차량들을 식별하는 3D 경계 박스 주석들을 보여준다.

여기에서 제공된 도 7의 예 및 몇몇 다른 예들은 차량의 조작자에 의해 볼 수 있는 스크린상에서 임의의 검출된 차량들을 식별하는 주석들과 함께 카메라 이미지를 디스플레이하는 것을 논의한다. 그러나, 몇몇 구현들에서, 카메라 이미지 및/또는 3차원 경계 박스들은 차량에서 임의의 스크린상에 디스플레이되지 않으며 대신에 시스템은 단지 차량의 다른 자동화 시스템들에 대한 입력 데이터로서 검출된 차량들의 위치, 크기 등을 나타내는 상기 형성된 3차원 경계 박스들을 이용하도록 구성될 수 있다. 차량의 다른 자동화 시스템들은, 예를 들면, 거리 추정(예컨대, 호스트 차량과 또 다른 검출된 차량 사이에서), 충돌 확인/경고, 동적 정속 주행, 및 차선 변경 보조와 같은 동작들을 위한 입력 데이터로서, 예를 들면 3차원 경계 박스들(도로에서 동작하는 특정한 차량의 크기 및 위치를 나타내는)의 위치 및 크기를 사용하도록 구성될 수 있다. 뿐만 아니라, 몇몇 구현들에서, 시야에서의 차량들의 검출은 캡처된 이미지(들) 및 또한 하나 이상의 부가적인 차량 센서들(예컨대, 레이더, 소나(sonar) 등)에 의해 캡처된 부가적인 정보의 분석에 기초할 수 있다. 유사하게, 몇몇 구현들에서, 3차원 경계 박스들의 배치에 의해 표시된 바와 같이 검출된 차량들에 관한 정보는 여러 개의 센서들의 검출들 및 타이밍 정보가 조합되는(즉, 센서 융합) 하나 이상의 부가적인 프로세싱 단계들/동작들로의 입력으로서 사용된다. 몇몇 구현들에서, 센서 융합 프로세스의 출력은 그 후 디스플레이되거나, 또는 다른 구현들에서, 다시 차량의 조작자에게 임의의 정보를 디스플레이하지 않고 하나 이상의 차량 시스템들에 의해 이용된다. 이미지 분석 및/또는 하나 이상의 부가적인 차량 센서들로부터의 정보와 이미지 분석의 조합으로부터의 결과적인 정보는, 예를 들면, 호스트 차량의 궤적 플래닝 시스템에 의해 사용될 수 있다.

3D 경계 박스들은 고정된 수의 구조화된 포인트들에 의해 형성될 수 있다. 예를 들면, 몇몇 구현들에서, 3D 경계 박스는 6개의 포인트들에 의해 형성된다 - 4개의 포인트들은 차량의 후방을 나타내는 2차원 직사각형의 코너들을 규정하고 4개의 포인트들은 차량의 측면을 나타내는 2차원 사변형의 코너들을 규정한다(검출된 차량을 규정하는 두 개의 사변형들이 하나의 측면을 공유하며, 그러므로 두 개의 포인트들을 공유하기 때문에 단지 6개의 포인트들만을 야기한다). 다른 구현들에서, 3D 경계 박스를 형성하는 두 개의 사변형들은 두 개의 사변형들의 각각의 4개의 코너들을 형성하는 8개의 구조화된 포인트들로서 산출/결정된다.

몇몇 구현들에서, 3D 경계 박스를 형성하는 고정된 수의 구조화된 포인트들은 이미지의 2차원 공간에서 형성되지만, 다른 구현들에서, 구조화된 포인트들은 3차원 공간에서 형성된다. 몇몇 구현들에서, 3D 경계 박스를 형성하는 구조화된 포인트들은 3차원 공간(자동 차량 제어 시스템들을 위한 입력 데이터로서 사용될) 및 2차원 공간(출력 이미지에서 사용자에게 디스플레이될) 양쪽 모두에서 형성된다. 몇몇 구현들에서, 시스템은 기계-학습 이미지 프로세싱 루틴의 직접 출력으로서 3D 경계 박스를 형성하는 고정된 수의 구조화된 포인트들(예컨대, 2D 공간에서 3D 경계 박스를 형성하는 6개의 포인트들, 3D 공간에서 3D 경계 박스를 형성하는 6개의 포인트들, 또는 2D 및 3D 공간 양쪽 모두에서 3D 경계 박스를 형성하는 12개의 포인트들)을 제공하도록 구성된다. 다른 구현들에서, 시스템은 단지 2D 또는 3D 공간에서 신경망 프로세싱의 출력으로서 규정된 수의 구조화된 포인트들을 제공하며 그 후 다른 좌표 프레임에 대한 구조화된 포인트들을 결정하기 위해(예컨대, 신경망에 의해 출력된 2D 좌표들에 기초하여 구조화된 포인트들에 대한 3D 좌표들을 결정하는) 변환을 적용하도록 구성될 수 있다. 다른 구현들에서, 시스템은 2D 공간에서 및 3D 공간에서 개별적으로 구조화된 포인트들을 결정하기 위해 두 개의 별개의 신경망 프로세싱 루틴들을 적용하도록 구성될 수 있다.

몇몇 구현들에서, 시스템은 또한 차량을 위한 3D 경계 박스를 형성하는 8개의 구조화된 포인트들의 세트를 결정하도록 구성될 수 있다. 8개의 구조화된 포인트들은 3D 경계 박스의 4개의 상이한 측면 표면들(예컨대, 차량의 두 개의 측면들, 차량의 전방, 및 차량의 후방)의 각각에 대한 사변형들의 4개의 코너들을 총괄하여 형성한다. 몇몇 구현들에서, 신경망은 8개의 구조화된 포인트들의 전체 세트를 출력하도록 구성되지만, 다른 구성들에서, 신경망은 차량의 후방 또는 전방 및 하나의 부가적인 측면을 규정하는 구조화된 포인트들을 출력하며 제어기는 신경망에 의해 출력된 6개의 구조화된 포인트들의 세트에 기초하여 3D 경계 박스의 8개의 코너들 모두를 규정하기 위해 두 개의 부가적인 구조화된 포인트들을 산출하도록 구성된다. 몇몇 구현들에서, 시스템은 또한 출력 포인트들 중 어떤 것이(및 결과적으로, 3D 경계 박스의 측면들 중 어떤 것이) 가시적이며 디스플레이 또는 추가 프로세싱을 위해 사용되어야 하는지를 나타내는 4개의 부가적인 가시성 확률들을 산출하고 출력하도록 구성될 수 있다.

시스템은 또한 다른 단순화들을 적용하도록 구성될 수 있다. 예를 들면, 시스템은 고속도로 주행 상황들 동안 모든 검출된 차량들이 동일한 방향으로 움직이고 있으며, 이와 같이, 차량들의 후방들 및/또는 전방들이 직사각형들로서 추정될 수 있음을 가정하도록 구성될 수 있다. 다른 경우들에서(예컨대, 매우 편평한 도로들을 갖고), 시스템은 사다리꼴들(단지 정확도에서 작은 감소를 가진)로서 검출된 차량들의 모든 측면들 및 후방들/전방들을 나타내도록 구성될 수 있다. 사다리꼴들과 같은 고정된 구조들을 사용함으로써, 몇몇 포인트들이 값들을 공유할 것이기 때문에(예컨대, 에지를 공유하는 인접한 형태들의 두 개의 코너들) 포인트당 보다 적은 값들이 산출하는데 필요하다.

상기 논의된 바와 같이, 도 7의 예에서, 신경망 프로세스는 3D 경계 박스들(예컨대, 3D 경계 박스를 형성하는 포인트들)을 직접 산출하기 위해 캡처된 이미지에 적용된다. 도 8a 및 도 8b는 컨볼루션 신경망을 사용하는 예를 추가로 예시한다. 컨볼루션 신경망은 패턴들 및 특징들을 검출하기 위해 이미지를 분석하며, 검출된 패턴들/특징들(및, 몇몇 경우들에서, 부가적인 맥락 관련 정보)에 기초하여, 이미지에서 검출된 오브젝트의 식별과 같은 정보를 출력하는 기계-학습 이미지 프로세싱 기술이다. 도 8a에 도시된 바와 같이, 컨볼루션 신경망은 카메라로부터 입력 이미지를 수신하고 원래 이미지에서 검출된 임의의 차량들에 대한 3D 경계 박스들을 포함한 출력 이미지를 출력하도록 트레이닝된다. 몇몇 구현들에서, 신경망은 각각이 입력 이미지에서 검출된 상이한 차량에 대응하는 개개의 경계 박스에 대한 구조화된 포인트들을 규정하는 동적 수의 출력들을 제공하도록 구성된다. 도 8b는 컨볼루션 신경망(701)이 카메라에 의해 캡처된 원래 입력 이미지(703) 및 예를 들면, 하나 이상의 다른 차량 센서들(예컨대, 소나 또는 레이더)로부터의 센서 데이터, 이전 이미지에서 검출된 차량들에 대해 형성된 임의의 경계 박스들, 차량 속도(호스트 차량에 대한 및/또는 하나 이상의 다른 검출된 차량들에 대한), 차량 조향 변화들, 및/또는 가속도를 포함한 부가적인 입력 데이터(705)를 입력으로서 수신하도록 구성되는 특정한 예를 예시한다. 이들 입력들에 기초하여, 컨볼루션 신경망은 각각이 입력 이미지(703)에서 검출된 차량들에 대응하는 상이한 3D 경계 박스를 형성하는 동적 수의 상이한 세트들의 구조화된 데이터 포인트들(707, 709, 711, 713)을 출력한다. 그러나, 다른 구현들에서, 컨볼루션 신경망 프로세싱(701)은 임의의 부가적인 입력 데이터(705) 없이 단지 카메라로부터의 입력 이미지(703)에만 기초하여 3D 경계 박스들의 차원들 및 위치를 직접 산출하도록 설계되고 트레이닝된다.

신경망들 - 구체적으로 도 8a 및 도 8b의 예들에서 예시된 바와 같은 컨볼루션 신경망들 - 은 "지도식" 기계 학습 기술들(즉, 그것들은 부정확한 결과들의 사용자-식별에 의해 재트레이닝되고 개선될 수 있다)이다. 몇몇 구현들에서, 신경망-기반 이미지 프로세싱 시스템은 차량에 배치되기 전에 개발되고 트레이닝된다. 따라서, 몇몇 구현들에서, 도 6에 예시된 시스템 구성은 간단히 이미지를 캡처하고, 다른 차량들의 존재를 검출하기 위해 이미지를 프로세싱하며, 지도식 재트레이닝을 위한 임의의 사용자 입력 디바이스 없이 디스플레이상에서 결과들을 출력하기 위해 사용될 수 있다. 사실상, 몇몇 구현들에서, 출력 디스플레이(예컨대, 도 6의 디스플레이(505))는 이용되지 않거나 또는 심지어 시스템에 포함되지 않을 수 있으며; 대신에, 카메라로부터의 이미지는 차량들을 식별하기 위해 프로세싱되고 차량 검출 데이터(예컨대, 각각이 3차원 공간에서 검출된 차량을 규정하는 포인트들의 하나 이상의 조합들)는 사용자에게 이미지에서의 식별된 차량들의 임의의 표시를 그래픽으로 디스플레이하지 않고 다른 자동 차량 시스템들(예컨대, 완전 또는 부분 자율 주행 시스템들)에 의해 사용된다.

그러나, 다른 구현들에서, 시스템은 또한 컨볼루션 신경망의 기능화를 계속해서 재트레이닝하고 개선하기 위해 사용자 입력들을 수신하도록 구성된다. 도 9는 3D 경계 박스를 형성하는 6개의 포인트들의 조합으로서 차량들을 검출하기 위해 컨볼루션 신경망을 적용하도록 구성되며 또한 사용자로부터의 입력에 기초하여 컨볼루션 신경망을 재트레이닝하도록 구성되는 시스템의 예를 예시한다. 시스템은 전자 프로세서(801) 및 신경망 프로세싱을 위해 지시들을 저장하고 데이터를 트레이닝하는 비-일시적 컴퓨터-판독 가능한 메모리(803)를 포함한다. 카메라(805)는 주기적으로 이미지들을 캡처하고 캡처된 이미지들을 전자 프로세서(801)로 송신하도록 구성된다. 전자 프로세서(801)는 캡처된 이미지(들)를 프로세싱하고, 캡처된 이미지에서 차량들을 검출하며 임의의 검출된 차량들에 대한 3차원 경계 박스들을 형성하기 위해 신경망 프로세싱을 적용한다.

상기 논의된 바와 같이, 형성된 3차원 경계 박스들 및/또는 3차원 경계 박스들에 적어도 부분적으로 기초하여 결정된 정보는 전자 프로세서(801)에 의해, 예를 들면, 차량의 움직임을 제어하도록 구성된 차량 시스템들을 포함한 하나 이상의 부가적인 차량 시스템들(811)로 제공될 수 있다. 예를 들면, 차량 시스템(811)은 적응적 정속 주행 시스템, 차선 변경 보조 시스템, 또는 차량 조향, 속도, 가속도, 제동 등을 자동으로 제어하거나 또는 조정하도록 구성된 다른 차량 시스템들 중 하나 이상을 포함할 수 있다. 차량 시스템들(811)은 또한 예를 들면, 호스트 차량과 예를 들면, 충돌 확인/경고 시스템을 포함한 다른 검출된 차량들 사이에서의 거리를 산출/모니터링하도록 구성될 수 있는 다른 시스템들을 포함할 수 있다.

전자 프로세서(801)는 또한 카메라(805)에 의해 캡처된 이미지의 적어도 일 부분 및 상기 신경망 이미지 프로세싱에 의해 검출된 차량들을 나타내는 임의의 3D 경계 박스들을 포함하는 출력 이미지를 생성하도록 구성된다. 출력 이미지는 그 후 전자 프로세서(801)에 의해 그것이 디스플레이(807)의 스크린상에서 도시되는 디스플레이(807)로 송신된다. 도 9의 시스템은 또한 그 후 신경망을 재트레이닝하기 위해 사용되는 입력들을 사용자로부터 수신하도록 구성된 입력 디바이스(809)를 포함한다. 몇몇 구현들에서, 디스플레이(807) 및 입력 디바이스(809)는 터치-민감형 디스플레이로서 함께 제공될 수 있다.

몇몇 구현들 - 예를 들면, 터치-민감형 디스플레이를 이용하는 구현들을 포함하는 - 에서, 시스템은 사용자로 하여금 시스템에 의해 자동으로 검출되지 않은 디스플레이된 이미지에서의 임의의 차량들 및 임의의 차량에 정확하게 일치하지 않는 임의의 디스플레이된 3D 경계 박스들을 식별함으로써(예컨대, 터치-민감형 디스플레이를 터치함으로써) 신경망을 재트레이닝할 수 있게 하도록 구성될 수 있다. 도 10은 이러한 유형의 재트레이닝을 제공하기 위해 전자 프로세서(801)에 의해 구현된 방법의 예를 예시한다. 이미지는 카메라로부터 수신되며(블록(901)에서, "카메라로부터 이미지를 수신함") 신경망 프로세싱은 각각이 2D 및/또는 3D 공간에서 구조화된 포인트들의 세트에 의해 형성된 임의의 3D 경계 박스들의 위치 및 차원들을 결정하기 위해 적용된다(블록(903)에서, "3D 경계 박스(들)를 결정하기 위해 신경망 프로세싱을 적용함"). 이미지는 그 후 이미지상에 오버레이된 3D 경계 박스들(만약에 있다면)과 함께 디스플레이상에 도시된다(블록(905)에서, "오버레이된 3D 경계 박스(들)와 함께 이미지를 디스플레이함"). 시스템은 그 후 임의의 사용자 입력들을 위해 입력 디바이스(예컨대, 터치-민감형 디스플레이)를 모니터링한다(블록(907)에서, "사용자 입력을 수신함?"). 어떤 사용자 입력들도 수신되지 않았다면, 시스템은 카메라로부터 수신된 다음 이미지를 프로세싱하는 것으로 진행된다(블록들(901, 903, 905)을 반복함).

이러한 특정한 예에서, 사용자 입력들은 터치-민감형 디스플레이상에서 "터치들"에 의해 수신된다. 그러므로, "터치" 입력이 검출될 때, 시스템은 터치 입력이 디스플레이상에 도시된 3D 경계 박스 안에서 수신되었는지를 결정한다(블록(909)에서, "경계 박스 안에서의 사용자 입력?"). 그렇다면, 시스템은 사용자 입력이 디스플레이된 3D 경계 박스가 검출된 차량을 거짓으로 또는 부정확하게 표시하였음을 표시한다고 결정한다(예컨대, 경계 박스에 대응하는 이미지에서의 차량이 없거나 또는 경계 박스가 이미지에서의 차량과 적절히 동조하지 않는다). 시스템은 이러한 입력에 기초하여 신경망을 재트레이닝하도록 진행한다(블록(911)에서, "신경망 업데이트: 거짓 차량 검출"). 반대로, 터치 입력이 디스플레이된 3D 경계 박스들 중 임의의 것의 바깥쪽 위치에서 수신되었다면, 시스템은 사용자 입력이 신경망 프로세싱에 의해 검출되지 않은 이미지에서 도시된 차량을 식별하고 있다고 결정한다. 신경망은 사용자 입력에 기초하여 그에 따라 재트레이닝된다(블록(913)에서, "신경망 업데이트: 이미지에서 검출되지 않은 차량"). 업데이트된/재트레이닝된 신경망은 그 후 카메라로부터 수신된 다음 이미지를 프로세싱하기 위해 사용된다(블록들(901, 903, 905)을 반복함).

몇몇 구현들에서, 시스템은 또한 검출되지 않은 차량에 대응하는 선택된 위치에서 차량을 자동으로 검출하기 위해 사용자에 의해 선택된 위치에 부가적인 프로세싱을 적용하도록 구성되지만 다른 구현들에서, 시스템은 검출되지 않은 차량에 대응하는 선택된 위치에 새로운 3D 경계 박스를 수동으로 위치시키도록 사용자를 유도하도록 구성된다. 몇몇 구현들에서, 시스템은 실시간으로 새로운 3D 경계 박스의 수동 배치를 위한 이러한 프롬프트(prompt)를 디스플레이하도록 구성되지만, 다른 구현들에서, 검출되지 않은 차량의 선택이 수신되는 이미지들은 메모리로 저장되고 시스템은 나중에(예컨대, 차량이 정지될 때) 새로운 3D 경계 박스의 수동 배치를 위한 프롬프트와 함께 이미지를 출력한다.

뿐만 아니라, 몇몇 구현들에서, 시스템은 또한 디스플레이된/출력된 3D 경계 박스들에 대한 개선으로서 재트레이닝한 데이터를 제공하도록 구성된다. 예를 들면, 시스템은 사용자로 하여금 그것이 검출된 차량에 대해 스크린상에 디스플레이된 후 3D 경계 박스의 치수를 선택적으로 및 수동으로 조정할 수 있도록 구성될 수 있다. 사용자가 차량의 후방/전방 및 측면을 보다 정확하게 나타내기 위해 경계 박스의 형태, 위치, 및/또는 크기를 조정한 후, 시스템은 신경망을 재트레이닝하기 위해 부가적인 재트레이닝 데이터로서 이러한 개선을 사용할 수 있다.

상기 논의된 예들에서, 이미지들은 캡처되고 프로세싱되며 신경망은 전자 프로세서(801) 및 차량에서의 사용자에 의해 국소적으로 재트레이닝된다. 그러나, 다른 구현들에서, 시스템은 원격 서버와 상호 작용하도록 구성될 수 있다. 도 11은 전자 프로세서(1001), 카메라(1003), 및 원격 서버 컴퓨터(1007)와 무선으로 통신하도록 구성된 무선 트랜시버(1005)를 포함하는 이러한 시스템의 일 예를 예시한다. 다양한 구현들에서, 무선 트랜시버(1005)는 예를 들면, 셀룰러 통신 네트워크들을 포함한 하나 이상의 무선 양식들을 사용하여 원격 서버 컴퓨터(1007)와 통신하도록 구성될 수 있다.

다양한 구현들에서, 원격 서버 컴퓨터(1007)는 전자 프로세서(1001) 외에 또는 그 대신에 이미지 프로세싱 및/또는 신경망 재트레이닝 중 일부 또는 모두를 수행하도록 구성될 수 있다. 예를 들면, 도 10의 시스템은 카메라(1003)에 의해 캡처된 이미지 데이터를 신경망을 사용하여 이미지 데이터를 프로세싱하도록 구성된 원격 서버 컴퓨터(1007)로 송신하며 이미지에서 검출된 임의의 차량들에 대한 3D 경계 박스들을 식별하는 6-포인트 조합들을 무선 트랜시버(1005)로 다시 송신하도록 구성될 수 있다. 원격 서버 컴퓨터(1007)에서 이미지 프로세싱을 수행함으로써, 계산 부하는 차량에서의 로컬 전자 프로세서(1001)로부터 원격 서버 컴퓨터(1007)로 옮겨진다.

신경망의 재트레이닝은 또한 원격 서버 컴퓨터(1007)로 이동될 수 있다. 예를 들면, 고용인들의 직원은 캡처된 이미지들에서 임의의 긍정 오류 검출들 또는 손실된 차량 검출들을 식별하기 위해 실시간으로 또는 나중에 원격 서버 컴퓨터(1007)에 의해 수신되고 프로세싱된 이미지들을 검토할 수 있다. 이러한 정보는 그 후 신경망을 재트레이닝하기 위해 사용된다. 계산 복잡도를 줄이고 차량의 조작자로부터의 재트레이닝 부담을 줄이는(또는 완전히 제거하는) 것 외에, 다수의 차량들이 원격 서버 컴퓨터와 상호 작용하도록 구성되는 구현들에서, 보다 많은 양의 재트레이닝 데이터가 캡처되고 프로세싱되어 보다 강력하게 트레이닝된 신경망을 야기할 수 있다.

상기 논의된 예에서, 원격 서버 컴퓨터는 신경망의 이미지 프로세싱 및 재트레이닝을 수행하도록 구성된다. 따라서, 몇몇 구현들에서, 디스플레이(1009) 및/또는 입력 디바이스(1011)는 호스트 차량에 포함되지 않을 수 있다. 그러나, 다른 구현들에서, 이미지 프로세싱 및/또는 재트레이닝 기능 중 일부 또는 모두는 원격 서버 컴퓨터(1007)에 의해 수행된 기능들 대신 또는 그것 외에 로컬 전자 프로세서(1001)에 의해 구현된다. 예를 들면, 도 10의 시스템은 로컬 전자 프로세서(1001)에서 신경망 이미지 프로세싱을 적용하고 오버레이된 3D 경계 박스들과 함께 이미지 데이터를 원격 서버 컴퓨터(1007)로 송신하도록 구성될 수 있다. 차량의 사용자/운전자에 의해 국소적으로 신경망을 재트레이닝하는 대신에, 신경망의 재트레이닝은 그 후 이러한 수집된 이미지/출력 데이터 및 원격 서버 컴퓨터(1007)에 연결된 임의의 다른 호스트 차량들로부터 수신된 이미지/출력 데이터를 사용하여 원격으로 수행된다. 원격 서버 컴퓨터(1007)는 그 후 주기적으로 또는 요청에 따라 원격/집단 재트레이닝에 기초하여 전자 프로세서(1001)에 의해 구현되고 저장된 신경망을 업데이트한다.

유사하게, 몇몇 구현들에서, 시스템은 로컬 전자 프로세서(1001)에서 신경망 이미지 프로세싱을 적용하고 도 10을 참조하여 상기 논의된 바와 같이 긍정 오류들 및 검출되지 않은 차량들을 식별하는 재트레이닝 입력들을 로컬 입력 디바이스(1011)를 통해 사용자로부터 수신하도록 구성될 수 있다. 그러나, 국소적으로 신경망을 재트레이닝하는 대신에, 입력 디바이스(1011)에 의해 수신된 재트레이닝 입력들 및 대응하는 이미지들이 메모리로 저장된다. 시스템은 또한 주기적으로 또는 요청 시 재트레이닝 입력들 및 대응하는 이미지들을, 결과적으로 원격 서버 컴퓨터(1007)에 연결된 다수의 상이한 호스트 차량들로부터 수신된 재트레이닝 입력들/이미지들에 기초하여 재트레이닝된 신경망을 발생시키고 업데이트된/재트레이닝된 신경망을 사용을 위해 전자 프로세서(1001)로 송신하는 원격 서버 컴퓨터(1007)로 업로드하도록 구성된다.

마지막으로, 상기 예들 중 일부는 수동적인 사용자 입력들(차량을 동작시키는 사용자로부터 또는 원격 서버 컴퓨터 측 상에서의 또 다른 사람에 의해)에 기초한 트레이닝 및 재트레이닝을 논의하지만, 다른 구현들에서, 신경망의 트레이닝 및 재트레이닝은 차량들의 정확한 존재/위치를 검증하기 위해 또 다른 차량 검출 알고리즘을 사용하여 성취될 수 있다. 뿐만 아니라, 몇몇 구현들에서, 시스템은 이미지에서 차량 검출들의 신뢰 레벨을 자동으로 결정하고 추가의 수동 또는 자동 프로세싱을 위해 및 신경망의 재트레이닝을 위해 원격 서버 컴퓨터로 "저 신뢰도" 이미지들로서 플래그된 이미지들을 자동으로 포워딩하도록 구성될 수 있다. 부가적으로, 몇몇 구현들에서, 검출 시스템으로의 입력으로서 카메라 대신에 또는 그것 외에 센서 입력들을 사용하는 시스템들로 여기에서 설명된 기술들 및 시스템들 중 일부를 적용하는 것이 가능하다.

따라서, 발명은 다른 것들 중에서, 신경망 프로세싱을 사용하여 이미지들에서 다른 차량들을 직접 검출하고 주석을 달기 위한 시스템들 및 방법들을 제공한다. 다양한 특징들 및 이점들이 다음의 청구항들에서 제시된다.

501: 카메라 503: 전자 제어기
505: 디스플레이 스크린 701: 컨볼루션 신경망
801: 전자 프로세서 803: 메모리
805: 카메라 807: 디스플레이
811: 차량 시스템 1001: 전자 프로세서
1003: 카메라 1005: 무선 트랜시버
1007: 원격 서버 컴퓨터 1009: 디스플레이
1011: 입력 디바이스

Claims

호스트 차량 가까이에 있는 차량을 검출하고 추적하는 방법에 있어서,
전자 제어기에 의해, 상기 호스트 차량에 장착된 카메라로부터 입력 이미지를 수신하는 단계; 및
상기 전자 제어기에 의해, 상기 입력 이미지에 적어도 부분적으로 기초하여 3차원 경계 박스의 형상물(definition)을 출력하도록 구성된 신경망을 적용하는 단계로서, 상기 3차원 경계 박스는 상기 입력 이미지의 시야에서 검출된 차량의 크기 및 위치를 나타내고, 상기 3차원 경계 박스는 상기 검출된 차량의 후방 또는 전방의 윤곽을 보여주는 제 1 사변형 형태 및 상기 검출된 차량의 측면의 윤곽을 보여주는 제 2 사변형 형태를 포함하는, 상기 신경망을 적용하는 단계;
디스플레이 스크린상에 출력 이미지를 디스플레이하는 단계로서, 상기 출력 이미지는 상기 입력 이미지의 적어도 일 부분 및 상기 입력 이미지상에 오버레이된 상기 3차원 경계 박스의 표시를 포함하는, 상기 출력 이미지를 디스플레이하는 단계;
상기 3차원 경계 박스의 밖에 있는 상기 출력 이미지상에서의 위치의 선택을 나타내는 사용자 입력을 수신하는 단계;
상기 사용자 입력에 기초하여, 검출되지 않은 차량이 상기 사용자 입력에 대응하는 위치에서 상기 입력 이미지의 시야 내에 존재한다고 결정하는 단계; 및
상기 검출되지 않은 차량을 나타내는 상기 사용자 입력에 기초하여 상기 신경망을 재트레이닝하는 단계를 포함하는, 방법.
삭제
제 1 항에 있어서,
상기 3차원 경계 박스 내에서 상기 출력 이미지상에서의 위치의 선택을 나타내는 사용자 입력을 수신하는 단계;
상기 사용자 입력에 기초하여, 상기 신경망에 의해 상기 3차원 경계 박스가 차량의 부정확한 검출을 나타낸다고 결정하는 단계; 및
상기 부정확한 검출에 기초하여 상기 신경망을 재트레이닝하는 단계를 더 포함하는, 방법.
삭제
제 1 항에 있어서,
상기 사용자 입력에 대응하는 상기 위치에서 상기 입력 이미지에 차량 검출 루틴을 적용하는 단계; 및
상기 차량 검출 루틴에 기초하여 제 2 3차원 경계 박스를 형성하는 단계를 더 포함하고,
상기 신경망을 재트레이닝하는 단계는 상기 입력 이미지에 적어도 부분적으로 기초하여 상기 제 2 3차원 경계 박스의 형상물을 출력하도록 상기 신경망을 재트레이닝하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 입력 이미지에서 검출되지 않은 차량에 대해 제 2 3차원 경계 박스를 수동으로 배치하도록 사용자를 유도하는(prompting) 단계; 및
상기 유도에 응답하여 수신된 제 2 사용자 입력에 기초하여 제 2 3차원 경계 박스를 형성하는 단계를 더 포함하고,
상기 신경망을 재트레이닝하는 단계는 상기 입력 이미지에 적어도 부분적으로 기초하여 상기 제 2 3차원 경계 박스의 형상물을 출력하도록 상기 신경망을 재트레이닝하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 3차원 경계 박스들에 적어도 부분적으로 기초하여 상기 호스트 차량의 움직임을 제어하도록 차량 시스템을 자동으로 동작시키는 단계를 더 포함하는, 방법.
제 7 항에 있어서,
상기 3차원 경계 박스에 적어도 부분적으로 기초하여 상기 호스트 차량과 상기 검출된 차량 사이의 거리를 결정하는 단계를 더 포함하고, 차량 시스템을 자동으로 동작시키는 단계는 상기 호스트 차량과 상기 검출된 차량 사이의 상기 결정된 거리에 적어도 부분적으로 기초하여 상기 호스트 차량의 속도를 자동으로 조정하는 단계를 포함하는, 방법.
제 7 항에 있어서,
차량 시스템을 자동으로 동작시키는 단계는 상기 3차원 경계 박스의 위치에 적어도 부분적으로 기초하여, 상기 호스트 차량의 조향, 상기 호스트 차량의 가속도, 상기 호스트 차량의 제동, 상기 호스트 차량의 규정된 궤적, 및 상기 호스트 차량의 시그널링으로 이루어진 그룹으로부터 선택된 적어도 하나를 자동으로 조정하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 3차원 경계 박스의 형상물은 상기 제 1 사변형 형태의 4개의 코너들 및 상기 제 2 사변형 형태의 4개의 코너들을 규정하는 6개의 구조화된 포인트들의 세트를 포함하고, 상기 제 1 사변형 형태의 두 개의 코너들은 상기 제 2 사변형 형태의 두 개의 코너들과 동일한, 방법.
제 10 항에 있어서,
상기 6개의 구조화된 포인트들의 세트는 3차원 좌표 시스템에서 상기 제 1 사변형 형태의 코너들 및 상기 제 2 사변형 형태의 코너들을 규정하는, 방법.
제 10 항에 있어서,
상기 6개의 구조화된 포인트들의 세트는 상기 입력 이미지의 2-차원 좌표 시스템에서 상기 제 1 사변형 형태의 코너들 및 상기 제 2 사변형 형태의 코너들을 규정하는, 방법.
제 1 항에 있어서,
상기 3차원 경계 박스들의 형상물은
2차원 좌표 시스템에서 상기 제 1 사변형 형태의 4개의 코너들 및 상기 제 2 사변형 형태의 4개의 코너들을 규정하는 6개의 구조화된 포인트들의 제 1 세트, 및
3차원 좌표 시스템에서 상기 제 1 사변형 형태의 코너들 및 상기 제 2 사변형 형태의 코너들을 규정하는 6개의 구조화된 포인트들의 제 2 세트를 더 포함하는, 방법.
제 1 항에 있어서,
상기 신경망은 또한 상기 입력 이미지에 적어도 부분적으로 기초하여 복수의 3차원 경계 박스들의 형상물들을 출력하도록 구성되고, 상기 복수의 3차원 경계 박스들의 각각의 3차원 경계 박스는 상기 입력 이미지의 시야에서 검출된 복수의 차량들의 상이한 것의 크기 및 위치를 나타내는, 방법.
차량 검출 시스템에 있어서,
호스트 차량상에 배치된 카메라;
디스플레이 스크린;
상기 호스트 차량의 움직임을 제어하도록 구성된 차량 시스템;
전자 프로세서; 및
명령들을 저장한 메모리로서, 상기 명령들은 상기 전자 프로세서에 의해 실행될 때, 상기 차량 검출 시스템으로 하여금
상기 카메라로부터 입력 이미지를 수신하고, 상기 입력 이미지는 상기 호스트 차량이 동작하고 있는 도로 표면을 포함한 시야를 갖고,
각각이 상기 입력 이미지의 시야에서 검출된 복수의 차량들의 상이한 것에 대응하는 복수의 3차원 경계 박스들을 형성하는 출력을 제공하도록 구성된 신경망을 적용하고, 각각의 3차원 경계 박스는 검출된 차량의 후방 주위에 배치된 제 1 사변형 형태 및 상기 검출된 차량의 측면 주위에 배치된 제 2 사변형 형태를 규정하는 구조화된 포인트들의 세트로서 상기 신경망의 출력에 의해 형성되고, 상기 제 1 사변형 형태는 상기 제 2 사변형 형태에 인접하고,
상기 디스플레이 스크린이 상기 입력 이미지의 적어도 일 부분 및 상기 입력 이미지상에 오버레이된 상기 복수의 3차원 경계 박스들의 각각을 포함하는 출력 이미지를 디스플레이하게 하고,
상기 3차원 경계 박스의 밖에 있는 상기 출력 이미지상에서의 위치의 선택을 나타내는 사용자 입력을 수신하고,
상기 사용자 입력에 기초하여, 검출되지 않은 차량이 상기 사용자 입력에 대응하는 위치에서 상기 입력 이미지의 시야 내에 존재한다고 결정하고,
상기 검출되지 않은 차량을 나타내는 상기 사용자 입력에 기초하여 상기 신경망을 재트레이닝하게 하는, 상기 메모리를 포함하는, 차량 검출 시스템.