KR102649119B1

KR102649119B1 - 좌표 정보를 이용한 객체 검출 네트워크 기법

Info

Publication number: KR102649119B1
Application number: KR1020210136757A
Authority: KR
Inventors: 정제창; 유동균
Original assignee: 한양대학교 산학협력단
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2024-03-20
Also published as: KR20230053347A

Abstract

YOLO 기반 객체 검출 방법 및 장치가 제시된다. 본 발명에서 제안하는 YOLO 기반 객체 검출 장치는 입력 영상 내의 이미지 특징을 추출하는 백본(backbone) 네트워크, 상기 추출된 이미지 특징에 대한 바운딩 박스의 회귀 정보를 포함하고, 상기 바운딩 박스의 회귀 정보 중 바운딩 박스 위치의 정확도를 높이기 위해 바운딩 박스 위치에 대한 좌표 정보를 갖는 좌표 컨볼루션 모듈을 적용한 바운딩 박스의 회귀 정보를 출력하는 넥(Neck) 네트워크 및 넥 네트워크의 출력에 대해 YOLO 레이어를 사용하여 객체를 검출하고, 검출된 객체에 대한 회귀 학습을 수행하는 헤드(Head) 네트워크를 포함한다.

Description

좌표 정보를 이용한 객체 검출 네트워크 기법{Object Detection Network using Coordinate Information}

본 발명은 좌표 정보를 이용한 객체 검출 방법 및 장치에 관한 것이다.

객체 검출(Object detection)은 의학 이미지 분석, 자율 주행, 얼굴 인식 그리고 CCTV를 통한 사람 인식 등 많은 분야에서 필요로 하고 있다. 위와 같은 응용 서비스에 적용하기 위해선 높은 검출 성능과 고속화가 필요하다. 그러나 기존 객체 검출 방식으로는 실시간 응용 서비스에 적용하기 어려웠지만 딥러닝 기술의 발전으로 객체 검출 기술의 정확도와 고속화의 가능성을 보였다. 딥러닝이 발전되기 전에 객체 검출 기술은 대표적으로 슬라이딩 윈도우(Sliding window)가 사용되었다. 슬라이딩 윈도우 기법은 다양한 크기의 블록들을 이미지 왼쪽 위부터 오른쪽 아래까지 이동하면서 객체를 찾는다. 그러나 하나의 이미지에서 반복적으로 계산을 해야 하기 때문에 속도 측면에서 비효율 적이다. 이러한 문제를 해결하기 위해 DPM(Deformable Part Model) 등이 제안이 되기도 하였다 [1]. 딥러닝을 사용한 객체 검출기로는 크게 투-스테이지(two-stage) 객체 검출기와 원-스테이지(one-stage) 객체 검출기로 나눌 수 있다. 투-스테이지 객체 검출기는 R-CNN [2], fast R-CNN [3]과 faster R-CNN [4]에서 제안되었다. 투-스테이지 객체 검출기는 슬라이딩 윈도우 기법의 비효율성을 개선하기 위해 객체가 존재하는 영역을 빠르게 찾아내는 영역 제안(Region proposal) 기법을 사용하고 객체를 분류(Classification)한다. 이러한 두 번의 과정 때문에 속도 측면에서는 느리다는 단점이 있다. 반면에 원-스테이지 객체 검출기는 CenterNet [5], EfficientDet [6], YOLO [7-9] 에서 연구되어 왔다. 원-스테이지 객체 검출기는 바운딩 박스와 객체 종류를 단 한 번의 과정으로 검출하기 때문에 투-스테이지 객체 검출기에 비해 정확도는 낮지만, 검출 속도는 빠르다.

원-스테이지 객체 검출기는 앵커 박스(Anchor box)를 사용하지 않는 객체 검출기와 앵커 박스를 사용한 객체 검출기로 나눌 수 있다. 앵커 박스는 초기 학습할 때 데이터 셋의 객체 크기를 그룹별로 평균을 내어 바운딩 박스에 대한 정보를 제공해준다. 따라서 앵커 박스를 이용하면 학습이 빠르게 수렴된다. 대표적으로 앵커 박스를 사용하지 않는 객체 검출기가 CenterNet에서 제안되었다. 앵커 박스를 사용하는 객체 검출기로는 EfficientDet, YOLOv3 [7], YOLOv4 [8], PP-YOLO [9] 에서 제안되었고 비교적 높은 정확도를 가지고 있다.

본 발명이 이루고자 하는 기술적 과제는 YOLO를 기반한 원-스테이지 객체 검출기에 다양한 기법들을 적용하여 검출 성능을 향상시키기 위한 방법 및 장치를 제공하는데 있다. 제안하는 좌표 정보를 이용한 객체 검출 네트워크는 학습 성능을 높이기 위해 CIOU Loss, Swish, EMA를 사용하고 네트워크의 수용 필드를 넓혀주기 위해 Focus모듈, SPP모듈, PANet을 사용한다. 그리고 바운딩 박스의 위치를 정확하게 표시하기 위해 좌표 정보를 가지고 있는 좌표 컨볼루션(CoordConv) 모듈을 추가하고 CSP 기법을 이용하여 모델의 파라미터 및 연산량을 감소시키고자 한다.

일 측면에 있어서, 본 발명에서 제안하는 YOLO 기반 객체 검출 장치는 입력 영상 내의 이미지 특징을 추출하는 백본(backbone) 네트워크, 상기 추출된 이미지 특징에 대한 바운딩 박스의 회귀 정보를 포함하고, 상기 바운딩 박스의 회귀 정보 중 바운딩 박스 위치의 정확도를 높이기 위해 바운딩 박스 위치에 대한 좌표 정보를 갖는 좌표 컨볼루션 모듈을 적용한 바운딩 박스의 회귀 정보를 출력하는 넥(Neck) 네트워크 및 넥 네트워크의 출력에 대해 YOLO 레이어를 사용하여 객체를 검출하고, 검출된 객체에 대한 회귀 학습을 수행하는 헤드(Head) 네트워크를 포함한다.

상기 백본 네트워크는 포커스(Focus) 모듈을 사용하여 입력 이미지를 그리드 셀로 나눈 후, 나눠진 이미지를 채널 정보에 더하여 수용 필드를 넓힌다.

상기 넥 네트워크는 바운딩 박스의 정확도를 높이기 위해 좌표 컨볼루션 모듈을 적용하여 바운딩 박스의 X좌표와 Y좌표를 채널에 추가한 후 컨볼루션을 수행한다.

상기 넥 네트워크는 모델의 파라미터와 연산량을 감소시키기 위해 CSP(Cross Stage Partial) 기법을 적용하고, FPN(feature Pyramid Net)에 바텀-업(bottom-up) 방식을 추가하는 PANet(Path Aggregation Network)을 사용하여 바운딩 박스의 위치에 대한 정보를 추가적으로 획득하며, 네트워크의 수용 필드를 증가시키기 위해 SPP(Spatial Pyramid Pooling) 모듈을 사용하여 복수의 크기의 맥스풀링(maxpooling)을 적용하고 채널 별로 연결한다.

상기 헤드 네트워크는 바운딩 박스의 중점 위치 및 IOU(Intersection Over Union)에 따라 회귀 학습을 수행하고, 종횡비의 일관성을 부과하기 위해 아크탄젠트를 사용하여 종횡비를 구하는 CIOU(Complete Intersection Over Union) 손실을 사용한다.

또 다른 일 측면에 있어서, 본 발명에서 제안하는 YOLO 기반 객체 검출 방법은 백본(backbone) 네트워크를 통해 입력 영상 내의 이미지 특징을 추출하는 단계, 상기 추출된 이미지 특징에 대한 바운딩 박스의 회귀 정보 중 바운딩 박스 위치의 정확도를 높이기 위해 바운딩 박스 위치에 대한 좌표 정보를 갖는 좌표 컨볼루션 모듈을 적용한 넥(Neck) 네트워크를 통해 바운딩 박스의 회귀 정보를 출력하는 단계 및 헤드(Head) 네트워크에서 넥 네트워크의 출력에 대해 YOLO 레이어를 사용하여 객체를 검출하고, 검출된 객체에 대한 회귀 학습을 수행하는 단계를 포함한다.

본 발명의 실시예들에 따르면 YOLO를 기반한 원-스테이지 객체 검출기에 다양한 기법들을 적용하여 검출 성능을 향상시킬 수 있다. 제안하는 좌표 정보를 이용한 객체 검출 네트워크는 CIOU Loss, Swish, EMA를 사용하여 학습 성능을 높일 수 있고, Focus모듈, SPP모듈, PANet을 사용하여 네트워크의 수용 필드를 넓힐 수 있다. 그리고 좌표 정보를 가지고 있는 좌표 컨볼루션(CoordConv) 모듈을 추가하여 바운딩 박스의 위치를 정확하게 표시할 수 있고, CSP 기법을 이용하여 모델의 파라미터 및 연산량을 감소시킬 수 있다.

도 1은 종래기술에 따른 YOLO 레이어의 출력 구조를 설명하기 위한 도면이다.
도 2는 종래기술에 따른 Focus 모듈을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 좌표 정보를 이용한 객체 검출 네트워크의 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 좌표 컨볼루션(CoordConv) 모듈을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 SPP 모듈을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 CSP 모듈을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 좌표 정보를 이용한 객체 검출 방법을 설명하기 위한 흐름도이다.

객체 검출은 영상 내에 객체의 종류와 위치를 찾는 것이 주목적이다. 본 발명에서는 YOLO를 기반한 원-스테이지 객체 검출기에 다양한 기법들을 적용하여 검출 성능을 향상시키는 방법을 제안한다. 제안하는 알고리듬은 학습 성능을 높이기 위해 CIOU 손실(Loss), Swish, EMA를 사용하고 네트워크의 수용 필드를 넓혀주기 위해 Focus모듈, SPP모듈, PANet을 사용한다. 그리고 바운딩 박스의 위치를 정확하게 표시하기 위해 좌표 정보를 가지고 있는 좌표 컨볼루션(CoordConv) 모듈을 추가하고 CSP 기법을 이용하여 모델의 파라미터를 약 23%, 그리고 연산량을 약 27% 감소시킬 수 있다. 검출기의 성능 평가는 MS COCO 2017 테스트 데이터셋으로 평가하였으며 제안하는 검출기(CSP-Coords YOLO)는 YOLOv4와 비교하여 높은 정확도(46.3% mAP)와 빠른 속도(96.2 FPS)를 나타내었다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 종래기술에 따른 YOLO 레이어의 출력 구조를 설명하기 위한 도면이다.

종래기술에 따른 YOLO 레이어는 YOLOv3 [7]에서 제안한 알고리듬이다. 객체를 검출하는 방법은 YOLO 레이어로 들어오는 입력 값을 으로 나타내고, k개의 의 집합으로 구성된다. n은 모델 내에 스트라이드(stride)가 2인 컨볼루션을 지날 때마다 증가하며, n이 커질 때마다 입력되는 입력 값의 크기 는 2n 만큼 줄어든다. 이때 의 집합 요소 중 하나인 는 텐서(Tensor)의 형태로 이루어져 있으며 식(1)과 같다:

식(1)

식(1)에서 b, c, W_S, H_S 는 각각 배치 크기(Batch size), 객체 종류의 개수, 백본(backbone)으로부터 입력되는 이미지의 가로, 세로 크기이다. YOLO 레이어를 지나면 텐서 형태를 바꿔주고 바운딩 박스에 대해 회귀 학습을 수행한다. YOLO 레이어의 출력 값은 로 k개의 의 집합이 된다. 이때 의 집합 요소 중 하나인 의 출력 텐서는 식(2)와 같다:

식(2)

식(2)에서 마지막 채널 5+c는 도 1과 같이 구성될 수 있다. 각각의 X_B, Y_B는 바운딩 박스의 중점 위치를 나타내고 W_B, H_B는 바운딩 박스의 너비와 높이이다. C는 객체가 바운딩 박스 안에 존재할 확률을 나타내며 P_C는 객체 종류에 대한 확률을 나타낸다. YOLO 레이어에서 한 장의 이미지 크기가 W_S Х H_S 일 때 추출할 수 있는 바운딩 박스의 개수는 식(3)과 같다:

식(3)

도 1에서 C가 신뢰도 임계값(confidence threshold)보다 큰 경우 C와 각각의 P_C를 곱해준다. C Х P_C가 신뢰도 임계값보다 큰 경우 바운딩 박스 내에 해당 종류의 객체가 존재한다고 간주하며 P_C를 P로 변환해 준다. 바운딩 박스의 좌상단 좌표(X₁ , Y₁)와 우하단 좌표 (X₂ , Y₂)는 X_B, Y_B, W_B, H_B 를 이용하여 계산한다. 각각의 바운딩 박스에 대한 6개 정보 X₁ , Y₁ , X₂ , Y₂ , C, P를 연결(Concatenation)하여 바운딩 박스 를 생성한다. NMS(Non Maximum Suppression)를 통해 객체가 있을 확률이 가장 높은 바운딩 박스를 추출한다.

도 2는 종래기술에 따른 Focus 모듈을 설명하기 위한 도면이다.

Focus 모듈은 YOLOv5 백본[10]에 사용한 모듈이며 입력 이미지를 도 2과 같이 나눠주고 나눠진 이미지를 채널 정보에 더해준다. RGB 영상은 채널이 3개이지만 Focus 모듈로 인해 채널 값이 넓어 지기 때문에 수용 필드가 넓어진다.

(4)

식(4)에서 b, c, w, h는 각각 배치 크기, 채널, 너 비와 높이를 의미하며, Focus 모듈의 출력 채널 값은 입력 채널 값에 비해 4배 커지고 너비와 높이가 절반으로 줄어든다.

도 3은 본 발명의 일 실시예에 따른 좌표 정보를 이용한 객체 검출 네트워크의 구성을 설명하기 위한 도면이다.

본 발명에서는 객체 검출 속도와 검출 성능을 향상하기 위해 앵커 박스를 사용한 원-스테이지 객체 검출 알고리듬을 제안한다. 제안하는 객체 검출기는 영상 내의 이미지 특징을 추출하는 백본(backbone) 네트워크(310), 바운딩 박스에 대한 회귀 정보를 가지고 있는 넥(neck) 네트워크(320), 그리고 객체를 검출하는 헤드(head) 네트워크(330)로 구성된다. 제안하는 검출기는 네트워크의 수용 필드(Receptive field)를 넓혀주기 위해 Focus [10] 모듈, SPP [11] 모듈, PANet [12]을 사용하고, 학습 성능을 높이기 위해서 CIOU Loss [13], Swish [14], EMA [9]를 사용한다. 그리고 모델의 넥(neck)(320) 부분에 바운딩 박스를 정확하게 표시하기 위해서 좌표 정보를 가지고 있는 좌표 컨볼루션(CoordConv) [15] 모듈을 추가하고 모델의 파라미터와 연산량을 줄이기 위해 CSP [16]기법을 적용한다.

제안하는 YOLO 기반 객체 검출 장치의 좌표 정보를 이용한 객체 검출 네트워크는 백본(backbone) 네트워크(310), 넥(neck) 네트워크(320) 및 헤드(head) 네트워크(330)를 포함한다.

본 발명의 실시예에 따른 백본 네트워크(310)는 입력 영상 내의 이미지 특징을 추출한다.

백본 네트워크(310)는 Focus 모듈을 사용하여 입력 이미지를 그리드 셀로 나눈 후, 나눠진 이미지를 채널 정보에 더하여 수용 필드를 넓힌다.

본 발명의 실시예에 따르면, Focus 모듈은 YOLOv5 백본(311)[10]에 사용한 모듈을 사용할 수 있다. 입력 이미지를 도 2와 같이 나눠주고 나눠진 이미지를 채널 정보에 더해준다. RGB 영상은 채널이 3개이지만 Focus 모듈로 인해 채널 값이 넓어 지기 때문에 수용 필드가 넓어진다. 앞서 설명된 바와 같이, Focus 모듈의 출력 채널 값은 입력 채널 값에 비해 4배 커지고 너비와 높이가 절반으로 줄어든다.

본 발명의 실시예에 따른 백본 네트워크(310)의 구조는 표 1과 같다.

<표 1>

본 발명의 실시예에 따른 CC-YOLO는 YOLOv3에서 사용된 Darknet53 구조 대신 YOLOv5에서 사용된 백본 구조를 사용한다. 백본 네트워크(310)에서 추출한 출력 값은 도 3과 같이 P₃, P₄, P₅로 나타내고 P₃, P₄, P₅ 는 입력 이미지의 1/8, 1/16, 1/32만큼 축소된 크기를 가진다.

본 발명의 실시예에 따른 넥 네트워크(320)는 상기 추출된 이미지 특징에 대한 바운딩 박스의 회귀 정보를 포함하고, 상기 바운딩 박스의 회귀 정보 중 바운딩 박스 위치의 정확도를 높이기 위해 바운딩 박스 위치에 대한 좌표 정보를 갖는 좌표 컨볼루션 모듈을 적용한 바운딩 박스의 회귀 정보를 출력한다.

넥 네트워크(320)는 바운딩 박스의 정확도를 높이기 위해 좌표 컨볼루션 모듈을 적용하여 바운딩 박스의 X좌표와 Y좌표를 채널에 추가한 후 컨볼루션을 수행한다.

기존 YOLOv3에서는 백본 네트워크에서 이미지 특징을 연결하는 FPN [18] 구조를 사용하였다. 본 발명의 실시예에 따른 CC-YOLO는 FPN구조 대신 PANet(321)을 사용한다. PANet(321)은 기존 탑-다운(top-down) 방식이었던 FPN을 바텀-업(bottom-up) 방식 을 추가하여 바운딩 박스의 위치에 대한 정보를 더 획득할 수 있다. 백본 네트워크로부터 획득한 이미지 특징 P₃, P₄, P₅는 PANet의 입력으로 사용된다. PANet (321)에서 출력된 결과값은 헤드 네트워크(330)의 입력으로 사용되고 P₅가 입력으로 사용되는 검출기(Detect)는 상대적으로 큰 객체를 검출하고 P₃ 가 입력으로 사용되는 검출기(Detect)는 상대적으로 작은 객체를 검출한다. PANet(321)의 자세한 구조는 도 3과 같다.

본 발명의 실시예에 따른 넥 네트워크(320)는 모델의 파라미터와 연산량을 감소시키기 위해 CSP(Cross Stage Partial) 기법을 적용할 수 있다. 또한, FPN(feature Pyramid Net)에 바텀-업(bottom-up) 방식을 추가하는 PANet(Path Aggregation Network)을 사용하여 바운딩 박스의 위치에 대한 정보를 추가적으로 획득할 수 있다. 또한, 네트워크의 수용 필드를 증가시키기 위해 SPP(Spatial Pyramid Pooling) 모듈을 사용하여 복수의 크기의 맥스풀링(maxpooling)을 적용하고 채널 별로 연결할 수 있다.

본 발명의 실시예에 따른 헤드 네트워크(330)는 넥 네트워크의 출력에 대해 YOLO 레이어(331)를 사용하여 객체를 검출하고, 검출된 객체에 대한 회귀 학습을 수행한다.

헤드 네트워크(330)는 바운딩 박스의 중점 위치 및 IOU(Intersection Over Union)에 따라 회귀 학습을 수행하고, 종횡비의 일관성을 부과하기 위해 아크탄젠트를 사용하여 종횡비를 구하는 CIOU(Complete Intersection Over Union) 손실을 사용한다.

본 발명의 실시예에 따른 CC-YOLO는 YOLOv3에서 객체를 검출하는 방식 YOLO 레이어(331)를 사용한다. 검출기(Detect)에서 사용되는 입력 값 P₃, P₄, P₅는 앞서 설명된 YOLO 레이어 방식으로 변환 해주며, 각각의 검출기에서 출력되는 출력 값들에 대해 회귀 학습을 수행한다. 모델 학습이 아닌 객체 검출을 할 때는 3개의 검출기에 대하여 앞서 설명된 바운딩 박스 추출 방식으로 객체를 검출한다.

도 4는 본 발명의 일 실시예에 따른 좌표 컨볼루션(CoordConv) 모듈을 설명하기 위한 도면이다.

기존 CNN은 좌표 정보를 주고 합성 곱을 취해줬을 때 그 좌표에 해당하는 부분에 객체가 위치하지 않는 문제가 있었다. 하지만, 본 발명에서는 좌표 컨볼루션(CoordConv) 모듈을 통해 X좌표와 Y좌표를 채널에 추가함으로써 정확한 좌표에 객체의 위치를 예측할 수 있었다. 객체 검출 문제도 바운딩 박스의 위치를 예측하는 문제이기 때문에 도 4와 같이 바운딩 박스에 대한 정보를 가지고 있는 넥 네트워크 부분에 좌표 정보를 추가함으로써 바운딩 박스의 위치를 정확하게 위치시킬 수 있다.

도 5는 본 발명의 일 실시예에 따른 SPP 모듈을 설명하기 위한 도면이다.

본 발명의 실시예에 따른 SPP 모듈은 도 5와 같이 다양한 크기의 맥스 풀링(maxpooling)을 적용하고 채널 별로 연결한 구조이다. 본 발명의 실시예에서는 커널(Kernel)크기는 1, 5, 9, 13으로 사용하였고, 스트라이드(stride)는 1로 동일하다. 컨볼루션(Conv) 1x1을 통과할 때마다 배치 정규화(Batch normal)와 Swish를 적용한다. 이러한 방식을 통해 네트워크의 수용 필드가 효과적으로 증가할 수 있다. 본 발명의 실시예에서는 도 3과 같이 가장 위에서 추출한 특징 P₅에 적용시켰다.

도 6은 본 발명의 일 실시예에 따른 CSP 모듈을 설명하기 위한 도면이다.

본 발명의 실시예에 따른 CSPNet은 어떠한 네트워크에도 적용할 수 있다는 장 점이 있다. CSPNet은 도 6과 같이 기존 모듈에서 입력 채널을 2개로 분리하여 컨볼루션(Conv) 1x1에 각각 입력하고, 하나는 보틀넥(Bottleneck) 모듈을 거치고 다른 하나는 보틀넥 모듈을 건너뛰고 중간에 채널을 다시 합해준다. 처음에 채널 절반만을 모듈에 사용하기 때문에 연산량이 감소한다. 본 발명의 실시예에 따른 CC-YOLO에서는 백본 네트워크와 넥 네트워크에 존재하는 모든 보틀넥에 CSPNet을 적용한다.

기존 YOLOv3에서는 바운딩 박스 회귀를 MSE 손실[7]을 사용하였지만, 박스가 겹치는 부분에만 회귀 학습을 수행하기 때문에 CIOU 손실[13]과 GIOU 손실[19]이 이러한 문제에 대해 지적하고 IOU 손실[20]을 사용하여 문제점을 해결하였다. 본 발명의 실시예에 따 CIOU 손실은 박스의 중점 위치, 종횡 비, IOU(intersection over union)에 따라 회귀를 수행하기 때문에 빠르게 회귀한다는 장점이 있다. 따라서 제안하는 알고리듬에서는 모든 요건들을 고려한 CIOU 손실을 사용한다.

본 발명의 실시예에 따르면, 표 1에서 사용된 활성화 함수(Activation function)는 ReLU [20]와 Mish [21] 대신 Swish [22]를 사용한다. 제안하는 검출기에서는 Swish가 Mish보다 연산이 빠르고 목표 값에 빠르게 도달하기 때문에 Swish를 사용하였다.

본 발명의 실시예에 따른 EMA는 모델을 학습시킬 때 학습된 파라미터에 대한 이동 평균을 구한다. 학습된 마지막 파라미터를 쓰는 것보다 학습된 파라미터들의 평균을 이용하는 것이 더욱 효율적이므로 본 발명의 실시예에서는 EMA방식을 적용 한다.

도 7은 본 발명의 일 실시예에 따른 좌표 정보를 이용한 객체 검출 방법을 설명하기 위한 흐름도이다.

제안하는 좌표 정보를 이용한 객체 검출 방법은 백본(backbone) 네트워크를 통해 입력 영상 내의 이미지 특징을 추출하는 단계(710), 상기 추출된 이미지 특징에 대한 바운딩 박스의 회귀 정보 중 바운딩 박스 위치의 정확도를 높이기 위해 바운딩 박스 위치에 대한 좌표 정보를 갖는 좌표 컨볼루션 모듈을 적용한 넥(Neck) 네트워크를 통해 바운딩 박스의 회귀 정보를 출력하는 단계(720) 및 헤드(Head) 네트워크에서 넥 네트워크의 출력에 대해 YOLO 레이어를 사용하여 객체를 검출하고, 검출된 객체에 대한 회귀 학습을 수행하는 단계(730)를 포함한다.

단계(710)에서, 백본 네트워크를 통해 입력 영상 내의 이미지 특징을 추출한다.

본 발명의 실시예에 따른 백본 네트워크는 Focus 모듈을 사용하여 입력 이미지를 그리드 셀로 나눈 후, 나눠진 이미지를 채널 정보에 더하여 수용 필드를 넓힌다.

본 발명의 실시예에 따르면, Focus 모듈은 YOLOv5 백본에 사용한 모듈을 사용할 수 있다. 입력 이미지를 도 2와 같이 나눠주고 나눠진 이미지를 채널 정보에 더해준다. RGB 영상은 채널이 3개이지만 Focus 모듈로 인해 채널 값이 넓어 지기 때문에 수용 필드가 넓어진다. 앞서 설명된 바와 같이, Focus 모듈의 출력 채널 값은 입력 채널 값에 비해 4배 커지고 너비와 높이가 절반으로 줄어든다.

단계(720)에서, 상기 추출된 이미지 특징에 대한 바운딩 박스의 회귀 정보 중 바운딩 박스 위치의 정확도를 높이기 위해 바운딩 박스 위치에 대한 좌표 정보를 갖는 좌표 컨볼루션 모듈을 적용한 넥(Neck) 네트워크를 통해 바운딩 박스의 회귀 정보를 출력한다.

본 발명의 실시예에 따른 넥 네트워크는 바운딩 박스의 정확도를 높이기 위해 좌표 컨볼루션 모듈을 적용하여 바운딩 박스의 X좌표와 Y좌표를 채널에 추가한 후 컨볼루션을 수행한다.

본 발명의 실시예에 따른 넥 네트워크는 모델의 파라미터와 연산량을 감소시키기 위해 CSP(Cross Stage Partial) 기법을 적용할 수 있다. 또한, FPN(feature Pyramid Net)에 바텀-업(bottom-up) 방식을 추가하는 PANet(Path Aggregation Network)을 사용하여 바운딩 박스의 위치에 대한 정보를 추가적으로 획득할 수 있다. 또한, 네트워크의 수용 필드를 증가시키기 위해 SPP(Spatial Pyramid Pooling) 모듈을 사용하여 복수의 크기의 맥스풀링(maxpooling)을 적용하고 채널 별로 연결할 수 있다.

단계(730)에서, 헤드(Head) 네트워크에서 넥 네트워크의 출력에 대해 YOLO 레이어를 사용하여 객체를 검출하고, 검출된 객체에 대한 회귀 학습을 수행한다.

본 발명의 실시예에 따른 헤드 네트워크는 바운딩 박스의 중점 위치 및 IOU(Intersection Over Union)에 따라 회귀 학습을 수행하고, 종횡비의 일관성을 부과하기 위해 아크탄젠트를 사용하여 종횡비를 구하는 CIOU(Complete Intersection Over Union) 손실을 사용한다.

본 발명의 실시예에 따른 좌표 정보를 이용한 객체 검출 네트워크 구조의 효율성을 검증하기 위해서 MS COCO 2017 데이터 셋을 기준으로 객체 검출 성능 비교를 하였고 표 2와 같이 제안한 알고리듬 각각에 대하여 에블레이션 테스트(ablation test)를 진행하였다.

<표 2>

각 실험 에서 GPU는 RTX 2080ti 1개를 이용하였고 기본 이미지 크기 640Х640을 사용하였다. 본 발명은 아키텍처를 수정하지 않고 성능을 높이는 방법으로 소개된 [23]에서 제안된 학습 방법(learning rate warmup, zero , no bias decay, cosine learning rate decay)을 적용하였다. 네트워크의 학습 방법은 SGD(Stochastic Gradient Descent)방식을 사용하였고 초기 학습 비율(learning rate)은 0.01로 설정하였다. SGD의 모멘텀(momentum) 값은 0.937, 가중치 감쇠(weight decay) 값은 0.0005로 설정하였다. 제안하는 검출기의 백본 네트워크는 초기 값을 사전 학습된 가중치(Pretrained weight)로 이용한다. 그리고 학습 중에 백본 네트워크는 업데이트되지 않도록 설정하였다. 넥 네트워크에 존재하는 PANet과 헤드 네트워크는 사전 학습을 하지 않고 초기 값을 무작위로 설정하였다. mAP(mean Average Precision)는 객체 검출 성능의 평가 지표이며 실측 자료(ground truth)의 바운딩 박스와 예측한 바운딩 박스와 비교하여 모델의 성능을 평가한다. mAP50는 실측 자료의 바운딩 박스와 예측한 바운딩 박스가 50%이상 겹친 경우 정답으로 간주하는 평가 방식이다. 파라미터는 모델 크기를 나타내며, GFLOPS(Giga Floating Point Operations Per Second)는 컴퓨터가 1초동안 계산할 수 있는 연산량을 나타낸다. FPS(Frames Per Second)는 객체 검출기가 1초에 계산할 수 있는 프레임 수를 의미한다.

표 2를 참조하여 A와 B를 비교하면, 기존 YOLOv3에서는 모델 구조 내에 leaky ReLU를 사용하고 바운딩 박스에 대해 MSE 손실을 사용하였지만, swish와 CIOU 손실을 사용함으로써 손실이 감소하였고 EMA방식을 적용하여 전체적으로 mAP가 향상되었다.

표 2를 참조하여 B와 C를 비교하면, SPP모듈을 추가하여 파라미터는 약 2% 증가하였고 연산량은 0.5% 증가하였다. 하지만, 네트워크가 이미지를 더 넓게 인식하게 되었고 mAP는 약 0.4 증가하였다.

표 2를 참조하여 C와 D를 비교하면, CSPNet을 적용함으로써 파라미터가 62.99M 에서 48.51M로 약 23% 감소하였으며 연산량도 157.1G에서 115.7G로 감소하였다. 40epoch까지는 C 모델의 mAP가 더 높지만 그 이후로 점차 mAP가 역전하였고 mAP는 약 0.2 증가하였다.

표 2를 참조하여 D와 E를 비교하면, 기존 YOLOv3의 백본 네트워크였던 darknet53을 YOLOv5 백본 네트워크로 교체하였다. YOLOv5 백본 네트워크는 Focus 모듈을 추가하고 SPP블록 다음에 백본 네트워크를 쌓아 전체적인 수용 필드가 늘어났다. 약간의 파라미터가 증가하였지만, mAP는 약 0.3 증가하였다.

표 2를 참조하여 E와 F를 비교하면, 모델의 넥 네트워크를 FPN대신 PANet을 사용하였고 바운딩 박스에 대한 심층 특징 값이 많아지기 때문에 바운딩 박스 안에 객체 종류와 위치에 대한 정확도가 향상되었다. mAP50에서는 약간 낮아졌지만 mAP는 약 0.8 증가하였다.

표 2를 참조하여 F와 G를 비교하면, 바운딩 박스의 정보를 가지고 있는 PANet에 좌표 정보를 가지고 있는 좌표 컨볼루션(CoordConv)을 추가하여 더욱 정확한 바운딩 박스의 위치를 예측하였다. 파라미터가 약 0.02M, 연산량은 약 0.1G 증가했지만 mAP는 약 0.7 증가하고 mAP50 또한 약 0.9 증가하였다.

표 2를 참조하여 G와 H를 비교하면, 백본 네트워크를 전이 학습된 백본 네트워크로 학습하여 성능을 향상시키는 방법 [23,24]으로 실험 하였다. mAP가 약 1.3 증가하고 mAP50 또한 약 1.2 로 크게 증가하였다.

이와 같이 본 발명의 실시예에 따르면 YOLO를 기반한 원-스테이지 객체 검출기에 다양한 기법들을 적용하여 검출 성능을 향상시킬 수 있다. 제안하는 좌표 정보를 이용한 객체 검출 네트워크는 CIOU Loss, Swish, EMA를 사용하여 학습 성능을 높일 수 있고, Focus모듈, SPP모듈, PANet을 사용하여 네트워크의 수용 필드를 넓힐 수 있다. 또한, 좌표 정보를 가지고 있는 좌표 컨볼루션(CoordConv) 모듈을 추가하여 바운딩 박스의 위치를 정확하게 표시할 수 있고, CSP 기법을 이용하여 모델의 파라미터 및 연산량을 감소시킬 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

<참고 문헌>

[1] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, "Object detection with discriminatively trained part-based models," IEEE Trans. Pattern Anal. Mach. Intell., vol. 32, no. 9, pp. 1627-1645, 2010.

[2] R. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," arXiv [cs.CV], pp. 580- 587, 2013.

[3] R. Girshick, "Fast R-CNN," in 2015 IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1440-1448.

[4] S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks," IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137-1149, 2017.

[5] K. Duan, S. Bai, L. Xie, H. Qi, Q. Huang, and Q. Tian, "CenterNet: Keypoint triplets for object detection," in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pp. 6569-6578, 2019.

[6] M. Tan, R. Pang, and Q. V. Le, "EfficientDet: Scalable and Efficient Object Detection," arXiv [cs.CV], pp. 10781-10790, 2019.

[7] J. Redmon and A. Farhadi, "YOLOv3: An Incremental Improvement," arXiv [cs.CV], 2018.

[8] A. Bochkovskiy, C. Y. Wang, and H. Y. M. Liao, "YOLOv4: Optimal speed and accuracy of object detection," arXiv [cs.CV], 2020.

[9] X. Long, K. Deng, G. Wang, Y. Zhang, Q. Dang, Y. Gao, H. Shen, J. Ren, S. Han, E. Ding, and S. Wen, "PP-YOLO: An effective and efficient implementation of object detector," arXiv [cs.CV], 2020.

[10] YOLO-v5. https://github.com/ultralytics/yolov5

[11] K. He, X. Zhang, S. Ren, and J. Sun, "Spatial pyramid pooling in deep convolutional networks for visual recognition," IEEE Trans. Pattern Anal. Mach. Intell., vol. 37, no. 9, pp. 1904-1916, Sep. 2015.

[12] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path aggregation network for instance segmentation," in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 8759-8768, 2018.

[13] Z. Zheng, P. Wang, W. Liu, J. Li, R. Ye, and D. Ren, "Distance-IoU loss: Faster and better learning for bounding box regression," arXiv [cs.CV], 2019.

[14] P. Ramachandran, B. Zoph, and Q. V. Le, "Searching for Activation Functions," arXiv [cs.NE], 2017.

[15] R. Liu, J. Lehman, P. Molino, F. P. Such, E. Frank, A. Sergeev, J. Yosinski, "An intriguing failing of convolutional neural networks and the CoordConv solution," arXiv [cs.CV], 2018.

[16] C. Y. Wang, H. Y. Mark Liao, Y. H. Wu, P. Y. Chen, J. W. Hsieh, and I. H. Yeh, "CSPNet: A New Backbone that can Enhance Learning Capability of CNN," in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 390-391, 2020.

[17] T.-Y. Lin, M. mayor, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, "Microsoft COCO: Common objects in context," in Computer Vision - ECCV 2014, Cham: Springer International Publishing, pp. 740-755, 2014.

[18] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, "Feature pyramid networks for object detection," in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2117- 2125, 2017.

[19] H. Rezatofighi, N. Tsoi, J. Gwak, A. Sadeghian, I. Reid, and S. Savarese, "Generalized intersection over Union: A metric and A loss for bounding box regression," arXiv [cs.CV], pp. 658-666, 2019.

[20] J. Yu, Y. Jiang, Z. Wang, Z. Cao, and T. Huang, "UnitBox: An advanced object detection network," in Proceedings of the 2016 ACM on Multimedia Conference - MM '16, 2016.

[21] A. L. Maas, A. Y. Hannun, and A. Y. Ng, "Rectifier nonlinearities improve neural network acoustic models," Stanford.edu, 2013.

[22] D. Misra, "Mish: A self regularized non-monotonic activation function," arXiv [cs.LG], 2019.

[23] T. He, Z. Zhang, H. Zhang, Z. Zhang, J. Xie, and M. Li, "Bag of tricks for image classification with convolutional neural networks," in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 558-567, 2019.

[24] Z. Zhang, T. He, H. Zhang, Z. Zhang, J. Xie, and M. Li, "Bag of freebies for training object detection neural networks," arXiv [cs.CV], 2019.

Claims

입력 영상 내의 이미지 특징을 추출하는 백본(backbone) 네트워크;
상기 추출된 이미지 특징에 대한 바운딩 박스의 회귀 정보를 포함하고, 상기 바운딩 박스의 회귀 정보 중 바운딩 박스 위치의 정확도를 높이기 위해 바운딩 박스 위치에 대한 좌표 정보를 갖는 좌표 컨볼루션 모듈을 적용한 바운딩 박스의 회귀 정보를 출력하는 넥(Neck) 네트워크; 및
넥 네트워크의 출력에 대해 YOLO 레이어를 사용하여 객체를 검출하고, 검출된 객체에 대한 회귀 학습을 수행하는 헤드(Head) 네트워크
를 포함하고,
상기 넥 네트워크는,
바운딩 박스의 정확도를 높이기 위해 바운딩 박스의 X좌표와 Y좌표를 채널에 추가한 후 컨볼루션을 수행하는 좌표 컨볼루션 모듈을 추가하고, 상기 추가된 좌표 컨볼루션에 따른 모델의 파라미터와 연산량을 감소시키기 위해 CSP(Cross Stage Partial) 기법을 적용하는
YOLO 기반 객체 검출 장치.
제1항에 있어서,
상기 백본 네트워크는,
포커스(Focus) 모듈을 사용하여 입력 이미지를 그리드 셀로 나눈 후, 나눠진 이미지를 채널 정보에 더하여 수용 필드를 넓히는
YOLO 기반 객체 검출 장치.
삭제
제1항에 있어서,
상기 넥 네트워크는,
FPN(feature Pyramid Net)에 바텀-업(bottom-up) 방식을 추가하는 PANet(Path Aggregation Network)을 사용하여 바운딩 박스의 위치에 대한 정보를 추가적으로 획득하며,
네트워크의 수용 필드를 증가시키기 위해 SPP(Spatial Pyramid Pooling) 모듈을 사용하여 복수의 크기의 맥스풀링(maxpooling)을 적용하고 채널 별로 연결하는
YOLO 기반 객체 검출 장치.
제1항에 있어서,
상기 헤드 네트워크는,
바운딩 박스의 중점 위치 및 IOU(Intersection Over Union)에 따라 회귀 학습을 수행하고, 종횡비의 일관성을 부과하기 위해 아크탄젠트를 사용하여 종횡비를 구하는 CIOU(Complete Intersection Over Union) 손실을 사용하는
YOLO 기반 객체 검출 장치.
백본(backbone) 네트워크를 통해 입력 영상 내의 이미지 특징을 추출하는 단계;
상기 추출된 이미지 특징에 대한 바운딩 박스의 회귀 정보 중 바운딩 박스 위치의 정확도를 높이기 위해 바운딩 박스 위치에 대한 좌표 정보를 갖는 좌표 컨볼루션 모듈을 적용한 넥(Neck) 네트워크를 통해 바운딩 박스의 회귀 정보를 출력하는 단계; 및
헤드(Head) 네트워크에서 넥 네트워크의 출력에 대해 YOLO 레이어를 사용하여 객체를 검출하고, 검출된 객체에 대한 회귀 학습을 수행하는 단계
를 포함하고,
상기 추출된 이미지 특징에 대한 바운딩 박스의 회귀 정보 중 바운딩 박스 위치의 정확도를 높이기 위해 바운딩 박스 위치에 대한 좌표 정보를 갖는 좌표 컨볼루션 모듈을 적용한 넥 네트워크를 통해 바운딩 박스의 회귀 정보를 출력하는 단계는,
바운딩 박스의 정확도를 높이기 위해 바운딩 박스의 X좌표와 Y좌표를 채널에 추가한 후 컨볼루션을 수행하는 좌표 컨볼루션 모듈을 추가하고, 상기 추가된 좌표 컨볼루션에 따른 모델의 파라미터와 연산량을 감소시키기 위해 CSP(Cross Stage Partial) 기법을 적용하는
YOLO 기반 객체 검출 방법.
제6항에 있어서,
상기 백본 네트워크를 통해 입력 영상 내의 이미지 특징을 추출하는 단계는,
포커스(Focus) 모듈을 사용하여 입력 이미지를 그리드 셀로 나눈 후, 나눠진 이미지를 채널 정보에 더하여 수용 필드를 넓히는
YOLO 기반 객체 검출 방법.
삭제
제6항에 있어서,
FPN(feature Pyramid Net)에 바텀-업(bottom-up) 방식을 추가하는 PANet(Path Aggregation Network)을 사용하여 바운딩 박스의 위치에 대한 정보를 추가적으로 획득하며,
네트워크의 수용 필드를 증가시키기 위해 SPP(Spatial Pyramid Pooling) 모듈을 사용하여 복수의 크기의 맥스풀링(maxpooling)을 적용하고 채널 별로 연결하는
YOLO 기반 객체 검출 방법.
제6항에 있어서,
상기 헤드 네트워크에서 넥 네트워크의 출력에 대해 YOLO 레이어를 사용하여 객체를 검출하고, 검출된 객체에 대한 회귀 학습을 수행하는 단계는,
바운딩 박스의 중점 위치 및 IOU(Intersection Over Union)에 따라 회귀 학습을 수행하고, 종횡비의 일관성을 부과하기 위해 아크탄젠트를 사용하여 종횡비를 구하는 CIOU(Complete Intersection Over Union) 손실을 사용하는
YOLO 기반 객체 검출 방법.