KR102262264B1

KR102262264B1 - 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크

Info

Publication number: KR102262264B1
Application number: KR1020190058341A
Authority: KR
Inventors: 고병수; 전희재; 김종택; 김영준; 김인식
Original assignee: 네이버 주식회사
Priority date: 2019-03-22
Filing date: 2019-05-17
Publication date: 2021-06-09
Also published as: TW202036329A; KR20200112574A; TWI764081B

Abstract

이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크가 개시된다. 컴퓨터 시스템으로 구현되는 이미지 검색을 위한 프레임워크는, CNN(convolution neural network)으로부터 추출된 서로 다른 복수의 글로벌 디스크립터(global descriptor)를 연결하여(concatenate) 학습하는 메인 모듈; 및 상기 복수의 글로벌 디스크립터 중 어느 하나의 특정 글로벌 디스크립터를 추가 학습하는 보조 모듈을 포함한다.

Description

이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크{FRAMEWORK FOR COMBINING MULTIPLE GLOBAL DESCRIPTORS FOR IMAGE RETRIEVAL}

아래의 설명은 이미지 검색을 위한 딥러닝 모델의 프레임워크에 관한 것이다.

심층신경망(CNN)을 기반으로 한 이미지 디스크립터는 분류(classification), 객체 검출(object detection), 의미론적 분할(semantic segmentation)을 포함한 컴퓨터 비전 기술에서 일반적인 디스크립터로 이용되고 있다. 이외에도, 이미지 캡션(image captioning)과 시각적 질의 응답(visual question answering)과 같이 매우 의미 있는 연구에도 이용되고 있다.

CNN에 기반한 이미지 디스크립터를 활용하는 최근의 연구는 로컬 디스크립터 매칭(local descriptor matching)에 의존하는 기존 방법을 적용하고 공간 검증(spatial verification)을 통해 다시 순위를 매기는 즉각적인 레벨 이미지 검색을 위해 적용되고 있다.

이미지 검색(image retrieval) 분야에서 CNN 이후에 풀링(average pooling, max pooling, generalized mean pooling 등) 결과로 나온 특징을 글로벌 디스크립터(global descriptor)로 사용할 수 있다. 또한, 콘볼루션 계층(convolution layers) 이후에 FC 계층(fully connected layers)을 추가하여 FC 계층을 통해 나온 특징을 글로벌 디스크립터로 사용할 수도 있다. 이때, FC 계층은 차원수(dimensionality)를 감소시키기 위해 사용되는 것으로, 차원수 감소가 필요 없는 경우 FC 계층을 생략할 수 있다.

일례로, 한국등록특허 제10-1917369호(등록일 2018년 11월 05일)에는 콘볼루션 신경망을 이용한 영상 검색 기술이 개시되어 있다.

글로벌 풀링 방법(global pooling method)에 의해 생성된 대표적인 글로벌 디스크립터에는 콘볼루션의 합계 풀링(SPoC: sum pooling of convolution), 콘볼루션의 최대 활성화(MAC: maximum activation of convolution), 그리고 일반화 평균 풀링(GeM: generalized-mean pooling)이 포함된다. 각 글로벌 디스크립터의 성능은 각각 속성이 다르기 때문에 데이터 세트에 따라 달라진다. 예를 들어, SPoC는 이미지 표현에서 더 큰 영역을 활성화하는 반면, MAC는 더 많은 집중 영역을 활성화시킨다. 능력을 높이기 위해 가중치합 풀링(weighted sum pooling), 가중치 GeM, 영역(regional) MAC(R-MAC) 등과 같은 대표적인 글로벌 디스크립터의 변형이 존재한다.

최근 연구는 이미지 검색을 위한 앙상블 기법(ensemble techniques)에 초점을 맞추고 있다. 복수의 학습자(learner)를 개별적으로 교육하고 조합된 모델 리드를 사용하여 성능을 높이는 기존의 앙상블 기법이 있다면 최근에는 개별적으로 교육받은 다양한 글로벌 디스크립터를 조합하여 검색 성능을 향상시키는 접근 방식이 많다. 다시 말해, 현재 이미지 검색 분야에서 검색 성능을 높이기 위해 서로 다른 CNN 백본(backbone) 모델과 여러 글로벌 디스크립터를 조합하여(ensemble) 사용하고 있다.

그러나, 앙상블을 위해 서로 다른 학습자(CNN 백본 모델 혹은 글로벌 디스크립터)를 명시적으로 훈련시키면 훈련 시간이 길어지고 메모리 소모량이 증가할 뿐 아니라, 학습자 간의 다이버시티(diversity)를 통제하기 위해 특별히 디자인된 전략이나 손실이 필요하기 때문에 까다롭고 어려운 훈련 과정을 초래하게 된다.

서로 다른 글로벌 디스크립터를 단일 모델로 한번에 학습하여 사용할 수 있는 딥러닝 모델 프레임워크를 제공한다.

복수의 학습자(learners)를 명시적으로 훈련시키거나 학습자 간의 다이버시티(diversity)를 통제하지 않고도 복수의 글로벌 디스크립터(global descriptor)를 활용하여 앙상블과 같은 효과를 얻을 수 있는 방법을 제공한다.

컴퓨터 시스템으로 구현되는 이미지 검색을 위한 프레임워크에 있어서, CNN(convolution neural network)으로부터 추출된 서로 다른 복수의 글로벌 디스크립터(global descriptor)를 연결하여(concatenate) 학습하는 메인 모듈; 및 상기 복수의 글로벌 디스크립터 중 어느 하나의 특정 글로벌 디스크립터를 추가 학습하는 보조 모듈을 포함하는 이미지 검색을 위한 프레임워크를 제공한다.

일 측면에 따르면, 상기 메인 모듈은 이미지 표현(image representation)의 순위 손실(ranking loss)을 위한 학습 모듈이고, 상기 보조 모듈은 상기 이미지 표현의 분류 손실(classification loss)을 위한 학습 모듈이며, 상기 이미지 검색을 위한 프레임워크는 엔드-투-엔드(end-to-end) 방식으로 상기 순위 손실과 상기 분류 손실의 합계인 최종 손실로 훈련된다.

다른 측면에 따르면, 상기 CNN은 주어진 이미지의 특징 맵을 제공하는 백본(backbone) 네트워크로서 상기 백본 네트워크의 마지막 단계(stage) 이전에는 다운 샘플링(down sampling)을 작동하지 않는다.

또 다른 측면에 따르면, 상기 메인 모듈은, 상기 복수의 글로벌 디스크립터를 정규화(normalization)을 거친 후에 연결하여 하나의 최종 글로벌 디스크립터로 형성하고 상기 최종 글로벌 디스크립터를 순위 손실(ranking loss)을 통해 학습할 수 있다.

또 다른 측면에 따르면, 상기 메인 모듈은, 상기 복수의 글로벌 디스크립터를 사용하여 각각의 이미지 표현을 출력하는 복수 개의 브랜치(branch)가 포함되고, 상기 브랜치의 개수는 사용하고자 하는 글로벌 디스크립터에 따라 변경될 수 있다.

또 다른 측면에 따르면, 상기 보조 모듈은, 상기 복수의 글로벌 디스크립터 중 학습 성능에 기초하여 결정된 상기 특정 글로벌 디스크립터를 분류 손실을 이용하여 학습할 수 있다.

또 다른 측면에 따르면, 상기 보조 모듈은, 분류 손실을 이용한 학습 시 레이블 평활화(label smoothing)와 온도 스케일링(temperature scaling) 기술 중 적어도 하나를 이용할 수 있다.

컴퓨터 시스템에서 실행되는 디스크립터 학습 방법에 있어서, 상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 디스크립터 학습 방법은, CNN으로부터 추출된 서로 다른 복수의 글로벌 디스크립터를 연결하여 순위 손실로 학습하는 메인 학습 단계; 및 상기 복수의 글로벌 디스크립터 중 어느 하나의 특정 글로벌 디스크립터를 분류 손실로 추가 학습하는 보조 학습 단계를 포함하는 디스크립터 학습 방법을 제공한다.

상기 디스크립터 학습 방법을 상기 컴퓨터 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 제공한다.

본 발명의 실시예들에 따르면, 여러 글로벌 디스크립터를 조합하는 새로운 프레임워크, 즉 엔드 투 엔드(end-to-end manner) 방식으로 훈련 가능한 다수의 글로벌 디스크립터가 조합된 CGD(combination of multiple global descriptors)을 적용함으로써 각 글로벌 디스크립터에 대한 명시적 앙상블 모델이나 다이버시티 통제 없이 앙상블과 같은 효과를 달성할 수 있다. 이는, 글로벌 디스크립터, CNN 백본, 손실 및 데이터 세트에 의해 유연하고 확장 가능한 특성을 가지며, 조합 디스크립터를 사용하는 것이 다른 유형의 특징을 사용할 수 있기 때문에 단일 글로벌 디스크립터보다 성능이 뛰어날 뿐 아니라 이미지 검색 성능 또한 향상시킬 수 있다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 있어서 이미지 검색을 위한 CGD(combination of multiple global descriptors) 프레임워크를 도시한 것이다.
도 3은 본 발명의 일실시예에 있어서 분류 손실과 순위 손실을 모두 사용하는 CGD 프레임워크의 성능을 설명하기 위한 테이블이다.
도 4는 본 발명의 일실시예에 있어서 레이블 평활화(label smoothing)와 온도 스케일링(temperature scaling)을 사용하는 CGD 프레임워크의 성능을 설명하기 위한 테이블이다.
도 5 내지 도 6은 다중 글로벌 디스크립터를 훈련하기 위한 다른 유형의 아키텍처 예시들을 도시한 것이다.
도 7은 본 발명에 따른 CGD 프레임워크의 성능을 다른 유형의 아키텍처와 비교한 결과를 나타낸 테이블이다.
도 8은 본 발명의 일실시예에 있어서 다수의 글로벌 디스크립터를 연결 방법(concatenation)으로 조합한 CGD 프레임워크의 성능을 설명하기 위한 테이블이다.
도 9 내지 도 12은 본 발명의 일실시예에 있어서 여러 글로벌 디스크립터가 조합된 구성의 성능을 설명하기 위한 그래프와 테이블이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 이미지 검색을 위한 딥러닝 모델의 프레임워크에 관한 것으로, 특히 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 기술에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 엔드 투 엔드 방식으로 훈련 가능한 복수의 글로벌 디스크립터를 활용하여 앙상블과 같은 효과를 얻을 수 있는 프레임워크를 제안하는 것으로, 이를 통해 유연성, 확장성, 시간 단축, 비용 절감, 검색 성능 등의 측면에 있어서 상당한 장점들을 달성한다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 디스크립터 학습 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 디스크립터 학습 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.

프로세서(110)는 디스크립터 학습을 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.

메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 디스크립터 학습을 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.

버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 디스크립터 학습을 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.

네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 디스크립터 학습을 위한 입력이 네트워크 인터페이스(160)를 통해 수신될 수 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

본 발명의 실시예들은 서로 다른 글로벌 디스크립터를 단일 모델로 한번에 학습하여 사용할 수 있는 딥러닝 모델 프레임워크에 관한 것이다.

최근 이미지 검색 연구에서 심층 CNN에 기반을 둔 글로벌 디스크립터는 SIFT(Scale Invariant Feature Transform)와 같은 기존 기술보다 완전한 특징을 가진다. SPoC(sum pooling of convolution)는 CNN의 마지막 특징 맵에서 합계 풀링(sum pooling)을 한 것이다. MAC(maximum activation of convolution)는 또 다른 강력한 디스크립터인 반면, R-MAC(regional-MAC)은 영역 내 최대값 풀링을 수행한 후 마지막에 영역 내 MAC 디스크립터를 합한다. GeM(generalized-mean pooling)은 풀링 파라미터로 최대 및 평균값 풀링을 일반화한다. 다른 글로벌 디스크립터 방법으로는 weighted sum pooling, weighted-GeM, Multiscale R-MAC 등이 있다.

일부 연구에서는 특징 맵에서 중요한 특징의 활성화를 최대화하기 위해 추가 전략(additional strategy) 또는 주의 기제(attention mechanism)를 이용하여 시도하거나, 다른 영역의 특징 표현을 최적화하도록 네트워크를 강제하는 배치 특성 지우기(BFE)라는 전략을 제시한다. 또한, 특징 표현의 동시 최적화와 함께 부드러운 픽셀과 어려운 영역적 주의를 가진 모델을 적용하기도 한다. 상기한 기술들의 단점은 네트워크 크기와 훈련 시간을 증가시킬 수 있을 뿐만 아니라 훈련을 위해 추가 매개변수를 요구하는 문제가 있다.

다시 말해, 이미지 검색 작업에 대한 최근 연구들은 서로 다른 모델을 조합하고 여러 글로벌 디스크립터를 조합하는 것이나, 이러한 앙상블을 위해 서로 다른 모델을 훈련시키는 것은 어려울 뿐만 아니라 시간이나 메모리에 관해서도 비효율적이다.

본 실시예에서는 엔드 투 엔드 방식으로 훈련할 수 있는 동안, 복수의 글로벌 디스크립터를 활용하여 앙상블 같은 효과를 얻는 새로운 프레임워크를 제안한다. 본 발명에 따른 프레임워크는 글로벌 디스크립터, CNN 백본, 손실 및 데이터 세트에 의해 유연하고 확장 가능하다. 그리고, 본 발명에 따른 프레임워크는 훈련을 위한 몇 가지 추가 매개변수만 필요로 할 뿐 추가적인 전략이나 주의 기제가 필요하지 않다.

앙상블은 여러 명의 학습자를 훈련시켜 성과를 끌어올리고 훈련된 학습자로부터 조합된 결과를 얻는 것으로 잘 알려진 기법이며, 지난 수십 년 동안 이미지 검색에 널리 사용되고 있다. 그러나, 기존 앙상블 기법의 단점은 모델 복잡성이 증가함에 따라 연산 비용의 증가로 이어지고 학습자 간의 다이버시티를 산출하기 위해 추가적인 제어가 필요하다는 것이다.

본 발명에 따른 프레임워크는 다이버시티의 통제 없이 엔드 투 엔드 방식으로 훈련될 수 있을 때 앙상블 기법의 아이디어를 활용할 수 있다.

도 2는 본 발명의 일실시예에 있어서 이미지 검색을 위한 CGD(combination of multiple global descriptors) 프레임워크를 도시한 것이다.

본 발명에 따른 CGD 프레임워크(200)는 상기에서 설명한 컴퓨터 시스템(100)을 통해 구현될 수 있으며, 디스크립터 학습을 위한 구성요소로서 프로세서(110)에 포함될 수 있다.

도 2를 참조하면, CGD 프레임워크(200)는 CNN 백본 네트워크(201)와, 두 개의 모듈인 메인 모듈(210) 및 보조 모듈(220)로 구성될 수 있다.

이때, 메인 모듈(210)은 이미지 표현(image representation)을 학습하는 역할을 하는 것으로, 순위 손실(ranking loss)을 위한 복수 개의 글로벌 디스크립터의 조합으로 이루어진다. 그리고, 보조 모듈(220)은 분류 손실(classification loss)로 CNN을 미세 조정하기 위한 역할을 한다.

CGD 프레임워크(200)는 엔드 투 엔드 방식으로 메인 모듈(210)로부터의 순위 손실과 보조 모듈(220)로부터의 분류 손실의 합계인 최종 손실로 훈련될 수 있다.

1. CNN 백본 네트워크(201)

CNN 백본 네트워크(201)로는 모든 CNN 모델이 사용 가능하다. CGD 프레임워크(200)는 BN-Inception, ShuffleNet-v2, ResNet, 그리고 이외 변형 모델 등과 같은 CNN 백본들을 사용할 수 있으며, 예를 들어 도 2에 도시한 바와 같이 ResNet-50을 CNN 백본 네트워크(201)로 사용할 수 있다.

일례로, CNN 백본 네트워크(201)는 4단계로 이루어진 네트워크를 이용할 수 있고, 이때 마지막 특징 맵(feature map)에서 더 많은 정보를 보존하기 위해 3단계(stage3)와 4단계(stage4) 사이의 다운 샘플링 작동을 포기함으로써 해당 네트워크를 수정할 수 있다. 이를 통해, 224×224의 입력 크기에 대한 14×14 크기의 특징 맵을 제공하므로 개별 글로벌 디스크립터의 성능이 향상될 수 있다. 다시 말해, 글로벌 디스크립터의 성능 향상을 위해 ResNet-50의 3단계(stage3) 이후 마지막 단계(stage4) 이전에는 다운 샘플링을 하지 않고 더 많은 정보가 포함되도록 한다.

2. 메인 모듈(210): 복수의 글로벌 디스크립터

메인 모듈(210)은 CNN 백본 네트워크(201)의 마지막 특징 맵에서 여러 특징 종합(feature aggregation) 방법을 통해 글로벌 디스크립터를 추출하고 FC 계층과 정규화(normalization)을 거친다.

메인 모듈(210)에서 추출된 글로벌 디스크립터는 연결되어(concatenate) 정규화를 거쳐 하나의 최종 글로벌 디스크립터를 형성할 수 있고, 이때 최종 글로벌 디스크립터는 순위 손실을 통해 인스턴스 레벨(instance level)에서 학습된다. 여기서, 순위 손실은 메트릭 학습(metric learning)을 위한 손실로 대체 가능하며, 대표적으로 triplet 손실을 사용할 수 있다.

상세하게, 메인 모듈(210)은 마지막 콘볼루션 계층에서 서로 다른 글로벌 디스크립터를 사용하여 각 이미지 표현을 출력하는 여러 개의 브랜치(분기, branch)가 포함된다. 일례로, 메인 모듈(210)은 SPoC(sum pooling of convolution), MAC(maximum activation of convolution), GeM(generalized-mean pooling)을 포함하여 각 브랜치에서 가장 대표적인 글로벌 디스크립터의 세 가지 유형을 사용한다.

메인 모듈(210)에 포함된 브랜치의 개수는 늘리거나 줄일 수 있으며, 사용자 니즈에 맞게 사용하고자 하는 글로벌 디스크립터를 변형 및 조합할 수 있다.

이미지 I가 주어졌을 때, 마지막 콘볼루션 계층 출력은 C×H×W 차원의 3D 텐서(tensor)

로서, 여기서 C는 특징 맵의 수이다.

를 특징 맵

의 H×W 활성화 세트라 하자. 네트워크 출력은 2D 특징 맵의 C 채널로 구성된다. 글로벌 디스크립터는

를 입력으로 사용하고 풀링 프로세스에 의한 출력으로서 벡터

를 생성한다. 이러한 풀링 방법은 수학식 1과 같이 일반화할 수 있다.

[수학식 1]

일 때 SPoC를

로,

일 때 SPoC를

으로 정의하고, 나머지 경우에 대해 GeM을

으로 정의한다. GeM의 경우 실험을 통해 고정된

파라미터 3을 사용할 수 있으며, 실시예에 따라서는 파라미터

를 사용자가 수동으로 설정하거나 혹은 파라미터

자체를 학습할 수 있다.

i번째 브랜치의 출력 특징 벡터

는 FC 계층을 통한 차원 감소 및

-정규화(normalization) 계층을 통한 정규화에 의해 생성된다.

[수학식 2]

라 할 때,

은 브랜치의 수이고,

는 FC 계층의 가중치이며, 글로벌 디스크립터

는

일 때 SPoC,

일 때 MAC,

일 때 GeM일 수 있다.

본 발명에 따른 CGD 프레임워크(200)의 조합 디스크립터

라 하는 최종 특징 벡터는 여러 가지 브랜치의 출력 특징 벡터를 연결하여 순차적으로

-정규화를 수행한다.

[수학식 3]

라 할 때,

는 연결(concatenation)이다.

이러한 조합 디스크립터는 어떠한 유형의 순위 손실에서도 훈련될 수 있으며, 일례로 batch-hard triplet loss을 대표적으로 사용한다.

CGD 프레임워크(200)에서는 여러 글로벌 디스크립터를 조합하는 데 두 가지 장점이 있다. 첫째, 몇 가지 추가 매개변수만으로 앙상블 같은 효과를 준다. 앞에서 언급한 연구들과 같이 앙상블 효과를 얻지만 이를 엔드 투 엔드 방식으로 훈련시킬 수 있도록 하기 위해, CGD 프레임워크(200)는 단일 CNN 백본 네트워크(201)에서 여러 개의 글로벌 디스크립터를 추출하고 있다. 둘째, 다이버시티 통제 없이 각 브랜치의 출력에 대해 자동으로 다른 속성을 제공한다. 최근 연구에서는 학습자 간의 다이버시티를 장려하기 위해 특별히 디자인된 손실을 제안하고 있으나, CGD 프레임워크(200)는 브랜치들 간의 다이버시티를 통제하기 위해 특별히 디자인된 손실을 요구하지 않는다.

실험을 통해 글로벌 디스크립터에 대한 여러 조합의 성능을 비교하여 디스크립터 조합을 찾을 수 있다. 다만, 데이터마다 출력 특징 차원에 따라 성능 차이가 크지 않는 경우가 있다. 예를 들어, SPoC 1536차원과 768차원의 성능이 크지 않다면, SPoC 1536차원(단일 글로벌 디스크립터)보다 SPoC 768차원 + GeM 768차원(다중 글로벌 디스크립터)의 조합을 사용하는 것이 더 좋은 성능을 얻을 수 있다.

3. 보조 모듈(220): 분류 손실

보조 모듈(220)은 임베딩의 범주 레벨(categorical level)에서 학습하기 위해 메인 모듈(210)의 첫 번째 글로벌 디스크립터에서 출력되는 이미지 표현을 분류 손실을 이용하여 학습할 수 있다. 이때, 분류 손실을 이용한 학습 시 성능 향상을 위해 레이블 평활화(label smoothing)와 온도 스케일링(temperature scaling) 기술을 적용할 수 있다.

다시 말해, 보조 모듈(220)은 보조 분류 손실을 이용하여 메인 모듈(210)의 첫 번째 글로벌 디스크립터를 기반으로 CNN 백본을 미세 조정한다. 보조 모듈(220)은 메인 모듈(210)에 포함된 글로벌 디스크립터 중 첫 번째 글로벌 디스크립터에서 나오는 이미지 표현을 분류 손실을 이용하여 학습할 수 있다. 이는 두 단계로 구성된 접근법을 따르며, 이는 CNN 백본을 분류 손실과 함께 미세 조정하여 컨볼루션 필터를 개선한 다음 네트워크를 미세 조정하여 글로벌 디스크립터의 성능을 개선한다.

CGD 프레임워크(200)에서는 이러한 접근방식을 수정하여 엔드 투 엔드 훈련을 위한 단 한 번의 단계를 가지도록 한다. 보조 분류 손실이 있는 훈련은 등급간 분리 속성을 가지는 이미지 표현을 가능하게 하며, 순위 손실에 대해서만 사용하는 것보다 네트워크를 더 빠르고 더 안정되게 훈련하도록 돕는다.

소프트맥스 교차 엔트로피 손실(softmax loss)에서의 온도 스케일링과 레이블 평활화는 분류 손실 훈련에 도움이 되는 것으로, 소프트맥스 손실은 수학식 4와 같이 정의된다.

[수학식 4]

여기서,

,

는 각각 배치 크기, 클래스 수 및 i번째 입력의 ID 레이블을 의미한다.

와

는 각각 훈련 가능한 가중치와 바이어스(bias)이다. 그리고,

는 첫 번째 브랜치의 글로벌 디스크립터인데, 여기서

는 기본값(default value) 1의 온도 파라미터이다.

수학식 4에서 저온 파라미터

를 사용한 온도 스케일링은 더 어려운 예에 더 큰 기울기(gradient)를 할당하며, 클래스 내 컴팩트 및 클래스 간 스프레드-아웃 임베딩에 유용하다. 레이블 평활화는 모델을 강화하여 훈련 중 레이블 드롭아웃의 한계 효과를 추정하여 일반화를 개선한다. 따라서, 오버 피팅을 방지하고 더 나은 임베딩 방법을 학습하기 위해 보조 분류 손실에 레이블 평활화와 온도 스케일링을 추가한다.

분류 손실 계산을 위한 첫 번째 글로벌 디스크립터는 각 글로벌 디스크립터의 성능을 고려하여 결정할 수 있다. 일례로, 조합에 사용하고자 하는 글로벌 디스크립터들을 단일 브랜치로 사용하여 학습을 진행한 다음 그 중에 성능이 좋은 글로벌 디스크립터를 분류 손실 계산을 위한 첫 번째 글로벌 디스크립터로 사용할 수 있다. 예를 들어, SPoC, MAC, GeM을 각각 학습한 결과 성능이 GeM>SPoC>MAC이라면 GeM+MAC의 조합이 MAC+GeM의 조합보다 더 좋은 성능을 내는 경향이 있기 때문에 이를 고려하여 GeM을 분류 손실 계산을 위한 글로벌 디스크립터로 사용할 수 있다.

4. 프레임워크 구성

CGD 프레임워크(200)는 글로벌 디스크립터 브랜치의 개수에 의해 확장될 수 있고, 글로벌 디스크립터의 구성에 따라 다른 유형의 네트워크를 허용한다. 예를 들어, 3개의 글로벌 디스크립터(SPoC, MAC, GeM)를 사용하며, 보조 분류 손실에 대해 단독으로 최초의 글로벌 디스크립터를 사용하므로 12개의 가능한 구성을 만들 수 있다.

설명의 편의를 위해, SPoC를 S로, MAC을 M으로, GeM을 G로 약칭하며, 표기 중 첫 번째 문자는 보조 분류 손실에 사용되는 첫 번째 글로벌 디스크립터를 의미한다. CGD 프레임워크(200)는 하나의 CNN 백본 네트워크(201)로부터 세 가지 글로벌 디스크립터 S, M, G를 추출할 수 있으며, 이때 글로벌 디스크립터 S, M, G를 기준으로 12가지 구성이 가능하다: S, M, G, SM, MS, SG, GS, MG, GM, SMG, MSG, GSM. 모든 글로벌 디스크립터가 조합되어 순위 손실에서 학습되며, 첫 번째 글로벌 디스크립터만 분류 손실에서 부가적으로 학습될 수 있다. 예를 들어, SMG의 경우 글로벌 디스크립터 S만 분류 손실에서 부가적으로 학습되며, 모든 S, M 및 G는 조합되어(SM, MS, SG, GS, MG, GM, SMG, MSG, GSM) 순위 손실에서 학습된다.

따라서, 복수의 글로벌 디스크립터를 앙상블 하기 위해 여러 모델을 따로 학습하는 기존 방법과 달리, 본 발명은 하나의 모델만 엔트 투 엔트로 학습하여 앙상블과 같은 효과를 얻을 수 있다. 기존 방법들은 앙상블을 위해 별도로 제작된 손실을 통해 다이버시티 통제를 진행하는 반면에, 본 방법은 다이버시티 통제없이 앙상블과 같은 효과를 얻을 수 있다. 본 발명에 따르면, 최종 글로벌 디스크립터를 이미지 검색에 사용할 수 있으며, 필요에 따라 더욱 작은 차원을 사용하기 위해 연결하기(concatenate) 직전의 이미지 표현들을 사용할 수 있다. 사용자 니즈에 따라 다양한 글로벌 디스크립터를 사용할 수 있고 글로벌 디스크립터의 개수를 조절하여 모델의 확장 및 축소가 가능하다.

상기한 CGD 프레임워크(200)의 구현 예시는 다음과 같다.

이미지 검색을 위한 데이터 세트로서, 문헌 "C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie.The caltech-ucsd birds-200-2011 dataset. 2011."에서 이용된 데이터 세트(CUB200)와, 문헌 "J. Krause, M. Stark, J. Deng, and L. Fei-Fei. 3d object representations for fine-grained categorization. In Proceedings of the IEEE International Conference on Computer Vision Workshops, pages 554-561, 2013."에서 이용된 데이터 세트(CARS196)를 이용하여 본 발명에 따른 CGD 프레임워크(200)를 평가한다. CUB200과 CARS196의 경우 경계 상자(bounding box) 정보가 있는 잘라낸 영상을 사용한다.

모든 실험은 24GB 메모리를 가진 Tesla P40 GPU에서 MXNet을 사용하여 실행된다. 그리고, MXNet GluonCV의 ImageNet ILSVRC 사전 가중치와 함께 BNInception, ShuffleNet-v2, ResNet-50, SEResNet-50을 사용한다. 모든 실험에서 224×224의 입력 크기와 1536 차원의 임베딩을 사용한다. 훈련 단계에서 입력 영상은 252×252로 크기를 조정하고, 임의로 224×224로 자른 다음, 수평으로 무작위로 플립한다. 학습 속도가 1e-4인 아담 옵티마이저를 사용하며 학습 속도를 스케줄링하는 데 단계적 감쇠가 사용된다. 모든 실험에서 triplet 손실의 마진

은 0.1이고, 소프트맥스 손실의 온도

는 0.5이다. 배치 크기는 모든 데이터 세트에 128개가 사용되며, 클래스당 인스턴스는 CARS196, CUB200에 64개가 사용되며, 기본 입력 크기인 224×224에 의해서만 이미지 크기를 조정한다.

1. 아키텍처 디자인 실험

(1) 훈련 순위와 분류 손실

분류 손실

CGD 프레임워크(200)는 첫 번째 글로벌 디스크립터의 분류 손실과 함께 순위 손실에 의해 훈련된다. 도 3의 테이블은 CARS196에서 순위 손실만 사용하는 경우(Rank)와 보조 분류 손실과 순위 손실을 모두 사용하는 경우(Both)의 성과를 비교한 것이다. 이 실험에서는 레이블 평활화와 온도 스케일링을 모든 경우에 분류 손실에 적용하지 않는다. 이는 두 손실을 모두 사용하는 것이 순위 손실을 단독으로 사용하는 것보다 더 높은 성능을 제공한다는 것을 입증한다. 분류 손실은 범주형 수준에서 각 클래스를 폐쇄된 임베딩 공간으로 클러스터링하는 데 초점을 맞춘다. 순위 손실은 동일한 등급에서 샘플을 수집하고 인스턴스 레벨의 서로 다른 등급에서 샘플 간의 거리를 두는 데 초점을 맞춘다. 따라서, 순위 손실을 보조 분류 손실과 함께 훈련하면 범주형 및 세분화된 특징 임베딩에 대한 최적화가 개선된다.

레이블 평활화 및 온도 스케일링

도 4의 테이블은 CARS196에서 레이블 평활화와 온도 스케일링을 모두 사용하지 않은 경우(no trick)(None), 레이블 평활화를 사용하는 경우(LS), 온도 스케일링을 사용하는 경우(TS), 그리고 레이블 평활화와 온도 스케일링을 모두 사용하는 경우(both tricks)(Both)의 성과를 비교한 것이다. 이는 글로벌 디스크립터 SM을 사용하여 ResNet-50 백본에서 수행되며, 각 레이블 평활화와 온도 스케일링을 사용하는 것이 'no tricks'에 비해 성능을 향상시킨다는 것을 보여준다. 더욱이, 레이블 평활화와 온도 스케일링을 함께 적용하면 각각의 성능이 향상되고 최고의 성능을 얻을 수 있음을 알 수 있다.

(2) 다중 글로벌 디스크립터 조합

조합의 위치

CGD 프레임워크(200)는 여러 개의 글로벌 디스크립터를 사용하므로 최고의 아키텍처를 선택하기 위해 여러 개의 글로벌 디스크립터 조합의 다른 위치를 가지고 실험을 수행한다.

도 5는 다중 글로벌 디스크립터를 훈련하기 위한 제1 유형의 아키텍처를 도시한 것이고, 도 6은 다중 글로벌 디스크립터를 훈련하기 위한 제2 유형의 아키텍처를 도시한 것이다.

도 5에 도시한 바와 같이, 제1 유형의 아키텍처는 각 글로벌 디스크립터를 개별 순위 손실로 훈련시킨 후 추론 단계에서 조합하는 한편, 각 브랜치에 대해 동일한 글로벌 디스크립터를 사용하고 분류 손실을 사용하지 않는다.

한편, 도 6에 도시한 제2 유형의 아키텍처는 글로벌 디스크립터의 원시 출력을 조합하여 단일 순위 손실로 교육하는 한편, 여러 개의 글로벌 디스크립터를 사용하지 않는다.

반면에, 본 발명에 따른 CGD 프레임워크(200)는 도 2에 도시한 바와 같이 FC 계층 이후의 여러 글로벌 디스크립터와

-정규화를 조합한다.

도 7의 테이블은 CUB200에서 글로벌 디스크립터 SM을 사용하는 것으로, CGD 프레임워크의 성능을 제1 유형의 아키텍처(A) 및 제2 유형의 아키텍처(B)와 비교한 것이다. CGD 프레임워크가 가장 성능이 높음을 알 수 있다.

제2 유형의 아키텍처(B)는 복수의 브랜치 특성과 출력 특성 벡터의 다이버시티를 포함하고 있다. CGD 프레임워크와는 대조적으로, 훈련 단계에서 제1 유형의 아키텍처(A)의 최종 임베딩은 추론 단계와는 다르며, 제2 유형의 아키텍처(B)의 최종 임베딩은 연결 후 FC 계층으로 인하여 글로벌 디스크립터의 각 속성을 상실한다.

조합 방법

조합 방법의 관점에서 다수의 글로벌 디스크립터의 연결(concatenation)과 요약(summation)은 모델 성과를 향상시킨다. 따라서, 본 발명에 따른 CGD 프레임워크는 두 가지 조합 방법을 비교하여 가장 좋은 방법을 선택할 수 있다.

도 8의 테이블은 CUB200에서 글로벌 디스크립터 SM을 사용하는 것으로, 조합 방법인 요약 방법(Sum)과 연결 방법(Concat)의 성과를 비교한 것이다. 여러 글로벌 디스크립터의 연결 방법(Concat)은 요약 방법(Sum)에 비해 보다 나은 성능을 제공한다. 요약 방법(Sum)은 글로벌 디스크립터의 활성화가 서로 혼합되어(mix) 각 글로벌 디스크립터의 특성을 잃을 수 있는 반면, 연결 방법(Concat)은 각 글로벌 디스크립터의 속성을 보존하며 다이버시티를 유지할 수 있다.

2. 조합 디스크립터의 효과

(1) 정량 분석

본 발명에 따른 CGD 프레임워크의 핵심은 다중 글로벌 디스크립터를 활용하는 것이다. CGD 프레임워크가 보조 분류 손실에 온도 스케일링을 사용하는 각 이미지 검색 데이터 세트에 대해 12가지 가능한 구성을 실험한다.

도 9는 CARS196에 대한 CGD 프레임워크의 다양한 구성의 성능을, 도 10은 CUB200에 대한 CGD 프레임워크의 다양한 구성의 성능을 비교한 것이다. 본 실험은 클래스당 100개의 인스턴스를 샘플링한 테스트 세트를 이용한 것이다. 딥 러닝 모델의 불확실성으로 인해 박스 플롯을 사용하여 10회 이상의 결과를 나타낸 것이다.

도 9와 도 10을 참조하면, 조합 디스크립터(SG, GSM, SMG, SM, GM, GS, MS, MSG, MG)가 단일 글로벌 디스크립터(S, M, G) 보다 월등한 성능을 낸다는 것을 알 수 있다. CUB200의 경우, 단일 글로벌 디스크립터 G와 M은 상대적으로 높은 성능을 보이는 반면 최고의 성능 구성은 여전히 조합 디스크립터 MG이다. 성능은 데이터 세트의 속성, 분류 손실에 사용되는 특징, 입력 크기 및 출력 차원 등에 따라 달라질 수 있다. 주요 본질은 여러 글로벌 디스크립터를 활용하면 단일 글로벌 디스크립터에 비해 성능이 향상될 수 있다는 것이다.

도 11의 테이블은 CARS196에 대한 조합 디스크립터(SG, GSM, SMG, SM, GM, GS, MS, MSG, MG)와 단일 글로벌 디스크립터(S, M, G)의 성능을 비교한 것이다. 개별 디스크립터는 각 브랜치의 출력 특징 벡터를 의미한다. 조합 디스크립터는 CGD 프레임워크의 최종 특징 벡터이다.

도 11은 조합 전 개별 글로벌 디스크립터의 성능과 조합 이후 산출할 수 있는 성능 향상 정도를 보여준 것이다. 모든 조합 디스크립터는 1536차원 임베드 벡터를 가지고 있는 반면, 각각의 개별 디스크립터는 SM, MS, SG, GS, MG, GM을 위한 1536차원 임베드 벡터와 SMG, MSG, GS, MG, GS, GM을 위한 512차원 임베드 벡터를 가지고 있다. 더 큰 임베드 벡터는 대개 더 나은 성능을 제공한다. 그러나, 큰 임베드 및 작은 임베드 사이의 성능 차이가 크지 않은 경우, 다른 글로벌 디스크립터의 여러 작은 임베드를 사용하는 것이 바람직할 수 있다. 예를 들어, 768차원 임베드 SG의 개별 디스크립터 GeM은 1536차원 임베드의 단일 디스크립터 G와 유사한 성능을 가지고 있기 때문에, SG는 SPC와 GeM의 다른 특징을 조합하여 큰 성능 향상을 얻는다.

3. CGD 프레임워크의 유연성

도 12는 본 발명에 따른 CGD 프레임워크가 다양한 순위 손실(batch-hard triplet 손실, HAP2S 손실, 가중 샘플링 마진 손실 등)을 사용할 수 있음을 보여준 것이다. 단일 글로벌 디스크립터 S와 다중 글로벌 디스크립터 SM의 성능을 비교해볼 때 모든 경우에서 다중 글로벌 디스크립터 SM의 성능이 단일 글로벌 디스크립터 S보다 뛰어나다는 점에서 다양한 손실을 적용할 수 있어 유연하다는 것을 알 수 있다.

순위 손실 이외에도, 본 발명에 따른 CGD 프레임워크는 다양한 종류의 CNN 백본 네트워크는 물론이고, 다양한 이미지 검색 데이터 세트를 적용할 수 있다. 다중 글로벌 디스크립터를 적용한 CGD 프레임워크는 대부분의 백본이나 데이터 세트에서 기존 모델보다 더 높은 성능을 제공한다.

이처럼 본 발명의 실시예들에 따르면, 복수 개의 글로벌 디스크립터를 조합하는 새로운 프레임워크, 즉 엔드 투 엔드 방식으로 훈련 가능한 다수의 글로벌 디스크립터가 조합된 CGD을 적용함으로써 각 글로벌 디스크립터에 대한 명시적 앙상블 모델이나 다이버시티 통제 없이 앙상블과 같은 효과를 달성할 수 있다. 본 발명에 따른 CGD 프레임워크는 글로벌 디스크립터, CNN 백본, 손실 및 데이터 세트에 의해 유연하고 확장 가능한 특성을 가지며, 조합 디스크립터를 사용하는 것이 다른 유형의 특징을 사용할 수 있기 때문에 단일 글로벌 디스크립터보다 성능이 뛰어날 뿐 아니라 이미지 검색 성능 또한 향상시킬 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 시스템으로 구현되는 이미지 검색을 위한 프레임워크에 있어서,
CNN(convolution neural network)에서의 풀링(pooling)에 따라 생성되거나, 또는, CNN의 FC 계층(fully connected layer)을 통과하여 생성된 서로 다른 복수의 글로벌 디스크립터(global descriptor)를 연결하여(concatenate) 학습하는 메인 모듈; 및
상기 복수의 글로벌 디스크립터 중 어느 하나의 특정 글로벌 디스크립터를 별도로 학습하는 보조 모듈
을 포함하는 이미지 검색을 위한 프레임워크.
제1항에 있어서,
상기 메인 모듈은 순위 손실(ranking loss)을 이용하여 이미지 표현(image representation)을 학습하기 위한 학습 모듈이고,
상기 보조 모듈은 분류 손실(classification loss)을 이용하여 상기 특정 글로벌 디스크립터에서 나오는 이미지 표현을 학습하기 위한 학습 모듈이며,
상기 이미지 검색을 위한 프레임워크는 엔드-투-엔드(end-to-end) 방식으로 상기 순위 손실과 상기 분류 손실의 합계인 최종 손실을 이용하여 훈련되는 것
을 특징으로 하는 이미지 검색을 위한 프레임워크.
제1항에 있어서,
상기 CNN은 주어진 이미지의 특징 맵을 제공하는 백본(backbone) 네트워크로서 상기 백본 네트워크의 마지막 단계(stage) 이전에는 다운 샘플링(down sampling)을 작동하지 않는 것
을 특징으로 하는 이미지 검색을 위한 프레임워크.
제1항에 있어서,
상기 메인 모듈은,
상기 복수의 글로벌 디스크립터를 정규화(normalization)을 거친 후에 연결하여 하나의 최종 글로벌 디스크립터로 형성하고 상기 최종 글로벌 디스크립터를 순위 손실(ranking loss)을 이용하여 학습하는 것
을 특징으로 하는 이미지 검색을 위한 프레임워크.
제1항에 있어서,
상기 메인 모듈은,
상기 복수의 글로벌 디스크립터를 사용하여 각각의 이미지 표현을 출력하는 복수 개의 브랜치(branch)가 포함되고,
상기 브랜치의 개수는 사용하고자 하는 글로벌 디스크립터에 따라 변경되는 것
을 특징으로 하는 이미지 검색을 위한 프레임워크.
제1항에 있어서,
상기 보조 모듈은,
상기 복수의 글로벌 디스크립터 중 학습 성능에 기초하여 결정된 상기 특정 글로벌 디스크립터를 분류 손실을 이용하여 학습하는 것
을 특징으로 하는 이미지 검색을 위한 프레임워크.
제6항에 있어서,
상기 보조 모듈은,
분류 손실을 이용한 학습 시 레이블 평활화(label smoothing)와 온도 스케일링(temperature scaling) 기술 중 적어도 하나를 이용하는 것
을 특징으로 하는 이미지 검색을 위한 프레임워크.
컴퓨터 시스템에서 실행되는 디스크립터 학습 방법에 있어서,
상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 디스크립터 학습 방법은,
CNN에서의 풀링(pooling)에 따라 생성되거나, 또는, CNN의 FC 계층(fully connected layer)을 통과하여 생성된 서로 다른 복수의 글로벌 디스크립터를 연결하여 순위 손실을 이용하여 학습하는 메인 학습 단계; 및
상기 복수의 글로벌 디스크립터 중 어느 하나의 특정 글로벌 디스크립터를 분류 손실을 이용하여 별도로 학습하는 보조 학습 단계
를 포함하는 디스크립터 학습 방법.
제8항에 있어서,
상기 디스크립터 학습 방법은,
상기 복수의 글로벌 디스크립터를 엔드-투-엔드 방식으로 상기 순위 손실과 상기 분류 손실의 합계인 최종 손실을 이용하여 훈련하는 것
을 특징으로 하는 디스크립터 학습 방법.
제8항에 있어서,
상기 CNN은 주어진 이미지의 특징 맵을 제공하는 백본 네트워크로서 상기 백본 네트워크의 마지막 단계 이전에는 다운 샘플링을 작동하지 않는 것
을 특징으로 하는 디스크립터 학습 방법.
제8항에 있어서,
상기 메인 학습 단계는,
상기 복수의 글로벌 디스크립터를 정규화를 거친 후에 연결하여 하나의 최종 글로벌 디스크립터로 형성하고 상기 최종 글로벌 디스크립터를 상기 순위 손실을 이용하여 학습하는 것
을 특징으로 하는 디스크립터 학습 방법.
제8항에 있어서,
상기 보조 학습 단계는,
상기 복수의 글로벌 디스크립터 중 학습 성능에 기초하여 결정된 상기 특정 글로벌 디스크립터를 상기 분류 손실을 이용하여 학습하는 것
을 특징으로 하는 디스크립터 학습 방법.
제12항에 있어서,
상기 보조 학습 단계는,
상기 분류 손실을 이용한 학습 시 레이블 평활화와 온도 스케일링 기술 중 적어도 하나를 이용하는 것
을 특징으로 하는 디스크립터 학습 방법.
제8항 내지 제13항 중 어느 한 항의 디스크립터 학습 방법을 상기 컴퓨터 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.