KR20200105157A

KR20200105157A - 온라인 학습을 이용한 객체 트래킹을 위한 방법 및 시스템

Info

Publication number: KR20200105157A
Application number: KR1020190023916A
Authority: KR
Inventors: 강명구; 위동윤; 배순민
Original assignee: 네이버 주식회사
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2020-09-07
Also published as: JP2022521540A; US11972578B2; CN113454640A; JP7192143B2; KR102198920B1; WO2020175818A1; US20210390347A1

Abstract

온라인 학습을 이용한 객체 트래킹을 위한 방법 및 시스템이 개시된다. 객체 트래킹 방법에 있어서, 글로벌 패턴 매칭(global pattern matching)을 이용하여 분류기(classifier) 모델을 학습하는 단계; 및 상기 분류기 모델을 포함한 온라인 학습을 통해 각 타겟을 분류하여 트래킹하는 단계를 포함한다.

Description

온라인 학습을 이용한 객체 트래킹을 위한 방법 및 시스템{METHOD AND SYSTEM FOR OBJECT TRACKING USING ONLINE LEARNING}

아래의 설명은 객체 트래킹(object tracking) 기술에 관한 것이다.

객체 포즈 추정은 컴퓨터 비전, 인간-기계 상호작용, 및 기타 관련 영역에 대한 중요 내용이다. 예컨대, 사용자의 머리를 추정될 객체로 간주하면 사용자의 연속적인 머리 포즈에 대한 추정을 통하여 사용자가 표현하고 싶은 풍부한 개성화 정보를 알 수 있다. 또한, 객체(이를 테면, 머리) 포즈의 추정 결과는 인간-기계 상호작용을 진행하기 위해 사용될 수 있으며, 예를 들어, 머리 포즈에 대한 추정을 통해 사용자의 시선 초점을 획득할 수 있고 더 효과적인 인간-기계 상호작용을 진행할 수 있다

객체 포즈 추정 기술의 일례로, 한국 공개특허공보 제10-2008-0073933호(공개일 2008년 08월 12일)에는 입력 비디오 영상으로부터 객체의 움직임을 실시간으로 자동 트래킹하고 객체의 포즈를 판단하는 기술이 개시되어 있다.

현재 사용된 객체 포즈 추정 방법은 일반적으로 추적(tracking) 기반의 방법 및 학습 기반의 방법으로 구분된다.

추적 기반의 방법은 비디오 시퀀스에 있는 현재 프레임(Current Frame)과 전 프레임(Previous Frame)의 사이에 하나의 쌍(paired) 매칭 방법으로 객체의 포즈를 추정하는 것이다.

학습 기반의 방법은 일반적으로 객체 포즈 추정을 분류(classify) 방식 또는 복귀 방식으로 정의하며, 라벨을 포함하는 샘플을 통해 트레이닝을 진행하고 획득된 트레이닝 모델을 이용하여 객체의 포즈를 추정한다.

각 타겟의 ID(식별번호)를 분류하는 분류기(classifier)가 추가된 온라인 학습 모델을 통해 각 타겟의 글로벌 패턴(global pattern)을 학습할 수 있다.

시간 축과 함께 누적되는 각 타겟의 학습 데이터를 만들고 이를 이용하여 분류기 모델을 학습할 수 있다.

로컬 패턴(local pattern)에 따른 모션 팩터(motion factor)와 글로벌 패턴에 따른 외양 팩터(appearance factor)를 트래킹에 함께 이용할 수 있다.

컴퓨터 시스템에서 수행되는 객체 트래킹 방법에 있어서, 상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 객체 트래킹 방법은, 상기 적어도 하나의 프로세서에 의해, 글로벌 패턴 매칭(global pattern matching)을 이용하여 분류기(classifier) 모델을 학습하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 분류기 모델을 포함한 온라인 학습을 통해 각 타겟을 분류하여 트래킹하는 단계를 포함하는 객체 트래킹 방법을 제공한다.

일 측면에 따르면, 상기 학습하는 단계는, 각 타겟을 분류하는 분류기가 추가된 학습 모델을 통해 각 타겟의 글로벌 패턴을 학습하는 단계를 포함할 수 있다.

다른 측면에 따르면, 상기 학습하는 단계는, 샘플 마이닝(sample mining)을 통해 시간 축과 함께 누적되는 각 타겟의 학습 데이터를 만들고 누적된 학습 데이터를 이용하여 상기 분류기 모델을 반복 학습하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 학습하는 단계는, 입력 비디오의 연속된 구간 전체에서 타겟이 존재하는 유효 구간(valid period)을 구분하는 단계; 상기 유효 구간 중 어느 하나의 유효 구간의 라벨링 후 학습 데이터를 만들어 상기 분류기 모델을 학습하는 단계; 및 다음 유효 구간의 라벨링 후 학습 데이터를 만들고 이전에 만들어진 학습 데이터와 병합하여 누적된 학습 데이터를 만들어 상기 분류기 모델을 반복 학습하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 라벨링은 타겟의 글로벌 패턴에 따른 외양 팩터(appearance factor) 기반으로 계산된 상기 분류기 모델의 유사도 매트릭스를 이용할 수 있다.

또 다른 측면에 따르면, 상기 학습하는 단계는, 상기 유효 구간 이외의 무효 구간(invalid period)에 대해 상기 유효 구간으로 학습된 상기 분류기 모델을 통해 라벨링을 수행하는 단계를 더 포함할 수 있다.

또 다른 측면에 따르면, 상기 트래킹하는 단계는, 입력 비디오의 모든 프레임에 대해 타겟의 위치를 찾아 각 타겟의 키포인트(keypoint)의 좌표를 구하는 단계; 각 타겟의 키포인트의 좌표를 이용하여 인접한 프레임에서의 타겟 간의 매칭 스코어(matching score)를 구하는 단계; 및 상기 타겟 간의 매칭 스코어를 기준으로 프레임 간의 포즈 매칭을 수행하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 포즈 매칭을 수행하는 단계는, 타겟의 위치를 나타내는 박스에 대한 모션 팩터(motion factor) 기반으로 계산된 유사도 매트릭스를 이용하여 상기 포즈 매칭을 수행할 수 있다.

또 다른 측면에 따르면, 상기 매칭 스코어는 이전 프레임에서의 타겟과 다음 프레임에서의 타겟 간의 가까운 정도를 나타낼 수 있다.

또 다른 측면에 따르면, 상기 트래킹하는 단계는, 타겟의 위치를 나타내는 경계 박스를 기반으로 한 오류 측정을 통해 상기 포즈 매칭의 오류를 제거하는 과정, 보간법(interpolation)을 이용하여 상기 포즈 매칭의 오류를 보정하는 과정, 및 이동 평균(moving average)에 기반하여 상기 포즈 매칭에 대한 평활화(smoothing)를 수행하는 과정 중 적어도 하나의 후처리 과정을 수행하는 단계를 더 포함할 수 있다.

상기 객체 트래킹 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체를 제공한다.

컴퓨터 시스템에 있어서, 메모리; 및 상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 글로벌 패턴 매칭을 이용하여 분류기 모델을 학습하는 과정; 및 상기 분류기 모델을 포함한 온라인 학습을 통해 각 타겟을 분류하여 트래킹하는 과정을 처리하는 컴퓨터 시스템을 제공한다.

본 발명의 실시예들에 따르면, 각 타겟의 ID를 분류하는 분류기가 추가된 온라인 학습 모델을 통해 각 타겟의 글로벌 패턴을 학습할 수 있다.

본 발명의 실시예들에 따르면, 시간 축과 함께 누적되는 각 타겟의 학습 데이터를 만들고 이를 이용하여 분류기 모델을 학습할 수 있다.

본 발명의 실시예들에 따르면, 로컬 패턴에 따른 모션 팩터와 글로벌 패턴에 따른 외양 팩터를 트래킹에 함께 이용할 수 있다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 컴퓨터 시스템이 수행할 수 있는 객체 트래킹 방법의 예를 도시한 순서도이다.
도 4는 본 발명의 일실시예에 있어서 타겟의 키포인트 좌표를 구하는 과정의 예시를 도시한 것이다.
도 5는 본 발명의 일실시예에 있어서 영역 간 중첩 정도를 나타내는 IoU의 측정 예시를 도시한 것이다.
도 6 내지 도 7은 본 발명의 일실시예에 있어서 타겟의 글로벌 패턴을 학습하는 과정의 예시를 도시한 것이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 온라인 학습 모델을 통해 객체 위치를 트래킹하는 기술에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 각 타겟의 ID를 분류하는 분류기가 추가된 온라인 학습 모델을 통해 각 패턴의 글로벌 패턴을 학습할 수 있고, 이를 통해 정확성, 효율성, 비용 절감 등의 측면에 있어서 상당한 장점들을 달성한다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 객체 트래킹 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다.

도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 객체 트래킹 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.

프로세서(110)는 객체 트래킹을 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.

메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 객체 트래킹을 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.

버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 구간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 객체 트래킹을 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.

네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 객체 트래킹을 위한 입력이 네트워크 인터페이스(160)를 통해 수신될 수 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

실제 영상에서 객체 트래킹을 수행하는 경우, 객체가 다른 물체에 의하여 가려지거나(occlusion), 빠른 움직임으로 인하여 객체가 흐리게 나타나는 경우 등으로 인하여 비교가 제대로 수행되지 않거나, 동일한 객체임에도 다른 객체로 인식되는 문제가 생길 수 있다.

이러한 이유들로 기존 객체 트래킹에 이용되는 포즈 추정(pose estimation)의 경우 100% 정확하지 않으며, 로컬 패턴을 가진 유사 위치로 추정되는 한계가 있다. 이로 인해, 타겟의 ID가 바뀌는(shift) 문제가 발생할 수 있고, 이러한 작은 오류가 누적되면 타겟 객체에서 멀어지는 결과를 초래할 수 있다.

본 발명에서는 글로벌 패턴 매칭을 이용한 온라인 학습 모델을 통해 타겟 객체를 보다 정확하게 트래킹할 수 있다.

본 명세서에서는 인물 트래킹을 대표적인 예시로 하여 설명하고 있으나, 이에 한정되는 것은 인물 이외에 각종 사물이나 다른 종류의 객체를 대상으로 적용할 수 있다.

도 2는 본 발명의 일실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 컴퓨터 시스템이 수행할 수 있는 객체 트래킹 방법의 예를 도시한 순서도이다.

도 2에 도시된 바와 같이, 프로세서(110)는 추정부(210), 유사도 계산부(220), 매칭부(230), 후처리부(240), 및 위치 제공부(250)를 포함할 수 있다. 이러한 프로세서(110)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(110)가 포즈 추정을 수행하도록 컴퓨터 시스템(100)을 제어하기 위해 동작하는 기능적 표현으로서 추정부(210)가 사용될 수 있다.

프로세서(110) 및 프로세서(110)의 구성요소들은 도 3의 객체 트래킹 방법이 포함하는 단계들(S310 내지 S350)을 수행할 수 있다. 예를 들어, 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(120)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 객체 트래킹 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.

객체 트래킹 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.

프로세서(110)는 객체 트래킹 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(120)에 로딩할 수 있다. 예를 들어, 객체 트래킹 방법을 위한 프로그램 파일은 도 1을 통해 설명한 영구 저장 장치(130)에 저장되어 있을 수 있고, 프로세서(110)는 버스를 통해 영구 저장 장치(130)에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(120)에 로딩되도록 컴퓨터 시스템(110)을 제어할 수 있다. 이때, 프로세서(110) 및 프로세서(110)가 포함하는 추정부(210), 유사도 계산부(220), 매칭부(230), 후처리부(240), 및 위치 제공부(250) 각각은 메모리(120)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(S310 내지 S350)을 실행하기 위한 프로세서(110)의 서로 다른 기능적 표현들일 수 있다. 단계들(S310 내지 S350)의 실행을 위해, 프로세서(110) 및 프로세서(110)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 컴퓨터 시스템(100)을 제어할 수 있다.

단계(S310)에서 추정부(210)는 비디오 파일이 입력되면 입력 비디오를 대상으로 포즈 추정을 수행할 수 있다. 이때, 추정부(210)는 입력 비디오의 모든 프레임에 대해 타겟 객체에 해당되는 사람의 위치를 찾아 각 사람의 키포인트(keypoint)의 좌표를 구할 수 있다.

예를 들어, 도 4를 참조하면 입력 비디오를 구성하는 모든 프레임에서 타겟이 되는 사람의 위치를 찾은 후 찾은 사람의 머리, 좌우 어깨, 좌우 팔꿈치, 좌우 손, 좌우 무릎, 좌우 발 등 17군데의 좌표를 키포인트로 활용할 수 있다. 일례로, 추정부(210)는 YOLO(you only look once) 기반의 사람 검출(human detection) 알고리즘을 통해 프레임에서 사람을 찾을 수 있고, 탑-다운(top-down) 방식으로 각 사람의 키포인트의 좌표를 구할 수 있다.

다시 도 3에서, 단계(S320)에서 유사도 계산부(220)는 프레임 별 각 사람의 키포인트 좌표를 기반으로 인접한 프레임 간의 포즈 유사도(pose similarity)를 계산할 수 있다. 다시 말해, 유사도 계산부(220)는 인접한 두 프레임에서의 사람들 사이의 포즈 유사도를 나타내는 매칭 스코어(matching score)를 구할 수 있으며, 이때 매칭 스코어는 n번째 프레임에서 K명의 사람들이 n+1번째 프레임에서 K'명의 사람들과 각각 얼마나 가까운가를 나타내는 지표를 의미할 수 있다.

특히, 본 발명에서 포즈 유사도를 나타내는 매칭 스코어는 로컬 패턴에 따른 모션 팩터와 글로벌 패턴에 따른 외양 팩터를 포함할 수 있다. 매칭 스코어를 계산하기 위한 모델은 각 타겟의 ID를 분류하는 분류기가 추가된 온라인 학습 모델로 구현될 수 있으며, 해당 온라인 학습 모델을 통해 각 타겟의 글로벌 패턴을 학습할 수 있다.

본 발명에 따른 분류기 모델은 시간 축과 함께 각 타겟의 학습 데이터를 누적할 수 있으며, 학습 데이터의 일례로는 타겟의 모든 키포인트를 포함할 수 있다. 다시 말해, 분류기 모델을 통해 각 타겟의 글로벌 패턴을 학습할 수 있다. 이때, 글로벌 패턴을 학습하기 위한 분류기는 분류(classification)가 가능한 모든 네트워크 모델을 적용할 수 있다.

모션 팩터의 경우 타겟의 위치 영역을 나타내는 경계 박스(bounding box) IoU(Intersection Over Union)와 포즈 IoU를 바탕으로 구할 수 있으며, 이때 IoU는 도 5에 도시한 바와 같이 두 영역 사이의 중첩 정도를 나타내는 것으로, 이를 통해 지상 진리(ground truth)(실제 객체 경계)를 가진 객체 검출에서 예측 값이 얼마나 정확한지 측정할 수 있다. 그리고, 외양 팩터는 객관적 확률을 판단하기 위한 샘플 마이닝(sample mining)과 온라인 학습에 기반한 글로벌 패턴 매칭을 이용하여 구할 수 있다.

다시 도 3에서, 단계(S330)에서 매칭부(230)는 단계(S320)의 결과를 이용하여 프레임 간의 포즈 매칭을 수행할 수 있다. 다시 말해, 매칭부(230)는 포즈 유사도를 나타내는 매칭 스코어를 기준으로 실제로 n번째 프레임의 i번째 박스(즉, 타겟 위치)를 n+1번째 프레임의 j번째 박스와 매칭할 수 있다.

매칭부(230)는 헝가리안 메소드(Hungarian method) 등의 매칭 알고리즘을 이용하여 포즈 매칭을 수행할 수 있다. 매칭부(230)는 인접한 프레임 간의 유사도 매트릭스를 먼저 계산한 후 이를 헝가리안 메소드로 최적화하여 각 박스를 매칭할 수 있으며, 이때 포즈 매칭을 위한 유사도 매트릭스는 IoU를 나타내는 모션 팩터를 이용하여 계산할 수 있다.

단계(S340)에서 후처리부(240)는 단계(S330)의 포즈 매칭 결과에 대해 오검출 배제 등을 포함하는 후처리 과정을 수행할 수 있다. 일례로, 후처리부(240)는 경계 박스 IoU 기반 오류 측정을 통해 매칭 오류를 제거할 수 있다. 또한, 후처리부(240)는 보간법(interpolation)을 이용하여 매칭 오류를 보정할 수 있고, 더 나아가 이동 평균(moving average) 등에 기반하여 포즈 매칭에 대한 평활화(smoothing)를 거칠 수 있다.

단계(S350)에서 위치 제공부(250)는 트래킹 결과로서 포즈 매칭에 따른 각 타겟의 위치를 제공할 수 있다. 위치 제공부(250)는 각 타겟의 좌표 값을 출력으로 제공할 수 있다. 타겟의 위치를 표시한 영역을 경계 박스라고 하는데, 이때 타겟의 위치는 경계 박스의 프레임 내에서의 위치 좌표로 주어질 수 있다. 타겟의 위치 좌표는 [좌측 선의 X좌표, 위측 선의 Y좌표, 우측 선의 X좌표, 아래측 선의 Y좌표], [좌측 선의 X좌표, 위측 선의 Y좌표, 직사각형의 너비, 직사각형의 높이] 등의 형태로 표기될 수 있다.

도 6 내지 도 7은 본 발명의 일실시예에 있어서 타겟의 글로벌 패턴을 학습하는 과정의 예시를 도시한 것이다.

도 6 내지 도 7은 샘플 마이닝 과정을 나타내고 있다.

도 6을 참조하면, 1. 모델 결과값은 모션 팩터를 사용한 기존 트래킹 기술을 적용한 결과로, 본 발명에서는 기존 트래킹을 1차로 적용한 후 2차로 외양 팩터를 계산하여 객체 트래킹에 이용할 수 있다.

2. 전체 동영상 내에서 유효 구간(valid period)과 무효 구간(invalid period)을 정의하여 구분할 수 있다. 여기에서 유효 구간은 모든 타겟이 존재하는 구간을 의미하며, 도 6에서 해칭된 부분이 유효 구간을 나타낸다.

도 7을 참조하면, 3. 모델 훈련을 반복하고 해당 모델을 사용하여 다음 유효 구간에 대하여 라벨을 지정하여 학습 예시를 추가할 수 있다.

학습 데이터는 복수 개의 프레임으로 이루어진 연속된 구간 전체를 이용한다. 이때, 학습 모델의 입력 단위는 연속된 구간 전체에서 샘플링된 미니배치(mini-batch)가 될 수 있으며, 미니배치의 크기는 사전에 정해진 디폴트 값으로 정해지거나 혹은 사용자에 의해 정해질 수 있다.

학습 데이터는 타겟 위치를 포함하는 박스 이미지와 해당 타겟의 ID를 포함한다. 여기서, 박스 이미지는 전체 이미지에서 각 인물의 위치를 나타내는 영역만을 잘라낸 이미지를 의미한다.

학습 모델(네트워크)의 출력은 임의 인물이 포함된 박스 이미지가 주어졌을 때 해당 박스 이미지의 각 타겟 ID에 대한 확률값이 된다.

도 7에 도시한 바와 같이, 학습의 첫 번째 단계(1st)에서는 가장 긴 유효 구간(710)을 이용하여 첫 번째 구간의 학습 데이터를 만들고, 첫 번째 구간의 학습 데이터를 이용하여 모델을 학습시킨다. 이 때의 학습 데이터는 기존 객체 트래킹 기술을 이용하여 얻어낸 결과를 그대로 라벨링한 것일 수 있고, 아닌 박스 이미지와 타겟 ID를 학습 데이터로 사용할 수 있다.

두 번째 단계(2nd)에서는 첫 번째 구간에서 학습된 모델로 다음 대상 구간, 즉 두 번째로 긴 유효 구간(720)을 라벨링시킨 후 두 번째 구간의 학습 데이터를 만든다. 그리고, 첫 번째 구간과 두 번째 구간의 학습 데이터를 병합하여 누적된 학습 데이터를 만들고 이를 이용하여 다시 모델을 학습시킨다.

이러한 방식을 반복하여 유효 구간에 대한 학습이 종료된 후 무효 구간에 대해서는 유효 구간으로 학습된 모델로 예측(라벨링)을 수행하게 된다.

상기한 라벨링 과정은 분류기 모델을 위한 유사도 매트릭스를 계산한 후 이를 이용하여 각 박스를 매칭할 수 있으며, 이때 분류기 모델의 유사도는 모션 팩터가 아닌 외양 팩터를 이용하여 계산할 수 있다.

이처럼 본 발명의 실시예들에 따르면, 각 타겟의 ID를 분류하는 분류기가 추가된 온라인 학습 모델을 통해 각 타겟의 글로벌 패턴을 학습할 수 있고, 시간 축과 함께 누적되는 각 타겟의 학습 데이터를 만들고 이를 이용하여 분류기 모델을 학습할 수 있으며, 이를 통해 로컬 패턴에 따른 모션 팩터와 글로벌 패턴에 따른 외양 팩터를 객체 트래킹에 함께 이용할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 시스템에서 수행되는 객체 트래킹 방법에 있어서,
상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 객체 트래킹 방법은,
상기 적어도 하나의 프로세서에 의해, 글로벌 패턴 매칭(global pattern matching)을 이용하여 분류기(classifier) 모델을 학습하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 분류기 모델을 포함한 온라인 학습을 통해 각 타겟을 분류하여 트래킹하는 단계
를 포함하는 객체 트래킹 방법.
제1항에 있어서,
상기 학습하는 단계는,
각 타겟을 분류하는 분류기가 추가된 학습 모델을 통해 각 타겟의 글로벌 패턴을 학습하는 단계
를 포함하는 객체 트래킹 방법.
제1항에 있어서,
상기 학습하는 단계는,
샘플 마이닝(sample mining)을 통해 시간 축과 함께 누적되는 각 타겟의 학습 데이터를 만들고 누적된 학습 데이터를 이용하여 상기 분류기 모델을 반복 학습하는 단계
를 포함하는 객체 트래킹 방법.
제1항에 있어서,
상기 학습하는 단계는,
입력 비디오의 연속된 구간 전체에서 타겟이 모두 존재하는 유효 구간(valid period)을 구분하는 단계;
상기 유효 구간 중 어느 하나의 유효 구간의 라벨링 후 학습 데이터를 만들어 상기 분류기 모델을 학습하는 단계; 및
다음 유효 구간의 라벨링 후 학습 데이터를 만들고 이전에 만들어진 학습 데이터와 병합하여 누적된 학습 데이터를 만들어 상기 분류기 모델을 반복 학습하는 단계
를 포함하는 객체 트래킹 방법.
제4항에 있어서,
상기 라벨링은 타겟의 글로벌 패턴에 따른 외양 팩터(appearance factor) 기반으로 계산된 상기 분류기 모델의 유사도 매트릭스를 이용하는 것
을 특징으로 하는 객체 트래킹 방법.
제4항에 있어서,
상기 학습하는 단계는,
상기 유효 구간 이외의 구간에 대해 상기 유효 구간으로 학습된 상기 분류기 모델을 통해 라벨링을 수행하는 단계
를 더 포함하는 객체 트래킹 방법.
제1항에 있어서,
상기 트래킹하는 단계는,
입력 비디오의 모든 프레임에 대해 타겟의 위치를 찾아 각 타겟의 키포인트(keypoint)의 좌표를 구하는 단계;
각 타겟의 키포인트의 좌표를 이용하여 인접한 프레임에서의 타겟 간의 매칭 스코어(matching score)를 구하는 단계; 및
상기 타겟 간의 매칭 스코어를 기준으로 프레임 간의 포즈 매칭을 수행하는 단계
를 포함하는 객체 트래킹 방법.
제1항 내지 제7항 중 어느 한 항의 객체 트래킹 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체.
컴퓨터 시스템에 있어서,
메모리; 및
상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
글로벌 패턴 매칭을 이용하여 분류기 모델을 학습하는 과정; 및
상기 분류기 모델을 포함한 온라인 학습을 통해 각 타겟을 분류하여 트래킹하는 과정
을 처리하는 컴퓨터 시스템.
제9항에 있어서,
상기 학습하는 과정은,
각 타겟을 분류하는 분류기가 추가된 학습 모델을 통해 각 타겟의 글로벌 패턴을 학습하는 것
을 특징으로 하는 컴퓨터 시스템.
제9항에 있어서,
상기 학습하는 과정은,
샘플 마이닝을 통해 시간 축과 함께 누적되는 각 타겟의 학습 데이터를 만들고 누적된 학습 데이터를 이용하여 상기 분류기 모델을 반복 학습하는 것
을 특징으로 하는 컴퓨터 시스템.
제9항에 있어서,
상기 학습하는 과정은,
입력 비디오의 연속된 구간 전체에서 모든 타겟이 존재하는 유효 구간을 구분하는 과정;
상기 유효 구간 중 어느 하나의 유효 구간의 라벨링 후 학습 데이터를 만들어 상기 분류기 모델을 학습하는 과정; 및
다음 유효 구간의 라벨링 후 학습 데이터를 만들고 이전에 만들어진 학습 데이터와 병합하여 누적된 학습 데이터를 만들어 상기 분류기 모델을 반복 학습하는 과정
을 포함하는 컴퓨터 시스템.
제12항에 있어서,
상기 라벨링은 타겟의 글로벌 패턴에 따른 외양 팩터 기반으로 계산된 상기 분류기 모델의 유사도 매트릭스를 이용하는 것
을 특징으로 하는 컴퓨터 시스템.
제12항에 있어서,
상기 학습하는 과정은,
상기 유효 구간 이외의 구간에 대해 상기 유효 구간으로 학습된 상기 분류기 모델을 통해 라벨링을 수행하는 과정
을 더 포함하는 컴퓨터 시스템.
제9항에 있어서,
상기 트래킹하는 과정은,
입력 비디오의 모든 프레임에 대해 타겟의 위치를 찾아 각 타겟의 키포인트의 좌표를 구하는 과정;
각 타겟의 키포인트의 좌표를 이용하여 인접한 프레임에서의 타겟 간의 매칭 스코어를 구하는 과정; 및
상기 타겟 간의 매칭 스코어를 기준으로 프레임 간의 포즈 매칭을 수행하는 과정
을 포함하는 컴퓨터 시스템.