KR101959436B1 - 배경인식을 이용한 물체 추적시스템 - Google Patents

배경인식을 이용한 물체 추적시스템 Download PDF

Info

Publication number
KR101959436B1
KR101959436B1 KR1020180091203A KR20180091203A KR101959436B1 KR 101959436 B1 KR101959436 B1 KR 101959436B1 KR 1020180091203 A KR1020180091203 A KR 1020180091203A KR 20180091203 A KR20180091203 A KR 20180091203A KR 101959436 B1 KR101959436 B1 KR 101959436B1
Authority
KR
South Korea
Prior art keywords
neural network
artificial neural
image
tracked
background
Prior art date
Application number
KR1020180091203A
Other languages
English (en)
Inventor
김성찬
김정준
Original Assignee
전북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전북대학교 산학협력단 filed Critical 전북대학교 산학협력단
Priority to KR1020180091203A priority Critical patent/KR101959436B1/ko
Priority to PCT/KR2018/014014 priority patent/WO2020013395A1/ko
Application granted granted Critical
Publication of KR101959436B1 publication Critical patent/KR101959436B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 배경인식을 이용한 물체 추적시스템에 관한 것으로, 영상 프레임에서 물체의 형태보다 상대적으로 정적인 배경을 감지하고 이를 제외한 곳을 물체의 형태로 판단하여 이를 학습할 수 있게 한다.
이를 위하여 본 발명은 현재 영상 프레임을 입력받아 2차원 합성곱 연산 및 2차원 역합성곱 연산을 수행하여 입력영상을 추적 대상 물체와 배경으로 구분하기 위한 예측 돌출맵을 생성하는 제1인공신경망, 입력 영상의 현재 영상 프레임을 입력받아 2차원 합성곱 연산을 수행하고 제1인공신경망의 예측 돌출맵을 반영하여 영상의 특징을 추출하여 2차원 합성곱 연산 수행된 결과들로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층으로 분류하는 제2인공신경망, 및 현재 영상 프레임에서 추적 대상 물체의 위치를 예측하기 위한 경계상자 회귀 알고리즘의 입력으로 제2인공신경망의 출력을 입력받아 제2인공신경망에서 예측된 추적 대상 물체의 위치정보를 해당 추적 대상 물체를 둘러싸는 직사각형의 위치정보로 계산하여 출력하는 경계상자 출력 인공신경망을 포함하여, 물체의 형태나 위치(움직임)의 변화가 심한 경우에도 물체의 형태를 쉽게 파악하여 강인하고 정밀한 외형 학습 모델을 만들어 추적 대상 물체를 정확하게 추적할 수 있게 한다.

Description

배경인식을 이용한 물체 추적시스템{The object tracking system using recognition of background}
본 발명은 배경인식을 이용한 물체 추적시스템에 관한 것으로서, 보다 상세하게는 비디오 영상에서 주어진 영상 프레임은 배경과 추적 물체로 구성되고 영상 프레임에서 배경은 비교적 정적으로 유지되는 반면 추적 물체의 외형이나 위치는 상대적으로 변화가 심하게 나타나는 특징을 이용하여, 영상 프레임에서 정적인 배경을 감지하고 배경을 제외한 곳을 물체의 형태로 판단하여 이를 학습할 수 있도록 함으로써, 물체의 형태나 위치(움직임)의 변화가 심한 경우에도 물체의 형태를 쉽게 파악하여 강인하고 정밀한 외형 학습 모델을 만들어 추적 대상 물체의 형태나 위치 변화를 정확하게 예측하고 추적할 수 있게 하는 배경인식을 이용한 물체 추적시스템에 관한 것이다.
일반적으로 비디오 영상에서 물체를 인식하거나 추적하는 문제에서 미래 영상 프레임들을 현재 프레임 분석에서 알 수 있으면 오프라인 분석, 그렇지 않으면 온라인 분석이라고 한다.
물체 추적 연구들은 대부분 신경망을 이용해 초기 또는 주기적으로 물체의 형태를 학습하고 현재 영상 프레임에서 학습된 물체 형태와 가장 비슷한 영역을 찾아내는 방식에 기반을 두고 있다.
반면 오프라인 방식에서는 분석해야 할 영상 프레임들이 모두 알려져 있기 때문에 특정 프레임에서 예측 작업을 수행할 때 나머지 프레임들을 모두 활용하며, 시간적으로 인접한 영상 프레임들의 상관관계를 이용해 물체의 형태나 움직임을 학습하고 미래의 변화를 예측할 수 있다.
그러나 과거 영상 프레임들을 참고하지 않고 현재 영상 프레임만을 이용하는 경우에는 과거 영상 프레임들을 참고하지 않기 때문에 현재 영상 프레임과 이전 영상 프레임들과의 시간적인 상관관계에 관한 정보를 활용할 수 없는 단점이 있고, 과거 영상 프레임들을 참고하는 경우에는 미리 정해진 개수의 과거 영상 프레임들을 이용하여 물체를 추적하게 하거나 또는 3차원 합성곱 연산시 기본적으로 모든 과거 영상 프레임들을 같은 중요도로 가정하여 영상들로부터 특징을 추출하게 되므로, 현재 영상 프레임과 이전 영상 프레임들과의 시간적인 상관관계를 활용하는 것은 가능하지만 이전 영상 프레임들 중에 현재 영상 프레임과 전혀 다른 특성이 존재할 경우 부정확한 상관관계 정보가 도출될 가능성이 있어 항상 모든 과거 영상 프레임들이 도움이 되는 것은 아니다. 예를 들어 추적 물체가 배경에 의해 가려지는 상황이 발생하는 경우 이전 영상 프레임에서 현재 영상 프레임을 참고하는 것은 물체의 형태나 크기 분석에 오류를 제공할 가능성이 있다.
또한 종래의 추적 대상 물체 추적 시스템 및 방법은 추적 물체의 외형 자체를 학습하는 방법을 사용하고 있으며, 일반적인 물체 추적에서 사용되는 입력 영상들은 배경은 비교적 정적으로 유지되는 반면 추적 물체의 외형이나 위치는 상대적으로 변화가 심하다. 따라서 물체의 외형을 직접 학습하는 것은 여러 가지 기술적인 문제들을 포함하며, 물체 형태에 대한 학습 모델도 정확도가 떨어지는 문제점이 있었다.
KR 10-1040049 B1 2011.06.02. 등록 KR 10-1731243 B1 2017.04.24. 등록 KR 10-1735365 B1 2017.05.08. 등록
따라서 본 발명은 상기의 문제점을 해결하기 위해 안출한 것으로서, 본 발명이 해결하고자 하는 기술적 과제는, 비디오 영상에서 주어지는 영상 프레임들은 배경과 추적 물체로 구성되는 점을 이용하여 영상 프레임에서 물체의 형태보다 상대적으로 정적인 배경을 감지하고 이를 제외한 곳을 물체의 형태로 판단하여 이를 학습할 수 있도록 함으로써, 물체의 형태나 위치(움직임)의 변화가 심한 경우에도 물체의 형태를 쉽게 파악하여 강인하고 정밀한 외형 학습 모델을 만들 수 있도록 하여 추적 물체의 형태와 움직임에 대한 정밀한 정보를 얻어낼 수 있어 추적 대상 물체를 정확하게 추적할 수 있게 하는 배경인식을 이용한 물체 추적시스템을 제공하고자 하는 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시 형태는, 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들로 구성된 비디오 영상에서 추적 대상 물체의 위치를 예측하려는 현재 영상 프레임을 입력받아, 추적 대상 물체를 둘러싸는 직사각형의 위치 정보를 예측하여 물체 추적 결과를 출력하는 물체 추적시스템에 있어서, 입력 영상의 현재 영상 프레임을 입력받아 2차원 합성곱 연산들을 수행하여 영상의 특징을 추출하고 2차원 합성곱 연산 수행 결과들로부터 2차원 역합성곱 연산을 수행하여 입력영상을 추적 대상 물체와 배경으로 구분하기 위한 예측 돌출맵을 생성하는 제1인공신경망, 입력 영상의 현재 영상 프레임을 입력받아 2차원 합성곱 연산들을 수행하고 2차원 합성곱 연산 수행결과로부터 제1인공신경망의 예측 돌출맵을 반영하여 영상의 특징을 추출하며 2차원 합성곱 연산 수행된 결과들로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층으로 분류하는 제2인공신경망, 및 현재 영상 프레임에서 추적 대상 물체의 위치를 예측하기 위한 경계상자 회귀 알고리즘의 입력으로 제2인공신경망의 출력을 입력받아 제2인공신경망에서 예측된 추적 대상 물체의 위치정보를 해당 추적 대상 물체를 둘러싸는 직사각형의 위치정보로 계산하여 출력하는 경계상자 출력 인공신경망을 포함하는, 배경인식을 이용한 물체 추적시스템이다.
본 발명에 의하면, 비디오 영상에서 주어진 영상 프레임은 배경과 추적 물체로 구성되고 영상 프레임에서 배경은 비교적 정적으로 유지되는 반면 추적 물체의 외형이나 위치는 상대적으로 변화가 심하게 나타나는 특징으로 이용하여, 영상 프레임에서 정적인 배경을 감지하고 배경을 제외한 곳을 물체의 형태로 판단하여 이를 학습할 수 있도록 함으로써, 물체의 형태나 위치(움직임)의 변화가 심한 경우에도 물체의 형태를 쉽게 파악하여 강인하고 정밀한 외형 학습 모델을 만들 수 있도록 하여 추적 물체의 형태나 위치 변화를 정확하게 예측하고 추적할 수 있게 한다.
도 1은 본 발명에 의한 배경인식을 이용한 물체 추적시스템을 예시한 개략도이다.
도 2는 본 발명에 의한 배경인식을 이용한 물체 추적시스템에서 제1인공신경망이 입력영상에서 배경을 예측하는 기능을 학습하기 위해 신경망이 예측한 배경과 미리 준비된 실제 배경과 비교해 오차를 최소화하는 학습과정을 예시한 참고도이다.
이하, 본 발명의 바람직한 실시 형태에 따른 배경인식을 이용한 물체 추적시스템의 구성과 동작 및 그에 의한 작용 효과를 첨부 도면을 참조하여 상세히 설명한다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명에 의한 배경인식을 이용한 물체 추적시스템을 예시한 개략도이고, 도 2는 본 발명에 의한 배경인식을 이용한 물체 추적시스템에서 제1인공신경망이 입력영상에서 배경을 예측하는 기능을 학습하기 위해 신경망이 예측한 배경과 미리 준비된 실제 배경과 비교해 오차를 최소화하는 학습과정을 예시한 참고도로서, 도면에 예시된 바와 같이 본 발명의 배경인식을 이용한 물체 추적시스템은, 제1인공신경망(200), 제2인공신경망(300), 및 경계상자 출력 인공신경망(400)을 포함하여, 비디오 영상에서 주어진 영상 프레임에서 정적인 배경을 감지하여 이를 제외하여 추출된 추적물체의 형태를 학습할 수 있도록 함으로써, 물체의 형태나 위치(움직임)의 변화가 심한 경우에도 물체의 형태를 쉽게 파악하여 강인하고 정밀한 외형 학습 모델을 만들 수 있게 한다.
이러한 본 발명의 물체 추적시스템은 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들로 구성된 비디오 영상에서 추적 대상 물체의 위치를 예측하려는 현재 영상 프레임(110)을 입력받아, 추적 대상 물체를 둘러싸는 직사각형의 위치 정보를 예측하여 물체 추적 결과를 출력하는 물체 추적시스템에 적용되어 구현될 수 있다.
제1인공신경망(200)은 비디오 카메라 또는 동영상 파일에서 주어지는 입력 영상의 현재 영상 프레임(110)을 입력받아 2차원 합성곱(2D convolution) 연산들을 수행하여 입력영상의 특징을 추출하고, 2차원 합성곱 연산 수행 결과들로부터 2차원 역합성곱(2D deconvolution) 연산을 수행하여 입력영상을 추적 대상 물체와 배경으로 구분하기 위한 예측 돌출맵(saliency map)(120)을 생성한다. 이러한 제1인공신경망(200)은 제1차원특징추출 인공신경망(210), 예측 돌출맵 생성 인공신경망(220)을 포함하여 구성될 수 있다.
제1차원특징추출 인공신경망(210)은 영상 프레임들에 대해 2차원 합성곱(2D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 현재 영상 프레임(110)들로부터 2차원 합성곱(2D convolution) 연산들을 수행하여 입력영상의 특징을 추출한다.
예측 돌출맵 생성 인공신경망(220)은 영상 프레임들에 대해 2차원 역합성곱(2D deconvolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 제1차원특징추출 인공신경망(210)의 결과로부터 2차원 역합성곱(2D deconvolution) 연산을 수행하여 입력영상을 추적 물체와 배경으로 구분하는 예측 돌출맵(saliency map)(120)을 생성한다. 이때 입력영상과 돌출맵은 같은 크기를 갖는다.
제2인공신경망(300)은 비디오 카메라 또는 동영상 파일에서 주어지는 입력 영상의 현재 영상 프레임(130)을 입력받아 2차원 합성곱 연산들을 수행하고 2차원 합성곱 연산 수행결과로부터 제1인공신경망(200)의 예측 돌출맵(120)을 반영하여 영상의 특징을 추출하며 2차원 합성곱 연산 수행된 결과들로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층(class)으로 분류한다. 이러한 제2인공신경망(300)은 특징추출 인공신경망(310), 완전연결 인공신경망(fully-connected layer)(320)을 포함하여 구성된다.
특징추출 인공신경망(310)은 영상 프레임들에 대해 2차원 합성곱(2D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 제1인공신경망(200)에서 생성된 예측 돌출맵(120)을 반영하여 입력 영상 프레임들로부터 2차원 합성곱(2D convolution) 연산들을 수행하여 추적 대상 물체에 대한 영상의 특징을 추출한다.
완전연결 인공신경망(fully-connected layer)(320)은 하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 특징추출 인공신경망(310)의 결과로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 입력영상의 고차원 특징들을 추출한다.
경계상자 출력 인공신경망(400)은 현재 영상 프레임에서 추적 대상 물체의 위치를 예측하기 위한 경계상자 회귀(bounding box regression) 알고리즘을 포함하며, 이러한 경계상자 회귀 알고리즘의 입력으로 제2인공신경망(300)의 출력을 입력받아 대상 물체를 가장 정확하게 둘러싸는 직사각형의 중심좌표, 가로/세로의 길이를 계산한다. 즉, 제2인공신경망(300)에서 예측된 추적 대상 물체의 위치정보를 해당 추적 대상 물체를 둘러싸는 직사각형의 위치정보로 계산하여 출력한다. 이러한 경계상자 출력 인공신경망(400)은 추적 대상 물체를 가장 정확하게 둘러싸는 직사각형의 위치정보를 4개 꼭지점들의 좌표 또는 길이, 너비 및 중심점의 좌표 등으로 계산하여 출력한다.
상기와 같은 제1인공신경망(200)과 제2인공신경망들(300)에서의 동작은 순차적으로 수행될 수도 있고, 거의 동시에 수행될 수도 있음은 물론이다.
이상과 같이 구성되는 본 발명에 따른 배경인식을 이용한 물체 추적시스템의 작용 효과를 설명하면 다음과 같다.
먼저, 본 발명의 인공신경망을 이용한 물체 추적시스템은, 입력 영상이 비디오 카메라 또는 동영상 파일에서 주어지면, 제1인공신경망(200) 및 제2인공신경망(300)에 입력 영상의 현재 영상 프레임들(110)(130)이 동시에 입력된다.
상기와 같이 제1인공신경망(200)에 입력 영상의 현재 영상 프레임(110)이 입력되면, 영상 프레임에 대해 2차원 합성곱(2D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성된 제1차원특징추출 인공신경망(210)에서는 입력된 현재 영상 프레임(110)들로부터 2차원 합성곱(2D convolution) 연산들을 수행하여 입력영상의 배경부분에 해당하는 특징을 추출하여 예측 돌출맵 생성 인공신경망(220)으로 전달한다.
그리고, 영상 프레임들에 대해 2차원 역합성곱(2D deconvolution) 연산들을 수행하는 하나 이상의 계층들로 구성된 예측 돌출맵 생성 인공신경망(220)에서는 상기 제1차원특징추출 인공신경망(210)의 결과로부터 2차원 역합성곱(2D deconvolution) 연산을 수행하여 입력 영상을 추적 물체와 배경으로 구분하기 위한 예측 돌출맵(saliency map)(120)을 생성하고 제2인공신경망(300)에 전달한다.
이때, 배경감지를 이용하여 예측 돌출맵(120)을 생성하는 제1인공신경망(200)을 학습하려면 자연영상으로 구성된 학습데이터(110)에 대응하는 정답 돌출맵(150)이 있어야 제1인공신경망(200)의 예측 돌출맵(120)과 정답 돌출맵(150)의 오차 계산을 통해 그 차이(600: 예를 들면 binary cross entropy loss)가 가능한 적어지도록 제1인공신경망(200)을 학습해야 한다. 따라서 정확한 정답을 미리 만드는 것이 중요한데 이를 위해서는 추적 물체에 대한 돌출맵을 만드는 것보다 현재영상 데이터(110)의 배경(500)을 감지하여 전체 영상에서 배경을 뺀 부분을 추적 물체에 대한 정답 돌출맵(150)으로 간주하는 것이 정확하고 효율적이다. 이는 시간에 따라 추적물체의 외형이나 위치 변화가 배경보다 일반적으로 훨씬 크기 때문이다. 또한 주어진 영상에서 배경을 인식하는 기본 원리는 영상의 바깥쪽 테두리 부분들의 픽셀들은 일반적으로 배경일 확률이 높기 때문에 바깥쪽 테두리 부분들과 비슷한 내부 영역들은 배경으로 간주하는 것이다.
여기서, 예측 돌출맵(120)은 물체의 외형을 나타내는데, 물체를 둘러싸기 위한 경계상자를 결정하기 위해 물체 외형 근처에서 경계상자들(130번 내부의 노란색, 빨간색 박스들)을 임의의 개수(가령 1000개)만큼 무작위로 생성하며, 생성된 경계박스들도 제2인공신경망(300)의 입력으로 된다.
다음으로 제2인공신경망(300)에 입력 영상의 현재 영상 프레임(130)이 입력되면, 영상 프레임들에 대해 2차원 합성곱(2D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성된 특징추출 인공신경망(310)에서는 제1인공신경망(200)에서 생성 및 전달된 예측 돌출맵(120)을 반영하여 입력 영상 프레임들로부터 2차원 합성곱(2D convolution) 연산들을 수행하여 추적 대상 물체에 대한 영상의 특징을 추출하고 완전연결 인공신경망((320)에 전달한다.
하나 이상의 완전연결 계층(fully-connected layer)들로 구성된 완전연결 인공신경망(fully-connected layer)(320)에서는 특징추출 인공신경망(310)의 결과로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 입력 영상의 고차원 특징들을 추출하고 그 결과를 경계상자 출력 인공신경망(400)으로 전달한다.
마지막으로 경계상자 출력 인공신경망(400)에서는 경계상자 회귀 알고리즘의 입력으로 제2인공신경망(300)의 출력을 입력받아 현재 영상 프레임(130)에서 추적 대상 물체를 가장 정확하게 둘러싸는 직사각형의 중심좌표, 가로/세로의 길이를 계산하여 출력(140)한다. 즉, 제2인공신경망(300)에서 예측된 추적 대상 물체의 위치정보를 해당 추적 대상 물체를 둘러싸는 직사각형의 위치정보로 계산하여 출력한다. 이러한 경계상자 출력 인공신경망(400)은 추적 대상 물체를 가장 정확하게 둘러싸는 직사각형의 위치정보를 4개 꼭지점들의 좌표 또는 길이, 너비 및 중심점의 좌표 등으로 계산하여 출력한다.
상기와 같이 본 발명에서는 비디오 영상에서 주어지는 영상 프레임들은 배경과 추적 물체로 구성(도 2의 230 참조)된다는 점을 이용하여, 현재 영상 프레임에서 물체의 형태보다 상대적으로 정적인 배경을 먼저 추출하고 이를 현재 영상 프레임에서 제외하여 남은 영역이 추적 물체가 되는 방법을 이용하여 물체의 형태와 크기를 학습하고 위치를 예측하여 추적이 이루어지게 되므로 배경만 파악할 수 있으면 물체의 형태나 움직임 변화가 심한 경우에도 형태를 쉽게 파악할 수 있어 강인하고 정밀한 외형 학습 모델을 만들 수 있게 되며, 이로 인해 물체의 형태 변화를 정확하게 예측할 수 있게 된다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허 청구 범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
110,130 : 현재 영상 프레임
120 : 예측 돌출맵
140 : 경계상자 표시 영상 프레임
200 : 제1인공신경망
210 : 제1차원특징추출 인공신경망
220 : 예측 돌출맵 생성 인공신경망
300 : 제2인공신경망
310 : 특징추출 인공신경망
320 : 완전연결 인공신경망
400 : 경계상자 출력 인공신경망

Claims (3)

  1. 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들로 구성된 비디오 영상에서 추적 대상 물체의 위치를 예측하려는 현재 영상 프레임(110)을 입력받아, 추적 대상 물체를 둘러싸는 직사각형의 위치 정보를 예측하여 물체 추적 결과를 출력하는 물체 추적시스템에 있어서,
    입력 영상의 현재 영상 프레임(110)을 입력받아 2차원 합성곱(2D convolution) 연산들을 수행하여 입력영상의 특징을 추출하고, 2차원 합성곱 연산 수행 결과들로부터 2차원 역합성곱(2D deconvolution) 연산을 수행하여 입력영상을 추적 대상 물체와 배경으로 구분하기 위한 예측 돌출맵(saliency map)(120)을 생성하는 제1인공신경망(200);
    입력 영상의 현재 영상 프레임(130)을 입력받아 2차원 합성곱 연산들을 수행하고 2차원 합성곱 연산 수행결과로부터 제1인공신경망의 예측 돌출맵을 반영하여 영상의 특징을 추출하며 2차원 합성곱 연산 수행된 결과들로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층(class)으로 분류하는 제2인공신경망(300); 및
    현재 영상 프레임에서 추적 대상 물체의 위치를 예측하기 위한 경계상자 회귀(bounding box regression) 알고리즘의 입력으로 제2인공신경망(300)의 출력을 입력받아 제2인공신경망(300)에서 예측된 추적 대상 물체의 위치정보를 해당 추적 대상 물체를 둘러싸는 직사각형의 위치정보로 계산하여 출력하는 경계상자 출력 인공신경망(400);을 포함하며,
    상기 제1인공신경망(200)은,
    영상 프레임들에 대해 2차원 합성곱(2D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 현재 영상 프레임(110)들로부터 2차원 합성곱(2D convolution) 연산들을 수행하여 입력영상의 특징을 추출하는 제1차원특징추출 인공신경망(210); 및,
    영상 프레임들에 대해 2차원 역합성곱(2D deconvolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 상기 제1차원특징추출 인공신경망(210)의 결과로부터 2차원 역합성곱(2D deconvolution) 연산을 수행하여 입력영상을 추적 물체와 배경으로 구분하는 예측 돌출맵(saliency map)(120)을 생성하는 예측 돌출맵 생성 인공신경망(220);으로 구성되고,
    상기 제2인공신경망(300)은,
    영상 프레임들에 대해 2차원 합성곱(2D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 상기 제1인공신경망(200)에서 생성된 예측 돌출맵(120)을 반영하여 입력 영상 프레임들로부터 2차원 합성곱(2D convolution) 연산들을 수행하여 추적 대상 물체에 대한 영상의 특징을 추출하는 특징추출 인공신경망(310);
    하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 상기 특징추출 인공신경망(310)의 결과로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층으로 분류하는 완전연결 인공신경망(fully-connected layer)(320);으로 구성되되,
    배경 감지를 이용하여 예측 돌출맵(120)을 생성하는 제1인공신경망(200)은 자연영상으로 구성된 학습데이터(110)에 대응하는 정답 돌출맵(150)을 이용하여 예측 돌출맵(120)과 정답 돌출맵(150)의 차이(binary cross entropy loss)가 가능한 적어지도록 학습되어지고,
    상기 정답 돌출맵(150)은 현재영상 데이터(110)의 전체 영상에서 배경을 뺀 부분의 추적 물체에 대한 돌출맵으로 주어지며,
    상기 배경은 영상의 바깥쪽 테두리 부분들의 픽셀들과 비슷한 내부 영역들이 배경으로 간주되어 인식되는 것을 특징으로 하는 배경인식을 이용한 물체 추적시스템.
  2. 삭제
  3. 삭제
KR1020180091203A 2018-07-11 2018-08-06 배경인식을 이용한 물체 추적시스템 KR101959436B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180091203A KR101959436B1 (ko) 2018-08-06 2018-08-06 배경인식을 이용한 물체 추적시스템
PCT/KR2018/014014 WO2020013395A1 (ko) 2018-07-11 2018-11-15 비디오 영상에서의 물체 추적 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180091203A KR101959436B1 (ko) 2018-08-06 2018-08-06 배경인식을 이용한 물체 추적시스템

Publications (1)

Publication Number Publication Date
KR101959436B1 true KR101959436B1 (ko) 2019-07-02

Family

ID=67258232

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180091203A KR101959436B1 (ko) 2018-07-11 2018-08-06 배경인식을 이용한 물체 추적시스템

Country Status (1)

Country Link
KR (1) KR101959436B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652181A (zh) * 2020-06-17 2020-09-11 腾讯科技(深圳)有限公司 目标跟踪方法、装置及电子设备
CN112561956A (zh) * 2020-11-25 2021-03-26 中移(杭州)信息技术有限公司 视频目标跟踪方法、装置、电子设备及存储介质
WO2021142571A1 (zh) * 2020-01-13 2021-07-22 深圳大学 一种孪生双路目标跟踪方法
CN113780058A (zh) * 2021-07-23 2021-12-10 北京旷视科技有限公司 用于确定视频中多目标轨迹的方法、装置、***及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040049B1 (ko) 2010-12-02 2011-06-09 군산대학교산학협력단 영상 기반 감시 시스템에서 신속하고 강인한 다수 이동 물체 추적 방법
KR101731243B1 (ko) 2015-12-15 2017-04-28 군산대학교 산학협력단 유사한 색상을 지닌 다중 이동 물체의 식별 및 추적을 위한 영상 감시 장치 및 방법
KR101735365B1 (ko) 2017-01-19 2017-05-16 (주)나인정보시스템 학습 기반의 영상 내 관심 물체 검지 및 환경 변화에 강인한 물체 추적 방법
KR20170070715A (ko) * 2015-12-14 2017-06-22 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040049B1 (ko) 2010-12-02 2011-06-09 군산대학교산학협력단 영상 기반 감시 시스템에서 신속하고 강인한 다수 이동 물체 추적 방법
KR20170070715A (ko) * 2015-12-14 2017-06-22 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
KR101731243B1 (ko) 2015-12-15 2017-04-28 군산대학교 산학협력단 유사한 색상을 지닌 다중 이동 물체의 식별 및 추적을 위한 영상 감시 장치 및 방법
KR101735365B1 (ko) 2017-01-19 2017-05-16 (주)나인정보시스템 학습 기반의 영상 내 관심 물체 검지 및 환경 변화에 강인한 물체 추적 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hong et al. Online tracking by learning discriminative saliency map with convolutional neural network. In International Conference on Machine Learning, 2015년 6월, pp. 597-606.* *
Kuen et al. Recurrent attentional networks for saliency detection. CVPR, 2016년, pp. 3668-3677.* *
김민지, 김성찬. 컨볼루션 특징 맵의 상관관계를 이용한 영상물체추적. 대한임베디드공학회논문지, vol. 11, no. 4, 2016년, pp. 219-225.* *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021142571A1 (zh) * 2020-01-13 2021-07-22 深圳大学 一种孪生双路目标跟踪方法
CN111652181A (zh) * 2020-06-17 2020-09-11 腾讯科技(深圳)有限公司 目标跟踪方法、装置及电子设备
CN111652181B (zh) * 2020-06-17 2023-11-17 腾讯科技(深圳)有限公司 目标跟踪方法、装置及电子设备
CN112561956A (zh) * 2020-11-25 2021-03-26 中移(杭州)信息技术有限公司 视频目标跟踪方法、装置、电子设备及存储介质
CN112561956B (zh) * 2020-11-25 2023-04-28 中移(杭州)信息技术有限公司 视频目标跟踪方法、装置、电子设备及存储介质
CN113780058A (zh) * 2021-07-23 2021-12-10 北京旷视科技有限公司 用于确定视频中多目标轨迹的方法、装置、***及存储介质

Similar Documents

Publication Publication Date Title
Ibrahim et al. An automatic Arabic sign language recognition system (ArSLRS)
KR101959436B1 (ko) 배경인식을 이용한 물체 추적시스템
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
Ruiz et al. Fine-grained head pose estimation without keypoints
US11100401B2 (en) Predicting depth from image data using a statistical model
US11195038B2 (en) Device and a method for extracting dynamic information on a scene using a convolutional neural network
Simo-Serra et al. Single image 3D human pose estimation from noisy observations
WO2020167581A1 (en) Method and apparatus for processing video stream
EP2858008A2 (en) Target detecting method and system
KR101912569B1 (ko) 비디오 영상에서의 물체 추적시스템
US20160078287A1 (en) Method and system of temporal segmentation for gesture analysis
Chetverikov et al. Dynamic texture as foreground and background
KR100572768B1 (ko) 디지탈 영상 보안을 위한 사람 얼굴 객체 자동검출 방법
KR100988326B1 (ko) 사용자 맞춤형 표정 인식 방법 및 장치
KR101912570B1 (ko) 인공신경망을 이용한 물체 추적시스템
CN111652181B (zh) 目标跟踪方法、装置及电子设备
Bonde et al. Towards bounding-box free panoptic segmentation
CN111368634B (zh) 基于神经网络的人头检测方法、***及存储介质
CN113312973A (zh) 一种手势识别关键点特征提取方法及***
Biresaw et al. Correlation-based self-correcting tracking
CN107665495B (zh) 对象跟踪方法及对象跟踪装置
CN113095199A (zh) 一种高速行人识别方法及装置
Kumar Motion trajectory based human face and hands tracking for sign language recognition
Han et al. An Object Detection Method Using Wavelet Optical Flow and Hybrid Linear‐Nonlinear Classifier
CN118115927B (en) Target tracking method, apparatus, computer device, storage medium and program product