KR20160135661A - 비디오에서의 객체를 바운딩하기 위한 방법 및 디바이스 - Google Patents

비디오에서의 객체를 바운딩하기 위한 방법 및 디바이스 Download PDF

Info

Publication number
KR20160135661A
KR20160135661A KR1020160058722A KR20160058722A KR20160135661A KR 20160135661 A KR20160135661 A KR 20160135661A KR 1020160058722 A KR1020160058722 A KR 1020160058722A KR 20160058722 A KR20160058722 A KR 20160058722A KR 20160135661 A KR20160135661 A KR 20160135661A
Authority
KR
South Korea
Prior art keywords
pixels
image
video sequence
frame
subset
Prior art date
Application number
KR1020160058722A
Other languages
English (en)
Inventor
조엘 시호
루이 슈발리에
쟝-로낭 비구루
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Publication of KR20160135661A publication Critical patent/KR20160135661A/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/55Motion estimation with spatial constraints, e.g. at image or region borders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • G06T7/2013
    • G06T7/2066
    • G06T7/2073
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 비디오 시퀀스 Fx,y,t에서 객체를 바운딩하기 위한 방법에 관련된다. 방법은 비디오 시퀀스의 각 프레임에서, 주석부기할 객체에 위치한 픽셀들의 서브세트를 획득하는 단계를 포함한다. 획득된 픽셀들의 서브세트들을 중심으로 하여, 비디오 시퀀스 Fx,y,t 상에서 공간 시간 슬라이싱이 수행되고, 그 결과로 획득된 픽셀들의 서브세트들을 포함하는, 제1 슬라이스들의 수평 연쇄에 의하여 획득되는 제1 이미지 Fy,t, 및 제2 슬라이스들의 수직 연쇄에 의하여 획득되는 제2 이미지 Fx,t가 도출된다. 획득된 픽셀들의 서브세트들의 궤적은 제1 Fy,t, 및 제2 Fx,t 이미지 둘 다에 디스플레이된다. 윤곽 감지법을 이용함으로써, 획득된 픽셀들의 서브세트들의 궤적 주위로, 제1 Fy,t, 및 제2 Fx,t 이미지 둘 다에서 제1 및 제2 경계가 획득된다. 주석부기할 객체 주위로, 바운딩 형태는 비디오 시퀀스의 각 프레임에서의 네 개의 점으로부터 획득되고, 프레임 t의 네 개의 점의 좌표들은 그 프레임 t의 제1 및 제2 이미지의 제1 및 제2 경계에 위치한 점들의 좌표들로부터 획득된다. 유리하게는, 바운딩 형태는 네 개의 점으로부터 그려지는 직사각형, 그 직사각형에 내접하는 타원, 또는 네 개의 점을 포함하는 타원이다.

Description

비디오에서의 객체를 바운딩하기 위한 방법 및 디바이스{METHOD AND DEVICE FOR BOUNDING AN OBJECT IN A VIDEO}
이하에서, 비디오 시퀀스에서 움직이는 객체를 바운딩하기 위한 방법이 개시된다. 이러한 방법은 비디오에서의 지역들 또는 객체들의 위치를 나타내기 위하여, 및/또는 다양한 목적들을 위하여 사용될 수 있는 문자적인 또는 상황적인 정보를 추가하기 위하여 지역들 또는 객체들을 주석부기(annotating)하는 데 유용하다. 이것은 예를 들어 견책 목적(censuring purposes)으로 비디오의 일정 부분을 가리거나 흐리게 하는 데 사용될 수 있다. 다른 예시에서, 비디오에서 한 지역을 주석부기하는 것은 객체 또는 얼굴 감지 알고리즘들과 같은 컴퓨터 비전 알고리즘들(computer vision algorithms)을 평가하는 데 사용될 수 있는 비교 기준(ground truth)을 형성하는 것을 허용한다. 상응하는 디바이스 또한 개시된다.
이 섹션은 이하에서 설명되고 및/또는 주장되는 본 발명의 다양한 양태들과 관련될 수 있는 기술의 다양한 양태들을 독자에게 소개하도록 의도되었다. 이 논의는 본 발명의 다양한 양태들을 더 잘 이해하는 것을 용이하게 하기 위한 배경 정보를 독자에게 제공하는 데에 유용할 것으로 생각된다. 따라서, 이 문장들은 선행기술의 인정(admissions)으로서가 아닌, 이러한 견지에서 읽혀야 한다는 것이 이해되어야 한다.
비디오 주석부기(video annotation)는 예를 들어 견책 목적들에서 움직이는 객체들을 가리거나 흐리게 하는 것과 같은 다양한 사용례들에서 매우 유용하다. 이는 또한 알고리즘의 훈련 및 성능 시험을 위해서, 컴퓨터 비전에서의 객체 감지 알고리즘들을 평가하기 위한 비교 기준을 생성하는 데에 매우 유용하다. 직접적인 접근법은 비디오 시퀀스의 각 프레임을 수동으로 주석부기하는 것이지만, 이것은 매우 지루하고 시간을 소비하는 일이 될 수 있다. 주석부기할 객체가 매우 정적이거나, 이것의 모양이 비디오 시퀀스에 걸쳐 변화하지 않을 때, 소수의 프레임들이 주석부기되고 객체의 궤적이 추적되는 몇몇 선행 기술 방법들이 알려져 있다. 예를 들어 미국 특허 7911482 "이미지 시퀀스들에서의 객체 궤적들의 효율적인 주석부기를 위한 방법 및 시스템(Method and system for efficient annotation of object trajectories in image sequences)"은 비디오에서 객체에 주석을 달기 위한 방법을 개시한다. 이 방법은 초기에 수행되는 비디오 시퀀스의 초기 시간 서브샘플링(initial temporal subsampling) 단계를 포함한다. 서브샘플링된 이미지 시퀀스는 상호작용 스크린(interactive screen)을 가로지르는 두 직교하는 방향들로 디스플레이된다. 사용자는 상호작용 스크린을 통하여 두 직교하는 서브샘플링된 시퀀스들에 걸쳐 주석부기할 객체를 추적함으로써 두 직교하는 궤적을 그린다. 방법은 나머지 비디오 시퀀스에 더 보간되는(interpolated) 신 궤적(neo trajectory)을 획득하는 단계를 더 설명한다. 그러나 이러한 방법은 비디오 시퀀스를 따라 형태 및 크기가 변화하는 객체들을 정확하게 주석부기하는 데 실패한다. 사실, 선행 기술의 방법들이 움직이는 객체의 궤적을 캡쳐할 수 있으나, 그것들은 비디오의 각 프레임의 주석부기되는 지역의 크기를, 주석부기할 객체의 변화하는 크기/형태에 맞추어 조정할 수 없다. 그러므로 모든 프레임을 수동으로 수정 및 주석부기할 것을 요구하지 않고 비디오 시퀀스들에서 크기 및/또는 형태가 변화하는 움직이는 객체들을 자동적으로 주석부기하기 위한 몇몇 새롭고 효율적인 방법들이 필요하다.
비디오 시퀀스 Fx,y,t에서 객체를 바운딩하기 위한 방법이 개시된다. 방법은 비디오 시퀀스의 각 프레임에서, 주석부기할 객체에 위치한 픽셀들의 서브세트를 획득하는 것을 포함한다. 획득된 픽셀들의 서브세트들에 중심이 있는 비디오 시퀀스 Fx,y,t상에서 공간 시간 슬라이싱(spatio-temporal slicing)이 수행되고, 그 결과로 획득된 픽셀들의 서브세트들을 포함하는, 제1 슬라이스들의 수평 연쇄(horizontal concatenation)에 의하여 획득되는 제1 이미지 Fy,t, 및 제2 슬라이스들의 수직 연쇄(vertical concatenation)에 의하여 획득되는 제2 이미지 Fx,t를 얻는다. 획득된 픽셀들의 서브세트들의 궤적은 제1 Fy,t 및 제2 Fx,t 이미지 둘 다에 디스플레이된다. 윤곽 감지법(contour detection methods)을 사용함으로써, 획득된 픽셀들의 서브세트들의 궤적 주위로, 제1 Fy,t 및 제2 Fx,t 이미지 둘 다에서 제1 및 제2 경계가 획득된다. 주석부기할 객체를 주위의 바운딩 형태(bounding form)는 비디오 시퀀스의 각 프레임에서의 네 개의 점으로부터 획득되고, 프레임 t의 네 개의 점의 좌표는 그 프레임 t의 제1 및 제2 이미지의 제1 및 제2 경계에 위치한 점들의 좌표로부터 획득된다. 유리하게는, 바운딩 형태는 네 개의 점으로부터 그려지는 직사각형, 또는 그 직사각형에 내접하는 타원, 또는 네 개의 점을 포함하는 타원이다.
바람직한 실시예에 따르면, 바운딩 형태들은 예를 들어 획득된 서브세트들의 상응하는 (제1 또는 제2) 궤적을 조정하는 데 있어서 제1 또는 제2 이미지들 Fy,t 또는 Fx,t 중 하나를 수정하는 데에 사용자를 개입시키고, 및 자동으로 다른 이미지 Fy,t 또는 Fx,t를 재생성함으로써 대화형으로 미세 조정된다. 더 정확하게는, 방법은 제1 이미지에서의 픽셀들의 서브세트들의 궤적을 조정하는 단계, 제2 이미지의 업데이트된 버전을 획득하는 단계, 제2 궤적의 업데이트된 버전을 획득하는 단계, 제2 이미지의 업데이트된 버전에서 제2 궤적의 업데이트된 버전 주위로 제1 및 제2 경계의 업데이트된 버전을 획득하는 단계, 및 객체 주위로 바운딩 형태의 업데이트된 버전을 획득하는 단계를 더 포함한다.
특히 유리한 변형례에 따르면, 제1 슬라이스들은 수직 슬라이스들이고, 제2 슬라이스들은 수평 슬라이스들이다.
특히 유리한 변형례에 따르면, 각각의 제1 슬라이스들은 수직축에 대하여 기울어지고, 그것의 기울기량은 비디오 시퀀스의 연속적인 프레임들의 집합에 대하여 일정하다.
특히 유리한 변형례에 따르면, 제1 슬라이스들의 수직축에 대한 기울기량은 비디오 시퀀스의 복수의 프레임들 상에서 사용자에 의하여 조정 가능하고, 더 나아가 기울기량은 비디오 시퀀스의 나머지 프레임들에 보간된다.
특히 유리한 변형례에 따르면, 픽셀의 서브세트는
-단일 픽셀
-네 개의 픽셀의 블록
-여덟 개의 픽셀의 블록
-열여섯 개의 픽셀의 블록
중에서 선택된다.
제2 양태에서, 각 프레임의 픽셀들의 서브세트로부터 비디오 시퀀스에서의 객체를 바운딩하기 위한 디바이스가 또한 개시된다. 디바이스는
-제1 공간 시간 슬라이싱으로부터 제1 이미지를 획득하고 - 제1 이미지는 비디오 시퀀스에 따른 프레임들에 대한 픽셀들의 서브세트를 포함하는 제1 슬라이스들의 수평 연쇄임 -,
-제2 공간 시간 슬라이싱으로부터 제2 이미지를 획득하고 - 제2 이미지는 비디오 시퀀스에 따른 프레임들에 대한 픽셀들의 서브세트를 포함하는 제2 슬라이스들의 수직 연쇄이고, 각각의 제2 슬라이스들은 동일한 프레임의 제1 슬라이스에 대하여 직교함 -,
-각각의 제1 및 제2 이미지들상에서, 각 프레임의 픽셀들의 서브세트들의 제1 및 제2 궤적을 획득하고,
-윤곽 감지법에 의하여, 각각의 제1 및 제2 이미지들에서, 제1 및 제2 궤적들 주위로 제1 및 제2 경계를 획득하고,
-비디오 시퀀스의 각 프레임에서의 객체 주위로, 네 개의 점으로부터 바운딩 형태를 획득하도록 - 프레임 t에서의 네 개의 점의 좌표는 그 프레임 t에 대한 제1 및 제2 이미지의 제1 및 제2 경계에 위치한 점들의 좌표로부터 획득됨 -
구성된 프로세서를 포함한다.
제3 양태에서, 각 프레임의 픽셀들의 서브세트로부터 비디오 시퀀스에서의 객체를 바운딩하기 위한 컴퓨터 프로그램이 또한 개시된다. 컴퓨터 프로그램은
-제1 공간 시간 슬라이싱으로부터 제1 이미지를 획득하고 - 제1 이미지는 비디오 시퀀스에 따른 프레임들에 대한 픽셀들의 서브세트를 포함하는 제1 슬라이스들의 수평 연쇄임 -,
-제2 공간 시간 슬라이싱으로부터 제2 이미지를 획득하고 - 제2 이미지는 비디오 시퀀스에 따른 프레임들에 대한 픽셀들의 서브세트를 포함하는 제2 슬라이스들의 수직 연쇄이고, 각각의 제2 슬라이스들은 동일한 프레임의 제1 슬라이스에 대하여 직교함 -,
-각각의 제1 및 제2 이미지들 상에서, 각 프레임의 픽셀들의 서브세트들의 제1 및 제2 궤적을 획득하고,
-윤곽 감지법에 의하여, 각각의 제1 및 제2 이미지들 상에서, 제1 및 제2 궤적 주위로 제1 및 제2 경계를 획득하고,
-비디오 시퀀스의 각 프레임에서의 객체 주위로, 네 개의 점으로부터 바운딩 형태를 획득 - 프레임 t에서 네 개의 점의 좌표는 그 프레임 t에 대한 제1 및 제2 이미지의 제1 및 제2 경계에 위치한 점들의 좌표로부터 획득됨 -
하기 위해, 프로세서에 의하여 실행 가능한 프로그램 코드 명령어들을 포함한다.
제4 양태에서, 각 프레임의 픽셀들의 서브세트로부터 비디오 시퀀스에서의 객체를 바운딩하기 위한 컴퓨터 프로그램 제품이 또한 개시된다. 컴퓨터 프로그램 제품은 비일시적 컴퓨터 판독 가능 매체에 저장되고,
-제1 공간 시간 슬라이싱으로부터 제1 이미지를 획득하고 - 제1 이미지는 비디오 시퀀스에 따른 프레임들에 대한 픽셀들의 서브세트를 포함하는 제1 슬라이스들의 수평 연쇄임 -,
-제2 공간 시간 슬라이싱으로부터 제2 이미지를 획득하고 - 제2 이미지는 비디오 시퀀스에 따른 프레임들에 대한 픽셀들의 서브세트를 포함하는 제2 슬라이스들의 수직 연쇄이고, 각각의 제2 슬라이스들은 동일한 프레임의 제1 슬라이스에 대하여 직교함 -,
-각각의 제1 및 제2 이미지들 상에서, 각 프레임의 픽셀들의 서브세트들의 제1 및 제2 궤적을 획득하고,
-윤곽 감지법에 의하여, 각각의 제1 및 제2 이미지들 상에서, 제1 및 제2 궤적 주위로 제1 및 제2 경계를 획득하고,
-비디오 시퀀스의 각 프레임에서의 객체 주위로, 네 개의 점으로부터 바운딩 형태를 획득 - 프레임 t에서 네 개의 점의 좌표는 그 프레임 t에 대한 제1 및 제2 이미지의 제1 및 제2 경계에 위치한 점들의 좌표로부터 획득됨 -
하기 위해 프로세서에 의하여 실행 가능한 프로그램 코드 명령어들을 포함한다.
명시적으로 설명된 것은 아니지만, 본 실시예들은 임의의 조합 또는 서브컴비네이션(sub-combination) 형태로 적용될 수 있다. 예를 들어, 본 발명은 설명된 픽셀들의 서브세트 및 바운딩 형태의 변형례들로 한정되지 않고, 픽셀들의 서브세트 또는 바운딩 형태의 변형례들의 임의의 배열이 사용될 수 있다. 더욱이, 본 발명은 설명된 공간 시간 슬라이싱 특성에 한정되지 않으며, 비디오 시퀀스 전반에서 슬라이스 기울기량을 조정하기 위한 다른 수단들이 사용될 수 있다.
그 외에도, 바운딩 방법에 대하여 설명된 임의의 특성 또는 실시예는 개시된 방법을 처리하도록 의도된 디바이스 및 프로그램 명령어들을 저장하는 컴퓨터 판독 가능 저장 매체와 양립 가능하다.
도면들에서, 본 발명의 실시예가 도해된다.
도 1은 본 발명의 구체적이고도 비제한적인 실시예에 따른, 비디오에서 객체를 바운딩하기 위한 처리 디바이스를 묘사한다.
도 2는 본 발명의 구체적이고도 비제한적인 실시예에 따른, 도 1의 처리 디바이스의 예시적인 구조를 나타낸다.
도 3은 바람직한 실시예에 따른, 비디오에서 객체를 바운딩하기 위한 방법을 도해한다.
도 4는 바람직한 실시예에 따른, 비디오 시퀀스의 예시, 픽셀들의 서브세트 선택의 예시, 및 슬라이싱의 예시를 도해한다.
도 5는 바람직한 실시예에 따른, 공간 시간 슬라이싱 결과들의 예시 및 바운딩 형태의 예시를 도해한다.
도 6은 대안적인 실시예에 따른, 슬라이싱 및 바운딩의 예시를 도해한다.
도 1은 비디오 시퀀스 Fx,y,t의 각 프레임에서 픽셀들의 서브세트가 획득되는, 비디오 시퀀스 Fx,y,t에서 객체를 바운딩하기 위한 처리 디바이스(1)를 묘사한다. 본 발명의 구체적이고도 비제한적인 실시예에 따르면, 처리 디바이스(1)는 비디오 시퀀스를 수신하도록 구성된 입력(10)을 포함한다. 비디오 시퀀스는 소스로부터 획득된다. 본 발명의 상이한 실시예들에 따르면, 소스는 다음을 포함하는 집합에 속한다.
-비디오 메모리, RAM, 플래시 메모리, 하드 디스크, SD 카드와 같은 로컬 메모리
-대용량 저장소, ROM, 광학 디스크 또는 자성 지지 요소(magnetic support)를 갖는 인터페이스와 같은 저장 인터페이스
-유선 인터페이스(예를 들어, 버스 인터페이스, 광역 통신망 인터페이스, 근거리 통신망 인터페이스) 또는 (IEEE 802.11 인터페이스, 블루투스 인터페이스, 셀룰러 모바일 폰 인터페이스와 같은) 무선 인터페이스와 같은 통신 인터페이스
입력(10)은 나아가, 프레임 상에서 사용자로부터 선택 데이터를 수신하도록 구성된다. 선택 데이터는 주석부기할 객체 내에 포함된 픽셀들의 서브세트를 획득하기 위하여 선택 수단(나타나지 않음)을 통하여 사용자에 의하여 생성된다. 본 발명의 상이한 실시예들에 따르면, 선택 수단은 다음을 포함하는 집합에 속한다.
-스타일러스 또는 손가락과 같은 외부 객체와 더불어, 비디오 시퀀스의 적어도 하나의 프레임에서의 픽셀들의 서브세트를 선택할 수 있는 터치 스크린 센서 및 이것에 수반되는 컨트롤러 기반 펌웨어
-(키보드의 몇몇 키들과 같은) 다른 입력 시그널들에 합쳐진, 그리고 비디오 시퀀스의 적어도 하나의 프레임에서의 픽셀들의 서브세트를 선택하기 위한 어느 정도의 비디오 디스플레이 능력에 연관된 마우스
더 일반적으로, 비디오 시퀀스의 적어도 하나의 프레임에서의 주석을 달 객체에 포함된 픽셀들의 서브세트를 획득하는 것을 허용하는 임의의 선택 수단은 본 발명과 양립 가능하다.
입력(10)은 비디오 시퀀스의 적어도 하나의 프레임에서의 주석을 달 객체에 포함된 위치를 나타내는 선택 데이터로부터 픽셀들의 서브세트를 획득하도록 구성된 처리 모듈(11)에 연결되고, 비디오 시퀀스의 적어도 하나의 프레임은 비디오 시퀀스의 시간 서브샘플링(temporal subsampling)으로부터 도출된다. 유리하게는, 처리 모듈(11)은 서브샘플링된 프레임들의 픽셀들의 선택된 서브세트들을 나머지 프레임들에 보간함으로써 비디오 시퀀스의 각 프레임에서의 픽셀들의 서브세트를 획득하도록 구성된다. 변형례에서, 처리 모듈(11)은 디바이스(1)의 외부에 있고, 그러한 경우에서, 비디오 시퀀스의 각 프레임의 픽셀들의 서브세트들은 디바이스(1)에 의하여 입력(10)을 통하여 수신된다. 처리 모듈(11)은 제1 및 제2 이미지를 획득하도록 구성된 두 개의 공간 시간 슬라이싱 모듈(121 및 122)에 연결된다. 제1 이미지는 제1 슬라이스들의 수평적 연쇄에 의하여 공간 시간 슬라이싱 모듈(121)로부터 획득되고, 제1 슬라이스는 처리 모듈(11)에 의하여 비디오 시퀀스의 프레임에 대하여 획득되는 픽셀들의 서브세트를 포함한다. 제2 이미지는 제2 슬라이스들의 수직적 연쇄에 의하여 공간 시간 슬라이싱 모듈(122)로부터 획득되고, 제2 슬라이스는 처리 모듈(11)에 의하여 비디오 시퀀스의 프레임에 대하여 획득되는 픽셀들의 서브세트를 포함하고, 각 제2 슬라이스는 비디오 시퀀스를 따라 동일한 프레임의 제1 슬라이스에 대하여 직교한다.
각각의 공간 시간 슬라이싱 모듈들(121 및 122)은 제1 및 제2 이미지 각각에서, 제1 및 제2 궤적을 각각 획득하도록 구성된 처리 모듈(131 및 132)에 각각 연결된다. 더 정확하게, 처리 모듈(131)은 픽셀들의 서브세트들에 의하여 점유된 영역들을 제1 이미지의 수평적으로 연쇄된 슬라이스들을 따라 연쇄시켜, 그 결과 제1 궤적을 도출하도록 구성된다. 유사하게, 처리 모듈(132)은 픽셀들의 서브세트들에 의하여 점유된 영역들을 제2 이미지의 수직적으로 연쇄된 슬라이스들을 따라 연쇄시켜, 그 결과 제2 궤적을 도출하도록 구성된다. 특정 실시예에 따르면, 결과로서 도출되는 제1 및 제2 궤적들은 제1 및 제2 이미지들과 더불어 처리 모듈들(131 및 132)에 의하여, 디스플레이 수단과 같은 출력(18)에 보내진다. 픽셀들의 서브세트들의 제1 궤적 및 픽셀들의 서브세트들의 제2 궤적은 디스플레이 수단 상에 각각 제1 및 제2 이미지와 함께 디스플레이된다. 사용자는 상응하는 (제1 또는 제2) 이미지상의 픽셀들의 서브세트들의 제1 또는 제2 궤적의 위치를 조정하기로 결정할 수 있고, (제1 또는 제2) 다른 이미지는 재계산(re-computed)된다. 예를 들어 사용자가 제1 이미지상의 제1 궤적을 조정하기로 결정한다. 이는 선택 수단을 통하여 선택 데이터를 처리 모듈(131)에 보냄으로써 이루어지고, 처리 모듈은 수정된 이미지들을 출력(18)을 통하여 디스플레이 수단에 보낸다. 처리 모듈(131)은 비디오 시퀀스를 따라 프레임들에 대한 업데이트된 궤적으로부터 획득된 픽셀들의 서브세트를 포함하는 제2 슬라이스들의 수직적 연쇄로부터 제2 이미지를 재계산하도록 구성된 공간 시간 슬라이싱 모듈(122)에 픽셀들의 서브세트들의 조정된 궤적을 보낸다. 재계산된 제2 이미지는 제2 이미지상의 픽셀들의 서브세트들의 업데이트된 궤적을 획득하기 위한 처리 모듈(132)에 보내진다. 그 결과로 도출되는 재계산된 제2 이미지 및 업데이트된 제2 궤적은 출력(18)에 보내지고 사용자에게 디스플레이된다. 사용자가 제2 이미지상의 픽셀들의 서브세트들의 제2 궤적의 위치를 조정하고, 제1 이미지가 재계산되는 유사한 과정 또한 적용 가능하다.
각 처리 모듈들(131 및 132)은 또한, 자신의 상응하는 제1 또는 제2 궤적 주위로 제1 및 제2 경계를 각각 획득하도록 구성된 처리 모듈(141, 142)에 각각 연결된다. 다시 말해서, 처리 모듈들(131)은 제1 궤적 주위로 제1 및 제2 경계를 획득하도록 구성된 처리 모듈(141)에 제1 이미지 및 픽셀들의 서브세트들의 제1 궤적에 상응하는 데이터를 보낸다. 유사하게, 처리 모듈들(132)은 제2 궤적 주위로 제1 및 제2 경계를 획득하도록 구성된 처리 모듈(142)에 제2 이미지 및 픽셀들의 서브세트들의 제2 궤적에 상응하는 데이터를 보낸다.
각각의 처리 모듈들(141 및 142)은 주석부기할 객체 주위로 바운딩 형태를 획득하도록 구성된 처리 모듈(16)에 제1 및 제2 이미지와 더불어 이것의 제1 및 제2 경계에 상응하는 데이터를 각각 보낸다. 바운딩 형태는 각 프레임의 네 개의 점으로부터, 비디오 시퀀스의 각 프레임에서 획득되고, 프레임 t에서 네 점의 좌표 (X,Y)는 그 프레임 t에 대한 제1 및 제2 이미지의 제1 및 제2 경계에 위치한 점들의 좌표로부터 획득된다. 특정 실시예에 따르면, 처리 모듈(16)은 결과로서 도출되는 주석부기된 비디오 시퀀스를 비디오 출력(18)에 보내고, 비디오 시퀀스의 객체는 매 프레임에서 획득된 바운딩 형태에 의하여 바운딩된다.
특정 실시예에 따르면 디스플레이 수단은 디바이스의 외부에 있고, 출력(18)은 디스플레이할 데이터를 외부 디스플레이 수단에 보낸다. 본 발명의 상이한 실시예들에 따르면, 디스플레이 수단은 내재적이든 외재적이든 다음을 포함하는 집합에 속한다.
-개인용 컴퓨터 스크린
-TV 스크린
-타블렛
-스마트폰 스크린
더 일반적으로, 비디오 시퀀스에서 주석부기할 객체 주위의 바운딩 형태를 디스플레이하도록 허용하는 임의의 디스플레이 수단은 본 발명과 양립 가능하다.
변형례에서, 바운딩 형태 및/또는 그것의 상응하는 네 점 좌표는 메모리 내에 저장된다. 예시로서, 그러한 정보는 비디오 메모리 또는 RAM, 하드 디스크와 같은 로컬 메모리 또는 원격 메모리 내에 저장된다.
도 2는 본 발명의 구체적이고도 비제한적인 실시예에 따른, 처리 디바이스(1)의 예시적인 구조를 나타내고, 처리 디바이스(1)는 비디오 시퀀스에서 객체를 바운딩하도록 구성된다. 메모리는 주석부기할 객체를 포함하는 비디오 시퀀스의 프레임들을 저장한다. 처리 디바이스(1)는 (RAM, ROM, EPROM과 같은) 내부 메모리(220)와 더불어, 예를 들어 CPU, GPU, 및/또는 DSP(digital signal processor, 디지털 시그널 프로세서)인 하나 이상의 프로세서(들)(210)를 포함한다. 처리 디바이스(1)는 출력 정보를 디스플레이에 보내고, 및/또는 (키보드, 마우스, 터치패드, 웹캠, 디스플레이와 같이) 사용자로 하여금 명령들 및/또는 데이터를 입력하도록 허용하고, 및/또는 네트워크 인터페이스를 통하여 데이터를 송신/수신하도록 적응된 하나 이상의 입력/출력 인터페이스(들)(230), 및 처리 디바이스(1)의 외부에 있을 수 있는 전원(240)을 포함한다.
본 발명의 예시적이고 비제한적인 실시예에 따르면, 처리 디바이스(1)는 메모리(220)에 저장된 컴퓨터 프로그램을 더 포함한다. 컴퓨터 프로그램은 처리 디바이스(1)에 의하여 실행될 때, 구체적으로 프로세서(210)에 의하여 실행될 때, 처리 디바이스(1)로 하여금 도 3을 참조하여 설명된 처리 방법을 수행하도록 하는 명령어들을 포함한다. 변형례에 따르면, 컴퓨터 프로그램은 처리 디바이스(1)의 외부에서 본 기술분야에서 알려진 SD 카드, HDD, CD-ROM, DVD, 읽기 전용 및/또는 DVD 드라이브 및/또는 DVD 읽기/쓰기 드라이브와 같은 외부 저장 매체와 같은 비일시적 디지털 데이터 서포트 상에 저장될 수 있다. 처리 디바이스(1)는 따라서 컴퓨터 프로그램을 읽기 위한 인터페이스를 포함한다. 나아가, 처리 디바이스(1)는 상응하는 USB 포트들(도시되지 않음)을 통하여 하나 이상의 (메모리 스틱들과 같은) USB(universal serial bus) 타입의 저장 디바이스들에 접근할 수 있다. 예시적이고 비제한적인 실시예들에 따르면, 처리 디바이스(1)는 다음을 포함하는 집합에 속하는 디바이스이다.
-모바일 디바이스
-통신 디바이스
-게임 디바이스
-타블렛 (또는 타블렛 컴퓨터)
-스마트폰
-랩탑
-정지영상 카메라(still picture camera)
-비디오카메라
-정지영상 서버
-(방송 서버, 주문형 비디오 서버, 또는 웹 서버와 같은) 비디오 서버
도 3은 바람직한 실시예에 따른, 비디오 시퀀스에서 객체를 바운딩하기 위한 방법을 도해한다. 어떠한 한정이나 일반성의 상실도 없이, 그러나 명확성을 높이기 위하여, 도 4에 묘사된 바와 같이, 비디오 시퀀스(40)는 3개의 차원 (x,y,t)의 볼륨(volume)으로 간주되고, (x,y)는 프레임(400)의 공간적 차원들을 나타내며, t는 시간적 차원을 나타낸다. 볼륨은 또한 각각 (x,t) 또는 (y,t)의 차원들을 가지는 공간 시간 2D 컷들(spatio-temporal 2D cuts)의 집합에 의하여 형성된 것으로 보일 수 있고, 공간 시간 2D 컷은 시간 값을 증가시킴에 따라 매 프레임의 동일한 선택된 위치에서의 스트레이트 슬라이스들(straight slices)이라고도 불리는 1D 슬라이스들의 연쇄이다.
픽셀들의 서브세트들의 3D 궤적 획득하기
단계(S31)에서, 픽셀들의 서브세트(403)가 선택 수단으로부터 수신된 선택 데이터에 따라 비디오 시퀀스(40)의 적어도 하나의 프레임(400)에서 획득된다. 비디오 시퀀스(40)의 적어도 하나의 프레임(400)을 시각화하는 사용자는 예를 들어 마우스 또는 터치 스크린 상의 스타일러스와 같은 선택 수단을 사용하여, 예를 들어 주석부기 할 객체의 대략 중심에 위치한, 시각화된 적어도 하나의 프레임의 한 부분을 선택한다. 제1 변형례에서, 적어도 하나의 프레임(400) 상의 획득된 픽셀들의 서브세트(403)는 프레임(400)의 선택된 영역에 포함된 픽셀들에 상응한다. 제2 변형례에서, 적어도 하나의 프레임(400) 상의 획득된 픽셀들의 서브세트(403)는 프레임(400)의 선택된 영역의 중심에 위치하는 단일 픽셀에 상응한다. 다른 변형례에서, 적어도 하나의 프레임(400) 상의 획득된 픽셀들의 서브세트(403)는 프레임(400)의 선택된 영역의 중심에 위치하는 네 개의 픽셀의 블록에 상응한다. 또 다른 변형례에서, 적어도 하나의 프레임(400) 상의 획득된 픽셀들의 서브세트(403)는 프레임(400)의 선택된 영역의 중심에 위치하는 여덟 개 또는 열여섯 개의 픽셀의 블록에 상응한다. 더 일반적으로, 선택된 영역으로부터 획득된 임의의 블록 사이즈 및 형태는 개시된 방법과 양립 가능하다.
제1 실시예에서, 픽셀들의 서브세트(403)는 상술한 임의의 변형례에 따라, 사용자로부터 수신된 선택 데이터로부터 단일 프레임(400)에서 선택된다. 초기 3D 궤적(42)이라고 불리는 각 프레임의 픽셀들의 서브세트(403)는 비디오 시퀀스(40)에 상응하는 볼륨에서의 시간축에 따른 직선들을 따라 시퀀스(40)의 모든 프레임들에, 한 프레임(400)에 대하여 획득된 픽셀들의 서브세트(403)의 위치를 보간함으로써 획득된다. 이것은 후술할 대화형 프로세스(interactive process)에 후속하여 미세 조정될 수 있는 초기 3D 궤적을 획득하는 데 사용자로부터 단일의 수동 주석부기가 요구된다는 점에서 유리하다.
제2 실시예에서, 비디오 시퀀스는 사용자에 의하여 수동으로 주석부기되는 복수의 프레임들(400)로 시간적으로 서브샘플링되어, 그 결과 상술한 임의의 변형례에 따라 사용자로부터 수신된 선택 데이터로부터 획득된 픽셀들의 복수의 서브세트들(403)을 도출한다. 각 프레임(400)의 픽셀들의 서브세트(403)는 픽셀들의 서브세트들의 서브샘플링된 위치들을 나머지 프레임들에 보간함으로써 획득되고, 그 결과 도 4에 도해된 바와 같은 초기 3D 궤적(41)을 도출한다.
공간 시간 스플라이싱
단계(S311)에서, 도 5에 도시된 바와 같은 제1 이미지(51)는 제1 공간 시간 슬라이싱으로부터 획득되고, 비디오 시퀀스(40)의 각 프레임에서 적어도 하나의 제1 슬라이스(401)가 획득되며, 프레임의 제1 슬라이스(401)는 스트레이트 슬라이스이고, 수직축에 대한 기울기량, 폭 및 그 프레임에 대한 획득된 픽셀들의 서브세트(403)에 의하여 특징지어진다. 유리하게는, 제1 슬라이스(401) 폭은 정확히 획득된 픽셀들의 서브세트(403)의 폭이다. 그러나 획득된 서브세트(403) 폭보다 작거나 큰, 다른 폭 또한 개시된 방법과 양립 가능하다. 유리하게는, 각 제1 슬라이스들(401)은 도 4에 도시된 바와 같이 수직 슬라이스이다. 비디오 시퀀스의 모든 프레임들에 대하여 획득된 제1 슬라이스들(401)은 시간 t의 값을 증가시킴에 따라 왼쪽에서 오른쪽으로 수평적으로 연쇄되어, 그 결과로 도 5에 도시된 바와 같은 제1 이미지(51)가 도출된다. 시간 t의 값을 증가시킴에 따라 제1 슬라이스들(401)을 오른쪽에서부터 왼쪽으로 수평 연쇄시키는 것은 본 방법의 가능한 변형례이다. 제1 이미지(51)의 가로 좌표는 비디오 시퀀스(40)의 시간 t이고, 주어진 t의 값에 대하여 제1 이미지(51)의 세로 좌표는 시간 t에서 비디오 시퀀스의 제1 슬라이스(401)에 상응한다. 다시 말해서, 제1 이미지(51)는 제1 슬라이스(401)의 기울기량 및 픽셀들의 서브세트들의 획득된 3D 궤적(41, 42)에 후속하는 비디오 시퀀스 볼륨(40)에서의 컷으로 볼 수 있다. 나중에 더 자세히 서술될 바와 같이, 개시된 공간 시간 슬라이싱은 컷이 선형적이지 않다(수직축에 대한 제1 슬라이스들의 기울기량이 시간에 따라 변화한다)는 점에서 유리하다.
유사하게 단계(S312)에서, 도 5에 도시된 바와 같은 제2 이미지(52)가 제2 공간 시간 슬라이싱으로부터 획득되고, 비디오 시퀀스의 각 프레임에서 적어도 하나의 제2 슬라이스(402)가 획득되며, 프레임의 제2 슬라이스(402)는 스트레이트 슬라이스이고, 동일한 프레임의 제1 슬라이스(401)에 대하여 직교하며, 폭 및 그 프레임에 대한 획득된 픽셀들의 서브세트(403)에 의하여 더 특정지어진다. 제1 슬라이스(401)가 수직인 경우, 상응하는 제2 슬라이스(402)는 도 4에 도시된 바와 같이 수평이다. 제1(401)과 제2(402) 슬라이스들 사이의 직교성은 후술할 바와 같은 대화형 프로세스에서 픽셀들의 서브세트들의 3D 궤적을 미세 조정하는 동안 필수적인 특성이다. 유리하게는, 제2 슬라이스(402) 폭은 정확히 획득된 픽셀들의 서브세트(403)의 폭이다. 그러나 획득된 서브세트(403) 폭보다 크거나 작은 다른 폭 또한 개시된 방법과 양립 가능하다. 비디오 시퀀스(40)의 모든 프레임들(400)에 대하여 획득된 제2(402) 슬라이스들은 시간 t의 값을 증가시킴에 따라 상단에서부터 하단으로 수직적으로 연쇄되어, 그 결과로 도 5에 도시된 바와 같은 제2 이미지(52)가 도출된다. 시간 t의 값을 증가시킴에 따라 제2 슬라이스들을 하단에서부터 상단으로 수직 연쇄시키는 것은 본 방법의 가능한 변형례이다. 제2 이미지(52)의 세로 좌표는 비디오 시퀀스의 시간 t이고, 주어진 t의 값에 대하여 제2 이미지(52)의 가로 좌표는 시간 t에서 비디오 시퀀스의 제2 슬라이스(402)에 상응한다. 다시 말해서, 제2 이미지(52)는 제2 슬라이스(402)의 기울기량 및 픽셀들의 서브세트들의 획득된 3D 궤적(41, 42)에 후속하는 비디오 시퀀스 볼륨(40)에서의 컷으로 볼 수 있다.
더 형식적으로:
비디오 시퀀스 F x,y,t 를 픽셀들의 큐브(cube)로 보고, 픽셀은 큐브 내의 자신의 좌표 (x,y,t)에 의하여 정의된다.
T t =( x,y )를, 시간 t에서 픽셀들의 서브세트의 중심에 위치한 픽셀의 좌표 (x,y)를 주는 3D 궤적 함수로 둔다.
T t .x=x를, 시간에서 픽셀들의 서브세트의 중심에 위치한 픽셀의 좌표 (x)를 주는 투영된 3D 궤적 함수로 둔다.
제1 이미지(51)는 픽셀들의 집합인 행렬 I로 볼 수 있다.
Figure pat00001
제2 이미지(52)는 픽셀들의 집합인 행렬 J로 볼 수 있다.
Figure pat00002
여기서 a 및 b는 각각 행렬들 I J에 대한, 수평축 및 수직축에 상응하는 지표들이다.
경계들 획득하기
단계(S321)에서, 도 5에 도시된 바와 같은 제1 궤적(510)은 제1 이미지(51)상에서 픽셀들의 서브세트들에 의하여 점유된 영역들을 제1 이미지(51)의 수평적으로 연쇄된 제1 슬라이스들(401)을 따라 연쇄시킴으로써 획득된다. 제1 궤적(510)은 제1 이미지(51)에 속하므로 앞에서 기술하였던 3D-궤적(41, 42)과 상이하다. 제1 이미지(51)상의 픽셀들의 서브세트들의 궤적인 제1 궤적(510)은 주석부기할 객체의 중심을 나타낸다. 픽셀들의 서브세트들이 비디오 시퀀스를 따라 주석부기할 객체 안에 잘 위치된 경우, 및 주석부기할 객체가 비디오 시퀀스를 따라 명백히 가시적일 때, 제1 이미지(51)상에서 밴드(515)는 명백히 가시적이다.
단계(S331)에서, 제1 경계(511) 및 제2 경계(512)는 제1 이미지(51)상의 제1 궤적(510) 주위에서 획득되고, 그 결과로 제1 밴드(515)가 도출된다. 제1 변형례에서, 제1(511) 및 제2(512) 경계들은 선택 수단을 통하여 사용자에 의하여 제1 궤적(510) 주위에 위치된다. 제2 변형례에서, 제1(511) 및 제2(512) 경계들은 자동 윤곽 감지 기술들에 의하여 제1 궤적(510) 주위에 위치된다. 유리하게는, 수동적인 및 자동적인 기술들 양자의 조합이 제1 이미지(51)상에서 제1 궤적(510) 주위로 제1(511) 및 제2(512) 경계들을 획득하기 위하여 사용된다.
유사하게, 단계(S322)에서, 도 5에 도시된 바와 같은 제2 궤적(520)은 제2 이미지(52)상에서 픽셀들의 서브세트들에 의하여 점유된 영역들을 제2 이미지(52)의 수직적으로 연쇄된 제2 슬라이스들(402)을 따라 연쇄시킴으로써 획득된다. 제2 궤적(520)은 제2 이미지(52)에 속하므로, 앞에서 기술하였던 3D 궤적(41, 42)과 상이하다. 제2 이미지(52)상의 픽셀들의 서브세트들의 궤적인 제2 궤적(520)은 주석부기할 객체의 중심을 나타낸다. 여기서도 또한, 픽셀들의 서브세트들이 비디오 시퀀스를 따라 주석부기할 객체 안에 잘 위치된 경우, 및 주석부기할 객체가 비디오 시퀀스를 따라 명백히 가시적일 때, 제2 이미지(52)상에서 밴드(525)는 명백히 가시적이다.
단계(S332)에서, 제1 경계(521) 및 제2 경계(522)는 제2 이미지(52)상의 제2 궤적(520)의 주위에서 획득되고, 그 결과로 제2 밴드(525)가 도출된다. 제1 변형례에서, 제1(521) 및 제2(522) 경계들은 선택 수단을 통하여 사용자에 의하여 제2 궤적(520) 주위에 위치된다. 제2 변형례에서, 제1(521) 및 제2(522) 경계들은 자동 윤곽 감지 기술들에 의하여 제2 궤적(520) 주위에 위치된다. 유리하게는, 수동적인 및 자동적인 기술들 양자의 조합이 제2 이미지(52)상에서 제2 궤적(520) 주위로 제1(521) 및 제2(522) 경계들을 획득하기 위하여 사용된다.
대화형 미세 조정
단계(S321)의 하위 단계(S3210)에서, 제1 궤적(510)은 예를 들어 선택 수단을 통하여 사용자에 의하여 제1 이미지(51)상에서 조정된다. 제1 이미지(51)상의 제1 궤적(510)의 위치의 수정은 비디오 시퀀스 볼륨(40)에서 그 프레임의 제1 슬라이스의 방향을 따라 상응하는 픽셀들의 서브세트들(403)의 위치들의 수정을 발생시킨다. 달리 말하면, 제1 이미지(51)상의 제1 궤적(510)을 조정하는 것은 비디오 시퀀스(40)에서의 픽셀들의 서브세트들(403)의 3D 궤적을 조정하는 것을 허용한다. 제1 제2 슬라이스들 사이의 직교성 덕분에, 제1 이미지(51)상의 제1 궤적(510)을 조정하는 것은 제2 이미지(52)상의 제2 궤적(520)의 변화를 발생시키지 않는다. 그러나 제1 슬라이스들의 방향을 따라 픽셀들의 서브세트들의 3D 궤적이 진전되었기 때문에, 제2 이미지(52)는 유리하게 재생성될 수 있다. 업데이트된 버전의 제2 이미지(52)는 단계(S312)에서의 제2 공간 시간 슬라이싱으로부터, 픽셀들의 서브세트들(403)의 업데이트된 3D 궤적에 기초하여 획득된다. 제1 이미지(51)상의 제1 궤적(510)을 조정하는 단계(S3210), 업데이트된 픽셀들의 서브세트들의 제2 공간 시간 슬라이싱으로부터 제2 이미지(52)를 획득하는 단계(S312), 제2 이미지(52)상의 제2 궤적(520)을 획득하는 단계(S322)의 연속적 단계들이 제1(51) 및 제2(52) 이미지들 상의 제1(510) 및 제2(520) 궤적들을 미세 조정하기 위하여 수차례 반복되어, 대화형 프로세스를 야기할 수 있다.
대칭적으로 단계(S322)의 하위 단계(S3220)에서, 제2 궤적(520)은 예를 들어 선택 수단을 통하여 사용자에 의하여 제2 이미지(52)상에서 조정된다. 제2 이미지(52)상의 제2 궤적(520)의 위치의 수정 또한 비디오 시퀀스 볼륨(40)에서 그 프레임의 제2 슬라이스의 방향을 따라 상응하는 픽셀들의 서브세트들의 위치들의 수정을 발생시킨다. 이것의 결과로 픽셀들의 서브세트들의 업데이트된 3D 궤적이 도출된다. 업데이트된 버전의 제1 이미지(51)는 단계(S311)에서의 제1 공간 시간 슬라이싱으로부터, 픽셀들의 서브세트들의 업데이트된 3D 궤적에 기초하여 획득된다. 제2 이미지(52)상의 제2 궤적(520)을 조정하는 단계(S3220), 픽셀들의 서브세트들의 업데이트된 3D 궤적의 제1 공간 시간 슬라이싱으로부터 제1 이미지(51)를 획득하는 단계(S311), 제1 이미지(51)상의 제1 궤적(510)을 획득하는 단계(S321)의 연속적 단계들이 제1(51) 및 제2(52) 이미지들 상의 제1(510) 및 제2(520) 궤적들을 미세 조정하기 위하여 수차례 반복될 수 있다.
유리하게는, 제1(51) 및 제2(52) 이미지들 상의 제1(515) 및 제2(525) 밴드의 대화형 미세 조정은, 한편으로는 제1(510) 궤적을 조정(S3210)하고 제2 이미지를 획득(S312)하는 것과, 다른 한편으로는 제2(520) 궤적을 조정(S3220)하고 제1 이미지를 획득(S311)하는 것을 번갈아 함으로써 이뤄질 수 있다.
유리하게는, 제1(51) 및 제2(52) 이미지들 상의 제1 및 제2 밴드의 대화형 미세 조정은 또한 제1 궤적(510) 주위로 제1(511) 및 제2(512) 경계를 획득하는 단계(S331), 및 제2 궤적(520) 주위로 제1(521) 및 제2(522) 경계를 획득하는 단계(S332)를 포함한다.
명백히, 본 기술분야의 통상의 기술자는 또한 제1 및 제2 궤적들을 획득하는 것 및 대화형 미세 조정을 건너뛰고, 윤곽 감지법에 의하여 제1(51) 및 제2(52) 이미지들 각각에서 각 프레임의 픽셀들의 서브세트들(403, 603) 주위로 제1(511, 521) 및 제2(512, 522) 경계를 획득할 수 있다.
바운딩 형태 획득하기
단계(S34)에서, 비디오 시퀀스의 각 프레임(530, 531, 532)에서 주석부기할 객체 주위로, 네 점으로부터 바운딩 형태(540, 541, 542)가 획득되고, 프레임 t에서 네 점의 좌표 (X,Y)는 그 프레임 t에 대한 제1(51) 및 제2(52) 이미지의 제1(511, 521) 및 제2(512, 522) 경계들에 위치한 점들의 좌표로부터 획득된다. 달리 말해서, 제1 이미지(51)로부터, 임의의 t의 값에서, 그 t 값에 대한 제1(511) 및 제2(512) 경계들에 위치한 점들로부터 Y1 및 Y2의 두 값이 획득된다. 유사하게, 같은 t의 값에 대하여 제2 이미지(52)로부터, 제1(521) 및 제2(522) 경계들에 위치한 점들로부터 X1 및 X2의 두 값이 획득된다. 프레임 t에 대하여, 네 점의 좌표는 (X1,Y1), (X2,Y2), (X1,Y2) 및 (X2,Y1)이다. 제1 변형례에서, 바운딩 형태는 네 점으로부터 그려지는 직사각형이다. 제2 변형례에서, 바운딩 형태는 네 점으로부터 그려지는 직사각형에 내접하는 타원이다. 또 다른 변형례에서, 바운딩 형태는 네 개의 점을 포함하는 타원이다. 객체를 타원으로 바운딩하는 것은 객체가 예를 들어 사람 얼굴일 때 유리하다.
도 6은 대안적인 실시예에 따른, 비디오 시퀀스에서의 객체를 바운딩하는 방법을 도해하고, 여기서 제1 슬라이스(601)는 수직축(60)에 대하여 각도 α만큼 기울어져 있다. 이 실시예에서, 제1 슬라이스들(601)에 대하여 직교하는 제2 슬라이스들(602) 또한 수평축에 대하여 동일한 각도 α만큼 기울어져 있다. 이 실시예에서, 제1 슬라이스들(601)은 반드시 수직적이지는 않고, 제2 슬라이스들(602)도 반드시 수평적이지는 않다. 이 특성(제1 슬라이스들의 수직성과 제2 슬라이스들의 수평성)에 불구하고, 상술한 모든 변형례들이 적용 가능하다. 단계(S34)에서 상술한 바와 같이 네 개의 점으로부터 그려지는, 프레임(600) 내의 주석부기할 객체 주위의 바운딩 형태(605)는 동일한 프레임(600)에 대한 제1 슬라이스(601)가 기울여진 각도와 동일한 각도만큼 수직축에 대하여 기울어져 있다.
더 정확하게, 주석부기할 객체 주위의 바운딩 형태(605)는 제1 제2 이미지로부터 추출된 네 점으로부터 획득되고, 비디오 시퀀스의 프레임 t에서의 네 개의 점의 좌표 (X,Y)는 그 프레임 t에 대한 제1 제2 이미지의 제1제2 경계들에 위치한 점들의 좌표로부터 획득된다.
임의의 t의 값에 대하여, 제1 이미지의 제1 제2 경계들에 위치한 점들로부터 획득된 두 값을 Y'1 및 Y'2로 둔다.
유사하게, 임의의 t의 값에 대하여, 제2 이미지의 제1 제2 경계들에 위치한 점들로부터 획득된 두 값을 X'1 및 X'2로 둔다. 프레임 t에 대하여, 네 점은 다음 좌표, 즉 (X'1,Y'1), (X'2,Y'2), (X'1,Y'2) 및 (X'2,Y'1)로 획득된다.
그러고 나면, 프레임에 대한 픽셀들의 서브세트(603)를 중심으로 한, 그 프레임 t에 대한 제1 슬라이스(601)의 기울기량에 상응하는 역 각도(inverse angle)만큼의 회전이 (X'1,Y'1), (X'2,Y'2), (X'1,Y'2) 및 (X'2,Y'1) 네 점 각각에 적용되어, 그 결과로 (X1,Y1), (X2,Y2), (X3,Y3) 및 (X4,Y4) 네 점이 도출되고, 이로부터 바운딩 형태가 획득된다.
주의: α를 수직축에 대한 제1 슬라이스의 기울기량에 상응하는 각도라고 고려할 때, 역 각도는 -α이다.
더 형식적으로:
Figure pat00003
을 좌표
Figure pat00004
의 점을 중심으로 한, 각도
Figure pat00005
의 회전이라고 둔다.
Figure pat00006
을 좌표
Figure pat00007
의 점을 중심으로 한, 역 각도에 상응하는
Figure pat00008
의 회전이라고 둔다.
Figure pat00009
를, 이미지 I에 회전 r을 적용하는 함수로 둔다.
비디오 시퀀스 F x,y,t 를 큐브 내의 자신의 좌표 ( x,y,t )에 의하여 정의되는 픽셀들의 큐브로 생각하면, F' x ',y',t 는 각 프레임에 대한 픽셀의 서브세트(603)를 중심으로 하는 회전으로부터 획득되는, 회전된 픽셀의 큐브로 정의된다.
Figure pat00010
, 여기서
Figure pat00011
이고,
Figure pat00012
는 픽셀들의 서브세트(603)의 중심의 좌표이며, α는 수직축에 대한 제1 슬라이스(601)의 기울기량이다.
제1 슬라이스(601)가 수직축(60)에 대하여 각도 α만큼 기울어져 있는 경우, 제1 제2 공간 시간 슬라이싱이 픽셀들의 회전된 큐브 F' x ',y',t 에 적용된다. 제1제2 이미지들의 제1 및 제2 경계들에 위치한 점들로부터 획득된 좌표는 회전된 큐브 F' x ',y',t 에 상응한다.
바운딩 형태가 그려지게 하는 좌표 (X1,Y1), (X2,Y2), (X3,Y3) 및 (X4,Y4)의 네 개의 점은 제1 제2 이미지들의 제1 및 제2 경계들에 위치한 점들에 회전
Figure pat00013
을 적용함으로써 획득된다.
Figure pat00014
Figure pat00015
제1 변형례에서, 수직축에 대한 제1(601) 슬라이스들의 기울기량 α는 비디오 시퀀스에 대하여 일정하다. 유리하게는, 기울기량 α는 비디오 시퀀스를 따라 변화하고, 비디오 시퀀스를 따른 주석부기할 객체의 기울기량 및 기하학적 구조의 변화들에 의존한다. 유리하게는, 기울기량 α는 대화형 궤적 미세 조정 프로세스의 일부로서 사용자에 의하여 비디오 시퀀스의 시간을 따라 조정된다. 예를 들어, 기울기량 α는 복수의 서브샘플링된 프레임들에서 사용자에 의하여 조정되고, 기울기량 α는 나머지 프레임들에 보간된다.

Claims (15)

  1. 비디오 시퀀스의 각 프레임의 픽셀들의 서브세트(403, 603)로부터 상기 비디오 시퀀스에서의 객체를 바운딩하기 위한 방법으로서,
    -제1 공간 시간 슬라이싱으로부터 제1 이미지(51)를 획득하는 단계(S311) - 상기 제1 이미지(51)는 상기 비디오 시퀀스를 따른 프레임들에 대한 상기 픽셀들의 서브세트(403, 603)를 포함하는 제1 슬라이스들(401, 601)의 수평 연쇄임 -,
    -제2 공간 시간 슬라이싱으로부터 제2 이미지(52)를 획득하는 단계(S312) - 상기 제2 이미지(52)는 상기 비디오 시퀀스를 따른 프레임들에 대한 상기 픽셀들의 서브세트(403, 603)를 포함하는 제2 슬라이스들(402, 602)의 수직 연쇄이고, 각각의 상기 제2 슬라이스들(402, 602)은 동일한 프레임의 제1 슬라이스(401, 601)에 대하여 직교함 -,
    -윤곽 감지법에 의하여, 각각의 상기 제1(51) 및 제2(52) 이미지들 상에서, 각 프레임의 상기 픽셀들의 서브세트들(403, 603) 주위로 제1(511, 521) 및 제2(512, 522) 경계를 획득하는 단계(S331, S332), 및
    -상기 비디오 시퀀스의 각 프레임에서 상기 객체 주위로, 네 개의 점으로부터 바운딩 형태(540, 541, 542, 605)를 획득하는 단계(S34) - 프레임 t에서 상기 네 개의 점의 좌표들은 그 프레임 t에 대한 상기 제1(51) 및 제2(52) 이미지의 상기 제1(511, 521) 및 제2(512, 522) 경계에 위치한 점들의 좌표들로부터 획득됨 -
    를 더 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서, 각각의 상기 제1 슬라이스들(401)은 수직 슬라이스인, 방법.
  3. 제1항에 있어서, 각각의 상기 제1 슬라이스들(601)은 수직축(60)에 대하여 기울어진, 방법.
  4. 제3항에 있어서, 수직축(60)에 대한 상기 제1 슬라이스들(601)의 기울기량(α)은 상기 비디오 시퀀스의 연속적인 프레임들의 집합에 대하여 일정한, 방법.
  5. 제3항 또는 제4항에 있어서, 수직축(60)에 대한 상기 제1 슬라이스들(601)의 기울기량(α)은 상기 비디오 시퀀스의 연속적인 프레임들의 집합에 대하여 사용자에 의하여 조정 가능한, 방법.
  6. 제3항 또는 제4항에 있어서, 수직축(60)에 대한 상기 제1 슬라이스(601)의 기울기량(α)은 상기 비디오 시퀀스의 복수의 프레임들 상에서 사용자에 의하여 조정 가능하고, 상기 기울기량(α)은 상기 비디오 시퀀스의 나머지 프레임들에 보간되는, 방법.
  7. 제1항에 있어서, 상기 픽셀들의 서브세트(403, 603)는
    -단일 픽셀
    -네 개의 픽셀들의 블록
    -여덟 개의 픽셀들의 블록
    -열여섯 개의 픽셀들의 블록
    중에서 선택되는, 방법.
  8. 제1항에 있어서, 상기 바운딩 형태(540, 541, 542, 605)는
    -상기 네 개의 점으로부터 그려지는 직사각형
    -상기 네 개의 점을 포함하는 타원
    -상기 네 개의 점으로부터 그려지는 직사각형의 내접 타원
    중에서 선택되는, 방법.
  9. 제1항에 있어서,
    각각의 상기 제1(51) 및 상기 제2(52) 이미지들 상에서 각 프레임의 상기 픽셀들의 서브세트들(403, 603)의 제1(510) 및 제2(520) 궤적을 획득하는 단계(S321, S322),
    상기 제1 이미지(51)에서의 상기 픽셀들의 서브세트들(403, 603)의 궤적(510)을 조정하는 단계(S3210),
    상기 제2 이미지(52)의 업데이트된 버전을 획득하는 단계(S312),
    상기 제2 궤적(520)의 업데이트된 버전을 획득하는 단계(S322),
    상기 제2 이미지(52)의 상기 업데이트된 버전 상의 상기 제2 궤적(520)의 상기 업데이트된 버전 주위로 상기 제1(521) 및 제2(522) 경계의 업데이트된 버전을 획득하는 단계(S332), 및
    상기 객체 주위로 상기 바운딩 형태(540, 541, 542, 605)의 업데이트된 버전을 획득하는 단계(S34)
    를 더 포함하는 방법.
  10. 제9항에 있어서, 상기 제1 궤적(510)은 사용자에 의하여 조정되는, 방법.
  11. 각 프레임의 픽셀들의 서브세트(403, 603)로부터 비디오 시퀀스에서의 객체를 바운딩하기 위한 디바이스(1)로서, 상기 디바이스는 프로세서(210)를 포함하고, 상기 프로세서(210)는
    -제1 공간 시간 슬라이싱으로부터 제1 이미지(51)를 획득하고 - 상기 제1 이미지(51)는 상기 비디오 시퀀스를 따른 프레임들에 대한 상기 픽셀들의 서브세트(403, 603)를 포함하는 제1 슬라이스들(401, 601)의 수평 연쇄임 -,
    -제2 공간 시간 슬라이싱으로부터 제2 이미지(52)를 획득하고 - 상기 제2 이미지(52)는 상기 비디오 시퀀스를 따른 프레임들에 대한 상기 픽셀들의 서브세트(403, 603)를 포함하는 제2 슬라이스들(402, 602)의 수직 연쇄이고, 각각의 상기 제2 슬라이스들(402, 602)은 동일한 프레임의 제1 슬라이스(401, 601)에 대하여 직교함 -,
    -윤곽 감지법에 의하여, 각각의 상기 제1(51) 및 제2(52) 이미지들 상에서, 각 프레임의 상기 픽셀들의 서브세트들(403, 603) 주위로 제1(511, 521) 및 제2(512, 522) 경계를 획득하고,
    -상기 비디오 시퀀스의 각 프레임에서 상기 객체 주위로, 네 개의 점으로부터 바운딩 형태(540, 541, 542, 605)를 획득하도록 - 프레임 t에서의 상기 네 개의 점의 좌표들은 그 프레임 t에 대한 상기 제1(51) 및 제2(52) 이미지의 상기 제1(511, 521) 및 제2(512, 522) 경계에 위치한 점들의 좌표들로부터 획득됨 -
    구성된 것을 특징으로 하는, 디바이스.
  12. 제11항에 있어서, 상기 제1 슬라이스들(601) 각각은 수직축(60)에 대하여 기울어진, 디바이스(1).
  13. 제12항에 있어서, 수직축(60)에 대한 상기 제1 슬라이스들(601)의 기울기량(α)은 상기 비디오 시퀀스의 연속된 프레임들의 집합에 대하여 사용자에 의하여 조정 가능한, 디바이스(1).
  14. 각 프레임의 픽셀들의 서브세트(403, 603)로부터 비디오 시퀀스에서의 객체를 바운딩하기 위한 컴퓨터 프로그램으로서,
    -제1 공간 시간 슬라이싱으로부터 제1 이미지(51)를 획득하고 - 상기 제1 이미지(51)는 상기 비디오 시퀀스를 따른 프레임들에 대한 상기 픽셀들의 서브세트(403, 603)를 포함하는 제1 슬라이스들(401, 601)의 수평 연쇄임 -,
    -제2 공간 시간 슬라이싱으로부터 제2 이미지(52)를 획득하고 - 상기 제2 이미지(52)는 상기 비디오 시퀀스를 따른 프레임들에 대한 상기 픽셀들의 서브세트(403, 603)를 포함하는 제2 슬라이스들(402, 602)의 수직 연쇄이고, 각각의 상기 제2 슬라이스들(402, 602)은 동일한 프레임의 제1 슬라이스(401, 601)에 대하여 직교함 -,
    -윤곽 감지법에 의하여, 각각의 상기 제1(51) 및 제2(52) 이미지들 상에서, 각 프레임들의 상기 픽셀들의 서브세트들(403, 603) 주위로 제1(511, 521) 및 제2(512, 522) 경계를 획득하고,
    -상기 비디오 시퀀스의 각 프레임에서 상기 객체 주위로, 네 개의 점으로부터 바운딩 형태(540, 541, 542, 605)를 획득 - 프레임 t에서 상기 네 개의 점의 좌표들은 그 프레임 t에 대한 상기 제1(51) 및 제2(52) 이미지의 상기 제1(511, 521) 및 제2(512, 522) 경계에 위치한 점들의 좌표들로부터 획득됨 -
    하기 위한, 프로세서에 의하여 실행 가능한 프로그램 코드 명령어들을 포함하는 것을 특징으로 하는, 컴퓨터 프로그램.
  15. 각 프레임의 픽셀들의 서브세트(403, 603)로부터 비디오 시퀀스에서의 객체를 바운딩하기 위한 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 제품은 비일시적 컴퓨터 판독 가능 매체에 저장되고,
    -제1 공간 시간 슬라이싱으로부터 제1 이미지(51)를 획득하고 - 상기 제1 이미지(51)는 상기 비디오 시퀀스를 따른 프레임들에 대한 상기 픽셀들의 서브세트(403, 603)를 포함하는 제1 슬라이스들(401, 601)의 수평 연쇄임 -,
    -제2 공간 시간 슬라이싱으로부터 제2 이미지(52)를 획득하고 - 상기 제2 이미지(52)는 상기 비디오 시퀀스를 따른 프레임들에 대한 상기 픽셀들의 서브세트(403, 603)를 포함하는 제2 슬라이스들(402, 602)의 수직 연쇄이고, 각각의 상기 제2 슬라이스들(402, 602)은 동일한 프레임의 제1 슬라이스(401, 601)에 대하여 직교함 -,
    -윤곽 감지법에 의하여, 각각의 상기 제1(51) 및 제2(52) 이미지들 상에서, 각 프레임들에 대한 상기 픽셀들의 서브세트들(403, 603) 주위로 제1(511, 521) 및 제2(512, 522) 경계를 획득하고,
    -상기 비디오 시퀀스의 각 프레임에서 상기 객체 주위로, 네 개의 점으로부터 바운딩 형태(540, 541, 542, 605)를 획득 - 프레임 t에서 상기 네 개의 점의 좌표들은 그 프레임 t에 대한 상기 제1(51) 및 제2(52) 이미지의 상기 제1(511, 521) 및 제2(512, 522) 경계에 위치한 점들의 좌표들로부터 획득됨 -
    하기 위한, 프로세서에 의하여 실행 가능한 프로그램 코드 명령어들을 포함하는 것을 특징으로 하는, 컴퓨터 프로그램 제품.
KR1020160058722A 2015-05-18 2016-05-13 비디오에서의 객체를 바운딩하기 위한 방법 및 디바이스 KR20160135661A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15305735.1A EP3096291B1 (en) 2015-05-18 2015-05-18 Method and device for bounding an object in a video
EP15305735.1 2015-05-18

Publications (1)

Publication Number Publication Date
KR20160135661A true KR20160135661A (ko) 2016-11-28

Family

ID=53189754

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160058722A KR20160135661A (ko) 2015-05-18 2016-05-13 비디오에서의 객체를 바운딩하기 위한 방법 및 디바이스

Country Status (5)

Country Link
US (1) US9847102B2 (ko)
EP (1) EP3096291B1 (ko)
JP (1) JP2016224930A (ko)
KR (1) KR20160135661A (ko)
CN (1) CN106169187A (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110189A (zh) * 2018-02-01 2019-08-09 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
US11288820B2 (en) * 2018-06-09 2022-03-29 Lot Spot Inc. System and method for transforming video data into directional object count
CN113781519A (zh) * 2020-06-09 2021-12-10 华为技术有限公司 目标跟踪方法和目标跟踪装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6724915B1 (en) 1998-03-13 2004-04-20 Siemens Corporate Research, Inc. Method for tracking a video object in a time-ordered sequence of image frames
US7376274B2 (en) * 2004-08-31 2008-05-20 Sonic Solutions Method and apparatus for use in video searching
US7911482B1 (en) 2006-01-06 2011-03-22 Videomining Corporation Method and system for efficient annotation of object trajectories in image sequences
US8170278B2 (en) 2008-08-06 2012-05-01 Sri International System and method for detecting and tracking an object of interest in spatio-temporal space
US8358808B2 (en) 2010-01-08 2013-01-22 University Of Washington Video-based vehicle detection and tracking using spatio-temporal maps
US8335350B2 (en) * 2011-02-24 2012-12-18 Eastman Kodak Company Extracting motion information from digital video sequences
US9811901B2 (en) * 2012-09-07 2017-11-07 Massachusetts Institute Of Technology Linear-based Eulerian motion modulation

Also Published As

Publication number Publication date
US20160343411A1 (en) 2016-11-24
EP3096291B1 (en) 2017-12-20
US9847102B2 (en) 2017-12-19
CN106169187A (zh) 2016-11-30
EP3096291A1 (en) 2016-11-23
JP2016224930A (ja) 2016-12-28

Similar Documents

Publication Publication Date Title
US10762653B2 (en) Generation apparatus of virtual viewpoint image, generation method, and storage medium
US10893251B2 (en) Three-dimensional model generating device and three-dimensional model generating method
US10970915B2 (en) Virtual viewpoint setting apparatus that sets a virtual viewpoint according to a determined common image capturing area of a plurality of image capturing apparatuses, and related setting method and storage medium
US20190019299A1 (en) Adaptive stitching of frames in the process of creating a panoramic frame
US8941750B2 (en) Image processing device for generating reconstruction image, image generating method, and storage medium
US11871127B2 (en) High-speed video from camera arrays
US11562466B2 (en) Image distribution device, image distribution system, image distribution method, and image distribution program
CN104301596B (zh) 一种视频处理方法及装置
EP1883250A1 (en) Stereographic view image generation device and program
US11839721B2 (en) Information processing apparatus, information processing method, and storage medium
JP2015015583A (ja) 端末装置、及びプログラム
JP2020173529A (ja) 情報処理装置、情報処理方法、及びプログラム
KR20160135661A (ko) 비디오에서의 객체를 바운딩하기 위한 방법 및 디바이스
CN108140401B (zh) 访问视频片段
JP2014035597A (ja) 画像処理装置、コンピュータプログラム、記録媒体及び画像処理方法
KR101632514B1 (ko) 깊이 영상 업샘플링 방법 및 장치
CN111034193B (zh) 多源视频稳定
US20220329912A1 (en) Information processing apparatus, information processing method, and program
CN116940964A (zh) 信息处理设备、信息处理方法和程序
JP5942932B2 (ja) 端末装置、及びプログラム
CN108347596B (zh) 一种基于反馈的激光引导扫描***和方法
US20210297649A1 (en) Image data output device, content creation device, content reproduction device, image data output method, content creation method, and content reproduction method
JP2005217902A (ja) 画像処理装置および画像処理方法
JP2017175400A (ja) 画像処理装置、撮像装置、制御方法およびプログラム