WO2022114403A1

WO2022114403A1 - 세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 장치

Info

Publication number: WO2022114403A1
Application number: PCT/KR2021/003391
Authority: WO
Inventors: 낭종호; 정민수; 석혜경
Original assignee: 서강대학교 산학협력단
Priority date: 2020-11-24
Filing date: 2021-03-18
Publication date: 2022-06-02
Also published as: KR20220071412A

Abstract

본 발명은 세그먼트 핑거프린트 생성 방법 및 비디오 부분 복사 검출 장치에 관한 것이다. 상기 비디오 부분 복사 검출 장치는, 세그먼트들에 대한 Global 핑거프린트들을 구비하는 Global Feature DB; 세그먼트들에 대한 Local 핑거프린트들을 구비하는 Local Feature DB; 질의 세그먼트에 대한 Global 핑거프린트를 생성하는 Global Feature Fingerprint 모듈; 상기 Global Feature DB의 Global 핑거프린트들과 질의 세그먼트에 대한 Global 핑거프린트의 제1 유사도들을 측정하는 제1 유사도 측정 모듈; 질의 세그먼트에 대한 Local 핑거프린트를 생성하는 Local Feature Fingerprint 모듈; Local Feature DB의 Local 핑거프린트들과 질의 세그먼트에 대한 Local 핑거프린트의 제2 유사도들을 측정하는 제2 유사도 측정 모듈; 제1 및 제2 유사도들을 이용하여, 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도를 측정하는 최종 유사도 측정 모듈;을 구비하여, 질의 세그먼트와 가장 유사한 세그먼트를 검출하는 것을 특징으로 한다.

Description

세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 장치

본 발명은 딥러닝을 기반으로 한 비디오 부분 복사 검출 방법 및 장치에 관한 것으로서, 더욱 구체적으로는 복수 개의 프레임들로 구성되는 세그먼트(Segment)에 대한 Local Feature 및 Global Feature를 생성하고, 세그먼트에 대한 Local Feature를 이용한 핑거프린트와 Global Feature를 이용한 핑거프린트의 가중치 합을 이용하여 비디오 부분 복사를 검출하는 방법 및 장치에 관한 것이다.

영상(Image)을 단일의 특징 벡터로 나타내기 위하여, 영상에 대한 컨볼루션 특징 맵(Convolution Feature Map)을 생성하고 이를 단일의 벡터로 표현하기 위한 다양한 연구들이 진행되고 있다. 이와 같이, 이미지를 구성하는 프레임에 대한 전체적인 시각적 특징을 추상화시키고, 이를 통해 해당 이미지를 단일 벡터로 표현하게 된다.

도 1은 종래의 방식에 따른 이미지에 대한 CNN(Convolution Neural Network) 기반의 Global Feature를 생성하는 방법들을 도시한 것이다. 도 1의 (a)에 도시된 바와 같이, 이미지에 대한 Convolution Feature Map을 구하고, 이를 Flatten 처리하여 Global Feature를 구하거나, 도 1의 (b)에 도시된 바와 같이 이미지에 대한 Convolution Feature Map을 구하고, 이에 대한 Regional MAX pooling한 후 Average 및 Normalize시켜 Global Feature를 구할 수도 있다. Global Feature는 이미지를 구성하는 프레임의 전반적인 시각적인 특징을 나타내며, Local Feature는 이미지를 구성하는 프레임의 영역별 특징을 나타낸다.

하지만, 이와 같이 이미지를 단일 벡터인 Global Feature로 표현하는 과정에서 특징 맵(Feature Map)을 Flatten시키거나, 특징 맵의 최대값(Max) 또는 평균값(Average)만을 구하여 사용함으로써, 이미지의 공간 정보에 대한 손실이 발생하게 되는 문제점이 있다.

한편, 도 2는 종래의 방식에 따라, 차원별 최대값 풀링을 사용한 세그먼트 핑거프린트 생성 방법을 도시한 순서도이며, 도 3은 차원별 최대값 풀링을 사용하여 세그먼트 핑거프린트를 생성하는 과정을 도시한 프로시저이다. 도 2 및 도 3을 참조하면, 연속한 복수 개의 프레임들로 이루어지는 세그먼트(Segment)에 대한 핑거프린트를 구하기 위하여, 먼저 세그먼트로부터 T 개의 프레임을 샘플링하고, 샘플링된 T개의 프레임에 대하여 각각 컨볼루션 특징 맵(Convolution Feature Map)을 구하고, 도 1에서 설명한 방법들을 이용하여 각 프레임의 컨볼루션 특징 맵의 Global Maximum Pooling을 통해 각 프레임에 대한 C 차원의 특징벡터를 추출하고, 각 채널별로 최대값 풀링을 사용하여 C 차원의 세그먼트 핑거프린트를 생성한다. 전술한 종래의 방식에 따라, 세그먼트를 구성하는 프레임의 Global feature를 이용하여 세그먼트에 대한 Global 핑거프린트를 생성하게 된다.

전술한 종래의 방법은 특징 벡터의 최대값을 이용하여 융합하여 세그먼트 핑거프린트를 생성하므로, 상기 핑거프린트는 세그먼트의 모든 프레임에 대한 정보를 고르게 반영하기 때문에, 프레임 특징 벡터가 변형에 의해 원본 프레임 특징 벡터와 달라지더라도, 세그먼트 내의 다른 프레임 특징 벡터로 인하여 핑거프린트에는 큰 영향을 미치지 않는다.

하지만, 전술한 종래의 방법에 따라 차원에 대한 최대값 풀링을 사용하여 추출한 세그먼트 핑거프린트는 다수 프레임의 특징 벡터를 단일 벡터로 표현하는 과정에서 이미지의 공간 정보에 대한 손실이 발생하게 된다. 또한, 전술한 종래의 방법은, 세그먼트를 구성하는 각 이미지에 대한 Global Feature를 구하는 과정에서 프레임의 공간적 정보에 대한 손실이 발생할 뿐만 아니라, 세그먼트의 시간적 정보의 손실도 함께 발생하게 되는 문제점이 있다.

전술한 문제점을 해결하기 위한 본 발명은 세그먼트를 구성하는 프레임들의 공간적 정보 및 시간적 정보에 대한 손실을 최소화시킬 수 있도록 하는 세그먼트 핑거프린트를 생성하는 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 세그먼트에 대한 Local Feature를 이용한 핑거프린트와 Global Feature를 이용한 핑거프린트의 가중치 합을 이용하여, 비디오 부분 복사를 검출하는 방법 및 장치를 제공하는 것을 목적으로 한다.

전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법은, (a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 컨볼루션 특징 맵(Convolutional Feature Map)을 추출하는 단계; (b) 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하는 단계; (c) 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터(Feature)들을 생성하는 단계; 및 (d) 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 핑거프린트를 생성하는 단계;를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 생성한다.

전술한 제1 특징에 따른 세그먼트 핑거프린트 생성 방법에 있어서, 상기 (b) 단계는, 상기 세그먼트를 구성하는 모든 프레임들의 Convolutional Feature Map들에 대하여, MAX Pooling 또는 Average Pooling 하여, 상기 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하는 것이 바람직하다.

본 발명의 제2 특징에 따른 복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법은, (a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하는 단계; (b) 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local Feature들을 생성하는 단계; (c) 상기 세그먼트를 구성하는 모든 프레임들의 Local Feature들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 핑거프린트를 생성하는 단계; 를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 검출하는 것이 바람직하다.

본 발명의 제3 특징에 따른 복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법은, (a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하는 단계; (b) 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하는 단계; (c) 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local Feature들을 생성하는 단계; (d) 상기 결합 특징 맵에 대해 생성된 Local Feature들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 특징 벡터를 생성하는 단계; 를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 검출한다.

전술한 제1 내지 제3 특징에 따른 세그먼트의 핑거프린트 생성 방법에 있어서, Local 특징 벡터(Feature)들을 Bag of Feature로 인코딩하는 단계는, 복수 개의 Local Feature들을 클러스터링하여 K개의 대표값들로 이루어진 코드북을 생성하고, 상기 모든 Local Feature에 대하여 상기 코드북 내에서 대응되는 클러스터를 찾고, 각 대표값에 대한 Frequency를 측정하여 Assignment Map을 생성하고 이를 인코딩하여 단일의 히스토그램을 생성하고, 이로부터 핑거프린트를 생성하는 것이 바람직하다.

본 발명의 제4 특징에 따른 비디오 부분 복사 검출 장치는, 사전 저장된 복수 개의 세그먼트들을 구비하는 세그먼트 DB; 상기 복수 개의 세그먼트들에 대한 Global 핑거프린트들을 구비하는 Global Feature DB; 상기 복수 개의 세그먼트들에 대한 Local 핑거프린트들을 구비하는 Local Feature DB; 질의 세그먼트(Query Segment)를 입력받는 입력 모듈; 질의 세그먼트에 대한 Global 핑거프린트를 생성하는 Global Feature Fingerprint 모듈; 상기 Global Feature DB의 Global 핑거프린트들과 상기 질의 세그먼트에 대한 Global 핑거프린트의 제1 유사도들을 측정하는 제1 유사도 측정 모듈; 질의 세그먼트에 대한 Local 핑거프린트를 생성하는 Local Feature Fingerprint 모듈; 상기 Local Feature DB의 Local 핑거프린트들과 상기 질의 세그먼트에 대한 Local 핑거프린트의 제2 유사도들을 측정하는 제2 유사도 측정 모듈; 상기 제1 및 제2 유사도 측정 모듈들에 의해 측정된 제1 및 제2 유사도들을 이용하여, 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도를 측정하는 최종 유사도 측정 모듈;을 구비하여, 질의 세그먼트가 대응되는 세그먼트를 검출한다.

전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, 상기 최종 유사도 측정 모듈은, 상기 제1 유사도에 대한 제1 가중값 및 상기 제2 유사도에 대한 제2 가중값을 설정하고, 상기 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도는 상기 제1 가중값이 적용된 제1 유사도와 상기 제2 가중값이 적용된 제2 유사도의 합으로 이루어지도록 구성된 것이 바람직하다.

전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, 상기 Global Feature Fingerprint 모듈은, 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolution Feature Map)들을 추출하고, 각 컨볼루션 특징 맵들에 대한 Global Feature들을 획득하고, 모든 컨볼루션 특징 맵의 Global Feature들을 융합하여 상기 질의 세그먼트에 대한 Global 핑거프린트를 생성하는 것이 바람직하다.

전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, Local Feature Fingerprint 모듈은, 상기 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolutional Feature Map)들을 추출하고, 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하고, 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것이 바람직하다.

전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, Local Feature Fingerprint 모듈은, 상기 질의 세그먼트를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 질의 세그먼트를 구성하는 모든 프레임들의 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것이 바람직하다.

전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, Local Feature Fingerprint 모듈은, 상기 질의 세그먼트를 구성하는 각 프레임에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 질의 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하고, 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징 벡터(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 결합 특징 맵에 대해 생성된 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것이 바람직하다.

본 발명의 제2 실시예 및 제3 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 세그먼트를 구성하는 프레임들에 대한 Local Feature들을 이용하여 특징 벡터를 생성하거나, 세그먼트를 구성하는 프레임들에 대한 융합 특징 맵에 대한 Local Feature들을 이용하여 세그먼트 핑거프린트를 생성함으로써, 세그먼트를 구성하는 프레임들의 각 이미지에 대한 공간적 정보가 손실되는 것을 감소시킬 수 있다.

본 발명의 제4 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 세그먼트를 구성하는 프레임들의 컨볼루션 특징 맵들을 시간순으로 연결한 결합 특징 맵(Concatenated Feature Map)에 대한 Local Feature들을 이용하여 세그먼트 핑거프린트를 생성함으로써, 세그먼트를 구성하는 프레임들의 각 이미지에 대한 공간적 정보 및 시간적 정보가 손실되는 것을 감소시킬 수 있다.

또한, 본 발명의 제5 실시예에 따른 비디오 부분 복사 검출 장치 및 방법은, 전술한 세그먼트 핑거프린트 생성 방법에 의하여 각 세그먼트에 대한 Local 핑거프린트들을 생성하고, 종래의 방법에 따라 각 세그먼트에 대한 Global 핑거프린트들을 생성하고, Local 핑거프린트와 Global 핑거프린트의 가중치 합을 이용하여 질의 세그먼트와의 최종 유사도를 판단함으로써, 질의 세그먼트에 대하여 비디오 부분 복사 여부를 보다 정확하게 판단할 수 있게 된다.

도 1은 종래의 방식에 따른 이미지에 대한 CNN(Convolution Neural Network) 기반의 Global Feature를 생성하는 방법들을 도시한 것이다.

도 2는 종래의 방식에 따라, 차원별 최대값 풀링을 사용한 세그먼트 핑거프린트 생성 방법을 도시한 순서도이며, 도 3은 차원별 최대값 풀링을 사용하여 세그먼트 핑거프린트를 생성하는 과정을 도시한 프로시저이다.

도 4는 본 발명의 제1 실시예에 따른 이미지에 대한 Local 특징 벡터 생성 방법을 도시한 것이다.

도 5는 본 발명의 제2 실시예에 따른 Bag-of-Local Feature를 사용한 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 6은 도 5에 도시된 방법에 따라 세그먼트 핑거프린트 생성하는 과정을 도시한 프로시저이다.

도 7은 본 발명의 제3 실시예에 따른 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 8은 도 7에 도시된 방법에 따라 세그먼트 핑거프린트 생성하는 과정을 도시한 프로시저이다.

도 9는 본 발명의 제4 실시예에 따른 세그먼트 핑거프린트 생성 방법을 도시한 구조도이다.

도 10은 본 발명의 제5 실시예에 따른 비디오 부분 복사 검출 장치를 개략적으로 도시한 블록도이다.

도 11은 본 발명에 따른 세그먼트 핑거프린트 생성 방법에 따른 비디오 부분 복사 검출의 성능을 비교한 그래프들이다.

이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예에 따른 세그먼트 핑거프린트 생성 방법 및 상기 세그먼트 핑거프린트 생성 방법을 이용한 비디오 부분 복사 검출 장치를 구체적으로 설명한다.

< 제1 실시예 >

이하, 본 발명의 제1 실시예에 따른 이미지에 대한 특징 벡터 생성 방법에 대하여 설명한다.

일반적으로, 이미지에 대한 Convolution Feature Map은 width * height * depth의 3차원 구조로 이루어지며, width 및 height로 잘랐을 때 각각의 셀은 이미지에서 해당하는 영역에 대한 특징을 나타낸다. 따라서, Convolution Feature Map을 MAX pooling 또는 AVG pooling 과 같이 값을 합치는 연산 방법을 사용하여 Global Feature를 구하는 경우 이미지의 공간 정보에 대한 손실을 유발하게 된다. 따라서, 본 발명에 따른 단일 벡터 생성 방법은 이미지 추상화 과정에서 발생될 수 있는 이미지 공간 정보의 손실을 최소화시키기 위하여, Global Feature가 아닌 Local Feature를 이용하여 단일의 특징 벡터를 생성하는 것을 특징으로 한다.

도 4는 본 발명의 제1 실시예에 따른 이미지에 대한 Local 특징 벡터 생성 방법을 도시한 것이다. 도 4를 참조하면, 이미지에 대한 Local 특징 벡터 생성 방법은, 이미지에 대한 Convolution Feature Map을 구하고, 이미지의 컨볼루션 특징 맵의 각 셀에 대한 특징들을 분할하여, 각 셀에 대한 Local feature들을 획득하게 된다. 여기서, 각 셀에 대한 특징 벡터인 Local Feature들은 프레임의 국부적인 특징을 나타내기 때문에, 값에 대한 변경없이 융합하여 공간 정보의 손실을 방지하게 된다.

다음, Local Feature들에 대한 클러스터링을 수행하여 K 개의 클러스터들을 정의하고 각 클러스터들에 대하여 대표값을 설정하여, K개의 대표값으로 구성된 코드북을 생성한다. 여기서, K는 1 이상의 자연수이다. 다음, 이미지의 모든 Local Feature들에 대하여 코드북에서 Feature Distance가 가장 가까운 클러스터의 대표값을 찾아서 할당함으로써, 이미지에 대한 Assignment Map을 구한다. 다음, 각 대표값에 대한 Frequency를 측정하여 Bag-of-Feature를 생성하고 인코딩하여 단일의 히스토그램을 생성한다.

이와 같이, 각 셀의 Local Feature들을 이용하여 이미지의 셀들에 대한 Feature값들을 변경하지 않고 이미지에 대한 특징 벡터를 생성함으로써, 이미지에 대한 공간적 정보의 손실을 최소화시킬 수 있게 된다.

< 제2 실시예 >

이하, 첨부된 도면을 참조하여, 본 발명의 제2 실시예에 따른 세그먼트 핑거프린트 생성 방법에 대하여 설명한다.

본 발명의 제2 실시예에 따른 세그먼트 핑거프린트 생성 방법은 세그먼트의 공간적 정보의 손실을 최소화시킬 수 있게 된다. 비디오 및 세그먼트는 연속적인 프레임의 집합이기 때문에, 프레임 특징 벡터들을 융합하여 비디오 및 세그먼트에 대한 핑거프린트를 표현할 수 있다.

도 5는 본 발명의 제2 실시예에 따른 Bag-of-Local Feature를 사용한 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 6은 도 5에 도시된 방법에 따라 세그먼트 핑거프린트 생성하는 과정을 도시한 프로시저이다. 본 발명의 제2 실시예에 따른 세그먼트 핑거프린트 생성 방법은 Bag-of-Local Feature를 사용한 것을 특징으로 한다.

도 5 및 도 6을 참조하면, 본 실시형태에 따른 세그먼트 핑거프린트 생성 방법은, 연속되는 복수 개의 프레임들로 구성되는 세그먼트에서 T개의 프레임들을 샘플링하고, 샘플링된 T개의 프레임들에 대하여 각각 (W*H*C) 크기의 Convolution Feature Map을 생성하고, 각 프레임의 Convolution Feature Map에 대하여 (W*H) 개의 C 차원을 갖는 셀(cell)별로 분할(split)하여 Local Feature들을 추출한다. 상기 추출한 Local Feature들은 세그먼트 단위의 단일 벡터로 표현하기 위하여 클러스터링을 수행하여 단일 히스토그램으로 표현하게 된다.

이하, T개의 프레임에 대해 추출한 (W*H*T) 개의 Local Feature들을 세그먼트 단위로 융합하여 단일 히스토그램으로 표현하는 방법을 보다 구체적으로 설명한다. 모든 프레임에 대한 Convolution Feature Map들의 Local Feature들에 대한 클러스터링을 수행하여 K개의 대표값으로 구성된 코드북을 생성한다. 여기서, K는 1 이상의 자연수이다. 다음, 해당 세그먼트에 대한 모든 Local Feature들에 대하여 코드북에서 Feature Distance가 가장 가까운 클러스터를 찾아서 각 셀에 대한 Assignment Map을 구한다. 다음, 각 대표값의 Frequency를 측정하여 BOW 인코딩하여 Bag-of-Local Feature에 대한 히스토그램을 생성하고, 생성된 히스토그램들을 이용하여 세그먼트 핑거프린트를 생성한다.

전술한 방법에 의하여, 각 프레임의 공간 정보의 손실을 최소화시키면서 Local feature를 이용하여 세그먼트 핑거프린트를 구할 수 있게 된다.

< 제3 실시예 >

도 7은 본 발명의 제3 실시예에 따른 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 8은 도 7에 도시된 방법에 따라 세그먼트 핑거프린트 생성하는 과정을 도시한 프로시저이다. 본 발명의 제3 실시예에 따른 세그먼트 핑거프린트 생성 방법은 최대값 풀링(MAX Pooling)과 Bag-of-Local Feature를 이용하여 세그먼트 핑거프린트를 생성하는 것을 특징으로 한다.

도 7 및 도 8을 참조하면, 본 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 세그먼트를 구성하는 프레임들로부터 샘플링된 T개의 프레임들에 대하여, 각 프레임에 대한 (W*H*C) 크기의 Convolution Feature Map을 생성하고, 모든 프레임에 대한 Convolution Feature Map들에 대하여 MAX/AVG Pooling 연산을 이용하여 융합시킴으로써, 해당 세그먼트에 대한 (W*H*C) 크기의 융합 특징 맵(Aggregated Convolution Feature Map)를 구한다. 다음, 상기 융합 특징 맵에 대하여 각 셀(cell)별로 분할(split)하여 Local Feature들로 나타낸다. 다음, 상기 융합 특징 맵의 Local Feature들에 대한 클러스터링을 수행하여 K개의 대표값으로 구성된 코드북을 생성한다. 여기서, K는 1 이상의 자연수이다. 다음, 해당 프레임에 대한 융합 특징 맵의 모든 Local Feature들에 대하여 코드북에서 Feature Distance가 가장 가까운 클러스터를 찾아서 각 셀에 대한 Assignment Map을 구한다. 다음, 각 대표값의 Frequency를 측정하여 Bag-of-Local Feature를 구하고 BoW 인코딩하여 단일의 히스토그램을 생성하고 이로부터 세그먼트 핑거프린트를 생성한다.

전술한 실시예에 따른 방법에 의하여, 각 셀에 대한 특징 벡터(Local Feature)는 프레임의 국부적인 특징을 나타내며, 값에 대한 변경없이 융합하여 차원별 최대값 풀링을 사용하는 종래의 세그먼트 핑거프린트에 비해 본 실시예에 따른 세그먼트 핑거프린트는 공간 정보의 손실을 방지할 수 있게 된다.

<제4 실시예>

종래의 방법에 따른 프레임 특징 벡터의 값에 대한 MAX 또는 AVG Pooling 연산으로는 프레임이 추출된 시간적 정보를 표현할 수 없다. 따라서, 본 실시예에 따른 세그먼트 핑거프린트 생성 방법에서는 값에 대한 변경없이 시간 순으로 연결하여 세그먼트를 표현함으로써, 세그먼트 융합과정에서 발생되는 공간적 정보 및 시간적 정보의 손실을 최소화시키게 된다.

도 9는 본 발명의 제4 실시예에 따른 세그먼트 핑거프린트 생성 방법을 도시한 구조도이다. 도 9를 참조하면, 본 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 세그먼트를 구성하는 모든 프레임에 대하여, 각 프레임에 대한 Convolution Feature Map을 생성하고, 모든 프레임의 Convolution Feature Map들을 시간 순으로 연결하여 결합 특징 맵(Concatenated Convolution Feature Map)을 완성한다. 상기 완성된 해당 세그먼트의 결합 특징 맵을 각 셀(cell)별로 분할(split)하여 각 영역에 대한 Local Feature들로 나타낸다. 결합 특징 맵의 각 영역에 대한 Local Feature들에 대한 클러스터링을 수행하여 K개의 대표값으로 구성된 코드북을 생성한다. 여기서, K는 1 이상의 자연수이다. 다음, 해당 세그먼트에 대한 결합 특징 맵의 모든 Local Feature들에 대하여 코드북에서 Feature Distance가 가장 가까운 클러스터를 찾아서 각 셀에 대한 Assignment Map을 구한다. 다음, 각 대표값의 Frequency를 측정하여 Bag-of-Local Feature를 구하고 BoW 인코딩하여 단일의 히스토그램들을 생성하고 이로부터 세그먼트 핑거프린트를 생성한다.

전술한 방법에 의하여, 각 프레임의 공간 정보 및 시간 정보의 손실을 최소화시키면서 세그먼트에 대한 단일의 핑거프린트를 구할 수 있게 된다.

< 제5 실시예 >

이하, 첨부된 도면을 참조하여 본 발명의 제5 실시예에 따른 비디오 부분 복사 검출 방법 및 장치에 대하여 구체적으로 설명한다.

도 10은 본 발명의 제5 실시예에 따른 비디오 부분 복사 검출 장치를 개략적으로 도시한 블록도이다. 도 10을 참조하면, 본 실시예에 따른 비디오 부분 복사 검출 장치는(1), 사전 저장된 복수 개의 세그먼트들을 구비하는 세그먼트 DB(도시되지 않음)를 구비하고, 상기 세그먼트들에 대한 사전 학습을 통해 획득된 상기 복수 개의 세그먼트들에 대한 Global 세그먼트 핑거프린트들을 구비하는 Global Feature DB(102), 및 상기 복수 개의 세그먼트들에 대한 Local 세그먼트 핑거프린트들을 구비하는 Local Feature DB(104)를 구비한다.

비디오 부분 복사 검출 장치는, 질의 세그먼트(Query Segment)를 입력받는 입력 모듈(110), Global Feature Fingerprint 모듈(120), 제1 유사도 측정 모듈(122), Local Feature Fingerprint 모듈(124), 제2 유사도 측정 모듈(126), 최종 유사도 측정 모듈(128)을 구비하여, 질의 세그먼트가 대응되는 세그먼트를 검출한다.

상기 Global Feature Fingerprint 모듈(120)은 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolution Feature Map)들을 추출하고, 각 컨볼루션 특징 맵들에 대한 Global Feature들을 획득하고, 모든 컨볼루션 특징 맵의 Global Feature들을 융합하여 상기 질의 세그먼트에 대한 Global 세그먼트 핑거프린트를 생성한다.

상기 제1 유사도 측정 모듈(122)은 상기 Global Feature DB의 Global 세그먼트 핑거프린트들과 상기 질의 세그먼트에 대한 Global 핑거프린트의 제1 유사도들(

)을 측정한다.

상기 Local Feature Fingerprint 모듈(124)은 전술한 제2 실시예에 따른 방법들을 이용하여 질의 세그먼트에 대한 Local 세그먼트 핑거프린트를 생성한다. 따라서, 상기 Local Feature Fingerprint 모듈의 제1 실시 형태는, 상기 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolutional Feature Map)들을 추출하고, 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하고, 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 세그먼트 핑거프린트를 생성하도록 구성된다.

상기 Local Feature Fingerprint 모듈의 제2 실시 형태는, 상기 질의 세그먼트를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 질의 세그먼트를 구성하는 모든 프레임들의 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 세그먼트 핑거프린트를 생성하도록 구성될 수 있다.

상기 Local Feature Fingerprint 모듈의 제3 실시 형태는, 상기 질의 세그먼트를 구성하는 각 프레임에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 질의 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하고, 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징 벡터(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 결합 특징 맵에 대해 생성된 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 세그먼트 핑거프린트를 생성하도록 구성될 수 있다.

상기 제2 유사도 측정 모듈(126)은 상기 Local Feature DB의 Local 세그먼트 핑거프린트들과 상기 질의 세그먼트에 대한 Local 세그먼트 핑거프린트의 제2 유사도들(

)을 측정한다.

상기 최종 유사도 측정 모듈(128)은 상기 제1 및 제2 유사도 측정 모듈들에 의해 측정된 제1 및 제2 유사도들을 이용하여, 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도들(

)을 측정한다. 상기 최종 유사도 측정 모듈의 동작을 보다 구체적으로 설명하면, 먼저 상기 제1 유사도에 대한 제1 가중값(α) 및 상기 제2 유사도에 대한 제2 가중값(β)을 먼저 설정한다. 상기 제2 가중값(β)은 1- α로 설정할 수 있다. 다음, 상기 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도는 상기 제1 가중값(α)이 적용된 제1 유사도와 상기 제2 가중값이 적용된 제2 유사도의 합으로 이루어지도록 구성된 것이 바람직하다. 수학식 1은 질의 세그먼트와 k번째 세그먼트의 최종 유사도(Distk)를 얻는 수학식을 표시한 것이다.

여기서,

는 질의 세그먼트의 Global 세그먼트 핑거프린트와 k번째 세그먼트의 Global 세그먼트 핑거프린트의 제1 유사도이며,

는 질의 세그먼트의 Local 세그먼트 핑거프린트와 k번째 세그먼트의 Local 세그먼트 핑거프린트의 제2 유사도이다.

본 발명에 따른 비디오 부분 복사 검출 장치는, 전술한 과정을 통해 질의 세그먼트와 각 세그먼트들 간의 최종 유사도들을 측정하고, 측정된 최종 유사도를 이용하여 질의 세그먼트와 유사한 세그먼트를 검출하게 된다.

도 11은 본 발명에 따른 세그먼트 핑거프린트 생성 방법에 따른 비디오 부분 복사 검출의 성능을 비교한 그래프들이다. 도 11은 각 방법에 대하여 복사 구간 검출기의 매개 변수를 다르게 설정하여 측정한 것으로서, 도 11의 (a)와 (b)는 사전 학습된 모델에 대한 방법별 성능을 나타내며, 도 11의 (c)와 (d)는 Triple-loss 기반 학습 모델에 대한 방법별 성능을 정리한 것이다. Bag-of Feature를 사용하는 두 방법은 차원별 최대값 풀링을 사용하는 방법보다 높은 성능을 보이고 있다. 이를 통해, 본 발명에 따른 Local Feature를 이용한 세그먼트 핑거프린트가 공간 정보 손실이 비교적 적어 변형에 강건한 특징을 추출함을 확인할 수 있다. 또한, 최대값 풀링과 Bag-of-Local Feature를 사용하는 경우가 Bag-of-Local Feature만을 사용하는 경우보다 성능이 감소됨을 알 수 있다. 이로부터 최대값 풀링을 하는 과정에서 프레임 정보 손실이 일어나게 되어 성능 차이가 발생됨을 알 수 있다.

이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법에 있어서,

(a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 컨볼루션 특징 맵(Convolutional Feature Map)을 추출하는 단계;

(b) 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하는 단계;

(c) 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터(Feature)들을 생성하는 단계; 및

(d) 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 핑거프린트를 생성하는 단계;

를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 생성하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
제1항에 있어서, 상기 (b) 단계는,

상기 세그먼트를 구성하는 모든 프레임들의 Convolutional Feature Map들에 대하여, MAX Pooling 또는 Average Pooling 하여, 상기 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법에 있어서,

(a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하는 단계;

(b) 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local Feature들을 생성하는 단계;

(c) 상기 세그먼트를 구성하는 모든 프레임들의 Local Feature들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 특징 벡터를 생성하는 단계;

를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 검출하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법에 있어서,

(a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하는 단계;

(b) 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하는 단계;

(c) 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local Feature들을 생성하는 단계;

(d) 상기 결합 특징 맵에 대해 생성된 Local Feature들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 특징 벡터를 생성하는 단계;

를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 검출하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, Local 특징 벡터(Feature)들을 Bag of Feature로 인코딩하는 단계는,

복수 개의 Local Feature들을 클러스터링하여 K개의 대표값들로 이루어진 코드북을 생성하고, 상기 모든 Local Feature에 대하여 상기 코드북 내에서 대응되는 클러스터를 찾고, 각 대표값에 대한 Frequency를 측정하여 단일의 히스토그램을 생성하고, 사전 설정된 방식으로 인코딩하여 핑거프린트로 인코딩하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
사전 저장된 복수 개의 세그먼트들을 구비하는 세그먼트 DB;

상기 복수 개의 세그먼트들에 대한 Global 핑거프린트들을 구비하는 Global Feature DB;

상기 복수 개의 세그먼트들에 대한 Local 핑거프린트들을 구비하는 Local Feature DB;

질의 세그먼트(Query Segment)를 입력받는 입력 모듈;

질의 세그먼트에 대한 Global 핑거프린트를 생성하는 Global Feature Fingerprint 모듈;

상기 Global Feature DB의 Global 핑거프린트들과 상기 질의 세그먼트에 대한 Global 핑거프린트의 제1 유사도들을 측정하는 제1 유사도 측정 모듈;

질의 세그먼트에 대한 Local 핑거프린트를 생성하는 Local Feature Fingerprint 모듈;

상기 Local Feature DB의 Local 핑거프린트들과 상기 질의 세그먼트에 대한 Local 핑거프린트의 제2 유사도들을 측정하는 제2 유사도 측정 모듈;

상기 제1 및 제2 유사도 측정 모듈들에 의해 측정된 제1 및 제2 유사도들을 이용하여, 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도를 측정하는 최종 유사도 측정 모듈;

을 구비하여, 질의 세그먼트가 대응되는 세그먼트를 검출하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.
제6항에 있어서, 상기 최종 유사도 측정 모듈은,

상기 제1 유사도에 대한 제1 가중값 및 상기 제2 유사도에 대한 제2 가중값을 설정하고,

상기 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도는 상기 제1 가중값이 적용된 제1 유사도와 상기 제2 가중값이 적용된 제2 유사도의 합으로 이루어지도록 구성된 것을 특징으로 하는 비디오 부분 복사 검출 장치.
제6항에 있어서, 상기 Global Feature Fingerprint 모듈은,

질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolution Feature Map)들을 추출하고, 각 컨볼루션 특징 맵들에 대한 Global Feature들을 획득하고, 모든 컨볼루션 특징 맵의 Global Feature들을 융합하여 상기 질의 세그먼트에 대한 Global 핑거프린트를 생성하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.
제6항에 있어서, Local Feature Fingerprint 모듈은,

상기 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolutional Feature Map)들을 추출하고, 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하고, 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.
제6항에 있어서, Local Feature Fingerprint 모듈은,

상기 질의 세그먼트를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 질의 세그먼트를 구성하는 모든 프레임들의 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.
제6항에 있어서, Local Feature Fingerprint 모듈은,

상기 질의 세그먼트를 구성하는 각 프레임에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 질의 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하고, 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징 벡터(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 결합 특징 맵에 대해 생성된 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.