WO2022114403A1 - 세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 장치 - Google Patents

세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 장치 Download PDF

Info

Publication number
WO2022114403A1
WO2022114403A1 PCT/KR2021/003391 KR2021003391W WO2022114403A1 WO 2022114403 A1 WO2022114403 A1 WO 2022114403A1 KR 2021003391 W KR2021003391 W KR 2021003391W WO 2022114403 A1 WO2022114403 A1 WO 2022114403A1
Authority
WO
WIPO (PCT)
Prior art keywords
segment
feature
fingerprint
local
generating
Prior art date
Application number
PCT/KR2021/003391
Other languages
English (en)
French (fr)
Inventor
낭종호
정민수
석혜경
Original Assignee
서강대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교 산학협력단 filed Critical 서강대학교 산학협력단
Publication of WO2022114403A1 publication Critical patent/WO2022114403A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/913Television signal processing therefor for scrambling ; for copy protection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/913Television signal processing therefor for scrambling ; for copy protection
    • H04N2005/91307Television signal processing therefor for scrambling ; for copy protection by adding a copy protection signal to the video signal

Definitions

  • the present invention relates to a method and apparatus for detecting a partial copy of a video based on deep learning, and more particularly, to generate a local feature and a global feature for a segment consisting of a plurality of frames, and to generate a local feature for the segment
  • the present invention relates to a method and apparatus for detecting partial copy of a video by using a weighted sum of a fingerprint using a feature and a fingerprint using a global feature.
  • FIG. 1 illustrates methods for generating a global feature based on a convolutional neural network (CNN) for an image according to a conventional method.
  • CNN convolutional neural network
  • the Convolution Feature Map for the image is obtained, and the Global Feature is obtained by flattening it, or the Convolution Feature Map for the image is obtained as shown in Fig. 1 (b).
  • Global Feature indicates the overall visual characteristics of the frame composing the image
  • Local Feature indicates the characteristics of each region of the frame composing the image.
  • FIG. 2 is a flowchart illustrating a method for generating a segment fingerprint using the maximum pooling for each dimension according to a conventional method
  • FIG. 3 is a flowchart illustrating a process of generating a segment fingerprint using the maximum pooling for each dimension. It is a procedure. 2 and 3 , in order to obtain a fingerprint for a segment consisting of a plurality of consecutive frames, T frames are first sampled from the segment, and convolution characteristics of each of the sampled T frames are obtained. Obtain a map (Convolution Feature Map), extract the C-dimensional feature vector for each frame through Global Maximum Pooling of the convolutional feature map of each frame using the methods described in FIG. 1, and perform maximum pooling for each channel. to create a C-dimensional segment fingerprint. According to the conventional method described above, a global fingerprint for a segment is generated by using the global feature of a frame constituting the segment.
  • the fingerprint evenly reflects information on all frames of the segment, so that the frame feature vector is transformed into the original frame feature Even if it differs from the vector, it does not significantly affect the fingerprint due to other frame feature vectors in the segment.
  • loss of spatial information of the image occurs in the process of expressing feature vectors of multiple frames as a single vector.
  • the conventional method described above has a problem in that, in the process of obtaining a global feature for each image constituting a segment, a loss of spatial information of a frame occurs as well as a loss of temporal information of a segment.
  • An object of the present invention for solving the above problems is to provide a method for generating a segment fingerprint that can minimize loss of spatial information and temporal information of frames constituting a segment.
  • Another object of the present invention is to provide a method and apparatus for detecting a partial copy of a video by using a weighted sum of a fingerprint using a local feature and a fingerprint using a global feature for a segment.
  • a method for generating a fingerprint of a segment consisting of a plurality of frames according to the first aspect of the present invention for achieving the above technical problem is (a) a convolution for each frame constituting the segment extracting a Convolutional Feature Map; (b) generating a single aggregated feature map for the segment by fusing convolutional feature maps for all frames constituting the segment; (c) generating local feature vectors by splitting features for each cell constituting a single fusion feature map for the segment; and (d) encoding the local feature vectors into a Bag of Feature to generate a single fingerprint for the segment;
  • step (b) the Convolutional Feature Maps of all frames constituting the segment are MAX Pooled or Average Pooled, and the Convolutional Feature Maps are fused.
  • a method for generating a fingerprint of a segment consisting of a plurality of frames comprising: (a) extracting a Convolutional Feature Map for each frame constituting the segment; (b) generating local features by splitting the features for each cell with respect to the convolutional feature maps of all frames; (c) generating a fingerprint for the segment by encoding local features of all frames constituting the segment into a Bag of Feature; It is preferable to detect a fingerprint for a segment consisting of a plurality of frames by having a .
  • a fingerprint generation method of a segment consisting of a plurality of frames comprises the steps of: (a) extracting a Convolutional Feature Map for each frame constituting the segment; (b) generating a single concatenated feature map for the segment by connecting convolutional feature maps of all frames in chronological order; (c) generating local features by splitting features for each cell constituting the combined feature map; (d) generating a single feature vector for the segment by encoding the local features generated for the combined feature map into a Bag of Feature; to detect a fingerprint for a segment composed of a plurality of frames.
  • the encoding of local feature vectors (Features) into a Bag of Feature includes clustering a plurality of Local Features to form a codebook composed of K representative values. Creates an Assignment Map by measuring the frequency for each representative value, creating a single histogram by encoding it, and creating a fingerprint from it It is preferable to do
  • a video partial copy detection apparatus comprises: a segment DB including a plurality of pre-stored segments; a Global Feature DB having global fingerprints for the plurality of segments; a Local Feature DB having local fingerprints for the plurality of segments; an input module for receiving a query segment; Global Feature Fingerprint module for generating global fingerprints for query segments; a first similarity measurement module for measuring first similarities between global fingerprints of the global feature DB and global fingerprints for the query segment; a Local Feature Fingerprint module that creates a local fingerprint for a query segment; a second similarity measurement module for measuring second similarities between Local fingerprints of the Local Feature DB and a Local fingerprint with respect to the query segment; a final similarity measurement module for measuring the final similarity between the segments of the segment DB and the query segment using the first and second similarities measured by the first and second similarity measurement modules; Detect the corresponding segment.
  • the final similarity measuring module sets a first weight value for the first similarity and a second weight value for the second similarity, and sets the segment of the segment DB. It is preferable that the final similarity between the fields and the query segment is configured to be the sum of the first similarity to which the first weight is applied and the second similarity to which the second weight is applied.
  • the Global Feature Fingerprint module extracts convolution feature maps for each frame constituting a query segment, and adds It is preferable to obtain global features for the query segment and to generate a global fingerprint for the query segment by fusing the global features of all convolutional feature maps.
  • the Local Feature Fingerprint module extracts convolutional feature maps for each frame constituting the query segment, and extracts all Convolutional feature maps for frames are fused to generate a single aggregated feature map for the segment, and features for each cell constituting a single fused feature map for the segment are divided It is preferable to generate local feature vectors by (split) and encode the local feature vectors into a Bag of Feature to generate a single local fingerprint for the query segment.
  • the Local Feature Fingerprint module extracts a Convolutional Feature Map for each frame constituting the query segment, , generates local feature vectors by splitting the features for each cell, and encodes the local feature vectors of all frames constituting the query segment into a Bag of Feature to create a single query segment for the query segment. It is desirable to create a local fingerprint of
  • the Local Feature Fingerprint module extracts a Convolutional Feature Map for each frame constituting the query segment, and connects the Convolutional Feature Maps of all frames in chronological order.
  • a single concatenated feature map is generated for the query segment, and local feature vectors are generated by splitting feature vectors for each cell constituting the concatenated feature map.
  • a feature vector is generated using local features for frames constituting a segment, or a fusion feature for frames constituting a segment
  • a segment fingerprint is generated by using Local Features for a Concatenated Feature Map in which convolutional feature maps of frames constituting a segment are connected in chronological order.
  • the video partial copy detection apparatus and method according to the fifth embodiment of the present invention generates local fingerprints for each segment according to the above-described segment fingerprint generation method, and according to the conventional method, global fingerprints for each segment are generated.
  • the video partial copy detection apparatus and method according to the fifth embodiment of the present invention generates local fingerprints for each segment according to the above-described segment fingerprint generation method, and according to the conventional method, global fingerprints for each segment are generated.
  • CNN convolutional neural network
  • FIG. 2 is a flowchart illustrating a method for generating a segment fingerprint using the maximum pooling per dimension according to a conventional method
  • FIG. 3 is a procedure illustrating a process of generating a segment fingerprint using the maximum pooling per dimension. to be.
  • FIG. 4 illustrates a method for generating a local feature vector for an image according to the first embodiment of the present invention.
  • FIG. 5 is a structural diagram illustrating a method for generating a segment fingerprint using a Bag-of-Local Feature according to a second embodiment of the present invention
  • FIG. 6 illustrates a process for generating a segment fingerprint according to the method shown in FIG. It is one procedure.
  • FIG. 7 is a structural diagram illustrating a method for generating a segment fingerprint according to a third embodiment of the present invention
  • FIG. 8 is a procedure illustrating a process for generating a segment fingerprint according to the method shown in FIG. 7 .
  • FIG. 9 is a structural diagram illustrating a method for generating a segment fingerprint according to a fourth embodiment of the present invention.
  • FIG. 10 is a block diagram schematically showing a video partial copy detection apparatus according to a fifth embodiment of the present invention.
  • FIG. 11 is a graph comparing performance of video partial copy detection according to a method for generating a segment fingerprint according to the present invention.
  • the Convolution Feature Map for an image has a three-dimensional structure of width * height * depth, and when cut to width and height, each cell represents a characteristic of a corresponding area in the image. Therefore, when a global feature is obtained by using a convolution feature map to sum values such as MAX pooling or AVG pooling, it causes loss of spatial information of the image. Therefore, the method for generating a single vector according to the present invention is characterized in that a single feature vector is generated using a local feature rather than a global feature in order to minimize loss of image spatial information that may occur during image abstraction.
  • the method for generating a local feature vector for an image obtains a convolution feature map for the image, divides the features for each cell in the convolution feature map of the image, and obtains local features for each cell do.
  • Local Features which are feature vectors for each cell, represent local features of the frame, they are fused without changing values to prevent loss of spatial information.
  • K clusters are defined, representative values are set for each cluster, and a codebook composed of K representative values is generated.
  • K is a natural number greater than or equal to 1.
  • the assignment map for the image is obtained by finding and assigning the representative value of the cluster having the closest feature distance in the codebook for all local features of the image.
  • a bag-of-feature is generated by measuring the frequency for each representative value, and a single histogram is generated by encoding.
  • the method for generating a segment fingerprint according to the second embodiment of the present invention can minimize the loss of spatial information of a segment. Since a video and a segment are a set of consecutive frames, a fingerprint for the video and the segment can be expressed by fusing frame feature vectors.
  • FIG. 5 is a structural diagram illustrating a method for generating a segment fingerprint using a Bag-of-Local Feature according to a second embodiment of the present invention
  • FIG. 6 illustrates a process for generating a segment fingerprint according to the method shown in FIG. It is one procedure.
  • the method for generating a segment fingerprint according to the second embodiment of the present invention is characterized by using a Bag-of-Local Feature.
  • T frames are sampled in a segment composed of a plurality of consecutive frames, and each (W A convolution feature map of size *H*C) is generated, and local features are extracted by splitting the convolution feature map of each frame for each cell having (W*H) C dimensions.
  • the extracted local features are expressed as a single histogram by performing clustering in order to express them as a single vector in units of segments.
  • a codebook composed of K representative values is generated by clustering the local features of the convolution feature maps for all frames.
  • K is a natural number greater than or equal to 1.
  • the cluster with the closest feature distance is found in the codebook to obtain an assignment map for each cell.
  • the frequency of each representative value is measured and BOW-encoded to generate a histogram for the Bag-of-Local Feature, and a segment fingerprint is generated using the generated histograms.
  • FIG. 7 is a structural diagram illustrating a method for generating a segment fingerprint according to a third embodiment of the present invention
  • FIG. 8 is a procedure illustrating a process for generating a segment fingerprint according to the method shown in FIG. 7 .
  • the method for generating a segment fingerprint according to a third embodiment of the present invention is characterized in that the segment fingerprint is generated using MAX Pooling and a Bag-of-Local Feature.
  • the size of (W*H*C) for each frame is An Aggregated Convolution Feature Map of (W*H*C) size for a corresponding segment by generating a Convolution Feature Map and fusing the Convolution Feature Maps for all frames using the MAX/AVG Pooling operation save
  • the fusion feature map is split for each cell and represented as Local Features.
  • a codebook composed of K representative values is generated by clustering the local features of the fusion feature map.
  • K is a natural number greater than or equal to 1.
  • the cluster with the closest feature distance is found in the codebook to obtain an assignment map for each cell.
  • a Bag-of-Local Feature is obtained by measuring the frequency of each representative value, a single histogram is generated by BoW encoding, and a segment fingerprint is generated from it.
  • the feature vector (Local Feature) for each cell represents the local feature of the frame, and is fused without changing the value to the conventional segment fingerprint using the maximum pooling for each dimension.
  • the segment fingerprint according to the present embodiment can prevent loss of spatial information.
  • the temporal information from which the frame is extracted cannot be expressed by the MAX or AVG pooling operation on the value of the frame feature vector according to the conventional method. Accordingly, in the method for generating a segment fingerprint according to the present embodiment, the loss of spatial information and temporal information generated in the segment fusion process is minimized by connecting the segments in chronological order without changing the values.
  • FIG. 9 is a structural diagram illustrating a method for generating a segment fingerprint according to a fourth embodiment of the present invention.
  • a Convolution Feature Map is generated for each frame, and the Convolution Feature Maps of all frames are connected in chronological order.
  • Complete the Concatenated Convolution Feature Map is generated.
  • the completed combined feature map of the corresponding segment is split for each cell and displayed as Local Features for each region.
  • a codebook composed of K representative values is generated by clustering local features for each region of the combined feature map.
  • K is a natural number greater than or equal to 1.
  • the cluster with the closest feature distance is found in the codebook to obtain an assignment map for each cell.
  • a bag-of-local feature is obtained by measuring the frequency of each representative value, and a single histogram is generated by BoW encoding, and a segment fingerprint is generated from it.
  • the video partial copy detection apparatus includes a segment DB (not shown) including a plurality of pre-stored segments, and is obtained through prior learning of the segments. and a Global Feature DB 102 having global segment fingerprints for the plurality of segments, and a Local Feature DB 104 having local segment fingerprints for the plurality of segments.
  • the video partial copy detection apparatus includes an input module 110 for receiving a query segment, a Global Feature Fingerprint module 120 , a first similarity measurement module 122 , a Local Feature Fingerprint module 124 , and a second similarity A measurement module 126 and a final similarity measurement module 128 are provided to detect a segment to which a query segment corresponds.
  • the Global Feature Fingerprint module 120 extracts convolution feature maps for each frame constituting the query segment, obtains global features for each convolution feature map, and Global features are fused to create a global segment fingerprint for the query segment.
  • the first similarity measurement module 122 compares the global segment fingerprints of the Global Feature DB with first similarities ( ) is measured.
  • the Local Feature Fingerprint module 124 generates a local segment fingerprint for the query segment using the methods according to the second embodiment described above. Accordingly, the first embodiment of the Local Feature Fingerprint module extracts convolutional feature maps for each frame constituting the query segment, and convolutional feature maps for all frames constituting the segment. A single fused feature map for the segment is generated by fusing the , and encode the Local feature vectors into a Bag of Feature to generate a single Local segment fingerprint for the query segment.
  • the second embodiment of the Local Feature Fingerprint module extracts a convolutional feature map for each frame constituting the query segment, and for the convolutional feature maps of all frames, features for each cell (Features) are split to generate local feature vectors, and local feature vectors of all frames constituting the query segment are encoded into a Bag of Feature to generate a single local segment fingerprint for the query segment.
  • the third embodiment of the Local Feature Fingerprint module extracts a Convolutional Feature Map for each frame constituting the query segment, and connects the Convolutional Feature Maps of all frames in chronological order to form a single combined feature for the query segment. Generates a map (Concatenated Feature Map), splits feature vectors for each cell constituting the combined feature map to generate local feature vectors, and generates local feature vectors for the concatenated feature map. It may be configured to encode local feature vectors into a Bag of Feature to generate a single Local segment fingerprint for the query segment.
  • the second similarity measurement module 126 is configured to obtain second similarities ( ) is measured.
  • the final similarity measurement module 128 uses the first and second similarities measured by the first and second similarity measurement modules to obtain final similarities ( ) is measured.
  • a first weight ⁇ for the first similarity and a second weight ⁇ for the second similarity are first set.
  • the second weight value ⁇ may be set to 1- ⁇ .
  • the final similarity between the segments of the segment DB and the query segment is preferably configured to be the sum of the first similarity to which the first weight value ⁇ is applied and the second similarity to which the second weight value is applied.
  • Equation 1 is an expression for obtaining the final similarity Distk between the query segment and the k-th segment.
  • the first degree of similarity between the global segment fingerprint of the query segment and the global segment fingerprint of the kth segment is a second degree of similarity between the local segment fingerprint of the query segment and the local segment fingerprint of the k-th segment.
  • the video partial copy detection apparatus measures the final similarity between the query segment and each segment through the above-described process, and detects a segment similar to the query segment using the measured final similarity.
  • 11 is a graph comparing performance of video partial copy detection according to a method for generating a segment fingerprint according to the present invention.
  • 11 is a measurement by setting the parameters of the radiation section detector differently for each method, and FIGS. 11 (a) and (b) show the performance of each method for the pre-trained model, and (d) summarize the performance of each method for the triple-loss-based learning model.
  • the two methods using the bag-of feature show higher performance than the method using the maximum pooling by dimension.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Collating Specific Patterns (AREA)

Abstract

본 발명은 세그먼트 핑거프린트 생성 방법 및 비디오 부분 복사 검출 장치에 관한 것이다. 상기 비디오 부분 복사 검출 장치는, 세그먼트들에 대한 Global 핑거프린트들을 구비하는 Global Feature DB; 세그먼트들에 대한 Local 핑거프린트들을 구비하는 Local Feature DB; 질의 세그먼트에 대한 Global 핑거프린트를 생성하는 Global Feature Fingerprint 모듈; 상기 Global Feature DB의 Global 핑거프린트들과 질의 세그먼트에 대한 Global 핑거프린트의 제1 유사도들을 측정하는 제1 유사도 측정 모듈; 질의 세그먼트에 대한 Local 핑거프린트를 생성하는 Local Feature Fingerprint 모듈; Local Feature DB의 Local 핑거프린트들과 질의 세그먼트에 대한 Local 핑거프린트의 제2 유사도들을 측정하는 제2 유사도 측정 모듈; 제1 및 제2 유사도들을 이용하여, 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도를 측정하는 최종 유사도 측정 모듈;을 구비하여, 질의 세그먼트와 가장 유사한 세그먼트를 검출하는 것을 특징으로 한다.

Description

세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 장치
본 발명은 딥러닝을 기반으로 한 비디오 부분 복사 검출 방법 및 장치에 관한 것으로서, 더욱 구체적으로는 복수 개의 프레임들로 구성되는 세그먼트(Segment)에 대한 Local Feature 및 Global Feature를 생성하고, 세그먼트에 대한 Local Feature를 이용한 핑거프린트와 Global Feature를 이용한 핑거프린트의 가중치 합을 이용하여 비디오 부분 복사를 검출하는 방법 및 장치에 관한 것이다.
영상(Image)을 단일의 특징 벡터로 나타내기 위하여, 영상에 대한 컨볼루션 특징 맵(Convolution Feature Map)을 생성하고 이를 단일의 벡터로 표현하기 위한 다양한 연구들이 진행되고 있다. 이와 같이, 이미지를 구성하는 프레임에 대한 전체적인 시각적 특징을 추상화시키고, 이를 통해 해당 이미지를 단일 벡터로 표현하게 된다.
도 1은 종래의 방식에 따른 이미지에 대한 CNN(Convolution Neural Network) 기반의 Global Feature를 생성하는 방법들을 도시한 것이다. 도 1의 (a)에 도시된 바와 같이, 이미지에 대한 Convolution Feature Map을 구하고, 이를 Flatten 처리하여 Global Feature를 구하거나, 도 1의 (b)에 도시된 바와 같이 이미지에 대한 Convolution Feature Map을 구하고, 이에 대한 Regional MAX pooling한 후 Average 및 Normalize시켜 Global Feature를 구할 수도 있다. Global Feature는 이미지를 구성하는 프레임의 전반적인 시각적인 특징을 나타내며, Local Feature는 이미지를 구성하는 프레임의 영역별 특징을 나타낸다.
하지만, 이와 같이 이미지를 단일 벡터인 Global Feature로 표현하는 과정에서 특징 맵(Feature Map)을 Flatten시키거나, 특징 맵의 최대값(Max) 또는 평균값(Average)만을 구하여 사용함으로써, 이미지의 공간 정보에 대한 손실이 발생하게 되는 문제점이 있다.
한편, 도 2는 종래의 방식에 따라, 차원별 최대값 풀링을 사용한 세그먼트 핑거프린트 생성 방법을 도시한 순서도이며, 도 3은 차원별 최대값 풀링을 사용하여 세그먼트 핑거프린트를 생성하는 과정을 도시한 프로시저이다. 도 2 및 도 3을 참조하면, 연속한 복수 개의 프레임들로 이루어지는 세그먼트(Segment)에 대한 핑거프린트를 구하기 위하여, 먼저 세그먼트로부터 T 개의 프레임을 샘플링하고, 샘플링된 T개의 프레임에 대하여 각각 컨볼루션 특징 맵(Convolution Feature Map)을 구하고, 도 1에서 설명한 방법들을 이용하여 각 프레임의 컨볼루션 특징 맵의 Global Maximum Pooling을 통해 각 프레임에 대한 C 차원의 특징벡터를 추출하고, 각 채널별로 최대값 풀링을 사용하여 C 차원의 세그먼트 핑거프린트를 생성한다. 전술한 종래의 방식에 따라, 세그먼트를 구성하는 프레임의 Global feature를 이용하여 세그먼트에 대한 Global 핑거프린트를 생성하게 된다.
전술한 종래의 방법은 특징 벡터의 최대값을 이용하여 융합하여 세그먼트 핑거프린트를 생성하므로, 상기 핑거프린트는 세그먼트의 모든 프레임에 대한 정보를 고르게 반영하기 때문에, 프레임 특징 벡터가 변형에 의해 원본 프레임 특징 벡터와 달라지더라도, 세그먼트 내의 다른 프레임 특징 벡터로 인하여 핑거프린트에는 큰 영향을 미치지 않는다.
하지만, 전술한 종래의 방법에 따라 차원에 대한 최대값 풀링을 사용하여 추출한 세그먼트 핑거프린트는 다수 프레임의 특징 벡터를 단일 벡터로 표현하는 과정에서 이미지의 공간 정보에 대한 손실이 발생하게 된다. 또한, 전술한 종래의 방법은, 세그먼트를 구성하는 각 이미지에 대한 Global Feature를 구하는 과정에서 프레임의 공간적 정보에 대한 손실이 발생할 뿐만 아니라, 세그먼트의 시간적 정보의 손실도 함께 발생하게 되는 문제점이 있다.
전술한 문제점을 해결하기 위한 본 발명은 세그먼트를 구성하는 프레임들의 공간적 정보 및 시간적 정보에 대한 손실을 최소화시킬 수 있도록 하는 세그먼트 핑거프린트를 생성하는 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 세그먼트에 대한 Local Feature를 이용한 핑거프린트와 Global Feature를 이용한 핑거프린트의 가중치 합을 이용하여, 비디오 부분 복사를 검출하는 방법 및 장치를 제공하는 것을 목적으로 한다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법은, (a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 컨볼루션 특징 맵(Convolutional Feature Map)을 추출하는 단계; (b) 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하는 단계; (c) 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터(Feature)들을 생성하는 단계; 및 (d) 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 핑거프린트를 생성하는 단계;를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 생성한다.
전술한 제1 특징에 따른 세그먼트 핑거프린트 생성 방법에 있어서, 상기 (b) 단계는, 상기 세그먼트를 구성하는 모든 프레임들의 Convolutional Feature Map들에 대하여, MAX Pooling 또는 Average Pooling 하여, 상기 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하는 것이 바람직하다.
본 발명의 제2 특징에 따른 복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법은, (a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하는 단계; (b) 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local Feature들을 생성하는 단계; (c) 상기 세그먼트를 구성하는 모든 프레임들의 Local Feature들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 핑거프린트를 생성하는 단계; 를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 검출하는 것이 바람직하다.
본 발명의 제3 특징에 따른 복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법은, (a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하는 단계; (b) 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하는 단계; (c) 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local Feature들을 생성하는 단계; (d) 상기 결합 특징 맵에 대해 생성된 Local Feature들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 특징 벡터를 생성하는 단계; 를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 검출한다.
전술한 제1 내지 제3 특징에 따른 세그먼트의 핑거프린트 생성 방법에 있어서, Local 특징 벡터(Feature)들을 Bag of Feature로 인코딩하는 단계는, 복수 개의 Local Feature들을 클러스터링하여 K개의 대표값들로 이루어진 코드북을 생성하고, 상기 모든 Local Feature에 대하여 상기 코드북 내에서 대응되는 클러스터를 찾고, 각 대표값에 대한 Frequency를 측정하여 Assignment Map을 생성하고 이를 인코딩하여 단일의 히스토그램을 생성하고, 이로부터 핑거프린트를 생성하는 것이 바람직하다.
본 발명의 제4 특징에 따른 비디오 부분 복사 검출 장치는, 사전 저장된 복수 개의 세그먼트들을 구비하는 세그먼트 DB; 상기 복수 개의 세그먼트들에 대한 Global 핑거프린트들을 구비하는 Global Feature DB; 상기 복수 개의 세그먼트들에 대한 Local 핑거프린트들을 구비하는 Local Feature DB; 질의 세그먼트(Query Segment)를 입력받는 입력 모듈; 질의 세그먼트에 대한 Global 핑거프린트를 생성하는 Global Feature Fingerprint 모듈; 상기 Global Feature DB의 Global 핑거프린트들과 상기 질의 세그먼트에 대한 Global 핑거프린트의 제1 유사도들을 측정하는 제1 유사도 측정 모듈; 질의 세그먼트에 대한 Local 핑거프린트를 생성하는 Local Feature Fingerprint 모듈; 상기 Local Feature DB의 Local 핑거프린트들과 상기 질의 세그먼트에 대한 Local 핑거프린트의 제2 유사도들을 측정하는 제2 유사도 측정 모듈; 상기 제1 및 제2 유사도 측정 모듈들에 의해 측정된 제1 및 제2 유사도들을 이용하여, 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도를 측정하는 최종 유사도 측정 모듈;을 구비하여, 질의 세그먼트가 대응되는 세그먼트를 검출한다.
전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, 상기 최종 유사도 측정 모듈은, 상기 제1 유사도에 대한 제1 가중값 및 상기 제2 유사도에 대한 제2 가중값을 설정하고, 상기 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도는 상기 제1 가중값이 적용된 제1 유사도와 상기 제2 가중값이 적용된 제2 유사도의 합으로 이루어지도록 구성된 것이 바람직하다.
전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, 상기 Global Feature Fingerprint 모듈은, 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolution Feature Map)들을 추출하고, 각 컨볼루션 특징 맵들에 대한 Global Feature들을 획득하고, 모든 컨볼루션 특징 맵의 Global Feature들을 융합하여 상기 질의 세그먼트에 대한 Global 핑거프린트를 생성하는 것이 바람직하다.
전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, Local Feature Fingerprint 모듈은, 상기 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolutional Feature Map)들을 추출하고, 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하고, 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것이 바람직하다.
전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, Local Feature Fingerprint 모듈은, 상기 질의 세그먼트를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 질의 세그먼트를 구성하는 모든 프레임들의 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것이 바람직하다.
전술한 제4 특징에 따른 비디오 부분 복사 검출 장치에 있어서, Local Feature Fingerprint 모듈은, 상기 질의 세그먼트를 구성하는 각 프레임에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 질의 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하고, 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징 벡터(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 결합 특징 맵에 대해 생성된 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것이 바람직하다.
본 발명의 제2 실시예 및 제3 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 세그먼트를 구성하는 프레임들에 대한 Local Feature들을 이용하여 특징 벡터를 생성하거나, 세그먼트를 구성하는 프레임들에 대한 융합 특징 맵에 대한 Local Feature들을 이용하여 세그먼트 핑거프린트를 생성함으로써, 세그먼트를 구성하는 프레임들의 각 이미지에 대한 공간적 정보가 손실되는 것을 감소시킬 수 있다.
본 발명의 제4 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 세그먼트를 구성하는 프레임들의 컨볼루션 특징 맵들을 시간순으로 연결한 결합 특징 맵(Concatenated Feature Map)에 대한 Local Feature들을 이용하여 세그먼트 핑거프린트를 생성함으로써, 세그먼트를 구성하는 프레임들의 각 이미지에 대한 공간적 정보 및 시간적 정보가 손실되는 것을 감소시킬 수 있다.
또한, 본 발명의 제5 실시예에 따른 비디오 부분 복사 검출 장치 및 방법은, 전술한 세그먼트 핑거프린트 생성 방법에 의하여 각 세그먼트에 대한 Local 핑거프린트들을 생성하고, 종래의 방법에 따라 각 세그먼트에 대한 Global 핑거프린트들을 생성하고, Local 핑거프린트와 Global 핑거프린트의 가중치 합을 이용하여 질의 세그먼트와의 최종 유사도를 판단함으로써, 질의 세그먼트에 대하여 비디오 부분 복사 여부를 보다 정확하게 판단할 수 있게 된다.
도 1은 종래의 방식에 따른 이미지에 대한 CNN(Convolution Neural Network) 기반의 Global Feature를 생성하는 방법들을 도시한 것이다.
도 2는 종래의 방식에 따라, 차원별 최대값 풀링을 사용한 세그먼트 핑거프린트 생성 방법을 도시한 순서도이며, 도 3은 차원별 최대값 풀링을 사용하여 세그먼트 핑거프린트를 생성하는 과정을 도시한 프로시저이다.
도 4는 본 발명의 제1 실시예에 따른 이미지에 대한 Local 특징 벡터 생성 방법을 도시한 것이다.
도 5는 본 발명의 제2 실시예에 따른 Bag-of-Local Feature를 사용한 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 6은 도 5에 도시된 방법에 따라 세그먼트 핑거프린트 생성하는 과정을 도시한 프로시저이다.
도 7은 본 발명의 제3 실시예에 따른 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 8은 도 7에 도시된 방법에 따라 세그먼트 핑거프린트 생성하는 과정을 도시한 프로시저이다.
도 9는 본 발명의 제4 실시예에 따른 세그먼트 핑거프린트 생성 방법을 도시한 구조도이다.
도 10은 본 발명의 제5 실시예에 따른 비디오 부분 복사 검출 장치를 개략적으로 도시한 블록도이다.
도 11은 본 발명에 따른 세그먼트 핑거프린트 생성 방법에 따른 비디오 부분 복사 검출의 성능을 비교한 그래프들이다.
이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예에 따른 세그먼트 핑거프린트 생성 방법 및 상기 세그먼트 핑거프린트 생성 방법을 이용한 비디오 부분 복사 검출 장치를 구체적으로 설명한다.
< 제1 실시예 >
이하, 본 발명의 제1 실시예에 따른 이미지에 대한 특징 벡터 생성 방법에 대하여 설명한다.
일반적으로, 이미지에 대한 Convolution Feature Map은 width * height * depth의 3차원 구조로 이루어지며, width 및 height로 잘랐을 때 각각의 셀은 이미지에서 해당하는 영역에 대한 특징을 나타낸다. 따라서, Convolution Feature Map을 MAX pooling 또는 AVG pooling 과 같이 값을 합치는 연산 방법을 사용하여 Global Feature를 구하는 경우 이미지의 공간 정보에 대한 손실을 유발하게 된다. 따라서, 본 발명에 따른 단일 벡터 생성 방법은 이미지 추상화 과정에서 발생될 수 있는 이미지 공간 정보의 손실을 최소화시키기 위하여, Global Feature가 아닌 Local Feature를 이용하여 단일의 특징 벡터를 생성하는 것을 특징으로 한다.
도 4는 본 발명의 제1 실시예에 따른 이미지에 대한 Local 특징 벡터 생성 방법을 도시한 것이다. 도 4를 참조하면, 이미지에 대한 Local 특징 벡터 생성 방법은, 이미지에 대한 Convolution Feature Map을 구하고, 이미지의 컨볼루션 특징 맵의 각 셀에 대한 특징들을 분할하여, 각 셀에 대한 Local feature들을 획득하게 된다. 여기서, 각 셀에 대한 특징 벡터인 Local Feature들은 프레임의 국부적인 특징을 나타내기 때문에, 값에 대한 변경없이 융합하여 공간 정보의 손실을 방지하게 된다.
다음, Local Feature들에 대한 클러스터링을 수행하여 K 개의 클러스터들을 정의하고 각 클러스터들에 대하여 대표값을 설정하여, K개의 대표값으로 구성된 코드북을 생성한다. 여기서, K는 1 이상의 자연수이다. 다음, 이미지의 모든 Local Feature들에 대하여 코드북에서 Feature Distance가 가장 가까운 클러스터의 대표값을 찾아서 할당함으로써, 이미지에 대한 Assignment Map을 구한다. 다음, 각 대표값에 대한 Frequency를 측정하여 Bag-of-Feature를 생성하고 인코딩하여 단일의 히스토그램을 생성한다.
이와 같이, 각 셀의 Local Feature들을 이용하여 이미지의 셀들에 대한 Feature값들을 변경하지 않고 이미지에 대한 특징 벡터를 생성함으로써, 이미지에 대한 공간적 정보의 손실을 최소화시킬 수 있게 된다.
< 제2 실시예 >
이하, 첨부된 도면을 참조하여, 본 발명의 제2 실시예에 따른 세그먼트 핑거프린트 생성 방법에 대하여 설명한다.
본 발명의 제2 실시예에 따른 세그먼트 핑거프린트 생성 방법은 세그먼트의 공간적 정보의 손실을 최소화시킬 수 있게 된다. 비디오 및 세그먼트는 연속적인 프레임의 집합이기 때문에, 프레임 특징 벡터들을 융합하여 비디오 및 세그먼트에 대한 핑거프린트를 표현할 수 있다.
도 5는 본 발명의 제2 실시예에 따른 Bag-of-Local Feature를 사용한 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 6은 도 5에 도시된 방법에 따라 세그먼트 핑거프린트 생성하는 과정을 도시한 프로시저이다. 본 발명의 제2 실시예에 따른 세그먼트 핑거프린트 생성 방법은 Bag-of-Local Feature를 사용한 것을 특징으로 한다.
도 5 및 도 6을 참조하면, 본 실시형태에 따른 세그먼트 핑거프린트 생성 방법은, 연속되는 복수 개의 프레임들로 구성되는 세그먼트에서 T개의 프레임들을 샘플링하고, 샘플링된 T개의 프레임들에 대하여 각각 (W*H*C) 크기의 Convolution Feature Map을 생성하고, 각 프레임의 Convolution Feature Map에 대하여 (W*H) 개의 C 차원을 갖는 셀(cell)별로 분할(split)하여 Local Feature들을 추출한다. 상기 추출한 Local Feature들은 세그먼트 단위의 단일 벡터로 표현하기 위하여 클러스터링을 수행하여 단일 히스토그램으로 표현하게 된다.
이하, T개의 프레임에 대해 추출한 (W*H*T) 개의 Local Feature들을 세그먼트 단위로 융합하여 단일 히스토그램으로 표현하는 방법을 보다 구체적으로 설명한다. 모든 프레임에 대한 Convolution Feature Map들의 Local Feature들에 대한 클러스터링을 수행하여 K개의 대표값으로 구성된 코드북을 생성한다. 여기서, K는 1 이상의 자연수이다. 다음, 해당 세그먼트에 대한 모든 Local Feature들에 대하여 코드북에서 Feature Distance가 가장 가까운 클러스터를 찾아서 각 셀에 대한 Assignment Map을 구한다. 다음, 각 대표값의 Frequency를 측정하여 BOW 인코딩하여 Bag-of-Local Feature에 대한 히스토그램을 생성하고, 생성된 히스토그램들을 이용하여 세그먼트 핑거프린트를 생성한다.
전술한 방법에 의하여, 각 프레임의 공간 정보의 손실을 최소화시키면서 Local feature를 이용하여 세그먼트 핑거프린트를 구할 수 있게 된다.
< 제3 실시예 >
도 7은 본 발명의 제3 실시예에 따른 세그먼트 핑거프린트 생성 방법을 도시한 구조도이며, 도 8은 도 7에 도시된 방법에 따라 세그먼트 핑거프린트 생성하는 과정을 도시한 프로시저이다. 본 발명의 제3 실시예에 따른 세그먼트 핑거프린트 생성 방법은 최대값 풀링(MAX Pooling)과 Bag-of-Local Feature를 이용하여 세그먼트 핑거프린트를 생성하는 것을 특징으로 한다.
도 7 및 도 8을 참조하면, 본 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 세그먼트를 구성하는 프레임들로부터 샘플링된 T개의 프레임들에 대하여, 각 프레임에 대한 (W*H*C) 크기의 Convolution Feature Map을 생성하고, 모든 프레임에 대한 Convolution Feature Map들에 대하여 MAX/AVG Pooling 연산을 이용하여 융합시킴으로써, 해당 세그먼트에 대한 (W*H*C) 크기의 융합 특징 맵(Aggregated Convolution Feature Map)를 구한다. 다음, 상기 융합 특징 맵에 대하여 각 셀(cell)별로 분할(split)하여 Local Feature들로 나타낸다. 다음, 상기 융합 특징 맵의 Local Feature들에 대한 클러스터링을 수행하여 K개의 대표값으로 구성된 코드북을 생성한다. 여기서, K는 1 이상의 자연수이다. 다음, 해당 프레임에 대한 융합 특징 맵의 모든 Local Feature들에 대하여 코드북에서 Feature Distance가 가장 가까운 클러스터를 찾아서 각 셀에 대한 Assignment Map을 구한다. 다음, 각 대표값의 Frequency를 측정하여 Bag-of-Local Feature를 구하고 BoW 인코딩하여 단일의 히스토그램을 생성하고 이로부터 세그먼트 핑거프린트를 생성한다.
전술한 실시예에 따른 방법에 의하여, 각 셀에 대한 특징 벡터(Local Feature)는 프레임의 국부적인 특징을 나타내며, 값에 대한 변경없이 융합하여 차원별 최대값 풀링을 사용하는 종래의 세그먼트 핑거프린트에 비해 본 실시예에 따른 세그먼트 핑거프린트는 공간 정보의 손실을 방지할 수 있게 된다.
<제4 실시예>
종래의 방법에 따른 프레임 특징 벡터의 값에 대한 MAX 또는 AVG Pooling 연산으로는 프레임이 추출된 시간적 정보를 표현할 수 없다. 따라서, 본 실시예에 따른 세그먼트 핑거프린트 생성 방법에서는 값에 대한 변경없이 시간 순으로 연결하여 세그먼트를 표현함으로써, 세그먼트 융합과정에서 발생되는 공간적 정보 및 시간적 정보의 손실을 최소화시키게 된다.
도 9는 본 발명의 제4 실시예에 따른 세그먼트 핑거프린트 생성 방법을 도시한 구조도이다. 도 9를 참조하면, 본 실시예에 따른 세그먼트 핑거프린트 생성 방법은, 세그먼트를 구성하는 모든 프레임에 대하여, 각 프레임에 대한 Convolution Feature Map을 생성하고, 모든 프레임의 Convolution Feature Map들을 시간 순으로 연결하여 결합 특징 맵(Concatenated Convolution Feature Map)을 완성한다. 상기 완성된 해당 세그먼트의 결합 특징 맵을 각 셀(cell)별로 분할(split)하여 각 영역에 대한 Local Feature들로 나타낸다. 결합 특징 맵의 각 영역에 대한 Local Feature들에 대한 클러스터링을 수행하여 K개의 대표값으로 구성된 코드북을 생성한다. 여기서, K는 1 이상의 자연수이다. 다음, 해당 세그먼트에 대한 결합 특징 맵의 모든 Local Feature들에 대하여 코드북에서 Feature Distance가 가장 가까운 클러스터를 찾아서 각 셀에 대한 Assignment Map을 구한다. 다음, 각 대표값의 Frequency를 측정하여 Bag-of-Local Feature를 구하고 BoW 인코딩하여 단일의 히스토그램들을 생성하고 이로부터 세그먼트 핑거프린트를 생성한다.
전술한 방법에 의하여, 각 프레임의 공간 정보 및 시간 정보의 손실을 최소화시키면서 세그먼트에 대한 단일의 핑거프린트를 구할 수 있게 된다.
< 제5 실시예 >
이하, 첨부된 도면을 참조하여 본 발명의 제5 실시예에 따른 비디오 부분 복사 검출 방법 및 장치에 대하여 구체적으로 설명한다.
도 10은 본 발명의 제5 실시예에 따른 비디오 부분 복사 검출 장치를 개략적으로 도시한 블록도이다. 도 10을 참조하면, 본 실시예에 따른 비디오 부분 복사 검출 장치는(1), 사전 저장된 복수 개의 세그먼트들을 구비하는 세그먼트 DB(도시되지 않음)를 구비하고, 상기 세그먼트들에 대한 사전 학습을 통해 획득된 상기 복수 개의 세그먼트들에 대한 Global 세그먼트 핑거프린트들을 구비하는 Global Feature DB(102), 및 상기 복수 개의 세그먼트들에 대한 Local 세그먼트 핑거프린트들을 구비하는 Local Feature DB(104)를 구비한다.
비디오 부분 복사 검출 장치는, 질의 세그먼트(Query Segment)를 입력받는 입력 모듈(110), Global Feature Fingerprint 모듈(120), 제1 유사도 측정 모듈(122), Local Feature Fingerprint 모듈(124), 제2 유사도 측정 모듈(126), 최종 유사도 측정 모듈(128)을 구비하여, 질의 세그먼트가 대응되는 세그먼트를 검출한다.
상기 Global Feature Fingerprint 모듈(120)은 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolution Feature Map)들을 추출하고, 각 컨볼루션 특징 맵들에 대한 Global Feature들을 획득하고, 모든 컨볼루션 특징 맵의 Global Feature들을 융합하여 상기 질의 세그먼트에 대한 Global 세그먼트 핑거프린트를 생성한다.
상기 제1 유사도 측정 모듈(122)은 상기 Global Feature DB의 Global 세그먼트 핑거프린트들과 상기 질의 세그먼트에 대한 Global 핑거프린트의 제1 유사도들(
Figure PCTKR2021003391-appb-img-000001
)을 측정한다.
상기 Local Feature Fingerprint 모듈(124)은 전술한 제2 실시예에 따른 방법들을 이용하여 질의 세그먼트에 대한 Local 세그먼트 핑거프린트를 생성한다. 따라서, 상기 Local Feature Fingerprint 모듈의 제1 실시 형태는, 상기 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolutional Feature Map)들을 추출하고, 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하고, 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 세그먼트 핑거프린트를 생성하도록 구성된다.
상기 Local Feature Fingerprint 모듈의 제2 실시 형태는, 상기 질의 세그먼트를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 질의 세그먼트를 구성하는 모든 프레임들의 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 세그먼트 핑거프린트를 생성하도록 구성될 수 있다.
상기 Local Feature Fingerprint 모듈의 제3 실시 형태는, 상기 질의 세그먼트를 구성하는 각 프레임에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 질의 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하고, 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징 벡터(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 결합 특징 맵에 대해 생성된 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 세그먼트 핑거프린트를 생성하도록 구성될 수 있다.
상기 제2 유사도 측정 모듈(126)은 상기 Local Feature DB의 Local 세그먼트 핑거프린트들과 상기 질의 세그먼트에 대한 Local 세그먼트 핑거프린트의 제2 유사도들(
Figure PCTKR2021003391-appb-img-000002
)을 측정한다.
상기 최종 유사도 측정 모듈(128)은 상기 제1 및 제2 유사도 측정 모듈들에 의해 측정된 제1 및 제2 유사도들을 이용하여, 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도들(
Figure PCTKR2021003391-appb-img-000003
)을 측정한다. 상기 최종 유사도 측정 모듈의 동작을 보다 구체적으로 설명하면, 먼저 상기 제1 유사도에 대한 제1 가중값(α) 및 상기 제2 유사도에 대한 제2 가중값(β)을 먼저 설정한다. 상기 제2 가중값(β)은 1- α로 설정할 수 있다. 다음, 상기 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도는 상기 제1 가중값(α)이 적용된 제1 유사도와 상기 제2 가중값이 적용된 제2 유사도의 합으로 이루어지도록 구성된 것이 바람직하다. 수학식 1은 질의 세그먼트와 k번째 세그먼트의 최종 유사도(Distk)를 얻는 수학식을 표시한 것이다.
Figure PCTKR2021003391-appb-img-000004
여기서,
Figure PCTKR2021003391-appb-img-000005
는 질의 세그먼트의 Global 세그먼트 핑거프린트와 k번째 세그먼트의 Global 세그먼트 핑거프린트의 제1 유사도이며,
Figure PCTKR2021003391-appb-img-000006
는 질의 세그먼트의 Local 세그먼트 핑거프린트와 k번째 세그먼트의 Local 세그먼트 핑거프린트의 제2 유사도이다.
본 발명에 따른 비디오 부분 복사 검출 장치는, 전술한 과정을 통해 질의 세그먼트와 각 세그먼트들 간의 최종 유사도들을 측정하고, 측정된 최종 유사도를 이용하여 질의 세그먼트와 유사한 세그먼트를 검출하게 된다.
도 11은 본 발명에 따른 세그먼트 핑거프린트 생성 방법에 따른 비디오 부분 복사 검출의 성능을 비교한 그래프들이다. 도 11은 각 방법에 대하여 복사 구간 검출기의 매개 변수를 다르게 설정하여 측정한 것으로서, 도 11의 (a)와 (b)는 사전 학습된 모델에 대한 방법별 성능을 나타내며, 도 11의 (c)와 (d)는 Triple-loss 기반 학습 모델에 대한 방법별 성능을 정리한 것이다. Bag-of Feature를 사용하는 두 방법은 차원별 최대값 풀링을 사용하는 방법보다 높은 성능을 보이고 있다. 이를 통해, 본 발명에 따른 Local Feature를 이용한 세그먼트 핑거프린트가 공간 정보 손실이 비교적 적어 변형에 강건한 특징을 추출함을 확인할 수 있다. 또한, 최대값 풀링과 Bag-of-Local Feature를 사용하는 경우가 Bag-of-Local Feature만을 사용하는 경우보다 성능이 감소됨을 알 수 있다. 이로부터 최대값 풀링을 하는 과정에서 프레임 정보 손실이 일어나게 되어 성능 차이가 발생됨을 알 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (11)

  1. 복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법에 있어서,
    (a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 컨볼루션 특징 맵(Convolutional Feature Map)을 추출하는 단계;
    (b) 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하는 단계;
    (c) 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터(Feature)들을 생성하는 단계; 및
    (d) 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 핑거프린트를 생성하는 단계;
    를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 생성하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
  2. 제1항에 있어서, 상기 (b) 단계는,
    상기 세그먼트를 구성하는 모든 프레임들의 Convolutional Feature Map들에 대하여, MAX Pooling 또는 Average Pooling 하여, 상기 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
  3. 복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법에 있어서,
    (a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하는 단계;
    (b) 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local Feature들을 생성하는 단계;
    (c) 상기 세그먼트를 구성하는 모든 프레임들의 Local Feature들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 특징 벡터를 생성하는 단계;
    를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 검출하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
  4. 복수 개의 프레임들로 이루어진 세그먼트의 핑거프린트 생성 방법에 있어서,
    (a) 상기 세그먼트(Segment)를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하는 단계;
    (b) 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하는 단계;
    (c) 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local Feature들을 생성하는 단계;
    (d) 상기 결합 특징 맵에 대해 생성된 Local Feature들을 Bag of Feature로 인코딩하여 상기 세그먼트에 대한 단일의 특징 벡터를 생성하는 단계;
    를 구비하여, 복수 개의 프레임들로 이루어진 세그먼트에 대한 핑거프린트를 검출하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, Local 특징 벡터(Feature)들을 Bag of Feature로 인코딩하는 단계는,
    복수 개의 Local Feature들을 클러스터링하여 K개의 대표값들로 이루어진 코드북을 생성하고, 상기 모든 Local Feature에 대하여 상기 코드북 내에서 대응되는 클러스터를 찾고, 각 대표값에 대한 Frequency를 측정하여 단일의 히스토그램을 생성하고, 사전 설정된 방식으로 인코딩하여 핑거프린트로 인코딩하는 것을 특징으로 하는 세그먼트 핑거프린트 생성 방법.
  6. 사전 저장된 복수 개의 세그먼트들을 구비하는 세그먼트 DB;
    상기 복수 개의 세그먼트들에 대한 Global 핑거프린트들을 구비하는 Global Feature DB;
    상기 복수 개의 세그먼트들에 대한 Local 핑거프린트들을 구비하는 Local Feature DB;
    질의 세그먼트(Query Segment)를 입력받는 입력 모듈;
    질의 세그먼트에 대한 Global 핑거프린트를 생성하는 Global Feature Fingerprint 모듈;
    상기 Global Feature DB의 Global 핑거프린트들과 상기 질의 세그먼트에 대한 Global 핑거프린트의 제1 유사도들을 측정하는 제1 유사도 측정 모듈;
    질의 세그먼트에 대한 Local 핑거프린트를 생성하는 Local Feature Fingerprint 모듈;
    상기 Local Feature DB의 Local 핑거프린트들과 상기 질의 세그먼트에 대한 Local 핑거프린트의 제2 유사도들을 측정하는 제2 유사도 측정 모듈;
    상기 제1 및 제2 유사도 측정 모듈들에 의해 측정된 제1 및 제2 유사도들을 이용하여, 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도를 측정하는 최종 유사도 측정 모듈;
    을 구비하여, 질의 세그먼트가 대응되는 세그먼트를 검출하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.
  7. 제6항에 있어서, 상기 최종 유사도 측정 모듈은,
    상기 제1 유사도에 대한 제1 가중값 및 상기 제2 유사도에 대한 제2 가중값을 설정하고,
    상기 세그먼트 DB의 세그먼트들과 질의 세그먼트의 최종 유사도는 상기 제1 가중값이 적용된 제1 유사도와 상기 제2 가중값이 적용된 제2 유사도의 합으로 이루어지도록 구성된 것을 특징으로 하는 비디오 부분 복사 검출 장치.
  8. 제6항에 있어서, 상기 Global Feature Fingerprint 모듈은,
    질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolution Feature Map)들을 추출하고, 각 컨볼루션 특징 맵들에 대한 Global Feature들을 획득하고, 모든 컨볼루션 특징 맵의 Global Feature들을 융합하여 상기 질의 세그먼트에 대한 Global 핑거프린트를 생성하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.
  9. 제6항에 있어서, Local Feature Fingerprint 모듈은,
    상기 질의 세그먼트를 구성하는 각 프레임에 대한 컨볼루션 특징 맵(Convolutional Feature Map)들을 추출하고, 상기 세그먼트를 구성하는 모든 프레임들에 대한 Convolutional Feature Map들을 융합하여 상기 세그먼트에 대한 단일의 융합 특징 맵(Aggregated Feature Map)을 생성하고, 상기 세그먼트에 대한 단일의 융합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.
  10. 제6항에 있어서, Local Feature Fingerprint 모듈은,
    상기 질의 세그먼트를 구성하는 각 프레임(Frame)에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들에 대하여, 각 셀(Cell)에 대한 특징(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 질의 세그먼트를 구성하는 모든 프레임들의 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.
  11. 제6항에 있어서, Local Feature Fingerprint 모듈은,
    상기 질의 세그먼트를 구성하는 각 프레임에 대한 Convolutional Feature Map을 추출하고, 모든 프레임의 Convolutional Feature Map들을 시간 순서대로 연결하여 상기 질의 세그먼트에 대한 단일의 결합 특징 맵(Concatenated Feature Map)을 생성하고, 상기 결합 특징 맵을 구성하는 각 셀(Cell)에 대한 특징 벡터(Feature)들을 분할(split)하여 Local 특징 벡터들을 생성하고, 상기 결합 특징 맵에 대해 생성된 Local 특징 벡터들을 Bag of Feature로 인코딩하여 상기 질의 세그먼트에 대한 단일의 Local 핑거프린트를 생성하는 것을 특징으로 하는 비디오 부분 복사 검출 장치.
PCT/KR2021/003391 2020-11-24 2021-03-18 세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 장치 WO2022114403A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200158481A KR20220071412A (ko) 2020-11-24 2020-11-24 세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 장치
KR10-2020-0158481 2020-11-24

Publications (1)

Publication Number Publication Date
WO2022114403A1 true WO2022114403A1 (ko) 2022-06-02

Family

ID=81754686

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/003391 WO2022114403A1 (ko) 2020-11-24 2021-03-18 세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 장치

Country Status (2)

Country Link
KR (1) KR20220071412A (ko)
WO (1) WO2022114403A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336795B (zh) * 2013-06-09 2017-03-08 华中科技大学 基于多特征的视频索引方法
KR20200013486A (ko) * 2018-07-30 2020-02-07 주식회사 휴인스 객체 검출 장치 및 방법
KR102086067B1 (ko) * 2019-04-30 2020-03-06 엘아이지넥스원 주식회사 융합 영상 생성장치 및 방법
KR20200029659A (ko) * 2018-09-06 2020-03-19 포항공과대학교 산학협력단 얼굴 인식 방법 및 장치
CN107633065B (zh) * 2017-09-21 2020-06-02 天津大学 一种基于手绘草图的识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101373176B1 (ko) 2013-02-13 2014-03-11 서강대학교산학협력단 복제 동영상정보 검출방법 및 장치, 저장매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336795B (zh) * 2013-06-09 2017-03-08 华中科技大学 基于多特征的视频索引方法
CN107633065B (zh) * 2017-09-21 2020-06-02 天津大学 一种基于手绘草图的识别方法
KR20200013486A (ko) * 2018-07-30 2020-02-07 주식회사 휴인스 객체 검출 장치 및 방법
KR20200029659A (ko) * 2018-09-06 2020-03-19 포항공과대학교 산학협력단 얼굴 인식 방법 및 장치
KR102086067B1 (ko) * 2019-04-30 2020-03-06 엘아이지넥스원 주식회사 융합 영상 생성장치 및 방법

Also Published As

Publication number Publication date
KR20220071412A (ko) 2022-05-31

Similar Documents

Publication Publication Date Title
US10685215B2 (en) Method and apparatus for recognizing face
CN105574505B (zh) 一种多摄像机间人体目标再识别的方法及***
WO2014092446A1 (ko) 객체 기반 영상 검색시스템 및 검색방법
CN110378324B (zh) 一种基于质量维度的人脸识别算法评估方法
WO2013048159A1 (ko) 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체
CN108960142B (zh) 基于全局特征损失函数的行人再识别方法
CN110348505B (zh) 车辆颜色分类模型训练方法、装置和车辆颜色识别方法
CN110348320B (zh) 一种基于多损失深度融合的人脸防伪方法
CN112215157B (zh) 一种基于多模型融合的人脸特征降维提取方法
CN111950515A (zh) 一种基于语义特征金字塔网络的小人脸检测方法
WO2017150899A9 (ko) 전역적 다중 객체 추적을 위한 객체 재식별 방법
CN112329851A (zh) 一种图标检测方法、装置及计算机可读存储介质
WO2023068795A1 (ko) 이미지 분석을 이용한 메타버스 생성 장치 및 방법
CN112668557A (zh) 一种行人再识别***中防御图像噪声攻击的方法
CN106683074B (zh) 一种基于雾霾特性的图像篡改检测方法
WO2022114403A1 (ko) 세그먼트 핑거프린트 생성 방법 및 이를 이용한 비디오 부분 복사 검출 장치
CN113642558A (zh) 耐张线夹压接缺陷的x射线图像识别方法及装置
CN107909078B (zh) 一种图间显著性检测方法
WO2019098421A1 (ko) 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
CN107463968A (zh) 烟雾判断码书的产生方法、产生***及烟雾的检测方法
WO2022086105A1 (ko) 딥 뉴럴 네트워크 기반의 뇌출혈 진단 시스템
WO2021071258A1 (ko) 인공지능 기반의 휴대용 보안영상 학습장치 및 방법
CN115376184A (zh) 一种基于生成对抗网络的ir图像活体检测方法
WO2020175729A1 (ko) 가우시안 특징점맵과 회귀 기법을 이용한 얼굴 특징점 검출 장치 및 방법
WO2024136248A1 (ko) 딥러닝 기반의 성별 인식 장치 및 성별 인식 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21898233

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21898233

Country of ref document: EP

Kind code of ref document: A1