KR102296318B1

KR102296318B1 - 동영상분류장치 및 동영상분류방법

Info

Publication number: KR102296318B1
Application number: KR1020190171078A
Authority: KR
Inventors: 위동윤; 오광진; 배순민; 김유진
Original assignee: 네이버 주식회사; 라인 가부시키가이샤
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-09-01
Also published as: JP2021099806A; KR20210079028A; JP7159274B2

Abstract

본 출원은 동영상분류장치 및 동영상분류방법에 관한 것으로서, 본 발명의 일 실시예에 의한 동영상분류방법은 입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 단계; 상기 프레임들 사이의 광흐름(optical flow)을 나타내는 이동벡터를 추출하는 단계; 및 미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 단계를 포함할 수 있다.

Description

동영상분류장치 및 동영상분류방법 {Apparatus and method for classifying videos}

본 출원은 동영상분류장치 및 동영상분류방법에 관한 것으로, 특히 슬라이드 쇼 타입 동영상을 일반 동영상으로부터 구별할 수 있는 동영상분류장치 및 동영상분류방법에 관한 것이다.

최근 동영상 컨텐츠에 대한 사용자들의 수요가 증가하면서, 슬라이드 쇼(slide show) 타입 동영상들이 급증하고 있다. 슬라이드 쇼 타입 동영상은 한 장 이상의 슬라이드 이미지가 표시되는 동영상으로, 제작이 쉽고 간편하므로 최근 광고나 홍보용으로 주로 활용되고 있다.

슬라이드 쇼 타입 동영상은 한 장의 슬라이드 이미지가 표시된 상태에서 음향이나 나래이션 등이 추가되는 형태로 구현될 수 있으며, 복수의 슬라이드 이미지들이 순차적으로 표시되도록 하는 것도 가능하다.

한편, 사용자들은 자신이 원하는 정보를 찾기 위해, 인터넷 검색 서비스를 이용할 수 있으며, 이때 검색되는 다양한 동영상 중에는 슬라이드 쇼 타입 동영상들이 다수 포함될 수 있다. 다만, 슬라이드 쇼 타입 동영상들은 광고나 홍보성 내용이거나, 질이 낮은 컨텐츠를 포함하는 경우가 대부분이므로, 사용자들은 슬라이드 쇼 타입 동영상들을 선호하지 않는 경향이 있다.

본 출원은, 슬라이드 쇼 타입 동영상을 일반 동영상으로부터 구별할 수 있는 동영상분류장치 및 동영상분류방법을 제공하고자 한다.

본 출원은, 동영상 내에 포함된 프레임들 사이의 광흐름(optical flow)를 활용하여, 슬라이드 쇼 타입 동영상들을 구별할 수 있는 동영상분류장치 및 동영상분류방법을 제공하고자 한다.

본 발명의 일 실시예에 의한 동영상분류방법은, 슬라이드 쇼(slide show) 타입 동영상을 구별하는 동영상분류방법에 관한 것으로, 입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 단계; 상기 프레임들 사이의 광흐름(optical flow)을 나타내는 이동벡터를 추출하는 단계; 및 미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 대상 동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 의한 동영상분류장치는, 슬라이드 쇼(slide show) 타입 동영상을 구별하는 것으로, 입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 프레임추출부; 상기 프레임들 사이의 광흐름(optical flow)를 나타내는 이동벡터를 추출하는 이동벡터 추출부; 및 미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 대상동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 판별부를 포함할 수 있다.

덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 의한 동영상분류장치 및 동영상분류방법에 의하면, 슬라이드 쇼 타입 동영상을 일반 동영상으로부터 구별할 수 있으므로, 인터넷 검색 서비스 제공시 슬라이드 쇼 타입 동영상을 제외하고 사용자에게 제공하는 것이 가능하다. 따라서, 인터넷 검색 서비스 제공시 사용자 편의성을 높이고 검색의 정확성을 높일 수 있다.

본 발명의 일 실시예에 의한 동영상분류장치 및 동영상분류방법에 의하면, 동영상 내의 광흐름을 머신러닝을 이용하여 분류하므로, 보다 정확하고 신속한 동영상 분류가 가능하다.

다만, 본 발명의 실시예들에 따른 동영상분류장치 및 동영상분류방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도1은 본 발명의 일 실시예에 의한 동영상분류장치를 나타내는 블록도이다.
도2 내지 도4는 본 발명의 일 실시예에 의한 슬라이드 쇼 타입 동영상을 나타내는 개략도이다.
도5는 본 발명의 일 실시예에 의한 슬라이드 쇼 타입 동영상과 일반 영상의 광흐름을 나타내는 개략도이다.
도6은 본 발명의 일 실시예에 의한 분류모델의 학습을 위한 학습동영상의 레이블링을 나타내는 개략도이다.
도7 및 도8은 본 발명의 일 실시예에 의한 동영상분류장치의 동작을 나타내는 블록도이다.
도9는 본 발명의 일 실시예에 의한 슬라이드 쇼 타입 동영상과 일반 영상의 광흐름 변화패턴을 나타내는 그래프이다.
도10 및 도11은 본 발명의 일 실시예에 의한 동영상분류방법을 나타내는 순서도이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.

또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

슬라이드 쇼 타입 동영상은 한 장의 슬라이드 이미지가 표시된 상태에서 음향이나 나래이션 등이 추가되는 형태로 구현될 수 있으며, 도2에 도시한 바와 같이 복수의 슬라이드 이미지들이 순차적으로 표시되도록 하는 것도 가능하다.

또한, 도3에 도시한 바와 같이, 슬라이드 이미지가 동영상 내에서 일정한 방향으로 이동하거나, 도4에 도시한 바와 같이 슬라이드 이미지를 줌-인(zoom-in)하는 등 슬라이드 이미지에 대한 특수효과를 추가한 경우에도, 슬라이드 쇼 타입 동영상으로 볼 수 있다.

여기서, 슬라이드 이미지에 추가되는 특수효과는 줌-인 이외에, 페이드-인(fade-in), 페이드-아웃(fade-out), 줌-아웃(zoom-out), 슬라이드 이미지에 대한 스티커 부착 등 다양하게 존재할 수 있다.

따라서, 사용자 편의를 위하여, 인터넷 검색 서비스 제공시, 슬라이드 쇼 타입 동영상 등을 제외하거나 검색결과 제공시 후순위로 제공할 필요가 있다. 즉, 슬라이드쇼 타입 동영상들에 대하여 별도의 주석(annotation) 등을 추가하여, 일반 동영상과 슬라이드쇼 타입 동영상들을 구별하여 처리하도록 하는 방안을 고려할 수 있다.

여기서, 본 발명의 일 실시예에 의한 동영상분류장치에 의하면, 슬라이드 쇼 타입 동영상들을 일반 동영상으로부터 구별할 수 있으므로, 이후 구별된 각각의 슬라이드 쇼 타입 동영상들에 대한 주석을 추가하는 것이 가능하다. 이하, 본 발명의 일 실시예에 의한 동영상분류장치를 설명한다.

도1은 본 발명의 일 실시예에 의한 동영상분류장치를 나타내는 블록도이다.

도1을 참조하면, 본 발명의 일 실시예에 의한 동영상분류장치(100)는 프레임 추출부(110), 이동벡터 추출부(120) 및 판별부(130)를 포함할 수 있다.

프레임추출부(110)는 입력받은 대상 동영상(V)으로부터 복수의 프레임을 추출할 수 있다. 프레임추출부(110)는 대상동영상(V) 중에서 특정재생구간을 기준시간간격으로 샘플링하여, 목표개수의 프레임들 추출할 수 있다.

예를들어, 특정재생구간을 대상동영상(V)의 재생시점부터 15초까지로 설정하고, 기준시간간격은 0.3sec로 설정할 수 있다. 이 경우, 50개의 프레임이 추출되므로, 목표개수는 50개에 해당한다. 즉, 대상동영상(V)의 초반 50개의 프레임을 확인하여 대상동영상(V)이 슬라이드 타입 동영상(V1)에 해당하는지 판별할 수 있다. 다만, 특정재생구간의 길이나 기준시간간격 등은 실시예에 따라 다양하게 변경가능하며, 특정재생구간을 대상동영상(V)의 시작시점이외에 임의의 시점으로 설정하는 것도 가능하다.

한편, 실시예에 따라서는 대상동영상(V)의 전체 재생구간의 길이가 특정재생구간의 길이보다 짧은 경우가 있을 수 있다. 예를들어, 특정재생구간의 길이가 15초일 때, 대상동영상(V)의 전체 재생구간의 길이가 15초 미만인 경우에는, 0.3sec의 기준시간간격으로 샘플링하는 경우 목표개수의 프레임들을 추출하지 못하게 된다. 이 경우, 프레임추출부(110)는 대상동영상(V)의 전체 재생구간을 기준시간간격으로 샘플링하여 가능한 최대 개수의 프레임만을 추출하도록 할 수 있다.

이동벡터 추출부(120)는 프레임들 사이의 광흐름(optical flow)를 나타내는 이동벡터를 추출할 수 있다. 여기서, 이동벡터 추출부(120)는 이동벡터 추출을 위해 Lucas-Kanade 기법을 활용할 수 있으며, 이외에도 광흐름을 추출하기 위한 다양한 기법들을 활용할 수 있다.

구체적으로, 도5에 도시한 바와 같이, 프레임에 포함된 객체들의 움직임에 대응한 이동량과 이동방향을 나타내는 이동벡터(A)들이 표시될 수 있다. 여기서, 이동벡터들은 각각의 시점별(t-1, t, t+1)로 추출할 수 있다.

도5(a)에 도시한 바와 같이 슬라이드 쇼 타입 동영상(V1)의 경우, 동일한 시점 내에서의 이동벡터(A)들은 일정한 크기와 방향성을 가지는 것을 확인할 수 있다. 즉, (t) 시점에서의 이동벡터(A)들을 확인하면, 각각 동일한 방향성을 가지며, 크기의 편차도 크지 않음을 확인할 수 있다. 이는 (t-1) 시점과 (t+1) 시점에서도 동일하다. 또한, (t-1) 시점부터 (t+1) 시점으로의 변화에 따라, 이동벡터(A)들이 일정한 방향으로 점차 크기가 증가하는 일정한 패턴을 가지는 것도 확인할 수 있다.

반면에, 도5(b)의 일반 영상(V2)의 경우에는, 동일한 시점 내에서의 이동벡터(A)들은 각자 상이한 크기와 방향성을 가지며, (t-1) 시점부터 (t+1) 시점으로의 변화에 불구하고, 이동벡터(A)들의 변화에는 특별한 패턴이 존재하지 않을 확인할 수 있다.

따라서, 이동벡터 추출부(120)에서 추출한 이동벡터들을 활용하여, 입력받은 대상동영상(V)이 슬라이드 쇼 타입 동영상(V1)인지, 아니면 일반 동영상(V2)인지를 구별하는 것이 가능하다.

구체적으로, 이동벡터 추출부(120)는 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택할 수 있으며, 선택한 두 개의 프레임에 대응하는 시점별로, 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출할 수 있다. 즉, 도7에 도시한 바와 같이, 이동벡터 추출부(120)는 (t-1)시점과 (t) 시점의 프레임을 선택한 후, 이로부터 (t-1) 시점에 해당하는 이동벡터들을 추출할 수 있으며, 이후 (t) 시점과 (t+1) 시점의 프레임을 선택한 후, 이로부터 (t) 시점에 대한 이동벡터들을 추출할 수 있다. 이후, 동일한 방식으로 목표개수의 프레임에 대하여 각각 대응하는 시점별 이동벡터들을 추출할 수 있다.

실시예에 따라서는, 도7에 도시한 바와 같이, 이동벡터 추출부(120)가 각각의 이동벡터를 x축 성분과 y축 성분으로 분리하고, x축 성분들의 표준편차와 y축 성분들의 표준편차를 연산할 수 있다. 예를들어, (t-1) 시점에 생성한 복수의 이동벡터들을 각각 x축 성분과 y축 성분으로 분리하고, x축 성분들의 표준편차와 상기 y축 성분들의 표준편차를 각각 연산할 수 있다. 여기서, 연산한 결과값들이 (t-1) 시점에서의 x축 표준편차(x-std_(t-1))와, y축 표준편차(y-std_(t-1))에 해당한다.

이후, 동일한 방식으로 각 시점별 x축 성분들의 표준편차와 y축 성분들의 표준편차를 연산하여, 각각의 시점에서의 x축 표준편차와 y축 표준편차로 설정할 수 있다. 여기서, 생성된 각각의 시점별 x축 표준편차와 y축 표준편차는 이후 1차원 입력으로 판별부(130)로 제공될 수 있다.

한편, 대상동영상(V)의 전체 재생구간의 길이가 특정재생구간의 길이보다 짧은 경우에는 가능한 최대 개수의 프레임만을 추출하였으므로, 1차원 입력의 개수가 부족할 수 있다. 예를들어, 가능한 최대 개수의 프레임의 수가 20개이고, 목표개수가 30개인 경우, 목표개수에 따른 1차원 입력은 [x-std(i=1~29), y-std(i=1~29)]이므로, 1차원입력은 dim(1, 58) 즉, 총 58개의 디멘션이 입력되어야 한다. 그러나, 실제로는 20개의 프레임만이 생성되었으므로, 그에 대응하는 1차원 입력에는 [x-std(i=1~19), y-std(i=1~19)]가 포함될 수 있다. 즉, 1차원 입력의 디멘션(dimenstion)은 dim(1,38)에 해당하므로, 디멘션 차이를 맞추기 위하여, 이동벡터 추출부(120)는 dim(1,38) 이후의 디멘션에 대해 패딩을 수행할 수 있다. 이 경우, 이동벡터 추출부(120)는 0을 입력하거나, 임의의 랜덤값을 입력하는 등 다양한 방식으로 패딩을 수행할 수 있다.

판별부(130)는 미리 학습된 분류모델(C)에 이동벡터의 정보를 입력하여, 대상동영상(V)이 슬라이드 쇼 타입 동영상(V1)에 해당하는지 판별할 수 있다. 여기서, 슬라이드 쇼 타입 동영상(V1)이 아닌 것으로 판별되면 일반 동영상(V2)으로 분류할 수 있다.

판별부(130)가 입력하는 이동벡터의 정보는, 이동벡터 추출부(120)로부터 제공받은 1차원 입력일 수 있으며, 판별부(130)는 1차원 입력을 분류모델(C)에 입력할 수 있다. 이 경우, 분류모델(C)은 1차원 입력에 포함된 각각의 시점별 x축 표준편차 및 y축 표준편차와, 연속하는 시점들 사이의 x축 표준편차와 y축 표준편차의 변화량을 이용하여, 대상동영상(V)이 슬라이드 쇼 타입 동영상(V1)에 해당하는지 판별할 수 있다.

구체적으로, 도9를 참조하면, 슬라이드 쇼 타입 동영상의 경우 각각의 시점별 x축 표준편차 및 y축 표준편차가 일정한 패턴을 가지면서 변화하지만, 일반 동영상의 경우 일정한 패턴이 없음을 확인할 수 있다. 즉, 분류모델(C)은 x축 표준편차 및 y축 표준편차의 변화패턴을 확인하는 방식으로 슬라이드 쇼 타입 동영상(V1)에 해당하는지를 판별하는 것이 가능하다.

여기서, 분류모델(C)에는, 다양한 종류의 슬라이드 쇼 타입 동영상들의 각각의 시점별 x축 표준편차 및 y축 표준편차와, 연속하는 시점들 사이의 x축 표준편차와 y축 표준편차의 변화량들이 미리 학습되어 있을 수 있다. 따라서, 분류모델(C)은 이미 학습된 슬라이드 쇼 타입 동영상들을 각각의 시점별 x축 표준편차 및 y축 표준편차와, 연속하는 시점들 사이의 x축 표준편차와 y축 표준편차의 변화량을, 입력받은 1차원 입력과 비교하여 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지를 판별할 수 있다.

분류모델(C)은 지도학습(Supervised learing) 기법에 따라 미리 레이블링(labeling)된 복수의 학습동영상들을 DT(Decision Tree), RF(Random Forest), SVM(Support vector machine), DNN(Deep Neural Network) 등의 머신러닝 기법에 따라 학습하여 형성할 수 있다.

구체적으로, 도6에 도시한 바와 같이, 각각의 학습동영상들은 슬라이드쇼 타입 동영상인지 여부와, 슬라이드쇼 타입 동영상인 경우에는 슬라이드 이미지의 개수, 슬라이드 이미지의 이동여부, 특수효과의 포함여부 등을 표시하도록 각각 레이블링(labeling)될 수 있다. 이후, 레이블링된 각각의 학습동영상을 이용하여 분류모델(C)을 학습시킬 수 있다. 실시예에 따라서는, CNN(Convolutioinal Neural Network) 등을 이용하여 생성한 임의의 슬라이드 이미지로, 다양한 종류의 슬라이드 쇼 타입 동영상을 생성한 후, 생성한 슬라이드 쇼 타입 동영상들을 학습시키는 방식으로 분류모델(C)을 생성하는 것도 가능하다.

한편, 도8에 도시한 바와 같이, 본 발명의 다른 실시예에 의한 동영상분류장치(100)는, 이동벡터들을 x축 성분과 y축 성분으로 분리하지 않고, 시간에 따라 변화하는 이동벡터들을 포함하는 3차원 입력을 바탕으로, 해당 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 것도 가능하다.

즉, 이동벡터 추출부(120)는, 이동벡터들을 x축 성분과 y축 성분으로 분리하여 표준편차를 연산하는 대신에, 각각의 시점별 이동벡터들을 취합하여, 시간에 따라 이동벡터들이 변화하는 3차원 입력을 생성할 수 있다.

이후, 판별부(130)는 3차원 입력을 분류모델(C)에 입력할 수 있으며, 분류모델(C)은 시간에 따른 이동벡터들의 변화를 학습된 변화패턴과 비교하여, 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별할 수 있다. 여기서, 분류모델(C)은 지도학습 기법에 따라 미리 레이블링된 복수의 학습동영상들을 3D-ResNet, SlowFast, R(2+1)D 등의 3차원 입력을 처리하는 머신러닝 기법, 특히 콘벌루션(convolution) 계열의 기계학습 모델에 따라 학습하여 미리 생성된 것일 수 있다. 즉, 분류모델(C)은 복수의 학습동영상들의 각 시점별 이동벡터들을 추출하여 형성한 3차원 입력들을 학습할 수 있으며, 이를 통하여 슬라이드 타입 동영상에 대응하는 변화패턴과 일반 동영상의 변화패턴을 구별할 수 있다.

도10 및 도11은 본 발명의 일 실시예에 의한 동영상분류방법을 나타내는 순서도이다. 여기서, 본 발명의 일 실시예에 의한 동영상분류방법은 슬라이드 쇼(slide show) 타입 동영상을 일반 동영상으로부터 구별하는 것으로, 실시예에 따라서는 동영상분류장치에 의하여 각각의 단계가 수행될 수 있다.

슬라이드 쇼 타입 동영상은 한 장 이상의 슬라이드 이미지가 표시되는 동영상으로, 동영상 내에서 슬라이드 이미지가 이동하거나, 슬라이드 이미지에 대한 특수효과가 표시되는 경우에도 슬라이드 쇼 타입 동영상에 해당하는 것으로 판단할 수 있다. 여기서, 특수효과는 슬라이드 이미지에 대한 페이드-인(fade-in), 페이드-아웃(fade-out), 줌-인(zoom-in), 줌-아웃(zoom-out), 스티커 부착 등을 포함할 수 있으며, 이외에도 실시예에 따라 다양하게 추가, 변경될 수 있다.

도10을 참조하면, 본 발명의 일 실시예에 의한 동영상분류방법은, 먼저 입력받은 대상 동영상으로부터 복수의 프레임을 추출할 수 있다(S100). 즉, 대상동영상 중에서 특정재생구간을 기준시간간격으로 샘플링하여, 목표개수의 프레임들 추출할 수 있다. 예를들어, 특정재생구간은 대상동영상의 재생시작시점부터 15초까지의 구간으로 설정하고, 기준시간간격은 0.3sec로 설정할 수 있다. 이 경우, 총 50개의 프레임을 추출하여, 슬라이드 쇼 타입 동영상에 해당하는지 판별하도록 할 수 있다.

실시예에 따라서는, 대상동영상의 전체 재생구간의 길이가 특정재생구간의 길이보다 짧은 경우가 있을 수 있다. 이 경우, 전체 재생구간을 기준시간간격으로 샘플링하여 가능한 최대 개수의 프레임을 추출할 수 있다.

대상동영상으로부터 복수의 프레임을 추출한 이후에는, 프레임들 사이의 광흐름(optical flow)을 나타내는 이동벡터를 추출할 수 있다(S200). 여기서, 이동벡터들은 Lucas-Kanade 기법 등을 활용하여 추출할 수 있으며, 추출한 각각의 이동벡터들은 프레임 내에 포함된 객체들의 움직임에 따른 이동량과 이동방향을 나타낼 수 있다. 따라서, 이동벡터들을 이용하여 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 것이 가능하다.

구체적으로, 도11(a)에 도시한 바와 같이, 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택할 수 있으며(S211), 선택한 두 개의 프레임에 대응하는 시점별로, 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출할 수 있다.

이후, 하나의 시점에서 생성한 복수의 이동벡터들을 각각 x축 성분과 y축 성분으로 분리하고, x축 성분들의 표준편차와 상기 y축 성분들의 표준편차를 연산하여, 해당 시점에서의 x축 표준편차와 y축 표준편차로 설정할 수 있다(S213). 또한, 각각의 시점별로 x축 성분들의 표준편차와 y축 성분들의 표준편차를 동일한 방식으로 연산하여, 각각의 시점에서의 x축 표준편차와 y축 표준편차로 설정할 수 있다(S214).

이동벡터들이 추출된 이후에는, 미리 학습된 분류모델에 이동벡터의 정보를 입력하여, 대상 동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별할 수 있다(S300). 여기서는, 각각의 시점별 x축 표준편차와 y축 표준편차를 분류모델에 입력할 수 있으며, 분류모델은 각각의 시점별 x축 표준편차 및 y축 표준편차와, 연속하는 시점들 사이의 x축 표준편차와 y축 표준편차의 변화량을 이용하여, 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별할 수 있다. 이때, 분류모델은 지도학습(supervised learning) 기법에 따라, 미리 레이블링(labeling)된 복수의 학습동영상들을 DT(Decision Tree), RF(Random Forest), SVM(Support vector machine), DNN(Deep Neural Network) 등의 머신러닝 기법으로 학습하여 형성한 것일 수 있다.

한편, 본 발명의 다른 실시예에 의한 동영상분류방법에 의하면, 이동벡터들을 x축 성분과 y축 성분으로 분리하지 않고, 시간에 따라 변화하는 이동벡터들을 포함하는 3차원 입력을 바탕으로, 해당 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 것도 가능하다. 즉, 도11(b)에 도시한 바와 같이, 이동벡터를 추출하는 단계(S200)에서는 먼저 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택할 수 있으며(S221), 선택한 두 개의 프레임에 대응하는 시점별로, 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출할 수 있다(S222). 이후, 각각의 시점별 이동벡터들을 취합하여, 시간에 따라 상기 이동벡터들이 변화하는 3차원 입력을 생성할 수 있다(S223).

이 경우, 판별하는 단계(S300)에서는, 3차원 입력을 분류모델에 입력할 수 있으며, 분류모델은 시간에 따른 이동벡터들 변화를 학습된 변화패턴과 비교하여, 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별할 수 있다. 이때, 분류모델은 지도학습 기법에 따라 미리 레이블링된 복수의 학습동영상들을 3D-ResNet, SlowFast, R(2+1)D 등의 3차원 입력을 처리하는 머신러닝 기법에 따라 학습하여 미리 생성된 것일 수 있다. 즉, 분류모델은 복수의 학습동영상들의 각 시점별 이동벡터들을 추출하여 형성한 3차원 입력들을 학습할 수 있으며, 이를 통하여 슬라이드 타입 동영상에 대응하는 변화패턴과 일반 동영상의 변화패턴을 구별할 수 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.

100: 동영상분류장치 110: 프레임추출부
120: 이동벡터 추출부 130: 판별부

Claims

슬라이드 쇼(slide show) 타입 동영상을 구별하는 동영상분류방법에 있어서,
입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 단계;
상기 프레임들 사이의 광흐름(optical flow)을 나타내는 이동벡터를 추출하는 단계; 및
미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 대상 동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 단계를 포함하는 것으로,
상기 이동벡터를 추출하는 단계는
상기 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택하는 단계;
상기 선택한 두 개의 프레임에 대응하는 시점별로, 상기 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출하는 단계; 및
각각의 시점별 이동벡터들을 취합하여, 시간에 따라 상기 이동벡터들이 변화하는 3차원 입력을 생성하는 단계를 포함하는 것을 특징으로 하는 동영상분류방법.
제1항에 있어서, 상기 슬라이드 쇼 타입 동영상은
한 장 이상의 슬라이드 이미지가 표시되는 동영상으로, 상기 동영상 내에서 상기 슬라이드 이미지가 이동하거나, 상기 슬라이드 이미지에 대한 특수효과가 표시되는 것을 특징으로 하는 동영상분류방법.
제2항에 있어서, 상기 특수효과는
상기 슬라이드 이미지에 대한 페이드 인(fade-in), 페이드 아웃(fade-out), 줌인(zoom-in), 줌아웃(zoom-out) 및 스티커 부착 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 동영상분류방법.
제1항에 있어서, 상기 프레임을 추출하는 단계는
상기 대상동영상 중에서 특정재생구간을 기준시간간격으로 샘플링하여, 목표개수의 프레임들 추출하는 것을 특징으로 하는 동영상분류방법.
삭제
삭제
삭제
삭제
삭제
제1항에 있어서, 상기 판별하는 단계는
상기 3차원 입력을 상기 분류모델에 입력하고, 상기 분류모델은 시간에 따른 상기 이동벡터들의 변화가 학습된 변화패턴과 비교하여, 상기 대상동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 것을 특징으로 하는 동영상분류방법.
제10항에 있어서, 상기 분류모델은
지도학습 기법에 따라 미리 레이블링(labeling)된 복수의 동영상들을 3D-ResNet, SlowFast, R(2+1)D 중 적어도 어느 하나의 3차원 입력을 처리하는 머신러닝 기법에 따라 학습하여 형성한 것을 특징으로 한 동영상분류방법.
하드웨어와 결합되어, 제1항 내지 제4항, 제10항 및 제11항 중 어느 한 항의 동영상분류방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
슬라이드 쇼(slide show) 타입 동영상을 구별하는 동영상분류장치에 있어서,
입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 프레임추출부;
상기 프레임들 사이의 광흐름(optical flow)를 나타내는 이동벡터를 추출하는 이동벡터 추출부; 및
미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 대상동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 판별부를 포함하는 것으로,
상기 이동벡터 추출부는
상기 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택하고, 상기 선택한 두 개의 프레임에 대응하는 시점별로, 상기 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출한 후, 각각의 시점별 이동벡터들을 취합하여, 시간에 따라 상기 이동벡터들이 변화하는 3차원 입력을 생성하는 것을 특징으로 하는 동영상분류장치.