KR102633528B1

KR102633528B1 - 영상 데이터를 기초로 장면 데이터 생성 방법 및 이를 실행하는 장치

Info

Publication number: KR102633528B1
Application number: KR1020220140189A
Authority: KR
Inventors: 권석면; 김유석
Original assignee: 주식회사 일만백만
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2024-02-05
Also published as: KR20240059602A; WO2024091085A1

Abstract

본 발명의 일 실시예에 따른 장면 데이터 생성 장치에서 실행되는 영상 데이터를 기초로 장면 데이터 생성 방법은 영상 데이터로부터 이미지로 디코딩한 후 재생 시간 간격으로 이미지를 샘플링하는 단계, 상기 샘플링된 이미지 각각에서 특징 정보를 추출하고, 상기 이미지 각각에서 추출되는 특징 정보를 이용하여 장면이 변환되는지 여부를 판단하는 단계 및 상기 판단 결과 장면이 변환되었다고 판단되면 상기 장면이 변환된 시점을 기준으로 참조 장면 데이터를 생성하는 단계를 포함한다.

Description

영상 데이터를 기초로 장면 데이터 생성 방법 및 이를 실행하는 장치{SCENE DATA GENERATION METHOD BASED ON VIDEO DATA AND APPARATUS PERFORMING THEREOF}

본 발명은 영상 데이터를 기초로 장면 데이터 생성 방법 및 이를 실행하는 장치에 관한 것으로, 보다 구체적으로 영상 데이터의 장면 전환 시점을 파악하여 해당 시점을 기준으로 영상 데이터를 분할하여 장면 데이터를 생성할 수 있는 영상 데이터를 기초로 장면 데이터 생성 방법 및 이를 실행하는 장치에 관한 것이다.

광고주가 인터넷에서 광고를 하려면 동영상 광고, 배너 광고, 플래시 광고 등을 별도로 제작해야만 한다. 광고를 제작하는 데에는 시간과 비용이 많이 든다.

다량의 상품을 보유한 광고주(예 : 대기업, TV 홈쇼핑, 온라인 쇼핑몰 등)는 일부 대표 상품에 한정하여 광고를 제작한다. 또는 각각의 상품 광고를 제작하는데 비용이 많이 들기 때문에 특정 상품에 국한되지 않는 회원 가입 광고, 브랜드 홍보 광고, 할인 광고 등을 제작한다.

특히, 온라인 광고의 경우 시청 대상이 되는 인터넷 사용자들이 다양하고, 각종 프로모션의 조건이 시시각각으로 변하기 때문에 별도로 개별 상품의 온라인 광고를 제작하는데 어려움이 있다.

예를 들면, 오늘의 신상품, 오늘 마감 상품, 타임 특가 상품 등의 경우 프로모션의 조건이 시간의 제약을 받고 있어서 해당 상품의 광고를 제작하는데 어려움이 있다.

본 발명은 영상 데이터의 장면 전환 시점을 파악하여 해당 시점을 기준으로 영상 데이터를 분할하여 장면 데이터를 생성할 수 있는 영상 데이터를 기초로 장면 데이터 생성 방법 및 이를 실행하는 장치를 제공하는 것을 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

이러한 목적을 달성하기 위한 장면 데이터 생성 장치에서 실행되는 영상 데이터를 기초로 장면 데이터 생성 방법은 영상 데이터로부터 이미지로 디코딩한 후 재생 시간 간격으로 이미지를 샘플링하는 단계, 상기 샘플링된 이미지 각각에서 특징 정보를 추출하고, 상기 이미지 각각에서 추출되는 특징 정보를 이용하여 장면이 변환되는지 여부를 판단하는 단계 및 상기 판단 결과 장면이 변환되었다고 판단되면 상기 장면이 변환된 시점을 기준으로 참조 장면 데이터를 생성하는 단계를 포함한다.

또한 이러한 목적을 달성하기 위한 영상 데이터를 기초로 장면 데이터 생성하는 장면 데이터 생성 장치는 영상 데이터로부터 이미지로 디코딩한 후 재생 시간 간격으로 이미지를 샘플링하는 이미지 샘플링부, 상기 샘플링된 이미지 각각에서 특징 정보를 추출하고, 상기 이미지 각각에서 추출되는 특징 정보를 이용하여 장면이 변환되는지 여부를 판단하는 장면 변환 판단부 및 상기 판단 결과 장면이 변환되었다고 판단되면 상기 장면이 변환된 시점을 기준으로 참조 장면 데이터를 생성하는 참조 장면 데이터 생성부를 포함한다.

전술한 바와 같은 본 발명에 의하면, 영상 데이터를 장면 단위로 분할하여 참조 영상 데이터를 생성한 후 태그를 할당함으로써 추후에 장면 데이터 생성 장치로부터 키워드가 수신되면 키워드에 해당하는 태그가 할당된 참조 영상 데이터를 추천함으로써 동영상을 자동으로 생성할 수 있다는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 동영상 자동 생성 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 장면 데이터 생성 장치의 내부 구조를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 참조 영상 데이터 추천 장치의 내부 구조를 설명하기 위한 도면이다.
도 4 내지 7은 본 발명의 일 실시예에 따른 장면 데이터 생성 장치를 설명하기 위한 도면이다.
도 8은 본 발명에 따른 영상 데이터를 기초로 장면 데이터 생성 방법의 일 실시예를 설명하기 위한 흐름도이다.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.

도 1은 본 발명의 일 실시예에 따른 동영상 자동 생성 시스템을 설명하기 위한 도면이다.

도 1을 참조하면, 동영상 자동 생성 시스템은 장면 데이터 생성 장치(200), 참조 영상 데이터 추천 장치(300), 고객 단말(400_1~400_N) 및 사용자 단말(500_1~500_N)을 포함한다.

장면 데이터 생성 장치(200)는 고객의 요청에 따라 영상을 자동으로 생성한다. 이러한 영상은 광고 영상 등을 포함할 수 있다.

먼저, 장면 데이터 생성 장치(200)는 고객 단말(400_1~400_N)로부터 수신된 영상 생성 참조 정보를 이용하여 스크립트를 생성한다.

일 실시예에서, 장면 데이터 생성 장치(200)는 고객 단말(400_1~400_N)로부터 수신된 영상 생성 참조 정보가 단어 단위의 키워드인 경우 미리 생성된 스크립트 데이터베이스에서 키워드에 해당하는 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성 및 오브젝트와 매칭되는 장면의 상황 속성을 이용하여 스크립트를 생성할 수 있다.

상기의 실시예에서, 장면 데이터 생성 장치(200)는 키워드에 해당하는 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성 및 오브젝트와 매칭되는 장면의 상황 속성 중 고객과 관련된 컨텐츠를 이용한 사용자의 행동 정보를 기초로 결정된 속성과 매칭하는 텍스트를 이용하여 스크립트를 생성할 수 있다.

그 후, 장면 데이터 생성 장치(200)는 상기 스크립트를 기초로 기준 장면 데이터로 구성된 시나리오를 생성한 후 상기 스크립트에서 키워드를 추출한다.

보다 구체적으로, 장면 데이터 생성 장치(200)는 기준 장면 데이터의 스크립트의 텍스트를 공백을 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정한다.

그런 다음, 장면 데이터 생성 장치(200)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한다.

예를 들어, 장면 데이터 생성 장치(200)는 스크립트의 텍스트를 분석하여 (빈도 수: 1000번, (단어, 형태소 값)), (빈도 수: 234번, (단어, 형태소)), (빈도수: 2541번, (단어, 형태소)), (빈도수: 2516번, (단어, 형태소)) … 등의 토큰을 생성할 수 있다.

상기와 같이 장면 데이터 생성 장치(200)는 토큰을 생성한 후 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여한다.

일 실시예에서, 장면 데이터 생성 장치(200)는 토큰 각각에 대해서 해당 토큰의 단어를 구현하는 언어의 종류(즉, 영어, 중국어, 한국어 등), 단어가 스크립트의 텍스트에서 존재하는 위치 및 토큰에 할당된 레이블의 빈도 수에 따라 서로 다른 가중치를 부여한다.

먼저, 장면 데이터 생성 장치(200)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수 및 각각의 토큰의 순서를 이용하여 제1 가중치를 산출한다.

일 실시예에서, 장면 데이터 생성 장치(200)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수를 기준으로 토큰의 순서가 어느 정도인지 여부 및 언어의 종류에 따라 미리 결정된 중요 값에 제1 가중치를 산출할 수 있다.

예를 들어, 장면 데이터 생성 장치(200)는 전체 토큰의 개수가 12개 이고 토큰의 순서가 4번째인 경우, “0.25”를 산출하고, 언어의 종류에 따라 미리 결정된 중요 값을 반영하여 제1 가중치를 산출할 수 있다.

이때, 언어의 종류에 따라 미리 결정된 중요 값은 언어의 종류 별로 중요한 단어가 어느 위치에 나타내는지 여부에 따라 변경될 수 있다. 즉, 언어의 종류에 따라 미리 결정된 중요 값은 현재 토큰의 번호에 따라 변경될 수 있다

다른 일 실시예에서, 장면 데이터 생성 장치(200)는 스크립트의 텍스트에서 생성된 토큰 각각에 대해서 토큰에 미리 할당된 레이블이 지시하는 빈도 수와 이전 토큰 및 다음 토큰 각각에 미리 할당된 레이블이 지시하는 빈도 수를 이용하여 제2 가중치를 산출할 수 있다.

그 후, 장면 데이터 생성 장치(200)는 제1 가중치 및 제2 가중치를 이용하여 최종 가중치를 부여한다. 상기와 같이, 장면 데이터 생성 장치(200)는 제1 가중치 및 제2 가중치를 이용하여 최종 가중치를 부여한다.

장면 데이터 생성 장치(200)는 서로 다른 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 영상 데이터 추천 요청 메시지를 참조 영상 데이터 추천 장치(300)에 제공하고, 참조 영상 데이터 추천 장치(300)로부터 참조 영상 데이터를 수신한다.

그 후, 장면 데이터 생성 장치(200)는 추출된 참조 장면 데이터 및 미리생성된 환경 데이터를 합성하여 영상 데이터를 생성한다.

이를 위해, 장면 데이터 생성 장치(200)는 시나리오에 따라 음향 데이터를 선택하고, 상기 시나리오에 해당하는 텍스트 데이터를 음성 데이터로 변환하고, 상기 시나리오에 따라 AI 배우를 생성할 수 있다.

참조 영상 데이터 추천 장치(300)는 고객의 요청에 따라 동영상을 자동으로 생성하기 위해서 영상 데이터를 수집한 후 영상 데이터를 장면 단위로 분할하여 참조 장면 데이터를 생성하고, 참조 장면 데이터 각각에 태그를 할당한 후 참조 장면 데이터베이스에 저장한다.

먼저, 참조 영상 데이터 추천 장치(300)는 영상 데이터를 수집한 후 영상 데이터를 장면 단위로 분할하여 참조 장면 데이터를 생성한다.

일 실시예에서, 참조 영상 데이터 추천 장치(300)는 영상 데이터로부터 이미지로 디코딩한 후 재생 시간 간격으로 이미지를 샘플링할 수 있다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 샘플링된 이미지 중 서로 인접한 이미지의 유사도에 기초하여 샘플링된 이미지를 장면 단위로 그룹핑하여 참조 장면 데이터를 생성할 수 있다. 여기에서, 인접한 이미지는 샘플링된 이미지를 영상이 재생되는 시간 순서대로 나열하였을 때 이웃하는 이미지를 의미할 수 있다.

예를 들어, 참조 영상 데이터 추천 장치(300)는 인접한 이미지에 대하여 피쳐 매칭(Feature Matching)을 수행하여 이미지의 유사도를 연산할 수 있다. 가령, 장면 데이터 생성 장치(200)는 인접한 이미지의 특징점을 대조하여 소정 정도 이상의 유사도를 보이는 이미지를 하나의 장면 데이터로 그룹핑하여 참조 장면 데이터를 생성할 수 있다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 샘플링된 이미지 각각에서 추출되는 오브젝트의 개수 변화를 산출하고, 오브젝트의 개수 변화에 따라 장면이 전환되었다고 판단하여 해당 시점을 기준으로 참조 장면 데이터를 생성할 수 있다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 샘플링된 이미지에 대해서 동일한 픽셀의 픽셀 값 변화를 이용하여 배경 이미지가 변화하였는지 여부를 판단하고, 판단 결과에 따라 장면이 전환되었다고 판단하여 해당 시점을 기준으로 참조 장면 데이터를 생성할 수 있다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 영상 데이터를 구성하는 음성 데이터 및 자막 데이터를 기초로 새로운 내용이 표시되는 시점을 새로운 장면이라고 판단하여 참조 장면 데이터를 생성할 수 있다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 샘플링된 이미지 각각에서 추출되는 오브젝트를 추출하고, 오브젝트가 사라졌거나 새로운 오브젝트가 나타나면 새로운 장면이라고 판단하여 참조 장면 데이터를 생성할 수 있다.

또한, 참조 영상 데이터 추천 장치(300)는 참조 장면 데이터를 분석하여 참조 장면 데이터 각각에 태그를 할당한다.

이를 위해, 참조 영상 데이터 추천 장치(300)는 참조 장면 데이터의 특징을 추출하여 참조 장면 데이터의 특징 정보를 추출하고 특정 정보에 따라 서로 다른 종류의 태그를 할당한다.

일 실시예에서, 참조 영상 데이터 추천 장치(300)는 참조 장면 데이터에 포함된 오브젝트의 특징 정보를 추출하고, 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 생성하고, 오브젝트의 특징 정보에 따라 오브젝트 속성 태그를 할당한다.

보다 구체적으로, 참조 영상 데이터 추천 장치(300)는 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 여기에서, 특징 영역이란, 오브젝트들 사이의 동일 유사 여부를 판단하기 위한 오브젝트의 특징에 대한 기술자, 즉 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다.

본 발명의 실시예에 따르면 이러한 특징 영역은 오브젝트가 포함하고 있는 윤곽선, 윤곽선 중에서도 코너 등의 모퉁이, 주변 영역과 구분되는 블롭(blob), 참조 장면 데이터의 변형에 따라 불변하거나 공변하는 영역, 또는 주변 밝기보다 어둡거나 밝은 특징이 있는 극점일 수 있으며 참조 장면 데이터의 패치(조각) 또는 참조 장면 데이터 전체를 대상으로 할 수 있다.

다른 일 실시예에서, 참조 영상 데이터 추천 장치(300)는 참조 장면 데이터의 특징 영역에서 특징 기술자를 추출(Descriptor Extraction)하고, 특징 기술자에 따라 참조 장면 데이터에서 화면 속성 태그를 할당할 수 있다. 특징 기술자는 참조 장면 데이터의 특징들을 벡터 값으로 표현한 것이다.

상기의 이러한 특징 기술자는 참조 장면 데이터에 대한 특징 영역의 위치, 또는 특징 영역의 밝기, 색상, 선명도, 그라디언트, 스케일 또는 패턴 정보를 이용하여 계산할 수 있다. 예를 들어 특징 기술자는 특징 영역의 밝기 값, 밝기의 변화 값 또는 분포 값 등을 벡터로 변환하여 계산할 수도 있다.

한편, 본 발명의 실시예에 따르면 참조 장면 데이터에 대한 특징 기술자는 위와 같이 특징 영역에 기반한 지역 기술자(Local Descriptor) 뿐 아니라, 전역 기술자(Global descriptor), 빈도 기술자(Frequency Descriptor), 바이너리 기술자(Binary Descriptor) 또는 신경망 기술자(Neural Network descriptor)로 표현될 수 있다.

보다 구체적으로, 특징 기술자는 참조 장면 데이터의 전체 또는 참조 장면 데이터를 임의의 기준으로 분할한 구역 각각, 또는 특징 영역 각각의 밝기, 색상, 선명도, 그라디언트, 스케일, 패턴 정보 등을 벡터값으로 변환하여 추출하는 전역 기술자(Global descriptor)를 포함할 수 있다.

예를 들어, 특징 기술자는 미리 구분한 특정 기술자들이 참조 장면 데이터에 포함되는 횟수, 종래 정의된 색상표와 같은 전역적 특징의 포함 횟수 등을 벡터값으로 변환하여 추출하는 빈도 기술자 (Frequency Descriptor), 각 기술자들의 포함 여부 또는 기술자를 구성하는 각 요소 값들의 크기가 특정값 보다 크거나 작은지 여부를 비트 단위로 추출한 뒤 이를 정수형으로 변환하여 사용하는 바이너리 기술자 (Binary descriptor), 신경망(Neural Network)의 레이어에서 학습 또는 분류를 위해 사용되는 영상 정보를 추출하는 신경망 기술자(Neural Network descriptor)를 포함할 수 있다.

또 다른 일 실시예에서, 참조 영상 데이터 추천 장치(300)는 참조 장면 데이터를 장면 종류 분석 모델에 학습시켜 장면에서 표현되는 상황의 종류를 추출하고, 상황의 종류에 따라 상황 속성 태그를 할당한다. 이때, 장면 종류는 각 장면에서 표현되는 상황의 종류를 의미한다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 장면 종류 분석 모델을 CNN 딥 러닝 모델(CNN Deep Learning Model)로 구축하고, 상술한 데이터 셋을 학습할 수 있다. 이때, CNN 딥 러닝 모델은 두 개의 컨볼루션 레이어, 렐루 레이어, 맥스 풀링 레이어 및 하나의 풀리 커넥티드 레이어를 포함하도록 설계될 수 있다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 RCNN 기법을 활용하여 CNN에서 산출된 컨볼루션 피쳐 맵(Convolution Feature Maps)의 맵 순서대로 피쳐 시퀀스(Feature Sequence)를 구성한 후, 각 피쳐 시퀀스를 롱 숏 텀 메모리 네트워크(LSTM; Long Short Term Memory networks)에 대입하여 학습할 수 있다.

또 다른 일 실시예에서, 참조 영상 데이터 추천 장치(300)는 영상 데이터에서 하이라이트 부분을 추출하고, 하이라이트 부분에 해당하는 참조 장면 데이터에 하이라이트 속성 태그를 할당한다. 이때, 하이라이트 부분은 영상 데이터에서 추출된 일부 구간을 의미할 수 있고, 이는 영상 데이터가 직접 지정한 구간이거나 혹은 자동 추출되는 구간일 수 있다.

그 후, 참조 영상 데이터 추천 장치(300)는 서로 다른 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 영상 데이터 추천 요청 메시지를 수신하면, 참조 영상 데이터 추천 요청 메시지를 기초로 참조 장면 데이터베이스(330)에서 참조 장면 데이터를 추출하여 장면 데이터 생성 장치(200)에 제공한다.

먼저, 참조 영상 데이터 추천 장치(300)는 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그를 비교하여 유사 점수를 산출하고, 유사 점수가 특정 점수 이상인 태그가 할당된 참조 장면 데이터를 참조 장면 데이터베이스(330)에서 추출한다.

일 실시예에서, 참조 영상 데이터 추천 장치(300)는 참조 장면 데이터베이스(330)에서 추출된 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그가 할당된 참조 장면 데이터를 추출하고, 추출된 참조 장면 데이터의 태그 및 상기 토큰의 단어를 매칭시켜 일치하면 해당 참조 장면 데이터를 추출하여 제공한다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 토큰의 형태소 값이 명사인 경우 참조 장면 데이터베이스(330)에 추출된 참조 장면 데이터의 복수의 태그 중 오브젝트 속성 태그 및 토큰의 단어를 매칭시켜 일치하면 해당 참조 장면 데이터를 추출하여 제공한다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 토큰의 형태소 값이 형용사인 경우 참조 장면 데이터베이스(330)에 추출된 참조 장면 데이터의 복수의 태그 중 화면 속성 태그 및 상황 속성 태그와 토큰의 단어를 매칭시켜 일치하면 해당 참조 장면 데이터를 추출하여 제공한다.

다른 일 실시예에서, 참조 영상 데이터 추천 장치(300)는 참조 장면 데이터베이스(330)에서 추출된 참조 장면 데이터의 복수의 태그 중 토큰의 형태소 값과 매칭되지 않은 태그가 할당된 상기 참조 장면 데이터에 대해서, 참조 장면 데이터의 복수의 태그 상기 토큰의 단어를 매칭시켜 유사 비율을 산출하고, 유사 비율이 특정 점수 이상인 태그가 할당된 참조 영상 데이터를 추출하여 제공할 수 있다.

상기의 실시예에서, 참조 영상 데이터 추천 장치(300)는 참조 장면 데이터의 복수의 태그 및 상기 토큰의 단어 각각을 구성하는 문자를 매칭시켜 일치하는 문자의 개수를 산출하고, 복수의 태그에 해당하는 스트링 수 및 상기 토큰의 단어에 해당하는 스트링 수를 비교하여 더 긴 스트링 수를 기준으로 상기 일치하는 문자의 개수의 비율에 따라 상기 유사 비율을 산출하고, 상기 유사 비율이 특정 점수 이상인 태그가 할당된 참조 영상 데이터를 추출하여 제공할 수 있다.

고객 단말(400_1~400_N)은 웹 서비스 제공 서버에 접속하기 위한 어플리케이션이 설치되어 있다. 따라서, 고객 단말(400_1~400_N)은 어플리케이션이 선택되어 실행되면, 어플리케이션을 통해 해당 장면 데이터 생성 장치(200)에 접속할 수 있다. 고객 단말(400_1~400_N)은 장면 데이터 생성 장치(200)에 영상 생성 참조 정보를 제공하여 영상의 자동 생성을 요청한다.

사용자 단말(500_1~500_N)은 웹 서비스 제공 서버(200)에 접속하기 위한 어플리케이션이 설치되어 있다. 따라서, 사용자 단말(500_1~500_N)은 어플리케이션이 선택되어 실행되면, 어플리케이션을 통해 해당 웹 서비스 제공 서버에 접속할 수 있다.

사용자 단말(500_1~500_N)은 어플리케이션을 통해 웹 서비스 제공 서버(200)에서 제공되는 웹 페이지를 표시할 수 있다. 이때, 웹 페이지는 사용자의 스크롤에 따라 화면에 즉시 표시될 수 있도록 전자장치에 로딩된 화면 및/또는 상기 화면 내부의 컨텐츠 등을 포함한다.

예를 들어, 사용자 단말(500_1~500_N)의 어플리케이션 상에서 웹 페이지가 표시된 상태에서 수평 또는 수직 방향으로 길게 연장되어 사용자의 스크롤에 따라 표시되는 어플리케이션의 실행 화면 전체가 상기 웹 페이지의 개념에 포함될 수 있으며, 카메라 롤 중인 화면 역시 상기 웹 페이지의 개념에 포함될 수 있다.

또한, 사용자 단말(500_1~500_N)에는 사용자 관심사 분석을 위한 어플리케이션(예를 들어, 소프트웨어, 신경망 모델 등)이 설치되어 있다. 따라서, 사용자 단말(500_1~500_N)은 로그 기록 또는 인게이지먼트 기록을 수집한 후, 사용자 관심사 분석을 위한 어플리케이션를 통해 로그 기록 또는 인게이지먼트 기록을 분석하여 사용자의 취향을 결정할 수 있다.

일 실시예에서, 사용자 단말(500_1~500_N)은 로그 기록 또는 인게이지먼트 기록을 분석하여 사용자의 행동 정보를 추출하고, 사용자의 행동 정보로부터 컨텐츠의 종류를 결정하기 위한 레이블을 추출할 수 있다.

다른 일 실시예에서, 사용자 단말(500_1~500_N)은 크롤러, 파서, 인덱서를 구비하여, 사용자가 열람하는 웹 페이지를 수집하고, 웹 페이지에 포함된 이미지 및 아이템명, 가격 등 텍스트 정보에 접근하여 컨텐츠의 종류를 결정하기 위한 레이블을 추출할 수 있다.

예를 들어, 크롤러는 사용자가 열람하는 웹 주소 목록을 수집하고, 웹사이트를 확인하여 링크를 추적하는 방식으로 아이템 정보와 관련된 데이터를 수집한다. 이때, 파서는 크롤링 과정 중에 수집된 웹 페이지를 해석하여 페이지에 포함된 이미지, 아이템 가격, 아이템명 등 아이템 정보를 추출하며, 인덱서는 해당 위치와 의미를 색인할 수 있다.

상기 컨텐츠의 종류를 결정하기 위한 레이블은 사용자 행동 정보에 포함되는 사용자가 열람한 컨텐츠(예를 들어, 웹 브라우저), 좋아요 태그를 생성한 컨텐츠(예를 들어, 소셜 네트워크)의 이미지, 사용자가 열람한 홈페이지의 이미지 및 텍스트를 기초로 해당 아이템의 의미를 의미한다.

사용자 단말(500_1~500_N)에는 사용자 열람 기록이 저장되어 있다. 사용자 열람 기록은 로그 기록 및 인게이지먼트 기록을 포함한다. 이때, 로그 기록은 사용자가 사용자 단말(500_1~500_N)의 운영 체제 또는 소프트웨어가 실행 중에 발생하는 이벤트를 기록하여 생성된다.

사용자 단말(500_1~500_N)에는 사용자 열람 기록을 기초로 추출된 컨텐츠의 종류를 결정하기 위한 레이블이 저장되어 있다. 상기 컨텐츠의 종류를 결정하기 위한 레이블은 사용자 행동 정보에 포함되는 사용자가 열람한 컨텐츠(예를 들어, 웹 브라우저), 좋아요 태그를 생성한 컨텐츠(예를 들어, 소셜 네트워크)의 이미지, 사용자가 열람한 홈페이지의 이미지 및 텍스트를 기초로 해당 아이템의 의미를 의미한다.

웹 서비스 제공 서버는 사용자 단말(500_1~500_N)이 어플리케이션을 통해 접속하면 어플리케이션의 종류에 따라 서로 다른 컨텐츠를 제공하는 서버이다. 이러한 웹 서비스 제공 서버(300_1~300_N)는 온라인 쇼핑몰 서버, 검색 엔진 서버 등으로 구현될 수 있다.

도 2는 본 발명의 일 실시예에 따른 장면 데이터 생성 장치의 내부 구조를 설명하기 위한 도면이다.

도 2를 참조하면, 장면 데이터 생성 장치(200)는 스크립트 생성부(210), 시나리오 생성부(220), 키워드 추출부(230), 참조 장면 데이터 송수신부(240), 환경 데이터 생성부(250) 및 영상 합성부(260)를 포함한다.

스크립트 생성부(210)는 고객 단말(400_1~400_N)로부터 수신된 영상 생성 참조 정보가 단어 단위의 키워드인 경우 미리 생성된 스크립트 데이터베이스에서 키워드에 해당하는 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성 및 오브젝트와 매칭되는 장면의 상황 속성을 이용하여 스크립트를 생성할 수 있다.

상기의 실시예에서, 스크립트 생성부(210)는 키워드에 해당하는 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성 및 오브젝트와 매칭되는 장면의 상황 속성 중 고객과 관련된 컨텐츠를 이용한 사용자의 행동 정보를 기초로 결정된 속성과 매칭하는 텍스트를 이용하여 스크립트를 생성할 수 있다.

시나리오 생성부(220)는 스크립트 생성부(210)에 의해 생성된 스크립트를 기초로 시나리오를 생성한다. 이때, 시나리오는 음향 효과, 분위기 등을 포함할 수 있다.

키워드 추출부(230)는 스크립트 생성부(210)에서 생성된 스크립트에서 키워드를 추출한다.

보다 구체적으로, 키워드 추출부(230)는 기준 장면 데이터의 스크립트의 텍스트를 공백을 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정한다.

그 후, 키워드 추출부(230)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한다.

예를 들어, 키워드 추출부(230)는 스크립트의 텍스트를 분석하여 (빈도 수: 1000번, (단어, 형태소 값)), (빈도 수: 234번, (단어, 형태소)), (빈도수: 2541번, (단어, 형태소)), (빈도수: 2516번, (단어, 형태소)) … 등의 토큰을 생성할 수 있다.

상기와 같이, 키워드 추출부(230)는 토큰을 생성한 후 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여한다.

일 실시예에서, 키워드 추출부(230)는 토큰 각각에 대해서 해당 토큰의 단어를 구현하는 언어의 종류(즉, 영어, 중국어, 한국어 등), 단어가 스크립트의 텍스트에서 존재하는 위치 및 토큰에 할당된 레이블의 빈도 수에 따라 서로 다른 가중치를 부여한다.

먼저, 키워드 추출부(230)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수 및 각각의 토큰의 순서를 이용하여 제1 가중치를 산출한다.

일 실시예에서, 키워드 추출부(230)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수를 기준으로 토큰의 순서가 어느 정도인지 여부 및 언어의 종류에 따라 미리 결정된 중요 값에 제1 가중치를 산출할 수 있다.

예를 들어, 키워드 추출부(230)는 전체 토큰의 개수가 12개 이고 토큰의 순서가 4번째인 경우, “0.25”를 산출하고, 언어의 종류에 따라 미리 결정된 중요 값을 반영하여 제1 가중치를 산출할 수 있다.

다른 일 실시예에서, 키워드 추출부(230)는 스크립트의 텍스트에서 생성된 토큰 각각에 대해서 토큰에 미리 할당된 레이블이 지시하는 빈도 수와 이전 토큰 및 다음 토큰 각각에 미리 할당된 레이블이 지시하는 빈도 수를 이용하여 제2 가중치를 산출할 수 있다.

그 후, 키워드 추출부(230)는 제1 가중치 및 제2 가중치를 이용하여 최종 가중치를 부여한다. 상기와 같이, 키워드 추출부(230)는 제1 가중치 및 제2 가중치를 이용하여 최종 가중치를 부여한다.

참조 장면 데이터 송수신부(240)는 서로 다른 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 영상 데이터 추천 요청 메시지를 참조 영상 데이터 추천 장치(300)에 제공하고, 참조 영상 데이터 추천 장치(300)로부터 참조 영상 데이터를 수신한다.

환경 데이터 생성부(250)는 시나리오에 따라 음향 데이터를 선택하고, 상기 시나리오에 해당하는 텍스트 데이터를 음성 데이터로 변환하고, 상기 시나리오에 따라 AI 배우를 생성할 수 있다.

영상 합성부(260)는 참조 장면 데이터 송수신부(240)에서 수신된 참조 장면 데이터 및 환경 데이터 생성부(250)에서 생성된 환경 데이터를 합성하여 영상 데이터를 생성한다.

도 3은 본 발명의 일 실시예에 따른 참조 영상 데이터 추천 장치의 내부 구조를 설명하기 위한 도면이다.

도 3을 참조하면, 참조 영상 데이터 추천 장치(300)는 영상 데이터를 수집한 후 영상 데이터를 장면 단위로 분할하여 참조 장면 데이터를 생성하고, 참조 장면 데이터 각각에 태그를 할당한 후 참조 장면 데이터베이스(330)에 저장한다. 참조 영상 데이터 추천 장치(300)는 이미지 샘플링부(303), 장면 변환 판단부(305), 참조 장면 데이터 생성부(310), 태그 할당부(320), 참조 장면 데이터베이스(330) 및 참조 영상 데이터 추천부(340)를 포함한다.

이미지 샘플링부(303)는 영상 데이터로부터 이미지로 디코딩한 후 재생 시간 간격으로 이미지를 샘플링할 수 있다.

일 실시예에서, 이미지 샘플링부(303)는 샘플링된 이미지 중 서로 인접한 이미지의 유사도에 기초하여 샘플링된 이미지를 장면 단위로 그룹핑하여 참조 장면 데이터를 생성할 수 있다. 여기에서, 인접한 이미지는 샘플링된 이미지를 영상이 재생되는 시간 순서대로 나열하였을 때 이웃하는 이미지를 의미할 수 있다.

장면 변환 판단부(305)는 샘플링된 이미지 각각에서 특징 정보를 추출하고, 상기 이미지 각각에서 추출되는 특징 정보를 이용하여 장면이 변환되는지 여부를 판단한다.

일 실시예에서, 장면 변환 판단부(305)는 인접한 이미지에 대하여 피쳐 매칭(Feature Matching)을 수행하여 이미지의 유사도를 연산하고, 연산 결과에 따라 장면이 변환되는지 여부를 판단한다. 즉, 장면 변환 판단부(305)는 인접한 이미지의 특징점을 대조하여 소정 정도 이상의 유사도를 보이는지 여부에 따라 장면이 변환되는지 여부를 판단한다.

다른 일 실시예에서, 장면 변환 판단부(305)는 샘플링된 이미지 각각에서 추출되는 오브젝트의 개수 변화를 산출하고, 오브젝트의 개수 변화에 따라 장면이 전환되었다고 판단할 수 있다.

또 다른 일 실시예에서, 장면 변환 판단부(305)는 영상 데이터를 구성하는 음성 데이터 및 자막 데이터를 기초로 새로운 내용이 표시되는 시점을 새로운 장면이라고 판단할 수 있다.

또 다른 일 실시예에서, 장면 변환 판단부(305)는 샘플링된 이미지 각각에서 추출되는 오브젝트를 추출하고, 오브젝트가 사라졌거나 새로운 오브젝트가 나타나면 새로운 장면이라고 판단할 수 있다.

참조 장면 데이터 생성부(310)는 장면 변환 판단부(305)에 의해 장면이 변환되었다고 판단되면 상기 장면이 변환된 시점을 기준으로 참조 장면 데이터를 생성한다.

일 실시예에서, 참조 장면 데이터 생성부(310)는 장면 변환 판단부(305)에 의해 장면이 변환되었다고 판단되면 해당 시점을 기준으로 샘플링된 이미지를 장면 단위로 그룹핑하여 참조 장면 데이터를 생성할 수 있다.

태그 할당부(320)는 참조 장면 데이터를 분석하여 참조 장면 데이터 각각에 태그를 할당한다.

이를 위해, 태그 할당부(320)는 참조 장면 데이터의 특징을 추출하여 참조 장면 데이터의 특징 정보를 추출하고 특정 정보에 따라 서로 다른 종류의 태그를 할당한다.

일 실시예에서, 태그 할당부(320)는 참조 장면 데이터에 포함된 오브젝트의 특징 정보를 추출하고, 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 생성하고, 오브젝트의 특징 정보에 따라 오브젝트 속성 태그를 할당한다.

보다 구체적으로, 태그 할당부(320)는 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 여기에서, 특징 영역이란, 오브젝트들 사이의 동일 유사 여부를 판단하기 위한 오브젝트의 특징에 대한 기술자, 즉 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다.

다른 일 실시예에서, 태그 할당부(320)는 참조 장면 데이터의 특징 영역에서 특징 기술자를 추출(Descriptor Extraction)하고, 특징 기술자에 따라 참조 장면 데이터에서 화면 속성 태그를 할당할 수 있다. 특징 기술자는 참조 장면 데이터의 특징들을 벡터 값으로 표현한 것이다.

또 다른 일 실예에서, 태그 할당부(320)는 참조 장면 데이터를 장면 종류 분석 모델에 학습시켜 장면에서 표현되는 상황의 종류를 추출하고, 상황의 종류에 따라 상황 속성 태그를 할당한다. 이때, 장면 종류는 각 장면에서 표현되는 상황의 종류를 의미한다.

상기의 실시예에서, 태그 할당부(320)는 장면 종류 분석 모델을 CNN 딥 러닝 모델(CNN Deep Learning Model)로 구축하고, 상술한 데이터 셋을 학습할 수 있다. 이때, CNN 딥 러닝 모델은 두 개의 컨볼루션 레이어, 렐루 레이어, 맥스 풀링 레이어 및 하나의 풀리 커넥티드 레이어를 포함하도록 설계될 수 있다.

상기의 실시예에서, 태그 할당부(320)는 RCNN 기법을 활용하여 CNN에서 산출된 컨볼루션 피쳐 맵(Convolution Feature Maps)의 맵 순서대로 피쳐 시퀀스(Feature Sequence)를 구성한 후, 각 피쳐 시퀀스를 롱 숏 텀 메모리 네트워크(LSTM; Long Short Term Memory networks)에 대입하여 학습할 수 있다.

또 다른 일 실시예에서, 태그 할당부(320)는 영상 데이터에서 하이라이트 부분을 추출하고, 하이라이트 부분에 해당하는 참조 장면 데이터에 하이라이트 속성 태그를 할당한다. 이때, 하이라이트 부분은 영상 데이터에서 추출된 일부 구간을 의미할 수 있고, 이는 영상 데이터가 직접 지정한 구간이거나 혹은 자동 추출되는 구간일 수 있다.

참조 장면 데이터베이스(330)에는 태그 할당부(320)에 의해 태그가 할당된 참조 영상 데이터가 저장되어 있다.

참조 영상 데이터 추천부(340)는 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그를 비교하여 유사 점수를 산출하고, 유사 점수가 특정 점수 이상인 태그가 할당된 참조 장면 데이터를 참조 장면 데이터베이스(330)에서 추출한다.

일 실시예에서, 참조 영상 데이터 추천부(340)는 참조 장면 데이터베이스(330)에서 추출된 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그가 할당된 참조 장면 데이터를 추출하고, 추출된 참조 장면 데이터의 태그 및 상기 토큰의 단어를 매칭시켜 일치하면 해당 참조 장면 데이터를 추출하여 제공한다.

상기의 실시예에서, 참조 영상 데이터 추천부(340)는 토큰의 형태소 값이 명사인 경우 참조 장면 데이터베이스(330)에 추출된 참조 장면 데이터의 복수의 태그 중 오브젝트 속성 태그 및 토큰의 단어를 매칭시켜 일치하면 해당 참조 장면 데이터를 추출하여 제공한다.

상기의 실시예에서, 참조 영상 데이터 추천부(340)는 토큰의 형태소 값이 형용사인 경우 참조 장면 데이터베이스(330)에 추출된 참조 장면 데이터의 복수의 태그 중 화면 속성 태그 및 상황 속성 태그와 토큰의 단어를 매칭시켜 일치하면 해당 참조 장면 데이터를 추출하여 제공한다.

다른 일 실시예에서, 참조 영상 데이터 추천부(340)는 참조 장면 데이터베이스(330)에서 추출된 참조 장면 데이터의 복수의 태그 중 토큰의 형태소 값과 매칭되지 않은 태그가 할당된 상기 참조 장면 데이터에 대해서, 참조 장면 데이터의 복수의 태그 상기 토큰의 단어를 매칭시켜 유사 비율을 산출하고, 유사 비율이 특정 점수 이상인 태그가 할당된 참조 영상 데이터를 추출하여 제공할 수 있다.

상기의 실시예에서, 참조 영상 데이터 추천부(340)는 참조 장면 데이터의 복수의 태그 및 상기 토큰의 단어 각각을 구성하는 문자를 매칭시켜 일치하는 문자의 개수를 산출하고, 복수의 태그에 해당하는 스트링 수 및 상기 토큰의 단어에 해당하는 스트링 수를 비교하여 더 긴 스트링수를 기준으로 상기 일치하는 문자의 개수의비율에 따라 상기 유사 비율을 산출하고, 상기 유사 비율이 특정 점수 이상인 태그가 할당된 참조 영상 데이터를 추출하여 제공할 수 있다.

도 4 내지 7은 본 발명의 일 실시예에 따른 장면 데이터 생성 장치를 설명하기 위한 도면이다.

도 4 내지 도 7을 참조하면, 장면 데이터 생성 장치(100)는 고객의 요청에 따라 동영상을 자동으로 생성하기 위해서 영상 데이터(410)를 수집한 후 영상 데이터(410)를 장면 단위로 분할하여 참조 장면 데이터(420_1~420_N)를 생성하고, 참조 장면 데이터(420_1~420_N) 각각에 태그를 할당한 후 참조 장면 데이터베이스(430)에 저장한다.

일 실시예에서, 장면 데이터 생성 장치(200)는 영상 데이터(410)로부터 이미지로 디코딩한 후 재생 시간 간격으로 이미지를 샘플링할 수 있다.

상기의 실시예에서, 장면 데이터 생성 장치(200)는 샘플링된 이미지 중 서로 인접한 이미지의 유사도에 기초하여 샘플링된 이미지를 장면 단위로 그룹핑하여 참조 장면 데이터를 생성할 수 있다. 여기에서, 인접한 이미지는 샘플링된 이미지를 영상이 재생되는 시간 순서대로 나열하였을 때 이웃하는 이미지를 의미할 수 있다.

또한, 장면 데이터 생성 장치(200)는 참조 장면 데이터(420_1~420_N)를 분석하여 참조 장면 데이터 각각에 태그를 할당한다.

이를 위해, 장면 데이터 생성 장치(200)는 참조 장면 데이터(420_1~420_N)의 특징을 추출하여 참조 장면 데이터(420_1~420_N)의 특징 정보를 추출하고 특정 정보에 따라 서로 다른 종류의 태그를 할당한다.

일 실시예에서, 장면 데이터 생성 장치(200)는 참조 장면 데이터(420_1~420_N)에 포함된 오브젝트의 특징 정보를 추출하고, 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 생성하고, 오브젝트의 특징 정보에 따라 오브젝트 속성 태그를 할당한다.

예를 들어, 장면 데이터 생성 장치(200)는 도 6(a)의 참조 장면 데이터(420_3))에 포함된 오브젝트의 특징 정보를 추출하고, 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 도 6(b)와 같이 생성하고, 오브젝트의 특징 정보에 따라 도 6(a)와 같이 오브젝트 속성 태그를 할당할 수 있다.

보다 구체적으로, 장면 데이터 생성 장치(200)는 도 6(b)와 같이 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 여기에서, 특징 영역이란, 오브젝트들 사이의 동일 유사 여부를 판단하기 위한 오브젝트의 특징에 대한 기술자, 즉 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다.

도 8은 본 발명에 따른 영상 데이터를 기초로 장면 데이터 생성 방법의 일 실시예를 설명하기 위한 흐름도이다.

도 8을 참조하면, 장면 데이터 생성 장치(300)는 영상 데이터로부터 이미지로 디코딩한 후 재생 시간 간격으로 이미지를 샘플링한다(단계 S810).

장면 데이터 생성 장치(300)는 샘플링된 이미지 각각에서 특징 정보를 추출하고, 상기 이미지 각각에서 추출되는 특징 정보를 이용하여 장면이 변환되는지 여부를 판단한다(단계 S820).

단계 S820에 대한 일 실시예에서, 장면 데이터 생성 장치(300)는 상기 샘플링된 이미지 중 서로 인접한 이미지의 특징 정보를 비교하고, 상기 특징 정보 사이의 유도 비율이 특정 비율 이상이면 장면이 변환되었다고 판단할 수 있다.

단계 S820에 대한 다른 일 실시예에서, 장면 데이터 생성 장치(300)는 샘플링된 이미지 각각에서 추출되는 오브젝트의 개수 변화를 산출하고, 상기 오브젝트의 개수 변화에 따라 장면이 전환되었다고 판단할 수 있다.

단계 S820에 대한 또 다른 일 실시예에서, 장면 데이터 생성 장치(300)는 영상 데이터를 구성하는 음성 데이터 및 자막 데이터를 기초로 새로운 내용이 표시되는 시점을 새로운 장면이라고 판단할 수 있다.

상기 판단 결과 장면이 변환되었다고 판단되면 상기 장면이 변환된 시점을 기준으로 참조 장면 데이터를 생성한다(단계 S830).

한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

200: 장면 데이터 생성 장치,
210: 스크립트 생성부,
220: 시나리오 생성부,
230: 키워드 추출부,
240: 참조 장면 데이터 송수신부,
250: 환경 데이터 생성부,
260: 영상 합성부
300: 참조 영상 데이터 추천 장치,
303: 이미지 샘플링부
305: 장면 변환 판단부
310: 참조 장면 데이터 생성부,
320: 태그 할당부,
330: 참조 장면 데이터베이스,
340: 참조 영상 데이터 추천부
400_1~400_N: 고객 단말,
500_1~500_N: 사용자 단말

Claims

참조 영상 데이터 추천 장치에서 실행되는 영상 데이터를 기초로 장면 데이터 생성 방법에 있어서,
샘플링된 이미지 중 서로 인접한 이미지의 유사도에 기초하여 샘플링된 이미지를 장면 단위로 그룹핑하여 참조 장면 데이터를 생성하는 단계;
인접한 이미지에 대하여 피쳐 매칭(Feature Matching)을 수행하여 이미지의 유사도를 연산하고, 연산 결과에 따라 장면이 변환되는지 여부를 판단하거나 샘플링된 이미지 각각에서 추출되는 오브젝트의 개수 변화를 산출하고, 오브젝트의 개수 변화에 따라 장면이 전환되었다고 판단하거나 영상 데이터를 구성하는 음성 데이터 및 자막 데이터를 기초로 새로운 내용이 표시되는 시점을 새로운 장면이라고 판단하거나 샘플링된 이미지 각각에서 추출되는 오브젝트를 추출하고, 오브젝트가 사라졌거나 새로운 오브젝트가 나타나면 새로운 장면이라고 판단하는 단계;
상기 판단 결과 장면이 변환되었다고 판단되면 해당 시점을 기준으로 샘플링된 이미지를 장면 단위로 그룹핑하여 참조 장면 데이터를 생성하는 단계;
참조 장면 데이터의 특징을 추출하여 참조 장면 데이터의 특징 정보를 추출하고 특정 정보에 따라 화면 속성 태그, 오브젝트 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 어느 하나의 태그를 할당하는 단계;
장면 데이터 생성 장치로부터 서로 다른 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 영상 데이터 추천 요청 메시지를 수신하면, 상기 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그를 비교하여 유사 점수를 산출하고, 유사 점수가 특정 점수 이상인 태그가 할당된 참조 장면 데이터를 참조 장면 데이터베이스에서 추출하여 추천하는 단계를 포함하고,
상기 참조 장면 데이터를 참조 장면 데이터베이스에서 추출하여 추천하는 단계는
상기 토큰의 형태소 값이 명사인 경우 참조 장면 데이터베이에서 추출된 참조 장면 데이터의 복수의 태그 중 오브젝트 속성 태그 및 토큰의 단어를 매칭시켜 일치하면 해당 참조 장면 데이터를 추출하여 제공하는 단계; 및
토큰의 형태소 값이 형용사인 경우 참조 장면 데이터베이스에서 추출된 참조 장면 데이터의 복수의 태그 중 화면 속성 태그 및 상황 속성 태그와 토큰의 단어를 매칭시켜 일치하면 해당 참조 장면 데이터를 추출하여 제공하는 단계를 포함하는 것을 특징으로 하는
영상 데이터를 기초로 장면 데이터 생성 방법.
제1항에 있어서,
상기 새로운 장면이라고 판단하는 단계는
상기 샘플링된 이미지 중 서로 인접한 이미지의 특징 정보를 비교하고, 상기 특징 정보 사이의 유도 비율이 특정 비율 이상이면 해당 이미지를 하나의 하나의 장면 데이터로 그룹핑하는 단계를 포함하는 것을 특징으로 하는
영상 데이터를 기초로 장면 데이터 생성 방법.
삭제
제1항에 있어서,
상기 새로운 장면이라고 판단하는 단계는
영상 데이터를 구성하는 음성 데이터 및 자막 데이터를 기초로 새로운 내용이 표시되는 시점을 새로운 장면이라고 판단하여 참조 장면 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는
영상 데이터를 기초로 장면 데이터 생성 방법.
참조 영상 데이터 추천 장치에 있어서,
샘플링된 이미지 중 서로 인접한 이미지의 유사도에 기초하여 샘플링된 이미지를 장면 단위로 그룹핑하여 참조 장면 데이터를 생성하는
인접한 이미지에 대하여 피쳐 매칭(Feature Matching)을 수행하여 이미지의 유사도를 연산하고, 연산 결과에 따라 장면이 변환되는지 여부를 판단하거나 샘플링된 이미지 각각에서 추출되는 오브젝트의 개수 변화를 산출하고, 오브젝트의 개수 변화에 따라 장면이 전환되었다고 판단하거나 영상 데이터를 구성하는 음성 데이터 및 자막 데이터를 기초로 새로운 내용이 표시되는 시점을 새로운 장면이라고 판단하거나 샘플링된 이미지 각각에서 추출되는 오브젝트를 추출하고, 오브젝트가 사라졌거나 새로운 오브젝트가 나타나면 새로운 장면이라고 판단하는 장면 변환 판단부;
상기 판단 결과 장면이 변환되었다고 판단되면 해당 시점을 기준으로 샘플링된 이미지를 장면 단위로 그룹핑하여 참조 장면 데이터를 생성하는 참조 장면 데이터 생성부;
참조 장면 데이터의 특징을 추출하여 참조 장면 데이터의 특징 정보를 추출하고 특정 정보에 따라 화면 속성 태그, 오브젝트 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 어느 하나의 태그를 할당하는 태그 할당부;
상기 참조 장면 데이터의 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그를 비교하여 유사 점수를 산출하고, 유사 점수가 특정 점수 이상인 태그가 할당된 참조 장면 데이터를 참조 장면 데이터베이스에서 추출하여 추천하는 참조 영상 데이터 추천부를 포함하는 것을 특징으로 하는
참조 영상 데이터 추천 장치.
제5항에 있어서,
상기 장면 변환 판단부는
상기 샘플링된 이미지 중 서로 인접한 이미지의 특징 정보를 비교하고, 상기 특징 정보 사이의 유도 비율이 특정 비율 이상이면 해당 이미지를 하나의 하나의 장면 데이터로 그룹핑하는 것을 특징으로 하는
참조 영상 데이터 추천 장치.
삭제
제5항에 있어서,
상기 장면 변환 판단부는
상기 영상 데이터를 구성하는 음성 데이터 및 자막 데이터를 기초로 새로운 내용이 표시되는 시점을 새로운 장면이라고 판단하여 참조 장면 데이터를 생성하는 것을 특징으로 하는
참조 영상 데이터 추천 장치.