KR20220026471A

KR20220026471A - 비디오 클립 추출 방법， 비디오 클립 추출 장치 및 저장매체

Info

Publication number: KR20220026471A
Application number: KR1020210056620A
Authority: KR
Inventors: 지아까오 후; 페이 왕; 펑페이 이우; 다이꾸어 저우
Original assignee: 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드
Priority date: 2020-08-25
Filing date: 2021-04-30
Publication date: 2022-03-04
Also published as: JP7292325B2; EP3961490A1; US20220067383A1; US11900682B2; KR102456272B1; CN112069952A; JP2022037876A

Abstract

본 개시는 비디오 클립 추출 방법， 비디오 클립 추출 장치 및 저장매체에 관한 것이다. 비디오 클립 추출 방법은 비디오를 획득하고, 비디오에서 N개의 비디오 프레임을 샘플링하여 획득하는 단계 - N은 양의 정수임 -; N개의 비디오 프레임을 미리 훈련된 프레임 특징 추출 모델에 입력하여 N개의 비디오 프레임 중 각 비디오 프레임의 특징 벡터를 획득하는 단계; 미리 훈련된 채점 모델에 기반하여, N개의 비디오 프레임의 점수를 결정하는 단계; 및 N개의 비디오 프레임의 점수에 기반하여, 비디오에서 목표 비디오 클립을 추출하는 단계;를 포함한다. 본 개시에 따른 비디오 클립 추출 방법을 통해, 비디오의 온라인 획득 과정에서 이미 획득한 비디오 프레임에 기반하여 샘플링하여 추출할 수 있어, 채점 모델의 연산 작업량을 절감하는데 도움이 되고 비디오 클립의 추출 효율을 가속화 할 수 있다. 또한, 비디오를 완전히 획득한 이후에는 사용자에게 필요한 목표 비디오 클립을 신속하게 추출할 수 있어 사용자의 사용 체험을 향상시킬 수 있다.

Description

비디오 클립 추출 방법， 비디오 클립 추출 장치 및 저장매체 {VIDEO CLIP EXTRACTION METHOD, VIDEO CLIP EXTRACTION APPARATUS AND STORAGE MEDIUM}

본 개시는 비디오 처리 기술 분야에 관한 것이며, 특히 비디오 클립 추출 방법， 비디오 클립 추출 장치 및 저장매체에 관한 것이다.

비디오 클립을 추출하는 것은 당해 비디오 중 어느 하나 또는 다수의 비교적 짧은 비디오 클립을 추출하는 것일 수 있다. 예를 들어, 비디오에서 하이라이트 비디오 클립을 추출하는 것이며, 이때 당해 비디오에서 다른 비디오 클립의 콘텐츠에 비해 더 하이라이트된 하나 또는 다수의 비디오 클립을 추출할 수 있다.

관련기술에서 비디오의 비디오 클립 추출은, 비디오를 완전히 획득한 후에야 비디오의 콘텐츠에 따라 다수의 비디오 클립으로 분할해야 하고, 각 비디오 클립에 대해 채점하고, 각 비디오 클립의 점수에 기반하여 비디오 클립을 추출해야 한다. 그러나 이 방법으로 비디오 클립을 추출하는 경우, 대량의 연산을 통해 각 비디오 클립의 점수를 결정해야 하며, 추출에 소요되는 시간이 길고 사용자의 사용 체험에 영향을 미친다.

관련기술에 존재하는 문제점을 해소하기 위해, 본 개시는 비디오 클립 추출 방법， 비디오 클립 추출 장치 및 저장매체를 제공한다.

본 개시의 실시예의 제1 측면은 비디오 클립 추출 방법을 제공하며, 상기 비디오 클립 추출 방법은 비디오를 획득하고 상기 비디오에서 N개의 비디오 프레임을 샘플링하여 획득하는 단계 - 상기 N은 양의 정수임 -; 상기 N개의 비디오 프레임을 미리 훈련된 프레임 특징 추출 모델에 입력하여, 상기 N개의 비디오 프레임 중 각 비디오 프레임의 특징 벡터를 획득하는 단계; 미리 훈련된 채점 모델에 기반하여 상기 N개의 비디오 프레임의 점수를 결정하는 단계 - 상기 N개의 비디오 프레임 중 제i 프레임에 대하여, 상기 제i 프레임을 중심으로 한 K개의 비디오 프레임의 특징 벡터를 미리 훈련된 채점 모델에 입력하여 상기 제i 프레임의 점수를 획득하며, 상기 i는 N과 같거나 그보다 작은 양의 정수이고, 상기 K는 양의 정수임 -; 상기 N개의 비디오 프레임의 점수에 기반하여 상기 비디오에서 목표 비디오 클립을 추출하는 단계;를 포함한다.

일 실시예에서, 상기 채점 모델은 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 훈련시켜 획득하며; 상기 제1 클립과 제2 클립으로 이루어진 데이터 쌍은 목표 속성이 레이블된 샘플 비디오 클립에 기반하여 획득하며, 상기 목표 속성은 비디오 클립이 목표 비디오 클립 또는 비 목표 비디오 클립임을 나타내는 속성을 포함하며, 상기 멀티프레임 융합층은 K개 비디오 프레임의 특징 벡터를 고정길이 벡터로 융합하기 위한 것이다.

다른 실시예에서, 상기 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 상기 채점 모델을 훈련시켜 획득하는 단계는, 제1 클립에서 K개의 비디오 프레임을 샘플링하고, 상기 제1 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 프레임 특징 추출 모델에 기반하여 추출하며, 제2 클립에서 K개의 비디오 프레임을 샘플링하고, 상기 제2 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 프레임 특징 추출 모델에 기반하여 추출하는 단계; 상기 제1 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 상기 멀티프레임 융합층에 기반하여 고정길이 벡터를 가진 제1 클립의 특징 벡터로 융합하고, 상기 제2 클립에서 샘플링된 K개 비디오 프레임을 상기 멀티프레임 융합층에 기반하여 고정길이 벡터를 가진 제2 클립의 특징 벡터로 융합하는 단계; 상기 제1 클립의 특징 벡터와 상기 제2 클립의 특징 벡터를 샴 신경망(Siamese neural network)에 입력하여 상기 제1 클립의 점수와 상기 제2 클립의 점수를 획득하고, 정렬 손실을 이용한 역전파를 수행하여 훈련시켜 훈련된 샴 신경망을 획득하는 단계;를 포함하고, 상기 샴 신경망은 파라미터를 공유하는 2개의 다층 퍼셉트론 모델을 포함하고, 상기 채점 모델은 상기 훈련된 샴 신경망의 하나의 다층 퍼셉트론 모델이다.

또 다른 실시예에서, 상기 제1 클립과 제2 클립으로 이루어진 데이터 쌍은, 목표 속성이 레이블된 샘플 비디오 클립에 기반하여, 하기와 같은 방식으로 획득한다. 즉, 하나 또는 다수의 샘플 비디오 클립이 포함된 샘플 비디오를 획득한다. 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성, 및 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에 기반하여, 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득하고, 제1 클립이 목표 비디오 클립이 될 가능성은 제2 클립이 목표 비디오 클립이 될 가능성보다 크다.

또 다른 실시예에서, 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성, 및 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에 기반하여, 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득하는 단계는, 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성을 포함하면, 상기 하나 또는 다수의 샘플 비디오 클립을 제1 클립으로 하고, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제2 클립으로 하며, 상기 제1 클립과 상기 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득하는 단계; 또는 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 상기 하나 또는 다수의 샘플 비디오 클립을 제2 클립으로 하고, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제1 클립으로 하며, 상기 제1 클립과 상기 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득하는 단계; 또는 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성과 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제1 클립으로 하고, 비 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제2 클립으로 하며, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여, 상기 제1 클립과 상기 제2 클립에 의해 데이터 쌍을 획득하고, 상기 제1 클립과 상기 일부 비디오 클립에 의해 데이터 쌍을 획득하며, 상기 제2 클립과 상기 일부 비디오 클립에 의해 데이터 쌍을 획득하는 단계를 포함한다.

또 다른 실시예에서, 상기 N개의 비디오 프레임의 점수에 기반하여 상기 비디오에서 목표 비디오 클립을 추출하는 단계는, 고정길이의 슬라이딩 윈도우를 시간순서로 상기 비디오에서 슬라이딩시켜 다수의 비디오 클립을 획득하는 단계 - 각각의 슬라이딩 윈도우는 하나의 비디오 클립에 대응됨 -; 각각의 슬라이딩 윈도우에 대해, 슬라이딩 윈도우 내에 포함된 비디오 프레임의 평균 점수를 각각 결정하고, 상기 비디오 프레임의 평균 점수를 슬라이딩 윈도에 대응하는 비디오 클립의 점수로 하는 단계; 및 상기 다수의 비디오 클립의 점수에 기반하여 상기 다수의 비디오 클립에서 하나 또는 다수의 목표 비디오 클립을 추출하는 단계;를 포함한다.

본 개시의 실시예의 제2 측면은 비디오 클립 추출 장치를 제공하며, 상기 비디오 클립 추출 장치는 획득 유닛, 특징 추출 유닛, 결정 유닛 및 추출 유닛을 포함한다. 획득 유닛은 비디오를 획득하고 상기 비디오에서 N개의 비디오 프레임을 샘플링하여 획득하기 위한 것으로, 상기 N은 양의 정수이다. 특징 추출 유닛은 상기 N개의 비디오 프레임을 미리 훈련된 프레임 특징 추출 모델에 입력하여, 상기 N개의 비디오 프레임 중 각 비디오 프레임의 특징 벡터를 획득하기 위한 것이다. 결정 유닛은 미리 훈련된 채점 모델에 기반하여 상기 N개의 비디오 프레임의 점수를 결정하되, 상기 N개의 비디오 프레임 중 제i 프레임에 대하여, 상기 제i 프레임을 중심으로 한 K개의 비디오 프레임의 특징 벡터를 미리 훈련된 채점 모델에 입력하여 상기 제i 프레임의 점수를 획득하기 위한 것으로, 상기 i는 N과 같거나 그보다 작은 양의 정수이고, 상기 K는 양의 정수이다. 추출 유닛은 상기 N개의 비디오 프레임의 점수에 기반하여 상기 비디오에서 목표 비디오 클립을 추출하기 위한 것이다.

일 실시예에서, 상기 비디오 클립 추출 장치는 훈련 유닛을 더 포함하며, 상기 훈련 유닛은, 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 상기 채점 모델을 훈련시켜 획득하기 위한 것이며, 상기 제1 클립과 제2 클립으로 이루어진 데이터 쌍은 목표 속성이 레이블된 샘플 비디오 클립에 기반하여 획득하며, 상기 목표 속성은 비디오 클립이 목표 비디오 클립 또는 비 목표 비디오 클립임을 나타내는 속성을 포함하며, 상기 멀티프레임 융합층은 K개 비디오 프레임의 특징 벡터를 고정길이 벡터로 융합하기 위한 것이다.

다른 실시예에서, 상기 훈련 유닛은, 상기 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여, 하기와 같은 방식으로 상기 채점 모델을 훈련시켜 획득한다. 즉, 제1 클립에서 K개의 비디오 프레임을 샘플링하고, 상기 제1 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 프레임 특징 추출 모델에 기반하여 추출하며, 제2 클립에서 K개의 비디오 프레임을 샘플링하고, 상기 제2 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 프레임 특징 추출 모델에 기반하여 추출하는 단계; 상기 제1 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 상기 멀티프레임 융합층에 기반하여 고정길이 벡터를 가진 제1 클립의 특징 벡터로 융합하고, 상기 제2 클립에서 샘플링된 K개 비디오 프레임을 상기 멀티프레임 융합층에 기반하여 고정길이 벡터를 가진 제2 클립의 특징 벡터로 융합한다. 상기 제1 클립의 특징 벡터와 상기 제2 클립의 특징 벡터를 샴 신경망에 입력하여 상기 제1 클립의 점수와 상기 제2 클립의 점수를 획득하고, 정렬 손실을 이용한 역전파를 수행하여 훈련시켜 훈련된 샴 신경망을 획득하고, 상기 샴 신경망은 파라미터를 공유하는 2개의 다층 퍼셉트론 모델을 포함하며, 상기 채점 모델은 상기 훈련된 샴 신경망의 하나의 다층 퍼셉트론 모델이다.

또 다른 실시예에서, 상기 제1 클립과 제2 클립으로 이루어진 데이터 쌍은, 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성, 및 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에 기반하여, 하기와 같은 방식으로 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득한다. 즉, 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성을 포함하면, 상기 하나 또는 다수의 샘플 비디오 클립을 제1 클립으로 하고, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제2 클립으로 하며, 상기 제1 클립과 상기 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득한다. 또는 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 상기 하나 또는 다수의 샘플 비디오 클립을 제2 클립으로 하고, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제1 클립으로 하며, 상기 제1 클립과 상기 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득한다. 또는 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성과 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제1 클립으로 하고, 비 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제2 클립으로 하며, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여, 상기 제1 클립과 상기 제2 클립에 의해 데이터 쌍을 획득하고, 상기 제1 클립과 상기 일부 비디오 클립에 의해 데이터 쌍을 획득하며, 상기 제2 클립과 상기 일부 비디오 클립에 의해 데이터 쌍을 획득한다.

또 다른 실시예에서, 상기 추출 모듈은 상기 N개의 비디오 프레임의 점수에 기반하여 하기와 같은 방식으로 상기 비디오에서 목표 비디오 클립을 추출한다. 즉, 고정길이의 슬라이딩 윈도우를 시간순서로 상기 비디오에서 슬라이딩시켜 다수의 비디오 클립을 획득하고, 각각의 슬라이딩 윈도우는 하나의 비디오 클립에 대응된다. 각각의 슬라이딩 윈도우에 대해, 슬라이딩 윈도우 내에 포함된 비디오 프레임의 평균 점수를 각각 결정하고, 상기 비디오 프레임의 평균 점수를 슬라이딩 윈도우에 대응하는 비디오 클립의 점수로 한다. 상기 다수의 비디오 클립의 점수에 기반하여 상기 다수의 비디오 클립에서 하나 또는 다수의 목표 비디오 클립을 추출한다.

본 개시의 실시예의 제3 측면은 비디오 클립 추출 장치를 제공한다. 상기 비디오 클립 추출 장치는 명령을 저장하기 위한 메모리; 및 상기 메모리에 저장된 명령을 호출하여 상술한 어느 한 항에 따른 비디오 클립 추출 방법을 수행하기 위한 프로세서를 포함한다.

본 개시의 실시예의 제4 측면은 컴퓨터 판독 가능 저장매체를 제공한다. 상기 컴퓨터 판독 가능 저장매체에는 명령이 저장되어 있고, 상기 명령이 프로세서에 의해 수행되는 경우, 상술한 어느 한 항에 따른 비디오 클립 추출 방법이 수행된다.

본 개시의 실시예에 따른 기술적 수단은 아래와 같은 유익한 효과를 포함할 수 있다. 본 개시에 따른 비디오 클립 추출 방법을 통해, 비디오의 온라인 획득 과정에서, 이미 획득한 비디오 프레임을 이용하여 샘플링 추출할 수 있어, 채점 모델의 연산 작업량을 절감하는데 유리하고, 비디오 클립 추출 속도를 가속화 할 수 있다. 또한 비디오 프레임의 하이라이트 정도 점수에 기반하여, 비디오 프레임을 획득함과 동시에 비디오의 각 부분 간의 하이라이트 정도를 비교하여, 비디오를 완전히 획득한 후, 사용자에게 필요한 목표 비디오 클립을 신속히 추출할 수 있어 사용자의 사용 체험을 향상시킬 수 있다.

상술한 일반적인 설명과 후술되는 세부적인 설명은 예시적이고 해석적인 것으로 본 개시를 한정할 수 없음을 이해해야 한다.

이 부분의 도면은 명세서에 병합되어 본 명세서의 일부를 구성하며, 본 개시에 부합하는 실시예를 나타내고 명세서와 함께 본 개시의 원리를 해석한다.
도 1은 예시적인 실시예에 따라 나타낸 비디오 클립 추출 방법의 흐름도이다.
도 2는 예시적인 실시예에 따라 나타낸 채점 모델 훈련 방법의 흐름도이다.
도 3은 예시적인 실시예에 따라 나타낸 다른 채점 모델 훈련 방법의 개략도이다.
도 4는 예시적인 실시예에 따라 나타낸 데이터 쌍의 결정 방법의 흐름도이다.
도 5는 예시적인 실시예에 따라 나타낸 샘플 비디오의 레이블 개략도이다.
도 6은 예시적인 실시예에 따라 나타낸 다른 샘플 비디오의 레이블 개략도이다.
도 7은 예시적인 실시예에 따라 나타낸 또 다른 샘플 비디오의 레이블 개략도이다.
도 8은 예시적인 실시예에 따라 나타낸 비디오 클립 추출 장치의 블록도이다.
도 9는 예시적인 실시예에 따라 나타낸 다른 비디오 클립 추출 장치의 블록도이다.

여기서, 예시적 실시예를 상세히 설명하기로 하며, 그 예시는 도면에 나타냈다. 이하 설명이 도면과 관련된 경우, 다른 표시가 없는 한 서로 다른 도면의 동일한 숫자는 동일 또는 유사한 요소를 나타낸다. 이하 예시적인 실시예에서 설명되는 실시형태는 본 개시와 일치한 모든 실시형태를 대표하는 것은 아니다. 오히려, 이들은 후술되는 청구범위에서 상세히 설명한, 본 개시의 일부 측면과 일치한 장치와 방법의 예시일 뿐이다.

본 개시의 실시예에 따른 비디오 클립 추출 방법은 목표 비디오 클립을 추출하는 장면에 적용되며, 예를 들어 하이라이트 비디오 클립을 추출하는 장면에 적용된다. 이러한 장면은 예를 들어, 핸드폰 앨범에서 사용자 비디오의 하이라이트 비디오 클립을 생성하여 미리보기 이미지로서 사용자에게 전시하는 장면일 수 있고; 소형 비디오 응용에서 소형 비디오의 하이라이트 비디오 클립을 획득하여 gif 이미지를 생성하여, 비디오 커버로서 사용자에게 전시하는 장면일 수도 있으며; 사용자가 온라인 관람하는 비디오에 대해, 재생하는 동시에 백스테이지에서 각 시점의 하이라이트 정도를 연산하고, 사용자가 비디오를 관람한 후 즉시 당해 비디오의 하이라이트 비디오 클립을 팝업시켜, 사용자가 하이라이트 장면을 다시 감상하도록 하는 것일 수도 있다.

관련기술에서 비디오의 비디오 클립 추출은 오프라인 상태에서 비디오를 완전히 획득한 후, 비디오의 콘텐츠에 따라 다수의 비디오 클립으로 분할하고, 각 비디오 클립에 대해 비디오의 특징을 추출하여, 각 비디오 클립의 하이라이트 정도의 점수를 연산함으로써 추출이 필요한 비디오 클립을 결정해야 한다. 이 방법으로 비디오 클립을 추출하는 경우, 비디오를 완전히 획득한 후 추출 동작을 수행해야 한다. 또한 비디오 클립마다 비디오 클립 특징을 추출하는 경우, 대량의 연산을 통해 결정해야 하므로 많은 시간이 소요되고 추출이 필요한 비디오 클립을 신속하게 추출할 수 없어 사용자의 사용 체험에 영향을 미친다.

이를 감안하여, 본 개시의 실시예는 비디오 클립 추출 방법을 제공한다. 이 비디오 클립 추출 방법에 사용되는 비디오 클립 추출 모델은 훈련 시 프레임 특징 벡터에 기반하여 훈련할 수 있으며, 이에 따라 채점 모델의 연산량 감소에 도움이 되고, 채점 속도의 향상에 유리하다. 또한, 모델의 연산량이 작으므로 핸드폰, 태블릿 PC, 컴퓨터 등 단말기에 배치하여 사용자가 수시로 쉽게 사용할 수 있다.

본 개시에 따른 비디오 클립 추출 방법은, 샘플링된 비디오 프레임의 특징 벡터를 채점 모델에 입력하여 각 비디오 프레임의 점수를 획득하고, 각 비디오 프레임의 점수에 기반하여 목표 비디오 클립의 추출을 수행할 수 있다. 여기서, 이용되는 채점 모델은 프레임의 특징 벡터에 기반하여 훈련시켜 획득하고, 채점 모델은 구성이 간단하고 연산량이 작아 각 비디오 프레임 점수를 신속하게 출력하는데 도움이 되고, 나아가 각 비디오 프레임의 점수에 따라 목표 비디오 클립을 추출할 때, 짧은 시간 내에 신속하게 추출할 수 있어 추출 프로세스를 단축하여 사용자의 사용 체험을 향상시키는 데 도움이 된다.

도 1은 예시적인 실시예에 따라 나타낸 비디오 클립 추출 방법의 흐름도이다. 도 1에 도시된 바와 같이, 비디오 클립 추출 방법은 아래 단계 S11 내지 단계 S14를 포함한다.

단계 S11에서, 비디오를 획득하고 비디오에서 N개의 비디오 프레임을 샘플링하여 획득한다.

시간길이가 다른 비디오에 대해, 샘플링되는 비디오 프레임의 수는 서로 다를 수 있다. 본 개시의 실시예에서, 비디오 프레임의 샘플링은 다양한 형태가 있을 수 있다.

일 실시예에서, 비디오 프레임의 샘플링 방식은 기 설정 타임 스텝에 따라 동시간(equivalent-time) 샘플링을 수행하는 방식일 수 있으며, 비디오의 전체 시간길이를 고려할 필요가 없이 시간 간격에 따라 샘플링을 하면 된다. 이에 따라 샘플링 알고리즘을 낮추고 비디오 프레임의 샘플링 속도를 가속화 하는데 도움이 된다. 예를 들면, 획득한 비디오에 따라 기 설정 타임 스텝에 따라 2초 간격으로 하나의 비디오 프레임을 샘플링해야 한다면, 당해 비디오의 제2초, 제4초, 제6초, 제8초와 같이 유추하여 2초마다 한 번씩 비디오 프레임을 샘플링하되, 당해 비디오가 종료될 때까지 샘플링한다. 만약 당해 비디오가 10초일 경우 5개의 비디오 프레임을 획득한다. 하나의 예시에서, 비디오가 불완전하게 로딩된 경우, 현재 로딩된 비디오 프레임에 대해 샘플링을 수행할 수 있으며, 비디오의 로딩 과정에서 비디오를 완전히 획득할 때까지 기다릴 필요가 없이 비디오를 몇 개 프레임 지연시키면서 당해 비디오의 각 시점의 점수에 대한 연산을 시작할 수 있다. 이로써, 온라인 상의 준(quasi) 실시간 연산을 구현하는데 도움이 되고, 목표 비디오 클립의 추출 프로세스를 단축하고 사용자의 사용 체험의 향상에 유리하다.

다른 실시예에서, 비디오 프레임의 샘플링 방식은 샘플링이 지정된 비디오 프레임의 수를 미리 설정하여 비디오 프레임을 샘플링 하는 방식일 수 있다. 비디오 프레임의 특징 벡터를 연산할 때 특징 벡터의 추출 시간을 절감할 수 있고, 특징 벡터 추출 모델의 연산에 편리하며, 목표 비디오 클립의 추출 프로세스를 가속화 할 수 있다. 하나의 예시에서는, 지정된 비디오 프레임의 수에 따라 비디오에 대해 균일하게 샘플링할 수 있고, 이로써 각 시점 사이의 대응되는 비디오 콘텐츠를 구분하는데 도움이 되며, 비디오 프레임의 점수에 따라 목표 비디오 클립을 신속하게 추출할 수 있다. 예를 들어, 5개의 비디오 프레임을 획득하고자 하는 경우, 10초의 비디오에 대해서는 2초마다 한 번씩 샘플링을 수행할 수 있다. 15초의 비디오에 대해서는 3초마다 한 번씩 샘플링을 수행할 수 있다.

단계 S12에서는, N개의 비디오 프레임을 미리 훈련된 프레임 특징 추출 모델에 입력하여, N개의 비디오 프레임 중 각 비디오 프레임의 특징 벡터를 획득한다.

본 개시의 실시예에서는 획득한 N개의 비디오 프레임을 훈련된 프레임 특징 추출 모델에 각각 입력하여, 각 비디오 프레임에 대응되는 특징 벡터를 획득한다. 이로써, 획득한 각 비디오 프레임의 특징 벡터에 따라 채점 모듈이 채점할 수 있도록 하는데 도움이 되고, 비디오 중의 각 시점에 대응하는 각 비디오 프레임의 점수를 평가하는데 편리하며, 사용자에게 필요한 목표 비디오 클립을 추출하는데 도움이 된다. 프레임 특징 모델은 표준적인 컨볼루션 신경망(Convolutional Neural Networks, CNN)일 수 있고, Temporal Shift Module for Efficient Video Understanding(TSM)과 같은 온라인 비디오 이해 모델일 수도 있다. 훈련된 CNN을 이용하여 프레임 특징을 추출하는 경우, 당해 네트워크 분류층의 이전 층의 출력 벡터를 입력된 비디오 프레임의 프레임 특징 벡터로 할 수 있다. 훈련된 온라인 TSM을 이용하여 프레임 특징을 추출하는 경우, 당해 모델의 백본(backbone)의 마지막 층의 출력을 획득하여 특징 벡터로 할 수 있으며, 본 개시에서는 이를 한정하지 않는다.

단계 S13에서, 미리 훈련된 채점 모델에 기반하여 N개의 비디오 프레임의 점수를 결정한다.

본 개시의 실시예에서는, 훈련된 채점 모델을 이용하며, 획득한 N개의 비디오 프레임의 프레임 특징 벡터를 당해 채점 모델에 입력하여 각 비디오 프레임의 점수를 획득한다. 채점 모델은 각 비디오 프레임의 화상 콘텐츠의 하이라이트 정도에 따라 채점할 수 있다. 동일 비디오의 서로 다른 비디오 프레임에 대하여, 채점 모델이 출력한 점수가 높을수록 그 콘텐츠의 하이라이트 정도가 더 높다. 각 점수 사이의 상대적인 크기는 각 비디오 프레임의 콘텐츠 사이의 상대적인 하이라이트 정도의 차이를 나타낼 수 있다. 획득한 각 비디오 프레임의 점수를 통해, 각 비디오 프레임의 콘텐츠 사이의 상대적인 하이라이트 정도를 직관적으로 구분할 수 있으며, 사용자에게 필요한 목표 비디오 클립을 신속하게 추출하는데 도움이 된다.

본 개시에서, 훈련된 채점 모델을 통해 각 비디오 프레임에 대해 획득하는 점수는, 당해 비디오 프레임의 현재 시점을 기준으로 획득한 다수의 비디오 프레임의 융합 특징 벡터에 기반하여 획득된다. N개의 비디오 프레임 중 제i 프레임의 점수를 연산하는 경우에는, 비디오 중 제i 프레임에 대응되는 시점 위치에 기반하여, 제i 프레임의 전후 시점에서 다수의 비디오 프레임을 각각 획득하여 K개의 비디오 프레임을 획득하며, 나아가 K개의 비디오 프레임의 융합 특징 벡터에 기반하여 출력한 점수를 현재 제i 프레임의 점수로 한다. 여기서, i는 N과 같거나 그보다 작은 양의 정수이고, K는 양의 정수이다. 현재 비디오 프레임의 점수를 연산하는 경우에는, 그 주변의 비디오 프레임의 프레임 특징 벡터를 결합함으로써, 획득한 점수가 더 정확해지도록 하고, 나아가 획득된 점수에 기반하여 목표 비디오 클립 추출을 수행할 때, 획득한 목표 비디오 클립의 콘텐츠와 당해 점수에 대응되는 콘텐츠가 서로 부합하도록 하며, 이로써 목표 비디오 클립의 추출에 오류 또는 누락이 발생하는 가능성을 방지하는데 도움이 된다. 예를 들어, 현재 비디오 프레임의 콘텐츠가 비디오 중 대응되는 시점에서 일반 비디오 클립에 해당하고, 당해 시점의 전후는 모두 하이라이트 비디오 클립에 해당하며, 이 시점은 단지 순간적인 과도 시점에 불과하다고 하자. 이 경우, 현재 비디오 프레임의 전후로 추출한 비디오 프레임에 기반하여 현재 프레임의 점수를 공통으로 연산하면, 목표 비디오 클립의 누락 추출 가능성을 피하는데 도움이 된다. 하나의 예시에서, 획득한 점수가 더 정확해지도록 하기 위해, 제i 프레임의 전후 시점에서 동일 수의 비디오 프레임을 획득할 수 있다. 예를 들어, 제i 프레임이 위치한 시점 전에 [i-(K/2)]개의 비디오 프레임을 추출하고, 제i 프레임이 위치한 시점 후에 [i+(K/2)-1]개의 비디오 프레임을 획득하여, 균일하게 샘플링한다. 이로써, 획득한 점수는 현재 비디오 프레임이 위치한 비디오 클립의 점수에 더 근접하고 더 정확하며, 비정상 데이터를 제거하는데 편리하다. 또 다른 예시에서, 제i 프레임이 당해 비디오의 제1 프레임에 해당하는 경우, 제1 프레임 전의 [i-(K/2)]개의 비디오 프레임의 특징 벡터를 0으로 기본 설정하거나 또는 제1 프레임 후에 획득한 [i+(K/2)-1]개의 비디오 프레임의 특징 벡터와 같도록 기본 설정할 수 있다. 이로써, 비디오 프레임에 대한 채점이 원활하게 수행될 수 있도록 하고, 프레임 별로 평가하는데 편리하다.

단계 S14에서, N개의 비디오 프레임의 점수에 기반하여 비디오에서 목표 비디오 클립을 추출한다.

본 개시의 실시예에서는 획득한 각 비디오 프레임의 점수에 기반하여, 사용자의 수요에 따라 사용자에게 필요한 목표 비디오 클립을 추출한다.

본 개시의 실시예에서, 하나의 비디오는 추출하고자 하는 목표 비디오 클립을 포함할 뿐만 아니라 비 목표 비디오 클립도 포함한다. 목표 비디오 클립은 목표 비디오 클립 속성을 가지고, 비 목표 비디오 클립도 비 목표 비디오 클립의 속성을 가진다. 예를 들어, 목표 비디오 클립이 하이라이트 비디오 클립인 경우, 비디오는 상대적으로 가장 하이라이트된 비디오 클립을 포함하는 동시에, 상대적으로 가장 하이라이트되지 않은 비디오 클립도 포함한다. 사용자의 수요가 다름에 따라, 필요한 목표 비디오 클립도 서로 다르다. 획득한 비디오에 따라 사용자에게 필요한 목표 비디오 클립을 신속하게 추출하기 위해서는, 획득한 비디오에 대해 샘플링을 수행하여 N개의 비디오 프레임을 획득할 수 있으며, N은 양의 정수이다. 채점 모델을 통해 각 비디오 프레임의 점수를 신속하게 획득하고, 각 비디오 프레임의 점수에 기반하여 평가하여, 추출하고자 하는 목표 비디오 클립을 결정할 수 있다.

일반적으로 목표 비디오 클립은 비디오 중 하나 또는 다수의 비디오 클립일 수 있고, 목표 비디오 클립 속성을 가질 수 있다. 예를 들어, 하이라이트 비디오 클립은 비디오 중 하나 또는 다수의 상대적으로 짧은 비디오 클립이고, 콘텐츠는 다른 비디오 클립의 콘텐츠에 비해 더 하이라이트되고 흡인력이 있다. 예를 들어, 농구게임 비디오를 예로 들면, 이 비디오 중의 슬램 덩크, 스매시 등의 비디오 클립은 당해 농구게임 비디오 중의 하이라이트 비디오 클립이며, 일반 드리블 등의 비디오 클립은 하이라이트되지 않은 비디오 클립이며, 카메라 전환 시의 음영, 애니메이션 등은 가장 하이라이트되지 않은 비디오 클립이다.

본 개시의 실시예는 목표 비디오 클립이 하이라이트 비디오 클립인 경우를 예로 들어 설명한다. 비디오 중 다수의 비디오 프레임에 대해, 점수에 기반하여 하이라이트 비디오 클립을 추출한다. 각 비디오 프레임의 점수를 연산할 때, 그 주변 시점의 비디오 프레임도 결합하여 공통으로 평가하므로, 획득한 점수는 당해 비디오 프레임의 전후 작은 범위 내의 비디오 클립의 평균적인 하이라이트 정도를 대표할 수 있다. 또한 비디오 프레임의 점수에 기반하여, 추출되는 목표 비디오 클립의 하이라이트 정도를 결정하므로, 전체 비디오 클립의 점수를 연산하는 경우보다 연산량이 작고, 짧은 시간 내에 신속한 평가를 수행하여 적절한 목표 비디오 클립을 제공하는데 더 도움이 된다. 예를 들어, 사용자가 당해 비디오 중 가장 하이라이트된 비디오 클립을 필요로 한다면, 각 비디오 프레임의 점수에 기반하여, 점수가 가장 높은 비디오 프레임이 위치한 비디오 클립을 목표 비디오 클립으로 할 수 있다. 하나의 예시에서, 사용자가 다수의 하이라이트 비디오 클립을 필요로 하는 경우, 대응되는 점수에 기반하여 각 비디오 프레임을 정렬하고, 점수가 상대적으로 높은 다수의 비디오 프레임이 위치한 비디오 클립을 목표 비디오 클립으로 할 수 있다.

상기 실시예에 의하면, 비디오 클립 대신 샘플링된 비디오 프레임에 기반하여, 훈련된 채점 모델을 통해 채점함으로써, 채점 모델의 연산량을 효율적으로 감소시킬 수 있고, 채점 연산 속도를 가속화 하여 목표 비디오 클립의 추출 프로세스를 향상시킬 수 있다. 이로써 사용자의 사용 체험을 향상시키는 데 도움이 된다.

일 실시예에서, 고정길이의 슬라이딩 윈도우를 시간순서로 비디오에서 슬라이딩시킴으로써 목표 비디오 클립을 추출할 수 있다. 슬라이딩 윈도우가 매번 슬라이딩 할 때마다 커버하는 범위가 하나의 비디오 클립이다. 즉, 슬라이딩 윈도우가 매번 슬라이딩하여 슬라이딩 윈도우의 끝단 위치가 슬라이딩 윈도우의 시작 위치로 슬라이딩할 때마다 하나의 비디오 클립이 생성된다. 각 슬라이딩 윈도우에 대해서는, 당해 슬라이딩 윈도우 내에 포함된 각 비디오 프레임의 점수에 기반하여 당해 슬라이딩 윈도우의 평균 점수를 획득하고, 평균 점수를 당해 슬라이딩 윈도우에 대응하는 비디오 클립의 점수로 한다. 이로써 사용자의 수요에 따라, 다수의 클립의 점수에 기반하여 다수의 클립으로부터 하나 또는 다수의 목표 클립을 추출한다. 하이라이트 비디오 클립을 획득하는 것을 예로 들면, 고정길이의 슬라이딩 윈도우를 시간순서로 비디오에서 슬라이딩시켜, 윈도우 내의 모든 비디오 프레임의 하이라이트 정도 점수의 평균값을 연산하고, 이 평균값을 당해 윈도우에 대응하는 비디오 클립의 하이라이트 정도의 점수로 한다. 점수가 가장 높은 슬라이딩 윈도우에 대응하는 비디오 클립은 당해 비디오의 하이라이트 클립이다. 다수의 하이라이트 클립의 추출이 필요한 경우에는, 각 슬라이딩 윈도우에 대응하는 점수에 기반하여, 점수가 상대적으로 높은 비디오 클립을 추출할 수 있다. 각 비디오 클립 사이의 중복도가 높지 않도록 하기 위해서는, 비디오 클립을 추출하기 전에, 비 극대값 메커니즘 알고리즘을 이용하여 중복도가 높은 슬라이딩 윈도우에 대응하는 비디오 클립을 제거하고, 추출된 비디오 클립들이 서로 분산되도록 한다. 이로써 추출된 비디오 클립을 사용자가 관람할 때의 관람 체험을 향상시키는 데 유리하다.

본 개시의 실시예에서 채점 모델은 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 미리 훈련시켜 획득할 수 있다.

도 2는 예시적인 실시예에 따라 나타낸 채점 모델 훈련 방법의 흐름도이다. 도 2에 도시된 바와 같이, 채점 모델 훈련 방법은 아래 단계 S21 내지 단계 S24를 포함한다.

단계 S21에서, 비디오를 획득하고, 비디오에서 N개의 비디오 프레임을 샘플링하여 획득한다.

단계 S22에서, N개의 비디오 프레임을 미리 훈련된 프레임 특징 추출 모델에 입력하여, N개의 비디오 프레임 중 각 비디오 프레임의 특징 벡터를 획득한다.

단계 S23에서, K개의 비디오 프레임의 특징 벡터를 고정길이 벡터로 융합하기 위한 멀티프레임 융합층을 결정한다.

본 개시의 실시예에서는, 목표 비디오 클립이 하이라이트 비디오 클립인 경우를 예로 들어 설명한다. 채점 모델을 통해 획득하는 비디오 프레임의 점수와 당해 비디오 프레임이 위치한 비디오 클립의 콘텐츠의 하이라이트 정도가 서로 대응되도록 하기 위해서는, 제i 프레임의 특징 벡터를 획득할 때, 제i 프레임을 중심으로 한 (K-1)개의 비디오 프레임의 특징 벡터를 동시에 획득해야 하며, 이로써 점수 출력의 신뢰성을 향상시키는 데 도움이 된다. 따라서, 채점 모델을 훈련하기 전에, 먼저 K개의 비디오 프레임의 특징 벡터를 고정길이 벡터로 융합하기 위한 멀티프레임 융합층을 결정하고, 멀티프레임 융합층을 통해 출력된 고정길이 벡터가 채점 모델에 입력되어 채점할 수 있도록 해야 한다. 예를 들어, 하나의 비디오 프레임은 하나의 N차원 벡터에 대응되며, 7개의 비디오 프레임을 동시에 획득하는 경우, 7개의 N차원 벡터가 획득된다. 따라서, 채점 모델의 정상적인 작동과 점수의 신뢰성을 확보하기 위해서는, 획득한 7개의 N차원 벡터를 멀티프레임 융합층을 통해 융합하여, 채점 모델로의 입력으로서 적용되는 M차원 벡터를 획득한다. 멀티프레임 융합층은 직렬연결, 풀링, 또는 벡터 덧셈 등의 방식으로 다수의 N차원 벡터를 하나의 고정길이 벡터로 융합할 수 있다.

단계 S24에서, 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 채점 모델을 훈련시켜 획득한다.

본 개시의 실시예에서, 채점 모델은 결정된 멀티프레임 융합층， 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 훈련되어 획득된다. 데이터 쌍을 획득하는 과정에서는, 획득한 레이블 비디오 클립을 비디오 클립의 콘텐츠에 따라 레이블하고, 레이블 비디오 클립이 제1 클립에 해당하는지 제2 클립에 해당하는지를 결정한다. 목표 속성은 비디오 클립이 목표 비디오 클립 또는 비 목표 비디오 클립임을 나타내는 속성을 포함한다. 하나의 예시에서, 목표 비디오 클립은 비디오 중 가장 하이라이트 비디오 클립일 수 있고; 비 목표 비디오 클립은 비디오 중 가장 하이라이트되지 않은 비디오 클립일 수 있다. 이로써, 데이터 쌍을 획득할 때, 제1 클립과 제2 클립 사이의 차이를 명확히 구분하여 채점 모델의 훈련 시, 채점 모델이 다양한 속성들 사이의 비디오 클립의 특징을 신속히 학습할 수 있도록 할 수 있다. 나아가, 레이블 비디오 클립에 대한 속성 레이블을 이용하여, 훈련 데이터의 정확도를 향상시키고, 모델 훈련에 대한 노이즈 데이터의 교란을 감소시킬 수 있으며, 훈련 데이터의 청결도를 향상시키고 훈련 모델의 구성이 더 간단해 지므로, 별도의 네트워크 모델을 이용하여 레이블 비디오 클립의 신뢰성을 연산할 필요가 없도록 할 수 있다. 이로써 채점 모델 훈련 과정의 컨버전스를 가속화 할 수 있고, 비용 절감에 도움이 된다.

하나의 실시 장면에서, 채점 모델의 훈련 시, 제1 클립에서 K개의 비디오 프레임을 무작위로 샘플링하거나 균일하게 샘플링한다. 나아가 도 3에 도시된 바와 같이, 획득한 K개의 비디오 프레임을 프레임 특징 추출 모델을 통해 프레임 특징 벡터를 추출하여, 제1 클립 중 각 비디오 프레임에 대응하는 프레임 특징 벡터를 획득한다. 나아가, 획득한 K개의 프레임 특징 벡터를 멀티프레임 융합층을 통해 융합하여, 고정길이 벡터를 가진 제1 클립의 특징 벡터를 획득하여

로 기록한다. 제2 클립에서 K개의 비디오 프레임을 무작위로 샘플링하거나 균일하게 샘플링한다. 나아가, 획득한 K개의 비디오 프레임을 프레임 특징 추출 모델을 통해 프레임 특징 벡터를 추출하여, 제2 클립 중 각 비디오 프레임에 대응하는 프레임 특징 벡터를 획득한다. 나아가, 획득한 K개의 프레임 특징 벡터를 멀티프레임 융합층을 통해 융합하여, 고정길이 벡터를 가진 제2 클립의 특징 벡터를 획득하여

로 기록한다.

채점 모델은 다층 퍼셉트론 모델을 이용하여 획득할 수 있다. 하나의 다층 퍼셉트론 모델을 복제하고 파라미터를 공유하여 샴 신경망을 획득한다. 나아가, 샴 신경망을 훈련시켜, 훈련된 채점 모델을 획득한다. 획득한 제1 클립의 특징 벡터와 제2 클립의 특징 벡터를 샴 신경망에 입력하여 훈련시키는 경우, 획득한 제1 클립의 특징 벡터와 제2 클립의 특징 벡터를 동시에 입력으로 하여 제1 클립의 점수와 제2 클립의 점수를 획득하고, 제1 클립과 제2 클립의 점수에 기반하여 손실값을 산출하여, 역전파 알고리즘을 이용하여 샴 신경망을 훈련시킬 수 있다. 훈련 시, 각 세트의 데이터 쌍 중의 제1 클립의 특징 벡터

와 제2 클립의 특징 벡터

를 샴 신경망에 입력하여 제1 클립의 점수

와 제2 클립의 점수

을 획득한다. 또한 제1 클립에 대응하여 출력되는 점수는 제2 클립에 대응하여 출력되는 점수보다 높아야 한다. 나아가, 채점 모델이 출력한 점수를 정렬 손실 함수를 이용하여 역전파하여, 샴 신경망 중 각 파라미터 및 웨이트 비율을 조정하며, 이로써 채점 모델의 정확도를 향상시키고, 훈련 과정 중 샴 신경망의 컨버전스 속도를 가속화한다. 정렬 손실은

의 형태로 표시할 수 있다.

이하, 본 개시의 실시예를 실제 응용과 결합시켜 채점 모델의 훈련 과정을 예시적으로 설명한다.

채점 모델의 훈련 전, 채점 모델의 훈련에 적용되는 데이터 쌍을 미리 획득함으로써, 채점 모델의 훈련 시, 채점 모델이 다양한 비디오 콘텐츠 사이의 하이라이트 정도 차이를 구분할 수 있도록 하여 채점 정확도를 향상시킨다. 또한, 훈련에 이용되는 데이터 쌍은 샘플 비디오 중 목표 속성이 레이블된 레이블 클립에 기반하여 획득함으로써, 노이즈 데이터의 혼입을 피하여 훈련 데이터의 품질 향상에 도움이 되고, 훈련 곤란도를 낮추고 훈련 프로세스의 가속화에 유리하다.

도 4는 예시적인 실시예에 따라 나타낸 데이터 쌍을 결정하는 방법의 흐름도이다. 도 4에 나타난 바와 같이, 데이터 쌍을 결정하는 방법은 아래 단계 S31 내지 단계 S32를 포함한다.

단계 S31에서, 하나 또는 다수의 레이블 비디오 클립을 포함하는 샘플 비디오를 획득한다.

일 실시예에 따르면, 채점 모델의 훈련 전에 미리 일정량의 샘플 비디오를 획득하여 샘플 비디오 세트를 획득함으로써, 채점 모델이 충분한 훈련 데이터를 가지고 훈련할 수 있도록 한다.

단계 S32에서, 하나 또는 다수의 레이블 비디오 클립에 레이블된 목표 속성, 및 샘플 비디오에 포함된 언레이블 비디오 클립에 기반하여, 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득한다.

당해 샘플 비디오 세트에서, 각 샘플 비디오는 각각 하나 또는 다수의 레이블 비디오 클립과 언레이블 비디오 클립을 포함한다. 각각의 샘플 비디오 중의 레이블 비디오 클립은 콘텐츠에 따라 레이블되어, 각각의 레이블 비디오 클립의 목표 속성을 명확화 한다. 레이블된 목표 속성에 따라, 각각의 레이블 비디오 클립과 각각의 언레이블 비디오 클립으로부터 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득한다. 그 중 제1 클립이 목표 비디오 클립이 될 가능성은 제2 클립이 목표 비디오 클립이 될 가능성보다 크다. 제1 클립과 제2 클립 사이의 차이에 따라, 채점 모델로 하여금 목표 비디오 클립과 비 목표 비디오 클립과 언레이블 비디오 클립 사이의 특징 차이를 정확하게 구분할 수 있도록 하고, 채점 모델의 정확도를 향상시키는 데 유리하다.

하나의 예시에서, 채점 모델로 하여금 동일 비디오 중의 서로 다른 비디오 클립 사이의 하이라이트 정도 차이를 더 잘 구분할 수 있도록 하기 위해, 데이터 쌍을 획득할 때, 제1 클립과 제2 클립은 동일 샘플 비디오로부터 유래할 수 있으며, 이로써 각 비디오 클립 사이의 상대적인 점수 차이를 획득할 수 있다. 이로써, 동일 비디오 중의 각 비디오 클립 사이의 하이라이트 정도를 구분하는데 도움이 되고, 샘플 비디오의 충분한 이용에 도움이 된다. 예를 들어, 슬램 덩크 컬렉션 비디오의 경우, 매 하나의 슬램 덩크 비디오 클립은 모두 하이라이트 비디오 클립에 해당한다. 동일 샘플 비디오로부터의 제1 클립과 제2 클립에 의해 획득하는 데이터 쌍을 이용하여 훈련된 채점 모델을 통해, 각각의 슬램 덩크 비디오 클립의 점수 사이의 상대적인 크기를 획득할 수 있고, 상대적으로 더 하이라이트된 슬램 덩크 비디오 클립을 구분하는데 도움이 되어, 목표 비디오의 추출이 용이해 진다.

이하, 목표 비디오 클립이 하이라이트 비디오 클립인 경우를 예로 들어 본 개시의 실시예를 설명한다.

여기서, 샘플 비디오 중, 목표 속성이 목표 비디오 클립 속성인 레이블된 비디오 클립을 레이블하는 경우, 샘플 비디오의 콘텐츠에 따라 당해 샘플 비디오 중 가장 하이라이트된 비디오 클립을 목표 비디오 클립 속성을 가진 비디오 클립으로 한다. 즉, 당해 비디오 클립은 동일 샘플 비디오 중 다른 시점의 콘텐츠보다 더 하이라이트되고 흡인력이 있다. 나아가, 당해 비디오 클립의 시작 및 종료 시점을 레이블하여, 목표 비디오 클립 속성을 가진 레이블 비디오 클립을 획득한다. 샘플 비디오 중, 목표 속성이 목표 비디오 클립 속성이 아닌 레이블 비디오 클립을 레이블하는 경우, 샘플 비디오의 콘텐츠에 따라, 당해 샘플 비디오 중 가장 하이라이트되지 않은 비디오 클립을 비 목표 비디오 클립 속성을 가진 비디오 클립으로 한다. 즉, 당해 비디오 클립은 동일 샘플 비디오 중 다른 시점의 콘텐츠보다 하이라이트되지 않고 흡인력이 없다. 나아가, 당해 비디오 클립의 시작 및 종료 시점을 레이블하여, 비 목표 비디오 클립 속성을 가진 레이블 비디오 클립을 획득한다.

하나의 예시에서, 샘플 비디오는 목표 속성이 목표 비디오 클립 속성인 하나 또는 다수의 레이블 비디오 클립, 및 언레이블 비디오 클립을 포함할 수 있다. 데이터 쌍을 획득할 때, 하나 또는 다수의 레이블 비디오 클립을 제1 클립으로 하고, 샘플 비디오에 포함된 언레이블 비디오 클립에서 일부 비디오 클립을 추출하여 제2 클립으로 할 수 있다. 샘플 비디오에 하나의 레이블 비디오 클립만 존재하고, 언레이블 비디오 클립의 시간길이가 레이블 비디오 클립의 시간길이에 근접하는 경우에는, 바로 레이블 비디오 클립을 제1 클립으로 하고, 언레이블 비디오 클립을 제2 클립으로 하여, 훈련에 필요한 데이터 쌍을 획득할 수 있다. 예를 들어, 도 5에 도시된 바와 같이, 비디오 클립 2는 목표 속성이 목표 비디오 클립 속성인 레이블 비디오 클립이고, 비디오 클립 1과 비디오 클립 3은 언레이블 비디오 클립이다. 나아가, 데이터 쌍을 획득할 경우에는, 비디오 클립 2가 제1 클립이고, 비디오 클립 1이 제2 클립인 데이터 쌍과, 비디오 클립 2가 제1 클립이고 비디오 클립 3이 제2 클립인 데이터 쌍을 획득할 수 있다. 샘플 비디오에 하나의 레이블 비디오 클립만 존재하나, 언레이블 비디오 클립의 시간길이가 너무 긴 경우에는, 언레이블 비디오 클립을 지정된 시간길이 범위 내의 다수의 언레이블 서브 비디오 클립으로 분할할 수 있으며, 나아가 레이블 비디오 클립이 제1 클립이고, 언레이블 서브 비디오 클립이 제2 클립인 다수의 데이터 쌍을 획득할 수 있다. 이로써, 레이블 곤란도를 낮추는 데 도움이 되고, 소량의 레이블 비디오 클립을 레이블하여 훈련용 데이터 쌍을 대량으로 획득할 수 있다. 예를 들어, 샘플 비디오의 시간길이가 60초이고, 그 중 레이블 비디오 클립은 10초이고, 언레이블 비디오 클립은 50초이다. 대량의 훈련용 데이터 쌍을 쉽게 획득하기 위해, 언레이블 비디오 클립을 레이블 비디오 클립의 시간길이에 근접하는 시간길이의 다수의 언레이블 서브 비디오 클립으로 분할할 수 있다. 만약 언레이블 비디오 클립을 10초 미만의 다수의 언레이블 서브 비디오 클립으로 분할할 경우, 적어도 예를 들어 언레이블 서브 비디오 클립 1，언레이블 서브 비디오 클립 2，언레이블 서브 비디오 클립 3，언레이블 서브 비디오 클립 4，언레이블 서브 비디오 클립 5와 같이 5개의 언레이블 서브 비디오 클립을 획득할 수 있다. 나아가, 채점 모델의 훈련을 위한 5쌍의 데이터 쌍으로서, 레이블 비디오 클립이 제1 클립이고, 언레이블 서브 비디오 클립 1이 제2 클립인 데이터 쌍; 레이블 비디오 클립이 제1 클립이고, 언레이블 서브 비디오 클립 2가 제2 클립인 데이터 쌍; 레이블 비디오 클립이 제1 클립이고, 언레이블 서브 비디오 클립 3이 제2 클립인 데이터 쌍; 레이블 비디오 클립이 제1 클립이고, 언레이블 서브 비디오 클립 4가 제2 클립인 데이터 쌍; 레이블 비디오 클립이 제1 클립이고, 언레이블 서브 비디오 클립 5가 제2 클립인 데이터 쌍을 획득할 수 있다.

다른 예시에서, 샘플 비디오는 하나 또는 다수의 목표 속성이 비 목표 비디오 클립 속성인 하나 또는 다수의 레이블 비디오 클립, 및 언레이블 비디오 클립을 포함할 수 있다. 데이터 쌍을 획득할 경우에는, 하나 또는 다수의 레이블 비디오 클립을 제2 클립으로 하고, 샘플 비디오에 포함된 언레이블 비디오 클립에서 일부 비디오 클립을 추출하여 제1 클립과 제2 클립으로 할 수 있다. 샘플 비디오에 하나의 레이블 비디오 클립만 존재하고, 언레이블 비디오 클립의 시간길이와 레이블 비디오 클립의 시간길이가 근접하는 경우에는, 바로 레이블 비디오 클립을 제2 클립으로 하고, 언레이블 비디오 클립을 제1 클립으로 하여, 훈련에 필요한 데이터 쌍을 획득할 수 있다. 예를 들어, 도 6에 도시된 바와 같이, 비디오 클립 3은 목표 속성이 비 목표 비디오 클립 속성인 레이블 비디오 클립이고, 비디오 클립 1과 비디오 클립 2는 언레이블 비디오 클립이다. 나아가, 데이터 쌍을 획득할 경우에는, 비디오 클립 1이 제1 클립이고, 비디오 클립 3이 제2 클립인 데이터 쌍과, 비디오 클립 2가 제1 클립이고, 비디오 클립 3이 제2 클립인 데이터 쌍을 획득할 수 있다. 샘플 비디오에 하나의 레이블 비디오 클립만 존재하나, 언레이블 비디오 클립의 시간길이이 너무 긴 경우에는, 언레이블 비디오 클립을 지정된 시간길이 범위 내의 다수의 언레이블 서브 비디오 클립으로 분할할 수 있으며, 나아가 레이블 비디오 클립을 제2 클립으로 하고, 언레이블 서브 비디오 클립을 제1 클립으로 하는 다수의 데이터 쌍을 획득할 수 있다. 이로써, 레이블 곤란도를 낮추는 데 도움이 되고, 소량의 레이블 비디오 클립을 레이블하여 훈련용 데이터 쌍을 대량으로 획득할 수 있다.

또 다른 예시에서, 샘플 비디오는 목표 속성이 목표 비디오 클립 속성인 하나 또는 다수의 레이블 비디오 클립， 목표 속성이 비 목표 비디오 클립 속성인 하나 또는 다수의 레이블 비디오 클립, 및 언레이블 비디오 클립을 포함할 수 있다. 데이터 쌍을 획득할 경우에는, 목표 비디오 클립 속성을 나타내도록 레이블된 레이블 비디오 클립을 제1 클립으로 한다면, 비 목표 비디오 클립 속성을 나타내도록 레이블된 레이블 비디오 클립을 제2 클립으로 하거나, 또는 언레이블 비디오 클립으로부터 일부 비디오 클립을 추출하여 제2 클립으로 한다. 비 목표 비디오 클립 속성을 나타내도록 레이블된 레이블 비디오 클립을 제2 클립으로 한다면, 목표 비디오 클립 속성을 나타내도록 레이블된 레이블 비디오 클립을 제1 클립으로 하거나, 또는 언레이블 비디오 클립으로부터 일부 비디오 클립을 추출하여 제1 클립으로 한다. 예를 들어, 도 7에 도시된 바와 같이, 비디오 클립 2는 목표 비디오 클립 속성을 나타내는 레이블 비디오 클립이고, 비디오 클립 3은 목표 속성이 비 목표 비디오 클립 속성인 레이블 비디오 클립이며, 비디오 클립 1은 언레이블 비디오 클립이다. 나아가, 데이터 쌍을 획득할 경우에는, 비디오 클립 2가 제1 클립이고, 비디오 클립 1이 제2 클립인 데이터 쌍을 획득하고; 비디오 클립 2가 제1 클립이고, 비디오 클립 3이 제2 클립인 데이터 쌍을 획득하고; 비디오 클립 1이 제1 클립이고, 비디오 클립 3이 제2 클립인 데이터 쌍을 획득할 수 있다.

레이블된 훈련용 데이터 쌍을 획득함으로써, 노이즈 데이터의 발생을 효율적으로 저감시켜 노이즈 데이터의 교란을 피할 수 있으며, 훈련 데이터의 청결도를 향상시키는 데 도움이 되고, 채점 모델의 구성이 간단해지도록 할 수 있다. 또한, 훈련 데이터의 신뢰성이 향상되도록 다른 네트워크 모델을 이용하거나 다른 파라미터를 추가할 필요가 없으며, 훈련 곤란도가 낮고, 훈련 과정에서 채점 모듈의 컨버전스를 가속화 하는데 도움이 된다.

동일한 구상에 따라, 본 개시의 실시예는 비디오 클립 추출 장치를 더 제공한다.

이해할 수 있는 것은, 본 개시의 실시예에 따른 비디오 클립 추출 장치는 상술한 기능을 구현하기 위해, 각 기능의 수행과 상응하는 하드웨어 구성과/또는 소프트웨어 모듈을 포함한다. 본 개시의 실시예에서 개시된 각 예시의 유닛 및 알고리즘 단계를 결합하여, 본 개시의 실시예는 하드웨어 또는 하드웨어와 컴퓨터 소프트웨어의 결합 형태로 구현될 수 있다. 어떤 기능이 하드웨어의 방식으로 수행되는지 아니면 컴퓨터 소프트웨어가 하드웨어를 구동하는 방식으로 수행되는지는 기술적 방안의 특정 응용과 설계 구속 조건에 따라 결정된다. 본 분야의 통상의 기술자는 설명된 기능을 각각의 특정 응용에 대해 다양한 방법으로 구현할 수 있으나, 이러한 구현은 본 개시의 실시예에 따른 기술적 방안의 범위를 벗어난 것으로 보아서는 안 된다.

도 8은 예시적인 실시예에 따라 나타낸 비디오 클립 추출 장치의 블록도이다. 도 8을 참고하면, 당해 비디오 클립 추출 장치(100)는 획득 유닛(101), 특징 추출 유닛(102)，결정 유닛(103) 및 추출 유닛(104)을 포함한다.

획득 유닛(101)은, 비디오를 획득하고 비디오에서 N개의 비디오 프레임을 샘플링하여 획득하기 위한 것이며, N은 양의 정수이다.

특징 추출 유닛(102)은, N개의 비디오 프레임을 미리 훈련된 프레임 특징 추출 모델에 입력하여, N개의 비디오 프레임 중 각 비디오 프레임의 특징 벡터를 획득하기 위한 것이다.

결정 유닛(103)은, 미리 훈련된 채점 모델에 기반하여 N개의 비디오 프레임의 점수를 결정하되, N개의 비디오 프레임 중의 제i 프레임에 대해, 제i 프레임을 중심으로 한 K개의 비디오 프레임의 특징 벡터를 미리 훈련된 채점 모델에 입력하여 제i 프레임의 점수를 획득하기 위한 것이며, i는 N과 같거나 그보다 작은 양의 정수이고, K는 양의 정수이다.

추출 유닛(104)은, N개의 비디오 프레임의 점수에 기반하여 비디오에서 목표 비디오 클립을 추출하기 위한 것이다.

일 실시예에서, 비디오 클립 추출 장치는 훈련 유닛을 더 포함한다. 훈련 유닛은 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 채점 모델을 훈련시켜 획득하기 위한 것이며, 제1 클립과 제2 클립으로 이루어진 데이터 쌍은 목표 속성이 레이블된 샘플 비디오 클립에 기반하여 획득하며, 목표 속성은 비디오 클립이 목표 비디오 클립 또는 비 목표 비디오 클립임을 나타내는 속성을 포함하며, 멀티프레임 융합층은 K개 비디오 프레임의 특징 벡터를 고정길이 벡터로 융합하기 위한 것이다.

다른 실시예에서, 훈련 유닛은, 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 하기와 같은 방식으로 채점 모델을 훈련시켜 획득한다. 즉, 제1 클립에서 K개의 비디오 프레임을 샘플링하고, 프레임 특징 추출 모델을 이용하여, 제1 클립에서 샘플링된 K개의 비디오 프레임의 특징 벡터를 추출하며, 제2 클립에서 K개의 비디오 프레임을 샘플링하고, 프레임 특징 추출 모델을 이용하여, 제2 클립에서 샘플링된 K개의 비디오 프레임의 특징 벡터를 추출하며, 멀티프레임 융합층을 이용하여, 제1 클립에서 샘플링된 K개의 비디오 프레임의 특징 벡터를 고정길이 벡터를 가진 제1 클립의 특징 벡터로 융합하고, 멀티프레임 융합층을 이용하여, 제2 클립에서 샘플링된 K개의 비디오 프레임을 고정길이 벡터를 가진 제2 클립의 특징 벡터로 융합한다. 제1 클립의 특징 벡터와 제2 클립의 특징 벡터를 샴 신경망에 입력하여, 제1 클립의 점수와 제2 클립의 점수를 획득하고, 정렬 손실을 이용한 역전파를 수행하여 훈련시켜 훈련된 샴 신경망을 획득한다. 여기서, 샴 신경망은 파라미터를 공유하는 2개의 다층 퍼셉트론 모델을 포함하며, 채점 모델은 훈련된 샴 신경망의 하나의 다층 퍼셉트론 모델이다.

또 다른 실시예에서, 제1 클립과 제2 클립으로 이루어진 데이터 쌍은, 목표 속성이 레이블된 샘플 비디오 클립에 기반하여 하기와 같은 방식으로 획득된다. 즉, 하나 또는 다수의 샘플 비디오 클립이 포함된 샘플 비디오를 획득한다. 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성, 및 샘플 비디오에 포함된 비 샘플 비디오 클립에 기반하여, 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득한다. 여기서, 제1 클립이 목표 비디오 클립이 될 가능성은 제2 클립이 목표 비디오 클립이 될 가능성보다 크다.

또 다른 실시예에서, 제1 클립과 제2 클립으로 이루어진 데이터 쌍은, 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성, 및 샘플 비디오에 포함된 비 샘플 비디오 클립에 기반하여, 하기와 같은 방식으로 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득한다. 즉, 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성을 포함하면, 하나 또는 다수의 샘플 비디오 클립을 제1 클립으로 하고, 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제2 클립으로 하여, 제1 클립과 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득한다. 또는, 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 하나 또는 다수의 샘플 비디오 클립을 제2 클립으로 하고, 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제1 클립으로 하여, 제1 클립과 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득한다. 또는, 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성과 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제1 클립으로 하고, 비 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제2 클립으로 하며, 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여, 제1 클립과 제2 클립에 의해 데이터 쌍을 획득한다. 또한 제1 클립과 일부 비디오 클립에 의해 데이터 쌍을 획득하고, 제2 클립과 일부 비디오 클립에 의해 데이터 쌍을 획득한다.

또 다른 실시예에서, 추출 모듈은 하기와 같은 방식으로, N개의 비디오 프레임의 점수에 기반하여 비디오에서 목표 비디오 클립을 추출한다. 즉, 고정길이의 슬라이딩 윈도우를 시간순서로 비디오에서 슬라이딩시켜 다수의 비디오 클립을 획득하고, 각각의 슬라이딩 윈도우는 하나의 비디오 클립에 대응된다. 각각의 슬라이딩 윈도우에 대해, 슬라이딩 윈도우 내에 포함된 비디오 프레임의 평균 점수를 각각 결정하고, 비디오 프레임의 평균 점수를 슬라이딩 윈도우에 대응하는 비디오 클립의 점수로 한다. 다수의 비디오 클립의 점수에 기반하여, 다수의 비디오 클립에서 하나 또는 다수의 목표 비디오 클립을 추출한다.

상술한 실시예 중의 장치와 관련하여, 각 모듈이 동작을 수행하는 구체적인 방식은 당해 방법에 관한 실시예에서 이미 상세히 설명하였으므로, 여기서 상세한 설명을 하지 않는다.

도 9는 예시적인 실시예에 따라 나타낸 다른 비디오 클립 추출 장치의 블록도이다. 예를 들어, 비디오 클립 추출 장치(200)는 모바일 전화, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인용 정보 단말기 등이다.

도 9를 참고하면, 비디오 클립 추출 장치(200)는 처리 어셈블리(202), 메모리(204), 전력 어셈블리(206), 멀티미디어 어셈블리(208), 오디오 어셈블리(210), 입/출력(I/O) 인터페이스(212), 센서 어셈블리(214) 및 통신 어셈블리(216) 중의 하나 또는 다수의 어셈블리를 포함할 수 있다.

처리 어셈블리(202)는 일반적으로 비디오 클립 추출 장치(200)의 전체적인 동작, 예컨대 표시, 전화 호출, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작을 제어한다. 처리 어셈블리(202)는 하나 또는 다수의 프로세서(220)를 포함하여 명령을 수행하여, 상술한 방법의 전체 또는 일부 단계를 구현할 수 있다. 또한, 처리 어셈블리(202)는 처리 어셈블리(202)와 다른 어셈블리 사이의 인터랙티브가 용이해지도록, 하나 또는 다수의 모듈을 포함할 수 있다. 예를 들어, 처리 어셈블리(202)는 멀티미디어 어셈블리(208)와 처리 어셈블리(202) 사이의 인터랙티브가 용이해지도록 멀티미디어 모듈을 포함할 수 있다.

메모리(204)는 다양한 유형의 데이터를 저장하여 비디오 클립 추출 장치(200)에서의 동작을 지원하도록 구성된다. 이러한 데이터의 예시는 비디오 클립 추출 장치(200)에서 동작하는 임의의 응용 프로그램 또는 방법에 이용되는 명령, 연락처 데이터, 전화부 데이터, 메시지, 이미지, 비디오 등을 포함한다. 메모리(204)는 임의의 유형의 휘발성 또는 비휘발성 저장기기 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 스램(SRAM), 이이프롬(EEPROM), 이프롬(EPROM), 프롬(PROM), 롬(ROM), 자기 메모리, 플래시 메모리, 디스크 또는 CD-ROM 또는 이들의 조합으로 구현될 수 있다.

전력 어셈블리(206)는 비디오 클립 추출 장치(200)의 각종 어셈블리에 전력을 제공한다. 전력 어셈블리(206)는 전원 관리 시스템, 하나 또는 다수의 전원, 및 비디오 클립 추출 장치(200)를 위한 전력 생성, 관리, 할당과 관련된 그 밖의 다른 어셈블리를 포함할 수 있다.

멀티미디어 어셈블리(208)는 상기 비디오 클립 추출 장치(200)와 사용자 사이에 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서, 스크린은 액정 디스플레이(LCD)와 터치패널(TP)을 포함할 수 있다. 스크린이 터치패널을 포함하는 경우, 스크린은 터치스크린으로 구현되어 사용자로부터 입력 신호를 수신할 수 있다. 터치패널은 하나 또는 다수의 터치센서를 포함하여 터치, 슬라이딩, 터치패널 상의 제스처를 감지한다. 상기 터치센서는 터치 또는 슬라이딩 동작의 경계를 감지할 수 있을 뿐만 아니라, 상기 터치 또는 슬라이딩 동작과 관련된 지속 시간과 압력도 감지할 수 있다. 일부 실시예에서, 멀티미디어 어셈블리(208)는 하나의 전면 카메라 및/또는 후면 카메라를 포함한다. 비디오 클립 추출 장치(200)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 처한 경우, 전면 카메라 및/또는 후면 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각각의 전면 카메라와 후면 카메라는 하나의 고정된 광학 렌즈 시스템이거나 또는 초점거리 및 광학 줌 기능을 가질 수 있다.

오디오 어셈블리(210)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 어셈블리(210)는 하나의 마이크(MIC)를 포함하며, 비디오 클립 추출 장치(200)가 호출 모드, 기록 모드, 음성 인식 모드와 같은 동작 모드에 처한 경우, 마이크는 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 추가적으로 메모리(204)에 저장되거나 또는 통신 어셈블리(216)를 통해 송신될 수 있다. 일부 실시예에서, 오디오 어셈블리(210)는 오디오 신호를 출력하기 위한 스피커를 더 포함한다.

입/출력(I/O) 인터페이스(212)는 처리 어셈블리(202)와 주변 인터페이스 모듈 사이에 인터페이스를 제공하며, 상기 주변 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼과 록킹 버튼을 포함하나 이에 한정되지 않는다.

센서 어셈블리(214)는 비디오 클립 추출 장치(200)를 위해 각 면의 상태 평가를 제공하기 위한 하나 또는 다수의 센서를 포함한다. 예를 들어, 센서 어셈블리(214)는 비디오 클립 추출 장치(200)의 온/오프 상태, 어셈블리의 상대적인 포지션, 예를 들어 상기 어셈블리가 비디오 클립 추출 장치(200)의 디스플레이와 키패드인지를 검출할 수 있다. 센서 어셈블리(214)는 비디오 클립 추출 장치(200) 또는 비디오 클립 추출 장치(200)의 하나의 어셈블리의 위치 변화, 사용자와 비디오 클립 추출 장치(200)의 접촉 여부, 비디오 클립 추출 장치(200)의 방위 또는 가속/감속 및 비디오 클립 추출 장치(200)의 온도 변화를 검출할 수도 있다. 센서 어셈블리(214)는 어떠한 물리적 접촉이 없는 상황에서 근처 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 어셈블리(214)는 CMOS 또는 CCD 화상 센서와 같이 촬상 어플리케이션에서 사용되는 광학 센서를 포함할 수도 있다. 일부 실시예에서, 당해 센서 어셈블리(214)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 포함할 수도 있다.

통신 어셈블리(216)는 비디오 클립 추출 장치(200)와 그 밖의 다른 기기 사이의 유선 또는 무선 방식의 통신에 편리하도록 구성된다. 비디오 클립 추출 장치(200)는 WiFi, 2G, 3G, 또는 이들의 조합과 같은, 통신표준에 따른 무선망에 액세스할 수 있다. 하나의 예시적인 실시예에서, 통신 어셈블리(216)는 방송채널을 통해, 외부 방송 관리 시스템으로부터 방송 신호 또는 방송 관련 정보를 수신한다. 하나의 예시적인 실시예에서, 상기 통신 어셈블리(216)는 단거리 통신을 촉진하도록 근거리 통신(NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선주파수 인식(RFID) 기술, 적외선데이터협회(IrDA) 기술, 초고속 광대역(UWB) 기술, 블루투스(BT) 기술과 그 밖의 다른 기술을 통해 구현될 수 있다.

예시적인 실시예에서, 비디오 클립 추출 장치(200)는 하나 또는 다수의 주문형 반도체(ASIC)，디지털 신호 프로세서(DSP)，디지털 신호 처리 장치(DSPD)，프로그래머블 로직 디바이스(PLD)，필드 프로그래머블 게이트 어레이(FPGA)，컨트롤러，마이크로 컨트롤러，마이크로 프로세서 또는 그 밖의 다른 전자소자에 의해 구현되어 상술한 방법을 수행할 수 있다.

예시적인 실시예에서는 명령을 포함하는 비일시적 컴퓨터 판독 가능 저장매체 예를 들어 명령을 포함하는 메모리(204)를 더 제공하며, 상기 명령은 비디오 클립 추출 장치(200)의 프로세서(220)에 의해 수행되어 상술한 방법을 구현할 수 있다. 예를 들어, 상기 비일시적 컴퓨터 판독 가능 저장매체는 ROM，램(RAM)，CD-ROM，자기 테이프， 플로피 디스크와 광 데이터 저장장치 등일 수 있다.

추가적으로 이해할 수 있듯이, 본 개시에서 "다수"는 2개 또는 2개 이상을 가리키며, 다른 수사는 이와 유사하다. "및/또는"은 관련 대상의 관련 관계를 설명하며 3가지 관계가 존재함을 나타낸다. 예를 들어 A및/또는 B는, A가 단독으로 존재; A와 B가 동시에 존재; B가 단독으로 존재하는 3가지 경우를 나타낼 수 있다. 캐릭터 "/"는 일반적으로 전후 관련 대상이 "또는"의 관계를 가짐을 나타낸다. 단수 형태의 "한 가지", "상기", "당해"도 문맥상 다른 의미를 명확하게 표시하지 않은 한 복수 형태를 포함함을 나타낸다.

추가적으로 이해할 수 있듯이, 용어 "제1", "제2" 등은 각종 정보를 설명하기 위한 것이나, 이들 정보는 이들 용어에 한정되어서는 안 된다. 이들 용어는 동일 유형의 정보들을 서로 구분하기 위해서만 이용되고, 특정 순서 또는 중요도를 나타내지 않는다. 사실상, "제1", "제2" 등 표현은 완전히 호환하여 사용될 수 있다. 예를 들어, 본 개시의 범위를 벗어나지 않는 상황에서, 제1 정보는 제2 정보로 부를 수 있고, 이와 유사하게 제2 정보도 제1 정보로 부를 수 있다.

추가적으로 이해할 수 있듯이, 특별한 설명이 없는 한, "연결"은 양자 사이에 다른 부재가 존재하지 않는 직접적인 연결을 포함하고, 양자 사이에 다른 소자가 존재하는 간접적인 연결도 포함한다.

추가적으로 이해할 수 있듯이, 본 개시의 실시예는 도면에서 특정 순서로 동작을 설명했으나, 이를 표시된 특정 순서 또는 직렬 순서에 따라 이들 동작을 수행할 것을 요구하거나, 또는 기대하는 결과를 획득하기 위해 표시된 전체 동작을 모두 수행할 것을 요구하는 것으로 이해해서는 안 된다. 특정 환경에서 멀티 태스크와 병행 처리가 유리할 수 있다.

본 분야의 통상의 기술자라면 명세서를 고려하고 여기서 개시된 발명을 실천한 후, 본 개시의 다른 실시형태를 쉽게 생각할 수 있을 것이다. 본 출원은 본 개시의 모든 변형, 용도 또는 적응성 변화를 포함하는 것으로 의도하며, 이러한 변형, 용도 또는 적응성 변화는 본 개시의 일반적 원리를 따르고 본 개시에서 개시되지 않은 본 기술분야의 공지기술 또는 관용 기술수단을 포함한다. 명세서와 실시예는 예시적인 것으로만 간주되며, 본 개시의 진정한 범위와 정신은 후술되는 청구항에서 지적된다.

이해해야 할 것은, 본 개시는 위에서 설명되고 도면에 도시된 정밀한 구성에 한정되지 않으며, 그 범위를 벗어나지 않으면서 다양하게 수정하고 변경할 수 있다. 본 개시의 범위는 후술되는 청구항으로만 한정된다.

101: 획득 유닛 102: 특징 추출 유닛
103: 결정 유닛 104: 추출 유닛

Claims

비디오 클립 추출 방법에 있어서,
비디오를 획득하고 상기 비디오에서 N개의 비디오 프레임을 샘플링하여 획득하는 단계 - 상기 N은 양의 정수임 -;
상기 N개의 비디오 프레임을 미리 훈련된 프레임 특징 추출 모델에 입력하여, 상기 N개의 비디오 프레임 중 각 비디오 프레임의 특징 벡터를 획득하는 단계;
미리 훈련된 채점 모델에 기반하여 상기 N개의 비디오 프레임의 점수를 결정하는 단계 - 상기 N개의 비디오 프레임 중 제i 프레임에 대하여, 상기 제i 프레임을 중심으로 한 K개의 비디오 프레임의 특징 벡터를 미리 훈련된 채점 모델에 입력하여 상기 제i 프레임의 점수를 획득하며, 상기 i는 N과 같거나 그보다 작은 양의 정수이고, 상기 K는 양의 정수임 -; 및
상기 N개의 비디오 프레임의 점수에 기반하여 상기 비디오에서 목표 비디오 클립을 추출하는 단계;를 포함하는
것을 특징으로 하는 비디오 클립 추출 방법.
제1항에 있어서,
상기 채점 모델은 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 훈련시켜 획득하며;
상기 제1 클립과 제2 클립으로 이루어진 데이터 쌍은 목표 속성이 레이블된 샘플 비디오 클립에 기반하여 획득하며, 상기 목표 속성은 비디오 클립이 목표 비디오 클립 또는 비 목표 비디오 클립임을 나타내는 속성을 포함하며, 상기 멀티프레임 융합층은 K개 비디오 프레임의 특징 벡터를 고정길이 벡터로 융합하기 위한
것을 특징으로 하는 비디오 클립 추출 방법.
제2항에 있어서,
상기 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 상기 채점 모델을 훈련시켜 획득하는 단계는,
제1 클립에서 K개의 비디오 프레임을 샘플링하고, 상기 제1 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 프레임 특징 추출 모델에 기반하여 추출하며, 제2 클립에서 K개의 비디오 프레임을 샘플링하고, 상기 제2 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 프레임 특징 추출 모델에 기반하여 추출하는 단계;
상기 제1 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 상기 멀티프레임 융합층에 기반하여 고정길이 벡터를 가진 제1 클립의 특징 벡터로 융합하고, 상기 제2 클립에서 샘플링된 K개의 비디오 프레임을 상기 멀티프레임 융합층에 기반하여 고정길이 벡터를 가진 제2 클립의 특징 벡터로 융합하는 단계; 및
상기 제1 클립의 특징 벡터와 상기 제2 클립의 특징 벡터를 샴 신경망에 입력하여 상기 제1 클립의 점수와 상기 제2 클립의 점수를 획득하고, 정렬 손실을 이용한 역전파를 수행하여 훈련시켜 훈련된 샴 신경망을 획득하는 단계 - 상기 샴 신경망은 파라미터를 공유하는 2개의 다층 퍼셉트론 모델을 포함하며, 상기 채점 모델은 상기 훈련된 샴 신경망의 하나의 다층 퍼셉트론 모델임 -;를 포함하는
것을 특징으로 하는 비디오 클립 추출 방법.
제2항 또는 제3항에 있어서,
상기 제1 클립과 제2 클립으로 이루어진 데이터 쌍은, 목표 속성이 레이블된 샘플 비디오 클립에 기반하여, 하기와 같은 방식 즉,
하나 또는 다수의 샘플 비디오 클립이 포함된 샘플 비디오를 획득하고;
상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성, 및 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에 기반하여 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득하고, 제1 클립이 목표 비디오 클립이 될 가능성은 제2 클립이 목표 비디오 클립이 될 가능성보다 큰; 방식으로 획득하는
것을 특징으로 하는 비디오 클립 추출 방법.
제4항에 있어서,
상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성, 및 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에 기반하여, 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득하는 단계는,
상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성을 포함하면, 상기 하나 또는 다수의 샘플 비디오 클립을 제1 클립으로 하고, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제2 클립으로 하며, 상기 제1 클립과 상기 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득하는 단계; 또는
상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 상기 하나 또는 다수의 샘플 비디오 클립을 제2 클립으로 하고, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제1 클립으로 하며, 상기 제1 클립과 상기 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득하는 단계; 또는
상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성과 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제1 클립으로 하고, 비 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제2 클립으로 하며, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여, 상기 제1 클립과 상기 제2 클립에 의해 데이터 쌍을 획득하고, 상기 제1 클립과 상기 일부 비디오 클립에 의해 데이터 쌍을 획득하며, 상기 제2 클립과 상기 일부 비디오 클립에 의해 데이터 쌍을 획득하는 단계;를 포함하는
것을 특징으로 하는 비디오 클립 추출 방법.
제1항에 있어서,
상기 N개의 비디오 프레임의 점수에 기반하여 상기 비디오에서 목표 비디오 클립을 추출하는 단계는,
고정길이의 슬라이딩 윈도우를 시간순서로 상기 비디오에서 슬라이딩시켜 다수의 비디오 클립을 획득하는 단계 - 각각의 슬라이딩 윈도우는 하나의 비디오 클립에 대응됨 -;
각각의 슬라이딩 윈도우에 대해, 슬라이딩 윈도우 내에 포함된 비디오 프레임의 평균 점수를 각각 결정하고, 상기 비디오 프레임의 평균 점수를 슬라이딩 윈도에 대응하는 비디오 클립의 점수로 하는 단계; 및
상기 다수의 비디오 클립의 점수에 기반하여 상기 다수의 비디오 클립에서 하나 또는 다수의 목표 비디오 클립을 추출하는 단계;를 포함하는
것을 특징으로 하는 비디오 클립 추출 방법.
비디오 클립 추출 장치에 있어서,
획득 유닛, 특징 추출 유닛, 결정 유닛 및 추출 유닛을 포함하며,
상기 획득 유닛은, 비디오를 획득하고 상기 비디오에서 N개의 비디오 프레임을 샘플링하여 획득하기 위한 것으로, 상기 N은 양의 정수이며;
상기 특징 추출 유닛은, 상기 N개의 비디오 프레임을 미리 훈련된 프레임 특징 추출 모델에 입력하여, 상기 N개의 비디오 프레임 중 각 비디오 프레임의 특징 벡터를 획득하기 위한 것이며;
상기 결정 유닛은, 미리 훈련된 채점 모델에 기반하여 상기 N개의 비디오 프레임의 점수를 결정하되, 상기 N개의 비디오 프레임 중 제i 프레임에 대하여, 상기 제i 프레임을 중심으로 한 K개의 비디오 프레임의 특징 벡터를 미리 훈련된 채점 모델에 입력하여 상기 제i 프레임의 점수를 획득하기 위한 것으로, 상기 i는 N과 같거나 그보다 작은 양의 정수이고, 상기 K는 양의 정수이며;
상기 추출 유닛은, 상기 N개의 비디오 프레임의 점수에 기반하여 상기 비디오에서 목표 비디오 클립을 추출하기 위한 것;
을 특징으로 하는 비디오 클립 추출 장치.
제7항에 있어서,
상기 비디오 클립 추출 장치는 훈련 유닛을 더 포함하며,
상기 훈련 유닛은, 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여 상기 채점 모델을 훈련시켜 획득하기 위한 것이며, 상기 제1 클립과 제2 클립으로 이루어진 데이터 쌍은 목표 속성이 레이블된 샘플 비디오 클립에 기반하여 획득하며, 상기 목표 속성은 비디오 클립이 목표 비디오 클립 또는 비 목표 비디오 클립임을 나타내는 속성을 포함하며, 상기 멀티프레임 융합층은 K개 비디오 프레임의 특징 벡터를 고정길이 벡터로 융합하기 위한
것을 특징으로 하는 비디오 클립 추출 장치.
제8항에 있어서,
상기 훈련 유닛은, 상기 멀티프레임 융합층, 및 제1 클립과 제2 클립으로 이루어진 데이터 쌍에 기반하여, 하기와 같은 방식 즉,
제1 클립에서 K개의 비디오 프레임을 샘플링하고, 상기 제1 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 프레임 특징 추출 모델에 기반하여 추출하며, 제2 클립에서 K개의 비디오 프레임을 샘플링하고, 상기 제2 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 프레임 특징 추출 모델에 기반하여 추출하고;
상기 제1 클립에서 샘플링된 K개 비디오 프레임의 특징 벡터를 상기 멀티프레임 융합층에 기반하여 고정길이 벡터를 가진 제1 클립의 특징 벡터로 융합하고, 상기 제2 클립에서 샘플링된 K개 비디오 프레임을 상기 멀티프레임 융합층에 기반하여 고정길이 벡터를 가진 제2 클립의 특징 벡터로 융합하며;
상기 제1 클립의 특징 벡터와 상기 제2 클립의 특징 벡터를 샴 신경망에 입력하여 상기 제1 클립의 점수와 상기 제2 클립의 점수를 획득하고, 정렬 손실을 이용한 역전파를 수행하여 훈련시켜 훈련된 샴 신경망을 획득하고, 상기 샴 신경망은 파라미터를 공유하는 2개의 다층 퍼셉트론 모델을 포함하며, 상기 채점 모델은 상기 훈련된 샴 신경망의 하나의 다층 퍼셉트론 모델인;
방식으로 상기 채점 모델을 훈련시켜 획득하는
것을 특징으로 하는 비디오 클립 추출 장치.
제8항 또는 제9항에 있어서,
상기 제1 클립과 제2 클립으로 이루어진 데이터 쌍은, 목표 속성이 레이블된 샘플 비디오 클립에 기반하여, 하기와 같은 방식 즉,
하나 또는 다수의 샘플 비디오 클립이 포함된 샘플 비디오를 획득하고;
상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성, 및 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에 기반하여, 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득하고, 제1 클립이 목표 비디오 클립이 될 가능성은 제2 클립이 목표 비디오 클립이 될 가능성보다 큰;방식으로 획득하는
것을 특징으로 하는 비디오 클립 추출 장치.
제10항에 있어서,
상기 제1 클립과 제2 클립으로 이루어진 데이터 쌍은, 상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성, 및 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에 기반하여, 하기와 같은 방식 즉,
상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성을 포함하면, 상기 하나 또는 다수의 샘플 비디오 클립을 제1 클립으로 하고, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제2 클립으로 하며, 상기 제1 클립과 상기 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득하는 방식; 또는
상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 상기 하나 또는 다수의 샘플 비디오 클립을 제2 클립으로 하고, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여 제1 클립으로 하며, 상기 제1 클립과 상기 제2 클립에 의해 하나 또는 다수의 데이터 쌍을 획득하는 방식; 또는
상기 하나 또는 다수의 샘플 비디오 클립에 레이블된 목표 속성이 비디오 클립이 목표 비디오 클립임을 나타내는 속성과 비디오 클립이 비 목표 비디오 클립임을 나타내는 속성을 포함하면, 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제1 클립으로 하고, 비 목표 비디오 클립임을 나타내는 속성이 레이블된 샘플 비디오 클립을 제2 클립으로 하며, 상기 샘플 비디오에 포함된 비 샘플 비디오 클립에서 일부 비디오 클립을 추출하여, 상기 제1 클립과 상기 제2 클립에 의해 데이터 쌍을 획득하고, 상기 제1 클립과 상기 일부 비디오 클립에 의해 데이터 쌍을 획득하며, 상기 제2 클립과 상기 일부 비디오 클립에 의해 데이터 쌍을 획득하는 방식;
으로 제1 클립과 제2 클립으로 이루어진 데이터 쌍을 획득하는
것을 특징으로 하는 비디오 클립 추출 장치.
제7항에 있어서,
상기 추출 모듈은, 상기 N개의 비디오 프레임의 점수에 기반하여, 하기와 같은 방식 즉,
고정길이의 슬라이딩 윈도우를 시간순서로 상기 비디오에서 슬라이딩시켜 다수의 비디오 클립을 획득하고, 각각의 슬라이딩 윈도우는 하나의 비디오 클립에 대응되며;
각각의 슬라이딩 윈도우에 대해, 슬라이딩 윈도우 내에 포함된 비디오 프레임의 평균 점수를 각각 결정하고, 상기 비디오 프레임의 평균 점수를 슬라이딩 윈도에 대응하는 비디오 클립의 점수로 하며;
상기 다수의 비디오 클립의 점수에 기반하여 상기 다수의 비디오 클립에서 하나 또는 다수의 목표 비디오 클립을 추출하는;
방식으로 상기 비디오에서 목표 비디오 클립을 추출하는
것을 특징으로 하는 비디오 클립 추출 장치.
비디오 클립 추출 장치에 있어서,
명령을 저장하기 위한 메모리; 및
상기 메모리에 저장된 명령을 호출하여 제1항 내지 제6항 중 어느 한 항에 따른 비디오 클립 추출 방법을 수행하기 위한 프로세서를 포함하는
것을 특징으로 하는 비디오 클립 추출 장치.
명령이 저장되어 있는 컴퓨터 판독 가능 저장매체에 있어서,
상기 명령이 프로세서에 의해 수행되는 경우, 제1항 내지 제6항 중 어느 한 항에 따른 비디오 클립 추출 방법이 수행되는
것을 특징으로 하는 명령이 저장되어 있는 컴퓨터 판독 가능 저장매체.