KR102668118B1

KR102668118B1 - 자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법

Info

Publication number: KR102668118B1
Application number: KR1020230065284A
Authority: KR
Inventors: 김은우; 신정규
Original assignee: 중앙대학교 산학협력단
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2024-05-24

Abstract

자연어 기반의 비디오 검색을 위한 학습 장치가 개시된다. 개시되는 일 실시예에 따른 학습 장치는, 자연어로 이루어지는 텍스트의 데이터 셋을 입력 받고, 입력되는 텍스트로부터 제1 특징 벡터를 추출하도록 학습되는 제1 학습 모델을 구비하는 제1 인공 신경망 모듈 및 비디오의 데이터 셋을 입력 받고, 입력되는 비디오로부터 제2 특징 벡터를 추출하도록 학습되는 제2 학습 모델을 구비하는 제2 인공 신경망 모듈을 포함하고, 제1 특징 벡터와 제2 특징 벡터에 기초하여 제1 학습 모델 및 제2 학습 모델에 대해 기 설정된 대조 손실을 만족하도록 대조 학습을 수행한다.

Description

자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법{Learning device and learning method for natural language-based video search}

본 발명의 실시예는 자연어 기반의 비디오 검색을 위한 학습 기술과 관련된다.

비디오-자연어 검색은 주어진 여러 개의 비디오 및 자연어 문장에 대해 자연어 문장의 맥락과 일치하는 비디오를 검색하는 작업이다. 이를 위해 신경망 모델은 비디오 및 자연어의 맥락을 정확히 이해해야 하며, 이해한 맥락 정보를 바탕으로 여러 개의 비디오와 자연어의 맥락을 대조하여 유사도가 가장 높은 비디오를 찾는 것을 목적으로 한다.

한국공개특허공보 제10-2010-0056839호(2010.05.28)

개시되는 실시예는 새로운 기법의 자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법을 제공하기 위한 것이다.

개시되는 일 실시예에 따른 학습 장치는, 자연어 기반의 비디오 검색을 위한 학습 장치로서, 자연어로 이루어지는 텍스트의 데이터 셋을 입력 받고, 입력되는 텍스트로부터 제1 특징 벡터를 추출하도록 학습되는 제1 학습 모델을 구비하는 제1 인공 신경망 모듈; 및 비디오의 데이터 셋을 입력 받고, 입력되는 비디오로부터 제2 특징 벡터를 추출하도록 학습되는 제2 학습 모델을 구비하는 제2 인공 신경망 모듈을 포함하고, 상기 제1 특징 벡터와 제2 특징 벡터에 기초하여 상기 제1 학습 모델 및 상기 제2 학습 모델에 대해 기 설정된 대조 손실을 만족하도록 대조 학습을 수행한다.

상기 학습 장치는, 상기 제1 특징 벡터들과 상기 제2 특징 벡터들 간의 유사도를 각각 산출하고, 산출한 유사도에 기초하여 제1 특징 벡터와 제2 특징 벡터 간 상호 대응되는 긍정 쌍을 추출하고, 상기 제1 특징 벡터들 및 상기 제2 특징 벡터들의 상기 긍정 쌍을 제외한 쌍들 중에서 일부를 상기 대조 학습을 위한 부정 쌍으로 선택할 수 있다.

상기 학습 장치는, 상기 긍정 쌍을 제외한 쌍들 중에서 상기 부정 쌍으로 선택되지 않은 쌍들은 학습에서 배제시키는 쌍으로 선택할 수 있다.

상기 학습 장치는, 상기 긍정 쌍을 제외한 쌍들 중에서 상기 산출한 유사도 값이 기 설정된 하한 값과 상한 값 사이의 쌍을 상기 부정 쌍으로 선택하고, 상기 산출한 유사도 값이 상기 하한 값 미만이거나 상기 상한 값을 초과하는 쌍은 학습에서 배제시키는 쌍으로 선택할 수 있다.

상기 학습 장치는, 상기 대조 학습의 에포크(epoch)가 진행될 때마다 상기 하한 값과 상기 상한 값을 갱신할 수 있다.

상기 학습 장치는, 상기 대조 학습의 각 에포크가 종료되는 경우, 해당 에포크 진행 시 상기 긍정 쌍을 제외한 쌍들의 데이터 분포에 따라 상기 하한 값과 상기 상한 값을 갱신할 수 있다.

개시되는 일 실시예에 따른 자연어 기반의 비디오 검색을 위한 학습 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 자연어로 이루어지는 텍스트의 데이터 셋을 입력 받고, 텍스트를 제1 학습 모델로 입력하여 상기 텍스트로부터 제1 특징 벡터를 추출하도록 하는 단계; 비디오의 데이터 셋을 입력 받고, 비디오를 제2 학습 모델로 입력하여 상기 비디오로부터 제2 특징 벡터를 추출하도록 하는 단계; 및 상기 제1 특징 벡터와 제2 특징 벡터에 기초하여 상기 제1 학습 모델 및 상기 제2 학습 모델에 대해 기 설정된 대조 손실을 만족하도록 대조 학습을 수행하는 단계를 포함한다.

상기 대조 학습을 수행하는 단계는, 상기 제1 특징 벡터들과 상기 제2 특징 벡터들 간의 유사도를 각각 산출하는 단계; 산출한 유사도에 기초하여 제1 특징 벡터와 제2 특징 벡터 간 상호 대응되는 긍정 쌍을 추출하는 단계; 및 상기 제1 특징 벡터들 및 상기 제2 특징 벡터들의 상기 긍정 쌍을 제외한 쌍들 중에서 일부를 상기 대조 학습을 위한 부정 쌍으로 선택하는 단계를 포함할 수 있다.

상기 부정 쌍으로 선택하는 단계는, 상기 긍정 쌍을 제외한 쌍들 중에서 상기 산출한 유사도 값이 기 설정된 하한 값과 상한 값 사이의 쌍을 상기 부정 쌍으로 선택하고, 상기 산출한 유사도 값이 상기 하한 값 미만이거나 상기 상한 값을 초과하는 쌍은 학습에서 배제시키는 쌍으로 선택할 수 있다.

개시되는 실시예에 의하면, 제1 특징 벡터들과 제2 특징 벡터들 간의 유사도를 각각 산출하여 긍정 쌍들을 각각 추출한 후, 긍정 쌍을 제외한 나머지 쌍들 중에서 유사도에 따라 부정 쌍으로 선택할 쌍들과 부정 쌍으로 선택하지 않고 학습에서 배제시킬 쌍들을 각각 선택하여 대조 학습을 수행함으로써, 긍정 쌍과 유사한 정보를 내포한 쌍 또는 학습 시 오차를 유발 할 수 있는 쌍이 부정 쌍으로 설정되는 것을 방지할 수 있게 되고, 그로 인해 학습 오류는 줄이고 학습 성능을 향상시킬 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 자연어 기반의 비디오 검색을 위한 학습 장치를 나타낸 도면
도 2는 본 발명의 일 실시예에서 하나의 텍스트(제1 특징 벡터)와 여러 개의 비디오(제2 특징 벡터) 간의 유사도를 산출하는 상태를 나타낸 도면
도 3은 본 발명의 일 실시예에서 하나의 비디오와 복수 개의 텍스트 간의 긍정 쌍과 부정 쌍을 나타낸 도면
도 4는 본 발명의 일 실시예에서 긍정 쌍을 제외한 나머지 쌍들 중에서 유사도의 하한 값과 상한 값에 따라 학습에서 배제되는 쌍을 선택하는 과정을 나타낸 도면
도 5는 본 발명의 일 실시예에 따른 학습 방법을 설명하기 위한 흐름도
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

도 1은 본 발명의 일 실시예에 따른 자연어 기반의 비디오 검색을 위한 학습 장치를 나타낸 도면이다.

도 1을 참조하면, 학습 장치(100)는 제1 인공 신경망 모듈(102) 및 제2 인공 신경망 모듈(104)을 포함할 수 있다. 학습 장치(100)는 자연어로 이루어지는 텍스트가 입력되는 경우, 텍스트의 맥락에 대응하는 비디오를 검색하기 위한 것으로서, 이러한 태스크를 수행하도록 기계 학습을 수행할 수 있다.

제1 인공 신경망 모듈(102)은 자연어로 이루어지는 텍스트의 데이터 셋을 입력 받을 수 있다. 제1 인공 신경망 모듈(102)은 입력되는 텍스트로부터 제1 특징 벡터를 추출할 수 있다. 텍스트는 비디오 검색을 위한 텍스트일 수 있다. 제1 인공 신경망 모듈(102)은 제1 전처리부(102a) 및 제1 학습 모델(102b)을 포함할 수 있다.

제1 전처리부(102a)는 입력되는 텍스트를 기 설정된 토큰 단위로 토큰화(tokenization)할 수 있다. 일 실시예에서, 제1 전처리부(102a)는 텍스트를 단어 단위로 토큰화 하여 토큰 시퀀스를 생성할 수 있으나, 이에 한정되는 것은 아니다. 제1 전처리부(102a)에서 생성되는 토큰 시퀀스는 아래 수학식 1과 같이 나타낼 수 있다.

(수학식 1)

T_n : 텍스트의 n번째 문장에 대한 토큰 시퀀스

t : 토큰

J : 토큰의 개수

제1 학습 모델(102b)은 자연어 처리 기반의 기계 학습 모델일 수 있다. 제1 학습 모델(102b)은 제1 전처리부(102a)로부터 텍스트에 대한 토큰 시퀀스를 입력 받고, 토큰 시퀀스로부터 제1 특징 벡터를 추출하도록 학습될 수 있다. 제1 학습 모델(102b)은 토큰 시퀀스를 입력 받아 제1 특징 벡터를 추출하는 인코더 모델일 수 있다. 일 실시예에서, 제1 학습 모델(102b)은 BERT(Bidirectional Encoder Representation from Transformers) 기반의 기계 학습 모델일 수 있으나, 이에 한정되는 것은 아니다.

제2 인공 신경망 모듈(104)은 비디오의 데이터 셋을 입력 받을 수 있다. 제2 인공 신경망 모듈(104)은 입력되는 비디오로부터 제2 특징 벡터를 추출할 수 있다. 여기서, 비디오는 제1 인공 신경망 모듈(102)로 입력되는 텍스트의 맥락과 대응하는 비디오일 수도 있고, 텍스트의 맥락과 관련 없는 비디오일 수도 있다. 제2 인공 신경망 모듈(104)은 제2 전처리부(104a) 및 제2 학습 모델(104b)을 포함할 수 있다.

제2 전처리부(104a)는 입력되는 비디오에서 기 설정된 개수의 프레임을 추출할 수 있다. 제2 전처리부(104a)는 입력되는 비디오에서 기 설정된 개수 단위로 프레임들을 추출하여 프레임 시퀀스를 구성할 수 있다. 예를 들어, 제2 전처리부(104a)는 입력되는 비디오에서 16개 단위로 프레임들을 추출하여 프레임 시퀀스를 구성할 수 있다. 제2 전처리부(104a)에서 생성되는 프레임 시퀀스는 아래 수학식 2와 같이 나타낼 수 있다.

(수학식 2)

V_n : n번째 비디오의 프레임 시퀀스

v : 프레임

I : 프레임의 개수

제2 학습 모델(104b)은 제2 전처리부(104a)로부터 프레임 시퀀스를 입력 받고, 입력된 프레임 시퀀스로부터 제2 특징 벡터를 추출하도록 학습될 수 있다. 제2 학습 모델(104b)은 프레임 시퀀스를 입력 받아 제2 특징 벡터를 추출하는 인코더 모델일 수 있다. 일 실시예에서, 제2 학습 모델(104b)은 비주얼 트랜스포머(Visual Transformer)일 수 있으나, 이에 한정되는 것은 아니다.

여기서, 학습 장치(100)는 제1 학습 모델(102b)에서 출력되는 제1 특징 벡터(텍스트에 대한 제1 특징 벡터)들 및 제2 학습 모델(104b)에서 출력되는 제2 특징 벡터(비디오에 대한 제2 특징 벡터)들 간에 대조 손실(contrastive loss)이 최소화 되도록 제1 학습 모델(102b)과 제2 학습 모델(104b)을 학습시킬 수 있다.

구체적으로, 학습 장치(100)는 제1 특징 벡터들과 제2 특징 벡터들 간의 유사도에 기초하여 대조 학습을 수행할 수 있다. 여기서, 대조 학습에 따른 손실 함수는 아래의 수학식 1로 나타낼 수 있다.

(수학식 1)

sim(f_n, s_n): 제1 특징 벡터(s)와 제2 특징 벡터(f)의 긍정 쌍(positive pair) 간의 유사도

sim(f_n, s_m): 제1 특징 벡터(s)와 제2 특징 벡터(f)의 부정 쌍(negative pair) 간의 유사도

N : 제1 특징 벡터(s)와 제2 특징 벡터(f)의 부정 쌍의 전체 개수

학습 장치(100)는 수학식 1에 나타난 손실 함수()를 통해 긍정 쌍 간의 거리는 줄어들고, 부정 쌍 간의 거리는 늘어나도록 제1 학습 모델(102b)과 제2 학습 모델(104b)을 학습시킬 수 있다.

여기서, 제1 특징 벡터와 제2 특징 벡터의 긍정 쌍이라 함은 제1 특징 벡터와 제2 특징 벡터가 상호 대응되는 것을 의미할 수 있다. 즉, 텍스트로부터 추출한 제1 특징 벡터와 비디오로부터 추출한 제2 특징 벡터가 서로 맥락이 맞아 대응되는 것을 긍정 쌍이라 할 수 있다.

이때, 제1 특징 벡터와 제2 특징 벡터가 긍정 쌍인지의 여부는 제1 특징 벡터와 제2 특징 벡터 간의 유사도를 통해 확인할 수 있다. 일 실시예에서, 학습 장치(100)는 학습 장치(100)는 제1 특징 벡터들과 제2 특징 벡터들 간 유사도가 가장 높은 쌍들을 각각 긍정 쌍으로 설정할 수 있다. 그리고, 학습 장치(100)는 긍정 쌍을 제외한 다른 쌍들 중에서 부정 쌍을 설정할 수 있다.

도 2는 본 발명의 일 실시예에서 하나의 텍스트(제1 특징 벡터)와 여러 개의 비디오(제2 특징 벡터) 간의 유사도를 산출하는 상태를 나타낸 도면이다. 또한, 도 3은 본 발명의 일 실시예에서 하나의 비디오와 복수 개의 텍스트 간의 긍정 쌍과 부정 쌍을 나타낸 도면이다.

일반적으로, 대조 학습은 긍정 쌍을 제외한 나머지 모든 쌍들을 부정 쌍으로 설정하게 된다. 이 경우, 부정 쌍 중에서 일부는 긍정 쌍과 유사한 쌍이 있을 수 있으며, 이때 긍정 쌍과 유사한 부정 쌍 간의 거리를 늘리는 방식으로 학습을 하게 되면 학습 모델(102b, 104b)에 혼란을 가미할 수 있고, 그로 인해 학습 오류를 발생시켜 전체적인 성능 저하를 초래할 수 있게 된다.

이에, 개시되는 실시예에서는, 대조 학습 시 긍정 쌍을 제외한 나머지 모든 쌍들을 부정 쌍으로 설정하는 것이 아니라, 긍정 쌍을 제외한 나머지 쌍들 중 일부만을 부정 쌍으로 선택하고, 긍정 쌍을 제외한 나머지 쌍들 중 선택되지 않은 쌍들은 학습에서 아예 배제시킬 수 있다.

학습 장치(100)는 제1 특징 벡터들과 제2 특징 벡터들 간의 유사도를 각각 산출하여 긍정 쌍들을 각각 추출한 후, 긍정 쌍을 제외한 나머지 쌍들 중에서 상기 산출한 유사도에 따라 부정 쌍으로 선택할 쌍들과 부정 쌍으로 선택하지 않고 학습에서 배제시킬 쌍들을 각각 선택할 수 있다.

일 실시예에서, 학습 장치(100)는 긍정 쌍을 제외한 나머지 쌍들 중에서 상기 산출한 유사도 값이 기 설정된 범위 이내인 쌍들을 부정 쌍으로 선택하고, 기 설정된 범위 이외의 쌍들은 학습에서 배제시킬 쌍으로 선택할 수 있다. 예를 들어, 학습 장치(100)는 긍정 쌍을 제외한 나머지 쌍들 중에서 상기 산출한 유사도 값이 기 설정된 하한 값에서 상한 값 사이의 쌍들을 부정 쌍으로 선택하고, 긍정 쌍을 제외한 나머지 쌍들 중에서 상기 산출한 유사도 값이 상기 하한 값 미만이거나 상기 상한 값을 초과하는 쌍을 학습에서 배제시킬 쌍으로 각각 선택할 수 있다.

개시되는 실시예에서는, 긍정 쌍을 제외한 나머지 쌍들 중에서 유사도 값이 기 설정된 범위 이내인 쌍들을 부정 쌍으로 선택하고, 기 설정된 범위 이외의 쌍들은 학습에서 배제시킴으로써, 긍정 쌍과 유사한 정보를 내포한 쌍 또는 학습 시 오차를 유발 할 수 있는 쌍이 부정 쌍으로 설정되는 것을 방지할 수 있게 되고, 그로 인해 학습 오류는 줄이고 학습 성능을 향상시킬 수 있게 된다.

도 4는 본 발명의 일 실시예에서 긍정 쌍을 제외한 나머지 쌍들 중에서 유사도의 하한 값과 상한 값에 따라 학습에서 배제되는 쌍을 선택하는 과정을 나타낸 도면이다.

도 4를 참조하면, 4개의 제1 특징 벡터(S₁~ S₄)과 4개의 제2 특징 벡터(F₁ ~ F₄)가 있는 경우, 학습 장치(100)는 4개의 제1 특징 벡터(S₁~ S₄)과 4개의 제2 특징 벡터(F₁ ~ F₄) 간에 각각 유사도를 산출할 수 있다. 이때, 산출딘 유사도 값에 따라 (S₁, F₁), (S₂, F₂), (S₃, F₃), 및 (S₄, F₄)가 각각 긍정 쌍으로 설정될 수 있다.

여기서, 학습 장치(100)는 긍정 쌍을 제외한 나머지 쌍들 중에서 유사도 값이 기 설정된 하한 값(lower bound)(예를 들어, 0.05) 미만인 (S₂, F₃)과 (S₃, F₂)을 학습에서 배제시킬 수 있다. 또한, 학습 장치(100)는 긍정 쌍을 제외한 나머지 쌍들 중에서 유사도 값이 기 설정된 상한 값(예를 들어, 0.70)을 초과하는 (S₂, F₄), (S₃, F₄), (S₄, F₂), 및 (S₄, F₃)을 학습에서 배제시킬 수 있다.

그리고, 학습 장치(100)는 긍정 쌍을 제외한 나머지 쌍들 중에서 유사도 값이 기 설정된 하한 값에서 상한 값 사이의 쌍인 (S₁, F₂), (S₁, F₃), (S₁, F₄), (S₂, F₁), (S₃, F₁), 및 (S₄, F₁)을 부정 쌍으로 선택할 수 있다.

한편, 학습 장치(100)는 제1 학습 모델(102b)과 제2 학습 모델(104b)을 학습시킬 때, 에포크(epoch)가 진행될 때마다 긍정 쌍을 제외한 나머지 쌍들 중 부정 쌍을 선택하기 위한 하한 값과 상한 값을 변경할 수 있다. 여기서, 에포크는 학습 데이터 셋에 대해 전부 1회씩 학습을 마치는 과정을 의미할 수 있다. 학습 장치(100)는 제1 학습 모델(102b)과 제2 학습 모델(104b)의 학습 시 복수 회의 에포크를 진행할 수 있다.

일 실시예에서, 학습 장치(100)는 각 에포크가 종료되는 경우, 해당 에포크 진행 시 긍정 쌍을 제외한 나머지 쌍들의 데이터 분포에 따라 하한 값과 상한 값을 갱신할 수 있다.

개시되는 실시예에 의하면, 제1 특징 벡터들과 제2 특징 벡터들 간의 유사도를 각각 산출하여 긍정 쌍들을 각각 추출한 후, 긍정 쌍을 제외한 나머지 쌍들 중에서 유사도에 따라 부정 쌍으로 선택할 쌍들과 부정 쌍으로 선택하지 않고 학습에서 배제시킬 쌍들을 각각 선택하여 대조 학습을 수행함으로써, 학습 오류를 줄이고 학습 성능을 향상시킬 수 있게 된다.

본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 "모듈"은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아니다.

도 5는 본 발명의 일 실시예에 따른 학습 방법을 설명하기 위한 흐름도이다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

도 5를 참조하면, 학습 장치(100)는 텍스트를 제1 학습 모델(102b)로 입력하여 제1 특징 벡터를 추출할 수 있다(S 101). 이때, 학습 장치(100)는 텍스트를 토큰화 하여 토큰 시퀀스를 생성한 후 토큰 시퀀스를 제1 학습 모델(102b)로 입력하여 제1 특징 벡터를 추출하도록 할 수 있다.

다음으로, 학습 장치(100)는 비디오를 제2 학습 모델(104b)로 입력하여 제2 특징 벡터를 추출할 수 있다(S 103). 이때, 학습 장치(100)는 비디오에서 기 설정된 개수 단위로 프레임들을 추출하여 프레임 시퀀스를 구성한 후 프레임 시퀀스를 제2 학습 모델(104b)로 입력하여 제2 특징 벡터를 추출하도록 할 수 있다.

다음으로, 학습 장치(100)는 제1 특징 벡터들과 제2 특징 벡터들 간 유사도를 각각 측정할 수 있다(S 105). 다음으로, 학습 장치(100)는 유사도에 기초하여 제1 특징 벡터들과 제2 특징 벡터들 중 상호 대응하는 긍정 쌍을 추출할 수 있다(S 107).

다음으로, 학습 장치(100)는 긍정 쌍을 제외한 쌍들 중 유사도가 기 설정된 범위 이내의 쌍을 부정 쌍으로 선택하고, 유사도가 기 설정된 범위 이외의 쌍은 학습에서 배제시킬 쌍으로 선택할 수 있다(S 109).

다음으로, 학습 장치(100)는 긍정 쌍과 부정 쌍을 이용하여 기 설정된 손실 함수가 최소화 되도록 제1 학습 모델(102b) 및 제2 학습 모델(104b)을 학습시킬 수 있다(S 111).

도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 학습 장치(100)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

10 : 컴퓨팅 환경
12 : 컴퓨팅 장치
14 : 프로세서
16 : 컴퓨터 판독 가능 저장 매체
18 : 통신 버스
20 : 프로그램
22 : 입출력 인터페이스
24 : 입출력 장치
26 : 네트워크 통신 인터페이스
100 : 학습 장치
102 : 제1 인공 신경망 모듈
102a : 제1 전처리부
102b : 제1 학습 모델
104 : 제2 인공 신경망 모듈
104a : 제2 전처리부
104b : 제2 학습 모델

Claims

학습 장치로서,
자연어로 이루어지는 텍스트의 데이터 셋을 입력 받고, 입력되는 텍스트로부터 제1 특징 벡터를 추출하도록 학습되는 제1 학습 모델을 구비하는 제1 인공 신경망 모듈; 및
비디오의 데이터 셋을 입력 받고, 입력되는 비디오로부터 제2 특징 벡터를 추출하도록 학습되는 제2 학습 모델을 구비하는 제2 인공 신경망 모듈을 포함하고,
상기 제1 특징 벡터와 제2 특징 벡터에 기초하여 상기 제1 학습 모델 및 상기 제2 학습 모델에 대해 기 설정된 대조 손실을 만족하도록 대조 학습을 수행하며,
상기 학습 장치는,
상기 제1 특징 벡터들과 상기 제2 특징 벡터들 간의 유사도를 각각 산출하고, 산출한 유사도에 기초하여 제1 특징 벡터와 제2 특징 벡터 간 상호 대응되는 긍정 쌍을 추출하고, 상기 제1 특징 벡터들 및 상기 제2 특징 벡터들의 상기 긍정 쌍을 제외한 쌍들 중에서 일부를 상기 대조 학습을 위한 부정 쌍으로 선택하되, 상기 긍정 쌍을 제외한 쌍들 중에서 상기 산출한 유사도 값이 기 설정된 하한 값과 상한 값 사이의 쌍을 상기 부정 쌍으로 선택하고, 상기 산출한 유사도 값이 상기 하한 값 미만이거나 상기 상한 값을 초과하는 쌍은 학습에서 배제시키는 쌍으로 선택하며,
상기 학습 장치는,
상기 대조 학습의 에포크(epoch)가 진행될 때마다 상기 하한 값과 상기 상한 값을 갱신하되, 상기 대조 학습의 각 에포크가 종료되는 경우, 해당 에포크 진행 시 상기 긍정 쌍을 제외한 쌍들의 데이터 분포에 따라 상기 하한 값과 상기 상한 값을 갱신하는, 학습 장치.
삭제
삭제
삭제
삭제
삭제
하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
자연어로 이루어지는 텍스트의 데이터 셋을 입력 받고, 텍스트를 제1 학습 모델로 입력하여 상기 텍스트로부터 제1 특징 벡터를 추출하도록 하는 단계;
비디오의 데이터 셋을 입력 받고, 비디오를 제2 학습 모델로 입력하여 상기 비디오로부터 제2 특징 벡터를 추출하도록 하는 단계; 및
상기 제1 특징 벡터와 제2 특징 벡터에 기초하여 상기 제1 학습 모델 및 상기 제2 학습 모델에 대해 기 설정된 대조 손실을 만족하도록 대조 학습을 수행하는 단계를 포함하고,
상기 대조 학습을 수행하는 단계는,
상기 제1 특징 벡터들과 상기 제2 특징 벡터들 간의 유사도를 각각 산출하는 단계;
산출한 유사도에 기초하여 제1 특징 벡터와 제2 특징 벡터 간 상호 대응되는 긍정 쌍을 추출하는 단계; 및
상기 제1 특징 벡터들 및 상기 제2 특징 벡터들의 상기 긍정 쌍을 제외한 쌍들 중에서 일부를 상기 대조 학습을 위한 부정 쌍으로 선택하는 단계를 포함하며,
상기 부정 쌍으로 선택하는 단계는,
상기 긍정 쌍을 제외한 쌍들 중에서 상기 산출한 유사도 값이 기 설정된 하한 값과 상한 값 사이의 쌍을 상기 부정 쌍으로 선택하고, 상기 산출한 유사도 값이 상기 하한 값 미만이거나 상기 상한 값을 초과하는 쌍은 학습에서 배제시키는 쌍으로 선택하고,
상기 방법은,
상기 대조 학습의 에포크(epoch)가 진행될 때마다 상기 하한 값과 상기 상한 값을 갱신하되, 상기 대조 학습의 각 에포크가 종료되는 경우, 해당 에포크 진행 시 상기 긍정 쌍을 제외한 쌍들의 데이터 분포에 따라 상기 하한 값과 상기 상한 값을 갱신하는 단계를 더 포함하는, 학습 방법.
삭제
삭제
비일시적 컴퓨터 판독 가능한 저장 매체(non-transitory computer readable storage medium)에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 하나 이상의 명령어들을 포함하고, 상기 명령어들은 하나 이상의 프로세서들을 갖는 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치로 하여금,
자연어로 이루어지는 텍스트의 데이터 셋을 입력 받고, 텍스트를 제1 학습 모델로 입력하여 상기 텍스트로부터 제1 특징 벡터를 추출하도록 하는 단계;
비디오의 데이터 셋을 입력 받고, 비디오를 제2 학습 모델로 입력하여 상기 비디오로부터 제2 특징 벡터를 추출하도록 하는 단계; 및
상기 제1 특징 벡터와 제2 특징 벡터에 기초하여 상기 제1 학습 모델 및 상기 제2 학습 모델에 대해 기 설정된 대조 손실을 만족하도록 대조 학습을 수행하는 단계를 수행하도록 하고,
상기 대조 학습을 수행하는 단계는,
상기 제1 특징 벡터들과 상기 제2 특징 벡터들 간의 유사도를 각각 산출하는 단계;
산출한 유사도에 기초하여 제1 특징 벡터와 제2 특징 벡터 간 상호 대응되는 긍정 쌍을 추출하는 단계; 및
상기 제1 특징 벡터들 및 상기 제2 특징 벡터들의 상기 긍정 쌍을 제외한 쌍들 중에서 일부를 상기 대조 학습을 위한 부정 쌍으로 선택하는 단계를 포함하며,
상기 부정 쌍으로 선택하는 단계는,
상기 긍정 쌍을 제외한 쌍들 중에서 상기 산출한 유사도 값이 기 설정된 하한 값과 상한 값 사이의 쌍을 상기 부정 쌍으로 선택하고, 상기 산출한 유사도 값이 상기 하한 값 미만이거나 상기 상한 값을 초과하는 쌍은 학습에서 배제시키는 쌍으로 선택하고,
상기 컴퓨터 프로그램은. 상기 컴퓨팅 장치로 하여금,
상기 대조 학습의 에포크(epoch)가 진행될 때마다 상기 하한 값과 상기 상한 값을 갱신하되, 상기 대조 학습의 각 에포크가 종료되는 경우, 해당 에포크 진행 시 상기 긍정 쌍을 제외한 쌍들의 데이터 분포에 따라 상기 하한 값과 상기 상한 값을 갱신하는 단계를 더 수행하도록 하는, 컴퓨터 프로그램.