KR20230104738A

KR20230104738A - 비디오 행동 인식을 위한 시간적 병목 어텐션 아키텍처

Info

Publication number: KR20230104738A
Application number: KR1020237020431A
Authority: KR
Inventors: 슈버트 알. 카발로; 니콜라스 엠. 버탁놀리; 타일러 포크만; 리처드 레이 버틀러
Original assignee: 벤 그룹, 인크.
Priority date: 2020-11-16
Filing date: 2021-11-15
Publication date: 2023-07-10
Also published as: EP4244762A1; WO2022104281A1; KR20230104737A; MX2023005637A; GB2617710A; AU2021379758A1; GB202308247D0; EP4244763A1; GB2616167A; JP2023549579A; AU2021377335A1; CA3197841A1; WO2022104202A1; GB202308248D0; US11270124B1; MX2023005638A; GB2617710A8; CA3197846A1; CN116686017A; AU2021379758A9

Abstract

본 발명은 분석을 위해 비디오 클립을 수신하고 - 비디오 클립은 비디오 프레임들의 시간 시퀀스를 포함함-, 키-프레임들의 감소된 시퀀스를 생성하기 위해 클립 내의 프레임들에 병목 어텐션 메커니즘을 적용하고, 각각의 키프레임에 대한 3D 임베딩 텐서를 획득하기 위해 키프레임들의 시퀀스에 2차원(2D) 컨볼루션 신경망을 적용하고, 최종 행동 컨텍스트를 생성하기 위해 3D 임베딩 텐서들에 다중 헤딩 어텐션 메커니즘을 적용하고, 행동 클래스에 의해 특정된 행동이 비디오 클립에서 발생했을 가능성을 나타내는 각각의 행동 클래스에 대한 확률을 획득하기 위해 분류 메커니즘을 최종 행동 컨텍스트에 적용함으로써 비디오 클립 내에서 수행되는 행동들을 분류한다.

Description

비디오 행동 인식을 위한 시간적 병목 어텐션 아키텍처

다양한 실시예들은 전반적으로 병목 어텐션 메커니즘(bottleneck attention mechanism)을 갖는 컨볼루션 신경망(CNN) 모델을 증강시키는 비디오들에서 행동(action)들을 분류하기 위한 방법 및 시스템에 관한 것이다.

비디오 콘텐츠의 양이 기하급수적으로 증가하고 있다. 따라서, 비디오 콘텐츠를 분석하기 위한 기술들은 효율적으로 스케일링될 수 있을 필요가 있다. 하드웨어 요구 사항을 제한하면서 높은 수준의 성능을 유지하면 대용량의 비디오 데이터를 프로세싱하는 것을 가능하게 할 수 있다. 이러한 컨텍스트에서, 비디오 기반 인간 행동 인식(VHAR : video-based human action recognition)을 위한 딥 신경망 아키텍처들은 비디오 데이터의 이해 및 분류, 비디오 감시, 엔터테인먼트, 및 자율 주행을 포함하는 많은 실세계 애플리케이션들을 가능하게 한다.

VHAR에 대해 컨볼루션 신경망(CNN) 기반 알고리즘에서의 광범위한 연구가 제안되었다. 2차원(2D) CNN 모델들의 하나의 주요 이점은 이들이 컨볼루션들의 사용으로 인해 빠른 이미지 계산들을 수행하고 고해상도 이미지들로부터 의미있는 특징들을 추출할 수 있다는 것이다. 그러나, 2D CNN들은 비디오 클립들에 대해 프레임마다 연산들을 수행하고, 프레임들 사이의 시공간적 관계를 탐색하지 않는다. 이러한 시간적 모델링의 부족함을 보완하기 위해, RNN(recurrent neural network)의 일종인 LSTM(Long Short Term Memory)과 같은 집계 알고리즘 또는 재귀 신경망 모델이 2D CNN과 조합되었다. 2D CNN+LSTM 아키텍처들은 공간 패턴들 및 장거리 의존성들을 획득하는데 있어서 고무적인 결과들을 보여주었다. 비디오가 다수의 프레임들을 갖기 때문에, 3차원(3D) CNN 아키텍처들은 컨볼루션들의 특징 추출 능력들을 유지하고 또한 모션 역학(motion dynamics)을 모델링하기 위해 사용된다. 3D CNN들은 LSTM들에 대한 필요 없이 비디오 데이터의 계층적 시공간 표현들을 즉시 생성한다. 이러한 컨텍스트에서, VHAR에 대한 최신 아키텍처들은 잔차 연결들(예를 들어, ResNets), 확장된(inflated) 컨볼루션들, 또한 잔차 네트워크들에 기초하는 시간 세그먼트 네트워크들을 사용하지만, 시프트 컨볼루션(shift convolution)들 및 3D CNN을 사용하는 2D CNN 백본들에 의존한다. 그럼에도 불구하고, 3D CNN들 및 LSTM 둘 모두는 비디오 클립에서의 프레임들의 수가 증가함에 따라 계산적으로 비용이 많이 든다.

시간적 종속성을 모델링하는 효율적인 방법은 어텐션 메커니즘을 사용하는 것이다. 언어 태스크의 긴 시퀀스를 분석하기 위해 초기에 소개된 어텐션을 갖는 모델들은 VHAR에 대한 광범위한 연구의 영역이 되었다. 어텐션 메커니즘(attention mechanism)들은 네트워크가 데이터 입력들의 특정 양태들에 초점을 맞출 수 있게 하는 신경망들에 대한 프로세싱 기술들이다. 비디오 데이터의 경우, 어텐션 메커니즘들은 클립 내의 프레임들 또는 이미지들 내의 영역들의 상대적 중요도를 나타내는 어텐션 스코어(attention)들 또는 가중치(weight)들을 생성한다.

어텐션을 갖는 모델이 LSTM과 조합되었다. 이는 LSTM이 비디오 클립에서 프레임들의 시간적 순서화(temporal ordering)를 캡처할 수 있게 하며, 이는 순수 어텐션 메커니즘들에 의해 간과될 수 있다.

최근, 자연어 처리(NLP : natural language processing)에 사용되는 어텐션 모델, 예를 들어, 구글의 트랜스포머(Transformer)가 시각적 태스크에 효과적인 것으로 나타났다. 이미지에 대한 트랜스포머의 사용은 병목 어텐션 기술(bottleneck attention techniques)의 발전 때문에 부분적으로 가능하다. 이러한 솔루션들은 이미지들의 차원을 감소시키고 그들을 벡터화하는데, 예를 들어 2D 이미지로부터 1D 벡터를 생성한다. 병목 기술은 2D CNN 모델에 사용되는 표준 빌딩 블록이며, 딥 신경망(deep neural network)의 계산 성능을 증가시키는 것을 목표로 한다.

최신 병목 어텐션 메커니즘들은 이미지 차원들을 감소시키는 데 효율적이지만, 정확한 이미지 크기를 유지하면서 비디오들의 시간적 차원을 신속하게 감소시키는 병목 솔루션은 없다. 이러한 솔루션은 원시(raw) 비디오 입력으로부터 키-프레임 시퀀스(key-frame sequence)를 생성함으로써 입력 데이터 볼륨을 감소시키는 데 사용될 수 있다.

VHAR에 대한 초기 작업들은, 본 명세서에서 키-프레임들로 지칭되는, 입력 비디오 스트림으로부터의 작은 잘 선택된 프레임 세트가 인간 행동들을 효과적으로 구별할 수 있음을 시사한다. 키-프레임 선택은 비디오 클립에서 여러 개의 유용한 정보를 주지 않는(non-informative) 프레임을 폐기하므로 행동 분류를 수행하기 위해 나중에 사용될 수 있는 희소 시퀀스 표현(sparse sequence representation)을 구축한다. 그러나, 이러한 키-프레임들을 찾는 것은, 특정 프레임들을 선택하기 위해 전체 비디오에 대한 상세한 프레임 지식(예를 들어, 인간 포즈 설명)을 가질 것을 요구하기 때문에 어렵다. 이미지 라벨링(labeling)을 위해 일반적으로 인간 영역의 전문성이 필요하기 때문에 개별 프레임을 설명하는 데 시간이 많이 걸릴 수 있습니다. 또한, 선택된 프레임들이 과도하게 희소(sparse)하다고 가정한다. 그 경우, 모션 역학은 깨질 수 있다. 모션에 추가된 고주파수 및 결과적으로 모델 파라미터로 인해 행동 인식 성능이 감소할 수 있다.

최신 병목 어텐션 메커니즘은 고전적인 트랜스포머의 모든 어텐션(all-to-all attention)의 2차 스케일링 문제를 보상하려고 한다. 이러한 솔루션들은 시각적 분류에 효율적이지만, 본 명세서에서 클립 크기 딜레마(clip size dilemma)로 지칭되는 비디오 분류 모델들이 직면하는 시간적 문제를 처리하지 않는다. 비디오 클립이 길수록 정확도는 향상되지만 트레이닝 시간은 늘어난다. 짧은 비디오 클립의 사용은 VHAR의 가장 최근 연구와 모순된다는 점을 지적할 가치가 있다. 현재 훨씬 더 긴 비디오 클립들 (32- 또는 128-프레임 클립들)에 대해 수행된 장기 시간적 컨볼루션들은 성능 이득들을 위해 요구되는 것으로 여겨진다. 이것이 사실이지만, 프레임들 사이에서 더 많은 컨텍스트 관계들을 갖는 컴팩트 키-프레임 시퀀스들(비디오 클립들)이 2개의 주요 이점들을 갖는다는 것이 제안된다: 1) 비디오 인식 모델들은 데이터 분포를 더 빠르고 정확하게 학습하고 모델링함으로써 컴팩트 입력 표현들로부터 이익을 얻을 수 있다. 2) 테스트에서, 더 짧지만 유익한 비디오 클립들에 대해 트레이닝된 네트워크는 인식 정확도를 향상시키는 더 긴 시퀀스들로부터 인간의 행동들을 예측하는 이점을 취할 수 있다.

따라서, 이러한 고려 사항들 및 다른 고려 사항들과 관련하여 본 발명이 이루어졌다.

본 발명은 비디오 인간 행동 인식 (VHAR: Video Human Action Recognition)으로 지칭되는, 비디오 클립에서 발생하는 인간에 의한 행동을 분류하거나 인식하기 위한 새로운 딥 단-대-단(end-to-end) 학습 아키텍처를 사용한다. 더 긴 비디오로부터 희소 키-프레임 시퀀스를 구성하는 본 명세서에서 TBoT로 지칭되는, 시간적 병목 어텐션 메커니즘(Temporal Bottleneck Attention Mechanism)을 도입한다. 이러한 희소 시퀀스들은 결과적으로 수락가능한 결과들을 유지하면서 계산 시간을 상당히 감소시키기 때문에 컨볼루션 기반 모델들에 대해 더 유용한 표현들이다.

모션 역학(motion dynamics)을 더 잘 모델링하기 위해, 어텐션 가중치들이 계산되고 평균 프레임 주위에 집중된다. 그 결과, 평균으로부터 짧은 변위들을 갖는 모션들은 작은 스코어들을 가질 것이고, 그리고 그 반대도 가능하다. 마지막으로, 복잡한 행동의 어텐션 표현을 강화하기 위해, 우리는 특정 프레임에 참여하는 것을 학습하는 잔차 메커니즘(residual mechanism)을 개발한다. 여기서, 완전-연결(FC : fully-connected) 계층들 또는 내적 연산들을 사용하는 대신에, 행동 예측을 위한 효과적인 컨텍스트들을 계산하기 위해 소프트 잔차 셀프-어텐션 메커니즘(soft residual self-attention mechanism)을 구축하기 위해 컨볼루션들 및 풀링 통계들을 사용한다.

TBoT는 학습 가능한 파라미터가 없는 소프트 풀링 셀프-어텐션 메커니즘에 의존하여, 시각적 객체 인식 연구에 사용하도록 설계된 대형 시각적 데이터베이스인 ImageNet과 같은 대형 데이터 세트에 대해 사전 트레이닝된 모델의 사용을 허용하기 때문에, 상이한 네트워크 위치들에서 사용될 정도로 유연하다. 실제로, 네트워크의 입력측에 추가되면, TBoT는 모델의 트레이닝에 사용되는 프레임들의 전체 세트보다는 사용되는 각각의 클립에 대한 키-프레임들의 컴팩트하고 컨텍스트화(contextualize)된 시퀀스를 구축하는 것을 목표로 한다. 이 경우, TBoT는 데이터 입력을 혼합함으로써 효과적인 데이터 증강 전략으로 작용하여 데이터 가변성을 발생시킨다.

TBoT는 컨볼루션 신경망(CNN)이 프레임들 사이의 시간적 관계들을 발견할 수 있게 하는 어텐션 메커니즘들을 통합한다. 컨볼루션 계층들은 비디오 인식을 위해 유용한 이미지 특징들을 추출함으로써 어텐션 메커니즘들을 보완한다. TBoT는 키-프레임 시퀀스 입력들을 구축하기 위해 인간의 개입을 요구하지 않는다. 임의의 비디오 클립 크기로부터 컨텍스트화된 짧은 키-프레임 시퀀스를 구축하는 데 필요한 시간은 비교적 적다. 어텐션 메커니즘들은 GPU의 텐서 코어들에 의해 효율적으로 계산되는 텐서 합산들 및 스칼라 곱셈들을 수행한다. 어텐션 메커니즘들은 2D CNN 모델에 의해 생성된 결과들을 프로세싱하는 잔차 셀프-어텐션 절차(residual self-attention procedure) 및 풀링 셀프-어텐션 절차(pooling self-attention procedure)를 포함한다. 종합하면, 두 개의 어텐션 메커니즘은 다중 헤드(multi-head)로서 작용하여, 분류 및 예측을 위한 최종적인 강제적인 행동 컨텍스트를 구축한다.

특정 실시예들에서, 본 발명은 분석을 위해 비디오 클립을 수신하고 - 비디오 클립은 비디오 프레임들의 시간 시퀀스를 포함함-, 키-프레임들의 감소된 시퀀스를 생성하기 위해 클립 내의 프레임들에 병목 어텐션 메커니즘을 적용하고, 각각의 키프레임에 대한 3D 임베딩 텐서를 획득하기 위해 키프레임들의 시퀀스에 2차원(2D) 컨볼루션 신경망을 적용하고, 최종 행동 컨텍스트를 생성하기 위해 3D 임베딩 텐서들에 다중 헤딩 어텐션 메커니즘을 적용하고, 행동 클래스에 의해 특정된 행동이 비디오 클립에서 발생했을 가능성을 나타내는 각각의 행동 클래스에 대한 확률을 획득하기 위해 분류 메커니즘을 최종 행동 컨텍스트에 적용함으로써 비디오 클립 내에서 수행되는 행동들을 분류한다.

본 발명의 비제한적이고 포괄적인 실시예가 다음 도면을 참조하여 설명된다. 도면에서, 특별한 언급이 없는 한, 동일한 참조 번호는 다양한 도면 전체에 걸쳐 동일한 부분을 지칭한다.
본 발명의 더 나은 이해를 위해, 첨부된 도면과 관련하여 판독될 수 있는 바람직한 실시예의 다음의 상세한 설명을 참조할 것이다.
도 1은 비디오 기반 인간 행동 인식(VHAR : video-based human action recognition)을 수행하는, TBoTNet로 지칭되는, CNN 기반 시스템의 개괄적인 블록도이다.
도 2는 시각 어텐션(TBoTNet)를 갖는 시간적 병목 네트워크 아키텍처로 지칭되는 기계 학습 시스템의 실시예를 도시한다.
도 3a는 34개의 프레임 비디오 클립을 16개의 키프레임으로 감소시키는 방법을 도시한다.
도 3b는 34개의 프레임 비디오 클립을 11개의 키프레임으로 감소시키는 방법을 도시한다.
도 4는 TBoTNet에 통합되는 소프트 풀링 셀프-어텐션 방법의 일 실시예를 도시한다.
도 5는 TBoTNet에 통합되는 잔차 어텐션 메커니즘(residual attention mechanism)의 일 실시예를 도시한다.
도면들은 단지 예시의 목적들을 위해 본 발명의 실시예들을 도시한다. 당업자는 본 명세서에 예시된 구조들 및 방법들의 대안적인 실시예들이 본 명세서에 설명된 본 발명의 원리들로부터 벗어나지 않고 채용될 수 있다는 것을 다음의 논의로부터 쉽게 인식할 것이다.

이제 본 발명은 본 발명의 일부를 형성하고 본 발명이 실시될 수 있는 특정 예시적인 실시예를 예시적으로 도시하는 첨부 도면을 참조하여 이하에서 보다 완전하게 설명될 것이다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 본 명세서에 기재된 실시예에 한정되는 것으로 해석되어서는 안 되며; 오히려 이들 실시예는 본 발명이 철저하고 완전하게 이루어질 수 있도록 제공되는 것이며, 본 발명의 범위를 당업자에게 완전히 전달할 것이다. 무엇보다도 본 발명은 방법, 프로세스, 시스템, 비즈니스 방법 또는 디바이스로 구현될 수 있다. 따라서, 본 발명은 전적으로 하드웨어 실시예, 전적으로 소프트웨어 실시예 또는 소프트웨어 및 하드웨어 양태들을 조합하는 실시예의 형태를 취할 수 있다. 따라서, 다음의 상세한 설명은 제한적인 의미로 취해지지 않는다.

본 명세서에서 사용되는, 다음의 용어들은 아래에 주어진 의미를 갖는다:

비디오 클립 또는 클립 또는 비디오 - 다수의 프레임을 포함하는 비디오 세그먼트를 지칭한다. 본 명세서에서 사용되는, 비디오는 예비 행동을 포함한다.

인간 행동(human action) 또는 행동 - 사람에 의한 비디오 클립 내의 움직임(movement)을 지칭한다. 다른 실시예들에서, 행동은 다른 동물에 의한 또는 무생물 객체에 의한 행동을 지칭할 수 있다.

VHAR - 비디오에서 수행되는 행동에 기초하여 인간 행동을 인식하거나 분류하는 것을 목적으로 하는 컴퓨터 비전의 기본 태스크인 비디오 인간 행동 인식을 지칭한다.

기계 학습 모델 - 조직화된(structured) 및/또는 비조직화된 데이터 입력을 취하고 예측 또는 결과를 생성하는 알고리즘 또는 알고리즘의 집합을 지칭한다. 예측은 전형적으로 값 또는 값들의 세트이다. 기계 학습 모델은 그 자체로 결과를 산출하기 위해 상호 작용하는 하나 이상의 컴포넌트 모델을 포함할 수 있다. 본 명세서에서 사용되는, 기계 학습 모델은 컨볼루션 신경망 또는 다른 유형의 기계 학습 메커니즘을 포함하는 신경망을 지칭하며, 이는 비디오 클립을 입력 데이터로서 수신하고 알려진 검증 데이터 세트에 대한 추정치 또는 예측을 생성한다. 전형적으로, 모델은 모델의 연속적인 실행을 통해 트레이닝된다. 전형적으로, 모델은 트레이닝 단계 동안 연속적으로 실행되고, 성공적으로 트레이닝된 후에, 새로운 데이터를 평가하고 예측하도록 동작하게 사용된다. 성공 메트릭을 예측할 수 있는 수락 가능한 모델을 획득하기 위해서 트레이닝 단계가 1000번 실행될 수 있다는 것이 강조되어야 한다. 또한, 모델은 수천개의 특징 중 1000개 또는 심지어 10개를 발견할 수 있다. 그리고 이러한 특징들 중 많은 것은 입력 데이터로서 제공되는 특징들과는 상당히 상이할 수 있다. 따라서, 모델을 미리 알 수 없고, 정신적인 노력만으로 계산할 수 없다.

예측(prediction) - 비디오 클립의 행동이 특정 클래스 또는 행동들의 카테고리에 속하는 통계적 추정치 또는 추정된 확률을 본 명세서에서 지칭한다. 예측은 또한 많은 개별 클래스들을 포함하는 분류 시스템 내의 각각의 클래스 또는 카테고리에 할당된 추정치 또는 확률을 지칭할 수 있다. 예를 들어, DeepMind로부터의 Kinetics 400 데이터 세트는 400개의 상이한 인간 행동으로 분류되는 최대 650,000개의 비디오 클립을 제공한다. 일반적으로 사용되는 트레이닝 데이터 집합의 예이다.

아키텍처(Architecture) - 본 명세서에서 사용되는 바와 같이, 입력 데이터로부터 출력 데이터까지 연속적으로 수행되는 단계들, 절차들, 또는 프로세스들의 전체 세트를 지칭한다. 이는 이하의 도 2에 예시되며, 데이터가 CNN 또는 다른 기계 학습 모델에 제출되기 전에 수행되는 병목 어텐션 프로세싱과 같은 전처리 단계들을 포함한다.

개괄적인 동작

본 발명의 특정 양태들의 동작은 도 1-5와 관련하여 후술된다.

도 1은 비디오-기반 인간 행동 인식(VHAR)을 수행하는 기계 학습 시스템(100)의 개괄적인 블록도이다. TBoTNet 서버(120) 컴퓨터는 TBoTNet 아키텍처(125) 또는 간단히 TBoTNet(125)을 실행한다.

TBoTNet 서버(120)는 분석을 위한 비디오 클립들을 제공하는 데이터 소스들(130)에 액세스한다. 비디오 클립들은 모델의 트레이닝 동안 사용될 수 있거나, 분석 및 분류를 위해 동작하게 사용되는 라이브(live) 입력 데이터일 수 있다. 예를 들어, GOOGLE, INC.에 의해 운영되는 웹 사이트인 YOUTUBE.COM은 데이터 소스들(130) 중 하나일 수 있다. 다른 데이터 소스들(130)은 텔레비전 채널들, 영화들, 및 비디오 아카이브들을 포함할 수 있다. 전형적으로, TBoTNet 서버(120)는 네트워크(140)를 통해 데이터 소스들(130)로부터의 비디오 클립들에 액세스하지만, 특정 실시예들에서, 클립들은 USB 드라이브들, 하드 드라이브들과 같은 물리적 매체 상에 그리고 직접 링크들과 같은 다른 전자 통신 매체에 걸쳐 제공될 수 있다. TBoTNet 서버(120)는 프로세서, 비디오 클립들 및 중간 결과들을 저장하기 위한 데이터 저장소, 및 프로그램 코드 및 데이터를 저장하기 위한 비휘발성 메모리를 포함한다.

TBoTNet 서버(120)는 단일 서버 컴퓨터에 의해, 협력적으로 또는 네트워크 서비스에 의해 동작하는 다수의 서버 컴퓨터에 의해, 또는 아마존 AWS와 같은 클라우드 서비스 제공자에 의해 제공되는 "클라우드" 서비스에 의해 구현될 수 있다. TBoTNet 서버(120)로서 동작할 수 있는 디바이스들은 개인용 컴퓨터들, 데스크탑 컴퓨터들, 멀티프로세서 시스템들, 마이크로프로세서-기반 또는 프로그램가능 소비자 전자제품들, 네트워크 PC들, 서버들, 네트워크 기기들 등을 포함하지만, 이에 제한되지 않는다.

TBoTNet(125)에 의해 사용되는 비디오 클립들은 특히 (1) 라이브 비디오 데이터, 분류의 목적들을 위해 기계 학습 모델들을 트레이닝하기 위해 사용되는 Kinetics 400 데이터 세트와 같은 트레이닝 데이터 세트들, 및 많은 수의 이미지들을 제공하고 기계 학습 모델을 사전 트레이닝하기 위해 사용될 수 있는 ImageNet과 같은 트레이닝 데이터 세트들을 포함한다.

사용자는 TBoTNet 모델(125)을 트레이닝하기 위한 트레이닝 비디오들 및 클립들을 식별 및 제공하기 위해 TBoTNet 서버(120)와 상호작용한다. 전형적으로, 사용자는 사용자 컴퓨터(110) 상에서 실행되는 사용자 애플리케이션(115)과 상호작용한다. 사용자 애플리케이션(115)은 MOZILLA로부터의 FIREFOX 또는 GOOGLE INC로부터의 CHROME과 같은 웹 브라우저 내에서 실행되는 네이티브(native) 애플리케이션 또는 웹 애플리케이션일 수 있다.

사용자 컴퓨터(110)는 TBoTNet 서버(120)에 액세스하기 위해 네트워크(140)를 통해 상호작용할 수 있는 프로그램들을 실행하는 랩톱 컴퓨터, 데스크톱 개인용 컴퓨터, 스마트폰과 같은 모바일 디바이스, 또는 임의의 다른 컴퓨터일 수 있다. 일반적으로, 사용자 컴퓨터(110)는 프로세서 및 프로그램 명령어들 및 데이터를 저장하기 위한 비일시적 메모리, 디스플레이 및 키보드 및 마우스와 같은 상호작용 장치를 갖는 스마트 폰, 개인용 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 또는 다른 컴퓨터 시스템일 수 있다.

TBoTNet(130)은 통상적으로 데이터를 저장하고, 도 2 및 도 3a-b를 참조하여 이하에서 설명되는 TBoTNet(125)을 실행한다.

네트워크(140)는 사용자 컴퓨터(110) 및 TBoTNet 서버(120)가 데이터 및 메시지들을 교환할 수 있게 한다. 네트워크(140)는 근거리 네트워크(LAN), 광역 네트워크(WAN), 직접 연결, 이들의 조합 등에 부가하여 인터넷을 포함할 수 있다.

행동 모델링 및 MR 모델(Action Modeling & MR Models)

지도(supervised) 기계 학습 모델은 분류 세트 내의 각각의 클래스에 대한 스코어(score) 또는 확률 추정치를 제공한다. 스코어 또는 확률은 비디오 클립이 클래스 멤버에 의해 표현되는 행동을 포함할 가능성을 나타낸다. 단일 예측이 필요한 경우 가장 높은 스코어를 갖는 클래스가 선택될 수 있다. 이 클래스는 비디오 클립에서 발생했을 가능성이 가장 높은 주체에 의해 수행되는 행동을 나타내는 것으로 간주된다. 주 클래스가 각 클립에 대해 알려진 비디오 클립의 검증 데이터 세트는 데이터 세트로부터의 상이한 클립으로 모델을 연속적으로 동작시키고 에러를 최소화하기 위해 각각의 연속적인 모델이 실행되도록 모델을 조정함으로써 모델을 트레이닝하는데 사용된다. 본 명세서에서 사용되는 바와 같이, 용어 주체(subject)는 일반적으로 비디오 클립들 내의 사람, 동물, 또는 다른 객체에 의해 수행되는 동작을 지칭하기 위해 사용된다. 본 발명은 주로 인간 주체에 의해 수행되는 행동에 적용되도록 의도되지만, 이에 제한되지 않고 동물과 같은 다른 움직이는 객체에 적용되고, 자동차, 공 등과 같은 무생물 객체에 적용될 수 있다.

VHAR 병목 아키텍처

도 2는 병목 어텐션 메커니즘 및 다중 헤드 어텐션 메커니즘을 갖는 컨볼루션 신경망(CNN)을 증강시키는, TBoTNet(125)로 지칭되는 기계 학습 아키텍처의 실시예를 도시한다. TBoTNet(125)은 특히 비디오 기반 인간 행동 인식(VHAR)에 적합하다. 일반적으로, TBoTNet(125)은 시각적 어텐션을 갖는 시간적 병목 네트워크 아키텍처이다. TBoTNet(125)은 먼저, 각각의 입력 비디오 클립의 희소 또는 컴팩트 표현, 즉 시간 차원에서 감소된 표현을 구성하고, 그런 다음 감소된 입력을 사용하여 비디오 클립들에서 표현되는 인간 행동들을 효율적으로 학습하고 분류한다. 프로세싱이 단일 비디오 클립에 대해 아래에서 설명되지만, 전형적으로 다수의 비디오 클립들이 프로세싱된다는 것이 이해될 수 있다.

원시 비디오(raw video)(X)가 TBoTNet(125)에 대한 입력으로서 제공된다. 원시 입력 비디오는 비디오 입력들(X₁, X₂...X_t), 비디오 클립에서 비디오 프레임들의 시퀀스를 생성하도록 전처리되며, 비디오 프레임들은 TBoTNet(125)에 의해 프로세싱되며, 출력,

,는 클래스 스코어들(로지트(logit)들)의 예측된 행동 벡터이다. 행동 벡터(action vector)는 행동 데이터 세트에 의해 정의된 각각의 행동 클래스에 대한 스코어를 제공하며, 여기서 벡터 내의 각각의 값은 행동 클래스에 의해 정의된 행동이 비디오 클립에서 발생했을 가능성을 나타내는 스코어 또는 확률이다. 행동 클래스들의 세트를 정의하는 행동 데이터 세트는 널리 사용되는 키네틱스(Kinetics) 400, 600 또는 700 데이터 세트들과 같은 잘 알려진 세트로부터 선택될 수 있거나, 그것은 다른 알려진 또는 맞춤-개발된 행동 데이터 세트일 수 있다.

원시 비디오 파일들은 일련의 비디오 클립들을 생성하기 위해 단계(202)에서 먼저 전처리된다. 비디오 클립들은 전형적으로 고 스루풋(throughput)을 달성하기 위해 TBoTNet(125)에 의해 병렬로 프로세싱되지만, 이들은 또한 순차적으로 프로세싱될 수 있다. 전처리는 전형적으로: (1) 원하는 비디오 프레임 크기에 도달하기 위해 평균화, 서브샘플링 또는 다른 프로세스를 통해 비디오의 해상도를 감소시키는 것, 및 (2) 추가 프로세스를 위해 감소된 해상도 프레임들 내의 직사각형 영역을 클리핑(clipping) 또는 선택하는 것을 포함한다. 그런 다음, 결과적인 더 작은 비디오 클립이 TBoT(204) 병목 어텐션 메커니즘(204) 또는 간단히 TBoT(204)에 대한 입력으로서 제공된다.

TBoT(204)로 지칭되는 시간적 병목 어텐션(temporal bottle-neck attention)가 유입 비디오 프레임들의 시퀀스에 적용되어, 감소된 대표적인 비디오 클립들의 시퀀스를 구축하는 것을 목표로 한다. TBoT(204) 프로세싱은 도 3a, 3b를 참조하여 아래에서 더 상세히 설명된다. TBoT(204)는 키-프레임들의 작은 시퀀스를 구성하기 위해 병목 어텐션 절차(bottleneck attention procedure)를 사용하여 클립 내의 프레임들의 수를 감소시키며, 이는 성능을 향상시킨다. 일반적으로, TBoT(204)는 관련 이미지 세부사항을 유지하면서 데이터의 볼륨을 감소시키기 위해 병목 어텐션 메커니즘을 사용함으로써 원시 입력 데이터의 더 컴팩트한 시간적 표현을 구축한다. 이전에는 프레임 및 클립의 가중치를 부여하여 결과를 개선하는 데 어텐션이 사용되었지만, 후속 프로세싱을 위해 신경망에 제공되는 데이터의 양을 감소시키는 데는 어텐션이 사용되지 않았다.

다음으로, 2D 컨볼루션 신경망(2D CNN)(206)이 새로운 클립 시퀀스에 적용된다. 2D CNN(206)은 각각의 프레임에 대한 3D 임베딩 텐서,

를 생성한다. 각각의 임베딩 텐서는 키-프레임의 추출된 특성(characteristic)들 또는 특징(feature)들을 나타낸다. 특정 실시예들에서, CNN의 ResNet, 또는 잔차 네트워크 유형이 사용된다. ResNet은 이미지 인식 및 분류에 효과적인 것으로 입증되었다. 그러나, 다양한 상업적으로 이용 가능한 CNN 모델들, 백본 아키텍처들, 또는 이미지 분류를 위해 후속하여 사용될 수 있는 이미지 특징들을 추출하는 다른 프로세싱 시스템들이 사용될 수 있다.

다음으로, 추가 풀링 셀프-어텐션 절차(208) 및 잔차 셀프-어텐션 절차(210)가 임베딩 출력들에 적용되어 소프트 및 잔차 컨텍스트들(ctx_s) 및 (ctx_r)을 각각 구성한다.

그런 다음, 병합 절차(concatenation procedure)(212)는 2개의 컨텍스트를 각각의 클립에 대한 단일의 효과적인 행동 컨텍스트(ctx)로 조합한다.

마지막으로, 행동 컨텍스트(ctx)는 분류기(214)에 공급되어, 로지트(logit),

로 지칭되는 스코어들의 벡터를 예측한다. 각 스코어는 행동 클래스의 중요도를 측정한다. 특정 실시예들에서, 로지트들을 확률들로 변환하는 소프트맥스 함수(softmax function)가 적용된다.

CNN의 트레이닝이 본 발명의 범위 밖인 것으로 간주되지만, 전체 시스템은 교차 엔트로피 손실(cross-entropy loss) 또는 평균 제곱 오차(MSE : mean square error)와 같은 손실 함수를 사용하여 트레이닝된다.

일반적으로, 도 2의 아키텍처는 (1) 비디오 클립 및 임베딩 표현들, (2) 조기 어텐션, (3) 추가 셀프-어텐션(additive self-attention), 및 (4) 행동 인식인 4개의 전체 컴포넌트들로 그룹화될 수 있다. 4개의 컴포넌트 각각에 대해서는 아래에서 논의된다.

도 2의 박스들 각각은 전적으로 소프트웨어에서 또는 하드웨어에서 또는 하드웨어의 조합에 의해 수행되는 전체 방법, 절차들의 단계들을 나타낼 수 있다는 것이 이해될 수 있다. 또한, 일부 경우들에서, 동일한 참조 번호를 갖는 하나 초과의 박스, 예를 들어, TBoT 어텐션(204)은, 프로세싱이 병렬로 수행될 수 있음을 시사하는 것으로 도시되어 있지만; 그러한 프로세싱은 또한 순차적으로 수행될 수 있다.

비디오 클립 및 임베딩 표현(Video Clip and Embedding Representations)

먼저, 이미지들의 시퀀스, 즉 frame＼로서의 비디오 클립의 표현이 고려된다. 형식적으로, 4D 텐서로 표현되는 비디오 클립은 다음과 같이 정의된다:

방정식 1

여기서, X는 비디오 클립이고, x_t는 클립에서의 프레임 수 t이고, τ는 클립에서의 프레임 수이고, C는 채널의 수이고(여기서, C = 3이고, 여기서, 채널은 적색, 녹색, 청색(RGB)임), (M, M)은 프레임 크기이고, 즉, 높이 = 폭 = M 픽셀이다. 본 발명은 정사각형 프레임으로 제한되지 않으며, 특히 직사각형 또는 임의의 형상 및 크기가 프로세싱될 수 있음에 유의한다. 용어 M은 때때로 이미지 또는 프레임 차원으로 지칭된다.

정상 동작에서, 다수의 클립들이 클립들의 배치(batch)들로 TBoTNet(125)에 전달된다. 예를 들어, 8, 16, 32 및 64개의 클립이 배치로서 전달될 수 있다. 따라서, 전체 비디오, 또는 비디오들의 시퀀스를 표현하기 위해, 배치(batch) 내의 시퀀스 번호를 나타내는 추가적인 인덱스가 추가될 수 있다. 이는 차원 BxCxτxMxM의 텐서로 귀결될 것이며, 여기서 B는 프로세싱할 배치(batch)내 클립의 수이다. 배치 인덱스는 표기법을 단순화하기 위해 여기에서 생략된다. 클립당 공간 해상도 또는 크기는 일반적으로 M = 112 또는 M = 224이지만, 임의의 해상도가 사용될 수 있다.

시간적 병목 어텐션 메커니즘(Temporal Bottleneck Attention Mechanism)

키-프레임들의 시퀀스를 계산하기 위해, 시간적 병목 어텐션 절차 또는 메커니즘, TBoT(204)가 채용된다. TBoT(204)는 사람의 개입 없이 컴팩트하고 컨텍스트화된 비디오 클립을 자동으로 구축한다. 그 결과, 네트워크는 더 작은 클립으로부터 인간의 행동을 학습할 수 있고, 트레이닝 단계가 빠르고 정확하게 일어날 수 있게 한다.

형식적으로, TBoT(204)는 s개의 프레임으로 비디오 클립을 프로세싱하고, 아래의 방정식 2에 공식화된 바와 같이 크기

의 새로운 키-프레임 시퀀스를 구축한다:

방정식 2

여기서

는 시간 t에서의

어텐션으로부터, s개의 프레임들을 갖는 비디오 클립으로부터 계산된 키-프레임(key-frame)이다.

특정 실시예들에서, 이하 도 4를 참조하여 설명되는 풀링 셀프-어텐션 메커니즘(pooling self-attention mechanism)(208)은 키-프레임들을 생성하기 위해 시간적으로 인접한 프레임들의 시퀀스들을 조합할 때 적용되는 시간적 어텐션 가중치(temporal attention weight)들을 계산한다. 다른 실시예들에서, 도 5를 참조하여 설명된 잔차 셀프-어텐션 메커니즘(210)이 사용된다. 또 다른 실시예들에서, 다른 어텐션 메커니즘들이 사용된다.

도 3a는 클립 내의 프레임들의 수를 34에서 16으로 감소시키기 위해 TBOT(204)에 의해 수행되는 방법의 실시예를 도시하고; 도 3b는 클립 내의 프레임들의 수를 34에서 11로 감소시키기 위해 TBOT(204)에 의해 수행되는 방법의 실시예를 도시한다. 일반적으로, 비디오 입력 스트림의 크기를 감소시키기 위한 다양한 방법이 본 발명의 범위 내에 있다. 도 3a에서, 3개의 순차적인, 즉 시간적으로 인접한, 입력 프레임들은 시퀀스 x₁, x₂, x₃으로 시작하여 각각의 키프레임을 생성하기 위해 조합되며, 이는 함께 제1 키-프레임 TBoT₁을 생성하는 반면; 도 3b에서 4개의 순차적인 입력 프레임들은 각각의 키프레임을 생성하기 위해 조합된다.

각각의 키-프레임은 3개의 프레임들(도 3a) 또는 4개의 프레임들(도 3b의 경우)의 가중된 평균이며, 여기서 가중치들은 병목 어텐션 메커니즘에 의해 계산된 시간적 어텐션 가중치들이다.

TBoT(204)는 새로운 프레임들의 시퀀스, 즉 아래에 정의된 방정식 3에서 새로운 비디오 클립을 생성하고, 그런 다음 단계(206)에서 2D CNN 모델에 제공되거나 공급된다. 입력과 출력의 차이는 입력 비디오 클립 내의 키 프레임 수 대 프레임 수이다.

방정식 3

임베딩 표현(Embedding Representation)

입력 클립들 X에 사전-어텐션을 적용한 후에, 방정식 3에서 정의된 프레임 시퀀스

는 ResNet과 같은 CNN 모델에 공급된다. 잔차 네트워크(Residual Network)의 약어, ResNet는 이미지 분류 문제에서 성공적인 것으로 입증된 특정 유형의 신경망이다. ResNet은 다양한 오픈 소스 및 커머셜 소스로부터 이용 가능하므로, 딥 러닝 솔루션을 벤치마킹하기 위한 표준으로 간주될 수 있다. 더 복잡한 특징 추출기들, 예를 들어, ResNet101 또는 ResNet152, 또는 광학 흐름 기법들이 또한 더 정확한 결과들을 획득하기 위해 사용될 수 있다. 일반적으로, 상업적으로 이용가능하거나 오픈 소스(Open Source)를 통해 이용가능한 것을 포함하는 다양한 CNN 메커니즘이 단계(206)에서 사용될 수 있다.

특정 실시예들에서, ResNet50의 최종 컨볼루션 계층의 출력은 각각의 프레임 클립의 임베딩 표현을 위해 사용된다. CNN은 널리 이용가능한 ImageNet 데이터 세트와 같은 데이터 세트에 대해 사전 트레이닝될 수 있다는 것이 주목될 수 있다.

그런 다음 타겟 데이터 세트에서 미세 조정(fine-tuned)된다. 미세 조정은 모델의 모든 계층을 업데이트하고 배치 노름(batch norm) 계층을 고정 해제하여 수행된다.

단계(206)의 출력의 임베딩 표현은 아래의 방정식 4에서 설명된다:

방정식 4

입력 클립

과 동일한 프레임 수를 가지며, 공간 해상도 또는 차원은 M' = 4 또는 7이다.

어텐션 메커니즘(Attention Mechanisms)

비록 2D CNN들이 3D CNN들보다 이미지 특징들을 추출하고 더 빠른 계산들을 수행하는데 탁월하지만, 비디오 프레임들의 동등한 처리는 비디오 분석에 있어서 약점이다. 즉, 이들은 비디오 시퀀스들로부터 컨텍스트 정보를 정량화하는 것으로 제한된다. 이 문제를 완화하기 위해, 도 4 및 도 5에 예시된 바와 같이, 소프트 및 잔차 셀프-어텐션 메커니즘(soft and residual self-attentive mechanism)들과 시간적 컨텍스트 프레임 종속성들의 조합이 사용된다.

잔차 셀프-어텐션(Residual Self-attention)

도 4는 TBoTNet(125)에 통합되는 풀링 통계에 기초하여 소프트 풀링 셀프-어텐션 또는 풀링 셀프-어텐션(208)으로 지칭되는 어텐션 메커니즘의 실시예를 도시한다. 파인-그레인드(fine-grained) 분류 문제에 대한 개선된 성능으로 인해 이러한 접근법이 사용된다. 일반적으로, 완전 연결(FC) 및 내적 어텐션 메커니즘들에 비해, 풀링(pooling)은 텐서 가산들 및 스칼라 곱셈들만을 수행하기 때문에 더 효율적이다. 또한, TBoTNet(125)에서 어텐션 메커니즘으로서 사용될 때, 키-프레임들은 CPU에 의해 생성되어, 소형화된 비디오 클립 표현들, 즉 키프레임 시퀀스들을 분석하기 위한 모델들에 제약이 없고(free), GPU 메모리를 절약하고 트레이닝 시간을 감소시킨다.

보다 공식적으로, 임베딩 출력들이 주어지면, 셀프-어텐션 풀링(208)은 먼저 채널들 및 공간 위치들(

)에 걸쳐 3D 평균 풀링을 적용함으로써 가중치 벡터 α를 계산한다:

방정식 5

여기서,

는 클립의 각 프레임의 상대적 중요도를 정의하는 어텐션적 풀링 가중치를 의미한다. AvgPool3D()는 기계 학습 모델 및 딥 러닝 모델을 실행하기 위해 tensorflow.org에서 제공하는 Tensorflow.js 오픈 소스 라이브러리의 함수이다는 것에 유의한다. 이것은 텐서 요소들의 3D 평균 풀링을 계산하는 데 사용된다.

다음으로, 클립간 모션 변위들을 더 양호하게 모델링하기 위해, 어텐션 가중치들은 평균 프레임 주위에 집중되고, 여기서 평균 프레임(

)은 아래의 방정식 6에 정의된다:

방정식 6

그 결과, 평균으로부터 작은 변위들을 갖는 모션들은 작은 값들을 가질 것이고, 그리고 그 반대도 가능하다.

다음으로, 집중화된 가중치들은 그들의 값들을 0과 1 사이에서 정규화하기 위해 소프트맥스 함수(softmax function)에 의해 프로세싱되며, 이는 아래의 방정식 7에 다음과 같이 공식화된다:

방정식 7

여기서, 용어

는 정규화된 어텐션 벡터(normalized attention vector)이다.

로 구성한다. 이는 모델 파라미터에 스케일이 추가되지 않는다. 이는 역전파(back-propagation) 동안 기울기(gradient) 계산을 평활화한다. 이제, 각각의 행동 프레임은 그 어텐션 가중치에 의해 더 잘 구별될 수 있다.

최종 단계로서, 동일한 클립 또는 서브-클립에서 프레임들 간의 차이들을 증강시키기 위해 각각의 가중치를 그 대응하는 프레임과 곱하는 가산 메커니즘(additive mechanism)이 아래의 방정식 8에 공식화된다:

방정식 8

여기서 ctx_s는 소프트 행동 컨텍스트(soft action context)이다.

잔차 셀프-어텐션(Residual Self-attention)

복잡한 행동들을 나타내는 가중치 벡터들을 보유하고 학습하는 어텐션 메커니즘의 능력은 메커니즘 내내 입력들이 어떻게 변환되는지에 의존한다. 선형 매핑들(예를 들어, 완전 연결 (FC : fully connected) 계층들)이 특징 표현력(expressiveness)을 증가시키기 위해 잘 수락된다고 하더라도, 컨볼루션 신경망(CNN)들은 이미지 표현들을 추출하기 위해 폭넓게 사용된다. 따라서, 복잡한 행동들의 어텐션 표현을 강화하기 위해, 모든 프레임들에 대한 어텐션 가중치들을 계산하는 잔차 어텐션 메커니즘이 TBoTNet (125)에 통합된다.

도 5는 TBoTNet(125)에 통합되는 잔차 어텐션 메커니즘(210)의 일 실시예를 도시한다. 모델의 임베딩 출력인 E는 1의 스트라이드(stride)를 갖는 2차원의 1×1 커널과

번 컨벌루션되어, E의 동일한 길이 및 공간 해상도를 갖는 3D 텐서를 생성한다. 다음으로, 컨볼루션된 텐서들은 아래의 방정식 9에 공식화된 바와 같이, 의미있는 어텐션 가중치들을 계산하기 위해 2D 평균 풀링 함수에 공급된다:

방정식 9

는 학습된 어텐션 가중치이다. conv()는 C'차원 입력 필터를 크기 1의 출력 필터에 매핑하는 컨볼루션 연산을 나타낸다. 하나의 컨볼루션 계층만이 이 매핑을 수행하기 위해 사용된다.

다음으로, β는 아래의 방정식 10에 주어진 소프트맥스 함수에 공급된다:

방정식 10

여기서, 출력 또는 결과

는 정규화된 어텐션 벡터(normalized attention vector)이다.

마지막으로, 잔차 어텐션 벡터(residual attention vector)는 방정식 11과 같이 공식화된다.

방정식 11

여기서, ctx_r은 잔차 어텐션 컨텍스트(residual attention context)로 지칭된다. ctx_r이 클립 크기에 불변하도록 하기 위해 스케일 1/τ이 필요하다. 그 결과, 잔차 어텐션을 갖는 모델의 정확도는 어텐션을 갖지 않는 모델보다 나쁘지 않다.

행동 인식(Action Recognition)

어텐션은 다중 헤드 어텐션 메커니즘으로 계산될 때 컨텍스트 의미 표현(contextual semantic representation)을 더 잘 캡처할 수 있다. 용어 헤드(head)는 전형적으로 최종 결과를 산출하는 신경망 아키텍처에서의 최종 프로세싱 단계를 지칭한다. 본 명세서에서 사용되는 바와 같이, 다중 헤드 어텐션은 적어도 2개의 상이한 어텐션 메커니즘을 병렬로 실행한다. 그런 다음, 독립적인 어텐션 출력들은 단일 출력을 획득하기 위해 병합(concatenate)되거나, 그렇지 않으면 조합된다. 상이한 어텐션 헤드들이 입력 시퀀스의 부분들을 상이하게 분석하기 위해 사용될 수 있다(예를 들어, 장기 종속성들 대 단기 종속성들). 도 2의 실시예에서, 셀프-어텐션(208) 및 잔차 어텐션(210)을 병렬로 풀링하고, 그런 다음 단계(212)에서 각각의 출력들을 병합을 수행하여 최종 행동 컨텍스트로 지칭되는 어텐션 가중치들의 단일 벡터를 생성하는 다중 헤드 어텐션이 사용된다. 최종 행동 컨텍스트는 다음과 같이 계산된다:

를 가지고

. 그런 다음 최종 단계로서 분류가 수행된다.

도 2의 단계(214)에서, 클래스 확률들을 계산하기 위해 ctx를 배치 정규화 (BN : Batch Normalization) 계층에 공급하고, 이어서 conv(2*C', C'/2), ReLU [38], 글로벌 평균 풀링, 및 로지트 벡터

- 즉, 소프트맥스 함수 이전의 클래스 스코어들 - 를 생성하는 FClayer에 의해 클래스 예측들, 즉 분류가 생성된다. 특정 구현예에서, 1x1 conv(2 C', C'/2)가 사용된다. FC는 1024차원 입력을 수신하고, 분류 데이터 세트 내의 클래스들의 각각에 대한 클래스 스코어들인 요소들을 갖는 분류 벡터를 출력한다. 따라서, Kinetics-400 데이터 세트가 사용되면, 400 차원 벡터가 생성된다. 특정 실시예들에서, 단일 클래스, 즉 분류 벡터에서 가장 큰 스코어를 갖는 클래스는 입력 비디오 X에서 발생한 가장 가능성 있는 인간 행동을 나타내는 것으로 선택된다.

타겟 데이터 세트에 대한 에러를 감소시키기 위해 CNN의 가중치들을 트레이닝하기 위한 역 전파 프로세싱이 본 발명의 일부로 간주되지 않지만, 최소 제곱 에러(MSE : minimum square error)의 교차 엔트로피 손실과 같은 손실 함수가 채용된다.

트레이닝 및 테스팅(Training and Testing)

이전에 논의된 바와 같이, 특정 실시예들에서, TBoTNet(125)은 컨볼루션 신경망(CNN) 모델을 포함한다. 이 모델은 ImageNet 데이터 세트에 대해 미리 트레이닝될 수 있다. CNN 모델은 드롭아웃(dropout)이 없고 인에이블된 BN 계층으로 미세 조정된다. 입력 비디오 클립 프레임은 스케일 증강을 위해 128×240으로 크기가 조절된다. 112×112 픽셀 크롭(crop)은 동일한 데카르트 위치(Cartesian position)들 상의 각각의 프레임-클립으로부터 랜덤하게 샘플링된다. 크롭들은 또한 랜덤 수평 플립핑(random horizontal flipping), 및 0.5의 확률과 0.2의 컬러 왜곡을 갖는 랜덤 RGB 및 그레이 스케일 증강을 겪는다. 다수의 연속적인 프레임들, τ은 각각의 트레이닝 비디오로부터의 연속적인 프레임들로부터 샘플링되고, 나머지 프레임들은 폐기된다. 테스트는 8-, 11- 및 16 개의 키-프레임 클립에 대해 수행되었다. 테스트된 입력 클립 수, τ = 34, 스트라이드(stride) = { 3, 4, 5}. GPU 당 128 클립의 배치 크기가 크기 8 및 11의 클립에 사용되었고, GPU 메모리 용량 때문에, 120 클립의 배치 크기가 16-프레임 클립에 사용되었다.

TBoTNet(125) 예측들은 Kinetics 400 데이터 세트와 같은 트레이닝 데이터 세트와 비교되고, 손실 함수에 따라 에러가 결정된다.

일반적으로, TBoTNet 125 아키텍처의 성능은 여러 제거 실험(ablation experiment)을 사용하여 테스트되었고, 이는 행동 인식률에서 상당한 개선을 보여주었다.

상기 명세서, 실시예, 및 데이터는 본 발명의 조성물의 제조 및 사용에 대한 완전한 설명을 제공한다. 본 발명의 많은 실시예들이 본 발명의 사상 및 범위로부터 벗어나지 않고 이루어질 수 있기 때문에, 본 발명은 이하 첨부된 청구항들에 있다.

Claims

비디오 클립(video clip) 내에서 수행되는 행동(action)들을 분류하기 위한 컴퓨터 구현 방법으로서,
분석을 위한 비디오 클립을 수신하는 단계 - 상기 비디오 클립은 비디오 프레임들의 시간 시퀀스를 포함함 -;
감소된 키-프레임들의 시퀀스를 생성하기 위해 상기 클립내 상기 프레임들에 병목 어텐션 메커니즘(bottleneck attention mechanism)을 적용하는 단계;
각각의 키프레임에 대한 3D 임베딩 텐서(embedding tensor)를 획득하기 위해 상기 키-프레임들의 시퀀스에 2차원(2D) 컨볼루션 신경망(convolutional neural network)을 적용하는 단계;
최종 행동 컨텍스트(final action context)를 생성하기 위해 상기 3D 임베딩 텐서들에 다중 헤딩 어텐션 메커니즘(multi-headed attention mechanism)을 적용하는 단계; 및
행동 클래스(action class)에 의해 지정된 행동이 상기 비디오 클립에서 발생했을 가능성을 나타내는 각각의 상기 행동 클래스에 대한 확률을 획득하기 위해 분류 메커니즘을 상기 최종 행동 컨텍스트에 적용하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 각각의 키-프레임은 상기 비디오 클립내의 시간적으로 인접한 프레임들의 상이한 서브세트를 나타내는, 컴퓨터 구현 방법.
제2항에 있어서, 상기 병목 어텐션 메커니즘은 34개의 비디오 프레임들의 비디오 클립으로부터 16개의 키프레임들 또는 11개의 키프레임들을 생성하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 다중 헤딩 어텐션 메커니즘은,
풀링 셀프-어텐션 절차(pooling self-attention procedure)를 적용하는 단계;
잔차 셀프-어텐션 절차(residual self-attention procedure)를 적용하는 단계; 및
상기 최종 행동 컨텍스트를 획득하기 위해 상기 풀링 셀프-어텐션 및 상기 잔차 셀프-어텐션 절차들의 결과들을 병합하는 단계(concatenating)를 포함하는, 컴퓨터 구현 방법.
제4항에 있어서, 상기 풀링 셀프-어텐션 절차는,
3D 평균 풀링에 기초하여 클립내 각각의 키프레임에 대한 어텐션 가중치(attention weight)들을 계산하는 단계;
평균 프레임 주위에 상기 어텐션 가중치들을 집중화하는 단계(centralizing);
정규화된 어텐션 벡터를 생성하기 위해 상기 집중화된 어텐션 가중치들을 정규화하는 단계; 및
상기 클립 내의 프레임들 간의 차이를 증강시키기 위해 상기 정규화된 어텐션 가중치와 개개의 키프레임을 곱하는 단계를 포함하는, 컴퓨터 구현 방법.
제4항에 있어서, 상기 병목 어텐션 메커니즘은,
상기 비디오 프레임들의 각각에 대한 시간적 어텐션 가중치들을 계산하는 단계; 및
키-프레임들을 계산하는 단계를 포함하되, 각각의 키-프레임은 시간적으로 인접한 프레임들의 서브세트의 가중된 평균이고, 상기 가중치들은 상기 계산된 시간적 어텐션 가중치들인, 컴퓨터 구현 방법.
제6항에 있어서, 상기 시간적 어텐션 가중치들은 상기 풀링 셀프-어텐션 절차에 의해 생성되는, 컴퓨터 구현 방법.
제4항에 있어서, 상기 잔차 셀프-어텐션 절차는,
상기 임베딩 텐서 출력들을 2차원에서 1X1 커널과 컨벌루션하는 단계(convolving);
2D 평균 풀링에 기초하여 각각의 컨볼루션된 텐서에 대한 어텐션 가중치들을 계산하는 단계;
정규화된 어텐션 벡터를 생성하기 위해 상기 어텐션 가중치들에 소프트맥스(softmax)를 적용하는 단계; 및
상기 잔차 행동 컨텍스트를 획득하기 위해 상기 가중치들에 상기 임베딩 텐서를 곱하고 상기 결과를 스케일링하는 단계를 포함하는, 컴퓨터 구현 방법.
제4항에 있어서, 상기 시간적 어텐션 가중치들은 상기 잔차 셀프-어텐션 절차(residual self-attention procedure)에 의해 생성되는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 비디오에서 발생한 가장 가능성 있는 행동을 예측하기 위해 상기 행동 컨텍스트 확률에서 가장 높은 확률을 선택하는 단계를 더 포함하는, 컴퓨터 구현 방법.
서버 컴퓨터에 있어서,
프로세서;
상기 프로세서와 통신하는 통신 인터페이스;
비디오 클립들을 저장하기 위한 데이터 저장소; 및
명령어들을 저장하기 위해 상기 프로세서와 통신하는 메모리를 포함하되, 상기 명령어들이 상기 프로세서에 의해 실행될 때, 상기 서버가,
분석을 위한 비디오 클립을 수신하고 - 상기 비디오 클립은 비디오 프레임들의 시간 시퀀스를 포함함 -;
감소된 키-프레임들의 시퀀스를 생성하기 위해 상기 클립내 상기 프레임들에 병목 어텐션 메커니즘을 적용하고;
각각의 키프레임에 대한 3D 임베딩 텐서를 획득하기 위해 상기 키-프레임들의 시퀀스에 2차원(2D) 컨볼루션 신경망을 적용하고;
최종 행동 컨텍스트를 생성하기 위해 상기 3D 임베딩 텐서들에 다중 헤딩 어텐션 메커니즘을 적용하고; 및
행동 클래스에 의해 지정된 행동이 비디오 클립에서 발생했을 가능성을 나타내는 각각의 상기 행동 클래스에 대한 확률을 획득하기 위해 분류 메커니즘을 상기 최종 행동 컨텍스트에 적용하게 하는, 서버 컴퓨터.
제11항에 있어서, 각각의 키-프레임은 상기 비디오 클립내의 시간적으로 인접한 프레임들의 상이한 서브세트를 나타내는, 서버 컴퓨터.
제12항에 있어서, 상기 병목 어텐션 메커니즘은 34개의 비디오 프레임들의 비디오 클립으로부터 16개의 키프레임들 또는 11개의 키프레임들을 생성하는, 서버 컴퓨터.
제11항에 있어서, 상기 다중 헤딩 어텐션 메커니즘은,
풀링 셀프-어텐션 절차를 적용하는 단계;
잔차 셀프-어텐션 절차를 적용하는 단계; 및
최종 행동 컨텍스트를 획득하기 위해 상기 풀링 셀프-어텐션 및 상기 잔차 셀프-어텐션 절차들의 결과들을 병합하는 단계를 포함하는, 서버 컴퓨터.
제14항에 있어서, 상기 풀링 셀프-어텐션 절차는,
3D 평균 풀링에 기초하여 클립의 각 키프레임에 대한 어텐션 가중치들을 계산하는 단계;
평균 프레임 주위에 상기 어텐션 가중치들을 집중화하는 단계;
정규화된 어텐션 벡터를 생성하기 위해 집중화된 어텐션 가중치들을 정규화하는 단계; 및
상기 클립 내의 프레임들 간의 차이를 증강시키기 위해 상기 정규화된 어텐션 가중치와 개개의 키프레임을 곱하는 단계를 포함하는, 서버 컴퓨터.
제14항에 있어서, 상기 병목 어텐션 메커니즘은,
상기 비디오 프레임들의 각각에 대한 시간적 어텐션 가중치들을 계산하는 단계; 및
키-프레임들을 계산하는 단계를 포함하되, 각각의 키-프레임은 시간적으로 인접한 프레임들의 서브세트의 가중된 평균이고, 상기 가중치들은 상기 계산된 시간적 어텐션 가중치들인, 서버 컴퓨터.
제16항에 있어서, 상기 시간적 어텐션 가중치들은 상기 풀링 셀프-어텐션 절차에 의해 생성되는, 서버 컴퓨터.
제14항에 있어서, 상기 잔차 셀프-어텐션 절차는,
임베딩 텐서 출력들을 2차원에서 1X1 커널과 컨벌루션하는 단계;
2D 평균 풀링에 기초하여 각각의 컨볼루션된 텐서에 대한 어텐션 가중치들을 계산하는 단계;
정규화된 어텐션 벡터를 생성하기 위해 상기 어텐션 가중치들에 소프트맥스(softmax)를 적용하는 단계; 및
상기 잔차 행동 컨텍스트를 획득하기 위해 상기 가중치들에 임베딩 텐서를 곱하고 상기 결과를 스케일링하는 단계를 포함하는, 서버 컴퓨터.
제14항에 있어서, 상기 시간적 어텐션 가중치들은 상기 잔차 셀프-어텐션 절차에 의해 생성되는, 서버 컴퓨터.
제11항에 있어서,
상기 비디오에서 발생한 가장 가능성 있는 행동을 예측하기 위해 상기 행동 컨텍스트 확률에서 가장 높은 확률을 선택하는 것을 더 포함하는, 서버 컴퓨터.