KR20220038434A

KR20220038434A - 액션 인식 방법 및 장치, 컴퓨터 저장 매체, 및 컴퓨터 디바이스

Info

Publication number: KR20220038434A
Application number: KR1020227005895A
Authority: KR
Inventors: 둥하오 뤄; 야뱌오 왕; 천양 궈; 보위안 덩; 청제 왕; 지린 리; 페위에 후앙; 용지안 우
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2019-11-20
Filing date: 2020-10-10
Publication date: 2022-03-28
Also published as: JP2022551396A; US11928893B2; WO2021098402A1; CN110866509A; EP3992846A4; EP3992846A1; US20220076002A1; CN110866509B; JP7274048B2

Abstract

본 발명은 액션 인식 방법에 관한 것이다. 본 방법은, 다중-채널 컨볼루션 레이어를 통해 서로 상이한 컨볼루션 채널들에서 각각의 타이밍 프레임의 이미지 데이터의 원래의 특징 서브-이미지들을 획득하는 단계; 각각의 타이밍 프레임을 타깃 타이밍 프레임으로 취하고, 각각의 컨볼루션 채널에서 타깃 타이밍 프레임의 원래의 특징 서브-이미지와 각각의 컨볼루션 채널에서 후속의 타이밍 프레임의 원래의 특징 서브-이미지에 따라 각각의 컨볼루션 채널에서 타깃 타이밍 프레임의 움직임 정보 가중치들을 계산하고, 움직임 정보 가중치에 따라 각각의 컨볼루션 채널에서 타깃 타이밍 프레임의 움직임 정보 특징 이미지를 획득하는 단계; 각각의 컨볼루션 채널에서 타깃 타이밍 프레임의 타이밍 움직임 특징 이미지를 획득하기 위해 각각의 컨볼루션 채널에서 타깃 타이밍 프레임의 움직임 정보 특징 이미지에 대해 타이밍 컨볼루션을 수행하는 단계; 각각의 컨볼루션 채널에서 타깃 데이터 타이밍 프레임의 타이밍 움직임 특징 이미지에 따라 타깃 타이밍 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계를 포함한다.

Description

액션 인식 방법 및 장치, 컴퓨터 저장 매체, 및 컴퓨터 디바이스

본 출원은 2019년 11월 20일에 중국 국가지식재산권국에 출원되고 발명의 명칭이 "액션 인식 방법 및 장치, 컴퓨터-판독 가능한 저장 매체, 및 컴퓨터 디바이스(ACTION RECOGNITION METHOD AND APPARATUS, COMPUTER-READABLE STORAGE MEDIUM, AND COMPUTER DEVICE)"인 중국 특허 출원 번호 제 2019111430082 호에 대한 우선권을 주장하며, 이 출원은 그 전체가 본원에 참조로 포함된다.

본 개시내용은, 인공 지능(AI) 기술의 분야와 이미지 처리 기술의 분야에 관한 것으로서, 특히 액션 인식 방법, 액션 인식 장치, 컴퓨터-판독 가능한 저장 매체, 및 컴퓨터 디바이스에 관한 것이다.

컴퓨터 기술과 AI 기술의 발달로, 액션 인식 기술은 이미지 분야에서 비디오 분야로 확장되고 있다. 종래의 방법에서, 비디오 데이터에 대한 액션 인식은 2차원(2D) 일반적으로 컨볼루션 뉴런 네트워크를 사용하여 비디오 데이터에서 이미지의 각각의 프레임을 인식하고, 이미지 데이터에 대한 액션 인식 결과를 획득하기 위해 최종적으로 비디오 데이터에서 모든 프레임들의 액션 인식 결과들을 융합하는 것이다. 그러나, 움직이는 객체의 액션 변화가 중요한 시나리오에서는, 비디오 데이터에서 프레임들의 서로 다른 순서들에 대해, 2D 컨볼루션 뉴런 네트워크에서 획득된 비디오 데이터에서 액션 유형의 인식 결과는 동일할 것이다. 따라서, 2차원 컨볼루션 뉴런 네트워크를 사용하여 액션 인식을 수행하는 것은 정확도가 낮다.

본 개시내용에서 제공되는 다양한 실시예들에 따라, 액션 인식 방법 및 장치, 컴퓨터-판독 가능한 저장 매체, 및 컴퓨터 디바이스가 제공된다.

본 개시내용의 일 측면에 따라, 컴퓨터 디바이스에 의해 수행되는 액션 인식 방법이 제공되며, 본 방법은,

복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터를 획득하고, 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하는 단계;

시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 단계;

컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들 및 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하는 단계;

컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하는 단계; 및

시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계를 포함한다.

실시간 감시 비디오 데이터를 획득하는 단계;

복수의 시간 프레임들에서 감시 이미지 데이터의 이미지 데이터를 추출하고, 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하는 단계;

컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하는 단계;

시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계; 및

액션 유형을 현재의 감시 이미지 데이터에서 움직이는 객체의 액션 정보로 결정하는 단계를 포함한다.

본 개시내용의 일 측면에 따라, 컴퓨터 디바이스에 배치된 액션 인식 장치가 제공되며, 본 장치는,

다중-채널 컨볼루션 레이어를 사용하여 복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터를 획득하고, 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하도록 구성된 이미지 획득 모듈;

시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하도록 구성된 가중치 획득 모듈;

컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들과 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하도록 구성된 특징 결정 모듈;

컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하도록 구성된 시간 상호작용 모듈(temporal interaction module); 및

컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하도록 구성된 액션 인식 모듈을 포함한다.

실시간 감시 비디오 데이터를 획득하고; 복수의 시간 프레임들에서 감시 이미지 데이터의 이미지 데이터를 추출하고; 그리고 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하도록 구성된 이미지 획득 모듈;

시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하도록 구성된 가중치 획득 모듈;

컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들 및 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하도록 구성된 특징 결정 모듈;

컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하도록 구성된 시간 상호작용 모듈; 및

시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하고; 액션 유형을 현재의 감시 이미지 데이터에서 움직이는 객체의 액션 정보로 결정하도록 구성된 액션 인식 모듈을 포함한다.

하나 이상의 컴퓨터-판독 가능한 저장 매체가 제공되며, 하나 이상의 컴퓨터-판독 가능한 저장 매체는 컴퓨터-판독 가능한 명령어들을 저장하고, 컴퓨터-판독 가능한 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 본 개시내용의 실시예들에 따른 액션 인식 방법에서 동작들을 수행하도록 한다.

컴퓨터 디바이스가 제공되며, 본 컴퓨터 디바이스는 컴퓨터 디바이스 메모리 및 하나 이상의 프로세서를 포함하고, 메모리는 컴퓨터 판독-가능한 명령어들을 저장하고, 컴퓨터 판독-가능한 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 본 개시내용의 실시예들에 따른 액션 인식 방법에서 동작들을 수행하도록 한다.

본 개시내용의 하나 이상의 실시예의 세부사항은 아래에 첨부한 도면 및 설명에서 제공된다. 본 개시내용의 명세서, 첨부된 도면, 및 특허청구범위에 기초하여, 본 개시내용의 다른 특징들, 목적들 및 이점들은 보다 명확해진다.

실시예들에서 기술적인 솔루션을 보다 명확하게 설명하기 위하여, 이하에서는 실시예들을 설명하기 위해 필요한 첨부한 도면들을 간략히 소개한다. 물론, 다음 설명에서 첨부 도면들은 단지 본 출원의 일부 실시예들을 도시하고, 본 기술 분야의 통상의 기술자는 창조적 노력 없이도 첨부한 도면들로부터 다른 도면들을 여전히 도출할 수 있다.
도 1은 일 실시예에 따른 액션 인식 방법의 애플리케이션 환경의 다이어그램이다.
도 2는 일 실시예에 따른 액션 인식 네트워크 모델의 개략적인 구조적인 다이어그램이다.
도 3은 일 실시예에 따른 액션 인식 방법의 개략적인 흐름도이다.
도 4는 일 실시예에 따른 시간 움직임 특징 맵들을 생성하는 단계들의 개략적인 다이어그램이다.
도 5는 일 실시예에 따른 움직임 정보 가중치들을 계산하는 단계들의 개략적인 흐름도이다.
도 6a는 일 실시예에 따른 차이 정보를 획득하는 단계들의 개략적인 흐름도이다.
도 6b는 일 실시예에 따른 움직임 정보 가중치들을 계산하는 개략적인 다이어그램이다.
도 7은 일 실시예에 따른 시간 움직임 특징 맵들을 생성하는 단계들의 개략적인 흐름도이다.
도 8a는 일 실시예에 따른 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계들의 개략적인 흐름도이다.
도 8b는 일 실시예에 따른 레지듀얼 네트워크 레이어의 개략적인 구조적인 다이어그램이다.
도 9는 일 실시예에 따른 파라미터 트레이닝 단계들의 개략적인 흐름도이다.
도 10은 일 실시예에 따른 시각화된 원래의 특징 서브-맵들, 움직임 정보 특징 맵들, 및 시간 움직임 특징 맵들의 개략적인 다이어그램이다.
도 11은 다른 실시예에 따른 액션 인식 방법의 개략적인 흐름도이다.
도 12는 일 실시예에 따른 액션 인식 장치의 구조적인 블록 다이어그램이다.
도 13은 일 실시예에 따른 가중치 획득 모듈의 구조적인 블록 다이어그램이다.
도 14는 일 실시예에 따른 컴퓨터 디바이스의 구조적인 블록 다이어그램이다.

본 개시내용의 목적, 기술적 솔루션들, 및 이점들을 보다 명확하게 하기 위하여, 다음은 첨부된 도면들 및 실시예들을 참조하여 본 개시내용을 더욱 상세하게 설명한다. 본 명세서에 설명된 특정 실시예들은 단지 본 개시내용을 설명하기 위해 사용된 것이며, 본 개시 내용을 제한하려는 의도가 아님을 이해해야 한다.

인공 지능(AI)은 디지털 컴퓨터 또는 디지털 컴퓨터에 의해 제어되는 컴퓨터 또는 머신을 사용하여 인간의 지능을 시뮬레이션, 확장 및 확대하고, 환경을 인식하고, 지식을 획득하고, 지식을 사용하여 최적의 결과를 획득하는 이론, 방법, 기술, 및 애플리케이션 시스템이다. 다시 말해, AI는 컴퓨터 과학의 종합기술이며 지능의 본질을 이해하고 인간의 지능과 유사한 방식으로 반응할 수 있는 새로운 지능 머신을 생산하고자 하는 것이다. AI는 다양한 지능 머신의 설계 원리 및 구현 방법을 연구하여 머신이 인식, 추론 및 의사 결정의 기능들을 가질 수 있도록 하는 것이다.

AI 기술은 포괄적인 학문이며 하드웨어 수준의 기술과 소프트웨어 수준의 기술을 모두 포함하는 광범위한 분야와 관련이 있다. 기본적인 AI 기술은 일반적으로 센서들, 전용 AI 칩들, 클라우드 컴퓨팅(cloud computing), 분산 스토리지(distributed storage), 빅 데이터 처리 기술, 운영/상호작용 시스템들, 및 전자 머신 통합과 같은 기술들을 포함한다. AI 소프트웨어 기술은 주로 컴퓨터 비전(CV), 음성 처리, 자연어 처리(natural language processing), 머신 학습/딥 학습(machine learning/deep learning)과 같은 여러 주요 분야들을 포함한다.

CV는 머신을 사용하여 "보는" 방법을 연구하는 과학이며, 나아가 카메라와 컴퓨터를 사용하여 사람의 눈을 대신하여 객체에 대한 인식, 추적 및 측정을 수행하고 추가로 그래픽 처리를 수행하여, 컴퓨터가 객체를 사람의 눈이 관찰하기에 더 적합한 이미지, 또는 검출을 위해 기기로 전송되는 이미지를 처리하는 것이다. 과학 분야로서, CV는 관련된 이론과 기술을 연구하고 이미지 또는 다차원 데이터로부터 정보를 획득할 수 있는 AI 시스템의 구축을 시도한다. CV 기술은 일반적으로 이미지 처리, 이미지 인식, 이미지 의미론적 이해(image semantic understanding), 이미지 검색, 광학 문자 인식(OCR), 비디오 처리, 비디오 의미론적 이해(video semantic understanding), 비디오 콘텐츠/거동 인식(video content/behavior recognition), 3차원(3D) 객체 재구성, 3D 기술, 가상 현실, 증강 현실(augmented reality), 동기 위치 제어(synchronous positioning) 및 맵 구성(map construction)을 포함하고, 추가로 공통 얼굴 인식 및 지문 인식(common face recognition and fingerprint recognition)과 같은 생체 특징 인식 기술을 포함한다.

도 1은 일 실시예에 따른 액션 인식 방법의 애플리케이션 환경의 다이어그램이다. 도 1을 참조하면, 액션 인식 방법은 컴퓨터 디바이스에 적용된다. 컴퓨터 디바이스는 단말기 또는 서버일 수 있다. 도 1에 도시된 바와 같이, 컴퓨터 디바이스가 서버인 예가 사용된다. 액션 인식 네트워크 모델은 컴퓨터 디바이스에 배치된다. 액션 인식 네트워크는 본 개시내용에서 제공되는 액션 인식 방법에 따라 대응하여 구성된 네트워크 모델이다. 서버는 비디오 데이터로부터 복수의 시간 프레임의 이미지 데이터를 추출한다. 도 1에 도시된 바와 같이, 비디오 데이터로부터 획득된 복수의 시간 프레임들의 각각의 시간 프레임의 이미지 데이터는 움직이는 객체를 포함한다. 서버는 복수의 시간 프레임들의 추출된 이미지 데이터를 액션 인식 네트워크 모델에 입력한다. 액션 인식 네트워크 모델은 각각의 시간 프레임의 이미지 데이터에 대응하는 액션 유형을 획득하기 위해 이미지 데이터로부터 획득된 각각의 시간 프레임의 이미지 데이터에 대해 액션 인식을 수행한다. 이후, 이미지 데이터로부터 추출된 모든 시간 프레임들의 이미지 데이터에 대응하는 액션 유형들은 이미지 데이터에 대한 액션 인식 결과를 획득하기 위해 융합될 수 있다.

예를 들어, 예시적인 애플리케이션 시나리오에서, 이미지 데이터는 실시간 감시 비디오일 수 있고, 실시간 감시 비디오를 액션 인식 모델에 입력함으로써, 감시 비디오에서 각각의 시간 프레임의 이미지 데이터의 모니터링된 객체의 실시간 액션은 감시 비디오에서 이미지 데이터의 각각의 시간 프레임의 모니터링된 객체의 액션 정보를 획득하기 위해 인식되어, 이에 의해, 모니터링된 객체의 거동을 학습하기 위해 이미지 데이터를 수동으로 시청하지 않고 모니터링된 객체에 대한 실시간 모니터링을 구현한다.

다른 예에서, 예시적인 애플리케이션 시나리오에서, 비디오 데이터는 수화 비디오(sign language video)일 수 있고, 수화 비디오를 액션 인식 모델에 입력함으로써, 수화 비디오에서 각각의 시간 프레임의 이미지 데이터의 핸드 액션은 수화 비디오에서 각각의 시간 프레임의 이미지 데이터에 대응하는 수화 액션 정보를 획득하기 위해 인식되며, 이에 의해, 수화 번역(sign language translation)을 달성한다.

도 2는 일 실시예에 따른 액션 인식 네트워크 모델의 개략적인 구조적인 다이어그램이다. 도 2에 도시된 바와 같이, 액션 인식 네트워크 모델은 다중-채널 컨볼루션 레이어, 액션 정보 강화 모듈(action information enhancement module), 시간 상호작용 모듈(temporal interaction module), 및 백본 네트워크 레이어(backbone network layer)를 포함한다. 복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터가 획득된 이후에, 다중-채널 컨볼루션 레이어는 각각의 시간 프레임의 이미지 데이터의 원래의 특징 맵을 획득하도록 구성된다. 원래의 특징 맵은 복수의 컨볼루션 채널들에 대한 원래의 특징 서브-맵들을 포함한다. 액션 정보 강화 모듈은, 복수의 컨볼루션 채널들에 대한 각각의 시간 프레임의 이미지 데이터의 움직임 정보 특징 맵들을 획득하기 위해, 복수의 컨볼루션 채널들에 대한 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들에 대해 액션 정보 강화를 수행하도록 구성된다. 시간 상호작용 모듈은 시간 움직임 특징 맵들을 획득하기 위해 각각의 컨볼루션 채널에 대한 인접한 시간 프레임들의 이미지 데이터의 움직임 정보 특징 맵들에 대해 컨볼루션 동작을 수행하도록 구성되며, 시간 움직임 특징 맵은 인접한 시간 프레임들의 움직임 정보와 융합되고, 백본 네트워크 레이어는 시간 움직임 특징 맵들에 따라 이미지 데이터에서 움직이는 객체의 액션 유형을 획득하도록 구성된다.

일 실시예에서, 백본 네트워크 레이어는 액션 인식에 사용되는 2차원 컨볼루션 네트워크이며, 순서대로 연결된 복수의 네트워크 레이어들을 포함한다. 도 2에 도시된 액션 인식 네트워크 모델에서, 백본 네트워크 레이어는 순서대로 연결된 3개의 서브-네트워크 레이어들을 포함한다. 선택적으로, 백본 네트워크 레이어는 ResNet-50 컨볼루션 뉴런 네트워크일 수 있다.

도 3에 도시된 것처럼, 일 실시예에서, 액션 인식 방법이 제공된다. 본 실시예는 도 1에서 방법이 서버(102)에 적용되는 예를 사용하여 주로 설명된다. 도 3을 참조하면, 액션 인식 방법은 구체적으로 다음 단계들을 포함한다.

단계 S302: 복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터를 획득하고, 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득한다.

비디오 데이터는 임의의 비디오 데이터일 수 있다. 콘텐트 측면에서, 비디오 데이터는 댄스 비디오, 감시 비디오 또는 수화 비디오와 같이 움직이는 객체를 포함하는 비디오를 지칭한다. 소스 측면에서, 비디오 데이터는 카메라를 사용하여 캡처된 감시 비디오일 수 있거나, 다른 디바이스에 의해 전송되는 비디오 데이터일 수도 있다.

복수의 시간 프레임들의 이미지 데이터는 이미지 데이터로부터 시간적 순서(chronological order)로 추출된 이미지 데이터를 지칭하며, 이미지 데이터에서 전체의 시간 프레임들의 이미지 데이터, 또는 일부 연속적인 시간 프레임들의 이미지 데이터를 포함할 수 있다. 복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터는 이미지 데이터에서 이미지 데이터의 배열 순서에 따라 구체적으로 획득될 수 있거나, 특정 샘플링 빈도(specific sampling frequency)로 비디오 데이터로부터 추출될 수 있다. 예를 들어, 비디오 데이터에서 제 1 프레임의 이미지 데이터가 제 1 시간 프레임의 이미지 데이터로 사용되고 나서, 후속의 시간 프레임들의 이미지 데이터는 비디오 데이터에서 이미지 데이터의 배열 순서에 따라 특정 샘플링 주파수로 추출된다. 이미지 데이터의 프레임들의 수량은 액션 인식의 복잡도에 따라 결정되거나, 비디오 데이터에서 이미지 데이터 프레임들의 수량에 따라 결정될 수 있다는 것을 이해해야 한다.

원래의 특징 서브-맵은 이미지 데이터를 나타내는 특징 정보를 지칭한다. 다중-채널 컨볼루션 레이어는 이미지 데이터에서 특징 정보를 획득하도록 구성된 네트워크 모델을 지칭하며, 본 명세서에서 다중-채널 컨볼루션 레이어는 이미지 데이터의 특징 정보를 획득하기 위해 직접 사용될 수 있는 트레이닝된 네트워크 모델(trained network model)이다. 다중-채널 컨볼루션 레이어는 복수의 컨볼루션 커널들(convolution kernels)을 포함한다. 컨볼루션 채널들은 다중-채널 컨볼루션 레이어에서 정의된다. 이미지 데이터를 추출하도록 구성되는 다중-채널 컨볼루션 레이어에서 컨볼루션 커널들의 수량은 컨볼루션 채널들의 수량이다. 구체적으로, 이미지 데이터는 다중-채널 컨볼루션 레이어의 입력 데이터로 다중-채널 컨볼루션 레이어에 입력되고, 다중-채널 컨볼루션 레이어에서 컨볼루션 커널들은 컨볼루션 커널들에 대응하는 컨볼루션 채널들에 대한 원래의 특징 서브-맵들을 각각 획득하기 위해 이미지 데이터에 대해 컨볼루션 계산을 수행한다.

그레이스케일 이미지가 예로 사용된다. 이미지 데이터로부터 획득된 복수의 시간 프레임들의 이미지 데이터는 그레이스케일 이미지들이다. 각각의 그레이스케일 이미지는 다중-채널 컨볼루션 레이어에 입력되고, 다중-채널 컨볼루션 레이어에 의해 출력되는 원래의 특징 맵이 획득된다. 원래의 특징 맵의 데이터 차원들은 C, H, 및 W이며, 여기서, H 및 W는 원래의 특징 맵의 길이 및 너비를 식별하고, C는 원래의 특징 맵의 채널 차원을 나타내는데, 즉 원래의 특징 맵은 C 원래의 특징 서브-맵들을 포함한다.

단계 S304: 시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산한다.

후속의 시간 프레임은 타깃 시간 프레임을 기준으로 후속 시점에 대응하는 시간 프레임을 지칭한다. 예를 들어, 타깃 시간 프레임은 (t) 번째 프레임인데, 즉 타깃 시간 프레임의 이미지 데이터는 비디오 데이터로부터 획득된 (t) 번째 프레임의 이미지 데이터이다. 따라서, 후속의 시간 프레임은 (t+1) 번째 프레임인데, 즉 후속의 시간 프레임의 이미지 데이터는 비디오 데이터로부터 획득된 (t+1) 번째 프레임의 이미지 데이터이다.

움직임 정보 가중치들은 복수의 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들의 관심 할당(attention allocation)의 확률 분포를 나타낸다. 움직임 가중치들의 크기들은 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 움직이는 객체의 액션 정보 사이의 상관 관계와 관련이 있는데, 즉, 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들에 포함된 움직임 정보의 양과 관련이 있다. 컨볼루션 채널에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵과 움직이는 객체의 액션 정보 사이의 상관관계가 높을수록 움직임 정보가 더 많이 포함되고, 그런 다음, 컨볼루션 채널에 대한 원래의 특징 서브-맵에 더 많은 관심이 할당되는데, 즉 움직임 정보 가중치가 커진다는 것을 이해할 수 있다.

비디오 데이터로부터 획득된 각각의 시간 프레임의 이미지 데이터는 액션 인식을 위해 중요한 정보, 예를 들어, 움직이는 객체의 외관 정보를 포함하고; 또한 액션 인식에 쓸모없거나 심지어 역효과를 내는 노이즈 정보, 예를 들어, 이미지 데이터에서 노이즈 또는 배경 정보를 포함한다. 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 움직이는 객체의 액션 정보, 즉 움직임 정보 가중치들 사이의 상관 관계들을 획득한 이후에, 움직이는 객체의 액션 정보와 더 관련이 있는 원래의 특징 서브-맵에 포함된 특징 정보를 강화, 즉, 컨볼루션 채널에 대한 원래의 특징 서브-맵에 더 많은 관심을 할당하고, 움직이는 객체의 액션 정보를 적게 포함하거나 더 많은 노이즈를 포함하는 원래의 특징 서브-맵을 억제, 즉, 컨볼루션 채널에 대한 원래의 특징 서브-맵에 대한 관심을 덜 할당함으로써, 액션 인식에 유익한 정보는 강화되고, 액션 인식에 관련이 없거나 심지어 해로운 정보는 억제되어, 이에 의해, 액션 인식의 정확도를 효과적으로 향상시킨다.

단일 시간 프레임의 이미지 데이터에서, 움직이는 객체와 배경 정보는 모두는 정적이지만, 움직임은 액션 변화의 과정이다. 따라서, 움직이는 객체의 액션 변화는 타깃 시간 프레임의 이미지 데이터와 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터를 사용하여 설명되어, 액션 인식의 정확도를 향상시킨다. 구체적으로, 컨볼루션 채널들에 대한 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들이 획득된 이후에, 각각의 시간 프레임의 이미지 데이터는 타깃 시간 프레임의 이미지 데이터로 사용되고, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 대응하는 움직임 정보 가중치들은 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들에 따라 획득된다.

또한, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 대한 움직임 정보 가중치들을 획득하는 것은 구체적으로 다음과 같다. 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 해당 컨볼루션 채널들에 대한 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들 사이의 차이들은 먼저 계산되고, 다음에, 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 해당 움직임 정보 가중치들은 컨볼루션 채널들에 대한 원래의 특징 서브-맵들 사이의 차이들에 따라 결정된다.

단계 S306: 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들과 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득한다.

컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들이 획득된 이후에, 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들은 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하기 위해 해당 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 적용될 수 있다.

움직임 정보 가중치들은 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 움직이는 객체의 액션 정보 사이의 상관 관계들을 설명하기 위해 사용되기 때문에, 각각의 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하기 위해 각각의 컨볼루션 채널들에 대한 움직임 정보 가중치들을 각각의 컨볼루션 채널들에 대한 원래의 특징 서브-맵들로 승산 함으로써, 움직이는 객체의 액션 정보와 더 관련이 있는 원래의 특징 서브-맵들은 강화되고, 움직이는 객체의 액션 정보와 관련성이 덜한 원래의 특징 서브-맵들은 억제됨으로써, 액션 인식에 유익한 정보는 강화되고, 액션 인식과 무관하거나 심지어 해로운 정보는 억제된다. 그 결과로서, 움직임 정보 특징 맵들은 움직이는 객체에 대한 후속의 액션 인식에 유리하고 액션 인식의 정확도를 효과적으로 향상시키는 움직이는 객체의 더 많은 액션 정보를 포함한다.

단계 S308: 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행한다.

컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대한 시간 컨볼루션을 실행하는 것은 구체적으로 다음과 같다. 컨볼루션될 시간 프레임들은 타깃 시간 프레임에 따라 결정되고, 타깃 시간 프레임의 움직임 정보 특징 맵들 및 컨볼루션될 시간 프레임들은 각각의 컨볼루션 채널에 대해 컨볼루션된다. 컨볼루션될 시간 프레임들은 타깃 시간 프레임에 인접한 시간 프레임들이고, 타깃 시간 프레임의 이전의 시간 프레임 및 후속의 시간 프레임을 포함할 수 있거나, 대안적으로 타깃 시간 프레임의 이전의 2개의 시간 프레임들 및 후속의 2개의 프레임들을 포함할 수 있다. 예를 들어, 타깃 시간 프레임은 (t) 번째 프레임이다. 컨볼루션될 시간 프레임들은 타깃 시간 프레임에 인접한 이전의 시간 프레임 및 후속의 시간 프레임을 포함할 수 있다. 즉, 컨볼루션될 시간 프레임들은 (t-1) 번째 프레임 및 (t+1) 번째 프레임을 포함할 수 있다. 다시 말해, (t) 번째 프레임에 대해, (t-1) 번째 프레임, (t) 번째 프레임, (t+1) 번째 프레임의 움직임 정보 특징 맵들은 컨볼루션 채널들에 대한 (t) 번째 프레임의 시간 움직임 특징 맵들을 획득하기 위해 각각의 컨볼루션 채널에 대해 컨볼루션된다. 컨볼루션될 시간 프레임들은 대안적으로 타깃 시간 프레임에 인접한 이전의 2개의 시간 프레임들 및 후속의 2개의 시간 프레임들을 포함할 수 있다. 즉, 컨볼루션될 시간 프레임들은 (t-2) 번째 프레임, (t-1) 번째 프레임, (t+1) 번째 프레임, 및 (t+2) 번째 프레임을 포함한다. 이 경우에, (t) 번째 프레임에 대해서, (t-2) 번째 프레임, (t-1) 번째 프레임, (t) 번째 프레임, (t+1) 번째 프레임, 및 (t+2) 번째 프레임의 움직임 정보 특징 맵들은 컨볼루션 채널들에 대한 (t) 번째 프레임의 시간 움직임 특징 맵들을 획득하기 위해 각각의 컨볼루션 채널에 대해 컨볼루션된다.

구체적으로, 컨볼루션 채널들에 대한 시간 프레임들의 움직임 정보 특징 맵들이 획득된 이후에, 타깃 시간 프레임에 인접한 시간 프레임들은 컨볼루션될 시간 프레임들로 결정될 수 있고, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 각각의 컨볼루션 채널에 대한 타깃 시간 프레임 및 컨볼루션될 시간 프레임들의 움직임 정보 특징 맵에 대해 컨볼루션 동작이 실행됨으로써, 시간 움직임 특징 맵들은 연속적인 시간 프레임들의 움직임 정보 특징 맵들, 즉 움직이는 객체의 액션 동작과 융합되어, 이에 의해, 시간 차원의 모델링을 구현한다. 컨볼루션 채널들에 대한 컨볼루션될 시간 프레임들의 움직임 정보 특징 맵들을 획득하는 방법은 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하는 방법과 동일하다.

도 4는 일 실시예에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하는 개략적인 다이어그램이다. 도면에서 왼쪽 매트릭스 다이어그램은 컨볼루션 채널들에 대한 시간 프레임들의 움직임 정보 특징 맵들을 나타내고, 도면에서 오른쪽 매트릭스 다이어그램은 컨볼루션 채널들에 대한 시간 프레임들의 시간 움직임 특징 맵들을 나타낸다. 도면에서 매트릭스 다이어그램의 가로축은 컨볼루션 채널의 차원을 나타내고, 매트릭스 다이어그램의 세로축은 시간 프레임의 차원을 나타낸다. 왼쪽 매트릭스 다이어그램을 예로서 사용함으로써, 도면에서 왼쪽 매트릭스 다이어그램의 제 1 로우는 컨볼루션 채널들에 대한 제 1 시간 프레임의 움직임 정보 특징 맵들을 나타내고, 왼쪽 매트릭스 다이어그램의 제 2 로우는 컨볼루션 채널들의 제 2 시간 프레임의 움직임 정보 특징 맵들을 나타낸다. 제 2 시간 프레임이 타깃 시간 프레임으로 사용되고, 컨볼루션될 시간 프레임들이 제 2 시간 프레임의 이전의 시간 프레임과 제 2 시간 프레임의 후속의 시간 프레임을 포함하는 예가 사용된다. 3*1 컨볼루션 커널은 제 1 컨볼루션 채널에 대한 제 2 시간 프레임의 시간 움직임 특징 맵을 획득하기 위하여 제 1 컨볼루션 채널에 대한 제 1 시간 프레임의 움직임 정보 특징 맵, 제 1 컨볼루션 채널에 대한 제 2 시간 프레임의 움직임 정보 특징 맵, 및 제 1 컨볼루션 채널에 대한 제 3 시간 프레임의 움직임 정보 특징 맵에 대해 컨볼루션 동작을 수행하기 위해 사용된다. 유사하게, 3*1 컨볼루션 커널은 제 2 컨볼루션 채널에 대한 제 2 시간 프레임의 시간 움직임 특징 맵(도면에서 B)을 획득하기 위하여 제 2 컨볼루션 채널에 대한 제 1 시간 프레임의 움직임 정보 특징 맵(도면에서 A1), 제 2 컨볼루션 채널에 대한 제 2 시간 프레임의 움직임 정보 특징 맵(도면에서 A2), 및 제 2 컨볼루션 채널에 대한 제 3 시간 프레임의 움직임 정보 특징 맵(도면에서 A3)에 대해 컨볼루션 동작을 수행하기 위해 사용된다. 이러한 방법으로, 모든 컨볼루션 채널들에 대한 제 2 시간 프레임의 시간 움직임 특징 맵들을 획득한다. 임의의 시간 프레임에 대해, 시간 프레임에 인접한 연속적인 시간 프레임들은 컨볼루션 채널들에 대한 시간 차원에서 컨볼루션 동작을 수행하기 위해 사용됨으로써, 이러한 동작을 통해 획득된 시간 움직임 특징 맵들은 연속적인 시간 프레임의 움직임 정보 특징 맵들, 즉 움직이는 객체의 액션 정보와 융합될 수 있다.

도 4에 도시된 바와 같이, 제 1 시간 프레임과 마지막 제 4 시간 프레임에 대해서는, 이전의 시간 프레임 또는 후속의 시간 프레임의 이미지 데이터가 존재하지 않기 때문에, 제 1 시간 프레임의 이전의 시간 프레임과 마지막 제 4 시간 프레임의 후속의 시간 프레임에 대해 제로 필 동작(zero fill operation)이 수행될 수 있다는 것을 이해해야 한다.

단계 S310: 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식한다.

타깃 시간 프레임의 이미지 데이터의 시간 움직임 특징 맵들이 획득된 이후에, 시간 움직임 특징 맵들은 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하기 위하여 이미지 데이터의 특징 정보로 사용될 수 있다. 시간 움직임 특징 맵들은 움직임과 관련성이 높은 정보와 시간 정보를 모두 포함함으로써, 액션 인식을 수행하기 위해 시간 움직임 특징 맵들의 사용은 액션 인식의 정확도를 효과적으로 향상시킬 수 있다.

구체적으로, 시간 움직임 특징 맵들은 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하기 위해 이미지 데이터의 특징 정보로서 액션 인식에 사용되는 2D 컨볼루션 네트워크에 입력될 수 있다. 2D 컨볼루션 네트워크는 ResNet-50 컨볼루션 뉴런 네트워크를 포함할 수 있다. 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들이 ResNet-50 컨볼루션 뉴런 네트워크에 입력된 이후에, 시간 움직임 특징 맵들이 각각의 액션 유형들에 속하는 확률은 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하기 위해 출력된다.

도 2에 도시된 액션 인식 네트워크 모델은 예로서 사용된다. 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계는 백본 네트워크 레이어에 의해 수행된다. 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들은 백본 네트워크 레이어에 입력된다. 백본 네트워크 레이어는 분류기로서 역할을 하고 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 출력한다. 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하는 단계 S302는 다중-채널 컨볼루션 레이어에 의해 수행되고, 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들은 다중-채널 컨볼루션 레이어를 사용하여 획득된다. 시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 단계 S304는 액션 정보 강화 모듈에 의해 수행된다. 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하는 단계 S308은 시간 상호작용 모듈에 의해 수행된다.

상술한 액션 인식 방법에 따라, 복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터가 획득된다. 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들이 다중-채널 컨볼루션 레이어를 사용하여 획득된 이후에, 시간 프레임들의 각각은 타깃 시간 프레임으로 사용되고, 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들은 컨볼루션 채널들에 대한 후속의 시간 프레임과 타깃 시간 프레임의 원래의 특징 서브-맵들에 따라 획득된다. 움직임 정보 가중치들은 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하기 위해 단일 시간 프레임의 원래 특징 서브-맵들에 대한 움직임 정보를 강화하도록 해당 컨볼루션 채널들의 원래 특징 서브-맵들에 적용된다. 그 다음에, 시간 컨볼루션은 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 수행됨으로써, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵을 획득하기 위하여 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들은 시간 차원에서 모델링을 구현하기 위해 인접한 시간 프레임들의 움직임 정보 특징 맵들과 융합된다. 마지막으로, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들은 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하기 위해 액션 인식을 위한 타깃 시간 프레임의 이미지 데이터의 특징 정보로 사용된다. 액션 인식 방법은 시간 프레임들 사이의 시간 정보에 대한 모델링을 구현하면서 단일 시간 프레임의 원래의 특징 서브-맵들에 대한 액션 정보를 강화함으로, 시간 프레임들의 서로 다른 순서들에 대해 서로 다른 액션 인식 결과들이 획득될 것이며, 이에 의해, 액션 인식의 정확도를 효과적으로 향상시킨다.

일 실시예에서, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계 이후에, 본 방법은, 시간 프레임들의 이미지 데이터에서 움직이는 객체의 유형들이 획득된 이후에, 시간 프레임들의 액션 유형들에 따라 비디오 데이터의 액션 유형을 결정하는 단계를 더 포함한다.

타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형이 획득된 이후에, 후속의 시간 프레임들은 순차적으로 타깃 시간 프레임들로 사용되고, 시간 프레임들의 이미지 데이터에서 움직이는 객체의 액션 유형들은 획득된다. 모든 시간 프레임들의 이미지 데이터에서 움직이는 객체의 액션 유형들이 획득된 이후에, 비디오 데이터의 모든 시간 프레임들의 이미지 데이터에서 움직이는 객체에 대응하는 액션 유형들은 비디오 데이터에 대한 액션 인식 결과를 획득하기 위해 최종적으로 융합된다.

일 실시예에서, 도 5에 도시된 바와 같이, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 단계는 다음 단계들을 포함한다.

단계 S502: 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득한다.

차이 정보는 2개의 시간 프레임들의 이미지 데이터에서 움직이는 객체의 액션 변화 정도, 즉 움직이는 객체의 액션과 관련된 정보를 기술할 수 있다. 전술한 바와 같이, 비디오 데이터로부터 획득된 각각의 시간 프레임의 이미지 데이터는 액션 인식에 중요한 정보를 포함하고, 또한 액션 인식에 쓸모없거나 심지어 역효과가 나는 노이즈 정보를 포함한다. 그러나, 단일 시간 프레임의 이미지 데이터에서, 움직이는 객체 및 배경 정보는 모두 정적이며, 움직임은 액션 변화의 과정이므로, 단지 단일 시간 프레임의 이미지 데이터에 따라 움직이는 객체의 액션 정보를 획득하기 어렵다. 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 해당 컨볼루션 채널들에 대한 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들 사이의 차이 정보는 연속적인 시간 프레임들에서 움직이는 객체의 액션 변화이다. 해당 컨볼루션 채널들에 대한 연속적인 시간 프레임들의 원래의 특징 서브-맵들 사이의 차이 정보를 획득함으로써, 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들에 포함된 움직임 정보가 획득될 수 있다.

컨볼루션 채널에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵과 해당 컨볼루션 채널에 대한 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵 사이의 차이는 컨볼루션 채널에 대한 원래의 특징 서브-맵들이 움직이는 객체의 액션 정보와 더 관련이 있고 움직임과 관련된 더 많은 특징 정보를 포함한다는 것을 나타내는 것을 이해할 수 있다. 그렇지 않으면, 컨볼루션 채널에 대한 원래의 특징 서브-맵들이 움직이는 객체의 액션 정보와 더 관련이 없고 움직임과 관련된 특징 정보가 적게 포함된다는 것을 나타낸다.

구체적으로, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보는 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 해당 컨볼루션 채널들에 대한 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들 사이의 차이를 계산함으로써 구체적으로 획득될 수 있다.

단계 S504: 활성화 함수를 사용하여 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들에 컨볼루션 채널들에 대한 차이 정보를 매핑한다.

컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보가 획득된 이후에, 해당 컨볼루션 채널들에 대한 움직임 정보 가중치들은 활성화 함수를 사용하여 컨볼루션 채널들에 대한 차이 정보에 따라 획득될 수 있다. 상술한 바와 같이, 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵과 해당 컨볼루션 채널에 대한 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵 사이의 차이가 더 클수록 컨볼루션 채널에 대한 원래의 특징 서브-맵의 움직임 정보 가중치가 더 크다는 것을 나타낸다. 그렇지 않으면, 컨볼루션 채널에 대한 원래의 특징 서브-맵은 움직이는 객체의 액션 정보와 더 관련이 없음을 나타내므로, 컨볼루션 채널에 대한 원래의 특징 서브-맵의 움직임 정보 가중치가 더 작아진다.

구체적으로, 활성화 함수는 시그모이드 함수(Sigmoid function)일 수 있다. 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보가 획득된 이후에, 컨볼루션 채널들에 대한 차이 정보는, 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들의 움직임 정보 가중치들을 획득하기 위해, 시그모이드 함수를 사용하여 0 내지 1의 가중치 값들로 매핑될 수 있다.

일 실시예에서, 도 6a에 도시된 바와 같이, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하는 단계는 다음 단계들을 포함한다.

단계 S602: 유닛 풀링 레이어(unit pooling layer)를 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래 특징 서브-맵들을 타깃 시간 프레임의 유닛 특징 서브-맵들로 변환하고 컨볼루션 채널들에 대한 후속의 시간 프레임의 원래의 특징 서브-맵들을 후속의 시간 프레임의 유닛 특징 서브-맵들로 변환한다.

유닛 풀링 레이어는 원래의 특징 서브-맵들에 대한 차원 축소를 수행하도록 구성된 풀링 레이어를 지칭한다. 선택적으로, 유닛 풀링 레이어는 평균 풀링 레이어, 예를 들어 글로벌 평균 풀링 레이어를 포함할 수 있다.

유닛 특징 서브-맵은 길이가 1이고 너비가 1인 특징 맵을 지칭한다. 구체적으로, 유닛 풀링 레이어는 공간 크기가 1*1인 유닛 특징 서브-맵을 생성하도록 처리될 수 있는 H*W의 공간 크기를 갖는 원래의 특징 서브-맵에 대해 차원 축소를 수행한다. 이 경우, 컨볼루션 채널의 차원은 변경되지 않음을 이해해야 한다. 즉, 획득된 유닛 특징 서브-맵들의 컨볼루션 채널들의 수량은 원래의 특징 서브-맵들의 컨볼루션 채널들의 수량과 동일하다.

단계 S604: 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들을 획득하기 위해 타깃 시간 프레임의 유닛 특징 서브-맵들에 대해 그리고, 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들을 획득하기 위해 후속의 시간 프레임의 유닛 특징 서브-맵들에 대해 미리 설정된 스케일링 팩터의 차원 축소를 수행한다.

미리 설정된 스케일링 팩터는 실제 상황에 따라 설정되며, 컨볼루션 채널에서 컨볼루션 채널 차원 축소에 의해 획득된 유닛 특징 서브-맵들의 수량에 대한 컨볼루션 채널의 차원에서 원래의 특징 서브-맵들의 수량의 비율에 따라 결정될 수 있다. 예를 들어, 컨볼루션 채널의 차원에서 원래 특징 서브-맵들의 수량은 265이고, 컨볼루션 채널 차원-축소 이후에, 컨볼루션 채널의 차원에서 유닛 특징 서브-맵들의 수량은 16이며, 미리 설정된 스케일링 팩터는 16이다.

컨볼루션 채널들에 대한 타깃 시간 프레임의 유닛 특징 서브-맵들과 컨볼루션 채널들에 대한 후속의 시간 프레임의 유닛 특징 서브-맵들을 획득한 이후에, 컨볼루션 채널의 차원에서 타깃 시간 프레임 및 후속의 시간 프레임에 대응하는 유닛 특징 서브-맵들의 수량은 차원-축소 컨볼루션 레이어를 사용하여 감소될 수 있다. 차원 축소 컨볼루션 레이어에서 컨볼루션 커널들의 크기는 1*1이고, 컨볼루션 커널들의 수량은 컨볼루션 채널의 차원에서 차원-축소 이후에 획득되어야 하는 유닛 특징 서브-맵들의 수량과 동일하다.

예를 들어, 시간 프레임들의 원래의 특징 서브-맵들의 공간 크기는 H*W이며, 컨볼루션 채널의 차원에서 원래의 특징 서브-맵들의 수량은 C이며, 즉, H*W의 공간 크기를 갖는 C개의 원래의 특징 서브-맵들이 포함되며, 따라서 시간 프레임들의 이미지 데이터의 원래의 특징 서브-맵의 데이터 차원은 C*H*W이다. 컨볼루션 채널의 차원에서 유닛 풀링 레이어에 의해 획득된 유닛 특징 서브-맵들의 수량은 변경되지 않고, 공간 크기는 1*1로 차원-축소되며. 즉, 유닛 특징 서브-맵의 데이터 차원은 (C*1*1)이다. 이후에, 컨볼루션 채널의 차원에서 유닛 특징 서브-맵들의 수량을 (C/r)로 획득하기 위해, 차원 축소는 차원 축소 컨볼루션 레이어를 사용하여 컨볼루션 채널의 차원에 대해 수행되고, 차원-축소된 유닛 특징 서브-맵들의 데이터 차원(C/r*1*1)이 획득되며, r은 스케일링 팩터이다.

단계 S606: 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들과 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들 사이의 차원-축소된 차이 정보를 획득한다.

구체적으로, 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들과 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들 사이의 차원-축소된 차이 정보는 해당 컨볼루션 채널들에 대한 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들과 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들 사이의 차이들을 계산함으로써 구체적으로 획득될 수 있다.

단계 S608: 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하기 위해 차원-축소된 차이 정보에 대해 미리 설정된 스케일링 팩터의 차원 상승(dimension raising)을 수행한다.

차원-축소된 차이 정보가 획득된 이후에, 컨볼루션 채널의 차원에서 차원-축소된 차이 정보의 수량(a quantity of pieces)은 차원 상승 컨볼루션 레이어를 사용하여 원래의 특징 서브-맵들의 컨볼루션 채널들의 수량과 일치되도록 복원될 수 있다. 차원 상승 컨볼루션 레이어에서 컨볼루션 커널들의 크기는 1*1이고, 컨볼루션 커널들의 수량은 원래의 특징 서브-맵들의 컨볼루션 채널들의 수량과 동일하다.

본 실시예에서, 유닛 풀링 레이어를 사용하여 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 후속의 시간 프레임의 원래의 특징 서브-맵들을 유닛 특징 서브-맵들로 변환하고, 컨볼루션 채널의 차원에서 획득한 유닛 특징 서브-맵들에 대해 미리 설정된 스케일링 팩터의 차원 축소를 수행한 이후에, 차원-축소된 유닛 특징 서브-맵들의 데이터양은 원래의 특징 서브-맵들의 데이터양보다 훨씬 작게 되어, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보에 대한 계산을 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들과 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들 사이의 차이 정보에 대한 계산으로 변환할 수 있고, 이에 의해, 계산량을 효과적으로 줄이고 계산 속도를 향상시킬 수 있다.

도 2에 도시된 액션 인식 네트워크 모델은 한 예로서 사용된다. 도 5 및 도 6에 도시된 단계들은 액션 정보 강화 모듈에 의해 수행될 수 있다. 도 6b는 일 실시예에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 개략적인 다이어그램이다. 도 6에서 입력 A와 입력 B는 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들을 각각 나타낸다. 입력 A와 입력 B의 데이터 차원들은 모두 C*H*W이며, 여기서 H 및 W는 원래의 특징 서브-맵의 길이 및 너비를 각각 나타내고, C는 컨볼루션 채널의 차원에서 원래의 특징 서브-맵들의 수량을 나타내며, 즉 입력 A와 입력 B 중 하나는 컨볼루션 채널들에 대한 공간 크기가 H*W인 C개의 원래의 특징 서브-맵들을 포함한다. 모듈의 계산량을 줄이기 위해, 컨볼루션 채널들에 대한 1*1의 공간 크기를 갖는 C 유닛 특징 서브-맵들을 획득하기 위해, 유닛 풀링 레이어를 사용하여 입력 A에서 원래의 특징 서브-맵들과 입력 B에서 원래의 특징 서브-맵들의 공간 차원에 대해 차원 축소가 먼저 분리적으로 수행된다. 이어서, 제 1 차원 축소 풀링 레이어를 사용하여 입력 A에 대응하는 유닛 특징 서브-맵들의 컨볼루션 채널의 차원에 대해 차원 축소가 수행되고, 차원-축소된 유닛 특징 서브-맵들의 데이터 차원은 C/r*1*1이다. 유사하게, 제 2 차원 축소 풀링 레이어를 사용하여 입력 B에 대응하는 유닛 특징 서브-맵들의 컨볼루션 채널의 차원에 대해 차원 축소가 수행되고, 차원-축소된 유닛 특징 서브-맵들의 데이터 차원은 또한 C/r*1*1이다. 제 1 차원 축소 풀링 레이어 및 제 2 차원 축소 풀링 레이어의 네트워크 파라미터들은 일치한다는 것을 알 수 있다. 이어서, 움직임 정보를 나타내는 차원-축소된 차이 정보를 획득하기 위해, 2개의 시간 프레임들, 즉 입력 A와 입력 B 중 하나의 차원-축소된 유닛 특징 서브-맵들(데이터 차원은 C/r*1*1이다.)은 다른 하나의 차원-축소된 유닛 특징 서브-맵들(데이터 차원은 C/r*1*1이다.)로부터 감산되며, 여기서, 차원-축소된 차이 정보의 데이터 차원은 C/r*1*1이다. 다음에, 데이터 차원이 C*1*1인 차이 정보를 획득하기 위해, 컨볼루션 채널들의 수량은 차원 상승 컨볼루션 레이어를 사용하여 원래의 특징 서브-맵들의 컨볼루션 채널들의 수량과 일치되도록 복원된다. 마지막으로, 각각의 컨볼루션 채널에 대응하는 차이 정보는 시그모이드 함수를 사용하여 0 내지 1의 값을 갖는 움직임 정보 가중치로 매핑된다. 이어서, 각각의 컨볼루션 채널의 움직임 정보 가중치는 해당 컨볼루션 채널의 원래의 특징 서브-맵으로 승산되어, 일부 컨볼루션 채널들의 원래의 특징 서브-맵들의 특징 정보는 서로 다른 정도로 강화되고, 나머지 컨볼루션 채널들의 원래의 특징 서브-맵들의 특징 정보는 서로 다른 정도로 억제됨으로써, 후속의 시간 프레임의 특징 정보를 사용하여 타깃 시간 프레임의 원래의 특징 서브-맵들에서 움직임 정보와 관련된 특징 정보를 강화할 수 있다. 마지막 시간 프레임에는 후속의 프레임이 없기 때문에 마지막 시간 프레임은 후속의 시간 프레임의 원래의 특징 서브-맵들에서 특징 정보를 사용하여 강화될 수 없다는 것을 이해해야 한다. 즉, 움직임 정보 특징 맵은 원래의 특징 서브-맵과 일치한다.

일 실시예에서, 도 7에 도시된 바와 같이, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하는 단계는 다음과 같은 단계들을 포함한다.

단계 S702: 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 이전의 시간 프레임의 움직임 정보 특징 맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 움직임 정보 특징 맵들을 획득한다.

단계 S704: 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해, 컨볼루션 채널들의 각각의 컨볼루션 채널에 대해, 시간 컨볼루션 커널을 사용하여, 컨볼루션 채널에 대한 타깃 시간 프레임의 움직임 정보 특징 맵, 컨볼루션 채널에 대한 이전의 시간 프레임의 움직임 정보 특징 맵, 및 컨볼루션 채널에 대한 후속의 시간 프레임의 움직임 정보 특징 맵에 대해 컨볼루션 동작을 수행한다.

컨볼루션 채널들에 대한 이전의 시간 프레임의 움직임 정보 특징 맵들과 컨볼루션 채널들에 대한 후속의 시간 프레임의 움직임 정보 특징 맵들이 획득되고, 그 다음에, 컨볼루션 채널들의 각각의 컨볼루션 채널에 대해, 컨볼루션 채널에 대한 타깃 시간 프레임의 시간 움직임 특징 맵을 획득하기 위해, 시간 컨볼루션 커널을 사용하여, 컨볼루션 채널에 대한 타깃 시간 프레임의 움직임 정보 특징 맵, 컨볼루션 채널에 대한 이전의 시간 프레임의 움직임 정보 특징 맵, 및 컨볼루션 채널에 대한 후속의 시간 프레임의 움직임 정보 특징 맵에 대해 컨볼루션 동작이 수행됨으로써, 최종적으로 모든 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득할 수 있다. 이러한 방식으로, 시간 움직임 특징 맵들은 연속적인 시간 프레임들의 움직임 정보 특징 맵들, 즉 움직이는 객체의 액션 정보와 융합되며, 이에 의해, 시간 차원에서 모델링을 구현한다.

컨볼루션 채널들에 대한 이전의 시간 프레임의 움직임 정보 특징 맵들과 컨볼루션 채널들에 대한 후속의 시간 프레임의 움직임 정보 특징 맵들을 획득하기 위한 방법은 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하기 위한 방법과 동일하다는 것을 이해해야 한다. 예를 들어, 타깃 시간 프레임은 (t) 번째 프레임이고, 타깃 시간 프레임에 인접한 이전의 시간 프레임은 (t-1) 번째 프레임이므로, 컨볼루션 채널들에 대한 (t-1) 번째 프레임의 움직임 정보 가중치들은 컨볼루션 채널들에 대한 (t-1) 번째 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 (t) 번째 프레임의 원래의 특징 서브-맵들에 따라 계산되고, 그 다음에, 컨볼루션 채널들에 대한 (t-1) 번째 프레임의 움직임 정보 특징 맵들은 컨볼루션 채널들에 대한 (t-1) 번째 프레임의 움직임 정보 가중치들과 컨볼루션 채널들에 대한 (t-1) 번째 프레임의 원래의 특징 서브-맵들에 따라 획득된다. 유사하게, 타깃 시간 프레임에 인접한 후속의 시간 프레임은 (t+1) 번째 프레임이므로, 컨볼루션 채널들에 대한 (t+1) 번째 프레임의 움직임 정보 가중치들은 컨볼루션 채널들에 대한 (t+1) 번째 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 (t+2) 번째 프레임의 원래의 특징 서브-맵들에 따라 계산되고, 그 다음에, 컨볼루션 채널들에 대한 (t+1) 번째 프레임의 움직임 정보 특징 맵들은 컨볼루션 채널들에 대한 (t+1) 번째 프레임의 움직임 정보 가중치들과 컨볼루션 채널들에 대한 (t+1) 번째 프레임의 원래의 특징 서브-맵들에 따라 획득된다.

도 2에 도시된 제 2 시간 프레임은 예로서 사용된다. 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해, 컨볼루션 채널들의 각각의 컨볼루션 채널에 대해, 시간 컨볼루션 커널을 사용하여, 컨볼루션 채널에 대한 타깃 시간 프레임의 움직임 정보 특징 맵, 컨볼루션 채널에 대한 이전의 시간 프레임의 움직임 정보 특징 맵, 및 컨볼루션 채널에 대한 후속의 시간 프레임의 움직임 정보 특징 맵에 대해 컨볼루션 동작을 수행하는 전술한 단계는 액션 정보 강화 모듈에 의해 수행될 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 도면에서 제 3 시간 프레임은 타깃 시간 프레임으로 사용하고, 그 다음에, 제 1 컨볼루션 채널에 대한 제 3 시간 프레임의 시간 움직임 특징 맵을 획득하기 위해, 3*1 컨볼루션 커널을 사용하여 제 1 컨볼루션 채널에 대한 제 2 시간 프레임, 제 3 시간 프레임, 및 제 4 시간 프레임의 움직임 정보 특징 맵들에 대해 컨볼루션 동작이 수행된다. 유사하게, 제 2 컨볼루션 채널에 대한 제 3 시간 프레임의 시간 움직임 특징 맵을 획득하기 위해, 3*1 컨볼루션 커널을 사용하여 제 2 컨볼루션 채널에 대한 제 2 시간 프레임, 제 3 시간 프레임, 및 제 4 시간 프레임의 움직임 정보 특징 맵들에 대해 컨볼루션 동작이 수행된다. 유사한 방식으로, 모든 컨볼루션 채널들에 대한 제 3 시간 프레임의 시간 움직임 특징 맵들이 획득된다. 임의의 시간 프레임에 대해, 시간 프레임에 인접한 연속적인 시간 프레임들은 컨볼루션 채널들에 대한 시간 차원에서 컨볼루션 동작을 수행하여 사용되므로, 이러한 동작을 통해 획득된 시간 움직임 특징 맵들은 연속적인 시간 프레임들의 움직임 정보 특징 맵들, 즉 움직이는 객체의 액션 정보와 융합될 수 있다.

일 실시예에서, 도 8a에 도시된 바와 같이, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계는 다음과 같은 단계들을 포함한다.

단계 S802: 타깃 시간 프레임의 이미지 데이터의 액션 특징 정보를 획득하기 위해 타깃 시간 프레임의 시간 움직임 특징 맵들을 레지듀얼 네트워크 레이어에 입력한다.

레지듀얼 네트워크 레이어는 움직이는 객체의 액션 유형을 더 잘 나타낼 수 있는 액션 특징 정보를 획득하기 위해 추가 특징 학습을 위한 시간 움직임 특징 맵들을 획득하도록 구성된다.

구체적으로, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들이 획득된 이후에, 이미지 데이터의 액션 특징 정보를 획득하기 위해 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들은 타깃 시간 프레임의 이미지 데이터의 특징 정보로서 레지듀얼 네트워크 레이어에 입력되고, 레지듀얼 네트워크 레이어는 시간 움직임 특징 맵들에 대해 특징 학습을 수행한다. 컨볼루션 채널의 차원에서 액션 특징 정보의 수량은 시간 움직임 특징 맵들의 수량과 일치될 수 있다.

단계 S804: 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하기 위해 액션 특징 정보를 액션 분류 네트워크 레이어에 입력한다.

액션 분류 네트워크 레이어는 이미지 데이터의 액션 특징 정보에 따라 액션 유형 인식을 수행하도록 구성된 네트워크 구조이다. 본 명세서에서 액션 분류 네트워크 레이어는 트레이닝된 액션 분류 네트워크 레이어이며, 이미지 데이터에서 움직이는 객체의 액션 유형을 획득하기 위해 직접 사용될 수 있다. 구체적으로, 타깃 시간 프레임의 이미지 데이터의 액션 특징 정보가 획득된 이후에, 액션 특징 정보는 액션 분류 네트워크 레이어에 입력되고, 액션 분류 네트워크 레이어는 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 획득한다.

도 2에 도시된 액션 인식 네트워크 모델은 한 예로서 사용된다. 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계는 백본 네트워크 레이어에 의해 수행될 수 있다. 백본 네트워크 레이어에서 레지듀얼 네트워크 레이어는 움직이는 객체의 액션 유형을 더 잘 나타낼 수 있는 액션 특징 정보를 획득하기 위해 추가 특징 학습을 위한 시간 움직임 특징 맵을 획득하도록 구성되고, 풀링 레이어와 백본 네트워크 레이어에서 완전 연결된 레이어는 액션 분류 네트워크 레이어와 동일하며, 입력된 액션 특징 정보에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하도록 구성된다. 또한, 일 실시예에서, 레지듀얼 네트워크 레이어의 네트워크 구조는 3개의 컨볼루션 뉴런 네트워크들, 즉 2개의 단부들에 1*1 크기의 2개의 2D 컨볼루션 뉴런 네트워크들(2Dconv)과 중간에 3*3 크기의 2차원 컨볼루션 뉴런 네트워크를 포함하는 도 8b에 도시된 것과 같을 수 있다.

일 실시예에서, 타깃 시간 프레임의 이미지 데이터의 액션 특징 정보를 획득하기 위해 타깃 시간 프레임의 시간 움직임 특징 맵들을 레지듀얼 네트워크 레이어에 입력하는 단계 이후에, 방법은 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들로서 액션 특징 정보를 결정하는 단계, 및 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 동작을 다시 수행하는 단계를 더 포함한다.

타깃 시간 프레임의 이미지 데이터의 액션 특징 정보가 획득된 이후에, 액션 특징 정보는 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들로서 재결정될 수 있고, 그 다음에, 새로 결정된 원래의 특징 서브-맵들에 대해 동일한 동작들이 다시 수행된다. 즉, 컨볼루션 채널들에 대한 원래의 특징 서브-맵들의 움직임 정보 가중치들이 계산되고, 움직임 정보 가중치들은 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하기 위해 해당 컨볼루션 채널들에 대한 원래의 특징 서브-맵들에 적용되고, 그 다음에, 타깃 시간 프레임과 인접한 시간 프레임들의 움직임 정보 특징 맵들은 시간 컨볼루션 커널을 사용하여 각각의 컨볼루션 채널에 대해 컨볼루션되므로, 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들은, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해, 인접한 시간 프레임들로부터 움직임 정보 특징 맵들과 융합된다.

액션 특징 정보를 원래의 특징 서브-맵들로 결정하고, 관심 메커니즘(attention mechanism)에 기초하여 액션 특징 정보를 다시 강화하고, 시간 정보를 다시 모델링 함으로써, 액션 정보를 표현하는 액션 특징 정보의 능력이 효과적으로 향상되며, 이는 다음에 액션 인식을 위해 사용되며, 이에 의해, 액션 인식의 정확도를 효과적으로 향상시킨다.

도 2에 도시된 액션 인식 네트워크 모델은 한 예로서 사용된다. 도면에서 액션 정보 강화 모듈은, 복수의 컨볼루션 채널들에 대한 각각의 시간 프레임의 이미지 데이터의 움직임 정보 특징 맵들을 획득하기 위해, 복수의 컨볼루션 채널들에 대한 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵에 대해 액션 정보 강화를 수행하도록 구성된다. 도면에서 시간 상호작용 모듈은 시간 움직임 특징 맵들을 획득하기 위해 각각의 컨볼루션 채널에 대한 인접한 시간 프레임들의 이미지 데이터의 움직임 정보 특징 맵들에 대해 컨볼루션 동작을 수행하도록 구성되므로, 시간 움직임 특징 맵은 인접한 시간 프레임들의 움직임 정보와 융합된다. 백본 네트워크 레이어에서 레지듀얼 네트워크 레이어는 움직이는 객체의 액션 유형을 더 잘 나타낼 수 있는 액션 특징 정보를 획득하기 위해 추가 특징 학습을 위한 시간 움직임 특징 맵들을 획득하도록 구성된다. 액션 정보 강화 모듈, 시간 상호작용 모듈, 및 레지듀얼 네트워크 레이어는 특징 추출 유닛으로 사용될 수 있다. 특징 학습의 정확도는 복수의 특징 추출 유닛들을 사용하여 향상되며, 이에 의해, 액션 인식의 정확도를 효과적으로 향상시킨다.

또한, 액션 정보 강화 모듈 및 시간 상호작용 모듈은 비디오 데이터에 대한 액션 인식의 애플리케이션 시나리오에 적용될 수 있을 뿐만 아니라, 비디오 데이터가 모델링되어야 하는 임의의 시나리오에 적용될 수 있다. 예를 들어, 액션 정보 강화 모듈은 연속적인 시간 프레임들을 모델링하는 뉴런 네트워크에 내장될 수 있으며, 액션 정보 강화 모듈은, 다양한 애플리케이션 시나리오들에 대해 다양한 방식으로, 애플리케이션 시나리오에 유익한 특징 정보를 강화하고 애플리케이션 시나리오에 도움이 되지 않는 노이즈 정보를 억제한다. 시간 상호작용 모듈은 대안적으로 특징 학습을 용이하게 하기 위해 시간 정보에 대한 모델링을 위해 임의의 2D 컨볼루션 네트워크에 내장될 수 있다.

일 실시예에서, 도 9에 도시된 바와 같이, 액션 인식 방법은 다음 단계들을 더 포함한다.

단계 S902: 비디오 샘플로서, 복수의 샘플 시간 프레임들의 이미지 샘플들과 샘플 시간 프레임들의 이미지 샘플들에서 움직이는 객체의 표준 액션 유형들을 포함하는 비디오 샘플을 획득한다.

비디오 샘플은 액션 인식 네트워크 모델에서 사용되는 비디오 샘플을 지칭한다. 비디오 샘플은 복수의 샘플 시간 프레임들의 복수의 이미지 샘플들과 이미지 샘플들에 대응하는 표준 액션 유형들을 포함한다.

단계 S904: 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 이미지 샘플들의 각각의 이미지 샘플의 원래의 특징 서브-맵 샘플들을 획득한다.

이미지 샘플들은 다중-채널 컨볼루션 레이어의 입력 데이터로 다중-채널 컨볼루션 레이어에 입력되고, 다중-채널 컨볼루션 레이어에서 컨볼루션 커널들은, 컨볼루션 커널들에 대응하는 컨볼루션 채널들에 대한 원래의 특징 서브-맵 샘플들을 획득하기 위해, 이미지 샘플들에 대해 컨볼루션 계산을 수행한다.

단계 S906: 샘플 시간 프레임들의 각각의 샘플 시간 프레임을 타깃 샘플 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들과 후속의 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들 사이의 샘플 차이 정보를 획득한다.

샘플 차이 정보는 2개의 샘플 시간 프레임들의 이미지 샘플들에서 움직이는 객체의 액션 변화 정도, 즉 움직이는 객체의 액션과 관련된 정보를 기술할 수 있다. 비디오 샘플에서 획득된 각각의 샘플 시간 프레임의 이미지 샘플은 액션 인식에 중요한 정보를 포함하고, 또한 액션 인식에 쓸모가 없거나 심지어 역효과가 나는 노이즈 정보를 포함한다. 그러나, 단일 샘플 시간 프레임의 이미지 샘플에서, 움직이는 객체와 배경 정보가 모두 정적이지만, 움직임은 액션 변화의 과정이므로, 단순히 단일 샘플 시간 프레임의 이미지 샘플에 따라 움직이는 객체의 액션 정보를 획득하기 어렵다. 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 이미지 샘플의 원래의 특징 서브-맵 샘플들과 해당 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 후속의 샘플 시간 프레임의 이미지 샘플의 원래의 특징 서브-맵 샘플들 사이의 차이 정보는 타깃 및 후속의 샘플 시간 프레임들에서 움직이는 객체의 액션 변화이다. 해당 컨볼루션 채널들에 대한 타깃 및 후속의 샘플 시간 프레임들의 원래의 특징 서브-맵 샘플들 사이의 샘플 차이 정보를 획득함으로써, 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 이미지 샘플의 원래의 특징 서브-맵 샘플들에 포함된 움직임 정보가 획득될 수 있다.

구체적으로, 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들과 후속의 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들 사이의 샘플 차이 정보는 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 이미지 샘플의 원래의 특징 서브-맵 샘플들과 해당 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 후속의 샘플 시간 프레임의 이미지 샘플의 원래의 특징 서브-맵 샘플들 사이의 차이들을 계산함으로써 구체적으로 획득될 수 있다.

또한, 타깃 샘플 시간 프레임의 차원-축소된 유닛 특징 서브-맵 샘플들을 획득하기 위해, 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들에 대해 데이터 차원 축소가 수행될 수 있고, 후속 샘플 시간 프레임의 차원-축소된 유닛 특징 서브-맵 샘플들을 획득하기 위해, 컨볼루션 채널들에 대한 후속 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들에 대해 데이터 차원 축소가 수행될 수 있다. 차원-축소된 유닛 특징 서브-맵 샘플들의 데이터 량은 원래의 특징 서브-맵 샘플들의 데이터 량보다 훨씬 적다. 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임 및 후속의 시간 프레임의 원래의 특징 서브-맵 샘플들 사이의 샘플 차이 정보에 대한 계산을 타깃 샘플 시간 프레임의 차원-축소된 유닛 특징 서브-맵 샘플들과 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵 샘플들 사이의 차이 정보에 대한 계산으로 변환함으로써, 계산 량은 효과적으로 감소되고, 계산 속도는 효과적으로 향상된다.

단계 S908: 활성화 함수를 사용하여 컨볼루션 채널들에 대한 샘플 차이 정보를 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 가중치 샘플들에 매핑한다.

컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들과 후속의 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들 사이의 샘플 차이 정보가 획득된 이후에, 해당 컨볼루션 채널들에 대한 움직임 정보 가중치 샘플들은 활성화 함수를 사용하여 컨볼루션 채널들에 대한 샘플 차이 정보에 따라 획득될 수 있다. 구체적으로, 활성화 함수는 시그모이드 함수일 수 있다. 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들과 후속의 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들 사이의 샘플 차이 정보가 획득된 이후에, 컨볼루션 채널들에 대한 샘플 차이 정보는, 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들의 움직임 정보 가중치 샘플들을 획득하기 위해, 시그모이드 함수를 사용하여 0 내지 1의 가중치 값들로 매핑될 수 있다.

단계 S910: 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들 및 움직임 정보 가중치 샘플들에 따라 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 특징 맵 샘플들을 획득한다.

단계 S912: 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 시간 움직임 특징 맵 샘플들을 획득하기 위해, 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 특징 맵 샘플들에 대해 시간 컨볼루션을 수행한다.

컨볼루션 채널들에 대한 샘플 시간 프레임들의 움직임 정보 특징 맵 샘플들이 획득된 이후에, 모든 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 시간 움직임 특징 맵 샘플들을 획득하기 위해, 각각의 컨볼루션 채널에 대해, 시간 컨볼루션 커널을 사용하여 컨볼루션 채널에 대한 타깃 샘플 시간 프레임 및 인접한 샘플 시간 프레임들의 움직임 정보 특징 맵 샘플들에 대해 컨볼루션 동작이 수행될 수 있으므로, 시간 움직임 특징 맵 샘플들은 인접한 샘플 시간 프레임들의 움직임 정보 특징 맵 샘플들, 즉 움직이는 객체의 액션 정보와 융합되어, 이에 의해, 시간 차원에서 모델링을 구현한다.

단계 S914: 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 시간 움직임 특징 맵 샘플들에 따라 타깃 샘플 시간 프레임의 이미지 샘플에서 움직이는 객체의 예측된 액션 유형을 획득한다.

타깃 샘플 시간 프레임의 이미지 샘플의 시간 움직임 특징 맵 샘플들이 획득된 이후에, 시간 움직임 특징 맵 샘플들은, 타깃 샘플 시간 프레임의 이미지 샘플에서 움직이는 객체의 액션 유형을 획득하기 위해, 이미지 샘플의 특징 정보로 사용될 수 있다. 구체적으로, 시간 움직임 특징 맵 샘플들은, 타깃 샘플 시간 프레임의 이미지 샘플에서 움직이는 객체의 예측된 액션 유형을 획득하기 위해, 액션 인식을 위해 사용되는 2차원 컨볼루션 네트워크에 입력될 수 있다.

단계 S916: 예측된 액션 유형과 표준 액션 유형 사이의 차이에 따라 다중-채널 컨볼루션 레이어, 활성화 함수, 및 시간 컨볼루션 커널의 파라미터들을 조정하고, 트레이닝 종료 조건(training ending condition)이 충족될 때까지 트레이닝을 계속한다.

이미지 샘플의 예측된 액션 유형이 획득된 이후에, 예측된 액션 유형과 표준 액션 유형의 차이는, 트레이닝 종료 조건이 충족될 때까지, 다중-채널 컨볼루션 레이어, 활성화 함수, 및 시간 컨볼루션 커널의 파라미터들을 조정하기 위해, 손실 함수(loss function)로 사용될 수 있다. 본 명세서에서 트레이닝 종료 조건은 실제 요구 사항에 따라 조정 또는 설정될 수 있다. 예를 들어, 손실 함수가 수렴 조건(convergence condition)을 충족할 때, 트레이닝 종료 조건이 충족된 것으로 간주할 수 있고, 트레이닝 횟수가 미리 설정된 횟수에 도달할 때, 트레이닝 종료 조건이 충족된 것으로 간주될 수 있다.

일 실시예에서, 액션 인식 방법은 다음 단계들을 포함한다.

1. 복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터를 획득하고, 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득한다.

2. 시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산한다.

2-1: 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득한다.

2-1-1: 유닛 풀링 레이어를 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들을 타깃 시간 프레임의 유닛 특징 서브-맵들로, 그리고 컨볼루션 채널들에 대한 후속의 시간 프레임의 원래의 특징 서브-맵들을 후속의 시간 프레임의 유닛 특징 서브-맵들로 변환한다.

2-1-2: 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들을 획득하기 위해 타깃 시간 프레임의 유닛 특징 서브-맵들에 대해, 그리고, 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들을 획득하기 위해 후속의 시간 프레임의 유닛 특징 서브-맵들에 대해 미리 설정된 스케일링 팩터의 차원 축소를 수행한다.

2-1-3: 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들과 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들 사이의 차원-축소된 차이 정보를 획득한다.

2-1-4: 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하기 위해 차원-축소된 차이 정보에 대해 미리 설정된 스케일링 팩터의 차원 상승을 수행한다.

2-2: 활성화 함수를 사용하여 컨볼루션 채널들에 대한 차이 정보를 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들에 매핑한다.

3. 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들과 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득한다.

4. 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행한다.

4-1: 4-1: 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 이전의 시간 프레임의 움직임 정보 특징 맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 움직임 정보 특징 맵들을 획득한다.

4-2: 컨볼루션 채널들의 각각의 컨볼루션 채널에 대해, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해, 시간 컨볼루션 커널을 사용하여 컨볼루션 채널에 대한 타깃 시간 프레임의 움직임 정보 특징 맵, 컨볼루션 채널에 대한 이전의 시간 프레임의 움직임 정보 특징 맵, 및 컨볼루션 채널에 대한 후속의 시간 프레임의 움직임 정보 특징 맵에 대해 컨볼루션 동작을 수행한다.

5. 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식한다.

5-1: 타깃 시간 프레임의 이미지 데이터의 액션 특징 정보를 획득하기 위해 타깃 시간 프레임의 시간 움직임 특징 맵들을 레지듀얼 네트워크 레이어에 입력한다.

5-2: 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하기 위해 액션 특징 정보를 액션 분류 네트워크 레이어에 입력한다.

6. 시간 프레임들의 이미지 데이터에서 움직이는 객체의 액션 유형들을 획득한 이후에, 시간 프레임들의 액션 유형들에 따라 비디오 데이터의 액션 유형을 결정한다.

또한, 액션 인식 방법은 도 10과 도 2에 도시된 액션 인식 네트워크 모델을 참조하여 더 설명된다. 도 10에서, 왼쪽 부분은 시간 순서대로 비디오로부터 획득된 시간 프레임들의 쌍의 이미지 데이터이다. 왼쪽 부분에서, 이미지 데이터의 제 1 컬럼은 타깃 시간 프레임의 이미지 데이터이고, 이미지 데이터의 제 2 컬럼은 후속의 시간 프레임의 이미지 데이터이다. 오른쪽 부분에서, 제 1 컬럼의 이미지들은 왼쪽 부분에서 타깃 시간 프레임의 이미지 데이터에 대응하는 원래의 특징 서브-맵들의 시각화이고, 이미지들의 제 2 컬럼은 액션 정보 강화 모듈에 의해 원래의 특징 서브-맵들을 처리하여 획득된 움직임 정보 특징 맵들의 시각화이며, 제 3 컬럼의 이미지들은 시간 상호작용 모듈에 의해 움직임 정보 특징 맵들을 처리하여 획득된 시간 움직임 특징 맵들의 시각화이다. 도 10으로부터, 원래의 특징 서브-맵들은 액션 인식에 중요한 정보와 액션 인식에 쓸모 없거나 심지어 역효과를 내는 노이즈 정보를 모두 포함하는데, 여기서, 상대적으로 많은 양의 노이즈 정보가 있고 움직이는 객체의 윤곽이 비교적 흐릿한 것을 알 수 있다. 액션 정보 강화 모듈에 의해 획득된 액션 정보 특징 맵들에서, 움직이는 객체의 윤곽이 선명해지고 액션 정보와 무관한 배경 잡음 정보가 어느 정도 억제된다. 시간 상호작용 모듈에 의해 획득된 시간 움직임 특징 맵들은 왼쪽 부분의 제 1 컬럼에서 타깃 시간 프레임의 이미지 데이터의 정보를 포함할 뿐만 아니라, 왼쪽 부분의 제 2 컬럼에서 후속의 시간 프레임의 이미지 데이터의 정보를 포함하며, 이에 의해, 시간 정보에 대한 모델링의 목적을 달성한다.

또한, 단계 2 내지 단계 4에서 데이터 처리는 컨볼루션 채널의 차원에서 수행된다. 복수의 컨볼루션 채널들에 대한 특징 맵들(원래의 특징 서브-맵들 및 움직임 정보 특징 맵들을 포함)은 서로 독립적이며, 인접한 컨볼루션 채널들에 대한 특징 맵들의 정보는 혼합되지 않으므로, 계산 과정은 적은 계산 량과 상대적으로 높은 계산 속도가 유지된다. 유사하게, 도 2에서 액션 정보 강화 모듈 및 시간 상호작용 모듈은 모두 컨볼루션 채널들에 대해 동작들을 수행한다. 즉, 컨볼루션 채널들에 대한 단일 또는 복수의 시간 프레임들의 특징 맵들(원래의 특징 서브-맵들 또는 움직임 정보 특징 맵들)에 대해, 복수의 컨볼루션 채널들에 대한 특징 맵들은 서로 독립적이고, 인접한 컨볼루션 채널들에 대한 특징 맵들의 정보는 혼합되지 않으므로, 계산 과정은 적은 계산 량과 비교적 높은 계산 속도로 유지된다.

일 실시예에서, 도 11에 도시된 바와 같이, 액션 인식 방법은 다음 단계들을 포함한다.

단계 S1102: 실시간 감시 비디오 데이터를 획득한다.

본 실시예는 실시간 모니터링 시나리오에 적용되며, 실시간으로 획득한 감시 이미지 데이터는 이미지 데이터로 사용된다. 감시 이미지 데이터는 카메라에 의해 캡처된 실시간 비디오일 수 있으며, 감시 이미지 데이터의 이미지들은 모니터링되는 움직이는 객체를 포함한다.

단계 S1104: 다수의 시간 프레임들에서 감시 비디오 데이터의 이미지 데이터를 추출하고, 다중-채널 컨볼루션 레이어를 사용하여 다수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득한다.

복수의 시간 프레임들의 이미지 데이터는 캡처하는 시간 순으로 감시 이미지 데이터로부터 추출된 이미지 데이터를 지칭하며, 감시 이미지 데이터에서 모든 시간 프레임들의 이미지 데이터를 포함할 수 있다. 복수의 시간 프레임들의 비디오 데이터의 이미지 데이터는 비디오 데이터에서 이미지 데이터의 배열 순서에 따라 순차적으로 획득될 수 있다.

원래의 특징 서브-맵은 이미지 데이터를 나타내는 특징 정보를 지칭한다. 다중-채널 컨볼루션 레이어는 이미지 데이터의 특징 정보를 획득하도록 구성된 네트워크 모델을 지칭하며, 본 명세서에서 다중-채널 컨볼루션 레이어는 이미지 데이터의 특징 정보를 획득하기 위해 직접 사용될 수 있는 트레이닝된 네트워크 모델이다. 다중-채널 컨볼루션 레이어는 복수의 컨볼루션 커널들을 포함한다. 컨볼루션 채널들은 다중-채널 컨볼루션 레이어에서 정의된다. 이미지 데이터를 추출하도록 구성된 다중-채널 컨볼루션 레이어에서 컨볼루션 커널들의 수량은 컨볼루션 채널들의 수량이다. 구체적으로, 감시 비디오의 시간 프레임들의 이미지 데이터는 다중-채널 컨볼루션 레이어의 입력 데이터로 다중-채널 컨볼루션 레이어에 별도로 입력되며, 다중-채널 컨볼루션 레이어의 컨볼루션 커널들은, 컨볼루션 커널들에 해당 컨볼루션 채널들에 대한 원래 특징 서브-맵들을 획득하기 위해, 이미지 데이터에 대해 컨볼루션 계산을 수행한다.

단계 S1106: 타깃 시간 프레임을 결정하고, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산한다.

타깃 시간 프레임은 현재의 시점에서 획득된 이미지 데이터에 대응하는 시간 프레임을 지칭하고, 후속의 시간 프레임은 타깃 시간 프레임을 기준으로 후속의 시점에 대응하는 시간 프레임을 지칭한다.

감시 비디오 데이터로부터 획득된 각각의 시간 프레임의 이미지 데이터는 액션 인식에 중요한 정보, 예를 들어, 움직이는 객체의 외관 정보를 포함하고, 또한 이미지 데이터 내의 노이즈 또는 배경 정보와 같이 액션 인식에 쓸모 없거나 심지어 역효과를 내는 노이즈 정보를 포함한다. 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 움직이는 객체의 액션 정보, 즉 움직임 정보 가중치들 사이의 상관 관계들이 획득된 이후에, 움직이는 객체의 액션 정보와 더 관련이 있는 원래의 특징 서브-맵에 포함된 특징 정보를 강화함으로써, 즉 컨볼루션 채널에 대한 원래의 특징 서브-맵에 대한 더 많은 관심을 할당하고, 움직이는 객체의 액션 정보를 적게 포함하거나 더 많은 노이즈를 포함하는 원래의 특징 서브-맵을 억제, 즉 컨볼루션 채널에 대한 원래의 특징 서브-맵에 대한 보다 적은 관심을 할당함으로써, 액션 인식에 유익한 정보는 강화되고, 액션 인식에 관련이 없거나 심지어 해로운 정보는 억제되며, 이에 의해, 액션 인식의 정확도를 효과적으로 향상시킨다.

단일 시간 프레임의 이미지 데이터에서, 움직이는 객체와 배경 정보는 모두 정적이지만, 움직임은 액션 변화의 과정이다. 따라서, 움직이는 객체의 액션 변화는, 액션 인식의 정확도를 향상시키기 위해, 타깃 시간 프레임의 이미지 데이터와 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터를 사용하여 기술된다. 컨볼루션 채널들에 대한 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들이 획득된 이후에, 각각의 시간 프레임의 이미지 데이터는 타깃 시간 프레임의 이미지 데이터로 사용되고, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 대응하는 움직임 정보 가중치들은 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들에 따라 획득된다.

구체적으로, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 대한 움직임 정보 가중치들을 획득하는 것은 구체적으로 다음이 될 수 있다. 먼저, 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들과 해당 컨볼루션 채널들에 대한 타깃 시간 프레임의 후속의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들 사이의 차이들은 계산되고, 다음에, 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 해당 움직임 정보 가중치들은 컨볼루션 채널들에 대한 원래의 특징 서브-맵들 사이의 차이들에 따라 결정된다.

단계 S1108: 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들과 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득한다.

단계 S1110: 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행한다.

컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 실행하는 것은 구체적으로 다음과 같다. 컨볼루션될 시간 프레임들은 타깃 시간 프레임, 및 타깃 시간 프레임의 움직임 정보 특징 맵들에 따라 결정되고, 컨볼루션될 시간 프레임들은 각각의 컨볼루션 채널에 대해 컨볼루션되어, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득함으로써, 시간 움직임 특징 맵들은 연속적인 시간 프레임들의 움직임 정보 특징 맵들, 즉, 시간에 따른 움직이는 객체의 액션 정보와 융합되며, 이에 의해, 시간 차원에서 모델링을 구현한다. 컨볼루션 채널들에 대한 컨볼루션될 시간 프레임의 움직임 정보 특징 맵들을 획득하는 방법은 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하는 방법과 동일하다.

단계 S1112: 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식한다.

타깃 시간 프레임의 이미지 데이터의 시간 움직임 특징 맵들이 획득된 이후에, 시간 움직임 특징 맵들은 타깃 시간 프레임의 이미지 데이터의 특징 정보로 결정될 수 있고, 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형은 특징 정보에 따라 인식된다. 구체적으로, 시간 움직임 특징 맵들은, 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하기 위해, 액션 인식에 사용되는 2D 컨볼루션 네트워크에 입력될 수 있다. 시간 움직임 특징 맵들은 움직임과 관련성이 높은 정보와 시간 정보를 모두 포함하므로, 액션 인식을 수행하기 위한 시간 움직임 특징 맵들의 사용은 액션 인식의 정확도를 효과적으로 향상시킬 수 있다.

단계 S1114: 현재의 감시 이미지 데이터에서 움직이는 객체의 액션 정보로 액션 유형을 결정한다.

타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형이 획득된 이후에, 액션 유형은 감시 이미지 데이터에서 움직이는 객체의 액션 정보로 결정하여 실시간으로 움직이는 객체의 액션 정보를 업데이트하므로, 움직이는 객체의 액션 정보는 감시 비디오를 보지 않고도 획득될 수 있고, 움직이는 객체에 대한 실시간 모니터링이 보장된다.

또한, 액션 정보는 디스플레이 장치를 사용하여 디스플레이될 수 있어 모니터링하는 사람에게 감시 비디오에서 움직이는 객체의 움직임 상태를 알릴 수 있다.

모니터링될 객체가 사람인 예가 사용된다. 모니터링되는 사람이 걷는 액션(striding action)을 수행하고 있다고 가정한다. 현재의 시점에서 캡처된 타깃 시간 프레임과 타깃 시간 프레임에 인접한 후속의 시간 프레임은 실시간 감시 이미지 데이터로부터 획득된다. 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들은 컨볼루션 채널들에 대한 타깃 시간 프레임과 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 획득된다. 움직임 정보 가중치들은 해당 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 적용되어, 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득한다. 그 다음에, 컨볼루션될 시간 프레임들은 각각의 컨볼루션 채널에 대해 컨볼루션될 시간 프레임들의 움직임 정보 특징 맵들을 컨볼루션하도록 타깃 시간 프레임에 따라 결정되어, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득한다. 마지막으로, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들은 액션 인식을 위한 타깃 시간 프레임의 이미지 데이터의 특징 정보로 사용되어, 타깃 시간 프레임의 이미지 데이터에서 모니터링되는 사람의 액션 유형을 획득한다. 이 경우, 모니터링되는 사람의 액션 유형은 걷는 액션 유형이며, 액션 유형은 모니터링되는 사람의 액션 정보로 결정된다.

비록, 흐름도에서 단계들이 화살표의 표시들에 따라 순차적으로 도시되었지만, 단계들은 반드시 도시된 순서에 따라 순차적으로 수행되는 것이 아님을 이해해야 한다. 본 명세서에서 달리 명시적으로 특정하지 않는 한, 단계들의 실행은 엄격하게 제한되지 않으며, 단계들은 다른 순서들로 수행될 수 있다. 게다가, 흐름도에서 적어도 일부 단계들은 복수의 하위 단계들 또는 복수의 스테이지들을 포함할 수 있으며, 하위 단계들 또는 스테이지들은 반드시 동일한 순간에 수행될 필요는 없으며, 서로 다른 순간들에서 수행될 수 있고, 하위 단계들 또는 스테이지들은 반드시 순차적으로 수행될 필요는 없지만, 다른 단계들 또는 다른 단계들의 적어도 일부 하위 단계들 또는 스테이지들과 차례로 또는 교대로 수행될 수 있다.

일 실시예에서, 도 12에 도시된 바와 같이, 컴퓨터 디바이스에 배열된 액션 인식 장치(1200)가 제공된다. 장치는 이미지 획득 모듈(1202), 가중치 획득 모듈(1204), 특징 결정 모듈(1206), 시간 상호작용 모듈(1208), 및 액션 인식 모듈(1210)을 포함한다.

이미지 획득 모듈(1202)은 복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터를 획득하고, 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하도록 구성된다.

가중치 획득 모듈(1204)은, 시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하도록 구성된다.

특징 결정 모듈(1206)은 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들과 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하도록 구성된다.

시간 상호작용 모듈(1208)은 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하도록 구성된다.

액션 인식 모듈(1210)은 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하도록 구성된다.

일 실시예에서, 도 13에 도시된 바와 같이, 가중치 획득 모듈(1204)은,

컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하도록 구성된 차이 정보 획득 모듈(1204a); 및

활성화 함수를 사용하여 컨볼루션 채널들에 대한 차이 정보를 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들로 매핑하도록 구성된 가중치 매핑 모듈(1204b)을 포함한다.

일 실시예에서, 차이 정보 획득 모듈은, 유닛 풀링 레이어를 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래 특징 서브-맵들을 타깃 시간 프레임의 유닛 특징 서브-맵들로 변환하고, 컨볼루션 채널들에 대한 후속의 시간 프레임의 원래의 특징 서브-맵들을 후속의 시간 프레임의 유닛 특징 서브-맵들로 변환하고; 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들을 획득하기 위해 타깃 시간 프레임의 유닛 특징 서브-맵들에 대해, 그리고, 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들을 획득하기 위해 후속의 시간 프레임의 유닛 특징 서브-맵들에 대해 미리 설정된 스케일링 팩터의 차원 축소를 수행하고; 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들과 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들 사이의 차원-축소된 차이 정보를 획득하고; 그리고 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하기 위해 차원-축소된 차이 정보에 대해 미리 설정된 스케일링 팩터의 차원 상승을 수행하도록 구성된다.

일 실시예에서, 시간 상호작용 모듈은, 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 이전의 시간 프레임의 움직임 정보 특징 맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 움직임 정보 특징 맵들을 획득하고; 그리고 컨볼루션 채널들의 각각의 컨볼루션 채널에 대해, 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해, 시간 컨볼루션 커널을 사용하여, 컨볼루션 채널에 대한 타깃 시간 프레임의 움직임 정보 특징 맵, 컨볼루션 채널에 대한 이전의 시간 프레임의 움직임 정보 특징 맵, 및 컨볼루션 채널에 대한 후속의 시간 프레임의 움직임 정보 특징 맵에 대해 컨볼루션 동작을 수행하도록 구성된다.

일 실시예에서, 액션 인식 모듈은, 타깃 시간 프레임의 이미지 데이터의 액션 특징 정보를 획득하기 위해, 타깃 시간 프레임의 시간 움직임 특징 맵들을 레지듀얼 네트워크 레이어에 입력하고; 그리고 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 하기 위해, 액션 분류 네트워크 레이어에 액션 특징 정보를 입력하도록 구성된다.

일 실시예에서, 액션 특징 정보를 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들로 결정하고; 그리고, 가중치 획득 모듈(1104)로 하여금 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 단계를 다시 수행하도록 구성된다.

일 실시예에서, 액션 인식 모듈은 시간 프레임들의 이미지 데이터에서 움직이는 객체의 액션 유형들이 획득된 이후에, 시간 프레임들의 액션 유형들에 따라 이미지 데이터의 액션 유형을 결정하도록 추가로 구성된다.

일 실시예에서, 액션 인식 장치는, 비디오 샘플을 획득 - 비디오 샘플은 복수의 샘플 시간 프레임들의 이미지 샘플들과 샘플 시간 프레임들의 이미지 샘플들에서 움직이는 객체의 표준 액션 유형들을 포함함 -하고; 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 이미지 샘플들의 각각의 이미지 샘플의 원래의 특징 서브-맵 샘플들을 획득하고; 샘플 시간 프레임들의 각각의 샘플 시간 프레임을 타깃 샘플 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들과 후속의 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들 사이의 샘플 차이 정보를 획득하고; 활성화 함수를 사용하여 컨볼루션 채널들에 대한 샘플 차이 정보를 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 가중치 샘플들로 매핑하고; 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 가중치 샘플들 및 원래의 특징 서브-맵 샘플들에 따라 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 특징 맵 샘플들을 획득하고; 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 시간 움직임 정보 특징 맵 샘플들을 획득하기 위해, 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 특징 맵 샘플들에 대해 시간 컨볼루션을 수행하고; 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 시간 움직임 특징 맵 샘플들에 따라 타깃 샘플 시간 프레임의 이미지 샘플에서 움직이는 객체의 예측된 액션 유형을 획득하며; 타깃 샘플 시간 프레임의 예측된 액션 유형과 표준 액션 유형의 차이에 따라 다중-채널 컨볼루션 레이어, 활성화 함수, 및 시간 컨볼루션 커널의 파라미터들을 조정하고, 트레이닝 종료 조건이 충족될 때까지 트레이닝을 계속하도록 구성된 트레이닝 모듈을 더 포함한다.

일 실시예에서, 컴퓨터 디바이스에 배열된 액션 인식 장치가 제공된다. 장치는 이미지 획득 모듈, 가중치 획득 모듈, 특징 결정 모듈, 시간 상호작용 모듈, 및 액션 인식 모듈을 포함한다.

이미지 획득 모듈은, 실시간 감시 비디오 데이터를 획득하고; 복수의 시간 프레임들에서 감시 이미지 데이터의 이미지 데이터를 추출하고, 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하도록 구성된다.

가중치 획득 모듈은, 시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하도록 구성된다.

특징 결정 모듈은 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들 및 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하도록 구성된다.

시간 상호작용 모듈은 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하도록 구성된다.

액션 인식 모듈은, 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하며; 액션 유형을 현재의 감시 이미지 데이터에서 움직이는 객체의 액션 정보로 결정하도록 구성된다.

액션 인식 장치에 대한 구체적인 설명을 위해, 상술한 액션 인식 방법에 대한 설명을 참조할 수 있다. 세부 사항들은 여기에서 다시 설명되지 않는다. 전술한 액션 인식 장치에서 모든 또는 일부의 모듈들은 소프트웨어, 하드웨어, 또는 이들의 조합으로 구현될 수 있다. 전술한 모듈들은 하드웨어 형태로 컴퓨터 디바이스의 프로세서에 내장되거나 독립적일 수 있거나, 또는 소프트웨어 형태로 컴퓨터 디바이스의 메모리에 저장될 수 있으므로, 프로세서는 전술한 모듈들에 대응하는 동작들을 수행하는 소프트웨어를 적용한다.

도 14는 일 실시예에 따른 컴퓨터 디바이스의 구조의 다이어그램이다. 컴퓨터 디바이스는 구체적으로 도 1에서 서버(102)일 수 있다. 도 14에 도시된 바와 같이, 컴퓨터 디바이스는 시스템 버스를 사용하여 연결되는 하나 이상의 프로세서, 메모리, 네트워크 인터페이스, 입력 장치 및 디스플레이 스크린을 포함한다. 메모리는 비휘발성 저장 매체와 내부 메모리를 포함한다. 컴퓨터 디바이스의 비휘발성 저장 매체는 운영 체제를 저장하고, 컴퓨터-판독 가능한 명령어들을 추가로 저장할 수 있다. 컴퓨터-판독 가능한 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 액션 인식 방법을 구현하도록 할 수 있다. 내부 메모리는 또한 컴퓨터 판독 가능 명령어들을 저장할 수 있다. 컴퓨터 판독 가능 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 액션 인식 방법을 구현하도록 할 수 있다. 컴퓨터 디바이스의 디스플레이 스크린은 액정 디스플레이 스크린 또는 e-잉크 디스플레이 스크린(e-ink display screen)일 수 있다. 컴퓨터 디바이스의 입력 장치는 디스플레이 화면을 커버하는 터치 레이어일 수 있거나, 컴퓨터 디바이스의 하우징에 배치되는 버튼, 트랙볼 또는 터치 패드일 수 있거나, 또는 외부의 키보드, 터치 패드, 마우스, 등일 수 있다.

본 기술 분야의 통상의 기술자는 도 14에 도시된 구조가 본 개시내용의 솔루션과 관련된 일부 구성의 블록 다이어그램일 뿐이며, 본 개시내용의 솔루션이 적용되는 컴퓨터 디바이스를 한정하는 것이 아님을 이해할 수 있다. 구체적으로, 컴퓨터 디바이스는 도면에 도시된 것보다 더 많거나 더 적은 구성요소들을 포함할 수 있거나, 일부 구성요소들이 결합될 수 있거나, 다른 구성요소 배치가 사용될 수 있다.

일 실시예에서, 본 개시내용에서 제공된 액션 인식 장치는 컴퓨터-판독 가능한 명령어들의 형태로 구현될 수 있고, 컴퓨터-판독 가능한 명령어들은 도 14에 도시된 컴퓨터 디바이스에서 실행될 수 있다. 컴퓨터 디바이스의 메모리는 액션 인식 장치를 형성하는 프로그램 모듈들, 예를 들어, 도 12에 도시된 이미지 획득 모듈(1202), 가중치 획득 모듈(1204), 특징 결정 모듈(1206), 시간 상호작용 모듈(1208), 및 액션 인식 모듈을 저장할 수 있다. 프로그램 모듈들에 의해 형성되는 컴퓨터-판독 가능한 명령어들은 하나 이상의 프로세서로 하여금 본 명세서에 설명된 본 개시내용의 실시예들에서의 액션 인식 방법의 단계들을 수행하도록 한다.

예를 들어, 도 14에 도시된 컴퓨터 디바이스는 도 12에 도시된 액션 인식 장치에서 이미지 획득 모듈(1202)을 사용하여 단계 S302를 수행할 수 있다. 컴퓨터 디바이스는 가중치 획득 모듈(1204)을 사용하여 단계 S304를 수행할 수 있다. 컴퓨터 디바이스는 특징 결정 모듈(1206)을 사용하여 단계 S306을 수행할 수 있다. 컴퓨터 디바이스는 시간 상호작용 모듈(1208)을 사용하여 단계 S308을 수행할 수 있다. 컴퓨터 디바이스는 액션 인식 모듈(1210)을 사용하여 단계 S310을 수행할 수 있다.

일 실시예에서, 메모리 및 하나 이상의 프로세서를 포함하는 컴퓨터 디바이스가 제공되며, 메모리는 컴퓨터-판독 가능한 명령어들을 저장하고, 컴퓨터-판독 가능한 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 전술한 액션 인식 방법의 단계들을 수행하도록 한다. 여기서 액션 인식 방법의 단계들은 전술한 실시예들 중 어느 하나의 실시예에서 액션 인식 방법의 단계들일 수 있다.

일 실시예에서, 컴퓨터-판독 가능한 명령어들을 저장하는 하나 이상의 컴퓨터-판독 가능한 저장 매체가 제공되며, 컴퓨터-판독 가능한 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 전술한 액션 인식 방법의 단계들을 수행하도록 한다. 여기서 액션 인식 방법의 단계들은 전술한 실시예들 중 어느 하나의 실시예에서 액션 인식 방법의 단계들일 수 있다.

본 실시예들에서 "복수"라는 용어는 "적어도 2개"를 의미한다.

본 기술 분야의 통상의 기술자는 전술한 실시예들에서 방법들의 모든 또는 일부 절차들이 관련 하드웨어에 지시하는 컴퓨터-판독 가능한 명령어에 의해 구현될 수 있다는 것을 이해할 수 있다. 컴퓨터-판독 가능한 명령어는 비휘발성 컴퓨터-판독 가능한 저장 매체에 저장될 수 있다. 컴퓨터-판독 가능한 명령어가 실행될 때, 전술한 방법의 실시예들의 절차들은 구현될 수 있다. 본 개시내용에서 제공되는 실시예들에서 사용되는 메모리, 스토리지, 데이터베이스, 또는 다른 매체에 대한 참조들은 비휘발성 또는 휘발성 메모리를 모두 포함할 수 있다. 비휘발성 메모리는 판독-전용 메모리(Read-Only Memory, ROM), 프로그램 가능한 판독 전용 메모리(Programmable ROM, PROM), 전기적으로 프로그램 가능한 판독 전용 메모리(Electrically Programmable ROM, EPROM), 전기적으로 소거 및 프로그램 가능한 판독 전용 메모리(Electrically Erasable Programmable ROM, EEPROM) 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리는 랜덤 액세스 메모리(Random Access Memory, RAM) 또는 외부 캐시를 포함할 수 있다. 제한이 아닌 설명의 목적을 위해, RAM은, 스태틱 RAM(static RAM, SRAM), 다이내믹 RAM(dynamic RAM, DRAM), 동기식 DRAM(synchronous DRAM, SDRAM), 2배속 SDRAM(double data rate SDRAM, DDR SDRAM), 강화된 SDRAM(Enhanced SDRAM, ESDRAM), 동기식 링크 DRAM(Synchlink DRAM, SLDRAM), 램버스 다이렉트 RAM((Rambus direct RAM, RDRAM), 다이렉트 램버스 다이내믹 RAM(direct rambus dynamic RAM, DRDRAM), 및 램버스 다이내믹 RAM(rambus dynamic RAM, RDRAM)과 같은 다양한 형태로 제공될 수 있다.

전술한 실시예들의 기술적 특징들은 임의로 조합될 수 있다. 설명을 간결하게 하기 위해, 전술한 실시예들에서 기술적인 특징들의 가능한 모든 조합들이 설명되지 않았다. 그러나, 이러한 기술적 특징들의 조합들은 충돌이 없는 한 본 명세서에 의해 기록된 범위에 속하는 것으로 간주될 것이다.

전술한 실시예들은 본 개시내용의 몇몇 구현들만을 도시하고 상세하게 설명되지만, 본 개시내용의 특허 범위에 대한 제한으로 해석되어서는 안 된다. 본 기술 분야의 통상의 기술자는 본 개시내용의 사상을 벗어나지 않고 여러 변형 및 개선을 추가로 수행할 수 있으며, 이러한 변형 및 개선은 모두 본 개시내용의 보호 범위에 속한다. 따라서, 본 개시내용의 특허의 보호 범위는 첨부된 특허 청구범위의 적용을 받는다.

Claims

컴퓨터 디바이스에 의해 수행되는 액션 인식 방법으로서,
복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터를 획득하고, 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하는 단계;
상기 시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 상기 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 단계;
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들 및 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하는 단계;
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하는 단계; 및
상기 시간 움직임 특징 맵들에 따라 상기 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계를 포함하는,
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법.
제1항에 있어서,
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 상기 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 단계는,
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하는 단계; 및
활성화 함수(activation function)를 사용하여 상기 컨볼루션 채널들에 대한 차이 정보를 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들에 매핑하는 단계를 포함하는,
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법.
제2항에 있어서,
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하는 단계는,
유닛 풀링 레이어(unit pooling layer)를 사용하여, 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들을 상기 타깃 시간 프레임의 유닛 특징 서브-맵들로 변환하고, 상기 컨볼루션 채널들에 대한 후속의 시간 프레임의 원래의 특징 서브-맵들을 후속의 시간 프레임의 유닛 특징 서브-맵들로 변환하는 단계;
상기 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들(dimension- reduced unit feature submaps)을 획득하기 위해 상기 타깃 시간 프레임의 유닛 특징 서브-맵들에 대해, 그리고, 상기 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들을 획득하기 위해 상기 후속의 시간 프레임의 유닛 특징 서브-맵들에 대해 미리 설정된 스케일링 팩터의 차원 축소를 수행하는 단계;
상기 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들과 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들 사이의 차원-축소된 차이 정보를 획득하는 단계;
상기 컨볼루션 채널들에 대한 상기 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하기 위해 상기 차원-축소된 차이 정보에 대해 미리 설정된 스케일링 팩터의 차원 상승을 수행하는 단계를 포함하는,
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법.
제1항에 있어서,
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하는 단계는,
상기 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 이전의 시간 프레임의 움직임 정보 특징 맵들과 상기 컨볼루션 채널들에 대한 후속의 시간 프레임의 움직임 정보 특징 맵들을 획득하는 단계; 및
상기 컨볼루션 채널들의 각각에 대해, 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해, 시간 컨볼루션 커널(temporal convolution kernel)을 사용하여, 상기 컨볼루션 채널에 대한 타깃 시간 프레임의 움직임 정보 특징 맵, 상기 컨볼루션 채널에 대한 이전의 시간 프레임의 움직임 정보 특징 맵, 및 상기 컨볼루션 채널에 대한 후속의 시간 프레임의 움직임 정보 특징 맵에 대해 컨볼루션 동작을 수행하는 단계를 포함하는,
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법.
제1항에 있어서,
상기 시간 움직임 특징 맵들에 따라 상기 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계는,
상기 타깃 시간 프레임의 이미지 데이터의 액션 특징 정보를 획득하기 위해, 상기 타깃 시간 프레임의 시간 움직임 특징 맵들을 레지듀얼 네트워크 레이어(residual network layer)에 입력하는 단계; 및
상기 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 하기 위해, 액션 분류 네트워크 레이어(action classification network layer)에 액션 특징 정보를 입력하는 단계를 포함하는,
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법.
제5항에 있어서,
상기 액션 특징 정보를 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들로 결정하는 단계; 및
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 상기 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 동작을 다시 수행하는 단계를 더 포함하는,
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법.
제1항에 있어서,
상기 시간 프레임들의 이미지 데이터에서 상기 움직이는 객체의 액션 유형들이 획득된 이후에, 상기 시간 프레임들의 액션 유형들에 따라 상기 이미지 데이터에 대응하는 액션 유형을 결정하는 단계를 더 포함하는,
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법.
제2항에 있어서,
비디오 샘플을 획득하는 단계 - 상기 비디오 샘플은 복수의 샘플 시간 프레임들의 이미지 샘플들과 상기 샘플 시간 프레임들의 이미지 샘플들에서 움직이는 객체의 표준 액션 유형들을 포함함 -;
다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 이미지 샘플들의 각각의 이미지 샘플의 원래의 특징 서브-맵 샘플들을 획득하는 단계;
상기 샘플 시간 프레임들의 각각의 샘플 시간 프레임을 타깃 샘플 시간 프레임으로 사용하여, 상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들과 후속의 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들 사이의 샘플 차이 정보를 획득하는 단계;
상기 활성화 함수를 사용하여 상기 컨볼루션 채널들에 대한 샘플 차이 정보를 상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 가중치 샘플들로 매핑하는 단계;
상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 가중치 샘플들 및 원래의 특징 서브-맵 샘플들에 따라 상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 특징 맵 샘플들을 획득하는 단계;
상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 시간 움직임 정보 특징 맵 샘플들을 획득하기 위해, 상기 컨볼루션 채널에 대한 타깃 샘플 시간 프레임의 움직임 정보 특징 맵 샘플들에 대해 시간 컨볼루션을 수행하는 단계;
상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 시간 움직임 특징 맵 샘플들에 따라 타깃 샘플 시간 프레임의 이미지 샘플에서 움직이는 객체의 예측된 액션 유형을 획득하는 단계; 및
타깃 샘플 시간 프레임의 예측된 액션 유형과 표준 액션 유형의 차이에 따라 다중-채널 컨볼루션 레이어, 활성화 함수, 및 시간 컨볼루션 커널의 파라미터들을 조정하고, 트레이닝 종료 조건이 충족될 때까지 트레이닝을 계속하는 단계를 더 포함하는,
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법.
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법으로서,
실시간 감시 비디오 데이터를 획득하는 단계;
복수의 시간 프레임들에서 감시 이미지 데이터의 이미지 데이터를 추출하고, 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하는 단계;
상기 시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 상기 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하는 단계;
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들 및 원래의 특징 서브-맵들에 따라 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하는 단계;
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하는 단계;
상기 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 단계; 및
상기 액션 유형을 현재의 감시 이미지 데이터에서 움직이는 객체의 액션 정보로 결정하는 단계를 포함하는,
컴퓨터 디바이스에 의해 수행되는 액션 인식 방법.
컴퓨터 디바이스에 배치된 액션 인식 장치로서,
다중-채널 컨볼루션 레이어를 사용하여, 복수의 시간 프레임들에서 비디오 데이터의 이미지 데이터를 획득하고, 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하도록 구성된 이미지 획득 모듈;
시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵과 상기 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하도록 구성된 가중치 획득 모듈;
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들 및 원래의 특징 서브-맵들에 따라 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하도록 구성된 특징 결정 모듈;
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하도록 구성된 시간 상호작용 모듈(temporal interaction module); 및
상기 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하도록 구성된 액션 인식 모듈을 포함하는,
컴퓨터 디바이스에 배치된 액션 인식 장치.
제10항에 있어서,
상기 가중치 획득 모듈은,
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하도록 구성된 차이 정보 획득 모듈; 및
활성화 함수를 사용하여 상기 컨볼루션 채널들에 대한 차이 정보를 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들로 매핑하도록 구성된 가중치 매핑 모듈을 포함하는,
컴퓨터 디바이스에 배치된 액션 인식 장치.
제10항에 있어서,
상기 차이 정보 획득 모듈은, 추가로
유닛 풀링 레이어를 사용하여, 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래 특징 서브-맵들을 타깃 시간 프레임의 유닛 특징 서브-맵들로 변환하고, 상기 컨볼루션 채널들에 대한 후속의 시간 프레임의 원래의 특징 서브-맵들을 후속의 시간 프레임의 유닛 특징 서브-맵들로 변환하고;
상기 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들을 획득하기 위해 상기 타깃 시간 프레임의 유닛 특징 서브-맵들에 대해, 그리고, 상기 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들을 획득하기 위해 상기 후속의 시간 프레임의 유닛 특징 서브-맵들에 대해 미리 설정된 스케일링 팩터의 차원 축소를 수행하고;
상기 타깃 시간 프레임의 차원-축소된 유닛 특징 서브-맵들과 상기 후속의 시간 프레임의 차원-축소된 유닛 특징 서브-맵들 사이의 차원-축소된 차이 정보를 획득하고; 그리고
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 후속의 시간 프레임의 원래의 특징 서브-맵들 사이의 차이 정보를 획득하기 위해 차원-축소된 차이 정보에 대해 미리 설정된 스케일링 팩터의 차원 상승을 수행하도록 구성된,
컴퓨터 디바이스에 배치된 액션 인식 장치.
제10항에 있어서,
상기 시간 상호작용 모듈은, 추가로,
상기 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 이전의 시간 프레임의 움직임 정보 특징 맵들과 상기 컨볼루션 채널들에 대한 후속의 시간 프레임의 움직임 정보 특징 맵들을 획득하고; 그리고
상기 컨볼루션 채널들의 각각에 대해, 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해, 시간 컨볼루션 커널을 사용하여, 상기 컨볼루션 채널에 대한 타깃 시간 프레임의 움직임 정보 특징 맵, 상기 컨볼루션 채널에 대한 이전의 시간 프레임의 움직임 정보 특징 맵, 및 상기 컨볼루션 채널에 대한 후속의 시간 프레임의 움직임 정보 특징 맵에 대해 컨볼루션 동작을 수행하도록 구성된,
컴퓨터 디바이스에 배치된 액션 인식 장치.
제10항에 있어서,
상기 액션 인식 모듈은, 추가로
상기 타깃 시간 프레임의 이미지 데이터의 액션 특징 정보를 획득하기 위해, 상기 타깃 시간 프레임의 시간 움직임 특징 맵들을 레지듀얼 네트워크 레이어에 입력하고; 그리고
상기 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하는 하기 위해, 액션 특징 정보를 액션 분류 네트워크 레이어에 입력하도록 구성된,
컴퓨터 디바이스에 배치된 액션 인식 장치.
제14항에 있어서,
상기 시간 상호작용 모듈은, 추가로
상기 액션 특징 정보를 상기 복수의 컨볼루션 채널들에 대한 타깃 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들로 결정하고; 그리고
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 상기 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하기 위해 가중치 획득 모듈을 다시 트리거하도록 구성된,
컴퓨터 디바이스에 배치된 액션 인식 장치.
제10항에 있어서,
상기 액션 인식 모듈은, 상기 시간 프레임들의 이미지 데이터에서 움직이는 객체의 액션 유형들이 획득된 이후에, 상기 시간 프레임들의 액션 유형들에 따라 이미지 데이터에 대응하는 액션 유형을 결정하도록 추가로 구성된,
컴퓨터 디바이스에 배치된 액션 인식 장치.
제11항에 있어서,
비디오 샘플을 획득 - 상기 비디오 샘플은 복수의 샘플 시간 프레임들의 이미지 샘플들과 상기 샘플 시간 프레임들의 이미지 샘플들에서 움직이는 객체의 표준 액션 유형들을 포함함 -하고;
상기 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 이미지 샘플들의 각각의 이미지 샘플의 원래의 특징 서브-맵 샘플들을 획득하고;
상기 샘플 시간 프레임들의 각각의 시간 프레임을 타깃 샘플 시간 프레임으로 사용하여, 상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들과 후속의 샘플 시간 프레임의 원래의 특징 서브-맵 샘플들 사이의 샘플 차이 정보를 획득하고;
상기 활성화 함수를 사용하여 상기 컨볼루션 채널들에 대한 샘플 차이 정보를 상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 가중치 샘플들로 매핑하고;
상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 가중치 샘플들 및 원래의 특징 서브-맵 샘플들에 따라 상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 움직임 정보 특징 맵 샘플들을 획득하고;
상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 시간 움직임 정보 특징 맵 샘플들을 획득하기 위해, 상기 컨볼루션 채널에 대한 타깃 샘플 시간 프레임의 움직임 정보 특징 맵 샘플들에 대해 시간 컨볼루션을 수행하고;
상기 컨볼루션 채널들에 대한 타깃 샘플 시간 프레임의 시간 움직임 특징 맵 샘플들에 따라 타깃 샘플 시간 프레임의 이미지 샘플에서 움직이는 객체의 예측된 액션 유형을 획득하고; 그리고
상기 타깃 샘플 시간 프레임의 예측된 액션 유형과 표준 액션 유형의 차이에 따라 다중-채널 컨볼루션 레이어, 활성화 함수, 및 시간 컨볼루션 커널의 파라미터들을 조정하고, 트레이닝 종료 조건이 충족될 때까지 트레이닝을 계속하도록 구성된 트레이닝 모듈을 더 포함하는,
컴퓨터 디바이스에 배치된 액션 인식 장치.
컴퓨터 디바이스에 배치된 액션 인식 장치로서,
실시간 감시 비디오 데이터를 획득하고; 복수의 시간 프레임들에서 감시 이미지 데이터의 이미지 데이터를 추출하고; 그리고 다중-채널 컨볼루션 레이어를 사용하여 복수의 컨볼루션 채널들에 대한 시간 프레임들의 각각의 시간 프레임의 이미지 데이터의 원래의 특징 서브-맵들을 획득하도록 구성된 이미지 획득 모듈;
상기 시간 프레임들의 각각의 시간 프레임을 타깃 시간 프레임으로 사용하여, 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 원래의 특징 서브-맵들과 상기 컨볼루션 채널들에 대한 타깃 시간 프레임에 인접한 후속의 시간 프레임의 원래의 특징 서브-맵들에 따라 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들을 계산하도록 구성된 가중치 획득 모듈;
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 가중치들 및 원래의 특징 서브-맵들에 따라 상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 움직임 정보 특징 맵들을 획득하도록 구성된 특징 결정 모듈;
상기 컨볼루션 채널들에 대한 타깃 시간 프레임의 시간 움직임 특징 맵들을 획득하기 위해 움직임 정보 특징 맵들에 대해 시간 컨볼루션을 수행하도록 구성된 시간 상호작용 모듈; 및
상기 시간 움직임 특징 맵들에 따라 타깃 시간 프레임의 이미지 데이터에서 움직이는 객체의 액션 유형을 인식하고; 상기 액션 유형을 현재의 감시 이미지 데이터에서 움직이는 객체의 액션 정보로 결정하도록 구성된 액션 인식 모듈을 포함하는,
컴퓨터 디바이스에 배치된 액션 인식 장치.
하나 이상의 컴퓨터-판독 가능한 저장 매체로서,
상기 하나 이상의 컴퓨터-판독 가능한 저장 매체는 컴퓨터-판독 가능한 명령어들을 저장하고, 상기 컴퓨터-판독 가능한 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 제1항 내지 제9항 중 어느 한 항에 따른 방법에서 동작들을 수행하도록 하는,
하나 이상의 컴퓨터-판독 가능한 저장 매체.
컴퓨터 디바이스로서,
상기 컴퓨터 디바이스는 메모리 및 하나 이상의 프로세서를 포함하고, 상기 메모리는 컴퓨터 판독-가능한 명령어들을 저장하고, 상기 컴퓨터 판독-가능한 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 제1항 내지 제9항 중 어느 한 항에 따른 방법에서 동작들을 수행하도록 하는,
컴퓨터 디바이스.