KR102678174B1

KR102678174B1 - 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램

Info

Publication number: KR102678174B1
Application number: KR1020210186028A
Authority: KR
Inventors: 박면주; 김진영; 선영규; 김수현; 이승우
Original assignee: 광운대학교 산학협력단
Filing date: 2021-12-23
Publication date: 2024-06-24

Abstract

본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램은, 컨볼루션 장단기 메모리(convolutional LSTM)를 이용하여 획득한 사용자 행동의 공간적 정보(spatial information)와 시간적 정보(temporal information)를 기반으로 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하여, 비디오 스트림 데이터에 대응되는 사용자 행동 명칭을 획득함으로써, 행동 인식 시스템의 정확도 및 복잡성을 개선시킬 수 있다.

Description

컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램{Method of human activity recognition and classification using convolutional LSTM, apparatus and computer program for performing the method}

본 발명은 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램에 관한 것으로서, 더욱 상세하게는 비디오 스트림에서 사람의 행동을 인식하고 인식한 행동을 분류하는, 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.

최근, 실감형 콘텐츠가 주목받게 되면서 실감형 콘텐츠를 표현할 수 있는 단말이 요구되고 있다. 스마트 사이니지(smart signage)는 사용자 및 환경과 상호 작용하여 실감형 콘텐츠를 표출할 수 있는 단말로서, 사용자 및 환경의 정보를 인지할 수 있는 기술이 요구된다. 가속계 센서, GPS 센서, 온도 센서, 습도 센서 등 다양한 센서를 통해 사용자와 환경의 정보를 인지할 수 있으며, 특히, 사용자의 정보 인지 기술은 이미지 센서 또는 카메라를 활용하여 인공지능 기술을 접목하는 방식이 활발히 연구개발되고 있다.

사용자의 행동 인식을 위한 인공지능 기술로 다양한 모델이 있으며 전처리부, 특징 추출부, 분류부 등 기능별 블록 단위로 전체 모델을 구성하는 블록 기반 모델(block-based model)이 있으나, 블록별 다양한 알고리즘이 존재하고 알고리즘별 여러 파라미터들이 존재하여 전체 모델의 성능을 최적화하는 데에 어려움이 있을 수 있다. 전체 모델 성능의 원활한 최적화를 위해 종단 간 모델(end-to-end model)이 요구될 수 있다. 카메라로부터 얻어지는 이미지(image)에서 공간적 정보를 추출하여 사람의 동작을 인식할 수 있지만, 단편적인 자세만을 인식하여 어떤 행동인지 분류하는 것은 어렵다. 사용자의 행동을 인식하기 위해서는 카메라로부터 얻어지는 비디오 스트림(video stream)에서 공간적 정보(spatial information)와 시간적 정보(temporal information)를 추출해야 한다. 종래의 행동 인식 기술은 다른 센서들로부터 얻어지는 데이터에서 공간적 정보와 시간적 정보를 추출하지만, 다른 센서들이 스마트 사이니지에 부착되는 것에는 경제적 및 기술적 측면에서 한계가 존재하여 카메라를 활용한 사용자 행동 인식이 필요하다.

본 발명이 이루고자 하는 목적은, 컨볼루션 장단기 메모리(convolutional LSTM)를 이용하여 획득한 사용자 행동의 공간적 정보(spatial information)와 시간적 정보(temporal information)를 기반으로 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하여, 비디오 스트림 데이터에 대응되는 사용자 행동 명칭을 획득하는, 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램을 제공하는 데 있다.

본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.

상기의 기술적 과제를 달성하기 위한 본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법은, 컨볼루션 장단기 메모리(convolutional LSTM)를 포함하는 종단 간 모델을 학습하는 단계; 사용자 행동 인식 및 분류를 수행할 대상 비디오 스트림 데이터를 획득하는 단계; 및 상기 종단 간 모델을 기반으로 상기 대상 비디오 스트림 데이터에 대응되는 사용자 행동 명칭 정보를 획득하는 단계;를 포함한다.

여기서, 상기 종단 간 모델 학습 단계는, 복수개의 비디오 스트림 데이터를 포함하는 학습 데이터 및 상기 복수개의 비디오 스트림 데이터 각각에 대응되는 행동 명칭 정보를 포함하는 정답 레이블을 기반으로, 상기 학습 데이터를 상기 종단 간 모델의 입력 데이터로 하고 상기 정답 레이블을 상기 종단 간 모델의 출력 데이터로 하여, 상기 종단 간 모델을 학습하는 것으로 이루어질 수 있다.

여기서, 상기 종단 간 모델은, 상기 컨볼루션 장단기 메모리(convolutional LSTM)로 이루어지는 컨볼루션 장단기 메모리 계층(convolutional LSTM layer), 상기 컨볼루션 장단기 메모리 계층에 연결된 제1 완전 연결 계층(fully connected layer), 및 상기 제1 완전 연결 계층에 연결되고 소프트맥스 함수(softmax function)를 포함하는 제2 완전 연결 계층을 포함할 수 있다.

여기서, 상기 종단 간 모델은, 비디오 스트림 데이터를 입력 데이터로 하고 사용자 행동의 공간적 정보(spatial information)와 시간적 정보(temporal information)를 출력 데이터로 하는 상기 컨볼루션 장단기 메모리 계층, 상기 컨볼루션 장단기 메모리 계층의 출력 데이터인 상기 공간적 정보와 상기 시간적 정보를 입력 데이터로 하는 상기 제1 완전 연결 계층, 및 상기 제1 완전 연결 계층의 출력 데이터를 입력 데이터로 하고 행동 명칭 정보를 출력 데이터로 하는 상기 제2 완전 연결 계층으로 이루어지는 모델일 수 있다.

여기서, 상기 사용자 행동 명칭 정보 획득 단계는, 상기 대상 비디오 스트림 데이터를 상기 종단 간 모델에 입력하고, 상기 종단 간 모델의 출력 데이터를 기반으로 상기 대상 비디오 스트림 데이터에 대응되는 상기 사용자 행동 명칭 정보를 획득하는 것으로 이루어질 수 있다.

상기의 기술적 과제를 달성하기 위한 본 발명의 바람직한 실시예에 따른 컴퓨터 프로그램은 컴퓨터 판독 가능한 저장 매체에 저장되어 상기한 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법 중 어느 하나를 컴퓨터에서 실행시킨다.

상기의 기술적 과제를 달성하기 위한 본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 장치는, 컨볼루션 장단기 메모리(convolutional LSTM)를 이용하여 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하는 장치로서, 상기 컨볼루션 장단기 메모리를 이용하여 상기 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하기 위한 하나 이상의 프로그램을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 프로그램에 따라 상기 컨볼루션 장단기 메모리를 이용하여 상기 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하기 위한 동작을 수행하는 하나 이상의 프로세서;를 포함하며, 상기 프로세서는, 상기 컨볼루션 장단기 메모리를 포함하는 종단 간 모델을 학습하고, 사용자 행동 인식 및 분류를 수행할 대상 비디오 스트림 데이터를 획득하며, 상기 종단 간 모델을 기반으로 상기 대상 비디오 스트림 데이터에 대응되는 사용자 행동 명칭 정보를 획득한다.

여기서, 상기 프로세서는, 복수개의 비디오 스트림 데이터를 포함하는 학습 데이터 및 상기 복수개의 비디오 스트림 데이터 각각에 대응되는 행동 명칭 정보를 포함하는 정답 레이블을 기반으로, 상기 학습 데이터를 상기 종단 간 모델의 입력 데이터로 하고 상기 정답 레이블을 상기 종단 간 모델의 출력 데이터로 하여, 상기 종단 간 모델을 학습할 수 있다.

본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램에 의하면, 컨볼루션 장단기 메모리(convolutional LSTM)를 이용하여 획득한 사용자 행동의 공간적 정보(spatial information)와 시간적 정보(temporal information)를 기반으로 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하여, 비디오 스트림 데이터에 대응되는 사용자 행동 명칭을 획득함으로써, 행동 인식 시스템의 정확도 및 복잡성을 개선시킬 수 있다.

또한, 본 발명은 사용자의 행동을 인식하여 스마트 사이니지(smart signage)에 사용자 맞춤 정보를 제공할 수 있다.

또한, 본 발명은 사용자의 행동을 인식하여, 범죄 행위를 인식하여 예방하는데 사용할 수 있다.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법을 설명하기 위한 흐름도이다.
도 3은 도 2에 도시한 종단 간 모델 학습 과정을 설명하기 위한 도면이다.
도 4는 도 3에 도시한 종단 간 모델의 구조를 설명하기 위한 도면이다.
도 5는 도 2에 도시한 사용자 행동 명칭 정보 획득 과정을 설명하기 위한 도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서 "제1", "제2" 등의 용어는 하나의 구성 요소를 다른 구성 요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예컨대, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

본 명세서에서 각 단계들에 있어 식별부호(예컨대, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 명세서에서, "가진다", "가질 수 있다", "포함한다" 또는 "포함할 수 있다" 등의 표현은 해당 특징(예컨대, 수치, 기능, 동작, 또는 부품 등의 구성 요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

이하에서 첨부한 도면을 참조하여 본 발명에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법, 이를 수행하는 장치 및 컴퓨터 프로그램의 바람직한 실시예에 대해 상세하게 설명한다.

먼저, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 장치에 대하여 설명한다.

도 1은 본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 장치를 설명하기 위한 블록도이다.

도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 장치(이하 '사용자 행동 인식 및 분류 장치'라 한다)(100)는 컨볼루션 장단기 메모리(convolutional LSTM)를 이용하여 획득한 사용자 행동의 공간적 정보(spatial information)와 시간적 정보(temporal information)를 기반으로 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하여, 비디오 스트림 데이터에 대응되는 사용자 행동 명칭을 획득할 수 있다.

이를 위해, 사용자 행동 인식 및 분류 장치(100)는 하나 이상의 프로세서(110), 컴퓨터 판독 가능한 저장 매체(130) 및 통신 버스(150)를 포함할 수 있다.

프로세서(110)는 사용자 행동 인식 및 분류 장치(100)가 동작하도록 제어할 수 있다. 예컨대, 프로세서(110)는 컴퓨터 판독 가능한 저장 매체(130)에 저장된 하나 이상의 프로그램(131)을 실행할 수 있다. 하나 이상의 프로그램(131)은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(110)에 의해 실행되는 경우 사용자 행동 인식 및 분류 장치(100)로 하여금 컨볼루션 장단기 메모리를 이용하여 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하기 위한 동작을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능한 저장 매체(130)는 컨볼루션 장단기 메모리를 이용하여 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하기 위한 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능한 저장 매체(130)에 저장된 프로그램(131)은 프로세서(110)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능한 저장 매체(130)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 사용자 행동 인식 및 분류 장치(100)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(150)는 프로세서(110), 컴퓨터 판독 가능한 저장 매체(130)를 포함하여 사용자 행동 인식 및 분류 장치(100)의 다른 다양한 컴포넌트들을 상호 연결한다.

사용자 행동 인식 및 분류 장치(100)는 또한 하나 이상의 입출력 장치를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(170) 및 하나 이상의 통신 인터페이스(190)를 포함할 수 있다. 입출력 인터페이스(170) 및 통신 인터페이스(190)는 통신 버스(150)에 연결된다. 입출력 장치(도시하지 않음)는 입출력 인터페이스(170)를 통해 사용자 행동 인식 및 분류 장치(100)의 다른 컴포넌트들에 연결될 수 있다.

그러면, 도 2 내지 도 5를 참조하여 본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법에 대하여 설명한다.

도 2는 본 발명의 바람직한 실시예에 따른 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법을 설명하기 위한 흐름도이고, 도 3은 도 2에 도시한 종단 간 모델 학습 과정을 설명하기 위한 도면이며, 도 4는 도 3에 도시한 종단 간 모델의 구조를 설명하기 위한 도면이고, 도 5는 도 2에 도시한 사용자 행동 명칭 정보 획득 과정을 설명하기 위한 도면이다.

도 2를 참조하면, 사용자 행동 인식 및 분류 장치(100)의 프로세서(110)는 컨볼루션 장단기 메모리를 포함하는 종단 간 모델(end-to-end model)을 학습할 수 있다(S110).

자세히 설명하면, 프로세서(110)는 도 3에 도시된 바와 같이, 복수개의 비디오 스트림 데이터(제1 비디오 스트림 데이터 ~ 제n 비디오 스트림 데이터)를 포함하는 학습 데이터 및 복수개의 비디오 스트림 데이터(제1 비디오 스트림 데이터 ~ 제n 비디오 스트림 데이터) 각각에 대응되는 행동 명칭 정보(제1 행동 명칭 정보 ~ 제n 행동 명칭 정보)를 포함하는 정답 레이블을 기반으로, 학습 데이터를 종단 간 모델의 입력 데이터로 하고 정답 레이블을 종단 간 모델의 출력 데이터로 하여, 종단 간 모델을 학습할 수 있다.

여기서, 종단 간 모델은 도 4에 도시된 바와 같이, 컨볼루션 장단기 메모리로 이루어지는 컨볼루션 장단기 메모리 계층(convolutional LSTM layer), 컨볼루션 장단기 메모리 계층에 연결된 제1 완전 연결 계층(fully connected layer), 및 제1 완전 연결 계층에 연결되고 소프트맥스 함수(softmax function)를 포함하는 제2 완전 연결 계층을 포함할 수 있다.

즉, 종단 간 모델은 비디오 스트림 데이터를 입력 데이터로 하고 사용자 행동의 공간적 정보(spatial information)와 시간적 정보(temporal information)를 출력 데이터로 하는 컨볼루션 장단기 메모리 계층, 컨볼루션 장단기 메모리 계층의 출력 데이터인 공간적 정보와 시간적 정보를 입력 데이터로 하는 제1 완전 연결 계층, 및 제1 완전 연결 계층의 출력 데이터를 입력 데이터로 하고 행동 명칭 정보를 출력 데이터로 하는 제2 완전 연결 계층으로 이루어지는 모델일 수 있다.

이와 같이, 본 발명은 컨볼루션 장단기 메모리 계층을 이용하여 종단 간 모델을 구성함으로써, 행동 인식 시스템의 정확도 및 복잡성을 개선시킬 수 있다.

이후, 프로세서(110)는 사용자 행동 인식 및 분류를 수행할 대상 비디오 스스트림 데이터를 획득할 수 있다(S120).

이때, 사용자 행동 인식 및 분류 장치(100)가 카메라를 구비하는 스마트 사이니지(smart signage)와 같은 단말인 경우, 프로세서(110)는 사용자 행동 인식 및 분류 장치(100)에 탑재된 카메라를 통해 촬영된 데이터를 기반으로 대상 비디오 스트림 데이터를 획득할 수 있다.

그런 다음, 프로세서(110)는 미리 학습된 종단 간 모델을 기반으로 대상 비디오 스트림 데이터에 대응되는 사용자 행동 명칭 정보를 획득할 수 있다(S130).

자세히 설명하면, 프로세서(110)는 도 5에 도시된 바와 같이, 대상 비디오 스트림 데이터를 종단 간 모델에 입력하고, 종단 간 모델의 출력 데이터인 행동 명칭 정보를 기반으로 대상 비디오 스트림 데이터에 대응되는 사용자 행동 명칭 정보를 획득할 수 있다.

정리하면, 기존 행동 인식 연구는 카메라가 아닌 다른 센서 데이터를 이용하거나 블록 기반 모델을 이용하거나 공간적 정보만을 활용하여 행동 인식에 적용하고 있다. 하지만, 본 발명은 기존의 행동 인식 연구와는 다르게 행동 분류에 있어서 중요한 분류 요소인 시간적 정보와 공간적 정보를 적용하여 정확도와 복잡성을 개선시킬 수 있다. 실제로, 사용자의 행동을 인식하려면 이미지 데이터로부터 단편적인 동작 인식이 아닌 비디오 스트림으로부터 연속적으로 나열되는 행동을 인식해야 된다. 이에 따라, 본 발명은 비디오 스트림으로부터 공간적 정보와 시간적 정보를 학습하여 사용자의 행동을 인식 및 분류할 수 있다.

본 실시예들에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 저장 매체에 기록될 수 있다. 컴퓨터 판독 가능한 저장 매체는 실행을 위해 프로세서에 명령어를 제공하는데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 저장 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예컨대, 자기 매체, 광기록 매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술 분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.

본 실시예들은 본 실시예의 기술 사상을 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 사용자 행동 인식 및 분류 장치,
110 : 프로세서,
130 : 컴퓨터 판독 가능한 저장 매체,
131 : 프로그램,
150 : 통신 버스,
170 : 입출력 인터페이스,
190 : 통신 인터페이스

Claims

컨볼루션 장단기 메모리(convolutional LSTM)를 포함하는 종단 간 모델을 학습하는 단계;
사용자 행동 인식 및 분류를 수행할 대상 비디오 스트림 데이터를 획득하는 단계; 및
상기 종단 간 모델을 기반으로 상기 대상 비디오 스트림 데이터에 대응되는 사용자 행동 명칭 정보를 획득하는 단계를 포함하고,
상기 종단 간 모델은,
상기 컨볼루션 장단기 메모리(convolutional LSTM)로 이루어지는 컨볼루션 장단기 메모리 계층(convolutional LSTM layer), 상기 컨볼루션 장단기 메모리 계층에 연결된 제1 완전 연결 계층(fully connected layer), 및 상기 제1 완전 연결 계층에 연결되고 소프트맥스 함수(softmax function)를 포함하는 제2 완전 연결 계층을 포함하며,
비디오 스트림 데이터를 입력 데이터로 하고 사용자 행동의 공간적 정보(spatial information)와 시간적 정보(temporal information)를 출력 데이터로 하는 상기 컨볼루션 장단기 메모리 계층, 상기 컨볼루션 장단기 메모리 계층의 출력 데이터인 상기 공간적 정보와 상기 시간적 정보를 입력 데이터로 하는 상기 제1 완전 연결 계층, 및 상기 제1 완전 연결 계층의 출력 데이터를 입력 데이터로 하고 행동 명칭 정보를 출력 데이터로 하는 상기 제2 완전 연결 계층으로 이루어지는 모델인,
컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법.
제1항에서,
상기 종단 간 모델 학습 단계는,
복수개의 비디오 스트림 데이터를 포함하는 학습 데이터 및 상기 복수개의 비디오 스트림 데이터 각각에 대응되는 행동 명칭 정보를 포함하는 정답 레이블을 기반으로, 상기 학습 데이터를 상기 종단 간 모델의 입력 데이터로 하고 상기 정답 레이블을 상기 종단 간 모델의 출력 데이터로 하여, 상기 종단 간 모델을 학습하는 것으로 이루어지는,
컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법.
삭제
삭제
제2항에서,
상기 사용자 행동 명칭 정보 획득 단계는,
상기 대상 비디오 스트림 데이터를 상기 종단 간 모델에 입력하고, 상기 종단 간 모델의 출력 데이터를 기반으로 상기 대상 비디오 스트림 데이터에 대응되는 상기 사용자 행동 명칭 정보를 획득하는 것으로 이루어지는,
컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법.
제2항, 제5항 중 어느 한 항에 기재된 컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.
컨볼루션 장단기 메모리(convolutional LSTM)를 이용하여 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하는 장치로서,
상기 컨볼루션 장단기 메모리를 이용하여 상기 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하기 위한 하나 이상의 프로그램을 저장하는 메모리; 및
상기 메모리에 저장된 상기 하나 이상의 프로그램에 따라 상기 컨볼루션 장단기 메모리를 이용하여 상기 비디오 스트림 데이터에 대응되는 사용자 행동을 인식 및 분류하기 위한 동작을 수행하는 하나 이상의 프로세서;
를 포함하며,
상기 프로세서는,
상기 컨볼루션 장단기 메모리를 포함하는 종단 간 모델을 학습하고,
사용자 행동 인식 및 분류를 수행할 대상 비디오 스트림 데이터를 획득하며,
상기 종단 간 모델을 기반으로 상기 대상 비디오 스트림 데이터에 대응되는 사용자 행동 명칭 정보를 획득하고,
상기 종단 간 모델은,
상기 컨볼루션 장단기 메모리(convolutional LSTM)로 이루어지는 컨볼루션 장단기 메모리 계층(convolutional LSTM layer), 상기 컨볼루션 장단기 메모리 계층에 연결된 제1 완전 연결 계층(fully connected layer), 및 상기 제1 완전 연결 계층에 연결되고 소프트맥스 함수(softmax function)를 포함하는 제2 완전 연결 계층을 포함하며,
비디오 스트림 데이터를 입력 데이터로 하고 사용자 행동의 공간적 정보(spatial information)와 시간적 정보(temporal information)를 출력 데이터로 하는 상기 컨볼루션 장단기 메모리 계층, 상기 컨볼루션 장단기 메모리 계층의 출력 데이터인 상기 공간적 정보와 상기 시간적 정보를 입력 데이터로 하는 상기 제1 완전 연결 계층, 및 상기 제1 완전 연결 계층의 출력 데이터를 입력 데이터로 하고 행동 명칭 정보를 출력 데이터로 하는 상기 제2 완전 연결 계층으로 이루어지는 모델인,
컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 장치.
제7항에서,
상기 프로세서는,
복수개의 비디오 스트림 데이터를 포함하는 학습 데이터 및 상기 복수개의 비디오 스트림 데이터 각각에 대응되는 행동 명칭 정보를 포함하는 정답 레이블을 기반으로, 상기 학습 데이터를 상기 종단 간 모델의 입력 데이터로 하고 상기 정답 레이블을 상기 종단 간 모델의 출력 데이터로 하여, 상기 종단 간 모델을 학습하는,
컨볼루션 장단기 메모리를 이용한 사용자 행동 인식 및 분류 장치.
삭제
삭제