KR102562865B1

KR102562865B1 - 걸음걸이 인식 기반 객체 식별 및 추적 방법 및 컴퓨팅 장치

Info

Publication number: KR102562865B1
Application number: KR1020230024258A
Authority: KR
Inventors: 이형각; 김호군; 김영창; 황치환
Original assignee: 주식회사세오
Priority date: 2022-12-21
Filing date: 2023-02-23
Publication date: 2023-08-04

Abstract

걸음걸이 인식 기반 객체 식별 및 추적 방법이 개시된다. 상기 걸음걸이 인식 기반 객체 식별 및 추적 방법은 카메라에 의해 촬영된 영상 프레임들에서 검출된 사람과 대응되는 실제 공간에서 사람의 위치들과 상기 카메라의 위치 사이에 결정된 토폴로지(topology)와, 미리 저장된 다른 영상 프레임들에서 결정된 토폴로지들을 비교하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계, 및 관절 각도를 이용하여 상기 카메라에 의해 촬영된 영상 프레임들에서 결정된 걸음걸이와 상기 추출된 가장 유사한 영상 프레임들에서 결정된 걸음걸이가 동일한 걸음걸이인지 판단하는 단계를 포함한다. 상기 가장 유사한 영상 프레임들을 추출하는 단계는 상기 카메라의 중심 위치를 기준으로 상기 카메라에 의해 촬영된 i번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치를 나타내는 제1위치 정보를 판별하는 단계, 상기 카메라의 중심 위치를 기준으로 상기 카메라에 의해 촬영된 m번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치를 나타내는 제2위치 정보를 판별하는 단계, 상기 제1위치 정보와 상기 제2위치 정보에 따라 상기 실제 공간에서 사람의 중심 위치들과 상기 카메라의 중심 위치 사이의 토폴로지를 결정하는 단계, 및 상기 결정된 토폴로지와 미리 저장된 다른 영상 프레임들에서 결정된 토폴로지들을 비교하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계를 포함한다. 상기 제1위치 정보, 또는 상기 제2위치 정보는 상기 카메라의 중심 위치를 기준으로 상기 실제 공간에서 사람의 중심 위치가 가로 방향으로 떨어진 거리를 나타내는 X 좌표, 상기 카메라의 중심 위치를 기준으로 상기 실제 공간에서 사람의 중심 위치가 세로 방향으로 떨어진 거리를 나타내는 Y 좌표, 및 상기 카메라의 중심 위치와 상기 실제 공간에서 사람의 중심 위치 사이의 거리를 나타내는 Z 좌표를 포함한다. 상기 Z 좌표는 아래의 수학식 1과 같이 계산된다.
[수학식 1]
Dist_Z1=f* 성인 평균 신장 /HEIGHT1
상기 Dist_Z1는 상기 카메라의 중심 위치와 상기 i번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치가 Z축 방향으로 떨어진 거리를 나타내는 Z 좌표를, 상기 f는 상기 카메라의 초점 거리를, 상기 성인 평균 신장은 대한민국 성인 남자의 평균 키를, 상기 HEIGHT1는 상기 i번째 영상 프레임에서 사람이 검출할 때, 표시되는 제1바운딩 박스의 높이를 나타낸다.

Description

걸음걸이 인식 기반 객체 식별 및 추적 방법 및 컴퓨팅 장치 {Gait recognition-based object identification and tracking method and computing device}

본 발명은 걸음걸이 인식 기반 객체 식별 및 추적 방법 및 컴퓨팅 장치에 관한 것으로, 상세하게는 카메라에 의해 촬영된 비디오와 가장 유사한 비디오를 찾아 걸음걸이를 인식하기 위한 걸음걸이 인식 기반 객체 식별 및 추적 방법 및 컴퓨팅 장치에 관한 것이다.

교통 약자를 인식하거나, 병원, 요양원에서 건강 상태를 모니터링하는 등 다양한 분야에서 걸음걸이(gait) 분석이 수행되고 있다. 또한, 마스크를 쓰고 있거나, 얼굴을 확인하기 적절하지 않은 카메라 각도 때문에 사람을 인식하기가 어려운 경우가 많다. 이에 사람의 걸음걸이를 인식하여 사람을 식별할 수 있는 방법이 요구된다.

한국 등록특허공보 제10-1029828호(2011.04.11.)

본 발명이 이루고자 하는 기술적인 과제는 걸음걸이를 빠르고 효율적으로 인식하기 위한 걸음걸이 인식 기반 객체 식별 및 추적 방법 및 컴퓨팅 장치를 제공하는 것이다.

본 발명의 실시 예에 따른 걸음걸이 인식 기반 객체 식별 및 추적 방법은 카메라에 의해 촬영된 영상 프레임들에서 검출된 사람과 대응되는 실제 공간에서 사람의 위치들과 상기 카메라의 위치 사이에 결정된 토폴로지(topology)와, 미리 저장된 다른 영상 프레임들에서 결정된 토폴로지들을 비교하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계, 및 관절 각도를 이용하여 상기 카메라에 의해 촬영된 영상 프레임들에서 결정된 걸음걸이와 상기 추출된 가장 유사한 영상 프레임들에서 결정된 걸음걸이가 동일한 걸음걸이인지 판단하는 단계를 포함한다.

상기 가장 유사한 영상 프레임들을 추출하는 단계는 상기 카메라의 중심 위치를 기준으로 상기 카메라에 의해 촬영된 i번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치를 나타내는 제1위치 정보를 판별하는 단계, 상기 카메라의 중심 위치를 기준으로 상기 카메라에 의해 촬영된 m번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치를 나타내는 제2위치 정보를 판별하는 단계, 상기 제1위치 정보와 상기 제2위치 정보에 따라 상기 실제 공간에서 사람의 중심 위치들과 상기 카메라의 중심 위치 사이의 토폴로지를 결정하는 단계, 및 상기 결정된 토폴로지와 미리 저장된 다른 영상 프레임들에서 결정된 토폴로지들을 비교하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계를 포함한다.

상기 제1위치 정보, 또는 상기 제2위치 정보는 상기 카메라의 중심 위치를 기준으로 상기 실제 공간에서 사람의 중심 위치가 가로 방향으로 떨어진 거리를 나타내는 X 좌표, 상기 카메라의 중심 위치를 기준으로 상기 실제 공간에서 사람의 중심 위치가 세로 방향으로 떨어진 거리를 나타내는 Y 좌표, 및 상기 카메라의 중심 위치와 상기 실제 공간에서 사람의 중심 위치 사이의 거리를 나타내는 Z 좌표를 포함한다.

상기 토폴로지를 결정하는 단계는 상기 제1위치 정보의 X 좌표, Y 좌표, 및 Z 좌표를 이용하여 제1벡터를 계산하는 단계, 상기 제2위치 정보의 X 좌표, Y 좌표, 및 Z 좌표를 이용하여 제2벡터를 계산하는 단계, 상기 제1벡터와 상기 제2벡터 사이의 각도를 계산하여 이동 각도로 설정하는 단계, 및 상기 토폴로지는 상기 Z 좌표와 상기 이동 각도를 포함하도록 상기 토폴로지를 결정하는 단계를 포함한다.

상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계는 상기 카메라에 의해 촬영된 영상 프레임들에서 설정된 이동 각도와 상기 미리 저장된 다른 영상 프레임들에서 설정된 이동 각도들을 비교하여 이동 방향 유사도를 계산하는 단계, 상기 카메라에 의해 촬영된 영상 프레임들에서 상기 Z 좌표와 상기 미리 저장된 다른 영상 프레임들에서 Z 좌표들을 비교하여 상기 카메라와의 거리 유사도를 계산하는 단계, 및 상기 이동 방향 유사도와 상기 거리 유사도를 이용하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계를 포함한다.

본 발명의 실시 예에 따른 컴퓨팅 장치는 명령들을 실행하는 프로세서, 및 상기 명령들을 저장하는 메모리를 포함한다.

상기 명령들은 카메라에 의해 촬영된 영상 프레임들에서 검출된 사람과 대응되는 실제 공간에서 사람의 위치들과 상기 카메라의 위치 사이에 결정된 토폴로지(topology)와, 미리 저장된 다른 영상 프레임들에서 결정된 토폴리지들을 비교하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하며, 관절 각도를 이용하여 상기 카메라에 의해 촬영된 영상 프레임들에서 결정된 걸음걸이와 상기 추출된 가장 유사한 영상 프레임들에서 결정된 걸음걸이가 동일한 걸음걸이인지 판단하도록 구현된다.

본 발명의 실시 예에 따른 걸음걸이 인식 기반 객체 식별 및 추적 방법 및 컴퓨팅 장치는 미리 저장된 다른 영상 프레임들에서 카메라에 의해 촬영된 영상 프레임과 가장 유사한 영상 프레임을 추출하는 알고리즘을 제공함으로써 사람의 걸음걸이를 빠르고 효율적으로 인식하여 사람을 식별할 수 있는 효과가 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 실시 예에 따른 컴퓨팅 장치의 블록도를 나타낸다.
도 2는 본 발명의 실시 예에 따른 카메라에 의해 촬영된 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치와 상기 카메라의 중심 위치 사이의 관계를 나타내는 제1위치 정보를 판별하는 동작들을 설명하기 위한 흐름도를 나타낸다.
도 3은 본 발명의 실시 예에 따른 카메라에 의해 촬영된 영상 프레임들을 나타낸다.
도 4는 본 발명의 실시 예에 따른 제1위치 정보를 설명하기 위한 개념도를 나타낸다.
도 5는 본 발명의 실시 예에 따른 제1위치 정보와 제2위치 정보에 따라 카메라와 사람 사이의 토폴로지를 결정하는 동작들을 설명하기 위한 흐름도를 나타낸다.
도 6은 본 발명의 실시 예에 따른 제1위치 정보와 제2위치 정보에 따라 카메라와 사람 사이의 토폴로지를 결정하는 동작들을 설명하기 위한 개념도를 나타낸다.
도 7은 본 발명의 실시 예에 따른 미리 저장된 다른 영상 프레임들에서 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 동작들을 설명하기 위한 흐름도를 나타낸다.
도 8은 걸음걸이 인식을 위한 관절이 표시된 이미지이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소는 제1구성요소로도 명명될 수 있다.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다." 또는 "가지다." 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 나타낸다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.

도 1은 본 발명의 실시 예에 따른 컴퓨팅 장치의 블록도를 나타낸다.

도 1을 참고하면, 컴퓨팅 장치(10)는 프로세서(11)와 메모리(13)를 포함한다.

프로세서(11)는 걸음걸이 인식 명령들을 실행하기 위한 명령들을 실행한다. 이하, 컴퓨팅 장치(10)의 동작들은 프로세서(11)에 의해 수행되는 명령들을 의미할 수 있다.

메모리(13)는 상기 명령들을 저장한다.

컴퓨팅 장치(10)는 노트북, 스마트폰, 태블릿 PC, 데스크탑 또는 서버일 수 있다. 실시 예에 따라 컴퓨팅 장치(10)는 카메라 모듈(15)을 더 포함할 수 있다.

컴퓨팅 장치(10)가 카메라 모듈(15)을 더 포함할 때, 컴퓨팅 장치(10)는 카메라일 수 있다. 카메라 모듈(15)은 주변을 촬영하여 영상 프레임들을 생성할 수 있다.

본 명세서에서 카메라는 카메라 모듈(15)을 의미할 수 있다. 이때, 컴퓨팅 장치(10)는 카메라일 수 있다.

도 2는 본 발명의 실시 예에 따른 카메라에 의해 촬영된 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치와 상기 카메라의 중심 위치 사이의 관계를 나타내는 제1위치 정보를 판별하는 동작들을 설명하기 위한 흐름도를 나타낸다. 도 3은 본 발명의 실시 예에 따른 카메라에 의해 촬영된 영상 프레임들을 나타낸다.

도 1 내지 도 3을 참고하면, 컴퓨팅 장치(10)가 카메라 모듈(15)을 포함하고 있지 않을 때, 외부의 카메라(미도시)는 주변을 촬영하여 영상 프레임들(20)을 생성한다. 외부의 카메라에 의해 생성된 영상 프레임들(20)은 네트워크를 통해 컴퓨팅 장치(10)로 수신될 수 있다. 실시 예에 따라 컴퓨팅 장치(10)가 카메라 모듈(15)을 포함할 때, 카메라 모듈(15), 즉, 카메라는 주변을 촬영하여 영상 프레임들(20)을 생성한다.

프로세서(11)는 촬영된 영상 프레임들(20)을 수신한다. 영상 프레임들(20)의 수는 다양할 수 있다.

프로세서(11)는 영상 프레임들(20)에서 객체(예컨대, 사람, 33)를 검출한다(S10). 예컨대, 프로세서(11)는 i(i는 임의의 자연수)번째 영상 프레임(30)에서 객체(예컨대, 사람, 33)를 검출한다. 프로세서(11)는 m(m은 임의의 자연수)번째 영상 프레임(40)에서 객체(예컨대, 사람, 43)을 검출한다. 유사하게 영상 프레임들(20) 중 다른 영상 프레임들에서도 객체가 검출될 수 있다. 상기 m은 상기 i보다 큰 숫자이다. 영상 프레임들(20)은 i번째 영상 프레임(30)과 m번째 영상 프레임(40)을 포함한다.

객체(예컨대, 사람)가 검출될 때, 객체를 포함하는 바운딩 박스가 영상 프레임(예컨대, 30, 또는 40)에서 표시된다. 예컨대, 프로세서(11)는 i번째 영상 프레임(30)에서 객체(33)를 검출할 때, i번째 영상 프레임(30)에서 제1바운딩 박스(31)가 표시된다. 프로세서(11)는 m번째 영상 프레임(40)에서 객체(43)를 검출할 때, m번째 영상 프레임(40)에서 제2바운딩 박스(41)가 표시된다. 바운딩 박스(31, 또는 41)는 점선으로 표시된다.

바운딩 박스는 중심 위치, 폭, 높이를 포함한다. 예컨대, 제1바운딩 박스(31)는 중심 위치(C1(X1, Y1)), 폭(WIDTH1), 및 높이(HEIGHT1)를 포함한다. 제2바운딩 박스(41)는 중심 위치(C2(X2, Y2)), 폭(WIDTH2), 및 높이(HEIGHT2)를 포함한다.

도 4는 본 발명의 실시 예에 따른 제1위치 정보를 설명하기 위한 개념도를 나타낸다.

도 1 내지 도 4를 참고하면, i번째 영상 프레임(30)에서 제1바운딩 박스(31)의 높이(HEIGHT1)와 실제 공간에서 사람(35)의 키는 비례한다. 예컨대, 제1바운딩 박스(31)의 높이(HEIGHT1)가 높을수록 실제 공간에서 사람(35)의 키는 크다. 실제 공간에서 사람(35)은 제1바운딩 박스(31)에 포함된 사람(33)과 대응된다. 실제 공간이란 현실 세계 공간을 의미한다. 실제 공간은 3D 좌표로 표현된다. 즉, 카메라(15)의 중심 위치(CC)를 (0,0,0)이라 가정할 때, 실제 공간은 (X, Y, Z)로 표현된다. 카메라(15)가 실제 공간에서 사람(35)을 촬영할 때, i번째 영상 프레임(30)가 생성된다. 프로세서(11)는 i번째 영상 프레임(30)에서 사람(33)을 검출할 수 있다.

프로세서(11)는 카메라(15)의 중심 위치(CC)와 i번째 영상 프레임(30)에서 검출된 사람(33)과 대응되는 실제 공간에서 사람(35)의 중심 위치(RC1) 사이의 깊이 거리를 나타내는 Z 좌표를 카메라 원근 투영(perspective projection)를 이용하여 계산한다(S20). 카메라(15)의 중심 위치(CC)란 카메라(15)의 렌즈의 중심 위치를 의미한다. 사람(35)의 중심 위치(RC1)란 사람(35)의 배꼽을 의미할 수 있다. 상기 Z 좌표는 카메라(15)의 렌즈 중심 위치(CC)와 i번째 영상 프레임(30)에서 검출된 사람(33)과 대응되는 실제 공간에서 사람(35)의 중심 위치(RC1)가 Z축 방향으로 떨어진 거리를 의미한다. 즉, 상기 깊이 거리는 (X, Y, Z)로 표현되는 사람(35)의 중심 위치(RC1)에서 Z 값을 의미한다. 카메라(15)의 렌즈 중심 위치(CC)는 (0,0,0)으로 표현될 수 있다. i번째 영상 프레임(30)에서 사람(35)의 중심 위치(RC1)는 제1위치 정보, 즉, (X, Y, Z)로 표현될 수 있다.

상기 Z 좌표는 아래의 수학식 1과 같이 계산될 수 있다.

[수학식 1]

Dist_Z1=f* 성인 평균 신장 /HEIGHT1

상기 Dist_Z1는 카메라(15)의 중심 위치(CC)와 i번째 영상 프레임(30)에서 검출된 사람(33)과 대응되는 실제 공간에서 사람(35)의 중심 위치(RC1)가 Z축 방향으로 떨어진 거리를 나타내는 Z 좌표를, 상기 f는 카메라(15)의 초점 거리(37)를, 상기 성인 평균 신장은 대한민국 성인 남자의 평균 키(예컨대, 173cm)를, 상기 HEIGHT1는 제1바운딩 박스(31)의 높이(HEIGHT1)를 나타낸다.

프로세서(11)는 상기 Z 좌표를 이용하여 X 좌표와 Y 좌표를 계산한다(S30).

X 좌표는 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(35)의 중심 위치(RC1)가 가로(X축) 방향으로 떨어진 거리를 나타낸다.

Y 좌표는 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(35)의 중심 위치(RC1)가 세로(Y축) 방향으로 떨어진 거리를 나타낸다.

상기 X 좌표는 아래의 수학식 2와 같이 계산될 수 있다.

[수학식 2]

Dist_X1=(X1-XC)*Dist_Z1/f

상기 Dist_X1는 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(35)의 중심 위치(RC1)가 가로(X축) 방향으로 떨어진 거리인 X 좌표를, X1은 i번째 영상 프레임(30)에서 검출된 사람(33)의 중심(C1)의 x 좌표를, XC는 i번째 영상 프레임(30)에서 중심(IC1)의 x 좌표를 의미한다.

검출된 사람(33)의 중심(C1)과 제1바운딩 박스(31)의 중심(C1)은 같다.

i번째 영상 프레임(30)에서 중심(IC1)은 (XC, YC)로 표현되며, (0,0)일 수 있다.

상기 Y 좌표는 아래의 수학식 3과 같이 계산될 수 있다.

[수학식 3]

Dist_Y1=sqrt(Dist_Z1²+Dist_X1²)

상기 Dist_Y1은 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(35)의 중심 위치(RC1)가 세로(Y축) 방향으로 떨어진 거리인 Y 좌표를, 상기 sqrt( )는 제곱근 함수를, 상기 Dist_Z1는 Z 좌표를, 상기 Dist_X1는 X 좌표를 나타낸다.

도 5는 본 발명의 실시 예에 따른 제1위치 정보와 제2위치 정보에 따라 카메라와 사람 사이의 토폴로지를 결정하는 동작들을 설명하기 위한 흐름도를 나타낸다.

도 1 내지 도 5를 참고하면, 프로세서(11)는 영상 프레임들(20) 중 어느 하나에서 객체를 처음 검출하였는지 판단한다(S110).

프로세서(11)가 영상 프레임들(20) 중 어느 하나인 i번째 영상 프레임(30)에서 객체(33)를 처음 검출할 때, 프로세서(11)는 영상 프레임들(20) 중 어느 하나인 i번째 영상 프레임(30)에서 제1위치 정보를 판별한다(S120).

제1위치 정보는 카메라(15)의 중심 위치(CC)를 기준으로 카메라(15)에 의해 촬영된 i번째 영상 프레임(30)에서 검출된 사람(33)과 대응되는 실제 공간에서 사람(35)의 중심 위치(RC1)를 나타낸다.

상기 제1위치 정보는 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(35)의 중심 위치(RC1)가 가로 방향으로 떨어진 거리를 나타내는 X 좌표(도 4에서 Dist_X1로 표시됨), 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(35)의 중심 위치(RC1)가 세로 방향으로 떨어진 거리를 나타내는 Y 좌표(도 4에서 Dist_Y1로 표시됨), 및 카메라(15)의 중심 위치(CC)와 상기 실제 공간에서 사람(35)의 중심 위치(RC1) 사이의 Z 축 방향으로 떨어진 거리를 나타내는 Z 좌표(도 4에서 Dist_Z1로 표시됨)를 포함한다.

프로세서(11)는 영상 프레임들(20) 중 나머지 영상 프레임들에서도 객체를 검출한다(S130). 즉, 프로세서(11)는 영상 프레임들(20) 중 나머지 영상 프레임들에서 객체를 검출하고 추적한다.

프로세서(11)는 영상 프레임들(20)에서 객체를 검출하지 않을 때까지 객체를 추적한다(S140).

프로세서(11)는 영상 프레임들(20)에서 객체 추적을 종료할 때, 프로세서(11)는 영상 프레임들(20) 중 어느 하나인 m번째 영상 프레임(40)에서 제2위치 정보를 판별한다(S150).

제2위치 정보는 카메라(15)의 중심 위치(CC)를 기준으로 카메라(15)에 의해 촬영된 m번째 영상 프레임(40)에서 검출된 사람(43)과 대응되는 실제 공간에서 사람(45)의 중심 위치(RC2)를 나타낸다. 사람(45)의 중심 위치(RC2)는 제2위치 정보, 즉, (X, Y, Z)로 표현될 수 있다.

상기 제2위치 정보는 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(35)의 중심 위치(RC2)가 가로 방향으로 떨어진 거리를 나타내는 X 좌표(Dist_X2), 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(35)의 중심 위치(RC2)가 세로 방향으로 떨어진 거리를 나타내는 Y 좌표(Dist_Y2), 및 카메라(15)의 중심 위치(CC)와 상기 실제 공간에서 사람(35)의 중심 위치(RC2) 사이의 Z 축 방향으로 떨어진 거리를 나타내는 Z 좌표(Dist_Z2)를 포함한다.

상기 제2위치 정보의 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(45)과 상기 제1위치 정보의 카메라(15)의 중심 위치(CC)를 기준으로 상기 실제 공간에서 사람(35)은 동일한 사람이다.

제1위치 정보의 X 좌표(Dist_X1), Y 좌표(Dist_Y1), 및 Z 좌표(Dist_Z1)와 유사한 방법으로 제2위치 정보의 X 좌표(Dist_X2), Y 좌표(Dist_Y2), 및 Z 좌표(Dist_Z2)가 계산될 수 있다.

프로세서(11)는 상기 제1위치 정보와 상기 제2위치 정보에 따라 상기 실제 공간에서 사람의 중심 위치들(RC1, RC2)과 상기 카메라의 중심 위치(CC) 사이의 토폴로지를 결정한다(S160). 구체적인 토폴로지 결정 동작들은 다음과 같다.

도 6은 본 발명의 실시 예에 따른 제1위치 정보와 제2위치 정보에 따라 카메라와 사람 사이의 토폴로지를 결정하는 동작들을 설명하기 위한 개념도를 나타낸다.

도 1 내지 도 6을 참고하면, 프로세서(11)는 상기 제1위치 정보의 X 좌표(Dist_X1), Y 좌표(Dist_Y1), 및 Z 좌표(Dist_Z1)를 이용하여 제1벡터(A)를 계산한다.

프로세서(11)는 상기 제1위치 정보(Dist_X1, Dist_Y1, Dist_Z1)를 시작점으로, 카메라(15)의 중심 위치(CC)를 끝점으로 연결하여 제1벡터(A)를 생성한다.

프로세서(11)는 상기 제2위치 정보의 X 좌표, Y 좌표, 및 Z 좌표를 이용하여 제2벡터(B)를 계산한다.

프로세서(11)는 상기 제1위치 정보(Dist_X1, Dist_Y1, Dist_Z1)를 시작점으로, 상기 제2위치 정보(Dist_X2, Dist_Y2, Dist_Z2)를 끝점으로 연결하여 제2벡터(B)를 생성한다.

프로세서(11)는 제1벡터(A)와 제2벡터(B) 사이의 각도(θ1)를 계산하여 이동 각도(θ1)로 설정한다.

상기 이동 각도(θ1)는 아래의 수학식 4와 같이 계산될 수 있다.

[수학식 4]

θ1=arc_cos(A·B/(|A|*|B|))

상기 θ1는 이동 각도를, 상기 arc_cos( )는 아크코사인 함수를, 상기 ·는 점곱(dot product)를, 상기 | |는 절대값을 나타낸다.

토폴로지는 제1위치 정보의 Z 좌표(Dist_Z1)와 이동 각도(θ1)를 포함하는 것으로 정의될 수 있다.

도 7은 본 발명의 실시 예에 따른 미리 저장된 다른 영상 프레임들에서 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 동작들을 설명하기 위한 흐름도를 나타낸다.

도 1 내지 도 7을 참고하면, 미리 저장된 다른 영상 프레임들은 네트워크를 통해 컴퓨팅 장치(10)로 수신되거나, 컴퓨팅 장치(10)의 내부에 구현된 카메라(15)를 이용하여 스스로 생성될 수 있다. 다른 영상 프레임들은 메모리(13)에 저장될 수 있다.

미리 저장된 다른 영상 프레임들은 객체(예컨대, 사람)가 포함된 프레임들을 의미한다. 미리 저장된 다른 영상 프레임들은 객체가 누구인지에 따라 여러 개의 영상 프레임들로 분류될 수 있다. 예컨대, 미리 저장된 다른 영상 프레임들은 "A"라는 사람이 포함된 영상 프레임들은 제1영상 프레임들로 분류될 수 있다. "B"라는 사람이 포함된 영상 프레임들은 제2영상 프레임들로 분류될 수 있다. "C"라는 사람이 포함된 영상 프레임들은 제3영상 프레임들로 분류될 수 있다. 실시 예에 따라 미리 저장된 다른 영상 프레임들은 M개(M은 자연수)의 영상 프레임들로 분류될 수 있다.

프로세서(11)는 카메라(15)에 의해 촬영된 영상 프레임들(20)에서 검출된 사람(33, 43)과 대응되는 실제 공간에서 사람(35)의 위치들과, 카메라(15)의 위치 사이에 결정된 토폴로지(topology)와, 미리 저장된 다른 영상 프레임들에서 결정된 토폴로지들을 비교한다.

상기 미리 저장된 다른 영상 프레임들은 여러 개의 영상 프레임들로 분류되며, 분류된 영상 프레임들 마다 서로 다른 토폴로지들을 포함한다.

예컨대, "A"라는 사람이 포함된 제1영상 프레임들은 제1토폴로지를 포함한다. 상기 제1토폴로지는 카메라에 의해 촬영된 영상 프레임들에서 검출된 사람(예컨대, "A")과 대응되는 실제 공간에서 사람(예컨대, "A")의 위치들과, 카메라(15)의 위치 사이에 결정된다. 상기 제1토폴로지는 상기 제1위치 정보의 Z 좌표(Dist_Z1) 및 이동 각도(θ1)와 대응되는, Z 좌표(Dist_Candid1)와 이동 각도(θ_Candid1)를 포함한다. 상기 Z 좌표(Dist_Candid1)는 상기 수학식 1을 이용하여 계산될 수 있다. 상기 이동 각도(θ_Candid1)는 상기 수학식 4를 이용하여 계산될 수 있다. 유사하게 "B"라는 사람이 포함된 제2영상 프레임들은 제2토폴로지를 포함한다.

프로세서(11)는 카메라(15)에 의해 촬영된 영상 프레임들(20)에서 설정된 이동 각도(θ1)와 상기 미리 저장된 다른 영상 프레임들에서 설정된 이동 각도들(예컨대, θ_Candid1, θ_Candid2, ..., 및 θ_Candidi; 상기 i는 자연수)을 비교하여 이동 방향 유사도를 계산한다(S210).

상기 이동 방향 유사도는 아래의 수학식 5와 같이 계산될 수 있다.

[수학식 5]

MDS=(180-|θ1 - θ_Candidi|)/180

상기 MDS는 이동 방향 유사도를, 상기 θ1는 제1벡터(A)와 제2벡터(B)를 이용하여 계산된 이동 각도를, 상기 θ_Candidi는 상기 미리 저장된 다른 영상 프레임들에서 설정된 이동 각도를, 상기 | |는 절대값을 의미한다. 상기 θ_Candidi는 상기 i가 증가하면서 여러 개의 이동 각도들이 적용될 수 있다. 예컨대, 상기 i가 1일 때, 상기 수학식 5에 θ_Candid1이 적용되며, 상기 i가 2일 때, 상기 수학식 5에 θ_Candid2이 적용되며, 상기 i는 임의의 숫자에 도달할 때까지 1만큼 증가한다.

제1벡터(A)와 제2벡터(B)를 이용하여 계산된 이동 각도(θ1)와 상기 미리 저장된 다른 영상 프레임들에서 설정된 이동 각도(θ_Candidi)가 동일하면 최대 유사값이 부여된다. 최대 유사도 값은 1이다.

프로세서(11)는 카메라(15)에 의해 촬영된 영상 프레임들(20)에서 Z 좌표(Dist_Z1)와 상기 미리 저장된 다른 영상 프레임들에서 Z 좌표들(예컨대, Dist_Candid1, Dist_Candid2, ..., 및 Dist_Candidi; 상기 i는 자연수)을 비교하여 카메라(15)와의 거리 유사도를 계산한다(S220).

카메라(15)와의 거리 유사도는 아래의 수학식 6과 같이 계산될 수 있다.

[수학식 6]

DS=(max(Dist_Z1, Dist_ZCandidi)-|Dist_Z1-dist_ZCandidi|)/max(Dist_Z1, Dist_ZCandidi)

상기 DS는 카메라(15)와의 거리 유사도를, 상기 max( )는 최대값을 구하는 함수를, 상기 Dist_Z1는 상기 제1위치 정보의 Z 좌표를, 상기 Dist_ZCandidi는 상기 미리 저장된 다른 영상 프레임들에서 위치 정보의 Z 좌표를, 상기 | |는 절대값을 나타낸다.

상기 Dist_ZCandidi는 i가 증가하면서 여러 개의 Z 좌표들이 적용될 수 있다. 상기 제1위치 정보의 Z 좌표(Dist_Z1)와 상기 미리 저장된 다른 영상 프레임들에서 위치 정보의 Z 좌표(Dist_ZCandidi)가 같으면 최대 거리 유사도 값이 부여된다. 최대 거리 유사도 값은 1이다. 상기 제1위치 정보의 Z 좌표(Dist_Z1)와 상기 미리 저장된 다른 영상 프레임들에서 위치 정보의 Z 좌표(Dist_ZCandidi) 사이의 거리 차이가 적을수록 거리 유사도의 값은 커진다.

프로세서(11)는 상기 이동 방향 유사도와 상기 거리 유사도를 이용하여 상기 미리 저장된 다른 영상 프레임들에서 카메라(15)에 의해 촬영된 영상 프레임들(20)과 가장 유사한 영상 프레임들을 추출한다(S230).

영상 프레임들의 유사도는 아래의 수학식 7과 같이 계산될 수 있다.

[수학식 7]

FS=α*MDS+β*DS

상기 FS는 영상 프레임들의 유사도를, 상기 α와 상기 β는 상수로, 상기 α와 상기 β의 합은 1이며, 상기 MDS는 이동 방향 유사도를, 상기 DS는 거리 유사도를 나타낸다. 상기 이동 방향 유사도와 상기 거리 유사도의 값들은 상기 i의 수만큼 존재한다. 따라서 상기 i의 수만큼 복수의 영상 프레임들의 유사도들의 수가 존재한다.

프로세서(11)는 복수의 영상의 프레임들의 유사도들 중 가장 큰 값을 갖는 유사도를 선택한다. 프로세서(11)는 상기 미리 저장된 다른 영상 프레임들에서 가장 큰 유사도와 대응되는 영상 프레임들을 추출한다. 예컨대, 상기 미리 저장된 다른 영상 프레임들에서 가장 큰 유사도와 대응되는 영상 프레임들은 제1영상 프레임들일 수 있다. 따라서 프로세서(11)는 상기 제1영상 프레임들을 카메라(15)에 의해 촬영된 영상 프레임들(20)과 가장 유사한 영상 프레임들로 추출한다.

프로세서(11)는 관절 각도를 이용하여 카메라(15)에 의해 촬영된 영상 프레임들(20)에서 결정된 걸음걸이와 상기 추출된 영상 프레임들에서 결정된 걸음걸이가 동일한 걸음걸이인지 판단한다.

도 8은 걸음걸이 인식을 위한 관절이 표시된 이미지이다.

도 8을 참고하면, 걸음걸이 인식을 위한 사람의 관절(J1~J12)이 도시된다. 프로세서(11)는 카메라(15)에 의해 촬영된 영상 프레임들(20) 중 여러 개의 영상 프레임들(예컨대, i번째 영상 프레임(30)과 m번째 영상 프레임(40))에서 사람(33)을 검출하고, 검출된 사람(33)의 관절들과 관절들의 각도를 인식한다.

프로세서(11)는 인식된 관절들의 각도를 이용하여 사람(33)의 걸음걸이를 인식한다. 관절들의 각도를 이용하여 사람(33)의 걸음걸이를 인식하는 방법은 널리 알려진 방법들 중 하나가 이용된다.

유사하게 프로세서(11)는 도 7에서 추출된 가장 유사한 영상 프레임들에서도 사람의 걸음걸이를 인식한다.

프로세서(11)는 인식된 2개의 걸음걸이를 비교한다. 구체적으로, 관절들의 각도의 유사성이 비교될 수 있다. 인식된 2개의 걸음걸이가 같을 때, 프로세서(11)는 가장 유사한 영상 프레임들에서 인식된 객체의 신원을 사람(33)의 신원으로 고려한다. 가장 유사한 영상 프레임들에서 객체의 신원은 미리 인식된다. 따라서 사람(33)을 식별하기 어려운 경우라도 걸음걸이의 유사성을 이용하여 사람이 식별될 수 있다.

본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

10: 컴퓨팅 장치;
11: 프로세서;
13: 메모리;
15: 카메라 모듈;
20: 영상 프레임들;
30: i번째 영상 프레임;
40: m번째 영상 프레임;

Claims

카메라에 의해 촬영된 영상 프레임들에서 검출된 사람과 대응되는 실제 공간에서 사람의 위치들과 상기 카메라의 위치 사이에 결정된 토폴로지(topology)와, 미리 저장된 다른 영상 프레임들에서 결정된 토폴로지들을 비교하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계; 및
관절 각도를 이용하여 상기 카메라에 의해 촬영된 영상 프레임들에서 결정된 걸음걸이와 상기 추출된 가장 유사한 영상 프레임들에서 결정된 걸음걸이가 동일한 걸음걸이인지 판단하는 단계를 포함하며,
상기 가장 유사한 영상 프레임들을 추출하는 단계는,
상기 카메라의 중심 위치를 기준으로 상기 카메라에 의해 촬영된 i번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치를 나타내는 제1위치 정보를 판별하는 단계;
상기 카메라의 중심 위치를 기준으로 상기 카메라에 의해 촬영된 m번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치를 나타내는 제2위치 정보를 판별하는 단계;
상기 제1위치 정보와 상기 제2위치 정보에 따라 상기 실제 공간에서 사람의 중심 위치들과 상기 카메라의 중심 위치 사이의 토폴로지를 결정하는 단계; 및
상기 결정된 토폴로지와 미리 저장된 다른 영상 프레임들에서 결정된 토폴로지들을 비교하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계를 포함하며,
상기 제1위치 정보, 또는 상기 제2위치 정보는,
상기 카메라의 중심 위치를 기준으로 상기 실제 공간에서 사람의 중심 위치가 가로 방향으로 떨어진 거리를 나타내는 X 좌표;
상기 카메라의 중심 위치를 기준으로 상기 실제 공간에서 사람의 중심 위치가 세로 방향으로 떨어진 거리를 나타내는 Y 좌표; 및
상기 카메라의 중심 위치와 상기 실제 공간에서 사람의 중심 위치 사이의 거리를 나타내는 Z 좌표를 포함하며,
상기 Z 좌표는 아래의 수학식 1과 같이 계산되며,
[수학식 1]
Dist_Z1=f* 성인 평균 신장 /HEIGHT1
상기 Dist_Z1는 상기 카메라의 중심 위치와 상기 i번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치가 Z축 방향으로 떨어진 거리를 나타내는 Z 좌표를, 상기 f는 상기 카메라의 초점 거리를, 상기 성인 평균 신장은 대한민국 성인 남자의 평균 키를, 상기 HEIGHT1는 상기 i번째 영상 프레임에서 사람이 검출할 때, 표시되는 제1바운딩 박스의 높이를 나타내는 걸음걸이 인식 기반 객체 식별 및 추적 방법.
삭제
삭제
제1항에 있어서, 상기 토폴로지를 결정하는 단계는,
상기 제1위치 정보의 X 좌표, Y 좌표, 및 Z 좌표를 이용하여 제1벡터를 계산하는 단계;
상기 제2위치 정보의 X 좌표, Y 좌표, 및 Z 좌표를 이용하여 제2벡터를 계산하는 단계;
상기 제1벡터와 상기 제2벡터 사이의 각도를 계산하여 이동 각도로 설정하는 단계; 및
상기 토폴로지는 상기 Z 좌표와 상기 이동 각도를 포함하도록 상기 토폴로지를 결정하는 단계를 포함하는 걸음걸이 인식 기반 객체 식별 및 추적 방법.
제4항에 있어서, 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계는,
상기 카메라에 의해 촬영된 영상 프레임들에서 설정된 이동 각도와 상기 미리 저장된 다른 영상 프레임들에서 설정된 이동 각도들을 비교하여 이동 방향 유사도를 계산하는 단계;
상기 카메라에 의해 촬영된 영상 프레임들에서 상기 Z 좌표와 상기 미리 저장된 다른 영상 프레임들에서 Z 좌표들을 비교하여 상기 카메라와의 거리 유사도를 계산하는 단계; 및
상기 이동 방향 유사도와 상기 거리 유사도를 이용하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하는 단계를 포함하는 걸음걸이 인식 기반 객체 식별 및 추적 방법.
명령들을 실행하는 프로세서; 및
상기 명령들을 저장하는 메모리를 포함하며,
상기 명령들은,
카메라에 의해 촬영된 영상 프레임들에서 검출된 사람과 대응되는 실제 공간에서 사람의 위치들과 상기 카메라의 위치 사이에 결정된 토폴로지(topology)와, 미리 저장된 다른 영상 프레임들에서 결정된 토폴리지들을 비교하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하며,
관절 각도를 이용하여 상기 카메라에 의해 촬영된 영상 프레임들에서 결정된 걸음걸이와 상기 추출된 가장 유사한 영상 프레임들에서 결정된 걸음걸이가 동일한 걸음걸이인지 판단하도록 구현되며,
상기 가장 유사한 영상 프레임들을 추출하는 명령들은,
상기 카메라의 중심 위치를 기준으로 상기 카메라에 의해 촬영된 i번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치를 나타내는 제1위치 정보를 판별하며, 상기 카메라의 중심 위치를 기준으로 상기 카메라에 의해 촬영된 m번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치를 나타내는 제2위치 정보를 판별하며, 상기 제1위치 정보와 상기 제2위치 정보에 따라 상기 실제 공간에서 사람의 중심 위치들과 상기 카메라의 중심 위치 사이의 토폴로지를 결정하며, 상기 결정된 토폴로지와 미리 저장된 다른 영상 프레임들에서 결정된 토폴로지들을 비교하여 상기 미리 저장된 다른 영상 프레임들에서 상기 카메라에 의해 촬영된 영상 프레임들과 가장 유사한 영상 프레임들을 추출하도록 구현되며,
상기 제1위치 정보, 또는 상기 제2위치 정보는,
상기 카메라의 중심 위치를 기준으로 상기 실제 공간에서 사람의 중심 위치가 가로 방향으로 떨어진 거리를 나타내는 X 좌표;
상기 카메라의 중심 위치를 기준으로 상기 실제 공간에서 사람의 중심 위치가 세로 방향으로 떨어진 거리를 나타내는 Y 좌표; 및
상기 카메라의 중심 위치와 상기 실제 공간에서 사람의 중심 위치 사이의 거리를 나타내는 Z 좌표를 포함하며,
상기 Z 좌표는 아래의 수학식 1과 같이 계산되며,
[수학식 1]
Dist_Z1=f* 성인 평균 신장 /HEIGHT1
상기 Dist_Z1는 상기 카메라의 중심 위치와 상기 i번째 영상 프레임에서 검출된 사람과 대응되는 실제 공간에서 사람의 중심 위치가 Z축 방향으로 떨어진 거리를 나타내는 Z 좌표를, 상기 f는 상기 카메라의 초점 거리를, 상기 성인 평균 신장은 대한민국 성인 남자의 평균 키를, 상기 HEIGHT1는 상기 i번째 영상 프레임에서 사람이 검출할 때, 표시되는 제1바운딩 박스의 높이를 나타내는 컴퓨팅 장치.