KR101511146B1 - 스마트 3차원 제스처 인식 장치 및 방법 - Google Patents

스마트 3차원 제스처 인식 장치 및 방법 Download PDF

Info

Publication number
KR101511146B1
KR101511146B1 KR1020140096231A KR20140096231A KR101511146B1 KR 101511146 B1 KR101511146 B1 KR 101511146B1 KR 1020140096231 A KR1020140096231 A KR 1020140096231A KR 20140096231 A KR20140096231 A KR 20140096231A KR 101511146 B1 KR101511146 B1 KR 101511146B1
Authority
KR
South Korea
Prior art keywords
gesture
user
hand
unit
recognition
Prior art date
Application number
KR1020140096231A
Other languages
English (en)
Inventor
이상윤
최재성
김광택
김정현
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020140096231A priority Critical patent/KR101511146B1/ko
Application granted granted Critical
Publication of KR101511146B1 publication Critical patent/KR101511146B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

스마트 3차원 제스처 인식 장치 및 방법을 공개한다. 본 발명은 연속하는 복수개의 프레임으로 구성되는 영상을 획득하는 영상 획득부, 영상에서 컬러 기반 방식 및 깊이 기반 방식을 동시에 이용하여 사용자의 지정된 손의 위치를 감지 및 추적하는 손 추적부, 손 추적부에서 추적한 손의 위치 정보를 분석하고, 분석된 손의 위치 변화를 이용하여 사용자가 제스처를 의도했는지 여부를 판별하는 제스처 판단부, 손의 위치 변화의 특징을 기설정된 방식으로 추출하는 특징 추출부, 복수개의 제스처 템플릿이 저장되는 사용자 프로파일 저장부, 추출된 특징으로부터 제스처의 패턴을 인식하고, 인식된 패턴을 사용자 행동 프로파일로 생성하며, 사용자 프로파일 저장부에 저장된 복수개의 제스처 템플릿 중 사용자 행동 프로파일에 대응하는 제스처 템플릿을 검색하여, 인식된 패턴을 검색된 제스처 탬플릿에 적용함으로써 제스처를 인식하는 인식 분류부 및 인식된 제스처를 대응하는 사용자 명령으로 변환하는 명령 변환부를 포함한다.

Description

스마트 3차원 제스처 인식 장치 및 방법{SMART 3D GESTURE RECOGNITION APPARATUS AND METHOD}
본 발명은 제스처 인식 장치 및 방법에 관한 것으로, 특히 비착용형 인지 기반 스마트 3차원 제스처 인식 장치 및 방법에 관한 것이다.
제스처 인식 장치는 주로 사용자의 손 또는 손가락의 움직임, 즉 제스처를 감지 및 인식하고, 인식된 제스처에 대응하는 명령을 생성하는 장치로서 사용자의 편의성을 극대화할 수 있다는 장점으로 인해 적용 분야가 점차로 확대 되어가고 있다.
제스처 인식 장치는 사용자의 제스처를 인식하는 방식에 따라 크게 착용형과 비착용형으로 구분된다. 착용형 제스처 인식 장치는 사용자가 제스처 인식 장치를 착용한 상태에서 동작을 수행하고, 사용자의 동작을 가속도 센서나, 지자기센서, 중력 센서, 자이로 센서 등의 다수의 센서를 이용하여 인지한다. 그에 비해 비착용형 제스처 인식 장치는 대부분 카메라와 같은 영상 획득 수단을 이용하여 사용자의 동작을 감지하고 사용자 명령을 인식하는 영상 기반 제스처 인식 장치이다.
비착용형 제스처 인식 장치는 사용자가 제스처 인식 장치를 착용하지 않아도 된다는 편리함으로 인해 착용형 제스처 인식 장치에 비해, 적용 가능한 분야가 매우 다양하지만 사용자들마다의 행동 특성에 따른 차이를 제스처 인식에 반영하지 못하여 인식률이 사용자의 행동 특성에 의존적이라는 문제가 있다. 또한 기존의 비착용형 제스처 인식 장치는 사용자의 신체에 직접 접촉하지 않는 구조이므로, 제스처 인식에 대해 2차원의 시각적 피드백만을 제공하도록 구성됨으로써, 사용자에게 불편함과 피로감을 준다는 한계가 있다.
한국 공개 특허 제10-2012-0029738호 "사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치"(2012.03.27 공개)에는 촬상 소자를 통해 입력되는 목표 영상에서 손 영역 이외의 피부색 배경이 존재하거나, 조명의 변화나 노이즈가 발생한 경우에도 용이하게 손 제스처를 인식할 수 있도록 손 영역을 검출하는 기술이 개시되어 있다. 그러나 상기한 기술에서도 사용자 개개인의 행동 특성에 대한 고려가 되어 있지 않아 제스처 인식의 정확도를 향상시키기에는 한계가 있다.
본 발명의 목적은 사용자 개개인의 행동 특성으로 고려하여 제스처 인식의 정확도를 향상 시킬 수 있는 스마트 3차원 제스처 인식 장치를 제공하는데 있다.
본 발명의 다른 목적은 상기 목적을 달성하기 위한 스마트 3차원 제스처 인식 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 예에 따른 제스처 인식 장치는 연속하는 복수개의 프레임으로 구성되는 영상을 획득하는 영상 획득부; 상기 영상에서 컬러 기반 방식 및 깊이 기반 방식을 동시에 이용하여 사용자의 지정된 손의 위치를 감지 및 추적하는 손 추적부; 상기 손 추적부에서 추적한 상기 손의 위치 정보를 분석하고, 분석된 상기 손의 위치 변화를 이용하여 상기 사용자가 제스처를 의도했는지 여부를 판별하는 제스처 판단부; 상기 손의 위치 변화의 특징을 기설정된 방식으로 추출하는 특징 추출부; 복수개의 제스처 템플릿이 저장되는 사용자 프로파일 저장부; 추출된 상기 특징으로부터 상기 제스처의 패턴을 인식하고, 인식된 상기 패턴을 사용자 행동 프로파일로 생성하며, 상기 사용자 프로파일 저장부에 저장된 상기 복수개의 제스처 템플릿 중 상기 사용자 행동 프로파일에 대응하는 제스처 템플릿을 검색하여, 인식된 상기 패턴을 검색된 제스처 탬플릿에 적용함으로써 상기 제스처를 인식하는 인식 분류부; 및 인식된 제스처를 대응하는 사용자 명령으로 변환하는 명령 변환부; 를 포함한다.
상기 손 추적부는 상기 컬러 기반 방식으로 Lab 색 공간의 컬러 벡터에 대해 국부 이진 패턴(Local binary pattern : LBP)을 이용하여 손을 검출하고, 상기 깊이 기반 방식으로 기계 학습에 의해 감지되는 손을 조건부 확률을 이용하여 검출하며, 검출된 상기 사용자의 손을 CAMSHIFT 알고리즘에 따라 추적하는 것을 특징으로 한다.
상기 제스처 판단부는 추적되는 상기 손의 위치 변화에 대해 모션 그래디언트(motion gradient)를 계산하고, 계산된 모션 그래디언트가 기설정된 상한값 이상이거나, 기설정된 하한값 이하이면, 상기 제스처가 상기 사용자에 의해 의도된 것으로 판별하는 것을 특징으로 한다.
상기 특징 추출부는 상기 특징으로 상기 손의 위치 변화의 속도를 추출하는 것을 특징으로 한다.
상기 인식 분류부는 동적 시간 교정법(Dynamic Time Warping : DTW)을 이용하여 상기 제스처의 패턴을 인식하는 것을 특징으로 한다.
상기 인식 분류부는 상기 사용자 행동 프로파일에 대응하는 제스처 템플릿이 검색되지 않으면, 칼만 필터로 상기 사용자 행동 프로파일을 필터링하여 새로운 제스처 템플릿을 생성하고, 생성된 상기 제스처 템플릿을 사용자 프로파일 저장부에 저장하는 것을 특징으로 한다.
상기 제스처 인식 장치는 상기 손 검출부에서 상기 사용자의 손이 검출되지 않거나, 상기 제스처 판단부에서 상기 제스처가 상기 사용자에 의해 의도되지 않은 것으로 판단되는 경우 및 상기 인식 분류부에서 상기 제스처를 인식한 경우 중 적어도 하나가 발생하면, 사용자가 시각, 청각 및 촉각 중 적어도 하나로 인지할 수 있도록 피드백을 발생하는 피드백 제어부; 를 더 포함하는 것을 특징으로 한다.
상기 다른 목적을 달성하기 위한 본 발명의 일 예에 따른 제스처 인식 방법은 영상 획득부, 손 추적부, 제스처 판단부, 특징 추출부, 사용자 프로파일 저장부, 인식 분류부 및 명령 변환부를 포함하는 제스처 인식 장치의 제스처 인식 방법에 있어서, 상기 영상 획득부가 연속하는 복수개의 프레임으로 구성되는 영상을 획득하는 단계; 상기 손 추적부가 상기 영상에서 컬러 기반 방식 및 깊이 기반 방식을 동시에 이용하여 사용자의 지정된 손의 위치를 감지 및 추적하는 단계; 상기 제스처 판단부가 추적된 상기 손의 위치 정보를 분석하고, 분석된 상기 손의 위치 변화를 이용하여 상기 사용자가 제스처를 의도했는지 여부를 판별하는 단계; 상기 특징 추출부가 상기 손의 위치 변화의 특징을 기설정된 방식으로 추출하는 단계; 상기 인식 분류부가 추출된 상기 특징으로부터 상기 제스처의 패턴을 인식하는 단계; 상기 인식 분류부가 하고, 인식된 상기 패턴을 사용자 행동 프로파일로 생성하고, 상기 사용자 프로파일 저장부에 저장된 상기 복수개의 제스처 템플릿 중 상기 사용자 행동 프로파일에 대응하는 제스처 템플릿을 검색하여, 인식된 상기 패턴을 검색된 제스처 탬플릿에 적용함으로써 상기 제스처를 인식하는 단계; 및 상기 명령 변환부가 인식된 제스처를 대응하는 사용자 명령으로 변환하는 단계; 를 포함한다.
따라서, 본 발명의 스마트 3차원 제스처 인식 장치 및 방법은 사용자의 제스처 인식 시에 사용자의 제스처 의도를 분석하여 제스처 여부를 판별하고, 사용자별 동작 특성을 반영하여 제스처를 인식함으로써, 제스처 인식 정확도를 극대화할 수 있다. 그러므로, 자연스러운 실감 인터랙션을 필요로 하는 실감 미디어, 게임, 증강 현실, 텔레프레전스 등의 다양한 응용 분야에 광범위하게 활용될 수 있다. 뿐만 아니라, 3차원 영상 콘텐츠와의 인터랙션에도 활용될 수 있어 3차원 영상 디스플레이 산업 발전에 기여할 수 있다. 또한 다중 감각 피드백을 제공하여 제스처 인식 상태 이상 등을 사용자가 용이하게 인지할 수 있도록 함으로써, 제스처 인식 장치의 사용 편의성을 높인다.
도1 은 본 발명의 일 실시예에 따른 스마트 3차원 제스처 인식 장치의 구성을 나타낸다.
도2 는 깊이 정보를 특징으로 사용하여 사용자의 손을 검출하는 적용 예를 나타낸다.
도3 은 시변성을 고려하지 않은 일반 매칭과 시변성을 고려한 DTW 매칭과의 차이를 나타내는 도면이다.
도4 는 인식 분류부가 시변성을 고려한 DTW 매칭 기법을 이용하여 사용자 제스처 패턴을 인식하는 일실시예를 나타낸다.
도5 는 사용자 프로파일을 분석한 사용자 적응형 템플릿과 사용자의 특성을 고려하지 않은 템플릿의 비교한 예를 나타낸다.
도6 은 피드백 방식에 따른 제스처 인식률의 변화를 실험한 결과를 나타내는 그래프이다.
도7 은 본 발명의 일 실시예에 따른 스마트 3차원 제스처 인식 방법을 나타낸다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도1 은 본 발명의 일 실시예에 따른 스마트 3차원 제스처 인식 장치의 구성을 나타낸다.
도1 을 참조하면, 본 발명의 스마트 3차원 제스처 인식 장치(100)는 영상 획득부(110), 손 추적부(120), 제스처 판단부(130), 피드백 제어부(140), 특징 추출부(150), 인식 분류부(160), 사용자 프로파일 저장부(170) 및 명령 변환부(180)를 구비한다.
우선 영상 획득부(110)는 연속하는 복수개의 프레임으로 구성되는 영상을 획득한다. 본 발명에서 영상 획득부(110)는 기존의 컬러 영상뿐만 아니라 깊이 영상을 병용하여 획득하도록 구성된다.
비접촉식 제스처 인식 장치의 대부분은 영상 기반 제스처 인식 기법을 이용하며, 영상 기반 제스처 인식 기법은 크게 컬러 기반 인식 기법과 깊이 기반 인식 기법으로 구분된다.
컬러 기반 인식 기법은 획득된 영상을 RGB, HSV, HIS, YUV, YIQ, YcbCr과 같은 컬러 공간으로 변형하여 손을 찾고 인식하는 방식이다. 컬러 기반 인식 기법은 일반적으로 사용자의 피부색을 검출하는 방법이 이용되지만, 영상내의 주변 조명 변화에 취약하여, 제스처 인식률이 낮다는 단점이 있다.
반면 깊이 기반 인식 기법은 영상 내의 주변 조명 변화에 강인하다는 장점이 있으나, 컬러 기반 영상에 비해 획득할 수 있는 영상이 단순하다는 단점이 있다. 또한 깊이 기반 인식 기법을 이용하기 위한 깊이 영상을 획득할 수 있는 센서의 가격이 비싸고 해상도가 낮다는 문제로 인해 기존에는 활용도가 높지 않았다. 그러나 최근 물체 인식을 위해 광원으로부터 시작되는 빛에 고유한 패턴을 부가하는 구조형 광(structured light)이 개발되어 낮은 가격으로 컬러 영상과 깊이 영상을 실시간으로 획득할 수 있는 센서가 개발됨에 따라 깊이 영상을 이용한 제스처 인식 방법에 대한 연구가 활발해지고 있다.
이에 영상 획득부(110)는 구조형 광을 이용하여 컬러 영상과 깊이 영상을 병용하여 획득하고, 획득된 영상을 손 추적부(120)로 전송한다. 이때 컬러 영상은 RGB 영상인 것으로 가정하여 설명하지만, 다른 컬러 영상 기반 영상이어도 무방하다.
손 추적부(120)는 영상 획득부(110)에서 전송된 영상에서 사용자의 손이나 손가락을 검출하고 추척한다. 손 추적부(120)는 공개된 다양한 방식으로 손 또는 손가락을 검출할 수 있으나, 여기서는 일예로 베이시안 모델(Bayesian model)을 이용한 피부 색 검출 기법과 깊이 영상 제약 방식을 함께 사용하여 손 또는 손가락을 검출한다.
컬러 공간의 컬러 벡터(c)에 대해, 피부일 경우와 피부가 아닐 경우 각각의 조건부 확률 함수 클래스가 P(c|skin), P(c|nonskin)라고 한다면, 컬러 벡터(c)는 수학식 1과 같이 분류될 수 있다.
Figure 112014071566116-pat00001
(여기서, c는 컬러 공간의 컬러 벡터이고, P(c|skin) 및 P(c|nonskin)는 피부일 경우와 피부가 아닐 경우 각각의 조건부 확률 함수 클래스이며, θ는 임계값이다.)
그리고 수학식 1에서 임계값(θ)는 수학식 2에 따라 획득할 수 있다.
Figure 112014071566116-pat00002
(여기서, P(skin)과 P(nonskin)은 각각 피부인 경우와 피부가 아닌 경우의 사전 확률이고, λfd 와 λfr는 각각 오검출(false detection) 및 오거부(false detection) 비용(cost)를 의미한다.)
그러나 상기한 피부 색 검출 기법을 이용한 손 검출 방식은 얼굴이나 다리 또는 사람의 피부 색상과 비슷한 색상이 영상에 존재하는 경우, 검출해야 하는 손이 노이즈로 취급될 수 있다는 문제가 있다. 이에 본 발명에서는 사용자의 손을 강건하게 검출하기 위해 세미 나이브 분류기(semi naㅿve classifier)를 이용한다.
검출할 손을 구분하는 특징으로 F라고 하고, 사용자의 손을 Chand 라고 정의할 때, 영상에서 특징(F)가 추출되면, 그것이 사용자의 손일 확률은 조건부 확률 P(Chand| F)와 같이 나타낼 수 있다. 그리고 사용자의 손을 추적하기 위해 사용할 특징의 개수를 m개라고 할 때, 특징은 Fi = 1, 2, … m로 표현될 수 있으며, 이 때, 세미 나이브 분류기를 사용하기 위해 m개의 서로 다른 특징들은 독립적이어야 한다.
사용자의 손을 검출하기 위한 특징들은 피부색 벡터(skin color vector), 움직임 벡터(motion vector), 텍스처 정보(texture information), 위치 벡터(location vector) 등이 사용될 수 있다. 그러나 본 발명은 자연스러운 사용자 인터페이스(natural user interface : NUI)를 추구하며, 사용자의 손을 강인하게 검출할 수 있어야 하므로, RGB 영상과 깊이 영상을 동시에 획득할 수 있는 RGB-D 카메라를 통해 획득되는 Lab 색 공간에서의 컬러 벡터와 깊이 정보, 그리고 반경(radius)가 각각 다른 국부 이진 패턴(Local binary pattern : 이하 LBP)의 텍스처 정보를 이용한 특징을 쓴다. 컬러 벡터 는 RGB, HSV, YCbCr, LUV등의 여러 특징도 사용할 수 있으나, 본 발명에서는 손의 강인한 특징을 추출하기 위해, Lab 색 공간의 컬러 벡터를 사용한다. LBP는 조명에 강인하고 빠르며 강력한 텍스처 기술자(texture descriptor)로서 이미지 i의 특정 픽셀(xc, yc)에 해당하는 채도값(intensity value)인 gc는 LBP로 수학식 3과 같이 표현될 수 있다.
Figure 112014071566116-pat00003
(여기서, P는 중심픽셀을 기준으로 주변의 샘플링 포인트의 개수를 나타내며, R은 주변픽셀과 중심픽셀간의 거리를 나타낸다.)
텍스처 특징을 검출하기 위해서는 센서스 변환(census transform), 수정 센서스 변환(modified census transform)등의 다른 텍스처 기술자를 사용할 수 있지만, 본 발명에서는 가장 일반적이고 대중화된 LBP를 이용하여도 사용자의 손을 추적할 수 있음을 증명하기 위해, LBP를 사용한다.
과정을 통해서도 사용자의 손을 추적할 수 있지만, RGB-D camera를 통해 얻어지는 깊이 정보를 하나의 특징으로 사용하여 사용자의 손을 더욱 강인하게 추적할 수 있다.
분류기를 사용하기 위해서는 먼저 기계학습을 시켜야 하며, 사용자의 손이 찍힌 영상에서 손의 위치를 표시하여, P(Fi = 1, 2, … m|Chand)와 P(Fi = 1, 2, … m|Cnonhand)를 각각 구한다. 학습 과정을 마친 후 사용자의 손의 후보군은 수학식 4로 검출 될 수 있다.
Figure 112014071566116-pat00004
본 발명에서는 손과 손이 아닌 2가지의 경우만 생각할 수 있기 때문에, i는 2가 되며, F는 3가지 이상의 독립적인 특징의 조합으로 이루어 진다. 여기서 검출된 특징이 사용자의 손일 확률은 수학식 5에 의해 구할 수 있다.
Figure 112014071566116-pat00005
사용자의 손이 아닐 확률 역시 같은 수학식 5와 같은 방식으로 구할 수 있으며, 두 확률값 중 큰 값을 선택하여 영상에서 사용자의 손이 위치할 확률을 구한다. 이런 방식으로 사용자의 손의 후보군들을 획득할 수 있다.
도2 는 깊이 정보를 특징으로 사용하여 사용자의 손을 검출하는 적용 예를 나타낸다.
도2 에 도시된 바와 같이 깊이 정보를 특징으로 사용하여 사용자의 손을 검출하는 방식은 다수의 영상에서 손의 위치를 미리 표시하여 인식하도록 하는 기계 학습법을 이용하여 손 검출부(120)를 학습 시킨 후, 입력되는 영상에 대해 손 검출부(120)가 조건부 확률을 이용하여 손을 검출하도록 한다.
또한 손 추적부(120)는 사용자에게 피드백 제공 시에 빠르게 피드백을 제공할 수 있도록 연산량의 효율화 및 실시간 동작을 수행할 수 있는 손 및 손가락 추적 알고리즘을 사용한다. 추적 알고리즘 또한 공개된 다양한 알고리즘이 사용될 수 있으나, 여기서는 일예로 CAMSHIFT 알고리즘을 사용한다.
CAMSHIFT 알고리즘은
1. 전체 이미지에 대한 확률 분포 이미지의 관심 영역(ROI : Region of Interest)을 설정하는 단계;
2. 평균 이동 검색 윈도우(mean shift search window)의 초기 위치를 선택하는 단계; 여기서 선택되는 위치는 추적되는 타겟 분포이다.
3. 평균 이동 검색 창에서 중심이 되는 영역의 컬러 확률 분포를 계산하는 단계;
4. 확률 이미지의 중심점을 찾기 위해 평균 이동 알고리즘을 반복하여, 0번째 모멘트(분포 영역) 및 중심점 위치를 저장하는 단계;
5. 이후 프레임에 대해, 단계 4에서 탐색된 평균 위치를 중심으로 하고, 0 번째 모멘트의 함수를 크기로 하는 탐색 윈도우를 설정하는 단계;
6. 다시 3 단계로 이동하여 반복하는 단계;
로 구성된다.
상기한 CAMSHIFT 알고리즘에서 0번째, 1번째 및 2번째 모멘트는 수학식 6과 같이 계산될 수 있다.
Figure 112014071566116-pat00006
(여기서 M00는 0번째 모멘트이고, M10, M01은 1번째 모멘트이며, M20, M02는 2번째 모멘트이다. 그리고 P(x, y)는 x, y 위치의 픽셀의 컬러 확률 분포를 나타낸다.)
그리고 CAMSHIFT 알고리즘을 통해 매 프레임 마다 갱신되는 탐색 윈도우의 크기는 수학식 7로 계산된다.
Figure 112014071566116-pat00007
(여기서 width 와 height는 각각 탐색 윈도우의 폭과 높이이다.)
현재 RGB 영상과 깊이 영상을 동시에 획득할 수 있는 RGB-D 카메라의 경우, 깊이 영상에 존재하는 노이즈로 인해 검출 및 추적되는 사용자의 손 또는 손가락의 위치가 정확하지 않다는 문제가 있다. 이러한 노이즈는 제스처 인식 시에 인식률의 저하로 이어질 수 있으므로, 노이즈를 제거할 필요성이 있다. 본 발명에서는 예측 필터를 추적 대상인 손에 적용함으로써 노이즈를 제거하고 제스처 인식률을 향상 시킨다. 예측 필터는 공지된 기술이므로 여기서는 상세하게 설명하지 않는다.
손 추적부(120)가 영상에서 손 또는 손가락을 추적하면, 제스처 판단부(130)는 매 프레임에서 추적되는 사용자의 손 또는 손가락의 위치 정보는 모션 그래디언트(motion gradient) 기법이나 관성 모멘트 기법 등으로 분석한다. 획득된 영상에 포함된 사용자의 동작은 제스처 인식 장치가 제스처를 인식할 수 있도록 의도적으로 수행되는 동작도 있으나, 사용자의 의도하지 않은 동작이 제스처와 유사하게 나타나는 경우도 있다. 이에 제스처 판단부(130)는 사용자의 의도하지 않은 제스처를 판별하여 제외함으로써, 제스처 인식률을 높인다.
본 발명에서는 일예로 모션 그래디언트를 이용하여 손 또는 손가락의 위치 정보를 분석하여, 사용자의 제스처 의도를 판별한다.
모션 그래디언트 기법은 손 추적부(120)에 의해 매 프레임에서 추적되는 손 이나 손가락 위치의 모션 그래디언트를 수학식 8과 같이 계산한다.
Figure 112014071566116-pat00008
(여기서 ∇f 는 손 또는 손가락의 모션 그래디언트를 나타낸다.)
제스처 판단부(130)는 t번째 프레임에 추적되는 손 또는 손가락의 그래디언트를 GT라고 할 때, 그래디언트(GT)가 기설정된 상한값(Gmax) 이상이거나 하한값(Gmin) 이하이면, 사용자가 의도한 제스처인 것으로 판별하는 반면, 그 외의 경우에는 사용자의 동작이 제스처를 의도하지 않은 것으로 판단한다. 즉 사용자가 제스처를 의식하지 않은 일반적인 동작에 의한 모션 그래디언트는 제스처를 의도하지 않은 것으로 판단한다.
특징 추출부(150)는 제스처 판단부(130)에서 사용자의 동작이 제스처라고 판단한 경우, 손의 위치를 이용하여 제스처 인식을 위해 사용될 특징을 추출한다. 제스처 인식을 위한 특징은 손의 위치, 방향, 속도 등이 사용될 수 있으나, 이중 속도(velocity)를 이용하면, 빠르게 특징이 추출 가능하다. 수학식 9는 속도를 이용하여 특징을 추출하는 계산식이다.
Figure 112014071566116-pat00009
(여기서 F는 t번째 프레임에서의 특징이며, Pt(X, Y, Z)는 t번째 프레임에서 검출 및 추적되는 손의 위치를 나타낸다.)
특징 추출부(150)에 의해 제스처의 특징이 추출되면, 인식 분류부(160)가 추출된 특징으로부터 제스처의 패턴을 판별하여 제스처를 인식한다. 이때 인식 분류부(160)는 특징 추출부(150)에서 추출된 제스처의 특징을 사용자 프로파일 저장부(170)에 저장된 복수개의 제스처 템플릿과 비교하고, 가장 유사한 제스처 템플릿을 추출하여 사용자 제스처를 인식하는 사용자 적응적(user adaptive) 제스처 인식을 수행하여 제스처 인식 성능을 향상 시킬 수 있다.
손 또는 손가락의 동작을 통해 인식되는 제스처는 크게 정적 패턴과 동적 패턴으로 구분될 수 있으며, 기존의 일반적인 패턴 인식 알고리즘은 대부분 동적 패턴을 정확하게 인식하지 못하는 한계가 있다.
그러나 동적 패턴은 시간이라는 변수가 추가된 정적 패턴의 연속인 것으로 생각할 수 있다. 이에 본 발명에서는 손 또는 손가락 위치의 연속적인 변화 패턴이 하나의 동작이 되는 동적 제스처로서 동적 패턴의 시변성을 고려한 패턴인식 알고리즘을 사용한다. 시변성을 고려한 패턴 인식 알고리즘은 여러가지 방법이 제안되었으나, 가장 많이 사용되는 방법은 은닉 마르코프 모델(Hidden Markov Models : 이하 HMM)과 동적 시간 교정법(Dynamic Time Warping : 이하 DTW)을 이용한 방법이다. 본 발명의 인식 분류부(160) 또한 다양한 패턴인식 알고리즘을 이용하여 제스처를 인식할 수 있으나, 여기서는 일예로 DTW를 사용하는 것으로 가정한다. DTW는 실시간 구현이 가능하고 정확도가 높다는 장점이 있다.
도3 은 시변성을 고려하지 않은 일반 매칭과 시변성을 고려한 DTW 매칭과의 차이를 나타내는 도면이다.
도3 에서 (a)는 시변성을 고려하지 않은 유클리드 매칭을 나타내고, (b)는 시변성이 고려된 DTW 매칭을 나타낸다. 도3 의 (a)에 도시된 바와 같이 매칭된 두 신호 사이의 거리 또는 차이는 시간 축에서의 신호 시퀀스 간의 유클리드 거리로 측정할 수 있으나, 이 경우, 신호의 국부적인 압축이나 팽창 등이 고려될 수 없다. 이에 반해 (b)에 도시된 DTW 매칭을 이용하는 경우에 두 신호간의 거리 측정은 서로 다른 길이의 시퀀스 간에 최소 거리를 갖는 교정 경로를 통해 차이를 측정하기 때문에 신호의 압축, 팽창으로 인한 변화가 반영될 수 있다.
DTW는 두 개의 순차 데이터의 시간길이를 왜곡함으로써 두 패턴의 최적의 정합을 구하고, 해당 정합에서의 두 데이터 사이의 거리를 계산하는 알고리즘이다. DTW는 동적 프로그래밍(Dynamic programming)을 통해 소프트웨어적으로 구현될 수 있다. 각각 길이가 m, n인 두 개의 시계열(time series) 특징 벡터를 각각 A=a1, a2, … am, B=b1, b2, … bn 라 할 때, 두 점 ai과 bi 사이의 거리(d(ai, bi))는 유클리드 거리로 계산될 수 있다. 그러나 DTW에서 교정 경로(Warping path)(W)는 A와 B사이의 매핑을 정의하는데, 경계 조건(boundary condition), 연속성(continuity) 및 단조성(monotonicity)의 세 가지 조건을 만족해야 하며, 이 조건을 만족하는 적어도 하나의 교정 경로(W) 중 교정 비용(warping cost)을 최소로 하는 경로를 탐색한다.
DTW에서 교정 비용을 최소로 하는 교정 경로는 수학식 10에 의해 획득될 수 있다.
Figure 112014071566116-pat00010
(여기서 W = w1, w2, … wk이고, max(m, n) ≤ K ≤ m+n-1 이다.)
k번째 교정 경로(wk)를 (i, j)의 매핑이라고 하면, 유클리드 거리(d(i, j))를 사용하여 (i, j)까지의 누적 거리(D(i, j))는 수학식 11과 같이 정의된다.
Figure 112014071566116-pat00011
수학식 11 에 따른 누적 거리(D(i, j))는 상기한 바와 같이 동적 프로그래밍을 사용하여 용이하게 구현될 수 있다.
도4 는 인식 분류부가 시변성을 고려한 DTW 매칭 기법을 이용하여 사용자 제스처 패턴을 인식하는 일실시예를 나타낸다.
도4 에서 (a)는 두 개의 시계열 특징 벡터(Time Series A, B)들 사이에 교정 경로(wk)를 (i, j)의 매핑으로 나타낸 도면이다. 상기한 바와 같이, DTW알고리즘은 기준이 되는 특징 패턴과 실시간으로 획득되는 사용자의 손 제스처 특징의 패턴간의 유사도를 동적 프로그래밍을 이용해 계산한다.
유사도는 (b)와 같이 비용 매트릭스(cost matrix)의 형태로 획득할 수 있으며, 사용자 제스처를 판별하기 위해 미리 설정된 기준 제스처의 특징 벡터의 길이를 M, 추후 영상에서 획득하는 사용자의 제스처 테스트 특징벡터의 길이를 N이라고 한다면, 비용 매트릭스의 크기는 MㅧN으로 만들어 지게 된다. 이 방법을 통해 서로 다른 특징길이를 가지고 있는 특징벡터들간의 비교가 가능해 짐으로서, 비선형적인 대응관계로부터 유사도 산출이 가능해진다.
사용자 프로파일 저장부(170)는 다수의 사용자들에 대한 사용자 행동 프로파일로부터 미리 생성된 복수개의 제스처 템플릿(gesture template)이 저장되고, 저장된 복수개의 제스처 템플릿 중 인식 분류부(160)에서 생성된 사용자 행동 프로파일에 대응하는 제스처 템플릿을 검색하여 인식 분류부(160)로 전송한다.
인식 분류부(160)는 사용자 프로파일 저장부(170)로부터 사용자의 행동 프로파일에 대응하는 제스처 템플릿이 검색되면, 검색된 제스처 템플릿에 따라 제스처를 인식한다. 즉 사용자의 행동 프로파일을 제스처 템플릿에 반영하여 제스처의 인식 성능을 높이는 사용자 적응적 제스처 인식을 수행한다.
기존의 인식 분류부(160)는 인식해야 할 복수개의 제스처 각각에 대해 하나의 기준 제스처 특징 벡터만을 구비하고, 사용자의 제스처 특징 벡터를 기준 제스처 특징 벡터를 기준 제스처 특징 벡터와 비교하여 사용자 제스처를 인식하였다. 그러나 본 발명에서는 인식 분류부(160)가 사용자의 행동프로파일을 분석함으로써 획득되는 제스처 템플릿과 사용자의 제스처 특징 벡터를 비교하여 획득되는 가장 유사한 제스처 템플릿을 판별함으로써, 사용자 제스처를 인식하는 사용자 적응적 제스처 인식을 수행하여 제스처 인식 성능을 향상시킨다.
상기한 바와 같이 사용자의 행동 프로파일을 제스처 템플릿에 반영하는 사용자 적응적(user adaptive) 제스처 인식을 수행하는 이유는 사용자별로 제스처의 패턴이 서로 상이하기 때문이다. 동일한 제스처를 다수의 사용자에게 취하도록 하더라도, 각 사용자별로 제스처의 패턴은 일치하지 않는다. 일예로 다수의 사용자가 동일한 제스처를 취하더라도, 제스처를 빠르게 수행하는 사람이 있는 반면, 느리게 수행하는 사람도 있다. 또한 제스처를 수행하는 손 또는 손가락의 동선도 사용자마다 다르게 나타난다. 따라서 인식 분류부(160)가 제스처에 대한 사용자별 차이, 즉 사용자별 행동 양식을 분석하고, 분석된 행동 양식을 기설정된 복수개의 제스처 템플릿 중 대응하는 제스처 템플릿에 적용하는 사용자 적응적 제스처 인식을 수행하면, 제스처 인식률을 크게 높일 수 있다.
그러나 사용자 프로파일 저장부(170)는 만일 인식 분류부(160)에서 생성된 사용자 행동 프로파일에 대응하는 제스처 템플릿을 검색되지 않으면, 생성된 사용자 프로파일을 새로운 제스처 템플릿으로써 저장할 수 있다.
이때, 인식 분류부(160)는 사용자 행동 프로파일을 그대로 제스처 템플릿으로 저장하는 것이 아니라, 칼만 필터(Kalman filter) 나 입자 필터(particle filter) 등의 평가(estimation) 기법을 사용하여 분석하여 제스처 템플릿으로 저장한다.
특히 칼만 필터(kalman filter)는 잡음이 포함되어 있는 선형 역학계의 상태를 추적하는 재귀 필터로서 본 발명에 적용했을 경우, 매우 효율적인 성능을 보여준다. 칼만 필터는 이산 시간 선형 동적 시스템을 기반으로 동작하며, 각 시간에서의 상태 벡터는 이전 시간의 벡터들에 대해서만 관계된다는 마르코프 연쇄를 가정하고 있다. 특정 시간 k에서의 상태 벡터를 xk라고 정의하고, 그 시간에서의 사용자 입력을 uk라고 정의하면, 칼만 필터는 수학식 12와 같은 관계식으로 가정될 수 있다.
Figure 112014071566116-pat00012
(여기에서 Fk는 해당 시간에서 이전 상태에 기반한 상태 전이 행렬, Bk는 사용자 입력에 의한 상태전이 행렬, 그리고 wk는 공분산행렬 Qk를 갖는 다변수 정규 분포(wk ~ N(0, Qk))에서 유추되는 잡음 변수이다.)
그리고 상태 벡터 Xk와 그 벡터를 측정했을 때 실제로 얻어진 벡터 Zk는 수학식 13과 같은 관계를 갖는다.
Figure 112014071566116-pat00013
(기서 Hk는 해당 시간에서 측정에 관계되는 행렬이고, vk는 공분산행렬 Rk갖는 다변수 정규 분포(vk ~ N(0, Rk))에서 유추되는 잡음 변수이다.)
칼만필터는 재귀적으로 동작한다. 즉 칼만 필터는 바로 이전 시간에 추정한 값을 통해, 현재의 값을 추정하며, 또한 바로 이전 시간 외의 측정값이나 추정값을 사용되지 않는다는 특성이 있다. 각 추정계산은 두 단계로 이루어지며, 이전 시간에 추정된 상태에 대해, 그 상태에서 사용자 입력을 가했을 때, 예상되는 상태를 계산한다. 이 단계를 예측(prediction) 단계라고 부르며, 그 다음 앞서 계산된 예측 상태와 실제로 측정된 상태를 토대로 정확한 상태를 계산하는 보정(update) 단계가 있다. 예측 단계의 계산은 연역적으로 이루어 지며, 연역적 상태 예측과 연역적 공분산 예측은 각각 수학식 14 및 15를 따른다.
Figure 112014071566116-pat00014
(여기서,
Figure 112014071566116-pat00015
는 k 시점의 측정값을 기초로한 k시점의 상태 추정값을 나타낸다.)
Figure 112014071566116-pat00016
(여기서,
Figure 112014071566116-pat00017
는 k 시점의 측정값을 기초로한 k 시점의 상태 공분산 행렬을 나타낸다.)
그리고 보정단계에서는 예측 단계에서 획득한 예측값과 실제 측정값 사이의 오차를 이용하여, 이전 획득한 값을 귀납적으로 수정한다. 예측 단계에서 획득한 예측값과 실제 측정값 사이의 오차(
Figure 112014071566116-pat00018
)는 수학식 16으로 계산된다.
Figure 112014071566116-pat00019
그리고 최적의 칼만 이득(Kalman gain) Kk는 수학식 17 를 이용하여 획득할 수 있다.
Figure 112014071566116-pat00020
이에 수학식 18 및 19을 이용하여 귀납적 상태 보정식과 귀납적 공분산 보정식으로 칼만 필터를 구현할 수 있다.
Figure 112014071566116-pat00021
Figure 112014071566116-pat00022
도5 는 사용자 프로파일을 분석한 사용자 적응형 템플릿과 사용자의 특성을 고려하지 않은 템플릿의 비교한 예를 나타낸다.
도5 에서 (a)는 사용자 행동 프로파일을 분석한 그래프이고, (b)는 (a)의 사용자 행동 프로파일을 분석하여 생성된 제스처 템플릿과 사용자 행동 프로파일과 무관하게 일반적으로 사용되는 기존의 제스처 템플릿을 비교한 도면이다.
(b)에서 붉은색 선이 사용자 행동 프로파일을 분석하여 생성된 제스처 템플릿이고, 파란색 선이 기존의 제스처 템플릿을 나타낸다. 도4 의 (b)에 도시된 바와 같이, 사용자 행동 프로파일에 대응하는 제스처 템플릿은 기존의 제스처 템플릿과 상이한 형태로 나타나며, 이에 사용자 행동 프로파일에 대응하는 제스처 템플릿을 이용하여 제스처를 인식하면 매우 높은 정확도로 제스처를 인식할 수 있게 된다.
다시 도1 을 참조하면, 명령 변환부(180)는 인식 분류부(160)에서 인식한 제스처를 대응하는 명령으로 변환하여 외부에 연결된 장치로 출력한다. 제스처 인식 장치는 기본적으로 사용자가 제스처로 입력하는 명령을 인식하기 위한 장치이다. 따라서 대부분 독립적인 장치로 사용되지 않고, 사용자 명령을 인가받아 사용자 명령에 대응하는 동작을 수행하는 장치로 인식된 제스처에 대응하는 사용자 명령을 전달하도록 구성된다. 이에 명령 변환부(180)는 인식된 사용자의 제스처를 대응하는 사용자 명령으로 변환하여 전송하는 인터페이스부로서의 역할을 수행한다. 경우에 따라서는 제스처 인식 장치가 별도로 구비되지 않고, 사용자 명령에 대응하는 동작을 수행하는 장치의 내부에 포함되어 구현될 수도 있다.
피드백 제어부(140)는 손 추적부(120)가 영상에서 사용자의 손이나 손가락을 감지하지 못하는 경우나 제스처 판단부(130)가 제스처를 판단하지 못한 경우와 같은 제스처 인식 실패 시, 또는 제스처가 제대로 인식되었는 경우, 사용자에게 피드백을 제공한다. 기존의 영상 기반 제스처 인식 장치들이 단순히 차원의 시각적 피드백만을 제공하여 사용자가 항시 제스처 인식 장치에서 피드백을 제공하는 화면을 주시해야 하도록 구성된 데 반하여, 본 발명의 피드백 제어부(140)는 시각, 청각, 촉각의 다중 감각 피드백을 제공하여 사용자가 제스처 인식 결과를 즉각적으로 판단할 수 있도록 한다.
이러한 다중 감각 피드백을 통해 사용자가 제스처 인식 결과를 즉각적으로 판단할 수 있도록 하는 경우, 사용자의 제스처 동작에도 영향을 주게 된다.
도6 은 피드백 방식에 따른 제스처 인식률의 변화를 실험한 결과를 나타내는 그래프이다.
도6 에 도시된 실험은 피드백을 제공하지 않은 경우와 시각적인 피드백을 제공하는 경우, 청각적인 피드백을 제공하는 경우 및 촉각적인 피드백을 제공하는 경우 각각에 대해, 제스처 인식률의 변화를 나타내며, 도4 에 도시된 바와 같이, 여러가지 방식으로 피드백을 제공할 때, 사용자의 동작 특성에 변화가 발생하여 실제 제스처 인식률에도 의미 있는 변화가 발생함을 알 수 있다. 특히 제스처 동작에 따라 각각의 서로 다른 피드백이 미치는 영향이 상이하다는 점 또한 확인할 수 있다. 이에 본 발명에서는 제스처 인식률의 향상을 위해 시각, 청각, 촉각의 다중 감각 피드백을 제공하여 제스처 인식률을 크게 향상할 수 있도록 한다.
피드백 제어부(140)는 사용자에게 직접 다중 감각 피드백을 제공하도록 구성될 수도 있으나, 일반적으로 연결된 외부 장치를 통해 다중 감각 피드백을 제공할 수 있도록 피드백 명령을 외부 장치로 전달하는 것이 일반적이다.
도7 은 본 발명의 일 실시예에 따른 스마트 3차원 제스처 인식 방법을 나타낸다.
도1 을 참조하여 도7 의 스마트 3차원 제스처 인식 방법을 설명하면, 먼저 영상 획득부(110)가 복수개의 프레임으로 구성되는 영상을 획득한다(S11). 손 추적부(120)는 영상 획득부(110)가 획득한 영상을 전송받고, 전송된 영상에서 컬러 기반 방식 및 깊이 기반 방식을 병용하여 분석함으로써, 사용자의 손 또는 손가락이 감지되는지 판별한다(S12). 만일 영상에서 사용자의 손 또는 손가락이 검출되지 않은 것으로 판별되면, 피드백 제어부(140)를 통해 다중 감각 피드백을 사용자에게 제공함으로써, 사용자가 제스처 인식에 실패하였음을 인지하도록 한다(S13).
그러나 손 또는 손가락이 감지되면, 손 추적부(120)는 손 또는 손가락의 위치를 추적한다(S14). 그리고 제스처 판단부(130)는 매 프레임에서 추적되는 사용자의 손 또는 손가락의 위치 정보를 분석하여, 사용자가 의도한 제스처인지를 판별한다(S15). 제스처는 사용자의 신체 동작에 따른 행위이므로, 경우에 따라서는 사용자가 제스처를 인가하고자 하지 않았음에도 제스처와 유사한 형태의 동작을 수행할 수 있다. 제스처 판단부(130)는 임계값을 미리 지정하고, 추적된는 손 또는 손가락의 위치 변화를 임계값과 비교함으로써, 사용자가 의도한 제스처인지 아닌지를 판별한다.
만일 사용자가 의도한 제스처가 아닌 것으로 판별되면, 피드백 제어부(140)를 통해 다중 감각 피드백을 사용자에게 제공할 수 있다(S13). 그러나 영상에서 사용자의 손 또는 손가락이 검출되지 않은 경우와 달리, 사용자가 의도한 제스처인지 여부에 대한 피드백은 경우에 따라서 제공하지 않도록 구성되어도 무방하다.
한편, 사용자가 의도한 제스처인 것으로 판별되면, 특징 추출부(150)는 추적되는 손 또는 손가락의 위치의 변화로부터 제스처 인식을 위해 사용될 특징을 추출한다(S16). 그리고 인식 분류부(150)가 추출된 특징을 이용하여 제스처 패턴을 인식한다(S17). 여기서 인식 분류부(150)는 동적 패턴의 시변성을 고려한 패턴 인식 알고리즘을 이용하여 패턴을 인식한다.
인식 분류부(150)는 패턴이 인식되면, 인식된 패턴을 사용자 행동 프로파일로 생성한다(S18). 그리고 사용자 프로파일 저장부(170)에 저장된 복수개의 제스처 템플릿 중 생성된 사용자 행동 프로파일에 대응하는 제스처 템플릿을 검색한다(S19). 그리고 대응하는 제스처 템플릿이 사용자 프로파일 저장부(170)에 존재하는지 판별한다(S20). 만일 제스처 템플릿이 존재하지 않으면, 생성된 사용자 행동 프로파일을 분석하여 제스처 템플릿을 생성하고, 생성된 제스처 템플릿을 사용자 프로파일 저장부(170)에 저장한다(S21). 그러나 대응하는 제스처 템플릿이 존재하면, 해당 제스처 템플릿을 인가받고, 인식된 패턴을 제스처 템플릿 적용함으로써 제스처를 인식한다(S22). 여기서 제스처 템플릿을 미리 설정하고, 인식된 패턴을 제스처 템플릿에 적용하여 제스처를 인식하는 것은 사용자별 제스처의 차이로 인한 인식률 저하를 줄임으로써, 제스처 인식 장치의 인식률을 높이기 위함이다. 그리고 명령 변환부(180)는 인식된 제스처를 대응하는 사용자 명령으로 변환하여 연결된 외부 장치로 전송한다. 이때 제스처 인식이 성공했음을 피드백 제어부(140)로 통지하고, 피드백 제어부(140)는 다중 감각 피드백을 사용자에게 제공하여 사용자의 제스처가 인식되었음을 인지할 수 있도록 한다.
결과적으로 본 발명에 따른 제스처 인식 장치 및 방법은 컬러 기반 방식 및 깊이 기반 방식을 병용하여 사용자의 손 및 손가락을 감지 추적하므로, 감지 및 추적 성능을 향상시키고, 사용자의 행동이 제스처를 의도했는지를 판별함으로써, 제스처 인식률을 크게 높일 수 있다. 뿐만 아니라, 제스처 템플릿을 제공하여 사용자별 제스처의 차이를 고려한 제스처 인식을 수행하고, 다중 감각 피드백을 제공함으로써, 제스처 인식률을 더욱 높일 수 있을 뿐만 아니라, 사용자의 편의성을 향상시킨다.
상기에서는 제스처 인식을 위한 일예로 사용자의 손 또는 손가락을 감지하고 추적하는 것으로 설명하였으나, 경우에 따라서는 사용자의 다른 신체 부위를 감지 및 추적하도록 구성될 수도 있다. 즉 사용자의 신체 부위 중 사용자가 제스처를 발생하기 용이하고, 제스처 인식 장치가 감지할 수 있는 어떤 부위라도 제스처 인식을 위해 감지될 수 있다.
본 발명에 따른 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (14)

  1. 연속하는 복수개의 프레임으로 구성되는 영상을 획득하는 영상 획득부;
    상기 영상에서 컬러 기반 방식 및 깊이 기반 방식을 동시에 이용하여 사용자의 지정된 손의 위치를 감지 및 추적하는 손 추적부;
    상기 손 추적부에서 추적한 상기 손의 위치 정보를 분석하고, 분석된 상기 손의 위치 변화에 대해 모션 그래디언트(motion gradient)를 계산하고, 계산된 모션 그래디언트가 기설정된 상한값 이상이거나, 기설정된 하한값 이하이면, 상기 사용자의 제스처가 상기 사용자에 의해 의도된 것으로 판별하는 제스처 판단부;
    상기 손의 위치 변화의 특징을 기설정된 방식으로 추출하는 특징 추출부;
    복수개의 제스처 템플릿이 저장되는 사용자 프로파일 저장부;
    추출된 상기 특징으로부터 상기 제스처의 패턴을 인식하고, 인식된 상기 패턴을 사용자 행동 프로파일로 생성하며, 상기 사용자 프로파일 저장부에 저장된 상기 복수개의 제스처 템플릿 중 상기 사용자 행동 프로파일에 대응하는 제스처 템플릿을 검색하여, 인식된 상기 패턴을 검색된 제스처 탬플릿에 적용함으로써 상기 제스처를 인식하는 인식 분류부; 및
    인식된 제스처를 대응하는 사용자 명령으로 변환하는 명령 변환부; 를 포함하는 제스처 인식 장치.
  2. 제1 항에 있어서, 상기 영상 획득부는
    RGB-D 카메라를 이용하여 컬러 영상과 깊이 영상을 병용하여 획득하는 것을 특징으로 하는 제스처 인식 장치.
  3. 제1 항에 있어서, 상기 손 추적부는
    상기 컬러 기반 방식으로 Lab 색 공간의 컬러 벡터에 대해 국부 이진 패턴(Local binary pattern : LBP)을 이용하여 손을 검출하고, 상기 깊이 기반 방식으로 기계 학습에 의해 감지되는 손을 조건부 확률을 이용하여 검출하며, 검출된 상기 사용자의 손을 CAMSHIFT 알고리즘에 따라 추적하는 것을 특징으로 하는 제스처 인식 장치.
  4. 삭제
  5. 제1 항에 있어서, 상기 특징 추출부는
    상기 특징으로 상기 손의 위치 변화의 속도를 추출하는 것을 특징으로 하는 제스처 인식 장치.
  6. 제1 항에 있어서, 상기 인식 분류부는
    동적 시간 교정법(Dynamic Time Warping : DTW)을 이용하여 상기 제스처의 패턴을 인식하는 것을 특징으로 하는 제스처 인식 장치.
  7. 제1 항에 있어서, 상기 인식 분류부는
    상기 사용자 행동 프로파일에 대응하는 제스처 템플릿이 검색되지 않으면, 칼만 필터로 상기 사용자 행동 프로파일을 필터링하여 새로운 제스처 템플릿을 생성하고, 생성된 상기 제스처 템플릿을 사용자 프로파일 저장부에 저장하는 것을 특징으로 하는 제스처 인식 장치.
  8. 제1 항에 있어서, 상기 제스처 인식 장치는
    상기 손 검출부에서 상기 사용자의 손이 검출되지 않거나, 상기 제스처 판단부에서 상기 제스처가 상기 사용자에 의해 의도되지 않은 것으로 판단되는 경우 및 상기 인식 분류부에서 상기 제스처를 인식한 경우 중 적어도 하나가 발생하면, 사용자가 시각, 청각 및 촉각 중 적어도 하나로 인지할 수 있도록 피드백을 발생하는 피드백 제어부; 를 더 포함하는 것을 특징으로 하는 제스처 인식 장치.
  9. 영상 획득부, 손 추적부, 제스처 판단부, 특징 추출부, 사용자 프로파일 저장부, 인식 분류부 및 명령 변환부를 포함하는 제스처 인식 장치의 제스처 인식 방법에 있어서,
    상기 영상 획득부가 연속하는 복수개의 프레임으로 구성되는 영상을 획득하는 단계;
    상기 손 추적부가 상기 영상에서 컬러 기반 방식 및 깊이 기반 방식을 동시에 이용하여 사용자의 지정된 손의 위치를 감지 및 추적하는 단계;
    상기 제스처 판단부가 추적된 상기 손의 위치 정보를 분석하고, 분석된 상기 손의 위치 변화를 이용하여 상기 사용자가 제스처를 의도했는지 여부를 판별하는 단계;
    상기 특징 추출부가 상기 손의 위치 변화의 특징을 기설정된 방식으로 추출하는 단계;
    상기 인식 분류부가 추출된 상기 특징으로부터 상기 제스처의 패턴을 인식하는 단계;
    상기 인식 분류부가, 인식된 상기 패턴을 사용자 행동 프로파일로 생성하고, 상기 사용자 프로파일 저장부에 저장된 상기 복수개의 제스처 템플릿 중 상기 사용자 행동 프로파일에 대응하는 제스처 템플릿을 검색하여, 인식된 상기 패턴을 검색된 제스처 탬플릿에 적용함으로써 상기 제스처를 인식하는 단계; 및
    상기 명령 변환부가 인식된 제스처를 대응하는 사용자 명령으로 변환하는 단계; 를 포함하고,
    상기 제스처를 의도했는지 여부를 판별하는 단계는
    추적되는 상기 손의 위치 변화에 대해 모션 그래디언트(motion gradient)를 계산하는 단계; 및
    계산된 모션 그래디언트가 기설정된 상한값 이상이거나, 기설정된 하한값 이하이면, 상기 제스처가 상기 사용자에 의해 의도된 것으로 판별하는 단계; 를 포함하는 것을 특징으로 하는 제스처 인식 방법.
  10. 제9 항에 있어서, 상기 손의 위치를 감지 및 추적하는 단계는
    상기 컬러 기반 방식으로 Lab 색 공간의 컬러 벡터에 대해 국부 이진 패턴(Local binary pattern : LBP)을 이용하여 손을 검출하는 단계;
    상기 깊이 기반 방식으로 기계 학습에 의해 감지되는 손을 조건부 확률을 이용하여 검출하는 단계; 및
    검출된 상기 사용자의 손을 CAMSHIFT 알고리즘에 따라 추적하는 단계; 를 포함하는 것을 특징으로 하는 제스처 인식 방법.
  11. 삭제
  12. 제9 항에 있어서, 상기 사용자 행동 프로파일로 생성하는 단계는
    동적 시간 교정법(Dynamic Time Warping : DTW)을 이용하여 상기 제스처의 패턴을 인식하는 것을 특징으로 하는 제스처 인식 방법.
  13. 제9 항에 있어서, 상기 제스처를 인식하는 단계는
    인식된 상기 패턴을 상기 사용자 행동 프로파일로 생성하는 단계;
    상기 사용자 행동 프로파일에 대응하는 상기 제스처 템플릿을 검색하는 단계;
    검색된 상기 제스처 탬플릿에 인식된 상기 패턴을 적용하여 상기 제스처를 인식하는 단계;
    상기 사용자 행동 프로파일에 대응하는 상기 제스처 템플릿이 검색되지 않으면, 상기 사용자 행동 프로파일을 칼만 필터로 필터링하여, 새로운 제스처 템플릿을 생성하는 단계; 및
    생성된 제스처 탬플릿을 상기 사용자 프로파일 저장부에 저장하는 단계; 를 포함하는 것을 특징으로 하는 제스처 인식 방법.
  14. 제9 항에 있어서, 상기 제스처 인식 방법은
    상기 제스처 인식 장치가 피드백 제어부를 더 구비하고,
    상기 피드백 제어부가 상기 손 검출부에서 상기 사용자의 손이 검출되지 않거나, 상기 제스처 판단부에서 상기 제스처가 상기 사용자에 의해 의도되지 않은 것으로 판단되는 경우 및 상기 인식 분류부에서 상기 제스처를 인식한 경우 중 적어도 하나가 발생하면, 사용자가 시각, 청각 및 촉각 중 적어도 하나로 인지할 수 있도록 피드백을 발생하는 단계; 를 더 포함하는 것을 특징으로 하는 제스처 인식 방법.
KR1020140096231A 2014-07-29 2014-07-29 스마트 3차원 제스처 인식 장치 및 방법 KR101511146B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140096231A KR101511146B1 (ko) 2014-07-29 2014-07-29 스마트 3차원 제스처 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140096231A KR101511146B1 (ko) 2014-07-29 2014-07-29 스마트 3차원 제스처 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101511146B1 true KR101511146B1 (ko) 2015-04-17

Family

ID=53053196

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140096231A KR101511146B1 (ko) 2014-07-29 2014-07-29 스마트 3차원 제스처 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101511146B1 (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101741671B1 (ko) * 2016-02-29 2017-06-16 중앙대학교 산학협력단 3d 동작기반의 프레젠테이션 장치 및 방법
CN108181989A (zh) * 2017-12-29 2018-06-19 北京奇虎科技有限公司 基于视频数据的手势控制方法及装置、计算设备
CN108255351A (zh) * 2017-12-22 2018-07-06 潍坊歌尔电子有限公司 用户手指位置信息的确定方法及装置、投影仪、投影***
KR20190010254A (ko) * 2017-07-21 2019-01-30 단국대학교 산학협력단 특징 강조형 dtw 기반의 패턴인식 모델 구축을 위한 장치 및 방법
KR20190077639A (ko) * 2017-12-14 2019-07-04 주식회사 코이노 시력 취약계층을 위한 시력 보조장치와 원격관리장치 및 시력 보조방법
US10410077B2 (en) 2015-10-30 2019-09-10 Samsung Electronics Co., Ltd. Method and apparatus for detecting error in gesture recognition
KR20200039995A (ko) * 2018-10-08 2020-04-17 주식회사 토비스 공간 터치 감지 방법 및 이를 수행하는 표시 장치
KR20200075149A (ko) * 2018-12-13 2020-06-26 한동대학교 산학협력단 인공지능 기반의 사용자 동작 인식을 통한 브라우저 제어 방법
KR20210126354A (ko) * 2020-04-10 2021-10-20 한국항공대학교산학협력단 웨어러블 디바이스 기반 적응형 dtw을 이용한 손동작 인식기 및 인식 방법
CN114167980A (zh) * 2021-11-18 2022-03-11 深圳市鸿合创新信息技术有限责任公司 手势处理方法、装置、电子设备和可读存储介质
KR20220080520A (ko) * 2020-12-07 2022-06-14 한국항공대학교산학협력단 시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법, 이를 실행하는 프로그램을 읽을 수 있는 기록매체 및 이를 포함하는 연산장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012011263A1 (ja) * 2010-07-20 2012-01-26 パナソニック株式会社 ジェスチャ入力装置およびジェスチャ入力方法
KR20120068253A (ko) * 2010-12-17 2012-06-27 삼성전자주식회사 사용자 인터페이스의 반응 제공 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012011263A1 (ja) * 2010-07-20 2012-01-26 パナソニック株式会社 ジェスチャ入力装置およびジェスチャ入力方法
KR20120068253A (ko) * 2010-12-17 2012-06-27 삼성전자주식회사 사용자 인터페이스의 반응 제공 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
K. Liu, et al., "Real-time robust vision-based hand gesture recognition using stereo images," Journal of Real-Time Image Processing, pp.1-9, Feb. 2013. *
K. Liu, et al., "Real-time robust vision-based hand gesture recognition using stereo images," Journal of Real-Time Image Processing, pp.1-9, Feb. 2013.*

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410077B2 (en) 2015-10-30 2019-09-10 Samsung Electronics Co., Ltd. Method and apparatus for detecting error in gesture recognition
KR101741671B1 (ko) * 2016-02-29 2017-06-16 중앙대학교 산학협력단 3d 동작기반의 프레젠테이션 장치 및 방법
KR20190010254A (ko) * 2017-07-21 2019-01-30 단국대학교 산학협력단 특징 강조형 dtw 기반의 패턴인식 모델 구축을 위한 장치 및 방법
KR101959522B1 (ko) 2017-07-21 2019-03-18 단국대학교 산학협력단 특징 강조형 dtw 기반의 패턴인식 모델 구축을 위한 장치 및 방법
KR20190077639A (ko) * 2017-12-14 2019-07-04 주식회사 코이노 시력 취약계층을 위한 시력 보조장치와 원격관리장치 및 시력 보조방법
KR102047988B1 (ko) * 2017-12-14 2019-11-22 주식회사 코이노 시력 취약계층을 위한 시력 보조장치와 원격관리장치 및 시력 보조방법
CN108255351A (zh) * 2017-12-22 2018-07-06 潍坊歌尔电子有限公司 用户手指位置信息的确定方法及装置、投影仪、投影***
CN108181989B (zh) * 2017-12-29 2020-11-20 北京奇虎科技有限公司 基于视频数据的手势控制方法及装置、计算设备
CN108181989A (zh) * 2017-12-29 2018-06-19 北京奇虎科技有限公司 基于视频数据的手势控制方法及装置、计算设备
KR20200039995A (ko) * 2018-10-08 2020-04-17 주식회사 토비스 공간 터치 감지 방법 및 이를 수행하는 표시 장치
KR102158613B1 (ko) * 2018-10-08 2020-09-22 주식회사 토비스 공간 터치 감지 방법 및 이를 수행하는 표시 장치
KR20200075149A (ko) * 2018-12-13 2020-06-26 한동대학교 산학협력단 인공지능 기반의 사용자 동작 인식을 통한 브라우저 제어 방법
KR102192582B1 (ko) * 2018-12-13 2020-12-17 한동대학교 산학협력단 인공지능 기반의 사용자 동작 인식을 통한 브라우저 제어 방법
KR20210126354A (ko) * 2020-04-10 2021-10-20 한국항공대학교산학협력단 웨어러블 디바이스 기반 적응형 dtw을 이용한 손동작 인식기 및 인식 방법
KR102316556B1 (ko) 2020-04-10 2021-10-22 한국항공대학교산학협력단 웨어러블 디바이스 기반 적응형 dtw을 이용한 손동작 인식기 및 인식 방법
KR20220080520A (ko) * 2020-12-07 2022-06-14 한국항공대학교산학협력단 시계열 데이터의 유사도 측정을 위한 고속으로 제한적인 동적 시간 워핑 방법, 이를 실행하는 프로그램을 읽을 수 있는 기록매체 및 이를 포함하는 연산장치
KR102433568B1 (ko) 2020-12-07 2022-08-19 한국항공대학교산학협력단 시계열 데이터의 유사도 측정을 위한 고속으로 제약적인 동적 시간 워핑 방법, 이를 실행하는 프로그램을 읽을 수 있는 기록매체 및 이를 포함하는 연산장치
CN114167980A (zh) * 2021-11-18 2022-03-11 深圳市鸿合创新信息技术有限责任公司 手势处理方法、装置、电子设备和可读存储介质
CN114167980B (zh) * 2021-11-18 2024-05-07 深圳市鸿合创新信息技术有限责任公司 手势处理方法、装置、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
KR101511146B1 (ko) 스마트 3차원 제스처 인식 장치 및 방법
US7957560B2 (en) Unusual action detector and abnormal action detecting method
Bhuyan et al. A novel set of features for continuous hand gesture recognition
JP4625074B2 (ja) サインに基づく人間−機械相互作用
US8472668B2 (en) Image analyzing apparatus, image analyzing method, and computer readable medium
KR101612605B1 (ko) 얼굴 특징점 추출 방법 및 이를 수행하는 장치
Rekha et al. Hand gesture recognition for sign language: A new hybrid approach
JP5604256B2 (ja) 人物動作検出装置およびそのプログラム
JP6007682B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2014137818A (ja) 手の平開閉動作識別方法と装置、マン・マシン・インタラクション方法と設備
KR101682268B1 (ko) 다중 클래스 svm과 트리 분류를 이용한 제스처 인식 장치 및 방법
Hussain et al. Hand gesture recognition system with real-time palm tracking
Hemayed et al. Edge-based recognizer for Arabic sign language alphabet (ArS2V-Arabic sign to voice)
Kalsh et al. Sign language recognition system
US20150199592A1 (en) Contour-based classification of objects
Itkarkar et al. A survey of 2D and 3D imaging used in hand gesture recognition for human-computer interaction (HCI)
JP2006505875A (ja) 確率的外観集合体を使用するビデオに基づく顔認識
Mohd Asaari et al. Adaptive Kalman Filter Incorporated Eigenhand (AKFIE) for real-time hand tracking system
Park et al. Hand detection and tracking using depth and color information
Ghouaiel et al. Continuous pattern detection and recognition in stream-a benchmark for online gesture recognition
KR20090099349A (ko) 다중 기울기 히스토그램을 이용한 사람 탐색 및 추적시스템
KR101521136B1 (ko) 얼굴 인식 방법 및 얼굴 인식 장치
Cai et al. Robust contour tracking by combining region and boundary information
Bhuyan et al. Key Video Object Plane Selection by MPEG-7 Visual Shape Descriptor for Summarization and Recognition of Hand Gestures.
Tsai et al. Visual Hand Gesture Segmentation Using Three-Phase Model Tracking Technique for Real-Time Gesture Interpretation System.

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180406

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 5