KR102465532B1

KR102465532B1 - 객체 인식 방법 및 장치

Info

Publication number: KR102465532B1
Application number: KR1020150173971A
Authority: KR
Inventors: 시아타오 왕; 치앙 왕; 핑 구오; 샹동 왕; 우언타오 마오; 구앙치 샤오; 류현석; 이규빈; 박근주
Original assignee: 삼성전자주식회사
Priority date: 2015-01-15
Filing date: 2015-12-08
Publication date: 2022-11-11
Also published as: CN105844128A; CN105844128B; KR20160088224A

Abstract

객체 인식 방법 및 객체 인식 장치가 개시된다. 일실시예에 따른 객체 인식 방법은 객체에 대한 이벤트 흐름에 기초하여 생성된 입력 영상에 기초하여, 복수의 관심 영역 영상들을 생성하고, 복수의 관심 영역들로부터 추출된 특징들에 기초하여 복합 특징을 생성하고, 복합 특징에 기초하여 객체를 인식하는 단계들을 포함한다.

Description

객체 인식 방법 및 장치{METHOD FOR RECOGNIZING AN OBJECT AND APPARATUS THEREOF}

아래 실시예들은, 객체를 인식하는 방법 및 장치에 관한 것이다.

객체 식별 기술은 보안 요구의 증가에 따라 감시, 접근 제어 시스템, 스마트 디바이스 영역에 걸쳐 광범위하게 사용되고 있다. 예를 들면, 스마트 디바이스의 잠금을 해제하기 전에, 스마트 디바이스의 사용자에 대한 신분 식별이 수행되고, 식별된 신분이 미리 등록한 사용자와 일치하면 스마트 디바이스의 잠금이 해제될 수 있다. 그렇지 않은 경우 잠금 상태가 유지되거나 경고가 울릴 수 있다. 여기서, 스마트 디바이스는 스마트 폰, 스마트 안경, 스마트 TV, 스마트 가구 또는 스마트 자동차 등을 포함한다.

신분을 식별하는 방법은 크게 두 가지 방식을 포함하는데, 하나는 키, 신분증, 스마트 카드 등의 물품을 통해 신분식별을 하는 방식이고, 다른 하나는 인증정보(예를 들어, 구령, 비밀번호, 특정조작 등)에 기초하여 신분식별을 하는 방식이다. 예를 들면, 스마트 폰의 상호적으로 작용하는 인터페이스를 통해, 미리 등록한 비밀번호를 입력하고, 비밀번호의 검증을 통해 신분식별이 수행된다. 또는, 스마트 폰의 스크린의 특정 패턴을 따라 슬라이딩(예를 들면, 스크린 상의 블록을 슬라이딩하거나 특정 순서에 따라 스크린 상의 포인트를 연결하는 방식 등)하는 방식으로 신분식별이 수행된다.

그러나, 비밀번호 및 구령 등의 인증정보와 키 및 스마트 카드 등의 인증장비는 다른 사용자에 의해 도용될 수 있으므로, 안정성이 낮다. 또한, 이러한 방식을 통해 신분식별을 수행하는 조작-예를 들어 비밀번호 입력, 스크린 상의 포인트 연결-은 번거로울 수 있고, 스크린 터치를 통해 조작을 완성하고 두 손의 조합된 조작이 요구되는 경우도 있으므로, 사용자의 체험감을 낮추게 된다.

인증정보 및 인증장비에 비하여, 사람의 속성은 쉽게 도용되지 않는 점에 착안하여, 사람 속성에 기초한 신분식별 방법은 안전성이 높은 것으로 알려져 있다. 이는, CCD(Charge-Coupled Device) 또는 CMOS(Complementary Metal Oxide Semiconductor)의 촬영장비에 기초하여 사용자의 사람 이미지 정보(예를 들면, 눈, 얼굴, 손, 동작 이미지 등)을 획득하고, 수집한 사용자의 사람 이미지 정보와 미리 저장한 등록 사용자의 사람 이미지 정보를 매칭하여 사용자의 신분을 식별한다.

그러나, 기존의 사람 속성에 기초한 신분 식별 방법은 에너지 소비가 높은 단점이 있다. 비록, 어웨이크(awake) 및 다시 언락(unlock)하는 방식을 통해 전기 에너지 소비를 절약할 수 있지만, 이는 사용자 조작을 많게 하였다. 따라서, 조작이 간편하고, 에너지 소비가 낮은 신분 식별 방법의 제공이 요구된다.

일실시예에 따르면, 객체 인식 방법은, 이벤트 기반 비전 센서에 의해 감지된, 객체에 대한 이벤트 흐름(Event Flow)에 기초하여, 입력 영상을 생성하는 단계; 상기 입력 영상에 기초하여, 미리 정의된 복수의 관심 영역들에 대응하는 복수의 관심 영역 영상들을 생성하는 단계; 상기 복수의 관심 영역들의 특징들을 추출하도록 서로 독립적으로 학습된 복수의 인식기들에 상기 복수의 관심 영역 영상들을 입력하는 단계; 상기 복수의 인식기들로부터 추출된 특징들에 기초하여, 복합 특징을 생성하는 단계; 및 상기 복합 특징에 기초하여 상기 객체를 인식하는 단계를 포함한다.

일실시예에 따르면, 객체 인식 방법은, 상기 복수의 인식기들로 병렬적으로 입력된 상기 복수의 관심 영역 영상들로부터, 상기 복수의 관심 영역들의 특징들을 각각 추출하는 단계를 더 포함한다.

일실시예에 따르면, 상기 복합 특징을 생성하는 단계는, 상기 복수의 인식기들로부터 각각 추출된 상기 특징들을 결합하는 단계; 및 상기 결합된 특징들을 이용하여 상기 복합 특징을 생성하는 단계를 포함한다.

일실시예에 따르면, 상기 복수의 인식기들은 복수의 CNN(Convolutional Neural Network)들로 구성된 다중 입력 CNN을 포함하고, 상기 다중 입력 CNN은, 상기 복수의 CNN들로 병렬적으로 입력된 상기 복수의 관심 영역 영상들로부터, 상기 객체를 식별하는 상기 복합 특징을 추출하도록 학습된 다중 입력-단일 출력 구조를 가진다.

일실시예에 따르면, 상기 복수의 인식기들 중 적어도 하나는 입력되는 관심 영역 영상에 대해 컨벌루젼 연산을 수행하는 컨벌루젼 층; 상기 컨벌루젼 층의 출력을 샘플링하는 풀링(pooling) 층; 및 상기 풀링 층의 출력 및 완전 연결망을 이용하여 관심 영역의 특징을 추출하는 완전 연결 층을 포함한다.

일실시예에 따르면, 상기 객체가 사람인 경우, 상기 복수의 관심 영역들은 상기 사람의 몸, 머리, 상체, 하체, 다리 및 팔에 대응하는 영역들 중 적어도 하나를 포함한다.

일실시예에 따르면, 상기 입력 영상을 생성하는 단계는, 수직 투영법(vertical projection) 및 수평 투영법(horizontal projection)을 이용하여, 상기 객체에 대한 바운딩 박스(bounding box)를 검출하는 단계; 및 상기 바운딩 박스에 기초하여 상기 입력 영상을 생성하는 단계를 포함한다.

일실시예에 따르면, 상기 복수의 관심 영역 영상들을 생성하는 단계는, 상기 입력 영상으로부터, 상기 객체의 관심 대상을 포함하는 미리 정의된 관심 영역을 추출하는 단계; 상기 미리 정의된 관심 영역에 기초하여 관심 영역 영상을 생성하는 단계; 상기 관심 영역 영상에 기초하여, 상기 관심 대상의 너비(width) 및 높이(height)를 획득하는 단계; 상기 너비 및 높이를 이용하여, 상기 관심 영역 영상을 미리 정해진 거리에 대해 리사이즈 하는 단계; 및 상기 리사이즈된 상기 관심 영역 영상을 이용하여 상기 복수의 관심 영역 영상들을 생성하는 단계를 포함한다.

일실시예에 따르면, 상기 너비 및 높이를 획득하는 단계는, 상기 관심 영역 영상에 대해 수직 투영법을 적용하여 상기 관심 대상의 너비를 획득하는 단계; 및 상기 너비에 대한 상기 관심 대상의 고정된 비율을 이용하여, 상기 관심 대상의 높이를 획득하는 단계를 포함한다.

일실시예에 따르면, 객체 인식 방법은, 상기 복수의 관심 영역 영상들에 대한 유효성 여부들을 분류하도록 학습된 필터를 이용하여, 상기 유효성 여부들을 출력하는 단계; 및 상기 출력 결과에 기초하여, 상기 복수의 관심 영역 영상들을 상기 복수의 인식기들에 입력하는 단계를 더 포함한다.

일실시예에 따르면, 상기 입력 영상을 생성하는 단계는, 상기 이벤트 흐름에 기초하여 미리 정의된 시간의 적분 영상(integral image)를 생성하는 단계; 상기 적분 영상을 시공간 필터(spatio-temporal filter)로 필터링하는 단계; 및 상기 필터링된 적분 영상에 기초하여 상기 입력 영상을 생성하는 단계를 포함한다.

일실시예에 따르면, 객체 등록 방법은, 이벤트 기반 비전 센서에 의해 감지된, 객체에 대한 이벤트 흐름(Event Flow)에 기초하여, 입력 영상을 생성하는 단계; 상기 입력 영상에 기초하여, 미리 정의된 복수의 관심 영역들에 대응하는 복수의 관심 영역 영상들을 생성하는 단계; 상기 복수의 관심 영역들의 특징들을 추출하도록 서로 독립적으로 학습된 복수의 인식기들에 상기 복수의 관심 영역 영상들을 입력하는 단계; 상기 복수의 인식기들로부터 추출된 특징들에 기초하여, 복합 특징을 생성하는 단계; 및 상기 객체를 상기 복합 특징과 연관시켜 등록하는 단계를 포함한다.

일실시예에 따르면, 객체 인식 장치는, 이벤트 기반 비전 센서에 의해 감지된, 객체에 대한 이벤트 흐름(Event Flow)에 기초하여, 입력 영상을 생성하는 입력영상 생성부; 상기 입력 영상에 기초하여, 미리 정의된 복수의 관심 영역들에 대응하는 복수의 관심 영역 영상들을 생성하는 관심영역영상 생성부; 상기 복수의 관심 영역들의 특징들을 추출하도록 서로 독립적으로 학습된 복수의 인식기들에 상기 복수의 관심 영역 영상들을 입력하는 입력부; 상기 복수의 인식기들로부터 추출된 특징들에 기초하여, 복합 특징을 생성하는 복합특징 생성부; 및 상기 복합 특징에 기초하여 상기 객체를 인식하는 객체 인식부를 포함한다.

일실시예에 따르면, 객체 인식 장치는, 상기 복수의 인식기들로 병렬적으로 입력된 상기 복수의 관심 영역 영상들로부터, 상기 복수의 관심 영역들의 특징들을 각각 추출하는, 특징 추출부를 더 포함한다.

일실시예에 따르면, 상기 복합특징 생성부는, 상기 복수의 인식기들로부터 각각 추출된 상기 특징들을 결합하고, 상기 결합된 특징들을 이용하여 상기 복합 특징을 생성한다.

일실시예에 따르면, 상기 입력영상 생성부는, 상기 이벤트 흐름에 기초하여 미리 정의된 시간의 적분 영상(integral image)를 생성하고, 상기 적분 영상을 시공간 필터(spatio-temporal filter)로 필터링하며, 상기 필터링된 적분 영상에 기초하여 상기 입력 영상을 생성한다.

일실시예에 따르면, 상기 입력영상 생성부는, 수직 투영법(vertical projection) 및 수평 투영법을 이용하여, 상기 이벤트 흐름에 기초한 적분 영상의 상기 객체에 대한 바운딩 박스(bounding box)를 검출하고, 상기 바운딩 박스에 기초하여 상기 입력 영상을 생성한다.

일실시예에 따르면, 상기 관심영역영상 생성부는, 상기 입력 영상으로부터, 상기 객체의 관심 대상을 포함하는 미리 정의된 관심 영역을 추출하고, 상기 미리 정의된 관심 영역에 기초하여 관심 영역 영상을 생성하고, 상기 관심 영역 영상에 기초하여, 상기 관심 대상의 너비(width) 및 높이(height)를 획득하며, 상기 너비 및 높이를 이용하여, 상기 관심 영역 영상을 미리 정해진 거리에 대해 리사이즈 하고, 상기 리사이즈된 상기 관심 영역 영상을 이용하여 상기 복수의 관심 영역 영상들을 생성한다.

일실시예에 따르면, 객체 인식 장치는, 상기 복수의 관심 영역 영상들에 대한 유효성 여부들을 분류하도록 학습된 필터를 이용하여, 상기 유효성 여부들을 출력하고, 상기 출력 결과에 기초하여, 상기 복수의 관심 영역 영상들을 상기 복수의 인식기들에 입력하는, 유효성 판단부를 더 포함한다.

도 1은 일실시예에 따른 객체 인식 방법을 설명하는 순서도이다.
도 2는 일실시예에 따른 이벤트 기반 비전 센서에 의해 감지된 이벤트 흐름에 기초한 영상의 일례이다.
도 3a 및 도 3b는, 입력 영상이 생성되는 실시예를 설명하기 위한 도면이다.
도 4는 입력 영상이 생성되는 실시예를 설명하기 위한 도면이다.
도 5a 내지 도 5d는 관심 영역 영상이 생성되는 실시예를 설명하기 위한 도면이다.
도 6은 복수의 관심 영역 영상들이 입력되어 복합 특징이 생성되는 실시예를 설명하기 위한 도면이다.
도 7은 관심 영역 영상이 입력되어 관심 영역의 특징이 추출되는 실시예를 설명하기 위한 도면이다.
도 8은 일실시예에 따른 객체 등록 방법을 설명하는 순서도이다.
도 9는 일실시예에 따른 객체 인식 장치의 구성이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 예를 들어, 실시예들은 스마트 폰, 모바일 기기, 스마트 홈 시스템 등에서 사용자를 인식하는데 적용될 수 있다. 실시예들은 사용자 인식을 통한 결제 서비스에 적용될 수 있다. 또한, 실시예들은 사용자를 인식하여 자동으로 시동을 거는 지능형 자동차 시스템 등에도 적용될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일실시예에 따른 객체 인식 방법을 설명하는 순서도이다.

일실시예에 따른 객체 인식 방법에 의하면, 이벤트 기반 비전 센서에 의해 감지된 객체에 대한 이벤트 흐름(Event Flow)에 기초하여 입력 영상이 생성된다(101).

이벤트 기반 비전 센서는 복수의 픽셀들을 이용하여 이벤트를 감지하고, 이벤트를 감지한 활성 픽셀의 출력 신호에 기초하여 이벤트 신호를 출력할 수 있다. 복수의 픽셀들 각각은 입사되는 빛이 밝아지거나 어두워지는 이벤트를 감지할 수 있다. 이벤트 신호는 활성 픽셀을 식별하는 정보(예를 들어, 픽셀의 주소 또는 인덱스 등) 및 활성 픽셀에 의하여 이벤트가 감지된 시간 정보(예를 들어, 타임 스탬프 등)를 포함할 수 있다. 또한, 이벤트 신호는 이벤트의 유형(예를 들어, 극성 정보 등)을 더 포함할 수 있다.

일실시예에 따른 객체 인식 방법은, 이벤트 기반 비전 센서를 이용하여 객체의 이벤트 흐름을 감지하고, 감지된 이벤트 흐름에 대해 이벤트 기반 비전 센서가 출력하는 이벤트 신호를 일정 시간 동안 누적한 이벤트 신호의 흐름을 이용하여 입력 영상을 생성하고, 생성된 입력 영상과 미리 등록한 객체를 이용하여 객체를 인식할 수 있다. 여기서, 이벤트 흐름은 객체의 움직임에 의하여 발생될 수 있다.

이벤트 기반 비전 센서에 대해서는 도 2를 참조하여 설명된다. 일실시예에 따른 객체 인식 방법에 의해 입력 영상이 생성되는 실시예는 도 3a 내지 도 4를 참조하여 설명된다.

일실시예에 따른 객체 인식 방법에 의하면, 입력 영상에 기초하여 미리 정의된 복수의 관심 영역들에 대응하는 복수의 관심 영역 영상들이 생성된다(102).

일실시예에 따른 객체가 사람인 경우, 복수의 관심 영역들은 사람의 몸, 머리, 상체, 하체, 다리 및 팔에 대응하는 영역들을 포함한다. 일실시예에 따른 객체 인식 방법에 의해 복수의 관심 영역 영상들이 생성되는 실시예는 도 5a 내지 도 5d를 참조하여 설명된다.

일실시예에 따른 객체 인식 방법에 의하면, 복수의 관심 영역들의 특징들을 추출하도록 서로 독립적으로 학습된 복수의 인식기들에 복수의 관심 영역 영상들이 입력된다(103). 일실시예에 따른 객체 인식 방법에 의해 복수의 관심 영역 영상들이 복수의 인식기들로 입력되는 실시예는 도 6을 참조하여 설명된다.

일실시예에 따른 객체 인식 방법에 의하면, 복수의 인식기들로부터 추출된 특징들에 기초하여, 복합 특징이 생성된다(104). 일실시예에 따른 객체 인식 방법에 의해 복수의 인식기들로부터 특징들이 추출되는 실시예는 도 7을 참조하여 설명된다.

일실시예에 따른 객체 인식 방법에 의하면, 복합 특징에 기초하여 객체가 인식될 수 있다(105). 일실시예에 따르면, 생성된 복합 특징과 미리 등록된 객체의 복합 특징과 비교하여 객체 인식이 수행될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 객체 인식 결과에 기초하여 객체가 등록되어 있는지 여부를 판단할 수 있다. 객체가 등록되어 있는 경우, 등록된 객체에 대응하는 명령이 실행될 수 있고, 그렇지 않은 경우 후속 단계가 실행되지 않거나, 경고 발송이 수행될 수 있다.

도 2는 일실시예에 따른 이벤트 기반 비전 센서에 의해 감지된 이벤트 흐름에 기초한 영상의 일례이다.

일실시예에 따르면, 이벤트 기반 비전 센서는 DVS(Dynamic Vision Sensor)일 수 있다. 이벤트 기반 비전 센서는 이벤트를 감지하여 이벤트 신호를 출력한다. 이벤트 흐름은 일정 시간 동안에 누적된 이벤트를 의미한다. 일실시예에 따르면, 이벤트 기반 비전 센서는 이벤트 흐름을 감지하고, 이벤트 신호의 흐름을 출력할 수 있다.

일실시예에 따르면, 이벤트 기반 비전 센서는 픽셀의 밝기 변화가 임계값 이상인 이벤트에 대해 응답을 하고, 에너지 소비가 낮고, 조명 조건이 넓은 이점이 있다. 이벤트 기반 비전 센서를 이용하는 경우 에너지 소비가 낮기 때문에, 모바일 장치 등의 단말은 스탠바이 상태에서 작업 상태로 전환하여 신속하게 신호를 수집할 수 있고, 사용자가 단말의 잠금을 해제하려고 할 때 곧바로 응답할 수 있다. 조명 조건이 넓기 때문에 이벤트 기반 비전 센서는 광원이 약한 환경에서도 신호를 수집하여 작업을 수행할 수 있다.

일실시예에 따른 객체 인식 방법은, 에너지 소비가 낮은 이벤트 기반 비전 센서를 이용하여 실시간으로 이벤트 신호를 수집할 수 있다. 일실시예에 따른, 이벤트 기반 비전 센서의 시각 범위 내에서 객체가 이동하는 경우, 이벤트 기반 비전 센서는 효과적으로 객체의 동작을 포착할 수 있다. 일실시예에 따르면, 이벤트 기반 비전 센서에 의해 감지된 이벤트 흐름에 기초하여 객체를 인식할 수 있고, 객체 인식을 위해 미리 객체 인식 장치를 어웨이크 상태로 전환시킬 필요가 없고, 사용자에 의해 스마트 디바이스의 스크린에서 추가적인 조작이 요구되지 않는다.

이벤트 기반 비전 센서에 의해 출력된 이벤트 신호의 흐름에 기초하여 형성된 영상은, 이동 객체의 윤곽의 정보를 대체적으로 반영하고, 색상 및 텍스쳐 등의 구체적인 정보는 포함하지 않는다. 이벤트 기반 비전센서에 의한 영상의 경우, 이동 객체가 위치한 장면 중에서 이동이 발생하지 않은 배경은 자동적으로 제거되는 이점이 있다. 따라서 이벤트 기반 비전 센서를 이용하는 경우, 사용자의 정보가 누설되지 않아 사용자의 프라이버시를 보호하는데 유리하고, 사용자 정보의 안전성 및 사용자의 체험도가 향상될 수 있다.

도 2를 참조하면, 일실시예에 따른 이벤트 기반 비전 센서는 사람에 대한 이벤트 흐름을 감지한다. 감지된 이벤트 흐름에 대한 이벤트 신호의 흐름은 이벤트 기반 비전 센서에 의해 출력되고, 출력된 이벤트 신호의 흐름을 변환하여 도 2의 영상이 생성될 수 있다. 도 2에서 흰색 점은 빛이 밝아지는 이벤트에 대응하는 점이고, 회색 점은 빛이 어두워지는 이벤트에 대응하는 점이다. 설명의 편의를 위하여 이벤트의 유형에 따라 점들을 달리 표시하였으나, 일실시예에 따르면 이벤트의 유형은 고려되지 않을 수 있다.

일실시예에 따르면, 객체 인식을 수행하는 스마트 디바이스는 이벤트 기반 비전 센서를 이용하여 실시간으로 이벤트 신호를 수집할 수 있다. 객체가 이벤트 기반 비전 센서의 시각 범위 내에서 이동하는 경우, 이벤트 기반 비전 센서는 객체에 대한 이벤트 흐름을 감지하여, 이벤트 신호의 흐름을 출력할 수 있다.

예를 들면, 사용자에 의해 스마트 디바이스가 사용자의 머리 아래의 위치로부터 사용자의 귀의 위치까지 이동하게 되는 경우, 항상 활성화 상태에 있는 이벤트 기반 비전 센서는 사용자의 움직임으로 인한 이벤트 흐름을 감지하고, 감지된 이벤트 흐름에 대한 이벤트 신호의 흐름을 출력할 수 있다. 이 경우, 스마트 디바이스는 이벤트 기반 비전 센서로부터 출력되는 이벤트 신호의 흐름을 수집할 수 있다.

도 3a 및 도 3b는, 입력 영상이 생성되는 실시예를 설명하기 위한 도면이다.

일실시예에 따른 객체 인식 방법에 의하면, 이벤트 기반 비전 센서에 의해 감지된 이벤트 흐름에 기초하여 미리 정의된 시간의 적분 영상(integral image)이 생성될 수 있다.

일실시예에 따르면, 이벤트 기반 비전 센서는 이벤트 흐름을 감지하여 이벤트 신호의 흐름을 출력할 수 있다. 출력된 이벤트 신호의 흐름은 미리 정의된 시간의 적분 영상으로 변환될 수 있다. 도 3a는 변환된 적분 영상의 일례이다.

예를 들어, 이벤트 기반 비전 센서는 시리얼 통신 방식(serial communication type)으로 이벤트 신호들을 출력할 수 있다. 전술한 바와 같이, 각 이벤트 신호들은 이벤트를 감지한 활성 픽셀의 식별 정보를 포함하므로, 객체 인식 장치는 이벤트 신호에 포함된 활성 픽셀의 위치에 점을 표시할 수 있다. 객체 인식 장치는 미리 정의된 조건을 만족하는 이벤트 신호들에 대응하는 점들을 축적하여 도 3a의 적분 영상을 생성할 수 있다.

일실시예에 따르면, 변환된 적분 영상은 시공간 필터(spatio-temporal filter)로 필터링될 수 있다. 도 3b는 시공간 필터로 필터링된 영상의 일례이다.

일실시예에 따른 시공간 필터는 이벤트 신호의 흐름이 노이즈 인지 여부를 판단하기 위해, 공간적으로 인접한 공간적 이웃들(spatio neighbors), 시간적으로 인접한 시간적 거리감(temporal distance), 또는 이들의 조합을 고려할 수 있다. 예를 들어, 특정 시점에 입력된 이벤트 신호의 주위에 일정 시간 이내에 발생된 이벤트 신호들이 얼마나 존재하는지 여부에 따라, 해당 이벤트 신호가 노이즈인지 여부가 판단될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 필터링된 적분 영상에 기초하여 입력 영상이 생성될 수 있다.

도 4는 입력 영상이 생성되는 실시예를 설명하기 위한 도면이다.

일실시예에 따른 객체 인식 방법에 의하면, 이벤트 기반 비전 센서에 의해 감지된 이벤트 흐름에 기초하여 미리 정의된 시간의 적분 영상이 생성되고, 생성된 적분 영상의 객체에 대한 바운딩 박스(bounding box)가 검출될 수 있다. 바운딩 박스는 객체의 외형 정보를 포함하는 영역일 수 있다.

도 4를 참조하면, 이벤트 흐름에 기초한 적분 영상의 객체에 대한 바운딩 박스가 검출된다. 일실시예에 따르면, 도 3을 참조하여 설명된 실시예가 적용되어서 필터링된 적분 영상의 객체에 대한 바운딩 박스가 검출될 수 있다.

일실시예에 따르면, 이벤트 기반 비전 센서에 의하면 이동하는 객체가 검출될 수 있기 때문에, 객체를 둘러싼 바운딩 박스를 검출하는데 수직 투영법(vertical projection) 및 수평 투영법(horizontal projection)이 이용될 수 있다.

도 4를 참조하면, 수평 및 수직 축의 각 히스토그램에서 가스 사이즈(gas size)를 통해 바운딩 박스가 설정될 수 있다. 수직 투영법은 이벤트 신호들에 대응하는 점들이 표시된 영상에서 동일한 x축 좌표를 가지는 점들을 누적하여 수평 축 히스토그램으로 표시하는 기법이다. 수평 축 히스토그램에서 일정 이상의 높이를 가지는 영역이 바운딩 박스의 x축 방향의 영역으로 결정될 수 있다. 또한, 수평 투영법은 이벤트 신호들에 대응하는 점들이 표시된 영상에서 동일한 y축 좌표를 가지는 점들을 누적하여 수직 축 히스토그램으로 표시하는 기법이다. 수직 축 히스토그램에서 일정 이상의 높이를 가지는 영역이 바운딩 박스의 y축 방향의 영역으로 결정될 수 있다.

일실시예에 따르면, 적분 영상에 대해, 경계의 픽셀들(bordered pixels)을 선별하는데 타원형 피팅(elliptic fitting)이 적용될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 검출된 바운딩 박스에 기초하여 입력 영상이 생성될 수 있다.

도 5a 내지 도 5d는 관심 영역 영상이 생성되는 실시예를 설명하기 위한 도면이다.

일실시예에 따른 객체 인식 방법에 의하면, 생성된 입력 영상에 기초하여 미리 정의된 복수의 관심 영역들에 대응하는 복수의 관심 영역 영상들이 생성된다. 일실시예에 따른 객체가 사람인 경우, 복수의 관심 영역들은 사람의 몸, 머리, 상체, 하체, 다리 및 팔에 대응하는 영역들 중 적어도 하나를 포함한다.

도 5a를 참조하면, 바운딩 박스가 검출된 객체의 입력 영상이 생성된다. 도 5a의 경우에는, 객체가 사람이다.

도 5b를 참조하면, 생성된 입력 영상으로부터 객체의 관심 대상을 포함하는 미리 정의된 관심 영역이 추출되고, 추출된 미리 정의된 관심 영역에 기초하여 관심 영역 영상이 생성된다. 도 5b의 경우에는, 사람의 관심 대상은 머리이고, 머리를 포함하는 미리 정의된 관심 영역이 추출되어 생성된 관심 영역 영상이 예시되어 있다.

일실시예에 따른 객체 인식 방법에 의하면, 관심 영역 영상에 기초하여 관심 대상의 너비(width) 및 높이(height)를 획득된다. 도 5b를 참조하면, 관심 영역 영상의 관심 대상인 머리의 너비가 획득될 수 있다. 일실시예에 따르면, 관심 영역 영상에 대해 수직 투영법을 적용하여 관심 대상의 너비가 획득될 수 있다. 도 5c를 참조하면, 관심 영역 영상의 관심 대상인 머리의 높이가 획득될 수 있다. 일실시예에 따르면, 수직 투영법을 적용하여 획득된 관심 대상의 너비에 대한 관심 대상의 고정된 비율을 이용하여 높이가 획득될 수 있다.

도 5d를 참조하면, 획득된 너비 및 높이를 이용하여 관심 영역 영상이 미리 정해진 거리에 대해 리사이즈될 수 있다. 일실시예에 따른 객체 인식 방법에 의하면, 리사이즈된 관심 영역 영상을 이용하여 복수의 관심 영역 영상들이 생성될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 도 5a 내지 도 5d를 참조하여 설명된 방식으로 복수의 관심 영역 영상들이 생성될 수 있다. 이를 테면 객체가 사람인 경우, 몸, 머리, 상체, 팔, 다리 및 하체 등의 관심 대상을 포함하는 관심 영역이 입력 영상으로부터 추출되고, 관심 영역 영상이 생성되어 리사이즈될 수 있다. 리사이즈된 관심 영역 영상들로부터 복수의 관심 영역 영상들이 생성될 수 있다.

일실시예에 따르면, 도 5a 내지 도 5d를 참조하여 설명된 방식으로 관심 영역 영상이 정규화될 수 있다. 도 5a 내지 도 5d는 임의의 거리에 대한 리사이즈를 통해 관심 영역 영상이 정규화되는 실시예만이 설명되었지만, 조명 및 속도 정규화도 복수의 관심 영역 영상들에 대해 적용될 수 있다.

도 6은 복수의 관심 영역 영상들이 입력되어 복합 특징이 생성되는 실시예를 설명하기 위한 도면이다.

일실시예에 따른 객체 인식 방법에 의하면, 복수의 관심 영역 영상들(601)은 복수의 관심 영역들의 특징들을 추출하도록 서로 독립적으로 학습된 복수의 인식기들에 입력된다. 일례로, 도 3a 및 도 3b를 참조하여 전술한 기법을 통해 입력 영상이 생성되고, 도 4를 참조하여 전술한 기법을 통해 입력 영상 내 바운딩 박스가 검출되며, 도 5a 내지 도 5d를 참조하여 전술한 기법을 통해 복수의 관심 영역 영상들(601)이 생성될 수 있다. 일실시예에 따른 객체 인식 방법에 의하면, 복수의 관심 영역 영상들(601)이 복수의 인식기들로 병렬적으로 입력될 수 있다. 복수의 인식기들은 복수의 관심 영역들의 특징들을 각각 추출하도록 서로 독립적으로 학습되어 있다.

도 6을 참조하면, 복수의 관심 영역들은 사람의 관심 대상인 전신, 상체 및 머리에 각각 대응한다. 복수의 인식기들은 전신, 상체 및 머리에 각각 대응하는 복수의 관심 영역들의 특징들을 각각 추출하도록 서로 독립적으로 학습되어 있다. 예를 들어, 도 6의 인식기(602)는 사람의 전신에 대응하는 관심 영역의 특징을 추출하도록 학습되어 있다.

일실시예에 따른 객체 인식 방법에 의하면, 복수의 인식기들로부터 추출된 특징들에 기초하여 복합 특징이 생성된다. 복수의 인식기들로부터 각각 추출된 복수의 관심 영역들의 특징들이 결합되고, 결합된 특징들을 이용하여 복합 특징이 생성될 수 있다.

일실시예에 따르면, 복수의 인식기들은 복수의 CNN(Convolutional Neural Network)들일 수 있다. 예를 들어, 다중 입력 CNN(multiple input Convolutional Neural Network; miCNN)(603)은 복수의 CNN들로 구성될 수 있다. miCNN(603)은 복수의 관심 영역 영상들이 입력되어 단일의 복합 특징을 출력하는 다중 입력-단일 출력 구조를 가질 수 있다. 일실시예에 따르면, miCNN(603)에 의해 추출되는 복합 특징은 컨벌루젼 층, 완전 연결 층, 또는 이들의 다양한 조합에 기초하여 생성될 수 있다.

miCNN(603)에 입력되는 복수의 관심 영역 영상들은 해상도, 크기, 및 위치 등이 다를 수 있지만, 같은 객체를 가리킨다. 일실시예에 따르면, miCNN(603)에 의해 추출되는 복합 특징은 객체를 식별하는데 이용된다.

일실시예에 따르면, 복수의 인식기들은 미리 등록된 객체를 식별하도록 학습될 수 있다. 이를 테면 객체의 복수의 관심 영역 영상들을 복수의 인식기들로 입력하고, 등록되지 않은 객체에 대한 영상들을 샘플 데이터로 사용하여, 복수의 인식기들이 객체를 식별하도록 학습될 수 있다. 이 때, 복수의 관심 영역 영상들은 같은 라벨(label)을 가진다. 예를 들어, miCNN(603)은 객체의 복합 특징을 추출하고, 추출된 복합 특징으로 객체를 식별하도록 학습될 수 있다. 예를 들면, miCNN(603)은 후향 전파(back propagation)를 통해 각 파라미터를 최적화하는 방식으로 학습될 수 있다.

일실시예에 따르면, 복수의 인식기들로부터 추출된 복합 특징과 객체를 가리키는 식별자가 연관되어 저장될 수 있다. 예를 들면, 스마트 디바이스는 사용자 등록과정에서 버튼 및 음성 등의 방식을 통해 사용자로부터 식별자를 입력 받을 수 있고, 스마트 디바이스는 사용자의 식별자를 수신하고, 사용자를 등록하는데 식별자를 이용할 수 있다.

도면에 도시하지 않았으나, 일실시예에 따른 객체 인식 방법에 의하면, 복수의 관심 영역 영상들(601)에 대한 유효성을 기반으로 복수의 관심 영역 영상들(601)의 입력 여부가 결정될 수 있다.

일실시예에 따르면, 복수의 관심 영역 영상들(601)에 대한 유효성 여부들을 분류하도록 학습된 필터를 이용하여 유효성 여부들이 필터로부터 출력된다. 출력 결과에 기초하여 복수의 관심 영역 영상들(601)이 복수의 인식기들로 입력된다.

일실시예에 따르면 유효성을 여부를 분류하도록 필터는 학습될 수 있다. 예를 들어, 미리 정의된 관심 영역에 대한 복수의 포지티브 샘플들 및 복수의 네거티브 샘플들이 입력되고, 입력된 샘플들의 특징들이 추출되고, 서포트 벡터 머신(support vector machine; SVM)을 이용하여, 추출된 특징들의 유효성들을 분류하도록 분류기가 학습될 수 있다. 학습된 분류기를 이용하여 유효성 여부를 분류하는 필터가 구성될 수 있다.

이처럼, 필터를 이용하여 검출이 잘 되지 않았거나 잘려진 영상들은 입력되지 않고 필터링 됨으로써, 입력되는 복수의 관심 영역 영상들(601)의 강인성(robustness)이 향상될 수 있다.

도 7은 관심 영역 영상이 입력되어 관심 영역의 특징이 추출되는 실시예를 설명하기 위한 도면이다.

일실시예에 따른 객체 인식 방법에 의하면, 복수의 인식기들로부터 병렬적으로 입력된 복수의 관심 영역 영상들로부터 복수의 관심 영역들의 특징들이 각각 추출된다. 복수의 인식기들은 서로 독립적으로 학습되어 있고, 개별적인 인식기로부터 관심 영역의 특징이 추출되는 실시예(일례로, 도 6의 602)를 도 7을 참조하여 설명한다. 미리 정의된 관심 영역의 특징을 추출하도록 학습된 인식기는 CNN을 포함할 수 있다.

CNN은 컨벌루젼 층, 맥스-풀링 층, 완전 연결 층, 또는 이들의 다양한 조합으로 구성될 수 있다. 예를 들어, 도 7을 참조하면, CNN은 제1 컨벌루젼 층, 제1 맥스-풀링 층, 제2 컨벌루젼 층, 제2 맥스-풀링 층, 및 완전 연결 층을 포함할 수 있다.

제1 컨벌루젼 층은 입력된 관심 영역 영상에 대해 컨벌루젼 연산을 수행하여 복수의 맵들(예를 들어, 20개의 맵들)을 생성할 수 있다. 컨벌루젼 연산은 미리 정해진 사이즈(이를 테면 5 X 5) 및 개수(이를 테면 20 개)의 커널에 기초하여 수행될 수 있다. 제1 맥스-풀링(max-pooling) 층은 제1 컨벌루젼 층을 샘플링하여 복수의 맵들(예를 들어, 50개의 맵들)을 생성할 수 있다. 샘플링은 미리 정해진 사이즈(2 X 2)에 기초하여 수행될 수 있다.

제2 컨벌루젼 층은 제1 맥스-풀링 층의 출력에 대해, 컨벌루젼 연산을 수행하여 복수의 맵들(예를 들어, 50개의 맵들)을 생성할 수 있다. 컨벌루젼 연산은 미리 정해진 사이즈(이를 테면 5 X 5) 및 개수(이를 테면 50 개)의 커널에 기초하여 수행될 수 있다. 제2 맥스-풀링(max-pooling) 층은 제2 컨벌루젼 층의 출력을 샘플링하여 복수의 맵들(예를 들어, 50개의 맵들)을 생성할 수 있다. 샘플링은 미리 정해진 사이즈(2 X 2)에 기초하여 수행될 수 있다.

완전 연결 층은 제2 맥스-풀링 층의 출력 및 완전 연결망을 이용하여 미리 정의된 관심 영역의 특징을 추출할 수 있다.

도 6의 도면과 비교하면, 도 7의 마지막 층은 도 6의 miCNN에 포함되어 있지 않다. 일실시예에 따르면, miCNN의 각각의 CNN들은 하나의 완전 연결 층을 포함하도록 구성될 수 있다. 다만 이러한 실시예로 제한되지 않고, 다양한 예들이 적용될 수 있다.

일실시예에 따르면, 도 7의 입력 층은 같은 객체의 다른 부분에 대해 크기가 다른 영상일 수 있다. 예를 들면, 객체가 사람인 경우, 사람의 전신은 64*32, 사람의 상체는 32*32 및 사람의 머리는 20*32 크기의 입력 층이 적용될 수 있다.

일실시예에 따르면, 각 CNN의 활성 함수(activation function)로는 sigmoid가 이용될 수 있고, 완전 연결 층에는 ReLU가 이용될 수 있으나, 다양한 변형이 가능하고 실시예들은 이에 한정되지 않는다.

도 8은 일실시예에 따른 객체 등록 방법을 설명하는 순서도이다.

일실시예에 따른 객체 인식 방법에 의해 생성된 복합 특징은 객체를 등록하는데 이용될 수 있다. 일실시예에 따른 객체 등록 방법에 의하면, 이벤트 기반 비전 센서에 의해 감지된, 객체에 대한 이벤트 흐름(Event Flow)에 기초하여, 입력 영상이 생성된다(801).

일실시예에 따르면, 스마트 디바이스에 대해 사용자 신분이 등록될 수 있다. 예를 들면, 사용자 등록을 수행하기 위해 사용자는 버튼 및 음성 등의 방식을 통해 스마트 디바이스에 대해 사용자 등록 명령을 입력할 수 있고, 스마트 디바이스는 등록 명령을 수신하고, 등록 모드로 변경할 수 있다.

등록 모드에서, 스마트 디바이스는 이벤트 기반 비전 센서를 이용하여 사용자에 대한 이벤트 흐름을 감지하고, 이벤트 기반 비전 센서에 의해 출력되는 이벤트 신호의 흐름을 수집할 수 있다. 예를 들면, 등록 모드에서 사용자가 스마트 장치의 이벤트 기반 비전 센서의 시각범위 내에서 머리를 이동하게 되면, 이벤트 기반 비전 센서에 의해 감지된 이벤트 흐름에 대해 출력되는 이벤트 신호의 흐름이 수집될 수 있다.

일실시예에 따르면, 스마트 디바이스에 대해 등록을 수행하는 사용자는 적어도 하나 이상일 수 있고, 사용자에 의해 수집된 이벤트 신호의 흐름은, 사용자의 특정 부위에 대해 수집된 이벤트 신호의 흐름일 수 있고, 사용자 전신에 대해 수집된 이벤트 신호의 흐름일 수 있다.

일실시예에 따르면, 이벤트 기반 비전 센서는 픽셀 밝기의 변화가 일정한 정도 이상의 이벤트를 감지하고, 감지한 이벤트에 대한 이벤트 신호를 전송 또는 저장한다. 이벤트 기반 비전 센서에 의해 출력되는 이벤트 신호의 흐름은 스마트 디바이스에 의해 등록 모드에서 이용될 수 있다.

일실시예에 따르면, 일정 시간 내의 사용자에 대한 이벤트 신호의 흐름을 영상 데이터로 매핑되고, 일정 시간 내의 이벤트 신호의 흐름이 누적되어 입력 영상을 생성하는데 이용될 수 있다.

일실시예에 따르면, 스마트 디바이스는 일정 시간 내(예를 들면, 20ms)의 이벤트 신호의 흐름을 누적시킨 후, 각 사용자의 이벤트 신호의 좌표 위치, 응답의 선후관계 및 공간의 근린관계에 기초하여 수집한 이벤트 신호의 흐름에 대응하는 입력 영상을 생성할 수 있다. 일실시예에 따르면, 생성된 입력 영상은 등록을 수행하는 사용자의 윤곽과 부분 텍스처 정보가 반영될 수 있고, 배경 중에 이동하지 못하는 물체가 배제될 수 있다.

일실시예에 따른 객체 등록 방법에 의하면, 입력 영상에 기초하여, 미리 정의된 복수의 관심 영역들에 대응하는 복수의 관심 영역 영상들이 생성된다(802).

일실시예에 따른 객체 등록 방법에 의하면, 복수의 관심 영역들의 특징들을 추출하도록 서로 독립적으로 학습된 복수의 인식기들에 복수의 관심 영역 영상들이 입력된다(803). 일실시예에 따른 객체 등록 방법에 의하면, 복수의 인식기들로부터 추출된 특징들에 기초하여, 복합 특징이 생성된다(804).

일실시예에 따른 객체 등록 방법에 의하면, 객체를 복합 특징과 연관시켜 등록하는 과정이 수행된다(805). 일실시예에 따르면, 생성된 복합 특징이 객체와 연관되어 데이터베이스에 저장되는 방식으로, 객체가 등록될 수 있다.

일실시예에 따른 객체 등록 방법에 의하면, 객체를 등록하는 경우, 객체를 식별하는 식별자를 연관시켜, 객체를 등록 할 수 있다. 식별자는 객체를 인식하는 과정에서 이용될 수 있다.

도 9는 일실시예에 따른 객체 인식 장치의 구성이다.

도 9를 참조하면, 객체 인식 장치(900)는 입력영상 생성부(901), 관심영역영상 생성부(902), 유효성 판단부(903), 입력부(904), 특징 추출부(905), 복합특징 생성부(906) 및 객체 인식부(907)를 포함한다.

입력영상 생성부(901)는 도 1 내지 7을 참조하여 설명된 입력 영상이 생성되는 실시예가 적용될 수 있다. 관심영역영상 생성부(902)는 도 1 내지 7을 참조하여 설명된 복수의 관심영역영상들이 생성되는 실시예가 적용될 수 있다.

유효성 판단부(903)는 도 1 내지 7을 참조하여 설명된 복수의 관심영역영상들의 유효성 여부가 판단되는 실시예가 적용될 수 있다. 입력부(904)는 도 1 내지 7을 참조하여 설명된 복수의 관심영역영상들이 복수의 인식기들로 입력되는 실시예가 적용될 수 있다.

특징 추출부(905)는 도 1 내지 7을 참조하여 설명된 복수의 관심 영역들의 특징들이 추출되는 실시예가 적용될 수 있다. 복합특징 생성부(906)는 도 1 내지 7을 참조하여 설명된 복합 특징이 생성되는 실시예가 적용될 수 있다. 객체 인식부(907)는 도 1 내지 7을 참조하여 설명된 객체가 인식되는 실시예가 적용될 수 있다.

이처럼, 객체 인식 장치(900)에 포함된 각 구성의 구체적인 실시예는 도 1 내지 7을 참조하여 설명된 실시예와 중복되므로 보다 상세한 설명은 생략한다.

일실시예에 따른 객체 인식 방법에 의하면, 객체의 운동에 기초하여 운동에 대응하는 명령이 매칭될 수 있고, 매칭되는 명령이 실행될 수 있다. 예를 들면, 일실시예에 따른 객체 인식 방법을 수행하는 스마트 디바이스의 전화 받기 및 차문 열기 등이 실행될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 객체가 인식되고, 인식된 객체의 운동 유닛의 유형 및 위치가 이벤트 기반 비전 센서에 의해 식별될 수 있다. 이벤트 기반 비전 센서에 의해 운동 유닛의 순차적으로 식별된 위치에 기초하여 운동 유닛의 운동 궤적이 결정된다.

일실시예에 따르면, 운동 유닛의 식별은 이벤트 기반 비전 센서에 의해 감지된 이벤트 흐름의 신호에 기초하여 학습된 유닛 분류기에 의해 수행될 수 있다. 유닛 분류기는 스마트 디바이스에 포함되어 미리 학습될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 유닛 분류기를 이용하여 이벤트 기반 비전 센서에 의해 감지된 현재 이벤트 흐름과 이웃 이벤트 흐름에 기초하여 운동 유닛의 유형이 결정될 수 있다.

일실시예에 따르면, 현재 이벤트 흐름의 이웃 이벤트 흐름은 아래의 방식을 통해 결정될 수 있다. 예를 들어, 이벤트 기반 비전 센서가 현재 이벤트 흐름을 감지하기 전에 설정된 시간 간격 동안에 감지된 이벤트 흐름 중에서 현재 이벤트 흐름 주위의 설정공간 범위(예를 들면, 80x80 픽셀의 사각형)내의 이벤트 흐름을 선택하여, 현재 이벤트 흐름의 이웃 이벤트 흐름으로 결정될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 이벤트 기반 비전 센서에 의해 감지된 이벤트 흐름에 의해 운동 유닛의 유형이 결정되고, 이벤트 흐름의 각 이벤트에 속하는 운동 유닛의 위치에 기초하여, 결정된 유형의 운동 유닛의 위치가 결정될 수 있다.

예를 들면, 같은 유형에 속하는 운동 유닛의 이벤트 흐름의 중심 위치가 계산되고, 계산된 중심 위치를 운동 유닛의 위치로 결정된다. 일실시예에 따르면, 중심 위치를 획득하는데 클러스터링 방법들(Clustering methods)이 이용될 수 있다. 예를 들면, K-means 클러스터링 방법(Clustering method)을 이용하여 운동 유닛의 중심 위치가 획득될 수 있고, 획득된 중심 위치은 운동 유닛의 추적에 이용될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 운동 유닛의 유형과 위치가 식별되고, 순차적으로 식별된 운동 유닛의 위치에 기초하여 운동 유닛의 운동궤적이 결정될 수 있다. 일실시예에 따르면, 운동 유닛의 운동궤적을 결정하는데 추적 알고리즘이 이용될 수 있다. 예를 들면, 평활필터 및 순차적 추적 알고리즘이 있다.

일실시예에 따른 객체 인식 방법에 의하면, 운동 유닛의 유형과 위치가 식별된 후, 식별된 운동 유닛의 유형에 대해 영역 유효성 검증이 수행될 수 있고, 유효성 검증 결과 잘못 판단된 운동 유닛의 위치가 배제될 수 있다. 이를 통해, 운동 유닛의 추적 효율이 향상되고, 운동 식별의 정확도가 높아질 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 식별된 유형의 운동 유닛의 위치가 유효한 영역의 범위 내에 있는지 여부가 판단될 수 있다. 영역 유효성 검증 결과, 운동 유닛의 위치가 유효한 영역의 범위 내에 있는 경우, 운동 유닛의 유형과 이에 대응되는 위치가 기록된다. 예를 들면, 운동 유닛의 위치가 추적되고, 추적된 위치는 추적 유닛 리스트에 기록될 수 있다. 추적 유닛 리스트에 순차적으로 기록된 운동 유닛의 위치에 기초하여 운동 유닛의 운동궤적이 결정될 수 있다.

일실시예에 따르면, 영역 유효성 검증에 이용되는 유효한 영역의 범위는 이전에 기록된 같은 유형의 운동 유닛의 위치 및 위치 범위의 선험적 지식(Priori knowledge)에 기초하여 결정될 수 있다. 예를 들면, 운동 유닛이 사람의 머리 및 손 등의 구체적인 부위 중 어느 하나인 경우, 현재 식별된 유형의 운동 유닛(이를 테면, 머리 또는 손)의 위치와 이전에 기록된 같은 유형의 운동 유닛의 위치 간의 거리가 계산되고, 계산된 거리가 일정한 조건에 부합-일반적인 신체 형상의 선험적 지식에 부합될 때-되고, 현지 식별된 유형의 운동 유닛의 위치는 유효성 영역의 범위 내에 있다고 판단된다.

일실시예에 따르면, 이벤트 기반 비전 센서에 의해 출력되는 이벤트 신호의 흐름에 기초하여 생성된 이미지의 특성 때문에, 운동 유닛의 운동이 멈추게 되는 경우 이벤트 기반 비전 센서에 의해 감지되는 이벤트에 기초한 운동 유닛의 운동궤적이 소실되는 상황이 발생할 수 있다. 따라서, 추적 유닛의 리스트를 이용하여 서로 다른 운동 유닛에 대한 연속적인 추적이 실현될 수 있고, 운동 위치에 대해 평활처리가 수행될 수 있다. 여기서, 평활처리는 예를 들어 칼만 필터(Kalman filter)가 이용될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 운동 유닛의 운동궤적에 기초하여 운동궤적에 대응하는 명령이 매칭될 수 있다. 일실시예에 따르면, 결정된 운동 유닛의 운동궤적으로부터 궤적의 특징이 추출될 수 있고, 추출된 궤적의 특징과 매칭되는 특징이 사전에 데이터베이스에 저장되어 있는지 여부가 검색되고, 검색 결과 검색된 특징에 대응하는 명령이 운동 유닛의 운동궤적과 대응되는 명령으로 매칭될 수 있다.

일실시예에 따르면, 데이터베이스는 미리 각 유형의 운동 유닛과 대응되는 운동궤적의 특징이 저장되고, 운동궤적의 특징과 미리 설정한 명령이 대응되어 저장되어 구축될 수 있다. 미리 설정한 명령의 예로는 휴대폰 동작 명령, 차문을 여는 명령 등을 포함한다.

일실시예에 따른 객체 인식 방법에 의하면, 매칭된 명령에 대응하는 동작이 실행될 수 있다. 예를 들면, 식별된 운동 유닛의 유형이 코 또는 귀인 경우, 코 또는 귀의 운동궤적이 결정되고, 결정된 코 또는 귀의 운동궤적에 기초하여 운동궤적에 대응하는 명령이 매칭되고, 매칭되는 명령에 대응하는 동작이 실행된다. 예를 들어, 운동 유닛의 유형이 코, 눈 또는 손가락으로 식별되고, 코, 눈 또는 손가락의 운동궤적에 기초하여 자동 열림/위험경고에 대한 명령이 매칭되고, 열림/위험경고의 동작이 실행될 수 있다.

일실시예에 따른 객체 인식 방법에 의하면, 스마트 폰의 사용자 인식이 수행될 수 있고, 인식 결과 등록된 사용자에 해당되는 경우, 스마트 폰의 잠금이 해제될 수 있다. 일실시예에 따른 객체 인식 방법에 의하면, 스마트 폰은 에너지 소비가 낮은 이벤트 기반 비전 센서에 기초하여 이벤트 신호의 흐름을 실시간으로 수집할 수 있고, 사용자의 운동궤적을 식별하여 식별된 운동궤적을 명령에 매칭하고, 매칭된 명령에 대응하는 동작을 실행할 수 있다. 실행되는 동작은 자동 전화 받기 및 자동플레이 등을 포함한다.

일실시예에 따르면, 등록된 사용자가 한 손으로 스마트 폰을 들고 설정된 운동궤적에 따라 스마트 폰을 흔들면, 스마트 폰의 잠금이 해제될 수 있다. 스마트 폰의 스크린에 터치 등의 조작 없이 한 손으로 스마트 폰을 들고 다른 한 손은 스크린에 대해 잠금 해제를 위한 동작을 할 필요가 없기 때문에 사용자에게 편리함을 줄 수 있다.

일실시예에 따르면, 스마트 폰에 전화가 걸려 오는 경우, 사용자는 스마트 폰을 미리 설정된 운동궤적에 따라 귀 옆에 이동시켜 자동으로 전화를 받는 동작을 실행할 수 있다. 사용자는 전화 받기 버튼 또는 슬라이딩의 조작이 필요 없으므로, 편리함이 제공될 수 있다. 일실시예에 따르면, 등록된 사용자가 아닌 경우, 스마트 폰의 잠금 해제 또는 전화 받기가 실행되지 않기 때문에 보안이 향상될 수 있다.

일실시예에 따르면, 스마트 디바이스는 시각 장애인의 네비게이션으로 활용되는 스마트 안경일 수 있다. 이를 테면, 시각 장애인이 외출하는 경우, 이벤트 기반 비전 센서를 이용한 객체 인식 장치를 포함하는 스마트 안경을 착용하면 보행 중에 전방에 대해 이동하는 물체의 이벤트 신호의 흐름이 수집되고, 수집된 이벤트 신호의 흐름에 기초하여 객체 인식이 수행될 수 있다. 식별된 객체에 기초하여 전방의 도로표시 또는 위험설비에 대해 소리 또는 촉각을 통해 시각장애인에 대한 경고가 제공될 수 있다. 이벤트 기반 비전 센서는 에너지 소비가 적은 이점이 있기 때문에, 항상 활성화 상태에서 이벤트를 감지할 수 있어서 스탠바이 시간이 긴 시각 장애인의 네비게이션에 활용되는데 적합하다.

일실시예에 따르면, 스마트 디바이스는 이벤트 기반 비전 센서를 이용한 객체 인식 장치가 설치된 자동차일 수 있다. 이를 테면, 이벤트 기반 비전 센서를 자동차의 문의 위쪽에 설치하여 실시간으로 이벤트의 신호가 수집될 수 있다. 이러한 경우, 자동차 주인이 차에 점차적으로 가까워지면 에너지 소비가 낮은 이벤트 기반 비전 센서는 곧바로 신속하게 자동차 주인의 얼굴정보 또는 운동궤적정보를 수집할 수 있고, 수집된 정보에 기초하여 차문의 자동 열림 또는 자동차의 전기적 연결 등의 동작이 수행될 수 있다. 이를 통해 사용자에게 조작이 간편하고 신속한 높은 사용자 체험감이 제공될 수 있다. 또한, 등록된 사용자에 의해서만 자동차의 동작이 응답하기 때문에, 차량 동작의 보안성이 향상될 수 있다.

일실시예에 따르면, 스마트 디바이스는 이벤트 기반 비전 센서를 이용한 객체 인식 장치가 설치된 스마트 TV일 수 있다. 예를 들면, 이벤트 기반 비전 센서를 스마트 TV 위에 설치하여 객체 인식 장치는 이벤트 신호의 흐름을 수집할 수 있다. 사용자가 이벤트 기반 비전 센서의 시각범위 내에서 이동하게 되는 경우, 객체 인식 장치는 사용자의 이벤트 신호의 흐름(예를 들면, 얼굴 및 전신 등)을 수집하여 객체 인식을 수행할 수 있다. 객체 인식 결과 등록된 사용자로 식별되는 경우, 스마트 TV는 자동으로 식별된 사용자가 즐기는 채널로 이동하거나 사용자의 시청기록 리스트를 보여주는 동작을 수행할 수 있다. 등록되지 않은 사용자의 경우, 스마트 TV는 미리 설정된 채널을 차단할 수 있고, 미리 설정된 시청 시간을 초과하는 경우, 시청기능을 제공하지 않을 수 있다. 스마트 TV에 설치된 객체 인식 장치를 이용하여 사용자를 인식하고, 간단한 동작으로 시청의 권한을 제한할 수 있고, 예를 들면 어린이의 TV 시청 시간 등을 제한하는 방식으로 사용자 체험감을 높일 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

객체를 감지하는 이벤트 기반 비전 센서와 연결되는 프로세서가 실행하는 객체 인식 방법에 있어서,
상기 객체에 대한 이벤트 흐름(Event Flow)에 기초하여, 상기 프로세서가 입력 영상을 생성하는 단계;
상기 입력 영상에 기초하여, 상기 프로세서가 미리 정의된 복수의 관심 영역들에 대응하는 복수의 관심 영역 영상들을 생성하는 단계;
상기 복수의 관심 영역들의 특징들을 추출하도록 구성된 복수의 인식기들에 상기 복수의 관심 영역 영상들이 입력되는 단계;
상기 복수의 인식기들로부터 추출된 특징들에 기초하여, 상기 프로세서가 복합 특징을 생성하는 단계; 및
상기 복합 특징에 기초하여 상기 프로세서가 상기 객체를 인식하는 단계; 를 포함하는 객체 인식 방법.
제1항에 있어서,
상기 복수의 인식기들 각각에 의해, 상기 프로세서가 상기 복수의 관심 영역들로부터 상기 복수의 관심 영역들의 특징들을 각각 추출하는 단계; 를 더 포함하며,
상기 복수의 관심 영역 영상들은 상기 복수의 인식기들에 병렬적으로 입력되는 객체 인식 방법.
제1항에 있어서,
상기 프로세서가 상기 복합 특징을 생성하는 단계는,
상기 프로세서가 상기 복수의 인식기들에 의해 추출된 상기 특징들을 결합하는 단계; 및
상기 프로세서가 상기 결합된 특징들을 이용하여 상기 복합 특징을 생성하는 단계; 를 포함하는 객체 인식 방법.
제1항에 있어서,
상기 복수의 인식기들은 복수의 CNN(Convolutional Neural Network)들로 구성된 다중 입력 CNN을 포함하고,
상기 다중 입력 CNN은, 상기 복수의 CNN들로 병렬적으로 입력된 상기 복수의 관심 영역 영상들로부터, 상기 객체를 식별하는 상기 복합 특징을 추출하는 다중 입력-단일 출력 구조를 갖는 객체 인식 방법.
제1항에 있어서,
상기 복수의 인식기들 중 적어도 하나는,
입력되는 관심 영역 영상에 대해 컨벌루젼 연산을 수행하는 컨벌루젼 층;
상기 컨벌루젼 층의 출력을 샘플링하는 풀링(pooling) 층; 및
상기 풀링 층의 출력 및 완전 연결망을 이용하여 관심 영역의 특징을 추출하는 완전 연결층; 을 포함하는 객체 인식 방법.
제1항에 있어서,
상기 객체가 사람인 경우, 상기 복수의 관심 영역들은 상기 사람의 몸, 머리, 상체, 하체, 다리 및 팔에 대응하는 영역들 중 적어도 하나를 포함하는 객체 인식 방법.
제1항에 있어서,
상기 프로세서가 상기 입력 영상을 생성하는 단계는,
상기 프로세서가 수직 투영법(vertical projection) 및 수평 투영법(horizontal projection)을 이용하여, 상기 객체에 대한 바운딩 박스(bounding box)를 검출하는 단계; 및
상기 프로세서가 상기 바운딩 박스에 기초하여 상기 입력 영상을 생성하는 단계; 를 포함하는 객체 인식 방법.
제1항에 있어서,
상기 프로세서가 상기 복수의 관심 영역 영상들을 생성하는 단계는,
상기 입력 영상으로부터, 상기 프로세서가 상기 객체의 관심 대상을 포함하는 미리 정의된 관심 영역을 추출하는 단계;
상기 프로세서가 상기 미리 정의된 관심 영역에 기초하여 관심 영역 영상을 생성하는 단계;
상기 관심 영역 영상에 기초하여, 상기 관심 대상의 너비(width) 및 높이(height)가 획득되는 단계;
상기 너비 및 높이를 이용하여, 상기 관심 영역 영상이 미리 정해진 거리에 대해 리사이즈 되는 단계; 및
상기 프로세서가 상기 리사이즈된 상기 관심 영역 영상을 이용하여 상기 복수의 관심 영역 영상들을 생성하는 단계; 를 포함하는 객체 인식 방법.
제8항에 있어서,
상기 너비 및 높이가 획득되는 단계는,
상기 프로세서가 상기 관심 영역 영상에 대해 수직 투영법을 적용하여 상기 관심 대상의 너비를 획득하는 단계; 및
상기 프로세서가 상기 관심 대상의 상기 너비에 대한 고정 비율을 이용하여, 상기 관심 대상의 높이를 획득하는 단계; 를 포함하는 객체 인식 방법.
제1항에 있어서,
상기 프로세서가 상기 복수의 관심 영역 영상들에 대한 유효성을 분류하도록 구성된 필터를 이용하여, 상기 복수의 관심 영역 영상들에 대한 상기 유효성을 출력하는 단계; 및
상기 출력 결과에 기초하여, 상기 복수의 관심 영역 영상들을 상기 복수의 인식기들에 입력하는 단계; 를 더 포함하는 객체 인식 방법.
제1항에 있어서,
상기 입력 영상을 생성하는 단계는,
상기 프로세서가 상기 이벤트 흐름에 기초하여 미리 정의된 시간의 적분 영상(integral image)를 생성하는 단계;
상기 적분 영상을 시공간 필터(spatio-temporal filter)로 필터링하는 단계; 및
상기 필터링된 적분 영상에 기초하여 상기 입력 영상을 생성하는 단계; 를 포함하는 객체 인식 방법.
객체를 감지하는 이벤트 기반 비전 센서와 연결되는 프로세서가 실행하는 객체 인식 방법에 있어서,
상기 객체에 대한 이벤트 흐름(Event Flow)에 기초하여, 상기 프로세서가 입력 영상을 생성하는 단계;
상기 입력 영상에 기초하여, 상기 프로세서가 복수의 관심 영역들에 대응하는 복수의 관심 영역 영상들을 생성하는 단계;
상기 복수의 관심 영역들의 특징들을 추출하도록 구성된 복수의 인식기들에 상기 복수의 관심 영역 영상들이 입력되는 단계;
상기 복수의 인식기들에 의해 추출된 특징들에 기초하여, 상기 프로세서가 복합 특징을 생성하는 단계; 및
상기 프로세서가 상기 객체를 상기 복합 특징과 연관시켜 등록하는 단계; 를 포함하는 객체 등록 방법.
프로세서; 및
상기 프로세서에 의해 실행되는 명령어들을 저장하는 메모리; 를 포함하며,
상기 프로세서는,
객체에 대한 이벤트 흐름에 기초하여 입력 영상을 생성하고,
상기 입력 영상에 기초하여 복수의 관심 영역들에 대응하는 복수의 관심 영역 영상들을 생성하고,
상기 복수의 관심 영역들의 특징들을 추출하도록 구성된 복수의 인식기들에 상기 복수의 관심 영역 영상들을 입력하고,
상기 복수의 인식기들에 의해 추출된 특징들에 기초하여 복합 특징을 생성하고,
상기 복합 특징에 기초하여 상기 객체를 인식하는, 객체 인식 장치.
제13항에 있어서,
상기 프로세서는, 상기 복수의 관심 영역 영상들로부터 상기 복수의 관심 영역들의 특징들을 각각 추출하며,
상기 복수의 관심 영역 영상들은 상기 복수의 인식기들에 병렬적으로 입력되는 객체 인식 장치.
제13항에 있어서,
상기 프로세서는, 상기 복수의 인식기들에 의해 추출된 특징들을 결합하고, 상기 결합된 특징들을 이용하여 상기 복합 특징을 생성하는 객체 인식 장치.
삭제
삭제
삭제
삭제
삭제