WO2023146118A1

WO2023146118A1 - Hci를 통해 태그를 획득하고 물체에 대한 명령을 수행하는 방법 및 전자 장치

Info

Publication number: WO2023146118A1
Application number: PCT/KR2022/019693
Authority: WO
Inventors: 야키신예브헨니; 비아트차니노브올렉산드르; 시츄르올렉산드르
Original assignee: 삼성전자 주식회사
Priority date: 2022-01-25
Filing date: 2022-12-06
Publication date: 2023-08-03

Abstract

본 개시의 일 실시예에 따르면, HCI를 통해 획득한 타겟 물체의 시각적 디스크립터와 태그를 이용하여 타겟 물체에 대한 사용자의 명령을 수행하는 방법이 제공된다. 방법은, 타겟 물체가 포함된 복수개의 이미지를 획득하고, 복수개의 이미지에 기초하여 타겟 물체를 조작하는 사용자의 모션을 감지하고, 타겟 물체를 식별하기 위한 시각 정보를 포함하는 타겟 물체의 시각적 디스크립터를 획득하고, 타겟 물체를 표시(mark)함으로써, 타겟 물체와 관련된 정보를 입력 받아 타겟 물체의 태그를 획득하고, 태그에 대응하는 입력 신호의 수신에 대한 응답으로, 시각적 디스크립터에 기초하여, 타겟 물체에 대해 입력 신호에 대응하는 동작을 수행하할 수 있다.

Description

HCI를 통해 태그를 획득하고 물체에 대한 명령을 수행하는 방법 및 전자 장치

본 개시는 사람과 컴퓨터 간 상호작용(HCI)을 통해 전자 장치가 사용자와의 상호작용을 하는 수행하는 방법 및 그 응용에 관련된 것이다. 구체적으로, 본 개시는 HCI를 통해 획득한 물체의 시각적 디스크립터와 태그를 이용하여 사용자로부터 입력 받은 신호에 대응하는 동작을 수행하는 방법 및 장치에 관한 것이다.

컴퓨팅 기술 아래에서, 스마트폰, 태블릿, 로봇, IoT를 기반으로 한 가전제품, 모바일 장비, 웨어러블 디바이스, AR/MR을 이용하는 디바이스 등의 등장으로 사람과 컴퓨터 간 상호작용(HCI) 방법은 상용화 되었다.

일상 속에서 HCI를 이용해 사용자에게 보조 역할을 수행하는 전자기기 및 서비스에 대한 수요의 증가에 따라, 다양한 형태의 로봇과 서비스가 제공되고 있다. 사용자에게 또는 특정 지점으로 물체를 이동시키거나, 사용자의 질문에 응답하여 물체에 대한 정보를 제공해주는 등의 서비스가 존재한다. 영상 기반의 HCI 방법은, 카메라를 통해 영상을 획득하고, 사용자의 명령을 입력 신호로 받고 처리하는 과정으로 구성된다. 이러한 HCI 방법은 사용자의 제스처를 인식하거나, 물체에 대한 스마트 태그(smart tag) 등을 이용하여 컴퓨터와 인터랙션(interaction) 할 수 있다.

한편, 현재 대부분의 HCI 방법을 이용한 서비스에서는, 물체에 대한 정보를 획득하기 위해 고른 배경 앞에서 물체를 인식시키거나, 정보를 수동으로 입력하여, 등록된 정보가 존재하는 물체에 대해서만 서비스를 제공할 수 있다는 한계가 존재한다. 또한, 동일 카테고리 내의 물체에 대해서는 구체적인 분류가 어렵다는 한계가 존재한다.

위의 내용은 본 개시의 이해를 돕기 위한 배경 정보로 제공되는 것이다. 본 개시와 관련하여 상기 내용 중 어느 것이 선행기술로 적용될 수 있는지에 대한 결정 또는 주장은 개시되지 않았다.

본 개시의 실시예들은 상술한 문제점 및/또는 단점을 해결하고 후술되는 장점들을 제공하기 위함이다. 따라서, 본 개시는 영상 카메라 장치를 이용하여 물체를 조작하는 사용자의 모션을 감지하고, HCI를 통해 획득한 물체의 시각적 디스크립터와 태그를 이용하여 물체에 대한 명령을 수행하는 방법 및 장치를 제공하는 것을 목적으로 한다.

구체적으로, 타겟 물체를 조작하는 사용자의 모션으로부터 물체에 대한 정보를 획득하고, 동일 카테고리 내의 물체에 대해서는 사용자의 입력 신호를 통해 물체의 태그를 획득하여 명령에 대응하는 동작을 수행할 수 있다.

일 실시예서, 타겟 물체에 대한 시각적 스크립터와 타겟 물체의 태그를 획득하는 방법 및 전자장치가 제공될 수 있다.

추가적인 실시예들은 하기 설명에서 부분적으로 설명될 것이고, 부분적으로는 설명으로부터 명백하거나 제시된 실시예의 실시에 의해 학습될 수 있다.

일 실시예에서, 전자장치가 사용자와의 상호 작용을 통해 동작을 수행하는 방법은, 타겟 물체가 포함된 복수개의 이미지를 획득할 수 있다. 동작을 수행하는 방법은 복수개의 이미지에 기초하여 타겟 물체를 조작하는 사용자의 모션을 감지할 수 있다. 동작을 수행하는 방법은, 타겟 물체를 식별하기 위한 시각적 정보를 포함하는 타겟 물체의 시각적 디스크립터를 획득할 수 있다. 동작을 수행하는 방법은 타겟 물체를 표시(mark)함으로써, 타겟 물체와 관련된 정보를 입력 받아 타겟 물체의 태그를 획득할 수 있고, 태그에 대응하는 입력 신호의 수신에 대한 응답으로, 시각적 디스크립터에 기초하여, 타겟 물체에 대해 입력 신호에 대응하는 동작을 수행하는 단계를 포함할 수 있다.

일 실시예에서, 시각적 디스크립터는, 사용자의 모션이 복수개의 이미지가 획득되는 화각(Field of View) 내에서 감지되는 것에 응답하여 획득될 수 있다.

일 실시예에서, 타겟 물체의 태그는 타겟 물체의 사용 주체, 타겟 물체의 용도, 타겟 물체의 사용 빈도, 타겟 물체의 외관, 또는 타겟 물체에 대한 사용자의 선호도 중 적어도 하나 이상에 대한 정보를 포함할 수 있다.

일 실시예에서, 시각적 디스크립터는, 타겟 물체의 이동을 제공하기 위한 파지(grasping) 정보를 더 포함할 수 있다.

일 실시예에서, 입력 신호를 수행하는 단계는, 시각적 디스크립터에 포함된 시각적 정보에 기초하여, 타겟 물체를 식별하고, 파지 정보에 기초하여, 타겟 물체의 이동을 제공하는 단계를 포함할 수 있다.

일 실시예에서, 시각적 디스크립터는 타겟 물체의 3D 모델, 타겟 물체의 전체 또는 부분의 점구름(point cloud), 타겟 물체의 전체 또는 부분의 질감, 타겟 물체의 시각적 특성에 국한된 디스크립터, 타겟 물체의 기하학적 구조 또는 타겟 물체의 외관 중 적어도 하나를 나타내는 정보를 포함할 수 있다.

일 실시예에서, 전자 장치는, 시각적 디스크립터에 기초하여, 적어도 하나의 광원을 이용하여 타겟 물체를 표시할 수 있다.

일 실시예에서, 전자 장치는, 시각적 디스크립터에 기초하여, 적어도 하나의 AR 프로젝션을 이용하여 타겟 물체를 표시할 수 있다.

일 실시예에서, 화각의 위치와 크기를 결정하고, 화각에 기초하여, 타겟 물체를 조작하는 사용자의 모션을 감지하는 단계를 포함할 수 있다.

일 실시예에서, 시각적 디스크립터와 태그를 저장하는 방법은, 시각적 디스크립터를 데이터 베이스에 저장하고, 물체의 태그를 데이터 베이스에 저장하고, 시각적 디스크립터와 태그 간의 링크를 데이터 베이스에 저장하는 단계를 더 포함할 수 있다.

일 실시예에서, 사용자와 상호작용하기 위한 전자 장치에 있어서, 카메라 모듈; 적어도 하나 이상의 인스트럭션이 저장된 메모리; 및 메모리에 저장된 적어도 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고, 프로세서는, 타겟 물체가 포함된 복수개의 이미지를 획득하도록 카메라 모듈을 제어하고, 복수개의 이미지에서 타겟 물체를 조작하는 사용자의 모션을 감지하고, 타겟 물체를 식별하기 위한 시각적 정보를 포함하는 타겟 물체의 시각적 디스크립터를 획득하고, 타겟 물체를 표시(mark)함으로써, 타겟 물체와 관련된 정보를 입력 받아 타겟 물체의 태그를 획득하고, 태그에 대응하는 입력 신호를 수신에 대한 응답으로, 시각적 디스크립터에 기초하여, 입력 신호에 대응하는 동작을 수행할 수 있다.

일 실시예에서, 컴퓨터 프로그램 제품은, 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서가 제어할 수 있도록 하는 지시를 포함하는 프로그램을 저장한 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다. 프로세서는 타겟 물체가 포함된 복수개의 이미지를 획득하는 동작을 수행할 수 있고, 복수개의 이미지에 기초하여 타겟 물체를 조작하는 사용자의 모션을 감지하는 동작, 타겟 물체를 식별하기 위한 시각적 정보를 포함하는 타겟 물체의 시각적 디스크립터를 획득하는 동작; 타겟 물체를 표시(mark)함으로써, 타겟 물체와 관련된 정보를 입력 받아 타겟 물체의 태그를 획득하는 동작, 태그에 대응하는 입력 신호의 수신에 대한 응답으로, 시각적 디스크립터에 기초하여, 타겟 물체에 대해 입력 신호에 대응하는 동작을 수행할 수 있다.

본 개시에 따르면, 타겟 물체의 고유 명칭이 아닌 물체의 태그와 시각적 디스크립터를 활용하여, 사용자의 명령에 대응하는 동작을 수행할 수 있다.

본 개시의 다른 실시예, 장점 및 특징은 첨부된 도면들과 함께 본 개시의 다양한 실시예들을 개시하는 하기의 상세한 설명을 통해 당업자에게 명백할 것이다.

본 개시의 특정 실시예들의 다른 측면, 특징 및 이점들은 첨부된 도면들과 함께 다음의 설명을 통해 더욱 명확히 이해될 수 있다:

도 1은 일 실시예에 따른 타겟 물체의 시각적 디스크립터와 타겟 물체의 태그를 획득하는 방법을 설명하기 위한 도면이다.

도 2는 일 실시예에 따른 타겟 물체로부터 획득한 시각적 디스크립터와 태그를 기초로 하여 입력 신호에 대응하는 동작을 수행하는 방법을 설명하기 위한 순서도이다.

도 3은 일 실시예에 따른 타겟 물체로부터 획득한 시각적 디스크립터와 태그를 기초로 하여 입력 신호에 대응하는 동작을 수행하는 방법을 설명하기 위한 순서도이다.

도 4는 일 실시예에 따른 전자 장치가 시각적 디스크립터와 태그를 획득하기 위한 동작을 설명하기 위한 도면이다.

도 5는 일 실시예에 따른 전자장치의 블록 구성도이다.

도 6은 일 실시예에 따른 전자장치의 블록 구성도이다.

도 7은 일 실시예에 따른 전자 장치가 타겟 물체를 조작하는 사용자의 모션을 감지하고, 타겟 물체의 시각적 디스크립터를 획득하는 과정을 설명하기 위한 도면이다.

도 8은 일 실시예에 따른 전자 장치가 시각적 디스크립터를 획득하는 과정을 설명하기 위한 도면이다.

도 9는 일 실시예에 따른 파지 정보에 기초하여, 전자 장치가 타겟 물체를 조작하는 방법을 설명하기 위한 도면이다.

도 10은 일 실시예에 따른 타겟 물체의 시각적 디스크립터인 기하학적 구조를 설명하기 위한 도면이다.

도 11은 일 실시예에 따른 타겟 물체의 시각적 디스크립터인 점구름(point cloud)을 설명하기 위한 도면이다.

도 12는 일 실시예에 따른 시각적 디스크립터에 기초하여, 타겟 물체의 태그에 대응하는 입력 신호를 수신하고, 명령을 수행하는 동작을 설명하기 위한 도면이다.

도 13은 일 실시예에 따른 타겟 물체를 표시(mark)하는 방법을 설명하기 위한 도면이다.

도 14는 일 실시예에 따른 타겟 물체를 표시(mark)하는 방법을 설명하기 위한 도면이다.

도 15는 일 실시예에 따른 시각적 디스크립터의 활용성을 설명하기 위한 도면이다.

도 16은 일 실시예에 따른 시각적 디스크립터를 활용한 증강 현실을 설명하기 위한 도면이다.

도 17은 일 실시예에 따른 시각적 디스크립터를 활용한 증강 현실을 설명하기 위한 도면이다.

도면 전반에 걸쳐 동일하거나 유사한 요소, 특징 및 구조를 설명하기 위해 동일한 참조 번호가 사용될 수 있다.

첨부된 도면들을 참조하여 다음 설명은 청구항 및 균등 범위에 의해 정의되는 본 개시의 다양한 실시예들에 대한 포괄적인 이해를 돕기 위해 제공된다. 이해를 돕기 위해 다양한 구체적인 세부사항을 포함하지만, 이는 예시적인 것으로 간주된다. 따라서, 당업자라면 본 명세서에 기재된 다양한 실시예들의 다양한 변경 및 수정이 본 개시의 범위 및 취지를 벗어나지 않고 이루어질 수 있음을 인식할 것이다. 또한, 명확성 및 간결성을 위해 알려진 기능 및 구조에 대한 설명은 생략할 수 있다.

다음의 설명 및 청구항에서 사용되는 용어 및 단어는 서지적 의미에 한정되는 것이 아니라, 발명자가 본 개시에 대한 명확하고 일관된 이해를 가능하게 하기 위해 사용하는 것에 불과하다. 따라서, 본 발명의 다양한 실시예들에 대한 아래 설명은 단지 예시적인 목적으로 제공되며, 첨부된 청구항 및 균등 범위에서 정의된 본 개시를 제한하는 목적으로 제공되지 않는다는 것은 당업자들에게 명백할 것이다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 실시 형태에 대해 한정하려는 것이 아니며, 본 개시는 여러 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

본 개시의 실시예들에서 사용되는 용어는 본 개시의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어질 수 있다. 본 개시의 하나의 청구항 카테고리(claim category)에서(예를 들어, 방법 청구항에서) 언급된 다양한 특징(feature)들은 다른 청구항 카테고리에서도(예를 들어, 시스템 청구항에서도) 청구될 수 있다. 또한, 본 개시의 일 실시예는 첨부된 청구범위에 명시된 특징들의 조합뿐만 아니라 청구범위 내의 개별 특징들의 다양한 조합들 또한 포함될 수 있다. 본 개시의 범위는 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다. 또한, "직접적으로 연결" 또는 "물리적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 본 개시에서, "송신(transmit)", "수신(receive)" 및 "통신(communicate)" 이라는 용어들은 직접 통신 및 간접 통신을 모두 포함한다. 본 개시 전체에서 어떤 부분이 어떤

구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.

또한, 본 개시에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 이러한 기능은 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.

본 개시 전체에서, 특별히 반대되는 기재가 없는 한 "또는(or)"은 포괄적(inclusive)이며 배타적(exclusive)이지 않다. 따라서, 명백히 달리 표시되거나 문맥상 달리 표시되지 않는 한, "A 또는 B"는 "A, B, 또는 둘 모두"를 나타낼 수 있다. 본 개시에서, "~중 적어도 하나" 또는 "하나 이상의 ~"라는 문구는, 열거된 항목들 중 하나 이상의 항목들의 서로 다른 조합이 사용될 수도 있고, 열거된 항목들 중 임의의 하나의 항목만이 필요한 경우를 의미할 수도 있다. 예를 들어, "A, B, 및 C 중 적어도 하나"는 다음의 조합들 중 임의의 것을 포함할 수 있다: A, B, C, A 및 B, A 및 C, B 및 C, 또는 A 및 B 및 C.

본 개시에서 사용되는 용어에 대해 간략히 설명하고, 본 발명의 일 실시예에 대해 구체적으로 설명하기로 한다.

본 개시에서, '복수개의 이미지'는 동영상 또는 비디오의 정지영상, 복수의 연속된 정지영상(또는 프레임)을 의미할 수 있다.

또한, 본 개시에서 '시각적 정보'는 물체의 3D 모델, 물체의 전체 또는 부분의 점구름(point cloud), 물체의 질감, 물체의 기하학적 구조, 또는 색상, 크기 등 외관을 의미할 수 있다.

또한, 본 개시에서 '시각적 디스크립터'는 2D 스케일 불면 기능 변환(2D scale-invariant feature transform(SIFT)), 2D 강력한 기능 향상(2D speeded up robust feature(SURF)), 2D 지향의 빠른 회전식 브리핑(2D oriented fast and rotated brief(ORB)), 3D 점구름, 3D 메시(mesh), 부호화 거리 함수(signed distance function(SDF)), 특성 벡터(feature vector), 3D 원시(3D primitive) 또는 3D 화소(voxel)를 의미할 수 있다.

또한, 본 개시에서 '화각(Field of View)'는 물체를 관찰할 수 있는 범위로, 카메라가 타겟 물체를 촬영할 수 있는 범위를 의미할 수 있다.

또한, 본 개시에서 '파지(grasping) 정보'는 물체를 집거나, 들어올리거나, 이동시키는 경우 물체에 사용자의 신체가 접촉하는 부위를 의미할 수 있다.

또한, 본 개시에서 '태그'는 유연한 맥락적 정보로 어떤 물체에 부여된 키워드 또는 분류를 의미할 수 있다.

또한, 본 개시에서 '점구름'은 좌표계에 속한 점들의 집합으로, 3D 점구름은 3차원 좌표계에서 물체의 표면을 나타내는 점들의 집합을 x, y, z 좌표로 표현한 것을 의미할 수 있다.

도 1은 일 실시예에 따른 타겟 물체의 시각적 디스크립터(visual descriptor)와 타겟 물체의 태그를 획득하는 방법을 설명하기 위한 도면이다.

도 1을 참조하면, 일 실시예에 따른 타겟 물체에 대한 시각적 디스크립터와 태그를 획득하는 방법은 전자장치(120)를 포함할 수 있다. 도 1은 일 실시예에 따른 전자장치(120)와 사용자(140) 간의 상호작용을 통해, 타겟 물체(130)에 대한 시각적 디스크립터와 타겟 물체의 태그(150)를 획득(110)하는 과정을 도시하고 있다.

일 실시예에서, 전자장치(120)는 다양한 형태로 구현될 수 있다. 예를 들어, 본 개시에서의 전자장치(120)는 로봇, AR 글래스, MR 글래스, XR 글래스, 디지털 카메라, 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 스마트 폰(smart phone) 등이 될 수 있으나, 이에 한정되는 것은 아니다. 본 명세서에서 기술되는 전자장치(120)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 이하, 설명의 편의를 위해 일부 실시예에서, 전자장치(120)는 로봇인 경우를 예로 들어 설명하기로 한다.

일 실시예에서, 전자장치(120)는 타겟 물체가 포함된 복수개의 이미지를 획득하기 위한 카메라 모듈(도시되지 않음)을 포함할 수 있다. 전자장치(120)는 카메라 모듈을 통해 획득한 복수개의 이미지에서 타겟 물체(130)와 이를 조작하는 사용자(140)의 모션을 감지하고, 타겟 물체의 시각적 디스크립터와 입력부(도시되지 않음)를 통해 타겟 물체의 태그 및 입력 신호를 획득할 수 있다(110).

일 실시예에서, 전자장치(120)는 타겟 물체를 조작하는 사용자의 모션으로부터 타겟 물체의 시각적 정보와 타겟 물체의 파지(grasping) 정보를 포함하는 시각적 디스크립터를 획득할 수 있다. 사용자 모션의 예시로는, 타겟 물체를 집는 동작, 잡는 동작 또는 들어서 이동시키는 동작을 포함할 수 있으나, 이에 한정되지 않는다.

일 실시예에서, 타겟 물체의 시각적 디스크립터는, 타겟 물체를 이미지 내의 다른 물체들과 구별하여 감지하기 위한 시각적 정보를 포함할 수 있다. 예를 들어, 타겟 물체의 3D 모델, 타겟 물체의 전체 또는 부분의 점구름(point cloud), 타겟 물체의 전체 또는 부분의 질감, 타겟 물체의 기하학적 구조, 또는 색상, 크기, 무늬 등 타겟 물체의 외관을 포함할 수 있다. 시각적 디스크립터는 입력 신호에 대응하는 동작을 수행하기 위한 파지(grasping) 정보를 포함할 수 있다. 예를 들어, 타겟 물체의 기하학적 구조, 무게중심, 타겟 물체와 사용자의 손 등이 접촉하는 지점(point) 등을 포함할 수 있다. 시각적 디스크립터를 어떤 방식으로 획득하는지와 그 구체적인 종류에 대한 실시예에 대해서는 이하 도7-11을 참조하여 상세히 설명한다.

일 실시예에서, 타겟 물체의 태그(150)는, 하나의 카테고리에 속하는 물체라도 물체의 용도나 사용하는 주체 등이 다르기 때문에, 이후 사용자의 명령 수행 시, 타겟 물체를 같은 카테고리 내 다른 물체들과 구분하기 위해 사용될 수 있다. 타겟 물체의 태그는 일반적인 물체의 명칭(예를 들어, 컵, 시계, 마우스 등)과는 구별되는 것이다. 타겟 물체의 태그의 예시로는, 타겟 물체를 사용하는 주체, 타겟 물체의 용도, 타겟 물체의 외관(형태, 질감, 색상 등) 타겟 물체에 대한 사용자의 빈도수, 선호도 중 하나 이상에 대한 정보가 포함될 수 있고, 이에 한정되지는 않는다.

전자장치(120)가 타겟 물체를 식별하고, 이로부터 타겟 물체의 시각적 디스크립터와 타겟 물체의 태그를 획득, 태그에 대응하는 입력 신호를 수행하는 과정은 도2 및 도3을 참조하여 상세히 설명한다.

단계 S210에서, 전자장치(120)는, 타겟 물체가 포함된 복수개의 이미지를 획득할 수 있다.

일 실시예에서, 전자장치(120)는, 정해진 화각(Filed of View) 내에서 타겟 물체가 포함된 복수개의 이미지를 획득할 수 있다.

일 실시예에서, 전자장치(120)는 타겟 물체가 포함될 수 있는 이미지가 담기는 화각(FoV)의 위치와 크기를 조절할 수 있다. 일 실시예에 따른 화각(FoV)의 조절 방법은, 카메라 모듈이 달린 전자장치(120)의 전면부를 기준으로 화각의 위치와 크기를 조절할 수 있다. 화각의 크기는 수평축(horizontally), 수직축(vertically), 대각 방향(diagonally)중 한 방향으로 크기를 조정할 수 있으나, 이에 한정되지 않는다. 또한, 화각의 위치는 크기 조정의 중심점을 이용해 변경할 수 있다.

단계 S220에서, 전자장치(120)는 획득한 복수개의 이미지에서 타겟 물체를 조작하는 사용자의 모션을 감지한다. 일 실시예에서, 사용자의 모션은 타겟 물체를 잡는 동작, 집는 동작, 또는 들어서 이동시키는 동작을 포함할 수 있으나, 이에 한정되지 않는다.

단계 S230에서, 타겟 물체의 시각적 디스크립터를 획득한다. 일 실시예에서, 시각적 디스크립터는 타겟 물체의 시각적 또는 공간적 정보를 나타내는 모든 종류의 데이터를 의미할 수 있다. 일 실시예에서, 시각적 디스크립터는, 타겟 물체를 복수개의 이미지 내에 포함된 다른 물체들과 구별하기 위한 시각적 정보를 포함할 수 있고, 타겟 물체에 대한 명령을 수행하기 위한 파지(grasping) 정보를 포함할 수 있다. 예를 들어, 시각적 디스크립터는 타겟 물체의 3D 모델, 타겟 물체의 전체 또는 부분의 점구름, 타겟 물체의 전체 또는 부분의 질감, 타겟 물체의 기하학적 구조 또는 외관 중 하나를 포함할 수 있고 이에 대해서는 도 7이하에서 상세히 설명한다.

단계 S240에서, 전자장치(120)는 타겟 물체를 표시함으로써, 타겟 물체의 태그를 획득한다. 일 실시예에서, 타겟 물체를 표시함으로써, 타겟 물체의 태그를 획득한다는 것은, 타겟 물체에 대한 시각적 디스크립터를 획득하였음을 알려주고, 태그의 대상이 되는 타겟 물체를 사용자에게 표시하여, 타겟 물체의 태그 정보를 획득하는 동작이다. 일 실시예에서, 타겟 물체에 대한 표시는 빔 포인터를 이용한 적어도 하나의 광원을 이용할 수 있다. 광원을 이용해 타겟 물체를 쏘거나, 외형을 따라 광원을 쏘는 등의 방법을 포함할 수 있다. 사용자가 AR, XR, 또는 MR 글래스를 사용하는 경우에는, 경계 박스(bounding box), 그물망(mesh), 텍스처화(texturized object), 포인터 등 시각적으로 표시할 수 있는 방법을 포함할 수 있다. AR 프로젝션의 경우에는, 프로젝터를 이용하여 사용자가 타겟 물체를 인식할 수 있게 하는 방법을 포함할 수 있으며, 타겟 물체를 표시하는 방법은 이에 한정되지 않는다. 예를 들어, 로봇 팔을 이용하여 물리적으로 타겟 물체를 가리키는 방법을 포함할 수 있다. 구체적인 예시와 실시예는 도 13이하에서 상세히 설명한다.

일 실시예에서, 타겟 물체의 태그는, 타겟 물체에 대한 사용자의 명령을 실행하기 위한 것으로 음성, 텍스트, 터치, 가상 또는 실제 버튼 조작 등을 통해 이뤄질 수 있으며, 이에 한정되지 않는다. 본 개시에서, 타겟 물체의 태그는 물체 고유의 명칭과는 구별되는 것으로, 사용자와 관련되거나 물체의 용도와 관련된 것이 포함될 수 있다. 예를 들어, 타겟 물체를 사용하는 주체, 타겟 물체의 용도, 타겟 물체의 외관(형태, 질감, 색상 등), 타겟 물체에 대한 사용자의 사용 빈도수, 선호도 등에 대한 정보가 포함될 수 있고 이에 한정되지는 않는다.

단계 S250에서, 전자장치(120)는, 입력 신호에 대응하는 동작을 수행한다. 일 실시예에서, 타겟 물체에 대한 입력 신호는, 타겟 물체를 특정 지점 또는 사용자에게 이동시키거나, 집는 동작 등이 포함될 수 있고, 이에 한정되지 않는다. 일 실시예에서, 타겟 물체에 대한 명령을 수행하기 위해서, 전자장치(120)는, 태그에 대응하는 입력 신호를 수신하고, 시각적 디스크립터에 포함된 시각적 정보에 기초하여, 복수개의 물체들 중 타겟 물체를 식별하고, 파지(grasping) 정보에 기초하여, 타겟 물체의 이동을 제공한다. 타겟 물체의 태그에 대응하는 입력 신호는, 음성, 텍스트, 터치, 버튼 조작 등을 통해 이뤄질 수 있으며, 이에 한정되지 않는다.

이하 도 3에서는 일 실시예에 따른 타겟 물체로부터 획득한 시각적 디스크립터와 태그를 기초로 하여 명령을 수행하는 방법을 보다 상세히 설명한다. 도 2와 중복되는 단계에 대해선 설명의 간략을 위해 상세한 설명은 생략한다.

단계 S310에서, 전자장치(120)는, 타겟 물체가 포함된 복수개의 이미지를 획득한다.

단계 S320에서, 타겟 물체를 조작하는 사용자의 모션이 화각(FoV) 내에서 감지되면, 다음 동작을 수행한다.

단계 S330에서, 타겟 물체의 시각적 디스크립터를 획득한다. 일 실시예에서, 타겟 물체에 대한 시각적 디스크립터는 타겟 물체를 복수개의 이미지 내에 포함된 다른 물체와 구별하기 위한 시각적 정보를 포함할 수 있고, 타겟 물체의 이동을 위한 파지(grasping) 정보를 포함할 수 있다. 예를 들어, 타겟 물체의 3D 모델, 타겟 물체의 전체 또는 부분의 점구름, 타겟 물체의 전체 또는 부분의 질감, 타겟 물체의 기하학적 구조, 외관, 무게중심, 또는 타겟 물체에 사용자의 신체가 접촉하는 지점(point)에 대한 정보 중 하나를 포함할 수 있고 이에 대해서는 도7 이하에서 상세히 설명한다.

단계 S340에서 타겟 물체에 대한 시각적 디스크립터가 전자 장치(120)에 저장된 상태인지 판단한다. 일 실시예에서, 타겟 물체에 대한 시각적 디스크립터는 데이터 베이스에 저장될 수 있다.

단계 S350에서, 전자장치(120)는 사용자에게 타겟 물체를 표시(mark)한다. 일 실시예에서, 사용자에게 타겟 물체를 표시한다는 것은, 타겟 물체에 대한 시각적 디스크립터를 획득하였음을 알려주고, 태그의 대상이 되는 타겟 물체를 사용자에게 표시하여, 사용자로부터 타겟 물체에 대한 태그 정보를 입력 받기 위한 단계이다.

단계 S360에서, 전자장치(120)는 표시된 타겟 물체의 태그를 획득한다. 일 실시예에서, 타겟 물체의 태그는, 이후 사용자의 명령을 실행하기 위한 것으로 이는 음성, 텍스트, 터치, 버튼 조작 등을 통해 입력될 수 있다. 본 개시에서, 타겟 물체의 태그는 물체 고유의 명칭과 구별되는 것으로, 사용자와 관련되거나 물체의 용도와 관련된 것이 포함될 수 있다. 예를 들어, 타겟 물체의 태그는 타겟 물체를 사용하는 주체, 타겟 물체의 용도, 타겟 물체의 외관(형태, 질감, 색상 등), 타겟 물체에 대한 사용자의 사용 빈도수, 선호도 등에 대한 정보가 포함될 수 있고, 이에 한정되지는 않는다.

단계 S370에서, 전자장치(120)는, 타겟 물체의 태그가 획득되면, 타겟 물체의 태그를 시각적 디스크립터와 함께 저장하여, 이후 전자장치(120)의 동작에 이용한다. 일 실시예에서, 타겟 물체의 태그를 시각적 디스크립터와 함께 저장하는 방법은, 타겟 물체의 시각적 디스크립터를 데이터 베이스에 먼저 저장하고, 타겟 물체의 태그가 획득되면, 타겟 물체의 태그를 데이터 베이스에 저장한다. 추가로 타겟 물체의 시각적 디스크립터와 타겟 물체의 태그 간의 링크를 데이터 베이스에 저장한다. 저장된 링크를 이용하여 타겟 물체에 대한 입력 신호에 대응하는 동작을 수행할 수 있다.

일 실시예에서, 타겟 물체를 조작하는 사용자의 모션이 화각 내에서 감지되지 않는 경우에는, 전자장치(120)에 타겟 물체의 시각적 디스크립터가 저장되어 있는지 확인한다. 타겟 물체의 시각적 디스크립터가 저장되어 있지 않거나 새로이 획득하지 못한 경우에는, 전자장치(120)를 이용하여 복수개의 이미지 획득하는 단계를 수행한다.

도 4를 참조하면, 전자 장치(120)를 이용하여 복수개의 이미지를 획득할 수 있다(410). 일 실시예에서, 복수개의 이미지는 RGB, RGBD 카메라 모듈을 통해 획득될 수 있다.

복수개의 이미지에서, 전자 장치(120)는 타겟 물체를 조작하는 사용자의 모션을 감지하고(420), 타겟 물체에 대한 시각적 디스크립터를 획득(430)하거나, 저장된 시각적 디스크립터가 있는지 찾는 동작(440)을 수행한다. 일 실시예에서, 타겟 물체를 조작하는 사용자의 모션은, 타겟 물체를 집는 동작, 잡는 동작, 또는 이동시키는 동작을 포함할 수 있다. 일 실시예에서, 타겟 물체에 대한 시각적 디스크립터는, 타겟 물체를 식별하기 위한 시각적 정보, 타겟 물체에 대한 명령을 수행하기 위한 파지(grasping) 정보를 포함할 수 있다. 일 실시예에서, 타겟 물체의 시각적 디스크립터는 데이터 베이스에 저장될 수 있다.

전자 장치(120)는 시각적 디스크립터 데이터베이스(450)에 기초하여, 사용자에게 타겟 물체를 표시한다(460). 일 실시예에서, 타겟 물체를 표시하는 것은, 타겟 물체에 대한 시각적 디스크립터를 획득하였음을 알려주고, 타겟 물체를 사용자에게 표시하여, 타겟 물체의 태그 정보를 획득하기 위한 동작이다. 일 실시예에서, 타겟 물체에 대한 표시는 빔 포인터를 이용한 적어도 하나의 광원을 이용할 수 있다. 빔 포인터를 이용해 타겟 물체를 쏘거나, 타겟 물체의 외형을 따라 광원을 쏘는 등의 방법을 포함할 수 있다. 사용자가 AR, XR, 또는 MR 글래스를 사용하는 경우에는, 경계 박스(bounding box), 그물망(mesh), 텍스처화(texturized object), 포인터 등 시각적으로 표시할 수 있는 방법을 포함할 수 있다. AR 프로젝션의 경우에는, 프로젝터를 이용하여 사용자가 타겟 물체를 인식할 수 있게 하는 방법을 포함할 수 있으며, 타겟 물체를 표시하는 방법은 이에 한정되지 않는다. 예를 들어, 로봇 팔을 이용하여 물리적으로 타겟 물체를 가리키는 방법을 포함할 수 있다. 구체적인 예시와 실시예는 도 13 이하에서 자세히 살펴본다.

전자 장치(120)는, 인간과 컴퓨터 간 상호작용(Human Computer Interaction)을 통하여, 물체의 태그를 획득할 수 있다. 일 실시예에서, 타겟 물체의 태그는, 이후 사용자의 명령을 실행하기 위한 것으로 음성, 텍스트, 터치, 버튼 조작 등을 통해 이뤄질 수 있으며, 이에 한정되지 않는다. 본 개시에서, 타겟 물체의 태그는 물체 고유의 명칭과 구별되는 것으로, 사용자와 관련되거나 물체의 용도와 관련된 것이 포함될 수 있다. 예를 들어, 타겟 물체를 사용하는 주체, 타겟 물체의 용도, 타겟 물체의 외관(형태, 질감, 색상 등), 타겟 물체에 대한 사용자의 사용 빈도수, 선호도 등에 대한 정보가 포함될 수 있고, 이에 한정되지는 않는다.

전자 장치(120)는, 시각적 디스크립터와 물체의 태그에 기초하여, 사용자와의 상호작용을 통해 여러가지 동작들을 수행할 수 있다(470). 일 실시예에서, 전자 장치(120)는 타겟 물체의 태그에 대응하는 입력 신호를 입력 받고, 시각적 디스크립터에 기초하여, 입력 신호를 수행할 수 있다. 예를 들어, 입력 신호를 수행하는 것은, 타겟 물체를 지정된 위치로 이동시키거나, 사용자에게 가져오는 동작, 또는 타겟 물체를 집는 동작 등을 포함할 수 있다.

도 5는 일 실시예에 따른 전자 장치를 설명하기 위한 구성도이다.

도 5를 참조하면, 시각적 디스크립터와 타겟 물체의 태그를 획득, 명령을 수행하는 동작은 전자장치(120)에 의해 수행될 수 있다. 일 실시예에 따른 전자장치(120)는, 카메라 모듈(510), 메모리(520), 프로세서(530)를 포함할 수 있다. 그러나 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 전자 장치(120)는 도시된 구성요소보다 많은 구성요소에 의해 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 전자장치(120)는 구현될 수 있다.

카메라 모듈(510)은 타겟 물체가 포함된 복수개의 이미지를 획득하고 타겟 물체와 타겟 물체를 조작하는 사용자의 모션을 감지할 수 있다. 카메라 모듈이 감지하는 사용자의 모션은 일 실시예에 따르면, 물체를 집는 동작, 잡는 동작, 또는 이동시키는 동작이 될 수 있으며, 손을 이용하여 물체를 조작하는 동작이 포함될 수 있다. 일 실시예에서, 카메라 모듈(510)은 복수개의 카메라들로 구현될 수 있다.

일 실시예에서, 카메라 모듈(510)은 전자 장치(120)의 전면부 방향의 중심을 기준으로 하여, 수평축(horizontally), 수직축(vertically), 또는 대각 방향(diagonally) 중 적어도 하나의 길이를 조정하여 복수개의 이미지를 획득하는 화각(FoV)의 크기를 결정할 수 있고, 크기 조정의 중심점을 기준으로 화각(FoV)의 위치를 결정할 수 있다.

메모리(520)는, 프로세서(530)에서 실행되는 프로그램 명령 또는 코드를 저장할 수도 있고, 입/출력되는 데이터들(예컨대, 복수개의 이미지, 시각적 디스크립터, 물체의 태그, 태그에 대응하는 입력 신호)을 저장할 수도 있다. 일 실시예에서, 메모리(520)는 복수개의 메모리들로 구현될 수 있다.

메모리(520)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

프로세서(530)는, 통상적으로 전자장치(120)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(530)는 메모리(520)에 저장된 인스트럭션(instruction)들을 실행함으로써, 카메라 모듈(510)의 화각(FoV)을 결정할 수 있고, 타겟 물체를 조작하는 사용자의 모션을 감지할 수 있다. 또한, 프로세서(530)는 타겟 물체의 시각적 디스크립터와 타겟 물체의 태그를 획득하고 저장할 수 있으며, 태그에 대응하는 입력 신호를 수신하고, 이에 대응하는 동작을 수행할 수 있다. 일 실시예에서, 프로세서(530)는 복수개의 프로세서들로 구현될 수 있다.

도 6은 일 실시예에 따른 전자 장치를 설명하기 위한 구성도이다.

도 6에서 도시한 바와 같이, 일 실시예에 따른 전자장치(120)는, 도 5에 도시된 전자장치(120)의 구성 요소들 이외에 추가적으로 출력부(640), 입력부(650), 구동부(660)를 포함할 수 있다.

이하 상기 구성요소들에 대해 차례로 살펴본다.

카메라 모듈(610), 메모리(620), 프로세서(630)는 도 5의 카메라 모듈(510), 메모리(520), 프로세서(530)에 대응하는 동작을 수행할 수 있으므로, 설명의 간략을 위해 상세한 설명은 생략한다.

출력부(640)는, 사용자에게 타겟 물체를 표시(mark)해주기 위한 동작을 수행한다. 일 실시예에서, 전자 장치(120)는 빔 포인터를 이용한 적어도 하나의 광원을 이용해 타겟 물체를 표시할 수 있다. 빔 포인터를 이용해 타겟 물체를 쏘거나, 타겟 물체의 외형을 따라 광원을 쏘는 방법 등을 포함할 수 있다. 일 실시예에서, 사용자가 AR/MR/XR 글래스를 사용하는 경우, 전자 장치(120)는 물체의 주변에 경계 박스(bounding box)를 만들거나, 그물망(mesh)을 통해 타겟 물체를 표시하거나, 타겟 물체에 다른 질감을 표시하는 등 시각적인 효과를 통해 사용자에게 타겟 물체를 표시할 수 있다. 전자 장치(120)가 출력부(640)를 통해 사용자에게 타겟 물체를 표시해주는 방법은 이에 한정되지 않고, 3차원 공간에서 사용자의 주의를 끌어 물체에 대한 인식을 할 수 있게 하는 다양한 방법을 포함할 수 있다. 예를 들어, 전자장치(120)가 로봇인 경우, 로봇의 손을 통해 물리적으로 타겟 물체를 표시할 수 있다. 구체적인 예시와 실시예는 도 13 이하에서 자세히 살펴본다.

일 실시예에서 출력부(640)는, 타겟 물체를 표시하는 방법에 대응하여, 빔 포인터, AR, XR, MR 글래스의 디스플레이, AR 프로젝터, 로봇 팔 등이 포함될 수 있으나, 이에 한정되는 것은 아니다.

입력부(650)는, 타겟 물체의 태그를 획득하기 위해 사용자로부터 타겟 물체에 대한 정보를 입력 받거나, 타겟 물체의 태그에 대응하는 입력 신호를 수신하는 동작을 수행한다. 사용자의 입력은 음성 입력, 텍스트 입력, 터치 입력, 실제 또는 가상의 버튼을 통한 입력 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 일 실시예에서, 입력부(650)는, 사용자의 입력 방법에 대응하여, 마이크, 키보드, 터치스크린, 버튼 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

구동부(660)는, 전자 장치(120)가 입력부(650)를 통해, 물체의 태그에 대응하는 입력 신호를 수신하는 경우, 입력 신호에 대응하는 동작을 수행한다. 구동부(660)는 전동력, 자기력, 공기압력 등을 이용할 수 있고, 이에 한정되는 것은 아니며, 직선 운동과 회전 운동을 수행할 수 있다. 예를 들어, 타겟 물체의 이동을 명령한 경우, 전자 장치(120)는 구동부(660)를 제어하여 바퀴 등을 통해 이동하고, 직선 운동과 회전 운동을 통해 타겟 물체를 집거나 들어올려 이동시킬 수 있다.

도 7은 일 실시예에 따른 전자 장치(120)가 타겟 물체를 조작하는 사용자의 모션을 감지하고, 타겟 물체의 시각적 디스크립터를 획득하는 과정을 설명하기 위한 도면이다.

도 7을 참조하면, 일 실시예에서, 전자 장치(120)는 타겟 물체를 조작하는 사용자의 모션을 화각(FoV) 내에서 감지할 수 있다. 타겟 물체를 조작하는 사용자의 모션은 타겟 물체의 모양이나 용도에 따라 다양한 실시예가 존재할 수 있다. 물체를 조작하는 사용자의 모션은 다음과 같은 예시를 포함할 수 있으나, 이에 한정되지 않는다.

물체 안에 들어 있는 내용물을 이용하는(예컨대, 소스 통, 본드, 물감 등) 실시예(710)의 경우, 사용자는 물체의 내용물이 나오는 입구가 아닌 내용물이 담기는 통 부분을 잡고 물체를 조작한다. 물체의 후면부를 지지하고, 전면부를 통해 물체의 기능을 수행하는(예컨대, 핸드폰, 태블릿 PC 등) 실시예(720)의 경우, 일반적으로 후면부와 측면부에 사용자의 신체 일부가 접촉된 상태로 조작될 수 있다. 물체 안에 다른 내용물을 담아서 이용하는(예컨대, 컵, 병, 필통 등) 실시예(730)의 경우, 내용물을 담는 부분이 아닌 물체의 외부 표면에 사용자의 신체 일부가 접촉하여 조작될 수 있다. 물체 자체가 얇거나 사용자가 접촉하는 부분이 얇은(예컨대, 연필, 빨대, 호스 등) 실시예(740)의 경우, 물체의 면적 대비 사용자가 접촉하는 부분이 차지하는 비율이 크고, 타겟 물체와 사용자의 접촉 면이 겹칠 수 있다. 물체를 손 전반을 이용하여 움켜쥐는(예컨대, 물병, 캔, 병, 등) 실시예(750)의 경우, 물체 외부 표면 전반에 사용자의 신체가 접촉하여 물체를 조작할 수 있다.

일 실시예에서, 전자 장치(120)는 타겟 물체를 조작하는 사용자의 모션을 감지(760)하고, 타겟 물체의 시각적 디스크립터를 획득(770)할 수 있다. 일 실시예에 따르면, 물체의 시각적 디스크립터는, 3D 모델이 될 수 있고, 타겟 물체와 타겟 물체를 조작하는 사용자의 신체 일부로 나타날 수 있다. 예를 들어, 원기둥 모양의 물체를 조작하는 사용자의 모션이 감지되는 경우(760), 전자 장치(120)는 물체의 외부 형태인 원기둥 모양과 이를 조작하는 사용자의 손의 3D 모델을 이미지로부터 획득할 수 있다(770). 전자 장치(120)는 획득된 3D 모델로부터 사용자의 손 모양과 타겟 물체의 외부 형태를 분리하여 인식할 수 있고(780), 물체의 기하학적 구조와 물체를 조작하기 위해 사용자의 손이 접촉한 지점(point)에 대한 파지 정보를 얻을 수 있다(790).

도 8은 일 실시예에 따른 전자 장치(120)가 타겟 물체의 시각적 디스크립터를 획득하는 과정을 구체적인 실시예를 통해 설명하기 위한 도면이다.

도 8에 따르면, 시각적 디스크립터는, 타겟 물체의 3D 모델, 타겟 물체의 점구름(point cloud), 타겟 물체의 기하학적 구조, 타겟 물체에 사용자의 신체 일부가 접촉하는 지점(point) 등을 포함할 수 있다. 전자 장치(120)에 의해 획득된 복수개의 이미지에서, 타겟 물체를 조작하는 사용자의 모션이 감지된 경우, 전자 장치(120)는 타겟 물체의 시각적 디스크립터를 획득할 수 있다.

일 실시예에서, 전자 장치(120)는 획득한 복수개의 이미지로부터 RGB 스트림을 통해 물체의 모양 특성을 검출하고, 전파 시간(Time of Flight)을 이용한 깊이 스트림(Depth Stream)을 통해 전자 장치(120)와 타겟 물체 간의 거리를 분석한 이미지를 획득할 수 있다(810). 예를 들어, 컵을 조작하는 사용자의 손을 감지한 경우, 전자 장치(120)는 타겟 물체인 컵과, 컵을 조작하는 사용자의 손의 모양 특성을 RGB 스트림을 통해 알아내고, 깊이 스트림을 통해 전자 장치(120)로부터의 거리를 분석할 수 있다.

일 실시예에서, 전자 장치(120)는 분리 스트림(Segmentation Stream)을 통해, 분석된 이미지로부터 배경, 타겟 물체, 타겟 물체를 조작하는 사용자의 신체를 분리할 수 있다(820). 일 실시예에서, 전자 장치(120)는 분리된 복수의 이미지로부터 타겟 물체의 디스크립터를 획득할 수 있다(830). 일 실시예에서, 타겟 물체의 디스크립터는 시각적 디스크립터의 전 단계로, 동적 점구름(dynamic point cloud)를 포함할 수 있다. 예를 들어, 전자 장치(120)는 컵을 조작하는 사용자의 손에 대한 RGB 스트림과 깊이 스트림을 통한 분석이 끝난 후, 타겟 물체인 컵과 컵을 조작하는 사용자의 손, 배경 이미지를 분리할 수 있다.

일 실시예에서, 타겟 물체의 시각적 디스크립터는 복수의 이미지로부터, 타겟 물체를 조작하고 있는 사용자의 여러 모션을 캡처하고, RGB 스트림과 분리 스트림을 거친 디스크립터에 다운 샘플링을 한 상태를 의미한다. 일 실시예에서, 타겟 물체에 대한 디스크립터에 대한 다운 샘플링은, 점구름의 다운 샘플링을 통해, 동적 희소 점구름(dynamic sparse point cloud)을 생성하는 것을 포함할 수 있다.

일 실시예에서, 전자 장치(120)는 물체의 디스크립터에 대해 다운 샘플링을 수행함으로써 타겟 물체의 동적 희소 점구름(dynamic sparse point cloud) 정보와 파지 정보를 획득할 수 있다(840). 일 실시예에서, 타겟 물체의 점구름은 3차원 좌표계에서 3D 스캐너를 통해 타겟 물체의 외관을 점들을 통해 표현한 것이다. 예를 들어, 전자 장치(120)는 타겟 물체인 컵에 대한 물체의 디스크립터에 대해 다운 샘플링을 수행할 수 있다. 다운 샘플링을 통해 컵의 동적 희소 점구름 정보와 파지 정보를 포함하는 시각적 디스크립터를 획득할 수 있다.

일 실시예에서, 다운샘플링을 통해 획득한 시각적 디스크립터로부터, x, y, z축 방향의 회전을 통해 물체를 사용하는 정방향으로 조정한 점구름과 파지 정보를 획득할 수 있다(850). 획득된 정보로부터 물체의 기하학적 구조와, 물체의 조작을 위한 파지 정보를 획득할 수 있다(860). 예를 들어, 컵의 기하학적 원형인 원기둥과 무게중심, 컵에 접촉한 손의 지점 등을 포함한 시각적 디스크립터를 획득할 수 있다.

도 9는 일 실시예에 따른 시각적 디스크립터에 기초하여, 전자 장치(120)가 타겟 물체를 조작하는 방법을 설명하기 위한 도면이다.

도 9를 참조하면, 일 실시예에서, 시각적 디스크립터(910)에 기초하여, 전자 장치(120)가 타겟 물체를 잡는 동작(920)을 수행할 수 있다. 일 실시예에서, 시각적 디스크립터는 타겟 물체를 식별하기 위한 시각적 정보와, 타겟 물체에 대응하는 명령을 수행하기 위한 파지(grasping) 정보를 포함할 수 있다. 타겟 물체의 파지 정보는, 예를 들어 타겟 물체의 기하학적 구조, 무게 중심, 타겟 물체와 사용자의 손 등이 접촉하는 지점 등을 포함할 수 있고, 이에 한정되지 않는다.

일 실시예에서, 타겟 물체에 대한 파지(grasping) 정보는 사용자의 손이 접촉한 부분(910)을 포함할 수 있고, 파지 정보에 기초하여, 전자 장치(120)는 타겟 물체를 들어올리거나 집는 동작을 수행할 수 있다(920). 전자 장치(120)가 타겟 물체를 조작하는 방법에는 전자 장치(120)의 형태 또는 타겟 물체의 형태에 따라 다양한 실시예가 존재할 수 있다.

예를 들어, 전자 장치(120)와 물체가 접촉하는 부분이 두 지점이고, 파지 부분에 관절이 존재하지 않고 좌우 압력을 통해 동작하는 실시예(930)가 존재할 수 있다. 또는, 전자 장치와 물체가 접촉하는 부분이 세 지점이고, 파지 부분에 관절이 존재하여 물체를 조작하는 실시예(940)가 존재할 수 있다. 다른 예시로, 전자 장치에서 명령을 수행하는 부분이 사람의 손 모양과 유사한 형태를 지닌 실시예(950)가 존재할 수 있다.

타겟 물체의 형태에 따른 타겟 물체를 조작하는 방법에는, 타겟 물체의 무게 중심이 중앙부에 위치하는 경우(960), 타겟 물체에 손잡이 등이 달려 무게 중심이 한 방향으로 쏠린 경우(970), 타겟 물체의 조작을 위해 가장자리를 이용하는 것이 적절한 경우(980) 등이 존재할 수 있고, 이에 한정되지 않는다.

도 10은 일 실시예에 따른 타겟 물체의 시각적 디스크립터인 기하학적 구조를 설명하기 위한 도면이다. 일 실시예에서, 타겟 물체의 시각적 디스크립터는 타겟 물체의 기하학적 구조를 포함한다.

일 실시예에서, 실제 라벨링(1010)과 예측된 라벨링(1030) 간의 유사도를 확인할 수 있다. 일 실시예에서, 타겟 물체의 실제 라벨링(1010)을 동작부(A), 파지부(B), 받침부 또는 충전부(C)로 나타낼 수 있다. 이미지로부터 라벨링에 따른 기하학적 구조(1020)를 분리하여 획득할 수 있다. 일 실시예에서, 타겟 물체의 예측된 라벨링(1030)을 동작부(D)와 파지부(E)로 나타내고, 예측 라벨링에 따른 기하학적 구조(1040)를 분리하여 획득할 수 있다.

일 실시예에서, 실제 라벨링을 기초로 한 기하학적 구조(1020)와 예측 라벨링을 기초로 한 기하학적 구조(1040) 간의 유사도 메트릭(Similarity Metric)을 구할 수 있다.

식 (1)

와

는 꼭지점이 n개인 다른 그래프에 속하는 좌표이다. 꼭지점 수를 동일하게 n개로 설정하고, 정점 거리(Vertex Distance)를 구할 수 있다. 정점 거리는 기하학적 원형의 질량 중심 사이의 관계를 보여준다.

는 기하학적 원형의 특징들 간 유사도를 나타내고,

는 균형상수(balancing constant)이다. 식 (1)을 이용하여, 실제 라벨링(1010)과 예측 라벨링(1030)의 질량 중심을 기준으로 각 꼭지점까지의 정점 거리와 특징들 간 유사도를 구해, 타겟 물체의 기하학적 구조를 데이터베이스에 저장할 수 있다.

도 11은 일 실시예에 따른 타겟 물체의 시각적 디스크립터인 점구름(point cloud)을 설명하기 위한 도면이다. 일 실시예에서, 타겟 물체의 시각적 디스크립터는 타겟 물체의 점구름(point cloud)을 포함할 수 있다.

도 11을 참조하면, 일 실시예에서, 견본 점구름(Template point cloud)(1110)과 획득한 점구름(Registered point cloud)(1120) 간 유사도를 구할 수 있다.

식 (2)

식 (3)

식 (4)

ErrT는 정규화된 번역 오류(normalized translation error)로,

는 타겟 물체의 꼭지점 중 가장 먼 지점 간의 거리를 의미한다. ErrT를 구하기 위해, 견본 점구름(1110)과 획득한 점구름(1120)이 그려지는 좌표축을 합친 좌표축(1130)을 생성한다. 생성된 좌표축(1130)에서 축의 중심 사이 거리(1140)만큼 점구름 좌표의 중심을 조정하여 중심이 일치하는 그래프(1150)를 획득할 수 있다. 중심이 일치하는 그래프(1150)로부터 ErrR을 구한다. ErrR은 정규화된 회전 오류(normalized rotation error)로, x, y, z 축 각각에 대한 각도 차이

를 이용하여 구할 수 있다. ErrR 과 ErrT를 이용하여 식 (2)를 통해 견본 점구름(1010)과 획득한 점구름(1120)간의 유사도를 이용해 타겟 물체의 점구름(point cloud)을 데이터베이스에 저장할 수 있다.

일 실시예에서, 전자 장치(120)는 사용자(1250)로부터 타겟 물체(1260)의 태그를 획득할 수 있다. 일 실시예에서, 타겟 물체의 태그는, 타겟 물체를 사용하는 주체, 타겟 물체의 용도, 타겟 물체의 외관(형태, 질감, 색상 등), 타겟 물체에 대한 사용자의 빈도수, 선호도 중 하나 이상에 대한 정보가 포함될 수 있고, 이에 한정되지 않는다.

일 실시예에서, 전자 장치(120)는 타겟 물체의 태그와 타겟 물체의 시각적 디스크립터를 데이터베이스에 저장할 수 있다(1220). 일 실시예에서, 전자 장치(120)는 타겟 물체의 시각적 디스크립터와 타겟 물체의 태그를 데이터 베이스에 저장한다. 이 후, 전자 장치(120)는 타겟 물체의 시각적 디스크립터와 타겟 물체의 태그 간 링크를 데이터베이스에 저장하여, 타겟 물체의 태그에 대응하는 입력신호에 대한 동작을 수행하는데 이용할 수 있다.

일 실시예에서, 전자 장치(120)는 사용자(1250)로부터, 타겟 물체의 태그에 대응하는 입력 신호를 수신(1230)할 수 있다. 일 실시예에서, 타겟 물체의 태그에 대응하는 입력 신호는, 타겟 물체를 집는 동작, 잡는 동작 또는 이동시키는 동작이 포함될 수 있고, 이에 한정되지 않는다. 일 실시예에서, 타겟 물체의 태그에 대응하는 입력 신호는, 음성, 텍스트, 터치, 버튼 조작 등을 통해 이뤄질 수 있으며, 이에 한정되지 않는다. 일 실시예에서, 전자 장치(120)는 입력부(예컨대, 마이크, 터치스크린, 버튼 등)를 통해 타겟 물체의 태그에 대응하는 입력 신호를 수신할 수 있다.

일 실시예에서, 전자 장치(120)는 타겟 물체에 대해 입력 신호에 대응하는 동작을 수행할 수 있다(1240). 일 실시예에서, 입력 신호에 대응하는 동작은, 타겟 물체를 집는 동작, 잡는 동작, 특정 지점으로 이동시키거나 사용자에게 이동시키는 동작을 포함할 수 있다.

도 13은 일 실시예에 따른 타겟 물체를 표시(mark)하는 방법을 설명하기 위한 도면이다. 일 실시예에서, 타겟 물체를 표시하는 방법은, AR 글래스, XR글래스, MR 글래스를 사용자가 이용하는 경우, 경계 박스(bounding box), 그물망(mesh), 텍스처화(texturized object), 포인터 등 시각적으로 표시할 수 있는 방법을 포함할 수 있다.

도 13을 참조하면, 전자 장치(120)는 사용자가 AR, XR, MR 글래스 등을 착용한 경우, 타겟 물체를 표시함으로써, 타겟 물체와 관련된 정보를 입력 받아 타겟 물체의 태그를 획득하기 위해서 타겟 물체의 기하학적 구조를 디스플레이에 표시할 수 있다(1320). 일 실시예에서, 전자 장치(120)는 타겟 물체의 기하학적 구조에 추가로 파지 정보를 포함하는 시각적 디스크립터(1330)에 기초하여, 타겟 물체의 기하학적 구조에 더해 파지 정보를 함께 표시할 수 있다(1340).

일 실시예에서, AR, XR, MR 글래스를 착용한 사용자가 움직이거나, 타겟 물체를 쥔 손을 움직이는 경우에는, 타겟 물체의 기하학적 구조 또는 파지 정보의 표시가 타겟 물체의 움직임에 따라 조정될 수 있다.

14는 일 실시예에 따른 타겟 물체를 표시(mark)하는 방법을 설명하기 위한 도면이다.

도 14를 참조하면, 일 실시예에 따른 타겟 물체를 표시하는 동작에서, 전자 장치(120)는 시각적 디스크립터에 기초하여, 타겟 물체에서 사용자와 접촉하는 부분과 접촉하지 않는 부분, 또는 타겟 물체의 동작부와 비동작부 등을 구별하여, 다른 색상으로 표시할 수 있다. 일 실시예에서, 시각적 디스크립터에 포함되는 기하학적 구조는, 기하학적 원형을 포함할 수 있다(예컨대, 원기둥, 직육각형, 구, 원뿔 등).

도 15는 일 실시예에 따른 시각적 디스크립터의 활용성을 설명하기 위한 도면이다. 종래 경계 박스(bounding box)를 이용하여 타겟 물체를 표시해주는 방법(1510)은, 타겟 물체 전체를 감싸는 직육각형의 박스 형태로 구현된다.

일 실시예에서, 타겟 물체의 시각적 디스크립터를 활용하여 경계 박스(bounding box)를 통해 타겟 물체를 표시해주는 방법(1520)은, 타겟 물체의 기하학적 구조를 고려할 수 있다. 타겟 물체 전체를 감싸는 직육각형의 표시방법의 경우, 타겟 물체 외의 다른 배경 부분까지 포함시키는 한계가 있는 바, 본원의 일 실시예에 따른 타겟 물체 표시 방법(1520)은 시각적 디스크립터에 기초하여, 타겟 물체만을 정확히 표시할 수 있다.

일 실시예에서, 타겟 물체의 외관이 원기둥과 구가 합쳐진 모양인 경우, 종래의 타겟 물체 표시 방법(1510)에서는, 타겟 물체를 식별하여 원기둥과 구를 모두 감싸는 직육각형의 경계 박스(bounding box)를 이용하여 표시한다. 본원의 타겟 물체 표시 방법 (1520)에서는, 타겟 물체의 기하학적 구조를 포함하는 시각적 디스크립터에 기초하여, 원기둥(1530)과 구(1540) 모양을 정확하게 표시하여, 타겟 물체 외에 다른 부분은 경계 박스(bounding box)내에 포함되지 않도록 할 수 있다.

일 실시예에서, 시각적 디스크립터에 기초하여, 타겟 물체의 외관을 파악하여 AR, XR, MR을 통해 타겟 물체를 가상 공간에서 활용하는 경우, 정확한 그래픽의 합성이나 정교한 타겟 물체의 조작이 가능하다.

도 16을 참조하면, 일 실시예에서, 사용자가 AR, MR, XR 글래스를 착용하는 경우, 타겟 물체의 시각적 디스크립터에 기초하여, 증강 현실(Augmented reality)을 구현할 수 있다. 일 실시예에서, 타겟 물체에 대한 시각적 디스크립터가 획득된 경우, 어플리케이션 또는 명령어의 실행 등을 통해 타겟 물체에 추가적인 그래픽 작업을 수행할 수 있다(1610). 일 실시예에서, 장난감에 대한 시각적 디스크립터를 획득한 후, 증강 현실을 구현할 수 있다. 장난감의 외형 정보를 정확하게 포함하는 시각적 디스크립터에 기초하여, 장난감의 위엔 비구름을, 측면엔 화살표를 합성할 수 있다.

17은 일 실시예에 따른 시각적 디스크립터를 활용한 증강 현실을 설명하기 위한 도면이다.

도 17을 참조하면, 타겟 물체에 대한 시각적 디스크립터에 기초하여, 타겟 물체에 대한 정보를 획득한 경우(1710), 실제 물체를 가상 현실(AR)에 추가할 수 있다(1720). 일 실시예에서, 실제 물체를 가상 현실에 추가하여, 물체를 조작하는 등의 상호작용을 통해 MR을 구현할 수 있다. 예를 들어, 타겟 물체인 화병의 기하학적 원형(원기둥과 구 모양), 타겟 물체의 외형(색상, 무늬, 질감) 등을 포함하는 시각적 디스크립터를 획득할 수 있다. 획득한 시각적 디스크립터에 기초하여, 증강 현실에서 화병을 원하는 장소에 합성하고, 조작할 수 있다.

한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램 또는 인스트럭션으로 작성 가능하고, 작성된 프로그램 또는 인스트럭션은 저장매체에 저장될 수 있다.

일 실시예에서, 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

본 개시는 다양한 실시예들을 참조하여 도시되고 설명되어 있지만, 첨부된 청구항들 및 균등 범위에 의해 정의되는 본 개시의 범위를 벗어나지 않고, 본 개시의 범위 안에서 다양한 형태 및 세부사항의 변경이 이루어질 수 있다는 것은 당업자들에 의해 이해될 수 있다.

Claims

전자장치가 사용자와의 상호 작용을 통해 동작을 수행하는 방법에 있어서,

타겟 물체가 포함된 복수개의 이미지를 획득하는 단계;

상기 복수개의 이미지에 기초하여 상기 타겟 물체를 조작하는 상기 사용자의 모션을 감지하는 단계;

상기 타겟 물체를 식별하기 위한 시각적 정보를 포함하는 상기 타겟 물체의 시각적 디스크립터를 획득하는 단계;

상기 타겟 물체를 표시(Mark)함으로써, 상기 타겟 물체와 관련된 정보를 입력 받아 상기 타겟 물체의 태그를 획득하는 단계;

상기 태그에 대응하는 입력 신호의 수신에 대한 응답으로, 상기 시각적 디스크립터에 기초하여, 상기 타겟 물체에 대해 상기 입력 신호에 대응하는 동작을 수행하는 단계; 를 포함하는 방법.
제1 항에 있어서,

상기 타겟 물체의 태그는,

상기 타겟 물체의 사용 주체, 상기 타겟 물체의 용도, 상기 타겟 물체의 사용 빈도, 상기 타겟 물체의 외관, 또는 상기 타겟 물체에 대한 사용자의 선호도 중 적어도 하나에 대한 정보를 포함하는, 방법.
전술한 청구항 중 어느 한 항에 있어서,

상기 시각적 디스크립터는 상기 타겟 물체의 이동을 제공하기 위한 파지(grasping) 정보를 더 포함하는, 방법.
전술한 청구항 중 어느 한 항에 있어서, 상기 입력 신호에 대응하는 동작을 수행하는 단계는,

상기 시각적 디스크립터에 포함된 시각적 정보에 기초하여, 상기 타겟 물체를 식별하는 단계; 및

상기 파지(grasping) 정보에 기초하여, 상기 타겟 물체의 이동을 제공하는 단계; 를 포함하는, 방법.
전술한 청구항 중 어느 한 항에 있어서,

상기 시각적 디스크립터는 상기 타겟 물체의 3D 모델, 상기 타겟 물체의 전체 또는 부분의 점구름(point cloud), 상기 타겟 물체의 전체 또는 부분 질감, 상기 타겟 물체의 시각적 특성에 국한된 디스크립터, 상기 타겟 물체의 기하학적 구조 또는 상기 타겟 물체의 외관 중 적어도 하나를 나타내는 정보를 포함하는, 방법.
전술한 청구항 중 어느 한 항에 있어서,

상기 물체의 태그를 획득하는 단계는,

상기 시각적 디스크립터에 기초하여, 적어도 하나의 광원을 이용해 상기 타겟 물체를 표시하는 단계; 를 포함하는 방법.
전술한 청구항 중 어느 한 항에 있어서,

상기 태그를 획득하는 단계는,

상기 시각적 디스크립터에 기초하여, 적어도 하나의 AR 프로젝션을 이용해 상기 타겟 물체를 표시하는 단계; 를 포함하는 방법.
전술한 청구항 중 어느 한 항에 있어서,

상기 시각적 디스크립터를 데이터 베이스에 저장하는 단계;

상기 태그를 상기 데이터 베이스에 저장하는 단계; 및

상기 시각적 디스크립터와 태그 간의 링크를 상기 데이터 베이스에 저장하는 단계; 를 더 포함하는 방법.
사용자와의 상호 작용을 통해 동작을 수행하는 전자 장치에 있어서,

카메라 모듈;

적어도 하나 이상의 인스트럭션이 저장된 메모리; 및

상기 메모리에 저장된 적어도 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하며,

상기 적어도 하나의 프로세서는,

타겟 물체가 포함된 복수개의 이미지를 획득하도록 상기 카메라 모듈을 제어하고,

상기 복수개의 이미지에서 상기 타겟 물체를 조작하는 상기 사용자의 모션을 감지하고,

상기 타겟 물체를 식별하기 위한 시각적 정보를 포함하는 상기 타겟 물체의 시각적 디스크립터를 획득하고,

상기 타겟 물체를 표시(mark)함으로써, 상기 타겟 물체와 관련된 정보를 입력 받아 상기 타겟 물체의 태그를 획득하고,

상기 태그에 대응하는 입력 신호의 수신에 대한 응답으로, 상기 시각적 디스크립터에 기초하여, 상기 타겟 물체에 대해 상기 입력 신호에 대응하는 동작을 수행하는, 전자 장치.
제9 항에 있어서,

상기 타겟 물체의 태그는,

상기 타겟 물체의 사용 주체, 상기 타겟 물체의 용도, 상기 타겟 물체의 사용 빈도, 상기 타겟 물체의 외관, 또는 상기 타겟 물체에 대한 사용자의 선호도 중 적어도 하나에 대한 정보를 포함하는 것을 특징으로 하는, 전자 장치.
전술한 청구항 중 어느 한 항에 있어서,

상기 시각적 디스크립터는 상기 타겟 물체의 이동을 제공하기 위한 파지(grasping) 정보를 더 포함하는, 전자 장치.
전술한 청구항 중 어느 한 항에 있어서, 상기 프로세서는,

상기 시각적 디스크립터에 포함된 시각적 정보에 기초하여, 상기 타겟 물체를 식별하고,

상기 파지(grasping) 정보에 기초하여, 상기 타겟 물체의 이동을 제공하는, 전자 장치.
전술한 청구항 중 어느 한 항에 있어서,

상기 시각적 디스크립터는 상기 타겟 물체의 3D 모델, 상기 타겟 물체의 전체 또는 부분의 점구름(point cloud), 상기 타겟 물체의 전체 또는 부분 질감, 상기 타겟 물체의 시각적 특성에 국한된 디스크립터, 상기 타겟 물체의 기하학적 구조 또는 상기 타겟 물체의 외관 중 적어도 하나를 나타내는 정보를 포함하는, 전자 장치.
전술한 청구항 중 어느 한 항에 있어서, 상기 프로세서는

상기 시각적 디스크립터에 기초하여, 적어도 하나의 광원 또는 적어도 하나의 AR 프로젝션 중 적어도 하나를 이용해 상기 타겟 물체를 표시하는, 전자 장치.
제1항 내지 제8항 중 어느 한 항의 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.