KR102434535B1

KR102434535B1 - 인터랙션 검출 방법 및 그 장치

Info

Publication number: KR102434535B1
Application number: KR1020190129709A
Authority: KR
Inventors: 신인식; 박준혁; 박진우; 남길현
Original assignee: 주식회사 메이아이
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2022-08-22
Also published as: KR20210046219A; WO2021075701A1; US20230326252A1

Abstract

상품에 대한 객체의 인터랙션 검출 방법 및 그 장치가 제공 된다. 하나 이상의 프레임 이미지를 획득하는 단계, 제1 프레임 이미지에서 제1 객체에 대하여 검출된 복수의 특징점 정보를 이용하여 상기 제1 객체의 포즈 데이터를 획득하는 단계, 상기 제1 객체의 포즈 데이터를 이용하여 상기 제1 객체의 인터랙션 발생 여부를 판단하는 단계, 상기 복수의 특징점 정보를 이용하여 상기 제1 객체의 관심 영역을 추정하는 단계 및 상기 제1 객체의 관심 영역에 대응되는 상품 정보를 획득하는 단계를 포함한다.

Description

인터랙션 검출 방법 및 그 장치{ METHOD AND APPARATUS FOR DETECTING HUMAN INTERACTION WITH AN OBJECT }

본 발명은 인터랙션 검출 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 상품 객체에 대한 사람의 인터랙션을 검출하는 방법 및 그 장치에 관한 것이다.

매장에 전시된 특정 상품에 대한 고객의 수요를 예측하기 위해서는, 해당 상품에 대한 고객의 인터랙션 정보를 이용할 수 있다. 통상적으로 매장에서 상품에 대한 고객의 인터랙션 정보는 해당 상품에 대한 고객의 구매 기록을 통해 예측될 수 있다. 하지만, 상품에 대한 인터랙션은 발생되었으나 해당 고객이 상품을 구매하지 않는 경우에는, 상기 상품에 대한 고객의 수요를 정확하게 예측하지 못한다는 한계가 존재한다. 따라서, 상품에 대한 고객의 인터랙션을 정확하게 예측할 수 있는 기술의 제공이 요구된다.

한국 공개특허공보 제10-2017-0022078호(2017.03.02.)

본 발명의 실시예들은 영상에 포함된 복수의 프레임을 이용하여 상품에 대한 인터랙션을 검출하는 방법 및 그 장치를 제공한다.

본 발명의 일 실시예에 따른 인터랙션 검출 방법은 하나 이상의 프레임 이미지를 획득하는 단계, 제1 프레임 이미지에서 제1 객체에 대하여 검출된 복수의 특징점 정보를 이용하여 상기 제1 객체의 포즈 데이터를 획득하는 단계, 상기 제1 객체의 포즈 데이터를 이용하여 상기 제1 객체의 인터랙션 발생 여부를 판단하는 단계, 상기 복수의 특징점 정보를 이용하여 상기 제1 객체의 관심 영역을 추정하는 단계 및 상기 제1 객체의 관심 영역에 대응되는 상품 정보를 획득하는 단계를 포함할 수 있다.

일 실시예에서 상기 제1 객체의 인터랙션 발생 여부를 판단하는 단계는, 객체의 인터랙션 발생 여부를 판단하도록 학습된 제1 신경망에 상기 제1 객체의 포즈 데이터를 입력하여 상기 제1 객체의 인터랙션 발생 여부를 판단하는 단계를 포함할 수 있다.

일 실시예에서 상기 제1 객체의 관심 영역을 추정하는 단계는, 인터랙션 타입을 결정하도록 학습된 제2 신경망에 상기 제1 프레임 이미지를 입력하여 상기 제1 객체의 관심 영역을 추정하는 단계를 포함할 수 있다.

일 실시예에서 상기 가중치가 부여된 복수의 특징점은, 상기 제1 객체가 사람 객체인 경우, 사람의 팔과 손에 대응되는 특징점에 나머지 특징점 보다 높은 가중치가 부여될 수 있다.

일 실시예에서 상기 상품 정보를 획득하는 단계는, 상기 제1 객체의 관심 영역의 배경 및 상기 제1 객체를 제거하는 단계 및 상기 제1 객체의 관심 영역에 존재하는 상품 정보를 추출하는 단계를 포함할 수 있다.

일 실시예에서 상기 상품 정보를 획득하는 단계는, 상품의 특징 데이터 기반으로 상품간 유사도를 측정하고, 상기 상품간 유사도를 기반으로 상기 상품에 대한 클러스터링을 수행하는 단계 및 상기 제1 객체의 관심 영역에 존재하는 상품의 특징 데이터와 대응되는 클러스터 정보로부터 상기 제1 객체의 관심 영역에 존재하는 상품 정보를 획득하는 단계를 포함할 수 있다.

본 발명의 다른 실시예에 따른 인터랙션 검출 장치는 프로세서를 포함하고, 상기 프로세서는 복수의 프레임 이미지를 획득하고, 제1 프레임 이미지에서 제1 객체에 대한 복수의 특징점 정보를 검출하고, 상기 복수의 특징점 정보를 이용하여 상기 제1 객체의 포즈 데이터를 획득하며, 상기 제1 객체의 포즈 데이터를 이용하여 상기 제1 객체의 인터랙션 발생 여부를 판단하고, 상기 복수의 특징점 정보에 가중치를 부여하여, 상기 제1 객체의 관심 영역을 예측하고, 상기 관심 영역에 대응되는 상품 정보를 획득할 수 있다.

도 1은 본 발명의 일 실시예에 따른 인터랙션 검출 장치를 포함하는 인터랙션 검출 시스템의 예를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 프로세서의 내부 구성을 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 인터랙션 검출 방법의 순서도이다.
도 4는 본 발명의 일 실시예에 따라 검출된 객체의 특징점 정보를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따라 인터랙션 발생 여부 및 인터랙션 발생 영역을 검출하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 인터랙션 발생 여부를 판단하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 사용자의 인터랙션 발생 영역을 검출하는 방법을 설명하기 위한 도면이다.
도 8 내지 도 10은 본 발명의 일 실시예에 따라 인터랙션이 발생한 상품 정보를 획득하는 방법을 설명하기 위한 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

이하 도 1을 참조하여 본 발명의 일 실시예에 따른 인터랙션 검출 장치를 포함하는 인터랙션 검출 시스템에 대하여 상세히 설명한다.

일 실시예에서, 인터랙션 검출 장치(100)는 네트워크(20)를 통해 영상 획득 장치(40)로부터 영상에 포함되는 복수의 프레임 이미지를 획득할 수 있고, 영상 획득 장치(40)는 카메라(10)에서 NVR(30)로 전달되는 영상을 네트워크(20)를 통해 획득할 수 있다. 일 실시예에서 인터랙션 검출 장치(100)와 영상 획득 장치(40)는 물리적으로 하나의 하드웨어로 구현될 수 있고, 다른 실시예에서 인터랙션 검출 장치(100)와 카메라(10)도 물리적으로 하나의 하드웨어로 구현될 수도 있음에 유의한다.

일 실시예에서 인터랙션 검출 장치(100)는 획득한 복수의 프레임 이미지 중 제1 프레임 이미지에서 제1 객체에 대한 복수의 특징점 정보를 검출할 수 있다. 또한, 복수의 특징점 정보를 이용하여 제1 객체의 포즈 데이터를 획득할 수 있으며, 제1 객체의 포즈 데이터를 이용하여 제1 객체의 인터랙션 발생 여부를 판단할 수 있다. 그리고 복수의 특징점 정보에 가중치를 부여하여 제1 객체의 관심 영역을 추정할 수 있고, 관심 영역에 대응되는 상품 정보를 획득할 수 있다. 보다 상세한 설명은 이하 도 3 내지 도 10에서 후술한다.

일 실시예에서 인터랙션 검출 장치(100)는 매장의 영상을 이용하여 상품에 대한 고객의 인터랙션 발생 여부를 검출할 수 있다. 또한, 일 실시예에서 인터랙션 검출 장치(100)는 컴퓨팅 연산량을 줄이고 메모리 사용량을 감소시키기 위하여 고객이 매대에 접근한 경우에 한하여 상품에 대한 고객의 인터랙션 여부를 검출할 수도 있다.

이하 도 2를 참조하여 본 발명의 일 실시예에 따른 인터랙션 검출 장치(100)의 내부 구성에 대하여 상세히 설명한다.

일 실시예에서 인터랙션 검출 장치(100)는 입출력 인터페이스(140), 메모리(110), 프로세서(120) 및 통신 모듈(130)을 포함할 수 있다. 메모리(110)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(110)에는 인터랙션 검출 장치(100)를 제어하기 위한 프로그램 코드 및 설정, 상품 정보, 객체의 포즈 데이터 및 특징점 정보가 일시적 또는 영구적으로 저장될 수 있다.

프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 모듈(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 모듈(130)은 네트워크를 외부 서버와 통신하기 위한 기능을 제공할 수 있다. 일례로, 인터랙션 검출 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이 통신 모듈(140)의 제어에 따라 네트워크를 통해 외부 서버로 전달될 수 있다. 역으로, 외부 서버의 프로세서의 제어에 따라 제공되는 제어 신호나 명령, 컨텐츠, 파일 등이 네트워크를 거쳐 통신 모듈(130)을 통해 인터랙션 검출 장치(100)로 수신될 수 있다. 예를 들어 통신 모듈(130)을 통해 수신된 외부 서버의 제어 신호나 명령 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 컨텐츠나 파일 등은 인터랙션 검출 장치(100)가 더 포함할 수 있는 저장 매체로 저장될 수 있다.

또한, 통신 모듈(130)은 외부 서버와 네트워크를 통해 통신할 수 있다. 통신 방식은 제한되지 않지만, 네트워크는 근거리 무선통신망일 수 있다. 예를 들어, 네트워크는 블루투스(Bluetooth), BLE(Bluetooth Low Energy), Wifi 통신망일 수 있다.

또한, 입출력 인터페이스(140)는 사용자의 입력을 수신하고, 출력 데이터를 디스플레이 할 수 있다. 일 실시예에 따른 입출력 인터페이스(140)는 디스플레이에 획득한 영상에 관심 영역을 오버레이 하여 표시할 수 있다.

또한, 다른 실시예들에서 인터랙션 검출 장치(100)는 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 인터랙션 검출 장치(100)는 인터랙션 검출 장치의 내부 구성요소들에 전력을 공급하는 배터리 및 충전 장치를 포함할 수 있고, 상술한 입출력 장치 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

또한, 비록 도 2에는 도시되지 않았지만 인터랙션 검출 장치(100)는 하나 이상의 카메라 모듈을 더 포함할 수 있다. 카메라 모듈은 하나 이상의 개별 카메라를 포함하는 카메라 모듈일 수 있다. 일 예로, 카메라 모듈은 인터랙션 검출 장치(100)에 내장된 카메라 모듈일 수 있고, 별도로 구비된 카메라 장치와의 연결을 위한 모듈일 수도 있다.

이하 도 3을 참조하여 본 발명의 일 실시예에 따른 인터랙션 검출 방법에 대하여 상세히 설명한다.

일 실시예에서 인터랙션 검출 장치는 하나 이상의 프레임 이미지를 획득할 수 있다(110). 상기 하나 이상의 프레임 이미지는 영상의 프레임 단위로 획득된 이미지로, 시간의 흐름에 따라 순차적으로 획득될 수 있다. 따라서, 이하 후술되는 프레임 이미지는 별도의 설명이 없더라도 단일 영상에서 순차적으로 획득된 프레임 이미지임을 가정하고 설명한다.

일 실시예에서 인터랙션 검출 장치는 제1 프레임 이미지에서 제1 객체에 대한 복수의 특징점 정보를 검출할 수 있다(S120). 제1 객체의 특징점 정보는 해당 분야에서 통상적으로 사용되는 중심점 추정 방법(key point estimation)을 이용하여 검출될 수 있다. 일 실시예에서 제1 객체가 사람 객체인 경우, 제1 객체의 특징점 정보는 사람 객체의 머리 중심점 및 몸체 중심점을 포함할 수 있고, 다른 실시예에서 사람 객체의 눈, 귀, 코, 어깨, 팔, 손, 양쪽 골반의 말단, 무릎, 발에 관한 특징점 정보를 더 포함할 수 있다. 다만 전술한 사람 객체의 특징점 정보는 이에 한하지 않으며, 특징점에 대응되는 사람 객체의 영역은 통상의 기술자가 목적에 따라 다양하게 변경될 수 있음에 유의한다.

일 실시예에서 인터랙션 검출 장치는 복수의 특징점 정보를 이용하여 제1 객체의 포즈 데이터를 획득할 수 있다(S120). 일 실시예에서 인터랙션 검출 장치는 메모리 사용량과 연산 자원을 절약하기 위해 지정된 조건을 만족하는 경우에 한하여 제1 객체의 포즈 데이터를 획득할 수 있다. 예를 들어 매장에서 상품에 대한 고객의 인터랙션을 검출하고자 하는 경우, 객체 검출 장치는 고객이 매대에 접근한 경우에 한하여 고객의 포즈 데이터를 획득할 수 있다.

일 실시예에서 인터랙션 검출 장치는 제1 객체의 포즈 데이터를 이용하여 제1 객체의 인터랙션 발생 여부를 판단할 수 있다(S130). 일 실시예에서 인터랙션 검출 장치는 인터랙션 발생 여부를 판단하도록 학습된 제1 신경망에 제1 객체의 포즈 데이터를 입력하여, 제1 객체의 인터랙션 발생 여부를 판단할 수 있다. 일 실시예에서 상기 제1 객체의 포즈 데이터는 그래프 데이터일 수 있고, 제1 신경망은 GCN(Graph Convolutional Network)기반의 신경망일 수 있다. 다만, 전술한 포즈 데이터의 포맷와 신경망 알고리즘의 구조는 이에 한정되지 않으며, 포즈 데이터의 포맷에 변경됨에 따라 신경망 알고리즘도 변경될 수 있음에 유의한다. 객체의 인터랙션 발생 여부를 판단하는 방법에 대한 상세한 설명은 도 6에서 후술한다.

일 실시예에서 인터랙션 검출 장치는 복수의 특징점 정보를 이용하여 제1 객체의 관심 영역을 추정할 수 있다(S140). 일 실시예에서 인터랙션 검출 장치는 객체의 인터랙션 타입을 결정하도록 학습된 제2 신경망에 제1 프레임 이미지를 입력하여 제1 객체의 관심 영역을 추정할 수 있다. 객체의 관심 영역을 추정하는 방법에 대한 상세한 설명은 도 7에서 후술한다.

일 실시예에서 인터랙션 검출 장치는 관심 영역에 대응되는 상품 정보를 획득할 수 있다(S150). 일 실시예에서 인터랙션 검출 장치는 상품의 특징 데이터 기반으로 상품간 유사도를 측정하여 상기 상품간 유사도 기반의 클러스터링을 수행할 수 있다. 또한, 인터랙션 검출 장치는 제1 객체의 관심 영역에 존재하는 상품의 특징 데이터와 대응되는 클러스터 정보로부터 상기 제1 객체의 관심 영역에 존재하는 상품 정보를 획득할 수 있다. 보다 상세한 설명은 도 8 내지 도 10에서 설명한다.

도 4는 본 발명의 일 실시예에 따라 검출된 객체의 특징점 정보를 설명하기 위한 도면이다.

특징점 정보는 해당 분야에서 통상적으로 사용되는 중심점 추정 방법(key point estimation)을 이용하여 검출된 복수의 특징점에 대한 정보(201), 복수의 특징점을 잇는 직선에 대한 정보(202), 특징점을 노드로 이용하고 특징점을 잇는 직선을 노드간 간선으로 이용하여 객체에 대응되도록 생성된 그래프 정보를 포함할 수 있다. 이하, 사람 객체를 검출하는 경우를 가정하여 설명한다.

일 실시예에서 인터랙션 검출 장치가 사람 객체에 대한 인터랙션 검출 방법을 수행하는 경우, 제1 객체의 특징점 정보는 사람 객체의 머리 중심, 몸체 중심, 눈, 귀, 코, 어깨, 팔, 손, 양쪽 골반의 말단, 무릎, 발에 관한 특징점 정보를 포함할 수 있다. 전술한 특징점은 해당 분야에서 통상적으로 사용되는 소프트맥스 회귀(softmax regression)를 이용하여 획득될 수 있다.

이 경우, 본 발명의 일 실시예에 따른 인터랙션 검출 장치는 사람 객체의 특징점 중 사람의 눈, 귀, 코, 어깨, 팔, 손, 양쪽 골반의 말단, 무릎 및 발에 대응되는 특징점 정보 및 각 특징점 정보를 잇는 직선 정보를 이용하여 사람 객체의 포즈 데이터를 획득할 수 있다. 보다 구체적으로 인터랙션 검출 장치는 특징점과 특징점을 잇는 직선을 이용하여 생성된 그래프를 이용하여 사람 객체의 현재 자세를 추정할 수 있는 포즈 데이터를 획득할 수 있다. 하지만, 본 발명의 몇몇 실시예에 따른 인터랙션 검출 방법은 상품에 대한 사람 객체의 인터랙션을 검출하는 방법이므로 일부 특징점을 중심으로 포즈 데이터를 획득할 수 있다.

구체적으로 일 실시예에서 인터랙션 검출 장치는 사람 객체에 대한 복수의 특징점 정보에 각각 가중치를 부여할 수 있다. 상품에 대한 사람 객체에 대한 인터랙션을 검출하기 위하여는, 사람 객체의 팔 또는 손에 대응되는 특징점의 정보가 가장 중요하므로, 일 실시예에 따른 인터랙션 검출 장치는 복수의 특징점 중 사람의 팔 또는 손에 나머지 특징점 보다 높은 가중치를 부여할 수 있다. 상술한 가중치가 부여된 복수의 특징점 정보는 후술되는 신경망의 입력 데이터로 이용될 수 있다.

일 실시예에서 인터랙션 검출 장치는 순차적으로 획득된 복수의 프레임 이미지에 대하여 각각 포즈 데이터를 획득할 수 있고, 획득한 복수의 포즈 데이터는 복수의 프레임 이미지의 순서에 따른 시계열 그래프 형태로 생성될 수 있다.

도 5는 본 발명의 일 실시예에 따라 인터랙션 발생 여부 및 인터랙션 발생 영역을 검출하는 방법을 설명하기 위한 도면이다.

일 실시예에서 인터랙션 검출 장치는 제1 신경망(212)을 이용하여 인터랙션 발생 여부(214)를 판단하고, 제2 신경망(213)을 이용하여 인터랙션 발생 영역(215)을 추정할 수 있다.

일 실시예에서 인터랙션 검출 장치는 객체의 포즈 데이터(210)를 제1 신경망(212)에 입력하여 해당 객체의 인터랙션 발생 여부(214)를 판단할 수 있다. 제1 신경망은 해당 분야의 통상의 기술자가 선택할 수 있는 다양한 구조의 신경망 네트워크를 포함할 수 있고, 바람직하게는 GCN(Graph Convolutional Network) 기반의 신경망을 포함할 수 있다.

또한 인터랙션 검출 장치는 프레임 이미지(211)를 제2 신경망(213)에 입력하여 해당 객체의 인터랙션 발생 영역(215)을 추정할 수 있다. 제2 신경망은 당해 분야의 통상의 기술자가 선택할 수 있는 다양한 구조의 신경망 네트워크를 포함할 수 있고, 바람직하게는 CNN(Convolutional Neural Network) 기반의 신경망을 포함할 수 있다.

또한, 일 실시예에서 인터랙션 검출 장치는 복수의 특징점에 부여된 가중치를 제2 신경망(213)에 더 입력할 수 있다. 이 경우 제2 신경망(213)은 가중치가 높게 부여된 특징점 영역을 기준으로 인터랙션 발생 영역을 검출할 수 있으므로, 프레임 이미지(211)만 입력한 경우보다 더 정확한 출력값이 생성될 수 있다.

즉, 일 실시예에서 인터랙션 검출 장치는 제1 신경망(212)을 이용하여 인터랙션의 발생 여부 및 인터랙션 종류를 판단할 수 있고 제2 신경망(213)을 이용하여 인터랙션이 발생한 영역 및 상품 정보를 포함하는 객체의 관심 영역을 추정할 수 있다. 또한, 다른 실시예에 따른 인터랙션 검출 장치는 인터랙션 발생 여부를 판단하기 위해 제1 신경망(212)의 출력값뿐 아니라 제 2 신경망(213)의 출력값을 더 이용할 수 있고, 인터랙션 발생 영역을 판단하기 위해 제 신경망(213)의 출력값뿐 아니라 제1 신경망(212)의 출력값을 더 이용할 수 있음에 유의한다. 이 경우, 하나의 신경망 결과를 이용하는 것 보다 더 정확한 인터력션 검출 결과를 획득할 수 있다.

도 6은 본 발명의 일 실시예에 따른 인터랙션 발생 여부를 판단하는 방법을 설명하기 위한 도면이다.

일 실시예에서 인터랙션 검출 장치는 하나 이상의 프레임 이미지(311)에서 획득한 복수의 특징점 정보를 이용하여 포즈 데이터를 획득한 후, 복수의 프레임 이미지에서 획득한 복수의 포즈 데이터를 이산 시계열 그래프(312)로 변환할 수 있다. 이후, 이산 시계열 그래프(312)를 GCN 기반의 신경망(314)에 입력하여 인터랙션 발생 여부(315)를 판단할 수 있다.

다른 실시예에서 인터랙션 검출 장치는 복수의 특징점에 부여된 가중치 정보(313)를 전술한 GCN 기반의 신경망(314)에 더 입력할 수 있다. 이 경우 인터랙션 검출 장치는 가중치 정보를 기초로 프레임 이미지를 가공할 수 있다. 이 경우 GCN 기반의 신경망(314)은 다른 특징점보다 가중치가 높은 특징점을 중심으로 인터랙션 발생 여부를 판단할 수 있다. 예를 들어 매장에서의 사람 객체의 인터랙션을 검출하고자 하는 경우, 인터랙션 검출 장치는 사람의 팔 및 손에 대응되는 특징점의 가중치를 다른 특징점에 부여된 가중치보다 더 크게 지정할 수 있으며, GCN 기반의 신경망(314)은 사람의 팔 및 손에 대응되는 영역을 중심으로 인터랙션 발생 여부를 판단할 수 있다.

도 7은 본 발명의 일 실시예에 따른 사용자의 인터랙션 발생 영역을 검출하는 방법을 설명하기 위한 도면이다.

일 실시예에서 인터랙션 검출 장치는 프레임 이미지(321)를 물체 소유 여부를 판단(326)하기 위해 학습된 CNN 기반의 신경망(322)에 입력하여 객체의 관심 영역을 추정(325)할 수 있다. 이 경우 CNN 기반의 신경망(322)의 출력 데이터는 물체에 대한 객체의 인터랙션이 발생한 경우, 해당 객체가 물체를 소유하고 있는지 여부일 수 있다. 예를 들어 전술한 GCN 기반의 신경망에 의해 상품에 대한 사람의 인터랙션의 발생 여부가 감지된 경우, 본 실시예에 따른 CNN 기반의 신경망(322)은 사람이 해당 상품을 들고 계속 있는지 또는 해당 상품을 다시 내려 놓았는지 여부를 추정할 수 있다.

일 실시예에서 인터랙션 검출 장치는 전술한 물체의 소유 여부를 판단(326)하도록 학습된 CNN 기반의 신경망(322)의 특징맵을 이용하여 객체의 관심 영역을 추정(325)할 수 있다. 보다 구체적으로 본 실시예에서 인터랙션 검출 장치가 이용하는 특징맵(324)은 CNN 기반의 신경망(322)에서 최종 결과를 생성하는 활성 함수(activation function) 직전의 결과값일 수 있다. 이 경우 인터랙션 검출 장치는 CAM(Class Activation Map)을 분석하여, 상기 특징맵(324)을 기반으로 신경망의 의사 결정에 높은 영향을 끼친 객체의 관심 영역을 추정할 수 있다.

도 8 내지 도 10은 본 발명의 일 실시예에 따라 인터랙션이 발생한 상품 정보를 획득하는 방법을 설명하기 위한 도면이다. 도 8은 상품이 지정된 배열로 정렬된 경우, 인터랙션 검출 장치가 상품 정보를 획득하는 방법을 설명하기 위한 도면이다.

일 실시예에서 인터랙션 검출 장치는 지정된 영역 별 상품 DB(410)를 기초로, 객체의 관심 영역에 대응되는 상품의 정보를 획득할 수 있다. 보다 구체적으로, 인터랙션 검출 장치는 프레임 이미지로부터 추정된 객체의 관심 영역(401)과 지정된 상품 영역 정보(402)를 매칭할 수 있다. 매칭된 상품 영역 정보를 기초로 영역별 상품 정보 DB(410)로부터 상기 상품 영역에 대응되는 상품의 코드 정보(403)를 획득할 수 있다. 이후, 인터랙션 검출 장치는 상품의 코드 정보(403)를 이용하여 상품별 코드 DB로부터 인터랙션이 발생한 최종 상품 정보(404)를 획득할 수 있다.

다만, 본 실시예의 경우 상품이 지정된 배열로 정렬되어 있지 않거나, 영역별로 상품이 명확하게 구분되어 있지 않은 경우 문제가 된다. 이하 도 9를 참조하여 영역별로 명확하게 상품 정보가 구분되지 않는 경우에 대하여 상세히 설명한다.

도 9를 참조할 때, 일 실시예에 따른 인터랙션 검출 장치는 프레임 이미지(411)에서 인터랙션 대상 상품을 제외한 배경을 제거(412)할 수 있다. 보다 상세하게, 인터랙션 검출 장치는 객체의 포즈 데이터 기반으로 객체 영역을 제거하고, 관심 영역에 포함된 인터랙션 대상 상품의 이미지를 제외한 배경을 제거(413)할 수 있다. 이 경우, 인터랙션 검출 장치는 인터랙션 대상 상품의 이미지만 추출(414)해낼 수 있다.

일 실시예에서 상품의 이미지별 상품 DB가 구축되어 있는 경우, 인터랙션 검출 장치는 추출한 이미지와 대응되는 상품의 정보를 용이하게 획득할 수 있다. 하지만, 상품을 촬영하는 각도에 따라 상품의 이미지가 상이해질 수 있으므로 상품의 이미지별 상품 DB를 구축하기 어렵고, 상품의 이미지별 상품 DB를 구축하더라도 획득되는 상품 정보의 정확도는 낮다. 이를 해결하기 위한 본 발명의 일 실시예에 따른 상품 인식 방법에 대해 이하 도 10을 참조하여 설명한다.

도 10을 참조할 때, 일 실시예에 따른 인터랙션 검출 장치는 추출된 상품의 이미지(423)의 외형 특징 데이터를 벡터 데이터(424)로 임베딩 할 수 있다.

한편, 본 실시예에 따른 인터랙션 검출 장치는 상품 DB에 포함된 상품 중 유사한 복수개의 상품에 대하여, 벡터 데이터를 기준으로 클러스터링을 수행(421)할 수 있다. 그 결과, 벡터 데이터 각각에 대응되는 상품들도 클러스터링(422) 될 수 있다.

따라서, 일 실시예에 따른 인터랙션 검출 장치는 상품 DB에 포함된 상품에 대응되는 복수의 클러스터 정보(422)와 추출된 상품의 벡터 데이터(424)의 비교를 통해 정확한 상품 정보(425)를 획득할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

인터랙션 검출 장치에서 구현되는 인터랙션 검출 방법으로서,
상기 인터랙션 검출 장치가, 하나 이상의 프레임 이미지를 획득하는 단계;
상기 인터랙션 검출 장치가, 제1 프레임 이미지에서 제1 객체에 대하여 검출된 복수의 특징점 정보를 이용하여 상기 제1 객체의 포즈 데이터를 획득하는 단계;
상기 인터랙션 검출 장치가, 상기 제1 객체의 포즈 데이터를 이용하여 상기 제1 객체의 인터랙션 발생 여부를 판단하는 단계;
상기 인터랙션 검출 장치가, 상기 복수의 특징점 정보를 이용하여 상기 제1 객체의 관심 영역을 추정하는 단계; 및
상기 인터랙션 검출 장치가, 상기 제1 객체의 관심 영역에 대응되는 상품 정보를 획득하는 단계를 포함하고,
상기 제1 객체의 관심 영역을 추정하는 단계에서, 상기 인터랙션 검출 장치가, 물체 소지 여부를 판단하기 위해 학습된 제2 신경망을 이용하여 상기 제1 객체가 상기 인터랙션의 대상이 되는 상품을 소지하고 있는지 여부를 추정하고, 상기 제1 객체가 상기 인터랙션의 대상이 되는 상품을 소지하고 있는지 여부를 참조하여 상기 제1 객체의 관심 영역을 추정하며,
상기 상품 정보를 획득하는 단계에서, 상기 인터랙션 검출 장치가, 상기 제1 프레임 이미지에서 상기 인터랙션의 대상이 되는 상품의 이미지를 추출하고, 상기 추출된 상품의 이미지의 외형에 관한 특징 데이터를 임베딩하여 벡터 데이터를 획득하고, 상품 데이터베이스로부터 생성되는 복수의 클러스터 중 상기 벡터 데이터에 대응되는 클러스터를 참조하여 상기 인터랙션의 대상이 되는 상품의 정보를 획득하는
인터랙션 검출 방법.
제1 항에 있어서,
상기 제1 객체의 인터랙션 발생 여부를 판단하는 단계는,
상기 인터랙션 검출 장치가, 객체의 인터랙션 발생 여부를 판단하도록 학습된 제1 신경망에 상기 제1 객체의 포즈 데이터를 입력하여 상기 제1 객체의 인터랙션 발생 여부를 판단하는 단계를 포함하는,
인터랙션 검출 방법.
삭제
제1 항에 있어서,
상기 복수의 특징점은,
가중치가 부여되고,
상기 제1 객체가 사람 객체인 경우,
상기 제1 객체의 복수의 특징점에는 사람의 팔과 손에 대응되는 특징점에 나머지 특징점 보다 높은 가중치가 부여된,
인터랙션 검출 방법.
제1 항에 있어서,
상기 상품 정보를 획득하는 단계는,
상기 인터랙션 검출 장치가, 상기 제1 객체의 관심 영역의 배경 및 상기 제1 객체를 제거하는 단계; 및
상기 인터랙션 검출 장치가, 상기 제1 객체의 관심 영역에 존재하는 상품 정보를 추출하는 단계를 포함하는,
인터랙션 검출 방법.
제5 항에 있어서,
상기 상품 정보를 획득하는 단계는,
상기 인터랙션 검출 장치가, 상품의 특징 데이터 기반으로 상품간 유사도를 측정하고, 상기 상품간 유사도를 기반으로 상기 상품에 대한 클러스터링을 수행하는 단계; 및
상기 인터랙션 검출 장치가, 상기 제1 객체의 관심 영역에 존재하는 상품의 특징 데이터와 대응되는 클러스터 정보로부터 상기 제1 객체의 관심 영역에 존재하는 상품 정보를 획득하는 단계를 포함하는,
인터랙션 검출 방법.