WO2022086157A1

WO2022086157A1 - 전자 장치 및 그 제어 방법

Info

Publication number: WO2022086157A1
Application number: PCT/KR2021/014675
Authority: WO
Inventors: 한흥우; 강성민
Original assignee: 삼성전자주식회사
Priority date: 2020-10-20
Filing date: 2021-10-20
Publication date: 2022-04-28
Also published as: CN116097315A; US20220270198A1; EP4044125A1; EP4044125A4

Abstract

전자 장치가 개시된다. 전자 장치는, 카메라, 그립 대상 객체를 그립하도록 구성된 그리퍼(gripper), 신경망 모델이 저장된 메모리, 카메라에 의해 캡쳐된 적어도 하나의 이미지를 신경망 모델에 입력하여 신경망 모델로부터 그리퍼의 이동 정보 및 회전 정보를 획득하고, 이동 정보 및 회전 정보에 기초하여 그리퍼를 제어하는 프로세서,를 포함하며, 적어도 하나의 이미지는, 그리퍼의 적어도 일부 및 그립 대상 객체의 적어도 일부를 포함하고, 신경망 모델은, 적어도 하나의 이미지에 기초하여 그리퍼를 그립 대상 객체에 인접하게 위치시키기 위한 이동 정보 및 회전 정보를 출력하며, 이동 정보는, 그리퍼의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하고, 회전 정보는, 그리퍼의 제1 방향 회전, 제2 방향 회전 또는 미회전 중 하나를 포함하는 회전 정보를 출력한다.

Description

전자 장치 및 그 제어 방법

본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 그리퍼를 포함하는 전자 장치 및 그 제어 방법에 관한 것이다.

최근 전자 기술의 발전에 따라 다양한 유형의 전자 장치가 개발 및 보급되고 있는 실정이다.

특히, 다양한 목적의 로봇이 공장, 가정에도 배치되고 있으며, 이러한 로봇은 외부 객체를 파지하여 일 위치에서 타 위치로 이동시키거나, 운반하는 동작을 수행할 수 있다.

예를 들어, 공장에 배치된 산업용 로봇은 사람이 파지하기 어려운 객체를 파지하여 특정 위치로 운반할 수도 있고, 조립을 수행할 수도 있다. 다른 예로, 가정에 배치된 로봇은 이물질을 운반하는 등 실내 청소를 수행할 수도 있고, 사람이 파지하기 어려운 물체 또는 위험한 물체를 특정 위치로 이동시킬 수도 있다.

다만, 종래의 로봇은 객체를 정확히 인식한 경우 예를 들어, 객체와의 거리, 객체의 형태 등을 정확하게 인식한 경우에만 해당 객체를 파지할 수 있었다. 객체와의 거리 또는 객체의 형태를 정확하게 인식하기란 매우 어려우며, 이를 위해 요구되는 계산량이 많다는 문제가 있었다.

이에, 객체와의 거리, 객체의 형태 등을 정확하게 인식하지 않으면서도 해당 객체에 인접하게 그리퍼(gripper)를 효율적으로 위치시켜 객체를 파지하는 기술에 대한 요구가 있었다.

본 개시는 상술한 필요성에 따른 것으로, 본 발명의 목적은 그리퍼를 효율적으로 제어하여 외부 객체를 파지하는 전자 장치 및 그 제어 방법을 제공함에 있다.

본 개시의 상술한 목적을 달성하기 위한 일 실시 예에 따르면 전자 장치는, 카메라, 그립 대상 객체를 그립하도록 구성된 그리퍼(gripper), 신경망 모델이 저장된 메모리 및 상기 카메라에 의해 캡쳐된 적어도 하나의 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 상기 그리퍼의 이동 정보 및 회전 정보를 획득하고, 상기 이동 정보 및 회전 정보에 기초하여 상기 그리퍼를 제어하는 프로세서를 포함하며, 상기 적어도 하나의 이미지는, 상기 그리퍼의 적어도 일부 및 상기 그립 대상 객체의 적어도 일부를 포함하고, 상기 신경망 모델은, 상기 적어도 하나의 이미지에 기초하여 상기 그리퍼를 상기 그립 대상 객체에 인접하게 위치시키기 위한 상기 이동 정보 및 상기 회전 정보를 출력하며, 상기 이동 정보는, 상기 그리퍼의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하고, 상기 회전 정보는, 상기 이동 정보 및 상기 그리퍼의 제1 방향 회전, 제2 방향 회전 또는 미회전 중 하나를 포함한다.

이러한 그리퍼를 포함하는 전자 장치의 장점은, 그립 대상 객체의 상대적인 위치를 예측하는 신경망 모델을 이용하여 분류 모델(classification model)로 그립 대상 객체를 인식하고, 그립 대상 객체를 향한 움직임을 가능하게 할 수 있다. 이러한 구성에 따르면, 그립 대상 객체의 정확한 3차원 위치 정보는 불필요하며, 카메라 등 저가의 센서만으로 그립 대상 객체에 대한 그립을 정확하게 수행할 수 있는 특징이 있다. 다시 말해서, 본 개시의 일 실시 예에 따른 전자 장치는 예를 들어, 고가의 별도 센서를 필요로하지 않을 수 있다. 예를 들어, IR 뎁스 센서(depth sensor), 스테레오 센서 또는 다른 복잡한 이미지 센서이나 간단한 카메라와 같은 단순한 저비용 센서 등을 필요로하지 않을 수 있다. 따라서, 전자 장치의 총 비용을 실질적으로 감소시키면서 수평/수직 및 회전 방향의 이동 정밀도를 높게 유지시킬 수 있다. 또한, 이러한 전자 장치는 높은 파지 정확도도 제공할 수 있다.

여기서, 상기 프로세서는, 상기 이동 중지에 대응되는 상기 이동 정보 및 상기 미회전에 대응되는 상기 회전 정보에 기초하여 상기 그리퍼가 상기 그립 대상 객체를 그립하도록 상기 그리퍼를 제어할 수 있다. 이러한 실시 예에서, 그리퍼는 이동 정보가 이동 정지 정보에 해당하고, 회전 정보가 비회전 정보에 해당하면, 즉시 그립 대상 객체를 그립할 수 있으므로 별도의 그립 명령을 요하지 않는다. 따라서, 그립 대상 객체의 위치 및 방향에 대해 그리퍼가 올바르게 위치하면 자동으로 그립 동작을 수행할 수 있다. 또한, 상기 신경망 모델로부터 출력되는 상기 이동 정보는, x축 이동 정보, y축 이동 정보 및 z축 이동 정보를 포함하며, 상기 x축 이동 정보는, 상기 그리퍼의 x축 방향으로의 제1 방향 이동, x축 방향으로의 제2 방향 이동 또는 x축 방향의 이동 중지 중 하나를 포함하고, 상기 y축 이동 정보는, 상기 그리퍼의 y축 방향으로의 제1 방향 이동, y축 방향으로의 제2 방향 이동 또는 y축 방향의 이동 중지 중 하나를 포함하고, 상기 z축 이동 정보는, 상기 그리퍼의 z축 방향으로의 제1 방향 이동, z축 방향으로의 제2 방향 이동 또는 z축 방향의 이동 중지 중 하나를 포함할 수 있다. 이러한 실시 예에서, x, y 및 z축 각각에 대한 신경망 모델에 의해 그리퍼가 이동해야하는 선형 방향 ? 앞으로 또는 뒤로 ? 그리퍼가 그립 대상 객체에 접근하기 위한 및 / 또는 그립의 위치 및 / 또는 방향이 정확하게 결정될 수 있다.

또한, 상기 신경망 모델로부터 출력되는 상기 회전 정보는, x축 회전 정보, y축 회전 정보 및 z축 회전 정보를 포함하며, 상기 x축 회전 정보는, 상기 그리퍼의 x축 기준 시계 방향 회전, x축 기준 반시계 방향 회전 또는 x축 기준 미회전 중 하나를 포함하고, 상기 y축 회전 정보는, 상기 그리퍼의 y축 기준 시계 방향 회전, y축 기준 반시계 방향 회전 또는 y축 기준 미회전 중 하나를 포함하고, 상기 z축 회전 정보는, 상기 그리퍼의 z축 기준 시계 방향 회전, z축 기준 반시계 방향 회전 또는 z축 기준 미회전 중 하나를 포함할 수 있다. 이러한 실시 예에서, x, y 및 z축 각각에 대한 신경망 모델에 의해 그리퍼가 시계 방향 또는 반시계 방향으로 회전해야하는지 여부가 결정되며, 시계 방향 또는 반 시계 방향으로 그립 대상 객체에 접근하거나 그리퍼의 위치 및 / 또는 방향을 그립 대상 객체 접근하도록 조정할 수 있다.

또한, 상기 프로세서는, 상기 이동 정보에 기초하여 상기 그리퍼가 기설정된 동작을 반복하는 것으로 식별되면, 상기 그립 대상 객체를 그립하도록 상기 그리퍼를 제어할 수 있다. 이러한 실시 예에서, 그립 명령은 획득된 이동 정보에 기초한 기 설정된 동작 패턴의 인식에 연결되어, 그립 대상 객체의 위치 인식을 추가적으로 수행할 필요 없이, 또한, 그립 명령이 추가적으로 수행될 필요 없이, 수행될 수 있다.

또한, 상기 적어도 하나의 이미지는, 제1 및 제2 이미지를 포함하며, 상기 프로세서는, 상기 제1 및 제2 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 제1 이동 정보 및 제1 회전 정보를 획득하고, 상기 제1 이동 정보 및 상기 제1 회전 정보에 기초하여 상기 그리퍼를 제어하며, 상기 제1 이동 정보 및 상기 제1 회전 정보에 기초하여 상기 그리퍼가 제어되는 동안 상기 카메라에 의해 캡쳐된 제3 및 제4 이미지에 기초하여 상기 제3 및 제4 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 제2 이동 정보 및 제2 회전 정보를 획득하고, 상기 제2 이동 정보 및 상기 제2 회전 정보에 기초하여 상기 그리퍼를 제어할 수 있다. 이러한 실시 예에서 그리퍼는 유리하며 (비용적인 면에서도) 효율적으로 이동될 수 있다. 달리 표현하여, 이러한 실시 예에서 프로세서는 실시간으로 또는 신경망 모델에 의해 기 설정된 시간 간격으로 출력되는 이동 정보 및 회전 정보에 기초하여 그리퍼를 이동 및 회전시켜 그립 대상 객체에 인접하도록 그리퍼를 위치시킬 수 있다. 따라서, 그리퍼의 제1 이동이 제1 이동 정보 및 제1 회전 정보에 기초하여 수행되는 동안에, 그리퍼의 이동은 제2 이동 정보 및 제2 회전 정보에 기초하여 수행되는 제2 이동에 의해 조정될 수 있다.

바람직하게는, 제1 및 제2 이미지는 뎁스 값을 얻을 수 있는 정보를 포함하고, 프로세서는 제1 및 제2 이미지에 기초하여 뎁스 값을 획득하지 않고, 훈련된 신경망 모델을 통해 뎁스 정보를 고려한 이동 정보 및 회전 정보를 획득할 수 있다. 신경망 모델의 입력으로는 제1 및 제2 이미지만을 이용할 수 있다.

또한, 바람직한 실시 예에서 제1 이동 정보 및 제2 회전 정보에 기초한 그리퍼의 이동은 기 설정된 시간 동안 및 / 또는 기 설정된 거리에 도달할 때까지 수행될 수 있다.

더욱 바람직하게는, 제1 이동 정보 및 제1 회전 정보에 기초한 그리퍼의 이동은 수신된 제2 이동 정보 및 제2 회전 정보에 기초한 그리퍼의 이동이 트리거 / 개시될 때까지 수행될 수 있다. 또한, 상기 신경망 모델은, 상기 적어도 하나의 이미지에 기초하여 뎁스 맵(Depth map)을 획득하고, 상기 뎁스 맵에 기초하여 상기 이동 정보 및 상기 회전 정보를 출력할 수 있다. 이러한 신경망 모델을 이용하면, 간단한 저가 카메라로 촬영한 적어도 하나의 이미지를 이용하여 그리퍼의 동작 영역 / 공간 내에서 그립 대상 객체의 뎁스-위치에 근접할 수 있다. 따라서, 이러한 신경망 모델은 그리퍼의 동작 영역 / 공간 내에서 그립 대상 객체에 (비용적인 면에서) 고 효율적이면서도 정확하게 위치시킬 수 있다.

또한, 상기 신경망 모델은, 복수의 훈련 이미지 각각에 포함된 상기 그리퍼의 적어도 일부 및 외부 객체의 적어도 일부 간의 거리 정보에 기초하여 상기 그리퍼를 상기 외부 객체에 인접하게 위치시키기 위한 상기 이동 정보 및 상기 회전 정보를 출력하도록 학습될 수 있다. 이러한 살시 예에서, 신경망 모델은 유리하게는 그립 대상 객체의 절대적이고 정확한 위치 / 거리를 결정하기 위해 회귀 모델을 이용하여 연속적인 수치 값을 예측할 필요는 없으나, 분류 모델을 이용할 수 있다. 몇 가지 선택 중에서 하나를 결정하는 것, 단순히 그립 대상 객체에 대한 상대적인 거리 분류(예를 들어, 가깝거나 또는 먼) 등과 같은 분류 모델을 이용하면 신경망 학습이 쉬워지고 신경망 모델의 성능이 보다 쉽게 확보될 수 있다.

또한, 상기 카메라는, 복수의 카메라를 포함하며, 상기 복수의 카메라는, 각각이 이격되어 있으며, 상기 그립 대상 객체를 상이한 각도에서 촬영하도록 구성될 수 있다. 이러한 실시 예에서 스테레오 비전은 유리하게 전자 장치에 의해 이용되며, 상이한 각도에서 다수의 카메라로부터 캡쳐된 이미지를 이용하여 상술한 분류를 보다 정확하게 가능하도록 할 수 있다.

더욱 바람직하게는, 카메라는 스테레오 비전 카메라일 수 있다.

본 개시의 상술한 목적을 달성하기 위한 일 실시 예에 따르면 신경망 모델을 포함하는 전자 장치의 제어 방법은, 적어도 하나의 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 그리퍼의 이동 정보 및 회전 정보를 획득하는 단계, 상기 이동 정보 및 상기 회전 정보에 기초하여 상기 그리퍼를 제어하는 단계를 포함하고, 상기 적어도 하나의 이미지는, 상기 그리퍼의 적어도 일부 및 그립 대상 객체의 적어도 일부를 포함하고, 상기 신경망 모델은, 상기 적어도 하나의 이미지에 기초하여 상기 그리퍼를 상기 그립 대상 객체에 인접하게 위치시키기 위한 상기 이동 정보 및 상기 회전 정보를 출력하며,

상기 이동 정보는, 상기 그리퍼의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하고, 상기 회전 정보는, 상기 그리퍼의 제1 방향 회전, 제2 방향 회전 또는 미회전 중 하나를 포함하는 상기 회전 정보를 출력할 수 있다. 이러한 방법의 이점(advantages)은, 상술한 전자 장치에 대한 이점과 동일할 수 있다.

또한, 상기 이동 중지에 대응되는 상기 이동 정보 및 상기 미회전에 대응되는 상기 회전 정보에 기초하여 상기 그리퍼가 상기 그립 대상 객체를 그립하도록 상기 그리퍼를 제어하는 단계를 더 포함할 수 있다. 이와 같은 방법은 이동 정보가 이동 정지 정보에 해당하고, 회전 정보가 비회전 정보에 해당하는 즉시, 그리퍼가 그립 대상 객체를 파지할 수 있으므로, 그리퍼에 별도의 그립 명령을 제공할 필요가 없다. 따라서, 그립 대상 객체의 위치 및 방향에 대해 그리퍼가 올바르게 위치하면 자동으로 그립 동작이 수행될 수 있다.

또한, 상기 신경망 모델로부터 출력되는 상기 이동 정보는, x축 이동 정보, y축 이동 정보 및 z축 이동 정보를 포함하며, 상기 x축 이동 정보는, 상기 그리퍼의 x축 방향으로의 제1 방향 이동, x축 방향으로의 제2 방향 이동 또는 x축 방향의 이동 중지 중 하나를 포함하고, 상기 y축 이동 정보는, 상기 그리퍼의 y축 방향으로의 제1 방향 이동, y축 방향으로의 제2 방향 이동 또는 y축 방향의 이동 중지 중 하나를 포함하고, 상기 z축 이동 정보는, 상기 그리퍼의 z축 방향으로의 제1 방향 이동, z축 방향으로의 제2 방향 이동 또는 z축 방향의 이동 중지 중 하나를 포함할 수 있다. 이러한 실시 예에서, x, y 및 z축 각각에 대한 신경망 모델에 의해 그리퍼가 이동해야하는 선형 방향 ? 앞으로 또는 뒤로 ? 그리퍼가 그립 대상 객체에 접근하기 위한 및 / 또는 그립의 위치 및 / 또는 방향이 정확하게 결정될 수 있다.

또한, 상기 이동 정보에 기초하여 상기 그리퍼가 기설정된 동작을 반복하는 것으로 식별되면, 상기 그립 대상 객체를 그립하도록 상기 그리퍼를 제어하는 단계를 더 포함할 수 있다. 이러한 실시 예에서, 그립 명령은 획득된 이동 정보에 기초한 기 설정된 동작 패턴의 인식에 연결되어, 그립 대상 객체의 위치 인식을 추가적으로 수행할 필요 없이, 또한, 그립 명령이 추가적으로 수행될 필요 없이, 수행될 수 있다.

또한, 상기 적어도 하나의 이미지는, 제1 및 제2 이미지를 포함하며, 상기 이동 정보 및 회전 정보를 획득하는 단계는, 상기 제1 및 제2 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 제1 이동 정보 및 제1 회전 정보를 획득하는 단계를 포함하고, 상기 그리퍼를 제어하는 단계는, 상기 제1 이동 정보 및 상기 제1 회전 정보에 기초하여 상기 그리퍼를 제어하는 단계를 포함하며, 상기 제1 이동 정보 및 상기 제1 회전 정보에 기초하여 상기 그리퍼가 제어되는 동안 상기 카메라에 의해 캡쳐된 제3 및 제4 이미지에 기초하여 상기 제3 및 제4 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 제2 이동 정보 및 제2 회전 정보를 획득하는 단계 및 상기 제2 이동 정보 및 상기 제2 회전 정보에 기초하여 상기 그리퍼를 제어하는 단계를 더 포함할 수 있다. 이러한 실시 예에서 그리퍼는 유리하며 (비용적인 면에서도) 효율적으로 이동될 수 있다.

바람직하게는, 신경망 모델이 출력하는 이동 정보 및 회전 정보만을 이용하여 그리퍼를 제어할 수 있다.

특히, 전자 장치는 신경망 모델에 대한 입력 데이터를 획득하기 위해 카메라와 별개로 어떠한 추가 센서도 포함하지 않을 수 있다. 더욱 바람직한 실시 예에서, 신경망 모델에 의해 출력되는 이동 정보는 그리퍼를 제1 또는 제2 방향으로 이동할지 또는 그리퍼의 이동을 멈출지 여부 또는 그리퍼를 현재 위치에서 유지할지 여부에 대한 정보만을 포함할 수 있다.

바람직하게는, 신경망 모델이 출력하는 이동 정보는, 그리퍼를 얼마나 움직여야 하는지 즉, 이동 거리에 대한 정보는 포함하지 않을 수 있다.

바람직하게는 신경망 모델은 특정 축에 따른 제1 방향 이동, 특정 축에 따른 제2 방향 이동 및 특정 축에 따른 이동 정지 각각에 대한 확률을 계산할 수 있다(즉, x, y, 또는 z축). 이러한 확률은 축에 따라 각각의 이동 또는 이동 정지하여 그립 대상 객체에 더 인접하도록 그리퍼를 이동시킬 확률이 얼마인지를 나타낼 수 있다.

더욱 바람직하게는, 신경망 모델에 의해 특정 축에 대한 이동 정보로서 가장 높은 확률이 출력될 수 있다.

또한, 바람직한 실시 예에 따르면, 신경망 모델은 특정 축을 중심으로 제1 방향으로의 회전, 특정 축을 중심으로 제2 방향으로의 회전 및 특정 축을 중심으로 회전 정지 각각에 대한 확률을 계산할 수 있다(즉, x, y, 또는 z축 각각에 대한 3개의 확률). 이러한 확률은 축 주위의 각 회전 또는 회전 정지가 그리퍼를 그립 대상 객체에 더 인접하게 이동시킬 확률이 얼마인지를 나타낼 수 있다.

더욱 바람직하게는, 신경망 모델에 의해 특정 축에 대한 회전 정보로서 가장 높은 확률이 출력될 수 있다.

바람직하게는, 신경망 모델은 적어도 하나의 이미지에 기초하여 그리퍼를 그립 대상 객체에 인접하도록 위치시키기 위한 그리퍼의 제1 방향 이동, 제2 방향 이동 또는 이동 정지 중 하나를 포함하는 이동 정보 및 제1 방향 회전, 제2 방향 회전 또는 비회전 중 하나를 포함하는 회전 정보를 출력할 수 있다.

본 개시의 다양한 실시 예들에 따르면, 로봇이 외부 객체를 파지하기 위해 그리퍼(gripper)를 이동시킴에 있어서, 최소한의 이동만으로, 최소한의 시간만을 소모하여 외부 객체에 인접하게 위치할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.

도 2는 본 개시의 일 실시 예에 따른 그리퍼의 이동 및 회전을 개략적으로 설명하기 위한 도면이다.

도 3은 본 개시의 일 실시 예에 따른 신경망 모델을 설명하기 위한 도면이다.

도 4는 본 개시의 일 실시 예에 따른 이동 정보 및 회전 정보를 설명하기 위한 도면이다.

도 5는 본 개시의 일 실시 예에 따른 신경망 모델의 학습을 설명하기 위한 도면이다.

도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

도 7은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

도 8은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.

-

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.　

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.　그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.

도 1에 도시된 바에 따르면, 일 실시 예에 따른 전자 장치(100)는 사용자 단말 장치, 디스플레이 장치, 셋톱 박스(set-top box), 태블릿 PC(tablet personal computer), 스마트 폰(smart phone), 전자책 리더기(e-book reader), 데스크탑 PC (desktop PC), 랩탑 PC(laptop PC), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 키오스크(Kiosk) 등과 같은 다양한 형태의 디바이스로 구현될 수 있다. 다만, 이는 일 실시 예이며, 전자 장치(100)는 엑세서리 형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘텍트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체 형(예: 전자 의복) 중 적어도 하나의 형태에 해당하는 웨어러블 장치, 구동부를 포함하는 로봇(robot), 프로젝터(projector), 서버 등 다양한 유형의 전자 장치로 구현될 수도 있다.

일 실시 예에 따른 전자 장치(100)는 로봇으로 구현될 수 있다. 여기서, 로봇은 스스로 일 기능을 수행하는 능력을 가진 다양한 형태의 기계를 의미할 수 있다. 일 예로, 로봇은 단순 반복 기능 외에 센서, 카메라 등을 기반으로 실시간으로 주변 환경을 감지하고, 정보를 수집하여 자율적으로 동작하는 스마트 기계를 의미할 수도 있다.

본 개시의 일 실시 예에 따른 전자 장치(100)는 로봇 장치를 의미할 수 있다. 여기서, 로봇 장치는 스스로 일 기능을 수행하는 능력을 가진 다양한 형태의 기계를 의미할 수 있다. 일 예로, 로봇 장치는 단순 반복 기능 외에 센서, 카메라(110) 등을 기반으로 실시간으로 주변 환경을 감지하고, 정보를 수집하여 자율적으로 동작하는 스마트 기계를 의미할 수도 있다.

일 실시 예에 따른 전자 장치(100)는 인간의 손가락과 같이 외부 객체를 파지하거나 또는 이동시킬 수 있는 그리퍼(120)를 포함할 수 있다. 한편, 그리퍼(120)는 다관절 로봇의 말단부인 로봇 핸드(robot hand) 등으로 불릴 수도 있으나, 이하에서는 설명의 편의를 위해 그리퍼(120)로 통칭하도록 한다.

한편, 전자 장치(100)는 이용 분야 또는 수행 가능한 기능에 따라서 산업용 로봇, 의료용 로봇, 가정용 로봇, 군사용 로봇 및 탐사용 로봇 등으로 분류될 수 있다. 일 실시 예에 따라 산업용 로봇은 공장의 제품 제조 과정에서 이용되는 로봇, 매장 또는 식당 등에서 손님 응대, 주문 접수 및 서빙 등을 수행하는 로봇 등으로 구현될 수 있다. 예를 들어, 본 개시의 일 실시 예에 따른 전자 장치(100)는 공장 , 호텔, 마트, 병원, 의류 매장 등 다양한 장소에서 본체(120)에 구비된 그리퍼(120)를 제어하여 외부 객체를 그립(Grip)한 뒤, 외부 객체를 특정 위치까지 운반할 수 있는 로봇으로 구현될 수 있다. 다만, 이는 일 예에 불과할 뿐, 로봇은 활용 분야, 기능 및 사용 목적에 따라 다양하게 분류될 수 있고, 상술한 예에 한정되지 않음은 물론이다.

종래의 로봇은 외부 객체를 포함하는 이미지의 뎁스(depth) 맵에 기초하여 외부 객체와 그리퍼 간의 거리를 구체적인 수치로 산출하고, 산출된 거리에 기초하여 그리퍼를 이동시킨 뒤, 외부 객체를 그립(Grip)하였다. 예를 들어, 종래의 로봇은 외부 객체의 위치 정보(또는, 외부 객체와 그리퍼 간의 거리 정보)를 획득한 경우에 한하여 그리퍼를 외부 객체에 인접하게 위치시킬 수 있으며, 그리퍼가 외부 객체를 그립하도록 제어할 수 있었다. 이와 같은 그립 방법은 로봇이 외부 객체와 그리퍼 간의 거리를 오차 범위 내에서 다소 정확하게 산출한 경우에 한하여 외부 객체를 원활히 그립할 수 있으며, 산출된 거리가 오차 범위를 초과하면 외부 객체를 원활히 그립하지 못하거나 수 차례 시행 착오 끝에 외부 객체를 그립하는 문제가 있다. 여기서, 시행 착오는 로봇이 외부 객체의 파지에 실패하면, 외부 객체와 그리퍼 간의 거리를 재 산출하고, 재 산출된 거리에 기초하여 그리퍼를 이동시켜 외부 객체를 그립함을 의미한다. 설명의 편의를 위해 전자 장치(100)가 그리퍼(120)를 통해 그립하는 외부 객체를 그립 대상 객체로 통칭하도록 한다.

종래의 로봇이 신경망 모델을 이용하여 그립 대상 객체와 그리퍼 간의 거리를 산출한 뒤, 산출된 거리에 기초하여 그리퍼를 그립 대상 객체에 인접하게 위치시키는데 반하여, 일 실시 예에 따른 전자 장치(100)는 그리퍼(120)와 그립 대상 객체 간의 거리를 산출하지 않고, 그리퍼(120)의 이동 및 회전 각각을 적어도 3개의 클래스 중 어느 하나의 클래스로 분류할 수 있다. 이어서, 전자 장치(100)는 분류된 클래스에 기초하여 그리퍼(120)를 이동시키거나, 그리퍼(120)를 회전시켜 그리퍼(120)를 그립 대상 객체에 인접하게 위치시킬 수 있다. 이하에서는 본 개시의 다양한 실시 예에 따라 전자 장치(100)가 그리퍼(120)의 이동 및 회전 각각에 대한 어느 하나의 클래스를 획득하는 방법 및 그리퍼(120)를 그립 대상 객체에 인접하게 위치시키는 방법에 대해 설명하도록 한다.

도 1에 도시된 바에 따르면, 전자 장치(100)는 카메라(110), 그리퍼(120), 메모리(130) 및 프로세서(140)를 포함한다.

카메라(110)는 정지 영상 또는 동영상을 촬상하기 위한 구성이다. 카메라(110)는 특정 시점에서의 정지 영상들을 촬영할 수 있으나, 연속적으로 정지 영상을 촬영할 수도 있다. 본 개시의 일 실시 예에 따른 카메라(110)는 획득한 이미지를 프로세서(140)로 제공할 수 있다. 본 개시의 일 실시 예에 따라 카메라(110)는 복수 개로 구현될 수도 있다.

그리퍼(120)는 전자 장치(100)의 암(arm) 끝단에 구비되는 장치로서, 물체를 파지하도록 구성될 수 있다. 예를 들어, 그리퍼(120)는 충격 그리퍼(impactive gripper), 침투 그리퍼(ingressive gripper), 제한 그리퍼(astrictive gripper), 연속 그리퍼(contiguitive gripper) 등으로 구현될 수 있다.

메모리(130)는 프로세서(140)에 포함된 롬(ROM)(예를 들어, EEPROM(electrically erasable programmable read-only memory)), 램(RAM) 등의 내부 메모리로 구현되거나, 프로세서(140)와 별도의 메모리로 구현될 수도 있다. 이 경우, 메모리(130)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현되고, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.

특히, 일 실시 예에 따른 메모리(130)는 신경망 모델(10)을 저장할 수 있다.

프로세서(140)는 전자 장치(100)의 전반적인 동작을 제어한다.

일 실시 예에 따라 프로세서(140)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), AI(Artificial Intelligence) 프로세서, T-CON(Timing controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.

본 개시에 따른 인공지능과 관련된 기능은 프로세서(140)와 메모리(130)를 통해 동작된다. 프로세서(140)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리(130)에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

특히, 프로세서(140)는 카메라(110)를 통해 수신된 적어도 하나의 이미지를 메모리(130)에 저장된 신경망 모델(10)에 입력하여 그리퍼(120)의 이동 정보를 획득한다. 예를 들어, 프로세서(140)는 제1 이미지 및 제2 이미지를 신경망 모델(10)에 입력하여 그리퍼(120)의 이동 정보를 획득할 수 있다.

여기서, 제1 이미지 및 제2 이미지 각각은 그립 대상 객체의 적어도 일부를 포함하는 서로 다른 이미지일 수 있다. 예를 들어, 제1 이미지 및 제2 이미지 각각은 동일한 그립 대상 객체를 서로 다르게 촬영한 이미지일 수 있다. 일 실시 예에 따라, 카메라(110)가 스테레오 비전 카메라로 구현되면, 약 6.5cm 떨어져 있는 사람의 양안이 동일한 객체를 바라보았을 때 좌안과 우안에 상이하게 상이 맺히는 것과 동일한 원리에 기초하여 스테레오 비전 카메라는 동일한 그립 대상 객체를 서로 다르게 촬영한 좌안(left-eye) 이미지 및 우안(right-eye) 이미지를 획득할 수 있다. 여기서, 좌안 이미지와 우안 이미지 각각은 제1 및 제2 이미지일 수 있다.

예를 들어, 따라서, 제1 이미지 및 제2 이미지 각각은 동일한 그립 대상 객체를 서로 다른 각도(또는, 시점), 서로 다른 비율로 촬영한 이미지일 수도 있다. 또 다른 예로, 제1 이미지 및 제2 이미지 각각은 동일한 그립 대상 객체를 서로 다른 시간에 촬영한 이미지일 수도 있음은 물론이다.

또한, 제1 및 제2 이미지 각각은 그립 대상 객체 외에도, 그리퍼(120)의 적어도 일부를 더 포함할 수 있다.

일 실시 예에 따른 프로세서(140)는 제1 및 제2 이미지를 신경망 모델(10)에 입력하여 그리퍼(120)를 그립 대상 객체에 인접하게 위치시키기 위한 이동 정보 및 회전 정보를 획득할 수 있다.

다만, 이는 일 예시이며 이에 한정되지 않는다. 상술한 바와 같이 프로세서(140)가 제1 및 제2 이미지를 신경망 모델(10)에 입력하고, 신경망 모델(10)이 뎁스 정보 및 그리퍼(120)의 이동 정보 및 회전 정보를 출력할 수도 있고, 프로세서(140)가 제1 및 제2 이미지에 기초하여 뎁스 정보를 획득하고, 획득된 뎁스 정보를 신경망 모델(10)에 입력하여 그리퍼(120)의 이동 정보 및 회전 정보를 획득할 수도 있음은 물론이다.

도 2는 일 실시 예에 따른 신경망 모델을 설명하기 위한 도면이다.

도 2를 참조하여 제1 및 제2 이미지(1, 2)에 대해 보다 구체적으로 설명하면 다음과 같다. 일 실시 예에 따라 카메라(110)는 적어도 두 대의 카메라를 포함할 수 있다. 예를 들어, 카메라(110)는 스테레오 비전(stereo vision) 카메라로 구현되고, 프로세서(140)는 스테레오 비전 카메라를 통해 하나의 그립 대상 객체가 서로 다르게 찍히는 양안시차 특성이 반영된 제1 이미지(1)와 제2 이미지(2)를 이용하여 그립 대상 객체의 뎁스(Depth)를 획득할 수 있다. 따라서, 제1 및 제2 이미지(1, 2)는 뎁스(Depth) 값을 획득할 수 있는 정보를 포함할 수 있으며, 본 개시의 실시 예에 따라, 프로세서(140)는 제1 및 제2 이미지(1, 2)에 기초하여 뎁스 값을 명시적으로 획득하지 않고, 제1 및 제2 이미지(1, 2)만을 신경망 모델(10)의 입력으로 하고 학습된 신경망 모델(10)을 통해 뎁스(Depth) 정보를 고려한 이동 정보 및 회전 정보를 획득할 수도 있다.

본 개시의 일 실시 예에 따른 신경망 모델(10)은 뎁스 정보가 아닌, 제1 및 제2 이미지(1, 2)만을 입력으로 하여 학습될 수 있으며, 이 경우, 신경망 모델(10)은 제1 및 제2 이미지(1, 2)에 포함된 정보(예를 들어, 뎁스 정보))를 획득하고, 이에 기초하여 신경망 모델(10)을 구성하는 복수의 레이어의 확률 값을 출력할 때 뎁스 정보를 고려할 수 있도록 복수의 레이어 각각에 대응되는 가중치를 조정할 수 있다. 신경망 모델(10)의 학습 과정은 후술하도록 한다.

스테레오 비전 카메라는 인간이 좌안과 우안의 시차를 이용하여 외부 객체를 입체적으로 바라보는 것과 동일한 원리를 이용하여 그립 대상 객체를 상이한 각도에서 촬영한 적어도 두 개의 서로 다른 이미지(예를 들어, 제1 및 제2 이미지)에 기초하여 그립 대상 객체의 뎁스 정보(또는, 거리 정보)를 획득하는 카메라(110)를 의미할 수 있다.

스테레오 비전 카메라는 전자 장치(100) 상에서 이격 배치된 복수의 카메라를 포함할 수도 있으나, 이에 한정되지 않음은 물론이다. 예를 들어, 전자 장치(100)에 구비된 하나의 카메라(110)가 그립 대상 객체를 제1 각도에서 촬영한 뒤, 그립 대상 객체를 제2 각도에서 촬영하여 제1 및 제2 이미지(1, 2)를 순차적으로 획득하는 방식으로 구현될 수도 있음은 물론이다.

일 실시 예에 따라, 프로세서(140)는 제1 및 제2 이미지(1, 2)를 신경망 모델(10)에 입력하여 그리퍼(120)를 이동시키기 위한 이동 정보 및 그리퍼(120)를 회전시키기 위한 회전 정보를 획득할 수 있다.

프로세서(140)는 이동 정보에 기초하여 그리퍼(120)를 제1 방향 이동시키거나, 제2 방향 이동시키거나, 또는 이동 중지시킬 수 있다.

또한, 프로세서(140)는 회전 정보에 기초하여 그리퍼(120)를 제1 방향 회전시키거나, 제2 방향 회전시키거나, 또는 미회전시킬 수 있다.

일 실시 예에 따라 신경망 모델(10)이 입력된 제1 및 제2 이미지(1, 2)에 기초하여 출력하는 이동 정보 및 회전 정보에 대한 구체적인 설명은 도 3을 참조하여 하도록 한다.

도 3은 일 실시 예에 따른 그리퍼의 이동 및 회전을 개략적으로 설명하기 위한 도면이다.

신경망 모델(10)은 제1 및 제2 이미지(1, 2)에 기초하여 그리퍼(120)를 그립 대상 객체에 인접하게 위치시키기 위한 그리퍼(120)의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하는 이동 정보를 출력할 수 있다.

예를 들어, 이동 정보는 x축 이동 정보, y축 이동 정보 및 z축 이동 정보를 포함할 수 있다.

일 실시 예에 따른 x축 이동 정보는, 그리퍼(120)의 좌우 이동 정보를 의미한다. 구체적으로, x축 이동 정보는 x축 방향으로의 제1 방향 이동 (+), 제2 방향 이동 (-) 또는 이동 중지 중 하나를 포함할 수 있다. 여기서, x축 방향으로의 제1 방향 이동은 그리퍼(120)의 좌측 방향 이동을 의미하고, x축 방향으로의 제2 방향 이동은 그리퍼(120)의 우측 방향 이동을 의미하고, 이동 중지는 x축을 기준으로 그리퍼(120)의 현 위치를 유지시키는 것을 의미할 수 있다.

일 실시 예에 따른 y축 이동 정보는, 그리퍼(120)의 상하 이동 정보를 의미한다. 구체적으로, y축 이동 정보는, 그리퍼(120)의 y축 방향으로의 제1 방향 이동 (+), 제2 방향 이동 (-) 또는 이동 중지 중 하나를 포함할 수 있다. 여기서, y축 방향으로의 제1 방향 이동은 그리퍼(120)의 상측 방향 이동을 의미하고, y축 방향으로의 제2 방향 이동은 그리퍼(120)의 하측 방향 이동을 의미하고, 이동 중지는 y축을 기준으로 그리퍼(120)의 현 위치를 유지시키는 것을 의미할 수 있다.

일 실시 예에 따른 z축 이동 정보는, 그리퍼(120)의 전후 이동 정보를 의미한다. 구체적으로, z축 이동 정보는, 그리퍼(120)의 z축 방향으로의 제1 방향 이동 (+), 제2 방향 이동 (-) 또는 이동 중지 중 하나를 포함할 수 있다. 여기서, z축 방향으로의 제1 방향 이동은 그리퍼(120)의 전진 이동을 의미하고, z축 방향으로의 제2 방향 이동은 그리퍼(120)의 후진 이동을 의미하고, 이동 중지는 z축을 기준으로 그리퍼(120)의 현 위치를 유지시키는 것을 의미할 수 있다.

즉, 제2 방향은 제1 방향과 정반대되는 방향을 의미할 수 있다.

또한, 신경망 모델은 제1 및 제2 이미지에 기초하여 그리퍼(120)를 그립 대상 객체에 인접하게 위치시키기 위한 그리퍼(120)의 시계 방향 회전 (clockwise (+)), 반시계 방향 회전 (counterclockwise (-)) 또는 미회전 중 하나를 포함하는 회전 정보를 출력할 수 있다. 일 실시 예에 따른, 회전 정보는 그리퍼(120)의 x축 회전 정보, y축 회전 정보 및 z축 회전 정보를 포함할 수 있다.

여기서, x축 회전 정보는, 그리퍼(120)의 x축 기준 시계 방향 회전(clockwise (+)), x축 기준 반시계 방향 회전 (counterclockwise (-)) 또는 x축 기준 미회전 중 하나를 포함할 수 있다.

y축 회전 정보는, 그리퍼(120)의 y축 기준 시계 방향 회전(clockwise (+)), y축 기준 반시계 방향 회전 (counterclockwise (-)) 또는 y축 기준 미회전 중 하나를 포함할 수 있다.

z축 회전 정보는, 그리퍼(120)의 z축 기준 시계 방향 회전(clockwise (+)), z축 기준 반시계 방향 회전 (counterclockwise (-)) 또는 z축 기준 미회전 중 하나를 포함할 수 있다.

신경망 모델은 그리퍼(120)의 특정 방향으로의 구체적인 이동 거리(이동량)을 이동 정보로 출력하는 것이 아니라, 그리퍼(120)의 이동에 대해 3축 각각에 대해서 적어도 3개의 클래스로 분류한 뒤, 분류된 클래스를 이동 정보로서 출력할 수 있다. 여기서, 적어도 3개의 클래스 각각은 제1 방향 이동 (+), 제2 방향 이동 (-) 및 이동 중지에 대응될 수 있다.

또한, 신경망 모델은 그리퍼(120)의 특정 축 기준 회전 각도(회전량)을 회전 정보로 출력하는 것이 아니라, 그리퍼(120)의 회전에 대해 3축 각각에 대해서 적어도 3개의 클래스로 분류한 뒤, 분류된 클래스를 회전 정보로서 출력할 수 있다. 여기서, 적어도 3개의 클래스 각각은 시계 방향 회전 (clockwise (+)), 반시계 방향 회전 (counterclockwise (-)) 및 미회전에 대응될 수 있다.

일 실시 예에 따른 전자 장치(100)는 3차원으로 이동 가능한 그리퍼(120)를 포함하며, 그리퍼(120)는 x, y, z축을 따라 이동 및 회전 가능할 수 있다.

다른 예에 따르면, 전자 장치(100)는 2차원 또는 1차원으로만 이동 가능한 그리퍼(120)를 포함할 수도 있다. 예를 들어, x 및 y축을 따라 이동 및 / 또는 회전할 수 있으며, x 및 z축, 또는 y 및 z축, 또는 x, y, z축을 따라 이동 및 / 또는 회전할 수도 있다. 또한, 본 개시의 일 실시 예에 따라 그리퍼(120)의 이동 및 / 또는 회전(축별)은 신경망 모델(10)에 의해 3개의 클래스로 분류되어 이동 정보 / 회전 정보로 출력될 수 있다.

다만, 다른 실시 예에 따르면, 그리퍼(120)의 이동 및 / 또는 회전(축별)도 신경망 모델(10)에 의해 3개 이상의 클래스로 분류되어 이동 정보 / 회전 정보로 출력될 수 있다. 예를 들어, 4, 5, 6, 7, 8, 9, 10 또는 10개 이상의 클래스로 분류될 수 있다.

도 4는 일 실시 예에 따른 이동 정보 및 회전 정보를 설명하기 위한 도면이다.

도 4를 참조하면, 신경망 모델(10)은 그리퍼(120)의 적어도 일부 및 그립 대상 객체의 적어도 일부를 포함하는 제1 및 제2 이미지(1, 2) 각각이 입력되면, 그리퍼(120)를 그립 대상 객체에 인접하게 위치시키기 위해 제1 방향 이동 (+), 제2 방향 이동 (-) 또는 이동 중지 (0) 중 어느 동작을 수행하여야 그립 대상 객체를 그립하기 위한 위치에 도달할 수 있는지 확률을 산출할 수 있다.

일 예로, 신경망 모델은 그리퍼(120)의 적어도 일부와 그립 대상 객체의 적어도 일부를 서로 다른 각도에서 촬영한 제1 및 제2 이미지(1, 2)에 기초하여 그리퍼(120)가 제1 방향으로 이동 시에 그립 대상 객체에 보다 인접하게 위치할 제1 확률, 그리퍼(120)가 제2 방향으로 이동 시에 그립 대상 객체에 보다 인접하게 위치할 제2 확률 및 그리퍼(120)의 현 위치가 그립 대상 객체에 인접하게 위치하는지 여부를 나타내는 제3 확률 각각을 획득할 수 있다.

여기서, 제1, 제2, 제3 확률의 합은 1 일 수 있다. 그리퍼(120)가 그립 대상 객체에 인접하게 위치함의 의미는, 그리퍼(120)가 그립 동작 수행 시에 그립 대상 객체를 그립할 수 있는 거리에 위치함을 의미할 수 있다.

이어서, 신경망 모델(10)은 제1 내지 제3 확률 중 가장 큰 값에 대응되는 이동(또는, 이동 중지)를 이동 정보로 출력할 수 있다. 예를 들어, 신경망 모델(10)은 제1 확률이 가장 큰 값이면, 제1 확률에 대응되는 제1 방향 이동 (+)을 이동 정보로 출력할 수 있다.

상술한 바와 같이 신경망 모델(10)이 출력하는 이동 정보는 그리퍼(120)를 제1 또는 제2 방향으로 이동시킬지, 또는 그리퍼(120)의 이동을 중지시킬지(또는, 그리퍼(120)의 현 위치를 유지시킬지)에 대한 정보만을 포함하고 있을 뿐, 그리퍼(120)를 얼마만큼 이동시킬지 즉, 이동 거리에 대한 정보는 포함하지 않을 수 있다.

또한, 신경망 모델(10)은 그리퍼(120)의 제1 및 제2 이미지 각각이 입력되면, 그리퍼(120)를 그립 대상 객체에 인접하게 위치시키기 위해 특정 축을 기준으로 시계 방향 회전 (clockwise (+)), 반시계 방향 회전 (counterclockwise (-)) 또는 미회전 중 어느 동작을 수행하여야 하는지 확률을 산출할 수 있다. 일 예로, 신경망 모델(10)은 그리퍼(120)가 x축 기준 시계 방향 회전 (clockwise (+)) 시에 그립 대상 객체에 보다 인접하게 위치할 제1 확률, 그리퍼(120)가 x축 기준 반시계 방향 회전 (counterclockwise (-)) 시에 그립 대상 객체에 보다 인접하게 위치할 제2 확률 및 그리퍼(120)의 x축 기준 각도가 회전 그립 대상 객체에 인접하게 위치하여 시계 또는 반시계 방향 회전이 불필요함을 나타내는 제3 확률 각각을 획득할 수 있다. 여기서, 제1 내지 제3 확률의 합은 1 일 수 있다. 그리퍼(120)가 그립 대상 객체에 인접하게 위치함의 의미는, 그리퍼(120)가 그립 동작 수행 시에 그립 대상 객체를 그립할 수 있는 거리에 위치함을 의미할 수 있다.

이어서, 신경망 모델은 제1, 제2, 제3 확률 중 가장 큰 값에 대응되는 회전(또는, 미회전)을 회전 정보로 출력할 수 있다. 예를 들어, 신경망 모델은 제2 확률이 가장 큰 값이면, 제2 확률에 대응되는 반시계 방향 회전 (counterclockwise (-)) 을 회전 정보로 출력할 수 있다.

이어서, 프로세서(140)는 이동 정보 및 회전 정보 각각에 기초하여 그리퍼(120)를 이동(또는, 이동 중지)시키고, 회전(또는, 미회전)시킬 수 있다. 도 4를 참조하면, 프로세서(140)는 이동 정보가 x축 방향으로의 제1 방향 이동, y축 방향으로의 제2 방향 이동, 및 z축 방향으로의 이동 중지를 포함하면 이동 정보에 기초하여 그리퍼(120)를 x축 기준 제1 방향(예를 들어, 좌측 방향) 이동시키고, y축 기준 제2 방향(예를 들어, 상측 방향) 이동시키고, z축 기준 이동 중지시킬 수 있다.

또한, 도 4를 참조하면, 프로세서(140)는 회전 정보가 x축 기준 시계 방향 회전, y축 기준 반시계 방향 회전, 및 z축 기준 미회전을 포함하면 회전 정보에 기초하여 그리퍼(120)를 x축 기준 시계 방향 회전시키고, y축 기준 반시계 방향 회전시키고, z축 기준 미회전시킬 수 있다.

도 4에서 구체적인 확률 숫자는 설명의 편의를 위한 일 예시에 불과하며, 신경망 모델(10)은 제1 및 제2 이미지(1, 2)에 기초하여 다양하게 조합된 이동 정보 및 회전 정보를 출력할 수 있음은 물론이다. 이하에서는 설명의 편의를 위해 제1 방향 및 시계 방향을 (+), 제2 방향 및 반시계 방향을 (-), 이동 중지 및 미회전을 (0)으로 표시하도록 한다.

일 실시 예에 따르면, 프로세서(140)는 이동 정보 및 회전 정보에 기초하여 그리퍼(120) 이동 및 회전시킬 수 있다. 이어서, 프로세서(140)는 카메라(110)를 통해 실시간 또는 기 설정된 시간 간격으로 이미지를 수신하며, 수신된 이미지를 신경망 모델에 입력하여 그리퍼(120)의 다음 이동 정보 및 회전 정보를 획득할 수 있다.

구체적으로, 프로세서(140)는 제1 및 제2 이미지(1, 2)를 신경망 모델(10)에 입력하여 제1 이동 정보 및 제1 회전 정보를 획득할 수 있다. 예를 들어, 도 4에 도시된 바와 같이 제1 이동 정보는 x축 방향 (+), y축 방향 (-), z축 방향 (0)을 포함할 수 있고, 제1 회전 정보는 x축 기준 (+), y축 기준 (-), z축 기준 (0)을 포함할 수 있다.

이어서, 프로세서(140)는 카메라(110)를 통해 수신된 제3 및 제4 이미지를 신경망 모델(10)에 입력하여 제2 이동 정보 및 제2 회전 정보를 획득할 수 있다. 여기서, 제3 및 제4 이미지는 제1 및 제2 이미지보다 기 설정된 시간 뒤에 그립 대상 객체 및 그리퍼(120)를 촬영하여 획득된 이미지일 수 있다. 즉, 제3 및 제4 이미지 각각은 제1 이동 정보 및 제1 회전 정보에 따라 제어된(예를 들어, 이동 및 회전된) 그리퍼(120)의 현 위치에 대응되는 그리퍼(120)의 적어도 일부를 포함할 수 있다.

구체적으로, 프로세서(140)가 제1 이동 정보에 기초하여 x축 방향 (+), y축 방향 (-), z축 방향 (0)으로 그리퍼(120)의 이동을 제어하고, 제1 회전 정보에 기초하여 x축 기준 (+), y축 기준 (-), z축 기준 (0)으로 그리퍼(120)의 회전을 제어하는 동안 카메라(110)로부터 수신된 제3 및 제4 이미지가 수신되면, 프로세서(140)는 제3 및 제4 이미지를 신경망 모델(10)에 입력하여 제2 이동 정보 및 제2 회전 정보를 획득할 수 있다.

다른 예로, 프로세서(140)가 제1 이동 정보에 기초하여 x축 방향 (+), y축 방향 (-), z축 방향 (0)으로 그리퍼(120)를 기 설정된 시간 동안 이동시키고, 제1 회전 정보에 기초하여 x축 기준 (+), y축 기준 (-), z축 기준 (0)으로 그리퍼(120)를 기 설정된 시간 동안 회전시킬 수 있다. 이어서, 기 설정된 시간이 경과함에 따라 제1 이동 정보에 대응되는 그리퍼(120)의 이동 및 제1 회전 정보에 대응되는 그리퍼(120)의 회전이 종료된 뒤 그리퍼(120)의 현 위치에 대응되는 그리퍼(120)의 적어도 일부를 포함하는 제3 및 제4 이미지가 수신되면, 프로세서(140)는 제3 및 제4 이미지를 신경망 모델(10)에 입력하여 제2 이동 정보 및 제2 회전 정보를 획득할 수 있다.

여기서, 제3 및 제4 이미지는 카메라(110)가 제1 및 제2 이미지(1, 2)를 촬영하고 기 설정된 시간이 경과한 뒤 그리퍼(120)의 적어도 일부 및 그립 대상 객체의 적어도 일부를 서로 다른 각도로 촬영한 이미지일 수 있다. 예를 들어, 카메라(110)는 0.05초의 시간 간격으로 이미지 쌍(예를 들어, 제3 및 제4 이미지)을 획득하여 프로세서(140)로 전송할 수 있다.

일 예로, 카메라(110)가 스테레오 비전(stereo vision) 카메라로 구현되면, 이미지 쌍은 이격 배치된 복수의 카메라 중 어느 하나를 이용하여 그리퍼(120)의 적어도 일부와 그립 대상 객체의 적어도 일부를 촬영한 이미지 및 나머지 하나를 이용하여 그리퍼(120)의 적어도 일부와 그립 대상 객체의 적어도 일부를 촬영한 이미지를 포함할 수 있다.

0.05초의 시간 간격은 일 예시에 불과하며 카메라(110)는 이보다 상대적으로 짧은 시간 또는 긴 시간 간격으로 이미지 쌍을 획득할 수도 있음은 물론이다. 예를 들어, 시간 간격은 0.01초, 0.02초, 0.03초, 0.04초, 0.06초, 0.07초, 0.08초, 0.09초, 또는 0.1초일 수 있다. 다른 예로, 시간 간격은 0.1초보다 상대적으로 더 짧거나, 0.1초보다 상대적으로 더 길 수도 있음은 물론이다.

일 실시 예에 따라 프로세서(140)가 그리퍼(120)를 제1 이동 정보 및 제1 회전 정보 각각에 기초하여 이동 및 회전시킴에 따라 제1 이미지(1)가 획득된 시점으로부터 기 설정된 시간이 경과한 뒤에 획득된 제3 이미지에 포함된 그리퍼(120)의 위치는 제1 이미지에 포함된 그리퍼(120)의 위치와 상이할 수 있다.

예를 들어, 프로세서(140)가 그리퍼(120)를 제1 이동 정보에 기초하여 0.05초 동안 이동시켰다면, 제3 이미지에 포함된 그리퍼(120)의 위치는 제1 이미지에 포함된 그리퍼(120)의 위치 대비 0.05(s) * 그리퍼(120)의 이동 속도(m/s)만큼 차이가 날 것이다.

제4 이미지에 포함된 그리퍼(120)의 위치 또한, 제2 이미지(2)에 포함된 그리퍼(120)의 위치 대비 0.05(s)*그리퍼(120)의 이동 속도(m/s)만큼 차이가 날 것이다.

따라서, 신경망 모델(10)은 그리퍼(120)의 현 위치에 기초하여 다음 이동 정보를 출력하므로, 신경망 모델이 출력한 제3 및 제4 이미지에 대응되는 제2 이동 정보는 제1 및 제2 이미지(1, 2)에 대응되는 제1 이동 정보와 동일할 수도 있고 상이할 수도 있다.

예를 들어, 제1 및 제2 이미지(1, 2)에 대응되는 제1 이동 정보는 x축 방향 (+), y축 방향 (-), z축 방향 (0)이고, 제3 및 제4 이미지에 대응되는 제2 이동 정보는 x축 방향 (0), y축 방향 (+), z축 방향 (0)일 수 있다.

또한, 프로세서(140)가 그리퍼(120)를 제1 회전 정보에 기초하여 0.05초 동안 회전시켰다면, 제3 이미지에 포함된 그리퍼(120)와 그립 대상 객체 간의 특정 축에 대한 각도 차는 제1 이미지(1)에 포함된 그리퍼(120)와 그립 대상 객체 간의 특정 축에 대한 각도 차와 상이할 것이다. 제4 이미지에 포함된 그리퍼(120)와 그립 대상 객체 간의 특정 축에 대한 각도 차 또한, 제2 이미지(2)에 포함된 그리퍼(120)와 그립 대상 객체 간의 특정 축에 대한 각도 차와 상이할 것이다.

따라서, 신경망 모델은 그리퍼(120)의 현 위치에 기초하여 다음(또는, 신규) 회전 정보를 출력하므로, 제3 및 제4 이미지에 대응되는 제2 회전 정보는 제1 및 제2 이미지(1, 2)에 대응되는 제1 회전 정보와 동일할 수도 있고 상이할 수도 있다.

예를 들어, 제1 및 제2 이미지(1, 2)에 대응되는 제1 회전 정보는 x축 기준 (+), y축 기준 (-), z축 기준 (0)이고, 제3 및 제4 이미지에 대응되는 제2 회전 정보는 x축 방향 (+), y축 방향 (0), z축 방향 (0)일 수 있다.

즉, 신경망 모델(10)은 실시간 또는 기 설정된 시간 간격으로 수신된 이미지에 기초하여 그리퍼(120)를 그립 대상 객체에 인접하게 위치시키기 위한 이동 정보 및 회전 정보를 실시간 또는 기 설정된 시간 간격으로 출력할 수 있다.

신경망 모델(10)은 그리퍼(120)의 이동 거리, 회전 각도 등에 대응되는 구체적인 수치를 출력하지 않으나, 그리퍼(120)의 현 위치에 대응되는 이동 정보 및 회전 정보를 실시간 또는 기 설정된 시간 간격으로 출력할 수 있다. 따라서, 프로세서(140)는 신경망 모델이 실시간 또는 기 설정된 시간 간격으로 출력하는 이동 정보 및 회전 정보에 기초하여 그리퍼(120)를 이동 및 회전시켜 그립 대상 객체에 인접하게 위치시킬 수 있다.

도 5는 일 실시 예에 따른 신경망 모델의 학습을 설명하기 위한 도면이다.

<신경망 모델의 학습>

일 실시 예에 따른 신경망 모델(10)은 그리퍼(120)를 복수의 훈련 이미지 각각에 포함된 외부 객체에 인접하게 위치시키기 위한 이동 정보 및 회전 정보를 출력하도록 학습을 통해 만들어진 것을 특징으로 한다.

여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

일 실시 예에 따라 지도형 학습 알고리즘의 의하여 학습된 신경망 모델을 설명하도록 한다. 우선, 도 5를 참조하여, 신경망 모델의 학습 데이터를 획득하는 방법에 대해 설명하도록 한다.

<신경망 모델의 학습 데이터 획득 방법>

우선, 학습 데이터 생성 모듈은 종래의 규칙 기반(rule-based) 로봇 또는 종래의 신경망 모델을 포함하는 로봇이 그리퍼를 제어하여 외부 객체를 파지하는 경우, 그리퍼의 움직임을 촬영한 스테레오 비전 영상을 획득할 수 있다. 여기서, 스테레오 비전 영상은 종래의 로봇에 구비된 그리퍼의 적어도 일부와 외부 객체의 적어도 일부를 포함하고 있으며, 그리퍼가 이동 및 회전하여 외부 객체에 인접하게 위치한 뒤에 외부 객체를 파지하기까지의 그리퍼의 움직임을 촬영한 영상일 수 있다. 또한, 스테레오 비전 영상을 구성하는 복수의 프레임 각각은 서로 다른 이미지 쌍으로 구성될 수 있다. 예를 들어, 복수의 프레임 각각은 그리퍼의 적어도 일부 및 외부 객체의 적어도 일부를 동일한 시간에 서로 다른 각도에서 촬영한 이미지 쌍으로 구성될 수 있다. 여기서, 이미지 쌍 각각은 그리퍼의 일부를 포함할 수 있다. 그리퍼의 적어도 일부는 그리퍼의 일 구성 요소로서 그립 대상 객체와 접촉하는 집계(jaws) 또는 손가락(finger) 부분을 의미할 수 있다. 학습 데이터 생성 모듈은 프로세서(140)의 일 기능을 의미할 수도 있으며, 외부 장치에 구비된 학습 데이터를 생성하는 프로세서를 의미할 수도 있다.

또한, 학습 데이터 생성 모듈은 종래의 로봇이 그리퍼를 이동시키기위해 출력한 제어 신호를 획득할 수 있다.

예를 들어, 학습 데이터 생성 모듈은 종래의 규칙 기반 로봇이 그리퍼를 외부 객체에 인접하게 위치시키기 위해 출력한 i) 그리퍼의 x축, y축, z축 각각의 이동 방향에 대한 제어 신호, 또는 ii) x축, y축, z축 각각의 회전 방향에 대한 제어 신호를 획득할 수 있다.

다른 예로, 학습 데이터 생성 모듈은 종래의 신경망 모델을 포함하는 로봇이 그리퍼를 외부 객체에 인접하게 위치시키기 위해 신경망 모델이 출력한 i) 그리퍼의 x축, y축, z축 각각의 이동 방향에 대한 제어 신호, 또는 ii) x축, y축, z축 각각의 회전 방향에 대한 제어 신호를 획득할 수 있다. 또는, 학습 데이터 생성 모듈은 그리퍼의 이동 좌표 값(및 각 이동 좌표 값에 매핑된 각 축을 기준으로하는 그리퍼의 회전 각도)을 획득할 수 있다.

학습 데이터 생성 모듈은 획득된 제어 신호 또는, 그리퍼의 이동 좌표 값 및 각 이동 좌표 값에 매핑된 각 축의 회전 각도를 획득할 수도 있고, 센서의 센싱 데이터로부터 공간상의 그리퍼의 이동 좌표 값 및 각 이동 좌표 값에 매핑된 각 축의 회전 각도를 획득할 수도 있음은 물론이다.

학습 데이터 생성 모듈은 획득된 복수의 이동 좌표 값 및 각 이동 좌표 값에 매핑된 각 축의 회전 각도를 그리퍼 궤적 데이터로 구성할 수 있으며, 그리퍼 궤적 데이터는 파지를 위한 그리퍼의 이동을 학습시키기 위한 학습 데이터로 이용될 수 있다. 그리퍼 궤적 데이터는 공간상의 이동 좌표 값으로만 구성될 수도 있으며, 각 이동 좌표 값에 매핑된 각 축의 회전 각도를 더 포함할 수도 있음은 물론이다.

여기서, 종래의 로봇에 포함된 신경망 모델은 그리퍼와 외부 객체 간의 거리를 산출하는 모델이며, 종래의 로봇은 산출된 거리에 기초하여 그리퍼를 외부 객체에 인접하게 이동시키는 로봇일 수 있다.

이어서, 학습 데이터 생성 모듈은 종래의 로봇으로부터 획득된 스테레오 비전 영상을 프레임 단위로 구분하고, 그리퍼 궤적 데이터에 기초하여 n-1 번째 영상 프레임의 매핑된 그리퍼 궤적 데이터(그리퍼의 공간상 좌표 값 또는 각 축의 회전 각도)와 n 번째 영상 프레임에 매핑된 그리퍼 궤적 데이터를 비교하여 그리퍼가 상대적으로 어느 방향으로 이동했는지 파악하여 그리퍼의 x축 기준 이동 방향을 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 어느 하나로 매칭시키고, y축 기준 이동 방향을 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 어느 하나로 매칭시키고, z축 기준 이동 방향을 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 어느 하나로 매칭시킬 수 있다.

학습 데이터 생성 모듈은 복수의 프레임 각각에 대응되는, 그리퍼의 x축, y축, z축 각각의 이동 방향을 그라운드 트루스(Ground truth)로하여 학습 데이터를 생성할 수 있다.

도 5를 참조하여 일 예를 들면, 학습 데이터 생성 모듈은 i) 그리퍼의 x축, y축, z축 각각의 이동 방향에 대한 제어 신호에 기초하여 제1 프레임에서 그리퍼의 x축 이동 방향이 제1 방향이고, y축 이동 방향이 제2 방향이고, z축 이동 방향이 이동 중지이면, ‘x축 (+), y축 (-), z축 (0)’을 제1 프레임에서 그리퍼의 이동 방향에 대한 그라운드 트루스(Ground truth)로하여 학습 데이터를 생성할 수 있다. 여기서, 제1 프레임은 도 5에 도시된 바와 같이 그리퍼의 적어도 일부 및 그립 대상 객체의 적어도 일부를 포함하는 서로 다른 이미지(예를 들어, 서로 다른 각도에서 촬영한 이미지)를 포함할 수 있다.

또한, 학습 데이터 생성 모듈은 그리퍼 궤적 데이터에 기초하여 n-1 번째 영상 프레임의 매핑된 그리퍼 궤적 데이터(공간상 좌표 값 또는 각 축의 회전 각도)와 n 번째 영상 프레임에 매핑된 그리퍼 궤적 데이터 값을 비교하여 상대적으로 어느 방향으로 회전했는지 파악해서 그리퍼의 x축 기준 회전 방향을 제1 방향 회전, 제2 방향 회전 또는 미회전 중 어느 하나로 매칭시키고, y축 기준 회전 방향을 제1 방향 회전, 제2 방향 회전 또는 미회전 중 어느 하나로 매칭시키고, z축 기준 회전 방향을 제1 방향 회전, 제2 방향 회전 또는 미회전 중 어느 하나로 매칭시킬 수 있다.

학습 데이터 생성 모듈은 복수의 프레임 각각에 대응되는, 그리퍼의 x축, y축, z축 각각의 회전 방향을 그라운드 트루스(Ground truth)하여 학습 데이터를 생성할 수 있다.

도 5를 참조하여 일 예를 들면, 학습 데이터 생성 모듈은 ii) 그리퍼의 x축, y축, z축 각각의 회전 방향에 대한 제어 신호에 기초하여 제1 프레임에서 그리퍼의 x축 기준 회전 방향이 제2 방향이고, y축 기준 회전 방향이 미회전이고, z축 기준 회전 방향이 미회전이면, ‘x축 (-), y축 (0), z축 (0)’을 제1 프레임에서 그리퍼의 회전 방향에 대한 그라운드 트루스(Ground truth)로하여 학습 데이터를 생성할 수 있다. 한편, 설명의 편의를 위해 제1 방향을 (+), 제2 방향을 (-), 이동 중지 또는 미회전을 (0)로 표현함은 상술한 바 있다.

한편, 상술한 예시에서는 종래의 로봇이 그리퍼를 외부 객체에 인접하게 위치시키는 경우에 그리퍼의 움직을 촬영한 영상에 기초하여 학습 데이터를 생성하는 일 예시를 상정하여 설명하였으나 이에 한정되지 않음은 물론이다.

예를 들어, 학습 데이터 생성 모듈은 인간의 팔, 손에 센서를 부착하고 손의 적어도 일부 및 외부 객체의 적어도 일부를 촬영한 이미지를 획득할 수 있다. 이어서, 학습 데이터 생성 모듈은 센서로부터 수신된 센싱 데이터에 기초하여 i) 인간의 손의 x축, y축, z축 각각의 이동 방향 및 ii) 인간의 손의 x축, y축, z축 각각의 회전 방향을 식별할 수 있다. 이어서, 학습 데이터 생성 모듈은 촬영한 이미지와 식별된 i) x축, y축, z축 각각의 이동 방향 및 ii) x축, y축, z축 각각의 회전 방향을 매칭시켜 학습 데이터를 생성할 수도 있다.

<신경망 모델 학습 방법>

도 5를 참조하면, 종래의 규칙 기반(rule-based) 로봇 또는 종래의 신경망 모델을 포함하는 로봇이 그리퍼를 제어하여 외부 객체를 파지하는 경우, 그리퍼의 움직임을 촬영한 스테레오 비전 영상을 구성하는 복수의 프레임 각각은 신경망 모델의 입력 학습 데이터가 될 수 있다.

일 예로, 스테레오 비전 영상을 구성하는 복수의 프레임 중 제1 프레임은 이미지 쌍(예를 들어, 제1 이미지 및 제2 이미지(1, 2))로 구성될 수 있다.

일 실시 예에 따라 신경망 모델 학습 모듈은 이미지 쌍(예를 들어, 제1 이미지 및 제2 이미지(1, 2))을 신경망 모델에 입력할 수 있고, 신경망 모델(10)은 입력된 이미지 쌍 각각에 포함된 외부 객체의 적어도 일부 및 그리퍼(120)의 적어도 일부에 기초하여 그리퍼(120)를 그립 대상 객체에 인접하게 위치시키기 위한 그리퍼(120)의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하는 이동 정보 및 그리퍼(120)의 제1 방향 회전, 제2 방향 회전 또는 미회전 중 하나를 포함하는 회전 정보를 출력할 수 있다.

도 5를 참조하면, 신경망 모델(10)은 이미지 쌍에 기초하여 그리퍼(120)가 x축 기준으로 제1 방향으로 이동 시에 그립 대상 객체에 보다 인접하게 위치할 제1 확률, 그리퍼(120)가 제2 방향으로 이동시에 그립 대상 객체에 보다 인접하게 위치할 제2 확률 및 그리퍼(120)의 현 위치가 그립 대상 객체에 인접하게 위치하는지 여부를 나타내는 제3 확률 각각을 획득할 수 있다. 제1, 제2 및 제3 확률의 합은 1 이거나, 1 이 아닐 수 있다.

여기서, 신경망 모델(10)은 제1 내지 제3 확률 각각과 그라운드 트루스 간의 오차에 기초하여 에러 값을 획득할 수 있다. 여기서, 그라운드 트루스에 따라 이미지 쌍에 대응되는 그리퍼(120)의 이동 방향은 1의 값(도 5의 GT label 참조)을 가지며, 나머지 이동 방향은 0의 값을 가지며, 신경망 모델이 이미지 쌍에 기초하여 출력한 제1 내지 제3 확률(도 5의 Network Output 참조) 각각은 0 내지 1의 값을 가질 수 있다. 따라서, 에러 값(도 5의 Error 참조)은 -1 내지 1의 값을 가질 수 있다. 즉, 에러 값은 도 5를 참조하면 GT label에 대응되는 1의 값과 Network Output에 대응되는 확률 값 간의 차이를 의미할 수 있다.

일 실시 예에 따른 신경망 모델 학습 모듈은 에러 값을 최소화시키는 방향으로 신경망 모델(10)을 구성하는 히든 레이어의 가중치(weight), 파라미터를 조정할 수 있다.

또한, 이동 방향 외에 회전 방향도 상술한 방법과 동일하게 신경망 모델 학습 모듈은 제1 내지 제3 확률 각각과 그라운드 트루스 간의 오차에 기초하여 에러 값을 획득하며, 에러 값을 최소화시키는 방향으로 신경망 모델(10)을 학습시킬 수 있다. 예를 들어, 신경망 모델 학습 모듈은 Stochastic Gradient Descent에 기초하여 최적 가중치를 탐색할 수 있고, 이에 기초하여 히든 레이어 각각의 가중치를 조정할 수 있다.

도 5를 참조하면, 신경망 모델은 그리퍼(120)의 x축, y축, z축 이동 방향 각각에 대응되는 제1 내지 제3 확률과 x축, y축, z축 회전 방향 각각에 대응되는 제1 내지 제3 확률 즉, 총 18개의 확률을 출력하며, 신경망 모델 학습 모듈은 총 18개의 확률 각각 대응되는 그라운트 트루스와의 오차에 기초하여 총 18개의 에러 값을 획득할 수 있다.

이하에서는 다른 실시 예에 따라 강화 학습 알고리즘의 의하여 학습된 신경망 모델(10)을 설명하도록 한다.

강화 학습 알고리즘은 현 상태에서 최적의 액션을 수행하도록 신경망 모델(10)을 학습시키는 알고리즘이며, 액션을 수행할 때마다 이에 대한 보상(reward)가 부여된다. 특히, 신경망 모델 학습 모듈은 보상을 최대화시키는 방향으로 신경망 모델(10)을 학습시킬 수 있다.

일 실시 예에 따라 신경망 모델(10)은 그리퍼(120)를 외부 객체에 인접하게 위치시키기 위한 그리퍼(120)의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하는 이동 정보 및 그리퍼(120)의 제1 방향 회전, 제2 방향 회전 또는 미회전 중 하나를 포함하는 회전 정보를 출력 할 수 있다.

이 경우, 강화 학습 알고리즘은 신경망 모델(10)이 출력한 이동 정보 및 회전 정보에 따라 그리퍼(120)가 외부 객체에 이전보다 인접하게 위치하게 되는 경우를 보상(reward)으로 설정할 수 있다. 일 실시 예에 따라 신경망 모델 학습 모듈은 신경망 모델이 출력한 이동 정보 및 회전 정보에 따라 그리퍼(120)가 움직인 결과가 외부 객체에 최대한 인접하도록 즉, 보상이 최대가 되도록 신경망 모델을 학습시킬 수 있다.

또한, 강화 학습 알고리즘은 그리퍼(120)가 외부 객체를 그립하며, 외부 객체를 기 설정된 거리만큼 이동시키는 경우를 보상으로 설정할 수도 있다. 이 경우에, 신경망 모델 학습 모듈은 신경망 모델이 출력한 이동 정보 및 회전 정보에 따라 그리퍼(120)가 외부 객체에 그립 가능한 거리 내에 위치하도록, 또한, 외부 객체를 기 설정된 거리 이상 이동시키기 위해 안정적인 그립 가능 거리 내에 위치하도록 신경망 모델(10)을 학습시킬 수 있다.

일 실시 예에 따라, 강화 학습 알고리즘은 신경망 모델(10)이 출력한 이동 정보 및 회전 정보에 따라 그리퍼(120)가 이동 및 회전한 결과, 외부 객체와 보다 멀어졌거나, 외부 객체의 그립에 실패한 경우 보상을 주지 않을 수 있다.

그리퍼(120)는 x축 기준으로 제1 방향 이동, 제2 방향 이동 및 이동 중지 중 어느 하나를 수행할 수 있고, y축 기준으로 제1 방향 이동, 제2 방향 이동 및 이동 중지 중 어느 하나를 수행할 수 있고, z축 기준으로 제1 방향 이동, 제2 방향 이동 및 이동 중지 중 어느 하나를 수행할 수 있다.

또한, 그리퍼(120)는 x축 기준으로 제1 방향 회전, 제2 방향 회전 및 미회전 중 어느 하나를 수행할 수 있고, y축 기준으로 x축 기준으로 제1 방향 회전, 제2 방향 회전 및 미회전 중 어느 하나를 수행할 수 있고, z축 기준으로 x축 기준으로 제1 방향 회전, 제2 방향 회전 및 미회전 중 어느 하나를 수행할 수 있다. 즉, 그리퍼(120)의 움직임은 총 729(36)개의 경우의 수를 가능할 수 있다.

다른 실시 예에 따른 신경망 모델 학습 모듈은 심층 Q-네트워크 (Deep Q-Networks)을 이용하여 그리퍼(120)의 현 상태(예를 들어, 그립 대상 객체와 현재 이격된 정도)에 기초하여 그리퍼(120)를 외부 객체에 인접하게 위치시키는 경우에, 그리퍼(120)가 외부 객체 그립 가능 거리 내에 위치하기까지 최종적으로 요구되는 움직임의 예상 횟수, 그리퍼(120)의 움직임에 대한 총 729개의 경우의 수를 고려하여 이동 정보 및 회전 정보를 출력하도록 신경망 모델을 학습시킬 수 있다.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

종래의 규칙 기반(rule-based) 로봇 또는 종래의 신경망 모델을 포함하는 로봇은 카메라를 통한 촬영 이미지에 기초하여 그리퍼와 그립 대상 객체 간의 거리를 산출한 뒤, 산출된 거리에 기초하여 그리퍼를 이동시켰다. 이 경우에, 로봇이 그리퍼와 그립 대상 객체 간의 거리를 오차 범위 내에서 식별하기란 매우 어려우며, 그리퍼와 그립 대상 객체 간의 거리를 오차 범위 내에서 식별하여야만(또는, 산출된 거리의 신뢰도가 높은 경우에 한하여) 그립 대상 객체를 원활하게 그립할 수 있다는 한계가 있다.

이에 반해, 일 실시 예에 따른 신경망 모델은 그리퍼(120)의 각 축의 이동 방향에 대해서 세 개의 클래스(예를 들어, 제1 방향 이동, 제2 방향 이동, 이동 중지) 각각에 해당하는 확률 값(확률 값이 높을수록, 그리퍼(120)의 현 상태에서 그립 대상 객체를 그립하기 위해 선택해야할 가장 적절한 항목에 해당함을 의미함)을 도출하고, 가장 높은 확률 값을 가지는 클래스가 이동 방향으로서 선택된다. 또한, 신경망 모델은 그리퍼(120)의 각 축을 기준으로 한 회전 방향에 대해서 세 개의 클래스(예를 들어, 제1 방향 회전, 제2 방향 회전, 미회전) 각각에 해당하는 확률 값(확률 값이 높을수록, 그리퍼(120)의 현 상태에서 그립 대상 객체를 그립하기 위해 선택해야할 가장 적절한 항목에 해당함을 의미함)을 도출하고, 가장 높은 확률 값을 가지는 클래스가 회전 방향으로서 선택된다.

이어서, 프로세서(140)는 이동 방향 및 회전 정보에 기초하여 그리퍼(120)를 이동 및 회전시키므로 그립 대상 객체와의 오차 범위 내의 거리(예를 들어, 이동 거리, 회전 각도)를 산출하지 않아도 되며, 보다 적은 시행 착오로 그리퍼(120)를 그립 대상 객체에 인접하게 위치시킬 수 있는 효과가 있다.

도 6은 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

우선, 일 실시 예에 따른 전자 장치(100)는 적어도 하나의 이미지를 신경망 모델(10)에 입력하여 그리퍼(120)의 이동 정보 및 회전 정보를 획득한다(S610). 여기서, 적어도 하나의 이미지는 스테레오 비전 카메라를 통해 획득한 그리퍼(120)의 적어도 일부 및 그립 대상 객체의 적어도 일부를 포함하는 이미지 쌍일 수 있음은 상술한 바 있다(시점 t에서 획득된).

이어서, 전자 장치(100)는 획득된 이동 정보 및 회전 정보에 기초하여 그리퍼(120)를 이동 및 회전시킬 수 있다(S620). 예를 들어, 전자 장치(100)는 이동 정보에 기초하여 그리퍼(120)를 제1 방향, 제2 방향 중 어느 하나의 방향으로 이동시키거나, 이동 중지(예를 들어, 현재 위치에서 고정)시킬 수 있다.

또한, 전자 장치(100)는 회전 정보에 기초하여 그리퍼(120)를 제1 방향, 제2 방향 중 어느 하나의 방향으로 회전시키거나, 미회전(예를 들어, 그리퍼(120)가 회전 중 이였을 경우에는 회전 중단)시킬 수 있다. 여기서, 제1 방향은 시계 방향이고, 제2 방향은 반 시계 방향일 수 있음은 상술한 바 있다.

이어서, 전자 장치(100)는 이동 정보 및 회전 정보에 기초하여 위치가 변경된 그리퍼의 적어도 일부 및 그립 대상 객체의 적어도 일부를 포함하는 적어도 하나의 이미지를 획득할 수 있다(시점 t+1에서 획득된). 예를 들어, 전자 장치(100)는 카메라(110)를 통해 실시간 또는 기 설정된 시간 간격으로 이미지를 획득하며, 획득된 이미지는 프로세서(140)의 제어에 따라 이동 또는 회전하여 위치가 변경된 그리퍼(120)의 현 상태를 포함할 수 있다.

전자 장치(100)는 적어도 하나의 이미지를 신경망 모델에 입력하여 그리퍼(120)의 다음(또는, 신규) 이동 정보 및 회전 정보를 획득할 수 있다(S630). 여기서, 다음 이동 정보 및 회전 정보는 S620 단계에서 그리퍼(120)가 이동 또는 회전하였으므로, 변경된 그리퍼(120)의 현 상태에 대응되는 이동 정보 및 회전 정보를 의미할 수 있다.

이어서, 전자 장치(100)는 S630 단계에서 획득된 이동 정보가 이동 중지 (0)를 포함하고, S630 단계에서 획득된 회전 정보가 미회전 (0)을 포함하면(S640: Y), 그리퍼(120)의 이동 및 회전을 중지시킬 수 있다. 예를 들어, 모든 축(x, y, z)에서의 이동 정보가 이동 중지 (0)을 포함하고, 모든 축(x, y, z)의 회전 정보가 미회전 (0)을 포함한다면, 그리퍼(120)가 그립 대상 객체와 그립 가능 거리 내에 위치함을 의미하므로 전자 장치(100)는 그리퍼(120)의 이동 및 회전을 중지시키고 그립 대상 객체에 대한 그립을 수행하도록 그리퍼(120)를 제어할 수 있다.

다른 예로, 전자 장치(100)는 S630 단계에서 획득된 이동 정보와 회전 정보 중(예: x, y, z 축 각각에 대응되는 이동, 회전 방향 정보 6 개 중)에서 하나라도 그리퍼(120)의 이동 또는 회전을 나타내는 정보가 획득되면(S640: N), S630 단계에서 획득된 3축 각각에 대응되는 이동 정보 및 회전 정보에 기초하여 그리퍼(120)를 이동 및 회전시킬 수 있다(S650). 예를 들어, 이동 정보가 이동 중지 (0)을 포함하지 않거나, 회전 정보가 미회전 (0)을 포함하지 않는다면, 그리퍼(120)가 그립 대상 객체와 그립 가능 거리 내에 위치하지 않음을 의미하므로 전자 장치(100)는 그리퍼(120)의 이동 및 회전시켜 그립 대상 객체와 그립 가능 거리 내에 위치시킬 수 있다.

S650 단계 이후에 S630 단계와 S640 단계는 반복적으로 수행될 수 있다.

<Iteration 1 > 단계

예를 들어, 전자 장치(100)는 t+1시점에서 획득된 이미지로부터 획득된 이동 정보 및 회전 정보에 따라 이동 및 회전된 그리퍼(120)의 현 상태를 포함하는 적어도 하나의 이미지를 획득하며(t+2), 이를 신경망 모델(10)에 입력하여 이동 정보 및 회전 정보를 획득할 수 있다(S630). 이어서, Iteration 1에서 획득된 이동 정보가 이동 중지 (0)를 포함하고, 회전 정보가 미회전(0)을 포함하면(S640: Y), 그리퍼(120)의 움직임을 중지시키고 그립 대상 객체에 대한 그립을 수행할 수 있다.

다른 예로, Iteration 1에서 획득된 이동 정보와 회전 정보 중(예: x, y, z 각 축에 대응되는 이동, 회전 방향 정보 6 개 중)에서 하나라도 그리퍼(120)의 이동 또는 회전을 나타내는 정보가 획득되면(S640: N), 전자 장치(100)는 Iteration 1에서 획득된 이동 정보 및 회전 정보(즉, t+2 시점에서 획득된 적어도 하나의 이미지에 기초하여 획득된 이동 정보 및 회전 정보)에 기초하여 그리퍼(120)를 이동 및 회전시킬 수 있다.

이어서, 전자 장치(100)는 <Iteration 2> 단계 즉, S630 단계와 S640 단계를 반복적으로 수행할 수 있다.

본 개시의 일 실시 예에 따른 전자 장치(100)는 이동 정보 및 회전 정보에 기초하여 그리퍼(120)가 기 설정된 동작을 반복하는 것으로 식별되면, 그립 대상 객체에 대한 그립 동작을 수행하도록 그리퍼(120)를 제어할 수도 있다. 예를 들어, 전자 장치(100)는 Iteration 1 단계 및 Iteration 2 단계 각각에서 획득된 이동 정보에 기초하여 그리퍼(120)가 그립 대상 객체에 인접한 상태에서 상하 이동, 좌우 이동 또는, 전후진 이동만을 교차하여 수행 중인 것으로 식별되면, 그리퍼(120)가 그립 대상 객체를 그립할 수 있는 거리에 위치하는 것으로 판단하고 그랩 대상 객체를 그립하도록 제어할 수 있다.

다른 예로, 전자 장치(100)는 Iteration 1 단계 및 Iteration 2 단계 각각에서 획득된 회전 정보에 기초하여 그리퍼(120)가 그립 대상 객체에 인접한 상태에서 x축 기준으로 시계 및 반시계 회전, y축 기준으로 시계 및 반시계 회전 또는, z축 기준으로 시계 및 반시계 회전만을 교차하여 수행 중인 것으로 식별되면, 그리퍼(120)가 그립 대상 객체를 그립할 수 있는 거리에 위치하는 것으로 판단하고 그랩 대상 객체를 그립하도록 제어할 수 있다.

또한, 이동 정보 및 회전 정보에 기초하여 그리퍼(120)가 그립 대상 객체에 대한 그립 동작을 수행하도록 그리퍼(120)를 제어하는 단계를 더 포함하며, 이동 정보는 이동 중지에 대응되며, 회전 정보는 미회전에 대응될 수 있다.

또한, 신경망 모델로부터 출력되는 이동 정보는, x축 이동 정보, y축 이동 정보 및 z축 이동 정보를 포함하며, x축 이동 정보는, 그리퍼(120)의 x축 방향으로의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하고, y축 이동 정보는, 그리퍼(120)의 y축 방향으로의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하고, z축 이동 정보는, 그리퍼(120)의 z축 방향으로의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함할 수 있다.

또한, 신경망 모델로부터 출력되는 회전 정보는, x축 회전 정보, y축 회전 정보 및 z축 회전 정보를 포함하며, x축 회전 정보는, 그리퍼(120)의 x축 기준 시계 방향 회전, x축 기준 반시계 방향 회전 또는 x축 기준 미회전 중 하나를 포함하고, y축 회전 정보는, 그리퍼(120)의 y축 기준 시계 방향 회전, y축 기준 반시계 방향 회전 또는 y축 기준 미회전 중 하나를 포함하고, z축 회전 정보는, 그리퍼(120)의 z축 기준 시계 방향 회전, z축 기준 반시계 방향 회전 또는 z축 기준 미회전 중 하나를 포함할 수 있다.

또한, 획득된 이동 정보에 기초하여 그리퍼(120)가 기설정된 동작을 반복하는 것으로 식별되면, 그립 대상 객체에 대한 그립 동작을 수행하도록 그리퍼(120)를 제어하는 단계를 더 포함할 수 있다.

또한, 적어도 하나의 이미지는, 제1 및 제2 이미지를 포함하며, 이동 정보 및 회전 정보를 획득하는 단계는, 제1 및 제2 이미지를 신경망 모델에 입력하여 제1 이동 정보 및 제1 회전 정보를 획득하는 단계를 포함하고, 그리퍼(120)를 제어하는 단계는, 제1 이동 정보 및 제1 회전 정보에 기초하여 그리퍼(120)를 제어하는 단계를 포함하며, 제1 이동 정보 및 제1 회전 정보에 기초하여 그리퍼(120)가 제어되는 동안 제3 및 제4 이미지가 카메라로부터 수신되면, 제3 및 제4 이미지를 신경망 모델에 입력하여 제2 이동 정보 및 제2 회전 정보를 획득하는 단계 및 제2 이동 정보 및 제2 회전 정보에 기초하여 그리퍼(120)를 제어하는 단계를 더 포함할 수 있다.

또한, 신경망 모델은, 적어도 하나의 이미지에 기초하여 뎁스 맵(Depth map)을 획득하고, 획득된 뎁스 맵에 기초하여 이동 정보 및 회전 정보를 출력할 수 있다.

또한, 신경망 모델은, 복수의 훈련 이미지 각각에 포함된 그리퍼(120)의 적어도 일부 및 외부 객체의 적어도 일부 간의 거리 정보에 기초하여 그리퍼(120)를 외부 객체에 인접하게 위치시키기 위한 이동 정보 및 회전 정보를 출력하도록 학습된 모델일 수 있다.

또한, 전자 장치(100)는, 그립 대상 객체를 상이한 각도에서 촬영하도록 이격 배치되는 복수의 카메라(110)를 포함할 수 있다.

도 7은 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 전자 장치(100)는 신경망 모델에 적어도 하나의 이미지를 입력하는 것에 기초하여 그리퍼(120)의 이동 정보 및 회전 정보를 획득할 수 있다(S710). 전자 장치(100)는 도 6의 S610 동작에서 설명한 것과 실질적으로 유사한 방식으로 이동 정보 및 회전 정보를 획득할 수 있다.

전자 장치(100)는 n 방향에 대응되는 이동 정보를 획득할 수 있다. 예를 들어, 전자 장치(100)는 제1 방향(예: x축 방향), 제2 방향(예, y축 방향) 및 제3 방향(예: z축 방향)의 이동 정보를 획득할 수 있다. 다른 예로, 전자 장치(100)는 서로 다른 방향(예: x축 방향만, y축 방향만, x축 방향 및 z축 방향 등)에 대한 이동 정보를 획득할 수 있다. 또한, 전자 장치(100)는 m 방향에 대응되는 회전 정보를 획득할 수 있다. 예를 들어, 전자 장치(100)는 제1 축(예: x축), 제2 축(예, y축) 및 제3 축(예: z축)에 대응되는 회전 정보를 획득할 수 있다. 다른 예로, 전자 장치(100)는 서로 다른 방향(예: x축 방향만, y축 방향만, x축 방향 및 z축 방향 등)에 대응되는 회전 정보를 획득할 수 있다.

도 7을 참조하면, 전자 장치(100)는 획득된 이동 정보 및 회전 정보에 기초하여 그리퍼(120)를 기 설정된 방식(in a predetermined manner)으로 이동 또는 회전시킬 수 있다(S720).

전자 장치(100)는 기 설정된 양만큼 그리퍼(120)를 이동시키거나, 기 설정된 양만큼 그리퍼(120)를 회전시켜 그리퍼(120)를 기 설정된 방식으로 이동 또는 회전시킬 수 있다.

이동 정보는 기 설정된 양만큼 매핑될 수 있다. 예를 들어, 그리퍼(120)가 제1 방향으로 이동될 것임이 식별된 이동 정보는 제1 방향으로 제1 기 설정된 양에 매핑될 수 있다. 또한, 그리퍼(120)가 제2 방향으로 이동될 것임이 식별된 이동 정보는 제2 방향으로 제2 기 설정된 양에 매핑될 수 있다. 또한, 그리퍼(120)가 제3 방향으로 이동될 것임이 식별된 이동 정보는 제3 방향으로 제3 기 설정된 양에 매핑될 수 있다. 다른 예로, 그리퍼(120)가 제1 방향으로 회전될 것임이 식별된 이동 정보는 제1 방향으로 제1 기 설정된 양에 매핑될 수 있다. 또한, 그리퍼(120)가 제2 방향으로 회전될 것임이 식별된 이동 정보는 제2 방향으로 제2 기 설정된 양에 매핑될 수 있다. 또한, 그리퍼(120)가 제3 방향으로 회전될 것임이 식별된 이동 정보는 제3 방향으로 제3 기 설정된 양에 매핑될 수 있다.

제1 기 기설정된 양, 제2 기 설정된 양 및 제3 기 설정된 양은 동일할 수 있다. 다른 예로, 제1 기 설정된 양, 제2 기 설정된 양 및 제3 기 설정된 양은 상이할 수도 있다. 또 다른 예로, 제1 기 설정된 양, 제2 기 설정된 양 및 제3 기 설정된 양 중 적어도 하나는 나머지와 상이할 수도 있음은 물론이다.

전자 장치(100)는 기 설정된 타임 프레임(timeframe) 동안 그리퍼(120)를 이동시키거나, 기 설정된 타임 프레임 동안 그리퍼(120)를 회전시켜 그리퍼(120)를 이동 또는 회전시킬 수 있다. 예를 들어, 기 설정된 타임 프레임은 기 설정된 시간 값(time value)일 수 있다.

이동 정보는 기 설정된 시간 프레임에 매핑될 수 있다. 예를 들어, 그리퍼(120)가 제1 방향으로 이동될 것임이 식별된 이동 정보는 제1 방향으로 제1 기 설정된 시간 프레임에 매핑될 수 있다. 또한, 그리퍼(120)가 제2 방향으로 이동될 것임이 식별된 이동 정보는 제2 방향으로 제2 기 설정된 시간 프레임에 매핑될 수 있다. 또한, 그리퍼(120)가 제3 방향으로 이동될 것임이 식별된 이동 정보는 제3 방향으로 제3 기 설정된 시간 프레임에 매핑될 수 있다. 다른 예로, 그리퍼(120)가 제1 방향으로 회전될 것임이 식별된 이동 정보는 제1 방향으로 제1 기 설정된 시간 프레임에 매핑될 수 있다. 또한, 그리퍼(120)가 제2 방향으로 회전될 것임이 식별된 이동 정보는 제2 방향으로 제2 기 설정된 시간 프레임에 매핑될 수 있다. 또한, 그리퍼(120)가 제3 방향으로 회전될 것임이 식별된 이동 정보는 제3 방향으로 제3 기 설정된 시간 프레임에 매핑될 수 있다.

제1 기 기설정된 시간 프레임, 제2 기 설정된 시간 프레임 및 제3 기 설정된 시간 프레임은 동일할 수 있다. 다른 예로, 제1 기 설정된 시간 프레임, 제2 기 설정된 시간 프레임 및 제3 기 설정된 시간 프레임은 상이할 수도 있다. 또 다른 예로, 제1 기 설정된 시간 프레임, 제2 기 설정된 시간 프레임 및 제3 기 설정된 시간 프레임 중 적어도 하나는 나머지와 상이할 수도 있음은 물론이다. 이와 같이, 전자 장치(100))(예: 프로세서(140))는 획득된 이동 정보 및 회전 정보에 기초하여 그리퍼(120)를 기 설정된 방식으로 이동 및 / 또는 회전시킬 수 있다.

따라서, 본 개시의 일 실시 예에서는 그립 대상 객체까지의 특정 거리를 계산할 필요성을 완화시킴으로써, 더 적은 계산 자원 및 / 또는 더 적은 소비를 소모하는 방식으로 그리퍼(120)의 이동 및 / 또는 회전을 허용할 수 있다. 관련 기술 시스템에 비해 덜 정확한 하드웨어로도 소기의 목적을 달성할 수 있다.

상술한 바와 같이, 이동 정보는 이동 방향을 식별할 수 있으며, 기 설정된 양 또는 기 설정된 시간 프레임에 매핑될 수 있다. 또한, 전술한 바와 같이 회전 정보는 회전 방향을 식별할 수 있으며, 기 설정된 양 또는 기 설정된 시간 프레임에 매핑될 수 있다.

다만, 다른 실시 예에서 이동 정보는, 이동 방향 및 이동 가중치를 식별할 수 있다. 또한, 이동 가중치는 기 설정된 양이 매핑될 수 있다. 예를 들어, 제1 값(예를 들어, 낮음)의 제1 이동 가중치는 제1 양(예를 들어, 적은 양)이 매핑될 수 있고, 제2 값(예를 들어, 중간)의 제2 이동 가중치는 제2 양(예를 들어, 적은 양보다 많은 중간 양)이 매핑될 수 있다. 유사하게, 회전 정보는 회전 방향 및 회전 가중치를 식별할 수 있다. 또한, 회전 가중치는 기 설정된 양이 매핑될 수 있다. 예를 들어, 제1 값(예를 들어, 낮음)의 제1 회전 가중치는 제1 양(예를 들어, 적은 양)에 매핑될 수 있고, 제2 값(예를 들어, 중간)의 제2 이동 가중치는 제2 양(예를 들어, 적은 양보다 많은 중간 양)이 매핑될 수 있다. 따라서, 가중치는 그립 대상 객체까지의 실제 특정 거리를 지정하지 않는 구성일 수 있다. 이와 같이, 전자 장치(100)는 전자 장치(100)가 그리퍼(120)를 이동 또는 회전시키는 상황에 있어서, 가중치를 이용하지 않고 이동 정보 및 회전 정보를 이동하여 그리퍼(120)를 그립 대상 객체에 인접하게 위치시키는 상황에 비하여, 적은 반복 회수로 그리퍼(120)를 그립 대상 객체에 인접하게 위치시킬 수 있다.

도 8은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다. 도 8을 참조하면, 전자 장치(800)는 센서(810), 엔드 이펙터(820), 메모리(830) 및 프로세서(840)를 포함할 수 있다.

센서(810)는 물체를 감지하도록 구성된 장치일 수 있다. 예를 들어, 센서(810)는 카메라, 밀리미터파 센서, 레이저 센서, LIDAR(Light Detection and Ranging) 센서, 초음파 센서, 열 센서, 광 센서 등을 포함할 수 있다. 센서(810)는 물체를 감지하도록 구성될 수 있다.

엔드 이펙터(820)는 전자 장치(800)가 오브젝트와 상호 작용하도록 하는 장치일 수 있다. 예를 들어, 엔드 이펙터(820)는 그리퍼, 힘-토크 센서, 재료 제거 도구, 용접 토치, 충돌 센서, 도구 교환기, 센서 등일 수 있다.

메모리(830)는 명령어를 저장핟도록 구성된 메모리 장치일 수 있다. 예를 들어, 메모리(830)는 도 1의 메모리(130)와 관련하여 언급된 유사한 장치일 수 있다.

프로세서(840)는 전자 장치(800)의 전반적인 동작을 제어하는 장치이다. 예를 들어, 프로세서(840)는 도 1의 프로세서(140)와 관련하여 언급된 유사한 장치일 수 있다.

프로세서(840)는 센서(810)로부터 센서 정보를 획득할 수 있고, 센서 정보에 기초하여 본 개시에 설명된 바와 같이 이동 정보 및 / 또는 회전 정보를 획득할 수 있다. 또한, 프로세서(840)는 획득된 이동 정보 및 / 또는 회전 정보에 기초하여 본 개시에서 설명된 바와 같이 엔드 이펙터(820)가 오브젝트에 인접하도록 엔드 이펙터(820)를 기 설정된 방식으로 이동 또는 회전시킬 수 있다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

카메라;

그립 대상 객체를 그립하도록 구성된 그리퍼(gripper);

신경망 모델이 저장된 메모리;

상기 카메라에 의해 캡쳐된 적어도 하나의 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 상기 그리퍼의 이동 정보 및 회전 정보를 획득하고,

상기 이동 정보 및 회전 정보에 기초하여 상기 그리퍼를 제어하는 프로세서;를 포함하며,

상기 적어도 하나의 이미지는, 상기 그리퍼의 적어도 일부 및 상기 그립 대상 객체의 적어도 일부를 포함하고,

상기 신경망 모델은,

상기 적어도 하나의 이미지에 기초하여 상기 그리퍼를 상기 그립 대상 객체에 인접하게 위치시키기 위한 상기 이동 정보 및 상기 회전 정보를 출력하며,

상기 이동 정보는,

상기 그리퍼의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하고,

상기 회전 정보는,

상기 이동 정보 및 상기 그리퍼의 제1 방향 회전, 제2 방향 회전 또는 미회전 중 하나를 포함하는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 이동 중지에 대응되는 상기 이동 정보 및 상기 미회전에 대응되는 상기 회전 정보에 기초하여 상기 그리퍼가 상기 그립 대상 객체를 그립하도록 상기 그리퍼를 제어하는, 전자 장치.
제1항에 있어서,

상기 신경망 모델로부터 출력되는 상기 이동 정보는,

x축 이동 정보, y축 이동 정보 및 z축 이동 정보를 포함하며,

상기 x축 이동 정보는, 상기 그리퍼의 x축 방향으로의 제1 방향 이동, x축 방향으로의 제2 방향 이동 또는 x축 방향의 이동 중지 중 하나를 포함하고,

상기 y축 이동 정보는, 상기 그리퍼의 y축 방향으로의 제1 방향 이동, y축 방향으로의 제2 방향 이동 또는 y축 방향의 이동 중지 중 하나를 포함하고,

상기 z축 이동 정보는, 상기 그리퍼의 z축 방향으로의 제1 방향 이동, z축 방향으로의 제2 방향 이동 또는 z축 방향의 이동 중지 중 하나를 포함하는, 전자 장치.
제1항에 있어서,

상기 신경망 모델로부터 출력되는 상기 회전 정보는,

x축 회전 정보, y축 회전 정보 및 z축 회전 정보를 포함하며,

상기 x축 회전 정보는, 상기 그리퍼의 x축 기준 시계 방향 회전, x축 기준 반시계 방향 회전 또는 x축 기준 미회전 중 하나를 포함하고,

상기 y축 회전 정보는, 상기 그리퍼의 y축 기준 시계 방향 회전, y축 기준 반시계 방향 회전 또는 y축 기준 미회전 중 하나를 포함하고,

상기 z축 회전 정보는, 상기 그리퍼의 z축 기준 시계 방향 회전, z축 기준 반시계 방향 회전 또는 z축 기준 미회전 중 하나를 포함하는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 이동 정보에 기초하여 상기 그리퍼가 기설정된 동작을 반복하는 것으로 식별되면, 상기 그립 대상 객체를 그립하도록 상기 그리퍼를 제어하는, 전자 장치.
제1항에 있어서,

상기 적어도 하나의 이미지는,

제1 및 제2 이미지를 포함하며,

상기 프로세서는,

상기 제1 및 제2 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 제1 이동 정보 및 제1 회전 정보를 획득하고,

상기 제1 이동 정보 및 상기 제1 회전 정보에 기초하여 상기 그리퍼를 제어하며,

상기 제1 이동 정보 및 상기 제1 회전 정보에 기초하여 상기 그리퍼가 제어되는 동안 상기 카메라에 의해 캡쳐된 제3 및 제4 이미지에 기초하여 상기 제3 및 제4 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 제2 이동 정보 및 제2 회전 정보를 획득하고,

상기 제2 이동 정보 및 상기 제2 회전 정보에 기초하여 상기 그리퍼를 제어하는, 전자 장치.
제1항에 있어서,

상기 신경망 모델은,

상기 적어도 하나의 이미지에 기초하여 뎁스 맵(Depth map)을 획득하고,

상기 뎁스 맵에 기초하여 상기 이동 정보 및 상기 회전 정보를 출력하는, 전자 장치.
제1항에 있어서,

상기 신경망 모델은,

복수의 훈련 이미지 각각에 포함된 상기 그리퍼의 적어도 일부 및 외부 객체의 적어도 일부 간의 거리 정보에 기초하여 상기 그리퍼를 상기 외부 객체에 인접하게 위치시키기 위한 상기 이동 정보 및 상기 회전 정보를 출력하도록 학습된, 전자 장치.
제1항에 있어서,

상기 카메라는, 복수의 카메라를 포함하며,

상기 복수의 카메라는,

각각이 이격되어 있으며, 상기 그립 대상 객체를 상이한 각도에서 촬영하도록 구성되는, 전자 장치.
신경망 모델을 포함하는 전자 장치의 제어 방법에 있어서,

적어도 하나의 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 그리퍼의 이동 정보 및 회전 정보를 획득하는 단계;

상기 이동 정보 및 상기 회전 정보에 기초하여 상기 그리퍼를 제어하는 단계;를 포함하고,

상기 적어도 하나의 이미지는,

상기 그리퍼의 적어도 일부 및 그립 대상 객체의 적어도 일부를 포함하고,

상기 신경망 모델은,

상기 적어도 하나의 이미지에 기초하여 상기 그리퍼를 상기 그립 대상 객체에 인접하게 위치시키기 위한 상기 이동 정보 및 상기 회전 정보를 출력하며,

상기 이동 정보는,

상기 그리퍼의 제1 방향 이동, 제2 방향 이동 또는 이동 중지 중 하나를 포함하고,

상기 회전 정보는,

상기 그리퍼의 제1 방향 회전, 제2 방향 회전 또는 미회전 중 하나를 포함하는 상기 회전 정보를 출력하는, 제어 방법.
제10항에 있어서,

상기 이동 중지에 대응되는 상기 이동 정보 및 상기 미회전에 대응되는 상기 회전 정보에 기초하여 상기 그리퍼가 상기 그립 대상 객체를 그립하도록 상기 그리퍼를 제어하는 단계;를 더 포함하는, 제어 방법.
제10항에 있어서,

상기 신경망 모델로부터 출력되는 상기 이동 정보는,

x축 이동 정보, y축 이동 정보 및 z축 이동 정보를 포함하며,

상기 x축 이동 정보는, 상기 그리퍼의 x축 방향으로의 제1 방향 이동, x축 방향으로의 제2 방향 이동 또는 x축 방향의 이동 중지 중 하나를 포함하고,

상기 y축 이동 정보는, 상기 그리퍼의 y축 방향으로의 제1 방향 이동, y축 방향으로의 제2 방향 이동 또는 y축 방향의 이동 중지 중 하나를 포함하고,

상기 z축 이동 정보는, 상기 그리퍼의 z축 방향으로의 제1 방향 이동, z축 방향으로의 제2 방향 이동 또는 z축 방향의 이동 중지 중 하나를 포함하는, 제어 방법.
제10항에 있어서,

상기 신경망 모델로부터 출력되는 상기 회전 정보는,

x축 회전 정보, y축 회전 정보 및 z축 회전 정보를 포함하며,

상기 x축 회전 정보는, 상기 그리퍼의 x축 기준 시계 방향 회전, x축 기준 반시계 방향 회전 또는 x축 기준 미회전 중 하나를 포함하고,

상기 y축 회전 정보는, 상기 그리퍼의 y축 기준 시계 방향 회전, y축 기준 반시계 방향 회전 또는 y축 기준 미회전 중 하나를 포함하고,

상기 z축 회전 정보는, 상기 그리퍼의 z축 기준 시계 방향 회전, z축 기준 반시계 방향 회전 또는 z축 기준 미회전 중 하나를 포함하는, 제어 방법.
제10항에 있어서,

상기 이동 정보에 기초하여 상기 그리퍼가 기설정된 동작을 반복하는 것으로 식별되면, 상기 그립 대상 객체를 그립하도록 상기 그리퍼를 제어하는 단계;를 더 포함하는, 제어 방법.
제10항에 있어서,

상기 적어도 하나의 이미지는,

제1 및 제2 이미지를 포함하며,

상기 이동 정보 및 회전 정보를 획득하는 단계는,

상기 제1 및 제2 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 제1 이동 정보 및 제1 회전 정보를 획득하는 단계;를 포함하고,

상기 그리퍼를 제어하는 단계는,

상기 제1 이동 정보 및 상기 제1 회전 정보에 기초하여 상기 그리퍼를 제어하는 단계;를 포함하며,

상기 제1 이동 정보 및 상기 제1 회전 정보에 기초하여 상기 그리퍼가 제어되는 동안 상기 카메라에 의해 캡쳐된 제3 및 제4 이미지에 기초하여 상기 제3 및 제4 이미지를 상기 신경망 모델에 입력하여 상기 신경망 모델로부터 제2 이동 정보 및 제2 회전 정보를 획득하는 단계; 및

상기 제2 이동 정보 및 상기 제2 회전 정보에 기초하여 상기 그리퍼를 제어하는 단계;를 더 포함하는, 제어 방법.