KR102654176B1

KR102654176B1 - 기계 학습 모델을 이용하여 시각 기반 촉감 출력을 위한 컴퓨터 장치 및 그의 방법

Info

Publication number: KR102654176B1
Application number: KR1020220003591A
Authority: KR
Inventors: 김태환; 이재연
Original assignee: 울산과학기술원
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2024-04-04
Also published as: KR20230108150A

Abstract

다양한 실시예들은 기계 학습 모델을 이용하여 시각 기반 촉감 출력을 위한 컴퓨터 장치 및 그의 방법에 관한 것으로, 기계 학습 모델을 이용하여, 시각 영상을 획득하고, 시각 영상으로부터 촉감 정보를 추출하고, 촉감 정보를 기반으로, 촉감 지도를 생성하도록 구성될 수 있다. 다양한 실시예들에 따르면, 컴퓨터 장치는 촉감 지도를 이용하여, 사용자를 위한 인터페이스를 제공할 수 있다.

Description

기계 학습 모델을 이용하여 시각 기반 촉감 출력을 위한 컴퓨터 장치 및 그의 방법{COMPUTER DEVICE FOR VISUAL-BASED TACTILE OUTPUT USING MACHINE LEARNING MODEL, AND METHOD OF THE SAME}

다양한 실시예들은 기계 학습 모델을 이용하여 시각 기반 촉감 출력을 위한 컴퓨터 장치 및 그의 방법에 관한 것이다.

기술의 발전과 더불어, 전자 장치는 다양한 기능을 수행하여, 다양한 서비스를 제공한다. 이에 따라, 전자 장치가 증강 현실을 제공할 수 있다. 증강 현실은 실제 환경에 가상의 콘텐트를 겹쳐 보여주는 기술이다. 즉 사용자는 전자 장치를 통하여 실제 환경에 가상의 콘텐트를 겹쳐 볼 수 있다.

그런데, 상기와 같은 전자 장치는, 전자 장치와 사용자 사이에 유연한 인터페이스(interface)를 제공하지 않고 있다. 즉 전자 장치가 정해진 환경에서 정해진 콘텐트를 제공할 뿐, 사용자의 상황에 따라 적절한 콘텐트를 제공하지 않는다. 예를 들어, 전자 장치는 특정 객체에 대해 미리 지정된 촉감 정보를 기반으로 인터페이스를 제공할 뿐이다. 이로 인하여, 전자 장치의 사용자 편의성이 낮고, 전자 장치의 이용 효율성이 낮은 문제점이 있다.

한국공개특허공보 제10-2011-0130469호 (2011.12.05.) 미국특허출원공개공보 US2021/0397260호 (2021.12.23.) 한국공개특허공보 제10-2021-0143891호 (2021.11.29.)

다양한 실시예들은 기계 학습 모델을 이용하여 시각 기반 촉감 출력을 위한 컴퓨터 장치 및 그의 방법을 제공한다.

다양한 실시예들에 따른 컴퓨터 장치의 방법은, 시각 영상을 획득하는 단계, 상기 시각 영상으로부터 촉감 정보를 추출하는 단계, 및 상기 촉감 정보를 기반으로, 촉감 지도를 생성하는 단계를 포함할 수 있다.

다양한 실시예들에 따른 컴퓨터 장치는, 메모리, 및 상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서를 포함하고, 상기 프로세서는, 기계 학습 모델을 이용하여, 시각 영상을 획득하고, 상기 시각 영상으로부터 촉감 정보를 추출하고, 상기 촉감 정보를 기반으로, 촉감 지도를 생성하도록 구성될 수 있다.

다양한 실시예들에 따르면, 컴퓨터 장치는 사용자의 상황에 따라 적절한 인터페이스를 제공할 수 있다. 즉, 컴퓨터 장치는 사용자에게 미리 지정된 촉감 정보를 제공하는 것이 아니라, 사용자가 향하는 방향의 시각 영상에 대한 촉감 지도를 생성함으로써, 사용자에게 촉감 정보를 제공할 수 있다. 이를 통해, 사용자가 객체에 실제로 접근하거나 접촉하지 않고도, 객체에 대한 촉감을 느낄 수 있다. 이 때, 컴퓨터 장치는 기계 학습 모델을 이용하여 촉감 지도를 생성하므로, 컴퓨터 장치에 대한 사용자 편의성이 향상될 수 있다. 따라서, 컴퓨터 장치에 대한 이용 효율성이 향상될 수 있다.

도 1은 다양한 실시예들에 따른 컴퓨터 장치를 도시하는 도면이다.
도 2는 도 1의 기계 학습 모델의 특징을 설명하기 위한 도면이다.
도 3은 도 2의 기계 학습 모델을 예시적으로 도시하는 도면이다.
도 4는 도 3의 기계 학습 모델의 동작을 설명하기 위한 도면이다.
도 5는 다양한 실시예들에 따른 컴퓨터 장치의 방법을 도시하는 도면이다.

이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.

도 1은 다양한 실시예들에 따른 컴퓨터 장치(100)를 도시하는 도면이다. 도 2는 도 1의 기계 학습 모델(160)의 특징을 설명하기 위한 도면이다. 도 3은 도 2의 기계 학습 모델(160)을 예시적으로 도시하는 도면이다. 도 4는 도 3의 기계 학습 모델(160)의 동작을 설명하기 위한 도면이다.

도 1을 참조하면, 다양한 실시예들은 시각 기반 촉감 출력을 위한 컴퓨터 장치(100)를 제공한다. 이 때, 컴퓨터 장치(100)는 사용자의 얼굴 또는 머리에 착용 가능한 근안 디스플레이(near-eye display; NED) 장치로 구현될 수 있다. 예를 들면, 근안 디스플레이 장치는 스마트 안경(smart glasses) 또는 헤드 마운트 디스플레이(head mount display; HMD) 장치 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 컴퓨터 장치(100)는 증강 현실(augmented reality; AR)을 제공할 수 있다.

다양한 실시예들에 따르면, 컴퓨터 장치(100)는 컴퓨터 장치(100)는 카메라 모듈(110), 입력 모듈(120), 출력 모듈(130), 메모리(140), 또는 프로세서(150) 중 적어도 하나를 포함할 수 있다. 어떤 실시예에서, 컴퓨터 장치(100)의 구성 요소들 중 적어도 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서, 컴퓨터 장치(100)의 구성 요소들 중 적어도 두 개가 하나의 통합된 회로로 구현될 수 있다.

카메라 모듈(110)은 영상을 촬영할 수 있다. 이 때, 컴퓨터 장치(100)가 근안 디스플레이 장치로 구현되는 경우, 카메라 모듈(110)은 컴퓨터 장치(100)를 착용한 사용자에 대해 전방의 영상을 촬영할 수 있다. 예를 들면, 카메라 모듈(110)은 적어도 하나의 렌즈, 적어도 하나의 이미지 센서, 적어도 하나의 이미지 시그널 프로세서, 및 적어도 하나의 플래시를 포함할 수 있다.

입력 모듈(120)은 컴퓨터 장치(100)의 적어도 하나의 구성 요소에 사용될 신호를 입력할 수 있다. 입력 모듈(120)은, 사용자가 컴퓨터 장치(100)에 직접적으로 신호를 입력하도록 구성되는 입력 장치, 주변의 변화를 감지하여 신호를 발생하도록 구성되는 센서 장치, 또는 외부 기기로부터 신호를 수신하도록 구성되는 수신 장치 중 적어도 하나를 포함할 수 있다. 예를 들면, 입력 모듈(120)은 마이크로폰(microphone), 적어도 하나의 물리 버튼(button), 또는 터치를 감지하도록 설정된 터치 회로(touch circuitry)나 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 하나를 포함할 수 있다.

출력 모듈(130)은 컴퓨터 장치(100)의 외부로 정보를 출력할 수 있다. 출력 모듈(130)은, 정보를 시각적으로 출력하도록 구성되는 표시 장치, 정보를 오디오 신호로 출력할 수 있는 오디오 출력 장치, 또는 정보를 무선으로 송신할 수 있는 송신 장치 중 적어도 하나를 포함할 수 있다. 이 때, 컴퓨터 장치(100)가 근안 디스플레이 장치로 구현되는 경우, 출력 모듈(130)은 컴퓨터 장치(100)를 착용한 사용자의 눈 앞에 배치될 수 있다. 출력 모듈(130)은 컴퓨터 장치(100)의 종류에 따라 표시되는 방식이 다를 수 있다. 일 실시예에 따르면, 컴퓨터 장치(100)가 광학식 투과형(optical see-through)인 경우, 출력 모듈(130)의 적어도 일부는 투명하거나 반투명한 재질로 구성되고, 사용자는 출력 모듈(130)을 통하여 실제 환경을 직접 볼 수 있다. 다른 실시예에 따르면, 컴퓨터 장치(100)가 비디오 투과형(video see-through)인 경우, 사용자는 출력 모듈(130)을 통하여 카메라 모듈(110)을 통해 촬영되는 실제 환경의 영상을 볼 수 있다. 일 예로, 표시 장치는 입력 모듈(120)의 터치 회로 또는 센서 회로 중 적어도 하나와 조립되어, 터치 스크린으로 구현될 수 있다. 예를 들면, 오디오 출력 장치는 스피커 또는 리시버 중 적어도 하나를 포함할 수 있다.

일부 실시예들에 따르면, 수신 장치와 송신 장치는 통신 모듈로 구현될 수 있다. 통신 모듈은 컴퓨터 장치(100)에서 외부 기기와 통신을 수행할 수 있다. 통신 모듈은 컴퓨터 장치(100)와 외부 기기 간 통신 채널을 수립하고, 통신 채널을 통해, 외부 기기와 통신을 수행할 수 있다. 여기서, 외부 기기는 차량, 위성, 기지국, 서버 또는 다른 컴퓨터 시스템 중 적어도 하나를 포함할 수 있다. 통신 모듈은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 유선 통신 모듈은 외부 기기와 유선으로 연결되어, 유선으로 통신할 수 있다. 무선 통신 모듈은 근거리 통신 모듈 또는 원거리 통신 모듈 중 적어도 하나를 포함할 수 있다. 근거리 통신 모듈은 외부 기기와 근거리 통신 방식으로 통신할 수 있다. 예를 들면, 근거리 통신 방식은, 블루투스(Bluetooth), 와이파이 다이렉트(WiFi direct), 또는 적외선 통신(IrDA; infrared data association) 중 적어도 하나를 포함할 수 있다. 원거리 통신 모듈은 외부 기기와 원거리 통신 방식으로 통신할 수 있다. 여기서, 원거리 통신 모듈은 네트워크를 통해 외부 기기와 통신할 수 있다. 예를 들면, 네트워크는 셀룰러 네트워크, 인터넷, 또는 LAN(local area network)이나 WAN(wide area network)과 같은 컴퓨터 네트워크 중 적어도 하나를 포함할 수 있다.

메모리(140)는 컴퓨터 장치(100)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(140)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 데이터는 적어도 하나의 프로그램 및 이와 관련된 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(140)에 적어도 하나의 명령을 포함하는 소프트웨어로서 저장될 수 있으며, 운영 체제, 미들 웨어 또는 어플리케이션 중 적어도 하나를 포함할 수 있다.

프로세서(150)는 메모리(140)의 프로그램을 실행하여, 컴퓨터 장치(100)의 적어도 하나의 구성 요소를 제어할 수 있다. 이를 통해, 프로세서(150)는 데이터 처리 또는 연산을 수행할 수 있다. 이 때, 프로세서(150)는 메모리(140)에 저장된 명령을 실행할 수 있다.

다양한 실시예들에 따르면, 프로세서(150)는 시각 영상(210)에 대한 촉감 지도(220)를 생성할 수 있다. 이 때, 시각 영상(210)은 카메라 모듈(110)을 통해 촬영되는 영상 또는 입력 모듈(120)을 통해 입력되는 영상 중 적어도 하나를 포함할 수 있다. 여기서, 시각 영상(210)은 2차원 영상 또는 3차원 영상 중 적어도 하나를 포함할 수 있다. 이를 위해, 프로세서(150)는 기계 학습 모델(160)을 포함할 수 있다. 기계 학습 모델(160)은, 도 2에 도시된 바와 같이, 시각 영상(210)으로부터 촉감 정보를 추출하고, 촉감 정보를 기반으로 촉감 지도(220)를 생성할 수 있다. 이 때, 기계 학습 모델(160)은 객체 탐지(object detection), 의미론적 분할(semantic segmentation) 등과 같은 태스크들을 수행할 수 있다. 이러한 기계 학습 모델(160)은 미리 수집된 데이터를 이용하여 미리 학습되어 있을 수 있다. 여기서, 수집된 데이터는 다수의 시각 영상들과 그에 대응하여 각각 생성된 다수의 촉감 지도들을 포함할 수 있다. 한편, 시각 영상(210)이 배경(211)과 적어도 하나의 객체(object)(213, 215)로 이루어지는 경우, 촉감 지도(220)에서 배경(211)과 객체(213, 215)가 구분될 수 있다.

어떤 실시예들에서, 기계 학습 모델(160)은 인공 신경망(artificial neural network) 기반 심층 학습(deep learning) 모델로 구현될 수 있다. 이러한 기계 학습 모델(160)은, 도 3에 도시된 바와 같이, 세 개의 계층(361, 363, 365)들, 즉 제 1 계층(361), 제 2 계층(363), 및 제 3 계층(365)으로 이루어질 수 있다. 예를 들면, 제 1 계층(361)은 복수의 컨볼루션 계층(convolutional layer)들로 구성되고, 제 2 계층(363)은 복수의 잔차 블록(residual block)들로 구성되고, 제 3 계층(365)은 복수의 디컨볼루션 계층(deconvolutional layer)들로 구성될 수 있다.

제 1 계층(361)은 미리 정해진 적어도 하나의 입력 파라미터를 기반으로, 시각 영상(210)으로부터 시각 정보를 추출할 수 있다. 예를 들면, 시각 정보는 표면 텍스처(texture)를 나타낼 수 있다. 이 때, 제 1 계층(361)은 시각 영상(210)의 각 픽셀에 대한 시각 정보를 추출할 수 있다.

제 2 계층(363)은 입력 파라미터에 매핑되어 있는 적어도 하나의 출력 파라미터를 기반으로, 시각 정보로부터 촉감 정보를 검출할 수 있다. 이 때, 제 2 계층(363)은 시각 영상(210)의 각 픽셀에 대한 촉감 정보를 검출할 수 있다. 그리고, 제 2 계층(363)은 각 출력 파라미터에 대한 촉감 정보를 검출할 수 있다. 여기서, 출력 파라미터는 진동수(frequency), 크기(magnitude), 또는 주기(period) 중 적어도 하나를 포함할 수 있다. 예를 들면, 제 2 계층(363)은, 도 4에 도시된 바와 같이, 시각 정보에 따라 촉감 정보, 즉 진동수, 크기, 또는 주기 중 적어도 하나에 대한 촉감 정보를 검출할 수 있다.

제 3 계층(365)은 촉감 정보를 이용하여, 촉감 지도(220)를 생성할 수 있다. 여기서, 제 3 계층(365)은 시각 영상(210)의 각 픽셀에 대해 촉감 정보를 적용하여, 촉감 지도(220)를 생성할 수 있다. 이 때, 촉감 지도(220)는 하나의 촉감 파라미터 지도(321, 323, 325)로 이루어지거나, 복수의 촉감 파라미터 지도(321, 323, 325)들의 조합으로 이루어질 수 있다. 각 촉감 파라미터 지도(321, 323, 325)는 각 출력 파라미터에 대응하며, 해당 출력 파라미터에 대해 검출된 촉감 정보로부터 생성될 수 있다. 복수의 출력 파라미터들에 대해 촉감 정보가 검출되는 경우, 제 3 계층(365)은 복수의 촉감 파라미터 지도(321, 323, 325)들을 각각 생성하고, 이들의 조합으로 촉감 지도(220)가 생성될 수 있다.

예를 들면, 제 1 계층(361)은 시각 영상(210)으로부터 시각 정보를 추출할 수 있다. 여기서, 시각 영상(210)은 배경(211), 제 1 객체(213), 및 제 2 객체(215)를 포함하며, 제 1 계층(361)은 배경(211), 제 1 객체(213), 및 제 2 객체(215)의 각각에 대해 시각 정보를 추출할 수 있다. 여기서, 배경(211), 제 1 객체(213), 및 제 2 객체(215)의 각각에 대해, 상이한 시각 정보가 검출될 수 있다. 제 2 계층(363)은 시각 정보로부터, 제 1 출력 파라미터(진동수), 제 2 출력 파라미터(크기), 및 제 3 출력 파라미터(주기)의 각각에 대해 촉감 정보를 검출할 수 있다. 여기서, 배경(211), 제 1 객체(213), 및 제 2 객체(215)의 각각에 대해, 상이한 촉감 정보가 검출될 수 있다. 제 3 계층(365)은 시각 영상(210)의 각 픽셀에 대해 촉감 정보를 적용하여, 제 1 출력 파라미터(진동수), 제 2 출력 파라미터(크기), 및 제 3 출력 파라미터(주기)에 각각 대응되는 제 1 촉감 파라미터 지도(진동수)(321), 제 2 촉감 파라미터 지도(크기)(323), 및 제 3 촉감 파라미터 지도(주기)(325)를 각각 생성할 수 있다. 이를 통해, 촉감 지도(220)가 제 1 촉감 파라미터 지도(진동수)(321), 제 2 촉감 파라미터 지도(크기)(323), 및 제 3 촉감 파라미터 지도(주기)(325)의 조합으로, 생성될 수 있다.

따라서, 프로세서(150)는 촉감 지도(220)를 이용하여, 사용자를 위한 인터페이스(interface)를 제공할 수 있다. 이 때, 프로세서(150)는 사용자를 위해 촉각 피드백을 제공할 수 있다. 여기서, 촉각 피드백은 사용자와 접촉된 상태에서 발생되는 접촉식 피드백 또는 사용자와 접촉되지 않고도 발생되는 비접촉식 피드백 중 적어도 하나를 포함할 수 있다. 예를 들면, 촉각 피드백은 진동으로 발생될 수 있다. 구체적으로, 촉감 지도(220)가 하나의 촉감 파라미터 지도(321, 323, 325)로 이루어진 경우, 프로세서(150)는 촉감 지도(220)의 촉감 정보에 따라, 촉각 피드백을 제공할 수 있다. 한편, 촉감 지도(220)가 복수의 촉감 파라미터 지도(321, 323, 325)들로 이루어진 경우, 프로세서(150)는 촉감 파라미터 지도(321, 323, 325)들의 촉감 정보의 조합으로, 촉각 피드백을 제공할 수 있다.

도 5는 다양한 실시예들에 따른 컴퓨터 장치(100)의 방법을 도시하는 도면이다.

도 5를 참조하면, 컴퓨터 장치(100)는 510 단계에서, 시각 영상(210)을 획득할 수 있다. 이 때, 시각 영상(210)은 카메라 모듈(110)을 통해 촬영되는 영상 또는 입력 모듈(120)을 통해 입력되는 영상 중 적어도 하나를 포함할 수 있다. 여기서, 시각 영상(210)은 2차원 영상 또는 3차원 영상 중 적어도 하나를 포함할 수 있다. 즉, 프로세서(150)는 카메라 모듈(110) 또는 입력 모듈(120)을 통해, 시각 영상(210)을 획득할 수 있다.

다음으로, 컴퓨터 장치(100)는 520 단계에서, 시각 영상으로부터 촉감 정보를 추출할 수 있다. 프로세서(150)는 기계 학습 모델(160)을 포함하며, 기계 학습 모델(160)을 이용하여, 시각 영상(210)으로부터 촉감 정보를 추출하고, 촉감 정보를 기반으로 촉감 지도(220)를 생성할 수 있다. 이 때, 기계 학습 모델(160)은 객체 탐지, 의미론적 분할 등과 같은 태스크들을 수행할 수 있다. 이러한 기계 학습 모델(160)은 미리 수집된 데이터를 이용하여 미리 학습되어 있을 수 있다. 여기서, 수집된 데이터는 다수의 시각 영상들과 그에 대응하여 각각 생성된 다수의 촉감 지도들을 포함할 수 있다. 한편, 시각 영상(210)이 배경(211)과 적어도 하나의 객체(213, 215)로 이루어지는 경우, 촉감 지도(220)에서 배경(211)과 객체(213, 215)가 구분될 수 있다.

구체적으로, 프로세서(150)는 미리 정해진 적어도 하나의 입력 파라미터를 기반으로, 시각 영상(210)으로부터 시각 정보를 추출할 수 있다. 예를 들면, 시각 정보는 표면 텍스처를 나타낼 수 있다. 이 때, 프로세서(150)는 시각 영상(210)의 각 픽셀에 대한 시각 정보를 추출할 수 있다. 이 후, 프로세서(150)는 입력 파라미터에 매핑되어 있는 적어도 하나의 출력 파라미터를 기반으로, 시각 정보로부터 촉감 정보를 검출할 수 있다. 이 때, 프로세서(150)는 시각 영상(210)의 각 픽셀에 대한 촉감 정보를 검출할 수 있다. 그리고, 프로세서(150)는 각 출력 파라미터에 대한 촉감 정보를 검출할 수 있다. 여기서, 출력 파라미터는 진동수, 크기, 또는 주기 중 적어도 하나를 포함할 수 있다.

마지막으로, 컴퓨터 장치(100)는 530 단계에서, 촉감 정보를 기반으로, 촉감 지도를 생성할 수 있다. 프로세서(150)는 촉감 정보를 이용하여, 촉감 지도(220)를 생성할 수 있다. 여기서, 프로세서(150)는 시각 영상(210)의 각 픽셀에 대해 촉감 정보를 적용하여, 촉감 지도(220)를 생성할 수 있다. 이 때, 촉감 지도(220)는 하나의 촉감 파라미터 지도(321, 323, 325)로 이루어지거나, 복수의 촉감 파라미터 지도(321, 323, 325)들의 조합으로 이루어질 수 있다. 각 촉감 파라미터 지도(321, 323, 325)는 각 출력 파라미터에 대응하며, 해당 출력 파라미터에 대해 검출된 촉감 정보로부터 생성될 수 있다. 복수의 출력 파라미터들에 대해 촉감 정보가 검출되는 경우, 프로세서(150)는 복수의 촉감 파라미터 지도(321, 323, 325)들을 각각 생성하고, 이들의 조합으로 촉감 지도(220)가 생성될 수 있다.

따라서, 프로세서(150)는 촉감 지도(220)를 이용하여, 사용자를 위한 인터페이스를 제공할 수 있다. 이 때, 프로세서(150)는 사용자를 위해 촉각 피드백을 제공할 수 있다. 여기서, 촉각 피드백은 사용자와 접촉된 상태에서 발생되는 접촉식 피드백 또는 사용자와 접촉되지 않고도 발생되는 비접촉식 피드백 중 적어도 하나를 포함할 수 있다. 예를 들면, 촉각 피드백은 진동으로 발생될 수 있다. 구체적으로, 촉감 지도(220)가 하나의 촉감 파라미터 지도(321, 323, 325)로 이루어진 경우, 프로세서(150)는 촉감 지도(220)의 촉감 정보에 따라, 촉각 피드백을 제공할 수 있다. 한편, 촉감 지도(220)가 복수의 촉감 파라미터 지도(321, 323, 325)들로 이루어진 경우, 프로세서(150)는 촉감 파라미터 지도(321, 323, 325)들의 촉감 정보의 조합으로, 촉각 피드백을 제공할 수 있다.

다양한 실시예들에 따르면, 컴퓨터 장치(100)는 사용자의 상황에 따라 적절한 인터페이스를 제공할 수 있다. 즉, 컴퓨터 장치(100)는 사용자에게 미리 지정된 촉감 정보를 제공하는 것이 아니라, 사용자가 향하는 방향의 시각 영상(210)에 대한 촉감 지도(220)를 생성함으로써, 사용자에게 촉감 정보를 제공할 수 있다. 이를 통해, 사용자가 객체에 실제로 접근하거나 접촉하지 않고도, 객체에 대한 촉감을 느낄 수 있다. 이 때, 컴퓨터 장치(100)는 기계 학습 모델(160)을 이용하여 촉감 지도(220)를 생성하므로, 컴퓨터 장치(100)에 대한 사용자 편의성이 향상될 수 있다. 따라서, 컴퓨터 장치(100)에 대한 이용 효율성이 향상될 수 있다.

다양한 실시예들에 따른 컴퓨터 장치(100)의 방법은, 시각 영상(210)을 획득하는 단계(510 단계), 시각 영상(210)으로부터 촉감 정보를 추출하는 단계(520 단계), 및 촉감 정보를 기반으로, 촉감 지도(220)를 생성하는 단계(530 단계)를 포함할 수 있다.

다양한 실시예들에 따르면, 촉감 정보를 추출하는 단계(520 단계)는, 미리 정해진 적어도 하나의 입력 파라미터를 기반으로, 시각 영상(210)으로부터 시각 정보를 추출하는 단계, 및 입력 파라미터에 매핑되어 있는 적어도 하나의 출력 파라미터를 기반으로, 시각 정보로부터 촉감 정보를 검출하는 단계를 포함할 수 있다.

다양한 실시예들에 따르면, 시각 정보는, 시각 영상(210)의 픽셀들의 각각에 대해 추출되고, 촉감 지도(220)를 생성하는 단계(530 단계)는, 픽셀들의 각각에 대해 촉감 정보를 적용하여, 촉감 지도(220)를 생성하는 단계를 포함할 수 있다.

다양한 실시예들에 따르면, 촉감 정보를 검출하는 단계는, 복수의 출력 파라미터들의 각각에 대한 촉감 정보를 검출하는 단계를 포함할 수 있다.

다양한 실시예들에 따르면, 촉감 지도(220)를 생성하는 단계(530 단계)는, 출력 파라미터들의 각각에 대한 촉감 정보를 기반으로, 출력 파라미터들의 각각에 대응하는 복수의 촉감 파라미터 지도(321, 323, 325)들을 각각 생성하는 단계, 및 촉감 파라미터 지도(321, 323, 325)들의 조합으로, 촉감 지도(220)를 생성하는 단계를 포함할 수 있다.

다양한 실시예들에 따르면, 출력 파라미터는, 진동수, 크기, 또는 주기 중 적어도 하나를 포함할 수 있다.

다양한 실시예들에 따르면, 컴퓨터 장치(100)의 방법은, 기계 학습 모델(160)로 구현될 수 있다.

다양한 실시예들에 따르면, 촉감 지도(220)는, 사용자에게 촉각 피드백을 제공하는 데 활용될 수 있다.

다양한 실시예들에 따르면, 컴퓨터 장치(100)는, 근안 디스플레이 장치로 구현될 수 있다.

다양한 실시예들에 따른 컴퓨터 장치(100)는, 메모리(140), 및 메모리(140)와 연결되고, 메모리(140)에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서(150)를 포함할 수 있다.

다양한 실시예들에 따르면, 프로세서(150)는, 기계 학습 모델(160)을 이용하여, 시각 영상(210)을 획득하고, 시각 영상(210)으로부터 촉감 정보를 추출하고, 촉감 정보를 기반으로, 촉감 지도(220)를 생성하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(150)는, 미리 정해진 적어도 하나의 입력 파라미터를 기반으로, 시각 영상(210)으로부터 시각 정보를 추출하고, 입력 파라미터에 매핑되어 있는 적어도 하나의 출력 파라미터를 기반으로, 시각 정보로부터 촉감 정보를 검출하도록 구성될 수 있다.

다양한 실시예들에 따르면, 시각 정보는, 시각 영상(210)의 픽셀들의 각각에 대해 추출되고, 프로세서(150)는, 픽셀들의 각각에 대해 촉감 정보를 적용하여, 촉감 지도(220)를 생성하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(150)는, 복수의 출력 파라미터들의 각각에 대한 촉감 정보를 검출하고, 출력 파라미터들의 각각에 대한 촉감 정보를 기반으로, 출력 파라미터들의 각각에 대응하는 복수의 촉감 파라미터 지도(321, 323, 325)들을 각각 생성하고, 촉감 파라미터 지도(321, 323, 325)들의 조합으로, 촉감 지도(220)를 생성하도록 구성될 수 있다.

이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

다양한 실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터-판독 가능 매체에 기록될 수 있다. 이 때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 그리고, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 단계들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 단계들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 단계들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 단계들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 단계들이 추가될 수 있다.

Claims

컴퓨터 장치의 방법에 있어서,
시각 영상을 획득하는 단계;
상기 시각 영상으로부터 촉감 정보를 추출하는 단계; 및
상기 추출된 촉감 정보를 기반으로, 촉감 지도를 생성하는 단계
를 포함하고,
상기 촉감 정보를 추출하는 단계는,
미리 정해진 적어도 하나의 입력 파라미터를 기반으로, 상기 시각 영상으로부터 시각 정보를 추출하는 단계; 및
상기 입력 파라미터에 매핑되어 있는 적어도 하나의 출력 파라미터를 기반으로, 상기 시각 정보로부터 촉감 정보를 검출하는 단계
를 포함하고,
상기 촉감 정보를 검출하는 단계는,
복수의 출력 파라미터들의 각각에 대한 촉감 정보를 검출하는 단계
를 포함하고,
상기 촉감 지도를 생성하는 단계는,
상기 출력 파라미터들의 각각에 대한 촉감 정보를 기반으로, 상기 출력 파라미터들의 각각에 대응하는 복수의 촉감 파라미터 지도들을 각각 생성하는 단계; 및
상기 촉감 파라미터 지도들의 조합으로, 상기 촉감 지도를 생성하는 단계
를 포함하는,
방법.
삭제
제 1 항에 있어서,
상기 시각 정보는,
상기 시각 영상의 픽셀들의 각각에 대해 추출되고,
상기 촉감 지도를 생성하는 단계는,
상기 픽셀들의 각각에 대해 상기 추출된 촉감 정보를 적용하여, 상기 촉감 지도를 생성하는 단계
를 포함하는,
방법.
삭제
삭제
제 1 항에 있어서,
상기 출력 파라미터는,
진동수, 크기, 또는 주기 중 적어도 하나를 포함하는,
방법.
제 1 항, 제 3 항, 또는 제 6 항 중 어느 한 항에 있어서,
상기 방법은,
기계 학습 모델로 구현되는,
방법.
제 1 항에 있어서,
상기 촉감 지도는,
사용자에게 촉각 피드백을 제공하는 데 활용되는,
방법.
제 1 항에 있어서,
상기 컴퓨터 장치는,
근안 디스플레이 장치로 구현되는,
방법.
컴퓨터 장치에 있어서,
메모리; 및
상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서
를 포함하고,
상기 프로세서는, 기계 학습 모델을 이용하여,
시각 영상을 획득하고,
상기 시각 영상으로부터 촉감 정보를 추출하고,
상기 추출된 촉감 정보를 기반으로, 촉감 지도를 생성하도록 구성되고,
상기 프로세서는,
미리 정해진 적어도 하나의 입력 파라미터를 기반으로, 상기 시각 영상으로부터 시각 정보를 추출하고,
상기 입력 파라미터에 매핑되어 있는 적어도 하나의 출력 파라미터를 기반으로, 상기 시각 정보로부터 촉감 정보를 검출하도록 구성되고,
상기 프로세서는,
복수의 출력 파라미터들의 각각에 대한 촉감 정보를 검출하고,
상기 출력 파라미터들의 각각에 대한 촉감 정보를 기반으로, 상기 출력 파라미터들의 각각에 대응하는 복수의 촉감 파라미터 지도들을 각각 생성하고,
상기 촉감 파라미터 지도들의 조합으로, 상기 촉감 지도를 생성하도록 구성되는,
컴퓨터 장치.
삭제
제 10 항에 있어서,
상기 시각 정보는,
상기 시각 영상의 픽셀들의 각각에 대해 추출되고,
상기 프로세서는,
상기 픽셀들의 각각에 대해 상기 추출된 촉감 정보를 적용하여, 상기 촉감 지도를 생성하도록 구성되는,
컴퓨터 장치.
삭제
제 10 항에 있어서,
상기 출력 파라미터는,
진동수, 크기, 또는 주기 중 적어도 하나를 포함하는,
컴퓨터 장치.
제 10 항에 있어서,
상기 컴퓨터 장치는,
근안 디스플레이 장치로 구현되는,
컴퓨터 장치.