WO2022255641A1

WO2022255641A1 - 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치

Info

Publication number: WO2022255641A1
Application number: PCT/KR2022/005822
Authority: WO
Inventors: 최치원; 김정환; 이강휘; 백지엽; 조성동; 민경진
Original assignee: 주식회사 피앤씨솔루션
Priority date: 2021-06-04
Filing date: 2022-04-24
Publication date: 2022-12-08
Also published as: KR20220164377A; KR102539047B1

Abstract

본 발명에서 제안하고 있는 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치에 따르면, 증강현실 글라스 장치를 착용한 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터로, 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 추가 학습해 가중치를 업데이트하여 손동작 및 음성명령어 인식을 수행함으로써, 증강현실 글라스 장치 내에서 특정 상황 또는 특정 착용자에 맞추어 손동작 및 음성명령어 인식 모델의 성능을 높일 수 있고, 착용자 데이터를 서버 등에 송신할 필요가 없으므로 개인 데이터의 보안을 강화할 수 있다.

Description

증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치

본 발명은 손동작 및 음성명령어 인식 성능 향상 방법 및 장치에 관한 것으로서, 보다 구체적으로는 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치에 관한 것이다.

디지털 디바이스의 경량화 및 소형화 추세에 따라 다양한 웨어러블 디바이스(wearable device)들이 개발되고 있다. 이러한 웨어러블 디바이스의 일종인 헤드 마운티드 디스플레이(Head Mounted Display)는 사용자가 머리에 착용하여 멀티미디어 컨텐츠 등을 제공받을 수 있는 각종 디바이스를 의미한다. 여기서 헤드 마운티드 디스플레이(HMD)는 사용자의 신체에 착용 되어 사용자가 이동함에 따라서 다양한 환경에서 사용자에게 영상을 제공하게 된다. 이러한 헤드 마운티드 디스플레이(HMD)는 투과(see-through)형과 밀폐(see-closed)형으로 구분되고 있으며, 투과형은 주로 증강현실(Augmented Reality, AR)용으로 사용되고, 밀폐형은 주로 가상현실(Virtual Reality, VR)용으로 사용되고 있다.

한편, 증강현실용 HMD(이하, 증강현실 글라스 장치)는 디스플레이가 달린 안경으로, 통상의 컴퓨터나 스마트폰 등과 다르게 키보드, 마우스, 터치패드 등의 입력 장치가 존재하지 않는다. 따라서 카메라, 마이크를 활용한 손동작, 음성명령어 등으로 입력 인터페이스(InterFace, I/F)를 대체해야 한다.

정확한 손동작 및 음성명령어 인식을 위해, 컴퓨터 비전에서 객체의 위치(Position)와 방향(Orientation)을 탐지하는 기술이나, 음성 데이터를 처리해 텍스트로 변환하는 등의 음성 처리 기술을 사용할 수 있다. 최근에는 인공지능 기술이 비약적으로 발전하면서, 이러한 객체 인식과 음성인식에 딥러닝 기법이 적극적으로 적용되고 있다. 따라서 딥러닝 기법을 활용해 증강현실 글라스 장치에 최적화된 모델을 개발하고 탑재하여, 입력 인터페이스를 위한 손동작 인식 및 음성명령어 인식을 위해 사용할 수 있다.

그러나 증강현실 글라스 장치는 머리에 착용하는 특성상 크기와 무게를 최소화해야 하므로, 높은 컴퓨팅 파워를 갖추기는 어렵다. 따라서 범용적으로 사용 가능한 손동작, 음성명령어 인터페이스를 위해 사전 학습된 모델을 탑재해 사용하게 되므로 학습에 없거나 특수한 환경에서 발생하는 인식 오류가 발생할 수 있다. 이 오류 빈도수가 많아지면 특정 프로그램에 심각하게 오작동을 유발하여 증강현실 글라스에 활용할 수 없을 것이다. 따라서 특정 상황 또는 특정 사용자에 맞추어 AI 딥러닝 모델의 인식 성능을 높일 방법의 개발이 대두된다.

한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-2102309호(발명의 명칭: 머리 착용형 디스플레이 장치의 3차원 가상공간을 위한 객체 인식 방법, 등록일자: 2020년 04월 13일) 등이 개시된 바 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 증강현실 글라스 장치를 착용한 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터로, 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 추가 학습해 가중치를 업데이트하여 손동작 및 음성명령어 인식을 수행함으로써, 증강현실 글라스 장치 내에서 특정 상황 또는 특정 착용자에 맞추어 손동작 및 음성명령어 인식 모델의 성능을 높일 수 있고, 착용자 데이터를 서버 등에 송신할 필요가 없으므로 개인 데이터의 보안을 강화할 수 있는, 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치를 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법은,

증강현실 글라스 장치의 입력 인터페이스를 위해, 상기 증강현실 글라스 장치에서 각 단계가 수행되는 손동작 및 음성명령어 인식 성능 향상 방법으로서,

(1) 증강현실 글라스 장치의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 상기 증강현실 글라스 장치에 저장하는 단계;

(2) 상기 증강현실 글라스 장치가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 단계;

(3) 상기 단계 (2)에서 수집한 착용자 데이터를 이용해, 상기 단계 (1)에서 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 단계; 및

(4) 상기 단계 (1)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 상기 단계 (3)의 추가 학습을 통해 상기 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (3)에서는,

상기 업데이트되는 값을 상기 기본 가중치의 미리 설정된 비율로 낮추어 업데이트할 수 있다.

더욱 바람직하게는, 상기 단계 (3)에서는,

상기 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 할 수 있다.

바람직하게는, 상기 단계 (4) 이후에는,

(5) 상기 단계 (4)에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 상기 단계 (2) 내지 단계 (4)를 재수행하는 단계를 더 포함할 수 있다.

바람직하게는, 상기 단계 (4) 이후에는,

(6) 착용자 입력 신호에 따라, 상기 단계 (4)에서 교체된 모델을 상기 단계 (1)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화하는 단계를 더 포함할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치는,

증강현실 글라스 장치의 입력 인터페이스를 위해, 상기 증강현실 글라스 장치에 탑재되는 손동작 및 음성명령어 인식 성능 향상 장치로서,

상기 증강현실 글라스 장치의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 상기 증강현실 글라스 장치에 저장하는 모델 저장부;

상기 증강현실 글라스 장치가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 데이터 수집부;

상기 데이터 수집부에서 수집한 착용자 데이터를 이용해, 상기 모델 저장부에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 착용자 학습부; 및

상기 모델 저장부에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 상기 착용자 학습부의 추가 학습을 통해 상기 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 인터페이스 교체부를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 착용자 학습부는,

업데이트되는 값을 상기 기본 가중치의 미리 설정된 비율로 낮추어 업데이트하고, 상기 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 할 수 있다.

바람직하게는,

상기 인터페이스 교체부에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하는 인식률 평가부를 더 포함하며,

상기 인식률 평가부에서 평가한 인식률이 임계값 미만이면 상기 데이터 수집부, 착용자 학습부 및 인터페이스 교체부에 의한 인식 성능 향상 프로세스를 재수행할 수 있다.

도 1은 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치가 탑재된 증강현실 글라스 장치의 구성을 도시한 도면.

도 2는 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치의 구성을 도시한 도면.

도 3은 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치의 각 구성의 동작을 나타낸 도면.

도 4는 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 흐름을 도시한 도면.

도 5는 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 손동작 인식 모델을 예를 들어 도시한 도면.

도 6은 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 음성명령어 인식 모델을 예를 들어 도시한 도면.

<부호의 설명>

10: 증강현실 글라스 장치

100: 인식 성능 향상 장치

110: 모델 저장부

120: 데이터 수집부

130: 착용자 학습부

140: 인터페이스 교체부

150: 인식률 평가부

200: 카메라

300: 마이크

400: 제어부

S100: 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치에 저장하는 단계

S200: 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자 데이터를 수집하고 저장하는 단계

S300: 착용자 데이터를 이용해 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 단계

S400: 추가 학습을 통해 착용자 가중치로 업데이트된 모델로 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 단계

S500: 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 재수행하는 단계

S600: 착용자 입력 신호에 따라 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화하는 단계

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 1은 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치가 탑재된 증강현실 글라스 장치(10)의 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)는 증강현실 글라스 장치(10)에 탑재될 수 있다.

즉, 증강현실 글라스 장치(10)는, 실시간으로 손동작을 인식해 손동작 인터페이스를 구현하기 위한 사전 학습된 손동작 인식 모델과, 실시간으로 음성을 인식해 음성명령어 인터페이스를 구현하기 위한 사전 학습된 음성명령어 인식 모델을 각각 저장하고, 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)를 착용한 착용자에 최적화하여 인식 성능을 향상시키기 위한 인식 성능 향상 장치(100)를 포함할 수 있다.

보다 구체적으로, 인식 성능 향상 장치(100)가 증강현실 글라스 장치(10)의 카메라(200)에서 촬영되는 착용자의 손동작 영상 데이터와, 마이크(300)를 통해 입력되는 착용자의 음성명령어 신호 데이터로 구성되는 착용자 데이터를 획득하고, 착용자 데이터를 학습 데이터셋으로 구성해 딥러닝 기반으로 손동작 인식 모델 및 음성명령어 인식 모델의 추가 학습을 통해, 착용자 특유의 사용 환경, 손동작 특성, 음성 특성 등을 학습한 모델로 업데이트할 수 있다. 제어부(400)는 업데이트된 모델로 입력 인터페이스를 사용하여 해당 착용자에 맞추어 인식 성능을 높일 수 있다.

여기서, 손동작과 음성명령어는 증강현실 글라스 장치(10)의 착용자가 명령어 입력을 위해 사용하는 것으로서, 각각 또는 둘의 조합으로 입력 신호를 구성할 수 있다.

도 2는 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)의 구성을 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)의 각 구성의 동작을 나타낸 도면이다. 도 2 및 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위해, 증강현실 글라스 장치(10)에 탑재되는 손동작 및 음성명령어 인식 성능 향상 장치(100)로서, 증강현실 글라스 장치(10)의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)에 저장하는 모델 저장부(110); 증강현실 글라스 장치(10)가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 데이터 수집부(120); 데이터 수집부(120)에서 수집한 착용자 데이터를 이용해, 모델 저장부(110)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 착용자 학습부(130); 및 모델 저장부(110)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 착용자 학습부(130)의 추가 학습을 통해 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 인터페이스 교체부(140)를 포함하여 구성될 수 있다.

보다 구체적으로, 착용자 학습부(130)는, 업데이트되는 값을 기본 가중치의 미리 설정된 비율로 낮추어 업데이트하고, 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 할 수 있다.

또한, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)는, 인터페이스 교체부(140)에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하는 인식률 평가부(150)를 더 포함하며, 인식률 평가부(150)에서 평가한 인식률이 임계값 미만이면 데이터 수집부(120), 착용자 학습부(130) 및 인터페이스 교체부(140)에 의한 인식 성능 향상 프로세스를 재수행할 수 있다.

도 4는 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법은, 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)에 저장하는 단계(S100), 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자 데이터를 수집하고 저장하는 단계(S200), 착용자 데이터를 이용해 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 단계(S300) 및 추가 학습을 통해 착용자 가중치로 업데이트된 모델로 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 단계(S400)를 포함하여 구현될 수 있으며, 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 재수행하는 단계(S500) 및 착용자 입력 신호에 따라 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화하는 단계(S600)를 더 포함하여 구현될 수 있다.

본 발명은 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법에 관한 것으로서, 메모리 및 프로세서를 포함한 하드웨어에서 기록되는 소프트웨어로 구성될 수 있다. 예를 들어, 본 발명의 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법은, 증강현실 글라스 장치(10)에 저장 및 구현될 수 있다. 이하에서는 설명의 편의를 위해, 각 단계를 수행하는 주체는 생략될 수 있다.

단계 S100에서는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)에 저장할 수 있다. 즉, 인식 성능 향상 장치(100)의 모델 저장부(110)가 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 저장할 수 있다. 이때, 인식 모델은 유무선 네트워크를 통해 서버 등으로부터 전달받을 수 있으며, 서버 등에서 사전 학습된 것일 수 있다.

보다 구체적으로, 단계 S100에서 저장하는 손동작 인식 모델 및 음성명령어 인식 모델은, 각각 손동작 인식을 위한 이미지 처리와 음성명령어 인식을 위한 음성 데이터 처리에 최적화된 딥러닝 기반 모델로서, 다양한 사용자와 다양한 환경에서 범용적으로 사용되는 손동작이나 음성명령어의 인식을 위한 범용적 모델일 수 있다. 사전 학습을 통해 모델 파라미터의 최적화된 가중치인 기본 가중치를 갖고 있을 수 있다.

도 5는 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 손동작 인식 모델을 예를 들어 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 손동작 인식 모델은, 카메라(200)를 통해 촬영된 손 영상에서 특징 맵을 추출하고, 추출한 특징을 사용해 손동작 판별 및 손 위치 추정을 통해 손 영역을 검출하고, 손 영역에서 손의 포즈를 추정할 수 있다. 여기서, 손동작 인식 모델은, 영상 처리에 특화된 딥러닝 기법과 다양한 각도와 조명 등의 환경에서 수집된 대량의 영상을 이용해 사전 학습된 것으로, 적어도 하나 이상의 콘볼루션 레이어를 포함할 수 있다.

도 6은 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 음성명령어 인식 모델을 예를 들어 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 음성명령어 인식 모델은, 마이크(300)를 통해 입력된 음성 데이터를 노이즈 제거, 필터링 등으로 전처리하고, 전처리 된 음성 데이터에서 특징 맵을 추출한 다음, 추출한 특징을 사용해 시동어(Start Command)와 명령어(Command)를 각각 인식할 수 있다. 여기서, 음성명령어 인식 모델은, RNN, LSTM RNN 등 시퀀셜하게 입력되는 음성 데이터의 처리에 특화된 딥러닝 기법과, 다양한 노이즈와 음성 길이 등의 환경에서 수집된 대량의 음성 데이터를 이용해 사전 학습된 것일 수 있다.

또한, 도 5 및 도 6에 도시된 바와 같이, 각 모델을 구성하는 블록(Block)은 Convolution Layer, Batch Normalization, MaxPooling의 조합으로 이루어질 수 있다.

단계 S200에서는, 증강현실 글라스 장치(10)가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장할 수 있다.

보다 구체적으로, 데이터 수집부(120)는, 데이터를 수집할 수 있는 프로그램을 저장하고, 해당 프로그램을 사용해 특정한 손동작과 음성명령어를 유도하는 가이드를 증강현실 글라스 장치(10)를 통해 제공해, 착용자가 가이드에 따른 손동작을 취하거나 음성을 발화하는 등의 행동을 취하도록 할 수 있다. 이때, 가이드는 추후 상세히 설명할 단계 S300의 추가 학습에 필수적인 손동작 영상과 음성 데이터를 수집하기 위한 것으로, 텍스트, 이미지, 음향, 멀티미디어, 햅틱 등으로 구현될 수 있다.

도 3에 도시된 바와 같이, 데이터 수집부(120)는 획득한 착용자 데이터에서 노이즈를 제거하거나 필터링하는 등의 전처리를 하고, 데이터 검증 절차를 거쳐 증강현실 글라스 장치(10) 내부에 저장할 수 있다. 즉, 네트워크를 통해 서버 등에 착용자 데이터를 전송하지 않으므로, 착용자의 특성 데이터의 유출 위험이 없고 보안을 강화할 수 있다.

단계 S300에서는, 단계 S200에서 수집한 착용자 데이터를 이용해, 단계 S100에서 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트할 수 있다. 여기서, 도 5 및 도 6에 도시된 바와 같이, 가중치 업데이트는 추론의 역방향으로 이루어질 수 있다.

또한, 단계 S300에서는, 착용자 데이터를 학습 데이터셋으로 하여 손동작 인식 모델 및 음성명령어 인식 모델을 학습하며, 범용적으로 사용한 데이터 중에서 필수적인 손동작 및 음성명령어 데이터(이하, 범용 필수 데이터)를 학습 데이터셋에 더 포함하여 사용할 수 있다. 이때, 범용 필수 데이터는 단계 S100에서 손동작 인식 모델 및 음성명령어 인식 모델 저장 시 증강현실 글라스 장치(100)에 함께 저장될 수 있으며, 범용 필수 데이터가 필요할 때 서버로부터 유무선 네트워크를 통해 전송받을 수 있다.

한편, 증강현실 글라스 장치(10)는 GPU 또는 TPU를 지원하는 장비가 아니고, 머리에 착용하는 특성상 크기와 무게를 최소화해야 하므로 높은 컴퓨팅 파워를 갖추기는 어렵기 때문에, 단계 S300의 딥러닝 학습 시간이 오래 걸린다. 따라서 단계 S300에서는, 범용 필수 데이터와 착용자 데이터만으로 학습 데이터셋을 구성해 비교적 적은 양의 데이터로 신속하게 학습을 할 수 있으며, 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회로 할 수 있다. 또한, 단계 S300에서는, 업데이트되는 값을 기본 가중치의 미리 설정된 비율로 낮추어 업데이트할 수 있으며 예를 들어, 가중치 업데이트 값을 기본 가중치의 1/2로 낮추어 모델을 업데이트할 수 있다.

단계 S400에서는, 단계 S100에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 단계 S300의 추가 학습을 통해 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 할 수 있다. 즉, 단계 S400에서, 도 3에 도시된 바와 같이, 인터페이스 교체부(140)는 가중치가 업데이트된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)의 I/F 프로그램으로 등록하며, 제어부(400)는 교체 등록된 I/F 프로그램으로 손동작 및 음성명령어 인식을 수행해 입력 인터페이스를 구현할 수 있다. 따라서 착용자에 맞추어 학습된 모델로 인식 모델을 교체하여, 증강현실 글라스 장치(10)에서 향상된 I/F 인식 기능을 사용할 수 있다.

단계 S500에서는, 단계 S400에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 단계 S200 내지 단계 S400를 재수행할 수 있다. 이때, 인식률의 평가는 인식률 평가부(150)에서 수행될 수 있으며, 착용자의 피드백을 통해 평가할 수 있다. 예를 들어, 착용자로부터 인식 만족도를 직접 입력받을 수 있고, 재수행 명령을 입력받을 수도 있으며, 착용자가 손동작 및 음성명령어의 연속 입력을 시도하는 횟수 등을 사용해 인식률 평가를 할 수도 있다. 단계 S500에서 단계 S200 내지 S400을 반복하는 횟수는 1 내지 3회일 수 있다.

단계 S600에서는, 착용자 입력 신호에 따라, 단계 S400에서 교체된 모델을 단계 S100에 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화할 수 있다. 즉, 착용자 요청에 따라 처음 상태로 인식 모델을 초기화할 수 있다.

전술한 바와 같이, 본 발명에서 제안하고 있는 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치에 따르면, 증강현실 글라스 장치(10)를 착용한 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터로, 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 추가 학습해 가중치를 업데이트하여 손동작 및 음성명령어 인식을 수행함으로써, 증강현실 글라스 장치(10) 내에서 특정 상황 또는 특정 착용자에 맞추어 손동작 및 음성명령어 인식 모델의 성능을 높일 수 있고, 착용자 데이터를 서버 등에 송신할 필요가 없으므로 개인 데이터의 보안을 강화할 수 있다.

한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.

이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims

증강현실 글라스 장치(10)의 입력 인터페이스를 위해, 상기 증강현실 글라스 장치(10)에서 각 단계가 수행되는 손동작 및 음성명령어 인식 성능 향상 방법으로서,

(1) 증강현실 글라스 장치(10)의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 상기 증강현실 글라스 장치(10)에 저장하는 단계;

(2) 상기 증강현실 글라스 장치(10)가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 단계;

(3) 상기 단계 (2)에서 수집한 착용자 데이터를 이용해, 상기 단계 (1)에서 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 단계; 및

(4) 상기 단계 (1)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 상기 단계 (3)의 추가 학습을 통해 상기 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 단계를 포함하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
제1항에 있어서, 상기 단계 (3)에서는,

업데이트되는 값을 상기 기본 가중치의 미리 설정된 비율로 낮추어 업데이트하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
제2항에 있어서, 상기 단계 (3)에서는,

상기 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
제1항에 있어서, 상기 단계 (4) 이후에는,

(5) 상기 단계 (4)에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 상기 단계 (2) 내지 단계 (4)를 재수행하는 단계를 더 포함하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
제1항에 있어서, 상기 단계 (4) 이후에는,

(6) 착용자 입력 신호에 따라, 상기 단계 (4)에서 교체된 모델을 상기 단계 (1)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화하는 단계를 더 포함하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
증강현실 글라스 장치(10)의 입력 인터페이스를 위해, 상기 증강현실 글라스 장치(10)에 탑재되는 손동작 및 음성명령어 인식 성능 향상 장치(100)로서,

상기 증강현실 글라스 장치(10)의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 상기 증강현실 글라스 장치(10)에 저장하는 모델 저장부(110);

상기 증강현실 글라스 장치(10)가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 데이터 수집부(120);

상기 데이터 수집부(120)에서 수집한 착용자 데이터를 이용해, 상기 모델 저장부(110)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 착용자 학습부(130); 및

상기 모델 저장부(110)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 상기 착용자 학습부(130)의 추가 학습을 통해 상기 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 인터페이스 교체부(140)를 포함하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100).
제6항에 있어서, 상기 착용자 학습부(130)는,

업데이트되는 값을 상기 기본 가중치의 미리 설정된 비율로 낮추어 업데이트하고, 상기 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100).
제6항에 있어서,

상기 인터페이스 교체부(140)에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하는 인식률 평가부(150)를 더 포함하며,

상기 인식률 평가부(150)에서 평가한 인식률이 임계값 미만이면 상기 데이터 수집부(120), 착용자 학습부(130) 및 인터페이스 교체부(140)에 의한 인식 성능 향상 프로세스를 재수행하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100).