WO2022255641A1 - 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치 - Google Patents

증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치 Download PDF

Info

Publication number
WO2022255641A1
WO2022255641A1 PCT/KR2022/005822 KR2022005822W WO2022255641A1 WO 2022255641 A1 WO2022255641 A1 WO 2022255641A1 KR 2022005822 W KR2022005822 W KR 2022005822W WO 2022255641 A1 WO2022255641 A1 WO 2022255641A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice command
wearer
augmented reality
hand gesture
reality glasses
Prior art date
Application number
PCT/KR2022/005822
Other languages
English (en)
French (fr)
Inventor
최치원
김정환
이강휘
백지엽
조성동
민경진
Original Assignee
주식회사 피앤씨솔루션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 피앤씨솔루션 filed Critical 주식회사 피앤씨솔루션
Publication of WO2022255641A1 publication Critical patent/WO2022255641A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality

Definitions

  • the present invention relates to a method and apparatus for improving hand gesture and voice command recognition performance, and more particularly, to a method and apparatus for improving hand gesture and voice command recognition performance for an input interface of an augmented reality glass device.
  • a head mounted display which is a kind of wearable device, refers to various devices that can be worn on a user's head to receive multimedia contents and the like.
  • the head mounted display (HMD) is worn on the user's body and provides images to the user in various environments as the user moves.
  • Head-mounted displays (HMDs) are classified into see-through and see-closed types.
  • the see-through type is mainly used for Augmented Reality (AR), and the closed type is mainly used for virtual reality (VR). reality, VR).
  • an HMD for augmented reality (hereinafter referred to as an augmented reality glass device) is a pair of glasses with a display, and does not have an input device such as a keyboard, a mouse, or a touch pad unlike a normal computer or smart phone. Therefore, the input interface (InterFace, I/F) should be replaced with hand gestures and voice commands using cameras and microphones.
  • an input interface InterFace, I/F
  • a technology for detecting the position and orientation of an object in computer vision or a voice processing technology such as processing voice data and converting it into text can be used.
  • a voice processing technology such as processing voice data and converting it into text.
  • deep learning techniques are actively applied to object recognition and voice recognition. Therefore, by using deep learning techniques, a model optimized for an augmented reality glass device can be developed and loaded, and used for hand gesture recognition and voice command recognition for the input interface.
  • Patent Registration No. 10-2102309 Title of Invention: Object Recognition Method for 3D Virtual Space of Head-Worn Display Device, Registration Date: April 13, 2020, etc. has been disclosed.
  • the present invention has been proposed to solve the above problems of the previously proposed methods, and recognizes pre-learned hand gestures with wearer data consisting of hand gesture image data and voice command signal data of a wearer wearing an augmented reality glasses device.
  • wearer data consisting of hand gesture image data and voice command signal data of a wearer wearing an augmented reality glasses device.
  • the performance of the hand motion and voice command recognition model can be improved according to a specific situation or a specific wearer within the augmented reality glasses device, and the wearer
  • a method for improving hand gesture and voice command recognition performance in which each step is performed in the augmented reality glasses device for an input interface of the augmented reality glasses device comprising:
  • a guide for inducing predetermined hand motions and voice commands is provided, and according to the provided guide, wearer data consisting of image data of the wearer's hand motions and voice command signal data is generated. collecting and storing;
  • step (3) using the wearer data collected in step (2), additionally learning the hand gesture recognition model and voice command recognition model stored in step (1) based on a deep learning algorithm to update basic weights to wearer weights;
  • step (1) Replace and register the hand gesture recognition model and voice command recognition model stored in step (1) with a model updated with the weight of the wearer through additional learning in step (3), and hand gesture and voice as the replaced model. It is characterized in that it includes a step of enabling command recognition to be performed.
  • the updated value may be updated by lowering the value to be updated by a preset ratio of the basic weight.
  • step (3) More preferably, in the step (3),
  • One or two training iterations may be used to avoid overfitting the wearer data.
  • step (4) Preferably, after step (4),
  • step (4) Preferably, after step (4),
  • a hand gesture and voice command recognition performance improvement device mounted on the augmented reality glasses device for an input interface of the augmented reality glasses device comprising:
  • a model storage unit which stores in the augmented reality glasses device a hand gesture recognition model and a voice command recognition model pretrained based on a deep learning algorithm for an input interface of the augmented reality glasses device;
  • a guide for inducing predetermined hand motions and voice commands is provided, and according to the provided guide, wearer data consisting of image data of the wearer's hand motions and voice command signal data is collected and stored.
  • a data collection unit ;
  • a wearer learning unit which additionally learns a hand gesture recognition model and a voice command recognition model stored in the model storage unit based on a deep learning algorithm using the wearer data collected by the data collection unit and updates basic weights to wearer weights;
  • the hand gesture recognition model and the voice command recognition model stored in the model storage unit are replaced and registered with models updated with the wearer weights through additional learning of the wearer learning unit, so that hand gestures and voice command recognition are performed with the replaced model. It is characterized in that it includes an interface replacement part.
  • the wearer learning unit Preferably, the wearer learning unit,
  • the value to be updated may be updated by lowering the basic weight by a preset ratio, and training may be repeated once or twice to avoid overfitting the wearer data.
  • a recognition rate evaluation unit that evaluates the recognition rate of hand gestures and voice commands performed with the model replaced by the interface replacement unit
  • the recognition performance improvement process by the data collection unit, wearer learning unit, and interface replacement unit may be re-performed.
  • wearer data composed of hand motion image data and voice command signal data of a wearer wearing an augmented reality glasses device
  • the hand gesture and voice command recognition model according to a specific situation or a specific wearer within the augmented reality glasses device Performance can be improved, and since there is no need to transmit wearer data to a server or the like, security of personal data can be strengthened.
  • FIG. 1 is a view showing the configuration of an augmented reality glasses device equipped with a method and apparatus for improving hand gesture and voice command recognition performance for an input interface of the augmented reality glasses device according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing the configuration of an apparatus for improving the performance of recognizing hand gestures and voice commands for an input interface of an augmented reality glasses device according to an embodiment of the present invention.
  • FIG 3 is a view showing the operation of each component of the hand gesture and voice command recognition performance improvement device for the input interface of the augmented reality glasses device according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a method for improving hand motion and voice command recognition performance for an input interface of an augmented reality glasses device according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a hand gesture recognition model of a method for improving hand gesture and voice command recognition performance for an input interface of an augmented reality glasses device according to an embodiment of the present invention, as an example;
  • FIG. 6 is a view showing a voice command recognition model of a method for improving hand motion and voice command recognition performance for an input interface of an augmented reality glasses device according to an embodiment of the present invention, as an example;
  • S200 Providing a guide for inducing predetermined hand motions and voice commands, and collecting and storing wearer data according to the provided guide
  • S400 A step of replacing and registering a model updated with wearer weights through additional learning so that hand gestures and voice command recognition are performed with the replaced model
  • S500 Evaluating the recognition rate of hand gestures and voice commands performed with the replaced model, and re-performing if the recognition rate is less than the threshold value
  • FIG. 1 is a diagram showing the configuration of the augmented reality glasses device 10 equipped with a method and device for improving hand gesture and voice command recognition performance for an input interface of the augmented reality glasses device 10 according to an embodiment of the present invention.
  • the device 100 for improving the performance of recognizing hand gestures and voice commands for the input interface of the augmented reality glasses device 10 according to an embodiment of the present invention is to be mounted on the augmented reality glasses device 10. can
  • the augmented reality glasses device 10 includes a pre-learned hand motion recognition model for recognizing hand motions in real time to implement a hand motion interface, and pre-learned voice command word recognition for implementing a voice command interface by recognizing voices in real time.
  • a recognition performance improving device 100 for improving recognition performance by storing each model and optimizing a hand gesture recognition model and a voice command recognition model for a wearer wearing the augmented reality glasses device 10 may be included.
  • the recognition performance enhancing device 100 is composed of the wearer's hand motion image data captured by the camera 200 of the augmented reality glasses device 10 and the wearer's voice command signal data input through the microphone 300
  • a model that learns the wearer's unique usage environment, hand gesture characteristics, and voice characteristics through additional learning of hand gesture recognition model and voice command recognition model based on deep learning by configuring the wearer data as a learning dataset can be updated with
  • the controller 400 may improve recognition performance according to the wearer by using the input interface with the updated model.
  • the hand motion and the voice command are used by the wearer of the augmented reality glasses device 10 to input a command, and each or a combination of the two may constitute an input signal.
  • FIG. 2 is a diagram showing the configuration of an apparatus 100 for improving hand gesture and voice command recognition performance for an input interface of an augmented reality glasses device 10 according to an embodiment of the present invention
  • FIG. 3 is an embodiment of the present invention. It is a diagram showing the operation of each component of the apparatus 100 for improving hand gesture and voice command recognition performance for the input interface of the augmented reality glasses device 10 according to the example. As shown in FIGS.
  • the device 100 for improving the performance of recognizing hand gestures and voice commands for an input interface of the augmented reality glasses device 10 includes the augmented reality glasses device 10 ), as a hand gesture and voice command recognition performance improvement device 100 mounted in the augmented reality glasses device 10, for the input interface of the augmented reality glasses device 10, pre-trained based on a deep learning algorithm a model storage unit 110 for storing a hand gesture recognition model and a voice command recognition model in the augmented reality glasses device 10;
  • a guide for inducing predetermined hand motions and voice commands is provided, and according to the provided guide, wearer data consisting of image data of the wearer's hand motions and voice command signal data is collected.
  • a wearer learning unit that updates basic weights to wearer weights by additionally learning a hand gesture recognition model and a voice command recognition model stored in the model storage unit 110 based on a deep learning algorithm using the wearer data collected by the data collection unit 120. (130); and replacing the hand gesture recognition model and the voice command recognition model stored in the model storage unit 110 with models updated with wearer weights through additional learning by the wearer learning unit 130, respectively, and registering hand gestures and voice commands with the replaced model.
  • It may be configured to include an interface replacement unit 140 that allows recognition to be performed.
  • the wearer learner 130 may update the value to be updated by lowering the value to be updated by a preset ratio of the basic weight, and repeat the learning once or twice to avoid overfitting the wearer data.
  • FIG. 4 is a flowchart illustrating a method for improving hand gesture and voice command recognition performance for an input interface of the augmented reality glasses device 10 according to an embodiment of the present invention.
  • a method for improving hand gesture and voice command recognition performance for an input interface of an augmented reality glasses device 10 according to an embodiment of the present invention includes a pretrained hand gesture recognition model and a voice command recognition model.
  • the present invention relates to a method for improving hand gesture and voice command recognition performance for an input interface of an augmented reality glasses device 10, and may be composed of software recorded in hardware including a memory and a processor.
  • the method for improving the performance of recognizing hand gestures and voice commands for the input interface of the augmented reality glasses device 10 according to the present invention may be stored and implemented in the augmented reality glasses device 10 .
  • the subject performing each step may be omitted.
  • a hand gesture recognition model and a voice command recognition model pretrained based on a deep learning algorithm may be stored in the augmented reality glasses device 10 for an input interface of the augmented reality glasses device 10 . That is, the model storage unit 110 of the recognition performance improving device 100 may store a hand gesture recognition model and a voice command recognition model pretrained based on a deep learning algorithm.
  • the recognition model may be received from a server or the like through a wired or wireless network, and may be pre-trained in the server or the like.
  • the hand gesture recognition model and voice command recognition model stored in step S100 are deep learning-based models optimized for image processing for hand gesture recognition and voice data processing for voice command recognition, respectively. It may be a general-purpose model for recognizing hand gestures or voice commands that are used universally. It may have basic weights, which are weights optimized for model parameters through pre-learning.
  • FIG. 5 is a diagram illustrating a hand gesture recognition model of a method for improving hand gesture and voice command recognition performance for an input interface of the augmented reality glasses device 10 according to an embodiment of the present invention, as an example.
  • the hand gesture recognition model of the method for improving the performance of recognizing hand gestures and voice commands for the input interface of the augmented reality glasses device 10 according to an embodiment of the present invention is photographed through the camera 200.
  • a feature map can be extracted from a hand image, and a hand region can be detected through hand motion discrimination and hand position estimation using the extracted features, and a hand pose can be estimated from the hand region.
  • the hand gesture recognition model is pre-learned using a deep learning technique specialized for image processing and a large amount of images collected from environments such as various angles and lighting, and may include at least one convolutional layer.
  • FIG. 6 is a diagram illustrating a voice command recognition model of a method for improving hand motion and voice command recognition performance for an input interface of the augmented reality glasses device 10 according to an embodiment of the present invention, as an example.
  • the voice command recognition model of the method for improving hand motion and voice command recognition performance for the input interface of the augmented reality glasses device 10 according to an embodiment of the present invention is input through the microphone 300
  • the extracted voice data is preprocessed by noise removal and filtering, and a feature map is extracted from the preprocessed voice data, and then a start command and a command can be recognized using the extracted features.
  • the voice command recognition model is a deep learning technique specialized in processing sequentially input voice data, such as RNN and LSTM RNN, and a large amount of voice data collected in an environment of various noise and voice length. have.
  • step S200 in a state where the augmented reality glasses device 10 is worn on the wearer, a guide for inducing predetermined hand motions and voice commands is provided, and according to the provided guide, the wearer's hand motion image data and voice command signal data are composed. Wearer data may be collected and stored.
  • the data collection unit 120 stores a program capable of collecting data, and provides a guide for inducing specific hand motions and voice commands using the corresponding program through the augmented reality glasses device 10, so that the wearer can Actions such as making hand gestures or uttering voices according to the guide may be made.
  • the guide is for collecting hand motion video and voice data essential for additional learning in step S300 to be described in detail later, and may be implemented in text, image, sound, multimedia, haptic, and the like.
  • the data collection unit 120 may perform pre-processing such as removing or filtering noise from the acquired wearer data and store the data in the augmented reality glasses device 10 through a data verification procedure. That is, since wearer data is not transmitted to a server or the like through a network, there is no risk of leakage of wearer's characteristic data and security can be enhanced.
  • step S300 using the wearer data collected in step S200, the hand gesture recognition model and the voice command recognition model stored in step S100 are additionally learned based on a deep learning algorithm, and basic weights may be updated to wearer weights.
  • the weight update may be performed in the reverse direction of inference.
  • step S300 a hand gesture recognition model and a voice command recognition model are learned using the wearer data as a learning dataset, and essential hand gesture and voice command data (hereinafter, universal essential data) among universally used data are added to the learning dataset More can be included.
  • the universal essential data may be stored together in the augmented reality glasses device 100 when the hand gesture recognition model and the voice command recognition model are stored in step S100, and may be transmitted from the server through a wired or wireless network when the universal essential data is needed.
  • step S300 a learning dataset is formed with only the universal essential data and the wearer data, so that learning can be performed quickly with a relatively small amount of data, and one or two training iterations can be performed to avoid overfitting the wearer data.
  • the value to be updated may be updated by lowering the value to be updated by a preset ratio of the basic weight.
  • the model may be updated by lowering the weight update value to 1/2 of the basic weight.
  • step S400 the hand gesture recognition model and the voice command recognition model stored in step S100 are replaced and registered with models updated with wearer weights through additional learning in step S300, so that hand gesture and voice command recognition are performed with the replaced model.
  • the interface replacement unit 140 registers the hand gesture recognition model and the voice command recognition model with updated weights as an I/F program of the augmented reality glasses device 10.
  • the control unit 400 may implement an input interface by performing hand motion and voice command recognition with a replacement registered I/F program. Accordingly, the enhanced I/F recognition function can be used in the augmented reality glasses device 10 by replacing the recognition model with a model learned according to the wearer.
  • step S500 the recognition rate of the hand gesture and voice command performed with the model replaced in step S400 is evaluated, and if the recognition rate is less than the threshold value, steps S200 to S400 may be re-performed.
  • the recognition rate evaluation may be performed by the recognition rate evaluation unit 150 and may be evaluated through the wearer's feedback. For example, recognition satisfaction may be directly received from the wearer, a repeat command may be received, and the recognition rate may be evaluated using the number of times the wearer attempts to continuously input hand gestures and voice commands. The number of repetitions of steps S200 to S400 in step S500 may be 1 to 3 times.
  • step S600 the model replaced in step S400 may be initialized as a hand gesture recognition model and a voice command recognition model stored in step S100 according to a wearer input signal. That is, the recognition model may be initialized to an initial state according to the wearer's request.
  • hand motion images of the wearer wearing the augmented reality glasses device 10 With wearer data consisting of data and voice command signal data, hand motion and voice command recognition is performed by additionally learning a pre-learned hand motion recognition model and voice command recognition model to update weights to perform hand motion and voice command recognition within the augmented reality glasses device 10.
  • the performance of the hand motion and voice command recognition model can be improved according to a specific situation or a specific wearer, and the security of personal data can be strengthened because there is no need to transmit the wearer's data to a server.
  • the present invention may include a computer-readable medium including program instructions for performing operations implemented in various communication terminals.
  • computer-readable media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD_ROMs and DVDs, and floptical disks. It may include hardware devices specially configured to store and execute program instructions, such as magneto-optical media and ROM, RAM, flash memory, and the like.
  • Such computer-readable media may include program instructions, data files, data structures, etc. alone or in combination.
  • program instructions recorded on a computer-readable medium may be specially designed and configured to implement the present invention, or may be known and usable to those skilled in computer software.
  • it may include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes generated by a compiler.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Optics & Photonics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명에서 제안하고 있는 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치에 따르면, 증강현실 글라스 장치를 착용한 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터로, 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 추가 학습해 가중치를 업데이트하여 손동작 및 음성명령어 인식을 수행함으로써, 증강현실 글라스 장치 내에서 특정 상황 또는 특정 착용자에 맞추어 손동작 및 음성명령어 인식 모델의 성능을 높일 수 있고, 착용자 데이터를 서버 등에 송신할 필요가 없으므로 개인 데이터의 보안을 강화할 수 있다.

Description

증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치
본 발명은 손동작 및 음성명령어 인식 성능 향상 방법 및 장치에 관한 것으로서, 보다 구체적으로는 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치에 관한 것이다.
디지털 디바이스의 경량화 및 소형화 추세에 따라 다양한 웨어러블 디바이스(wearable device)들이 개발되고 있다. 이러한 웨어러블 디바이스의 일종인 헤드 마운티드 디스플레이(Head Mounted Display)는 사용자가 머리에 착용하여 멀티미디어 컨텐츠 등을 제공받을 수 있는 각종 디바이스를 의미한다. 여기서 헤드 마운티드 디스플레이(HMD)는 사용자의 신체에 착용 되어 사용자가 이동함에 따라서 다양한 환경에서 사용자에게 영상을 제공하게 된다. 이러한 헤드 마운티드 디스플레이(HMD)는 투과(see-through)형과 밀폐(see-closed)형으로 구분되고 있으며, 투과형은 주로 증강현실(Augmented Reality, AR)용으로 사용되고, 밀폐형은 주로 가상현실(Virtual Reality, VR)용으로 사용되고 있다.
한편, 증강현실용 HMD(이하, 증강현실 글라스 장치)는 디스플레이가 달린 안경으로, 통상의 컴퓨터나 스마트폰 등과 다르게 키보드, 마우스, 터치패드 등의 입력 장치가 존재하지 않는다. 따라서 카메라, 마이크를 활용한 손동작, 음성명령어 등으로 입력 인터페이스(InterFace, I/F)를 대체해야 한다.
정확한 손동작 및 음성명령어 인식을 위해, 컴퓨터 비전에서 객체의 위치(Position)와 방향(Orientation)을 탐지하는 기술이나, 음성 데이터를 처리해 텍스트로 변환하는 등의 음성 처리 기술을 사용할 수 있다. 최근에는 인공지능 기술이 비약적으로 발전하면서, 이러한 객체 인식과 음성인식에 딥러닝 기법이 적극적으로 적용되고 있다. 따라서 딥러닝 기법을 활용해 증강현실 글라스 장치에 최적화된 모델을 개발하고 탑재하여, 입력 인터페이스를 위한 손동작 인식 및 음성명령어 인식을 위해 사용할 수 있다.
그러나 증강현실 글라스 장치는 머리에 착용하는 특성상 크기와 무게를 최소화해야 하므로, 높은 컴퓨팅 파워를 갖추기는 어렵다. 따라서 범용적으로 사용 가능한 손동작, 음성명령어 인터페이스를 위해 사전 학습된 모델을 탑재해 사용하게 되므로 학습에 없거나 특수한 환경에서 발생하는 인식 오류가 발생할 수 있다. 이 오류 빈도수가 많아지면 특정 프로그램에 심각하게 오작동을 유발하여 증강현실 글라스에 활용할 수 없을 것이다. 따라서 특정 상황 또는 특정 사용자에 맞추어 AI 딥러닝 모델의 인식 성능을 높일 방법의 개발이 대두된다.
한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-2102309호(발명의 명칭: 머리 착용형 디스플레이 장치의 3차원 가상공간을 위한 객체 인식 방법, 등록일자: 2020년 04월 13일) 등이 개시된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 증강현실 글라스 장치를 착용한 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터로, 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 추가 학습해 가중치를 업데이트하여 손동작 및 음성명령어 인식을 수행함으로써, 증강현실 글라스 장치 내에서 특정 상황 또는 특정 착용자에 맞추어 손동작 및 음성명령어 인식 모델의 성능을 높일 수 있고, 착용자 데이터를 서버 등에 송신할 필요가 없으므로 개인 데이터의 보안을 강화할 수 있는, 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법은,
증강현실 글라스 장치의 입력 인터페이스를 위해, 상기 증강현실 글라스 장치에서 각 단계가 수행되는 손동작 및 음성명령어 인식 성능 향상 방법으로서,
(1) 증강현실 글라스 장치의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 상기 증강현실 글라스 장치에 저장하는 단계;
(2) 상기 증강현실 글라스 장치가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 단계;
(3) 상기 단계 (2)에서 수집한 착용자 데이터를 이용해, 상기 단계 (1)에서 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 단계; 및
(4) 상기 단계 (1)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 상기 단계 (3)의 추가 학습을 통해 상기 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (3)에서는,
상기 업데이트되는 값을 상기 기본 가중치의 미리 설정된 비율로 낮추어 업데이트할 수 있다.
더욱 바람직하게는, 상기 단계 (3)에서는,
상기 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 할 수 있다.
바람직하게는, 상기 단계 (4) 이후에는,
(5) 상기 단계 (4)에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 상기 단계 (2) 내지 단계 (4)를 재수행하는 단계를 더 포함할 수 있다.
바람직하게는, 상기 단계 (4) 이후에는,
(6) 착용자 입력 신호에 따라, 상기 단계 (4)에서 교체된 모델을 상기 단계 (1)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화하는 단계를 더 포함할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치는,
증강현실 글라스 장치의 입력 인터페이스를 위해, 상기 증강현실 글라스 장치에 탑재되는 손동작 및 음성명령어 인식 성능 향상 장치로서,
상기 증강현실 글라스 장치의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 상기 증강현실 글라스 장치에 저장하는 모델 저장부;
상기 증강현실 글라스 장치가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 데이터 수집부;
상기 데이터 수집부에서 수집한 착용자 데이터를 이용해, 상기 모델 저장부에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 착용자 학습부; 및
상기 모델 저장부에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 상기 착용자 학습부의 추가 학습을 통해 상기 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 인터페이스 교체부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 착용자 학습부는,
업데이트되는 값을 상기 기본 가중치의 미리 설정된 비율로 낮추어 업데이트하고, 상기 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 할 수 있다.
바람직하게는,
상기 인터페이스 교체부에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하는 인식률 평가부를 더 포함하며,
상기 인식률 평가부에서 평가한 인식률이 임계값 미만이면 상기 데이터 수집부, 착용자 학습부 및 인터페이스 교체부에 의한 인식 성능 향상 프로세스를 재수행할 수 있다.
본 발명에서 제안하고 있는 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치에 따르면, 증강현실 글라스 장치를 착용한 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터로, 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 추가 학습해 가중치를 업데이트하여 손동작 및 음성명령어 인식을 수행함으로써, 증강현실 글라스 장치 내에서 특정 상황 또는 특정 착용자에 맞추어 손동작 및 음성명령어 인식 모델의 성능을 높일 수 있고, 착용자 데이터를 서버 등에 송신할 필요가 없으므로 개인 데이터의 보안을 강화할 수 있다.
도 1은 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치가 탑재된 증강현실 글라스 장치의 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치의 구성을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치의 각 구성의 동작을 나타낸 도면.
도 4는 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 손동작 인식 모델을 예를 들어 도시한 도면.
도 6은 본 발명의 일실시예에 따른 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 음성명령어 인식 모델을 예를 들어 도시한 도면.
<부호의 설명>
10: 증강현실 글라스 장치
100: 인식 성능 향상 장치
110: 모델 저장부
120: 데이터 수집부
130: 착용자 학습부
140: 인터페이스 교체부
150: 인식률 평가부
200: 카메라
300: 마이크
400: 제어부
S100: 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치에 저장하는 단계
S200: 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자 데이터를 수집하고 저장하는 단계
S300: 착용자 데이터를 이용해 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 단계
S400: 추가 학습을 통해 착용자 가중치로 업데이트된 모델로 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 단계
S500: 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 재수행하는 단계
S600: 착용자 입력 신호에 따라 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화하는 단계
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치가 탑재된 증강현실 글라스 장치(10)의 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)는 증강현실 글라스 장치(10)에 탑재될 수 있다.
즉, 증강현실 글라스 장치(10)는, 실시간으로 손동작을 인식해 손동작 인터페이스를 구현하기 위한 사전 학습된 손동작 인식 모델과, 실시간으로 음성을 인식해 음성명령어 인터페이스를 구현하기 위한 사전 학습된 음성명령어 인식 모델을 각각 저장하고, 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)를 착용한 착용자에 최적화하여 인식 성능을 향상시키기 위한 인식 성능 향상 장치(100)를 포함할 수 있다.
보다 구체적으로, 인식 성능 향상 장치(100)가 증강현실 글라스 장치(10)의 카메라(200)에서 촬영되는 착용자의 손동작 영상 데이터와, 마이크(300)를 통해 입력되는 착용자의 음성명령어 신호 데이터로 구성되는 착용자 데이터를 획득하고, 착용자 데이터를 학습 데이터셋으로 구성해 딥러닝 기반으로 손동작 인식 모델 및 음성명령어 인식 모델의 추가 학습을 통해, 착용자 특유의 사용 환경, 손동작 특성, 음성 특성 등을 학습한 모델로 업데이트할 수 있다. 제어부(400)는 업데이트된 모델로 입력 인터페이스를 사용하여 해당 착용자에 맞추어 인식 성능을 높일 수 있다.
여기서, 손동작과 음성명령어는 증강현실 글라스 장치(10)의 착용자가 명령어 입력을 위해 사용하는 것으로서, 각각 또는 둘의 조합으로 입력 신호를 구성할 수 있다.
도 2는 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)의 구성을 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)의 각 구성의 동작을 나타낸 도면이다. 도 2 및 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위해, 증강현실 글라스 장치(10)에 탑재되는 손동작 및 음성명령어 인식 성능 향상 장치(100)로서, 증강현실 글라스 장치(10)의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)에 저장하는 모델 저장부(110); 증강현실 글라스 장치(10)가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 데이터 수집부(120); 데이터 수집부(120)에서 수집한 착용자 데이터를 이용해, 모델 저장부(110)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 착용자 학습부(130); 및 모델 저장부(110)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 착용자 학습부(130)의 추가 학습을 통해 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 인터페이스 교체부(140)를 포함하여 구성될 수 있다.
보다 구체적으로, 착용자 학습부(130)는, 업데이트되는 값을 기본 가중치의 미리 설정된 비율로 낮추어 업데이트하고, 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 할 수 있다.
또한, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100)는, 인터페이스 교체부(140)에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하는 인식률 평가부(150)를 더 포함하며, 인식률 평가부(150)에서 평가한 인식률이 임계값 미만이면 데이터 수집부(120), 착용자 학습부(130) 및 인터페이스 교체부(140)에 의한 인식 성능 향상 프로세스를 재수행할 수 있다.
도 4는 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법은, 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)에 저장하는 단계(S100), 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자 데이터를 수집하고 저장하는 단계(S200), 착용자 데이터를 이용해 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 단계(S300) 및 추가 학습을 통해 착용자 가중치로 업데이트된 모델로 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 단계(S400)를 포함하여 구현될 수 있으며, 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 재수행하는 단계(S500) 및 착용자 입력 신호에 따라 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화하는 단계(S600)를 더 포함하여 구현될 수 있다.
본 발명은 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법에 관한 것으로서, 메모리 및 프로세서를 포함한 하드웨어에서 기록되는 소프트웨어로 구성될 수 있다. 예를 들어, 본 발명의 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법은, 증강현실 글라스 장치(10)에 저장 및 구현될 수 있다. 이하에서는 설명의 편의를 위해, 각 단계를 수행하는 주체는 생략될 수 있다.
단계 S100에서는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)에 저장할 수 있다. 즉, 인식 성능 향상 장치(100)의 모델 저장부(110)가 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 저장할 수 있다. 이때, 인식 모델은 유무선 네트워크를 통해 서버 등으로부터 전달받을 수 있으며, 서버 등에서 사전 학습된 것일 수 있다.
보다 구체적으로, 단계 S100에서 저장하는 손동작 인식 모델 및 음성명령어 인식 모델은, 각각 손동작 인식을 위한 이미지 처리와 음성명령어 인식을 위한 음성 데이터 처리에 최적화된 딥러닝 기반 모델로서, 다양한 사용자와 다양한 환경에서 범용적으로 사용되는 손동작이나 음성명령어의 인식을 위한 범용적 모델일 수 있다. 사전 학습을 통해 모델 파라미터의 최적화된 가중치인 기본 가중치를 갖고 있을 수 있다.
도 5는 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 손동작 인식 모델을 예를 들어 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 손동작 인식 모델은, 카메라(200)를 통해 촬영된 손 영상에서 특징 맵을 추출하고, 추출한 특징을 사용해 손동작 판별 및 손 위치 추정을 통해 손 영역을 검출하고, 손 영역에서 손의 포즈를 추정할 수 있다. 여기서, 손동작 인식 모델은, 영상 처리에 특화된 딥러닝 기법과 다양한 각도와 조명 등의 환경에서 수집된 대량의 영상을 이용해 사전 학습된 것으로, 적어도 하나 이상의 콘볼루션 레이어를 포함할 수 있다.
도 6은 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 음성명령어 인식 모델을 예를 들어 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법의 음성명령어 인식 모델은, 마이크(300)를 통해 입력된 음성 데이터를 노이즈 제거, 필터링 등으로 전처리하고, 전처리 된 음성 데이터에서 특징 맵을 추출한 다음, 추출한 특징을 사용해 시동어(Start Command)와 명령어(Command)를 각각 인식할 수 있다. 여기서, 음성명령어 인식 모델은, RNN, LSTM RNN 등 시퀀셜하게 입력되는 음성 데이터의 처리에 특화된 딥러닝 기법과, 다양한 노이즈와 음성 길이 등의 환경에서 수집된 대량의 음성 데이터를 이용해 사전 학습된 것일 수 있다.
또한, 도 5 및 도 6에 도시된 바와 같이, 각 모델을 구성하는 블록(Block)은 Convolution Layer, Batch Normalization, MaxPooling의 조합으로 이루어질 수 있다.
단계 S200에서는, 증강현실 글라스 장치(10)가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장할 수 있다.
보다 구체적으로, 데이터 수집부(120)는, 데이터를 수집할 수 있는 프로그램을 저장하고, 해당 프로그램을 사용해 특정한 손동작과 음성명령어를 유도하는 가이드를 증강현실 글라스 장치(10)를 통해 제공해, 착용자가 가이드에 따른 손동작을 취하거나 음성을 발화하는 등의 행동을 취하도록 할 수 있다. 이때, 가이드는 추후 상세히 설명할 단계 S300의 추가 학습에 필수적인 손동작 영상과 음성 데이터를 수집하기 위한 것으로, 텍스트, 이미지, 음향, 멀티미디어, 햅틱 등으로 구현될 수 있다.
도 3에 도시된 바와 같이, 데이터 수집부(120)는 획득한 착용자 데이터에서 노이즈를 제거하거나 필터링하는 등의 전처리를 하고, 데이터 검증 절차를 거쳐 증강현실 글라스 장치(10) 내부에 저장할 수 있다. 즉, 네트워크를 통해 서버 등에 착용자 데이터를 전송하지 않으므로, 착용자의 특성 데이터의 유출 위험이 없고 보안을 강화할 수 있다.
단계 S300에서는, 단계 S200에서 수집한 착용자 데이터를 이용해, 단계 S100에서 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트할 수 있다. 여기서, 도 5 및 도 6에 도시된 바와 같이, 가중치 업데이트는 추론의 역방향으로 이루어질 수 있다.
또한, 단계 S300에서는, 착용자 데이터를 학습 데이터셋으로 하여 손동작 인식 모델 및 음성명령어 인식 모델을 학습하며, 범용적으로 사용한 데이터 중에서 필수적인 손동작 및 음성명령어 데이터(이하, 범용 필수 데이터)를 학습 데이터셋에 더 포함하여 사용할 수 있다. 이때, 범용 필수 데이터는 단계 S100에서 손동작 인식 모델 및 음성명령어 인식 모델 저장 시 증강현실 글라스 장치(100)에 함께 저장될 수 있으며, 범용 필수 데이터가 필요할 때 서버로부터 유무선 네트워크를 통해 전송받을 수 있다.
한편, 증강현실 글라스 장치(10)는 GPU 또는 TPU를 지원하는 장비가 아니고, 머리에 착용하는 특성상 크기와 무게를 최소화해야 하므로 높은 컴퓨팅 파워를 갖추기는 어렵기 때문에, 단계 S300의 딥러닝 학습 시간이 오래 걸린다. 따라서 단계 S300에서는, 범용 필수 데이터와 착용자 데이터만으로 학습 데이터셋을 구성해 비교적 적은 양의 데이터로 신속하게 학습을 할 수 있으며, 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회로 할 수 있다. 또한, 단계 S300에서는, 업데이트되는 값을 기본 가중치의 미리 설정된 비율로 낮추어 업데이트할 수 있으며 예를 들어, 가중치 업데이트 값을 기본 가중치의 1/2로 낮추어 모델을 업데이트할 수 있다.
단계 S400에서는, 단계 S100에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 단계 S300의 추가 학습을 통해 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 할 수 있다. 즉, 단계 S400에서, 도 3에 도시된 바와 같이, 인터페이스 교체부(140)는 가중치가 업데이트된 손동작 인식 모델 및 음성명령어 인식 모델을 증강현실 글라스 장치(10)의 I/F 프로그램으로 등록하며, 제어부(400)는 교체 등록된 I/F 프로그램으로 손동작 및 음성명령어 인식을 수행해 입력 인터페이스를 구현할 수 있다. 따라서 착용자에 맞추어 학습된 모델로 인식 모델을 교체하여, 증강현실 글라스 장치(10)에서 향상된 I/F 인식 기능을 사용할 수 있다.
단계 S500에서는, 단계 S400에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 단계 S200 내지 단계 S400를 재수행할 수 있다. 이때, 인식률의 평가는 인식률 평가부(150)에서 수행될 수 있으며, 착용자의 피드백을 통해 평가할 수 있다. 예를 들어, 착용자로부터 인식 만족도를 직접 입력받을 수 있고, 재수행 명령을 입력받을 수도 있으며, 착용자가 손동작 및 음성명령어의 연속 입력을 시도하는 횟수 등을 사용해 인식률 평가를 할 수도 있다. 단계 S500에서 단계 S200 내지 S400을 반복하는 횟수는 1 내지 3회일 수 있다.
단계 S600에서는, 착용자 입력 신호에 따라, 단계 S400에서 교체된 모델을 단계 S100에 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화할 수 있다. 즉, 착용자 요청에 따라 처음 상태로 인식 모델을 초기화할 수 있다.
전술한 바와 같이, 본 발명에서 제안하고 있는 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치에 따르면, 증강현실 글라스 장치(10)를 착용한 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터로, 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 추가 학습해 가중치를 업데이트하여 손동작 및 음성명령어 인식을 수행함으로써, 증강현실 글라스 장치(10) 내에서 특정 상황 또는 특정 착용자에 맞추어 손동작 및 음성명령어 인식 모델의 성능을 높일 수 있고, 착용자 데이터를 서버 등에 송신할 필요가 없으므로 개인 데이터의 보안을 강화할 수 있다.
한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims (8)

  1. 증강현실 글라스 장치(10)의 입력 인터페이스를 위해, 상기 증강현실 글라스 장치(10)에서 각 단계가 수행되는 손동작 및 음성명령어 인식 성능 향상 방법으로서,
    (1) 증강현실 글라스 장치(10)의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 상기 증강현실 글라스 장치(10)에 저장하는 단계;
    (2) 상기 증강현실 글라스 장치(10)가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 단계;
    (3) 상기 단계 (2)에서 수집한 착용자 데이터를 이용해, 상기 단계 (1)에서 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 단계; 및
    (4) 상기 단계 (1)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 상기 단계 (3)의 추가 학습을 통해 상기 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 단계를 포함하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
  2. 제1항에 있어서, 상기 단계 (3)에서는,
    업데이트되는 값을 상기 기본 가중치의 미리 설정된 비율로 낮추어 업데이트하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
  3. 제2항에 있어서, 상기 단계 (3)에서는,
    상기 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
  4. 제1항에 있어서, 상기 단계 (4) 이후에는,
    (5) 상기 단계 (4)에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하고, 인식률이 임계값 미만이면 상기 단계 (2) 내지 단계 (4)를 재수행하는 단계를 더 포함하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
  5. 제1항에 있어서, 상기 단계 (4) 이후에는,
    (6) 착용자 입력 신호에 따라, 상기 단계 (4)에서 교체된 모델을 상기 단계 (1)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델로 초기화하는 단계를 더 포함하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법.
  6. 증강현실 글라스 장치(10)의 입력 인터페이스를 위해, 상기 증강현실 글라스 장치(10)에 탑재되는 손동작 및 음성명령어 인식 성능 향상 장치(100)로서,
    상기 증강현실 글라스 장치(10)의 입력 인터페이스를 위해 딥러닝 알고리즘 기반으로 사전 학습된 손동작 인식 모델 및 음성명령어 인식 모델을 상기 증강현실 글라스 장치(10)에 저장하는 모델 저장부(110);
    상기 증강현실 글라스 장치(10)가 착용자에 착용된 상태에서, 미리 정해진 손동작과 음성명령어를 유도하는 가이드를 제공하고, 제공된 가이드에 따라 착용자의 손동작 영상 데이터 및 음성명령어 신호 데이터로 구성되는 착용자 데이터를 수집하고 저장하는 데이터 수집부(120);
    상기 데이터 수집부(120)에서 수집한 착용자 데이터를 이용해, 상기 모델 저장부(110)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을 딥러닝 알고리즘 기반으로 추가 학습하여 기본 가중치를 착용자 가중치로 업데이트하는 착용자 학습부(130); 및
    상기 모델 저장부(110)에 저장된 손동작 인식 모델 및 음성명령어 인식 모델을, 상기 착용자 학습부(130)의 추가 학습을 통해 상기 착용자 가중치로 업데이트된 모델로 각각 교체 등록하여, 교체된 모델로 손동작 및 음성명령어 인식이 수행되도록 하는 인터페이스 교체부(140)를 포함하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100).
  7. 제6항에 있어서, 상기 착용자 학습부(130)는,
    업데이트되는 값을 상기 기본 가중치의 미리 설정된 비율로 낮추어 업데이트하고, 상기 착용자 데이터에 대한 과적합을 피하기 위해 학습 반복을 1 또는 2회 하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100).
  8. 제6항에 있어서,
    상기 인터페이스 교체부(140)에서 교체된 모델로 수행되는 손동작 및 음성명령어의 인식률을 평가하는 인식률 평가부(150)를 더 포함하며,
    상기 인식률 평가부(150)에서 평가한 인식률이 임계값 미만이면 상기 데이터 수집부(120), 착용자 학습부(130) 및 인터페이스 교체부(140)에 의한 인식 성능 향상 프로세스를 재수행하는 것을 특징으로 하는, 증강현실 글라스 장치(10)의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 장치(100).
PCT/KR2022/005822 2021-06-04 2022-04-24 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치 WO2022255641A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0073070 2021-06-04
KR1020210073070A KR102539047B1 (ko) 2021-06-04 2021-06-04 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2022255641A1 true WO2022255641A1 (ko) 2022-12-08

Family

ID=84324221

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/005822 WO2022255641A1 (ko) 2021-06-04 2022-04-24 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102539047B1 (ko)
WO (1) WO2022255641A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079651A (zh) * 2023-10-08 2023-11-17 中国科学技术大学 一种基于大规模语言模型的语音交叉实时增强现实方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102667192B1 (ko) * 2023-07-04 2024-05-22 주식회사 피앤씨솔루션 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치 및 그의 운용 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101502085B1 (ko) * 2013-10-04 2015-03-12 주식회사 매크론 안경형 디스플레이 디바이스의 동작인식 입력방법
KR20160146594A (ko) * 2015-06-12 2016-12-21 (주)인시그널 스마트 글래스 및 이를 위한 손 제스처 명령 처리 방법
KR20190081248A (ko) * 2017-12-29 2019-07-09 삼성전자주식회사 음성 인식 모델의 개인화 방법 및 장치
KR20200063330A (ko) * 2018-11-21 2020-06-05 한국과학기술원 메타학습에 기반한 임의의 목표 데이터셋과 모델 구조로의 전이학습 방법 및 시스템
KR20200069955A (ko) * 2018-12-07 2020-06-17 테크빌교육 주식회사 사용자의 손동작을 인식하는 장치 및 이를 이용한 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100948600B1 (ko) * 2006-12-04 2010-03-24 한국전자통신연구원 제스처/음성 융합 인식 시스템 및 방법
KR20210069491A (ko) * 2019-12-03 2021-06-11 삼성전자주식회사 전자 장치 및 이의 제어 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101502085B1 (ko) * 2013-10-04 2015-03-12 주식회사 매크론 안경형 디스플레이 디바이스의 동작인식 입력방법
KR20160146594A (ko) * 2015-06-12 2016-12-21 (주)인시그널 스마트 글래스 및 이를 위한 손 제스처 명령 처리 방법
KR20190081248A (ko) * 2017-12-29 2019-07-09 삼성전자주식회사 음성 인식 모델의 개인화 방법 및 장치
KR20200063330A (ko) * 2018-11-21 2020-06-05 한국과학기술원 메타학습에 기반한 임의의 목표 데이터셋과 모델 구조로의 전이학습 방법 및 시스템
KR20200069955A (ko) * 2018-12-07 2020-06-17 테크빌교육 주식회사 사용자의 손동작을 인식하는 장치 및 이를 이용한 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079651A (zh) * 2023-10-08 2023-11-17 中国科学技术大学 一种基于大规模语言模型的语音交叉实时增强现实方法
CN117079651B (zh) * 2023-10-08 2024-02-23 中国科学技术大学 一种基于大规模语言模型的语音交叉实时增强现实方法

Also Published As

Publication number Publication date
KR20220164377A (ko) 2022-12-13
KR102539047B1 (ko) 2023-06-02

Similar Documents

Publication Publication Date Title
WO2022255641A1 (ko) 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치
WO2020162673A1 (en) Electronic device for providing avatar animation and method thereof
WO2018070780A1 (en) Electronic device and method for controlling the same
WO2021261696A1 (en) Visual object instance segmentation using foreground-specialized model imitation
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
WO2022045486A1 (ko) 발화 동영상 생성 방법 및 장치
WO2022014800A1 (ko) 발화 동영상 생성 방법 및 장치
WO2021153971A1 (ko) 비식별화된 이미지를 이용한 신경망 학습 방법 및 이를 제공하는 서버
WO2022014790A1 (en) Guided backpropagation-gradient updating for image processing task using redundant information from image
WO2021172832A1 (ko) 제스처 인식 기반의 영상 편집 방법 및 이를 지원하는 전자 장치
WO2022045485A1 (ko) 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
WO2021066392A2 (ko) 골프 스윙에 관한 정보를 추정하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2020055189A1 (en) Device and method for dynamic cluster personalization
WO2022145611A1 (ko) 전자 장치 및 그 제어 방법
WO2019164145A1 (ko) 전자 장치 및 그의 자세 교정 방법
WO2020141907A1 (ko) 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법
WO2020050550A1 (en) Methods and systems for performing editing operations on media
WO2021256702A1 (ko) 전자 장치 및 이의 제어 방법
EP3707646A1 (en) Electronic apparatus and control method thereof
WO2022019355A1 (ko) 다중 페이즈 생체 이미지를 이용하여 학습된 뉴럴 네트워크를 이용한 질병 진단 방법 및 이를 수행하는 질병 진단 시스템
WO2020171574A1 (en) System and method for ai enhanced shutter button user interface
WO2021261688A1 (ko) 감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법
WO2021015403A1 (en) Electronic apparatus and controlling method thereof
WO2022255642A1 (ko) 증강현실 글라스 장치의 실시간 손동작 인터페이스 구현을 위한 경량화된 손 관절 예측 방법 및 장치
WO2023219254A1 (ko) 증강현실 글래스 장치의 손 거리 추정 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22816300

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22816300

Country of ref document: EP

Kind code of ref document: A1