WO2023219254A1 - 증강현실 글래스 장치의 손 거리 추정 방법 및 장치 - Google Patents

증강현실 글래스 장치의 손 거리 추정 방법 및 장치 Download PDF

Info

Publication number
WO2023219254A1
WO2023219254A1 PCT/KR2023/003632 KR2023003632W WO2023219254A1 WO 2023219254 A1 WO2023219254 A1 WO 2023219254A1 KR 2023003632 W KR2023003632 W KR 2023003632W WO 2023219254 A1 WO2023219254 A1 WO 2023219254A1
Authority
WO
WIPO (PCT)
Prior art keywords
hand
distance
augmented reality
coordinates
palm area
Prior art date
Application number
PCT/KR2023/003632
Other languages
English (en)
French (fr)
Inventor
최치원
김정환
Original Assignee
주식회사 피앤씨솔루션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 피앤씨솔루션 filed Critical 주식회사 피앤씨솔루션
Publication of WO2023219254A1 publication Critical patent/WO2023219254A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/014Hand-worn input/output arrangements, e.g. data gloves
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H10SEMICONDUCTOR DEVICES; ELECTRIC SOLID-STATE DEVICES NOT OTHERWISE PROVIDED FOR
    • H10KORGANIC ELECTRIC SOLID-STATE DEVICES
    • H10K59/00Integrated devices, or assemblies of multiple devices, comprising at least one organic light-emitting element covered by group H10K50/00
    • H10K59/40OLEDs integrated with touch screens

Definitions

  • the present invention relates to a method and device for estimating hand distance in an augmented reality glasses device, and more specifically, to a method and device for estimating the distance to the hand through hand joint recognition from a single camera image in an augmented reality glass device.
  • a head mounted display a type of wearable device, refers to a variety of devices that a user can wear on their head to receive multimedia content.
  • the head mounted display (HMD) is worn on the user's body and provides images to the user in various environments as the user moves.
  • HMDs head-mounted displays
  • the see-through type is mainly used for Augmented Reality (AR)
  • the closed type is mainly used for virtual reality (VR). It is used for Virtual Reality (VR).
  • Input methods that can be used in augmented reality of a head-mounted display device may include buttons provided on the HMD, a separate input device connected to the HMD, or gesture recognition. Among them, gesture recognition can be said to be a suitable input method that can be used in augmented reality on head-mounted displays.
  • depth cameras are sometimes used to recognize 3D hand gestures in augmented reality glasses.
  • Depth cameras include IR and ToF cameras, and the laser light source used in this case consumes considerable power.
  • augmented reality glasses are worn on the head, lightweighting is important, so the battery capacity cannot be increased significantly, so the battery capacity is limited, so it is difficult to continue using the depth camera for hand gesture recognition.
  • Registered Patent No. 10-2286018 (title of the invention: a wearable augmented reality device that inputs mouse events using hand movements and a mouse event input method of a wearable augmented reality device using hand movements, Registration date: July 29, 2021) has been launched.
  • the present invention was proposed to solve the above-mentioned problems of previously proposed methods, by extracting the coordinates of hand joints from hand images captured by a camera and calculating the palm area using the coordinates of the joints constituting the palm. , By estimating the distance to the hand through changes in the palm area, depth information can be acquired using images from a general visible light camera and 3D hand gestures can be recognized, and user interaction in content is possible through the recognized 3D hand gestures.
  • the purpose is to provide a hand distance estimation method and device for an augmented reality glass device that can minimize power consumption and enable smooth user interaction.
  • a method of estimating the distance to the hand of the augmented reality glass device comprising:
  • step (1) (2) recognizing a reference hand gesture requiring distance information using the coordinates of the hand joint extracted in step (1);
  • step (3) setting the frame in which the reference hand gesture was recognized in step (2) as a reference time
  • It is characterized in that it includes a step of estimating the distance to the hand through a change in the palm area based on the palm area at the reference time.
  • step (4) Preferably, in step (4),
  • the palm area can be calculated using the coordinates of the joints where the wrist connects to the back of the hand and the joints where each finger connects to the back of the hand.
  • step (1) the coordinates of 21 hand joints are extracted
  • the palm area can be calculated using the seven coordinates that make up the palm among the coordinates of the 21 hand joints.
  • step (5) Preferably, in step (5),
  • the ratio of the palm area at the current time to the palm area at the reference time is calculated, and the distance to the hand can be estimated from the calculated ratio using a deep learning model that estimates the distance to the hand based on the ratio of the palm area. there is.
  • step (5) More preferably, in step (5),
  • the distance to the hand can be estimated.
  • the hand distance estimation device for the augmented reality glass device according to the characteristics of the present invention to achieve the above object is,
  • a hand distance estimation device for an augmented reality glass device that estimates the distance to the hand through hand joint recognition from a single camera image of the augmented reality glass device
  • a coordinate extraction unit that extracts coordinates of hand joints in real time from a hand image captured by a camera of the augmented reality glass device
  • a hand gesture recognition unit that recognizes a reference hand gesture requiring distance information using the coordinates of the hand joint extracted from the coordinate extraction unit;
  • a reference setting unit that sets a frame in which the reference hand gesture is recognized by the hand gesture recognition unit as a reference time
  • an area calculation unit that calculates the palm area using the coordinates of the joints constituting the palm among the coordinates of the hand joints from the reference time;
  • Its structural feature includes a distance estimation unit that estimates the distance to the hand through a change in the palm area based on the palm area at the reference time.
  • the distance estimator calculates the distance estimate of the distance estimator.
  • the ratio of the palm area at the current time to the palm area at the reference time is calculated, and the distance to the hand can be estimated from the calculated ratio using a deep learning model that estimates the distance to the hand based on the ratio of the palm area. there is.
  • the distance estimator More preferably, the distance estimator,
  • the distance to the hand can be estimated.
  • the coordinates of the hand joints are extracted from the hand image captured by the camera, and the palm area is calculated using the coordinates of the joints constituting the palm,
  • 3D hand gestures can be recognized by acquiring depth information using images from a general visible light camera, and user interaction in content is possible through the recognized 3D hand gestures. This allows for smooth user interaction while minimizing power consumption.
  • Figure 1 is a diagram showing the configuration of a hand distance estimation device for an augmented reality glasses device according to an embodiment of the present invention.
  • Figure 2 is a diagram showing the overall configuration of an augmented reality glasses device including a hand distance estimation device of the augmented reality glasses device according to an embodiment of the present invention.
  • Figure 3 is a diagram illustrating the flow of a hand distance estimation method for an augmented reality glasses device according to an embodiment of the present invention.
  • Figure 4 is a diagram showing the algorithm structure of a hand distance estimation method for an augmented reality glasses device according to an embodiment of the present invention.
  • Figure 5 is a diagram showing hand joints for extracting coordinates in step S110 of the hand distance estimation method for the augmented reality glasses device according to an embodiment of the present invention.
  • Figure 6 is a diagram illustrating, as an example, the palm area calculated in step S140 of the hand distance estimation method for the augmented reality glasses device according to an embodiment of the present invention.
  • Figure 7 is a diagram illustrating the change in palm area as an example in step S150 of the hand distance estimation method for the augmented reality glasses device according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating control of the augmented reality glasses device using hand gestures in the method for estimating the hand distance of the augmented reality glasses device according to an embodiment of the present invention.
  • Figure 1 is a diagram showing the configuration of a hand distance estimation device 100 of an augmented reality glasses device according to an embodiment of the present invention.
  • the hand distance estimation device 100 of the augmented reality glasses device according to an embodiment of the present invention estimates the distance to the hand through hand joint recognition from the single camera image of the augmented reality glasses device.
  • a hand distance estimation device 100 for an augmented reality glasses device comprising: a coordinate extraction unit 110 that extracts coordinates of hand joints in real time from a hand image captured by a camera of the augmented reality glasses device; A hand gesture recognition unit 120 that recognizes a reference hand gesture requiring distance information using the coordinates of the hand joint extracted from the coordinate extraction unit 110; a reference setting unit 130 that sets the frame in which the reference hand gesture is recognized in the hand gesture recognition unit 120 as the reference time; An area calculation unit 140 that calculates the palm area using the coordinates of the joints constituting the palm among the coordinates of the hand joints from the reference time; and a distance estimator 150 that estimates the distance to the hand through a change in the palm area based on the palm area at the reference time.
  • the distance estimator 150 calculates the ratio of the palm area at the current time to the palm area at the reference time, and calculates the ratio using a deep learning model that estimates the distance to the hand based on the ratio of the palm area.
  • the distance to the hand can be estimated from the ratio.
  • the distance estimation unit 150 can estimate the distance to the hand when the calculated ratio is in the range of greater than 0 and less than or equal to 1.
  • FIG. 2 is a diagram showing the overall configuration of the augmented reality glasses device 10 including the hand distance estimation device 100 of the augmented reality glasses device 10 according to an embodiment of the present invention.
  • the augmented reality glasses device 10 may be configured to include a hand distance estimation device 100, a camera unit 200, and an optical display unit.
  • the camera unit 200 may be configured as a general visible light camera provided to face the wearer's viewing direction. More specifically, the camera unit 200 can acquire a hand image by photographing the wearer's hand from the front of the augmented reality glass device 10.
  • the hand image is a general two-dimensional image and may be in the form of a video composed of a plurality of frames.
  • the hand image acquired by the camera unit 200 is transmitted to the hand distance estimation device 100, and the distance to the hand captured in the hand image can be estimated, and based on this, depth information (augmented reality glasses device 10) It can recognize 3D hand gestures that reflect the distance from the hand to the object and apply it to the user's interaction with the object.
  • the optical display unit 300 is disposed in front of both eyes of the wearer and can provide augmented reality to the wearer by transmitting at least a portion of the image light output from the display 310 toward the wearer's eyes. That is, the optical display unit 300 is a component corresponding to AR or XR (eXtended Reality) glasses of the augmented reality glass device 10, and as shown in FIG. 2, the display 310 and the optical system 320 It may be configured to include.
  • AR or XR extended Reality
  • the display 310 may output image light so that image information can be provided to the wearer. More specifically, the display 310 is coupled to the optical system 320, which will be described in detail below, so that image information can be provided to the wearer, and outputs image light transmitted by the optical system 320 toward the wearer's eyes. And, it may be composed of a pair of displays 310 for binocular display 310.
  • the display 310 may be configured in various ways, such as OLED or Liquid Crystal on Silicon (LCoS).
  • the optical system 320 is disposed in front of both eyes of the wearer wearing the augmented reality glass device 10 and can provide augmented reality by combining real world light and image light. More specifically, the optical system 320 transmits at least a portion of the light of the real world through the wearer's field of view and transmits the image light output from the display 310 toward the wearer's eyes to provide augmented reality. can do. That is, the optical system 320 may be configured so that a wearer wearing the augmented reality glasses device 10 can experience augmented reality.
  • the optical system 320 is composed of a plurality of lenses and mirrors and can be implemented in various ways, for example, an optical diffraction method, a beam splitter method, a pin mirror method, etc.
  • FIG. 3 is a diagram illustrating the flow of a hand distance estimation method for the augmented reality glasses device 10 according to an embodiment of the present invention.
  • each step is performed in the augmented reality glasses device 10, and hand joints are estimated from a single camera image.
  • a hand distance estimation method for the augmented reality glass device 10 that estimates the distance to the hand through recognition, including extracting coordinates of hand joints in real time from a hand image (S110), and recognizing a reference hand motion for which distance information is required.
  • step (S120) setting the frame in which the reference hand motion was recognized as the reference time (S130), calculating the palm area using the coordinates of the joints constituting the palm (S140), and changing the palm area to the hand. It can be implemented including the step of estimating the distance (S150).
  • FIG. 4 is a diagram showing the algorithm structure of a hand distance estimation method for the augmented reality glasses device 10 according to an embodiment of the present invention.
  • each step of the hand distance estimation method of the augmented reality glasses device 10 according to an embodiment of the present invention will be described in detail with reference to FIGS. 3 and 4.
  • step S110 the coordinates of the hand joints can be extracted in real time from the hand image captured by the camera of the augmented reality glass device 10. More specifically, as shown in FIG. 4, in step S110, a feature map is extracted from a hand image captured by the camera unit 200 using Base Net, an artificial intelligence model that extracts a feature map, and the feature map is extracted from the hand image captured by the camera unit 200. You can extract the coordinates of hand joints by inputting the extracted feature map into Keypoints Net, an artificial intelligence model that extracts key-points from the map.
  • ResNet, Inception, MobileNet, etc. can be used as the Base Net.
  • Keypoints Net can be composed of a regression model that derives the 21 (x,y) coordinates that make up the hand through a combination of a convolution layer and a dense layer.
  • the Base Net and Keypoints Net can be integrated and learned to form a single hand joint extraction model.
  • Figure 5 is a diagram showing hand joints for which coordinates are extracted in step S110 of the hand distance estimation method of the augmented reality glasses device 10 according to an embodiment of the present invention. As shown in FIG. 5, in step S110 of the hand distance estimation method for the augmented reality glasses device 10 according to an embodiment of the present invention, the coordinates of 21 hand joints can be extracted.
  • step S120 a reference hand motion requiring distance information can be recognized using the coordinates of the hand joint extracted in step S110. That is, in step S120, the 21 hand joint coordinates extracted in step S110 are input into the Classification Net to classify the hand motion, thereby determining whether the hand image captured in the hand image corresponds to a preset reference hand motion.
  • the hand distance can be estimated when the wearer makes a specific reference hand gesture.
  • the reference hand motion is a hand motion that starts a gesture that requires depth information (distance information to the hand), and may be a starting motion in which the wearer moves his/her hand in the direction of the object for interaction with the object in augmented reality or extended reality content.
  • the specific hand gestures can be set in advance. For example, the wearer can make a reference hand gesture by spreading the hand so that the back of the hand is visible, holding it in front of the eye, and looking at it for a predetermined period of time.
  • the standard hand gesture may vary depending on the type of interaction, user settings, etc.
  • step S130 the frame in which the reference hand gesture is recognized in step S120 can be set as the reference time. That is, if the reference hand gesture is recognized in step S120, it corresponds to a gesture that requires estimating the distance to the hand, so in step S130, the moment when the reference hand gesture is recognized can be set as a reference for estimating the distance.
  • the palm area can be calculated using the coordinates of the joints constituting the palm among the coordinates of the hand joints from the reference time. That is, after recognizing the reference hand gesture in step S130, the palm area can be calculated as the hand moves in the depth direction.
  • the hand closer to the augmented reality glass device 10 is photographed larger, and the farther away the hand is from the augmented reality glass device 10, the smaller the hand is photographed.
  • the finger portion changes significantly depending on the hand movement, but the point corresponding to the palm is less sensitive to the change in movement.
  • a deep learning model that estimates the distance from the augmented reality glass device 10 to the hand in proportion to the palm area can be created through learning.
  • the palm area can be calculated using the coordinates of the joint where the wrist is connected to the back of the hand and the joint where each finger is connected to the back of the hand. That is, in step S140, the area of the palm can be calculated using the coordinates of 7 joints 0, 1, 2, 5, 9, 13, and 17 that make up the palm, among 21 joints as shown in FIG. 5.
  • FIG. 6 is a diagram illustrating, as an example, the palm area calculated in step S140 of the hand distance estimation method of the augmented reality glasses device 10 according to an embodiment of the present invention.
  • the palm is configured with the coordinates of the seven joints that constitute the palm with respect to the reference hand motion. (red polygon), the area can be derived using image processing techniques.
  • step S150 the distance to the hand can be estimated through changes in the palm area based on the palm area at the reference time. More specifically, in step S150, the ratio of the palm area at the current time to the palm area at the reference time is calculated, and a deep learning model that estimates the distance to the hand based on the ratio of the palm area is used to estimate the distance to the hand from the calculated ratio. The distance can be estimated.
  • step S150 the area of the palm (Area of Ref. Palm) at the reference time at which the reference hand gesture was recognized is used as the denominator, and when the hand is moved in the depth direction after the reference time, the current palm area (Area of Cur. Palm) as the numerator, the ratio can be calculated as shown in Equation 1 below.
  • FIG. 7 is a diagram illustrating the change in palm area as an example in step S150 of the hand distance estimation method for the augmented reality glasses device 10 according to an embodiment of the present invention.
  • the wearer makes a reference hand gesture in front of the eyes and then moves the hand away in the depth direction.
  • the ratio of the palm area at the reference time as shown on the left side of FIG. 7 and the palm area at the current time after movement as shown on the right side of FIG. 7 can be calculated. At this time, the calculated ratio may range from 0 to 1.
  • FIG. 8 is a diagram illustrating the control of the augmented reality glasses device 10 using hand gestures in the method for estimating the hand distance of the augmented reality glasses device 10 according to an embodiment of the present invention.
  • the wearer's hand is connected to the object. You have to get closer. That is, Figure 8 shows that an object and a hand gradually become closer from the top picture to the bottom picture over time, and most user interactions occur in this case.
  • step S150 the ratio calculated in step S140 is input into the distance estimation model learned based on deep learning, and the distance to the hand output from the distance estimation model can be predicted.
  • the predicted distance to the hand is depth information and can be combined with the coordinates of the hand joint extracted in step S110 to recognize 3D hand gestures.
  • the coordinates of the hand joints are extracted from the hand image captured by the camera, and the coordinates of the joints constituting the palm are extracted.
  • 3D hand gestures can be recognized by acquiring depth information using images from a general visible light camera, and the recognized 3D hand gestures can be This allows user interaction with content, ensuring smooth user interaction while minimizing power consumption.
  • the present invention may include a computer-readable medium containing program instructions for performing operations implemented in various communication terminals.
  • computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD_ROM and DVD, and floptical disks. It may include magneto-optical media and hardware devices specifically configured to store and perform program instructions, such as ROM, RAM, flash memory, etc.
  • Such computer-readable media may include program instructions, data files, data structures, etc., singly or in combination.
  • program instructions recorded on a computer-readable medium may be specially designed and configured to implement the present invention, or may be known and available to those skilled in the computer software art.
  • it may include not only machine language code such as that produced by a compiler, but also high-level language code that can be executed by a computer using an interpreter, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Optics & Photonics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명에서 제안하고 있는 증강현실 글래스 장치의 손 거리 추정 방법 및 장치에 따르면, 카메라에서 촬영되는 손 영상으로부터 손 관절의 좌표를 추출하고, 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하여, 손바닥 면적의 변화를 통해 손까지의 거리를 추정함으로써, 일반 가시광선 카메라의 영상을 이용해 깊이 정보를 획득하여 3차원 손동작을 인식할 수 있으며, 인식된 3차원 손동작을 통해 콘텐츠에서 사용자 상호작용을 할 수 있으므로 전력 소비를 최소화하면서도 원활하게 사용자 상호작용을 할 수 있다.

Description

증강현실 글래스 장치의 손 거리 추정 방법 및 장치
본 발명은 증강현실 글래스 장치의 손 거리 추정 방법 및 장치에 관한 것으로서, 보다 구체적으로는 증강현실 글래스 장치에서 싱글 카메라 영상으로부터 손 관절 인식을 통해 손까지의 거리를 추정하는 방법 및 장치에 관한 것이다.
디지털 디바이스의 경량화 및 소형화 추세에 따라 다양한 웨어러블 디바이스(wearable device)들이 개발되고 있다. 이러한 웨어러블 디바이스의 일종인 헤드 마운티드 디스플레이(Head Mounted Display)는 사용자가 머리에 착용하여 멀티미디어 컨텐츠 등을 제공받을 수 있는 각종 디바이스를 의미한다. 여기서 헤드 마운티드 디스플레이(HMD)는 사용자의 신체에 착용 되어 사용자가 이동함에 따라서 다양한 환경에서 사용자에게 영상을 제공하게 된다. 이러한 머리 착용형 디스플레이(HMD)는 투과(see-through)형과 밀폐(see-closed)형으로 구분되고 있으며, 투과형은 주로 증강현실(Augmented Reality, AR)용으로 사용되고, 밀폐형은 주로 가상현실(Virtual Reality, VR)용으로 사용되고 있다.
이러한 머리 착용형 디스플레이 장치는 기존의 터치스크린과 같은 입력 방식을 사용하기 어려우므로, 사용자 상호작용을 위한 최적화된 입력 방식이 필요하다. 머리 착용형 디스플레이 장치의 증강현실에서 사용할 수 있는 입력 방식으로, HMD에 구비된 버튼이나 HMD와 연결된 별도의 입력 장치, 제스처 인식 등이 있을 수 있다. 그중에서 제스처 인식은, 헤드 마운티드 디스플레이의 증강현실에서 사용할 수 있는 적합한 입력 방식이라고 할 수 있다.
증강현실 글래스에서 구현되는 증강현실, 확장현실(eXpended Reality, XR) 콘텐츠에서 제스처 인식을 사용해 객체와 상호작용하기 위해서는, 깊이 정보가 포함된 3차원의 손동작을 인식해야 한다. 그러나 일반적인 가시광선 카메라로 제스처를 인식하면 2차원 정보만 획득할 수 있다.
따라서 증강현실 글래스에서 3차원 손동작 인식을 위해서 뎁스 카메라를 이용하기도 한다. 뎁스 카메라로는 IR, ToF 카메라 등을 사용하는데, 이때 사용되는 레이저 광원은 상당한 전력이 소비된다. 그런데 증강현실 글래스는 머리에 착용하는 특성상 경량화가 중요해 배터리 용량을 크게 늘릴 수 없어서 배터리 용량이 제한되므로, 손동작 인식을 위해 뎁스 카메라를 계속해서 사용하기에는 무리가 있다.
따라서 전력 소비를 최소화하면서도 증강현실 또는 확장현실 콘텐츠에서의 원활한 사용자 상호작용을 위해, 일반 가시광선 카메라로 3차원 손동작을 인식할 수 있는 기술의 개발이 필요하다.
한편, 본 발명과 관련된 선행기술로, 등록특허 제10-2286018호(발명의 명칭: 손동작을 이용해 마우스 이벤트를 입력하는 착용형 증강현실 장치 및 손동작을 이용한 착용형 증강현실 장치의 마우스 이벤트 입력 방법, 등록일자: 2021년 07월 29일) 등이 개시된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 카메라에서 촬영되는 손 영상으로부터 손 관절의 좌표를 추출하고, 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하여, 손바닥 면적의 변화를 통해 손까지의 거리를 추정함으로써, 일반 가시광선 카메라의 영상을 이용해 깊이 정보를 획득하고 3차원 손동작을 인식할 수 있으며, 인식된 3차원 손동작을 통해 콘텐츠에서 사용자 상호작용을 할 수 있으므로 전력 소비를 최소화하면서도 원활하게 사용자 상호작용을 할 수 있는, 증강현실 글래스 장치의 손 거리 추정 방법 및 장치를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 증강현실 글래스 장치의 손 거리 추정 방법은,
증강현실 글래스 장치에서 각 단계가 수행되며, 싱글 카메라 영상으로부터 손 관절 인식을 통해 손까지의 거리를 추정하는, 증강현실 글래스 장치의 손 거리 추정 방법으로서,
(1) 상기 증강현실 글래스 장치의 카메라에서 촬영되는 손 영상으로부터 실시간으로 손 관절의 좌표를 추출하는 단계;
(2) 상기 단계 (1)에서 추출한 손 관절의 좌표를 사용해 거리 정보가 필요한 기준 손동작을 인식하는 단계;
(3) 상기 단계 (2)에서 상기 기준 손동작이 인식된 프레임을 기준 시각으로 설정하는 단계;
(4) 상기 기준 시각부터 상기 손 관절의 좌표 중에서 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하는 단계; 및
(5) 상기 기준 시각의 손바닥 면적을 기준으로 손바닥 면적의 변화를 통해 손까지의 거리를 추정하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (4)에서는,
손목이 손등과 연결되는 관절 및 각 손가락이 손등과 연결되는 관절의 좌표를 이용해 손바닥 면적을 계산할 수 있다.
바람직하게는,
상기 단계 (1)에서는, 21개의 손 관절의 좌표를 추출하고,
상기 단계 (4)에서는, 상기 21개의 손 관절의 좌표 중 손바닥을 구성하는 7개의 좌표로 상기 손바닥 면적을 계산할 수 있다.
바람직하게는, 상기 단계 (5)에서는,
상기 기준 시각의 손바닥 면적에 대한 현재 시각의 손바닥 면적의 비율을 계산하며, 손바닥 면적의 비율로 손까지의 거리를 추정하는 딥러닝 모델을 사용해, 상기 계산한 비율로부터 손까지의 거리를 추정할 수 있다.
더욱 바람직하게는, 상기 단계 (5)에서는,
상기 계산한 비율이 0 초과 1 이하의 범위일 때, 상기 손까지의 거리를 추정할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 증강현실 글래스 장치의 손 거리 추정 장치는,
증강현실 글래스 장치의 싱글 카메라 영상으로부터 손 관절 인식을 통해 손까지의 거리를 추정하는, 증강현실 글래스 장치의 손 거리 추정 장치로서,
상기 증강현실 글래스 장치의 카메라에서 촬영되는 손 영상으로부터 실시간으로 손 관절의 좌표를 추출하는 좌표 추출부;
상기 좌표 추출부에서 추출한 손 관절의 좌표를 사용해 거리 정보가 필요한 기준 손동작을 인식하는 손동작 인식부;
상기 손동작 인식부에서 상기 기준 손동작이 인식된 프레임을 기준 시각으로 설정하는 기준 설정부;
상기 기준 시각부터 상기 손 관절의 좌표 중에서 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하는 면적 산출부; 및
상기 기준 시각의 손바닥 면적을 기준으로 손바닥 면적의 변화를 통해 손까지의 거리를 추정하는 거리 추정부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 거리 추정부는,
상기 기준 시각의 손바닥 면적에 대한 현재 시각의 손바닥 면적의 비율을 계산하며, 손바닥 면적의 비율로 손까지의 거리를 추정하는 딥러닝 모델을 사용해, 상기 계산한 비율로부터 손까지의 거리를 추정할 수 있다.
더욱 바람직하게는, 상기 거리 추정부는,
상기 계산한 비율이 0 초과 1 이하의 범위일 때, 상기 손까지의 거리를 추정할 수 있다.
본 발명에서 제안하고 있는 증강현실 글래스 장치의 손 거리 추정 방법 및 장치에 따르면, 카메라에서 촬영되는 손 영상으로부터 손 관절의 좌표를 추출하고, 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하여, 손바닥 면적의 변화를 통해 손까지의 거리를 추정함으로써, 일반 가시광선 카메라의 영상을 이용해 깊이 정보를 획득하여 3차원 손동작을 인식할 수 있으며, 인식된 3차원 손동작을 통해 콘텐츠에서 사용자 상호작용을 할 수 있으므로 전력 소비를 최소화하면서도 원활하게 사용자 상호작용을 할 수 있다.
도 1은 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 장치의 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 장치를 포함하는 증강현실 글래스 장치의 전체 구성을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 방법의 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 방법의 알고리즘 구조를 도시한 도면.
도 5는 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 방법의 단계 S110에서 좌표를 추출하는 손 관절을 나타낸 도면.
도 6은 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 방법의 단계 S140에서 계산하는 손바닥 면적을 예를 들어 도시한 도면.
도 7은 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 방법의 단계 S150에서, 손바닥 면적의 변화를 예를 들어 도시한 도면.
도 8은 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 방법에서, 손동작을 활용한 증강현실 글래스 장치의 제어를 설명하기 위해 도시한 도면.
<부호의 설명>
10: 증강현실 글래스 장치
100: 손 거리 추정 장치
110: 좌표 추출부
120: 손동작 인식부
130: 기준 설정부
140: 면적 산출부
150: 거리 추정부
200: 카메라부
300: 광학 디스플레이부
310: 디스플레이
320: 광학계
S110: 손 영상으로부터 실시간으로 손 관절의 좌표를 추출하는 단계
S120: 거리 정보가 필요한 기준 손동작을 인식하는 단계
S130: 기준 손동작이 인식된 프레임을 기준 시각으로 설정하는 단계
S140: 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하는 단계
S150: 손바닥 면적의 변화를 통해 손까지의 거리를 추정하는 단계
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 장치(100)의 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글래스 장치의 손 거리 추정 장치(100)는, 증강현실 글래스 장치의 싱글 카메라 영상으로부터 손 관절 인식을 통해 손까지의 거리를 추정하는, 증강현실 글래스 장치의 손 거리 추정 장치(100)로서, 증강현실 글래스 장치의 카메라에서 촬영되는 손 영상으로부터 실시간으로 손 관절의 좌표를 추출하는 좌표 추출부(110); 좌표 추출부(110)에서 추출한 손 관절의 좌표를 사용해 거리 정보가 필요한 기준 손동작을 인식하는 손동작 인식부(120); 손동작 인식부(120)에서 기준 손동작이 인식된 프레임을 기준 시각으로 설정하는 기준 설정부(130); 기준 시각부터 손 관절의 좌표 중에서 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하는 면적 산출부(140); 및 기준 시각의 손바닥 면적을 기준으로 손바닥 면적의 변화를 통해 손까지의 거리를 추정하는 거리 추정부(150)를 포함하여 구성될 수 있다.
보다 구체적으로, 거리 추정부(150)는, 기준 시각의 손바닥 면적에 대한 현재 시각의 손바닥 면적의 비율을 계산하며, 손바닥 면적의 비율로 손까지의 거리를 추정하는 딥러닝 모델을 사용해, 계산한 비율로부터 손까지의 거리를 추정할 수 있다. 또한, 거리 추정부(150)는, 계산한 비율이 0 초과 1 이하의 범위일 때, 손까지의 거리를 추정할 수 있다.
도 2는 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 장치(100)를 포함하는 증강현실 글래스 장치(10)의 전체 구성을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)는, 손 거리 추정 장치(100), 카메라부(200) 및 광학 디스플레이부를 포함하여 구성될 수 있다.
카메라부(200)는, 착용자의 시야 방향을 향하도록 구비된 일반 가시광선 카메라로 구성될 수 있다. 보다 구체적으로, 카메라부(200)는 증강현실 글래스 장치(10)의 전면에서 착용자의 손을 촬영해 손 영상을 획득할 수 있다. 여기서, 카메라부(200)는 일반 가시광선 카메라로 구성되므로 손 영상은 일반적인 2차원 영상이며, 복수의 프레임으로 구성되는 동영상 형태일 수 있다. 카메라부(200)에서 획득한 손 영상은 손 거리 추정 장치(100)에 전달되어, 손 영상에 촬영된 손까지의 거리를 추정할 수 있으며, 이를 기초로 깊이 정보(증강현실 글래스 장치(10)에서 손까지의 거리)가 반영된 3차원 손동작을 인식하고, 객체와 사용자의 상호작용에 적용할 수 있다.
광학 디스플레이부(300)는, 착용자의 양안의 전방에 배치되고, 디스플레이(310)에서 출력되는 영상 광의 적어도 일부를 착용자의 눈 방향으로 전달하여 착용자에게 증강현실을 제공할 수 있다. 즉, 광학 디스플레이부(300)는 증강현실 글래스 장치(10)의 AR 또는 XR(eXtended Reality, 확장 현실) 글라스에 해당하는 구성으로서, 도 2에 도시된 바와 같이 디스플레이(310) 및 광학계(320)를 포함하여 구성될 수 있다.
디스플레이(310)는, 영상 정보가 착용자에게 제공될 수 있도록 영상 광을 출력할 수 있다. 보다 구체적으로, 디스플레이(310)는, 영상 정보가 착용자에게 제공될 수 있도록, 이하에서 상세히 설명할 광학계(320)에 결합해, 광학계(320)에 의해 착용자의 눈 방향으로 전달되는 영상 광을 출력하며, 양안 디스플레이(310)를 위해 한 쌍의 디스플레이(310)로 구성될 수 있다. 디스플레이(310)는 OLED, LCoS(Liquid Crystal on Silicon) 등 다양하게 구성될 수 있다.
광학계(320)는, 증강현실 글래스 장치(10)를 착용한 착용자의 양안의 전방에 배치되어 실제 세계의 광과 영상 광의 결합에 의한 증강현실을 제공할 수 있다. 보다 구체적으로, 광학계(320)는, 착용자의 시야를 통한 실제 세계(real world)의 광의 적어도 일부를 투과시키고, 디스플레이(310)에서 출력되는 영상 광을 착용자의 눈 방향으로 전달하여 증강현실을 제공할 수 있다. 즉, 광학계(320)는 증강현실 글래스 장치(10)를 착용한 착용자가 증강현실을 경험할 수 있도록 구성될 수 있다.
또한, 광학계(320)는 복수의 렌즈와 미러 등으로 구성되며 다양한 방식으로 구현될 수 있는데, 예를 들어 광학 회절 방식, 빔 스플리터 방식, 핀 미러 방식 등으로 구현될 수 있다.
도 3은 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법의 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법은, 증강현실 글래스 장치(10)에서 각 단계가 수행되며, 싱글 카메라 영상으로부터 손 관절 인식을 통해 손까지의 거리를 추정하는, 증강현실 글래스 장치(10)의 손 거리 추정 방법으로서, 손 영상으로부터 실시간으로 손 관절의 좌표를 추출하는 단계(S110), 거리 정보가 필요한 기준 손동작을 인식하는 단계(S120), 기준 손동작이 인식된 프레임을 기준 시각으로 설정하는 단계(S130), 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하는 단계(S140) 및 손바닥 면적의 변화를 통해 손까지의 거리를 추정하는 단계(S150)를 포함하여 구현될 수 있다.
도 4는 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법의 알고리즘 구조를 도시한 도면이다. 이하에서는, 도 3 및 도 4를 참조하여 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법의 각 단계에 대해 상세히 설명하도록 한다.
단계 S110에서는, 증강현실 글래스 장치(10)의 카메라에서 촬영되는 손 영상으로부터 실시간으로 손 관절의 좌표를 추출할 수 있다. 보다 구체적으로, 도 4에 도시된 바와 같이, 단계 S110에서는 특징 맵(feature Map)을 추출하는 인공지능 모델인 Base Net을 이용해 카메라부(200)에서 촬영된 손 영상으로부터 특징 맵을 추출하고, 특징 맵에서 키-포인트를 추출하는 인공지능 모델인 Keypoints Net에 추출한 특징 맵을 입력해 손 관절의 좌표를 추출할 수 있다. 여기서, Base Net으로는 ResNet, Inception, MobileNet 등을 사용할 수 있다. 또한, Keypoints Net은 콘볼루션 레이어(Convolution layer)와 덴스 레이어(Dense layer)의 조합으로 손을 구성하는 21개의 (x,y) 좌표를 도출하는 회귀모델로 구성할 수 있다. 이때, Base Net과 Keypoints Net을 통합 학습하여, 하나의 손 관절 추출 모델로 구성할 수 있다.
도 5는 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법의 단계 S110에서 좌표를 추출하는 손 관절을 나타낸 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법의 단계 S110에서는, 21개의 손 관절의 좌표를 추출할 수 있다.
단계 S120에서는, 단계 S110에서 추출한 손 관절의 좌표를 사용해 거리 정보가 필요한 기준 손동작을 인식할 수 있다. 즉, 단계 S120에서는, 단계 S110에서 추출한 21개의 손 관절 좌표를 Classification Net에 입력해 손동작을 분류함으로써, 손 영상에 촬영된 손의 모습이 미리 설정된 기준 손동작에 해당하는지를 판단할 수 있다.
본 발명에서는 손 거리를 계속 추정하는 것이 아니고, 착용자가 특정한 기준 손동작을 취했을 때 손 거리를 추정할 수 있다. 여기서, 기준 손동작은 깊이 정보(손까지의 거리 정보)가 필요한 제스처의 시작이 되는 손동작으로, 증강현실 또는 확장현실 콘텐츠에서 착용자가 객체와의 인터랙션을 위해 객체 방향으로 손을 움직이는 시작 동작일 수 있으며, 그 구체적인 손동작은 미리 설정될 수 있다. 예를 들어, 착용자는 손등이 보이도록 손을 펼쳐서 눈앞에 들고 미리 정해진 시간 동안 바라보는 것으로 기준 손동작을 취할 수 있다. 다만, 기준 손동작은 인터랙션 종류, 사용자 설정 등에 따라 다양할 수 있다.
단계 S130에서는, 단계 S120에서 기준 손동작이 인식된 프레임을 기준 시각으로 설정할 수 있다. 즉, 단계 S120에서 기준 손동작이 인식되면 손까지의 거리 추정이 필요한 제스처에 해당하므로, 단계 S130에서는 기준 손동작을 인식한 순간을 거리 추정을 위한 기준으로 설정할 수 있다.
단계 S140에서는, 기준 시각부터 손 관절의 좌표 중에서 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산할 수 있다. 즉, 단계 S130에서 기준 손동작을 인식한 다음, 손이 깊이 방향으로 움직임에 따라 손바닥 면적을 계산할 수 있다.
카메라부(200)에서는, 증강현실 글래스 장치(10)로부터 가까운 손은 크게 촬영되고 멀어질수록 손의 크기는 작게 촬영된다. 또한, 도 5에 도시된 바와 같은 관절의 좌표 중에서, 손가락 부분은 손동작에 따라 변화가 심하지만, 손바닥에 해당하는 포인트는 동작 변화에 덜 민감하다. 이러한 특성을 이용해, 손바닥 면적의 비율로 증강현실 글래스 장치(10)에서 손까지의 거리를 추정하는 딥러닝 모델을 학습을 통해 생성할 수 있다.
이를 위해, 단계 S140에서는, 손목이 손등과 연결되는 관절 및 각 손가락이 손등과 연결되는 관절의 좌표를 이용해 손바닥 면적을 계산할 수 있다. 즉, 단계 S140에서는, 도 5에 도시된 바와 같은 21개의 관절 중에서, 손바닥을 구성하는 0, 1, 2, 5, 9, 13, 17의 7개의 관절의 좌표로 손바닥의 면적을 계산할 수 있다.
도 6은 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법의 단계 S140에서 계산하는 손바닥 면적을 예를 들어 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법의 단계 S140에서는, 기준 손동작에 대해 손바닥을 구성하는 7개의 관절의 좌표로 손바닥을 구성하고(빨간색 다각형), 영상처리 기법으로 면적을 도출할 수 있다.
단계 S150에서는, 기준 시각의 손바닥 면적을 기준으로 손바닥 면적의 변화를 통해 손까지의 거리를 추정할 수 있다. 보다 구체적으로, 단계 S150에서는, 기준 시각의 손바닥 면적에 대한 현재 시각의 손바닥 면적의 비율을 계산하며, 손바닥 면적의 비율로 손까지의 거리를 추정하는 딥러닝 모델을 사용해, 계산한 비율로부터 손까지의 거리를 추정할 수 있다.
즉, 단계 S150에서는, 기준 손동작이 인식된 기준 시각의 손바닥 면적(Area of Ref. Palm)을 분모로 하고, 기준 시각 이후에 손을 깊이 방향으로 움직이면 움직인 후 현재의 손바닥 면적(Area of Cur. Palm)을 분자로 하여, 다음 수학식 1과 같이 비율을 계산할 수 있다.
Figure PCTKR2023003632-appb-img-000001
도 7은 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법의 단계 S150에서, 손바닥 면적의 변화를 예를 들어 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법의 단계 S150에서는, 착용자가 눈앞에서 기준 손동작을 취한 다음 손을 깊이 방향으로 멀리 움직이는 제스처를 취할 때, 도 7의 좌측에 도시된 바와 같은 기준 시각의 손바닥 면적과, 도 7의 우측에 도시한 바와 같은 움직인 후 현재 시각의 손바닥 면적의 비율을 계산할 수 있다. 이때, 계산된 비율은 0 초과 1 이하의 범위일 수 있다.
한편, 단계 S150에서는, 계산한 비율이 0 초과 1 이하의 범위일 때, 손까지의 거리를 추정할 수 있다. 도 8은 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법에서, 손동작을 활용한 증강현실 글래스 장치(10)의 제어를 설명하기 위해 도시한 도면이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 증강현실 글래스 장치(10)의 손 거리 추정 방법을 이용해 증강현실 또는 확장현실 콘텐츠에서 사용자 인터랙션을 구현하기 위해서는, 착용자의 손이 객체와 가까워져야 한다. 즉, 도 8은 시간에 따라 맨 위의 그림에서 아래 그림으로 객체와 손이 점점 가까워지는 것을 도시한 것으로, 대부분 사용자 인터랙션이 이 같은 경우에 발생하게 된다. 본 발명에서는 추정된 손 거리의 정확성을 높이기 위해, 도 7 및 도 8에 도시된 바와 같이 착용자가 눈앞에서 기준 손동작을 취한 다음 손이 눈앞에서 멀어져 객체에 접근할 때(손바닥 면적의 비율이 0 초과 1 이하의 범위일 때)만 단계 S150에서 손까지의 거리를 추정할 수 있다.
한편, 단계 S150에서는, 딥러닝 기반으로 학습된 거리 추정 모델에 단계 S140에서 계산된 비율을 입력하고, 거리 추정 모델에서 출력되는 손까지의 거리를 예측할 수 있다. 예측된 손까지의 거리는 깊이 정보로서 단계 S110에서 추출된 손 관절의 좌표와 결합해 3차원 손동작을 인식할 수 있다.
전술한 바와 같이, 본 발명에서 제안하고 있는 증강현실 글래스 장치(10)의 손 거리 추정 방법 및 장치에 따르면, 카메라에서 촬영되는 손 영상으로부터 손 관절의 좌표를 추출하고, 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하여, 손바닥 면적의 변화를 통해 손까지의 거리를 추정함으로써, 일반 가시광선 카메라의 영상을 이용해 깊이 정보를 획득하여 3차원 손동작을 인식할 수 있으며, 인식된 3차원 손동작을 통해 콘텐츠에서 사용자 상호작용을 할 수 있으므로 전력 소비를 최소화하면서도 원활하게 사용자 상호작용을 할 수 있다.
한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims (8)

  1. 증강현실 글래스 장치(10)에서 각 단계가 수행되며, 싱글 카메라 영상으로부터 손 관절 인식을 통해 손까지의 거리를 추정하는, 증강현실 글래스 장치(10)의 손 거리 추정 방법으로서,
    (1) 상기 증강현실 글래스 장치(10)의 카메라에서 촬영되는 손 영상으로부터 실시간으로 손 관절의 좌표를 추출하는 단계;
    (2) 상기 단계 (1)에서 추출한 손 관절의 좌표를 사용해 거리 정보가 필요한 기준 손동작을 인식하는 단계;
    (3) 상기 단계 (2)에서 상기 기준 손동작이 인식된 프레임을 기준 시각으로 설정하는 단계;
    (4) 상기 기준 시각부터 상기 손 관절의 좌표 중에서 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하는 단계; 및
    (5) 상기 기준 시각의 손바닥 면적을 기준으로 손바닥 면적의 변화를 통해 손까지의 거리를 추정하는 단계를 포함하는 것을 특징으로 하는, 증강현실 글래스 장치(10)의 손 거리 추정 방법.
  2. 제1항에 있어서, 상기 단계 (4)에서는,
    손목이 손등과 연결되는 관절 및 각 손가락이 손등과 연결되는 관절의 좌표를 이용해 손바닥 면적을 계산하는 것을 특징으로 하는, 증강현실 글래스 장치(10)의 손 거리 추정 방법.
  3. 제1항에 있어서,
    상기 단계 (1)에서는, 21개의 손 관절의 좌표를 추출하고,
    상기 단계 (4)에서는, 상기 21개의 손 관절의 좌표 중 손바닥을 구성하는 7개의 좌표로 상기 손바닥 면적을 계산하는 것을 특징으로 하는, 증강현실 글래스 장치(10)의 손 거리 추정 방법.
  4. 제1항에 있어서, 상기 단계 (5)에서는,
    상기 기준 시각의 손바닥 면적에 대한 현재 시각의 손바닥 면적의 비율을 계산하며, 손바닥 면적의 비율로 손까지의 거리를 추정하는 딥러닝 모델을 사용해, 상기 계산한 비율로부터 손까지의 거리를 추정하는 것을 특징으로 하는, 증강현실 글래스 장치(10)의 손 거리 추정 방법.
  5. 제4항에 있어서, 상기 단계 (5)에서는,
    상기 계산한 비율이 0 초과 1 이하의 범위일 때, 상기 손까지의 거리를 추정하는 것을 특징으로 하는, 증강현실 글래스 장치(10)의 손 거리 추정 방법.
  6. 증강현실 글래스 장치(10)의 싱글 카메라 영상으로부터 손 관절 인식을 통해 손까지의 거리를 추정하는, 증강현실 글래스 장치(10)의 손 거리 추정 장치(100)로서,
    상기 증강현실 글래스 장치(10)의 카메라에서 촬영되는 손 영상으로부터 실시간으로 손 관절의 좌표를 추출하는 좌표 추출부(110);
    상기 좌표 추출부(110)에서 추출한 손 관절의 좌표를 사용해 거리 정보가 필요한 기준 손동작을 인식하는 손동작 인식부(120);
    상기 손동작 인식부(120)에서 상기 기준 손동작이 인식된 프레임을 기준 시각으로 설정하는 기준 설정부(130);
    상기 기준 시각부터 상기 손 관절의 좌표 중에서 손바닥을 구성하는 관절의 좌표를 이용해 손바닥 면적을 계산하는 면적 산출부(140); 및
    상기 기준 시각의 손바닥 면적을 기준으로 손바닥 면적의 변화를 통해 손까지의 거리를 추정하는 거리 추정부(150)를 포함하는 것을 특징으로 하는, 증강현실 글래스 장치(10)의 손 거리 추정 장치(100).
  7. 제6항에 있어서, 상기 거리 추정부(150)는,
    상기 기준 시각의 손바닥 면적에 대한 현재 시각의 손바닥 면적의 비율을 계산하며, 손바닥 면적의 비율로 손까지의 거리를 추정하는 딥러닝 모델을 사용해, 상기 계산한 비율로부터 손까지의 거리를 추정하는 것을 특징으로 하는, 증강현실 글래스 장치(10)의 손 거리 추정 장치(100).
  8. 제7항에 있어서, 상기 거리 추정부(150)는,
    상기 계산한 비율이 0 초과 1 이하의 범위일 때, 상기 손까지의 거리를 추정하는 것을 특징으로 하는, 증강현실 글래스 장치(10)의 손 거리 추정 장치(100).
PCT/KR2023/003632 2022-05-09 2023-03-19 증강현실 글래스 장치의 손 거리 추정 방법 및 장치 WO2023219254A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220056799A KR102667189B1 (ko) 2022-05-09 2022-05-09 증강현실 글래스 장치의 손 거리 추정 방법 및 장치
KR10-2022-0056799 2022-05-09

Publications (1)

Publication Number Publication Date
WO2023219254A1 true WO2023219254A1 (ko) 2023-11-16

Family

ID=88730496

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/003632 WO2023219254A1 (ko) 2022-05-09 2023-03-19 증강현실 글래스 장치의 손 거리 추정 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102667189B1 (ko)
WO (1) WO2023219254A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005050177A (ja) * 2003-07-30 2005-02-24 Nissan Motor Co Ltd 非接触式情報入力装置
CN108171133A (zh) * 2017-12-20 2018-06-15 华南理工大学 一种基于特征协方差矩阵的动态手势识别方法
CN109359514A (zh) * 2018-08-30 2019-02-19 浙江工业大学 一种面向deskVR的手势跟踪识别联合策略方法
KR102286018B1 (ko) * 2020-09-09 2021-08-05 주식회사 피앤씨솔루션 손동작을 이용해 마우스 이벤트를 입력하는 착용형 증강현실 장치 및 손동작을 이용한 착용형 증강현실 장치의 마우스 이벤트 입력 방법
CN113536931A (zh) * 2021-06-16 2021-10-22 海信视像科技股份有限公司 一种手部姿态估计方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069386B2 (en) * 2010-05-11 2015-06-30 Nippon Systemware Co., Ltd. Gesture recognition device, method, program, and computer-readable medium upon which program is stored

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005050177A (ja) * 2003-07-30 2005-02-24 Nissan Motor Co Ltd 非接触式情報入力装置
CN108171133A (zh) * 2017-12-20 2018-06-15 华南理工大学 一种基于特征协方差矩阵的动态手势识别方法
CN109359514A (zh) * 2018-08-30 2019-02-19 浙江工业大学 一种面向deskVR的手势跟踪识别联合策略方法
KR102286018B1 (ko) * 2020-09-09 2021-08-05 주식회사 피앤씨솔루션 손동작을 이용해 마우스 이벤트를 입력하는 착용형 증강현실 장치 및 손동작을 이용한 착용형 증강현실 장치의 마우스 이벤트 입력 방법
CN113536931A (zh) * 2021-06-16 2021-10-22 海信视像科技股份有限公司 一种手部姿态估计方法及装置

Also Published As

Publication number Publication date
KR102667189B1 (ko) 2024-05-21
KR20230157156A (ko) 2023-11-16

Similar Documents

Publication Publication Date Title
WO2019050360A1 (en) ELECTRONIC DEVICE AND METHOD FOR AUTOMATICALLY SEGMENTING TO BE HUMAN IN AN IMAGE
WO2020036343A1 (en) Electronic device and control method thereof
WO2020162673A1 (en) Electronic device for providing avatar animation and method thereof
WO2015122566A1 (en) Head mounted display device for displaying augmented reality image capture guide and control method for the same
WO2013129792A1 (en) Method and portable terminal for correcting gaze direction of user in image
WO2017082539A1 (ko) 사용자 스타일링을 위한 증강현실 제공 장치 및 방법
WO2016002986A1 (ko) 시선 추적 장치 및 방법, 이를 수행하기 위한 기록매체
WO2016200102A1 (ko) 카메라의 초점을 변경하는 방법 및 장치
WO2019208851A1 (ko) 현실공간과의 융합을 제공하는 가상현실 인터페이스 방법 및 장치
WO2020180134A1 (ko) 이미지 수정 시스템 및 이의 이미지 수정 방법
KR20130034125A (ko) 증강현실 기능을 구비한 안경형 모니터
WO2017179938A1 (ko) 눈 촬영 장치
WO2019112114A1 (ko) 글래스 타입 단말기 및 그것의 동작방법
WO2019039870A1 (ko) 이미지의 표시 효과를 제어할 수 있는 전자 장치 및 영상 표시 방법
WO2020145517A1 (en) Method for authenticating user and electronic device thereof
WO2021025509A1 (en) Apparatus and method for displaying graphic elements according to object
WO2022255641A1 (ko) 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치
WO2018164316A1 (ko) 전방향 영상 촬상 방법 및 이러한 방법을 수행하는 장치
WO2022050668A1 (ko) 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치
EP3545387A1 (en) Method and device for providing an image
WO2023219254A1 (ko) 증강현실 글래스 장치의 손 거리 추정 방법 및 장치
WO2021221341A1 (ko) 증강 현실 장치 및 그 제어 방법
WO2022050742A1 (ko) 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치
WO2022092762A1 (ko) 스테레오 매칭 방법 및 이를 수행하는 영상 처리 장치
WO2022255642A1 (ko) 증강현실 글라스 장치의 실시간 손동작 인터페이스 구현을 위한 경량화된 손 관절 예측 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23803682

Country of ref document: EP

Kind code of ref document: A1