KR102057393B1 - Interactive audio control system and method of interactively controlling audio - Google Patents

Interactive audio control system and method of interactively controlling audio Download PDF

Info

Publication number
KR102057393B1
KR102057393B1 KR1020180069428A KR20180069428A KR102057393B1 KR 102057393 B1 KR102057393 B1 KR 102057393B1 KR 1020180069428 A KR1020180069428 A KR 1020180069428A KR 20180069428 A KR20180069428 A KR 20180069428A KR 102057393 B1 KR102057393 B1 KR 102057393B1
Authority
KR
South Korea
Prior art keywords
gesture
coordinates
image
user
hand
Prior art date
Application number
KR1020180069428A
Other languages
Korean (ko)
Inventor
고하윤
백중환
김규민
심유정
Original Assignee
한국항공대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국항공대학교산학협력단 filed Critical 한국항공대학교산학협력단
Priority to KR1020180069428A priority Critical patent/KR102057393B1/en
Application granted granted Critical
Publication of KR102057393B1 publication Critical patent/KR102057393B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Optics & Photonics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

The present invention relates to an interactive audio control system capable of actively controlling a 3D audio effect, and an interactive audio control method thereof. According to the present invention, the interactive audio control system comprises: first to n^th speakers distributed and disposed in a space; a virtual reality (VR) head-mounted display (HMD) worn on a user′s head existing in the space and generating head coordinates representing the position of the user′s head in accordance with movement of the user′s head; a motion sensor detecting movement of a user′s hand to generate hand coordinates representing the position of the user′s hand; and a control device providing first to n^th audio signals to the first to n^th speaker, respectively, and providing a video signal to the VR HMD. The control device generates relative coordinates representing the relative position of the user′s hand with respect to the VR HMD based on the head and hand coordinates, recognizes a gesture represented by the movement of the user′s hand based on the relative coordinates, and generates a two-dimensional (2D) gesture image based on the gesture. When the gesture determined to be matched with one of a plurality of predetermined standard gestures based on the two-dimensional (2D) gesture image, the control device controls output of the first to n^th audio signals based on a 3D audio effect previously connected to the matched standard gesture.

Description

인터랙티브 음향 제어 시스템 및 인터랙티브 음향 제어 방법{INTERACTIVE AUDIO CONTROL SYSTEM AND METHOD OF INTERACTIVELY CONTROLLING AUDIO}Interactive sound control system and interactive sound control method {INTERACTIVE AUDIO CONTROL SYSTEM AND METHOD OF INTERACTIVELY CONTROLLING AUDIO}

본 발명은 음향 제어 기술에 관한 것으로, 보다 상세하게는 사용자의 제스처(gesture)를 인식하여 음향을 제어하는 인터랙티브(interactive) 음향 제어 시스템 및 인터랙티브 음향 제어 방법에 관한 것이다.The present invention relates to a sound control technology, and more particularly, to an interactive sound control system and an interactive sound control method for controlling sound by recognizing a gesture of a user.

증강 현실(augmented reality) 및 가상 현실(virtual reality) 기술이 발전함에 따라 3D 영상과 함께 제공되는 음향 역시 입체적인 효과를 가질 것이 요구되고 있다.As augmented reality and virtual reality technologies are developed, the sound provided with 3D images is also required to have a three-dimensional effect.

종래의 입체 음향 기술은 오디오를 듣는 사람에게 입체적인 효과를 부여하기 위해 고안된 것으로서, 한국 등록특허 제10-0718268호 등에는 입체 음향 제어에 관한 다양한 기술이 제안되어 있다.The conventional stereoscopic technology is designed to give a stereoscopic effect to a person who listens to audio, and Korean Patent No. 10-0718268 and the like propose various techniques regarding stereoscopic sound control.

한편, 최근에는 재생음에 방향감을 부여할 수 있는 앰비소닉(ambisonic) 음향 기술이 개발됨에 따라, 청취자가 느끼는 입체감을 더욱 향상시킬 수 있게 되었다. 한국 공개특허 제10-2013-0102015호 등에는 앰비소닉 음향 제어에 관한 다양한 기술이 제안되어 있다.On the other hand, with the recent development of ambisonic sound technology that can give a sense of direction to the playback sound, it is possible to further improve the three-dimensional feeling that the listener feels. Korean Patent Laid-Open Publication No. 10-2013-0102015 and the like have proposed various techniques related to ambisonic sound control.

그러나 종래의 음향 제어 기술은 사용자의 의사와는 무관하게 미리 정해진 입체 음향 효과를 사용자에게 일방적으로 전해주는 것이므로 사용자를 만족시키는 데에 한계가 있다.However, the conventional sound control technology unilaterally transmits a predetermined stereoscopic sound effect to the user irrespective of the user's intention, so there is a limit to satisfying the user.

특히, 가상 현실 시스템의 경우, 사용자의 몰입도를 극대화시키기 위해서는 사용자의 행동에 따라 입체 음향 효과를 능동적으로 가변할 수 있는 음향 제어 기술의 개발이 필요하다.In particular, in the case of a virtual reality system, in order to maximize the immersion of the user, it is necessary to develop a sound control technology that can actively change the stereoscopic sound effect according to the user's behavior.

한국등록특허 제10-0718268호 (2007.05.14)Korea Patent Registration No. 10-0718268 (2007.05.14) 한국공개특허 제10-2013-0102015호 (2013.09.16)Korea Patent Publication No. 10-2013-0102015 (2013.09.16)

상기와 같은 문제점을 해결하기 위한 본 발명의 일 목적은 사용자의 제스처(gesture)를 인식하여 능동적으로 입체 음향 효과를 제어할 수 있는 인터랙티브(interactive) 음향 제어 시스템을 제공하는 것이다.One object of the present invention for solving the above problems is to provide an interactive sound control system that can recognize the user's gesture (gesture) to actively control the three-dimensional sound effect.

본 발명의 다른 목적은 사용자의 제스처를 인식하여 능동적으로 입체 음향 효과를 제어할 수 있는 인터랙티브 음향 제어 방법을 제공하는 것이다.Another object of the present invention is to provide an interactive sound control method capable of actively controlling stereoscopic sound effects by recognizing a gesture of a user.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 인터랙티브(interactive) 음향 제어 시스템은 제1 내지 제n 스피커들, VR(Virtual Reality) HMD(Head Mounted Display), 모션 센서, 및 제어 장치를 포함한다. 상기 제1 내지 제n 스피커들은 공간 상에 분산되어 배치된다. 상기 VR HMD는 상기 공간 상에 존재하는 사용자의 머리에 착용되고, 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들을 생성한다. 상기 모션 센서는 상기 사용자의 손의 움직임을 감지하여 상기 사용자의 손의 위치를 나타내는 손 좌표들을 생성한다. 상기 제어 장치는 상기 제1 내지 제n 스피커들 각각에 제1 내지 제n 음향 신호들을 제공하고, 상기 VR HMD에 영상 신호를 제공한다. 또한, 상기 제어 장치는 상기 머리 좌표들 및 상기 손 좌표들에 기초하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성하고, 상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식하고, 상기 제스처에 기초하여 2차원 제스처 이미지를 생성하고, 상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 제1 내지 제n 음향 신호들의 출력을 제어한다.In order to achieve the above object of the present invention, an interactive sound control system according to an embodiment of the present invention is the first to n-th speakers, VR (Virtual Reality) Head Mounted Display (HMD), motion sensor And a control device. The first to n-th speakers are distributed in a space. The VR HMD is worn on the user's head existing in the space, and generates head coordinates indicating the position of the user's head according to the movement of the user's head. The motion sensor detects the movement of the user's hand and generates hand coordinates indicating the position of the user's hand. The control device provides first to nth sound signals to each of the first to nth speakers, and provides a video signal to the VR HMD. Further, the control device generates relative coordinates indicating the relative position of the user's hand with respect to the VR HMD based on the head coordinates and the hand coordinates, and based on the relative coordinates of the user's hand. Recognize a gesture represented by a movement, generate a two-dimensional gesture image based on the gesture, and determine that the gesture matches one of a plurality of predefined standard gestures based on the two-dimensional gesture image. Control the output of the first to nth acoustic signals based on the stereophonic effect pre-connected with the matching standard gesture.

일 실시예에 있어서, 상기 제어 장치는, 상기 모션 센서로부터 수신되는 상기 손 좌표들 각각의 좌표값에서 상기 VR HMD로부터 수신되는 상기 머리 좌표들 각각의 좌표값을 차감하여 상기 상대 좌표들을 생성하고, 상기 상대 좌표들의 이동 속도에 기초하여 상기 제스처를 결정하고, 상기 상대 좌표들 중에서 상기 제스처를 나타내는 상대 좌표들을 제스처 좌표들로 결정하는 제스처 획득부, 3차원 공간 상에서의 상기 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 제스처-이미지 변환부, 복수의 2차원 학습 이미지들을 통해 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하는 학습을 수행한 후, 상기 제스처-이미지 변환부로부터 제공되는 상기 2차원 제스처 이미지를 상기 복수의 표준 제스처들 중의 하나로 분류하는 딥러닝(Deep Learning)부, 상기 복수의 표준 제스처들 각각과 복수의 입체 음향 효과들 각각을 서로 연결시켜 저장하는 표준 제스처 데이터베이스, 및 상기 표준 제스처 데이터베이스로부터 상기 딥러닝부에 의해 분류된 표준 제스처와 연결되는 입체 음향 효과를 독출하고, 상기 독출된 입체 음향 효과에 기초하여 상기 제1 내지 제n 음향 신호들의 출력을 제어하는 음향 제어부를 포함할 수 있다.The control apparatus may generate the relative coordinates by subtracting a coordinate value of each of the head coordinates received from the VR HMD from a coordinate value of each of the hand coordinates received from the motion sensor. A gesture acquisition unit that determines the gesture based on the movement speeds of the relative coordinates, and determines the relative coordinates representing the gesture among the relative coordinates as gesture coordinates, based on a trajectory of the gesture coordinates in a three-dimensional space A gesture-image conversion unit for generating the two-dimensional gesture image, and after performing a learning to classify each of the plurality of two-dimensional learning images into one of the plurality of standard gestures through a plurality of two-dimensional learning images, the gesture The plurality of standard gestures of the two-dimensional gesture image provided from an image conversion unit; A deep learning unit classified into one of the features, a standard gesture database that connects and stores each of the plurality of standard gestures and each of the plurality of stereoscopic sound effects, and the deep learning unit from the standard gesture database. The apparatus may include a sound controller configured to read a stereoscopic sound effect connected to a classified standard gesture and to control an output of the first to nth acoustic signals based on the read stereoscopic sound effect.

상기 제스처 획득부는, 상기 상대 좌표들의 이동 속도가 문턱값보다 커지는 시점의 상대 좌표를 상기 제스처의 시작 좌표로 결정하고, 상기 상대 좌표들의 이동 속도가 상기 문턱값보다 작아지는 시점의 상대 좌표를 상기 제스처의 종료 좌표로 결정하고, 상기 상대 좌표들 중에서 상기 시작 좌표와 상기 종료 좌표 사이에 존재하는 상대 좌표들을 상기 제스처 좌표들로 결정할 수 있다.The gesture acquiring unit determines the relative coordinates at the time when the movement speeds of the relative coordinates are greater than the threshold value as starting coordinates of the gesture, and the relative coordinates at the time when the movement speed of the relative coordinates is smaller than the threshold value. It may be determined as the end coordinate of, and the relative coordinates existing between the start coordinate and the end coordinate among the relative coordinates may be determined as the gesture coordinates.

상기 문턱값은 상기 제스처 획득부 내부에 미리 저장될 수 있다.The threshold value may be stored in advance in the gesture acquirer.

상기 제스처 획득부는 외부로부터 설정 데이터를 수신하고, 상기 설정 데이터에 기초하여 상기 문턱값의 크기를 가변할 수 있다.The gesture obtaining unit may receive setting data from the outside and vary the size of the threshold based on the setting data.

상기 제스처-이미지 변환부는, 상기 제스처 좌표들의 좌표값들이 미리 정해진 최소값 및 최대값 사이의 값을 갖도록 상기 제스처 좌표들의 좌표값들을 정규화하여 정규 제스처 좌표들을 생성하는 정규화부, 및 3차원 공간 상에서의 상기 정규 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 2차원 이미지 생성부를 포함할 수 있다.The gesture-image converter may include: a normalizer configured to normalize coordinate values of the gesture coordinates to generate normal gesture coordinates such that the coordinate values of the gesture coordinates have a value between a predetermined minimum value and a maximum value, and the three-dimensional space. It may include a two-dimensional image generator for generating the two-dimensional gesture image based on the trajectory of the normal gesture coordinates.

상기 2차원 이미지 생성부는, 상기 정규 제스처 좌표들이 X-Y 평면 상으로 투영된 궤적에 상응하는 적색 선을 포함하는 제1 이미지를 생성하는 제1 이미지 생성부, 상기 정규 제스처 좌표들이 Y-Z 평면 상으로 투영된 궤적에 상응하는 녹색 선을 포함하는 제2 이미지를 생성하는 제2 이미지 생성부, 상기 정규 제스처 좌표들이 Z-X 평면 상으로 투영된 궤적에 상응하는 청색 선을 포함하는 제3 이미지를 생성하는 제3 이미지 생성부, 및 상기 제1 이미지, 상기 제2 이미지, 및 상기 제3 이미지를 중첩하여 상기 2차원 제스처 이미지를 생성하는 이미지 중첩부를 포함할 수 있다.The two-dimensional image generator may include a first image generator configured to generate a first image including a red line corresponding to a trajectory of the normal gesture coordinates projected onto an XY plane, and the normal gesture coordinates projected onto the YZ plane. A second image generation unit generating a second image including a green line corresponding to a trajectory, and a third image generating a third image including a blue line corresponding to the trajectory on which the normal gesture coordinates are projected onto the ZX plane It may include a generation unit, and an image overlap unit for generating the two-dimensional gesture image by overlapping the first image, the second image, and the third image.

상기 2차원 이미지 생성부는, 상기 정규 제스처 좌표들에 대해 주성분 분석(Principal Component Analysis)을 수행하여 상기 정규 제스처 좌표들의 궤적을 가장 잘 나타내는 주 평면을 결정하는 주 평면 결정부, 및 상기 정규 제스처 좌표들이 상기 주 평면 상으로 투영된 궤적에 상응하는 단일 컬러의 선을 포함하는 상기 2차원 제스처 이미지를 생성하는 주 이미지 생성부를 포함할 수 있다.The two-dimensional image generator may include a principal plane determiner configured to perform a principal component analysis on the normal gesture coordinates to determine a principal plane that best represents a trajectory of the normal gesture coordinates, and the normal gesture coordinates It may include a main image generating unit for generating the two-dimensional gesture image including a line of a single color corresponding to the trajectory projected onto the main plane.

상기 제스처-이미지 변환부는, 상기 2차원 제스처 이미지에 대해 모폴로지(Morphology) 팽창(dilation) 연산 및 모폴로지 침식(erosion) 연산을 교번하여 수행하여 상기 2차원 제스처 이미지를 보정하는 모폴로지 필터를 더 포함할 수 있다.The gesture-image converter may further include a morphology filter configured to correct the two-dimensional gesture image by alternately performing a morphology dilation operation and a morphology erosion operation on the two-dimensional gesture image. have.

상기 딥러닝부는 CNN(Convolution Neural Network) 기반의 계층 구조를 가질 수 있다.The deep learning unit may have a hierarchical structure based on CNN (Convolution Neural Network).

상기 제어 장치는, 복수의 사람들에 의해 수행되는 상기 복수의 표준 제스처들에 상응하는 손의 움직임에 기초하여 상기 제스처-이미지 변환부로부터 생성되는 복수의 2차원 제스처 이미지들을 상기 복수의 2차원 학습 이미지들로서 미리 저장하고, 상기 복수의 2차원 학습 이미지들을 상기 딥러닝부에 제공하여 상기 딥러닝부가 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하도록 상기 딥러닝부를 학습시키는 학습 제어부를 더 포함할 수 있다.The control device may be configured to generate a plurality of two-dimensional learning images from a plurality of two-dimensional gesture images generated from the gesture-image converting unit based on a movement of a hand corresponding to the plurality of standard gestures performed by a plurality of people. And pre-store the plurality of 2D learning images to the deep learning unit to train the deep learning unit to classify each of the plurality of 2D learning images into one of the plurality of standard gestures. The learning control unit may further include.

상기 제어 장치는, 상기 상대 좌표들을 따라 손 형상의 이미지가 이동하는 영상을 가상 현실 영상에 중첩하여 상기 영상 신호를 생성하고, 상기 영상 신호를 상기 VR HMD에 제공하는 영상 생성부를 더 포함할 수 있다.The control device may further include an image generating unit generating the image signal by superimposing an image of a hand-shaped image moving along the relative coordinates on a virtual reality image, and providing the image signal to the VR HMD. .

일 실시예에 있어서, 상기 인터랙티브 음향 제어 시스템은 상기 공간 상에 설치되고, 상기 제어 장치로부터 상기 VR HMD에 제공되는 상기 영상 신호와 동일한 영상 신호를 수신하여 상기 VR HMD에 표시되는 영상과 동일한 영상을 표시하는 디스플레이 장치를 더 포함할 수 있다.In one embodiment, the interactive sound control system is installed in the space, and receives the same video signal as the video signal provided to the VR HMD from the control device to receive the same video as the video displayed on the VR HMD The display apparatus may further include a display device.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 인터랙티브 음향 제어 방법에서, 사용자의 머리에 착용되는 VR(Virtual Reality) HMD(Head Mounted Display)로부터 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들을 수신하고, 모션 센서로부터 상기 사용자의 손의 위치를 나타내는 손 좌표들을 수신하고, 상기 머리 좌표들 및 상기 손 좌표들에 기초하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성하고, 상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식하고, 상기 제스처에 기초하여 2차원 제스처 이미지를 생성하고, 상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 사용자가 존재하는 공간 상에 분산되어 배치되는 제1 내지 제n 스피커들 각각에 제공되는 제1 내지 제n 음향 신호들의 출력을 제어한다.In order to achieve the above object of the present invention, in the interactive sound control method according to an embodiment of the present invention, the movement of the user's head from the VR (Virtual Reality) Head Mounted Display (HMD) worn on the user's head Receive head coordinates indicative of the position of the user's head, and receive hand coordinates indicative of the position of the user's hand from a motion sensor, for the VR HMD based on the head coordinates and the hand coordinates; Generate relative coordinates indicating a relative position of the user's hand, recognize a gesture represented by the movement of the user's hand based on the relative coordinates, generate a two-dimensional gesture image based on the gesture, One of a plurality of standard gestures in which the gesture is predefined based on the two-dimensional gesture image And first to nth provided to each of the first to nth speakers distributed and disposed in a space in which the user exists based on the stereophonic effect previously connected with the matching standard gesture. Control the output of acoustic signals.

일 실시예에 있어서, 상기 머리 좌표들 및 상기 손 좌표들에 기초하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상기 상대 좌표들을 생성하는 단계는, 상기 손 좌표들 각각의 좌표값에서 상기 머리 좌표들 각각의 좌표값을 차감하여 상기 상대 좌표들을 생성하는 단계를 포함할 수 있다.In one embodiment, generating the relative coordinates representing the relative position of the user's hand relative to the VR HMD based on the head coordinates and the hand coordinates, at each coordinate value of the hand coordinates. The method may include generating the relative coordinates by subtracting a coordinate value of each of the head coordinates.

일 실시예에 있어서, 상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 상기 제스처를 인식하는 단계는, 상기 상대 좌표들의 이동 속도에 기초하여 상기 제스처를 결정하는 단계를 포함할 수 있다.In an embodiment, the step of recognizing the gesture indicated by the movement of the user's hand based on the relative coordinates may include determining the gesture based on the movement speed of the relative coordinates.

일 실시예에 있어서, 상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 상기 제스처를 인식하는 단계는, 상기 상대 좌표들의 이동 속도가 문턱값보다 커지는 시점의 상대 좌표를 상기 제스처의 시작 좌표로 결정하는 단계, 상기 상대 좌표들의 이동 속도가 상기 문턱값보다 작아지는 시점의 상대 좌표를 상기 제스처의 종료 좌표로 결정하는 단계, 및 상기 상대 좌표들 중에서 상기 시작 좌표와 상기 종료 좌표 사이에 존재하는 상대 좌표들을 상기 제스처를 나타내는 제스처 좌표들로 결정하는 단계를 포함할 수 있다.In one embodiment, the step of recognizing the gesture indicated by the movement of the user's hand based on the relative coordinates, the relative coordinates of the time when the movement speed of the relative coordinates is larger than the threshold value start coordinates of the gesture Determining a relative coordinate at a time point at which the movement speed of the relative coordinates becomes smaller than the threshold value as an end coordinate of the gesture, and between the start coordinate and the end coordinate among the relative coordinates. Determining relative coordinates as gesture coordinates representing the gesture.

상기 제스처에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계는, 상기 제스처 좌표들의 좌표값들이 미리 정해진 최소값 및 최대값 사이의 값을 갖도록 상기 제스처 좌표들의 좌표값들을 정규화하여 정규 제스처 좌표들을 생성하는 단계, 및 3차원 공간 상에서의 상기 정규 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계를 포함할 수 있다.The generating of the two-dimensional gesture image based on the gesture may include generating normal gesture coordinates by normalizing coordinate values of the gesture coordinates such that the coordinate values of the gesture coordinates have a value between a predetermined minimum value and a maximum value. And generating the two-dimensional gesture image based on the trajectory of the regular gesture coordinates in the three-dimensional space.

3차원 공간 상에서의 상기 정규 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계는, 상기 정규 제스처 좌표들이 X-Y 평면 상으로 투영된 궤적에 상응하는 적색 선을 포함하는 제1 이미지를 생성하는 단계, 상기 정규 제스처 좌표들이 Y-Z 평면 상으로 투영된 궤적에 상응하는 녹색 선을 포함하는 제2 이미지를 생성하는 단계, 상기 정규 제스처 좌표들이 Z-X 평면 상으로 투영된 궤적에 상응하는 청색 선을 포함하는 제3 이미지를 생성하는 단계, 및 상기 제1 이미지, 상기 제2 이미지, 및 상기 제3 이미지를 중첩하여 상기 2차원 제스처 이미지를 생성하는 단계를 포함할 수 있다.The generating of the two-dimensional gesture image based on the trajectory of the normal gesture coordinates in the three-dimensional space may include generating a first image including a red line corresponding to the trajectory of the normal gesture coordinates projected onto the XY plane. Generating a second image comprising a green line corresponding to the trajectory projected onto the YZ plane, wherein the normal gesture coordinates comprise a blue line corresponding to the trajectory projected onto the ZX plane. Generating a third image, and generating the two-dimensional gesture image by overlapping the first image, the second image, and the third image.

3차원 공간 상에서의 상기 정규 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계는, 상기 정규 제스처 좌표들에 대해 주성분 분석(Principal Component Analysis)을 수행하여 상기 정규 제스처 좌표들의 궤적을 가장 잘 나타내는 주 평면을 결정하는 단계, 및 상기 정규 제스처 좌표들이 상기 주 평면 상으로 투영된 궤적에 상응하는 단일 컬러의 선을 포함하는 상기 2차원 제스처 이미지를 생성하는 단계를 포함할 수 있다.The generating of the 2D gesture image based on the trajectory of the normal gesture coordinates in the 3D space may include performing a principal component analysis on the normal gesture coordinates to simulate the trajectory of the normal gesture coordinates. Determining a well-presented principal plane, and generating the two-dimensional gesture image comprising a line of single color corresponding to the trajectory where the regular gesture coordinates project onto the principal plane.

상기 제스처에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계는, 상기 2차원 제스처 이미지에 대해 모폴로지(Morphology) 팽창(dilation) 연산 및 모폴로지 침식(erosion) 연산을 교번하여 수행하여 상기 2차원 제스처 이미지를 보정하는 단계를 더 포함할 수 있다.The generating of the 2D gesture image based on the gesture may be performed by alternately performing a morphology dilation operation and a morphology erosion operation on the 2D gesture image. The method may further include correcting.

일 실시예에 있어서, 상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 상기 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 사용자가 존재하는 공간 상에 분산되어 배치되는 상기 제1 내지 제n 스피커들 각각에 제공되는 상기 제1 내지 제n 음향 신호들의 출력을 제어하는 단계는, 딥러닝(Deep Learning)부에 대해 복수의 2차원 학습 이미지들을 통해 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하는 학습을 수행하는 단계, 상기 딥러닝부를 사용하여 상기 2차원 제스처 이미지를 상기 복수의 표준 제스처들 중의 하나로 분류하는 단계, 상기 복수의 표준 제스처들 각각과 복수의 입체 음향 효과들 각각을 서로 연결시켜 저장하는 표준 제스처 데이터베이스로부터 상기 딥러닝부에 의해 분류된 표준 제스처와 연결되는 입체 음향 효과를 독출하는 단계, 및 상기 독출된 입체 음향 효과에 기초하여 상기 제1 내지 제n 음향 신호들의 출력을 제어하는 단계를 포함할 수 있다.In one embodiment, when it is determined that the gesture matches one of the plurality of predefined standard gestures based on the two-dimensional gesture image, the stereo sound effect is pre-connected with the matching standard gesture. Controlling the output of the first to n-th sound signals provided to each of the first to n-th speakers distributed in the space where the user is present may include a plurality of deep learning units. Classifying each of the plurality of 2D learning images into one of the plurality of standard gestures through the 2D learning images of the plurality of standard gestures, and using the deep learning unit to classify the 2D gesture image into the plurality of standard gestures. Classifying into one of the plurality of standard gestures and each of the plurality of standard gestures Reading a stereoscopic sound effect associated with a standard gesture classified by the deep learning unit from a standard gesture database that is connected to and stored in a standard gesture database, and based on the read stereoscopic sound effect of the first to nth sound signals Controlling the output.

상기 딥러닝부에 대해 상기 복수의 2차원 학습 이미지들을 통해 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하는 학습을 수행하는 단계는, 복수의 사람들에 의해 수행되는 상기 복수의 표준 제스처들에 상응하는 손의 움직임에 기초하여 생성되는 복수의 2차원 제스처 이미지들을 상기 복수의 2차원 학습 이미지들로서 저장하는 단계, 및 상기 복수의 2차원 학습 이미지들을 상기 딥러닝부에 제공하여 상기 딥러닝부가 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하도록 상기 딥러닝부를 학습시키는 단계를 포함할 수 있다.The learning of classifying each of the plurality of 2D learning images into one of the plurality of standard gestures through the plurality of 2D learning images with respect to the deep learning unit may be performed by a plurality of people. Storing a plurality of two-dimensional gesture images generated based on a hand movement corresponding to a plurality of standard gestures as the plurality of two-dimensional learning images, and providing the plurality of two-dimensional learning images to the deep learning unit. The deep learning unit may include training the deep learning unit to classify each of the plurality of 2D learning images into one of the plurality of standard gestures.

일 실시예에 있어서, 상기 인터랙티브 음향 제어 방법은 상기 상대 좌표들을 따라 손 형상의 이미지가 이동하는 영상을 가상 현실 영상에 중첩하여 영상 신호를 생성하는 단계, 및 상기 영상 신호를 상기 VR HMD 및 상기 사용자가 존재하는 공간 상에 설치되는 디스플레이 장치에 동시에 출력하여 상기 영상 신호에 따른 영상을 상기 VR HMD 및 상기 디스플레이 장치에 동시에 표시하는 단계를 더 포함할 수 있다.The interactive sound control method may further include generating an image signal by superimposing an image on which a hand-shaped image moves along the relative coordinates with a virtual reality image, and superimposing the image signal on the VR HMD and the user. The method may further include simultaneously outputting to a display device installed in a space in which the image is displayed on the VR HMD and the display device.

본 발명의 실시예들에 따른 인터랙티브(interactive) 음향 제어 시스템 및 인터랙티브 음향 제어 방법은 디스플레이 장치에 표시되는 영상과 함께 복수의 스피커들을 통해 출력되는 소리의 입체 음향 효과를 사용자의 손의 움직임이 나타내는 제스처에 따라 능동적으로 제어함으로써 사용자 및 관객들의 영상에 대한 몰입도를 효과적으로 향상시킬 수 있다.An interactive sound control system and an interactive sound control method according to embodiments of the present invention provide a gesture in which a user's hand moves a stereoscopic sound effect of a sound output through a plurality of speakers together with an image displayed on a display device. By actively controlling according to the present invention, the immersion degree of the user and the audience can be effectively improved.

도 1은 본 발명의 일 실시예에 따른 인터랙티브(interactive) 음향 제어 시스템을 나타내는 블록도이다.
도 2는 도 1에 도시된 인터랙티브 음향 제어 시스템이 구현된 일 예를 나타내는 도면이다.
도 3은 도 1의 인터랙티브 음향 제어 시스템에 포함되는 제어 장치의 일 예를 나타내는 블록도이다.
도 4는 도 3의 제어 장치에 포함되는 제스처-이미지 변환부의 일 예를 나타내는 블록도이다.
도 5는 도 4의 제스처-이미지 변환부에 포함되는 2차원 이미지 생성부의 일 예를 나타내는 블록도이다.
도 6a 내지 6d는 도 5에 도시된 2차원 이미지 생성부에 의해 생성되는 2차원 이미지의 일 예를 나타내는 도면이다.
도 7은 도 4의 제스처-이미지 변환부에 포함되는 2차원 이미지 생성부의 다른 예를 나타내는 블록도이다.
도 8은 본 발명의 일 실시예에 따른 인터랙티브 음향 제어 방법을 나타내는 순서도이다.
도 9는 도 8의 상대 좌표들에 기초하여 사용자의 손의 움직임이 나타내는 제스처를 인식하는 단계의 일 예를 나타내는 순서도이다.
도 10은 도 8의 인식된 제스처에 기초하여 2차원 제스처 이미지를 생성하는 단계의 일 예를 나타내는 순서도이다.
1 is a block diagram illustrating an interactive sound control system according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example in which the interactive sound control system illustrated in FIG. 1 is implemented.
3 is a block diagram illustrating an example of a control device included in the interactive sound control system of FIG. 1.
4 is a block diagram illustrating an example of a gesture-image converter included in the control device of FIG. 3.
FIG. 5 is a block diagram illustrating an example of a 2D image generator included in the gesture-image converter of FIG. 4.
6A to 6D are diagrams illustrating an example of a 2D image generated by the 2D image generator shown in FIG. 5.
FIG. 7 is a block diagram illustrating another example of a 2D image generator included in the gesture-image converter of FIG. 4.
8 is a flowchart illustrating an interactive sound control method according to an embodiment of the present invention.
9 is a flowchart illustrating an example of recognizing a gesture represented by a movement of a user's hand based on the relative coordinates of FIG. 8.
FIG. 10 is a flowchart illustrating an example of generating a two-dimensional gesture image based on the recognized gesture of FIG. 8.

본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.With respect to the embodiments of the present invention disclosed in the text, specific structural to functional descriptions are merely illustrated for the purpose of describing embodiments of the present invention, embodiments of the present invention may be implemented in various forms and It should not be construed as limited to the embodiments described in.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.As the inventive concept allows for various changes and numerous modifications, particular embodiments will be illustrated in the drawings and described in detail in the text. However, this is not intended to limit the present invention to a specific disclosed form, it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.Terms such as first and second may be used to describe various components, but the components should not be limited by the terms. The terms may be used for the purpose of distinguishing one component from another component. For example, without departing from the scope of the present invention, the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.When a component is referred to as being "connected" or "connected" to another component, it may be directly connected to or connected to that other component, but it may be understood that other components may be present in between. Should be. On the other hand, when a component is said to be "directly connected" or "directly connected" to another component, it should be understood that there is no other component in between. Other expressions describing the relationship between components, such as "between" and "immediately between," or "neighboring to," and "directly neighboring to" should be interpreted as well.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprise" or "having" are intended to indicate that there is a feature, number, step, action, component, part, or combination thereof that is described, and that one or more other features or numbers are present. It should be understood that it does not exclude in advance the possibility of the presence or addition of steps, actions, components, parts or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in the commonly used dictionaries should be construed as meanings consistent with the meanings in the context of the related art and shall not be construed in ideal or excessively formal meanings unless expressly defined in this application. .

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, with reference to the accompanying drawings, it will be described in detail a preferred embodiment of the present invention. The same reference numerals are used for the same elements in the drawings, and duplicate descriptions of the same elements are omitted.

도 1은 본 발명의 일 실시예에 따른 인터랙티브(interactive) 음향 제어 시스템을 나타내는 블록도이다.1 is a block diagram illustrating an interactive sound control system according to an embodiment of the present invention.

도 1을 참조하면, 인터랙티브 음향 제어 시스템(10)은 VR(Virtual Reality) HMD(Head Mounted Display)(100), 모션 센서(200), 제어 장치(CTR)(300), 및 제1 내지 제n 스피커들(SP1~SPn)(400-1~400-n)을 포함한다. 여기서, n은 양의 정수를 나타낸다.Referring to FIG. 1, the interactive sound control system 10 may include a virtual reality (VR) head mounted display (HMD) 100, a motion sensor 200, a control device (CTR) 300, and first to nth. Speakers SP1 to SPn include 400-1 to 400-n. Where n represents a positive integer.

제어 장치(300)는 VR HMD(100), 모션 센서(200), 및 제1 내지 제n 스피커들(400-1~400-n)과 유선 또는 무선으로 연결된다.The control device 300 is connected to the VR HMD 100, the motion sensor 200, and the first to n-th speakers 400-1 to 400-n by wire or wirelessly.

제어 장치(300)는 VR HMD(100)에 영상 신호(VIDEO_S)를 제공하고, 제1 내지 제n 스피커들(400-1~400-n) 각각에 제1 내지 제n 음향 신호들(SOUND_S1~SOUND_Sn)을 제공한다.The control device 300 provides the video signal VIDEO_S to the VR HMD 100, and provides the first to nth sound signals SOUND_S1 ˜ to each of the first to nth speakers 400-1 to 400-n. SOUND_Sn).

제1 내지 제n 스피커들(400-1~400-n)은 공간 상에 분산되어 배치될 수 있다. 제1 내지 제n 스피커들(400-1~400-n) 각각은 제어 장치(300)로부터 수신되는 제1 내지 제n 음향 신호들(SOUND_S1~SOUND_Sn)에 상응하는 소리를 출력할 수 있다.The first to n th speakers 400-1 to 400-n may be distributed in a space. Each of the first to n-th speakers 400-1 to 400-n may output a sound corresponding to the first to n-th sound signals SOUND_S1 to SOUND_Sn received from the control device 300.

VR HMD(100)는 제1 내지 제n 스피커들(400-1~400-n)이 설치된 공간과 동일한 공간 상에 존재하는 사용자의 머리에 착용될 수 있다. 상기 사용자가 VR HMD(100)를 머리에 착용하는 경우, VR HMD(100)의 화면은 상기 사용자의 양쪽 눈 앞에 위치할 수 있다.The VR HMD 100 may be worn on a user's head existing in the same space as the space where the first to n th speakers 400-1 to 400-n are installed. When the user wears the VR HMD 100 on his head, the screen of the VR HMD 100 may be located in front of both eyes of the user.

VR HMD(100)는 제어 장치(300)로부터 수신되는 영상 신호(VIDEO_S)에 상응하는 영상을 표시할 수 있다.The VR HMD 100 may display an image corresponding to the video signal VIDEO_S received from the control device 300.

또한, VR HMD(100)는 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들(HEAD_COORs)을 생성하여 제어 장치(300)에 제공할 수 있다. 예를 들어, VR HMD(100)는 주기적으로 상기 사용자의 머리의 위치를 나타내는 머리 좌표들(HEAD_COORs)을 생성하여 제어 장치(300)에 제공할 수 있다.In addition, the VR HMD 100 may generate head coordinates HEAD_COORs indicating the position of the head of the user according to the movement of the head of the user and provide the head coordinates HEAD_COORs to the control device 300. For example, the VR HMD 100 may periodically generate head coordinates HEAD_COORs indicating the position of the user's head and provide the same to the control device 300.

VR HMD(100)로부터 생성되는 머리 좌표들(HEAD_COORs) 각각은 공간 상에서의 상기 사용자의 머리의 위치를 나타내는 x좌표값, y좌표값, 및 z좌표값을 포함하는 3차원 좌표일 수 있다.Each of the head coordinates HEAD_COORs generated from the VR HMD 100 may be three-dimensional coordinates including an x-coordinate value, a y-coordinate value, and a z-coordinate value indicating a position of the user's head in space.

모션 센서(200)는 VR HMD(100)와 인접한 위치에 설치될 수 있다.The motion sensor 200 may be installed at a position adjacent to the VR HMD 100.

일 실시예에 있어서, 모션 센서(200)는 VR HMD(100)의 외부 표면에 부착될 수 있다.In one embodiment, the motion sensor 200 may be attached to an outer surface of the VR HMD 100.

다른 실시예에 있어서, 모션 센서(200)는 VR HMD(100)에 내장(embedded)될 수 있다. 이 경우, VR HMD(100)와 모션 센서(200)는 일체로 형성될 수 있다.In another embodiment, the motion sensor 200 may be embedded in the VR HMD 100. In this case, the VR HMD 100 and the motion sensor 200 may be integrally formed.

모션 센서(200)는 상기 사용자의 손의 움직임을 감지하여 상기 사용자의 손의 위치를 나타내는 손 좌표들(HAND_COORs)을 생성하여 제어 장치(300)에 제공할 수 있다. 예를 들어, 모션 센서(200)는 주기적으로 상기 사용자의 손의 위치를 나타내는 손 좌표들(HAND_COORs)을 생성하여 제어 장치(300)에 제공할 수 있다.The motion sensor 200 may detect the movement of the user's hand, generate hand coordinates HAND_COORs indicating the position of the user's hand, and provide the generated coordinates to the control device 300. For example, the motion sensor 200 may periodically generate the hand coordinates HAND_COORs indicating the position of the user's hand and provide it to the control device 300.

모션 센서(200)로부터 생성되는 손 좌표들(HAND_COORs) 각각은 공간 상에서의 상기 사용자의 손바닥 중심의 위치를 나타내는 x좌표값, y좌표값, 및 z좌표값을 포함하는 3차원 좌표일 수 있다.Each of the hand coordinates HAND_COORs generated from the motion sensor 200 may be three-dimensional coordinates including an x-coordinate value, a y-coordinate value, and a z-coordinate value indicating a position of the palm center of the user in space.

일 실시예에 있어서, 모션 센서(200)는 Leap Motion 사가 개발한 Leap Motion Controller일 수 있다.In one embodiment, the motion sensor 200 may be a Leap Motion Controller developed by Leap Motion.

그러나 본 발명은 이에 한정되지 않으며, 실시예들에 따라서 모션 센서(200)는 사용자의 손의 움직임을 감지하여 상기 사용자의 손의 위치를 나타내는 손 좌표들(HAND_COORs)을 주기적으로 생성할 수 있는 임의의 모션 센서일 수 있다.However, the present invention is not limited thereto, and according to embodiments, the motion sensor 200 may periodically generate hand coordinates HAND_COORs indicating the position of the user's hand by sensing the movement of the user's hand. It may be a motion sensor of.

제어 장치(300)는 VR HMD(100)로부터 수신되는 머리 좌표들(HEAD_COORs) 및 모션 센서(200)로부터 수신되는 손 좌표들(HAND_COORs)에 기초하여 VR HMD(100)에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성할 수 있다.The control device 300 controls the user's hand with respect to the VR HMD 100 based on the head coordinates HEAD_COORs received from the VR HMD 100 and the hand coordinates HAND_COORs received from the motion sensor 200. Relative coordinates representing relative positions can be generated.

예를 들어, 제어 장치(300)는 손 좌표들(HAND_COORs) 각각의 좌표값에서 머리 좌표들(HEAD_COORs) 각각의 좌표값을 차감하여 상기 상대 좌표들을 생성할 수 있다.For example, the control device 300 may generate the relative coordinates by subtracting the coordinate value of each of the head coordinates HEAD_COORs from the coordinate value of each of the hand coordinates HAND_COORs.

제어 장치(300)는 상기 상대 좌표들을 따라 손 형상의 이미지가 이동하는 영상을 가상 현실 영상에 중첩하여 영상 신호(VIDEO_S)를 생성하고, 영상 신호(VIDEO_S)를 VR HMD(100)에 제공할 수 있다.The control device 300 may generate an image signal VIDEO_S by superimposing an image of a hand-shaped image moving along the relative coordinates on the virtual reality image, and provide the image signal VIDEO_S to the VR HMD 100. have.

따라서 상기 사용자는 VR HMD(100)를 통해 상기 가상 현실 영상 속에서 자신의 손이 움직임에 따라 이동하는 손 형상의 이미지를 볼 수 있으므로, 상기 사용자는 상기 가상 현실 영상의 내용에 기초하여 자신의 손을 움직일 수 있다.Accordingly, since the user can see a hand-shaped image in which the user's hand moves as the user moves in the virtual reality image through the VR HMD 100, the user based on the contents of the virtual reality image. Can move.

한편, 제어 장치(300)는 상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식할 수 있다.Meanwhile, the control device 300 may recognize a gesture represented by the movement of the user's hand based on the relative coordinates.

예를 들어, 제어 장치(300)는 상기 상대 좌표들이 시간에 따라 이동하는 이동 속도에 기초하여 상기 사용자의 손의 움직임 속에서 상기 사용자가 표시하고자 하는 상기 제스처를 획득할 수 있다.For example, the control device 300 may obtain the gesture that the user intends to display in the movement of the user's hand based on the movement speed at which the relative coordinates move with time.

제어 장치(300)는 상기 인식된 제스처에 기초하여 2차원 제스처 이미지를 생성할 수 있다.The control device 300 may generate a 2D gesture image based on the recognized gesture.

즉, 제어 장치(300)는 3차원 공간 상에서의 상기 사용자의 손의 움직임을 나타내는 상기 제스처의 차원을 2차원 평면으로 축소하여 상기 제스처에 상응하는 상기 2차원 제스처 이미지를 생성할 수 있다.That is, the control device 300 may generate the two-dimensional gesture image corresponding to the gesture by reducing the dimension of the gesture representing the movement of the user's hand in the three-dimensional space to a two-dimensional plane.

한편, 제어 장치(300)는 미리 정의된 복수의 표준 제스처들 각각과 복수의 입체 음향 효과들 각각을 서로 연결시켜 미리 저장할 수 있다.Meanwhile, the control device 300 may connect each of the plurality of predefined standard gestures and each of the plurality of stereoscopic sound effects to each other and store them in advance.

제어 장치(300)는 상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 상기 복수의 표준 제스처들 중의 하나와 일치하는지 여부를 판단할 수 있다.The control device 300 may determine whether the gesture matches one of the predefined standard gestures based on the two-dimensional gesture image.

상기 제스처가 상기 복수의 표준 제스처들과 일치하지 않는 것으로 판단되는 경우, 제어 장치(300)는 상기 인식된 제스처를 무시할 수 있다. 이 경우, 제어 장치(300)는 VR HMD(100) 및 모션 센서(200)로부터 새롭게 수신되는 머리 좌표들(HEAD_COORs) 및 손 좌표들(HAND_COORs)에 기초하여 VR HMD(100)에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상기 상대 좌표들을 생성하고, 상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처를 인식한 후, 상기 제스처가 미리 정의된 상기 복수의 표준 제스처들 중의 하나와 일치하는지 여부를 판단하는 동작을 반복적으로 수행할 수 있다.If it is determined that the gesture does not match the plurality of standard gestures, the control device 300 may ignore the recognized gesture. In this case, the control device 300 is based on the head coordinates HEAD_COORs and hand coordinates HAND_COORs newly received from the VR HMD 100 and the motion sensor 200 of the user for the VR HMD 100. Generating the relative coordinates representing the relative position of the hand, recognizing a gesture indicated by the movement of the user's hand based on the relative coordinates, and then matching the gesture to one of the predefined plurality of standard gestures May be repeatedly performed.

한편, 상기 제스처가 상기 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 제어 장치(300)는 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 제1 내지 제n 스피커들(400-1~400-n)에 제공되는 제1 내지 제n 음향 신호들(SOUND_S1~SOUND_Sn)의 출력을 제어할 수 있다.On the other hand, when it is determined that the gesture matches one of the plurality of standard gestures, the control device 300 is based on the first to n-th speakers 400 based on the stereo sound effect previously connected with the matching standard gesture. The output of the first to n th acoustic signals SOUND_S1 to SOUND_Sn provided to the -1 to 400-n may be controlled.

도 1을 참조하여 상술한 바와 같이, 본 발명의 실시예들에 따른 인터랙티브 음향 제어 시스템(10)은 미리 정의된 상기 복수의 표준 제스처들 각각과 상기 복수의 입체 음향 효과들 각각을 서로 연결시켜 미리 저장하고 있으며, VR HMD(100)를 착용한 상기 사용자의 손의 움직임을 감지하여 상기 사용자의 손의 움직임이 나타내는 제스처를 인식한 후, 상기 제스처가 미리 정의된 상기 복수의 표준 제스처들 중의 하나와 일치하는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 제1 내지 제n 음향 신호들(SOUND_S1~SOUND_Sn)의 출력을 제어하므로, 제1 내지 제n 스피커들(400-1~400-n)로부터 출력되는 소리의 입체 음향 효과는 상기 사용자의 손의 움직임이 나타내는 제스처에 따라 능동적으로 제어될 수 있다.As described above with reference to FIG. 1, the interactive sound control system 10 according to embodiments of the present invention connects each of the predefined standard gestures and each of the plurality of stereoscopic sound effects to each other in advance. And after detecting the gesture indicated by the movement of the user's hand by detecting the movement of the user's hand wearing the VR HMD 100, the gesture is one of the plurality of predefined standard gestures. In case of coincidence, the first to n-th speakers 400-1 to 400 are controlled because the output of the first to n-th sound signals SOUND_S1 to SOUND_Sn is controlled based on the stereo sound effect previously connected to the matched standard gesture. The stereoscopic sound effect of the sound output from -n) may be actively controlled according to the gesture indicated by the movement of the user's hand.

일 실시예에 있어서, 도 1에 도시된 바와 같이, 인터랙티브 음향 제어 시스템(10)은 제1 내지 제n 스피커들(400-1~400-n)이 설치된 공간과 동일한 공간에 설치되는 디스플레이 장치(500)를 더 포함할 수 있다.In an embodiment, as shown in FIG. 1, the interactive sound control system 10 may include a display device installed in the same space in which the first to n-th speakers 400-1 to 400-n are installed. 500) may be further included.

이 경우, 제어 장치(300)는 상기 가상 현실 영상에 상기 상대 좌표들을 따라 손 형상의 이미지가 이동하는 영상을 중첩시켜 생성되는 영상 신호(VIDEO_S)를 VR HMD(100) 및 디스플레이 장치(500)에 동시에 제공하고, VR HMD(100) 및 디스플레이 장치(500)는 영상 신호(VIDEO_S)에 상응하는 영상을 동시에 표시할 수 있다.In this case, the control device 300 superimposes the video signal VIDEO_S generated by superimposing the moving image of the hand-shaped image along the relative coordinates to the VR HMD 100 and the display device 500. At the same time, the VR HMD 100 and the display apparatus 500 may simultaneously display an image corresponding to the video signal VIDEO_S.

따라서 제1 내지 제n 스피커들(400-1~400-n)이 설치된 공간에 존재하는 관객들은 상기 사용자가 VR HMD(100)를 통해 보는 영상과 동일한 영상을 디스플레이 장치(500)를 통해 보면서 상기 사용자의 손의 움직임이 나타내는 제스처에 기초하여 능동적으로 가변되는 입체 음향 효과를 갖는 음향을 감상할 수 있다.Therefore, the audience present in the space where the first to n-th speakers 400-1 to 400-n are installed can see the same image through the display apparatus 500 that the user sees through the VR HMD 100. Based on the gesture indicated by the movement of the user's hand, the user may listen to the sound having a stereoscopic sound effect that is actively changed.

제어 장치(300)의 세부 구성 및 상세 동작에 대해서는 도 3을 참조하여 후술한다.The detailed configuration and detailed operation of the control device 300 will be described later with reference to FIG. 3.

도 2는 도 1에 도시된 인터랙티브 음향 제어 시스템이 구현된 일 예를 나타내는 도면이다.FIG. 2 is a diagram illustrating an example in which the interactive sound control system illustrated in FIG. 1 is implemented.

도 2에는 도 1에 도시된 인터랙티브 음향 제어 시스템(10)이 실내 공연장(1)에 구현된 예를 나타낸다.2 shows an example in which the interactive sound control system 10 shown in FIG. 1 is implemented in the indoor concert hall 1.

도 2를 참조하면, 제1 내지 제10 스피커들(SP1~SP10)(400-1~400-10)은 실내 공연장(1)의 내부 공간에 분산되어 배치될 수 있다.Referring to FIG. 2, the first to tenth speakers SP1 to SP10 400-1 to 400-10 may be distributed and disposed in the interior space of the indoor concert hall 1.

도 2에는 예시적으로 인터랙티브 음향 제어 시스템(10)이 10개의 스피커들을 포함하는 것으로 도시된다.In FIG. 2 an exemplary interactive acoustic control system 10 is shown comprising ten speakers.

그러나 본 발명은 이에 한정되지 않으며, 실시예들에 따라 인터랙티브 음향 제어 시스템(10)은 임의의 개수의 스피커들을 포함할 수 있다.However, the present invention is not limited thereto, and according to embodiments, the interactive sound control system 10 may include any number of speakers.

디스플레이 장치(500)는 실내 공연장(1)의 전면 벽면에 설치될 수 있다.The display apparatus 500 may be installed on the front wall surface of the indoor concert hall 1.

도 2에는 예시적으로 디스플레이 장치(500)가 대형 스크린인 것으로 도시된다.In FIG. 2, the display device 500 is illustratively shown as being a large screen.

그러나 본 발명은 이에 한정되지 않으며, 실시예들에 따라 디스플레이 장치(500)는 제어 장치(300)로부터 제공되는 영상 신호(VIDEO_S)를 표시할 수 있는 임의의 종류의 디스플레이 장치일 수 있다.However, the present invention is not limited thereto, and according to embodiments, the display apparatus 500 may be any kind of display apparatus capable of displaying the video signal VIDEO_S provided from the control apparatus 300.

제어 장치(300)는 VR HMD(100), 모션 센서(200), 제1 내지 제n 스피커들(400-1~400-n), 및 디스플레이 장치(500)와 유선 또는 무선으로 연결된 상태로 실내 공연장(1)의 일측에 설치될 수 있다.The control device 300 is connected to the VR HMD 100, the motion sensor 200, the first to n-th speakers 400-1 to 400-n, and the display device 500 in a wired or wireless manner. It may be installed on one side of the performance hall (1).

사용자(11)는 모션 센서(200)가 부착된 VR HMD(100)를 머리에 착용한 상태로 실내 공연장(1)의 무대(STAGE) 위에서 공연을 진행할 수 있다.The user 11 may perform a performance on the stage of the indoor performance hall 1 while wearing the VR HMD 100 to which the motion sensor 200 is attached to the head.

도 1을 참조하여 상술한 바와 같이, 사용자(11)는 VR HMD(100)를 통해 가상 현실 영상 속에서 자신의 손이 움직임에 따라 이동하는 손 형상의 이미지를 볼 수 있으므로, 사용자(11)는 상기 가상 현실 영상의 내용에 기초하여 자신의 손으로 미리 정해진 상기 복수의 표준 제스처들에 상응하는 제스처를 취함으로써 제1 내지 제n 스피커들(400-1~400-n)로부터 출력되는 소리의 입체 음향 효과를 능동적으로 제어할 수 있다.As described above with reference to FIG. 1, the user 11 may view a hand-shaped image in which the user's hand moves as the user moves through the virtual reality image through the VR HMD 100. Stereoscopic sound output from the first to n-th speakers 400-1 to 400-n by taking a gesture corresponding to the plurality of standard gestures predetermined with one's own hand based on the contents of the virtual reality image. Sound effects can be actively controlled.

따라서 실내 공연장(1)의 객석(AUDITORIUM)에 있는 관객들은 사용자(11)가 VR HMD(100)를 통해 보는 영상과 동일한 영상을 디스플레이 장치(500)를 통해 보면서 사용자(11)의 손의 움직임이 나타내는 제스처에 기초하여 능동적으로 가변되는 입체 음향 효과를 갖는 음향을 감상할 수 있다.Therefore, the audience in the auditorium (AUDITORIUM) of the indoor performance hall (1) is watching the same image that the user 11 sees through the VR HMD (100) through the display device 500, the movement of the hand of the user (11) Based on the gestures indicated, the sound with the actively changing stereoscopic sound effect can be enjoyed.

도 3은 도 1의 인터랙티브 음향 제어 시스템에 포함되는 제어 장치의 일 예를 나타내는 블록도이다.3 is a block diagram illustrating an example of a control device included in the interactive sound control system of FIG. 1.

도 3을 참조하면, 제어 장치(300)는 제스처 획득부(310), 제스처-이미지 변환부(320), 딥러닝(Deep Learning)부(330), 음향 제어부(350), 표준 제스처 데이터베이스(360), 및 영상 생성부(370)를 포함할 수 있다.Referring to FIG. 3, the control device 300 may include a gesture acquirer 310, a gesture-image converter 320, a deep learning unit 330, an acoustic controller 350, and a standard gesture database 360. And an image generator 370.

제스처 획득부(310)는 VR HMD(100)로부터 주기적으로 머리 좌표들(HEAD_COORs)을 수신하고, 모션 센서(200)로부터 주기적으로 손 좌표들(HAND_COORs)을 수신하고, 손 좌표들(HAND_COORs) 각각의 좌표값에서 머리 좌표들(HEAD_COORs) 각각의 좌표값을 차감하여 상대 좌표들(R_COORs)을 생성할 수 있다.The gesture acquirer 310 periodically receives head coordinates HEAD_COORs from the VR HMD 100, periodically receives hand coordinates HAND_COORs from the motion sensor 200, and each of the hand coordinates HAND_COORs. Relative coordinates R_COORs may be generated by subtracting a coordinate value of each of the head coordinates HEAD_COORs from a coordinate value of.

제스처 획득부(310)는 상대 좌표들(R_COORs)을 영상 생성부(370)에 제공할 수 있다.The gesture acquirer 310 may provide the relative coordinates R_COORs to the image generator 370.

영상 생성부(370)는 가상 현상 영상을 VR HMD(100) 및 디스플레이 장치(500)에 표시할 수 있다. 이 때, 영상 생성부(370)는 상대 좌표들(R_COORs)을 따라 손 형상의 이미지가 이동하는 영상을 상기 가상 현실 영상에 중첩하여 영상 신호(VIDEO_S)를 생성하고, 영상 신호(VIDEO_S)를 VR HMD(100) 및 디스플레이 장치(500)에 동시에 제공할 수 있다. 따라서 VR HMD(100) 및 디스플레이 장치(500)는 영상 신호(VIDEO_S)에 상응하는 영상을 동시에 표시할 수 있다.The image generator 370 may display the virtual development image on the VR HMD 100 and the display apparatus 500. At this time, the image generator 370 generates an image signal VIDEO_S by superimposing the image of the hand-shaped image moving along the relative coordinates R_COORs onto the virtual reality image, and converts the image signal VIDEO_S into VR. The HMD 100 and the display apparatus 500 may be simultaneously provided. Accordingly, the VR HMD 100 and the display apparatus 500 may simultaneously display an image corresponding to the video signal VIDEO_S.

한편, 제스처 획득부(310)는 상대 좌표들(R_COORs)에 기초하여 사용자(11)의 손의 움직임이 나타내는 제스처를 인식할 수 있다.The gesture acquirer 310 may recognize a gesture indicated by the movement of the hand of the user 11 based on the relative coordinates R_COORs.

일반적으로 사람이 손을 사용하여 미리 정해진 특정 제스처를 취하는 경우, 손을 잠시 멈춘 상태에서 상기 특정 제스처를 취한 후 다시 잠시 멈추는 과정을 거치게 된다.In general, when a person takes a predetermined specific gesture by using his or her hand, the user stops the hand for a while and then pauses again.

따라서 제스처 획득부(310)는 상대 좌표들(R_COORs)이 시간에 따라 이동하는 이동 속도에 기초하여 사용자(11)의 손의 움직임이 나타내는 제스처를 결정할 수 있다.Accordingly, the gesture acquirer 310 may determine a gesture indicated by the movement of the hand of the user 11 based on the movement speed at which the relative coordinates R_COORs move with time.

예를 들어, 제스처 획득부(310)는 상대 좌표들(R_COORs)의 이동 속도가 제1 문턱값보다 커지는 시점의 상대 좌표(R_COOR)를 상기 제스처의 시작 좌표로 결정하고, 상대 좌표들(R_COORs)의 이동 속도가 다시 상기 제1 문턱값보다 작아지는 시점의 상대 좌표(R_COOR)를 상기 제스처의 종료 좌표로 결정할 수 있다.For example, the gesture acquirer 310 determines the relative coordinates R_COOR at the time when the moving speed of the relative coordinates R_COORs becomes greater than the first threshold value, and determines the relative coordinates R_COORs. The relative coordinate (R_COOR) of the time point at which the moving speed of the power becomes smaller than the first threshold may be determined as the end coordinate of the gesture.

이후, 제스처 획득부(310)는 상대 좌표들(R_COORs) 중에서 상기 시작 좌표와 상기 종료 좌표 사이에 존재하는 상대 좌표들(R_COORs)을 제스처 좌표들(G_COORs)로 결정할 수 있다.Thereafter, the gesture acquirer 310 may determine relative coordinates R_COORs existing between the start coordinates and the end coordinates among the relative coordinates R_COORs as gesture coordinates G_COORs.

따라서 제스처 좌표들(G_COORs)의 궤적은 사용자(11)의 손의 움직임이 나타내는 상기 제스처를 나타낼 수 있다.Accordingly, the trajectory of the gesture coordinates G_COORs may represent the gesture indicated by the movement of the hand of the user 11.

일 실시예에 있어서, 상기 제1 문턱값은 제스처 획득부(310) 내부에 미리 저장될 수 있다.In one embodiment, the first threshold value may be stored in advance in the gesture acquirer 310.

다른 실시예에 있어서, 제스처 획득부(310)는 외부로부터 상기 제1 문턱값의 크기를 포함하는 설정 데이터를 수신하고, 상기 설정 데이터에 기초하여 상기 제1 문턱값의 크기를 가변할 수 있다.In another exemplary embodiment, the gesture acquirer 310 may receive setting data including the size of the first threshold from the outside and vary the size of the first threshold based on the setting data.

제스처 획득부(310)는 상기 제스처를 나타내는 제스처 좌표들(G_COORs)을 제스처-이미지 변환부(320)에 제공할 수 있다.The gesture acquirer 310 may provide gesture coordinates G_COORs representing the gesture to the gesture-image converter 320.

제스처-이미지 변환부(320)는 3차원 공간 상에서의 제스처 좌표들(G_COORs)의 궤적에 기초하여 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다.The gesture-image converter 320 may generate the 2D gesture image 2DG_IMG based on the trajectory of the gesture coordinates G_COORs in the 3D space.

즉, 제스처-이미지 변환부(320)는 3차원 공간 상에서의 사용자(11)의 손의 움직임을 나타내는 상기 제스처의 차원을 2차원 평면으로 축소하여 상기 제스처에 상응하는 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다.That is, the gesture-image converting unit 320 reduces the dimension of the gesture representing the movement of the hand of the user 11 in the three-dimensional space into a two-dimensional plane, thereby reducing the two-dimensional gesture image 2DG_IMG corresponding to the gesture. Can be generated.

도 4는 도 3의 제어 장치에 포함되는 제스처-이미지 변환부의 일 예를 나타내는 블록도이다.4 is a block diagram illustrating an example of a gesture-image converter included in the control device of FIG. 3.

도 4를 참조하면, 제스처-이미지 변환부(320)는 정규화부(321) 및 2차원 이미지 생성부(322)를 포함할 수 있다.Referring to FIG. 4, the gesture-image converter 320 may include a normalizer 321 and a two-dimensional image generator 322.

정규화부(321)는 제스처 좌표들(G_COORs)의 좌표값들이 미리 정해진 최소값 및 최대값 사이의 값을 갖도록 제스처 좌표들(G_COORs)의 좌표값들을 정규화하여 정규 제스처 좌표들(NOR_G_COORs)을 생성할 수 있다.The normalizer 321 may generate normal gesture coordinates NOR_G_COORs by normalizing the coordinate values of the gesture coordinates G_COORs such that the coordinate values of the gesture coordinates G_COORs have a value between a predetermined minimum value and a maximum value. have.

일반적으로 사용자들이 자신의 손으로 미리 정해진 상기 복수의 표준 제스처들에 상응하는 제스처를 취하는 경우에도, 사용자마다 취하는 제스처의 크기가 서로 다를 수 있다.In general, even when the user makes a gesture corresponding to the plurality of standard gestures predetermined with his or her hand, the gesture size of each user may be different.

따라서 사용자(11)의 손의 움직임에 따른 제스처를 인식한 이후, 상기 제스처를 상기 복수의 표준 제스처들 중의 하나로 분류할 때 정확도를 향상시키기 위해서는 상기 인식된 제스처의 크기를 일정한 크기로 정규화시킬 필요가 있다.Therefore, after recognizing a gesture according to the movement of the hand of the user 11, in order to improve accuracy when classifying the gesture into one of the plurality of standard gestures, it is necessary to normalize the size of the recognized gesture to a certain size. have.

도 1을 참조하여 상술한 바와 같이, 제스처 좌표들(G_COORs) 각각은 x좌표값, y좌표값, 및 z좌표값을 포함하는 3차원 좌표일 수 있다.As described above with reference to FIG. 1, each of the gesture coordinates G_COORs may be three-dimensional coordinates including an x coordinate value, a y coordinate value, and a z coordinate value.

따라서 정규화부(321)는 제스처 좌표들(G_COORs)의 x좌표값들, y좌표값들, 및 z좌표값들이 상기 미리 정해진 최소값 및 최대값 사이의 값을 갖도록 제스처 좌표들(G_COORs)의 x좌표값들, y좌표값들, 및 z좌표값들의 범위에 기초하여 결정되는 비율로 x좌표값들, y좌표값들, 및 z좌표값들을 스케일링(scaling)하여 정규 제스처 좌표들(NOR_G_COORs)을 생성할 수 있다.Accordingly, the normalizer 321 may determine the x coordinates of the gesture coordinates G_COORs, the y coordinate values, and the x coordinates of the gesture coordinates G_COORs such that the z coordinate values have a value between the predetermined minimum and maximum values. Scaling the x, y, and z coordinate values at a rate determined based on the range of values, y-coordinates, and z-coordinate values to generate normal gesture coordinates (NOR_G_COORs). can do.

예를 들어, 정규화부(321)는 정규 제스처 좌표들(NOR_G_COORs)의 x좌표값들, y좌표값들, 및 z좌표값들이 0과 255 사이의 값을 갖도록 제스처 좌표들(G_COORs)의 x좌표값들, y좌표값들, 및 z좌표값들을 스케일링하여 정규 제스처 좌표들(NOR_G_COORs)을 생성할 수 있다.For example, the normalizer 321 may include the x coordinates of the normal gesture coordinates NOR_G_COORs, the y coordinate values, and the x coordinates of the gesture coordinates G_COORs such that the z coordinate values have a value between 0 and 255. The values, y coordinate values, and z coordinate values may be scaled to generate normal gesture coordinates NOR_G_COORs.

이후, 정규화부(321)는 정규 제스처 좌표들(NOR_G_COORs)을 2차원 이미지 생성부(322)에 제공할 수 있다.Thereafter, the normalizer 321 may provide the normal gesture coordinates NOR_G_COORs to the 2D image generator 322.

2차원 이미지 생성부(322)는 3차원 공간 상에서의 정규 제스처 좌표들(NOR_G_COORs)의 궤적에 기초하여 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다.The 2D image generator 322 may generate the 2D gesture image 2DG_IMG based on the trajectory of the normal gesture coordinates NOR_G_COORs in the 3D space.

도 5는 도 4의 제스처-이미지 변환부에 포함되는 2차원 이미지 생성부의 일 예를 나타내는 블록도이다.FIG. 5 is a block diagram illustrating an example of a 2D image generator included in the gesture-image converter of FIG. 4.

도 5를 참조하면, 2차원 이미지 생성부(322)는 제1 이미지 생성부(323), 제2 이미지 생성부(324), 제3 이미지 생성부(325), 및 이미지 중첩부(326)를 포함할 수 있다.Referring to FIG. 5, the two-dimensional image generator 322 may include a first image generator 323, a second image generator 324, a third image generator 325, and an image overlapper 326. It may include.

제1 이미지 생성부(323)는 정규 제스처 좌표들(NOR_G_COORs)이 X-Y 평면 상으로 투영된 궤적에 상응하는 적색 선을 포함하는 제1 이미지(IMG_R)를 생성할 수 있다.The first image generator 323 may generate a first image IMG_R including a red line corresponding to the trajectory of the normal gesture coordinates NOR_G_COORs projected onto the X-Y plane.

제2 이미지 생성부(324)는 정규 제스처 좌표들(NOR_G_COORs)이 Y-Z 평면 상으로 투영된 궤적에 상응하는 녹색 선을 포함하는 제2 이미지(IMG_G)를 생성할 수 있다.The second image generator 324 may generate a second image IMG_G including a green line corresponding to the trajectory of the normal gesture coordinates NOR_G_COORs projected onto the Y-Z plane.

제3 이미지 생성부(325)는 정규 제스처 좌표들(NOR_G_COORs)이 Z-X 평면 상으로 투영된 궤적에 상응하는 청색 선을 포함하는 제3 이미지(IMG_B)를 생성할 수 있다.The third image generator 325 may generate a third image IMG_B including a blue line corresponding to the trajectory of the normal gesture coordinates NOR_G_COORs projected onto the Z-X plane.

이후, 이미지 중첩부(326)는 제1 이미지(IMG_R), 제2 이미지(IMG_G), 및 제3 이미지(IMG_B)를 중첩하여 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다.Thereafter, the image overlapping unit 326 may generate the 2D gesture image 2DG_IMG by overlapping the first image IMG_R, the second image IMG_G, and the third image IMG_B.

따라서 이미지 중첩부(326)로부터 생성되는 2차원 제스처 이미지(2DG_IMG)는 RGB 컬러 이미지에 상응할 수 있다.Therefore, the two-dimensional gesture image 2DG_IMG generated from the image overlapping unit 326 may correspond to an RGB color image.

도 6a 내지 6d는 도 5에 도시된 2차원 이미지 생성부에 의해 생성되는 2차원 이미지의 일 예를 나타내는 도면이다.6A to 6D are diagrams illustrating an example of a 2D image generated by the 2D image generator shown in FIG. 5.

도 6a는 제1 이미지 생성부(323)에 의해 생성되는 제1 이미지(IMG_R)의 일 예를 나타내고, 도 6b는 제2 이미지 생성부(324)에 의해 생성되는 제2 이미지(IMG_G)의 일 예를 나타내고, 도 6c는 제3 이미지 생성부(325)에 의해 생성되는 제3 이미지(IMG_B)의 일 예를 나타내고, 도 6d는 이미지 중첩부(326)에 의해 생성되는 2차원 제스처 이미지(2DG_IMG)의 일 예를 나타낸다.FIG. 6A illustrates an example of the first image IMG_R generated by the first image generator 323, and FIG. 6B illustrates one example of the second image IMG_G generated by the second image generator 324. For example, FIG. 6C illustrates an example of the third image IMG_B generated by the third image generator 325, and FIG. 6D illustrates a two-dimensional gesture image 2DG_IMG generated by the image overlapping unit 326. An example of) is shown.

도 5 및 6a 내지 6d에 도시된 바와 같이, 2차원 이미지 생성부(322)는 정규 제스처 좌표들(NOR_G_COORs)이 X-Y 평면, Y-Z 평면, 및 Z-X 평면으로 투영된 궤적을 각각 적색 선, 녹색 선, 및 청색 선으로 나타내는 3개의 2차원 이미지들(IMG_R, IMG_G, IMG_B)을 생성한 후, 상기 세 개의 2차원 이미지들(IMG_R, IMG_G, IMG_B)을 중첩하여 2차원 제스처 이미지(2DG_IMG)를 생성함으로써 상기 제스처의 차원을 3차원에서 2차원으로 효과적으로 축소할 수 있다.As illustrated in FIGS. 5 and 6A to 6D, the 2D image generator 322 may display a trajectory of the normal gesture coordinates NOR_G_COORs projected on the XY plane, the YZ plane, and the ZX plane, respectively, by a red line, a green line, And after generating three two-dimensional images IMG_R, IMG_G, and IMG_B represented by a blue line, the three two-dimensional images IMG_R, IMG_G, and IMG_B are superimposed to generate a two-dimensional gesture image 2DG_IMG. The dimension of the gesture can be effectively reduced from three dimensions to two dimensions.

도 7은 도 4의 제스처-이미지 변환부에 포함되는 2차원 이미지 생성부의 다른 예를 나타내는 블록도이다.FIG. 7 is a block diagram illustrating another example of a 2D image generator included in the gesture-image converter of FIG. 4.

도 7을 참조하면, 2차원 이미지 생성부(322)는 주 평면 결정부(327) 및 주 이미지 생성부(328)를 포함할 수 있다.Referring to FIG. 7, the two-dimensional image generator 322 may include a main plane determiner 327 and a main image generator 328.

주 평면 결정부(327)는 2차원 평면들 중에서 3차원 좌표들에 상응하는 정규 제스처 좌표들(NOR_G_COORs)이 투영되는 경우 정규 제스처 좌표들(NOR_G_COORs)의 궤적을 가장 잘 나타낼 수 있는 주 평면(M_PLANE)을 결정할 수 있다.The main plane determiner 327 may best represent a trajectory of the normal gesture coordinates NOR_G_COORs when the normal gesture coordinates NOR_G_COORs corresponding to the 3D coordinates are projected among the 2D planes. ) Can be determined.

예를 들어, 주 평면 결정부(327)는 정규 제스처 좌표들(NOR_G_COORs)에 대해 주성분 분석(Principal Component Analysis)을 수행하여 정규 제스처 좌표들(NOR_G_COORs)의 궤적을 가장 잘 나타내는 주 평면(M_PLANE)을 결정할 수 있다.For example, the principal plane determiner 327 performs principal component analysis on the normal gesture coordinates NOR_G_COORs to obtain a principal plane M_PLANE that best represents the trajectory of the normal gesture coordinates NOR_G_COORs. You can decide.

주성분 분석은 고차원 공간의 데이터를 정보의 손실을 최소화할 수 있는 저차원 공간의 데이터로 차원을 축소 변환하는 기법을 나타낸다. 주성분 분석은 널리 알려진 데이터 변환 기법이므로, 여기서는 주성분 분석에 대한 상세한 설명은 생략한다.Principal component analysis represents a technique for reducing and transforming a dimension of data in a high dimensional space into data in a low dimensional space that can minimize information loss. Principal component analysis is a well-known data transformation technique, and thus a detailed description of the principal component analysis is omitted here.

주 이미지 생성부(328)는 정규 제스처 좌표들(NOR_G_COORs)이 주 평면(M_PLANE) 상으로 투영된 궤적에 상응하는 단일 컬러의 선을 포함하는 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다.The main image generator 328 may generate a 2D gesture image 2DG_IMG including a line of a single color corresponding to the trajectory on which the normal gesture coordinates NOR_G_COORs are projected onto the main plane M_PLANE.

따라서 주 이미지 생성부(328)로부터 생성되는 2차원 제스처 이미지(2DG_IMG)는 단일 컬러 이미지에 상응할 수 있다.Accordingly, the 2D gesture image 2DG_IMG generated from the main image generator 328 may correspond to a single color image.

도 5에 도시된 2차원 이미지 생성부(322)는 정규 제스처 좌표들(NOR_G_COORs)을 X-Y 평면, Y-Z 평면, 및 Z-X 평면으로 각각 투영시켜 각각 적색 선, 녹색 선, 및 청색 선으로 나타내는 3개의 2차원 이미지들(IMG_R, IMG_G, IMG_B)을 생성한 후, 상기 세 개의 2차원 이미지들(IMG_R, IMG_G, IMG_B)을 중첩하여 2차원 제스처 이미지(2DG_IMG)를 생성함에 반해, 도 7에 도시된 2차원 이미지 생성부(322)는 정규 제스처 좌표들(NOR_G_COORs)의 궤적을 가장 잘 나타내는 주 평면(M_PLANE)을 결정한 후, 정규 제스처 좌표들(NOR_G_COORs)을 주 평면(M_PLANE)만으로 투영시켜 단일 컬러의 선으로 나타내는 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다.The two-dimensional image generator 322 shown in FIG. 5 projects the normal gesture coordinates NOR_G_COORs to the XY plane, the YZ plane, and the ZX plane, respectively, to represent two two lines represented by a red line, a green line, and a blue line, respectively. After generating the dimensional images IMG_R, IMG_G, and IMG_B, the three 2D images IMG_R, IMG_G, and IMG_B are superimposed to generate a 2D gesture image 2DG_IMG, whereas 2 shown in FIG. The dimensional image generator 322 determines the main plane M_PLANE that best represents the trajectory of the normal gesture coordinates NOR_G_COORs, and then projects the normal gesture coordinates NOR_G_COORs only on the main plane M_PLANE to produce a line of a single color. The 2D gesture image 2DG_IMG represented by FIG. 2 may be generated.

따라서 제어 장치(300)가 도 7에 도시된 2차원 이미지 생성부(322)를 포함하여 구성되는 경우, 2차원 이미지 생성부(322)로부터 생성되는 2차원 제스처 이미지(2DG_IMG)는 단일 컬러의 이미지에 상응하므로, 후술하는 바와 같이, 2차원 제스처 이미지(2DG_IMG)를 상기 복수의 표준 제스처들 중의 하나로 식별하는 동작을 수행하는 딥러닝부(330)는 보다 간단한 계층 구조로 구현될 수 있다.Therefore, when the control device 300 includes the two-dimensional image generator 322 illustrated in FIG. 7, the two-dimensional gesture image 2DG_IMG generated from the two-dimensional image generator 322 is a single color image. Correspondingly, as will be described later, the deep learning unit 330 for identifying the 2D gesture image 2DG_IMG as one of the plurality of standard gestures may be implemented in a simpler hierarchical structure.

다시 도 4를 참조하면, 실시예에 따라서, 제스처-이미지 변환부(320)는 모폴로지(Morphology) 필터(329)를 더 포함할 수 있다.Referring back to FIG. 4, according to an embodiment, the gesture-image converter 320 may further include a morphology filter 329.

모폴로지 필터(329)는 2차원 이미지 생성부(322)로부터 생성되는 2차원 제스처 이미지(2DG_IMG)에 대해 모폴로지 팽창(dilation) 연산 및 모폴로지 침식(erosion) 연산을 교번하여 수행하여 2차원 제스처 이미지(2DG_IMG)를 보정할 수 있다.The morphology filter 329 alternately performs a morphology dilation operation and a morphology erosion operation on the two-dimensional gesture image 2DG_IMG generated from the two-dimensional image generator 322 to perform a two-dimensional gesture image 2DG_IMG. ) Can be corrected.

예를 들어, 모폴로지 필터(329)는 2차원 제스처 이미지(2DG_IMG)에 대해 모폴로지 팽창 연산, 모폴로지 침식 연산, 및 모폴로지 팽창 연산을 순차적으로 수행하여 2차원 제스처 이미지(2DG_IMG)를 보정할 수 있다.For example, the morphology filter 329 may correct the 2D gesture image 2DG_IMG by sequentially performing a morphology expansion operation, a morphology erosion operation, and a morphology expansion operation on the 2D gesture image 2DG_IMG.

도 5내지 7을 참조하여 상술한 바와 같이, 2차원 이미지 생성부(322)로부터 생성되는 2차원 제스처 이미지(2DG_IMG)는 정규 제스처 좌표들(NOR_G_COORs)이 2차원 평면 상에 투영된 좌표들을 연결하는 선을 포함하므로, 상기 선의 굵기는 매우 가늘 수 있다.As described above with reference to FIGS. 5 to 7, the two-dimensional gesture image 2DG_IMG generated from the two-dimensional image generator 322 connects coordinates in which normal gesture coordinates NOR_G_COORs are projected onto a two-dimensional plane. Since the lines are included, the thickness of the lines can be very thin.

또한, 2차원 제스처 이미지(2DG_IMG)는 상기 제스처와는 무관한 노이즈 성분이 포함될 수도 있다.In addition, the 2D gesture image 2DG_IMG may include a noise component irrelevant to the gesture.

따라서 모폴로지 필터(329)는 2차원 제스처 이미지(2DG_IMG)에 대해 모폴로지 팽창 연산을 수행하여 2차원 제스처 이미지(2DG_IMG)에 포함되는 상기 제스처의 궤적에 상응하는 선의 면적을 증가시키고, 모폴로지 침식 연산을 수행하여 2차원 제스처 이미지(2DG_IMG)에 포함되는 노이즈 성분을 제거함으로써 2차원 제스처 이미지(2DG_IMG)를 보정할 수 있다.Accordingly, the morphology filter 329 performs a morphology expansion operation on the 2D gesture image 2DG_IMG to increase the area of the line corresponding to the trajectory of the gesture included in the 2D gesture image 2DG_IMG, and perform the morphology erosion operation. By removing the noise component included in the 2D gesture image 2DG_IMG, the 2D gesture image 2DG_IMG may be corrected.

다시 도 3을 참조하면, 딥러닝부(330)는 복수의 2차원 학습 이미지들(2DL_IMGs)을 통해 복수의 2차원 학습 이미지들(2DL_IMGs) 각각을 미리 정해진 상기 복수의 표준 제스처들 중의 하나로 분류하는 학습을 수행할 수 있다.Referring to FIG. 3 again, the deep learning unit 330 classifies each of the plurality of 2D learning images 2DL_IMGs into one of the plurality of predetermined standard gestures through the plurality of 2D learning images 2DL_IMGs. Learning can be done.

일 실시예에 있어서, 도 3에 도시된 바와 같이, 제어 장치(300)는 학습 제어부(340)를 더 포함할 수 있다.In one embodiment, as shown in FIG. 3, the control device 300 may further include a learning controller 340.

이 경우, 학습 제어부(340)는 복수의 사람들에 의해 수행되는 상기 복수의 표준 제스처들에 상응하는 손의 움직임에 기초하여 제스처-이미지 변환부(320)로부터 생성되는 복수의 2차원 제스처 이미지들을(2DG_IMGs) 복수의 2차원 학습 이미지들(2DL_IMGs)로서 미리 저장할 수 있다.In this case, the learning controller 340 may generate a plurality of two-dimensional gesture images generated from the gesture-image converter 320 based on the movement of the hand corresponding to the plurality of standard gestures performed by the plurality of people ( 2DG_IMGs) The plurality of 2D training images 2DL_IMGs may be stored in advance.

일반적으로 사용자들이 자신의 손으로 미리 정해진 상기 복수의 표준 제스처들에 상응하는 제스처를 취하는 경우에도, 사용자마다 취하는 제스처의 모양이 서로 다를 수 있다.In general, even when the user takes a gesture corresponding to the plurality of predetermined standard gestures with his or her hand, the shape of the gesture may be different for each user.

상술한 바와 같이, 학습 제어부(340)는 복수의 사람들에 의해 수행되는 상기 복수의 표준 제스처들에 상응하는 손의 움직임에 기초하여 제스처-이미지 변환부(320)로부터 생성되는 복수의 2차원 제스처 이미지들을(2DG_IMGs) 복수의 2차원 학습 이미지들(2DL_IMGs)로서 미리 저장하므로, 학습 제어부(340)에 미리 저장되는 복수의 2차원 학습 이미지들(2DL_IMGs)은 편협되지 않고 광범위한 범주를 갖는 보편적인 학습 데이터일 수 있다.As described above, the learning controller 340 is a plurality of two-dimensional gesture images generated from the gesture-image converter 320 based on the movement of the hand corresponding to the plurality of standard gestures performed by a plurality of people. Since the 2DG_IMGs are stored in advance as the plurality of 2D learning images 2DL_IMGs, the plurality of 2D learning images 2DL_IMGs stored in advance in the learning controller 340 are not narrow-tolerant and have general categories of general learning data. Can be.

한편, 학습 제어부(340)는 복수의 2차원 학습 이미지들(2DL_IMGs)을 딥러닝부(330)에 제공하여 딥러닝부(330)가 복수의 2차원 학습 이미지들(2DL_IMGs) 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하도록 딥러닝부(330)를 학습시킬 수 있다.Meanwhile, the learning controller 340 provides the plurality of 2D learning images 2DL_IMGs to the deep learning unit 330 so that the deep learning unit 330 provides each of the plurality of 2D learning images 2DL_IMGs. The deep learning unit 330 may be trained to classify as one of the standard gestures.

일 실시예에 있어서, 딥러닝부(330)는 CNN(Convolution Neural Network) 기반의 계층 구조를 가질 수 있다. 이 경우, 딥러닝부(330)에 포함되는 컨벌루션 필터(convolution filter)의 값들은 학습 제어부(340)로부터 제공되는 복수의 2차원 학습 이미지들(2DL_IMGs)을 통한 상기 학습 과정을 통해 결정될 수 있다.In one embodiment, the deep learning unit 330 may have a hierarchical structure based on CNN (Convolution Neural Network). In this case, values of a convolution filter included in the deep learning unit 330 may be determined through the learning process through the plurality of 2D learning images 2DL_IMGs provided from the learning controller 340.

딥러닝부(330)는 복수의 2차원 학습 이미지들(2DL_IMGs)을 통한 상기 학습을 종료한 이후, 사용자(11)의 손의 움직임에 기초하여 제스처-이미지 변환부(320)로부터 생성되는 2차원 제스처 이미지(2DG_IMG)를 수신하고, 2차원 제스처 이미지(2DG_IMG)를 상기 복수의 표준 제스처들 중의 하나로 분류하여 상기 분류 결과를 나타내는 결과 데이터(RES)를 생성할 수 있다.The deep learning unit 330 is a two-dimensional generated from the gesture-image converter 320 based on the movement of the hand of the user 11 after finishing the learning through the plurality of two-dimensional learning images 2DL_IMGs. The gesture image 2DG_IMG may be received, and the two-dimensional gesture image 2DG_IMG may be classified into one of the plurality of standard gestures to generate result data RES indicating the classification result.

일 실시예에 있어서, 딥러닝부(330)는 one-hot 인코딩 방식으로 인코딩된 결과 데이터(RES)를 생성할 수 있다.In an exemplary embodiment, the deep learning unit 330 may generate result data RES encoded by using a one-hot encoding method.

이 경우, 딥러닝부(330)의 출력층에 포함되는 출력 노드들의 개수는 상기 복수의 표준 제스처들의 개수와 동일하게 구현될 수 있다. 이 때, 딥러닝부(330)에 포함되는 신경망(neural network)은 2차원 제스처 이미지(2DG_IMG)가 k번째 표준 제스처에 상응하는 경우, k번째 출력 노드는 1을 출력하고 나머지 출력 노드들은 0을 출력하도록 설계될 수 있다. 결과 데이터(RES)는 딥러닝부(330)의 출력층에 포함되는 출력 노드들로부터 출력되는 값들을 포함할 수 있다.In this case, the number of output nodes included in the output layer of the deep learning unit 330 may be equal to the number of the plurality of standard gestures. In this case, when the 2D gesture image 2DG_IMG corresponds to the k th standard gesture, the neural network included in the deep learning unit 330 outputs 1 and the remaining output nodes 0. Can be designed to output. The result data RES may include values output from output nodes included in the output layer of the deep learning unit 330.

딥러닝부(330)는 결과 데이터(RES)를 음향 제어부(350)에 제공할 수 있다.The deep learning unit 330 may provide the result data RES to the sound controller 350.

한편, 제어 장치(300)는 미리 정의된 상기 복수의 표준 제스처들 각각과 복수의 입체 음향 효과들 각각을 서로 연결시켜 저장하는 표준 제스처 데이터베이스(360)를 포함할 수 있다.Meanwhile, the control device 300 may include a standard gesture database 360 that stores each of the predefined standard gestures and each of the plurality of stereoscopic sound effects in connection with each other.

예를 들어, 표준 제스처가 손을 좌측에서 우측으로 이동시키는 동작에 상응하는 경우, 상기 표준 제스처와 연결되는 입체 음향 효과는 제1 내지 제n 스피커들(400-1~400-n)을 통해 출력되는 소리가 좌측에서 우측으로 이동하는 효과에 상응할 수 있다.For example, when a standard gesture corresponds to an operation of moving a hand from left to right, the stereo sound effect connected to the standard gesture is output through the first to n-th speakers 400-1 to 400-n. This may correspond to the effect of the sound being moved from left to right.

음향 제어부(350)는 딥러닝부(330)로부터 수신되는 결과 데이터(RES)에 기초하여 사용자(11)의 손의 움직임을 나타내는 상기 제스처가 상기 복수의 표준 제스처들 중의 하나와 일치하는지 여부를 판단할 수 있다.The sound controller 350 determines whether the gesture indicating the movement of the hand of the user 11 matches one of the plurality of standard gestures based on the result data RES received from the deep learning unit 330. can do.

일 실시예에 있어서, 딥러닝부(330)가 one-hot 인코딩 방식으로 인코딩된 결과 데이터(RES)를 생성하는 경우, 음향 제어부(350)는 결과 데이터(RES)에 포함되는 출력값들 중에서 가장 큰 출력값의 크기와 제2 문턱값의 크기를 비교하여 상기 제스처가 상기 복수의 표준 제스처들 중의 하나와 일치하는지 여부를 판단할 수 있다.According to an embodiment, when the deep learning unit 330 generates the result data RES encoded by the one-hot encoding method, the sound controller 350 may have the largest output value included in the result data RES. The magnitude of the output value and the magnitude of the second threshold value may be compared to determine whether the gesture coincides with one of the plurality of standard gestures.

예를 들어, 결과 데이터(RES)에 포함되는 출력값들 중에서 k번째 출력값이 가장 크고 상기 k번째 출력값의 크기가 상기 제2 문턱값보다 작은 경우, 음향 제어부(350)는 사용자(11)의 손의 움직임을 나타내는 상기 제스처가 상기 복수의 표준 제스처들과 일치하지 않는 것으로 판단할 수 있다. 이 경우, 음향 제어부(350)는 결과 데이터(RES)를 무시할 수 있다.For example, when the k th output value is the largest among the output values included in the result data RES and the magnitude of the k th output value is smaller than the second threshold value, the sound controller 350 may be configured to control the user's hand. It may be determined that the gesture representing movement does not match the plurality of standard gestures. In this case, the sound controller 350 may ignore the result data RES.

한편, 결과 데이터(RES)에 포함되는 출력값들 중에서 k번째 출력값이 가장 크고 상기 k번째 출력값의 크기가 상기 제2 문턱값보다 크거나 같은 경우, 음향 제어부(350)는 사용자(11)의 손의 움직임을 나타내는 상기 제스처가 상기 복수의 표준 제스처들 중에서 k번째 표준 제스처와 일치하는 것으로 판단할 수 있다. 이 경우, 음향 제어부(350)는 표준 제스처 데이터베이스(360)로부터 상기 k번째 표준 제스처와 연결되는 입체 음향 효과를 독출하고, 제1 내지 제n 스피커들(400-1~400-n)을 통해 출력되는 소리가 상기 독출된 입체 음향 효과를 갖도록 제1 내지 제n 스피커들(400-1~400-n)에 제공되는 제1 내지 제n 음향 신호들(SOUND_S1~SOUND_Sn)의 출력을 제어할 수 있다.On the other hand, when the k th output value is the largest among the output values included in the result data RES and the magnitude of the k th output value is greater than or equal to the second threshold value, the sound control unit 350 controls the hand of the user 11. The gesture representing the movement may be determined to match a k-th standard gesture among the plurality of standard gestures. In this case, the sound controller 350 reads out a 3D sound effect connected to the k th standard gesture from the standard gesture database 360 and outputs the first through n-th speakers 400-1 through 400-n. The output of the first to n-th sound signals SOUND_S1 to SOUND_Sn provided to the first to n-th speakers 400-1 to 400-n may be controlled so that the sound may have the read stereoscopic sound effect. .

일 실시예에 있어서, 음향 제어부(350)는 제1 내지 제n 스피커들(400-1~400-n)로부터 출력되는 소리가 상기 독출된 입체 음향 효과를 갖도록 앰비소닉스(ambisonics) 기술에 기초하여 제1 내지 제n 음향 신호들(SOUND_S1~SOUND_Sn)의 출력을 제어할 수 있다.In one embodiment, the sound control unit 350 is based on the ambisonics technology so that the sound output from the first to n-th speaker (400-1 ~ 400-n) has the read stereoscopic sound effect The output of the first to nth sound signals SOUND_S1 to SOUND_Sn may be controlled.

도 1 내지 7을 참조하여 상술한 바와 같이, 본 발명의 실시예들에 따른 인터랙티브 음향 제어 시스템(10)은 미리 정의된 상기 복수의 표준 제스처들 각각과 상기 복수의 입체 음향 효과들 각각을 서로 연결시켜 미리 저장하고 있으며, VR HMD(100)를 착용한 사용자(11)의 손의 움직임을 감지하여 사용자(11)의 손의 움직임이 나타내는 제스처를 인식한 후, 상기 제스처가 미리 정의된 상기 복수의 표준 제스처들 중의 하나와 일치하는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 제1 내지 제n 스피커들(400-1~400-n)에 제공되는 제1 내지 제n 음향 신호들(SOUND_S1~SOUND_Sn)의 출력을 제어하므로, 제1 내지 제n 스피커들(400-1~400-n)로부터 출력되는 소리의 입체 음향 효과는 사용자(11)의 손의 움직임이 나타내는 제스처에 따라 능동적으로 제어될 수 있다.As described above with reference to FIGS. 1 to 7, the interactive sound control system 10 according to embodiments of the present invention connects each of the plurality of predefined standard gestures and each of the plurality of stereoscopic sound effects to each other. After detecting the gesture of the user 11's hand movement by detecting the movement of the hand of the user 11 wearing the VR HMD 100, the gesture is a plurality of predefined gestures When matched with one of the standard gestures, the first to n-th sound signals provided to the first to n-th speakers 400-1 to 400-n based on the stereo sound effect pre-connected with the matched standard gesture. Since the output of the sounds SOUND_S1 to SOUND_Sn is controlled, the 3D sound effect of the sound output from the first to n-th speakers 400-1 to 400-n may depend on the gesture indicated by the movement of the hand of the user 11. Actively controlled Can.

또한, 제1 내지 제n 스피커들(400-1~400-n)이 설치된 공간에 존재하는 관객들은 사용자(11)가 VR HMD(100)를 통해 보는 영상과 동일한 영상을 디스플레이 장치(500)를 통해 보면서 사용자(11)의 손의 움직임이 나타내는 제스처에 기초하여 능동적으로 가변되는 입체 음향 효과를 갖는 음향을 감상할 수 있다.In addition, the audience present in the space where the first to n th speakers 400-1 to 400-n are installed may display the same image as the image that the user 11 sees through the VR HMD 100. Looking through it, it is possible to listen to the sound having a stereoscopic sound effect that is actively changed based on the gesture indicated by the movement of the hand of the user 11.

따라서 본 발명의 실시예들에 따른 인터랙티브 음향 제어 시스템(10)은 사용자(11) 및 관객들의 영상에 대한 몰입도를 효과적으로 향상시킬 수 있다.Therefore, the interactive sound control system 10 according to the embodiments of the present invention can effectively improve the immersion degree of the image of the user 11 and the audience.

도 8은 본 발명의 일 실시예에 따른 인터랙티브 음향 제어 방법을 나타내는 순서도이다.8 is a flowchart illustrating an interactive sound control method according to an embodiment of the present invention.

도 8에 도시된 인터랙티브 음향 제어 방법은 도 1의 인터랙티브 음향 제어 시스템(10)을 통해 수행될 수 있다.The interactive sound control method illustrated in FIG. 8 may be performed through the interactive sound control system 10 of FIG. 1.

도 1 내지 8을 참조하면, 제어 장치(300)에 포함되는 제스처 획득부(310)는 사용자의 머리에 착용되는 VR HMD(100)로부터 사용자(11)의 머리의 움직임에 따른 사용자(11)의 머리의 위치를 나타내는 머리 좌표들(HEAD_COORs)을 수신할 수 있다(단계 S100).1 to 8, the gesture acquisition unit 310 included in the control device 300 may determine the movement of the user 11 according to the movement of the head of the user 11 from the VR HMD 100 worn on the user's head. Head coordinates HEAD_COORs indicating the position of the head may be received (step S100).

예를 들어, 제스처 획득부(310)는 주기적으로 VR HMD(100)로부터 사용자(11)의 머리의 위치를 나타내는 머리 좌표들(HEAD_COORs)을 수신할 수 있다.For example, the gesture acquirer 310 may periodically receive head coordinates HEAD_COORs indicating the position of the head of the user 11 from the VR HMD 100.

또한, 제스처 획득부(310)는 VR HMD(100)와 인접한 위치에 설치되는 모션 센서(200)로부터 사용자(11)의 손의 위치를 나타내는 손 좌표들(HAND_COORs)을 수신할 수 있다(단계 S200).In addition, the gesture acquirer 310 may receive hand coordinates HAND_COORs indicating the position of the hand of the user 11 from the motion sensor 200 installed at the position adjacent to the VR HMD 100 (step S200). ).

예를 들어, 제스처 획득부(310)는 주기적으로 모션 센서(200)로부터 사용자(11)의 손의 위치를 나타내는 손 좌표들(HAND_COORs)을 수신할 수 있다.For example, the gesture acquirer 310 may periodically receive hand coordinates HAND_COORs indicating the position of the hand of the user 11 from the motion sensor 200.

이후, 제스처 획득부(310)는 VR HMD(100)로부터 수신되는 머리 좌표들(HEAD_COORs) 및 모션 센서(200)로부터 수신되는 손 좌표들(HAND_COORs)에 기초하여 VR HMD(100)에 대한 사용자(11)의 손의 상대적인 위치를 나타내는 상대 좌표들(R_COORs)을 생성할 수 있다(단계 S300).Subsequently, the gesture acquirer 310 may determine a user of the VR HMD 100 based on the head coordinates HEAD_COORs received from the VR HMD 100 and the hand coordinates HAND_COORs received from the motion sensor 200. Relative coordinates R_COORs indicating the relative position of the hand 11 may be generated (step S300).

예를 들어, 제스처 획득부(310)는 손 좌표들(HAND_COORs) 각각의 좌표값에서 머리 좌표들(HEAD_COORs) 각각의 좌표값을 차감하여 상대 좌표들(R_COORs)을 생성할 수 있다.For example, the gesture acquirer 310 may generate relative coordinates R_COORs by subtracting a coordinate value of each of the head coordinates HEAD_COORs from a coordinate value of each of the hand coordinates HAND_COORs.

제어 장치(300)에 포함되는 영상 생성부(370)는 상기 상대 좌표들을 따라 손 형상의 이미지가 이동하는 영상을 가상 현실 영상에 중첩하여 영상 신호(VIDEO_S)를 생성하고(단계 S800), 영상 신호(VIDEO_S)를 VR HMD(100) 및 디스플레이 장치(500)에 동시에 제공할 수 있다(단계 S900).The image generating unit 370 included in the control device 300 generates an image signal VIDEO_S by superimposing the image of the hand-shaped image moving along the relative coordinates on the virtual reality image (step S800), and the image signal. (VIDEO_S) may be simultaneously provided to the VR HMD 100 and the display apparatus 500 (step S900).

따라서 VR HMD(100) 및 디스플레이 장치(500)는 영상 신호(VIDEO_S)에 상응하는 영상을 동시에 표시할 수 있다.Accordingly, the VR HMD 100 and the display apparatus 500 may simultaneously display an image corresponding to the video signal VIDEO_S.

한편, 제스처 획득부(310)는 상대 좌표들(R_COORs)에 기초하여 사용자(11)의 손의 움직임이 나타내는 제스처를 인식할 수 있다(단계 S400).Meanwhile, the gesture acquirer 310 may recognize a gesture indicated by the movement of the hand of the user 11 based on the relative coordinates R_COORs (step S400).

도 9는 도 8의 상대 좌표들에 기초하여 사용자의 손의 움직임이 나타내는 제스처를 인식하는 단계의 일 예를 나타내는 순서도이다.9 is a flowchart illustrating an example of recognizing a gesture represented by a movement of a user's hand based on the relative coordinates of FIG. 8.

일반적으로 사람이 손을 사용하여 미리 정해진 특정 제스처를 취하는 경우, 손을 잠시 멈춘 상태에서 상기 특정 제스처를 취한 후 다시 잠시 멈추는 과정을 거치게 된다.In general, when a person takes a predetermined specific gesture by using his or her hand, the user stops the hand for a while and then pauses again.

따라서 제스처 획득부(310)는 상대 좌표들(R_COORs)이 시간에 따라 이동하는 이동 속도에 기초하여 사용자(11)의 손의 움직임이 나타내는 제스처를 결정할 수 있다.Accordingly, the gesture acquirer 310 may determine a gesture indicated by the movement of the hand of the user 11 based on the movement speed at which the relative coordinates R_COORs move with time.

예를 들어, 도 9에 도시된 바와 같이, 제스처 획득부(310)는 상대 좌표들(R_COORs)의 이동 속도가 제1 문턱값보다 커지는 시점의 상대 좌표(R_COOR)를 상기 제스처의 시작 좌표로 결정하고(단계 S410), 상대 좌표들(R_COORs)의 이동 속도가 다시 상기 제1 문턱값보다 작아지는 시점의 상대 좌표(R_COOR)를 상기 제스처의 종료 좌표로 결정할 수 있다(단계 S420).For example, as shown in FIG. 9, the gesture acquirer 310 determines the relative coordinates R_COOR at the time when the moving speed of the relative coordinates R_COORs becomes larger than the first threshold value as the start coordinates of the gesture. In operation S410, the relative coordinates R_COOR at the time when the moving speed of the relative coordinates R_COORs become smaller than the first threshold may be determined as the end coordinates of the gesture (step S420).

일 실시예에 있어서, 상기 제1 문턱값은 제스처 획득부(310) 내부에 미리 저장될 수 있다.In one embodiment, the first threshold value may be stored in advance in the gesture acquirer 310.

다른 실시예에 있어서, 제스처 획득부(310)는 외부로부터 상기 제1 문턱값의 크기를 포함하는 설정 데이터를 수신하고, 상기 설정 데이터에 기초하여 상기 제1 문턱값의 크기를 가변할 수 있다.In another exemplary embodiment, the gesture acquirer 310 may receive setting data including the size of the first threshold from the outside and vary the size of the first threshold based on the setting data.

이후, 제스처 획득부(310)는 상대 좌표들(R_COORs) 중에서 상기 시작 좌표와 상기 종료 좌표 사이에 존재하는 상대 좌표들(R_COORs)을 제스처 좌표들(G_COORs)로 결정할 수 있다(단계 S430).Thereafter, the gesture acquirer 310 may determine the relative coordinates R_COORs existing between the start coordinates and the end coordinates among the relative coordinates R_COORs as gesture coordinates G_COORs (step S430).

따라서 제스처 좌표들(G_COORs)의 궤적은 사용자(11)의 손의 움직임이 나타내는 상기 제스처를 나타낼 수 있다.Accordingly, the trajectory of the gesture coordinates G_COORs may represent the gesture indicated by the movement of the hand of the user 11.

다시 도 8을 참조하면, 제어 장치(300)에 포함되는 제스처-이미지 변환부(320)는 상기 제스처를 나타내는 3차원 공간 상에서의 제스처 좌표들(G_COORs)의 궤적에 기초하여 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다(단계 S500).Referring back to FIG. 8, the gesture-image converter 320 included in the control device 300 may determine the two-dimensional gesture image 2DG_IMG based on the trajectory of the gesture coordinates G_COORs in the three-dimensional space representing the gesture. ) Can be generated (step S500).

즉, 제스처-이미지 변환부(320)는 3차원 공간 상에서의 사용자(11)의 손의 움직임을 나타내는 상기 제스처의 차원을 2차원 평면으로 축소하여 상기 제스처에 상응하는 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다.That is, the gesture-image converting unit 320 reduces the dimension of the gesture representing the movement of the hand of the user 11 in the three-dimensional space into a two-dimensional plane, thereby reducing the two-dimensional gesture image 2DG_IMG corresponding to the gesture. Can be generated.

도 10은 도 8의 인식된 제스처에 기초하여 2차원 제스처 이미지를 생성하는 단계의 일 예를 나타내는 순서도이다.FIG. 10 is a flowchart illustrating an example of generating a two-dimensional gesture image based on the recognized gesture of FIG. 8.

도 10을 참조하면, 제스처-이미지 변환부(320)는 제스처 좌표들(G_COORs)의 좌표값들이 미리 정해진 최소값 및 최대값 사이의 값을 갖도록 제스처 좌표들(G_COORs)의 좌표값들을 정규화하여 정규 제스처 좌표들(NOR_G_COORs)을 생성할 수 있다(단계 S510).Referring to FIG. 10, the gesture-image converter 320 normalizes coordinate values of the gesture coordinates G_COORs so that the coordinate values of the gesture coordinates G_COORs have a value between a predetermined minimum value and a maximum value. Coordinates NOR_G_COORs may be generated (step S510).

일 실시예에 있어서, 제스처-이미지 변환부(320)는 제스처 좌표들(G_COORs)의 x좌표값들, y좌표값들, 및 z좌표값들이 상기 미리 정해진 최소값 및 최대값 사이의 값을 갖도록 제스처 좌표들(G_COORs)의 x좌표값들, y좌표값들, 및 z좌표값들의 범위에 기초하여 결정되는 비율로 x좌표값들, y좌표값들, 및 z좌표값들을 스케일링(scaling)하여 정규 제스처 좌표들(NOR_G_COORs)을 생성할 수 있다.In an embodiment, the gesture-image converting unit 320 may include a gesture such that the x coordinate values, y coordinate values, and z coordinate values of the gesture coordinates G_COORs have a value between the predetermined minimum and maximum values. The x-coordinates, y-coordinates, and z-coordinates are scaled and normalized at a rate determined based on the range of x-coordinates, y-coordinates, and z-coordinates of the coordinates G_COORs. Gesture coordinates NOR_G_COORs may be generated.

이후, 제스처-이미지 변환부(320)는 3차원 공간 상에서의 정규 제스처 좌표들(NOR_G_COORs)의 궤적에 기초하여 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다(단계 S520).Subsequently, the gesture-image converter 320 may generate the 2D gesture image 2DG_IMG based on the trajectory of the normal gesture coordinates NOR_G_COORs in the 3D space (step S520).

일 실시예에 있어서, 도 5 및 6을 참조하여 상술한 바와 같이, 제스처-이미지 변환부(320)는 정규 제스처 좌표들(NOR_G_COORs)이 X-Y 평면 상으로 투영된 궤적에 상응하는 적색 선을 포함하는 제1 이미지(IMG_R)를 생성하고, 정규 제스처 좌표들(NOR_G_COORs)이 Y-Z 평면 상으로 투영된 궤적에 상응하는 녹색 선을 포함하는 제2 이미지(IMG_G)를 생성하고, 정규 제스처 좌표들(NOR_G_COORs)이 Z-X 평면 상으로 투영된 궤적에 상응하는 청색 선을 포함하는 제3 이미지(IMG_B)를 생성한 후, 제1 이미지(IMG_R), 제2 이미지(IMG_G), 및 제3 이미지(IMG_B)를 중첩하여 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다.In one embodiment, as described above with reference to FIGS. 5 and 6, the gesture-image converter 320 includes a red line corresponding to the trajectory of the normal gesture coordinates NOR_G_COORs projected onto the XY plane. Generate a first image IMG_R, generate a second image IMG_G including a green line corresponding to the trajectory where the normal gesture coordinates NOR_G_COORs are projected onto the YZ plane, and generate the normal gesture coordinates NOR_G_COORs After generating a third image IMG_B including a blue line corresponding to the trajectory projected onto the ZX plane, the first image IMG_R, the second image IMG_G, and the third image IMG_B are superimposed. The 2D gesture image 2DG_IMG may be generated.

이 경우, 제스처-이미지 변환부(320)로부터 생성되는 2차원 제스처 이미지(2DG_IMG)는 RGB 컬러 이미지에 상응할 수 있다.In this case, the 2D gesture image 2DG_IMG generated from the gesture-image converter 320 may correspond to an RGB color image.

다른 실시예에 있어서, 도 7을 참조하여 상술한 바와 같이, 제스처-이미지 변환부(320)는 2차원 평면들 중에서 3차원 좌표들에 상응하는 정규 제스처 좌표들(NOR_G_COORs)이 투영되는 경우 정규 제스처 좌표들(NOR_G_COORs)의 궤적을 가장 잘 나타낼 수 있는 주 평면(M_PLANE)을 결정할 수 있다.In another embodiment, as described above with reference to FIG. 7, the gesture-image converter 320 may perform a normal gesture when normal gesture coordinates NOR_G_COORs corresponding to three-dimensional coordinates of two-dimensional planes are projected. A main plane M_PLANE that may best represent the trajectory of the coordinates NOR_G_COORs may be determined.

예를 들어, 제스처-이미지 변환부(320)는 정규 제스처 좌표들(NOR_G_COORs)에 대해 주성분 분석(Principal Component Analysis)을 수행하여 정규 제스처 좌표들(NOR_G_COORs)의 궤적을 가장 잘 나타내는 주 평면(M_PLANE)을 결정할 수 있다.For example, the gesture-image converter 320 performs a principal component analysis on the normal gesture coordinates NOR_G_COORs to best represent the trajectories of the normal gesture coordinates NOR_G_COORs. Can be determined.

이후, 제스처-이미지 변환부(320)는 정규 제스처 좌표들(NOR_G_COORs)이 주 평면(M_PLANE) 상으로 투영된 궤적에 상응하는 단일 컬러의 선을 포함하는 2차원 제스처 이미지(2DG_IMG)를 생성할 수 있다.Subsequently, the gesture-image converter 320 may generate a 2D gesture image 2DG_IMG including a line of a single color corresponding to the trajectory on which the normal gesture coordinates NOR_G_COORs are projected onto the main plane M_PLANE. have.

이 경우, 제스처-이미지 변환부(320)로부터 생성되는 2차원 제스처 이미지(2DG_IMG)는 단일 컬러 이미지에 상응할 수 있다.In this case, the two-dimensional gesture image 2DG_IMG generated from the gesture-image converter 320 may correspond to a single color image.

한편, 실시예에 따라서, 도 10에 도시된 바와 같이, 제스처-이미지 변환부(320)는 2차원 제스처 이미지(2DG_IMG)에 대해 모폴로지(Morphology) 팽창(dilation) 연산 및 모폴로지 침식(erosion) 연산을 교번하여 수행하여 2차원 제스처 이미지(2DG_IMG)를 보정하는 동작을 추가적으로 수행할 수 있다(단계 S530).Meanwhile, according to an embodiment, as shown in FIG. 10, the gesture-image converter 320 performs a morphology expansion and a morphology erosion operation on the two-dimensional gesture image 2DG_IMG. Alternately, an operation of correcting the 2D gesture image 2DG_IMG may be additionally performed (step S530).

예를 들어, 제스처-이미지 변환부(320)는 2차원 제스처 이미지(2DG_IMG)에 대해 모폴로지 팽창 연산을 수행하여 2차원 제스처 이미지(2DG_IMG)에 포함되는 상기 제스처의 궤적에 상응하는 선의 면적을 증가시키고, 모폴로지 침식 연산을 수행하여 2차원 제스처 이미지(2DG_IMG)에 포함되는 노이즈 성분을 제거함으로써 2차원 제스처 이미지(2DG_IMG)를 보정할 수 있다.For example, the gesture-image converter 320 performs a morphological expansion operation on the 2D gesture image 2DG_IMG to increase the area of the line corresponding to the trajectory of the gesture included in the 2D gesture image 2DG_IMG. The dimensional erosion operation may be performed to remove the noise component included in the 2D gesture image 2DG_IMG, thereby correcting the 2D gesture image 2DG_IMG.

다시 도 8을 참조하면, 제어 장치(300)는 상기 인식된 제스처에 상응하는 2차원 제스처 이미지(2DG_IMG)에 기초하여 상기 인식된 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는지 여부를 판단할 수 있다(단계 S600).Referring back to FIG. 8, the control device 300 determines whether the recognized gesture matches one of a plurality of predefined standard gestures based on the two-dimensional gesture image 2DG_IMG corresponding to the recognized gesture. It can be determined (step S600).

구체적으로, 도 3을 참조하여 상술한 바와 같이, 제어 장치(300)에 포함되는 학습 제어부(340)는 복수의 사람들에 의해 수행되는 상기 복수의 표준 제스처들에 상응하는 손의 움직임에 기초하여 제스처-이미지 변환부(320)로부터 생성되는 복수의 2차원 제스처 이미지들을(2DG_IMGs) 복수의 2차원 학습 이미지들(2DL_IMGs)로서 미리 저장할 수 있다.Specifically, as described above with reference to FIG. 3, the learning control unit 340 included in the control device 300 gestures based on the movement of the hand corresponding to the plurality of standard gestures performed by a plurality of people. The plurality of 2D gesture images generated from the image converter 320 may be stored in advance as the plurality of 2D learning images 2DL_IMGs.

이후, 학습 제어부(340)는 복수의 2차원 학습 이미지들(2DL_IMGs)을 딥러닝부(330)에 제공하여 딥러닝부(330)가 복수의 2차원 학습 이미지들(2DL_IMGs) 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하도록 딥러닝부(330)를 학습시킬 수 있다.Thereafter, the learning controller 340 provides the plurality of 2D learning images 2DL_IMGs to the deep learning unit 330 so that the deep learning unit 330 provides each of the plurality of 2D learning images 2DL_IMGs. The deep learning unit 330 may be trained to classify as one of the standard gestures.

일 실시예에 있어서, 딥러닝부(330)는 CNN(Convolution Neural Network) 기반의 계층 구조를 가질 수 있다. 이 경우, 딥러닝부(330)에 포함되는 컨벌루션 필터(convolution filter)의 값들은 학습 제어부(340)로부터 제공되는 복수의 2차원 학습 이미지들(2DL_IMGs)을 통한 상기 학습 과정을 통해 결정될 수 있다.In one embodiment, the deep learning unit 330 may have a hierarchical structure based on CNN (Convolution Neural Network). In this case, values of a convolution filter included in the deep learning unit 330 may be determined through the learning process through the plurality of 2D learning images 2DL_IMGs provided from the learning controller 340.

딥러닝부(330)는 복수의 2차원 학습 이미지들(2DL_IMGs)을 통한 상기 학습을 종료한 이후, 사용자(11)의 손의 움직임에 기초하여 제스처-이미지 변환부(320)로부터 생성되는 2차원 제스처 이미지(2DG_IMG)를 수신하고, 2차원 제스처 이미지(2DG_IMG)를 상기 복수의 표준 제스처들 중의 하나로 분류하여 상기 분류 결과를 나타내는 결과 데이터(RES)를 생성할 수 있다.The deep learning unit 330 is a two-dimensional generated from the gesture-image converter 320 based on the movement of the hand of the user 11 after finishing the learning through the plurality of two-dimensional learning images 2DL_IMGs. The gesture image 2DG_IMG may be received, and the two-dimensional gesture image 2DG_IMG may be classified into one of the plurality of standard gestures to generate result data RES indicating the classification result.

음향 제어부(350)는 딥러닝부(330)로부터 수신되는 결과 데이터(RES)에 기초하여 사용자(11)의 손의 움직임을 나타내는 상기 제스처가 상기 복수의 표준 제스처들 중의 하나와 일치하는지 여부를 판단할 수 있다.The sound controller 350 determines whether the gesture indicating the movement of the hand of the user 11 matches one of the plurality of standard gestures based on the result data RES received from the deep learning unit 330. can do.

상기 제스처가 상기 복수의 표준 제스처들과 일치하지 않는 것으로 판단되는 경우(단계 S600; 아니오), 음향 제어부(350)는 결과 데이터(RES)를 무시할 수 있다. 이 경우, 제어 장치(300)는 VR HMD(100) 및 모션 센서(200)로부터 새롭게 수신되는 머리 좌표들(HEAD_COORs) 및 손 좌표들(HAND_COORs)에 기초하여 VR HMD(100)에 대한 사용자(11)의 손의 상대적인 위치를 나타내는 상대 좌표들(R_COORs)을 생성하고, 상대 좌표들(R_COORs)에 기초하여 사용자(11)의 손의 움직임이 나타내는 제스처를 인식한 후, 상기 제스처가 미리 정의된 상기 복수의 표준 제스처들 중의 하나와 일치하는지 여부를 판단하는 동작을 반복적으로 수행할 수 있다.If it is determined that the gesture does not match the plurality of standard gestures (step S600; NO), the sound controller 350 may ignore the result data RES. In this case, the control device 300 based on the head coordinates HEAD_COORs and hand coordinates HAND_COORs newly received from the VR HMD 100 and the motion sensor 200. After generating the relative coordinates (R_COORs) indicating the relative position of the hand of), and recognizes the gesture represented by the movement of the hand of the user 11 based on the relative coordinates (R_COORs), the gesture is predefined An operation of determining whether or not coinciding with one of the plurality of standard gestures may be repeatedly performed.

한편, 상기 제스처가 상기 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우(단계 S600; 예), 음향 제어부(350)는 상기 복수의 표준 제스처들 각각과 복수의 입체 음향 효과들 각각을 서로 연결시켜 저장하는 표준 제스처 데이터베이스(360)로부터 상기 일치하는 표준 제스처와 연결되는 입체 음향 효과를 독출하고, 상기 독출된 입체 음향 효과에 기초하여 사용자(11)가 존재하는 공간 상에 분산되어 배치되는 제1 내지 제n 스피커들(400-1~400-n)에 제공되는 제1 내지 제n 음향 신호들(SOUND_S1~SOUND_Sn)의 출력을 제어할 수 있다(단계 S700).On the other hand, when it is determined that the gesture is matched with one of the plurality of standard gestures (step S600; YES), the sound controller 350 makes each of the plurality of standard gestures and each of the plurality of stereoscopic sound effects mutually different. Reads a stereo sound effect connected to the matching standard gesture from a standard gesture database 360 that is connected and stored, and is distributed and disposed in a space where the user 11 is based on the read stereo sound effect. The output of the first to nth sound signals SOUND_S1 to SOUND_Sn provided to the first to nth speakers 400-1 to 400-n may be controlled (S700).

도 8 내지 10을 참조하여 상술한 인터랙티브 음향 제어 방법은 도 1의 인터랙티브 음향 제어 시스템(10)을 통해 수행될 수 있다.The interactive sound control method described above with reference to FIGS. 8 to 10 may be performed through the interactive sound control system 10 of FIG. 1.

도 1에 도시된 인터랙티브 음향 제어 시스템(10)의 구성 및 동작에 대해서는 도 1 내지 7을 참조하여 상세히 설명하였으므로, 여기서는 도 8 내지 10에 기재된 각 단계들에 대한 상세한 설명은 생략한다.Since the configuration and operation of the interactive sound control system 10 illustrated in FIG. 1 have been described in detail with reference to FIGS. 1 to 7, detailed descriptions of the steps described in FIGS. 8 to 10 will be omitted.

도 1 내지 10을 참조하여 상술한 바와 같이, 본 발명의 실시예들에 따른 인터랙티브 음향 제어 방법은 미리 정의된 상기 복수의 표준 제스처들 각각과 상기 복수의 입체 음향 효과들 각각을 서로 연결시켜 미리 저장하고 있으며, VR HMD(100)를 착용한 사용자(11)의 손의 움직임을 감지하여 사용자(11)의 손의 움직임이 나타내는 제스처를 인식한 후, 상기 제스처가 미리 정의된 상기 복수의 표준 제스처들 중의 하나와 일치하는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 제1 내지 제n 스피커들(400-1~400-n)에 제공되는 제1 내지 제n 음향 신호들(SOUND_S1~SOUND_Sn)의 출력을 제어하므로, 제1 내지 제n 스피커들(400-1~400-n)로부터 출력되는 소리의 입체 음향 효과는 사용자(11)의 손의 움직임이 나타내는 제스처에 따라 능동적으로 제어될 수 있다.As described above with reference to FIGS. 1 to 10, the interactive sound control method according to embodiments of the present invention pre-stores each of the plurality of predefined standard gestures and the plurality of stereoscopic sound effects by interconnecting each other. After detecting the movement of the hand of the user 11 wearing the VR HMD 100 and recognizing the gesture indicated by the movement of the user 11, the gestures are predefined. In case of matching with one of the first to n-th sound signals SOUND_S1 provided to the first to n-th speakers 400-1 to 400-n based on the stereo sound effect previously connected with the matching standard gesture. Since the output of ˜SOUND_Sn) is controlled, the 3D sound effect of the sound output from the first to n-th speakers 400-1 to 400-n is actively controlled according to the gesture indicated by the movement of the hand of the user 11. Could be have.

또한, 제1 내지 제n 스피커들(400-1~400-n)이 설치된 공간에 존재하는 관객들은 사용자(11)가 VR HMD(100)를 통해 보는 영상과 동일한 영상을 디스플레이 장치(500)를 통해 보면서 사용자(11)의 손의 움직임이 나타내는 제스처에 기초하여 능동적으로 가변되는 입체 음향 효과를 갖는 음향을 감상할 수 있다.In addition, the audience present in the space where the first to n th speakers 400-1 to 400-n are installed may display the same image as the image that the user 11 sees through the VR HMD 100. Looking through it, it is possible to listen to the sound having a stereoscopic sound effect that is actively changed based on the gesture indicated by the movement of the hand of the user 11.

따라서 본 발명의 실시예들에 따른 인터랙티브 음향 제어 방법은 사용자(11) 및 관객들의 영상에 대한 몰입도를 효과적으로 향상시킬 수 있다.Therefore, the interactive sound control method according to the embodiments of the present invention can effectively improve the immersion of the image of the user 11 and the audience.

본 발명은 실내 공연장 등에서 복수의 스피커들을 통해 출력되는 소리의 입체 음향 효과를 능동적으로 제어하는 데에 유용하게 이용될 수 있다.The present invention can be usefully used to actively control the three-dimensional sound effect of the sound output through a plurality of speakers in an indoor concert hall.

상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.As described above, the present invention has been described with reference to a preferred embodiment of the present invention, but those skilled in the art may vary the present invention without departing from the spirit and scope of the present invention as set forth in the claims below. It will be understood that modifications and changes can be made.

10: 인터랙티브 음향 제어 시스템 100: VR HMD
200: 모션 센서 300: 제어 장치
310: 제스처 획득부 320: 제스처-이미지 변환부
321: 정규화부 322: 2차원 이미지 생성부
323: 제1 이미지 생성부 324: 제2 이미지 생성부
325: 제3 이미지 생성부 326: 이미지 중첩부
327: 주 평면 결정부 328: 주 이미지 생성부
329: 모폴로지 필터 330: 딥러닝부
340: 학습 제어부 350: 음향 제어부
360: 표준 제스처 데이터베이스 370: 영상 생성부
400-1~400-n: 제1 내지 제n 스피커들 500: 디스플레이 장치
10: interactive sound control system 100: VR HMD
200: motion sensor 300: control device
310: gesture acquisition unit 320: gesture-image conversion unit
321: Normalization unit 322: 2D image generating unit
323: First image generator 324: Second image generator
325: Third image generating unit 326: Image superimposing unit
327: main plane determining unit 328: main image generating unit
329: morphology filter 330: deep learning unit
340: learning control unit 350: sound control unit
360: standard gesture database 370: image generator
400-1 to 400-n: first to nth speakers 500: display device

Claims (24)

공간 상에 분산되어 배치되는 제1 내지 제n 스피커들;
상기 공간 상에 존재하는 사용자의 머리에 착용되고, 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들을 생성하는 VR(Virtual Reality) HMD(Head Mounted Display);
상기 사용자의 손의 움직임을 감지하여 상기 사용자의 손의 위치를 나타내는 손 좌표들을 생성하는 모션 센서; 및
상기 제1 내지 제n 스피커들 각각에 제1 내지 제n 음향 신호들을 제공하고, 상기 VR HMD에 영상 신호를 제공하는 제어 장치를 포함하고,
상기 제어 장치는 상기 손 좌표들 각각의 좌표값에서 상기 머리 좌표들 각각의 좌표값을 차감하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성하고, 상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식하고, 상기 제스처에 기초하여 2차원 제스처 이미지를 생성하고, 상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 제1 내지 제n 음향 신호들의 출력을 제어하는 인터랙티브 음향 제어 시스템.
First to n-th speakers distributed in a space;
A Virtual Reality (VR) Head Mounted Display (HMD) that is worn on a user's head existing in the space and generates head coordinates indicating a position of the user's head according to the movement of the user's head;
A motion sensor for detecting hand movement of the user and generating hand coordinates indicating a position of the user's hand; And
A control device providing first to nth sound signals to each of the first to nth speakers and providing a video signal to the VR HMD;
The control device generates relative coordinates representing the relative position of the user's hand with respect to the VR HMD by subtracting the coordinate value of each of the head coordinates from the coordinate value of each of the hand coordinates, and based on the relative coordinates. Recognize a gesture represented by the movement of the user's hand, generate a two-dimensional gesture image based on the gesture, and based on the two-dimensional gesture image, the gesture is one of a plurality of predefined standard gestures. And if determined to match one, control the output of the first to nth acoustic signals based on the stereophonic effect previously associated with the matching standard gesture.
제1 항에 있어서, 상기 제어 장치는,
상기 모션 센서로부터 수신되는 상기 손 좌표들 각각의 좌표값에서 상기 VR HMD로부터 수신되는 상기 머리 좌표들 각각의 좌표값을 차감하여 상기 상대 좌표들을 생성하고, 상기 상대 좌표들의 이동 속도에 기초하여 상기 제스처를 결정하고, 상기 상대 좌표들 중에서 상기 제스처를 나타내는 상대 좌표들을 제스처 좌표들로 결정하는 제스처 획득부;
3차원 공간 상에서의 상기 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 제스처-이미지 변환부;
복수의 2차원 학습 이미지들을 통해 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하는 학습을 수행한 후, 상기 제스처-이미지 변환부로부터 제공되는 상기 2차원 제스처 이미지를 상기 복수의 표준 제스처들 중의 하나로 분류하는 딥러닝(Deep Learning)부;
상기 복수의 표준 제스처들 각각과 복수의 입체 음향 효과들 각각을 서로 연결시켜 저장하는 표준 제스처 데이터베이스; 및
상기 표준 제스처 데이터베이스로부터 상기 딥러닝부에 의해 분류된 표준 제스처와 연결되는 입체 음향 효과를 독출하고, 상기 독출된 입체 음향 효과에 기초하여 상기 제1 내지 제n 음향 신호들의 출력을 제어하는 음향 제어부를 포함하는 인터랙티브 음향 제어 시스템.
The method of claim 1, wherein the control device,
The relative coordinates are generated by subtracting a coordinate value of each of the head coordinates received from the VR HMD from a coordinate value of each of the hand coordinates received from the motion sensor, and generating the relative coordinates based on a movement speed of the relative coordinates. A gesture obtaining unit determining a relative coordinates representing the gesture among the relative coordinates as gesture coordinates;
A gesture-image converter configured to generate the two-dimensional gesture image based on the trajectory of the gesture coordinates in a three-dimensional space;
After classifying each of the plurality of two-dimensional learning images into one of the plurality of standard gestures through a plurality of two-dimensional learning images, the two-dimensional gesture image provided from the gesture-image converting unit is read. A deep learning unit classifying one of the plurality of standard gestures;
A standard gesture database that stores each of the plurality of standard gestures and each of the plurality of stereo sound effects in connection with each other; And
A sound controller configured to read stereoscopic sound effects connected to standard gestures classified by the deep learning unit from the standard gesture database, and to control output of the first to nth acoustic signals based on the read stereoscopic sound effects; Interactive sound control system comprising.
제2 항에 있어서, 상기 제스처 획득부는,
상기 상대 좌표들의 이동 속도가 문턱값보다 커지는 시점의 상대 좌표를 상기 제스처의 시작 좌표로 결정하고, 상기 상대 좌표들의 이동 속도가 상기 문턱값보다 작아지는 시점의 상대 좌표를 상기 제스처의 종료 좌표로 결정하고, 상기 상대 좌표들 중에서 상기 시작 좌표와 상기 종료 좌표 사이에 존재하는 상대 좌표들을 상기 제스처 좌표들로 결정하는 인터랙티브 음향 제어 시스템.
The method of claim 2, wherein the gesture obtaining unit,
The relative coordinates of the time when the movement speed of the relative coordinates is greater than the threshold is determined as the start coordinates, and the relative coordinates of the time when the movement speed of the relative coordinates are smaller than the threshold value are determined as the end coordinates of the gesture. And determine relative coordinates existing between the start coordinates and the end coordinates among the relative coordinates as the gesture coordinates.
제3 항에 있어서, 상기 문턱값은 상기 제스처 획득부 내부에 미리 저장되는 인터랙티브 음향 제어 시스템.The interactive sound control system of claim 3, wherein the threshold is pre-stored in the gesture acquirer. 제4 항에 있어서, 상기 제스처 획득부는 외부로부터 설정 데이터를 수신하고, 상기 설정 데이터에 기초하여 상기 문턱값의 크기를 가변하는 인터랙티브 음향 제어 시스템.The interactive sound control system of claim 4, wherein the gesture obtaining unit receives setting data from an outside and varies the magnitude of the threshold value based on the setting data. 제2 항에 있어서, 상기 제스처-이미지 변환부는,
상기 제스처 좌표들의 좌표값들이 미리 정해진 최소값 및 최대값 사이의 값을 갖도록 상기 제스처 좌표들의 좌표값들을 정규화하여 정규 제스처 좌표들을 생성하는 정규화부; 및
3차원 공간 상에서의 상기 정규 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 2차원 이미지 생성부를 포함하는 인터랙티브 음향 제어 시스템.
The method of claim 2, wherein the gesture-image conversion unit,
A normalizer for generating normal gesture coordinates by normalizing the coordinate values of the gesture coordinates such that the coordinate values of the gesture coordinates have a value between a predetermined minimum value and a maximum value; And
And a two-dimensional image generator for generating the two-dimensional gesture image based on a trajectory of the normal gesture coordinates in a three-dimensional space.
제6 항에 있어서, 상기 2차원 이미지 생성부는,
상기 정규 제스처 좌표들이 X-Y 평면 상으로 투영된 궤적에 상응하는 적색 선을 포함하는 제1 이미지를 생성하는 제1 이미지 생성부;
상기 정규 제스처 좌표들이 Y-Z 평면 상으로 투영된 궤적에 상응하는 녹색 선을 포함하는 제2 이미지를 생성하는 제2 이미지 생성부;
상기 정규 제스처 좌표들이 Z-X 평면 상으로 투영된 궤적에 상응하는 청색 선을 포함하는 제3 이미지를 생성하는 제3 이미지 생성부; 및
상기 제1 이미지, 상기 제2 이미지, 및 상기 제3 이미지를 중첩하여 상기 2차원 제스처 이미지를 생성하는 이미지 중첩부를 포함하는 인터랙티브 음향 제어 시스템.
The method of claim 6, wherein the two-dimensional image generating unit,
A first image generator configured to generate a first image including a red line corresponding to the trajectory of the normal gesture coordinates projected on the XY plane;
A second image generator configured to generate a second image including a green line corresponding to the trajectory of the normal gesture coordinates projected onto the YZ plane;
A third image generator configured to generate a third image including a blue line corresponding to the trajectory of the normal gesture coordinates projected on the ZX plane; And
And an image superimposing unit configured to overlap the first image, the second image, and the third image to generate the two-dimensional gesture image.
제6 항에 있어서, 상기 2차원 이미지 생성부는,
상기 정규 제스처 좌표들에 대해 주성분 분석(Principal Component Analysis)을 수행하여 상기 정규 제스처 좌표들의 궤적을 가장 잘 나타내는 주 평면을 결정하는 주 평면 결정부; 및
상기 정규 제스처 좌표들이 상기 주 평면 상으로 투영된 궤적에 상응하는 단일 컬러의 선을 포함하는 상기 2차원 제스처 이미지를 생성하는 주 이미지 생성부를 포함하는 인터랙티브 음향 제어 시스템.
The method of claim 6, wherein the two-dimensional image generating unit,
A principal plane determination unit that performs a principal component analysis on the normal gesture coordinates to determine a principal plane that best represents a trajectory of the normal gesture coordinates; And
And a main image generator for generating the two-dimensional gesture image including lines of a single color corresponding to the trajectory of the normal gesture coordinates projected onto the main plane.
제6 항에 있어서, 상기 제스처-이미지 변환부는,
상기 2차원 제스처 이미지에 대해 모폴로지(Morphology) 팽창(dilation) 연산 및 모폴로지 침식(erosion) 연산을 교번하여 수행하여 상기 2차원 제스처 이미지를 보정하는 모폴로지 필터를 더 포함하는 인터랙티브 음향 제어 시스템.
The method of claim 6, wherein the gesture-image conversion unit,
And a morphology filter configured to alternately perform a morphology dilation operation and a morphology erosion operation on the two-dimensional gesture image to correct the two-dimensional gesture image.
제2 항에 있어서, 상기 딥러닝부는 CNN(Convolution Neural Network) 기반의 계층 구조를 갖는 인터랙티브 음향 제어 시스템.The interactive sound control system of claim 2, wherein the deep learning unit has a hierarchical structure based on a convolutional neural network (CNN). 제2 항에 있어서, 상기 제어 장치는,
복수의 사람들에 의해 수행되는 상기 복수의 표준 제스처들에 상응하는 손의 움직임에 기초하여 상기 제스처-이미지 변환부로부터 생성되는 복수의 2차원 제스처 이미지들을 상기 복수의 2차원 학습 이미지들로서 미리 저장하고, 상기 복수의 2차원 학습 이미지들을 상기 딥러닝부에 제공하여 상기 딥러닝부가 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하도록 상기 딥러닝부를 학습시키는 학습 제어부를 더 포함하는 인터랙티브 음향 제어 시스템.
The method of claim 2, wherein the control device,
Pre-store a plurality of two-dimensional gesture images generated from the gesture-image converting unit as the plurality of two-dimensional training images based on a hand movement corresponding to the plurality of standard gestures performed by a plurality of people, And a learning controller configured to provide the plurality of 2D learning images to the deep learning unit to train the deep learning unit to classify each of the plurality of 2D learning images into one of the plurality of standard gestures. Interactive sound control system.
제2 항에 있어서, 상기 제어 장치는,
상기 상대 좌표들을 따라 손 형상의 이미지가 이동하는 영상을 가상 현실 영상에 중첩하여 상기 영상 신호를 생성하고, 상기 영상 신호를 상기 VR HMD에 제공하는 영상 생성부를 더 포함하는 인터랙티브 음향 제어 시스템.
The method of claim 2, wherein the control device,
And an image generator for generating the image signal by superimposing an image of a hand-shaped image moving along the relative coordinates on a virtual reality image, and providing the image signal to the VR HMD.
공간 상에 분산되어 배치되는 제1 내지 제n 스피커들;
상기 공간 상에 존재하는 사용자의 머리에 착용되고, 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들을 생성하는 VR(Virtual Reality) HMD(Head Mounted Display);
상기 사용자의 손의 움직임을 감지하여 상기 사용자의 손의 위치를 나타내는 손 좌표들을 생성하는 모션 센서;
상기 제1 내지 제n 스피커들 각각에 제1 내지 제n 음향 신호들을 제공하고, 상기 VR HMD에 영상 신호를 제공하는 제어 장치; 및
상기 공간 상에 설치되고, 상기 제어 장치로부터 상기 VR HMD에 제공되는 상기 영상 신호와 동일한 영상 신호를 수신하여 상기 VR HMD에 표시되는 영상과 동일한 영상을 표시하는 디스플레이 장치를 포함하고,
상기 제어 장치는 상기 머리 좌표들 및 상기 손 좌표들에 기초하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성하고, 상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식하고, 상기 제스처에 기초하여 2차원 제스처 이미지를 생성하고, 상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 제1 내지 제n 음향 신호들의 출력을 제어하는 인터랙티브 음향 제어 시스템.
First to n-th speakers distributed in a space;
A Virtual Reality (VR) Head Mounted Display (HMD) that is worn on a user's head existing in the space and generates head coordinates indicating a position of the user's head according to the movement of the user's head;
A motion sensor for detecting hand movement of the user and generating hand coordinates indicating a position of the user's hand;
A control device providing first to nth sound signals to each of the first to nth speakers and providing a video signal to the VR HMD; And
A display device installed in the space and receiving a video signal identical to the video signal provided to the VR HMD from the control device and displaying the same video as the video displayed on the VR HMD;
The control device generates relative coordinates indicating a relative position of the user's hand with respect to the VR HMD based on the head coordinates and the hand coordinates, and the movement of the user's hand is based on the relative coordinates. Recognize a gesture that is representative, generate a two-dimensional gesture image based on the gesture, and determine that the gesture matches one of a plurality of predefined standard gestures based on the two-dimensional gesture image. And an output of the first to nth acoustic signals based on a stereophonic effect pre-connected with the matching standard gesture.
사용자의 머리에 착용되는 VR(Virtual Reality) HMD(Head Mounted Display)로부터 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들을 수신하는 단계;
모션 센서로부터 상기 사용자의 손의 위치를 나타내는 손 좌표들을 수신하는 단계;
상기 손 좌표들 각각의 좌표값에서 상기 머리 좌표들 각각의 좌표값을 차감하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성하는 단계;
상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식하는 단계;
상기 제스처에 기초하여 2차원 제스처 이미지를 생성하는 단계; 및
상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 사용자가 존재하는 공간 상에 분산되어 배치되는 제1 내지 제n 스피커들 각각에 제공되는 제1 내지 제n 음향 신호들의 출력을 제어하는 단계를 포함하는 인터랙티브 음향 제어 방법.
Receiving head coordinates indicating a position of the head of the user according to the movement of the head of the user from a virtual reality (VR) head mounted display (HMD) worn on the head of the user;
Receiving hand coordinates indicating a position of the user's hand from a motion sensor;
Generating relative coordinates indicating a relative position of the user's hand with respect to the VR HMD by subtracting a coordinate value of each of the head coordinates from a coordinate value of each of the hand coordinates;
Recognizing a gesture represented by the movement of the hand of the user based on the relative coordinates;
Generating a two-dimensional gesture image based on the gesture; And
If it is determined that the gesture matches one of a plurality of predefined standard gestures based on the two-dimensional gesture image, the user has a spatial image on the basis of a stereoscopic sound effect previously connected with the matching standard gesture. And controlling the output of the first through n-th sound signals provided to each of the first through n-th speakers disposed in a distributed manner.
삭제delete 사용자의 머리에 착용되는 VR(Virtual Reality) HMD(Head Mounted Display)로부터 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들을 수신하는 단계;
모션 센서로부터 상기 사용자의 손의 위치를 나타내는 손 좌표들을 수신하는 단계;
상기 머리 좌표들 및 상기 손 좌표들에 기초하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성하는 단계;
상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식하는 단계;
상기 제스처에 기초하여 2차원 제스처 이미지를 생성하는 단계; 및
상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 사용자가 존재하는 공간 상에 분산되어 배치되는 제1 내지 제n 스피커들 각각에 제공되는 제1 내지 제n 음향 신호들의 출력을 제어하는 단계를 포함하고,
상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 상기 제스처를 인식하는 단계는,
상기 상대 좌표들의 이동 속도에 기초하여 상기 제스처를 결정하는 단계를 포함하는 인터랙티브 음향 제어 방법.
Receiving head coordinates indicating a position of the head of the user according to the movement of the head of the user from a virtual reality (VR) head mounted display (HMD) worn on the head of the user;
Receiving hand coordinates indicating a position of the user's hand from a motion sensor;
Generating relative coordinates indicating a relative position of the user's hand relative to the VR HMD based on the head coordinates and the hand coordinates;
Recognizing a gesture represented by the movement of the hand of the user based on the relative coordinates;
Generating a two-dimensional gesture image based on the gesture; And
If it is determined that the gesture matches one of a plurality of predefined standard gestures based on the two-dimensional gesture image, the user has a spatial image on the basis of a stereoscopic sound effect previously connected with the matching standard gesture. Controlling the output of the first to nth acoustic signals provided to each of the first to nth speakers that are distributed to
Recognizing the gesture represented by the movement of the user's hand based on the relative coordinates,
Determining the gesture based on the movement speed of the relative coordinates.
사용자의 머리에 착용되는 VR(Virtual Reality) HMD(Head Mounted Display)로부터 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들을 수신하는 단계;
모션 센서로부터 상기 사용자의 손의 위치를 나타내는 손 좌표들을 수신하는 단계;
상기 머리 좌표들 및 상기 손 좌표들에 기초하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성하는 단계;
상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식하는 단계;
상기 제스처에 기초하여 2차원 제스처 이미지를 생성하는 단계; 및
상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 사용자가 존재하는 공간 상에 분산되어 배치되는 제1 내지 제n 스피커들 각각에 제공되는 제1 내지 제n 음향 신호들의 출력을 제어하는 단계를 포함하고,
상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 상기 제스처를 인식하는 단계는,
상기 상대 좌표들의 이동 속도가 문턱값보다 커지는 시점의 상대 좌표를 상기 제스처의 시작 좌표로 결정하는 단계;
상기 상대 좌표들의 이동 속도가 상기 문턱값보다 작아지는 시점의 상대 좌표를 상기 제스처의 종료 좌표로 결정하는 단계; 및
상기 상대 좌표들 중에서 상기 시작 좌표와 상기 종료 좌표 사이에 존재하는 상대 좌표들을 상기 제스처를 나타내는 제스처 좌표들로 결정하는 단계를 포함하는 인터랙티브 음향 제어 방법.
Receiving head coordinates indicating a position of the head of the user according to the movement of the head of the user from a virtual reality (VR) head mounted display (HMD) worn on the head of the user;
Receiving hand coordinates indicating a position of the user's hand from a motion sensor;
Generating relative coordinates indicating a relative position of the user's hand relative to the VR HMD based on the head coordinates and the hand coordinates;
Recognizing a gesture represented by the movement of the hand of the user based on the relative coordinates;
Generating a two-dimensional gesture image based on the gesture; And
If it is determined that the gesture matches one of a plurality of predefined standard gestures based on the two-dimensional gesture image, the user has a spatial image on the basis of a stereoscopic sound effect previously connected with the matching standard gesture. Controlling the output of the first to nth acoustic signals provided to each of the first to nth speakers that are distributed to
Recognizing the gesture represented by the movement of the user's hand based on the relative coordinates,
Determining relative coordinates of a time point at which the movement speed of the relative coordinates becomes larger than a threshold value as starting coordinates of the gesture;
Determining relative coordinates of a time point at which the movement speed of the relative coordinates becomes smaller than the threshold value as end coordinates of the gesture; And
And determining relative coordinates existing between the start coordinates and the end coordinates among the relative coordinates as gesture coordinates representing the gesture.
제17 항에 있어서, 상기 제스처에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계는,
상기 제스처 좌표들의 좌표값들이 미리 정해진 최소값 및 최대값 사이의 값을 갖도록 상기 제스처 좌표들의 좌표값들을 정규화하여 정규 제스처 좌표들을 생성하는 단계; 및
3차원 공간 상에서의 상기 정규 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계를 포함하는 인터랙티브 음향 제어 방법.
The method of claim 17, wherein generating the two-dimensional gesture image based on the gesture comprises:
Generating normal gesture coordinates by normalizing the coordinate values of the gesture coordinates such that the coordinate values of the gesture coordinates have a value between a predetermined minimum value and a maximum value; And
Generating the two-dimensional gesture image based on the trajectory of the regular gesture coordinates in three-dimensional space.
제18 항에 있어서, 3차원 공간 상에서의 상기 정규 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계는,
상기 정규 제스처 좌표들이 X-Y 평면 상으로 투영된 궤적에 상응하는 적색 선을 포함하는 제1 이미지를 생성하는 단계;
상기 정규 제스처 좌표들이 Y-Z 평면 상으로 투영된 궤적에 상응하는 녹색 선을 포함하는 제2 이미지를 생성하는 단계;
상기 정규 제스처 좌표들이 Z-X 평면 상으로 투영된 궤적에 상응하는 청색 선을 포함하는 제3 이미지를 생성하는 단계; 및
상기 제1 이미지, 상기 제2 이미지, 및 상기 제3 이미지를 중첩하여 상기 2차원 제스처 이미지를 생성하는 단계를 포함하는 인터랙티브 음향 제어 방법.
19. The method of claim 18, wherein generating the two-dimensional gesture image based on the trajectory of the regular gesture coordinates in three-dimensional space,
Generating a first image comprising a red line corresponding to the trajectory on which the regular gesture coordinates are projected onto an XY plane;
Generating a second image comprising a green line corresponding to the trajectory on which the regular gesture coordinates are projected onto a YZ plane;
Generating a third image comprising a blue line corresponding to the trajectory on which the regular gesture coordinates are projected onto a ZX plane; And
And overlapping the first image, the second image, and the third image to generate the two-dimensional gesture image.
제18 항에 있어서, 3차원 공간 상에서의 상기 정규 제스처 좌표들의 궤적에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계는,
상기 정규 제스처 좌표들에 대해 주성분 분석(Principal Component Analysis)을 수행하여 상기 정규 제스처 좌표들의 궤적을 가장 잘 나타내는 주 평면을 결정하는 단계; 및
상기 정규 제스처 좌표들이 상기 주 평면 상으로 투영된 궤적에 상응하는 단일 컬러의 선을 포함하는 상기 2차원 제스처 이미지를 생성하는 단계를 포함하는 인터랙티브 음향 제어 방법.
19. The method of claim 18, wherein generating the two-dimensional gesture image based on the trajectory of the regular gesture coordinates in three-dimensional space,
Performing a principal component analysis on the normal gesture coordinates to determine a principal plane that best represents the trajectory of the normal gesture coordinates; And
Generating the two-dimensional gesture image comprising lines of a single color whose normal gesture coordinates correspond to a trajectory projected onto the main plane.
제18 항에 있어서, 상기 제스처에 기초하여 상기 2차원 제스처 이미지를 생성하는 단계는,
상기 2차원 제스처 이미지에 대해 모폴로지(Morphology) 팽창(dilation) 연산 및 모폴로지 침식(erosion) 연산을 교번하여 수행하여 상기 2차원 제스처 이미지를 보정하는 단계를 더 포함하는 인터랙티브 음향 제어 방법.
The method of claim 18, wherein generating the two-dimensional gesture image based on the gesture comprises:
And alternately performing a morphology dilation operation and a morphology erosion operation on the two-dimensional gesture image to correct the two-dimensional gesture image.
사용자의 머리에 착용되는 VR(Virtual Reality) HMD(Head Mounted Display)로부터 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들을 수신하는 단계;
모션 센서로부터 상기 사용자의 손의 위치를 나타내는 손 좌표들을 수신하는 단계;
상기 머리 좌표들 및 상기 손 좌표들에 기초하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성하는 단계;
상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식하는 단계;
상기 제스처에 기초하여 2차원 제스처 이미지를 생성하는 단계; 및
상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 사용자가 존재하는 공간 상에 분산되어 배치되는 제1 내지 제n 스피커들 각각에 제공되는 제1 내지 제n 음향 신호들의 출력을 제어하는 단계를 포함하고,
상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 상기 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 사용자가 존재하는 공간 상에 분산되어 배치되는 상기 제1 내지 제n 스피커들 각각에 제공되는 상기 제1 내지 제n 음향 신호들의 출력을 제어하는 단계는,
딥러닝(Deep Learning)부에 대해 복수의 2차원 학습 이미지들을 통해 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하는 학습을 수행하는 단계;
상기 딥러닝부를 사용하여 상기 2차원 제스처 이미지를 상기 복수의 표준 제스처들 중의 하나로 분류하는 단계;
상기 복수의 표준 제스처들 각각과 복수의 입체 음향 효과들 각각을 서로 연결시켜 저장하는 표준 제스처 데이터베이스로부터 상기 딥러닝부에 의해 분류된 표준 제스처와 연결되는 입체 음향 효과를 독출하는 단계; 및
상기 독출된 입체 음향 효과에 기초하여 상기 제1 내지 제n 음향 신호들의 출력을 제어하는 단계를 포함하는 인터랙티브 음향 제어 방법.
Receiving head coordinates indicating a position of the head of the user according to the movement of the head of the user from a virtual reality (VR) head mounted display (HMD) worn on the head of the user;
Receiving hand coordinates indicating a position of the user's hand from a motion sensor;
Generating relative coordinates indicating a relative position of the user's hand relative to the VR HMD based on the head coordinates and the hand coordinates;
Recognizing a gesture represented by the movement of the hand of the user based on the relative coordinates;
Generating a two-dimensional gesture image based on the gesture; And
If it is determined that the gesture matches one of a plurality of predefined standard gestures based on the two-dimensional gesture image, the user has a spatial image on the basis of a stereoscopic sound effect previously connected with the matching standard gesture. Controlling the output of the first to nth acoustic signals provided to each of the first to nth speakers that are distributed to
If it is determined that the gesture matches one of the plurality of predefined standard gestures based on the two-dimensional gesture image, the space in which the user exists based on the stereophonic effect previously connected with the matching standard gesture The step of controlling the output of the first to n-th sound signals provided to each of the first to n-th speakers arranged in a distributed manner,
Performing learning to classify each of the plurality of two-dimensional learning images into one of the plurality of standard gestures through a plurality of two-dimensional learning images for a deep learning unit;
Classifying the two-dimensional gesture image into one of the plurality of standard gestures using the deep learning unit;
Reading a stereoscopic sound effect associated with a standard gesture classified by the deep learning unit from a standard gesture database that stores each of the plurality of standard gestures and each of the plurality of stereoscopic sound effects in connection with each other; And
Controlling the output of the first through n-th sound signals based on the read stereoscopic sound effect.
제22 항에 있어서, 상기 딥러닝부에 대해 상기 복수의 2차원 학습 이미지들을 통해 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하는 학습을 수행하는 단계는,
복수의 사람들에 의해 수행되는 상기 복수의 표준 제스처들에 상응하는 손의 움직임에 기초하여 생성되는 복수의 2차원 제스처 이미지들을 상기 복수의 2차원 학습 이미지들로서 저장하는 단계; 및
상기 복수의 2차원 학습 이미지들을 상기 딥러닝부에 제공하여 상기 딥러닝부가 상기 복수의 2차원 학습 이미지들 각각을 상기 복수의 표준 제스처들 중의 하나로 분류하도록 상기 딥러닝부를 학습시키는 단계를 포함하는 인터랙티브 음향 제어 방법.
The method of claim 22, wherein the learning of classifying each of the plurality of two-dimensional learning images into one of the plurality of standard gestures through the plurality of two-dimensional learning images is performed on the deep learning unit.
Storing as a plurality of two-dimensional learning images a plurality of two-dimensional gesture images generated based on a hand movement corresponding to the plurality of standard gestures performed by a plurality of people; And
Providing the plurality of 2D learning images to the deep learning unit to train the deep learning unit to classify each of the plurality of 2D learning images into one of the plurality of standard gestures by the deep learning unit. Sound control method.
사용자의 머리에 착용되는 VR(Virtual Reality) HMD(Head Mounted Display)로부터 상기 사용자의 머리의 움직임에 따른 상기 사용자의 머리의 위치를 나타내는 머리 좌표들을 수신하는 단계;
모션 센서로부터 상기 사용자의 손의 위치를 나타내는 손 좌표들을 수신하는 단계;
상기 머리 좌표들 및 상기 손 좌표들에 기초하여 상기 VR HMD에 대한 상기 사용자의 손의 상대적인 위치를 나타내는 상대 좌표들을 생성하는 단계;
상기 상대 좌표들에 기초하여 상기 사용자의 손의 움직임이 나타내는 제스처(gesture)를 인식하는 단계;
상기 제스처에 기초하여 2차원 제스처 이미지를 생성하는 단계;
상기 2차원 제스처 이미지에 기초하여 상기 제스처가 미리 정의된 복수의 표준 제스처들 중의 하나와 일치하는 것으로 판단되는 경우, 상기 일치하는 표준 제스처와 미리 연결된 입체 음향 효과에 기초하여 상기 사용자가 존재하는 공간 상에 분산되어 배치되는 제1 내지 제n 스피커들 각각에 제공되는 제1 내지 제n 음향 신호들의 출력을 제어하는 단계;
상기 상대 좌표들을 따라 손 형상의 이미지가 이동하는 영상을 가상 현실 영상에 중첩하여 영상 신호를 생성하는 단계; 및
상기 영상 신호를 상기 VR HMD 및 상기 사용자가 존재하는 공간 상에 설치되는 디스플레이 장치에 동시에 출력하여 상기 영상 신호에 따른 영상을 상기 VR HMD 및 상기 디스플레이 장치에 동시에 표시하는 단계를 포함하는 인터랙티브 음향 제어 방법.
Receiving head coordinates indicating a position of the head of the user according to the movement of the head of the user from a virtual reality (VR) head mounted display (HMD) worn on the head of the user;
Receiving hand coordinates indicating a position of the user's hand from a motion sensor;
Generating relative coordinates indicating a relative position of the user's hand relative to the VR HMD based on the head coordinates and the hand coordinates;
Recognizing a gesture represented by the movement of the hand of the user based on the relative coordinates;
Generating a two-dimensional gesture image based on the gesture;
If it is determined that the gesture matches one of a plurality of predefined standard gestures on the basis of the two-dimensional gesture image, the spatial image in which the user is present is based on a stereoscopic sound effect previously connected with the matching standard gesture. Controlling the output of the first to n-th acoustic signals provided to each of the first to n-th speakers arranged in a distributed manner;
Generating an image signal by superimposing an image on which a hand-shaped image moves along the relative coordinates with a virtual reality image; And
Simultaneously outputting the video signal to a display device installed in the VR HMD and the space where the user is present, and simultaneously displaying an image according to the video signal on the VR HMD and the display device. .
KR1020180069428A 2018-06-18 2018-06-18 Interactive audio control system and method of interactively controlling audio KR102057393B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180069428A KR102057393B1 (en) 2018-06-18 2018-06-18 Interactive audio control system and method of interactively controlling audio

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180069428A KR102057393B1 (en) 2018-06-18 2018-06-18 Interactive audio control system and method of interactively controlling audio

Publications (1)

Publication Number Publication Date
KR102057393B1 true KR102057393B1 (en) 2019-12-18

Family

ID=69052163

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180069428A KR102057393B1 (en) 2018-06-18 2018-06-18 Interactive audio control system and method of interactively controlling audio

Country Status (1)

Country Link
KR (1) KR102057393B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112720504A (en) * 2021-01-20 2021-04-30 清华大学 Method and device for controlling learning of hand and object interactive motion from RGBD video
KR102527513B1 (en) * 2022-04-29 2023-05-03 (주)에어패스 Wheelchair boarding device capable of rotating, forward and backward, and virtual reality application, and virtual reality application method using the same
WO2024122847A1 (en) * 2022-12-08 2024-06-13 Samsung Electronics Co., Ltd. Surround sound to immersive audio upmixing based on video scene analysis

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112720504A (en) * 2021-01-20 2021-04-30 清华大学 Method and device for controlling learning of hand and object interactive motion from RGBD video
KR102527513B1 (en) * 2022-04-29 2023-05-03 (주)에어패스 Wheelchair boarding device capable of rotating, forward and backward, and virtual reality application, and virtual reality application method using the same
WO2024122847A1 (en) * 2022-12-08 2024-06-13 Samsung Electronics Co., Ltd. Surround sound to immersive audio upmixing based on video scene analysis

Similar Documents

Publication Publication Date Title
CN112567768B (en) Spatial audio for interactive audio environments
US8886530B2 (en) Displaying text and direction of an utterance combined with an image of a sound source
US10126823B2 (en) In-vehicle gesture interactive spatial audio system
US10326978B2 (en) Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
KR102057393B1 (en) Interactive audio control system and method of interactively controlling audio
JP6959943B2 (en) Methods and Devices for Generating Virtual Reality or Augmented Reality Presentations Using 3D Audio Positioning
TW201804315A (en) Virtual, augmented, and mixed reality
JP2022538511A (en) Determination of Spatialized Virtual Acoustic Scenes from Legacy Audiovisual Media
CN113597777B (en) Audio processing
TWI647593B (en) System and method for providing simulated environment
US10057706B2 (en) Information processing device, information processing system, control method, and program
JP7100824B2 (en) Data processing equipment, data processing methods and programs
US11321892B2 (en) Interactive virtual reality broadcast systems and methods
JP7511635B2 (en) Depth-based spatial audio capture
CN107005678A (en) Adjust the Space Consistency in video conferencing system
Yargıç et al. A lip reading application on MS Kinect camera
TW202014992A (en) System and method for simulating expression of virtual facial model
US12010490B1 (en) Audio renderer based on audiovisual information
CN114286275A (en) Audio processing method and device and storage medium
WO2022075152A1 (en) Information processing device, information processing method, and information distribution system
CN108304152B (en) Handheld electronic device, audio-video playing device and audio-video playing method thereof
US20220189200A1 (en) Information processing system and information processing method
US11134358B2 (en) Audio adjusting method and audio adjusting device
WO2023166721A1 (en) Information processing apparatus, information processing system, and information processing method
US20220414960A1 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant