KR102099450B1 - Method for reconciling image and sound in 360 degree picture - Google Patents

Method for reconciling image and sound in 360 degree picture Download PDF

Info

Publication number
KR102099450B1
KR102099450B1 KR1020180139922A KR20180139922A KR102099450B1 KR 102099450 B1 KR102099450 B1 KR 102099450B1 KR 1020180139922 A KR1020180139922 A KR 1020180139922A KR 20180139922 A KR20180139922 A KR 20180139922A KR 102099450 B1 KR102099450 B1 KR 102099450B1
Authority
KR
South Korea
Prior art keywords
sound
image
video
observer
itd
Prior art date
Application number
KR1020180139922A
Other languages
Korean (ko)
Inventor
김성권
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Priority to KR1020180139922A priority Critical patent/KR102099450B1/en
Application granted granted Critical
Publication of KR102099450B1 publication Critical patent/KR102099450B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

The present invention relates to a method for reconciling an image and a sound in an omnidirectional picture which provides a 3D sound service to maximize a sense of immersion. According to the present invention, the method comprises the following steps: when a sound is generated in a predetermined position, comparing a measured inter-aural time difference (ITD) with a statistical ITD to extract a corresponding directional angle (θ1); when the sound is generated in the predetermined position, comparing a measured inter-aural level difference (ILD) with a statistical ILD to extract a corresponding directional angle (θ2); calculating an average of θ1 and θ2 to calculate θA (an angle represents the direction of a sound source with respect to a front surface (0°) when an observer is placed in the omnidirectional picture); calculating an image·sound reconciling rate (C_VA) based on the calculated θA and θV (an angle of the direction of an object placed in a screen with respect to the front surface (0°) when the observer is placed in the omnidirectional picture); and adjusting the sound with respect to the image based on the calculated image·sound reconciling rate (C_VA) to output the adjusted image and sound.

Description

360°영상에서 영상과 음향의 정위 합치 방법{Method for reconciling image and sound in 360 degree picture}Method for reconciling image and sound in 360 ° image {Method for reconciling image and sound in 360 degree picture}

본 발명은 360°영상에서 영상과 음향의 정위 합치 방법에 관한 것으로서, 더 상세하게는 360°영상 제작, 재생 시스템이 얼마나 실제와 유사하게 음향 정위를 구현해 내는지 분석할 수 있는 지표인 영상 음향 정위 일치율을 이용하여 360°동영상에서 화면을 회전시킬 때, 화면 방향에 따라 음향을 일치시켜 지원할 수 있는 360°영상에서 영상과 음향의 정위 합치 방법에 관한 것이다.The present invention relates to a stereoscopic matching method of video and sound in a 360 ° image, and more specifically, a 360 ° video production and reproducing system, which is an index that can analyze how realistic the audio stereoization is to the video system. When rotating the screen from a 360 ° video using, it relates to a stereoscopic matching method of video and sound in a 360 ° video that can be supported by matching the sound according to the screen direction.

미디어 기술은 초창기부터 이용자가 마치 실제상황에 있는 것처럼 느끼도록 하는 방향으로 진화해 왔다. 특히, 360°영상 기술은 직사각형 모니터 화면에 영상을 국한하지 않고 이용자가 서 있는 곳을 기준으로 모든 방향의 영상 정보를 제공하여, 차세대 실감 미디어 기술로서 초기에는 많은 관심을 받았다.Media technology has evolved from the very beginning to make users feel as if they are in real life. In particular, the 360 ° video technology received much attention initially as a next-generation sensational media technology by providing video information in all directions based on where the user is standing without confining the image to a rectangular monitor screen.

그러나, 개인방송과 같은 열악한 환경에서 제작되는 360°영상은 음상 정위가 맞추어지지 않아, 시청자의 집중도를 분산시키며, 감각적 이질감의 한계를 넘지 못해 상용화에 어려움을 겪고 있다. 또한, 360°영상기술에 상응하는 다양한 입체음향 솔루션이 개발되고 있기는 하지만, 입체음향 표출 시스템이 얼마나 영상 속 음원의 위치에 따라 실제 청각과 유사한 경험을 제공하는지를 평가할 수 있는 뚜렷한 기준이 없었다. 사람은 물체의 위치를 시각으로 인식할 수 있고, 청각으로도 인식할 수 있는데, 자연환경에서는 눈에 보이는 물체의 위치와 귀로 판단한 물체의 위치가 일치하는 상황이 대부분이다. 하지만, 스피커를 통해 음향을 확성하거나, 스크린으로 영상을 재생하게 되면 영상과 음향의 위치가 불일치되는 상황이 발생하고, 이는 시청자가 피로를 느끼게 한다. 이 피로감은 몰입도를 저하하고, 사이버 멀미를 발생시키는 원인이 되기도 한다.However, the 360 ° video produced in a poor environment such as a personal broadcast does not match the sound quality, disperses the viewer's concentration, and does not exceed the limit of sensory heterogeneity, and thus has difficulties in commercialization. In addition, although various stereophonic solutions corresponding to the 360 ° imaging technology are being developed, there was no clear standard for evaluating how much the stereophonic expression system provides an actual hearing-like experience depending on the location of the sound source in the image. A person can recognize the position of an object visually and can also perceive it by hearing. In a natural environment, the position of a visible object coincides with the position of an object determined by the ear. However, when a sound is amplified through a speaker or an image is reproduced on a screen, a situation in which the position of the image and the sound is inconsistent occurs, which causes the viewer to feel tired. This feeling of fatigue lowers immersion and may also cause cyber sickness.

종래의 360°동영상은 화면을 회전시킬 때, 무지향성 스피커를 이용하여 녹음한 음향 서비스를 지원하고 있다. 따라서 시청자의 몰입감을 떨어뜨리는 단점이 있다.Conventional 360 ° videos support sound services recorded using omni-directional speakers when rotating the screen. Therefore, there is a disadvantage that deteriorates the immersion of viewers.

일반적으로 영상에서 물체의 위치에 맞게 소리를 표출하도록 구현되지만, 음향의 정위를 구현하는 방법에 따라 소리의 위치 변화가 달라 실제와 다른 경험을 제공하게 된다.In general, it is implemented to express the sound in accordance with the position of the object in the image, but the position change of the sound is different according to the method of realizing the stereotaxic sound to provide a different experience from the real.

한편, 한국 공개특허공보 제10-2018-0003384호(특허문헌 1)에는 "입체 음향 캡처링 시스템 및 방법"이 개시되어 있는 바, 이에 따른 입체 음향 캡쳐링 방법은,주 마이크 및 상기 주 마이크 주변에 배열된 적어도 두 개 이상의 보조 마이크들을 통해 음향 신호가 입력되는 단계; 상기 보조 마이크들에 입력된 상기 음향 신호로부터 상기 음향 신호의 방향성 정보를 추출하는 단계; 및 상기 주 마이크에 입력된 상기 음향 정보와 상기 방향성 정보를 통합하는 단계를 포함하는 것을 특징으로 한다.On the other hand, Korean Patent Publication No. 10-2018-0003384 (Patent Document 1) discloses a " stereo-acoustic capturing system and method ". Inputting an acoustic signal through at least two or more auxiliary microphones arranged in the; Extracting directional information of the sound signal from the sound signal input to the auxiliary microphones; And integrating the acoustic information and the directional information input to the main microphone.

이상과 같은 특허문헌 1의 경우, 음향 신호의 방향성 정보를 추출하고, 추출된 방향성 정보와 결합된 음향 신호를 제공함으로써, 사용자에게 생생한 입체 음향을 제공할 수 있는 장점이 있을지는 모르겠으나, 이는 단지 사용자의 음성 신호와 주변의 음향 신호를 입체적으로 제공하기 위한 것으로서, 360°동영상에서 화면을 회전시킬 때, 화면 방향에 따라 음향을 일치시켜 제공하는 것에 대해서는 구체적인 방안을 제시하지 못하고 있다.In the case of patent document 1 as described above, by extracting the directional information of the acoustic signal and providing an acoustic signal combined with the extracted directional information, I do not know if there is an advantage to provide a vivid stereo sound to the user, but this is only It is intended to provide a user's voice signal and surrounding acoustic signals in three dimensions. When rotating the screen in a 360 ° video, a specific method has not been provided for providing sound in accordance with the screen direction.

한국 공개특허공보 제10-2018-0003384호(2018.01.09. 공개)Korean Patent Application Publication No. 10-2018-0003384 (published Jan. 9, 2018)

본 발명은 상기와 같은 사항을 종합적으로 감안하여 창출된 것으로서, 360°영상 제작, 재생 시스템이 얼마나 실제와 유사하게 음향 정위를 구현해 내는지 분석할 수 있는 지표인 영상 음향 정위 일치율을 이용하여 360°동영상에서 화면을 회전시킬 때, 화면 방향에 따라 음향을 일치시켜 지원할 수 있는 360°영상에서 영상과 음향의 정위 합치 방법을 제공함에 그 목적이 있다.The present invention was created by comprehensively considering the above, and 360 ° video using a video sound stereotactic matching rate, which is an index capable of analyzing how the stereo system produces sound stereoscopically similar to the actual production of a 360 ° video. The object of the present invention is to provide a stereoscopic matching method of video and sound in a 360 ° image that can be supported by matching sound according to the screen direction when rotating the screen.

상기의 목적을 달성하기 위하여 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법은,In order to achieve the above object, a stereoscopic matching method of video and sound in a 360 ° image according to the present invention,

a) 특정 위치에서 소리가 발생했을 때, 측정한 ITD(Inter-aural Time Difference; 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 시간 차이)를 통계상 ITD와 비교하여 이에 해당하는 방향각(θ1)을 도출하는 단계;a) Statistical measurement of the inter-aural time difference (ITD) measured when a sound occurs at a specific location, due to a difference in the arrival path of a sound reaching two ears from a sound source when a sound occurs at a specific location) Deriving a direction angle (θ 1 ) corresponding to this compared to the phase ITD;

b) 특정 위치에서 소리가 발생했을 때, 측정한 ILD(Inter-aural Level Difference; 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 크기 차이)를 통계상 ILD와 비교하여 이에 해당하는 방향각(θ2)을 도출하는 단계;b) Statistical measurement of ILD (Inter-aural Level Difference) measured when a sound occurs at a specific location, due to a difference in the path of arrival of a sound reaching two ears from a sound source when a sound occurs at a specific location) Deriving a direction angle (θ 2 ) corresponding to this compared to the phase ILD;

c) 상기 θ1과 θ2의 평균을 구함으로써 θA(360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로 음원의 방향을 나타내는 각도)를 산출하는 단계; c) calculating θ A (the angle representing the direction of the sound source based on the front 0 ° when an observer is positioned in a 360 ° image) by calculating the average of the θ 1 and θ 2 ;

d) 산출된 θA와 θV(360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로, 화면상에 물체가 위치한 방향의 각도)를 바탕으로 영상·음향 정위 일치율(CVA)을 산출하는 단계; 및d) when the observer is located at the calculated θ A and θ V (360 ° image, based on the front 0 °, the object is the direction angle) of the image, sound localization match rate based on properties in a screen (C VA) to Calculating; And

e) 상기 산출된 영상·음향 정위 일치율(CVA)을 바탕으로 영상에 대해 음향을 조정하여 출력하는 단계를 포함하는 점에 그 특징이 있다.e) It is characterized in that it comprises the step of adjusting and outputting sound for an image based on the calculated image-acoustic stereotactic matching rate (C VA ).

여기서, 상기 단계 c)에서 상기 θA를 산출하는 과정은,Here, the process of calculating the θ A in the step c),

c-1) ITD(Inter-aural Time Difference; 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 시간 차이)를 측정하는 단계;c-1) measuring an ITD (Inter-aural Time Difference) when a sound occurs at a specific location, a time difference due to a difference in an arrival path of a sound reaching two ears from a sound source;

c-2) 통계상의 데이터를 이용하여 상기 측정된 ITD에 대응하는 방향각 θ를 도출하는 단계;c-2) deriving a direction angle θ corresponding to the measured ITD using statistical data;

c-3) 관찰자의 시야 범위를 관찰자의 전방측과 후방측으로 분할한 상태에서, 후방측 각도 범위의 소리를 측정했을 때 소리의 크기(dB)가 감소하는지를 판별하는 단계;c-3) in a state in which the observer's field of view is divided into the front side and the rear side of the observer, determining whether the sound volume (dB) decreases when the sound in the rear angle range is measured;

c-4) 상기 판별에서 소리의 크기(dB)가 감소하지 않으면(소리의 크기가 증가하면), x축을 대칭으로 θ<0이면 θ= -180-θ로 설정하고, θ>0이면 θ= 180-θ로 설정하는 단계;c-4) If the loudness (dB) does not decrease in the discrimination (when the loudness increases), the x-axis is symmetrically set to θ = -180-θ if θ <0, and θ = if θ> 0. Setting to 180-θ;

c-5) 상기 판별에서 소리의 크기(dB)가 감소하면, θ= θ1(ITD), θ= θ2 (ILD)로 설정하는 단계;c-5) if the volume (dB) of the sound decreases in the discrimination, setting θ = θ 1 (ITD) and θ = θ 2 (ILD);

c-6) 상기 θ2 (ILD)를 상기 통계적인 데이터를 이용하여 도출하는 단계; 및c-6) deriving the θ 2 (ILD) using the statistical data; And

c-7) 상기 θ1과 θ2 의 평균을 구함으로써 θA A = (θ1 2 )/2)를 산출하는 단계를 포함하여 구성될 수 있다.c-7) θ AA = (θ 1 + θ 2 ) / 2) may be calculated by calculating the average of θ 1 and θ 2 .

또한, 상기 단계 d)에서 상기 영상·음향 정위 일치율(CVA)은 다음과 같은 수식 관계로 나타낼 수 있다.In addition, in step d), the video-acoustic stereotactic coincidence rate (C VA ) may be expressed by the following mathematical relationship.

Figure 112018113241117-pat00001
Figure 112018113241117-pat00001

또한, 상기 단계 e)에서, 상기 산출된 영상·음향 정위 일치율(CVA)을 바탕으로 영상에 대해 음향을 조정하여 출력할 수 있도록 하기 위해, 360°영상 카메라에 카메라를 중심으로 4개의 지향성 마이크를 90°간격으로 배치하여 360°영상 촬영과 4채널 멀티트랙 녹음을 동시에 진행하는 단계를 더 포함할 수 있다.In addition, in step e), four directional microphones centered on the camera on a 360 ° video camera to enable the audio to be adjusted and output based on the calculated video / acoustic stereotactic rate (C VA ). It may further include the step of arranging at 90 ° intervals to simultaneously record 360 ° video and record 4 channels of multitrack.

또한, 상기 360°영상 촬영과 4채널 멀티트랙 녹음을 동시에 진행한 후, 영상 및 음향을 출력함에 있어서, 영상이 회전할 때 관찰자(시청자)의 시선에 따라 4채널 오디오의 볼륨과 패닝을 조절하여 영상의 시선에 맞게 영상과 오디오를 믹싱하여 스테레오로 출력할 수 있다.In addition, after simultaneously recording the 360 ° image and recording four-channel multitrack, in outputting the image and sound, the volume and panning of the four-channel audio are adjusted according to the viewer's (viewer) gaze when the image rotates. Video and audio can be mixed and output in stereo to match the gaze of the video.

이와 같은 본 발명에 의하면, 360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로 음원의 방향을 나타내는 각도(θA)와 360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로, 화면상에 물체가 위치한 방향의 각도(θV)를 구하고, 그것을 바탕으로 영상·음향 정위 일치율(CVA)을 산출하여 영상에 대해 음향을 조정하여 출력함으로써, 몰입감을 극대화시킬 수 있는 입체 음향 서비스를 제공할 수 있는 장점이 있다.According to the present invention, when the observer is located in the 360 ° image, the angle (θ A ) indicating the direction of the sound source relative to the front 0 ° and when the observer is positioned in the 360 ° image, based on the front 0 ° , Obtaining the angle (θ V ) of the direction in which the object is located on the screen, and calculating the image-acoustic stereotactic rate (C VA ) on the basis of it, adjusting and outputting the sound for the image, thereby maximizing immersion. There is an advantage that can provide a service.

도 1은 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법에 채용되는 ITD와 ILD의 개념을 도식적으로 나타낸 도면이다.
도 2는 음원과 관찰자와의 각도에 따른 ITD 값 및 ILD 값을 측정한 통계 결과를 각각 나타낸 그래프이다.
도 3은 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법의 실행 과정을 나타낸 흐름도이다.
도 4는 본 발명에 따른 방법의 구현을 위해 채용되는 360°영상 입체음향 획득장치와 시선에 따른 4방향 음원 믹싱 방법을 나타낸 도면이다.
도 5는 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법에 채용되는 영상·음향 정위 일치율(CVA)의 개념을 도식적으로 나타낸 도면이다.
도 6은 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법에 있어서, θA를 산출하는 과정을 나타낸 흐름도이다.
도 7은 종래의 360°영상에 대한 영상·음향 정위 일치율(CVA)과 본 발명의 360°영상에 대한 영상·음향 정위 일치율(CVA)을 나타낸 도면이다.
1 is a diagram schematically showing the concept of ITD and ILD employed in the stereotactic matching method of video and sound in a 360 ° image according to the present invention.
2 is a graph showing statistical results of measuring ITD values and ILD values according to angles between a sound source and an observer, respectively.
3 is a flowchart illustrating an execution process of a stereoscopic matching method of video and sound in a 360 ° image according to the present invention.
4 is a diagram showing a stereoscopic sound obtaining apparatus and a four-way sound source mixing method according to the gaze, which are adopted for implementing the method according to the present invention.
FIG. 5 is a diagram schematically showing the concept of an image-acoustic stereotaxic matching rate (C VA ) employed in a stereoscopic matching method of video and audio in a 360 ° image according to the present invention.
6 is a flowchart illustrating a process of calculating θ A in a stereotactic matching method of video and sound in a 360 ° image according to the present invention.
7 is a view showing a conventional video-acoustic stereotaxic matching rate (C VA ) for a 360 ° image and a video-acoustic stereotaxic matching rate (C VA ) for a 360 ° video according to the present invention.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.The terms or words used in the present specification and claims should not be interpreted as being limited to a conventional or lexical meaning, and the inventor can appropriately define the concept of terms to describe his or her invention in the best way. Based on the principles, it should be interpreted as meanings and concepts consistent with the technical spirit of the present invention.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when a part “includes” a certain component, this means that other components may be further included rather than excluding other components unless specifically stated to the contrary. In addition, terms such as “… unit”, “… group”, “module”, and “device” described in the specification mean a unit that processes at least one function or operation, which is hardware or software or a combination of hardware and software. Can be implemented as

이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

여기서, 본 발명의 실시예에 대하여 본격적으로 설명하기에 앞서, 본 발명의 방법에 채용되는 개념인 ITD(Inter-aural Time Difference)와 ILD(Inter-aural Level Difference)에 대하여 먼저 설명해 보기로 한다.Here, before the embodiments of the present invention are described in detail, inter-aural time difference (ITD) and inter-aural level difference (ILD), which are concepts employed in the method of the present invention, will be described first.

도 1은 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법에 채용되는 ITD와 ILD의 개념을 도식적으로 나타낸 도면이다.1 is a diagram schematically showing the concept of ITD and ILD employed in the stereotactic matching method of video and sound in a 360 ° image according to the present invention.

도 1을 참조하면, 사람은 두 개의 귀를 가지고 있기 때문에 소리의 방향을 인식할 수 있는데, 이때, 가장 중요하게 작용하는 요소는 ITD(Inter-aural Time Difference)와 ILD(Inter-aural Level Difference)이다.Referring to FIG. 1, since a person has two ears, the direction of sound can be recognized. At this time, the most important elements are Inter-aural Time Difference (ITD) and Inter-aural Level Difference (ILD). to be.

ITD는 도 1에 도시된 바와 같이, 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로 차이로 인하여 나타나는 시간 차이를 말하고, ILD는 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 크기 차이를 말한다. 이와 같은 ITD 및 ILD 를 통하여, 사람은 머리를 기준으로 수평면상에서 좌·우로 음원이 어느 방향에 있는지 알아차린다. HMD(Head Mounted Display)를 착용하고 듣는 경우, 바이노럴(binaural) 음향을 사용하면, ITD, ILD를 변화시켜, 좌·우 신호를 만들어 주어 헤드폰으로 듣는 소리에 방향감을 넣어 줄 수 있으며, 이를 통해 실감 음향이 구현될 수 있다.As shown in FIG. 1, ITD refers to a time difference that occurs due to a difference in a path of arrival of a sound reaching two ears from a sound source when a sound occurs at a specific location, and ILD indicates a sound source when a sound occurs at a specific location. It refers to the difference in size that appears due to the difference in the arrival path of the sound reaching from the two ears. Through this ITD and ILD, a person notices which direction the sound source is from left to right on a horizontal plane with respect to the head. When wearing and listening to the HMD (Head Mounted Display), using a binaural sound, you can change the ITD and ILD to create a left and right signal to give a sense of direction to the sound you hear with your headphones. Through this, realistic sound can be realized.

도 2의 (A)는 음원과 관찰자와의 각도에 따른 ITD 값을 측정한 통계 결과를 나타낸 그래프이고, (B)는 음원과 관찰자와의 각도에 따른 ILD 값을 측정한 통계 결과를 나타낸 그래프이다.2 (A) is a graph showing the statistical result of measuring the ITD value according to the angle between the sound source and the observer, and (B) is a graph showing the statistical result of measuring the ILD value according to the angle between the sound source and the viewer. .

도 2의 (A)를 참조하면, 음원과 관찰자와의 각도가 전면 0°에서 후면 180°로 변할 때, 0°에서 90°에 이르기까지 ITD 값이 급격하게 증가하다가 90°에서 최고값을 기록한 후, 90°에서 180°에 이르기까지 ITD 값이 대칭적으로 급격하게 감소함을 알 수 있다.Referring to (A) of FIG. 2, when the angle between the sound source and the observer changes from 0 ° to 180 ° at the front, the ITD value increases rapidly from 0 ° to 90 ° and then records the highest value at 90 °. Afterwards, it can be seen that the ITD value decreases symmetrically and sharply from 90 ° to 180 °.

도 2의 (B)를 참조하면, ILD(dB) 값은 대략 0°를 중심으로 하여 0°에서 -90°에 이르기까지 음(-)의 크기로 그 크기가 점차 증가하여 -60°부근에서 최고 정점을 기록한 후 다시 감소하고, 0°에서 +90°에 이르기까지 거의 대칭적으로 양(+)의 크기로 그 크기가 점차 증가하여 +60°부근에서 최고 정점을 기록한 후 다시 감소함을 알 수 있다.Referring to (B) of FIG. 2, the ILD (dB) value gradually increases in size from negative (-) to 0 to -90 ° centered around 0 °, gradually increasing in size from -60 ° After recording the highest peak, it decreases again, and gradually increases in size from 0 ° to + 90 ° in a positively symmetrical size, and then decreases again after recording the highest peak near + 60 °. You can.

이상과 같은 도 2의 (A), (B)의 정보를 이용하면, 바이노럴 음향신호의 ITD와 ILD 정보를 이용하여, 역으로 음원과 관찰자의 각도를 구할 수 있게 된다. 음원과 관찰자와의 각도 변화에 따른 ITD와 ILD의 관계는 머리의 형태, 귀의 모양, 몸의 형상 등 다양한 영향을 받을 수 있어 그 데이터 값은 여러 연구소에서 측정을 통해 통계적으로 제공하고 있다.Using the information of FIGS. 2A and 2B as described above, it is possible to obtain the angle of the sound source and the viewer in reverse by using the ITD and ILD information of the binaural sound signal. The relationship between ITD and ILD according to the change in angle between the sound source and the observer can be affected by various effects such as the shape of the head, the shape of the ear, and the shape of the body, so the data values are statistically provided by various research institutes.

그러면, 이하에서는 이상과 같은 ITD와 ILD를 기반으로 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법에 대하여 설명해 보기로 한다.Then, hereinafter, based on the ITD and ILD as described above, a description will be given of a stereoscopic matching method of video and sound in a 360 ° image according to the present invention.

도 3은 본 발명의 실시예에 따른 360°영상에서 영상과 음향의 정위 합치 방법의 실행 과정을 나타낸 흐름도이다.3 is a flowchart illustrating an execution process of a stereoscopic matching method of video and sound in a 360 ° image according to an embodiment of the present invention.

도 3을 참조하면, 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법에 따라, 먼저 특정 위치에서 소리가 발생했을 때, 측정한 ITD(Inter-aural Time Difference; 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 시간 차이)를 통계상 ITD와 비교하여 이에 해당하는 방향각(θ1)을 도출한다(단계 S301).Referring to FIG. 3, according to a stereotactic matching method of video and sound in a 360 ° image according to the present invention, first, when a sound is generated at a specific location, measured ITD (Inter-aural Time Difference; sound is generated at a specific location) When compared, statistically compares the ITD with the difference in the arrival path of the sound reaching the two ears from the sound source to the ITD to derive the corresponding direction angle θ 1 (step S301).

또한, 특정 위치에서 소리가 발생했을 때, 측정한 ILD(Inter-aural Level Difference; 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 크기 차이)를 통계상 ILD와 비교하여 이에 해당하는 방향각(θ2)을 도출한다(단계 S302).In addition, when the sound occurs at a specific location, the measured ILD (Inter-aural Level Difference; when the sound occurs at a specific location, the size difference due to the difference in the arrival path of the sound reaching the two ears from the sound source) Statistics The direction angle θ 2 corresponding to this is compared to the phase ILD (step S302).

그런 후, 상기 θ1과 θ2의 평균을 구함으로써 θA(360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로 음원의 방향을 나타내는 각도)를 산출한다(단계 S303). 여기서, θA를 산출하는 과정에 대해서는 뒤에서 다시 설명하기로 한다.Then, the average of the θ 1 and θ 2 is calculated to calculate θ A (the angle representing the direction of the sound source based on the front 0 ° when the observer is positioned in the 360 ° image) (step S303). Here, the process of calculating θ A will be described again later.

이상에 의해 θA가 산출되면, 그 산출된 θA와 θV(360°영상에서 관찰자가 위치하였을 때, 정면 0°를 기준으로, 화면상에 물체가 위치한 방향의 각도)를 바탕으로 영상·음향 정위 일치율(CVA)을 산출한다(단계 S304). 여기서, 이와 같은 영상·음향 정위 일치율(CVA)은 다음과 같은 수식 관계로 나타낼 수 있다.When θ A is calculated by the above, the calculated θ A and θ V (when the observer is positioned in the 360 ° image, based on the front 0 °, the angle of the direction in which the object is located on the screen) The acoustic stereotactic rate (C VA ) is calculated (step S304). Here, such a video-acoustic stereotactic coincidence rate (C VA ) can be expressed by the following mathematical relationship.

Figure 112018113241117-pat00002
Figure 112018113241117-pat00002

이상과 같은 영상·음향 정위 일치율(CVA)에 대해서는 뒤에서 다시 설명하기로 한다.The above video and sound stereotactic coincidence rate (C VA ) will be described again later.

이렇게 하여 영상·음향 정위 일치율(CVA)이 산출되면, 그 산출된 영상·음향 정위 일치율(CVA)을 바탕으로 영상에 대해 음향을 조정하여 출력한다(단계 S305). 여기서, 상기 산출된 영상·음향 정위 일치율(CVA)을 바탕으로 영상에 대해 음향을 조정하여 출력할 수 있도록 하기 위해, 도 4의 (A)와 같이, 360°영상 카메라(610)에 카메라를 중심으로 4개의 지향성 마이크(620a∼620d)를 90°간격으로 배치하여 360°영상 촬영과 4채널 멀티트랙 녹음을 동시에 진행하는 단계를 더 포함할 수 있다.When the video / acoustic stereotactic rate (C VA ) is calculated in this way, the sound is adjusted and output for the video based on the calculated video / acoustic stereotactic rate (C VA ) (step S305). Here, in order to be able to output by adjusting the sound for the image based on the calculated image-acoustic stereotactic rate (C VA ), as shown in (A) of FIG. 4, the camera is attached to the 360 ° image camera 610. The method may further include the step of simultaneously recording 360 ° images and 4-channel multitrack recording by arranging the four directional microphones 620a to 620d at an interval of 90 °.

또한, 상기 360°영상 촬영과 4채널 멀티트랙 녹음을 동시에 진행한 후, 영상 및 음향을 출력함에 있어서, 영상이 회전할 때 관찰자(시청자)의 시선에 따라 4채널 오디오의 볼륨과 패닝(panning)을 조절하여 영상의 시선에 맞게 영상과 오디오를 믹싱하여 스테레오로 출력할 수 있다.In addition, after simultaneously recording the 360 ° image and recording four-channel multitrack, outputting the image and sound, the volume and panning of the four-channel audio in accordance with the observer's (viewer) gaze when the image rotates By adjusting, you can mix the video and audio to match the gaze of the video and output it in stereo.

도 5는 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법에 채용되는 영상·음향 정위 일치율(CVA)의 개념을 도식적으로 나타낸 도면이다.FIG. 5 is a diagram schematically showing the concept of an image-acoustic stereotaxic matching rate (C VA ) employed in a stereoscopic matching method of video and audio in a 360 ° image according to the present invention.

도 5를 참조하면, 영상·음향 정위 일치율(CVA)은 360°영상에서 화면상에 나타난 음원의 방향과 음향이 표출해 내는 소리의 방향이 일치하는 정도를 의미한다. 도 5에 도시된 바와 같이, 360°영상에서 관찰자가 위치하였을 때, 정면 0°를 기준으로 화면상에 물체가 위치한 방향의 각도를 θV, 음원의 방향을 나타내는 각도를 θA로 각각 표시하였다.Referring to FIG. 5, the video / acoustic stereotactic coincidence rate (C VA ) refers to the degree to which the direction of a sound source displayed on a screen in a 360 ° image coincides with the direction of sound expressed by the sound. As shown in FIG. 5, when an observer is positioned in the 360 ° image, the angle of the direction in which the object is located on the screen with respect to the front 0 ° is indicated by θ V and the angle representing the direction of the sound source is indicated by θ A , respectively. .

θV는 정면 0°를 기준으로 관찰자가 시선을 물체의 정중앙에 위치시켰을 때의 각도 값을 채택하고, θA는 음향의 좌,우 신호 사이의 ITD 및 ILD를 각각 측정하여, 전술한 도 2의 (A), (B)의 각도에 따른 ITD, ILD 관계 그래프를 이용하여 도출한다.θ V adopts the angular value when the observer positions the gaze at the center of the object with respect to the front 0 °, and θ A measures the ITD and ILD between the left and right signals of the sound, respectively. It is derived by using ITD and ILD relationship graphs according to the angles of (A) and (B).

도 6은 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법에 있어서, θA를 산출하는 과정을 나타낸 흐름도이다.6 is a flowchart illustrating a process of calculating θ A in a stereotactic matching method of video and sound in a 360 ° image according to the present invention.

도 6을 참조하면, 이는 관찰자가 시선을 정면 0°에 두었을 때, 표출되는 스테레오 음향 신호를 받아 ITD, ILD를 측정하여, ITD, ILD와 각도 변화 관계 그래프를 이용하여 음향에서 소리의 방향각 θA를 산출하는 과정을 나타낸 것으로, θA를 산출하는 과정은, 먼저 ITD(Inter-aural Time Difference; 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 시간 차이)를 측정한다(단계 S601). Referring to FIG. 6, when the observer puts the gaze at the front 0 °, it measures the ITD and ILD by receiving the stereo sound signal that is expressed, and uses the ITD, ILD and angle change relationship graph to show the direction angle of sound in the sound. It shows the process of calculating θ A, and the process of calculating θ A is due to the difference in the arrival path of the sound reaching the two ears from the sound source when the sound is generated at a specific location. The time difference that appears) is measured (step S601).

그런 후, 통계상의 데이터를 이용하여(즉, 도 2의 (A)의 각도에 따른 ITD 관계 그래프를 이용하여) 상기 측정된 ITD에 대응하는 방향각 θ를 도출한다(단계 S602).Then, using the statistical data (that is, using the ITD relationship graph according to the angle of FIG. 2A), a direction angle θ corresponding to the measured ITD is derived (step S602).

그런 다음, 관찰자의 시야 범위(각도)를 관찰자의 전방측과 후방측으로 분할한 상태에서, 후방측 각도 범위의 소리를 측정했을 때 소리의 크기(dB)가 감소하는지를 판별한다(단계 S603).Then, in a state in which the observer's field of view (angle) is divided into the observer's front side and the rear side, it is determined whether the sound volume (dB) decreases when the sound in the rear side angular range is measured (step S603).

상기 판별에서 소리의 크기(dB)가 감소하지 않으면(즉, 소리의 크기가 증가하면), x축을 대칭으로 θ<0이면 θ= -180-θ로 설정하고, θ>0이면 θ= 180-θ로 설정한다(단계 S604).In the above determination, if the volume (dB) of the sound does not decrease (i.e., when the volume of the sound increases), the x-axis is symmetrically set to θ = -180-θ if θ <0, and θ = 180- if θ> 0. Set to θ (step S604).

그리고 상기 판별에서 소리의 크기(dB)가 감소하면, θ= θ1(ITD), θ= θ2 (ILD)로 설정한다(단계 S605).Then, when the volume (dB) of the sound decreases in the above determination, θ = θ 1 (ITD) and θ = θ 2 (ILD) are set (step S605).

그런 후, 상기 θ2 (ILD)를 상기 통계적인 데이터를 이용하여(즉, 도 2의 (B)의 각도에 따른 ILD 관계 그래프를 이용하여) 도출한다(단계 S606).Then, the θ 2 (ILD) is derived using the statistical data (ie, using the ILD relationship graph according to the angle of FIG. 2B) (step S606).

그런 다음, 최종적으로 상기 θ1과 θ2 의 평균을 구함으로써 θA A = (θ1 2 )/2)를 산출한다(단계 S607).Then, θ AA = (θ 1 + θ 2 ) / 2) is calculated by finally obtaining the average of θ 1 and θ 2 (step S607).

이렇게 하여 θA가 산출되면, 그 산출된 θA와 θV(360°영상에서 관찰자가 위치하였을 때, 정면 0°를 기준으로, 화면상에 물체가 위치한 방향의 각도)를 상기 수학식 1에 대입하여 영상·음향 정위 일치율(CVA)을 계산한다.When θ A is calculated in this way, the calculated θ A and θ V (the angle of the direction in which the object is located on the screen based on the front 0 ° when an observer is positioned in the 360 ° image) are expressed in Equation 1 above. Substituting, the video and sound stereotactic coincidence rate (C VA ) is calculated.

360°영상에서 화면상에 보이는 물체의 방향과 음향에서 표출해 내는 물체의 방향이 같으면, 수학식 1에서 나타내는 바와 같이 일치율은 100%가 된다. 기존의 360°영상에서와 같이(도 7의 (A) 참조) θA는 0°를 나타내는 경우에, θV를 변화시키면 영상·음향 일치율은 계속 감소하며, 점차적으로 일치율은 감소하게 된다.If the direction of the object shown on the screen in the 360 ° image is the same as the direction of the object expressed by the sound, as shown in Equation 1, the match rate is 100%. As in the existing 360 ° image (see (A) of FIG. 7), when θ A represents 0 °, when θ V is changed, the video-acoustic coincidence rate continues to decrease, and the coincidence rate gradually decreases.

한편, 도 7은 종래의 360°영상에 대한 영상·음향 정위 일치율(CVA)과 본 발명의 360°영상에 대한 영상·음향 정위 일치율(CVA)을 나타낸 도면이다.On the other hand, Figure 7 is a diagram showing the video and sound localization match rate (C VA) and video and sound localization match rate for the 360 ° image of the present invention (C VA) for a conventional 360 ° picture.

도 7의 (A)를 참조하면, 이는 종래 360°영상에 대한 영상·음향 정위 일치율(CVA)을 주파수별, 각도별로 3차원 그래프로 나타낸 것으로서, ITD, ILD는 음원의 주파수별로 특성이 다르기 때문에, θV가 변화하므로, 영상·음향 정위 일치율은 측정 주파수와 시선 방향을 나타내는 θV에 따라 달라진다. 따라서, 분석 시에 주파수 대역별로 나누어서 분석하면 일치율은 주파수와 각도를 축으로 하는 3차원 그래프로 나타낼 수 있게 된다. 종래 360°영상은 θA가 변하지 않기 때문에, 관찰자가 시선을 돌렸을 때, θV만 변화하여, 시선이 정면 0°를 벗어나면, 영상·음향 정위 일치율은 예상대로 θV 변화에 따라 변화하게 된다. 이를 통해 종래 360°영상에서는 관찰자의 시선에 따라 영상과 음향의 정위가 일치하지 않아, 감각적 이질감이 두드러지며, 결국 이러한 시스템에서는 관찰자에게 주는 몰입감이 현저하게 저하된다.Referring to (A) of FIG. 7, this is a three-dimensional graph showing the video and sound stereotactic matching rate (C VA ) for a conventional 360 ° image by frequency and angle, and ITD and ILD have different characteristics for each frequency of the sound source. Therefore, since θ V changes, the video / audio stereotactic coincidence rate depends on θ V indicating the measurement frequency and the gaze direction. Therefore, when analysis is performed by dividing each frequency band at the time of analysis, the coincidence rate can be represented by a three-dimensional graph with frequency and angle as axes. In the conventional 360 ° image, since θ A does not change, when the observer turns his gaze, only θ V changes, and if the gaze deviates from the front 0 °, the video / acoustic stereotactic coincidence rate changes according to the θ V change as expected. . Through this, in the conventional 360 ° image, the position of the image and the sound do not coincide with the observer's gaze, so the sensory heterogeneity is prominent, and in this system, the immersion feeling to the observer is significantly reduced.

본 발명의 방법에서는 전술한 바와 같이, 360°영상에서 영상·음향 정위 일치율을 향상시키기 위하여, 360°영상 카메라에 카메라를 중심으로 4방향에 마이크를 부착하여 녹음하는 방식을 취했으며, 시청자의 시선에 따라 영상이 회전할 때, 4채널 오디오의 볼륨과 패닝을 조절하여 영상의 시선에 맞게 믹싱하여 스테레오로 출력해주는 시스템을 구축했다. 도 4의 (B)는 이러한 시스템과 관련하여 시선에 따른 음원 믹싱 방법을 나타낸 것으로서, 관찰자의 시선이 변함에 따라 case 1에서부터 case 2, case 3으로 변화하며 음원을 믹싱하게 된다.In the method of the present invention, as described above, in order to improve the video / sound stereotactic matching rate in a 360 ° image, a method of recording by attaching a microphone in four directions around the camera to the 360 ° image camera was taken, and the viewer's gaze In accordance with this, we constructed a system that controls the volume and panning of the 4-channel audio when the video rotates, and mixes it to the gaze of the video and outputs it in stereo. FIG. 4B shows a sound source mixing method according to the gaze in connection with such a system, and the sound source is mixed while changing from case 1 to case 2 and case 3 as the observer's gaze changes.

도 7의 (B)는 본 발명의 방법이 적용된 360°영상에 대한 영상·음향 정위 일치율(CVA)을 주파수별, 각도별로 3차원 그래프로 나타낸 것으로서, 영상·음향 정위 일치율(CVA)은 도시된 바와 같이 가장 열악한 상황인 -90°상황에서도 60% 이상을 나타냄을 알 수 있으며, 이는 종래 방식의 영상 대비 약 20% 이상의 개선 효과가 있음을 나타내고, 평균적으로 70% 이상의 개선 효과를 나타내었다.7 (B) shows a video / acoustic stereotaxic matching rate (C VA ) for a 360 ° image to which the method of the present invention is applied as a 3-dimensional graph for each frequency and angle, and the video / acoustic stereotaxic matching rate (C VA ) is As shown, it can be seen that even in the most severe situation, -90 °, it shows 60% or more, which indicates that there is an improvement effect of about 20% or more compared to the conventional image, and an improvement effect of 70% or more on average. .

이상의 설명과 같이, 본 발명에 따른 360°영상에서 영상과 음향의 정위 합치 방법은 360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로 음원의 방향을 나타내는 각도(θA)와 360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로, 화면상에 물체가 위치한 방향의 각도(θV)를 구하고, 그것을 바탕으로 영상·음향 정위 일치율(CVA)을 산출하여 영상에 대해 음향을 조정하여 출력함으로써, 몰입감을 극대화시킬 수 있는 입체 음향 서비스를 제공할 수 있는 장점이 있다.As described above, in the 360 ° image according to the present invention, the stereotactic matching method of the image and the sound is an angle (θ A ) and 360 ° indicating the direction of the sound source relative to the front 0 ° when an observer is positioned in the 360 ° image. When the observer is located in the image, the angle (θ V ) of the direction in which the object is located on the screen is calculated based on the front 0 °, and based on this, the image-acoustic stereotactic rate (C VA ) is calculated to produce the sound for the image. By adjusting and outputting, there is an advantage of providing a stereophonic service that can maximize immersion.

또한, 본 발명의 방법을 영상 제작에 적용할 경우 360°영상에서 영상·음향 정위 일치율이 향상된 영상을 제작할 수 있는 장점이 있다.In addition, when the method of the present invention is applied to image production, there is an advantage in that an image with an improved stereoscopic matching ratio of an image and an audio in a 360 ° image can be produced.

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.As described above, the present invention has been described in detail through preferred embodiments, but the present invention is not limited thereto, and various modifications and applications can be made without departing from the scope of the technical spirit of the present invention. It is obvious to the technician. Therefore, the true protection scope of the present invention should be interpreted by the following claims, and all technical spirits within the equivalent scope should be interpreted as being included in the scope of the present invention.

610: 360°영상 카메라 620a∼620d: 지향성 마이크610: 360 ° video camera 620a to 620d: directional microphone

Claims (5)

a) 특정 위치에서 소리가 발생했을 때, 측정한 ITD(Inter-aural Time Difference; 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 시간 차이)를 통계상 ITD와 비교하여 이에 해당하는 방향각(θ1)을 도출하는 단계;
b) 특정 위치에서 소리가 발생했을 때, 측정한 ILD(Inter-aural Level Difference; 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 크기 차이)를 통계상 ILD와 비교하여 이에 해당하는 방향각(θ2)을 도출하는 단계;
c) 상기 θ1과 θ2의 평균을 구함으로써 θA(360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로 음원의 방향을 나타내는 각도)를 산출하는 단계;
d) 산출된 θA와 θV(360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로, 화면상에 물체가 위치한 방향의 각도)를 바탕으로 영상·음향 정위 일치율(CVA)을 산출하는 단계; 및
e) 상기 산출된 영상·음향 정위 일치율(CVA)을 바탕으로 영상에 대해 음향을 조정하여 출력하는 단계를 포함하고,
상기 단계 c)에서 상기 θA를 산출하는 과정은,
c-1) ITD(Inter-aural Time Difference; 특정 위치에서 소리가 발생했을 때, 음원으로부터 두 귀에 도달하는 소리의 도달 경로의 차이로 인해 나타나는 시간 차이)를 측정하는 단계;
c-2) 통계상의 데이터를 이용하여 상기 측정된 ITD에 대응하는 방향각 θ를 도출하는 단계;
c-3) 관찰자의 시야 범위를 관찰자의 전방측과 후방측으로 분할한 상태에서, 후방측 각도 범위의 소리를 측정했을 때 소리의 크기(dB)가 감소하는지를 판별하는 단계;
c-4) 상기 판별에서 소리의 크기(dB)가 감소하지 않으면(소리의 크기가 증가하면), x축을 대칭으로 θ<0이면 θ= -180-θ로 설정하고, θ>0이면 θ= 180-θ로 설정하는 단계;
c-5) 상기 판별에서 소리의 크기(dB)가 감소하면, θ= θ1(ITD), θ= θ2 (ILD)로 설정하는 단계;
c-6) 상기 θ2 (ILD)를 상기 통계상의 데이터를 이용하여 도출하는 단계; 및
c-7) 상기 θ1과 θ2 의 평균을 구함으로써 θA A = (θ1 2 )/2)를 산출하는 단계를 포함하는 360°영상에서 영상과 음향의 정위 합치 방법.
a) Statistical measurement of the inter-aural time difference (ITD) measured when a sound occurs at a specific location, due to a difference in the arrival path of a sound reaching two ears from a sound source when a sound occurs at a specific location) Deriving a direction angle (θ 1 ) corresponding to this compared to the phase ITD;
b) Statistical measurement of ILD (Inter-aural Level Difference) measured when a sound occurs at a specific location, due to a difference in the path of arrival of a sound reaching two ears from a sound source when a sound occurs at a specific location) Deriving a direction angle (θ 2 ) corresponding to this compared to the phase ILD;
c) calculating θ A (the angle representing the direction of the sound source based on the front 0 ° when an observer is positioned in a 360 ° image) by calculating the average of the θ 1 and θ 2 ;
d) when the observer is located at the calculated θ A and θ V (360 ° image, based on the front 0 °, the object is the direction angle) of the image, sound localization match rate based on properties in a screen (C VA) to Calculating; And
e) adjusting and outputting sound for an image based on the calculated image / acoustic stereotactic rate (C VA ),
The process of calculating the θ A in the step c),
c-1) measuring an ITD (Inter-aural Time Difference) when a sound occurs at a specific location, a time difference due to a difference in a path of arrival of a sound reaching two ears from a sound source;
c-2) deriving a direction angle θ corresponding to the measured ITD using statistical data;
c-3) in a state in which the observer's field of view is divided into the front side and the rear side of the observer, determining whether the sound volume (dB) decreases when the sound in the rear angle range is measured;
c-4) If the loudness (dB) does not decrease in the discrimination (if the loudness increases), the x-axis is symmetrically set to θ = -180-θ if θ <0, and θ = if θ> 0. Setting to 180-θ;
c-5) if the volume (dB) of the sound decreases in the discrimination, setting θ = θ 1 (ITD) and θ = θ 2 (ILD);
c-6) deriving the θ 2 (ILD) using the statistical data; And
c-7) Stereotactic matching of video and sound in a 360 ° image, comprising calculating θ AA = (θ 1 + θ 2 ) / 2) by obtaining the average of θ 1 and θ 2 .
삭제delete 제1항에 있어서,
상기 단계 d)에서 상기 영상·음향 정위 일치율(CVA)은 다음과 같은 수식 관계로 표현되는 360°영상에서 영상과 음향의 정위 합치 방법.
Figure 112018113241117-pat00003

여기서, θA는 360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로 음원의 방향을 나타내는 각도, θV는 360°영상에서 관찰자가 위치했을 때, 정면 0°를 기준으로, 화면상에 물체가 위치한 방향의 각도를 각각 나타낸다.
According to claim 1,
In step d), the video / acoustic stereotactic coincidence rate (C VA ) is a stereoscopic matching method of video and sound in a 360 ° image expressed by the following mathematical relationship.
Figure 112018113241117-pat00003

Here, θ A is the angle indicating the direction of the sound source relative to the front 0 ° when the observer is located in the 360 ° image, and θ V is based on the front 0 ° when the observer is positioned in the 360 ° image. Each of the angles in the direction in which the object is located.
제1항에 있어서,
상기 단계 e)에서, 상기 산출된 영상·음향 정위 일치율(CVA)을 바탕으로 영상에 대해 음향을 조정하여 출력할 수 있도록 하기 위해, 360°영상 카메라에 카메라를 중심으로 4개의 지향성 마이크를 90°간격으로 배치하여 360°영상 촬영과 4채널 멀티트랙 녹음을 동시에 진행하는 단계를 더 포함하는 360°영상에서 영상과 음향의 정위 합치 방법.
According to claim 1,
In step e), in order to be able to adjust and output sound for an image based on the calculated image / acoustic stereotactic coincidence rate (C VA ), four directional microphones are centered on the 360 ° image camera centered on the camera. Positioning at intervals ° 360 ° video recording and four-channel multi-track recording at the same time further comprising the step of the stereoscopic matching method of video and sound in a 360 ° video.
제4항에 있어서,
상기 360°영상 촬영과 4채널 멀티트랙 녹음을 동시에 진행한 후, 영상 및 음향을 출력함에 있어서, 영상이 회전할 때 관찰자(시청자)의 시선에 따라 4채널 오디오의 볼륨과 패닝을 조절하여 영상의 시선에 맞게 영상과 오디오를 믹싱하여 스테레오로 출력하는 360°영상에서 영상과 음향의 정위 합치 방법.
The method of claim 4,
After simultaneously recording the 360 ° image and recording 4-channel multitrack, outputting the image and sound, adjust the volume and panning of the 4-channel audio according to the observer's (viewer) gaze when the image rotates. Stereoscopic matching method between video and sound in a 360 ° video that mixes video and audio to match the gaze and outputs it in stereo.
KR1020180139922A 2018-11-14 2018-11-14 Method for reconciling image and sound in 360 degree picture KR102099450B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180139922A KR102099450B1 (en) 2018-11-14 2018-11-14 Method for reconciling image and sound in 360 degree picture

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180139922A KR102099450B1 (en) 2018-11-14 2018-11-14 Method for reconciling image and sound in 360 degree picture

Publications (1)

Publication Number Publication Date
KR102099450B1 true KR102099450B1 (en) 2020-05-15

Family

ID=70678788

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180139922A KR102099450B1 (en) 2018-11-14 2018-11-14 Method for reconciling image and sound in 360 degree picture

Country Status (1)

Country Link
KR (1) KR102099450B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10174200A (en) * 1996-12-12 1998-06-26 Yamaha Corp Sound image localizing method and device
US20170347193A1 (en) * 2016-05-24 2017-11-30 Matthew Marrin Multichannel Head-Trackable Microphone
KR20180003384A (en) 2016-06-30 2018-01-09 한양대학교 산학협력단 System and method for capturing 3d sound
WO2018152004A1 (en) * 2017-02-15 2018-08-23 Pcms Holdings, Inc. Contextual filtering for immersive audio

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10174200A (en) * 1996-12-12 1998-06-26 Yamaha Corp Sound image localizing method and device
US20170347193A1 (en) * 2016-05-24 2017-11-30 Matthew Marrin Multichannel Head-Trackable Microphone
KR20180003384A (en) 2016-06-30 2018-01-09 한양대학교 산학협력단 System and method for capturing 3d sound
WO2018152004A1 (en) * 2017-02-15 2018-08-23 Pcms Holdings, Inc. Contextual filtering for immersive audio

Similar Documents

Publication Publication Date Title
CN106134223B (en) Reappear the audio signal processing apparatus and method of binaural signal
US8571192B2 (en) Method and apparatus for improved matching of auditory space to visual space in video teleconferencing applications using window-based displays
US7602921B2 (en) Sound image localizer
US20060050890A1 (en) Method and apparatus for producing a phantom three-dimensional sound space with recorded sound
KR20090035575A (en) Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
TWI808277B (en) Devices and methods for spatial repositioning of multiple audio streams
Boyd et al. Auditory externalization in hearing-impaired listeners: The effect of pinna cues and number of talkers
Roginska Binaural audio through headphones
CN105246001B (en) Double-ear type sound-recording headphone playback system and method
KR20190083863A (en) A method and an apparatus for processing an audio signal
US20130243201A1 (en) Efficient control of sound field rotation in binaural spatial sound
Sunder Binaural audio engineering
Maempel et al. The virtual concert hall: a research tool for the experimental investigation of audiovisual room perception
US20040247144A1 (en) Sound reproduction systems
KR102099450B1 (en) Method for reconciling image and sound in 360 degree picture
Günel et al. Spatial synchronization of audiovisual objects by 3D audio object coding
Li et al. Towards Mobile 3D HRTF Measurement
Gardner Spatial audio reproduction: Towards individualized binaural sound
US11962995B2 (en) Virtual playback method for surround-sound in multi-channel three-dimensional space
JP6972858B2 (en) Sound processing equipment, programs and methods
KR100307622B1 (en) Audio playback device using virtual sound image with adjustable position and method
JP6274244B2 (en) Sound collecting / reproducing apparatus, sound collecting / reproducing program, sound collecting apparatus and reproducing apparatus
JP2020167471A (en) Information processing apparatus, information processing method and program
KR102534802B1 (en) Multi-channel binaural recording and dynamic playback
Satongar et al. On the influence of headphones on localization of loudspeaker sources

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant