KR20170135611A - A method and an apparatus for processing an audio signal - Google Patents

A method and an apparatus for processing an audio signal Download PDF

Info

Publication number
KR20170135611A
KR20170135611A KR1020160067810A KR20160067810A KR20170135611A KR 20170135611 A KR20170135611 A KR 20170135611A KR 1020160067810 A KR1020160067810 A KR 1020160067810A KR 20160067810 A KR20160067810 A KR 20160067810A KR 20170135611 A KR20170135611 A KR 20170135611A
Authority
KR
South Korea
Prior art keywords
signal
sound
sound object
audio signal
spatial
Prior art date
Application number
KR1020160067810A
Other languages
Korean (ko)
Inventor
전세운
오현오
이태규
서정훈
백용현
Original Assignee
가우디오디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오디오랩 주식회사 filed Critical 가우디오디오랩 주식회사
Priority to KR1020160067810A priority Critical patent/KR20170135611A/en
Priority to CN201780033291.6A priority patent/CN109314832B/en
Priority to PCT/KR2017/005610 priority patent/WO2017209477A1/en
Priority to US15/608,969 priority patent/US10271157B2/en
Publication of KR20170135611A publication Critical patent/KR20170135611A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

The present invention relates to a method and a device for processing a signal in order to effectively play an audio signal. More specifically, the present invention relates to a method and a device for processing an audio signal for realizing an immersive type binaural rendering for a portable device including a head mounted display (HMD) device. The method acquires a spatial audio signal and a sound object signal based on a three-dimensional coordinate, and performs time synchronization of the signals at a recorded time and spatial synchronization of the signals in a three-dimensional space.

Description

오디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}TECHNICAL FIELD [0001] The present invention relates to an audio signal processing method and apparatus,

본 발명은 오디오 신호를 효과적으로 재생하기 위한 신호 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 HMD(Head Mounted Display) 기기를 비롯한 휴대 기기를 위한 몰입형(immersive) 바이노럴 렌더링을 구현하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a signal processing method and apparatus for effectively reproducing an audio signal, and more particularly, to a signal processing method and apparatus for effectively reproducing an audio signal for implementing an immersive binaural rendering for a portable device including an HMD (Head Mounted Display) To a signal processing method and apparatus.

HMD에서 immersive audio listening를 하기 위해서 바이노럴 렌더링(binaural rendering) 기술이 필수적이다. 이때, 연산량 및 전력 소모의 제약이 따르는 모바일 디바이스에서, rendering 대상 객체 혹은 채널의 증가로 인한 연산량 및 전력 소모의 부담은 물론이고, 개인 맞춤형으로 제작되지 않은 HRTF 로 인한 개인별 부적응의 문제, HRTF set의 개수 부족 (공간 해상도 부족)에 따른 artifacts, head tracking lag에 따른 성능 저하 및 불편함 등의 문제를 가지고 있다.Binaural rendering techniques are essential for immersive audio listening in HMDs. At this time, in the mobile device with the limitation of the computation amount and the power consumption, not only the computation amount and power consumption burden due to the increase of the object to be rendered or the channel, but also the problem of the individual maladjustment due to the HRTF Artifacts due to insufficient number of images (insufficient spatial resolution), performance degradation due to head tracking lag, and inconvenience.

시네마틱 VR과 같은 컨텐츠 제작을 위해서 실재 환경에 대한 사운드를 전후좌우상하의 전방향으로 녹음하고, 이를 HMD와 같은 가상현실 장치에서 재생하기 위한 일련의 과정에는 3차원 입체 음원 레코딩(3D sound recording) 기술 및 바이노럴 렌더링(binaural rendering) 기술이 필요하다. 이때, 3차원 공간에 위치하는 사운드 객체(sound object)의 신호를 실재 환경과 같은 방향에서 들리도록 하기 위해서는 개별 사운드 객체 신호를 취득하기 위한 다수의 마이크로폰이 필요하고 사운드 객체의 방향을 추적해서 재현하는 기술이 필요하다. 하지만 이는 물리적으로 마이크로폰을 전방향으로 배치하는 것이 어렵고 실재 환경에 존재하는 잔향 잡음(ambient noise)으로 인하여 정확한 위치 추적이 어려운 문제를 가지고 있다. 또한 녹음된 신호를 후처리 작업으로 사운드 객체를 적절한 위치에 바이노럴 렌더링시키기 위해서는 사운드 믹싱 엔지니어가 3차원 공간상의 영상과의 동기화를 고려하여 일일이 작업을 해야하는 수고로움이 있다.In order to produce contents such as cinematic VR, a series of processes for recording the sound of the real environment in front, back, left, top, bottom, and all directions and reproducing it in the virtual reality device such as HMD include 3D sound recording technology Binaural rendering techniques are needed. At this time, in order to make the sound object sound signal located in the three-dimensional space heard in the same direction as the real environment, a plurality of microphones for acquiring individual sound object signals are required and the direction of the sound object is tracked and reproduced Technology is needed. However, it is difficult to physically place the microphone in all directions and it is difficult to accurately track the location due to the ambient noise existing in the real environment. Also, in order to render the recorded signal as a binaural sound object in a proper position by post-processing, it is troublesome for the sound mixing engineer to perform the task individually considering the synchronization with the image in the three-dimensional space.

본 발명은 상기의 문제점을 해결하기 위해 안출된 것으로, 3차원 좌표 기반으로 원거리(far-field)에서 취득된 공간 오디오 신호(spatial audio signal)와 근거리(near-field)에서 취득된 사운드 객체 신호(sound object signal)를 이용하여 사운드 객체의 위치 좌표를 추적하고 신호처리적으로 사운드 객체 신호와 잔향 잡음 신호를 임의로 변환 및 재구성하여 3차원 음원 공간에 재배치하려는 문제를 해결하고자 하는 목적을 가지고 있다.SUMMARY OF THE INVENTION The present invention has been conceived to solve the problems described above, and it is an object of the present invention to provide a spatial audio signal obtained in a far-field and a sound object signal obtained in a near- the sound object signal is used to track the positional coordinates of the sound object and arbitrarily convert and reconstruct the sound object signal and the reverberant noise signal in a signal processing manner to solve the problem of relocation to the three-dimensional sound source space.

본 발명의 실시예에 따르면, 상기와 같은 과제를 해결하기 위한 XXXX방법 및 장치가 제공될 수 있다.According to an embodiment of the present invention, a method and apparatus for resolving the above problems can be provided.

<< Key Ideas >><< Key Ideas >>

1. 3차원 좌표 기반으로 공간 오디오 신호(spatial audio signal) 및 사운드 객체 신호(sound object signal)를 취득하고 이를 레코딩된 시점에서 동기화(time synchronization)하고 3차원 공간에서 동기화(spatial synchronization)하는 방법 1. A method of acquiring a spatial audio signal and a sound object signal on the basis of a three-dimensional coordinate, synchronizing them at the time of recording, and performing spatial synchronization in a three-dimensional space

2. 3차원 공간 오디오 신호를 이용하여 레코딩된 사운드 객체 신호에 포함된 공간 오디오 신호를 제거하고 잔향 잡음(ambient noise)이 제거(de-noising or de-reverberation)된 사운드 객체 신호로 얻는 방법 2. A method for removing a spatial audio signal included in a sound object signal recorded using a three-dimensional spatial audio signal and obtaining a de-noising or de-reverberated sound object signal

3. 모노(mono)의 사운드 객체 신호와 다채널(multichannel)의 3차원 공간 오디오 신호를 1대1 또는 1대 다수의 신호 비교를 통하여 이를 3차원 좌표 기반에서 사운드 객체의 공간상의 위치(3D spatial positioning) 정보를 적은 데이터량으로 효과적으로 나타낼 수 있는 메타데이터로 변환하는 방법 3. Comparing the mono sound object signal and the multichannel 3D spatial audio signal one to one or one to many signals, this is compared with the spatial position of the sound object (3D spatial positioning information) into metadata that can be effectively represented by a small amount of data

4. 상기 레코딩된 공간 오디오 신호 및 잔향 잡음이 제거된 사운드 객체 신호를 상기 추출된 메타데이터와 함께 인코딩된 비트열을 생성하여 전송하는 방법4. A method of generating a bit stream encoded with the extracted metadata and a sound object signal from which the recorded spatial audio signal and reverberation noise are removed,

5. 상기 전송된 비트열을 복호화하여 레코딩된 공간 오디오 신호 및 잔향 잡음이 제거된 사운드 객체 신호, 그리고 사운드 객체의 공간상의 위치 정보를 얻는 방법5. A method of decoding sound field signals obtained by decoding the transmitted bit stream and removing the recorded spatial audio signal and reverberation noise, and obtaining positional information on the space of the sound object

6. 복호화된 신호와 메타데이터를 이용하여 재생 환경에서 레코딩된 입체 음향을 재현하거나 또는 특정 목적을 가지고 3차원 공간 오디오 신호에 포함된 사운드 객체 신호를 제거(sound object cancellation)하거나 특정 사운드 음원의 레벨 또는 위치 등의 공간 특성을 임의로 제어하는 방법 6. Using the decoded signal and meta data to reproduce the stereo sound recorded in the playback environment or to remove the sound object signal included in the 3D spatial audio signal with a specific purpose, Or a method of arbitrarily controlling spatial characteristics such as position

본 발명의 실시예에 따르면, 3차원 공간에서 사운드 객체의 위치를 추적하고 3차원 공간 좌표 기반으로 사운드 객체의 위치를 표현 할 수 있다.According to an embodiment of the present invention, the position of a sound object can be tracked in a three-dimensional space and the position of a sound object can be expressed based on a three-dimensional space coordinate.

또한 3차원 공간 오디오 신호에서 임의의 객체 신호의 음압을 줄이거나 강조할 수 있다.It is also possible to reduce or emphasize the sound pressure of any object signal in a 3D spatial audio signal.

이를 통해 청취 공간상에서 사운드 객체 신호의 3차원 공간상에서의 위치를 재구성 할 수 있다.This makes it possible to reconstruct the position of the sound object signal in the three-dimensional space on the listening space.

도 1은 3차원 공간에서 사운드 객체를 추적하고 취득 및 변환하는 오디오 신호처리 장치의 system architecture이다.
도 2는 3차원 공간에서 사운드 객체들의 원래 위치와 이를 청취 공간상에서 위치를 재구성하는 개념도이다.
도 3은 본 발명이 포함된 오디오 신호 및 메타데이터의 인코딩, 디코딩 과정과 재생 시스템의 레이아웃에 맞게 입체 음향 신호로 변환하는 과정을 나타내는 블록도이다.
1 is a system architecture of an audio signal processing apparatus for tracking, acquiring and converting sound objects in a three-dimensional space.
2 is a conceptual diagram for reconstructing the original position of sound objects in the three-dimensional space and the position thereof in the listening space.
FIG. 3 is a block diagram illustrating a process of encoding and decoding audio signals and metadata included in the present invention and converting the stereo signals into a stereo sound signal according to the layout of the reproduction system.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.As used herein, terms used in the present invention are selected from general terms that are widely used in the present invention while taking into account the functions of the present invention. However, these terms may vary depending on the intention of a person skilled in the art, custom or the emergence of new technology. Also, in certain cases, there may be a term arbitrarily selected by the applicant, and in this case, the meaning thereof will be described in the description of the corresponding invention. Therefore, it is intended that the terminology used herein should be interpreted relative to the actual meaning of the term, rather than the nomenclature, and its content throughout the specification.

도 1은 본 발명이 포함된 오디오 신호의 취득 및 분석 과정을 나타내는 블록도이다. 도 1에 따르면 사운드 객체 신호가 원거리(far-field) 위치한 마이크로폰어레이(microphone array)에서 공간 오디오 신호(spatial audio signal)가 취득되기까지, 3차원 공간상에서 마이크와의 상대적인 위치에 따른 영향(3D relative position)과 룸 환경의 음향적 특성(acoustic room condition)의 영향이 반영되고 최종적으로 공간 잔향 잡음 신호(ambient noise signal)가 더해지게 된다. 이때 추가적으로 사운드 객체의 근거리(near-field)에 위치한 마이크로폰을 통하여 사운드 객체에 대한 신호(sound object signal)가 취득된다. 사운드 객체 신호는 사운드 객체의 위치나 방향 그리고 룸 환경의 변화에 영향을 최소화하기 위하여 음원 가까이에 부착된 마이크로폰을 통해서 취득된다. 1 is a block diagram illustrating a process of acquiring and analyzing an audio signal including the present invention. Referring to FIG. 1, the influence of a relative position with respect to a microphone on a three-dimensional space (3D relative) is obtained from a microphone array in which a sound object signal is located at a far- position and the acoustic room condition of the room environment are reflected and finally the ambient noise signal is added. At this time, a sound object signal for the sound object is obtained through a microphone located near the nearest field of the sound object. The sound object signal is acquired through a microphone attached near the sound source in order to minimize the influence on the position and direction of the sound object and the change of the room environment.

원거리에서 사운드를 취득하기 위해 사용되는 마이크로폰어레이의 개별 마이크로폰 배치는 3차원 공간에서 수평 및 수직 모든 방향의 신호를 취득하기 위한 목적을 갖고 배치된다. 이를 통해 마이크로폰어레이에서 취득된 신호에는 3차원 공간상 임의의 위치에 있는 음원에서 발생된 신호와 잔향 잡음을 포함한 신호를 취득할 수 있다. 원거리에서 마이크로폰어레이에 의해서 취득된 음원 신호는 한개의 무지향성 신호와 3차원 공간에서 직교 좌표축의 방향성을 갖는 다수개의 신호를 나타내는 앰비소닉(Ambisonic) B-format 또는 FoA(First order Ambisonics)나 HoA(Higher order Ambisonics) 신호로 변환된다. 이러한 변환 과정에는 마이크로폰어레이에 포함된 개별 마이크로폰의 3차원 공간에서의 방향 및 마이크로폰 자체의 지향각 특성이 반영된다. The discrete microphone arrangement of the microphone array used to acquire the sound at a long distance is disposed with a purpose for acquiring signals in all directions in both the horizontal and vertical directions in the three-dimensional space. Thus, the signal obtained from the sound source at any arbitrary position in the three-dimensional space and the signal including the reverberation noise can be acquired from the signal acquired from the microphone array. The sound source signal acquired by the microphone array at a long distance includes an omnidirectional signal and an Ambisonic B-format or FoA (First order Ambisonics) or HoA (first order ambience) indicating a plurality of signals having a direction of orthogonal coordinate axes in a three- Higher order Ambisonics) signal. This conversion process reflects the direction of the individual microphones included in the microphone array in the three-dimensional space and the orientation angle characteristics of the microphone itself.

근거리에서 사운드를 취득하기 위해 사용되는 마이크로폰은 개별 사운드 객체의 신호만을 취득하기 위하여 음원의 가장 가까운 위치에 배치되거나 음원에 부착되어 사운드를 취득한다. 이를 통해 잔향 잡음 및 다른 사운드 객체의 신호에 비해 상대적으로 높은 레벨을 갖는 해당 사운드 객체의 신호를 취득할 수 있다. 특히, 사운드 객체가 움직이는 경우, 원거리에서 취득된 신호가 마이크와 사운드 객체와의 상대적인 거리에 따라 영향을 받는 반면, 근거리에서 취득된 신호는 위치 변화에 따른 영향을 거의 받지 않게 된다.A microphone used to acquire sound at a close range is disposed nearest to a sound source to acquire only a signal of an individual sound object, or attached to a sound source to acquire a sound. Thus, it is possible to acquire the signal of the sound object having a relatively high level compared with the signal of the reverberation noise and other sound objects. In particular, when a sound object moves, the signal acquired at a distance is influenced by the relative distance between the microphone and the sound object, while the signal obtained at a close distance is hardly influenced by the position change.

이렇게 취득된 멀티채널 공간 오디오 신호와 모노 사운드 객체 신호는 3차원 공간 상에서 사운드 객체의 위치를 추적하기 위하여 사용된다. 먼저, 근거리에서 취득된 모노 신호 s는 앰비소닉 B-format 또는 HoA 신호로 변환된 각 좌표축 방향의 앰비소닉 B-format 멀티채널 신호

Figure pat00001
와 1대 1로 다음 수학식 1과 수학식 2를 통해서 정규화된 상호상관도(Normalized Cross-Correlation),
Figure pat00002
, 및 시간차(Interchannel Time Difference, ITD)를 계산한다.The multi-channel spatial audio signal and the mono sound object signal thus obtained are used to track the position of the sound object in the three-dimensional space. First, the mono signal s obtained at a short distance is converted into an ambsonic B-format multi-channel signal in each coordinate axis direction converted into an Ambsonic B-format or HoA signal
Figure pat00001
Normalized Cross-Correlation &quot; through &quot; 1 &quot; and &quot; Equation 2 &
Figure pat00002
, And the Interchannel Time Difference (ITD).

(수학식 1)(1)

Figure pat00003
Figure pat00003

(수학식 2)(2)

Figure pat00004
Figure pat00004

(수학식 3)(3)

Figure pat00005
Figure pat00005

앰비소닉 B-format 신호는 물리적으로 동일한 한 점에서의 신호이므로 사운드 객체 신호의 직접음(direct sound)이 도달하는 시간은 같아야 하고, 이때 이상적으로 수학식2는 같은 값이 얻어진다. 또한 룸 공간의 특성이 바뀌지 않는다면 공간 잔향 신호는 원거리에서 취득된 공간 오디오 신호

Figure pat00006
에 동일한 에너지로 취득된다고 가정할 수 있다. 따라서 사운드 객체 신호와 공간 오디오 신호들 간의 상호 상관도 값에 영향을 주는 요소는 3차원 공간상에서 사운드 객체의 방향(direction)이나 거리(distance)와 같은 위치(position) 정보이다. 즉, 공간 오디오 신호 취득 지점을 3차원 공간 상의 원점으로 놓을 때 사운드 객체의 위치에 따라 수학식1의 값이 달라지는데, 예를 들어 사운드 객체가 X축 방향의 공간 오디오 신호 축(axis)에 가까이 위치할 경우, X축 신호와 사운드 객체 신호의 상호상관도는 다른 축 신호와의 상호상관도보다 높게 얻어진다.Since the ambsonic B-format signal is a signal at one physically identical point, the time at which the direct sound of the sound object signal arrives must be the same, and in this case ideally the same value is obtained in Equation (2). In addition, if the characteristics of the room space are not changed, the spatial reverberation signal is a spatial audio signal
Figure pat00006
Can be assumed to be acquired with the same energy. Therefore, an element that affects the cross-correlation value between the sound object signal and the spatial audio signals is position information such as the direction or distance of the sound object in the three-dimensional space. That is, when the spatial audio signal acquisition point is set as the origin on the three-dimensional space, the value of Equation 1 differs depending on the position of the sound object. For example, when the sound object is located close to the spatial audio signal axis in the X- , The degree of cross-correlation between the X-axis signal and the sound object signal is obtained to be higher than the degree of cross correlation with other axis signals.

수학식1의 결과로 얻어진 공간 오디오 신호들과 사운드 객체 신호와의 상호상관도는 3차원 입체 공간 상에서 다음 수학식4과 같이 가변 상수가 곱해져서 좌표축(spherical coordinates) 값으로 계산된다. 거리에 대한 가변 상수

Figure pat00007
는 실제 사운드 객체 신호의 지향 특성(source directivity pattern)이나 공간 오디오 신호를 취득하는 마이크로폰의 방사 패턴(microphone spherical pattern), 사운드 객체와 공간 오디오 취득 마이크로폰과의 거리, 그리고 룸 공간의 물리적 특성에 따라 결정된다. 이 값이 작을 수록 3차원 공간에서 좌표축 방향으로의 신호만 잘 취득하게 되고 반대로 이 값이 작을 수록 좌표축 방향 주변으로 더 넓은 각도 방향에서 들어오는 신호를 더 많이 취득하게 된다. The cross-correlation between the spatial audio signals and the sound object signal obtained as a result of Equation (1) is calculated as a spherical coordinates value by multiplying a variable constant on the three-dimensional space by the following Equation (4). Variable constant for distance
Figure pat00007
Is determined according to the source directivity pattern of the actual sound object signal, the microphone spherical pattern for acquiring the spatial audio signal, the distance between the sound object and the spatial audio acquisition microphone, and the physical characteristics of the room space do. The smaller the value is, the better the signal in the direction of the coordinate axis in the three-dimensional space is acquired. On the other hand, the smaller the value is, the more signals coming in the wider angle direction around the coordinate axis direction are obtained.

(수학식 4)(4)

Figure pat00008
Figure pat00008

수학식4와 같이 추정된 3차원 입체 공간에서의 사운드 객체의 좌표는 수평면 및 수직면에 대한 수평각(azimuth)과 수직각(elevation)으로 변환된다.The coordinates of the sound object in the estimated three-dimensional space as shown in Equation (4) are converted into a horizontal azimuth and a vertical angle with respect to the horizontal and vertical planes.

(수학식 5)(5)

Figure pat00009
Figure pat00009

(수학식 6)(6)

Figure pat00010
Figure pat00010

도 2는 실제 3차원 입체 음원 환경에서 사운드 객체의 위치를 가상 현실의 재생 환경에서 임의로 재구성한 음원 환경을 보여주고 있다. 도 1에 따르면 원거리에서 취득된 공간 오디오 신호에는 룸 환경의 음향적 특성뿐만 아니라 공간 잔향 신호가 더해지게 된다. 또한 근거리에서 취득된 사운드 객체 신호에도 공간 잔향 신호가 더해지게 된다. 공간 잔향 신호는 마이크를 이용한 전방향 사운드 취득을 목적으로 할 때, 사운드 객체 신호의 방향감을 잘 느껴지지 않게 만들 수 있으므로 레코딩 과정에서 제거해야하는 경우가 있다. 또한 취득된 3차원 입체 음원 레코딩 신호를 재구성하여 사운드 객체의 위치를 바꾸거나 또는 반대로 공간 잔향 신호를 강조해야할 경우, 레코딩된 신호로부터 객체 음원 신호와 공간 잔향 신호를 효과적으로 분리해야 할 필요가 있다.FIG. 2 shows a sound source environment in which the position of a sound object in an actual three-dimensional sound source environment is arbitrarily reconstructed in a reproduction environment of a virtual reality. According to FIG. 1, a spatial reverberation signal as well as an acoustic characteristic of a room environment is added to the spatial audio signal acquired at a long distance. Also, a space reverberation signal is added to the sound object signal acquired at a close range. When the spatial reverberation signal is used to acquire omnidirectional sound using a microphone, the direction of the sound object signal may not be sensed well, so it may be necessary to remove it in the recording process. In addition, when the acquired three-dimensional sound source recording signal is reconstructed to change the position of the sound object or vice versa, it is necessary to effectively separate the object sound source signal and the space reverberation signal from the recorded signal.

이때 공간 잔향 신호의 특성에 따라, 시간에 따라 특성이 변하지 않는 stationary noise의 경우, 사운드 객체가 없는 시간 구간(무음 구간)에서 모노 마이크 또는 마이크로폰 어레이로부터 취득된 신호로부터 바로 얻어질 수 있다. 하지만 시간에 따라 특성이 변하는 non-stationary noise의 경우나 사운드 객체의 무음 구간이 없는 경우, 사운드 객체가 존재하는 시간 구간에서도 공간 잔향 신호를 제거해야 한다. 이때 다음 수학식7과 같이 멀티 채널 공간 오디오 신호로부터 모노 사운드 객체 신호를 제거하여, 공간 잔향 신호를 취득한다. In the case of stationary noise whose characteristic does not change with time according to the characteristic of the space reverberation signal, it can be directly obtained from the signal obtained from the mono microphone or the microphone array in the time interval (silence interval) in which the sound object is absent. However, in the case of non-stationary noise whose characteristics change with time, or when there is no silence period of the sound object, the space reverberation signal should be removed even in the time period in which the sound object exists. At this time, the monaural sound object signal is removed from the multi-channel spatial audio signal as shown in Equation (7) to obtain a spatial reverberation signal.

(수학식 7)(7)

Figure pat00011
Figure pat00011

수학식 7에서 좌항의 신호

Figure pat00012
는 공간 잔향 신호가 제거(de-noising)된 공간 오디오 신호이고, 이 신호는 원래 취득된 공간 오디오 신호에서 시간 지연 상수값 d 가 적용된 개별 객체 사운드 신호와 게인 상수값
Figure pat00013
이 곱해진 신호를 뺌으로써 얻어진다. 이때의 시간 지연 상수값과 게인 상수값은 각각 수학식 2와 수학식 3에서 구해진 값이 사용되며, 이는 도 1에서 나타난 것과 같이 사운드 객체 신호가 공간 오디오 신호로 취득될 때 반영된 상대적인 위치에 따른 영향이 적용된 것이다. 이를 통해 각 좌표축에 대한 공간 잔향 신호를 얻게 된다.In Equation 7,
Figure pat00012
Is a spatial audio signal in which the spatial reverberation signal is de-noised. This signal is obtained by subtracting the individual object sound signal to which the time delay constant value d is applied from the original acquired spatial audio signal and the gain constant value
Figure pat00013
Is obtained by subtracting the multiplied signal. The values obtained from Equations 2 and 3 are used for the time delay constant value and the gain constant value at this time. This is because the influence according to the relative position reflected when the sound object signal is acquired as the spatial audio signal as shown in FIG. Is applied. This gives a spatial reverberation signal for each coordinate axis.

근거리에서 사운드 객체 신호를 취득한 모노 신호에도 공간 잡음이 포함될 수 있다. 이를 제거하기 위하여 수학식 7에서 구한 공간 잔향 신호를 이용하여 잔향이 제거된 객체 신호를 취득할 수 있다. 앰비소닉 B-format 신호에 대해 각각 얻어진 공간 잔향 신호의 평균값을 얻음으로써 위치의 영향이나 마이크로폰의 방사 패턴의 영향이 배제된 공간 잔향 신호를 얻을 수 있다. 이를 통해 수학식 8과 같이 사운드 객체 신호는 공간 잔향 신호가 제거된 신호를 얻을 수 있게 된다.A spatial noise may be included in a mono signal obtained by acquiring a sound object signal in a short distance. In order to remove this, it is possible to acquire the object signal from which the reverberation has been removed by using the spatial reverberation signal obtained from Equation (7). By obtaining the average value of the spatial reverberation signals obtained for each Ambisonic B-format signal, it is possible to obtain a spatial reverberation signal that excludes the influence of the position or the radiation pattern of the microphone. As a result, the sound object signal can obtain the signal from which the spatial reverberation signal is removed, as shown in Equation (8).

(수학식 8)(8)

Figure pat00014
Figure pat00014

도 3은 본 발명이 포함된 오디오 신호 및 메타데이터의 인코딩, 디코딩 과정과 재생 시스템의 레이아웃에 맞게 입체 음향 신호로 변환하는 과정을 나타내는 블록도이다. 도 3에 따르면 인코딩부(Enhanced spatial audio encoder)에서는 실제 3차원 음원 환경에서 취득된 후, 수학식 7과 수학식 8에 의해서 각각 얻어진 공간 오디오 신호와 사운드 객체 신호 그리고 수학식 5와 6에 의해서 얻어진 메타데이터를 포함하는 비트열 신호를 생성한다. 디코딩부(Enhanced spatial audio decoder)에서는 수신된 비트열 신호에 포함된 상기 공간 오디오 신호와 사운드 객체 신호 그리고 메타데이터를 복호화한다. 복호화된 사운드 객체 신호는 복호화된 실제 레코딩 환경에서의 3차원 위치 좌표 방향 정보를 기반으로 3차원 공간 상의 공간 오디오 신호로 변환되거나 또는 사용자 임의의 컨트롤에 의하여 새로운 좌표 방향으로 위치되도록 변환된다. 상기와 같이 공간 오디오 신호로 변환된 사운드 객체 신호는 복호화된 공간 오디오 신호와 합성하여 재생 환경의 레이아웃에 적합한 신호로 렌더링된다.FIG. 3 is a block diagram illustrating a process of encoding and decoding audio signals and metadata included in the present invention and converting the stereo signals into a stereo sound signal according to the layout of the reproduction system. Referring to FIG. 3, in an enhanced spatial audio encoder, a spatial audio signal and a sound object signal acquired in an actual three-dimensional sound source environment, respectively, and obtained by Equations (7) and (8) And generates a bitstream signal including the metadata. The enhanced spatial audio decoder decodes the spatial audio signal, the sound object signal, and the metadata included in the received bit stream signal. The decoded sound object signal is converted into a spatial audio signal on a three-dimensional space based on the three-dimensional position coordinate direction information in the decoded real recording environment, or is converted to be positioned in a new coordinate direction by a user's arbitrary control. The sound object signal converted into the spatial audio signal is synthesized with the decoded spatial audio signal and rendered as a signal suitable for the layout of the reproduction environment.

[what is claimed here][what is claimed here]

1.One.

마이크어레이를 통해 다채널 공간 오디오 신호를 취득 (제1신호), Acquiring a multi-channel spatial audio signal through the microphone array (first signal)

모노 마이크를 통해 근거리 사운드를 취득 (제2신호),Acquiring near-by sound through the mono microphone (second signal)

제1신호와 제2신호간의 상호 상관도를 이용하여 제1신호가 구성하는 3차원 공간 상에 제2신호의 공간 위치를 결정The spatial position of the second signal is determined on the three-dimensional space constituted by the first signal using the degree of cross correlation between the first signal and the second signal

상기 결정된 위치에 근거하여 제2신호를 제1신호에 믹스And mixes the second signal to the first signal based on the determined position

2.2.

상기 믹스는 상기 공간 위치를 참조하여, 제1신호 상의 제2신호 성분을 일부 혹은 전부를 제거한 후 더할 수 있음The mix may add the second signal component on the first signal after removing some or all of the second signal component on the basis of the spatial position

3. 3.

상기 공간 위치는 제2신호에 대한 메타데이터로 생성되는 것을 특징Characterized in that said spatial location is generated as metadata for a second signal

4.4.

상기 믹스된 신호는 다시 HoA 신호 형식으로 저장된 제3신호인 것을 특징The mixed signal is again a third signal stored in the HoA signal format

제3신호는 전송을 위한 비트열로 인코딩되는 것을 특징The third signal is characterized by being encoded as a bit stream for transmission

5.5.

상기 생성된 메타데이터는 상기 제 1 신호 및 제 2 신호와 함께 인코딩되어 비트열로 생성되는 것을 특징The generated metadata is encoded together with the first signal and the second signal and is generated as a bit stream.

6.6.

상기 생성된 제3신호는 타깃 플랫폼에 맞춰 다른 포맷으로 변환 (e.g. HoA to FoA)되어 인코딩되는 것을 특징The generated third signal is converted into another format (e.g., HoA to FoA) in accordance with the target platform

7. 7.

상기 형식으로 전송된 신호를 디코딩하여 렌더링하는 디코더A decoder for decoding and rendering a signal transmitted in the above format

8. 8.

상기 디코더는 특히 전송된 신호가 메타데이터와 제1신호, 제2신호인 경우는, 제2신호에 메타데이터를 이용해 통해 제1신호와 믹스되어 향상된 사운드 신(sound scene)을 생성하는 것을 특징The decoder is particularly characterized in that when the transmitted signal is metadata and a first signal, a second signal is mixed with the first signal through the use of metadata in the second signal to produce an enhanced sound scene

이상에서는 본 발명을 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 오디오 신호에 대한 바이노럴 렌더링의 실시예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.While the present invention has been described with reference to the particular embodiments, those skilled in the art will appreciate that various modifications, additions and substitutions are possible, without departing from the spirit and scope of the invention. That is, although the present invention has been described with respect to an embodiment of binaural rendering of an audio signal, the present invention can be equally applied and extended to various multimedia signals including a video signal as well as an audio signal. Therefore, it is to be understood that those skilled in the art can easily deduce from the detailed description and the embodiments of the present invention that they fall within the scope of the present invention.

Claims (1)

오디오 신호 처리 방법 및 장치.Method and apparatus for processing audio signal.
KR1020160067810A 2016-05-31 2016-05-31 A method and an apparatus for processing an audio signal KR20170135611A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020160067810A KR20170135611A (en) 2016-05-31 2016-05-31 A method and an apparatus for processing an audio signal
CN201780033291.6A CN109314832B (en) 2016-05-31 2017-05-30 Audio signal processing method and apparatus
PCT/KR2017/005610 WO2017209477A1 (en) 2016-05-31 2017-05-30 Audio signal processing method and device
US15/608,969 US10271157B2 (en) 2016-05-31 2017-05-30 Method and apparatus for processing audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160067810A KR20170135611A (en) 2016-05-31 2016-05-31 A method and an apparatus for processing an audio signal

Publications (1)

Publication Number Publication Date
KR20170135611A true KR20170135611A (en) 2017-12-08

Family

ID=60919806

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160067810A KR20170135611A (en) 2016-05-31 2016-05-31 A method and an apparatus for processing an audio signal

Country Status (1)

Country Link
KR (1) KR20170135611A (en)

Similar Documents

Publication Publication Date Title
TWI744341B (en) Distance panning using near / far-field rendering
CN109313907B (en) Combining audio signals and spatial metadata
US10820097B2 (en) Method, systems and apparatus for determining audio representation(s) of one or more audio sources
JP6950014B2 (en) Methods and Devices for Decoding Ambisonics Audio Field Representations for Audio Playback Using 2D Setup
CN107533843B (en) System and method for capturing, encoding, distributing and decoding immersive audio
KR20210006909A (en) Ambisonic depth extraction
JP2020527746A (en) Concept for generating extended or modified sound field descriptions using multipoint sound field descriptions
CN109314832B (en) Audio signal processing method and apparatus
KR20170106063A (en) A method and an apparatus for processing an audio signal
AU2021225242B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
CN112189348B (en) Apparatus and method for spatial audio capture
JP2023515968A (en) Audio rendering with spatial metadata interpolation
US20210092545A1 (en) Audio processing
WO2020231883A1 (en) Separating and rendering voice and ambience signals
WO2019229300A1 (en) Spatial audio parameters
CN115955622A (en) 6DOF rendering of audio captured by a microphone array for locations outside of the microphone array
KR20170135611A (en) A method and an apparatus for processing an audio signal
US11758348B1 (en) Auditory origin synthesis
KR20190060464A (en) Audio signal processing method and apparatus
KR20170135604A (en) A method and an apparatus for processing an audio signal
KR20180024612A (en) A method and an apparatus for processing an audio signal