KR101461110B1 - Stereo extension apparatus and method - Google Patents

Stereo extension apparatus and method Download PDF

Info

Publication number
KR101461110B1
KR101461110B1 KR1020130107480A KR20130107480A KR101461110B1 KR 101461110 B1 KR101461110 B1 KR 101461110B1 KR 1020130107480 A KR1020130107480 A KR 1020130107480A KR 20130107480 A KR20130107480 A KR 20130107480A KR 101461110 B1 KR101461110 B1 KR 101461110B1
Authority
KR
South Korea
Prior art keywords
signal
mdct
side signal
estimated
mono
Prior art date
Application number
KR1020130107480A
Other languages
Korean (ko)
Inventor
김홍국
박남인
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020130107480A priority Critical patent/KR101461110B1/en
Priority to US14/301,830 priority patent/US9288602B2/en
Application granted granted Critical
Publication of KR101461110B1 publication Critical patent/KR101461110B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

According to the present invention, a stereo extension apparatus includes: a database which stores a predetermined information according to GMM training or HMM training; an MDCT conversion unit which converts a mono signal into an MDCT domain; a feature value extraction unit which extracts a feature value of the mono signal from an MDCT coefficient outputted from the MDCT conversion unit; a side signal energy estimation unit which estimates a subband energy of a side signal with reference to the information stored in the database based on the feature value; an energy control unit which acquires an MDCT coefficient of the side signal estimated from the subband energy of the estimated side signal; a reverse MDCT conversion unit which acquires an estimated side signal by performing a reverse MDCT conversion of the MDCT coefficient of the estimated side signal; and a stereo signal generation unit which acquires a stereo signal from the sum of the mono signal and the estimated side signal and a difference therebetween. According to the present invention, a stereo signal similar to an actual stereo signal and with improved sound quality can be obtained from a mono signal.

Description

스테레오 확장장치 및 스테레오 확장방법{STEREO EXTENSION APPARATUS AND METHOD}[0001] STEREO EXTENSION APPARATUS AND METHOD [0002]

본 발명은 사운드신호로서 모노신호를 스테레오신호로 확장하는 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for extending a mono signal into a stereo signal as a sound signal.

사운드신호로서 스테레오신호를 모노신호에 비하여 사용자의 만족감을 유효하게 증진시킬 수 있다는 사실은 널리 알려져 있다. It is well known that a stereo signal as a sound signal can effectively enhance a user's satisfaction as compared with a mono signal.

스테레오신호는 모노신호에 비하여 데이터용량이 증가하고 전자기기의 복잡도도 증가하는 경향이 있다. 이에 따라서 통신환경 및 전자기기의 제한요건에 의해서 모노신호의 환경이 사용되는 경우가 많이 있다. 그렇다고 할지라도 사용자는 스테레오신호를 청취하고자 하는 욕구가 있고, 따라서, 모노신호가 수신 또는 저장될 때, 이로부터 스테레오신호를 획득할 수 있도록 하는 방법이 요망된다. The stereo signal tends to have an increased data capacity and an increased complexity of the electronic device as compared to the mono signal. Accordingly, there are many cases where the environment of a mono signal is used due to the communication environment and restriction requirements of electronic devices. Even so, there is a need for the user to have a desire to listen to a stereo signal, and thus to be able to acquire a stereo signal from it when a mono signal is received or stored.

종래 모노신호를 스테레오신호로서 청취할 수 있는 방법으로서, "Artificial stereo extension of speech based on inter-channel coherence" Advanced Science and Technology Letters(ASTL), Vol. 14, pp.168-171(2012)가 제안된 바가 있다. 제안된 발명에 따르면 채널간 간섭(interchannel coherence: ICC)을 이용하여 모노신호에서 스테레오신호를 획득하는 방법을 제안한다. As a method capable of listening to a conventional mono signal as a stereo signal, an artificial stereo extension of speech based on inter-channel coherence is disclosed in Advanced Science and Technology Letters (ASTL), Vol. 14, pp. 168-171 (2012). According to the proposed invention, a method of acquiring a stereo signal from a mono signal using interchannel coherence (ICC) is proposed.

그러나, 상기되는 종래 방법에 따르면 실제 신호의 ICC는 변하는 성질이 있기 때문에, 종래방법에 따라서 스테레오신호를 획득하면 실제신호와는 달라지는 문제가 있다. 따라서 청취자의 만족감이 떨어지는 문제점이 있다. However, according to the above-described conventional method, there is a problem that the ICC of an actual signal is changed, so that obtaining a stereo signal according to the conventional method is different from an actual signal. Therefore, there is a problem that the satisfaction of the listener is lowered.

"Artificial stereo extension of speech based on inter-channel coherence" Advanced Science and Technology Letters(ASTL), Vol. 14, pp.168-171(2012)의 전문"Artificial stereo extension of speech based on inter-channel coherence" Advanced Science and Technology Letters (ASTL), Vol. 14, pp.168-171 (2012)

본 발명은 상기되는 배경에서 제안되는 것으로서, 실제 사운드와 보다 유사하고 사용자에게 만족감을 제공할 수 있는 스테레오 확장장치 및 스테레오 확장방법을 제안한다. The present invention is proposed in the above-mentioned background, and proposes a stereo expanding device and a stereo expanding method which are more similar to actual sound and can provide satisfaction to a user.

본 발명에 따른 스테레오 확장장치에는, GMM트레이닝 또는 HMM트레이닝트레이닝에 따른 소정의 정보가 저장되는 데이터베이스; 모노신호를 MDCT변환하는 MDCT변환부; 상기 MDCT변환부에서 출력되는 MDCT계수로부터 상기 모노신호의 특징값을 추출하는 특징값추출부; 상기 특징값을 바탕으로 상기 데이터베이스에 저장하는 정보를 참조하여, 사이드신호의 서브밴드 에너지를 추정하는 사이드신호 에너지 추정부; 상기 추정 사이드신호의 서브밴드 에너지로부터 추정되는 사이드신호의 MDCT계수를 획득하는 에너지 제어부; 상기 추정 사이드신호의 MDCT 계수를 역 MDCT변환하여 추정 사이드 신호를 획득하는 역 MDCT변환부; 및 상기 모노신호와 상기 추정 사이드신호의 합과 차로 스테레오신호를 획득하는 스테레오신호 생성부가 포함된다. A stereo expanding device according to the present invention includes a database storing predetermined information according to GMM training or HMM training training; An MDCT conversion unit for MDCT-converting a mono signal; A feature value extracting unit for extracting a feature value of the mono signal from the MDCT coefficients output from the MDCT transform unit; A side signal energy estimation unit for estimating a subband energy of a side signal with reference to information stored in the database based on the feature value; An energy control unit for obtaining an MDCT coefficient of a side signal estimated from subband energy of the estimated side signal; An inverse MDCT transformer for inverse MDCT transforming the MDCT coefficient of the estimated side signal to obtain an estimated side signal; And a stereo signal generator for acquiring a stereo signal by summing the sum of the mono signal and the estimated side signal.

상기 발명에서, 상기 MDCT변환부에서 출력되는 상기 모노신호의 MDCT계수를 정규화하여 상기 에너지 제어부로 출력하는 정규화부가 더 포함될 수 있고, 상기 특징값은, 상기 모노신호의 서브밴드 에너지 벡터일 수 있다. The apparatus may further include a normalization unit that normalizes the MDCT coefficients of the mono signal output from the MDCT transform unit and outputs the normalized MDCT coefficients to the energy control unit, and the feature value may be a subband energy vector of the mono signal.

본 발명에 따른 스테레오 확장방법에는, 모노신호를 미드신호로 하는 것; 상기 모노신호의 특징값을 바탕으로 데이터베이스에 저장되어 있는 GMM트레이닝 또는 HMM트레이닝트레이닝 정보를 참조하여, 사이드신호를 추정하는 것; 및 상기 모노신호와 상기 사이드신호의 합과 차로부터 스테레오신호를 획득하는 것이 포함된다. The stereo extending method according to the present invention includes a mono signal as a mid signal; Estimating a side signal by referring to GMM training or HMM training training information stored in a database based on the characteristic value of the mono signal; And obtaining a stereo signal from the sum and difference of the mono signal and the side signal.

상기 방법에서, 상기 사이드신호를 추정하는 것은, 상기 모노신호를 MDCT변환하여 추출된 MDCT계수를 이용하여, 상기 미드신호의 서브밴드 에너지 벡터를 특징값으로서 얻는 것; 상기 사이드신호에 대한 서브 밴드 에너지를 추정하는 것; 추정되는 상기 서브 밴드 에너지를 이용하여, 상기 사이드신호에 대한 MDCT계수를 추정하는 것; 및 추정되는 상기 사이드신호에 대한 MDCT계수를 역 MDCT 변환하여, 상기 사이드신호를 추정하는 것이 포함될 수 있다. 여기서, 상기 사이드신호에 대한 MDCT계수를 추정할 때에는, 상기 모노신호에 대한 MDCT계수가 정규화 된, 정규화된 MDCT계수가 사용될 수 있다. Estimating the side signal may include obtaining a subband energy vector of the mid signal as a feature value using the extracted MDCT coefficients by MDCT transforming the mono signal; Estimating a subband energy for the side signal; Estimating an MDCT coefficient for the side signal using the estimated subband energy; And performing an inverse MDCT transformation on the estimated MDCT coefficient for the side signal and estimating the side signal. Here, when estimating the MDCT coefficient for the side signal, a normalized MDCT coefficient obtained by normalizing the MDCT coefficient for the mono signal may be used.

본 발명에 따르면, 모노신호로부터, 실제 스테레오신호와 유사하고 향상된 음질의 스테레오신호를 얻을 수 있다. According to the present invention, a stereo signal similar to an actual stereo signal and having improved sound quality can be obtained from a mono signal.

도 1은 실시예에 따른 스테레오 확장장치의 블록도.
도 2는 실시예에 따른 스테레오 확장방법의 흐름도.
도 3은 MUSHRA실험결과를 보이는 그래프.
1 is a block diagram of a stereo extender according to an embodiment.
2 is a flow diagram of a stereo extension method according to an embodiment;
FIG. 3 is a graph showing MUSHRA test results. FIG.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 그러나, 본 발명의 사상이 이하에 제시되는 실시예로 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에 포함되는 다른 실시예를, 구성요소의 부가, 변경, 삭제 및 추가 등에 의해서 용이하게 제안할 수 있을 것이나 이 또한 본 발명의 사상에 포함된다고 할 것이다. Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings. However, it will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. It will be understood by those skilled in the art that the present invention may be embodied in many other specific forms without departing from the spirit or essential characteristics thereof.

<스테레오 확장장치><Stereo extension device>

도 1은 실시예에 따른 스테레오 확장장치의 블록도이다. 1 is a block diagram of a stereo extender according to an embodiment.

도 1을 참조하면, 실시예에 따른 스테레오 확장장치에는, 입력된 모노신호를 미드신호로서 MDCT(Modified Discrete Cosine transform: 수정이산코사인변환) 도메인으로 변환하는 MDCT변환부(1), 상기 미드신호의 서브밴드 에너지 벡터를 특징값으로서 추출하는 특징추출부(2), 알려진 오디오자료를 활용하여 GMM(Gaussian Mixture Model)트레이닝 또는 HMM(Hidden Markov Model)트레이닝의 결과물로서 제공되는 정보가 저장되는 데이터베이스(4), 상기 특징추출부(2)에서 제공되는 미드신호의 서브밴드 에너지 벡터를 바탕으로 상기 데이터베이스(4)에 저장되는 정보를 참조하여 사이드 신호의 서브밴드 에너지를 추정하는 사이드신호 에너지 추정부(3)가 포함된다. Referring to FIG. 1, the stereo extending apparatus according to the embodiment includes an MDCT converting unit 1 for converting an input mono signal into a modified discrete cosine transform (MDCT) domain as a mid signal, A feature extraction unit 2 for extracting a subband energy vector as a feature value, a database 4 for storing information provided as a result of GMM (Gaussian Mixture Model) training or HMM (Hidden Markov Model) training using known audio data A side signal energy estimation unit 3 for estimating the subband energy of the side signal with reference to information stored in the database 4 based on the subband energy vector of the mid signal provided by the feature extraction unit 2; ).

또한, 실시예에 따른 스테레오 확장장치에는, 상기 MDCT변환부(1)에서 추출되는 MDCT계수를 정규화하는 정규화부(5), 상기 정규화부(5)에서 출력되는 정규화된 MDCT계수와 상기 사이드신호 에너지 추정부(3)로부터 출력되는 추정 사이드신호의 서브밴드 에너지를 이용하여 사이드신호의 추정 MDCT계수를 획득하는 에너지 제어부(6)가 포함된다. The stereo expanding apparatus according to the embodiment may further include a normalizing unit 5 for normalizing MDCT coefficients extracted from the MDCT converting unit 1, a normalized MDCT coefficient output from the normalizing unit 5, And an energy control unit 6 for obtaining the estimated MDCT coefficient of the side signal using the subband energy of the estimated side signal output from the estimation unit 3. [

또한, 추정 사이드신호의 MDCT계수를 역 MDCT 변환하여 추정 사이드 신호를 획득하는 역 MDCT변환부(7), 및 모노신호와 사이드신호의 합과 차를 통하여 좌측과 우측의 스테레오신호를 얻는 스테레오신호 생성부(8)가 포함된다. An inverse MDCT converting section 7 for performing inverse MDCT transformation on the MDCT coefficient of the estimated side signal and obtaining an estimated side signal and a stereo signal generating section 7 for obtaining left and right stereo signals through sum and difference of the mono signal and the side signal (8) are included.

이하에서는 보다 상세하게 실시예에 따른 스테레오 확장장치의 구성 및 작용을 설명한다. Hereinafter, the configuration and operation of the stereo expanding apparatus according to the embodiment will be described in more detail.

먼저, 데이터베이스(4)에 저장되는 정보를 생성하는 과정으로서 GMM트레이닝 또는 HMM트레이닝을 설명한다. First, GMM training or HMM training is described as a process of generating information stored in the database 4.

상기 GMM트레이닝 또는 HMM트레이닝을 수행하기 위한 트레이닝 데이터로서 50개의 표준 오디오 데이터를 준비할 수 있다. 상기 표준 오디오 데이터는 SQAM(Sound Quality Assessment Material)으로부터 얻어질 수 있다. 이때 상기 표준 오디오 데이터는 44.1kHz의 샘플링 레이트로 저장되어 있으므로, 44.1kHz에서 32kHz로 다운샘플링하는 과정이 더 수행될 수 있다. 50 standard audio data can be prepared as training data for performing the GMM training or the HMM training. The standard audio data may be obtained from a sound quality assessment material (SQAM). At this time, since the standard audio data is stored at a sampling rate of 44.1 kHz, down sampling from 44.1 kHz to 32 kHz can be further performed.

상기 트레이닝 데이터에는 스테레오신호로서, 좌측신호(xL(n)), 우측신호(xR(n))가 저장될 수 있다. 그러면, 미드신호(xm(n)) 및 사이드신호(xs(n))와 좌측신호(xL(n)) 및 우측신호(xR(n))의 사이에는 수학식 1의 상관관계가 성립할 수 있다. As the stereo signal, the left signal x L (n) and the right signal x R (n) may be stored in the training data. Then, the correlation (1) between the mid signal x m (n) and the side signal x s (n), the left signal x L (n) and the right signal x R Can be established.

Figure 112013081880306-pat00001
Figure 112013081880306-pat00001

상기 미드신호(xm(n))와 상기 사이드신호(xs(n))는 MDCT 도메인으로 변환될 수 있다. 나아가서, 서브밴드 에너지는 상기 수학식 2와 같이 표현될 수 있다. The mid signal x m (n) and the side signal x s (n) may be converted to the MDCT domain. Further, the subband energy can be expressed by Equation (2).

Figure 112013081880306-pat00002
Figure 112013081880306-pat00002

상기 수학식 2에 있어서, b는 0에서 14까지의 값을 가지도록 할 수 있고, Xm(k)와 Xs(k)는 미드신호(xm(n)) 및 사이드신호(xs(n))의 k번째 주파수 대역의 MDCT 계수이다. 따라서 Em(b)는 미드신호의 서브밴드 에너지이고, Es(b)는 사이드신호의 서브밴드 에너지로 주어질 수 있다. 서브밴드의 수는 실시예에서는 15로 주어지지만 변경될 수도 있을 것이다. In the above equation 2, b may be to have a value from 0 to 14, X m (k) and X s (k) is a mid signal (x m (n)) and the side signal (x s ( n)) is the MDCT coefficient of the k-th frequency band. Thus, E m (b) is the subband energy of the mid signal and E s (b) can be given as the subband energy of the side signal. The number of subbands is given as 15 in the embodiment, but may be changed.

각 프레임의 서브밴드 에너지는 GMM트레이닝 또는 HMM트레이닝에서 특징값(feature parameter)으로 주어질 수 있다. Em=[Em(0), Em(1),… Em(14)]을 미드신호의 스펙트럼 서브밴드 에너지 벡터로 하고, Em=[Es(0), Es(1),…Es(14)]를 사이드신호의 스펙트럼 서브밴드 에너지 벡터로 할 수 있다. 나아가서, 상기 두 서브밴드 에너지 벡터는 서로 연결되어 E=[Em, Em]로 표시될 수 있다. The subband energy of each frame may be given as a feature parameter in GMM training or HMM training. E m = [E m (0), E m (1), ... E m (14)] is the spectral sub-band energy vector of the mid signal, E m = [E s (0), E s (1), ... E s (14)] as the spectral subband energy vector of the side signal. Further, the two subband energy vectors may be connected to each other and expressed as E = [E m , E m ].

GMM트레이닝 또는 HMM트레이닝에 대한 파라미터로서 미드 신호와 사이드 신호의 서브밴드 에너지 벡터는, 기댓값 최대화 알고리즘(EM 알고리즘)에 의해서 훈련될 수 있다. The subband energy vectors of the mid and side signals as parameters for GMM training or HMM training can be trained by an expected value maximization algorithm (EM algorithm).

상기되는 과정을 통하여 제공된 각 정보는 데이터 베이스(4)에 저장되어 있을 수 있다. Each piece of information provided through the above process may be stored in the database 4.

이하에서는 스테레오 확장장치의 구성 및 작용을 설명한다. The configuration and operation of the stereo expanding apparatus will be described below.

다시 도 1을 참조하면, 입력된 모노신호를 MDCT(Modified Discree Cosine transform: 수정이산코사인변환) 도메인으로 변환하는 MDCT 변환부(1)가 제공된다. 상기 MDCT 변환부(1)에서는 프레임 사이즈가 640인 모노신호(xm(n))를 1280포인트의 MDCT를 이용하여 주파수 도메인으로 변환할 수 있다. 상기 모노신호의 MDCT계수(Xm(k))는 15개의 서브밴드로 그룹지어질 수 있다. 여기서 각 서브밴드는 80개의 MDCT계수를 포함할 수 있다. Referring again to FIG. 1, there is provided an MDCT converting unit 1 for converting an input mono signal into a Modified Discree Cosine Transform (MDCT) domain. The MDCT converter 1 can convert the mono signal x m (n) having a frame size of 640 into the frequency domain using the MDCT of 1280 points. The MDCT coefficients X m (k) of the mono signal can be grouped into 15 subbands. Where each subband may include 80 MDCT coefficients.

b번째 서브밴드 에너지(Em(b))는 수학식 2와 마찬가지의 방법에 따라서 모노신호의 MDCT계수(Xm(k))로부터 추출될 수 있다. 상기 b번째 서브밴드 에너지(Em(b))를 이용하여 모노신호의 MDCT계수(Xm(k))를 정규화하는(normalizing) 정규화부(5)가 제공된다. 상기 정규화부에서는 수학식 3의 방법으로 정규화를 수행할 수 있다. 또 다른 실시예로서 다른 방식에 의한 정규화를 배제하지 아니한다. the b-th subband energy E m (b) can be extracted from the MDCT coefficients X m (k) of the mono signal in the same manner as in Equation (2). Normalizing section 5 is provided that normalizes the MDCT coefficients X m (k) of the mono signal using the b-th subband energy E m (b). The normalization unit may perform normalization by the method of Equation (3). As another embodiment, normalization by another method is not excluded.

Figure 112013081880306-pat00003
Figure 112013081880306-pat00003

여기서,

Figure 112013081880306-pat00004
이고,
Figure 112013081880306-pat00005
는 모노신호의 정규화된 MDCT계수이고
Figure 112013081880306-pat00006
은 길이가 80인 코사인 윈도우이다. here,
Figure 112013081880306-pat00004
ego,
Figure 112013081880306-pat00005
Is the normalized MDCT coefficient of the mono signal
Figure 112013081880306-pat00006
Is a cosine window of length 80.

상기 모노신호의 정규화된 MDCT계수(

Figure 112013081880306-pat00007
)는 사이드신호(side signal)의 추측값이 될 수 있다. The normalized MDCT coefficients of the mono signal
Figure 112013081880306-pat00007
) May be a guess value of a side signal.

상기 추정 사이드신호의 b번째 서브밴드 에너지(

Figure 112013081880306-pat00008
)는, 미드신호(mid signal)의 서브밴드 에너지 벡터(Em)에 의해서 추측될 수 있다. 여기서, 상기 서브밴드 에너지 벡터는 특징추출부(2)에 의해서 추출될 수 있다. The b-th sub-band energy of the estimated side signal (
Figure 112013081880306-pat00008
) Can be estimated by the subband energy vector (E m ) of the mid signal. Here, the subband energy vector may be extracted by the feature extraction unit 2. [

상기 사이드신호 에너지 추정부(3)에서는, 추정 사이드 신호의 b번째 서브밴드 에너지(

Figure 112013081880306-pat00009
)를, GMM트레이닝 또는 HMM트레이닝에 기반하는 MMSE(Minimum Mean Squared Error)방법에 의해서 얻어낼 수 있다. In the side signal energy estimating section 3, the b-th sub-band energy (
Figure 112013081880306-pat00009
) Can be obtained by a Minimum Mean Squared Error (MMSE) method based on GMM training or HMM training.

상기 에너지 제어부(6)에서는, 모노신호의 정규화된 MDCT계수(

Figure 112013081880306-pat00010
)와 추정 사이드신호의 서브밴드 에너지(
Figure 112013081880306-pat00011
)를 이용하여, 사이드신호의 추정 MDCT계수(
Figure 112013081880306-pat00012
)를 얻을 수 있다. 구체적으로는 하기되는 수학식 4와 같이 주어질 수 있다. In the energy control unit 6, the normalized MDCT coefficients of the mono signal (
Figure 112013081880306-pat00010
) And the estimated subband energy of the side signal (
Figure 112013081880306-pat00011
), The estimated MDCT coefficient of the side signal (
Figure 112013081880306-pat00012
) Can be obtained. Specifically, it can be given by the following Equation (4).

Figure 112013081880306-pat00013
Figure 112013081880306-pat00013

다음으로, 역 MDCT 변환부(7)에서는, 사이드신호의 추정 MDCT계수(

Figure 112013081880306-pat00014
)를 1280 포인트의 역 MDCT 변환하여 추정 사이드 신호(
Figure 112013081880306-pat00015
)를 얻어낸다. Next, in the inverse MDCT transform section 7, the estimated MDCT coefficients (
Figure 112013081880306-pat00014
) Is subjected to inverse MDCT transform of 1280 points to obtain an estimated side signal (
Figure 112013081880306-pat00015
).

마지막으로, 스테레오 신호 생성부(8)에서는, 모노신호와 사이드신호를 합과차에 의해서 스테레오신호를 얻을 수 있다. 구체적으로, 수학식 5를 이용하여 추정된 스테레오 신호를 생성할 수 있다. 상기 모노신호는 미드신호로서 취급되는 것은 용이하게 이해될 수 있을 것이다. Finally, in the stereo signal generating section 8, a stereo signal can be obtained by adding and subtracting the mono signal and the side signal. Specifically, the estimated stereo signal can be generated using Equation (5). It will be readily understood that the mono signal is treated as a mid signal.

Figure 112013081880306-pat00016
Figure 112013081880306-pat00016

여기서,

Figure 112013081880306-pat00017
는 추정되는 스테레오 신호 중의 왼쪽신호이고,
Figure 112013081880306-pat00018
는 추정되는 스테레오 신호 중의 오른쪽 신호이다. here,
Figure 112013081880306-pat00017
Is the left signal of the estimated stereo signal,
Figure 112013081880306-pat00018
Is the right signal of the estimated stereo signal.

상기되는 설명에 따르면, 입력되는 모노신호 미드신호로 하고 그 모노신호를 바탕으로 사이드신호를 만들어 낼 수 있고, 이를 이용하여 스테레오 신호의 각 요소가 되는 좌측신호 및 우측 신호를 제공할 수 있다. According to the above description, it is possible to generate a side signal based on the input mono signal mid signal and to provide a left side signal and a right side signal, which are elements of the stereo signal.

<스테레오 확장방법><Stereo extension method>

실시예에 따른 스테레오 확장방법은 상기 스테레오 확장장치의 구성을 활용할 수도 있고, 그 외의 장치를 활용할 수도 있을 것이다. 다만, 상기 스테레오 확장장치가 가장 바람직하게 적용될 수 있는 것은 당업자라면 용이하게 예상할 수 있을 것이다. The stereo extending method according to the embodiment may utilize the configuration of the stereo extending device, or utilize other devices. However, those skilled in the art can easily anticipate that the stereo expanding device can be most preferably applied.

도 2는 실시예에 따른 스테레오 확장방법의 흐름도이다. 2 is a flowchart of a stereo extension method according to an embodiment.

도 2를 참조하면, 실시예에 따른 스테레오 확장방법에 따르면, 입력된 모노신호를 미드신호로서 MDCT변환하는 단계(S1)가 먼저 수행된다. Referring to FIG. 2, according to the stereo extending method according to the embodiment, the step (S1) of MDCT transforming the inputted mono signal as a mid signal is performed first.

이후에는, MDCT변환단계에서 추출된 MDCT계수를 이용하여 상기 미드신호의 서브밴드 에너지 벡터를 특징값으로서 추출하고(S2), 추출된 특징값을 바탕으로 데이터베이스에 저장되어 있는 정보를 참조하여 사이드신호의 서브밴드 에너지를 추정한다(S3). Thereafter, the subband energy vector of the mid signal is extracted as a feature value using the MDCT coefficients extracted in the MDCT transformation step (S2), and based on the extracted feature values, (S3). &Lt; / RTI &gt;

또한, 상기 MDCT변환부(1)에서 추출된 MDCT계수를 정규화하여(S4), 정규화된 MDCT계수와 추정된 사이드신호의 서브밴드 에너지를 이용하여 사이드신호의 추정 MDCT계수를 획득한다(S5). 이후에는 사이드신호의 추정 MDCT계수를 역 MDCT 변환하여 추정 사이드 신호를 획득하고(S6), 모노신호와 추정된 사이드신호의 합과 차를 통하여 좌측과 우측의 스테레오신호를 생성한다(S7).In addition, the MDCT coefficients extracted from the MDCT transform unit 1 are normalized (S4), and the estimated MDCT coefficients of the side signals are obtained using the normalized MDCT coefficients and the estimated subband energy of the side signals (S5). Thereafter, the estimated side signal is obtained by performing inverse MDCT transformation on the estimated MDCT coefficient of the side signal (S6), and left and right stereo signals are generated through the sum and difference of the mono signal and the estimated side signal (S7).

상기되는 방법에 따르면 모노신호가 스테레오신호로 확장된 것을 확인할 수 있다. According to the above-described method, it can be confirmed that the mono signal is extended to the stereo signal.

<평가><Evaluation>

실시예를 평가하기 위하여 MUSHRA테스트를 실시하였다. 여섯개의 오디오 파일이 SQAM데이터에서 취하였다. 오디오 파일은 44.1kHz로부터 32kHz로 다운 셈플리이 되었다. 좌측신호와 오른쪽신호의 평균을 취하여 모노신호를 얻었다. 7kHz와 14kHZ의 컷오프 주파수를 가지는 두 앵커를 준비하여 비교 대상으로 하였다. MUSHRA테스트에 참여하는 20명의 피실험자는 청취에 문제가 없고, 각 피실험자는 20개의 자극이 제공되고 스테레오 품질을 평가하여 0점에서 100점까지 채점을 하도록 하였다. GMM트레이닝은 실험에 사용되는 20개를 제외한 SQAM파일을 사용하였다. The MUSHRA test was conducted to evaluate the example. Six audio files were taken from the SQAM data. The audio file was down-converted from 44.1kHz to 32kHz. A mono signal was obtained by taking an average of the left signal and the right signal. Two anchors with cutoff frequencies of 7 kHz and 14 kHz were prepared and compared. Twenty subjects participating in the MUSHRA test were free of listening problems, and each subject was provided with 20 stimuli and assessed for stereo quality and scored from 0 to 100 points. GMM training was performed using SQAM files except for 20 experiments.

도 3은 MUSHRA실험결과를 보이는 그래프이다. 3 is a graph showing the results of the MUSHRA test.

도 3을 참조하면, 각 칼럼은 모든 오디오파일에 대한 일곱명의 피실험자의 점수를 평균한 것이다. 칼럼의 상단에 제공되는 수직라인은 채점의 표준편차를 나타낸다. 실험에 따르면, 실시예에 따른 방법이 종래의 ICC를 0으로 하는 방법에 비하여 5% 정도의 높은 점수를 얻는 것을 볼 수 있다. Referring to FIG. 3, each column is an average of scores of seven subjects for all audio files. The vertical line provided at the top of the column represents the standard deviation of the scoring. According to the experiment, it can be seen that the method according to the embodiment obtains a score as high as 5% as compared with the conventional method in which ICC is set to zero.

상기되는 실험결과에 따르면, 모노신호로부터 스테레오신호를 얻기 위하여 GMM트레이닝에 따른 데이터를 이용하는 것이, 더 효과적이고 원래의 스테레오 신호에 더욱 근접하는 것을 확인할 수 있다. According to the experimental results described above, it is more effective to use the data according to the GMM training to obtain a stereo signal from the mono signal, and it can be confirmed that it is closer to the original stereo signal.

본 발명은 멀티미디어 또는 음향기기에 널리 적용될 수 있다. 예를 들어, 캠코더, 디지털 카메라, PMP, 또는 휴대폰에에 있어서, 모노신호로 수신된 오디오신호를 스테레오신호로 재생해 낼 수 있을 것이다. 이로써, 사용자의 만족감이 증진되는 효과를 기대할 수 있을 것이다. The present invention can be widely applied to multimedia or audio equipment. For example, in a camcorder, a digital camera, a PMP, or a cellular phone, an audio signal received as a mono signal may be reproduced as a stereo signal. As a result, the effect of enhancing the satisfaction of the user can be expected.

3: 사이드신호 에너지 추정부
6: 에너지 제어부
3: Side signal energy estimation unit
6:

Claims (6)

GMM트레이닝 또는 HMM트레이닝트레이닝에 따른 소정의 정보가 저장되는 데이터베이스;
모노신호를 MDCT변환하는 MDCT변환부;
상기 MDCT변환부에서 출력되는 MDCT계수로부터 상기 모노신호의 특징값을 추출하는 특징값추출부;
상기 특징값을 바탕으로 상기 데이터베이스에 저장하는 정보를 참조하여, 사이드신호의 서브밴드 에너지를 추정하는 사이드신호 에너지 추정부;
상기 추정 사이드신호의 서브밴드 에너지로부터 추정되는 사이드신호의 MDCT계수를 획득하는 에너지 제어부;
상기 추정 사이드신호의 MDCT 계수를 역 MDCT변환하여 추정 사이드 신호를 획득하는 역 MDCT변환부; 및
상기 모노신호와 상기 추정 사이드신호의 합과 차로 스테레오신호를 획득하는 스테레오신호 생성부가 포함되는 스테레오 확장장치.
A database storing predetermined information according to GMM training or HMM training training;
An MDCT conversion unit for MDCT-converting a mono signal;
A feature value extracting unit for extracting a feature value of the mono signal from the MDCT coefficients output from the MDCT transform unit;
A side signal energy estimation unit for estimating a subband energy of a side signal with reference to information stored in the database based on the feature value;
An energy control unit for obtaining an MDCT coefficient of a side signal estimated from subband energy of the estimated side signal;
An inverse MDCT transformer for inverse MDCT transforming the MDCT coefficient of the estimated side signal to obtain an estimated side signal; And
And a stereo signal generating unit for acquiring a stereo signal by summing the sum of the mono signal and the estimated side signal.
제 1 항에 있어서,
상기 MDCT변환부에서 출력되는 상기 모노신호의 MDCT계수를 정규화하여 상기 에너지 제어부로 출력하는 정규화부가 더 포함되는 스테레오 확장장치.
The method according to claim 1,
And a normalization unit for normalizing the MDCT coefficients of the mono signal output from the MDCT conversion unit and outputting the normalized MDCT coefficients to the energy control unit.
제 1 항에 있어서,
상기 특징값은, 상기 모노신호의 서브밴드 에너지 벡터인 스테레오 확장장치.
The method according to claim 1,
Wherein the feature value is a subband energy vector of the mono signal.
모노신호를 미드신호로 하는 것;
상기 모노신호의 특징값을 바탕으로 데이터베이스에 저장되어 있는 GMM트레이닝 또는 HMM트레이닝트레이닝 정보를 참조하여 사이드신호의 서브 밴드 에너지를 추정하는 것;
상기 서브 밴드 에너지를 이용하여 사이드신호를 추정하는 것; 및
상기 모노신호와 상기 추정된 사이드신호의 합과 차로부터 스테레오신호를 획득하는 것이 포함되는 스테레오 확장방법.
Using a mono signal as a mid signal;
Estimating a subband energy of a side signal with reference to GMM training or HMM training training information stored in a database based on the characteristic value of the mono signal;
Estimating a side signal using the subband energy; And
And obtaining a stereo signal from the sum and difference of the mono signal and the estimated side signal.
제 4 항에 있어서,
상기 사이드 신호에 대한 서브 밴드 에너지를 추정하는 것은,
상기 모노신호를 MDCT변환하여 추출된 MDCT계수를 이용하여, 상기 미드신호의 서브밴드 에너지 벡터를 특징값으로서 얻는 것을 포함하고,
상기 사이드신호를 추정하는 것은
추정되는 상기 서브 밴드 에너지를 이용하여, 상기 사이드신호에 대한 MDCT계수를 추정하는 것; 및
추정되는 상기 사이드신호에 대한 MDCT계수를 역 MDCT 변환하여, 상기 사이드신호를 추정하는 것이 포함되는 스테레오 확장방법.
5. The method of claim 4,
Estimating the subband energy for the side signal may include:
And obtaining a subband energy vector of the mid signal as a feature value by using the extracted MDCT coefficients by MDCT transforming the mono signal,
Estimating the side signal
Estimating an MDCT coefficient for the side signal using the estimated subband energy; And
And estimating the side signal by inverse MDCT transforming the estimated MDCT coefficient for the side signal.
제 5 항에 있어서,
상기 사이드신호에 대한 MDCT계수를 추정할 때에는, 상기 모노신호에 대한 MDCT계수가 정규화 된, 정규화된 MDCT계수가 사용되는 스테레오 확장방법.
6. The method of claim 5,
Wherein the normalized MDCT coefficients are normalized and the MDCT coefficients for the mono signal are normalized when estimating the MDCT coefficients for the side signals.
KR1020130107480A 2013-09-06 2013-09-06 Stereo extension apparatus and method KR101461110B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130107480A KR101461110B1 (en) 2013-09-06 2013-09-06 Stereo extension apparatus and method
US14/301,830 US9288602B2 (en) 2013-09-06 2014-06-11 Stereo extension apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130107480A KR101461110B1 (en) 2013-09-06 2013-09-06 Stereo extension apparatus and method

Publications (1)

Publication Number Publication Date
KR101461110B1 true KR101461110B1 (en) 2014-11-12

Family

ID=52287810

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130107480A KR101461110B1 (en) 2013-09-06 2013-09-06 Stereo extension apparatus and method

Country Status (2)

Country Link
US (1) US9288602B2 (en)
KR (1) KR101461110B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030002868A (en) * 2001-06-30 2003-01-09 주식회사 마인드텔 Method and system for implementing three-dimensional sound
KR20110020846A (en) * 2008-05-23 2011-03-03 코닌클리케 필립스 일렉트로닉스 엔.브이. A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030002868A (en) * 2001-06-30 2003-01-09 주식회사 마인드텔 Method and system for implementing three-dimensional sound
KR20110020846A (en) * 2008-05-23 2011-03-03 코닌클리케 필립스 일렉트로닉스 엔.브이. A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder

Also Published As

Publication number Publication date
US9288602B2 (en) 2016-03-15
US20150071445A1 (en) 2015-03-12

Similar Documents

Publication Publication Date Title
Zão et al. Time-frequency feature and AMS-GMM mask for acoustic emotion classification
Al-Ali et al. Enhanced forensic speaker verification using a combination of DWT and MFCC feature warping in the presence of noise and reverberation conditions
JP5124014B2 (en) Signal enhancement apparatus, method, program and recording medium
CN111081268A (en) Phase-correlated shared deep convolutional neural network speech enhancement method
JP4818335B2 (en) Signal band expander
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
JP2005244968A (en) Method and apparatus for speech enhancement by multi-sensor on mobile device
CN107293306B (en) A kind of appraisal procedure of the Objective speech quality based on output
JP6439682B2 (en) Signal processing apparatus, signal processing method, and signal processing program
CN107274890B (en) Voiceprint spectrum extraction method and device
Kim et al. Robust speech recognition using temporal masking and thresholding algorithm.
Petkov et al. Spectral dynamics recovery for enhanced speech intelligibility in noise
JP4960933B2 (en) Acoustic signal enhancement apparatus and method, program, and recording medium
Lim et al. Classification of underwater transient signals using mfcc feature vector
Diener et al. An initial investigation into the real-time conversion of facial surface EMG signals to audible speech
JP2002268698A (en) Voice recognition device, device and method for standard pattern generation, and program
KR100827097B1 (en) Method for determining variable length of frame for preprocessing of a speech signal and method and apparatus for preprocessing a speech signal using the same
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
Hamid et al. Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT)
KR101461110B1 (en) Stereo extension apparatus and method
KR101498113B1 (en) A apparatus and method extending bandwidth of sound signal
Hussain et al. A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies
Liu et al. Speech enhancement of instantaneous amplitude and phase for applications in noisy reverberant environments
CN114827363A (en) Method, device and readable storage medium for eliminating echo in call process
CN111968627A (en) Bone conduction speech enhancement method based on joint dictionary learning and sparse representation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170926

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181004

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191002

Year of fee payment: 6