KR20070063729A - Voice encoding, method for voice encoding and mobile communication terminal thereof - Google Patents

Voice encoding, method for voice encoding and mobile communication terminal thereof Download PDF

Info

Publication number
KR20070063729A
KR20070063729A KR1020050123858A KR20050123858A KR20070063729A KR 20070063729 A KR20070063729 A KR 20070063729A KR 1020050123858 A KR1020050123858 A KR 1020050123858A KR 20050123858 A KR20050123858 A KR 20050123858A KR 20070063729 A KR20070063729 A KR 20070063729A
Authority
KR
South Korea
Prior art keywords
group
voice
signal
sound
speech
Prior art date
Application number
KR1020050123858A
Other languages
Korean (ko)
Inventor
박기우
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020050123858A priority Critical patent/KR20070063729A/en
Publication of KR20070063729A publication Critical patent/KR20070063729A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

A voice encoding apparatus, a voice encoding method, and a mobile communication terminal device using the apparatus are provided to supply high-quality voice with a low bit transmission rate and to separate an input signal into low-band voice signal and high-band voice signal. A voice separation unit(100) separates an input signal into a low-band voice signal and a high-band voice signal. A low-band voice encoding unit(110) encodes the low-band voice signal. A high-band voice encoding unit(120) differently encodes the high-band voice signal from the encoding of the low-band voice signal. A bit packing unit(130) transmits the encoded low-band voice signal and the encoded high-band voice signal through one packet.

Description

음성 부호화장치, 음성 부호화 방법, 이를 이용한 이동통신 단말기{Voice encoding, method for Voice encoding and Mobile Communication Terminal thereof}Speech encoding apparatus, speech encoding method, mobile communication terminal using the same {Voice encoding, method for Voice encoding and Mobile Communication Terminal}

도 1은 본 발명의 일 실시예에 따른 음성 부호화장치의 구성을 나타낸 블럭도.1 is a block diagram showing a configuration of a speech encoding apparatus according to an embodiment of the present invention.

도 2는 도 1의 음성 부호화장치의 일례를 나타낸 블럭도.FIG. 2 is a block diagram illustrating an example of the speech encoding apparatus of FIG. 1. FIG.

도 3은 본 발명의 일 실시예에 따른 음성 부호화 방법을 순차적으로 나타낸 순서도.3 is a flowchart sequentially illustrating a speech encoding method according to an embodiment of the present invention.

도 4는 주기적인 임펄수 열에 대한 시간과 주파수 축 상에서의 청각적 마스킹 현상을 나타낸 예시도.4 illustrates an acoustic masking phenomenon on the time and frequency axis for periodic impulse trains.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

100 : 음성 분류부 110 : 저대역 음성 부호화부100: speech classifier 110: low-band speech encoder

120 : 고대역 음성 부호화부 130 : 비트 패킹부120: high-band speech encoding unit 130: bit packing unit

본 발명은 음성 부호화장치, 음성 부호화 방법, 이를 이용한 이동통신 단말 기에 관한 것이다.The present invention relates to a speech encoding apparatus, a speech encoding method, and a mobile communication terminal using the same.

이동통신 단말기의 수요가 급속도로 증가하면서, MP3, 영상촬영 및 멀티미디어 데이터 등과 같이 다양하고 편리한 기능이 추가된 이동통신 단말기가 제공되고 있다.As the demand for mobile communication terminals increases rapidly, mobile communication terminals with various and convenient functions such as MP3, video recording, and multimedia data are added.

이와 같이, 이동통신 단말기가 제공하는 다양하고 편리한 기능 중에서 가장 중요한 기능은, 사용자들 간에 통화시 발생하는 음성 데이터를 신속하고 정확하게 송수신하는 것이다.As such, the most important function among the various and convenient functions provided by the mobile communication terminal is to quickly and accurately transmit and receive voice data generated during a call between users.

이와 같이, 음성 데이터를 신속하고 정확하게 송수신하기 위해서, 종래의 CDMA 단말기에서는 QCELP(Qualcomm Code Excited Linear Prediction)이라는 보코더를 사용하였다.As described above, in order to transmit and receive voice data quickly and accurately, the conventional CDMA terminal uses a vocoder called QCELP (Qualcomm Code Excited Linear Prediction).

이러한, QCELP는 일반적으로 협대역(8kHz sampling rate) 음성을 이용하여 음성을 부호화/복호화하여 통화품질(toll quality)을 만족하는 방법을 사용하는데 이는 다음과 같다.In general, the QCELP uses a method of satisfying call quality by encoding / decoding speech using a narrowband (8 kHz sampling rate) speech.

먼저, 송신단에서는 아날로그 형태의 음성을 8kHz로 샘플링하고, 샘플링 된 음성을 샘플링시 손실된 고주파 성분을 복원해 주기 위해 고주파 필터(high pass filter)에 통과시킨다.First, the transmitting end samples the analog speech at 8 kHz, and passes the sampled speech through a high pass filter to recover high frequency components lost during sampling.

그리고 이 음성을 여기(excitation) 성분과 포먼트(formant) 성분으로 분리한다. 순차적으로 들어오는 음성을 에일리어싱(aliasing)이 가장 작은 프레임 단위로 나누기 위해 windowing을 수행하고 각 신호들 간의 자기상관(autocorrelation)을 구해준다.The negative is separated into an excitation component and a formant component. Windowing is performed to divide sequentially incoming speech into frame units with the least aliasing, and autocorrelation between signals is obtained.

여기서, 포먼트 성분은 음성의 자기상관을 통해 정보의 중요성을 판단하고 비트 레이트를 결정한다. 그리고 자기상관 행렬에서 LPC(Linear Prediction Coefficient)를 얻는다.Here, the formant component determines the importance of information and determines the bit rate through autocorrelation of speech. And LPC (Linear Prediction Coefficient) is obtained from autocorrelation matrix.

그리고 얻어낸 LPC를 양자화 오류를 최소화할 수 있는 LSP(Linear Spectral Pair)로 변환한다.The obtained LPC is converted into an LSP (Linear Spectral Pair) which minimizes quantization error.

또한, 여기 성분은 피치(pitch)와 게인(gain)을 구해준다. 피치의 경우 ㅍ피치 검색 알고리즘(pitch searching algorithm)을 구하여 코드북(codebook)에서 가장 유사한 값을 구해주고, 게인은 각 서브 프레임(subframe)의 게인을 구한 후 양자화를 수행한다. 이렇게 얻어낸 각 파라미터들은 프레임 단위로 비트패킹(bitpacking) 되어 전송된다.In addition, the excitation component calculates the pitch and gain. In the case of pitch, a pitch searching algorithm is obtained to obtain the most similar value in a codebook, and the gain is obtained by obtaining a gain of each subframe and then performing quantization. Each of these parameters is bitpacked and transmitted on a frame-by-frame basis.

이 후, 수신단에서는 전송받은 데이터들을 이용하여 송신단에서 음성을 분석한 방법의 역순으로 음성을 복원한다.Thereafter, the receiver restores the voice in the reverse order of the method of analyzing the voice using the received data.

그러나, 이러한 QCELP는 낮은 비트 전송률로 음성 데이터를 전송함으로써 통신효율은 비교적 좋지만, 이에 반해 음질이 좋지 않은 문제점이 있었다.However, the QCELP has a relatively good communication efficiency by transmitting voice data at a low bit rate, but has a problem of poor sound quality.

이러한 종래기술의 문제점을 해결하기 위한 본 발명의 목적은, 입력신호를 저대역 음성신호와 고대역 음성신호로 분류하여 서로 다른 부호화 방법으로 부호화하는 음성 부호화장치, 음성 부호화 방법, 이를 이용한 이동통신 단말기를 제공하는 데에 그 목적이 있다.An object of the present invention for solving the problems of the prior art, a speech encoding apparatus for classifying the input signal into a low-band speech signal and a high-band speech signal and encoding by different encoding methods, a speech encoding method, a mobile communication terminal using the same The purpose is to provide.

이와 같은 목적을 달성하기 위한 본 발명의 음성 부호화장치는, 입력신호를 저대역 음성신호 및 고대역 음성신호로 분류하는 음성 분류부; 음성 분류부에 의해 분류된 저대역 음성신호를 부호화하는 저대역 음성 부호화부; 및 음성 분류부에 의해 분류된 고대역 음성신호를, 저대역 음성신호와는 다른 방법으로 부호화하는 고대역 음성 부호화부를 포함한다.According to one aspect of the present invention, there is provided a speech encoding apparatus comprising: a speech classification unit classifying an input signal into a low band speech signal and a high band speech signal; A low band speech encoder for encoding a low band speech signal classified by the speech classifier; And a high band speech encoding section for encoding the high band speech signal classified by the speech classification section in a manner different from that of the low band speech signal.

이때, 저대역 음성 부호화부로부터 부호화된 저대역 음성신호와, 고대역 음성 부호화부로부터 부호화된 고대역 음성신호를 하나의 패킷에 전송하는 비트 패킹부를 추가로 포함한다.In this case, the apparatus further includes a bit packing unit for transmitting the low band speech signal encoded by the low band speech encoder and the high band speech signal encoded by the high band speech encoder in one packet.

여기서, 저대역 음성 부호화부는, 입력신호에 존재하는 음성신호를 검출하는 VAD(Voice Activity Detection)부; VAD부로부터 입력된 음성신호를 소정의 서브 프레임으로 나누고, 각각의 서브 프레임에 대해 유성음/무성음 결정과정을 수행하여 소정의 그룹으로 분류하는 음성그룹 분류부; 및 음성그룹 분류부에 의해 분류된 소정의 그룹에 따라 서로 다른 방식에 의해 부호화를 수행하는 코더부를 포함한다.Here, the low band speech coding unit may include: a voice activity detection (VAD) unit for detecting a voice signal existing in an input signal; A voice group classification unit for dividing the voice signal input from the VAD unit into predetermined subframes and performing voiced / unvoiced sound determination on each subframe and classifying the voice signal into a predetermined group; And a coder unit for performing encoding in different ways according to a predetermined group classified by the voice group classification unit.

여기서, 음성그룹 분류부에서 나뉘어진 서브 프레임은 유성음, 무성음, 무성음에서 유성음으로 천이되는 과정에 있는 온셋음(Onset) 중 어느 하나 이상을 포함하는 것을 특징으로 한다.Here, the sub-frames divided by the voice group classification unit may include any one or more of onset sounds in the process of transition from voiced sound, unvoiced sound, and unvoiced sound to voiced sound.

이때, 음성그룹 분류부가 분류한 상기 소정의 그룹은, 무성음으로 구성된 제1 그룹; 무성음과, 무성음에서 유성음으로 천이되는 과정에 있는 온셋음을 포함하는 제2 그룹; 온셋음과 유성음을 포함하는 제3 그룹; 및 유성음으로 구성된 제4 그 룹을 포함한다.In this case, the predetermined group classified by the voice group classification unit may include: a first group consisting of unvoiced sound; A second group comprising an unvoiced sound and an onset sound in the process of transitioning from unvoiced sound to voiced sound; A third group including onset sounds and voiced sounds; And a fourth group consisting of voiced sounds.

여기서, 코더부는 유성음을 포함하지 않은 제1 그룹 또는 제2 그룹에 할당되는 비트를, 유성음을 포함한 제3 그룹 또는 제 4 그룹에 할당되는 비트보다 적게 할당하는 것을 특징으로 하낟.Here, the coder unit allocates less bits allocated to the first group or the second group not including the voiced sound than bits allocated to the third group or the fourth group including the voiced sound.

이러한, 코더부는, 제1 그룹 또는 제2 그룹에 대해, LSF(Line Spectral Frequency)를 고정된 비트로 양자화(quantization)하는 것을 특징으로 한다.The coder unit quantizes a line spectral frequency (LSF) with a fixed bit for the first group or the second group.

이때, 고정된 비트는 11bit/frame 인 것을 특징으로 하는 한다.At this time, the fixed bit is characterized in that 11bit / frame.

또한, 코더부는, 제3 그룹 또는 제 4 그룹에 대해, LSF 벡터를 두 개의 서브 벡터로 나누고, 코드북(coodebook)을 사용하여 첫 번째의 서브 벡터를 양자화하는 것을 특징으로 한다.In addition, the coder unit may divide the LSF vector into two subvectors for the third group or the fourth group, and quantize the first subvector using a codebook.

이러한, 코더부는 두 번째 서브 벡터의 양자화 시, 첫 번째 서브 벡터의 양자화 과정에서 얻은 양자화 인덱스를 이용하는 것을 특징으로 한다.The coder unit may use the quantization index obtained during the quantization of the first subvector when quantizing the second subvector.

또한, 코더부는 제3 그룹 또는 제 4 그룹 각각의 피치 래그(pitch lag)와 게인값(gain values)을 CS-ACELP(ConjugateStructure-Algebraic Code Excited Linear Prediction)을 이용하여 코딩하는 것을 특징으로 한다.The coder may code pitch lags and gain values of each of the third and fourth groups using CS-ACELP (ConjugateStructure-Algebraic Code Excited Linear Prediction).

또한, 고대역 음성 부호화부는 고대역 음성신호를 LPC(Linear Prediction Coefficient) 분석과정을 통해 선형예측 계수를 산출하는 LPC부; LPC부로부터 산출된 상기 선형예측 계수를 LSF로 변환하는 LSF부를 포함한다.In addition, the high-band speech coding unit LPC unit for calculating the linear prediction coefficients through the linear prediction coefficient (LPC) analysis process of the high-band speech signal; And an LSF unit for converting the linear prediction coefficients calculated from the LPC unit into LSF.

또한, 본 발명의 이동통신 단말기는 전술한 음성 부호화 장치를 포함한다.In addition, the mobile communication terminal of the present invention includes the above-described speech encoding apparatus.

또한, 음성 부호화 방법은, (a) 입력신호를 저대역 음성신호 및 고대역 음성 신호로 분류하는 단계; (b) 분류된 저대역 음성신호를 부호화하는 단계; 및 (c) 분류된 고대역 음성신호를, 저대역 음성신호와는 다른 방법으로 부호화하는 단계를 포함한다.In addition, the speech encoding method includes the steps of: (a) classifying an input signal into a low band speech signal and a high band speech signal; (b) encoding the classified low band speech signal; And (c) encoding the classified high band speech signal by a method different from that of the low band speech signal.

이때, 부호화된 저대역 음성신호와, 부호화된 고대역 음성신호를 하나의 패킷에 전송하는 단계를 추가로 포함한다.In this case, the method may further include transmitting the encoded low band speech signal and the encoded high band speech signal in one packet.

또한, (b)단계에서는, 입력신호에 존재하는 음성신호를 검출하는 단계; 검출된 음성신호를 소정의 서브 프레임으로 나누고, 각각의 서브 프레임에 대해 유성음/무성음 결정과정을 수행하여 소정의 그룹으로 분류하는 음성 그룹분류단계; 및 음성 그룹분류단계에 의해 분류된 소정의 그룹에 따라 서로 다른 방식에 의해 부호화를 수행하는 코더단계를 포함한다.Further, in step (b), detecting a voice signal present in the input signal; A voice group classification step of dividing the detected voice signal into predetermined subframes and performing voiced / unvoiced sound determination on each subframe to classify the voice signal into a predetermined group; And a coder step of performing encoding in different ways according to a predetermined group classified by the voice group classification step.

이때 음성 그룹분류단계에서 나뉘어진 서브 프레임은, 유성음, 무성음, 무성음에서 유성음으로 천이되는 과정에 있는 온셋음 중 어느 하나 이상을 포함하는 것을 특징으로 한다.In this case, the subframe divided in the voice group classification step may include any one or more of onset sounds in the process of transition from voiced sound, unvoiced sound, and unvoiced sound to voiced sound.

이때, 음성 그룹분류단계에서 분류된 상기 소정의 그룹은, 무성음으로 구성된 제1 그룹; 무성음과, 무성음에서 유성음으로 천이되는 과정에 있는 온셋음을 포함하는 제2 그룹; 온셋음과 유성음을 포함하는 제3 그룹; 및 유성음으로 구성된 제2 그룹을 포함한다.In this case, the predetermined group classified in the voice group classification step may include: a first group consisting of unvoiced sounds; A second group comprising an unvoiced sound and an onset sound in the process of transitioning from unvoiced sound to voiced sound; A third group including onset sounds and voiced sounds; And a second group consisting of voiced sounds.

또한, 코더단계에서는 유성음을 포함하지 않은 제1 그룹 또는 제2 그룹에 할당되는 비트를, 유성음을 포함한 제3 그룹 또는 제 4 그룹에 할당되는 비트보다 적게 할당하는 것을 특징으로 한다.In the coder step, the bits allocated to the first group or the second group not including the voiced sound are allocated less than the bits allocated to the third group or the fourth group including the voiced sound.

코더단계에서는, 제1 그룹 또는 제2 그룹을, LSF(Line Spectral Frequency)를 고정된 비트로 양자화(quantization)하는 것을 특징으로 한다.In the coder step, the first group or the second group is characterized by quantizing a line spectral frequency (LSF) to a fixed bit.

이때, 고정된 비트는 11bit/frame 인 것을 특징으로 한다.At this time, the fixed bit is characterized in that 11bit / frame.

또한, 코더단계에서는 제3 그룹 또는 제 4 그룹을, LSF 벡터를 두 개의 서브 벡터로 나누고, 코드북(coodebook)을 사용하여 첫 번째의 서브 벡터를 양자화하는 것을 특징으로 한다.In the coder step, the third group or the fourth group may be divided into two subvectors, and the first subvector is quantized using a codebook.

이때 코더단계에서는, 두 번째 서브 벡터의 양자화 시, 첫 번째 양자화 과정에서 얻은 양자화 인덱스를 이용하는 것을 특징으로 한다.In the coder step, the quantization index obtained in the first quantization process is used for quantization of the second subvector.

또한, 코더단계에서는 제3 그룹 또는 제 4 그룹 각각의 피치 래그(pitch lag)와 게인값(gain values)을 CS-ACELP(Conjugate-Structure Algebraic Code Excited Linear Prediction)을 이용하여 코딩하는 것을 특징으로 한다.In the coder step, the pitch lag and the gain values of each of the third and fourth groups may be coded using CS-ACELP (Conjugate-Structure Algebraic Code Excited Linear Prediction). .

또한, 고대역 음성 부호화단계는 상기 고대역 음성신호를 LPC(Linear Prediction Coefficient) 분석과정을 통해 선형예측 계수를 얻는 단계; 단계로부터 얻은 선형예측 계수를 LSF로 변환하는 단계; 및 LSF단계로부터 변환된 값을 양자화하는 벡터 양자화단계를 포함한다.The high-band speech encoding may include obtaining linear prediction coefficients through a linear prediction coefficient (LPC) analysis of the high-band speech signal; Converting the linear prediction coefficients obtained from the step into LSF; And a vector quantization step of quantizing the value converted from the LSF step.

이하, 본 발명의 일 실시예에 따른 음성 부호화장치, 음성 부호화 방법, 이를 이용한 이동통신 단말기를 도면을 참조하여 상세하게 설명한다.Hereinafter, a speech encoding apparatus, a speech encoding method, and a mobile communication terminal using the same according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 음성 부호화장치의 구성을 나타낸 블럭도이다.1 is a block diagram showing the configuration of a speech encoding apparatus according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성 부호화장치는, 음성 분류부(100), 저대역 음성 부호화부(110), 고대역 음성 부호화부(120) 및 비트 패킹부(130)를 포함하여 이루어진다.As shown in FIG. 1, the speech encoding apparatus according to an embodiment of the present invention includes a speech classifier 100, a lowband speech encoder 110, a highband speech encoder 120, and a bit packing unit ( 130).

먼저, 음성 분류부(100)는 입력신호를 저대역 음성신호 및 고대역 음성신호로 분류한다.First, the voice classifier 100 classifies an input signal into a low band voice signal and a high band voice signal.

저대역 음성 부호화부(110)는 음성 분류부(100)에 의해 분류된 저대역 음성신호를 부호화한다.The low band speech encoder 110 encodes the low band speech signal classified by the speech classifier 100.

고대역 음성 부호화부(120)는 음성 분류부(100)에 의해 분류된 고대역 음성신호를, 저대역 음성신호와는 다른 방법으로 부호화한다.The high band speech encoder 120 encodes the high band speech signal classified by the speech classifier 100 in a manner different from that of the low band speech signal.

비트 패킹부(130)는 저대역 음성 부호화부(110)로부터 부호화된 저대역 음성신호와, 고대역 음성 부호화부(120)로부터 부호화된 고대역 음성신호를 하나의 패킷에 전송한다.The bit packing unit 130 transmits the low band speech signal encoded by the low band speech encoder 110 and the high band speech signal encoded by the high band speech encoder 120 into one packet.

이와 같이 구성되는 본 발명의 일 실시예에 따른 음성 부호화 방법작용의 일례를 살펴 보면 다음과 같다.Looking at an example of the operation of the speech encoding method according to an embodiment of the present invention configured as described above are as follows.

도 2는 도 1의 음성 부호화장치의 일례를 나타낸 블럭도이고, 도 3은 본 발명의 일 실시예에 따른 음성 부호화 방법을 순차적으로 나타낸 순서도이다.2 is a block diagram illustrating an example of the speech encoding apparatus of FIG. 1, and FIG. 3 is a flowchart sequentially illustrating a speech encoding method according to an embodiment of the present invention.

먼저, 도 3에 도시된 바와 같이 본 발명의 일 실시예에 따른 음성 부호화 방법은, 입력신호를 저대역 음성신호 및 고대역 음성신호로 분류하는 단계(S301~S302); 분류된 저대역 음성신호를 부호화하는 단계(S303~S306); 분류된 고대역 음성신호를, 저대역 음성신호와는 다른 방법으로 부호화하는 단계(S307); 부호화된 저대역 음성신호와, 부호화된 고대역 음성신호를 하나의 패킷에 전송하는 단 계(S307)를 포함하여 이루어진다.First, as shown in FIG. 3, a speech encoding method according to an embodiment of the present invention includes: classifying an input signal into a low band speech signal and a high band speech signal (S301 to S302); Encoding the classified low band speech signals (S303 to S306); Encoding the classified high band speech signal by a method different from that of the low band speech signal (S307); And a step (S307) of transmitting the encoded low band speech signal and the encoded high band speech signal in one packet.

먼저, 입력신호를 프레임 생성부(200)를 통과시켜 20ms 길이의 짧은 시간의 신호로 만들기 위해 해밍 윈도우를 씌운다(S310).First, the input signal is passed through the frame generator 200 to cover the hamming window to make a short time signal having a length of 20ms (S310).

이 후, 음성분류부(100)를 통하여, 입력신호를 저대역 음성신호와 고대역 음성신호로 분류한다(S320).Thereafter, the voice classification unit 100 classifies the input signal into a low band voice signal and a high band voice signal (S320).

여기서, 음성분류부(100)에서 입력신호를 저대역 음성신호와 고대역 음성신호로 분류하는 방법을 좀 더 상세하게 설명하면 다음과 같다.Here, a method of classifying the input signal into the low band voice signal and the high band voice signal by the voice classifying unit 100 will be described in more detail as follows.

입력신호를 컷오프 주파수(cutoff frequency)가 4kHz인 저대역 통과 필터(Low Pass Filter, 202)에 통과시킨 후(S322), 해당 신호를 다운 샘플링부(203)에서 다운 샘플링함으로써 저대역 음성신호를 추출한다(S323).After passing the input signal through a low pass filter (202) having a cutoff frequency of 4 kHz (S322), the low-band speech signal is extracted by down sampling the corresponding signal by the down sampling unit 203. (S323).

이와 함께, 고대역 음성신호는, 프레임 생성부(200)에서 입력된 신호에서 저대역 통과 필터(202)를 통과시켜서 얻은 저대역 음성신호를 빼줌으로써 얻는다(S324).In addition, the high band audio signal is obtained by subtracting the low band audio signal obtained by passing the low pass filter 202 from the signal input from the frame generation unit 200 (S324).

이 후, 해당 신호가 저대역 음성신호인지 확인하여(S330), 저대역 음성신호인 경우에는 저대역 음성 부호화부(110)에서 다음과 같은 저대역 음성신호의 부호화 과정을 수행한다(S340).Thereafter, whether the corresponding signal is a low-band speech signal is checked (S330), and in the case of the low-band speech signal, the low-band speech encoder 110 performs the following encoding process of the low-band speech signal (S340).

<저대역 음성신호의 부호화 과정><Encoding Process of Low Band Speech Signal>

먼저, VAD(Voice Activity Detection)부(205)는, S323 단계에서 추출된 저대역 음성신호에 음성신호가 있는지 확인하여, 음성신호가 있는 경우에 이를 음성그 룹 분류부(206)로 출력한다.First, the voice activity detection (VAD) unit 205 checks whether there is a voice signal in the low-band voice signal extracted in step S323, and outputs it to the voice group classifier 206 when there is a voice signal.

여기서 VAD부(205)는, "decision-directed parameter estimation method"와 "first-order markov process modeling"에 기반한 "effective hang-over scheme"을 사용하는 것이 바람직하다.Here, the VAD unit 205 preferably uses an "effective hang-over scheme" based on "decision-directed parameter estimation method" and "first-order markov process modeling".

이와 같이, 음성그룹 분류부(206)는 VAD부(205)로부터 입력된 음성신호를 소정의 서브 프레임으로 나누고, 각각의 서브 프레임에 대해 유성음/무성음 결정과정을 수행하여 <표 1>과 같이 소정의 그룹으로 분류한다.As such, the voice group classifier 206 divides the voice signal input from the VAD unit 205 into predetermined subframes, and performs voiced / unvoiced sound determination for each subframe, as shown in Table 1. Classify into groups.

Figure 112005073413827-PAT00001
Figure 112005073413827-PAT00001

즉, 음성그룹 분류부(206)가 분류한 서브 프레임은, 유성음(Voice), 무성음(Unvoiced), 무성음에서 유성음으로 천이되는 과정에 있는 온셋음(Onset) 중 어느 하나 이상을 포함한다.That is, the subframe classified by the voice group classifier 206 includes at least one of voice, unvoiced, and onset during the transition from voice to voice.

따라서, 이러한 서브 프레임을 가지는 각각의 그룹은, 무성음으로 구성된 제1 그룹, 무성음과, 무성음에서 유성음으로 천이되는 과정에 있는 온셋음을 포함하는 제2 그룹, 온셋음과 유성음을 포함하는 제3 그룹; 및 유성음으로 구성된 제4 그룹을 포함하여 이루어진다.Thus, each group having such subframes includes a first group consisting of unvoiced sounds, a second group including unvoiced sounds and an onset sound that is in the process of transition from unvoiced to voiced sounds, and a third group comprising onset and voiced sounds ; And a fourth group consisting of voiced sounds.

이 후, 코더부(207)는 음성그룹 분류부(206)에 의해 분류된 그룹에 따라 서로 다른 코딩 방법과 비트를 할당하는데 이는 <표 2>와 같다.Thereafter, the coder unit 207 allocates different coding methods and bits according to the groups classified by the voice group classifier 206, as shown in Table 2.

Figure 112005073413827-PAT00002
Figure 112005073413827-PAT00002

먼저, 코더부(207)는 그룹에 따라 각각의 LPC부(1a, 2a, Na, 3a, 4a)에서 10차의 LPC(Linear Prediction Coefficient) 모델링을 사용하여, LPC를 선 스펙트럼 주파수(line spectrum frequencies)로 변환하여 양자화 과정을 수행한다.First, the coder unit 207 uses LPC (Linear Prediction Coefficient) modeling of the 10th order in each of the LPC units 1a, 2a, Na, 3a, and 4a according to the group, and uses the LPC as line spectrum frequencies. To perform the quantization process.

또한, 코더부(207)는 유성음을 포함하지 않은 제1 그룹 또는 제2 그룹에 할당되는 비트를, 유성음을 포함한 제3 그룹 또는 제 4 그룹에 할당되는 비트보다 적게 할당한다.In addition, the coder unit 207 allocates less bits allocated to the first group or the second group not including the voiced sound than bits allocated to the third group or the fourth group including the voiced sound.

따라서, 코더부(207)는 입력신호에 음성은 없고 배경 잡음만 존재하는 노이즈그룹, 제1 그룹 및 제2 그룹의 LSF(Line Spectral Frequency)를 11bit/frame 정도의 고정된 비트로 양자화(quantization)한다.Therefore, the coder unit 207 quantizes the line spectral frequency (LSF) of the noise group, the first group, and the second group, in which there is no voice in the input signal and only background noise, into fixed bits of about 11 bits / frame. .

이와 다르게, 유성음을 포함한 제3 그룹과 제4 그룹은, 10차의 LSF 벡터를 압축하기 위해서 무성음을 포함한 그룹과는 다른 양자화 과정을 수행한다.Alternatively, the third group and the fourth group including the voiced sound perform a different quantization process from the group including the unvoiced sound to compress the 10th order LSF vector.

즉, LSF 벡터를 먼저 4차와 6차, 두개의 서브 벡터로 나눈다. 그리고 첫 번째 서브벡터는 12 bit의 코드북(codebook)을 사용하여 양자화된다.That is, the LSF vector is first divided into two subvectors, 4th and 6th. The first subvector is quantized using a 12 bit codebook.

여기서, 코드북이란 표준 입력신호를 대표하는 기준 벡터(code-vector)의 집합으로 이루어진 것을 말한다.Here, the codebook means a set of code-vectors representing standard input signals.

이와 같이, 코드북이 구성되면 입력신호를 받아들여 코드북을 만들 때와 같이, 프레임 단위로 하여 특정 벡터의 신호를 얻어낸 다음 코드북과 최고 유사 코드가 매칭이 되는 코드가 된다.As such, when a codebook is constructed, a signal of a specific vector is obtained in units of frames, as in the case of receiving an input signal to form a codebook, and then the codebook and the most similar code are matched codes.

이와 같이, 코드북을 이용하여 첫번째 서브 벡터를 양자화한 후 여기서 얻은 양자화 인덱스(quantization index)는, 두 번째 서브벡터의 양자화시 12bit 코드북들 중에 사용 가능한 4개의 코드북을 간추리고 그 중 한 개를 선택하게 된다. 이때, 모든 코드북들은 "weighted squared error distortion criterion"을 사용하여 검색되는 것이 바람직하다.As such, after quantizing the first subvector using a codebook, the quantization index obtained here summarizes four codebooks available among the 12-bit codebooks and selects one of them during quantization of the second subvector. do. At this time, all codebooks are preferably searched using "weighted squared error distortion criterion".

이때, 유성음의 서브 프레임의 경우는, 각각의 피치 래그(pitch lag)와 게인값(gain values)을 CS-ACELP(Conjugate-Structure Algebraic Code Excited Linear Prediction)을 이용하여 코딩한다.In this case, in the case of the voiced sound subframe, each pitch lag and gain values are coded using CS-ACELP (Conjugate-Structure Algebraic Code Excited Linear Prediction).

즉, 개방/폐쇄 루프 피치 검색부(3b, 4b)에서 피치 래그를 찾기 위해 전체 프레임에 대해서 개방루프 탐색(open loop search)을 하고, 각 유성음 서브프레임에 대해서 개방루프 탐색을 통해 얻은 피치 래그를 중심으로 폐루프 탐색(closed loop search)을 수행한다.That is, the open / closed loop pitch search units 3b and 4b perform an open loop search for the entire frame and find the pitch lag obtained through the open loop search for each voiced subframe. Perform a closed loop search around the center.

이를 통해서 피치 래그의 평균 값과 증분(differential increments), 그리고 유성음 서브 프레임에서 측정된 피치 게인값을 전송한다.This transmits the average value of the pitch lag, differential increments, and the pitch gain value measured in the voiced sound subframe.

제 4그룹에서는 long term predictor 파라미터에 35 bit를 제 4 그룹에는 23 bit를 할당한다. 여기서, long term predictor 파라미터란 4 개의 서브 프레임에서 구한 피치값의 평균값을 말한다.In the fourth group, 35 bits are allocated to the long term predictor parameter and 23 bits are allocated to the fourth group. Here, the long term predictor parameter means an average value of pitch values obtained from four subframes.

또한, 각 확률적 여기 코드북(stochastic excitation codebook)들은 각 유성음의 서브프레임마다 1024 벡터를 가진다.In addition, each stochastic excitation codebook has a 1024 vector for each subframe of the voiced sound.

무성음의 서브프레임의 경우는 정밀하게 여기신호를 모델링 할 필요가 없으며 피치정보를 보낼 필요가 없으므로, 여기 인덱스&게인 검색부(1b, 2b, Nb)에서는 여기신호에 6 bit를 할당하고, 게인에 3 bit를 할당한다.In the case of unvoiced subframes, it is not necessary to model the excitation signal precisely, and it is not necessary to send the pitch information. Therefore, the excitation index and gain search units 1b, 2b, and Nb allocate 6 bits to the excitation signal, Allocate 3 bits.

또한, 노이즈 코딩시에는 백색잡음(white noise)에 대해서 LPC 분석을 수행하고 잔여 신호에 대해서 형상(shape) 양자화를 수행한다.In the noise coding, LPC analysis is performed on white noise and shape quantization is performed on the residual signal.

따라서 이 부분에서는 LPC 스펙트럼 정보를 전송하는데 11 bit를 사용하며 잔여 형상에 4 bit를 사용하고 게인에 5 bit를 할당한다.Therefore, in this part, 11 bits are used to transmit LPC spectrum information, 4 bits are used for the remaining shape, and 5 bits are allocated for the gain.

이 후, 각각의 그룹에 따라 부호화된 음성신호들은 차원이 너무 크거나 그 값의 범위가 매우 큰 경우에, 각각의 VQ부(Vector Quantization, 1c, 2c, Nc, 3c, 4c)를 통하여, 대표 패턴이 저장된 코드북으로부터 이에 대응되는 양자화 값으로 차원 수를 줄이거나 범위를 줄이는 작업이 수행된다.Then, the speech signals encoded according to each group are represented through the respective VQ units (Vector Quantization, 1c, 2c, Nc, 3c, 4c) when the dimension is too large or the range of the value is very large. Reducing the number of dimensions or reducing the range from the codebook in which the pattern is stored to the corresponding quantization value is performed.

<고대역 음성신호의 부호화 과정><Encoding Process of High Band Speech Signal>

S305 단계에서, 입력되는 신호가 저대역 음성신호가 아닌 경우에는 고대역 음성신호로 부호화한다(S360).In step S305, if the input signal is not a low-band speech signal, it is encoded into a high-band speech signal (S360).

이러한, 고대역 음성신호의 모델링 방법은 사람의 청각 특성에 기초로하여 설계되었다.This high-band speech signal modeling method is designed based on the human auditory characteristics.

즉, 소리는 사람이 들을 수 있는 24개의 임계 대역으로 구분할 수 있다. 동일한 임계 대역 내에 서로 다른 주파수를 갖는 2개 이상의 소리가 있다면 사람은 그 소리들을 정화하게 구분해 낼 수 없다.That is, the sound can be divided into 24 threshold bands that a human can hear. If there are two or more sounds with different frequencies within the same critical band, a person cannot distinguish them cleanly.

이러한 임계 대역은 주파수가 높아짐에 따라 그 대역폭이 넓어지고, 이는 사람이 높은 주파수의 소리를 들을 때 주파수 축 상에서의 분해능력이 좋지 않음을 말해주는 데 이는 <표 3>과 같다.These critical bands increase in frequency as the frequency increases, which indicates that the resolution on the frequency axis is poor when a person hears a high frequency sound, as shown in Table 3.

Figure 112005073413827-PAT00003
Figure 112005073413827-PAT00003

<표 3>과 같이, 임계 대역은 주파수가 높아짐에 따라 그 대역폭이 넓어지고, 이는 사람이 높은 주파수의 소리를 들을 때 주파수 축 상에서의 분해능력이 좋지 않음을 말해준다. As shown in Table 3, the critical band becomes wider as the frequency is increased, which indicates that the resolution on the frequency axis is poor when a person hears a high frequency sound.

좀 더 상세히 살펴보면, 광대역 음성을 다루면서 협대역 음성에 비해 늘어난 임계대역은 5개뿐이다. 이것은 이 특징을 이용하면 작은 정보량으로 넓은 주파수 대역을 묘사할 수 있다는 것을 의미한다.In more detail, there are only five critical bands of dealing with wideband voice compared to narrowband voice. This means that this feature allows you to describe a wide frequency band with a small amount of information.

이러한 청각 자체의 분해 능력뿐만 아니라 인간의 청각 마스킹 특성도 이용할 수 있다. 이는 어떤 오디오 신호가 독립적으로 존재할 때는 지각이 가능했다 하더라도 동시에 발생할 때는 지각하지 못할 수도 있는 특성을 말한다.In addition to the decomposing ability of the hearing itself, human auditory masking characteristics can be used. This is a characteristic that may be perceptible when an audio signal exists independently but may not be perceived when occurring simultaneously.

이러한 청각 마스킹을 나타내기 위한 것으로 주기적인 임펄스 열에 대하여 사람의 청각이 느낄 수 없는 영역을 살펴 보면 도 4와 같다.As shown in FIG. 4, the hearing masking is used to express the auditory masking.

도 4는 주기적인 임펄수 열에 대한 시간과 주파수 축 상에서의 청각적 마스킹 현상을 나타낸 예시도이다.4 is an exemplary diagram illustrating an acoustic masking phenomenon on a time and frequency axis for a periodic impulse train.

도 4에 도시된 바와 같이, 낮은 주파수 대역에서는 시간 축 상에서는 대부분이 마스킹 영역에 속하는 반면 주파수 축 상에서는 마스킹 되지 않는 영역이 크게 존재한다.As shown in FIG. 4, in the low frequency band, the majority belong to the masking area on the time axis, whereas there is a large area that is not masked on the frequency axis.

이와는 반대로, 높은 주파수 대역에서는 주파수 축 상에서는 대부분이 마스킹 영역에 속하지만, 또 시간 축 상에서는 마스킹 영역이 매우 작음을 알 수 있다. In contrast, it can be seen that in the high frequency band, most of the masking area is on the frequency axis, but the masking area is very small on the time axis.

여기서, 앞에서 임계 대역의 분포를 통해 언급한 결과와 일치하며 높은 주파수 대역을 제대로 묘사하기 위해서는 주파수 축 상에서의 묘사보다는 시간 축 상에서의 묘사가 중요함을 알 수 있다.Here, it can be seen that the description on the time axis is more important than the description on the frequency axis to properly describe the high frequency band, which is consistent with the above-mentioned result through the distribution of the critical band.

따라서, 이러한 청각 특성을 이용하여 고대역 음성의 경우는 6차의 LPC 모델링만으로 충분한 묘사가 가능하며, 고대역 음성의 경우는 특별한 여기 신호의 전송이 필요 없고 단지 복호화 부분에서 제로 평균 가우시안 잡음(zero mean Gaussian noise)으로 여기 신호를 대신 할 수 있다.Therefore, using this auditory characteristic, high-order speech can be sufficiently described by 6th-order LPC modeling, and in the case of high-band speech, no special excitation signal transmission is required, and only zero average Gaussian noise is used in the decoding part. mean Gaussian noise) can replace the excitation signal.

즉, LPC부(208)에서 고대역 음성신호를 LPC(Linear Prediction Coefficient) 분석과정을 통해 선형예측 계수를 얻고, LPC부(208)로부터 얻은 선형예측 계수를 LSF부(209)에서 LSF로 변환한다.That is, the LPC unit 208 obtains the linear prediction coefficients through the LPC (Linear Prediction Coefficient) analysis process, and converts the linear prediction coefficients obtained from the LPC unit 208 into the LSF in the LSF unit 209. .

이와 함께, 게인 산출부(211)에서 게인을 산출한다.At the same time, the gain calculator 211 calculates the gain.

이와 같이, 고대역 음성 부호화부(120)에서 부호화된 음성신호들은 차원이 너무 크거나 그 값의 범위가 매우 큰 경우에, 각각 VQ부(Vector Quantization, 210, 212)를 통하여, 대표 패턴이 저장된 코드북으로부터 이에 대응되는 양자화 값으로 차원 수를 줄이거나 범위를 줄이는 작업이 수행된다.As described above, when the voice signals encoded by the high-band speech encoder 120 are too large in dimension or have a very large range of values, the representative patterns are stored through the VQ units Vector Quantization 210 and 212, respectively. Reducing the number of dimensions or reducing the range from the codebook to the corresponding quantization values is performed.

이 후, 저대역 음성 부호화부(110)와 고대역 음성 부호화부(120)에서 부호화된 음성신호의 각각의 압축된 비트 스트림은, 비트 패킹부(130)를 통하여 하나의 패킷에 묶어서 전송된다.Thereafter, each of the compressed bit streams of the speech signals encoded by the low band speech encoder 110 and the high band speech encoder 120 is bundled into one packet and transmitted through the bit packing unit 130.

위의 실시예에서 설명된 수치들은 일례로써 설명하기 위해 사용된 것이며, 본 발명을 한정하지는 않는다.Numerical values described in the above embodiments are used as examples and are not intended to limit the present invention.

또한, 지금까지 설명한 부호화된 음성신호에 대한 복호화 과정은, 부호화 과정을 반대로 행해 줌으로써 복원된 음성을 얻을 수 있다.In the decoding process for the coded speech signal described above, the reconstructed speech can be obtained by reversing the encoding process.

이와 같은, 본 발명의 일 실시예에 따르면, 저대역의 평균 전송률 3.0kb/s와 고대역의 전송률 1.8kb/s, 종합적으로는 4.8kb/s의 평균 비트 전송률로 좋은 음질을 제공할 수 있다.As described above, according to an embodiment of the present invention, it is possible to provide good sound quality with an average bit rate of 3.0 kb / s in a low band, 1.8 kb / s in a high band, and 4.8 kb / s in total. .

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the technical spirit of the present invention for those skilled in the art.

따라서, 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고 청구범위를 뒷받침하여 해석해야 한다.Accordingly, the present invention should not be limited by the foregoing embodiments and the accompanying drawings, but should be interpreted in support of the claims.

이상에서 설명한 바와 같이 본 발명에 따르면, 낮은 비트 전송률로 좋은 음질을 제공하는 효과가 있다.As described above, according to the present invention, there is an effect of providing good sound quality at a low bit rate.

Claims (25)

입력신호를 저대역 음성신호 및 고대역 음성신호로 분류하는 음성 분류부;A voice classification unit classifying the input signal into a low band voice signal and a high band voice signal; 상기 음성 분류부에 의해 분류된 상기 저대역 음성신호를 부호화하는 저대역 음성 부호화부; 및A low band speech encoder for encoding the low band speech signal classified by the speech classifier; And 상기 음성 분류부에 의해 분류된 상기 고대역 음성신호를, 상기 저대역 음성신호와는 다른 방법으로 부호화하는 고대역 음성 부호화부;A high band speech encoder for encoding the high band speech signal classified by the speech classifier in a manner different from that of the low band speech signal; 를 포함하는 음성 부호화장치.Speech encoding apparatus comprising a. 제 1 항에 있어서,The method of claim 1, 상기 저대역 음성 부호화부로부터 부호화된 상기 저대역 음성신호와, 상기 고대역 음성 부호화부로부터 부호화된 상기 고대역 음성신호를 하나의 패킷에 전송하는 비트 패킹부;A bit packing unit for transmitting the low band speech signal encoded by the low band speech encoder and the high band speech signal encoded by the high band speech encoder in one packet; 를 추가로 포함하는 음성 부호화장치.Speech encoding apparatus further comprises. 제 1 항에 있어서,The method of claim 1, 상기 저대역 음성 부호화부는,The low band speech encoder, 상기 입력신호에 존재하는 음성신호를 검출하는 VAD(Voice Activity Detection)부;A Voice Activity Detection (VAD) unit for detecting a voice signal present in the input signal; 상기 VAD부로부터 입력된 상기 음성신호를 소정의 서브 프레임으로 나누고, 각각의 서브 프레임에 대해 유성음/무성음 결정과정을 수행하여 소정의 그룹으로 분류하는 음성그룹 분류부; 및A voice group classification unit for dividing the voice signal input from the VAD unit into predetermined subframes and performing voiced / unvoiced sound determination on each subframe and classifying the voice signal into a predetermined group; And 상기 음성그룹 분류부에 의해 분류된 상기 소정의 그룹에 따라 서로 다른 방식에 의해 부호화를 수행하는 코더부;A coder unit for performing encoding in different ways according to the predetermined group classified by the voice group classification unit; 를 포함하는 음성 부호화장치.Speech encoding apparatus comprising a. 제 3 항에 있어서,The method of claim 3, wherein 상기 음성그룹 분류부에서 나뉘어진 서브 프레임은,The sub-frames divided by the voice group classification unit are 유성음, 무성음, 상기 무성음에서 유성음으로 천이되는 과정에 있는 온셋음(Onset) 중 어느 하나 이상을 포함하는 것을 특징으로 하는 음성 부호화장치.And a voiced voice, an unvoiced voice, and at least one of an onset sound in the process of transitioning from the voiced voice to the voiced sound. 제 3 항 또는 제 4 항에 있어서,The method according to claim 3 or 4, 상기 음성그룹 분류부가 분류한 상기 소정의 그룹은,The predetermined group classified by the voice group classification unit is 상기 무성음으로 구성된 제1 그룹;A first group consisting of the unvoiced sound; 상기 무성음과, 상기 무성음에서 유성음으로 천이되는 과정에 있는 온셋음을 포함하는 제2 그룹;A second group including the unvoiced sound and an onset sound in the process of transitioning from the unvoiced sound to the voiced sound; 상기 온셋음과 유성음을 포함하는 제3 그룹; 및A third group including the onset sound and the voiced sound; And 상기 유성음으로 구성된 제4 그룹;A fourth group consisting of the voiced sounds; 을 포함하는 것을 특징으로 하는 음성 부호화장치.Speech encoding apparatus comprising a. 제 5 항에 있어서,The method of claim 5, 상기 코더부는,The coder unit, 상기 유성음을 포함하지 않은 상기 제1 그룹 또는 제2 그룹에 할당되는 비트를, 상기 유성음을 포함한 상기 제3 그룹 또는 제 4 그룹에 할당되는 비트보다 적게 할당하는 것을 특징으로 하는 음성 부호화장치.And a bit allocated to the first group or the second group not including the voiced sound is allocated less than a bit allocated to the third group or the fourth group including the voiced sound. 제 6 항에 있어서,The method of claim 6, 상기 코더부는,The coder unit, 상기 제1 그룹 또는 제2 그룹에 대해, LSF(Line Spectral Frequency)를 고정된 비트로 양자화(quantization)하는 것을 특징으로 하는 음성 부호화장치.The apparatus of claim 1, wherein the first or second group quantizes a line spectral frequency (LSF) into fixed bits. 제 7 항에 있어서,The method of claim 7, wherein 상기 고정된 비트는 11bit/frame 인 것을 특징으로 하는 음성 부호화장치.And the fixed bit is 11 bits / frame. 제 6 항에 있어서,The method of claim 6, 상기 코더부는,The coder unit, 상기 제3 그룹 또는 제 4 그룹에 대해,For the third group or the fourth group, 상기 LSF 벡터를 두 개의 서브 벡터로 나누고, 코드북(coodebook)을 사용하여 첫 번째의 서브 벡터를 양자화하는 것을 특징으로 하는 음성 부호화 장치.And dividing the LSF vector into two subvectors and quantizing a first subvector using a codebook. 제 9 항에 있어서,The method of claim 9, 상기 코더부는,The coder unit, 상기 두 번째 서브 벡터의 양자화 시, 상기 첫 번째 서브 벡터의 양자화 과정에서 얻은 양자화 인덱스를 이용하는 것을 특징으로 하는 음성 부호화 장치.And a quantization index obtained during the quantization of the first sub vector when the second sub vector is quantized. 제 6 항에 있어서,The method of claim 6, 상기 코더부는,The coder unit, 상기 제3 그룹 또는 제 4 그룹 각각의 피치 래그(pitch lag)와 게인값(gain values)을 CS-ACELP(Conjugate Structure-Algebraic Code Excited Linear Prediction)을 이용하여 코딩하는 것을 특징으로 하는 음성 부호화 장치.And a pitch lag and a gain value of each of the third group and the fourth group are coded using CS-ACELP (Conjugate Structure-Algebraic Code Excited Linear Prediction). 제 1 항에 있어서,The method of claim 1, 상기 고대역 음성 부호화부는,The high band speech coder, 상기 고대역 음성신호를 LPC(Linear Prediction Coefficient) 분석과정을 통해 선형예측 계수를 산출하는 LPC부; 및An LPC unit configured to calculate a linear prediction coefficient of the high-band speech signal through a linear prediction coefficient (LPC) analysis process; And 상기 LPC부로부터 산출된 상기 선형예측 계수를 LSF로 변환하는 LSF부;An LSF unit converting the linear prediction coefficients calculated from the LPC unit into an LSF; 를 포함하는 음성 부호화 장치.Speech encoding apparatus comprising a. 제 1 항의 음성 부호화 장치를 포함하는 이동통신 단말기.A mobile communication terminal comprising the speech coding apparatus of claim 1. (a) 입력신호를 저대역 음성신호 및 고대역 음성신호로 분류하는 단계;(a) classifying the input signal into a low band speech signal and a high band speech signal; (b) 분류된 상기 저대역 음성신호를 부호화하는 단계; 및(b) encoding the classified low band speech signal; And (c) 상기 분류된 상기 고대역 음성신호를, 상기 저대역 음성신호와는 다른 방법으로 부호화하는 단계;(c) encoding the classified highband speech signal in a different manner from the lowband speech signal; 를 포함하는 음성 부호화 방법.Speech encoding method comprising a. 제 14 항에 있어서,The method of claim 14, 상기 부호화된 상기 저대역 음성신호와, 상기 부호화된 상기 고대역 음성신호를 하나의 패킷에 전송하는 단계;Transmitting the encoded low band speech signal and the encoded high band speech signal in one packet; 를 추가로 포함하는 음성 부호화 방법.Speech encoding method further comprising. 제 14 항에 있어서,The method of claim 14, 상기 (b)단계는,In step (b), 상기 입력신호에 존재하는 음성신호를 검출하는 단계;Detecting a voice signal existing in the input signal; 상기 검출된 음성신호를 소정의 서브 프레임으로 나누고, 각각의 서브 프레임에 대해 유성음/무성음 결정과정을 수행하여 소정의 그룹으로 분류하는 음성 그룹분류단계; 및A voice group classification step of dividing the detected voice signal into predetermined subframes and performing voiced / unvoiced sound determination on each subframe and classifying the detected voice signal into a predetermined group; And 상기 음성 그룹분류단계에 의해 분류된 상기 소정의 그룹에 따라 서로 다른 방식에 의해 부호화를 수행하는 코더단계;A coder step of performing encoding in different ways according to the predetermined group classified by the voice group classification step; 를 포함하는 음성 부호화 방법.Speech encoding method comprising a. 제 16 항에 있어서,The method of claim 16, 상기 음성 그룹분류단계에서 나뉘어진 서브 프레임은,The subframe divided in the voice group classification step, 유성음, 무성음, 상기 무성음에서 유성음으로 천이되는 과정에 있는 온셋음 중 어느 하나 이상을 포함하는 것을 특징으로 하는 음성 부호화 방법.And a voiced sound, an unvoiced sound, and at least one of an onset sound in the process of transitioning from the unvoiced sound to the voiced sound. 제 16 항 또는 제 17 항에 있어서,The method according to claim 16 or 17, 상기 음성 그룹분류단계에서 분류된 상기 소정의 그룹은,The predetermined group classified in the voice group classification step, 상기 무성음으로 구성된 제1 그룹;A first group consisting of the unvoiced sound; 상기 무성음과, 상기 무성음에서 유성음으로 천이되는 과정에 있는 온셋음을 포함하는 제2 그룹;A second group including the unvoiced sound and an onset sound in the process of transitioning from the unvoiced sound to the voiced sound; 상기 온셋음과 유성음을 포함하는 제3 그룹; 및A third group including the onset sound and the voiced sound; And 상기 유성음으로 구성된 제2 그룹;A second group consisting of the voiced sound; 을 포함하는 것을 특징으로 하는 음성 부호화 방법.Speech encoding method comprising a. 제 18 항에 있어서,The method of claim 18, 상기 코더단계에서는,In the coder step, 상기 유성음을 포함하지 않은 상기 제1 그룹 또는 제2 그룹에 할당되는 비트를, 상기 유성음을 포함한 상기 제3 그룹 또는 제 4 그룹에 할당되는 비트보다 적게 할당하는 것을 특징으로 하는 음성 부호화 방법.And allocating bits assigned to the first group or the second group not including the voiced sound less than bits allocated to the third group or the fourth group including the voiced sound. 제 19 항에 있어서,The method of claim 19, 상기 코더단계에서는,In the coder step, 상기 제1 그룹 또는 제2 그룹을, LSF(Line Spectral Frequency)를 고정된 비트로 양자화(quantization)하는 것을 특징으로 하는 음성 부호화 방법.And quantizing the first group or the second group with fixed bits. 제 20 항에 있어서,The method of claim 20, 상기 고정된 비트는 11bit/frame 인 것을 특징으로 하는 음성 부호화 방법.And the fixed bit is 11 bits / frame. 제 19 항에 있어서,The method of claim 19, 상기 코더단계에서는,In the coder step, 상기 제3 그룹 또는 제 4 그룹을,The third group or the fourth group, 상기 LSF 벡터를 두 개의 서브 벡터로 나누고, 코드북(coodebook)을 사용하여 첫 번째의 서브 벡터를 양자화하는 것을 특징으로 하는 음성 부호화 방법.Dividing the LSF vector into two subvectors and quantizing a first subvector using a codebook. 제 19 항에 있어서,The method of claim 19, 상기 코더단계에서는,In the coder step, 상기 두 번째 서브 벡터의 양자화 시, 상기 첫 번째 양자화 과정에서 얻은 양자화 인덱스를 이용하는 것을 특징으로 하는 음성 부호화 방법.And a quantization index obtained during the first quantization process is used for quantization of the second sub vector. 제 19 항에 있어서,The method of claim 19, 상기 코더단계에서는,In the coder step, 상기 제3 그룹 또는 제 4 그룹 각각의 피치 래그(pitch lag)와 게인값(gain values)을 CS-ACELP(Conjugate Structure-Algebraic Code Excited Linear Prediction)을 이용하여 코딩하는 것을 특징으로 하는 음성 부호화 방법.And a pitch lag and a gain value of each of the third and fourth groups are coded by using a conjugate structure-algebraic code excited linear prediction (CS-ACELP). 제 14 항에 있어서,The method of claim 14, 상기 고대역 음성 부호화단계는,The high-band speech coding step, 상기 고대역 음성신호를 LPC(Linear Prediction Coefficient) 분석과정을 통해 선형예측 계수를 얻는 단계;Obtaining a linear prediction coefficient of the high-band speech signal through a linear prediction coefficient (LPC) analysis process; 상기 단계로부터 얻은 상기 선형예측 계수를 LSF로 변환하는 단계; 및Converting the linear prediction coefficients obtained from the step into LSF; And 상기 LSF단계로부터 변환된 값을 양자화하는 벡터 양자화단계;A vector quantization step of quantizing the value converted from the LSF step; 를 포함하는 음성 부호화 방법.Speech encoding method comprising a.
KR1020050123858A 2005-12-15 2005-12-15 Voice encoding, method for voice encoding and mobile communication terminal thereof KR20070063729A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050123858A KR20070063729A (en) 2005-12-15 2005-12-15 Voice encoding, method for voice encoding and mobile communication terminal thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050123858A KR20070063729A (en) 2005-12-15 2005-12-15 Voice encoding, method for voice encoding and mobile communication terminal thereof

Publications (1)

Publication Number Publication Date
KR20070063729A true KR20070063729A (en) 2007-06-20

Family

ID=38363590

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050123858A KR20070063729A (en) 2005-12-15 2005-12-15 Voice encoding, method for voice encoding and mobile communication terminal thereof

Country Status (1)

Country Link
KR (1) KR20070063729A (en)

Similar Documents

Publication Publication Date Title
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
KR100962681B1 (en) Classification of audio signals
KR100879976B1 (en) Coding model selection
KR100647336B1 (en) Apparatus and method for adaptive time/frequency-based encoding/decoding
KR100798668B1 (en) Method and apparatus for coding of unvoiced speech
WO2002065457A2 (en) Speech coding system with a music classifier
KR20070063729A (en) Voice encoding, method for voice encoding and mobile communication terminal thereof
KR100554164B1 (en) Transcoder between two speech codecs having difference CELP type and method thereof
Sun et al. Speech compression
Drygajilo Speech Coding Techniques and Standards
Anselam et al. QUALITY EVALUATION OF LPC BASED LOW BIT RATE SPEECH CODERS
Jenner Non-intrusive identification of speech codecs in digital audio signals
JPH08171400A (en) Speech coding device
Ehnert Variable-rate speech coding: coding unvoiced frames with 400 bps
Khalili et al. Design and implementation of Vector Quantizer for a 600 bps cocoder Based on MELP
KR100757366B1 (en) Device for coding/decoding voice using zinc function and method for extracting prototype of the same
Lee et al. Design of a speech coder utilizing speech recognition parameters for server-based wireless speech recognition
Unver Advanced Low Bit-Rate Speech Coding Below 2.4 Kbps
Paksoy Variable rate speech coding with phonetic classification
Ku et al. DEPENDENT SPECTRAL QUANTIZATION
MXPA06009370A (en) Coding model selection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application