KR20010075491A - 음성 코더 매개변수를 양자화하는 방법 - Google Patents

음성 코더 매개변수를 양자화하는 방법 Download PDF

Info

Publication number
KR20010075491A
KR20010075491A KR1020017004080A KR20017004080A KR20010075491A KR 20010075491 A KR20010075491 A KR 20010075491A KR 1020017004080 A KR1020017004080 A KR 1020017004080A KR 20017004080 A KR20017004080 A KR 20017004080A KR 20010075491 A KR20010075491 A KR 20010075491A
Authority
KR
South Korea
Prior art keywords
transmitted
energy
vector
filter
pattern
Prior art date
Application number
KR1020017004080A
Other languages
English (en)
Inventor
구르네필립
샤르띠에프레데릭
Original Assignee
트뤼옹-벵-똥 엠.쎄.
톰슨-씨에스에프
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 트뤼옹-벵-똥 엠.쎄., 톰슨-씨에스에프 filed Critical 트뤼옹-벵-똥 엠.쎄.
Publication of KR20010075491A publication Critical patent/KR20010075491A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

본 발명의 방법은, 수퍼 프레임을 형성하도록 N 개의 연속 프레임상에서 매개변수를 어셈블링 (17) 하며, 각 수퍼 프레임동안 보이싱의 천이 주파수를 벡터 양자화 (18) 하며, 열화없이 가장 빈번한 구성만을 전송하여 최소 빈번한 구성을 가장 빈번한 구성중 절대 에러라는 면에서 가장 가까운 구성으로 대체하며, 각 수퍼 프레임에 대하여 한 개 값만을 스칼라 양자화하여 피치를 인코딩 (19) 하며, 벡터 양자화에 의해 양자화된 서브 패킷에서의 이러한 값들을 어셈블링시 감소된 값의 개수만을 선택하여 에너지를 인코딩 (20) 하며, 전송되지 않은 에너지 값은 전송된 값으로부터 내삽 또는 외삽에 의해 합성부에서 복구되고, 특정 개수 필터만을 선택함으로써 벡터 양자화 (21) 에 의해 선형 예측 합성 필터의 인코딩용 스펙트럼 엔벌로프 매개변수를 인코딩하며, 아직 전송되지 않은 매개변수는 전송된 필터의 매개변수로부터 내삽 또는 외삽에 의해 복구된다.

Description

음성 코더 매개변수를 양자화하는 방법{METHOD FOR QUANTIZING SPEECH CODER PARAMETERS}
본 발명은 음성 인코딩 방법에 관한 것이다. 본 발명은 특히 초당 약 1200 비트 범위인 매우 낮은 비트율에서 동작하며 예를 들어 위성 통신, 인터넷 전화, 정적 응답기, 음성 호출기 등에 실현되는 보코더 제조에 적용될 수 있다.
이러한 보코더의 목적은 최저 가능성 이진율을 이용하여 인간의 귀로 인식되는 본래의 음성 신호에 가능한 가까운 신호를 재구축하는 것이다.
이러한 목적을 달성하기 위해, 보코더는 음성 신호의 완전히 매개변수화된 모델을 사용한다. 사용되는 매개변수는, 합성 필터를 여기 및 매개변수화하기 위해 신호의 스펙트럼 엔벌로프 뿐만 아니라 에너지의 임시 발생인, "피치" 로 또한 알려진, 음성의 기본 주파수인, 음성의 주기적 문자 또는 무성 (unvoiced) 의 난수성을 나타내는 보이싱 (voicing) 에 관련된다. 필터링은 일반적으로 선형 예측 디지털 필터링 기술에 의해 수행된다.
이러한 다양한 매개변수는, 매개변수 및 코더에 의존하여, 음성 신호상에서 10ms 내지 30ms 당 한번 내지 여러번 주기적으로 추정된다. 이러한 매개변수는 분석 장치에서 준비되며 일반적으로 합성 장치로 원격 전송된다.
로우 비트율 음성 인코딩 분야에서는 LPC (10) 과 같은 2400 비트/초 인코더가 지배적이었다. 보다 낮은 비트율에서 대체하여 동작하는 것 뿐만 아니라 이러한 인코더 설명은 다음과 같은 문헌에서 알 수 있다.
즉, "Parameter and coding characteristics that must be common to assure interoperability of 2400 bps linear predictive encoded speech", NATO 표준 STANAG-4198-Ed 1, 1984년 2월 13일, 및 B.Mouy, D de la Noue et G. Goudezeune, "NATO STANAG 4479 : A Standard for an 800 bps Vocoder and Channel Coding in HF-ECCM system", 음향, 음성, 및 신호 처리에 관한 IEEE 국제 협회, 디트로이트, 1995년 5월 페이지 480 - 483 에서 알 수 있다.
이 보코더에 의해 재생된 음성은 완전히 이해될 수 있는 반면, 품질이 다소 떨어지기에, 그 사용은 특정 응용으로만, 주로 프로 및 군사 응용에 제한된다. 최근에, 약어인 MBE, PWI, 및 MELP 로 알려진 새로운 모델 도입으로 인하여 로우 비트율 음성 인코딩에 많은 발전이 있었다.
MBE 모델에 관한 설명은 D.W. Griffin 및 J.S. Lim 의 음향, 음성, 및 신호처리에 관한 IEEE 거래인 "Multiband Vocoders Excitation" 의 1988년 36권 8번 페이지 1223 - 1235 의 문헌에서 알 수 있다.
PWI 모델에 관한 설명은 1995년 Elsevier 의 W.B. Kleijin 및 J Haogen 의 "Waveform Interpolation for Coding and Synthesis" 및 W.B. Kleijin 및 KK. Paliwal ed 의 "Speech Coding and Synthesis" 문헌에서 알 수 있다.
마지막으로, MELP 모델에 관한 설명은 L.M. Spplee, R.P. Cohn, J.S. Collura 및 A.V. McCree 의 음향, 음성, 및 신호처리에 관한 IEEE 국제협회에서의"MELP : The New Federal Standara at 2400 bits/s" 의 1997년 페이지 1591 - 1594 의 문헌에서 알 수 있다.
이러한 2400 비트/초 에 의해 저장되는 음성 품질은 많은 개인용 및 상업용으로 허용가능해졌다. 그러나, 2400 비트/초 이하의 비트율 (특히 1200 비트/s 이하) 에 대하여, 저장된 음성은 부적절하며, 이러한 단점을 줄이기 위해, 다른 기술이 사용되어 왔다. 제 1 기술은 세그먼트 보코더에 관한 것으로서, 이것의 2가지 변형은, 1997년 4월 뮌헨에서 음향, 음성, 및 신호 처리에 관한 IEEE 국제 협회에서 이미 언급된 B.Mouy, P. de la Noue 및 G. Goudezeune 및 Y.Sholam 의 "Very Low Complexity Interpolative Speech Coding At 1.2 To 2.4 Kbps " 의 페이지 1599 - 1602 에서 설명되어 있다.
그러나, 현재까지, 어떠한 세그먼트 보코더도 민간 및 상업용으로 충분한 품질을 갖는 것으로 볼 수 없었다.
제 2 기술은 인식 및 합성의 원리를 결합하는 음성 보코더 실현이다. 이 분야에서의 활동은 다소 근본적인 연구 단계에 있다. 관련된 비트율은 일반적으로 1200 비트/초보다 훨씬 낮지만 (특히 50 내지 200 비트/초), 얻게되는 품질은 다소 열화상태이며 스피커에서의 인식이 종종 없게 된다. 이러한 종류의 보코더 설명은 1998년 5월 12 ~15 일 음향, 음성, 및 신호 처리에 관한 IEEE 국제 협회에서 J Cernocky, G Baudoin, G Chollet 의 "Segmental Vocoder-Going Beyond The Phonetic Approach" 의 페이지 605 - 698 의 문헌에 있다.
본 발명의 목적은 상기한 단점을 줄이는 것이다.
이것을 위해, 본 발명의 목적은, 음성 신호의 매개변수 인코딩 및 전송용 분석부 및 전송되는 매개변수의 수신 및 디코딩용 합성부를 포함하는 매우 낮은 비트율을 갖는 보코더를 사용하여 음성 통신용 음성을 인코딩 및 디코딩하며, 음성 신호를 주어진 길이의 연속 프레임으로 재분할함으로써, 매개변수를 분석하고, 음성 신호의 피치, 보이싱 천이 주파수, 에너지, 및 스펙트럼 엔벌로프를 기술하는 종류의 선형 예측 합성 필터를 사용하여 상기 음성 신호를 재구축하는 방법에 있어서, 수퍼 프레임을 형성하도록 N 개의 연속 프레임상에서 매개변수를 어셈블링하는 단계, 각 수퍼 프레임동안 보이싱의 천이 주파수를 벡터 양자화하고 열화없이 가장 빈번한 구성만을 전송하여 상기 가장 빈번한 구성중 절대 에러라는 면에서 가장 가까운 구성으로 최소 빈번한 구성을 대체하는 단계, 각 수퍼 프레임에 대하여 한 개 값만을 스칼라 양자화하여 피치를 인코딩하는 단계, 벡터 양자화에 의해 양자화된 서브 패킷에서의 이러한 값들을 어셈블링시 감소된 값의 개수만을 선택하여 에너지를 인코딩하는 단계, 특정 개수 필터만을 선택함으로써 벡터 양자화에 의해 선형 예측 합성 필터의 인코딩용 스펙트럼 엔벌로프 매개변수를 인코딩하는 단계로 구성되고, 전송되지 않은 에너지 값은 전송된 값으로부터 내삽 또는 외삽에 의해 상기 합성부에서 복구되고, 아직 전송되지 않은 매개변수는 전송된 필터의 매개변수로부터 내삽 또는 외삽에 의해 재구축되는 것을 특징으로 한다.
본 발명의 다른 특징 및 장점은 다음에 따르는 설명 및 첨부된 도면으로부터 명백해질 것이다.
도 1 은 본 발명의 실현에 사용되는 HSX 형 보코더의 혼합된 여기 모델을 도시하는 도.
도 2 는 본 발명을 실현하는데 사용되는 HSX 형 보코더의 분석부의 기능도.
도 3 은 본 발명을 실현하는데 사용되는 HSX 형 보코더의 합성부의 기능도.
도 4 는 흐름도 형태인 본 발명의 방법의 주요 단계를 도시하는 도.
도 5 는 3개의 연속 프레임의 보이싱 천이 주파수의 구성 분포를 도시하는 표.
도 6 은 본 발명을 실현하는데 사용될 수 있는 보이싱 천이 주파수의 벡터 양자화 표.
도 7 은 음성 신호 에너지의 코딩용으로 본 발명에서 실현되는 선택 및 내삽 도을 도시하는 표.
도 8 은 선형 예측 LPC 필터 인코딩용으로 선택 및 내삽/외삽 도를 나타내는 표.
도 9 는 본 발명에 따른 1200 비트/초 HSX 형 보코더의 인코딩에 필요한 비트에 관한 비트 할당 표.
본 발명에 따른 방법은 HSX 즉, 고조 확률 여기 (Harmonic Stochastic Excitation) 로 알려진 종류의 보코더를 실현한다.
이러한 종류의 보코더 설명은, 1996년 5월 아틀란타에서의 음향, 신호 처리 에 관한 IEEE 국제 협회에서 C. Laflamme, R. Salami, R. Matmti 및 J.P. Adoul 의 "Harmonic Stochastic Excitation (HSX) Speech Coding Below 4 k.bits/s" 의 페이지 204 - 207 에 설명되어 있다.
본 발명에 따른 방법은 음성 신호의 전체 복잡성중 최소 비트율로 가장 효율적인 재생을 가능하게 하는 매개변수 인코딩에 관한 것이다.
도 1 에 개략적으로 도시된 바와 같이, HSX 보코더는 합성부에서 단지 합성된 여기 모델을 사용하는 선형 예측 보코더이다. 이 모델에서, 주기적 펄스 트레인은 저 주파수에서 여기를 발생하고 노이즈 레벨은 lpc 합성 필터의 고 주파수에서 여기를 발생한다. 도 1 은 2개의 필터링 채널을 포함하는 합성된 여기의 발생 원리를 나타낸다. 주기적 펄스 트레인에 의해 여기되는 제 1 채널 (11) 은, 로우 패스 필터링 동작을 수행하고 확률 노이즈 신호에 의해 여기되는 제 2 채널 (12) 은 하이 패스 필터링 동작을 수행한다. 2개 채널의 필터의 컷오프 또는 천이 주파수 (fc) 는 동일하며 시간에 따라 변경되는 위치를 갖는다. 2개 채널의 필터는 상보적이다. 합산기 (2) 는 2개 채널에 의해 주어지는 신호를 가산한다. 이득 (g) 증폭기 (3) 는 합산기 (2) 의 출력에서 얻어지는 여기 신호가 편평한 스펙트럼 신호이도록 제 1 필터링 채널의 이득을 조절한다.
보코더의 분석부의 기능도는 도 2 에 도시된다. 이 분석을 수행하기 위해, 음성 신호는 우선적으로 하이 패스 필터 (4) 에 의해 필터링되고 이후 8KHz 주파수에서 취해진 180 개 샘플을 포함하는 22.5ms 프레임으로 세그먼트화된다. 각 프레임에서 단계 (5) 에서 2개의 선형 예측 분석이 수행된다. 단계 (6, 7) 에서, 얻게 되는 반 백색 신호는 4개의 서브 밴드로 분할된다. 로버스트 피치 팔로워 (8) 는 제 1 서브 밴드를 이용한다. 유성음의 저 주파수 대역 및 무성음의 고주파수 대역간의 천이 주파수 (fc) 는 4개 서브 밴드의 단계 (9) 에서 보이싱 율에 의해 결정된다. 마지막으로, 에너지는 프레임당 4번씩 피치 동기방식으로 단계 (10) 에서 측정 및 인코딩된다.
피치 팔로워 및 보이싱 분석기 (9) 의 성능 특성은 이들의 결정이 한 프레임씩 지연될 때 크게 향상될 수 있기에, 이에 따른 매개변수, 즉, 합성 필터, 피치, 보이싱, 천이 주파수, 및 에너지의 계수는 한 개의 래그 프레임으로 인코딩된다.
도 3 에 도시된 보코더 (HSX) 의 합성부에서, 합성 필터의 여기 신호는, 도 1 에 도시된 바와 같이, 스펙트럼 엔벌로프가 상보적인 고조파 신호 및 랜덤 신호의 합에 의해 형성된다. 고조파 성분은 소정의 대역통과 필터 (11) 로 통과되는 피치 주기에서 펄스 트레인을 형성함으로써 얻어진다. 랜덤 성분은 푸리에 변환 및 시간 중첩 동작을 결합하는 발생기 (12) 로부터 얻어진다. 합성 LPC 필터 (14) 는 프레임당 4번 내삽된다. 필터 (14) 의 출력에 결합된 지각 필터 (15) 로 인하여 원래 음성 신호의 비음 특성의 최대 보상을 얻을 수 있다. 마지막으로, 자동 이득 제어 장치로, 출력 신호의 피치 동기식 에너지가 전송된 에너지와 동일함을 보장받을 수 있다.
초당 1200 비트만큼 낮은 비트율로는, 22.5ms 마다 4개 매개변수인, 피치, 음성 전송 주파수, 에너지 및 프레임당 2개의 계수를 갖는 LPC 필터 계수의 정밀한 인코딩을 할 수 없다.
빠른 변이로 산재된 안정 주기를 포함하는 매개변수 전개의 임시 특성을 가장 효율적으로 사용하기 위해, 본 발명에 따른 방법은 도 4 에서 17 내지 21 로 언급된 5개의 주요 단계를 갖는다. 단계 (17) 는 수퍼 프레임을 형성하기 위해 보코더 프레임을 N 개 프레임으로 결합한다. 예를 들어, 3 과 동일한 N 값이 선택될 수 있으며 이유는 이것이 이진 비트율의 가능성있는 감소 및 양자화 방법에 의해 도입되는 지연 간에 좋은 타협을 제공할 수 있기 때문이다. 게다가, 현재 에러 정정 인코딩 및 인터레이싱 기술과 호환성있다.
보이싱 천이 주파수는, 예를 들어, 0, 750, 2000 및 3625 Hz 인 4개의 주파수 값만을 사용하여 벡터 양자화에 의해 단계 (18) 에서 인코딩된다. 이러한 상태에서, 프레임당 2비트에서 6비트면 각 주파수를 인코딩하고 수퍼 프레임의 3개 프레임의 보이싱 구성을 정밀하게 전송하기에 충분하다. 그러나, 일부 보이싱 구성은 매우 드물게 발생하기에, 일부 보이싱 구성이 저장된 음성의 품질 또는 이해에서 중요한 역할을 하지 않기 때문에 반드시 정상 음성 신호의 전개 특성을 나타내지 않는다고 가정할 수도 있다. 이것은 예를 들어 한 프레임이 0 Hz 으로부터 3625 Hz 로 완전히 유성음화되며 2개의 무성음화된 프레임간에 포함되는 경우이다.
도 5 의 표는 123,158 음서 프레임의 데이터베이스에서 계산된 3개의 연속 프레임상의 보이싱 구성의 분포를 나타낸다. 이 표에서, 32개의 최소 빈번한 구성은 전체 또는 일부 유성음화된 프레임의 겨우 4%에 이른다. 이러한 각 구성을 절대값이라는 면에서 가장 가까운 가장 빈번한 구성 32개로 대체함으로써 얻게되는 열화는 무시할만하다. 이것은 수퍼 프레임상의 보이싱 전송 주파수의 벡터 양자화를 실행함으로써 한 비트를 절약할 수 있음을 보여준다. 보이싱 구성의 벡터양자화는 도 6 의 표 (22) 에 도시된다. 이 표 (22) 는 어드레싱 비트상의 에러에 의해 발생한 제곱 평균 제곱근 (rms) 에러가 최소이도록 구성된다.
피치는 단계 (19) 에서 인코딩된다. 이것은 16 으로부터 148 로의 샘플 영역에서 6비트로 스칼라 양자화 및 지수 스케일의 균일한 양자화 피치를 실현한다. 단일값이 3개의 연속 프레임용으로 전송된다. 3개의 피치 값으로부터 양자화되는 이 값의 계산 및 양자화된 값으로부터 상기 3개 피치 값의 복구 절차는 분석 보이싱 천이 주파수 값에 따라 상이하다. 이 과정은 다음과 같다.
1. 보이싱되는 프레임이 없을 때, 6비트가 0 에 위치하며, 디코딩된 피치는 임의값, 예를 들어, 수퍼 프레임의 각 프레임용 45 샘플로 고정된다.
2. 이전 수퍼 프레임의 최종 프레임 및 현재 수퍼 프레임의 3개 프레임이 보이싱될 때, 즉, 보이싱 천이 주파수가 0 보다 매우 클 때, 양자화된 값은 이후에 타겟 값으로 고려되는 현재 수퍼 프레임의 최종 프레임의 피치 값이다. 디코더에서, 현재 수퍼 프레임의 제 3 프레임의 피치의 디코더 값은 양자화된 타겟 값이며, 현재 수퍼 프레임의 2개의 제 1 프레임용 디코딩된 피치 값은 이전 수퍼 프레임용으로 전송된 값 및 양자화된 타겟 값 간의 선형 내삽에 의해 복구된다.
3. 다른 모든 보이싱 구성에 대하여, 현재 수퍼 프레임의 3개 프레임상에서 피치의 가중값이 양자화된다. 가중 인자는 다음과 같은 관계로 고려되는 프레임용 보이싱 천이 주파수에 비례한다.
디코더에서, 현재 수퍼 프레임의 3개 프레임용 디코딩된 피치 값은 양자화된 가중 평균 값과 동일하다.
게다가, 2 와 3 의 경우에, 과도한 주기적 신호 발생을 방지하는 한편 저장된 음성의 자연적인 면을 향상시키기 위해 약한 트레몰로가 방법론적으로 프레임 (1, 2, 3) 용 합성에 사용되는 피치 값에 적용되며, 예를 들어 다음과 같다.
(1) 에서 사용되는 피치 = 0.995 * 디코딩된 피치 (1)
(2) 에서 사용되는 피치 = 1.005 * 디코딩된 피치 (2)
(3) 에서 사용되는 피치 = 1.000 * 디코딩된 피치 (3)
피치 값의 스칼라 양자화를 실행하는 것은 이진 스트링에서의 에러 전파 문제점을 제한한다. 게다가, 인코딩 패턴 (2, 3) 은 보이싱 주파수의 잘못된 디코딩에 영향을 받지 않도록 서로 충분히 근사하다.
에너지 인코딩은 단계 (20) 에서 행해진다. 이것은, 1984년 IEEE 저널 ASP 잡지 1권의 페이지 4 - 29 인, R.M. Gray 의 "Vector Quantization" 문헌에 설명된 종류의 벡터 양자화 방법을 사용하여, 도 7 의 표 (23) 에 도시된 바와 같이, 행해진다. 12 개 에너지 값 (0 내지 11) 은 분석부에 의해 각 수퍼 프레임에서 계산되고 12개중 6개의 에너지 값만이 전송된다. 이것은 분석부에 의해 2개 값의 2개 벡터 구성을 야기시킨다. 각 벡터는 6비트로 양자화된다. 2 비트가사용되어 사용되는 선택 패턴 수를 전송한다. 분석부에서의 디코딩동안, 양자화되지 않는 에너지 값은 내삽에 의해 복구된다.
4개의 선택 패턴만이 도 7 의 표에 도시된 바와 같이 인증된다. 이러한 패턴은 12개 안정적 에너지 값의 벡터 또는 프레임 (1, 2, 3) 동안 급속히 에너지가 변하는 벡터의 최대 효율적인 인코딩용으로 최적화된다. 분석부에서, 에너지 벡터는 4개 패턴 각각에 따라 인코딩되고 실제로 전송되는 패턴은 전체 제곱 에러를 최소화하는 것이다.
이 과정에서, 전송되는 도표 개수를 제공하는 비트는 자신의 값 에러가 에너지 값의 임시 진행을 아주 조금만 변경하기에 민감한 것으로 고려되지 않는다. 게다가, 에너지 값의 벡터 양자화는 어드레싱 비트상의 에러에 의해 발생된 제곱 평균 제곱근 에러가 최소이도록 구성된다.
음성 신호의 엔벌로프를 모델링하는 계수 인코딩은 단계 (21) 에서 벡터 양자화에 의해 발생한다. 이러한 인코딩으로 인하여 분석부에서 사용되는 디지털 필터 계수를 결정할 수 있다. 10개의 계수를 갖는 6개의 LPC 필터 (0 내지 5) 는 분석부의 각 수퍼 프레임에서 계산되고 6개의 필터중 3개만이 전송된다. 6개 벡터는, 예를 들어, 미국 음향 협회 저널에서 F. Itakura 의 1975년 57권 P.S 35 "Line Spectrum Representation of Linear Predictive Coefficents" 문헌에 설명된 과정을 따르는 LSF 스펙트럼 라인의 10 쌍의 6개 벡터로 변환된다. 스펙트럼 라인 쌍은 에너지 인코딩용으로 실현되는 기술과 유사한 기술에 의해 인코딩된다. 이 과정은, 예를 들어, 각각 9비트가 할당된 5개의 연속 LSF 필터의 2개의 서브 패킷과 관련된 SPLIT-VQ 형의 0.6 과 동일한 예측 계수를 갖는 개루프 예측 벡터를 사용함으로써 3개 LPC 필터 선택 및 18 비트상의 이러한 펙터 각각의 양자화로 구성된다. 2 비트가 사용되어 사용되는 선택 패턴 수를 전송한다. 디코더 레벨에서, LPC 필터가 양자화되지 않을 때, 그 값은 예를 들어, 선형 내삽 또는 외삽 또는 예를 들어 이전 필터 LPC 의 중복에 의해 양자화된 LPC 필터 값으로부터 추정된다. 예를 들어, 패킷에 의한 벡터 양자화 방법이, 1993년 음성 및 오디오 처리에 관한 IEEE 거래에서 제 2 권인 K.K. PALIWAL, B.S. ATAL 의 "Efficient Vector Quantization of LPC Parameters at 24 bits/frame" 문헌에 설명된 바와 같이 구성될 수 있다.
도 8 의 표 (24) 에 도시된 바와 같이, 4개의 선택 패턴만이 인증된다. 이러한 패턴으로 인하여 스펙트럼 엔벌로프가 안정적인 영역 또는 스펙트럼 엔벌로프가 프레임 (1, 2, 3) 동안 급속히 변하는 영역의 인코딩을 최대 유효하게 만든다. 이후 모든 LPC 필터는 4개 패턴 각각에 따라 인코딩되고 실제로 전송되는 패턴은 전체 제곱 에러를 최소화하는 것이다.
에너지 인코딩에 있어서, 패턴 특성을 나타내는 비트는 그 값의 에러가 LPC 필터의 임시 전개를 아주 조금 변경하기에 민감한 것으로 고려되어서는 안된다. 게다가, LSF 필터의 벡터 양자화 표는 어드레싱 비트상의 에러에 의해 발생되는 제곱 평균 제곱근 에러가 최소이도록 분석부에서 구성된다.
본 발명에 의해 실현되는 인코딩 방법으로부터 발생하는 LSF, 에너지, 피치, 및 보이싱 매개변수 전송용 비트 할당은, 67.5ms 마다 매개변수가 인코딩되고 신호의 매개변수를 인코딩하도록 각 수퍼 프레임에서 81비트가 이용가능한 1200 비트/초의 보코더 내용으로 도 9 의 표에 도시된다. 이러한 81 비트는 54 개의 LSF 비트, LSF 필터 패턴의 추림용 2비트, 에너지용 6 비트 두 개, 피치용 6비트, 및 보이싱용 5비트로 분할될 수 있다.

Claims (12)

  1. 음성 신호 (11,...16) 의 매개변수 인코딩 및 전송용 분석부 (4,...10) 및 전송되는 매개변수의 수신 및 디코딩용 합성부를 포함하는 매우 낮은 비트율을 갖는 보코더를 사용하여 음성 통신용 음성을 인코딩 및 디코딩하며,
    음성 신호를 주어진 길이의 연속 프레임으로 재분할함으로써, 매개변수를 분석하고, 음성 신호의 피치 (8), 보이싱 천이 주파수 (9), 에너지 (10), 및 스펙트럼 엔벌로프 (5) 를 기술하는 종류의 선형 예측 합성 필터를 사용하여 상기 음성 신호를 재구축하는 방법에 있어서,
    수퍼 프레임을 형성하도록 N 개의 연속 프레임상에서 매개변수를 어셈블링하는 단계 (17);
    각 수퍼 프레임동안 보이싱의 천이 주파수를 벡터 양자화하고 열화없이 가장 빈번한 구성만을 전송하여 상기 가장 빈번한 구성중 절대 에러라는 면에서 가장 가까운 구성으로 최소 빈번한 구성을 대체하는 단계 (18);
    각 수퍼 프레임에 대하여 피치 한 개 값만을 스칼라 양자화하여 피치를 인코딩하는 단계 (19);
    벡터 양자화에 의해 양자화된 서브 패킷에서의 이러한 값들을 어셈블링시 감소된 값의 개수만을 선택하여 에너지를 인코딩하는 단계 (20); 및
    특정 개수 필터만을 선택함으로써 벡터 양자화에 의해 선형 예측 합성 필터의 인코딩용 스펙트럼 엔벌로프 매개변수를 인코딩하는 단계 (21) 로 구성되고,
    전송되지 않은 에너지 값은 전송된 값으로부터 내삽 또는 외삽에 의해 상기 합성부에서 복구되고, 아직 전송되지 않은 매개변수는 전송된 필터의 매개변수로부터 내삽 또는 외삽에 의해 재구축되는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서,
    상기 피치의 양자값은 전체적으로 보이싱된 안정 영역의 피치의 최종값 또는 전체적으로 보이싱되지 않는 영역에서 보이싱 천이 주파수에 의해 가중되는 평균값인 것을 특징으로 하는 방법.
  3. 제 2 항에 있어서,
    상기 피치값이 수퍼 프레임의 최종값일 때, 나머지 값들을 내삽에 의해 재구성하는 것을 특징으로 하는 방법.
  4. 제 3 항에 있어서,
    상기 합성부에서 사용되는 피치 값은 재구성된 음성에서 약한 트레몰로를 생성하도록 승산 계수에 의해 수정된 디코딩된 피치 값인 것을 특징으로 하는 방법.
  5. 제 1 항 내지 제 4 항중 어느 한 항에 있어서,
    상기 매개변수는 N 개 (N=3) 연속 프레임상에서 어셈블링되는 것을 특징으로 하는 방법.
  6. 제 5 항에 있어서,
    상기 보이싱 주파수는, 4 개이며, 3개 세트로 그룹화된 32개의 주파수 구성을 포함하는 양자화 표 (22) 에 의해 벡터 인코딩되는 것을 특징으로 하는 방법.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 에너지를 프레임당 4번 측정하고, 수퍼 프레임의 12개 값중 6개 값만이 3개 값의 2개 벡터 형태로 전송되는 (23) 것을 특징으로 하는 방법.
  8. 제 7 항에 있어서,
    4개 패턴에 따라 상기 에너지 (23) 를 인코딩하며, 각 패턴은 상기 수퍼 프레임에서의 12개의 에너지 벡터가 안정 상태일때 제 1 벡터, 제 1 패턴인 2개 벡터를 어셈블링하며, 나머지 패턴은 각 프레임에 대하여 정의되며, 전체 제곱 에러를 최소화하는 패턴을 전송하는 것을 특징으로 하는 방법.
  9. 제 8 항에 있어서,
    제 1 패턴에서, 제 1 벡터의 1, 3, 5 에너지 값 및 제 2 벡터의 7, 9, 11 에너지 값만이 전송되며,
    제 2 패턴에서, 제 1 벡터의 0, 1, 2 에너지 값 및 제 2 벡터의 3, 7, 11 에너지 값만이 전송되며,
    제 3 패턴에서, 제 1 벡터의 1, 4, 5 에너지 값 및 제 2 벡터의 6, 7, 11 에너지 값만이 전송되며,
    제 4 패턴에서, 제 1 벡터의 2, 5, 8 에너지 값 및 제 2 벡터의 9, 10, 11 에너지 값만이 전송되는 것을 특징으로 하는 방법.
  10. 제 1 항 내지 제 9 항중 어느 한 항에 있어서,
    스펙트럼 엔벌로프가 수퍼 프레임의 프레임 (1, 2, 혹은 3) 동안 급속히 변하는 영역, 즉, 스펙트럼 엔벌로프가 안정적인 가장 효율적인 인코딩을 얻기 위해 4개 패턴에 따라 상기 선형 예측 필터의 인코딩 매개변수를 선택하는 것을 특징으로 하는 방법.
  11. 제 10 항에 있어서,
    상기 합성부 (6) 에서, 10개의 계수 (0 내지 5) 를 갖는 선형 예측 필터를 사용하여 (24),
    제 1 패턴에서, 상기 스펙트럼 엔벌로프가 안정적일때 상기 필터의 계수 (1, 3, 5) 만이 전송되고,
    제 1 프레임에 따른 제 2 패턴에서, 상기 필터의 계수 (0, 1, 4) 만이 전송되고,
    제 2 프레임에 따른 제 3 패턴에서, 상기 필터의 계수 (2, 3, 5) 만이 전송되고,
    제 3 프레임에 따른 제 4 패턴에서, 상기 필터의 계수 (1, 4, 5) 만이 전송되고,
    효율적으로 전송되는 패턴은 전체 제곱 에러를 최소화하는 패턴이고,
    전송되지 않은 필터의 계수는 내삽 또는 외삽에 의해 상기 합성부에서 계산되는 것을 특징으로 하는 방법.
  12. 제 1 항 내지 제 11 항중 어느 한 항에 있어서,
    합성 필터의 LSF 계수는 추림 패턴의 전송용 2비트가 가산되는 54비트로 인코딩되고,
    에너지는 상기 추림 패턴의 전송용으로 2비트가 가산되는 6비트의 2배와 동일한 수로 인코딩되고,
    피치는 6비트와 동일한 수로 인코딩되며 보이싱 천이 주파수는 67.5ms 수퍼 프레임용 전체 81비트를 제공하는 5비트와 동일한 수로 인코딩되는 것을 특징으로 하는 방법.
KR1020017004080A 1998-10-06 1999-10-01 음성 코더 매개변수를 양자화하는 방법 KR20010075491A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR98/12500 1998-10-06
FR9812500A FR2784218B1 (fr) 1998-10-06 1998-10-06 Procede de codage de la parole a bas debit
PCT/FR1999/002348 WO2000021077A1 (fr) 1998-10-06 1999-10-01 Procede de quantification des parametres d'un codeur de parole

Publications (1)

Publication Number Publication Date
KR20010075491A true KR20010075491A (ko) 2001-08-09

Family

ID=9531246

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017004080A KR20010075491A (ko) 1998-10-06 1999-10-01 음성 코더 매개변수를 양자화하는 방법

Country Status (13)

Country Link
US (1) US6687667B1 (ko)
EP (1) EP1125283B1 (ko)
JP (1) JP4558205B2 (ko)
KR (1) KR20010075491A (ko)
AT (1) ATE222016T1 (ko)
AU (1) AU768744B2 (ko)
CA (1) CA2345373A1 (ko)
DE (1) DE69902480T2 (ko)
FR (1) FR2784218B1 (ko)
IL (1) IL141911A0 (ko)
MX (1) MXPA01003150A (ko)
TW (1) TW463143B (ko)
WO (1) WO2000021077A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
FR2815457B1 (fr) * 2000-10-18 2003-02-14 Thomson Csf Procede de codage de la prosodie pour un codeur de parole a tres bas debit
KR100355033B1 (ko) * 2000-12-30 2002-10-19 주식회사 실트로닉 테크놀로지 선형예측 분석을 이용한 워터마크 삽입/추출 장치 및 그방법
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
CN101009096B (zh) * 2006-12-15 2011-01-26 清华大学 子带清浊音模糊判决的方法
WO2008092473A1 (en) * 2007-01-31 2008-08-07 Telecom Italia S.P.A. Customizable method and system for emotional recognition
KR101317269B1 (ko) 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
WO2010003254A1 (en) * 2008-07-10 2010-01-14 Voiceage Corporation Multi-reference lpc filter quantization and inverse quantization device and method
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9465836B2 (en) * 2010-12-23 2016-10-11 Sap Se Enhanced business object retrieval
KR101788484B1 (ko) 2013-06-21 2017-10-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Tcx ltp를 이용하여 붕괴되거나 붕괴되지 않은 수신된 프레임들의 재구성을 갖는 오디오 디코딩

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP2000514207A (ja) * 1996-07-05 2000-10-24 ザ・ビクトリア・ユニバーシティ・オブ・マンチェスター 音声合成システム
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants

Also Published As

Publication number Publication date
FR2784218A1 (fr) 2000-04-07
US6687667B1 (en) 2004-02-03
DE69902480D1 (de) 2002-09-12
DE69902480T2 (de) 2003-05-22
FR2784218B1 (fr) 2000-12-08
IL141911A0 (en) 2002-03-10
TW463143B (en) 2001-11-11
AU768744B2 (en) 2004-01-08
CA2345373A1 (fr) 2000-04-13
ATE222016T1 (de) 2002-08-15
WO2000021077A1 (fr) 2000-04-13
EP1125283B1 (fr) 2002-08-07
MXPA01003150A (es) 2002-07-02
AU5870299A (en) 2000-04-26
JP4558205B2 (ja) 2010-10-06
JP2002527778A (ja) 2002-08-27
EP1125283A1 (fr) 2001-08-22

Similar Documents

Publication Publication Date Title
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
KR100304682B1 (ko) 음성 코더용 고속 여기 코딩
EP1222659B1 (en) Lpc-harmonic vocoder with superframe structure
US10468045B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
US5018200A (en) Communication system capable of improving a speech quality by classifying speech signals
US6687667B1 (en) Method for quantizing speech coder parameters
JPH096397A (ja) 音声信号の再生方法、再生装置及び伝送方法
JPH05197400A (ja) 低ビット・レート・ボコーダ手段および方法
McCree et al. A 1.7 kb/s MELP coder with improved analysis and quantization
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
US6768978B2 (en) Speech coding/decoding method and apparatus
KR100499047B1 (ko) 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
Schnitzler A 13.0 kbit/s wideband speech codec based on SB-ACELP
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
US7295974B1 (en) Encoding in speech compression
EP1035538B1 (en) Multimode quantizing of the prediction residual in a speech coder
Drygajilo Speech Coding Techniques and Standards
JPH08160996A (ja) 音声符号化装置
JPH06130994A (ja) 音声符号化方法
Ojala et al. Variable model order LPC quantization
Kim et al. A 4 kbps adaptive fixed code-excited linear prediction speech coder
Liang et al. A new 1.2 kb/s speech coding algorithm and its real-time implementation on TMS320LC548
JPH034300A (ja) 音声符号化復号化方式
JPH09269798A (ja) 音声符号化方法および音声復号化方法

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid