KR100592627B1 - 스피치의 무성 세그먼트의 저비트율 코딩 - Google Patents

스피치의 무성 세그먼트의 저비트율 코딩 Download PDF

Info

Publication number
KR100592627B1
KR100592627B1 KR1020017006085A KR20017006085A KR100592627B1 KR 100592627 B1 KR100592627 B1 KR 100592627B1 KR 1020017006085 A KR1020017006085 A KR 1020017006085A KR 20017006085 A KR20017006085 A KR 20017006085A KR 100592627 B1 KR100592627 B1 KR 100592627B1
Authority
KR
South Korea
Prior art keywords
speech
energy
time resolution
generating
frame
Prior art date
Application number
KR1020017006085A
Other languages
English (en)
Other versions
KR20010080455A (ko
Inventor
아미타바 다스
샤라스 만주나스
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20010080455A publication Critical patent/KR20010080455A/ko
Application granted granted Critical
Publication of KR100592627B1 publication Critical patent/KR100592627B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Error Detection And Correction (AREA)
  • Detection And Correction Of Errors (AREA)

Abstract

스피치의 무성 세그먼트에 대한 저비트율 코딩 방식은 스피치 프레임으로부터 높은 시간 분해능의 에너지 계수를 추출하는 단계, 에너지 계수를 양자화 하는 단계, 양자화된 에너지 계수로부터 높은 시간 분해능의 에너지 포락선을 생성하는 단계, 및 에너지 포락선의 양자화된 값으로 랜덤하게 생성된 잡음 벡터를 형성하여 잔여 신호를 재구성하는 단계를 포함한다. 에너지 포락선은 선형 보간 기술로 생성될 수 있다. 후처리 측정방법이 획득되며 코딩 알고리즘이 적당하게 수행되는가를 결정하기 위해 미리결정된 임계값과 비교된다.

Description

스피치의 무성 세그먼트의 저비트율 코딩 {LOW BIT-RATE CODING OF UNVOICED SEGMENTS OF SPEECH}
본 발명은 스피치 처리 영역, 특히 스피치의 무성 세그먼트를 저비트율로 코딩하는 방법 및 장치에 관한 것이다.
디지탈 기술에 의한 스피치의 전송은 특히 장거리 및 디지탈 무선 전화를 응용하여 널리 보급되어 있다. 이는 재구성된 스피치를 인지할 수 있는 품질을 유지하면서 채널을 통해 전송되는 정보의 양을 최소화 하는데 관심을 야기시켰다. 스피치가 단순한 샘플링 및 디지탈화에 의해서 전송된다면, 기존의 아날로그 전화의 스피치 품질을 획득하기 위해서는 초당 64 킬로 바이트(kbps)의 데이타 속도가 요구된다. 그러나, 수신기에서의 적절한 코딩 전송 및 재합성에 의한 스피치 분석을 사용하여 데이타 속도를 크게 감소시킬 수 있다.
인간의 스피치 생성의 모델과 관련된 파라미터들을 추출함으로써 스피치를 압축하는 기술을 사용한 장치는 스피치 코더라 불려진다. 스피치 코더는 입력 스피치 신호를 시간 블록들 또는 분석 프레임들로 분해한다. 일반적으로 스피치 코더는 인코더 및 디코더 또는 코덱을 포함한다. 상기 인코더는 관련 파라미터들을 추출하기 위해 입력 스피치 프레임을 분석하고, 상기 파라미터들을 이진 표현들, 즉 일련의 비트들 또는 이진 데이타 패킷으로 양자화한다. 상기 데이타 패킷들은 통신 채널을 통해 수신기 및 디코더로 전송된다. 상기 디코더는 상기 데이타 패킷들을 처리하고, 상기 파라미터들을 생성하기 위해 상기 데이타 패킷들을 역양자화 하며, 상기 역양자화 파라미터들을 사용하여 상기 스피치 프레임들을 재합성한다.
상기 스피치 코더는 스피치에 존재하는 모든 자연 리던던시(natural redundancy)들을 제거함으로써 상기 디지탈화된 스피치 신호를 저비트율 신호로 압축하는 기능을 수행한다. 상기 디지탈 압축은 상기 입력 스피치 프레임을 일련의 파라미터들로 표현하고 상기 파라미터들을 일련의 비트들로 표현하기 위해 양자화를 사용함으로서 달성된다. 입력 스피치 프레임이 복수의 비트들(Ni)을 가지고 있고 상기 스피치 코더에 의해 생성된 데이타 패킷이 복수의 비트들(No)을 가지고 있다면, 상기 스피치 코더에 의해 달성되는 압축 인자(Cr)은 Ni/No 이다. 문제는 목표 압축 인자를 달성하면서 상기 디코딩된 스피치의 높은 음성 품질을 유지하는 것이다. 상기 스피치 코더의 성능은 (1) 상기 스피치 모델 또는 상기 분석 및 합성 과정의 조합이 잘 수행되는가와 (2)상기 파라미터 양자화 과정이 프레임당 No 비트의 목표 비트 속도로 얼마나 잘 수행되는가에 의존한다. 따라서 상기 스피치 모델의 목적은 각 프레임에 대하여 작은 파라미터들을 가지고 상기 스피치 신호의 본질 및 목표 음질을 획득하는 것이다.
저비트율로 스피치를 효과적으로 인코딩하는 효과적인 기술은 멀티모드 코딩이다. 멀티모드 코더는 상이한 타입의 입력 스피치 프레임들에 상이한 모드들 또는 인코딩-디코딩 알고리즘들을 적용한다. 각 모드 또는 인코딩-디코딩 처리는 가장 효과적인 방법으로 일정한 타입의 스피치 세그먼트(즉 유성, 무성 또는 백그라운드 잡음)를 표현하도록 맞춰진다. 외부 모드 결정 매커니즘은 입력 스피치 프레임을 검사하고 어떤 모드가 상기 프레임에 인가되었는지에 대해 결정한다. 일반적으로, 상기 모드 결정은 상기 입력 프레임 외부로 복수의 파라미터들을 추출하고 어떤 모드가 인가되는지에 대한 결정을 하기위해 상기 파라미터들을 평가함으로써 오픈-루프 형태로 이루어진다. 따라서, 음질 또는 다른 성능 측정에 있어서 상기 출력 스피치가 상기 입력 스피치와 얼마나 유사한지와 같은 상기 출력 스피치에 대한 정확한 조건을 미리 알지 못하고 상기 모드 결정이 이루어 진다. 스피치 코덱에 대한 예시적인 오픈-루프 모드 결정은 미국 특허 번호 5,414,796에 제시되어 있으며, 본 발명의 양수인에게 양도되고 여기에서 참조로서 통합된다.
멀티 모드 코딩은 각 프레임에 대해 동일한 비트들의 수(No)를 사용한 고정된 속도 또는 상이한 모드들에 대해 상이한 비트 속도가 사용되는 가변속도일 수 있다. 가변 속도 코딩에서의 목적은 목표한 품질을 획득하기 위해 충분한 레벨로 상기 코덱 파라미터들을 인코딩 하는데 필요한 양의 비트들만을 사용하는 것이다. 결과적으로, 고정 속력, 고속 코더와 동일한 목표 음질이 가변 비트율(VBR) 기술을 사용하여 상당히 낮은 평균 속도에서 획득될 수 있다. 예시적인 가변 속도 스피치 코더는 미국 특허 번호 5,414,796에 제시되어 있으며, 본 발명의 양수인에게 양도되고 여기에서 참조로서 통합된다.
오늘날 중간에서 저비트율(즉, 2.4-4kbps 및 그이하의 범위)로 동작하는 고품질 스피치 코더를 개발하기 위한 연구 및 상업적 필요성이 급증하고 있다. 상기 응용 영역은 무선 전화, 위성 통신, 인터넷 전화, 다양한 멀티미디어 및 음성 스트림 응용, 음성 메일, 그리고 다른 음성 저장 시스템을 포함한다. 상기 추진력은 고용량에 대한 필요성 및 패킷 상실 상태에서 강력한 성능에 대한 요구에서 비록된다. 최근의 다양한 스피치 코딩 표준화 노력들은 저속 스피치 코딩 알고리즘의 연구 및 필요성을 자극하는 또다른 구동력이 된다. 저속 스피치 코더는 할당된 응용 밴드폭 당 더 많은 채널 및 사용자들을 생성하고, 추가적인 적합한 채널 코딩층과 결합된 저속 스피치 코더는 전반적인 코더의 비트-버짓(bit-budget)에 맞출수 있고 채널 에러 조건하에서 강력한 성능을 전달할 수 있다.
따라서 멀티모드 VBR 스피치 코딩은 저비트율로 스피치를 인코딩하는 효과적인 매커니즘이다. 기존의 멀티모드 체계들은 효과적인 인코딩 체계들 또는 다양한 스피치 세그먼트(예를 들면 음성, 무성, 전이)에 대한 모드 및 백그라운드 잡음 또는 침묵에 대한 모드의 디자인을 요구한다. 상기 스피치 코더의 전반적인 성능은 각 모드가 얼마나 잘 수행되는가에 의존하고, 상기 코더의 평균 속도는 무성, 유성, 그리고 다른 스피치 세그먼트에 대한 상이한 모드들의 비트율에 의존한다. 낮은 평균 속도로 상기 목표한 품질을 획득하기 위해, 효과적이고 고성능의 모드들을 디자인하는 것이 필요하고, 상기 모드들의 일부는 저비트율로 동작해야만 한다. 일반적으로 스피치의 유성, 무성 세그먼트들은 높은 비트 속도로 캡처되고, 백그라운드 잡음 및 침묵(silence) 세그먼트는 상당히 낮은 속도로 동작하는 모드들로 표현된다. 따라서, 프레임당 최소의 비트들을 사용하여 스피치의 무성 세그먼트들을 정확하게 캡처하는 저비트율 코딩 기술이 필요하다.
본 발명은 프레임 당 최소의 비트들을 사용하여 정확하게 스피치의 무성 세그먼트를 획득하는 저비트율 코딩 기술에 관한 것이다. 따라서, 본 발명의 한 양상으로써, 스피치의 무성 세그먼트 코딩 방법은 바람직하게는 스피치 프레임으로 부터 높은 시간 분해능의 에너지 계수(high-time-resolution energy coefficients)를 추출하는 단계; 상기 높은 시간 분해능의 에너지 계수들을 양자화하는 단계; 양자화된 에너지 계수들로부터 높은 시간 분해능의 에너지 포락선을 생성하는 단계; 그리고 상기 에너지 포락선의 양자화된 값을 가지고 랜덤하게 발생된 잡음 벡터를 형성함으로써 잔여 신호를 재구성하는 단계를 포함한다.
본 발명의 또 다른 양상으로써, 스피치의 무성 세그먼트들을 코딩하는 스피치 코더는 바람직하게는 스피치 프레임으로부터 높은 시간 분해능의 에너지 계수를 추출하는수단; 상기 높은 시간 분해능의 에너지 계수를 양자화하는 수단; 상기 양자화된 에너지 계수들로부터 높은 시간 분해능의 에너지 포락선을 생성하는 수단; 그리고 상기 에너지 포락선의 양자화된 값을 가지고 랜덤하게 발생된 잡음 벡터를 형성함으로써 잔여 신호를 재구성하는 수단을 포함한다.
본 발명의 또 다른 양상으로써, 스피치의 무성 세그먼트를 코딩하는 스피치 코더는 바람직하게는 스피치 프레임으로부터 높은 시간 분해능의 에너지 계수를 추출하는 모듈; 상기 고시간 분해 에너지 계수들을 양자화하는 모듈; 상기 양자화된 에너지 계수들로부터 고시간 분해 에너지 포락선을 생성하는 모듈; 그리고 상기 에너지 포락선의 양자화된 값을 가지고 랜덤하게 발생된 잡음 벡터를 형성함으로써 잔여 신호를 재구성하는 모듈을 포함한다.
도1은 스피치 코더에 의해 각 끝단에서 종결된 통신 채널의 블록 다이아그램이다.
도2는 인코더의 블록 다이아그램이다.
도3은 디코더의 블록 다이아그램이다.
도4는 스피치의 무성 세그먼트에 대한 저비트율 코딩 기술 단계를 예시하는 플로우 차트이다.
도5A-E는 이산 시간 지수에 대한 신호 진폭의 그래프들이다.
도6은 피라미드 벡터 양자화 인코딩 과정을 묘사하는 기능 다이아그램이다.
도7은 피라미드 벡터 양자화 디코딩 과정을 묘사하는 기능 다이아그램이다.
도1에서 제1 인코더(10)는 디지탈화된 스피치 샘플들 S(n)을 수신하고 전송매개체(12) 또는 통신 채널(12)을 통해 제1 디코더(14)로 전송하기 위해 상기 샘플들 S(n)을 인코딩한다. 상기 디코더(14)는 상기 인코딩된 스피치 샘플들을 디코딩하고 출력 스피치 신호 SSYNTH(n)를 합성한다. 반대방향 전송에 있어서, 제2인코더(16)는 통신 채널(18)을 통해 전송되는 디지탈화된 스피치 샘플들 S(n)을 인코딩한다. 제2 디코더(20)는 상기 인코딩된 스피치 샘플들을 수신하고 디코딩하여 합성된 출력 스피치 신호 SSYNTH(n)를 만들어낸다.
상기 스피치 샘플들 S(n)은 공지된 다양한 방법 - 예를 들어 펄스 코드 변조(PCM), 신장된 μ- 법칙, 또는 A - 법칙 - 에 따라 디지탈화되고 양자화된 스피치 신호들을 나타낸다. 선행기술에서 알려지듯이, 상기 스피치 샘플들 S(n)은 입력 데이타의 프레임들로 조직되고, 상기 각 프레임들은 미리결정된 갯수의 디지탈화된 스피치 샘플들 S(n)을 포함한다. 실시예에서, 8KHz의 샘플링 속도가 채택되고, 각 20ms 프레임은 160개의 샘플들을 포함한다. 아래에서 제시된 실시예에서, 데이타 전송 속도는 바람직하게는 플레임마다 8kbps(최고 속도)로부터 4kbps(1/2 속도), 2kbps(1/4 속도), 1kbps(1/8 속도)로 변화된다. 상대적으로 적은 스피치 정보를 포함하는 프레임에 대해서는 선택적으로 저비트율이 사용되기 때문에 데이타 전송 속도를 변화시키는 것이 바람직하다. 당업자에게 인지되듯이, 상이한 샘플링 속도, 프레임 크기, 그리고 데이타 전송 속도가 사용될 수 있다.
제1 인코더(10) 및 제2 디코더(20)는 제1 스피치 코더 또는 스피치 코덱을 포함한다. 유사하게, 제2 인코더(16) 및 제1 디코더(14)는 제2 스피치 코더를 포함한다. 상기 스피치 코더는 디지탈 신호 처리기(DSP), 주문형 반도체(ASIC), 이산 게이트 로직, 펌웨어, 또는 기존의 프로그램어블 소프트웨어 모듈 및 마이크로프로세서로 구현된다는 것은 당업자에 의해 쉽게 이해된다. 상기 소프트웨어 모듈은 램메모리, 플래쉬메모리, 레지스터, 또는 다른 기존의 기록 가능한 저장 매체의 형태 내에 존재한다. 이와는 달리, 기존의 프로세서, 컨트롤러, 또는 스테이트 머신이 상기 마이크로 프로세서 대용으로 사용될 수 있다. 스피치 코딩을 위해 디자인된 예시적인 ASIC들은 본 발명의 양수인에게 양도되고 본 명세서에 의해 참조되는 미국 특허 번호 제 5,727,123호 및 1998년 7월 21일에 특허된 "VOCODER ASIC"이라는 명칭의 미국 출원 번호 제08/197,417호에 기술되어 있으며, 본 발명의 양수인에게 양도되고, 여기에서 참조로서 통합된다.
도2에서 스피치 코더에서 사용되는 인코더(100)는 모드 결정 모듈(102), 피치 평가 모듈(104), LP 분석 모듈(106), LP 분석 필터(108), LP 양자화 모듈(110), 그리고 잉여 양자화 모듈(112)을 포함한다. 입력 스피치 프레임 S(n)은 모드 결정 모듈(102), 피치 평가 모듈(104), LP 분석 모듈(106), 그리고 LP 분석 필터(108)로 제공된다. 상기 모드 결정 모듈(102)은 각 입력 스피치 프레임 S(n)의 주기에 기초한 모드 지수 IM 및 모드 M를 생성한다. 주기에 따라 스피치 프레임들을 분류하는 다양한 방법들이 1999년 6월 8일에 특허된 "METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING"라는 명칭의 미국 특허 번호 5,911,128호에 기술되어 있으며, 본 발명의 양수인에게 양도되고 여기에서 참조로서 통합된다. 상기 방법들은 통신 산업 협회 산업 잠정 표준(TIA/EIA IS-127 및 TIA/EIA IS-733)에서 통합된다.
상기 피치 평가 모듈(104)은 각 입력 스피치 프레임 S(n)에 기초한 피치 지수 IP 및 지연값 P0을 생성한다. 상기 LP 분석 모듈(106)은 LP 파라미터 a를 생성하기 위해, 각각의 입력 스피치 프레임 S(n)에서 선형 예측 분석을 수행한다. LP 파라미터 a는 LP 양자화 모듈(110)에 제공된다. LP 양자화 모듈(110)은 또한 모드 M을 수신한다. LP 양자화 모듈(110)은 LP 인덱스 ILP 및 양자화된 LP 파라미터
Figure 112004052552085-pct00015
를 수신한다. LP 분석 필터(108)는 입력 스피치 프레임 S(n)에 추가로 양자화된 LP 파라미터
Figure 112004052552085-pct00016
를 수신한다. LP 분석 필터(108)는 LP 잔여 신호 R[n]을 생성하며, 이는 입력 스피치 프레임 S(n) 및 양자화된 선형 예측 파라미터
Figure 112004052552085-pct00017
사이의 에러를 나타낸다. LP 잔여 R[n], 모드 M, 및 양자화된 LP 파라미터
Figure 112004052552085-pct00018
는 잔여 양자화 모듈(112)에 제공된다. 상기 값을 기초로, 잔여 양자화 모듈(112)은 잔여 인덱스 IR 및 양자화된 잔여 신호
Figure 112004052552085-pct00019
을 생성한다.
도 3에서, 스피치 코더에서 사용될 수 있는 디코더(200)는 LP 파라미터 디코딩 모듈(202), 잔여 디코딩 모듈(204), 모드 디코딩 모듈(206) 및 LP 합성 필터(208)를 포함한다. 모드 디코딩 모듈(206)은 모드 M을 생성하는 모드 인덱스 IM을 수신 및 디코딩한다. LP 파라미터 디코딩 모듈(202)은 모드 M 및 LP 인덱스 ILP를 수신한다. LP 파라미터 디코딩 모듈(202)은 수신된 값들을 양자화된 LP 파라미터
Figure 112004052552085-pct00020
를 생성하도록 디코딩한다. 잔여 디코딩 모듈(204)은 잔여 인덱스 IR, 피치 인덱스 IP 및 모드 인덱스 IM을 수신한다. 잔여 디코딩 모듈(204)은 양자화된 잔여 신호
Figure 112004052552085-pct00021
를 생성하기 위하여 수신된 값을 디코딩한다. 양자화된 잔여 신호
Figure 112004052552085-pct00022
및 양자화된 LP 파라미터
Figure 112004052552085-pct00023
는 디코딩된 출력 스피치 신호
Figure 112004052552085-pct00024
을 합성하는 LP 합성기 필터(208)에 제공된다.
도 2의 인코더(100)의 여러 모듈 및 도 3의 디코더의 동작 및 수행은 공지되어 있으며, L.B.Rabiner & R.W.Schafer Digital Processing of Speech Signals 396-453(1978)에 상세하게 개시되어 있으며, 본 명세서에서 참조로서 통합된다. 전형적인 인코더 및 디코더는 미국 특허 번호 제 5,414,796에 개시되어 있으며, 본 명세서에서 참조로서 통합된다.
도 4의 흐름도는 일 실시예에 따라 스피치의 무성 세그먼트 위한 저비트율 코딩 기술을 도시한다. 도 4의 실시예에 도시된 저비율 무성 코딩 모드는 낮은 평균 비트율을 가지는 멀티 모드 스피치 코더를 제공하며, 낮은 수의 프레임당 비트로 정확하게 무성 세그먼트를 캡처링함으로써 높은 음성 품질을 보유한다.
단계 300에서, 코더는 입력 스피치 프레임이 무성인지 또는 무성이 아닌지 확인하는 외부 속도 결정을 수행한다. 속도 결정은 프레임의 에너지(E), 프레임 주기성(Rp), 및 스펙트럼 경사(Ts)와 같은 n=1,2,3,...N인 스피치 프레임 S[n]으로부터 추출된 다수의 파라미터를 고려하여 수행된다. 이 파라미터는 일 세트의 미리 한정된 임계값과 비교된다. 현재의 프레임이 비교 결정에 기초하여 무성인지를 결정한다. 만일 현재의 프레임이 무성이면, 아래 기술되는 바와 마찬가지로 무성 프레임으로서 인코딩된다.
프레임 에너지는 유리하게 다음 방정식에 따라 결정될 수 있다.
Figure 112001011106891-pct00001
프레임 주기성은 유리하게 다음 방정식에 따라 결정될 수 있다.
Rp = max-over-all-k {R(S[n],S[n+k])}, k=1,2,...,N
여기에서 R(x[n], x[n+k])는 x의 자기상관 함수이다. 스펙트럼 경사는 유리하게 다음 방정식에 따라 결정될 수 있다.
Ts = (Eh/EI)
여기에서 Eh 및 EI는 SI[n] 및 Sh[n]의 에너지값이며, SI 및 Sh는 원 스피치 프레임 S[n]의 고역통과 및 저역통과 성분이고, 이 성분들은 유리하게 일 세트의 저역 통과 및 고역 통과 필터에 의해 생성된다.
단계 302에서, LP 분석은 무성 프레임의 선형 예측 잔여부를 생성하기 위해 수행된다. 선형 예측(LP) 분석은 상술한 미국 특허 번호 제 5,414,796 및 L.B.Rabiner & R.W.Schafer의 Digital Processing of Speech Signals 396-458(1978)에 개시된 기술에 따라 달성되며, 이 모두는 본 명세서에서 참조된다. N-샘플, 무성 LP 잔여부,
Figure 112004052552085-pct00025
, n=1,2,...N은 입력 스피치 프레임 S[n]으로부터 생성되고, n=1,2,...,N이다. LP 파라미터는 상술한 참조 문서중 하나에 개시된 바와 같이 공지된 LSP 양자화 기술을 가지는 라인 스펙트럼쌍(LSP) 영역에서 양자화된다. 원 스피치 신호 크기 대 이산 시간 인덱스의 그래프가 도 5A에 도시되어 있다. 양자화된 스피치의 무성 신호 크기 대 이산 시간 인덱스의 그래프는 도 5B에 도시되어 있다. 원 무성 잔여 신호 크기 대 이산 시간 인덱스의 그래프는 도 5C에 도시되어 있다. 에너지 포락선 크기 대 이산 시간 인덱스의 그래프는 도 5D에 도시되어 있다. 양자화된 무성 잔여 신호 크기 대 이산 시간 인덱스의 그래프는 도 5E에 도시되어 있다.
단계 304에서, 무성 잔여부의 세밀한 시간 분해능 에너지 파라미터가 추출된다. 로컬 에너지 파라미터(Ei)의 갯수(M)는 다음 단계를 수행함으로써 무성 잔여부 R[n]으로부터 추출되며, 여기에서 i=1,2,...,M이다. N-샘플 잔여부 R[n]는 (M-2)서브 블록 Xi로 분해되며, 각각의 블록 Xi는 L=N/(M-2)의 길이를 가진다. L-샘플 이전 잔여 블록 X1은 이전 프레임의 이전 양자화 잔여부로부터 획득된다. (L-샘플 이전 잔여부 블록 X1은 최종 스피치 프레임의 N-샘플 LP 잔여부의 최종 L 샘플을 통합한다.) L-샘플 이후 잔여 블록 XM은 이후 프레임의 LP 잔여부로부터 획득된다. (L-샘플 이후 잔여부 블록 XM은 이후 스피치 프레임의 N-샘플 LP 잔여부의 첫번째 L 샘플을 통합한다.) i=1,2,...M인 로컬 에너지 파라미터 Ei의 갯수 M은 각각의 M 블록 Xi로부터 다음 방정식에 따라 생성되며, i=1,2,...,M이다.
Figure 112001011106891-pct00002
단계 306에서, M 에너지 파라미터는 파라미드 벡터 양자화(PVQ) 방법에 따라 Nr 비트로 인코딩된다. 그러므로 i=2,3,...,M인 M-1 로컬 에너지값 Ei는 양자화 에너지값 Wi를 형성하기 위해 Nr 비트로 인코딩되고, i=2,3,...,M 이다. N1,N2,...,NK 비트를 가지는 K-단계 PVQ 인코딩안은 N1 + N2 + ... + Nk = Nr, 무성 잔여부 R[n]를 양자화하는데 이용가능한 전체 비트수가 되도록 실행된다. k=1,2,...k인 각각의 k-스테이지에 대하여 다음 단계가 수행된다. 첫번째 스테이지(즉, k=1)에서 밴드수는 Bk=B1=1로 세팅되며, 밴드 길이는 Lk=1로 세팅된다. 각각의 밴드 Bk에 대하여, j=1,2,...,Bk인 평균값 meanj는 다음 방정식을 따른다.
Figure 112001011106891-pct00003
j=1,2,...,Bk인 Bk 평균값 meanj은 j=1,2,...,Bk인 양자화된 세트의 평균값 qmeanj를 형성하기 위해 Nk=N1로 양자화된다. 각각의 밴드 Bk에 소속된 에너지는 i=1,2,..,M인 새로운 세트의 에너지값 {Ek,i} = {E1,i}를 생성하는 해당 양자화 평균값 qmeanj에 의해 나누어진다. i=1,2,...,M인 각각의 i에 대하여, 제 1 스테이지(즉, k=1)에서,
E1,i = Ei/qmean1
서브 밴드로 분할하는 과정은 각각의 밴드에 대한 평균값을 추출하며, 스테이지에 이용할 수 있는 비트로 평균값을 양자화한 후, 서브밴드의 양자화 평균으로 서브-밴드의 성분을 분할하는 것은 k = 2,3,...,K-1인 각각의 하위 스테이지 k동안 반복된다.
K번째 스테이지에서, 각각의 BK 서브-밴드의 서브-벡터는 총 NK 비트를 사용하여 각각의 밴드에 대해 설계된 개별 VQ들로 양자화된다. M=8 및 스테이지=4에 대한 PVQ 인코딩 과정은 도 6의 예에 의해 예시된다.
단계 308에서, M 양자화된 에너지 벡터가 형성된다. M 양자화된 에너지 벡터는 코드북으로부터 형성되며, Nr 비트는 최종 잔여 서브-벡터 및 양자화 평균으로 상기의 PVQ 인코딩 과정을 전환시킴으로써 PVQ 정보를 나타낸다. M=3과 스테이지 k=3에 대한 PVQ 디코딩 과정은 도 7의 예에 도시되어 있다. 당업자가 이해하는 것과 같이, 무성(UV) 이득은 임의의 통상적인 인코딩 기술로 양자화될 수 있다. 인코딩안은 도 4-7에 따라 기술된 실시예의 PVQ안에 제한될 필요는 없다.
단계 310에서, 고분해능 에너지 포락선이 형성된다. N-샘플(즉, 스피치 프레임의 길이), n=1,2,3,...,N인 고시간-분해 에너지 포락선 ENV[n]는 하기의 계산에 따라 i=1,2,3,...,N인 디코딩된 에너지값 Wi로부터 형성된다. M 에너지값은 스피치의 현 잔여부의 M-2 서브-프레임의 에너지를 나타내며, 각각의 서브-프레임은 길이 L=N/M을 가진다. 값 W1 및 WM은 각각 잔여부의 마지막 프레임의 이전 L 샘플의 에너지와 잔여부의 이후 프레임의 이후 L 샘플의 에너지를 나타낸다.
만일 WM-1, WM 및 WM+1이 각각 (m-1)번째, m번째, (m+1)번째 서브-밴드의 에너지라면, m번째 서브-프레임을 나타내는 n=m*L-L/2에서 n=m*L+L/2까지의 에너지 포락선 ENV[n]의 샘플은 다음과 같이 계산된다. n=m*L-L/2에서 n=m*L까지의 경우,
Figure 112001011106891-pct00004
또한 n=m*L에서 n=m*L+L/2까지의 경우,
Figure 112001011106891-pct00005
에너지 포락선 ENV[n]의 계산 단계는 현재 잔여 프레임에 대하여 n=1,2,...,N인 전체 에너지 포락선 ENV[n]을 계산하기 위하여 m=2,3,4,...,M에서 각각의 M-1 밴드에 대하여 반복된다.
단계 312에서, 양자화된 무성 잔여부는 에너지 포락선 ENV[n]으로 랜덤 노이즈를 컬러링함으로써 형성된다. 양자화된 무성 잔여부 qR[n]은 다음 방정식을 따라 형성된다.
Figure 112001011106891-pct00006
여기에서 Noise[n]은 유니트 변수를 가지는 랜덤 화이트 노이즈 신호이며, 유리하게 인코더와 디코더를 가지는 싱크에서 난수 생성기에 의해 인공적으로 생성된다.
단계 314에서, 양자화된 스피치의 무성 프레임이 형성된다. 양자화된 무성 잔여부 qS[n]은 기술상 공지되며 미국 특허 번호 제 5,414,796 및 L.B.Rabiner & R.W.Schafer Digital Processing of Speech Signals 396-458(1978)에 개시된 통상적인 LP 합성 기술을 사용하여 양자화된 스피치의 무성의 역 LP 필터링에 의해 생성되며, 상기의 문서들은 본 명세서에서 참조로서 통합된다.
일 실시예에서, 품질 조절 단계는 예를 들면 지각 신호 대 잡음비(PSNR)와 같은 지각 에러 측정값을 측정함으로써 수행될 수 있으며, 이는 다음과 같이 정의된다.
Figure 112001011106891-pct00007
여기에서 x[n]=h[n]*R[n], e[n]=h[n]*qR[n]이며, "*"는 콘볼루션 또는 필터링 연산을 나타내며, h(n)은 지각적으로 가중된 LP 필터이고, R[n] 및 qR[n]은 각각 원래의 무성 잔여부 및 양자화된 무성 잔여부이다. PSNR은 미리 결정된 임계값과 비교된다. 만일 PSNR이 임계값보다 작다면, 무성 인코딩 방식은 적당하게 수행되지 않으며, 고비율 인코딩 모드가 보다 정확하게 현 프레임을 캡쳐하는 대신에 적용될 수 있다. 또한, 만일 PSNR이 미리 결정된 임계값을 초과한다면, 무성 인코딩방식은 훌륭하게 수행되며, 모드 결정은 유지된다.
본 발명의 바람직한 실시예가 기술되었다. 이는 본 발명의 사상을 벗어나지 않는다면 다양한 변용이 가능하다. 따라서 본 발명은 다음의 청구항외에는 제한받지 않는다.

Claims (21)

  1. 스피치의 무성 세그먼트를 코딩하는 방법으로서,
    상기 스피치의 프레임의 시간-영역 표현으로부터 높은 시간 분해능의 에너지 계수를 추출하는 단계 - 상기 미리결정된 수의 서브프레임들은 상기 스피치의 유성 및 무성 세그먼트를 포함함 - ;
    상기 높은 시간 분해능의 에너지 계수를 양자화하는 단계;
    상기 양자화된 에너지 계수들로부터 높은 시간 분해능의 평활된(smoothed) 에너지 포락선을 생성하는 단계; 및
    상기 평활된 에너지 포락선의 양자화된 값으로 랜덤하게 생성된 잡음 벡터를 형성(shape)함으로써 잔여 신호를 재구성하는 단계를 포함하는 방법.
  2. 제 1 항에 있어서, 상기 양자화 단계는 피라미드 벡터 양자화 방식에 따라 수행되는 것을 특징으로 하는 방법.
  3. 제 1 항에 있어서, 상기 생성 단계는 선형 보간법으로 수행되는 것을 특징으로 하는 방법.
  4. 제 1 항에 있어서, 후처리 성능 측정치(post-processing performance measure)를 획득하는 단계 및 상기 후처리 성능 측정치와 미리결정된 임계치를 비교하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  5. 제 1 항에 있어서, 상기 생성 단계는 이전의 잔여 프레임의 미리결정된 수의 이전 샘플들의 에너지의 표현을 포함하는 높은 시간 분해능의 에너지 포락선을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  6. 제 1 항에 있어서, 상기 생성 단계는 이후의 잔여 프레임의 미리결정된 수의 이후 샘플들의 에너지의 표현을 포함하는 높은 시간 분해능의 에너지 포락선을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 스피치의 무성 세그먼트를 코딩하는 스피치 코더로서,
    상기 스피치의 프레임의 시간-영역 표현으로부터 높은 시간 분해능의 에너지 계수를 추출하는 수단 - 상기 미리결정된 수의 서브프레임들은 상기 스피치의 유성 및 무성 세그먼트를 포함함 - ;
    상기 높은 시간 분해능의 에너지 계수를 양자화하는 수단;
    상기 양자화된 에너지 계수들로부터 높은 시간 분해능의 평활된(smoothed) 에너지 포락선을 생성하는 수단; 및
    상기 평활된 에너지 포락선의 양자화된 값으로 랜덤하게 생성된 잡음 벡터를 형성(shape)함으로써 잔여 신호를 재구성하는 수단을 포함하는 스피치 코더.
  8. 제 7 항에 있어서, 상기 양자화 수단은 피라미드 벡터 양자화 방식에 따라 양자화하는 수단을 포함하는 것을 특징으로 하는 스피치 코더.
  9. 제 7 항에 있어서, 상기 생성 수단은 선형 보간 모듈을 포함하는 것을 특징 으로 하는 스피치 코더.
  10. 제 7 항에 있어서, 후처리 성능 측정치(post-processing performance measure)를 획득하는 수단 및 상기 후처리 성능 측정치와 미리결정된 임계치를 비교하는 수단을 더 포함하는 것을 특징으로 하는 스피치 코더.
  11. 제 7 항에 있어서, 상기 생성 수단은 이전의 잔여 프레임의 미리결정된 수의 이전 샘플들의 에너지의 표현을 포함하는 높은 시간 분해능의 에너지 포락선을 생성하는 수단을 포함하는 것을 특징으로 하는 스피치 코더.
  12. 제 7 항에 있어서, 상기 생성 수단은 이후의 잔여 프레임의 미리결정된 수의 이후 샘플들의 에너지의 표현을 포함하는 높은 시간 분해능의 에너지 포락선을 생성하는 수단을 포함하는 것을 특징으로 하는 스피치 코더.
  13. 스피치의 무성 세그먼트를 코딩하는 스피치 코더로서,
    상기 스피치의 프레임의 시간-영역 표현으로부터 높은 시간 분해능의 에너지 계수를 추출하도록 구성된 모듈;
    상기 높은 시간 분해능의 에너지 계수를 양자화하도록 구성된 모듈;
    상기 양자화된 에너지 계수로부터 높은 시간 분해능의 에너지 포락선을 생성하도록 구성된 모듈; 및
    상기 에너지 포락선의 양자화된 값으로 랜덤하게 생성된 잡음 벡터를 형성함으로써 잔여 신호를 재구성하도록 구성된 모듈을 포함하는 스피치 코더.
  14. 제 13 항에 있어서, 상기 양자화 모듈은 피라미드 벡터 양자화 방식에 따라 수행되는 것을 특징으로 하는 스피치 코더.
  15. 제 13 항에 있어서, 상기 생성 모듈은 선형 보간법으로 수행되는 것을 특징으로 하는 스피치 코더.
  16. 제 13 항에 있어서, 후처리 성능 측정치(post-processing performance measure)를 획득하고 상기 후처리 성능 측정치와 미리결정된 임계치를 비교하도록 구성된 모듈을 더 포함하는 것을 특징으로 하는 스피치 코더.
  17. 제 13 항에 있어서, 상기 높은 시간 분해능의 에너지 포락선은 이전의 잔여 프레임의 미리결정된 수의 이전 샘플들의 에너지의 표현을 포함하는 것을 특징으로 하는 스피치 코더.
  18. 제 13 항에 있어서, 상기 높은 시간 분해능의 에너지 포락선은 이후의 잔여 프레임의 미리결정된 수의 이후 샘플들의 에너지의 표현을 포함하는 것을 특징으로 하는 스피치 코더.
  19. 스피치의 무성 세그먼트를 코딩하는 방법으로서,
    상기 스피치의 프레임의 적어도 하나의 미리결정된 수의 서브프레임들로부터 에너지 값을 계산하는 단계 - 상기 미리결정된 수의 서브프레임들은 상기 스피치의 유성 및 무성 세그먼트를 포함함 - ;
    상기 에너지 값을 양자화하는 단계;
    상기 양자화된 에너지 값으로부터 세밀한 시간 분해능의 에너지 포락선을 생성하는 단계; 및
    상기 에너지 포락선으로 랜덤 잡음 벡터를 스케일링하여 잔여 신호를 재구성하는 단계를 포함하는 방법.
  20. 스피치의 무성 세그먼트를 코딩하기 위한 스피치 코더로서,
    상기 스피치의 프레임의 적어도 하나의 미리결정된 수의 서브프레임들로부터 에너지 값을 계산하는 수단 - 상기 미리결정된 수의 서브프레임들은 상기 스피치의 유성 및 무성 세그먼트를 포함함 - ;
    상기 에너지 값을 양자화하는 수단;
    상기 양자화된 에너지 값으로부터 세밀한 시간 분해능의 에너지 포락선을 생성하는 수단; 및
    상기 에너지 포락선으로 랜덤 잡음 벡터를 스케일링하여 잔여 신호를 재구성하는 수단을 포함하는 스피치 코더.
  21. 스피치의 무성 세그먼트를 코딩하기 위한 스피치 코더로서,
    프로세서; 및
    상기 프로세서에 접속되고 상기 프로세서에 의해 실행가능한 일련의 명령들을 가지는 저장 매체를 포함하며, 상기 일련의 명령들은 상기 스피치의 프레임의 적어도 하나의 미리결정된 수의 서브프레임들로부터 에너지 값을 계산하고, 상기 에너지 값을 양자화하고, 상기 양자화된 에너지 값으로부터 세밀한 시간 분해능의 에너지 포락선을 생성하며, 상기 에너지 포락선으로 랜덤 잡음 벡터를 스케일링하여 잔여 신호를 재구성하기 위한 스피치 코더.
KR1020017006085A 1998-11-13 1999-11-12 스피치의 무성 세그먼트의 저비트율 코딩 KR100592627B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/191,633 US6463407B2 (en) 1998-11-13 1998-11-13 Low bit-rate coding of unvoiced segments of speech
US09/191,633 1998-11-13

Publications (2)

Publication Number Publication Date
KR20010080455A KR20010080455A (ko) 2001-08-22
KR100592627B1 true KR100592627B1 (ko) 2006-06-23

Family

ID=22706272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017006085A KR100592627B1 (ko) 1998-11-13 1999-11-12 스피치의 무성 세그먼트의 저비트율 코딩

Country Status (11)

Country Link
US (3) US6463407B2 (ko)
EP (1) EP1129450B1 (ko)
JP (1) JP4489960B2 (ko)
KR (1) KR100592627B1 (ko)
CN (2) CN1815558B (ko)
AT (1) ATE286617T1 (ko)
AU (1) AU1620700A (ko)
DE (1) DE69923079T2 (ko)
ES (1) ES2238860T3 (ko)
HK (1) HK1042370B (ko)
WO (1) WO2000030074A1 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6917914B2 (en) * 2003-01-31 2005-07-12 Harris Corporation Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding
KR100487719B1 (ko) * 2003-03-05 2005-05-04 한국전자통신연구원 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기
CA2475283A1 (en) * 2003-07-17 2005-01-17 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre Method for recovery of lost speech data
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
RU2426179C2 (ru) * 2006-10-10 2011-08-10 Квэлкомм Инкорпорейтед Способ и устройство для кодирования и декодирования аудиосигналов
AU2007318506B2 (en) * 2006-11-10 2012-03-08 Iii Holdings 12, Llc Parameter decoding device, parameter encoding device, and parameter decoding method
GB2466666B (en) * 2009-01-06 2013-01-23 Skype Speech coding
US20100285938A1 (en) * 2009-05-08 2010-11-11 Miguel Latronica Therapeutic body strap
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
EP3111560B1 (en) 2014-02-27 2021-05-26 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for pyramid vector quantization indexing and de-indexing of audio/video sample vectors
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN113627499B (zh) * 2021-07-28 2024-04-02 中国科学技术大学 基于检查站柴油车尾气图像的烟度等级估算方法及设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
JP2841765B2 (ja) * 1990-07-13 1998-12-24 日本電気株式会社 適応ビット割当て方法及び装置
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
DE69232202T2 (de) 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5839102A (en) * 1994-11-30 1998-11-17 Lucent Technologies Inc. Speech coding parameter sequence reconstruction by sequence classification and interpolation
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6754624B2 (en) * 2001-02-13 2004-06-22 Qualcomm, Inc. Codebook re-ordering to reduce undesired packet generation

Also Published As

Publication number Publication date
ES2238860T3 (es) 2005-09-01
JP2002530705A (ja) 2002-09-17
US6820052B2 (en) 2004-11-16
ATE286617T1 (de) 2005-01-15
HK1042370B (zh) 2006-09-29
WO2000030074A1 (en) 2000-05-25
US20020184007A1 (en) 2002-12-05
US20050043944A1 (en) 2005-02-24
CN1241169C (zh) 2006-02-08
DE69923079T2 (de) 2005-12-15
US6463407B2 (en) 2002-10-08
EP1129450B1 (en) 2005-01-05
DE69923079D1 (de) 2005-02-10
AU1620700A (en) 2000-06-05
KR20010080455A (ko) 2001-08-22
CN1815558B (zh) 2010-09-29
CN1342309A (zh) 2002-03-27
US7146310B2 (en) 2006-12-05
HK1042370A1 (en) 2002-08-09
CN1815558A (zh) 2006-08-09
EP1129450A1 (en) 2001-09-05
JP4489960B2 (ja) 2010-06-23
US20010049598A1 (en) 2001-12-06

Similar Documents

Publication Publication Date Title
KR100592627B1 (ko) 스피치의 무성 세그먼트의 저비트율 코딩
EP1340223B1 (en) Method and apparatus for robust speech classification
US7493256B2 (en) Method and apparatus for high performance low bit-rate coding of unvoiced speech
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
KR100769508B1 (ko) Celp 트랜스코딩
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
WO2002065457A2 (en) Speech coding system with a music classifier
US20010051873A1 (en) Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
KR100700857B1 (ko) 전환 스피치 프레임의 다중 펄스 보간 코딩
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
KR20010087393A (ko) 폐루프 가변-레이트 다중모드 예측 음성 코더
WO2003001172A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
KR20020081352A (ko) 유사주기 신호의 위상을 추적하는 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130531

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 13