KR100769508B1 - Celp 트랜스코딩 - Google Patents

Celp 트랜스코딩 Download PDF

Info

Publication number
KR100769508B1
KR100769508B1 KR1020017010054A KR20017010054A KR100769508B1 KR 100769508 B1 KR100769508 B1 KR 100769508B1 KR 1020017010054 A KR1020017010054 A KR 1020017010054A KR 20017010054 A KR20017010054 A KR 20017010054A KR 100769508 B1 KR100769508 B1 KR 100769508B1
Authority
KR
South Korea
Prior art keywords
input
output
celp format
format
coefficients
Prior art date
Application number
KR1020017010054A
Other languages
English (en)
Other versions
KR20010102004A (ko
Inventor
데자코앤드류피
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20010102004A publication Critical patent/KR20010102004A/ko
Application granted granted Critical
Publication of KR100769508B1 publication Critical patent/KR100769508B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Steroid Compounds (AREA)
  • Cephalosporin Compounds (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

CELP기반-CELP기반 보코더 패킷 변환을 위한 방법 및 장치가 개시되어 있다. 이 장치는 포르만트 파라미터 변환기 및 여기 파라미터 변환기를 포함한다. 이 포르만트 파라미터 변환기는 모델 오더 컨버터 및 타임 베이스 컨버터를 포함한다. 이 방법은, 입력 패킷의 포르만트 필터 계수들을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시키는 단계, 및 입력 음성 패킷의 피치 및 코드북 파라미터들을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시키는 단계를 포함한다. 포르만트 필터 계수들을 변환시키는 단계는, 포르만트 필터 계수들의 모델 오더를 입력 CELP 포맷의 모델 오더로부터 출력 CELP 포맷의 모델 오더로 컨버팅하는 단계, 및 그 결과의 계수들의 타임 베이스를 입력 CELP 포맷 타임 베이스로부터 출력 CELP 포맷 타임 베이스로 컨버팅하는 단계를 포함한다.
CELP (코드 여기 선형 예측)

Description

CELP 트랜스코딩{CELP TRANSCODING}
본 발명은 CELP (code-excited linear prediction; 코드 여기 선형 예측) 음성 처리에 관한 것이다. 특히, 본 발명은 디지털 음성 패킷들을 하나의 CELP 포맷으로부터 다른 CELP 포맷으로 변환시키는 것에 관한 것이다.
디지털 기술들에 의한 보이스 (voice) 의 전송은, 특히 장거리 및 디지털 무선 전화 애플리케이션에서 보편화되었다. 이것은, 차례로, 재구성된 음성의 인식 품질을 유지하면서 채널을 통해 송신되는 정보의 최소량을 결정하는데 관심을 발생시켰다. 음성을 단순히 샘플링하고 디지털화하여 전송한다면, 종래의 아날로그 전화의 음성 품질을 달성하는데는 64 kbps 의 정도의 데이터 레이트가 필요하다. 그러나, 적당한 코딩, 전송, 및 수신기에서의 재합성이 후속하는 음성 분석의 이용을 통해, 데이터 레이트의 현저한 감소를 달성할 수 있다.
인간의 음성 발생의 모델에 관계된 파라미터들을 추출함으로써 보이스화된 음성을 압축하는 기술을 채용하는 장치를 통상 보코더라 한다. 이러한 장치는, 입력 음성을 분석하여 관계된 파라미터들을 추출하는 인코더, 및 전송 채널과 같은 채널을 통해 수신되는 파라미터들을 사용하여 음성을 재합성하는 디코더로 이루어진다. 음성은, 이 파라미터들을 계산하는 동안, 타임 블록 또는 분석 서브프레임으로 나뉘어진다. 그 후, 이 파라미터들을 각각의 새로운 서브프레임에 대해 갱신된다.
선형 예측 기반 타임 도메인 코더는 현재 사용중인 음성 코더중에서 가장 보편적으로 사용되고 있는 것이다. 이러한 기술은 입력 음성 샘플들로부터 다수의 과거 샘플들을 통해 상관도를 추출하고, 그 신호중에서 상관되지 않은 부분만을 인코딩한다. 이 기술에 사용되는 기본적 선형 예측 필터는 과거 샘플들의 선형 조합으로서 현재 샘플들을 예측한다. 이러한 특정 분류의 코딩 알고리즘의 일 예는 1988년, Proceedings of the Mobile Satellite Conference 에서, Thomas E. Tremain 등에 의한 논문 "A 4.8 kbps Code Excited linear Predictive Coder" 에 기재되어 있다.
보코더의 기능은, 디지털화된 음성 신호를 음성의 고유한 본래의 리던던시 (redundancy) 를 모두 제거하여 낮은 비트 레이트 신호로 압축하는 것이다. 일반적으로, 음성은 주로 입과 혀의 필터링 동작으로 인한 단기 (short-term) 리던던시, 및 성대의 진동으로 인한 장기 (long-term) 리던던시를 갖는다. CELP 코더에서는, 이러한 동작들을, 2 개의 필터 즉, 단기 포르만트 (formant) 필터 및 장기 피치 필터에 의해 모델링한다. 일단 이 리던던시들을 제거하면, 결과적인 나머지 신호를 백색 가우시안 잡음으로서 모델링할 수 있고, 이 또한 인코딩된다.
이러한 기술의 기초는 2 개의 디지털 필터의 파라미터들을 계산하는 것이다. 포르만트 필터 (또한, "LPC (linear prediction coefficients) 필터" 로 공지되어 있음) 라 하는 하나의 필터는 음성 파형의 단기 예측을 수행한다. 피치 필터라 하는 다른 필터는 음성 파형의 장기 예측을 수행한다. 결국, 이 필터들을 여기시켜야 하고, 이는, 그 파형이 상술한 2 개의 필터들을 여기시키는 경우에, 코드북 (codebook) 내의 많은 랜덤 여기 파형들중에서 어느 파형이 본래의 음성에 가장 근접하게 발생하는지를 결정함으로써 수행한다. 따라서, 전송된 파라미터들은 (1) LPC 필터, (2) 피치 필터, 및 (3) 코드북 여기 (excitation) 와 같은 3 개의 항목에 관련된다.
디지털 음성 코딩은 2 개의 부분, 즉, 종종 분석 및 합성으로 공지된 인코딩 및 디코딩으로 나눠질 수 있다. 도 1 은 음성을 디지털로 인코딩, 전송, 및 디코딩하는 시스템 (100) 에 대한 블록도이다. 이 시스템은 코더 (102), 채널 (104), 및 디코더 (106) 를 포함한다. 채널 (104) 은 통신 채널, 저장 매체 등일 수 있다. 코더 (102) 는 디지털화된 입력 음성을 수신하고, 음성의 특징들을 나타내는 파라미터들을 추출하고, 이 파라미터들을 소스 비트 스트림으로 양자화하여 채널 (104) 로 전송한다. 디코더 (106) 는 채널 (104) 로부터 비트 스트림을 수신하고 그 수신된 비트 스트림의 양자화 특징들을 이용하여 출력 음성 파형을 재구성한다.
CELP 코딩의 다수의 서로 다른 포맷들이 오늘날 사용되고 있다. CELP 코딩된 음성 신호를 성공적으로 디코딩하기 위하여, 디코더 (106) 는 그 음성 신호를 발생시킨 인코더 (102) 와 동일한 CELP 코딩 모델 (또한 "포맷"으로 불림) 을 사용해야 한다. 서로 다른 CELP 포맷들을 사용하는 통신 시스템들이 음성 데이터를 공유하는 경우에, 그 음성 신호를 하나의 CELP 코딩 포맷으로부터 다른 CELP 코딩 포맷으로 변환시키는 것이 종종 바람직하다.
이러한 변환에 대한 종래의 접근 방식은 "탠덤 (tandem) 코딩"으로 공지되어 있다. 도 2 는 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시키는 탠덤 코딩 시스템 (200) 의 블록도이다. 이 시스템은 입력 CELP 포맷 디코더 (206) 및 출력 CELP 포맷 인코더 (202) 를 포함한다. 입력 CELP 포맷 디코더 (206) 는 하나의 CELP 포맷 (이후, "입력" 포맷이라 함) 을 사용하여 인코딩된 음성 신호 (이후, "입력" 신호라 함) 를 수신한다. 디코더 (206) 는 입력 신호를 디코딩하여 음성 신호를 생성한다. 출력 CELP 포맷 인코더 (202) 는 상기 디코딩된 음성 신호를 수신하고, 출력 CELP 포맷을 사용하여 이를 인코딩하여 출력 포맷으로 출력 신호를 발생시킨다. 이러한 접근방식의 주요한 단점은 다수의 인코더들 및 디코더들을 통과하는 음성 신호에 의해 경험되는 인식도가 저하된다는 것이다.
본 발명은 CELP기반-CELP기반 (CELP-based to CELP-based) 보코더 패킷 변환을 위한 방법 및 장치이다. 이 장치는, 음성 패킷에 대한 입력 포르만트 필터 계수들을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환하여 출력 포르만트 필터 계수들을 생성하는 포르만트 파라미터 변환기, 및 음성 패킷에 대응하는 입력 피치 파라미터 및 입력 코드북 파라미터를 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환하여 출력 피치 파라미터 및 출력 코드북 파라미터를 생성하는 여기 파라미터 변환기를 포함한다. 포르만트 파라미터 변환기는, 입력 포르만트 필터 계수의 모델 오더 (model order) 를 입력 CELP 포맷의 모델 오더로부터 출력 CELP 포맷의 모델 오더로 컨버팅하는 모델 오더 컨버터, 입력 포르만트 필터 계수들의 타임 베이스 (time base) 를 입력 CELP 포맷의 타임 베이스로부터 출력 CELP 포맷의 타임 베이스로 컨버팅하는 타임 베이스 컨버터를 포함한다.
그 방법은, 입력 패킷의 포르만트 필터 계수들을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시키는 단계, 및 입력 음성 패킷의 피치 및 코드북 파라미터들을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시키는 단계를 포함한다. 포르만트 필터 계수들을 변환시키는 단계는, 포르만트 필터 계수들을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시키는 단계, 반사 계수들의 모델 오더를 입력 CELP 포맷의 모델 오더로부터 출력 CELP 포맷의 모델 오더로 컨버팅하는 단계, 그 결과적인 계수들을 선스펙트럼 쌍 (LSP; line spectrum pair) CELP 포맷으로 변환시키는 단계, 그 결과적인 계수들의 타임베이스를 입력 CELP 포맷 타임 베이스로부터 출력 CELP 포맷 타임 베이스로 컨버팅하는 단계, 및 그 결과적인 계수들을 LSP 포맷으로부터 출력 CELP 포맷으로 변환시켜 출력 포르만트 필터 계수들을 생성하는 단계를 포함한다. 피치 및 코드북 파라미터들을 변환시키는 단계는, 입력 피치 파라미터 및 입력 코드북 파라미터를 사용하여 음성을 합성하여 타겟 신호를 발생시키는 단계, 및 타겟 신호 및 출력 포르만트 필터 계수들을 사용하여 출력 피치 파라미터 및 출력 코드북 파라미터를 탐색하는 단계를 포함한다.
본 발명의 이점은 탠덤 코딩 변환에 의해 통상 야기되는 음성 인식 품질의 저하를 제거한다는데 있다.
동일한 도면 부호가 도면 전체를 통해 동일한 부분을 나타내는 도면을 참조 하여 상세히 설명함으로써, 본 발명의 특징, 목적 및 이점들이 더욱 명백해진다.
도 1 은 음성을 디지털로 인코딩, 전송 및 디코딩하는 시스템의 블록도.
도 2 는 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시키는 탠덤 코딩 시스템의 블록도.
도 3 은 CELP 디코더의 블록도.
도 4 는 CELP 코더의 블록도.
도 5 는 본 발명의 일 실시예에 따라 CELP 기반-CELP 기반 보코더 패킷 변환을 위한 방법을 나타내는 플로우챠트.
도 6 은 CELP 기반-CELP 기반 보코더 패킷 변환기를 나타내는 도.
도 7, 8 및 9 는 본 발명의 일 실시예에 따른 포르만트 파라미터 변환기의 동작을 나타내는 플로우챠트.
도 10 은 본 발명의 일 실시예에 따른 여기 파라미터 변환기의 동작을 나타내는 플로우챠트.
도 11 은 탐색기의 동작을 나타내는 플로우챠트.
도 12 는 여기 파라미터 변환기를 더 자세하게 나타낸다.
이하, 본 발명의 바람직한 실시예를 상세히 설명한다. 특정 단계, 구성, 및 배치들을 설명하지만, 이는 단지 예시적인 것이다. 당업자는 본 발명의 사상 및 범위를 일탈하지 않고 다른 단계, 구성, 및 배치들로 실시할 수 있다. 본 발명은 위성 및 지상 셀룰러 전화 시스템들을 포함하는 다양한 정보 및 통신 시 스템들에 사용될 수 있다. 전화 서비스용 CDMA 무선 확산 스펙트럼 통신 시스템들에 바람직하게 응용할 수 있다.
본 발명은 2 가지 부분으로 설명한다. 먼저, CELP 코더 및 CELP 디코더를 포함하는 CELP 코덱 (codec) 에 대해 설명한다. 다음으로, 바람직한 실시예에 따른 패킷 변환기를 설명한다.
바람직한 실시예를 설명하기 전에, 먼저 도 1 의 예시적인 CELP 시스템의 구현을 설명한다. 이 구현에서는, CELP 코더 (102) 는 합성에 의한 분석 (analysis-by-synthesis) 방법을 사용하여 음성 신호를 인코딩한다. 이 방법에 의하면, 음성 파라미터들의 일부는 개루프 방식으로 계산되는 반면에 다른 파라미터들은 시행착오에 의한 폐루프 방식으로 결정된다. 특히, LPC 계수들은 한 세트의 방정식을 풀어서 결정한다. 그 후에, LPC 계수들을 포르만트 필터에 적용된다. 그 후에, 나머지 파라미터들(코드북 인덱스, 코드북 게인, 피치 래그, 및 피치 게인)의 가정값들이 포르만트 필터와 함께 사용되어 음성 신호를 합성한다. 그 후에, 합성된 음성 신호를 실제의 음성 신호와 비교하여 나머지 파라미터들의 가정값들중 어느 것이 가장 정확한 음성 신호를 합성하는지를 결정한다.
CELP (Code Excited Linear Predictive) 디코더
음성 디코딩 과정은, 데이터 패킷들을 패킹해제 (unpacking) 하는 단계, 수신된 파라미터들을 양자화해제하는 단계, 및 이 파라미터들로부터 음성 신호를 재구성하는 단계를 포함한다. 그 재구성은, 음성 파라미터들을 사용하여, 발생된 코드북 벡터를 필터링하는 단계를 포함한다.
도 3 은 CELP 디코더 (106) 의 블록도이다. CELP 디코더 (106) 는 코드북 (302), 코드북 게인 엘리먼트 (gain element) (304), 피치 필터 (306), 포르만트 필터 (308), 포스트필터를 포함한다. 이하, 각 블록의 일반적인 목적을 요약한다.
포르만트 필터 (308) (LPC 합성 필터라고도 함) 는 소리관 (vocal tract) 의 혀, 이 및 입술을 모델링하는 것으로 생각될 수 있고, 소리관 필터링에 의해 발생된 원래 음성의 공진 주파수 부근의 공진 주파수를 가진다. 포르만트 필터 (308) 는,
Figure 112005007619417-pct00001
의 형태의 디지털 필터이다. 포르만트 필터 (308)의 계수 (a1‥‥an) 는 포르만트 필터 계수 또는 LPC 계수라 한다.
피치 필터 (306) 는 음성이 보이스화 (voice) 되는 동안에 성대 (vocal cord) 로부터 유입되는 주기적인 펄스열을 모델링하는 장치로 생각할 수 있다. 보이스화된 음성은 성대와 폐로부터의 공기의 외향력과의 사이의 복잡한 비선형 상호작용에 의해 발생된다. 보이스화된 음성의 예들은, "low”에서는 O 이고, "day”에서는 A 이다. 보이스화되지 않은 음성 동안에, 피치 필터는 기본적으로 입력을 변경시키지 않고 출력에 전달한다. 보이스화되지 않은 음성은 소리관의 몇몇 지점에서 수축을 통해 공기를 가압함으로써 생성된다. 보이스화되지 않은 음성의 예들은, 혀와 윗니사이의 수축에 의해 형성되는 "these”에서는 TH 이며, 아랫 입술과 윗니사이의 수축에 의해 형성되는 "shuffle”에서는 FF 이다. 피치 필터 (306) 는,
Figure 112005007619417-pct00002
의 형태의 디지털 필터이며, 여기서, b 는 필터의 피치 게인, L 는 필터의 피치 래그 (pitch lag) 라 한다.
코드북 (302) 은 보이스화되지 않은 음성내의 소란스런 잡음을 모델링하는 것 및 보이스화된 음성에서의 성대의 여기 (excitation) 로서 생각할 수 있다. 배경 잡음 및 침묵 동안에, 코드북 출력은 랜덤 잡음으로 대체된다. 코드북 (302) 은 코드북 벡터들이라 하는 많은 데이터 워드들을 저장한다. 코드북 벡터들은 코드북 인덱스 (I) 에 따라 선택된다. 선택된 코드북 벡터는 코드북 게인 파라미터 (G) 에 따라 게인 엘리먼트 (304) 에 의해 스케일링된다. 코드북 (302) 은 게인 엘리먼트 (304) 를 포함할 수도 있다. 코드북의 출력을 코드북 벡터라 한다. 게인 엘리먼트 (304) 는 예를 들어 승산기로서 구현될 수 있다.
포스트필터 (postfilter) (310) 는 코드북내의 파라미터 양자화에 의해 부가된 양자화 잡음 및 결함들을 "형상화(shape)"하는데 사용된다. 이러한 잡음은, 적은 신호 에너지를 가지는 주파수 대역들에서는 인식할 수 있지만, 큰 신호 에너지를 가지는 주파수 대역들에서는 인식할 수 없다. 이러한 특성의 이점을 가지기 위해, 포스트필터 (310) 는 인식하기에 중요하지 않은 주파수 범위에 더 많은 잡음을 넣고 인식하기에 중요한 주파수 범위에 더 적은 잡음을 입력하려고 한다. 이러한 포스트필터링은 Proc. ICASSP(1987), J-H. Chen 및 A. Gersho 의 "Real-Time Vector APC Speech Coding at 4800 bps with Adaptive Postfiltering", 및 Proc. ICASSP 829-32 (Tokyo, Japan, 1986년 4월), N.S. Jayant 및 V. Ramamoorthy 의 "Adaptive Postfiltering of Speech" 에 더 자세히 기재되어 있다.
일 실시예에서는, 디지털화된 음성의 각 프레임은 하나 이상의 서브프레임들을 포함한다. 각 서브프레임에 대하여, 한 세트의 음성 파라미터들은 CELP 디코더 (106) 에 인가되어, 합성된 음성
Figure 112006079016788-pct00003
의 하나의 서브프레임을 생성한다. 음성 파라미터들은 코드북 인덱스 (Ⅰ), 코드북 게인 (G), 피치 래그 (L), 피치 게인 (b), 및 포르만트 필터 계수들 (a1 ... an) 을 포함한다. 코드북 (302) 의 하나의 벡터를 인덱스 (I) 에 따라 선택하며, 게인 (G) 에 따라 스케일링하며, 피치 필터 (306) 및 포르만트 필터 (308) 를 여기하는데 사용한다. 피치 필터 (306) 는 피치 게인 (b) 및 피치 래그 (L) 에 따라 상기 선택된 코드북 벡터에 작용한다. 포르만트 필터 (308) 는 포르만트 필터 계수들 (a1 ... an) 에 따라 피치 필터 (306) 에 의해 생성된 신호에 작용하여, 합성된 음성 신호
Figure 112006079016788-pct00004
를 발생시킨다.
코드 여기 선형 예측 (CELP) 코더
CELP 음성 인코딩 과정은 합성 음성 신호와 입력 디지털화 음성 신호간의 인식 차이를 최소화하는 디코더용 입력 파라미터들을 결정하는 단계를 포함한다. 각 세트의 파라미터들을 선택하는 과정들은 다음의 서브섹션에서 설명한다. 또한, 이 인코딩 과정은, 당업자에게 명백한 바와 같이, 파라미터들을 양자화하는 단계, 및 그 파라미터들을 전송용 데이터 패킷들로 패킷화하는 단계를 포함한다.
도 4 는 CELP 인코더 (102) 의 블록도이다. CELP 인코더 (102) 는 코드북 (302), 코드북 게인 엘리먼트 (304), 피치 필터 (306), 포르만트 필터(308), 인식 가중 필터 (410), LPC 생성기 (412), 가산기 (414), 및 최소화 엘리먼트 (416) 를 포함한다. CELP 인코더 (102) 는 많은 프레임들 및 서브프레임들로 분할되는 디지털 음성 신호 s(n)를 수신한다. 각 서브프레임에 대하여, CELP 인코더 (102) 는 그 서브프레임내의 음성 신호를 설명하는 한 세트의 파라미터들을 생성한다. 이들 파라미터들을 양자화하여 CELP 디코더 (106) 로 전송한다. 상술한 바와 같이, CELP 디코더 (106) 는, 이 파라미터들을 사용하여 음성 신호를 합성한다.
도 4 를 참조하면, LPC 계수들의 생성은 개루프 모드에서 수행된다. 입력 음성 샘플들 s(n) 의 각 서브프레임으로부터, LPC 생성기 (412) 는 당해 분야에서 공지된 방법들에 의해 LPC 계수들을 계산한다. 이 LPC 계수들을 포르만트 필터 (308) 로 입력한다.
그러나, 피치 파라미터들 (b 및 L) 및 코드북 파라미터들 (I 및 G) 의 계산은 폐루프 모드에서 수행하며, 이를 종종 합성에 의한 분석 방법이라 한다. 이 방법에 따라, 코드북 및 피치 파라미터들의 다양한 가정 후보 (candidate) 값들을 CELP 코더에 인가하여 음성 신호
Figure 112006079016788-pct00005
를 합성한다. 각각의 게스 (guess) 에 대한 상기 합성된 음성 신호
Figure 112006079016788-pct00006
를 가산기 (414) 에서 입력 음성 신호 s(n) 와 비교한다. 이러한 비교에 의해 발생되는 에러 신호 r(n) 를 최소화 엘리먼트 (416) 에 제공한다. 최소화 엘리먼트 (416) 는 게스 코드북 및 피치 파라미터들의 서로 다른 조합들을 선택하고, 에러 신호 r(n) 를 최소화하는 조합을 결정한다. 이 파라미터들, 및 LPC 생성기 (412) 에 의해 생성된 포르만트 필터 계수들은 전송하기 위해 양자화 및 패킷화된다.
도 4 에 도시된 실시예에서는, 입력 음성 샘플들 s(n) 을 인식 가중 (perceptual weighting) 필터 (410) 로 가중하여, 이 가중된 음성 샘플들을 가산기 (414) 의 가산 입력으로 제공한다. 인식 가중 방법은 적은 신호 전력을 가지는 주파수들에서의 에러를 가중시키는데 이용된다. 이러한 낮은 신호 전력 주파수들에 있을 때, 잡음을 더욱더 인식할 수 있다. 이러한 인식 가중 방법은, 발명의 명칭이 "Variable Rate Vocoder" 인 미국특허 제 5,414,796 호에 더 상세히 설명되어 있으며, 그 전체 내용이 여기에 참고로 인용된다.
최소화 엘리먼트 (416) 는 2 개의 단계로 코드북 및 피치 파라미터들을 탐색한다. 먼저, 최소화 엘리먼트 (416) 는 피치 파라미터들을 탐색한다. 피치 탐색동안에, 코드북은 아무것도 기여하지 못한다 (G = 0). 최소화 엘리먼트 (416) 에서, 피치 래그 파라미터 (L) 및 피치 게인 파라미터 (b) 에 대한 모든 가능한 값들이 피치 필터 (306) 에 입력된다. 최소화 엘리먼트 (416) 는 가중된 입력 음성과 합성된 음성 사이에 에러 r(n) 를 최소화하는 L 및 b 의 값들을 선택한다.
일단, 피치 필터의 피치 래그 (L) 및 피치 게인 (b) 을 구하면, 코드북 탐색을 유사한 방식으로 수행한다. 그 후에, 최소화 엘리먼트 (416) 는 코드북 인덱스 (I) 및 코드북 게인 (G) 의 값들을 생성한다. 코드북 인덱스 (I) 에 따라 선택된 코드북 (302) 으로부터의 출력 값들은 코드북 게인 (G) 에 의해 게인 엘리먼트 (304) 에서 승산되어, 피치 필터 (306)에서 사용되는 일련의 값들을 생성한다. 최소화 엘리먼트 (416) 는 에러 r(n) 를 최소화하는 코드북 인덱스 (I) 및 코드북 게인 (G) 을 선택한다.
일 실시예에서는, 인식 가중 방법은 인식 가중 필터 (410) 에 의한 입력 음성 및 포르만트 필터 (308) 에 내장된 가중 함수에 의한 합성 음성 모두에 적용된다. 대체 실시예에서는, 인식 가중 필터 (410) 를 가산기 (414) 다음에 배치될 수도 있다.
CELP 기반-CELP 기반 보코더 패킷 변환
다음의 설명에서는, 변환되는 음성 패킷을, "입력" 코드북 및 피치 파라미터들, 및 "입력" 포르만트 필터 계수들을 특정하는 "입력" CELP 포맷을 가지는 "입력" 패킷이라 한다. 또한, 이러한 변환의 결과를, "출력" 코드북 및 피치 파라미터들, 및 "출력" 포르만트 필터 계수들을 특정하는 "출력" CELP 포맷을 가지는 "출력" 패킷이라 한다. 이러한 변환의 하나의 유용한 애플리케이션은 음성 신호들을 교환하는 인터넷에 무선 전화 시스템을 인터페이스하는 것이다.
도 5 는 바람직한 실시예에 따른 방법을 설명하는 플로우챠트이다. 변환은 3 개의 단계로 진행한다. 제 1 단계에서는, 단계 502 에 나타낸 바와 같이, 입력 음성 패킷의 포르만트 필터 계수들을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시킨다. 제 2 단계에서는, 단계 504 에 나타낸 바와 같이, 입력 음성 패킷의 피치 및 코드북 파라미터들을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시킨다. 제 3 단계에서는, 출력 파라미터들을 출력 CELP 양자화기에 의해 양자화한다.
도 6 은 바람직한 실시예에 따른 패킷 변환기 (600) 를 설명한다. 패킷 변환기 (600) 는 포르만트 파라미터 변환기 (620) 및 여기 파라미터 변환기 (630) 를 포함한다. 포르만트 파라미터 변환기 (620) 는 입력 포르만트 필터 계수들을 출력 CELP 포맷으로 변환시켜 출력 포르만트 필터 계수들을 생성한다. 포르만트 파라미터 변환기 (620) 는 모델 오더 컨버터 (602), 타임 베이스 컨버터 (604), 및 포르만트 필터 계수 변환기들 (610A, 610B, 610C) 을 포함한다. 여기 파라미터 변환기 (630) 는 입력 피치 파라미터 및 입력 코드북 파라미터를 출력 CELP 포맷으로 변환시켜 출력 피치 파라미터 및 출력 코드북 파라미터를 생성한다. 여기 파라미터 변환기 (630) 는 음성 합성기 (606) 및 탐색기 (searcher) (608) 를 포함한다. 도 7, 도 8, 및 도 9 는 바람직한 실시예에 따른 포르만트 파라미터 변환기 (620) 의 동작을 설명하는 플로우챠트이다.
변환기 (610A) 는 입력 음성 패킷들을 수신한다. 변환기 (610A) 는 각 입력 음성 패킷의 포르만트 필터 계수들을 입력 CELP 포맷으로부터 모델 오더 컨버팅에 적당한 CELP 포맷으로 변환시킨다. CELP 포맷의 모델 오더는 그 포맷에 의해 사용되는 포르만트 필터 계수들의 수를 나타낸다. 바람직한 실시예에서는, 단계 702 에 나타낸 바와 같이, 입력 포르만트 필터 계수들을 반사 계수 포맷으로 변환시킨다. 반사 계수 포맷의 모델 오더를 입력 포르만트 필터 포맷의 모델 오더와 동일하게 선택한다. 이러한 변환을 수행하는 방법은 당해 기술분야에서 공지되어 있다. 물론, 입력 CELP 포맷이 반사 계수 포맷 포르만트 필터 계수들을 사용한다면, 이 변환은 불필요하다.
단계 704 에 나타낸 바와 같이, 모델 오더 컨버터 (602) 는 변환기 (610A) 로부터 반사 계수들을 수신하고 반사 계수들의 모델 오더를 입력 CELP 포맷의 모델 오더로부터 출력 CELP 포맷의 오델 오더로 변환시킨다. 모델 오더 컨버터 (602) 는 인터폴레이터 (612) 및 데시메이터 (614) 를 포함한다. 단계 802 에 나타낸 바와 같이, 입력 CELP 포맷의 모델 오더가 출력 CELP 포맷의 모델 오더보다 낮을 때, 인터폴레이터 (612) 는 추가적인 계수들을 제공하기 위해 인터폴레이션 동작을 행한다. 일 실시예에에서는, 추가적인 계수들을 0 으로 설정한다. 단계 804 에 나타낸 바와 같이, 입력 CELP 포맷의 모델 오더가 출력 CELP 포맷의 모델 오더보다 높을 때, 데시메이터 (614) 는 계수들의 수를 감소시키기 위해 데시메이션 동작을 행한다. 일 실시예에서는, 불필요한 계수들을 단순히 0 으로 대체한다. 이러한 인터폴레이션 및 데시메이션 동작은 당해 기술분야에서 공지되어 있다. 계수 반사 도메인 모델에서, 오더 컨버젼 (order conversion) 은 비교적 간단하여, 유사하게 선택한다. 물론, 입력 및 출력 CELP 포맷의 모델 오더가 동일하다면, 모델 오더 컨버팅은 불필요하다.
변환기 (610B) 는 모델 오더 컨버터 (602) 로부터 오더 정정된 포르만트 필터 계수들을 수신하고, 그 계수들을 반사 계수 포맷으로부터 타임 베이스 컨버팅에 적당한 CELP 포맷으로 변환시킨다. CELP 포맷의 타임 베이스는, 포르만트 합성 파라미터들의 샘플링 레이트, 즉, 포르만트 합성 파라미터들의 초당 벡터의 수를 나타낸다. 바람직한 실시예에서는, 단계 706 에 나타낸 바와 같이, 반사 계수들을 선스펙트럼 쌍 (LSP) 포맷으로 변환시킨다. 이러한 변환을 수행하는 방법은 당해 기술분야에서 공지되어 있다.
타임 베이스 컨버터 (604) 는 변환기 (610B) 로부터 LSP 계수들을 수신하고, 단계 708 에 나타낸 바와 같이, 그 LSP 계수들의 타임 베이스를 입력 CELP 포맷의 타임 베이스로부터 출력 CELP 포맷의 타임 베이스로 컨버팅한다. 타임 베이스 컨버터 (604) 는 인터폴레이터 (622) 및 데시메이터 (624) 를 포함한다. 단계 902 에 나타낸 바와 같이, 입력 CELP 포맷의 타임 베이스가 출력 CELP 포맷의 타임 베이스보다 낮을 때 (즉, 초당 샘플들을 더 적게 사용할 때), 인터폴레이터 (622) 는 샘플들의 수를 증가시키기 위해 인터폴레이션 동작을 행한다. 단계 904 에 나타낸 바와 같이, 입력 CELP 포맷의 타임 베이스가 출력 CELP 포맷의 타임 베이스보다 높을 때 (즉, 초당 샘플들을 더 많이 사용할 때), 데시메이터 (624) 는 샘플들의 수를 감소시키기 위해 데시메이션 동작을 행한다. 이러한 인터폴레이션 및 데시메이션 동작은 당해 기술분야에서 공지되어 있다. 물론, 입력 CELP 포맷의 타임 베이스가 출력 CELP 포맷의 타임 베이스와 동일하다면, 타임 베이스 컨버팅은 불필요하다.
변환기 (610C) 는 타임 베이스 컨버터 (604) 로부터 타임 베이스 정정된 포르만트 필터 계수들을 수신하고, 단계 710 에 나타낸 바와 같이, 그 계수들을 LSP 포맷으로부터 출력 CELP 포맷으로 변환시켜 출력 포르만트 필터 계수를 생성한다. 물론, 출력 CELP 포맷이 LSP 포맷 포르만트 필터 계수들을 사용한다면, 이 변환은 불필요하다. 양자화기 (611) 는 변환기 (610C) 로부터 출력 포르만트 계수들을 수신하고, 단계 712 에 나타낸 바와 같이, 그 출력 포르만트 필터 계수들을 양자화한다.
변환의 제 2 단계에서는, 단계 504 에 나타낸 바와 같이, 입력 음성 패킷의 피치 및 코드북 파라미터들 ("여기" 파라미터라고도 함) 을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환시킨다. 도 10 은 본 발명의 바람직한 실시예에 따른 여기 파라미터 변환기 (630) 의 동작을 나타내는 플로우챠트이다.
도 6 을 참조하면, 음성 합성기 (606) 는 각 입력 음성 패킷의 피치 및 코드북 파라미터들을 수신한다. 단계 1002 에 나타낸 바와 같이, 음성 합성기 (606) 는, 포르만트 파라미터 변환기 (620) 에 의해 발생된 출력 포르만트 필터 계수들, 및 입력 코드북 및 피치 여기 파라미터들을 사용하여, "타겟 신호" 라고 하는 음성 신호를 발생시킨다. 그 후, 단계 1004 에서, 탐색기 (608) 는, 상술한 바와 같이, CELP 디코더 (106) 에 의해 사용되는 것과 유사한 탐색 루틴을 사용하여, 출력 코드북 파라미터 및 출력 피치 파라미터를 얻는다. 그 후, 탐색기 (608) 는 출력 파라미터들을 양자화한다.
도 11 은 본 발명의 바람직한 실시예에 따른 탐색기 (608) 의 동작을 나타내는 플로우챠트이다. 이러한 탐색에서는, 단계 1104 에 나타낸 바와 같이, 탐색기 (608) 는 포르만트 파라미터 변환기 (620) 에 의해 발생된 출력 포르만트 계수들, 음성 합성기 (606) 에 의해 발생된 타겟 신호, 및 후보 코드북 및 피치 파라미터들을 사용하여, 후보 신호를 발생시킨다. 단계 1106 에 나타낸 바와 같이, 탐색기 (608) 는 타겟 신호와 후보 신호를 비교하여, 에러 신호를 발생시킨다. 그 후, 단계 1108 에 나타낸 바와 같이, 탐색기 (608) 는 후보 코드북 및 피치 파라미터들을 변경하여 에러 신호를 최소화한다. 에러 신호를 최소화하는 피치 및 코드북 파라미터의 조합을 출력 여기 파라미터로서 선택한다. 이하, 이 과정들을 상세히 설명한다.
도 12 는 여기 파라미터 변환기 (630) 를 상세히 나타낸다. 상술한 바와 같이, 여기 파라미터 변환기 (630) 는 음성 합성기 (606) 및 탐색기 (608) 를 포함한다. 도 12 를 참조하면, 음성 합성기 (606) 는 코드북 (302A), 게인 엘리먼트 (304A), 피치 필터 (306A) 및 포르만트 필터 (308A) 를 포함한다. 디코더 (106) 에 대해 상술한 바와 같이, 음성 합성기 (606) 는 여기 파라미터들 및 포르만트 필터 계수들에 기초하여 음성 신호를 발생시킨다. 구체적으로 설명하면, 음성 합성기 (606) 는 입력 여기 파라미터들 및 출력 포르만트 필터 계수들을 사용하여 타겟 신호 sT(n) 를 발생시킨다. 입력 코드북 인덱스 (II) 를 코드북 (302A) 에 입력하여 코드북 벡터를 발생시킨다. 게인 엘리먼트 (304A) 는, 입력 코드북 게인 파라미터 GI 를 사용하여, 이 코드북 벡터를 스케일링한다. 피치 필터 (306A) 는, 스케일링된 코드북 벡터 및 입력 피치 게인 및 피치 래그 파라미터들 (b1 및 LT) 를 사용하여, 피치 신호를 발생시킨다. 포르만트 필터 (308A) 는, 그 피치 신호, 및 포르만트 파라미터 변환기 (620) 에 의해 발생된 출력 포르만트 파라미터 계수들 (a01 ... a0n) 을 사용하여 타겟 신호 sT(n) 를 발생시킨다. 입력 및 출력 여기 파라미터들의 타임 베이스가 서로 다를 수 있지만, 발생된 여기 신호는 동일한 타임 베이스 (일 실시예에 따라, 초당 8000 개의 여기 샘플들) 이다. 따라서, 여기 파라미터들의 타임 베이스 인터폴레이션은 이 과정에서 고유한 것이다.
탐색기 (608) 는 제 2 음성 합성기, 가산기 (1202) 및 최소화 엘리먼트 (1216) 를 포함한다. 제 2 음성 합성기는 코드북 (302B), 게인 엘리먼트 (304B), 피치 필터 (306B) 및 포르만트 필터 (308B) 를 포함한다. 디코더 (106) 에 대해 상술한 바와 같이, 제 2 음성 합성기는, 여기 파라미터들 및 포르만트 필터 계수들에 기초하여 음성 신호를 발생시킨다.
구체적으로 설명하면, 음성 합성기 (606) 는, 후보 여기 파라미터들, 및 포르만트 파라미터 변환기 (620) 에 의해 발생된 출력 포르만트 필터 계수들을 사용하여, 후보 신호 sG(n) 를 발생시킨다. 게스 (guess) 코드북 인덱스 (IG) 를 코드북 (302B) 에 입력하여 코드북 벡터를 발생시킨다. 게인 엘리먼트 (304B) 는, 입력 코드북 게인 파라미터 GG 를 사용하여, 이 코드북 벡터를 스케일링한다. 피치 필터 (306B) 는, 스케일링된 코드북 벡터, 입력 피치 게인 및 피치 래그 파라미터들 (bG 및 LG) 를 사용하여, 피치 신호를 발생시킨다. 포르만트 필터 (308B) 는, 이 피치 신호 및 출력 포르만트 필터 계수들 (a01 ... a0n) 을 사용하여, 게스 신호 sG(n) 를 발생시킨다.
탐색기 (608) 는 후보 신호와 타겟 신호를 비교하여 에러 신호 r(n) 를 발생시킨다. 바람직한 실시예에서는, 타겟 신호 sT(n) 를 가산기 (1202) 의 가산 (sum) 입력에 입력하고, 게스 신호 sG(n) 를 가산기의 감산 (difference) 입력에 입력한다. 가산기 (1202) 의 출력은 에러 신호 r(n) 이다.
이 에러 신호 r(n) 를 최소화 엘리먼트 (1216) 에 제공한다. 이 최소화 엘리먼트 (1216) 는 코드북 및 피치 파라미터들의 서로 다른 조합을 선택하고, CELP 코더 (102) 의 최소화 엘리먼트 (416) 에 대해 상술한 바와 같은 방법으로 에러 신호 r(n) 를 최소화하는 조합을 결정한다. 이 탐색으로부터 얻은 코드북 및 피치 파라미터들을 양자화하고, 패킷 변환기 (600) 의 포르만트 파라미터 변환기에 의해 발생되고 양자화되는 포르만트 필터 계수들과 함께 사용하여, 출력 CELP 포맷의 음성의 패킷을 발생시킨다.
결론
바람직한 실시예들의 상술한 설명은 당업자가 본 발명을 실시하는데 제공된다. 당업자가 이 실시예들을 용이하게 변형할 수 있다는 것이 명백하고, 발명능력을 사용하지 않고서도 본 발명의 일반적인 원리를 다른 실시예에 응용할 수 있다. 따라서, 본 발명을 여기에 나타낸 실시예들에 한정하는 것이 아니고 여기에 개시된 원리 및 신규한 특징들에 상응하는 가장 넓은 범위로 해석하여야 한다.

Claims (21)

  1. 압축된 음성 패킷을 하나의 코드 여기 선형 예측 (CELP) 포맷으로부터 다른 CELP 포맷으로 컨버팅하는 장치로서,
    입력 CELP 포맷을 가지며 음성 패킷에 대응하는 입력 포르만트 필터 계수들을 출력 CELP 포맷으로 변환하여, 출력 포르만트 필터 계수들을 생성하는 포르만트 파라미터 변환기; 및
    입력 CELP 포맷을 가지며 상기 음성 패킷에 대응하는 입력 피치 파라미터 및 입력 코드북 파라미터를 상기 출력 CELP 포맷으로 변환하여, 출력 피치 파라미터 및 출력 코드북 파라미터를 생성하는 여기 파라미터 변환기를 포함하며,
    상기 포르만트 파라미터 변환기는,
    상기 입력 포르만트 필터 계수들의 모델 오더를 상기 입력 CELP 포맷의 모델 오더로부터 상기 출력 CELP 포맷의 모델 오더로 컨버팅하는 모델 오더 컨버터; 및
    상기 입력 포르만트 필터 계수들의 타임 베이스를 상기 입력 CELP 포맷의 타임 베이스로부터 상기 출력 CELP 포맷의 타임 베이스로 컨버팅하는 타임 베이스 컨버터를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 여기 파라미터 변환기는,
    상기 입력 피치 파라미터 및 입력 코드북 파라미터, 및 상기 출력 포르만트 필터 계수들을 사용하여 타겟 신호를 생성하는 음성 합성기; 및
    상기 타겟 신호 및 상기 출력 포르만트 필터 계수들을 사용하여 상기 출력 코드북 파라미터 및 출력 피치 파라미터를 탐색하는 탐색기를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  4. 제 3 항에 있어서,
    상기 탐색기는,
    게스 여기 파라미터들 및 상기 출력 포르만트 필터 계수들을 사용하여 게스 신호를 발생시키는 추가의 음성 합성기;
    상기 게스 신호 및 상기 타겟 신호에 기초하여 에러 신호를 발생시키는 컴바이너; 및
    상기 게스 여기 파라미터들을 변경하여 상기 에러 신호를 최소화하는 최소화 엘리먼트를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  5. 제 3 항에 있어서,
    상기 모델 오더 컨버터는,
    상기 음성 합성기에 의해 사용되기 전에 상기 입력 포르만트 필터 계수들을 제 3 CELP 포맷으로 변환시켜 제 3 계수들을 생성하는 포르만트 필터 계수 변환기를 더 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  6. 제 5 항에 있어서,
    상기 모델 오더 컨버터는,
    상기 입력 CELP 포맷의 상기 모델 오더가 상기 출력 CELP 포맷의 상기 모델 오더보다 더 낮을 경우, 상기 제 3 계수들을 인터폴레이팅하여 오더 정정된 계수들을 생성하는 인터폴레이터; 및
    상기 입력 CELP 포맷의 상기 모델 오더가 상기 출력 CELP 포맷의 상기 모델 오더보다 더 높을 경우, 상기 제 3 계수들을 데시메이팅하여 상기 오더 정정된 계수들을 생성하는 데시메이터를 더 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  7. 제 3 항에 있어서,
    상기 음성 합성기는,
    상기 입력 코드북 파라미터들을 사용하여 코드북 벡터를 생성하는 코드북;
    상기 입력 피치 파라미터들 및 상기 코드북 벡터를 사용하여 피치 신호를 생성하는 피치 필터; 및
    상기 출력 포르만트 필터 계수들 및 상기 피치 신호를 사용하여 상기 타겟 신호를 생성하는 포르만트 필터를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  8. 제 4 항에 있어서,
    상기 게스 여기 파라미터들은 게스 피치 필터 파라미터들 및 게스 코드북 파라미터들을 포함하며,
    상기 추가의 음성 합성기는,
    상기 게스 코드북 파라미터들을 사용하여 추가의 코드북 벡터를 생성하는 추가의 코드북;
    상기 게스 피치 필터 파라미터들 및 상기 추가의 코드북 벡터를 사용하여 추가의 피치 신호를 생성하는 피치 필터; 및
    상기 출력 포르만트 필터 계수들 및 상기 추가의 피치 신호를 사용하여 상기 게스 신호를 생성하는 포르만트 필터를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  9. 제 1 항에 있어서,
    상기 타임 베이스 컨버터에 의해 사용되기 전에, 상기 입력 포르만트 필터 계수들을 제 4 CELP 포맷으로 변환시키는 제 1 포르만트 필터 계수 변환기를 더 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  10. 제 9 항에 있어서,
    상기 타임 베이스 컨버터의 출력을 상기 제 4 CELP 포맷으로부터 상기 출력 CELP 포맷으로 변환시키는 제 2 포르만트 필터 계수 변환기를 더 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  11. 제 5 항에 있어서,
    상기 제 3 CELP 포맷은 반사 계수 CELP 포맷인 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  12. 제 9 항에 있어서,
    상기 제 4 CELP 포맷은 선스펙트럼 쌍 CELP 포맷인 것을 특징으로 하는 CELP 포맷의 컨버팅 장치.
  13. 압축된 음성 패킷을 하나의 CELP 포맷으로부터 다른 CELP 포맷으로 컨버팅하는 방법으로서,
    (a) 음성 패킷에 대응하는 입력 포르만트 필터 계수들을 입력 CELP 포맷으로부터 출력 CELP 포맷으로 변환하여 출력 포르만트 필터 계수들을 생성하는 단계; 및
    (b) 상기 음성 패킷에 대응하는 입력 피치 파라미터 및 입력 코드북 파라미터를 상기 입력 CELP 포맷으로부터 상기 출력 CELP 포맷으로 변환하여 출력 피치 파라미터 및 출력 코드북 파라미터를 생성하는 단계를 포함하며,
    상기 단계 (a) 는,
    (i) 상기 입력 포르만트 필터 계수들의 모델 오더를 상기 입력 CELP 포맷의 모델 오더로부터 상기 출력 CELP 포맷의 모델 오더로 컨버팅하는 단계; 및
    (ⅱ) 상기 입력 포르만트 필터 계수들의 타임 베이스를 상기 입력 CELP 포맷의 타임 베이스로부터 상기 출력 CELP 포맷의 타임 베이스로 컨버팅하는 단계를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 방법.
  14. 삭제
  15. 제 13 항에 있어서,
    상기 단계 (b) 는,
    상기 입력 CELP 포맷의 상기 입력 피치 파라미터 및 입력 코드북 파라미터, 및 상기 출력 포르만트 필터 계수들을 사용하여 음성을 합성하여 타겟 신호를 생성하는 단계; 및
    상기 타겟 신호 및 상기 출력 포르만트 필터 계수들을 사용하여 상기 출력 피치 파라미터 및 출력 코드북 파라미터를 탐색하는 단계를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 방법.
  16. 제 13 항에 있어서,
    상기 단계 (i) 는,
    상기 입력 포르만트 필터 계수들을 상기 입력 CELP 포맷으로부터 제 3 CELP 포맷으로 변환시켜 제 3 계수들을 생성하는 단계; 및
    상기 제 3 계수들의 모델 오더를 상기 입력 CELP 포맷의 모델 오더로부터 상기 출력 CELP 포맷의 모델 오더로 컨버팅하여 오더 정정된 계수들을 생성하는 단계를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 방법.
  17. 제 16 항에 있어서,
    상기 단계 (ⅱ) 는,
    상기 오더 정정된 계수들을 제 4 포맷으로 변환시켜 제 4 계수들을 생성하는 단계;
    상기 제 4 계수들의 타임 베이스를 상기 입력 CELP 포맷의 타임 베이스로부터 상기 출력 CELP 포맷의 타임 베이스로 컨버팅하여 타임 베이스 정정된 계수들을 생성하는 단계; 및
    상기 타임 베이스 정정된 계수들을 상기 제 4 포맷으로부터 상기 출력 CELP 포맷으로 변환시켜 상기 출력 포르만트 필터 계수들을 생성하는 단계를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 방법.
  18. 제 15 항에 있어서,
    상기 탐색하는 단계는,
    게스 코드북 및 피치 파라미터들, 및 상기 출력 계수들을 사용하여 게스 신호를 발생시키는 단계;
    상기 게스 신호 및 상기 타겟 신호에 기초하여 에러 신호를 발생시키는 단계; 및
    상기 게스 코드북 및 피치 파라미터들을 변경하여 상기 에러 신호를 최소화하는 단계를 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 방법.
  19. 제 16 항에 있어서,
    상기 단계 (i) 는,
    상기 입력 CELP 포맷의 상기 모델 오더가 상기 출력 CELP 포맷의 상기 모델 오더보다 더 낮을 경우, 상기 제 3 계수들을 인터폴레이팅하여 상기 오더 정정된 계수들을 생성하는 단계; 및
    상기 입력 CELP 포맷의 상기 모델 오더가 상기 출력 CELP 포맷의 상기 모델 오더보다 더 높을 경우, 상기 제 3 계수들을 데시메이팅하여 상기 오더 정정된 계수들을 생성하는 단계를 더 포함하는 것을 특징으로 하는 CELP 포맷의 컨버팅 방법.
  20. 제 16 항에 있어서,
    상기 제 3 CELP 포맷은 반사 계수 CELP 포맷인 것을 특징으로 하는 CELP 포맷의 컨버팅 방법.
  21. 제 17 항에 있어서,
    상기 제 4 포맷은 선스펙트럼 쌍 CELP 포맷인 것을 특징으로 하는 CELP 포맷의 컨버팅 방법.
KR1020017010054A 1999-02-12 2000-02-14 Celp 트랜스코딩 KR100769508B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/249,060 US6260009B1 (en) 1999-02-12 1999-02-12 CELP-based to CELP-based vocoder packet translation
US09/249,060 1999-02-12

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020077014704A Division KR100873836B1 (ko) 1999-02-12 2000-02-14 Celp 트랜스코딩

Publications (2)

Publication Number Publication Date
KR20010102004A KR20010102004A (ko) 2001-11-15
KR100769508B1 true KR100769508B1 (ko) 2007-10-23

Family

ID=22941896

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020077014704A KR100873836B1 (ko) 1999-02-12 2000-02-14 Celp 트랜스코딩
KR1020017010054A KR100769508B1 (ko) 1999-02-12 2000-02-14 Celp 트랜스코딩

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020077014704A KR100873836B1 (ko) 1999-02-12 2000-02-14 Celp 트랜스코딩

Country Status (10)

Country Link
US (2) US6260009B1 (ko)
EP (1) EP1157375B1 (ko)
JP (1) JP4550289B2 (ko)
KR (2) KR100873836B1 (ko)
CN (1) CN1154086C (ko)
AT (1) ATE268045T1 (ko)
AU (1) AU3232600A (ko)
DE (1) DE60011051T2 (ko)
HK (1) HK1042979B (ko)
WO (1) WO2000048170A1 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US7392180B1 (en) * 1998-01-09 2008-06-24 At&T Corp. System and method of coding sound signals using sound enhancement
US7283961B2 (en) * 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
EP1944760B1 (en) 2000-08-09 2009-09-23 Sony Corporation Voice data processing device and processing method
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
JP2002229599A (ja) * 2001-02-02 2002-08-16 Nec Corp 音声符号列の変換装置および変換方法
JP2002268697A (ja) * 2001-03-13 2002-09-20 Nec Corp パケット誤り耐性付き音声復号装置、音声符号化復号装置、及びその方法
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US20030195745A1 (en) * 2001-04-02 2003-10-16 Zinser, Richard L. LPC-to-MELP transcoder
US7526572B2 (en) * 2001-07-12 2009-04-28 Research In Motion Limited System and method for providing remote data access for a mobile communication device
JP4518714B2 (ja) 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
KR100460109B1 (ko) * 2001-09-19 2004-12-03 엘지전자 주식회사 음성패킷 변환을 위한 lsp 파라미터 변환장치 및 방법
JP4108317B2 (ja) 2001-11-13 2008-06-25 日本電気株式会社 符号変換方法及び装置とプログラム並びに記憶媒体
US6829579B2 (en) 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
CN100527225C (zh) * 2002-01-08 2009-08-12 迪里辛姆网络控股有限公司 基于celp的语音代码之间的代码转换方案
US6950799B2 (en) 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
AU2003214182A1 (en) * 2002-03-12 2003-09-29 Dilithium Networks Pty Limited Method for adaptive codebook pitch-lag computation in audio transcoders
JP2005531017A (ja) * 2002-05-13 2005-10-13 マインドスピード・テクノロジーズ・インコーポレイテッド パケット網環境における音声のコード変換
JP4304360B2 (ja) 2002-05-22 2009-07-29 日本電気株式会社 音声符号化復号方式間の符号変換方法および装置とその記憶媒体
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
JP2004061646A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd Tfo機能を有する音声符号化器および方法
JP2004069963A (ja) * 2002-08-06 2004-03-04 Fujitsu Ltd 音声符号変換装置及び音声符号化装置
JP2004151123A (ja) * 2002-10-23 2004-05-27 Nec Corp 符号変換方法、符号変換装置、プログラム及びその記憶媒体
US7486719B2 (en) 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
JP4438280B2 (ja) * 2002-10-31 2010-03-24 日本電気株式会社 トランスコーダ及び符号変換方法
KR100499047B1 (ko) * 2002-11-25 2005-07-04 한국전자통신연구원 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
KR100503415B1 (ko) * 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법
WO2004064041A1 (en) 2003-01-09 2004-07-29 Dilithium Networks Pty Limited Method and apparatus for improved quality voice transcoding
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
KR100554164B1 (ko) * 2003-07-11 2006-02-22 학교법인연세대학교 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
US20050258983A1 (en) * 2004-05-11 2005-11-24 Dilithium Holdings Pty Ltd. (An Australian Corporation) Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications
FR2880724A1 (fr) * 2005-01-11 2006-07-14 France Telecom Procede et dispositif de codage optimise entre deux modeles de prediction a long terme
KR100703325B1 (ko) * 2005-01-14 2007-04-03 삼성전자주식회사 음성패킷 전송율 변환 장치 및 방법
KR100640468B1 (ko) * 2005-01-25 2006-10-31 삼성전자주식회사 디지털 통신 시스템에서 음성 패킷의 전송과 처리 장치 및방법
US8447592B2 (en) * 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
BRPI0520720A2 (pt) 2005-11-30 2009-06-13 Ericsson Telefon Ab L M método para transcodificação de fala de um primeiro esquema de codificação de fala para um segundo esquema de codificação de fala, transcodificador de fala, e, sistema de telecomunicação
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
WO2007124485A2 (en) * 2006-04-21 2007-11-01 Dilithium Networks Pty Ltd. Method and apparatus for audio transcoding
US7876959B2 (en) * 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
EP1903559A1 (en) * 2006-09-20 2008-03-26 Deutsche Thomson-Brandt Gmbh Method and device for transcoding audio signals
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
WO2011086923A1 (ja) 2010-01-14 2011-07-21 パナソニック株式会社 符号化装置、復号装置、スペクトル変動量算出方法及びスペクトル振幅調整方法
US10269375B2 (en) * 2016-04-22 2019-04-23 Conduent Business Services, Llc Methods and systems for classifying audio segments of an audio signal
CN111901384B (zh) * 2020-06-29 2023-10-24 成都质数斯达克科技有限公司 处理报文的***、方法、电子设备以及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146997A (ja) * 1994-11-21 1996-06-07 Hitachi Ltd 符号変換装置および符号変換システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE138073C (ko) *
JPS61180299A (ja) * 1985-02-06 1986-08-12 日本電気株式会社 コ−デツク変換装置
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
FR2700087B1 (fr) * 1992-12-30 1995-02-10 Alcatel Radiotelephone Procédé de positionnement adaptatif d'un codeur/décodeur de parole au sein d'une infrastructure de communication.
JP3747492B2 (ja) 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US5995923A (en) 1997-06-26 1999-11-30 Nortel Networks Corporation Method and apparatus for improving the voice quality of tandemed vocoders
JP4132154B2 (ja) 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146997A (ja) * 1994-11-21 1996-06-07 Hitachi Ltd 符号変換装置および符号変換システム

Also Published As

Publication number Publication date
KR20070086726A (ko) 2007-08-27
HK1042979B (zh) 2005-03-24
AU3232600A (en) 2000-08-29
ATE268045T1 (de) 2004-06-15
EP1157375B1 (en) 2004-05-26
EP1157375A1 (en) 2001-11-28
KR20010102004A (ko) 2001-11-15
US6260009B1 (en) 2001-07-10
DE60011051T2 (de) 2005-06-02
JP4550289B2 (ja) 2010-09-22
WO2000048170A1 (en) 2000-08-17
WO2000048170A9 (en) 2001-09-07
CN1347550A (zh) 2002-05-01
DE60011051D1 (de) 2004-07-01
KR100873836B1 (ko) 2008-12-15
JP2002541499A (ja) 2002-12-03
HK1042979A1 (en) 2002-08-30
US20010016817A1 (en) 2001-08-23
CN1154086C (zh) 2004-06-16

Similar Documents

Publication Publication Date Title
KR100769508B1 (ko) Celp 트랜스코딩
JP5373217B2 (ja) 可変レートスピーチ符号化
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
US7788105B2 (en) Method and apparatus for coding or decoding wideband speech
KR100804461B1 (ko) 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치
JP4824167B2 (ja) 周期的スピーチコーディング
JP3490685B2 (ja) 広帯域信号の符号化における適応帯域ピッチ探索のための方法および装置
US6871176B2 (en) Phase excited linear prediction encoder
JP4874464B2 (ja) 遷移音声フレームのマルチパルス補間的符号化
EP1204968B1 (en) Method and apparatus for subsampling phase spectrum information
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
KR100499047B1 (ko) 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
JP3888097B2 (ja) ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
Drygajilo Speech Coding Techniques and Standards
Bakır Compressing English Speech Data with Hybrid Methods without Data Loss
KR0156983B1 (ko) 음성 부호기
GB2352949A (en) Speech coder for communications unit
JPH06195098A (ja) 音声符号化方法

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
A107 Divisional application of patent
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]
FPAY Annual fee payment

Payment date: 20120927

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130927

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140929

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150930

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160929

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170929

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180928

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190924

Year of fee payment: 13