KR20110086919A - 에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치 - Google Patents

에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치 Download PDF

Info

Publication number
KR20110086919A
KR20110086919A KR1020100006314A KR20100006314A KR20110086919A KR 20110086919 A KR20110086919 A KR 20110086919A KR 1020100006314 A KR1020100006314 A KR 1020100006314A KR 20100006314 A KR20100006314 A KR 20100006314A KR 20110086919 A KR20110086919 A KR 20110086919A
Authority
KR
South Korea
Prior art keywords
smv
amr
pitch delay
lsp
adaptive codebook
Prior art date
Application number
KR1020100006314A
Other languages
English (en)
Inventor
이인성
김영준
이덕종
정규혁
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020100006314A priority Critical patent/KR20110086919A/ko
Publication of KR20110086919A publication Critical patent/KR20110086919A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

SMV 및 AMR 음성부호화 기법 상호간의 상호부호화를 위한 방법 및 장치가 개시된다. SMV를 AMR로 변환하기 위한 방법은 SMV 음성 부호화 기법으로 부호화된 비트스트림을 복호화하여 SMV 파라미터들을 생성하기 위한 SMV 파라미터 복호화 단계, SMV LSP를 AMR 음성 부호화 기법에서 이용될 AMR LSP로 변환하는 LSP 변환 단계, 전송률이 1 또는 1/2인지 판단하고, 긍정일 경우 SMV 피치 지연 및 적응 코드북 이득을 각각 AMR 피치 지연 및 적응 코드북 이득으로 변환하고, 부정일 경우 AMR 피치 지연을 0으로 설정하는 피치 지연/적응 코드북 변환 단계, SMV 적응 코드북 벡터 및 적응 코드북 이득을 이용하여 SMV 고정 코드북 벡터를 AMR 고정 코드북 벡터로 변환하는 고정 코드북 변환 단계, 및 AMR LSP, AMR 피치 지연, 코드북 이득, 및 AMR 고정 코드북 벡터를 포함하는 AMR 파라미터들을 이용하여 SMV 음성 부호화 기법로 부호화된 비트스트림을 AMR 음성 부호화 기법으로 인코딩하는 AMR 파라미터 부호화 단계를 포함한다. 본 발명에 의하여 연산량을 증가시키지 않으면서도 음질을 유지한 채 AMR 및 SMV 기법 간의 상호부호화가 가능하다.
[색인어]
SMV, AMR, 상호부호화

Description

에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치{Transcoding method and transcoding apparatus for SMV and AMR speech coding schemes}
본 발명은 서로 다른 통신을 이용하는 데이터 통신망간의 통합과 효율적인 연동 방법에 관한 것으로, 특히, SMV(Selectable Mode Vocoder) 및 AMR(Adaptive Multi-Rate) 음성 부호화 기법들 상호간의 효과적인 상호부호화를 통하여 SMV와 AMR을 연동하기 위한 방법 및 장치에 관한 것이다.
다양한 통신망들은 각각의 통신망에 따라 적합한 음성부호화 방법을 표준으로 정하여 사용하고 있다. 예를 들어, 일반 유선 전화망은 펄스 부호 변조(Pulse Code Modulation, PCM) 방식의 ITU G.711 음성 부호화기를 사용하고, VoIP 망에서는 CELP(Code Excited Linear Prediction) 방식의 ITU G.723과 ITU G.729.A 음성부호화기가 사용되고 있으며, 이동 통신망에서는 CELP 방식인 AMR(Adaptive Multi Rate)와 EVRC(Enhanced Variable Rate Codec) 음성 부호화기 등이 표준으로 사용되고 있다.
기본적인 SMV와 AMR 음성부호화기에 대해서 소개하면 다음과 같다.
도 1은 종래 기술에 의한 SMV 음성부호화기를 개념적으로 나타내는 블록도이다.
도 1에 도시된 SMV 음성부호화기(100)는 8.55 kbps(Rate 1), 4.0 kbps(Rate 1/2), 2.0kbps (Rate 1/4) 그리고 0.8 kbps(Rate 1/8)의 전송률을 가지는 다중 전송률 모드의 부호화기이다. 이들 모드는 네트워크 상황에 의해 결정되며, 프레임마다 다른 모드를 선택할 수 있기 때문에 평균 전송률과 음질의 균형을 적절히 조절할 수 있다. 각 프레임에 대한 전송률은 전송률 결정 알고리즘(Rate Decision Algorithm, RDA)에 의해 결정되며, 결정된 전송률에 따라 서로 다른 방식으로 LPC 합성 필터를 위한 여기 신호(excitation signal)를 계산한다. Rate 1과 Rate 1/2의 여기 신호 계산은 eX-CELP 방식으로 이루어지며, Rate 1/4의 여기 신호는 난수 발생기(Random Number Generator)에 의해 생성된 후, 2ms의 부프레임마다 이득을 곱하고 주파수 변형 필터(Frequency Shaping Filter)를 통과시켜 얻어진다. Rate 1/8은 난수 발생기에서 얻어진 신호에 하나의 이득 값을 곱하여 여기 신호가 생성된다.
도 2는 종래 기술에 의한 AMR 음성부호화기를 개념적으로 나타내는 블록도이다.
AMR 음성부호화기(200)는 4.75 kbps에서 12.2 kbps까지 8개의 모드를 지원하며, 모든 모드에서 공통적으로 선형 예측 분석이 수행된다. 그러면, 여기 신호는 적응 코드북 벡터와 고정 코드북 벡터에 각 코드북의 이득을 곱하여 더한 형태로 모델링 되며, ACELP(Algebraic Code Excited Linear Prediction) 방식을 사용한다.
그런데, 이와 같이 음성 부호화 기법이 다양하게 존재하기 때문에, 서로 다른 통신망의 효율적인 연동이 중요한 과제로 제기되고 있다. 그러나, 서로 다른 음성부호화기 표준은 서로 호환이 되지 않기 때문에, A라는 음성부호화기로 부호화된 패킷을 B라는 음성부호화기에 맞도록 복호화하는 과정이 필요하다.
이를 위한 방법에는 tandem 방식과 상호부호화 방식이 있다. tandem 방식은 연속적으로 부/복호화 과정을 반복하기 때문에 지연 시간이 길고 계산량이 많으며, 음질이 저하된다. 상호부호화 방법의 목적은 tandem 방식을 사용한 경우와 비슷한 음질을 유지하면서 계산량과 지연 시간을 감소시키는 것이다.
그런데, SMV 기법은 CDMA 2000 시스템을 위한 음성부호화기로 eX-CELP(extended Code Excited Linear Prediction) 방법을 기반으로 하며, AMR 기법은 GSM 과 WCDMA 이동통신에서 널리 사용되는 음성부호화기로 ACELP(Algebraic Code-Excited Linear Prediction) 방법을 기반으로 한다. 그러므로, AMR 기법을 지원하는 단말기를 이용해서는 SMV 기법을 지원하는 네트워크를 이용할 수 없다. 그런데, 최근 세계 어느 곳에서도 자신의 단말기를 이용하여 통화할 수 있는 로밍(roaming) 기술에 각광이 받고 있다. 이러한 로밍 기술을 구현하기 위해서는 서로 다른 통신 네트워크에서 이용되는 음성 부호화 기법 상호간의 호환성을 보장하는 것이 필요하다.
그러므로, SMV 및 AMR 기법을 모두 지원하는 단말기 등에서는 연산량을 증가시키지 않으면서도 음질을 유지한 채 AMR 및 SMV 기법 간의 상호부호화를 가능하게 하는 방법 및 장치가 절실히 요구된다.
본 발명의 목적은 AMR 및 SMV 간의 상호부호화 방법에서 음질 저하를 최소화하면서 계산량과 지연 시간을 감소시키기 위한 상호부호화 방법을 제공하는 것이다.
본 발명의 다른 목적은 LSP(Line Spectral Pairs) 변환, 피치 지연 변환, 펄스 재검색을 위한 고속 고정 코드북 벡터 탐색, 전송률 결정 방법을 적용하는, SMV 및 AMR 음성부호화기 간의 상호부호화 장치를 제공하는 것이다.
상기와 같은 목적들을 달성하기 위한 본 발명의 제1측면은, SMV(Selectable Mode Vocoder) 음성 부호화 기법으로 부호화된 비트스트림을 AMR(Adaptive Multi-Rate) 음성 부호화 기법으로 부호화된 비트스트림으로 변환하기 위한 방법에 관한 것이다. 본 발명에 따른 방법은 SMV 음성 부호화 기법으로 부호화된 비트스트림을 복호화하여 SMV LSP(Line Spectral Pairs), SMV 피치 지연, 전송률(SMV rate), 적응 코드북 이득, 및 고정 코드북 이득을 포함하는 SMV 파라미터들을 생성하기 위한 SMV 파라미터 복호화 단계, SMV LSP를 AMR 음성 부호화 기법에서 이용될 AMR LSP로 변환하는 LSP 변환 단계, 전송률이 1 또는 1/2인지 판단하고, 긍정일 경우 SMV 피치 지연 및 적응 코드북 이득을 각각 AMR 피치 지연 및 적응 코드북 이득으로 변환하고, 부정일 경우 AMR 피치 지연을 0으로 설정하는 피치 지연/적응 코드북 변환 단계, SMV 적응 코드북 벡터 및 적응 코드북 이득을 이용하여 SMV 고정 코드북 벡터를 AMR 고정 코드북 벡터로 변환하는 고정 코드북 변환 단계, 및 AMR LSP, AMR 피치 지연, 코드북 이득, 및 AMR 고정 코드북 벡터를 포함하는 AMR 파라미터들을 이용하여 SMV 음성 부호화 기법으로 부호화된 비트스트림을 AMR 음성 부호화 기법으로 인코딩하는 AMR 파라미터 부호화 단계를 포함한다. 특히, LSP 변환 단계는 복호화된 패킷 중 n번째 프레임의 네 번째 부프레임에 해당하는 SMV LSP를 그대로 AMR LSP의 n번째 프레임의 네 번째 부프레임으로서 이용하는 단계, 및 SMV LSP 중 (n-1)번째 프레임 및 n번째 프레임 각각의 네 번째 부프레임에 해당하는 SMV LSP를 보간하여 AMR LSP의 n번째 프레임의 두 번째 부프레임에 해당하는 AMR LSP로서 이용하는 단계를 포함한다. 또한, 피치 지연/적응 코드북 변환 단계는 전송률이 1 또는 1/2일 경우, 피치 지연의 개회로 피치 지연 과거값을 AMR의 피치 지연 PAMR로 예측하는 단계, PAMR 및 SMV의 폐회로 피치 지연 PSMV의 차이가 소정 문턱값보다 큰지 판단하고, 긍정일 경우 AMR의 피치 지연을 다시 검색하고, 부정일 경우 폐회로 피치 지연 PSMV을 피치 지연 PAMR로 설정하는 단계, 및 피치 지연 PAMR을 이용하여 적응 코드북(Adaptive Code Book, ACB)을 검색하는 ACB 검색 단계를 포함한다. 더 나아가, 고정 코드북 변환 단계는 SMV 적응 코드북 벡터 및 적응 코드북 이득으로부터 고정 코드북 검색을 위한 목적 신호를 생성하는 단계, 장구간 예측 잔여 신호 res LTP (n) 및 목적 신호 및 임펄스 응답 간의 상관도 d(n)을 이용하여 레퍼런스 벡터 b(n)를 연산하는 단계, 레퍼런스 벡터의 큰 값으로부터 선택하여 위치 검색을 위한 초기 펄스 배열을 추출하는 단계, 목적 신호 및 임펄스 응답 간의 상관도 d(n) 및 임펄스 응답 간의 자기상관행렬 Φ(i,j)을 이용하여 초기 펄스 배열들의 검색 기준 Q k 를 연산하는 단계, 펄스 배열에 속하는 펄스들 중에서 인접한 두 트랙당 하나의 펄스를 제거하는 동작을 수행하여 두 개의 펄스를 제거하고, 제거된 펄스들을 반영하여 검색 기준 Q k 를 변경하며, 변경된 검색 기준 Q k 를 최대화하는 펄스를 제거된 펄스가 속해있는 트랙에서 선택하는 2펄스 재검색 단계, 및 2펄스 재검색 단계에서 얻어진 펄스 배열로부터 한 개씩 펄스를 제거하면서 제거된 펄스들을 반영하여 검색 기준 Q k 를 변경하며, 변경된 검색 기준 Q k 를 최대화하는 펄스를 선택하는 단일 펄스 재검색 단계를 포함한다. 특히, 2펄스 재검색 단계는 목적 신호 및 임펄스 응답 간의 상관도 d(n) 및 임펄스 응답 간의 자기상관행렬 Φ(i,j)은 사전 선택된 부호를 포함하도록 수정하여 검색을 단순화하는 단계를 더 포함한다.
상기와 같은 목적들을 달성하기 위한 본 발명의 제2 측면은, AMR 음성 부호화 기법으로 부호화된 비트스트림을 SMV 음성 부호화 기법으로 부호화된 비트스트림으로 변환하기 위한 방법에 관한 것이다. 본 발명의 제2측면에 의한 방법은 AMR 음성 부호화 기법으로 부호화된 비트스트림을 복호화하여 AMR LSP, AMR 피치 지연, 적응 코드북 이득, 및 고정 코드북 이득을 포함하는 AMR 파라미터들을 생성하기 위한 AMR 파라미터 복호화 단계, AMR LSP를 SMV 음성 부호화 기법에서 이용될 SMV LSP로 변환하는 LSP 변환 단계, 적응 코드북 이득, 고정 코드북 이득, 잡음-신호비(Noise to Signal Ratio, NSR), 및 AMR 파라미터 복호화 단계에서 복원된 음성 신호를 이용하여 SMV 부호화에 이용될 전송률이 1, 1/2, 1/4 및 1/8 중 어느 것인지 결정하는 전송률 결정 단계, 전송률이 1/4 또는 1/8이면, 난수 발생기를 이용하여 여기 신호(excitation signal)를 생성하는 단계, 전송률이 1 또는 1/2이면, AMR 피치 지연 및 적응 코드북 이득을 각각 SMV 피치 지연 및 적응 코드북 이득으로 변환하는 피치 지연/적응 코드북 변환 동작 및 AMR 적응 코드북 벡터 및 적응 코드북 이득을 이용하여 AMR 고정 코드북 벡터를 SMV 고정 코드북 벡터로 변환하는 고정 코드북 변환 동작을 수행하는 단계, 및 SMV LSP, SMV 피치 지연, 코드북 이득, 및 SMV 고정 코드북 벡터를 포함하는 SMV 파라미터들을 이용하여 AMR 음성 부호화 기법으로 부호화된 비트스트림을 SMV 음성 부호화 기법으로 인코딩하는 SMV 파라미터 부호화 단계를 포함한다. 특히, LSP 변환 단계는 복호화된 패킷 중 n번째 프레임의 네 번째 부프레임에 해당하는 AMR LSP를 그대로 SMV LSP의 n번째 프레임의 네 번째 부프레임으로서 이용하는 단계를 포함한다. 또한, 전송률 결정 단계는 적응 코드북 이득과 고정 코드북 이득을 참고하여 현재 프레임의 잡음 대 신호비(NSR)가 소정 문턱값 이상이거나, AMR 피치 지연의 편차가 크다면 묵음으로 분류하는 제1 분류 단계, 묵음이 아닌 현재 프레임을 적응 코드북 이득의 크기를 이용하여 무성음과 유성음을 분류하는 제2 분류 단계, 유성음으로 분류된 프레임의 과거 프레임의 클래스가 무성음이었는지 여부에 따라 변화 여부를 판단하는 제3 분류 단계, 변화가 일어나지 않은 프레임의 경우 적응 코드북 이득 및 피치 지연의 변화에 따라 정상 상태인지 비정상상태인지 여부를 판단하는 제4 분류 단계, 및 분류 단계들의 분류 결과에 따라 차등적으로 프레임의 전송률을 선택하는 단계를 포함한다. 더 나아가, 피치 지연/적응 코드북 변환 동작은, 피치 지연의 개회로 피치 지연 과거값을 SMV 피치 지연으로 예측하는 단계, SMV 피치 지연 및 AMR의 폐회로 피치 지연의 차이가 소정 문턱값보다 큰지 판단하고, 긍정일 경우 SMV의 피치 지연을 다시 검색하고, 부정일 경우 폐회로 피치 지연을 피치 지연으로 설정하는 단계, 및 피치 지연을 이용하여 적응 코드북을 검색하는 ACB 검색 단계를 포함한다.
상기와 같은 목적들을 달성하기 위한 본 발명의 제3 측면은 SMV 음성 부호화 기법으로 부호화된 비트스트림을 AMR 음성 부호화 기법으로 부호화된 비트스트림으로 변환하기 위한 장치에 관한 것이다. 본 발명의 제3 측면에 의한 장치는 컴퓨터에 의하여 실행될 수 있는 명령들을 실행하기 위한 프로세서, 및 프로세서에 연결되며, 컴퓨터에 의하여 실행될 수 있는 명령들을 저장하기 위한 메모리를 포함하며, 컴퓨터에 의하여 실행될 수 있는 명령들은, 본 발명의 제1 측면에 의한 방법을 실행하도록 적응된다.
상기와 같은 목적들을 달성하기 위한 본 발명의 제4 측면은 AMR 음성 부호화 기법으로 부호화된 비트스트림을 SMV 음성 부호화 기법으로 부호화된 비트스트림으로 변환하기 위한 장치에 관한 것이다. 본 발명의 제4 측면에 의한 장치는 컴퓨터에 의하여 실행될 수 있는 명령들을 실행하기 위한 프로세서, 및 프로세서에 연결되며, 컴퓨터에 의하여 실행될 수 있는 명령들을 저장하기 위한 메모리를 포함하며, 컴퓨터에 의하여 실행될 수 있는 명령들은, 본 발명의 제2 측면에 의한 방법을 실행하도록 적응된다.
본 발명에 의하여, SMV에서 AMR로의 부호화함에 있어서 LSP 변환 방법과 피치 지연 및 적응 코드북 변환 방법, 고정 코드북 변환 방법을 적용하여 추출한 파라미터를 AMR 부호화기에 전송한다. 또한 AMR에서 SMV로의 부호화함에 있어서, SMV의 모드에 적용할 수 있도록 AMR 복호화된 신호의 전송률과 타입 결정 방법 및 여기 신호 변환 방법을 적용하여 추출한 파라미터를 SMV 부호화기에 전송한다. 그러므로, 본 발명을 이용하면 SMV와 AMR의 상호부호화기를 적용하여 서로 다른 통신망을 사용하는데 있어서 적은 계산량과 지연 시간으로 음질 성능을 유지할 수 있다.
도 1은 종래 기술에 의한 SMV 음성부호화기를 개념적으로 나타내는 블록도이다.
도 2는 종래 기술에 의한 AMR 음성부호화기를 개념적으로 나타내는 블록도이다.
도 3은 본 발명의 제1 측면에 따른 SMV에서 AMR로의 상호부호화 방법을 나타내는 흐름도이다.
도 4는 본 발명의 제1 및 제3 측면에 따른 상호부호화 방법 및 장치에서 수행되는 LSP 변환 동작을 설명하는 도면이다.
도 5는 본 발명의 제1 및 제3 측면에 따른 상호부호화 방법 및 장치에서 수행되는 SMV에서 AMR로의 피치 지연 변환 동작을 나타내는 흐름도이다.
도 6은 본 발명의 제3 측면에 따르는 SMV에서 AMR로의 상호부호화 장치를 개념적으로 나타내는 블록도이다.
도 7은 본 발명의 제2 측면에 따르는 AMR로부터 SMV로의 상호부호화 방법을 나타내는 흐름도이다.
도 8은 본 발명의 제4 측면에 따르는 AMR로부터 SMV로의 상호부호화 장치를 개념적으로 나타내는 블록도이다.
도 9는 도 7에 도시된 상호부호화 방법에 포함되는 전송률 결정 과정을 설명하기 위한 도면이다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 3은 본 발명의 제1 측면에 따른 SMV에서 AMR로의 상호부호화 방법을 나타내는 흐름도이다.
우선, SMV 비트스트림을 수신한다(S310). 그러면, 수신된 SMV 비트스트림을 복호화하여 부호화 과정에서 이용된 SMV 파라미터를 생성한다(S320). 이 때, SMV의 여기 신호(excitation signal)는 AMR 코드북 검색 과정에서 사용될 목적 신호를 계산하는데 이용된다.
LSP 변환 단계(S330)는 전송률과 무관하게 동일하게 수행된다. LSP 변환이 수행되면, SMV의 전송률이 1 또는 1/2인지 여부가 판단된다(S340). SMV의 전송률을 확인하는 이유는, SMV의 4 개의 전송률에 따라 서로 다른 상호부호화 과정이 수행되어야 하기 때문이다.
만일, 전송률이 1/4 또는 1/8이라면, 피치 지연을 0으로 설정한다(S350). 반면에, 전송률이 1 또는 1/2이라면, 피치 지연 및 적응 코드북 변환 동작이 수행된다(S360). 이와 같이 피치 지연과 적응 코드북이 변환되면 고정 코드북 변환 동작(S370)이 수행된다. 이와 같이 AMR 음성부호화를 위한 모든 AMR 파라미터들이 결정되면, 결정된 AMR 파라미터들을 이용하여 AMR 음성부호화를 수행하여 AMR 비트스트림을 생성한다.
도 3에 도시된 상호부호화 방법을 구현하기 위한 장치가 도 6에 도시된다.
도 6은 본 발명의 제3 측면에 따르는 SMV에서 AMR로의 상호부호화 장치를 개념적으로 나타내는 블록도이다.
도 6에 도시된 상호부호화 장치(600)는 SMV 파라미터 복호화기(610), LSP 변환기(620), 전송률 결정기(630), 피치 지연 및 적응 코드북 변환기(640), 고정 코드북 변환기(650), 및 AMR 파라미터 부호화기를 포함한다(660).
SMV 파라미터 복호기(610)는 SMV의 부호화된 패킷에 파라미터 복호화 과정을 수행하여, 상호부호화 과정에서 변환되어야하는 파라미터들을 선택한다. 그 후, SMV 파라미터 복호기(610)는 SMV의 여기 신호를 이용하여 AMR 코드북 검색 과정에서 사용될 목적 신호를 계산한다. SMV의 4개의 전송률에 따라 다른 상호부호화 과정이 이루어지지만, LSP 변환 과정은 전송률과 관계없이 동일하게 수행된다. 피치 지연 및 적응 코드북 변환기(640)는 SMV의 Rate 1과 Rate 1/2일 경우에만 동작한다. 그 이유는 Rate 1/4와 Rate 1/8은 피치에 대한 정보가 없기 때문에 피치 지연 및 적응 코드북 변환 과정이 실행되지 않기 때문이다. 또한, 고정 코드북 변환기(650)는 모든 전송률에서 동작한다. AMR 파라미터 부호화기(660)는 LSP 변환기(620) 및 고정 코드북 변환기(650)의 출력을 이용하여 AMR 비트스트림을 생성한다.
도 4는 본 발명의 제1 및 제3 측면에 따른 상호부호화 방법 및 장치에서 수행되는 LSP 변환 동작을 설명하는 도면이다. 도 4에서 진한 부분은 윈도우 가중치를 나타낸다.
도 4에서 SMV와 AMR은 프레임 크기 및 부프레임 개수가 같으며, SMV의 4번째 부프레임과 AMR의 2번째와 4번째 부프레임은 가중치된 윈도우가 사용되었다. 또한 AMR의 12.2 kbps 모드에서 2번째와 4번째 부프레임의 LSP를 전송하는 것만 다를 뿐, 그 외의 모든 SMV와 AMR의 모드에서 4번째 부프레임에 해당하는 LSP만 양자화하여 전송한다. 따라서 AMR 음성부호화기에서 사용될 LSP는 SMV의 LSP를 그대로 사용하거나 간단한 선형 보간(Linear Interpolation)을 통하여 변환될 수 있다. 수학식 1은 AMR의 12.2 kbps에서만 사용되며, 수학식 2는 모든 전송률에서 사용된다.
Figure pat00001
Figure pat00002
도 5는 본 발명의 제1 및 제3 측면에 따른 상호부호화 방법 및 장치에서 수행되는 SMV에서 AMR로의 피치 지연 변환 동작을 나타내는 흐름도이다.
피치 지연은 CELP 방식에서 적응 코드북 검색에 중요한 역할을 하기 때문에 작은 오차도 음질에 큰 영향을 미친다. 따라서 SMV 패킷에서의 복호화된 피치 지연을 AMR 복호화 과정에서 그대로 사용할 경우 음질 저하가 발생한다.
피치 지연 변환기(도 6의 640 참조)는 피치 지연을 개회로 피치 지연 과거값을 이용하여 예측한다(S510). 그러면, 예측된 피치 지연은 파라미터 복호화 과정을 통하여 복호화된 SMV의 피치 지연과 비교된다(S520). 만일 P SMV P AMR 의 차이가 문턱 값보다 크면, 좀 더 정확한 피치 지연을 얻기 위해 AMR의 개회로 피치 지연 검색을 수행한다(S540). 반면에, P SMV P AMR 의 차이가 문턱 값보다 작으면 SMV의 폐회로 피치 지연이 AMR의 개회로 피치 지연으로 선택되어 개회로 피치 지연 검색 과정을 생략한다(S530).
다시 도 6을 참조하면, 고정 코드북 벡터 변환기(650)는 두 음성부호화기의 부호화 과정에서 가장 큰 계산량이 요구되는 동작을 수행한다. 본 발명에서 사용된 고속 고정 코드북 검색 장치는 레퍼런스 벡터를 이용하는 반복 펄스 위치 재검색 장치이다. 즉, 본 발명에 의한 고정 코드북 벡터 변환기(650)는 레퍼런스 벡터로부터 추출해낸 펄스 배열을 사용하여 2 펄스 재검색을 먼저 수행한 뒤 단일 펄스 재검색을 수행한다.
수학식 3은 고정 코드북 목적 신호를 나타낸다.
Figure pat00003
수학식 3에서 x(n)은 적응 코드북 목적 신호이며, y(n)은 필터링 된 적응 코드북 벡터, g p 는 양자화 되지 않은 적응 코드북 이득이다. g p 는 적응 코드북 벡터가 얼마나 여기 신호를 잘 모델링하는지에 대한 척도이다. 그러므로, g p 가 높은 프레임은 고정 코드북의 기여도가 상대적으로 낮고, 반대로 g p 가 낮은 프레임은 고정 코드북에 의한 기여가 상대적으로 중요해진다.
또한, 다음 수학식 4 및 5를 참조한다.
Figure pat00004
Figure pat00005
수학식 4 및 5에서 d(n)은 목적 신호인 x 2(n)와 임펄스 응답인 h(n) 간의 상관도이며, Φ(i,j)는 h(n) 간의 자기상관행렬이다.
그러면, 고정 코드북은 검색 기준식인 다음 수학식 6을 최대화하는 펄스 위치들을 선택한다.
Figure pat00006
검색의 목적은 최적화된 펄스 위치를 가지고 코드 벡터를 결정하는 것이다. 최적화된 펄스 위치를 구하기 위해서는 우선 레퍼런스 벡터를 나타내는 다음 수학식 7을 이용하여 초기 검색을 위한 펄스들의 위치를 얻어낸다.
Figure pat00007
수학식 7에서, res LTP (n)은 장구간 예측 잔여 신호이다.
그러면, 각 트랙에 위치할 수 있는 펄스들은 b(n)에서 큰 값부터 선택하여 위치 검색을 위한 초기 펄스 배열을 만들어낸다. 2펄스 재검색과 단일 펄스 재검색을 위해서는 초기화된 펄스들의 검색 기준 Q k 가 계산되어 있어야 된다.
검색을 단순화하기 위해서 신호 d(n)과 행렬 Φ(i,j)는 미리 선택된 부호를 포함하기 위해 수정된다. 수정된 신호 d'(n)과 Φ'(i,j)는 수학식 8 및 9로 정의되며, s b (n)은 b(n)의 부호이다.
Figure pat00008
Figure pat00009
그러면, 수학식 8 및 9를 이용하여 수학식 6의 분자의 RE를 구하면 다음 수학식 10 및 11과 같다.
Figure pat00034
Figure pat00011
R과 E가 구해지면, 먼저 2펄스 재검색이 수행된다. 즉, 인접한 두 트랙에서 하나의 펄스씩 두 개의 펄스를 제거한 후, 펄스가 제거된 트랙에서 새로운 펄스 조합을 검색한다. 이는 검색 기준 Q k 를 최대화하는 것을 선택함으로써 인접한 두 개의 트랙에서 기존에 검색된 펄스를 검색하게 된다. 두 펄스가 제거된 뒤 펄스가 제거된 후의 검색 기준 Q k ''의 분자와 분모는 수학식 12 및 13을 이용하여 다시 계산된다.
Figure pat00012
Figure pat00033
그러면, 다음 단계에서 분자와 분모는 새로 추가된 펄스의 변화량만큼 더해져 수정된다. 제거된 펄스가 속해 있는 트랙에서 새로운 Q k 을 최대화하는 펄스를 선택하며, RE는 수학식 14 및 15로 수정된다.
Figure pat00014
Figure pat00015
새로운 펄스를 검색하는데 있어서 v h (n)과 R hv (m)은 해당 트랙에서 선택 가능한 모든 경우에 대하여 실행 중에 수학식 16 및 17에 의하여 계산된다.
Figure pat00016
Figure pat00017
상기 2펄스 재검색을 통해 얻어진 펄스 배열을 가지고 단일 펄스 재검색을 수행한다. 각각의 반복에서 트랙 내 각 펄스의 가장 적절한 위치는 트랙 내에서 이전에 검색되어 있는 다른 펄스들의 위치를 유지하면서 검색한다. 새로운 펄스를 검색하기 위해 먼저 한 개의 펄스 위치를 제거한 뒤 제거된 후의 Q k 값을 계산한다. 한 개의 펄스 위치가 제거된 후의 검색 기준 Q k '의 분자와 분모는 다음 수학식 18 및 19에 의해 계산된다.
Figure pat00018
Figure pat00019
다음 단계에서 분자와 분모는 새로 추가된 펄스의 변화량만큼 더해져 수정된다. 제거된 펄스가 속해 있는 트랙에서 새로운 Q k 를 최대화하는 펄스를 선택한다. RE는 수학식 20 및 21에 의해 수정된다.
Figure pat00020
Figure pat00021
이하, AMR에서 SMV 음성부호화기로의 상호부호화 기술에 대하여 설명된다.
도 7은 본 발명의 제2 측면에 따르는 AMR로부터 SMV로의 상호부호화 방법을 나타내는 흐름도이다.
AMR 비트스트림이 수신되면(S700), AMR 비트스트림을 복호화하여 AMR LSP, AMR 피치 지연, 적응 코드북 이득, 및 고정 코드북 이득을 포함하는 AMR 파라미터들을 생성한다(S710). 그러면, AMR 파라미터 중에서 AMR LSP를 SMV 음성 부호화 기법에서 이용될 SMV LSP로 변환한다(S720). 그러면, 적응 코드북 이득, 고정 코드북 이득, 잡음-신호비(Noise to Signal Ratio, NSR), 및 AMR 파라미터 복호화 단계에서 복원된 음성 신호를 이용하여 SMV 부호화에 이용될 전송률이 1, 1/2, 1/4 및 1/8 중 어느 것인지 결정한다(S730). 전송률 결정 방법에 대해서는 도 9를 이용하여 상세히 후술된다.
전송률이 결정되면, 해당 결정률이 1 또는 1/2인지, 아니면 1/4 또는 1/8인지 여부를 판단한다(S740). 만일 전송률이 1/4 또는 1/8이라면, 난수 발생기를 이용하여 여기 신호를 생성한다(S750). 반면에, 전송률이 1 또는 1/2이면, AMR 피치 지연 및 적응 코드북 이득을 각각 SMV 피치 지연 및 적응 코드북 이득으로 변환한다(S760).
또한, AMR 적응 코드북 벡터 및 적응 코드북 이득을 이용하여 AMR 고정 코드북 벡터를 SMV 고정 코드북 벡터로 변환한다(S770). 이와 같이 SMV 파라미터가 구해지면, 구해진 SMV 파라미터를 부호화하여 SMV 비트스트림을 생성한다(S780).
도 8은 본 발명의 제4 측면에 따르는 AMR로부터 SMV로의 상호부호화 장치를 개념적으로 나타내는 블록도이다.
도 8에 도시된 상호부호화 장치(800)는 AMR 파라미터 복호화기(810), LSP 변환기(820), 전송률 결정기(830), 피치 지연 및 적응 코드북 변환기(840), 고정 코드북 변환기(950), 여기 신호 변환기(860), 및 SMV 파라미터 부호화기(870)를 포함한다(660).
AMR 파라미터 복호화기(810)는 AMR 부호화된 패킷에 파라미터 복호화 과정을 수행하여, 상호부호화 과정에서 변환되어야하는 파라미터들을 선택한다. 그러면, LSP 변환기(820)는 복호화된 신호를 LSP로 변환하여 SMV 파라미터 부호화기(870)로 전달한다. 전송률 결정기(830)에서는 클래스 분류를 통하여 전송률을 결정하며, 전송률에 따라 피치 지연 및 적응 코드북 변환기(840)와 여기 신호 변환기(860)로 전송한다. 피치 지연 및 적응 코드북 변환기(804)와 고정 코드북 변환기(805)의 구성 및 동작은 SMV에서 AMR 음성부호화기로의 피지 지연 및 적응 코드북 변환기(640)와 고정 코드북 변환기(650)와 유사하므로 명세서의 간략화를 위하여 중복 설명이 생략된다.
AMR에서 SMV 음성부호화기로의 상호부호화기는 AMR에서 복호화된 LSP를 가지고 직접적인 변환을 통하여 얻을 수 있으며, SMV의 모든 전송률에서 변환된다. 그러나 AMR과는 달리 SMV는 각 프레임마다 전송률과 타입을 결정하고 이에 따른 여기 신호 및 양자화 과정이 필요하다. 전송률과 타입을 구하기 위하여 AMR의 여기 신호에 관한 정보와 AMR 복호화 과정으로 복원된 음성 신호를 이용한다. Rate 1과 Rate 1/2는 피치 변환을 통해 얻어진 개회로 피치 지연을 바탕으로 SMV의 적응 코드북 검색 방식을 통하여 폐회로 피치 지연과 적응 코드북 이득을 구한 후 고정 코드북 검색을 수행한다. Rate 1/4과 Rate 1/8 일 때는 여기 신호 변환기(860)가 난수 발생기를 사용하여 여기 신호를 생성한다.
AMR과 SMV 음성부호화기에서 LSP 변환은 프레임 및 부프레임 크기가 동일하고, 부프레임 수도 같다. 그러므로, LSP 변환기(820)는 AMR에서 복호화된 4번째 부프레임을 다음 수학식 22와 같이 그대로 적용한다.
Figure pat00022
도 9는 도 7에 도시된 상호부호화 방법에 포함되는 전송률 결정 과정을 설명하기 위한 도면이다.
SMV의 전송률을 결정하기 위해 AMR 패킷에서 CELP 파라미터(적응 코드북 이득, 고정 코드북 이득, NSR(Noise to Signal Ratio))와 AMR 패킷으로 복호화된 복원 음성신호를 이용한다. SMV에서는 묵음(Silence), 잡음(Noise-like), 무성음(Unvoiced), 변화(Onset), 비정상적인 유성음(Unstationary Voiced), 정상적인 유성음(Stationary Voiced)의 6종류로 분류하지만, 상호부호화기에서는 잡음을 제외한 5가지 프레임 클래스로 분류된다.
1차 분류 단계(901)에서는 AMR 패킷에서 필요한 정보(피치 지연, NSR, 적응 코드북 이득, 고정 코드북 이득)를 이용하여 음성(Speech)과 묵음을 1차 분류한다. 이때, 보통 무성음이나 묵음의 피치 지연이 큰 경향을 가지기 때문에 적절한 선형 과정을 거친 적응 코드북 이득과 고정 코드북 이득을 참고하여 잡음 대 신호비(NSR)가 일정 값 이상이거나, 피치 지연이 편차가 큰 경우 묵음으로 분류한다. 그 이유는 보통 무성음이나 묵음의 피치 지연이 큰 경향을 가지기 때문이다.
2차 분류 단계(902)에서는 음성 구간에서는 적응 코드북 이득의 크기를 이용하여 무성음과 유성음으로 분류한다.
3차 분류 단계(903)에서는 유성음 구간에서 지난 프레임의 프레임 클래스가 무성음인 경우는 변화(Onset)로 분류하고, 그렇지 않을 경우 유성음으로 분류한다.
4차 분류 단계(904)에서는 유성음은 적응 코드북 이득과 피치 지연의 변화에 의해 정상 상태의 유성음과 비정상 상태의 유성음으로 프레임 안에서 분류한다. 최종적으로 평균 전송률 대 음성 품질이 가장 좋은 것으로 클래스 분류를 결정한다.
이와 같이 전송률과 클래스가 결정되면, SMV 개회로 피치 값은 AMR 패킷에서 복호화된 피치 지연으로 대치하고, 도 5에 도시된 방법과 비슷한 과정을 거친다. 즉, 직전의 과거 피치 지연 값과 비교를 통해 문턱값보다 작은 경우 개회로 분석을 생략하고 문턱값보다 큰 경우 좀 더 정확한 개회로 피치 지연 값을 얻기 위해 개회로 분석 과정이 수행된다. 결정된 개회로 피치 지연은 SMV의 폐회로 탐색에 이용된다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명에 의하여, SMV와 AMR의 상호부호화기를 적용하여 서로 다른 통신망을 사용하는데 있어서 적은 계산량과 지연 시간으로 음질 성능을 유지할 수 있다.
100: SMV 음성부호화기
200: AMR 음성부호화기
400: SMV에서 AMR로의 LSP 변환
500: SMV에서 AMR로의 피치 지연 변환부
600: SMV에서 AMR로의 음성부호화기
610: SMV 파라미터 복호화기
620: LSP 변환기
640: 피치 지연 및 적응 코드북 변환기
650: 고정 코드북 변환기
660: AMR 파라미터 부호화기
800: AMR에서 SMV로의 상호부호화기
810: AMR 파라미터 복호화기
820: LSP 변환기
830: 전송률 결정기
840: 피치 지연 및 적응 코드북 변환기
850: 고정 코드북 검색기
860: 여기 신호 변환부
870: SMV 파라미터 부호화기

Claims (18)

  1. SMV(Selectable Mode Vocoder) 음성 부호화 기법으로 부호화된 비트스트림을 AMR(Adaptive Multi-Rate) 음성 부호화 기법으로 부호화된 비트스트림으로 변환하기 위한 방법에 있어서,
    SMV 음성 부호화 기법으로 부호화된 비트스트림을 복호화하여 SMV LSP(Line Spectral Pairs), SMV 피치 지연, 전송률(SMV rate), 적응 코드북 이득, 및 고정 코드북 이득을 포함하는 SMV 파라미터들을 생성하기 위한 SMV 파라미터 복호화 단계;
    상기 SMV LSP를 AMR 음성 부호화 기법에서 이용될 AMR LSP로 변환하는 LSP 변환 단계;
    상기 전송률이 1 또는 1/2인지 판단하고, 긍정일 경우 상기 SMV 피치 지연 및 상기 적응 코드북 이득을 각각 AMR 피치 지연 및 적응 코드북 이득으로 변환하고, 부정일 경우 AMR 피치 지연을 0으로 설정하는 피치 지연/적응 코드북 변환 단계;
    SMV 적응 코드북 벡터 및 상기 적응 코드북 이득을 이용하여 SMV 고정 코드북 벡터를 AMR 고정 코드북 벡터로 변환하는 고정 코드북 변환 단계; 및
    상기 AMR LSP, 상기 AMR 피치 지연, 상기 코드북 이득, 및 상기 AMR 고정 코드북 벡터를 포함하는 AMR 파라미터들을 이용하여 SMV 음성 부호화 기법으로 부호화된 비트스트림을 AMR 음성 부호화 기법으로 인코딩하는 AMR 파라미터 부호화 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서, 상기 LSP 변환 단계는,
    상기 복호화된 패킷 중 n번째 프레임의 네 번째 부프레임에 해당하는 SMV LSP를 그대로 AMR LSP의 n번째 프레임의 네 번째 부프레임으로서 이용하는 단계; 및
    상기 SMV LSP 중 (n-1)번째 프레임 및 n번째 프레임 각각의 네 번째 부프레임에 해당하는 SMV LSP를 보간하여 AMR LSP의 n번째 프레임의 두 번째 부프레임에 해당하는 AMR LSP로서 이용하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서, 상기 피치 지연/적응 코드북 변환 단계는 상기 전송률이 1 또는 1/2일 경우,
    피치 지연의 개회로 피치 지연 과거값을 AMR의 피치 지연 PAMR로 예측하는 단계;
    상기 PAMR 및 SMV의 폐회로 피치 지연 PSMV의 차이가 소정 문턱값보다 큰지 판단하고, 긍정일 경우 AMR의 피치 지연을 다시 검색하고, 부정일 경우 상기 폐회로 피치 지연 PSMV을 상기 피치 지연 PAMR로 설정하는 단계; 및
    상기 피치 지연 PAMR을 이용하여 적응 코드북(Adaptive Code Book, ACB)을 검색하는 ACB 검색 단계를 포함하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서, 상기 고정 코드북 변환 단계는,
    상기 SMV 적응 코드북 벡터 및 적응 코드북 이득으로부터 고정 코드북 검색을 위한 목적 신호를 생성하는 단계;
    장구간 예측 잔여 신호 res LTP (n) 및 상기 목적 신호 및 임펄스 응답 간의 상관도 d(n)을 이용하여 레퍼런스 벡터 b(n)를 연산하는 단계;
    상기 레퍼런스 벡터의 큰 값으로부터 선택하여 위치 검색을 위한 초기 펄스 배열을 추출하는 단계;
    상기 목적 신호 및 임펄스 응답 간의 상관도 d(n) 및 임펄스 응답 간의 자기상관행렬 Φ(i,j)을 이용하여 상기 초기 펄스 배열들의 검색 기준 Q k 를 연산하는 단계;
    상기 펄스 배열에 속하는 펄스들 중에서 인접한 두 트랙당 하나의 펄스를 제거하는 동작을 수행하여 두 개의 펄스를 제거하고, 제거된 펄스들을 반영하여 검색 기준 Q k 를 변경하며, 변경된 검색 기준 Q k 를 최대화하는 펄스를 제거된 펄스가 속해있는 트랙에서 선택하는 2펄스 재검색 단계; 및
    상기 2펄스 재검색 단계에서 얻어진 펄스 배열로부터 한 개씩 펄스를 제거하면서 제거된 펄스들을 반영하여 검색 기준 Q k 를 변경하며, 변경된 검색 기준 Q k 를 최대화하는 펄스를 선택하는 단일 펄스 재검색 단계를 포함하는 것을 특징으로 하는 방법.
  5. 제4항에 있어서, 상기 2펄스 재검색 단계는,
    상기 목적 신호 및 임펄스 응답 간의 상관도 d(n) 및 상기 임펄스 응답 간의 자기상관행렬 Φ(i,j)은 사전 선택된 부호를 포함하도록 수정하여 검색을 단순화하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  6. AMR 음성 부호화 기법으로 부호화된 비트스트림을 SMV 음성 부호화 기법으로 부호화된 비트스트림으로 변환하기 위한 방법에 있어서,
    AMR 음성 부호화 기법으로 부호화된 비트스트림을 복호화하여 AMR LSP, AMR 피치 지연, 적응 코드북 이득, 및 고정 코드북 이득을 포함하는 AMR 파라미터들을 생성하기 위한 AMR 파라미터 복호화 단계;
    상기 AMR LSP를 SMV 음성 부호화 기법에서 이용될 SMV LSP로 변환하는 LSP 변환 단계;
    상기 적응 코드북 이득, 고정 코드북 이득, 잡음-신호비(Noise to Signal Ratio, NSR), 및 상기 AMR 파라미터 복호화 단계에서 복원된 음성 신호를 이용하여 SMV 부호화에 이용될 전송률이 1, 1/2, 1/4 및 1/8 중 어느 것인지 결정하는 전송률 결정 단계;
    상기 전송률이 1/4 또는 1/8이면, 난수 발생기를 이용하여 여기 신호(excitation signal)를 생성하는 단계;
    상기 전송률이 1 또는 1/2이면, 상기 AMR 피치 지연 및 적응 코드북 이득을 각각 SMV 피치 지연 및 적응 코드북 이득으로 변환하는 피치 지연/적응 코드북 변환 동작 및 AMR 적응 코드북 벡터 및 상기 적응 코드북 이득을 이용하여 AMR 고정 코드북 벡터를 SMV 고정 코드북 벡터로 변환하는 고정 코드북 변환 동작을 수행하는 단계; 및
    상기 SMV LSP, 상기 SMV 피치 지연, 상기 코드북 이득, 및 상기 SMV 고정 코드북 벡터를 포함하는 SMV 파라미터들을 이용하여 AMR 음성 부호화 기법으로 부호화된 비트스트림을 SMV 음성 부호화 기법으로 인코딩하는 SMV 파라미터 부호화 단계를 포함하는 것을 특징으로 하는 방법.
  7. 제6항에 있어서, 상기 LSP 변환 단계는,
    상기 복호화된 패킷 중 n번째 프레임의 네 번째 부프레임에 해당하는 AMR LSP를 그대로 SMV LSP의 n번째 프레임의 네 번째 부프레임으로서 이용하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 제6항에 있어서, 상기 전송률 결정 단계는,
    상기 적응 코드북 이득과 상기 고정 코드북 이득을 참고하여 현재 프레임의 잡음 대 신호비(NSR)가 소정 문턱값 이상이거나, AMR 피치 지연의 편차가 크다면 묵음으로 분류하는 제1 분류 단계;
    묵음이 아닌 현재 프레임을 적응 코드북 이득의 크기를 이용하여 무성음과 유성음을 분류하는 제2 분류 단계;
    유성음으로 분류된 프레임의 과거 프레임의 클래스가 무성음이었는지 여부에 따라 변화 여부를 판단하는 제3 분류 단계;
    변화가 일어나지 않은 프레임의 경우 상기 적응 코드북 이득 및 상기 피치 지연의 변화에 따라 정상 상태인지 비정상상태인지 여부를 판단하는 제4 분류 단계; 및
    상기 분류 단계들의 분류 결과에 따라 차등적으로 상기 프레임의 전송률을 선택하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 제6항에 있어서, 상기 피치 지연/적응 코드북 변환 동작은,
    피치 지연의 개회로 피치 지연 과거값을 SMV 피치 지연으로 예측하는 단계;
    상기 SMV 피치 지연 및 AMR의 폐회로 피치 지연의 차이가 소정 문턱값보다 큰지 판단하고, 긍정일 경우 SMV의 피치 지연을 다시 검색하고, 부정일 경우 상기 폐회로 피치 지연을 상기 피치 지연으로 설정하는 단계; 및
    상기 피치 지연을 이용하여 적응 코드북을 검색하는 ACB 검색 단계를 포함하는 것을 특징으로 하는 방법.
  10. SMV 음성 부호화 기법으로 부호화된 비트스트림을 AMR 음성 부호화 기법으로 부호화된 비트스트림으로 변환하기 위한 장치에 있어서,
    컴퓨터에 의하여 실행될 수 있는 명령들을 실행하기 위한 프로세서; 및
    상기 프로세서에 연결되며, 상기 컴퓨터에 의하여 실행될 수 있는 명령들을 저장하기 위한 메모리를 포함하며, 상기 컴퓨터에 의하여 실행될 수 있는 명령들은,
    SMV 음성 부호화 기법으로 부호화된 비트스트림을 복호화하여 SMV LSP, SMV 피치 지연, 전송률, 적응 코드북 이득, 및 고정 코드북 이득을 포함하는 SMV 파라미터들을 생성하기 위한 SMV 파라미터 복호화 동작;
    상기 SMV LSP를 AMR 음성 부호화 기법에서 이용될 AMR LSP로 변환하는 LSP 변환 동작;
    상기 전송률이 1 또는 1/2인지 판단하고, 긍정일 경우 상기 SMV 피치 지연 및 상기 적응 코드북 이득을 각각 AMR 피치 지연 및 적응 코드북 이득으로 변환하고, 부정일 경우 AMR 피치 지연을 0으로 설정하는 피치 지연/적응 코드북 변환 동작;
    SMV 적응 코드북 벡터 및 상기 적응 코드북 이득을 이용하여 SMV 고정 코드북 벡터를 AMR 고정 코드북 벡터로 변환하는 고정 코드북 변환 동작; 및
    상기 AMR LSP, 상기 AMR 피치 지연, 상기 코드북 이득, 및 상기 AMR 고정 코드북 벡터를 포함하는 AMR 파라미터들을 이용하여 SMV 음성 부호화 기법으로 부호화된 비트스트림을 AMR 음성 부호화 기법으로 인코딩하는 AMR 파라미터 부호화 동작을 수행하도록 적응되는 것을 특징으로 하는 장치.
  11. 제10항에 있어서, 상기 LSP 변환 동작은,
    상기 복호화된 패킷 중 n번째 프레임의 네 번째 부프레임에 해당하는 SMV LSP를 그대로 AMR LSP의 n번째 프레임의 네 번째 부프레임으로서 이용하는 동작; 및
    상기 SMV LSP 중 (n-1)번째 프레임 및 n번째 프레임 각각의 네 번째 부프레임에 해당하는 SMV LSP를 보간하여 AMR LSP의 n번째 프레임의 두 번째 부프레임에 해당하는 AMR LSP로서 이용하는 동작을 포함하는 것을 특징으로 하는 장치.
  12. 제10항에 있어서, 상기 피치 지연/적응 코드북 변환 동작은 상기 전송률이 1 또는 1/2일 경우,
    피치 지연의 개회로 피치 지연 과거값을 AMR의 피치 지연 PAMR로 예측하는 동작;
    상기 PAMR 및 SMV의 폐회로 피치 지연 PSMV의 차이가 소정 문턱값보다 큰지 판단하고, 긍정일 경우 AMR의 피치 지연을 다시 검색하고, 부정일 경우 상기 폐회로 피치 지연 PSMV을 상기 피치 지연 PAMR로 설정하는 동작; 및
    상기 피치 지연 PAMR을 이용하여 적응 코드북을 검색하는 ACB 검색 동작을 포함하는 것을 특징으로 하는 장치.
  13. 제10항에 있어서, 상기 고정 코드북 변환 동작은,
    상기 SMV 적응 코드북 벡터 및 적응 코드북 이득으로부터 고정 코드북 검색을 위한 목적 신호를 생성하는 동작;
    장구간 예측 잔여 신호 res LTP (n) 및 상기 목적 신호 및 임펄스 응답 간의 상관도 d(n)을 이용하여 레퍼런스 벡터 b(n)를 연산하는 동작;
    상기 레퍼런스 벡터의 큰 값으로부터 선택하여 위치 검색을 위한 초기 펄스 배열을 추출하는 동작;
    상기 목적 신호 및 임펄스 응답 간의 상관도 d(n) 및 임펄스 응답 간의 자기상관행렬 Φ(i,j)을 이용하여 상기 초기 펄스 배열들의 검색 기준 Q k 를 연산하는 동작;
    상기 펄스 배열에 속하는 펄스들 중에서 인접한 두 트랙당 하나의 펄스를 제거하는 동작을 수행하여 두 개의 펄스를 제거하고, 제거된 펄스들을 반영하여 검색 기준 Q k 를 변경하며, 변경된 검색 기준 Q k 를 최대화하는 펄스를 제거된 펄스가 속해있는 트랙에서 선택하는 2펄스 재검색 동작; 및
    상기 2펄스 재검색 동작에서 얻어진 펄스 배열로부터 한 개씩 펄스를 제거하면서 제거된 펄스들을 반영하여 검색 기준 Q k 를 변경하며, 변경된 검색 기준 Q k 를 최대화하는 펄스를 선택하는 단일 펄스 재검색 동작을 포함하는 것을 특징으로 하는 장치.
  14. 제13항에 있어서, 상기 2펄스 재검색 동작은,
    상기 목적 신호 및 임펄스 응답 간의 상관도 d(n) 및 상기 임펄스 응답 간의 자기상관행렬 Φ(i,j)은 사전 선택된 부호를 포함하도록 수정하여 검색을 단순화하는 동작을 더 포함하는 것을 특징으로 하는 장치.
  15. AMR 음성 부호화 기법으로 부호화된 비트스트림을 SMV 음성 부호화 기법으로 부호화된 비트스트림으로 변환하기 위한 장치에 있어서,
    컴퓨터에 의하여 실행될 수 있는 명령들을 실행하기 위한 프로세서; 및
    상기 프로세서에 연결되며, 상기 컴퓨터에 의하여 실행될 수 있는 명령들을 저장하기 위한 메모리를 포함하며, 상기 컴퓨터에 의하여 실행될 수 있는 명령들은,
    AMR 음성 부호화 기법으로 부호화된 비트스트림을 복호화하여 AMR LSP, AMR 피치 지연, 적응 코드북 이득, 및 고정 코드북 이득을 포함하는 AMR 파라미터들을 생성하기 위한 AMR 파라미터 복호화 동작;
    상기 AMR LSP를 SMV 음성 부호화 기법에서 이용될 SMV LSP로 변환하는 LSP 변환 동작;
    상기 적응 코드북 이득, 고정 코드북 이득, 잡음-신호비(NSR), 및 상기 AMR 파라미터 복호화 동작에서 복원된 음성 신호를 이용하여 SMV 부호화에 이용될 전송률이 1, 1/2, 1/4 및 1/8 중 어느 것인지 결정하는 전송률 결정 동작;
    상기 전송률이 1/4 또는 1/8이면, 난수 발생기를 이용하여 여기 신호를 생성하는 동작;
    상기 전송률이 1 또는 1/2이면, 상기 AMR 피치 지연 및 적응 코드북 이득을 각각 SMV 피치 지연 및 적응 코드북 이득으로 변환하는 피치 지연/적응 코드북 변환 작업 및 AMR 적응 코드북 벡터 및 상기 적응 코드북 이득을 이용하여 AMR 고정 코드북 벡터를 SMV 고정 코드북 벡터로 변환하는 고정 코드북 변환 작업을 수행하는 동작; 및
    상기 SMV LSP, 상기 SMV 피치 지연, 상기 코드북 이득, 및 상기 SMV 고정 코드북 벡터를 포함하는 SMV 파라미터들을 이용하여 AMR 음성 부호화 기법로 부호화된 비트스트림을 SMV 음성 부호화 기법으로 인코딩하는 SMV 파라미터 부호화 동작을 수행하도록 적응되는 것을 특징으로 하는 장치.
  16. 제15항에 있어서, 상기 LSP 변환 동작은,
    상기 복호화된 패킷 중 n번째 프레임의 네 번째 부프레임에 해당하는 AMR LSP를 그대로 SMV LSP의 n번째 프레임의 네 번째 부프레임으로서 이용하는 동작을 포함하는 것을 특징으로 하는 장치.
  17. 제15항에 있어서, 상기 전송률 결정 동작은,
    상기 적응 코드북 이득과 상기 고정 코드북 이득을 참고하여 현재 프레임의 잡음 대 신호비(NSR)가 소정 문턱값 이상이거나, AMR 피치 지연의 편차가 크다면 묵음으로 분류하는 제1 분류 동작;
    묵음이 아닌 현재 프레임을 적응 코드북 이득의 크기를 이용하여 무성음과 유성음을 분류하는 제2 분류 동작;
    유성음으로 분류된 프레임의 과거 프레임의 클래스가 무성음이었는지 여부에 따라 변화 여부를 판단하는 제3 분류 동작;
    변화가 일어나지 않은 프레임의 경우 상기 적응 코드북 이득 및 상기 피치 지연의 변화에 따라 정상 상태인지 비정상상태인지 여부를 판단하는 제4 분류 동작; 및
    상기 분류 동작들의 분류 결과에 따라 차등적으로 상기 프레임의 전송률을 선택하는 동작을 포함하는 것을 특징으로 하는 장치.
  18. 제15항에 있어서, 상기 피치 지연/적응 코드북 변환 작업은,
    피치 지연의 개회로 피치 지연 과거값을 SMV 피치 지연으로 예측하는 동작;
    상기 SMV 피치 지연 및 AMR의 폐회로 피치 지연의 차이가 소정 문턱값보다 큰지 판단하고, 긍정일 경우 SMV의 피치 지연을 다시 검색하고, 부정일 경우 상기 폐회로 피치 지연을 상기 피치 지연으로 설정하는 동작; 및
    상기 피치 지연을 이용하여 적응 코드북을 검색하는 ACB 검색 동작을 포함하는 것을 특징으로 하는 장치.
KR1020100006314A 2010-01-25 2010-01-25 에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치 KR20110086919A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100006314A KR20110086919A (ko) 2010-01-25 2010-01-25 에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100006314A KR20110086919A (ko) 2010-01-25 2010-01-25 에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20110086919A true KR20110086919A (ko) 2011-08-02

Family

ID=44925835

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100006314A KR20110086919A (ko) 2010-01-25 2010-01-25 에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20110086919A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013062370A1 (ko) * 2011-10-28 2013-05-02 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
US9704501B2 (en) 2011-10-28 2017-07-11 Electronics And Telecommunications Research Institute Signal codec device and method in communication system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013062370A1 (ko) * 2011-10-28 2013-05-02 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
US9704501B2 (en) 2011-10-28 2017-07-11 Electronics And Telecommunications Research Institute Signal codec device and method in communication system
US10199050B2 (en) 2011-10-28 2019-02-05 Electronics And Telecommunications Research Institute Signal codec device and method in communication system
US10607624B2 (en) 2011-10-28 2020-03-31 Electronics And Telecommunications Research Institute Signal codec device and method in communication system

Similar Documents

Publication Publication Date Title
US8346544B2 (en) Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US7433815B2 (en) Method and apparatus for voice transcoding between variable rate coders
JP5373217B2 (ja) 可変レートスピーチ符号化
US8825477B2 (en) Systems, methods, and apparatus for frame erasure recovery
EP2176860B1 (en) Processing of frames of an audio signal
DK2102619T3 (en) METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
US9418666B2 (en) Method and apparatus for encoding and decoding audio/speech signal
US8090573B2 (en) Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
JP4907826B2 (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
US20050261897A1 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
JP2007538282A (ja) 各種の符号化フレーム長でのオーディオ符号化
CN101180676A (zh) 用于谱包络表示的向量量化的方法和设备
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
KR20070112832A (ko) 잔여분 변경에 의한 보코더 내부의 시간 와핑 프레임들
JP6174266B2 (ja) ブラインド帯域幅拡張のシステムおよび方法
KR20230129581A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
KR20110086919A (ko) 에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치
KR100711040B1 (ko) 유사주기 신호의 위상을 추적하는 방법 및 장치
US8762136B2 (en) System and method of speech compression using an inter frame parameter correlation
Eksler et al. Efficient handling of mode switching and speech transitions in the EVS codec
KR100757366B1 (ko) Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법
JP2011090311A (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ
Lin et al. AN EFFICIENT TRANSCODING SCHEME FOR G. 729 AND G. 723.1 SPEECH CODECS: INTEROPERABILITY OVER THE INTERNET
Popescu et al. A DIFFERENTIAL, ENCODING, METHOD FOR THE ITP DELAY IN CELP

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application