KR101364983B1 - Sid 프레임을 인코딩하기 위한 방법 - Google Patents

Sid 프레임을 인코딩하기 위한 방법 Download PDF

Info

Publication number
KR101364983B1
KR101364983B1 KR1020127019596A KR20127019596A KR101364983B1 KR 101364983 B1 KR101364983 B1 KR 101364983B1 KR 1020127019596 A KR1020127019596 A KR 1020127019596A KR 20127019596 A KR20127019596 A KR 20127019596A KR 101364983 B1 KR101364983 B1 KR 101364983B1
Authority
KR
South Korea
Prior art keywords
encoding
sid
component
background noise
frame
Prior art date
Application number
KR1020127019596A
Other languages
English (en)
Other versions
KR20120089378A (ko
Inventor
헤르베 테데이
슈테판 슈한들
판지 세티아완
Original Assignee
유니파이 게엠베하 운트 코. 카게
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유니파이 게엠베하 운트 코. 카게 filed Critical 유니파이 게엠베하 운트 코. 카게
Publication of KR20120089378A publication Critical patent/KR20120089378A/ko
Application granted granted Critical
Publication of KR101364983B1 publication Critical patent/KR101364983B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 음성 신호 인코딩 방법들 동안에 배경 잡음 정보를 인코딩하기 위한 방법 및 수단에 관한 것이다. 본 발명의 기본적인 아이디어는 SID 프레임을 형성할 때와 유사한 방식으로 음성 정보를 전송하기 위한 기지의 스케일러빌리티를 제공하는 것이다. 본 발명은 협대역 제1 컴포넌트 및 배경 잡음 정보의 일부의 광대역 제2 컴포넌트의 인코딩, 및 상기 제1 및 제2 컴포넌트들에 대한 별개 영역들로 배경 잡음을 서술하는 SID 프레임의 형성을 제공한다.

Description

SID 프레임을 인코딩하기 위한 방법 {A METHOD FOR ENCODING AN SID FRAME}
본 발명은 음성 신호 인코딩 방법들에서 배경 잡음 정보를 인코딩하는 방법 및 수단에 관한 것이다.
전자통신의 시작 이래로, 아날로그 음성 전송을 위한 대역폭의 제한이 전화 통화들에 대해서 지정되어 왔다. 음성 전송은 300 Hz 내지 3400 Hz의 제한된 주파수 범위에서 일어난다.
그러한 제한된 범위의 주파수들이 또한 현대의 디지털 전자통신에 대한 많은 음성 신호 인코딩 방법들에서 지정된다. 이를 위해, 임의의 인코딩 절차 이전에, 아날로그 신호들의 대역폭의 범위가 결정된다. 그 과정에서, 코딩 및 디코딩을 위해 코덱이 사용되고, 상기 코덱은 300 Hz 내지 3400 Hz 사이의 기술된 범위결정(delimitation) 때문에 또한 이후의 텍스트에서는 협대역 스피치 코덱으로 지칭된다. 용어 코덱은 오디오 신호들의 디지털 코딩을 위한 코딩 요건 및 오디오 신호를 재구성하는 것을 목표로 데이터를 디코딩하기 위한 디코딩 요건 모두를 의미하는 것으로 이해된다.
협대역 스피치 코덱의 일 예는 ITU-T 표준 G.729로서 알려진다. 8 kbits/s의 비트 레이트를 갖는 협대역 스피치 신호의 전송이 본 명세서에 기술된 디코딩 요건을 이용하여 가능하다.
게다가, 소위 광대역 스피치 코덱들이 알려지고, 이들은 청각 인상을 향상시키는 목적으로 확장된 주파수 범위에서 인코딩을 제공한다. 그러한 확장된 주파수 범위는 예컨대 50 Hz 내지 7000 Hz 사이에 있다. 광대역 스피치 코덱의 일 예는 ITU-T 표준 G.729.EV로서 알려진다.
일반적으로, 광대역 스피치 코덱들에 대한 인코딩 방법들은 스케일러블(scalable)하도록 구성된다. 본 명세서에서 스케일러빌리티(scalability)는 다양한 범위가 결정된 블록들을 포함하는 전송된 인코딩된 데이터를 의미하기 위해서 취해지고, 상기 다양한 범위가 결정된 블록들은 협대역 컴포넌트들, 광대역 컴포넌트들, 및/또는 인코딩된 스피치 신호의 전체 대역폭을 포함한다. 한편으로 그러한 스케일러블한 구성은 수신자의 부분에 대한 하향 호환성을 가능하게 하고, 다른 한편으로는 전송 채널에서의 제한된 데이터 전송 용량들의 경우에 전송자 및 수신자가 전송된 데이터 프레임들의 사이즈 및 비트 레이트를 조정하는 것을 더 쉽게 만든다.
코덱에 의해 데이터 전송 레이트를 감소시키기 위해서, 일반적으로 전송될 데이터가 압축된다. 예컨대, 여기 신호에 대한 파라미터들 및 필터 파라미터들이 상기 스피치 데이터를 인코딩하기 위해 특정되는 인코딩 방법에 의해서 압축이 성취된다. 그 후에 상기 여기 신호를 특정하는 파라미터뿐 아니라 상기 필터 파라미터들이 수신자에게 전송된다. 거기서, 코덱을 이용하여, 합성 스피치 신호가 합성되고, 이는 주관적인 청각 인상의 관점에서 가능한 한 밀접하게 본래 스피치 신호와 유사하다. "합성에 의한 분석(analysis by synthesis)"으로도 또한 지칭되는 이러한 방법을 이용하여, 수립되고 디지털화된 샘플들이 그들 스스로 전송되지 않고, 오히려 수신자 측에서 스피치 신호의 합성을 가능하게 하는, 확인된 파라미터들이 전송된다.
업계에서는 DTX로도 알려진 불연속 전송에 대한 방법은 데이터 전송 레이트를 감소시키기 위한 추가적인 방법을 제공한다. DTX의 기본적인 목적은 스피킹에 휴지(pause)가 존재할 때에 데이터 전송 레이트를 감소시키는 것이다.
이를 위해, 전송자는 스피치 휴지 인식(음성 활동 검출, VAD(Voice Activity Detection))을 이용하고, 이는 특정한 신호 레벨이 충족되지 않는 경우 스피치 휴지를 인식한다. 일반적으로, 수신자는 스피치 휴지 동안에 완전한 묵음(silence)을 기대하지는 않는다. 이에 반해, 완전한 묵음은 수신자의 일부에 성가심을 야기할 것이며, 또는 심지어 접속이 중단되었다는 의심을 야기할 것이다. 이러한 이유로, 소위 안정 잡음(comfort noise)을 생성하기 위한 방법들이 이용된다.
안정 잡음은 수신자 측에 묵음의 상태들을 만족시키기 위해 잡음 합성된다. 상기 안정 잡음은 스피치 신호들을 전송하는 목적으로 이용되는 데이터 전송 레이트를 필요로 함이 없이 계속해서 존재하는 접속의 주관적 인상을 촉진하는데에 적합하다. 즉, 상기 스피치 데이터를 인코딩하는 것에 비해 상기 잡음을 인코딩하는데에 전송자에 대하여 더 적은 에너지가 소비된다. 수신자에 의해서 여전히 현실적인 것으로서 인지되는 방식으로 상기 안정 잡음을 합성하기 위해서, 데이터가 매우 낮은 비트 레이트로 전송된다. 그 프로세서에서 전송된 데이터는 본 업계 내에서 SID(묵음 삽입 서술자, Silence Insertion Descriptor)로서 또한 지칭된다.
현재 개발중인 코덱들은 스피치 정보의 스케일러블한 인코딩에 초점을 맞춘다. 스케일러블한 접근법에 의해서, 본래 스피치 신호의 협대역 컴포넌트, 광대역 컴포넌트를 포함하고, 또한 예컨대 50 Hz 내지 7000 Hz 사이의 범위의 주파수 범위의 상기 스피치 신호의 전체 대역폭을 포함하는 상이한 블록들을 포함하는 인코딩 프로세서의 결과가 성취된다.
본 스케일러블한 인코딩 방법에서, 배경 잡음 정보의 인코딩은 입력 잡음 신호의 전체 대역폭에 걸쳐서 또는 입력 잡음 신호의 대역폭의 섹션에 걸쳐서 발생한다. 인코딩된 잡음 신호가 DTX 방법에 의해서 SID 프레임들로부터 전송되고 수신자 측에서 재구성된다. 상기 재구성된, 즉 합성된 안정 잡음은 그 후에 상기 수신자 측에서의 합성된 스피치 정보와는 상이한 품질을 가질 수 있다. 이것은 수신자의 수신상태(reception)에 부정적으로 영향을 미친다.
본 발명의 목적은 스케일러블한 스피치 코덱들에 DTX 방법의 개선된 구현을 제공하는 것이다.
이러한 목적은 독립 청구항들의 대상에 의해서 성취된다.
본 발명의 기본적인 아이디어는 음성 정보의 전송을 위한 SID 프레임의 형태와 유사한 기지의 스케일러빌리티를 제공하는 것으로 구성된다.
스케일러블한 음성 인코딩 방법의 어플리케이션에서 배경 잡음 정보의 전송을 위해 SID 프레임을 인코딩하는 본 방법은 첫째로 배경 잡음 정보의 협대역 컴포넌트, 및 둘째로 광대역 컴포넌트의 인코딩을 제공한다. 상기 인코딩은 일반적으로 동시적이고 그리고 상이한 방식들로 발생한다. 하지만, 한 컴포넌트의 인코딩은 또한 명백하게 다른 컴포넌트의 인코딩 이전 또는 이후에 시간적으로 시차를 두어(staggered) 발생할 수 있다. 추가로, 두 컴포넌트들은 동일한 방식으로 광학적으로 인코딩될 수 있다. 두 컴포넌트들이 인코딩된 후에, 제1 및 제2 컴포넌트들에 대한 별개 영역들을 갖는 SID 프레임이 형성된다. 즉, 상기 SID 프레임에서, 제1 데이터 영역은 상기 인코딩된 제1 컴포넌트에 대한 데이터를 기록하는 한편, 별개의 데이터 영역은 상기 제2 인코딩된 영역에 대한 데이터를 기록한다.
본 발명의 중요한 장점은, 상기 전송된 SID 프레임의 광대역 컴포넌트 또는 상기 협대역 컴포넌트에 기초하여 안정 잡음이 발생하여야 하는지 여부가 수신자 측에서 특정된다는 것이다. 이것은, 단지 협대역 음성 정보만이 전송되도록 스피치 정보 프레임들에 대한 전송 레이트가 감소되는 상황에서 수신자의 말단에서의 음향 수령에 대해 특히 유리하다. 광대역 잡음과 공동으로 협대역 스피치 정보가 합성되는 경우에, 당업계의 현재 상태와 같이, 이것은 수신자에게는 매우 성가신 것이다. 예컨대, 스피치 정보 프레임들에 대한 전송 레이트의 전술한 감소는 전송자와 수신자 사이에서 네트워크의 많은 이용(혼잡)에 의해서 야기될 수 있다. 상당히 더 적은 SID 프레임들이 그러한 네트워크 병목에 의해서 영향을 받지 않는다. 따라서, 프레임들에 대해, 프레임들의 데이터 전송 레이트 또는 프레임들의 컨텐트를 감소시키기 위한 제약이 존재하지 않는다.
본 발명의 추가의 바람직한 실시예들이 종속 청구항들에서 표시된다. 본 발명의 제1 바람직한 실시예에 따르면, SID 프레임의 정의에 제3 컴포넌트가 제공된다. 상기 제3 컴포넌트가 여전히 협대역 데이터(확장된 협대역 또는 "향상된 저 대역(Enhanced Low Band)" 데이터)를 포함함에도 불구하고, 상기 제3 컴포넌트는 더 높은 비트 레이트로 인코딩되는 인코딩된 배경 잡음 파라미터들을 포함한다. 이러한 제3 컴포넌트를 이용하는 SID 프레임의 정의의 장점은 종래의 협대역 인코딩과 비교하여 증가된 품질의 잡음 신호를 가능하게 하는 능력에 있고, 그에 따라 여전히 표준 G.729.B에 따른다.
본 발명의 추가의 장점들 및 구성들을 갖는 실시예가 도면에 의해 이하에서 보다 상세하게 기술된다.
그에 따라, 유일한 도면은 본 발명에 따른 SID 프레임의 구조를 도시한다.
이하에서, 초기에는 도면을 참조함이 없이, 본 발명의 근원이 되는 기술적 배경이 보다 상세하게 기술된다.
광대역 스피치 코덱들에 대한 현재의 스케일러블한 인코딩 방법들에서 구현되는 불연속 전송(DTX) 방법들은, 스피치 정보의 전송에 대해 의도되는 배경 잡음 정보의 전송을 위한 스케일러빌리티 특징을 현재에는 지원하지 않는다.
현재 차선책으로서, 인코딩이 입력 잡음 신호의 전체 대역폭에 걸쳐서 또는 상기 입력 잡음 신호의 대역폭의 섹션에 걸쳐서 발생한다. 이러한 이유로, 개선된 방법에 대한 필요가 존재한다.
과거에는, 두 가지 타입의 스피치 코덱들이 개발되었다: 한편으로는, 예컨대 3GPP AMR, ITU-T G.729와 같은 협대역 스피치 코덱들, 및 다른 한편으로는 예컨대 3GPP AMR-WB, ITU-T G.722와 같은 광대역 스피치 코덱들. 협대역 스피치 코덱들은 일반적으로 300 Hz 내지 3400 Hz 사이에 놓이는 주파수 범위를 갖는 대역폭을 이용해 8 kHz의 샘플링 레이트로 스피치 신호들을 인코딩한다. 광대역 스피치 코덱들은 50 Hz 내지 7000 Hz 사이의 주파수 범위의 대역폭에서 16 KHz의 샘플링 레이트 중 15로 스피치 신호를 인코딩한다.
통신 채널에서의 전체 전송 레이트를 감소시키기 위해서, 이러한 코덱들 중 일부는 DTX 방법들, 즉 불연속 전송 방법들을 사용한다. DTX 방법에 따르면, SID 프레임의 대역폭이 상기 스피치 신호의 대역폭에 대응하는 SID 프레임들이 전송된다. 스피치 휴지 동안의 상기 배경 잡음이 SID 프레임에 기술된다.
현재에 개발중인 코덱들은 스케일러블한 인코딩에 초점을 맞춘다. 스케일러블한 접근법을 이용하여, 본래 스피치 신호의 협대역 컴포넌트, 광대역 컴포넌트, 또는 예컨대 50 Hz 내지 7000 Hz 사이의 주파수 범위에 있는 상기 스피치 신호의 전체 대역폭을 포함하는 상이한 블록들을 포함하는 인코딩 프로세스 결과가 성취된다. 상기 광대역 컴포넌트는 일반적으로 4 kHz의 주파수에서 시작한다.
현재의 DTX 방법은 코덱들의 스케일러블한 성질을 동시에 지원하지 않는다. 대신에, 인코딩은 상기 입력 잡음 신호의 전체 대역폭에 걸쳐서 또는 상기 입력 잡음 신호의 대역폭의 섹션에 걸쳐서 발생한다. 이러한 이유로 개선된 방법이 요구된다.
명확한 설명을 위해, ITU-T 표준 G.729.1에 따른 인코딩 방법이 기술된다. 이러한 코덱 G.729.1은 현재의 넌-스케일러블한 DTX 방법이 전체 대역폭에 적용되는 스케일러블한 스피치 코덱이다.
활성 스피치 기간 ― "묵음 기간" 식별된 스피치 휴지와는 대조적으로 ― 동안의 인코딩 프로세스는 다음과 같을 수 있다:
상기 스피치 신호가 두 개의 컴포넌트들, 즉 협대역(저 대역) 부분 및 광대역(고 대역) 부분으로 분할된다. 두 신호들은 8 kHz의 샘플링 레이트로 샘플링된다. 협대역 및 광대역 컴포넌트로 분할하는 것은 특정 대역-통과 필터에서 발생하고, 이는 또한 QMF(Quadrature Mirror Filter; 쿼더러쳐 미러 필터)로 불린다.
상기 스피치 신호의 협대역 컴포넌트가 8 및 12 kbit/s의 비트 레이트로 인코딩된다. CELP(Code Excited Linear Prediction; 코드 여기 선형 예측) 프로세스가 상기 스피치 신호를 인코딩하기 위해 이용된다. 14 kbit/s 초과의 비트 레이트들에 대해서, 상기 협대역 컴포넌트가 G.729.1의 "전송 코덱(Transform Codec)"을 고려하여 추가로 수정된다. 현재 프레임의 광대역 컴포넌트는 ― 다시, 스피치 신호들을 포함하는 조건에서 ― TDBWE(Time Domain Bandwidth Extension; 시간 도메인 대역폭 확장) 방법을 적용함으로써 14 kbit/s의 비트 레이트로 인코딩된다. 14 kbit/s 초과의 비트 레이트에 대해, G.729.1의 전송 코덱 섹션이 적용된다.
상기 표준 G.729.1은 불연속 전송에 대한 방법을 제공하지 않고, 따라서 스피치 휴지 또는 "비-활성 음성 기간들"에서, 다음과 같이 기술되는 차선책이 적용된다.
상기 스피치 신호가 협대역 및 광대역 컴포넌트로 해체(deconstruct)되고, 여기서 두 컴포넌트들은 8 kHz의 주파수에서 샘플링된다. 분해는 또한 QMF 필터를 통해서 발생한다.
상기 협대역 컴포넌트가 협대역 SID 정보의 이용에 의해서 인코딩된다. 이러한 협대역 SID 정보가 SID 프레임에서 시간적으로 이후의 시점에 수신자에게 전송되고, 이는 표준 G.729와 호환된다. 상기한 바와 같은 추가적인 조치들은 협대역 SID 컴포넌트의 향상에 기여할 수 있다.
상기 광대역 컴포넌트는 수정된 TDBWE 방법을 적용함으로써 인코딩된다. 소위 행오버(hangover) 기간들 동안에, 상기 스피치 신호가 부가적으로 14 kbit/s의 비트 레이트로 인코딩되는 한편에, 검출된 배경 잡음의 스피치 휴지가 동시에 분석되고 대응하는 파라미터들이 조정된다. 상기 배경 잡음은 상기 잡음 신호의 에너지 및 그것의 주파수 분포의 관점에서 분석된다. 표준 G.729.1에 의해서 제공되는 TDBWE 방법들과는 대조적으로, 시간적인 양호한 구조가 분석되지 않고; 오히려 단지 프레임에 걸친 에너지의 평균만이 발생된다.
이하에서, 본 발명의 실시예들이 도면에 기초하여 설명된다.
도면은 협대역 제1 컴포넌트 LB(저 대역), 광대역 제2 컴포넌트 HB(고 대역), 및 중간 제3 컴포넌트 ELB(향상된 저 대역)에 대한 별개의 영역들을 갖는 SID 프레임을 도시한다.
상기 제1 컴포넌트(LB)는 8 kbit/s 또는 그 미만의 비트 레이트로 인코딩되는 배경 잡음 파라미터들을 포함한다. 상기 제1 컴포넌트(LB)의 데이터 길이는 예컨대 15 비트들이다.
상기 제2 컴포넌트(HB)는 14 kbit/s 및 32 kbit/s 사이의 비트 레이트로 인코딩되는 인코딩된 배경 잡음 파라미터들을 포함한다. 상기 제2 컴포넌트(HB)의 데이터 길이는 예컨대 19 비트들이다.
상기 제3 컴포넌트(ELB)는 8 kbit/s 초과, 예컨대 12 kbit/s의 비트 레이트로 인코딩되는, 인코딩된 배경 잡음 파라미터들을 포함한다. 상기 제3 컴포넌트(ELB)의 데이터 길이는 예컨대 9 비트들이다. 제3 컴포넌트(ELB)를 갖는 상기 SID 프레임의 정의의 장점은 종래의 협대역 인코딩 방법들과 비교하여 증가된 품질의 잡음 신호를 가능하게 하는 한편에 여전히 표준 G.729.B에 따르는 옵션으로 이루어진다.
스피치 휴지 동안에, 상기 배경 잡음의 특징들이 상기 인코더 측에서 획득된다. 상기 특징들은 상기 배경 잡음의 스펙트럼 형태뿐 아니라 특히 시간적 분포를 포함한다. 획득 프로세스를 위해, 이전 프레임으로부터 상기 배경 잡음의 시간적 및 스펙트럼 파라미터들을 고려하는 필터 프로세스가 적용된다. 상기 배경 잡음의 세기 또는 특질에서의 중요한 변화들이 밝혀지면, 상기 획득된 파라미터들이 업데이트될 필요가 있는지에 대한 결정이 임계 파라미터들(임계값들)에 기초하여 수행된다.
이하의 프로세스는 디코더 또는 수신측에서 수행되고: "보통의", 즉 스피치-신호-포함하는(speech-signal-containing) 프레임이 수신될 때에, 일반적인 디코딩이 수행된다. 그러한 보통의 프레임에 대한 비트 레이트는 전형적으로 8 kbit/s 또는 그 초과이다. SID 프레임이 수신되면, 광대역 SID의 경우에 광대역 안정 잡음이 리드-아웃(read-out) 이득 인자로 합성되어 분석되도록, 상기 안정 잡음이 합성된다.
본 발명의 추가의 실시예들을 갖는 본 방법이 이하에서 기술된다.
본 실시예들은 예컨대 G.729.1과 같은 광대역 코덱들에의 DTX 프로세스의 포함, 및 비-활성 프레임, 즉 스피치 정보가 없는 프레임들 동안에 안정 잡음의 분석을 지원하는 TDBWE 프로세스를 수정하는 추가의 방법들에 대한 추가의 상세 설명들에 영향을 미친다.
일 실시예에 따라 다음의 절차가 제공된다.
- G.729- 또는 G.729.B-호환성 SID 프레임(본 발명에 따른 상기 SID 프레임의 제1 컴포넌트(LB))의 발생을 위한 협대역 SID 정보의 생성
- 수정된 TDBWE 방법을 이용한 광대역 SID 정보의 생성(본 방법에 따른 상기 SID 프레임의 제2 컴포넌트(HB))
- 상기 협대역 및/또는 광대역 SID 정보의 관점에서 향상들이 선택적으로 이루어진다.
- 제1 SID 프레임의 전송에 선행하는 단계 동안의 에너지 및/또는 주파수 분포의 관점에서 상기 배경 잡음이 분석되거나 또는 "획득된다".
- 상기 배경 잡음의 광대역 컴포넌트에서의 중요한 변화가 검출될 때에, 또는 협대역 SID 정보가 전송되어야 할 때에 상기 SID 프레임들이 전송된다.
이러한 실시예는 다음의 단계들로 구현된다:
- VAD 방법에 의해서 활성 스피치 휴지 또는 스피킹 휴지가 정의된다.
- 상기 스피치 휴지에서의 변화가 상기 VAD 방법에 의해서 표시되면, 행오버 기간이 개시된다. 상기 행오버 기간 동안에, 이전 비트 레이트가 더 높은 것으로 식별되면 인코더의 비트 레이트가 14 kbit/로 감소된다. 인코더의 이전 비트 레이트가 이미 12 kbit/s에 있으면, 비트 레이트가 8 kbit/s로 감소된다.
- 상기 행오버 기간 동안에, 표준 G.729에서의 절차와 유사한 형태로 상기 협대역 컴포넌트의 관점에서, 하지만 더 많은 수의 프레임들을 이용하여 상기 배경 잡음이 획득된다. 현재 프레임에 이전 프레임보다 더 큰 중요도가 할당되는 것이 성취되지만, 필터링 프로세스가 이러한 시점(juncture)에 선택적으로 적용될 수가 있다.
- 게다가, 상기 광대역 컴포넌트에서의 배경 잡음이 상기 행오버 기간 동안에 획득된다. 단순화된 구현을 위해, 특히 메모리 요건을 감소시키기 위해, 수정된 TDBWE 방법이 선택적으로 이용될 수 있고, 이는 시간 기간에 단순화된 인코딩에 의해 특징지어진다. 상기 시간 기간에서의 인코딩을 상기 시간 기간에서의 신호의 에너지에만 대응하게 함으로써, 추가적인 단순화가 수정된 TDBWE 방법에서 선택적으로 성취될 수 있다. 추가의 선택적인 단순화된 인코딩은 스펙트럼 평활화(smoothing) 방법들로 이루어지는데, 왜냐하면 상기 시간 기간에서의 에너지와 주파수 범위가 파스발(Parseval) 정리가 적용될 때에 동일한 값들을 산출하기 때문이다. 또한 상기 배경 잡음의 광대역 컴포넌트에서,이전 프레임들보다 더 높은 중요도를 현재 프레임들에 할당하기 위한 목적으로 추가의 선택적인 필터링 조치들이 적용될 수가 있다.
- 상기 행오버 기간의 종료 이후에, 상기 배경 잡음의 개략적인(rough) 표현을 포함하는 제1 SID 프레임이 전송된다. 상기 배경 잡음의 개략적 서술은 상기 행오버 기간 동안에 성취된다.
- 어떠한 활성 단계(스피킹)도 상기 VAD에 의해서 검출되지 않는 한, 상기 디코더 또는 수신자의 말단 상의 안정 잡음이 상기 수신된 SID 프레임에 기초하여 합성된다.
- 상기 배경 잡음에서의 변화들이 상기 SID 프레임의 협대역 컴포넌트에서 검출되고, 상이한 파라미터들이 고려될 수 있지만 G.729와 유사한 프로세스가 선행된다.
- 광대역 컴포넌트에서, 필터링된 에너지 파라미터들이 상기 배경 잡음의 설명을 위해 이용된다. 이들은 예컨대 상기 시간 기간에서의 엔벨로프 커브들로부터의 파라미터들(tenv fidx) 및/또는 주파수 범위에서의 엔벨로프 커브들의 파라미터들(fenv_fidx[i])을 포함하고, 이들에서 각각의 인덱스(idx)가 각각의 프레임을 식별하고 그리고 적절한 수의 주파수 값들 i = {1,...,NB-SUBBANDS}의 주파수 범위에서의 엔벨로프 커브가 상기 배경 잡음의 스펙트럼 특징들을 서술하기 위해 발생된다. 상기 필터링된 에너지 파라미터들은 적절한 저-대역 필터들의 이용에 의해 G.729.1에서 정의되는 그러한 TDBWE 파라미터들로부터 유도된다.
Figure 112012059172595-pat00001
Figure 112012059172595-pat00002
따라서, 이 에너지 파라미터들은 시간 기간 및 주파수 범위에서 상기 엔벨로프 파라미터들에 적용된다.
- 상기 에너지 파라미터들의 광대역 컴포넌트에서의 변화들이 모니터링되어 검출되는 한편에, 현재의 잡음 신호의 필터링된 에너지 파라미터들이 이러한 파라미터들의 비교 값들의 두 개의 세트들과 비교되고, 여기서 비교 값들의 세트는 인덱스 idx-1을 갖는 이전 프레임으로부터의 파라미터들이다.
Figure 112012059172595-pat00003
Figure 112012059172595-pat00004
그리고, 다른 세트는 인덱스 최종 tx를 갖는 가장 최근에 전송된 프레임으로부터의 파라미터들로 구성된다. 파라미터 차이(temp_d, spec_d, temp_ch, spec_ch)들 중 하나가 적절하게 선택된 임계치를 초과할 때에:
Figure 112012059172595-pat00005
Figure 112012059172595-pat00006
새로운 SID 업데이트 프레임이 전송되어야 한다.
- 상기 VAD가 스피치 기간을 검출하자마자, 상기 스피치 신호가 요구된 전송 레이트로 전송되고 안정 잡음의 합성이 디코더 측에서 종료된다. 그러므로, 보통의 디코더 모드가 G.729.1과 같이 이용된다.

Claims (15)

  1. 스케일러블한 스피치 신호 인코딩 방법을 이용하여 배경 잡음 정보의 전송을 위해 적어도 하나의 SID 프레임(SID)을 인코딩하기 위한 방법으로서,
    배경 잡음 정보의 협대역 제1 컴포넌트(LB), 광대역 제2 컴포넌트(HB) 및 확장된 협대역 제3 컴포넌트(ELB)를 인코딩하는 단계;
    상기 제1 컴포넌트(LB), 상기 제2 컴포넌트(HB) 및 상기 제3 컴포넌트(ELB)에 대한 별개 영역들을 갖는 상기 SID 프레임(SID)을 형성하는 단계; 및
    전송되는 SID 프레임(SID)의 상기 협대역 제1 컴포넌트(LB)에 기초하여 안정 잡음이 발생하여야 하는지 여부, 상기 전송되는 SID 프레임(SID)의 상기 광대역 제2 컴포넌트(HB)에 기초하여 안정 잡음이 발생하여야 하는지 여부, 또는 상기 전송되는 SID 프레임(SID)의 상기 확장된 협대역 제3 컴포넌트(ELB)에 기초하여 안정 잡음이 발생하여야 하는지 여부가 수신자 측에서 특정되도록, 상기 SID 프레임의 형성에 대응하는 음성 정보의 전송을 위한 기지의 스케일러빌리티를 제공하는 단계
    를 포함하는,
    SID 프레임을 인코딩하기 위한 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 제3 컴포넌트(ELB)를 갖는 상기 SID 프레임은 협대역 인코딩과 비교하여 증가된 품질의 잡음 신호가 표준 G.729.B에 따라 가능하게 되도록 하는,
    SID 프레임을 인코딩하기 위한 방법.
  4. 제1항 또는 제3항에 있어서,
    상기 배경 잡음 정보의 상기 제1 컴포넌트(LB)가 기지의 표준 G.729.B의 인코딩 가이드라인들에 따라 인코딩되는,
    SID 프레임을 인코딩하기 위한 방법.
  5. 제1항에 있어서,
    스피치 휴지(speech pause) 동안에, 배경 잡음 파라미터들이 인코더 측에서 획득되고, 상기 배경 잡음 파라미터들은 상기 배경 잡음의 시간적 분포 및 스펙트럼 형태를 포함하는,
    SID 프레임을 인코딩하기 위한 방법.
  6. 제5항에 있어서,
    상기 획득을 위해 이전 프레임으로부터 상기 배경 잡음의 시간적 및 스펙트럼 파라미터들을 고려하는 필터 프로세스가 적용되는,
    SID 프레임을 인코딩하기 위한 방법.
  7. 제6항에 있어서,
    상기 배경 잡음의 세기 또는 특질에서의 중요한 변화들이 밝혀지면, 상기 획득된 파라미터들이 업데이트될 필요가 있는지 여부에 대한 결정이 임계 파라미터들(Threshold Values)에 기초하여 수행되는,
    SID 프레임을 인코딩하기 위한 방법.
  8. 제7항에 있어서,
    상기 배경 잡음의 상기 제2 컴포넌트(HB)에서의 중요한 변화가 검출될 때에 또는 상기 제1 컴포넌트(LB)의 업데이트가 전송되어야 할 때에 상기 SID 프레임(SID)이 전송되는,
    SID 프레임을 인코딩하기 위한 방법.
  9. 제1항에 있어서,
    상기 배경 잡음 정보의 상기 제2 컴포넌트(HB)는 수정된 TDBWE 방법에 따라 인코딩되는,
    SID 프레임을 인코딩하기 위한 방법.
  10. 제9항에 있어서,
    시간 기간에서의 신호의 에너지에만 상기 시간 기간에서의 인코딩을 수행함으로써 상기 수정된 TDBWE 방법의 단순화가 성취되는,
    SID 프레임을 인코딩하기 위한 방법.
  11. 제1항에 있어서,
    행오버 기간 동안에, 배경 잡음 정보의 상기 광대역 제2 컴포넌트(HB)에서, 이전 프레임보다 현재 프레임에 더 높은 중요도를 할당하기 위한 필터링 방법들이 적용되는,
    SID 프레임을 인코딩하기 위한 방법.
  12. 제1항에 있어서,
    에너지 파라미터들을 필터링하는 단계를 더 포함하고,
    필터링된 에너지 파라미터들이 상기 배경 잡음의 기술을 위해 상기 제2 컴포넌트(HB)에서 사용되고, 상기 필터링된 에너지 파라미터들은 시간 기간에서의 엔벨로프 커브의 파라미터들(tenv_fidx) 및/또는 주파수 범위에서의 엔벨로프 커브의 파라미터들(fenv_fidx[i])을 포함하는,
    SID 프레임을 인코딩하기 위한 방법.
  13. 제12항에 있어서,
    개별 인덱스(idx)는 개별 프레임을 식별하고, 상기 주파수 범위에서의 상기 엔벨로프 커브는 상기 배경 잡음의 스펙트럼 특성들을 기술하기 위해 주파수 값들 i = {1,...,NB-SUBBANDS}에 기초하여 생성되는,
    SID 프레임을 인코딩하기 위한 방법.
  14. 삭제
  15. 삭제
KR1020127019596A 2008-02-19 2009-02-02 Sid 프레임을 인코딩하기 위한 방법 KR101364983B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102008009719A DE102008009719A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
DE102008009719.5 2008-02-19
PCT/EP2009/051118 WO2009103608A1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020107020943A Division KR20100120217A (ko) 2008-02-19 2009-02-02 배경 잡음 정보를 인코딩하는 방법 및 수단

Publications (2)

Publication Number Publication Date
KR20120089378A KR20120089378A (ko) 2012-08-09
KR101364983B1 true KR101364983B1 (ko) 2014-02-20

Family

ID=40652248

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020107020943A KR20100120217A (ko) 2008-02-19 2009-02-02 배경 잡음 정보를 인코딩하는 방법 및 수단
KR1020127019596A KR101364983B1 (ko) 2008-02-19 2009-02-02 Sid 프레임을 인코딩하기 위한 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020107020943A KR20100120217A (ko) 2008-02-19 2009-02-02 배경 잡음 정보를 인코딩하는 방법 및 수단

Country Status (8)

Country Link
US (2) US20100318352A1 (ko)
EP (1) EP2245621B1 (ko)
JP (1) JP5361909B2 (ko)
KR (2) KR20100120217A (ko)
CN (1) CN101952886B (ko)
DE (1) DE102008009719A1 (ko)
RU (1) RU2461080C2 (ko)
WO (1) WO2009103608A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101483495B (zh) 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和***
PT2936487T (pt) * 2012-12-21 2016-09-23 Fraunhofer Ges Forschung Geração de um ruído de conforto com alta resolução espetrotemporal em transmissão descontínua de sinais de áudio
MX366279B (es) 2012-12-21 2019-07-03 Fraunhofer Ges Forschung Adicion de ruido de confort para modelar el ruido de fondo a bajas tasas de bits.
ES2924427T3 (es) * 2013-01-29 2022-10-06 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta
CN105225668B (zh) 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
CA2913578C (en) 2013-06-21 2018-05-22 Michael Schnabel Apparatus and method for generating an adaptive spectral shape of comfort noise
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
EP2980790A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
US10978096B2 (en) * 2017-04-25 2021-04-13 Qualcomm Incorporated Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
WO2006008932A1 (ja) * 2004-07-23 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
WO2008016935A2 (en) 2006-07-31 2008-02-07 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
RU2237296C2 (ru) * 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6397177B1 (en) * 1999-03-10 2002-05-28 Samsung Electronics, Co., Ltd. Speech-encoding rate decision apparatus and method in a variable rate
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
JP3761795B2 (ja) * 2000-04-10 2006-03-29 三菱電機株式会社 ディジタル回線多重化装置
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US20030112758A1 (en) * 2001-12-03 2003-06-19 Pang Jon Laurent Methods and systems for managing variable delays in packet transmission
EP1808852A1 (en) * 2002-10-11 2007-07-18 Nokia Corporation Method of interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs
CA2501368C (en) * 2002-10-11 2013-06-25 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7391768B1 (en) * 2003-05-13 2008-06-24 Cisco Technology, Inc. IPv4-IPv6 FTP application level gateway
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US20060149536A1 (en) * 2004-12-30 2006-07-06 Dunling Li SID frame update using SID prediction error
CN101151840B (zh) * 2005-01-10 2011-09-21 四次方有限公司 用于依据指令处理媒体的单芯片媒体处理器
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
PL1897085T3 (pl) * 2005-06-18 2017-10-31 Nokia Technologies Oy System i sposób adaptacyjnej transmisji parametrów szumu łagodzącego w czasie nieciągłej transmisji mowy
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7796626B2 (en) * 2006-09-26 2010-09-14 Nokia Corporation Supporting a decoding of frames
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、***和装置
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
KR101290622B1 (ko) * 2007-11-02 2013-07-29 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 복호화 방법 및 장치
US8560307B2 (en) * 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
WO2006008932A1 (ja) * 2004-07-23 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
WO2008016935A2 (en) 2006-07-31 2008-02-07 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김현우 외. G.729.1 광대역 멀티코덱 표준 기술 동향. 전자통신동향분석. 2006.12, 제21권, 제6호. (제77면 내지 제85면) *

Also Published As

Publication number Publication date
WO2009103608A1 (de) 2009-08-27
CN101952886A (zh) 2011-01-19
RU2010138563A (ru) 2012-04-10
CN101952886B (zh) 2013-03-06
KR20100120217A (ko) 2010-11-12
JP5361909B2 (ja) 2013-12-04
EP2245621B1 (de) 2019-05-01
US20100318352A1 (en) 2010-12-16
DE102008009719A1 (de) 2009-08-20
RU2461080C2 (ru) 2012-09-10
EP2245621A1 (de) 2010-11-03
US20160035360A1 (en) 2016-02-04
KR20120089378A (ko) 2012-08-09
JP2011512563A (ja) 2011-04-21

Similar Documents

Publication Publication Date Title
KR101364983B1 (ko) Sid 프레임을 인코딩하기 위한 방법
JP5173939B2 (ja) Cdma無線システム用可変ビットレート広帯域音声符号化時における効率のよい帯域内ディム・アンド・バースト(dim−and−burst)シグナリングとハーフレートマックス処理のための方法および装置
JP4659216B2 (ja) 忠実度改善のためのコンフォートノイズ変動特性に基づく音声符号化
JP5096582B2 (ja) ノイズ生成装置及び方法
US20080195383A1 (en) Embedded silence and background noise compression
JP2006502427A (ja) 適応マルチレート広帯域(amr−wb)コーデックとマルチモード可変ビットレート広帯域(vmr−wb)コーデック間における相互運用方法
KR20130019019A (ko) 신호 인코딩 및 디코딩 방법, 장치 및 시스템
KR102417047B1 (ko) 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
US8340959B2 (en) Method and apparatus for transmitting wideband speech signals
KR101462293B1 (ko) 고정된 배경 잡음의 평활화를 위한 방법 및 장치
WO2007140724A1 (fr) procédé et appareil pour transmettre et recevoir un bruit de fond et système de compression de silence
US8949121B2 (en) Method and means for encoding background noise information
KR101166650B1 (ko) 배경 잡음 정보를 디코딩하기 위한 방법 및 수단

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170203

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180207

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190207

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20200204

Year of fee payment: 7