KR100333464B1 - 통신 시스템에서의 속도 결정을 위한 장치 및 방법 - Google Patents

통신 시스템에서의 속도 결정을 위한 장치 및 방법 Download PDF

Info

Publication number
KR100333464B1
KR100333464B1 KR1019997007740A KR19997007740A KR100333464B1 KR 100333464 B1 KR100333464 B1 KR 100333464B1 KR 1019997007740 A KR1019997007740 A KR 1019997007740A KR 19997007740 A KR19997007740 A KR 19997007740A KR 100333464 B1 KR100333464 B1 KR 100333464B1
Authority
KR
South Korea
Prior art keywords
information
rate
speech metric
speech
noise ratio
Prior art date
Application number
KR1019997007740A
Other languages
English (en)
Other versions
KR20000075674A (ko
Inventor
제임스 피. 애슐리
Original Assignee
비센트 비.인그라시아, 알크 엠 아헨
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비센트 비.인그라시아, 알크 엠 아헨, 모토로라 인코포레이티드 filed Critical 비센트 비.인그라시아, 알크 엠 아헨
Publication of KR20000075674A publication Critical patent/KR20000075674A/ko
Application granted granted Critical
Publication of KR100333464B1 publication Critical patent/KR100333464B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/22Negotiating communication rate
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

낮은 신호 대 잡음비(SNR)에 적절하도록 속도 및 음성 활동성을 정확히 결정함으로써, 음성 품질, 시스템 용량 및/또는 배터리 수명을 최대로 하기 위해서, 잡음 억제 시스템으로부터의 패러미터들을 속도 결정 기능의 입력으로 사용한다. 이러한 방법을 사용함으로써, 더 많은 음성이 주변 잡음으로부터 추출되고, 종래 시스템에 비하여 잡음 조건이 변동하는 동안의 오류 징후가 보다 적게 검출되게 된다. 이 방법은 속도 결정(RDA)뿐만 아니라 음성 활동성 검출(VAD)에도 유용하고, 다른 형태의 RDA/VAD 구현과는 달리, 사용되는 음성 부호화기의 유형(IS-127, CDG-27,IS-96 및 GSM)에는 무관하다.

Description

통신 시스템에서의 속도 결정을 위한 장치 및 방법{APPARATUS AND METHOD FOR RATE DETERMINATION IN A COMMUNICATION SYSTEM}
IS-95, IS-127(EVRC) 및 CDG-27등의 가변 속도 보코더 시스템에서는, 낮은 신호 대 잡음비(SNR)환경에서, 음성과 주변 잡음을 적절히 구별해야 하는 문제가 남아 있다. 즉, 속도 결정 알고리즘(Rate Determination Algorithm; RDA)이 지나치게 민감할 경우에는, 주변 잡음의 대부분이 속도 1/2 또는 1로 부호화되기 때문에 평균 데이타율이 너무 높아지는 문제가 있다. 이는 코드 분할 다중 접속(CDMA) 시스템에서의 용량 손실을 초래하게 된다. 반대로, RDA가 너무 '불충분하게(lean)' 설정될 경우에는, 낮은 레벨의 음성 신호는 잡음의 적절한 레벨내에 묻힌 채로 속도 1/8로 부호화되어 남아 있을 것이다. 이는 낮은 식별성(intelligibility)으로 인하여 음성의 품질 저하를 초래하게 된다.
IS-96 이후로 EVRC 및 CDG-27에서의 RDA들은 개선되어 왔음에도 불구하고, CDMA 개발 그룹(CDG)의 최근 시험에 따르면, SNR이 10dB이하인 자동차 잡음 환경에서는 여전히 문제가 존재한다. 이러한 레벨의 SNR은 극단적인 경우로 보일 수도있지만, 휴대(hands-free) 이동 전화 환경에서는 이러한 레벨도 정상적인 레벨로 인식되어져야만 한다. 시간 분할 다중 접속(TDMA) 이동 유닛에서의 고정 속도 보코더 역시, 배터리 수명을 늘리기 위해 불연속 전송(DTX)을 사용할 경우에 유사한 문제에 직면한다. 이 시나리오에서는, 음성 활동 검출기(Voice Activity Detector; VAD)가 송신 전력 증폭기를 활성화시킬 것인지 여부를 결정하게 되는데, 이로 인하여 음성의 품질과 배터리 수명은 서로 양립할 수 없게 된다.
따라서, 통신 시스템에서 속도 결정을 위한 개선된 장치 및 방법이 필요하게 된다.
본 발명은 속도 결정(rate determination)에 관한 것으로, 보다 구체적으로는 통신 시스템에서의 속도 결정에 관한 것이다.
도 1은 본 발명에 따른 개선된 속도 결정을 구현한 통신 시스템의 개략도.
도 2는 본 발명에 따른 속도 결정을 구현하는 데 유용한 장치의 블럭도.
도 3은 도 2의 잡음 억제 시스템에서 발생하는 프레임간의 중첩을 도시한 도면.
도 4는 도 2의 잡음 억제 시스템에서 발생하는 프레임간의 중첩을 도시한 도면.
도 5는 도 2에 도시된 잡음 억제 시스템내의 스펙트럼 편차 추정기의 블럭도.
도 6은 도 2에 도시된 잡음 억제 시스템내의 갱신 판단 결정기에서 수행되는 단계들의 흐름도.
도 7은 본 발명에 따라 전송 속도를 결정하기 위해 도 2의 속도 결정 블럭에 의해 수행되는 단계들의 흐름도.
도 8은 본 발명에 따라 음성 활동성의 존재를 결정하기 위해 음성 활동성 검출기에 의해 수행되는 단계들의 흐름도.
낮은 신호 대 잡음비(SNR)에 적절하도록 속도 및 음성 활동성을 정확히 결정함으로써, 음성 품질, 시스템 용량 및/또는 배터리 수명을 최대로 하기 위해서, 잡음 억제 시스템으로부터의 패러미터를 속도 결정 기능의 입력으로 사용한다. 이러한 방법을 사용함으로써, 대부분의 음성이 주변 잡음으로부터 추출되고, 종래 시스템에 비하여 잡음 조건이 변동하는 동안의 오류 징후가 보다 적게 검출되게 된다. 이 방법은 속도 결정(RDA)뿐만 아니라 음성 활동성 검출(VAD)에도 유용하고, 다른 형태의 RDA/VAD 구현과는 달리 사용되는 음성 부호화기(speech coder)의 유형(IS-127, CDG-27,IS-96 및 GSM)에는 무관하다.
일반적으로, 통신 시스템에서 전송 속도를 결정하기 위한 장치는, 입력되는 신호 입력내의 주변 잡음을 억제하고 그 주변 잡음의 억제와 관련된 패러미터를 생성하는 잡음 억제 시스템과, 잡음 억제 시스템에 의해 생성된 이들 패러미터를 입력으로 하여 음성 부호화기에 의해 사용되는 전송 속도 정보를 생성하는 전송 속도 결정 수단을 포함한다. 양호한 실시예에서는, 이 잡음 억제 시스템이 IS-127에서 정의된 잡음 억제 시스템이며, 그에 의해 생성되는 패러미터들에는, 주변 잡음의 갑작스런 증가로 인해 잡음 억제 시스템이 주변 잡음을 잘못 분류하게 될 때 잡음 억제 시스템을 복원시키는 제어 신호가 포함된다.
보다 구체적으로는, 통신 시스템에서 전송 속도를 결정하기 위한 장치는, 정보의 현재 프레임내의 채널 에너지를 추정하기 위한 수단과, 그 추정된 채널 에너지를 입력으로 하여 정보의 현재 프레임에 대해 추정된 채널 에너지와 정보의 과거 프레임들의 에너지사이의 차이를 결정함으로써 현재 프레임에 대한 총 채널 에너지의 추정치를 생성하기 위한 수단을 포함한다. 이어서, 음성 메트릭(voice metric)을 결정하기 위한 수단은, 정보의 현재 프레임의 신호 대 잡음비에 대한 추정치를 기초로 하여 음성 메트릭을 결정하고, 총 추정 잡음 에너지를 생성하는 수단은 추정된 채널 에너지를 기초로 하여 이를 생성한다. 이러한 현재 프레임에 대한 총 채널 에너지 추정치, 음성 메트릭, 및 총 추정 잡음 에너지를 기초로 하여, 전송 속도를 결정하는 수단이 정보 프레임의 전송 속도를 결정하게 된다.
본 실시예에 있어서, 장치는 정보의 현재 프레임에 대한 총 채널 에너지 추정치, 정보의 현재 프레임의 최대치 대 평균치의 비, 현재 프레임과 과거 프레임들간의 스펙트럼 편차 및 음성 메트릭을 입력으로 하여, 잡음 추정치가 소정 유형의 신호가 존재할 때 갱신되는 것을 방지하는 제어 신호를 생성하기 위한 수단을 더 포함한다. 더 구체적으로, 이 제어 신호는 음색 신호(tonal signals)가 존재할 때에 잡음 추정치가 갱신되는 것을 방지하여 통신 시스템의 테스팅을 위한 사인파가 최대 속도 (full rate)로 송신될 수 있도록 한다.
본 발명에 따른 장치에 의해 수행되는 단계는, 정보의 현재 프레임의 최대 신호 대 잡음비로부터 제1 음성 메트릭 임계치를 결정하는 단계와, 음성 메트릭을 상기 제1 음성 메트릭 임계치와 비교하는 단계를 포함한다. 음성 메트릭이 제1 음성 메트릭 임계치보다 작을 경우에는, 정보 프레임은 제1 속도로 송신된다. 음성 메트릭이 제1 음성 메트릭 임계치보다 클 경우에는, 음성 메트릭은 제2 음성 메트릭 임계치와 비교된다. 음성 메트릭이 제2 음성 메트릭 임계치보다 작을 경우에는, 정보 프레임은 제2 속도로 송신되고, 그렇지 않을 경우에는 제3 속도로 송신된다.
이러한 단계들을 구현하는 통신 시스템은 IS-95에 정의된 것과 같은 코드 분할 다중 접속(CDMA) 통신 시스템이다. IS-95에 정의된 것과 같이, 제1 속도는 1/8 속도를 포함하고, 제2 속도는 1/2 속도를 포함하고, 제3 속도는 CDMA 통신 시스템의 최대 속도를 포함한다. 본 실시예에 있어서, 제2 음성 메트릭 임계치는 제1 음성 메트릭 임계치의 스케일링된 버전(scaled version)이고, 제2 또는 제3 속도로 송신된 이후에는 행-오버(hangover)가 구현된다.
본 실시예에서 정보의 현재 프레임의 최대 신호대 잡음비는 정보의 현재 프레임의 양자화된 최대 신호 대 잡음비(quantized peak signal-to-noise ratio)를 포함한다. 이에 따라, 정보의 현재 프레임의 양자화된 최대 신호 대 잡음비로부터 음성 메트릭을 결정하는 단계는, 정보의 현재 프레임에 대한 총 신호대잡음비(total signal-to-noise ratio)를 산출하는 단계와 정보의 현재 프레임에 대해 산출된 총 신호대 잡음비에 기초하여 최대 신호대 잡음비를 추정하는 단계를 포함한다. 이어서, 이 정보의 현재 프레임의 최대 신호대 잡음비는 음성 메트릭 임계치를 결정하기 위해 양자화된다.
통신 시스템은 GSM TDMA 통신 시스템과 같은 시간 분할 다중 접속(TDMA) 통신 시스템일 수도 있다. 이 경우에 있어서의 상기 방법은 상기 제1 속도가 무응답 서술자(silence descriptor; SID) 프레임을 포함하고, 상기 제2 및 제3 속도가 정상 속도 프레임들을 포함하도록 결정한다. 상술한 바와 같이, SID 프레임은 통상의 정보량을 포함하고 있지만, 통상의 정보 프레임보다는 드물게 송신된다.
도 1은 본 발명에 따른 속도 결정을 구현하는 통신 시스템의 개략도이다. 도 1에 도시된 실시예에 있어서, 통신 시스템은 코드 분할 다중 접속(CDMA) 무선 전화 시스템이지만, 기술 분야의 당업자라면 가변 속도 코딩 및 음성 활동 검출(VAD)을 구현하는 다양한 다른 유형의 통신 시스템에도 역시 본 발명이 사용될 수 있음을 알 수 있을 것이다. 배터리 수명을 연장시키기 위해 VAD를 구현하는 시스템의 한 유형으로는 TDMA 통신 시스템을 들 수 있다.
도 1에 도시된 바와 같이, 공중 전화 교환망(103; PSTN)은 이동 교환국(106; MSC)에 접속된다. 잘 알려진 바와 같이, PSTN(103)은 유선 교환 능력을 제공하는 반면, MSC(106)는 CDMA 무선 전화 통신 시스템과 관련된 교환 능력을 제공한다. MSC(106)에는 제어기(109)가 접속되는데, 이 제어기(109)의 기능에는 본 발명에 따른 잡음 억제, 속도 결정 및 음성 코딩/디코딩 기능이 포함된다. 제어기(109)는 이동국(115)과의 통신을 담당하고 있는 기지국들(112-113)로의 신호, 및 이들 기지국들로부터의 신호들의 연결을 제어한다. CDMA 무선 전화 시스템은 잠정 표준(Interim Standard; IS) 95-A와 호환된다. IS-95-A에 대한 보다 상세한 설명은 TIA/EIA/IS-95-A, 듀얼 모드 광대역 확산 스펙트럼 셀룰라 시스템을 위한 이동국-기지국간의 호환 표준, 1993년 7월을 참조하기 바란다. 도 1에는 MSC(106)의 교환 능력과 제어기(109)의 제어 능력이 분산되어 도시되어 있지만, 당업자라면 이 두 기능이 시스템 구현에 있어 하나의 실체로 결합될 수 있음을 충분히 예상할 수 있다.
도 2에 도시된 바와 같이, MSC(106)으로부터 제어기(109)로 입력된 신호 s(n)은, 본 발명에 따른 속도 결정에 기초한 잡음 억제를 수행하는 장치(201)로 입력된다. 양호한 실시예에 있어서, 상기 장치(201)의 잡음 억제 부분은, 1997년 1월 미국에서 출판된 TIA 문서 IS-127, '광대역 확산 스펙트럼 디지탈 시스템을 위한 향상된 가변 속도 코덱, 음성 서비스 옵션 3'의 §4.1.2에 기재된 잡음 억제 시스템을 다소 수정한 것이다. 장치(201)로부터 출력되는 신호 s'(n)은 공지된 음성 부호화기 (도시되지 않음)으로 입력되어, 기지국(112-113)을 통해 이동국(115)로의 송신을 위해 잡음 억제된 신호를 부호화한다. 또한, 도 2에는 상기 잡음 억제 시스템으로부터의 패러미터를 사용하여 본 발명에 따른 음성 활동성 및 속도 결정 정보를 결정하는 속도 결정 알고리즘(RDA)이 도시되어 있다.
이들 잡음 억제 시스템으로부터의 패러미터들이 음성 활동성과 속도 결정 정보를 결정하는데 어떻게 사용되는 지를 충분히 이해하기 위해서는, 상기 장치(201)의 잡음 억제 시스템 부분에 대한 이해가 필요하다. 이 장치의 잡음 억제 시스템 부분은, 설계 엔지니어가 특정 통신 시스템에서 구현하고자 하는 어떠한 유형의 음성 부호화기와도 동작할 수 있다는 점에서, 그 동작은 일반적이라 할 수 있다. 본 출원의 도 2에 도시된 몇몇 블럭은 빌머(Vilmer)의 미국 특허 제 4,811,404호의 도 1에 도시된 해당 블럭들과 유사한 동작을 갖는다. 이에, 빌머의 상기 미국 특허 제 4,811,404호(본 출원의 양수인에게로 양도되었음)는 본 명세서에서 참조된다.
이제 도 2를 살펴보면, 장치(201)의 잡음 억제 부분은 고역 통과 필터(HPF; 200)와 잔여 잡음 억제 회로를 포함한다. HPF(200)의 출력 shp(n)은 상기 잔여 잡음 억제 회로의 입력으로 사용된다. 비록 음성 부호화기의 프레임 크기가 20ms(IS-95에 의해 정의된 값임)이라 하더라도, 상기 잔여 잡음 억제 회로로의 프레임 크기는 10ms이다. 결과적으로, 양호한 실시예에 있어서는, 잡음 억제를 수행하는 단계가 20ms 음성 프레임당 2 번 수행되게 된다.
잡음 억제를 시작하기 위하여, 입력 신호 s(n)은 고역 통과 필터(200)에 의해 필터링되어 신호 shp(n)를 생성한다. HPF(200)은 잘 알려진 120 Hz의 차단 주파수를 갖는 4 차 체비셰프 II 형(Chebyshev type II)이다. HPF(200)의 전달 함수는 다음과 같이 정의된다.
여기서, 각 분모, 분자의 계수는 다음과 같이 정의된다.
b = {0.898025036, -3.59010601, 5.38416243, -3.59010601, 0.898024917}
a = {1.0, -3.78284979, 5.37379122, -3.39733505, 0.806448996}
당업자라면 임의의 수의 고역 통과 필터 구성이 사용될 수 있음을 예상할 수 있다.
다음으로, 프리앰퍼시스(preemphasis) 블럭(203)에서는, 입력 프레임(프레임 'm')의 최초 D 샘플들 d(m)이 이전 프레임(프레임 'm-1')의 마지막 D 샘플들과 중첩되는 부드러운 사다리꼴 모양의 윈도우(window)를 사용하여 신호 shp(n)이 윈도우된다. 이러한 중첩은 도 3에 잘 나타나 있다. 달리 언급이 없으면, 모든 변수는 0의 초기값을 갖는다. 예를 들어, d(m) = 0 ; m ≤ 0. 이는 다음과 같이 쓸 수 있다.
여기서, m은 현재 프레임, n은 버퍼 {d(m)}으로의 샘플 인덱스, L = 80 은 프레임 길이, D = 24는 샘플들에서의 중첩 (또는 지연)이다. 이어서, 입력 버퍼의 나머지 샘플들은 다음 식을 따라 프리앰퍼시스된다.
여기서, ζp= -0.8 은 프리앰퍼시스 계수(preemphasis factor)이다. 이는, L + D = 104 샘플을 갖는 입력 버퍼에서, 처음 D 샘플들은 이전 프레임과 중첩되어 프리앰퍼시스되고, 다음 L 샘플들은 현재 프레임으로부터 입력되게 함을 의미한다.
다음, 도 2의 윈도잉(windowing) 블럭(204)에서는, 샘플들에 부드러운 사다리꼴 모양의 윈도우(도 4의 400)가 인가되어 이산 푸리에 변환(Discrtete Fourier Transform; DTF) 입력 신호 g(n)을 형성한다. 양호한 실시예에 있어서는, g(n)은 다음과 같이 정의된다.
여기서, M = 128은 DTF 시퀀스 길이이고, 다른 모든 항들은 이미 정의된 바 있다.
도 2의 채널 분할기에서는 다음에 정의된 이산 푸리에 변환(DTF)을 사용하여 g(n)의 주파수 영역으로의 변환이 수행된다.
여기서, e는 순간 방사상 위치(radial position) ω를 갖는 단위 진폭 복소 페이저이다. 이는 전형적인 정의는 아니지만, 복소 패스트 푸리에 변환(Fast Fourier Transform; FFT)의 효율을 이용하는 정의이다. 2/M 척도 계수(scale factor)는 M/2 포인트(point) 복소 FFT를 사용하여 변환되는 M/2 포인트 복소 시퀀스를 형성하기 위해 M 포인트 실수 시퀀스를 사전 조정하는 것으로부터 도출된 값이다. 양호한 실시예에 있어서, 신호 G(k)는 65 개의 특정 채널을 포함한다. 이 기술에 대한 보다 상세한 설명은 Proakis와 Manolakis의 디지탈 신호 처리 소개(Introduction to Digital Signal Processing, 2nd Ed., New York, Macmillan, 1988, pp. 721-722)에 개시되어 있다.
이어서, 신호 G(k)는 채널 에너지 추정기(209)로 입력되는데, 여기에서는 현재 프레임 m에 대한 채널 에너지 추정치 Ech(m)을 다음 식에 따라 결정한다.
여기서, Emin= 0.0625는 최소 허용가능한 채널 에너지이고, ach(m)은 채널 에너지 평활화 계수(smoothing factor; 이하에서 정의함)이며, Nc= 16은 결합된 채널의 수이고, fL(i) 및 fH(i)는 각각의 저 및 고 채널 결합 테이블 fL과 fH의 i번째 요소이다. 양호한 실시예에 있어서, fL과 fH는 다음과 같이 정의된다.
fL= {2,4,6,8,10,12,14,17,20,23,27,31,36,42,49,56},
fH= {3,5,7,9,11,13,16,19,22,26,30,35,41,48,55,63}.
채널 에너지 평활화 계수 ach(m)는 다음과 같이 정의된다.
이는, ach(m)가 최초 프레임(m=1)에 대해서는 0의 값을 갖고, 이후 연속된 모든 프레임들에 대해서는 0.45의 값을 갖는 것을 의미한다. 이로 인해 채널 에너지 추정치가 최초 프레임의 필터링되지 않은 채널 에너지로 초기화될 수 있게 된다. 또한, 채널 잡음 에너지 추정치(이하에서 설명함)는 처음 4 개의 프레임들의 채널 에너지로 초기화되어야만 한다. 즉,
여기서, Einit=16은 최소 허용가능한 채널 잡음 초기화 에너지이다.
다음으로, 현재 프레임에 대한 채널 에너지 추정치 Ech(m)는 양자화된 채널 신호대 잡음비(SNR) 인덱스들을 추정하는데 사용된다. 이러한 추정은 도 2의 채널 SNR 추정기(218)에서 수행되고, 다음과 같이 결정된다.
여기서, En(m)은 현재 채널 잡음 에너지 추정치(이하에서 정의함)이고, {s q}의 값은 0에서 89사이(0과 89는 포함)의 값으로 제한된다.
채널 SNR 추정치 {s q}를 사용함으로써, 음성 메트릭의 합이 음성 메트릭 산출기(215)에서 다음과 같이 결정된다.
여기서, V(k)는 90 개의 요소로 된 음성 메트릭 테이블 V(아래의 정의 참조)의 k번째 값이다.
또한, 현재 프레임에 대한 채널 에너지 추정치 Ech(m)는 스펙트럼 편차(spectral deviation) ΔE(m)을 추정하는 스펙트럼 편차 추정기(210)의 입력으로도 사용된다. 도 5를 참조하면, 채널 에너지 추정치 Ech(m)는 대수 전력 스펙트럼 추정기(log power spectral estimator; 500)로 입력되고, 여기서는 대수 전력 스펙트럼이 다음과 같이 추정된다.
현재 프레임에 대한 채널 에너지 추정치 Ech(m)는, 현재 프레임 m에 대한 총채널 에너지 추정치 Etot(m)을 다음 식에 따라 결정하는 총 채널 에너지 추정기(503)로도 입력된다.
다음, 지수 윈도잉 계수(exponential windowing factor) α(m)(총 채널 에너지 Etot(m)의 함수)는 다음 식에 따라 지수 윈도잉 계수 결정기(506)에서 결정된다.
이는 다음 식에 의해 αH와 αL사이로 한정된다.
여기서, EH와 EL은, αL≤α(m)≤αH으로 주어지는 αL및 αH의 상한 및 하한을 갖는 α(m)으로 변환되는 Etot(m)의 선형 보간(linear interpolation)에 대한 에너지 종점(데시벨 'dB'로 표현됨)이다. 이들 상수의 값은 EH= 50, EL= 30, αH= 0.99, αL= 0.50으로 정의된다. 이 경우, 40 dB의 상대 에너지를 갖는 신호는 상기 계산을 따르면, α(m) = 0.745의 지수 윈도잉 계수를 사용하게 된다.
이어서, 스펙트럼 편차 ΔE(m)이 스펙트럼 편차 추정기(509)에서 추정된다. 스펙트럼 편차 ΔE(m)는 현재 전력 스펙트럼과 장기간에 걸쳐 평균한 전력 스펙트럼 추정치사이의 차이이다.
여기서,은 상기 장기간에 걸쳐 평균한 전력 스펙트럼 추정치로서, 장기간의 스펙트럼 에너지 추정기(512)에서 다음 식을 사용하여 결정된다.
여기서의 모든 변수들은 이미 정의된 바 있다.의 초기값은 프레임 1의 추정된 대수 전력 스펙트럼이나 또는 다음 식으로 정의된다.
이제, 잡음 억제를 용이하게 하기 위하여, 음성 메트릭의 합 v(m), 현재 프레임에 대한 총 채널 에너지 추정치 Etot(m) 및 스펙트럼 편차 ΔE(m)이 갱신 판단 결정기(update decision determiner; 212)로 입력된다. 도 6에 흐름도로 도시된 결정 논리(이하에서는 의사 코드(pseudo-code)로 나타냄)는 잡음 추정치 갱신 결정을 궁극적으로 어떻게 행할 것인가를 나타낸다. 그 과정은 단계(600)에서 시작하여 갱신 플래그(update_flag)가 클리어되는 단계(603)으로 진행된다. 이어서, 단계(604)에서는, 음성 메트릭의 합 v(m)이 갱신 임계치(UPDATE_THLD)보다 작은 지 여부를 검사함으로써, 빌머(Vilmur)의 갱신 논리(VMSUM 만)가 구현된다. 음성 메트릭의 합이 갱신 임계치보다 작은 경우에는, 단계(605)에서 갱신 카운터(update_cnt)가 클리어되고, 단계(606)에서 갱신 플래그가 세트된다. 단계(603-606)를 위한 의사 코드는 다음과 같다.
단계(604)에서 음성 메트릭의 합이 갱신 임계치보다 클 경우에는, 잡음 추정치의 갱신이 디스에이블된다. 그렇지 않으면, 단계(607)에서 현재 프레임 m에 대한 총 채널 에너지 추정치 Etot(m)이 dB 형태로 주어진 잡음 바닥(noise floor; NOISE_FLOOR_DB)과 비교되고, 스펙트럼 편차 ΔE(m)가 편차 임계치(DEV_THLD)와 비교된다. 총 채널 에너지 추정치가 잡음 바닥보다 크고, 스펙트럼 편차가 편차 임계치보다 작을 경우에는, 단계(608)에서 갱신 카운터(update_cnt)가 증가된다. 갱신 카운터가 증가된 이후에는 단계(609)에서 갱신 카운터가 갱신 카운터 임계치(UPDATE_CNT_THLD)보다 크거나 같은 지를 결정하기 위한 테스트가 수행된다.단계(609)에서의 테스트 결과가 참이라면, 이어서 단계(613)에서 강제 갱신 플래그(forced update flag)가 클리어되고, 단계(606)에서 갱신 플래그가 세트된다. 단계(607-609) 및 단계(606)을 위한 의사 코드는 다음과 같다.
도 6으로부터 알 수 있는 바와 같이, 단계(607 및 609)의 테스트중 하나라도 거짓이거나, 또는 단계(606)에서 갱신 플래그가 세트된 경우에는, 갱신 카운터의 장기간의 '서행(creeping)'을 방지하기 위한 논리가 구현된다. 이 이력 논리(hysteresis logic)는 미소의 스펙트럼 편차가 장기간 누적되어 유효하지 않은 강제 갱신을 일으키는 것을 방지하기 위해 구현된다. 그 과정의 시작은 단계(610)으로, 여기서는 갱신 카운터가 최종 6 프레임(HYSTER_CNT_THLD)에 대한 최종 갱신 카운터 값(last_update_cnt)과 같게 되었는 지를 결정하는 테스트가 수행된다. 양호한 실시예에 있어서는, 6 프레임들이 임계치로 사용되었지만, 임의의 수의 프레임들이 구현될 수도 있다. 단계(610)에서의 테스트가 참이면, 갱신 카운터는 단계(611)에서 클리어되고, 과정은 단계(612)에서 다음 프레임으로 나아간다. 단계(610)에서의 테스트가 거짓이면, 과정은 직접 단계(612)에서 다음 프레임으로 나아간다. 단계(610-612)를 위한 의사 코드는 다음과 같다.
양호한 실시예에서, 이전에 사용된 상수의 값은 다음과 같다.
주어진 프레임에 대해서, 단계(606)에서의 갱신 플래그가 세트될 때마다, 그 다음 프레임에 대한 채널 잡음 추정치가 갱신된다. 채널 잡음 추정치는 평활화 필터(224)에서 다음 식에 따라 갱신된다.
여기서, Emin= 0.0625는 최소 허용 가능한 채널 에너지이고, αn= 0.9는 평활화 필터(224)내에 국부적으로 저장된 채널 잡음 평활화 계수이다. 갱신된 채널 잡음 추정치는 에너지 추정치 저장 장치(225)에 저장되고, 이 저장 장치(225)의 출력은 갱신된 채널 잡음 추정치 En(m)이다. 상술한 바와 같이, 갱신된 채널 잡음 추정치 En(m)는 채널 SNR 추정기(218)의 입력으로 사용되고, 또한 이하에서 설명하겠지만 이득 산출기(233)의 입력으로도 사용된다.
다음, 장치(201)의 잡음 억제 부분은 채널 SNR 수정이 행해져야 할 것인지 여부를 결정한다. 이 결정은 채널 SNR 수정기(227)에서 수행되는데, 여기서는 인덱스 임계치를 초과하는 채널 SNR 인덱스 값을 갖는 채널의 수를 카운트한다. 수정 과정 그 자체인 동안, 채널 SNR 수정기(227)는 세트백 임계치(setback threshold; SETBACK_THLD)보다 작은 SNR 인덱스를 갖는 특정 채널들의 SNR을 감소시키거나, 또는 음성 메트릭의 합이 메트릭 임계치(METRIC_THLD)보다 작다면 모든 채널들의 SNR을 감소시킨다. 채널 SNR 수정기(227)에서 일어나는 채널 SNR 수정 과정을 나타내는 의사 코드는 다음과 같다.
여기서, 채널 SNR 인덱스 {σq'}는 SNR 임계치 블럭(230)내의 SNR 임계치로 한정된다. 상수 σth는 SNR 임계치 블럭(230)내에 국부적으로 저장된다. SNR 임계치 블럭(230)에서 수행되는 과정을 나타내는 의사 코드는 다음과 같다.
양호한 실시예에 있어서, 앞의 상수 및 임계치들은 다음의 값으로 주어진다.
여기서, 제한된 SNR 인덱스 {σq''}는 채널 이득을 결정하는 이득 산출기(233)로 입력된다. 먼저, 전체 이득 계수는 다음 식을 사용하여 결정된다.
여기서, γmin= -13은 최소 전체 이득, Efloor= 1은 잡음 바닥 에너지, En(m)은 이전 프레임동안 산출된 추정 잡음 스펙트럼이다. 양호한 실시예에 있어서, 상수 γmin및 Efloor는 이득 산출기(233)에 국부적으로 저장된다. 계속하여, 채널 이득(dB)이 다음 식에 따라 결정된다.
여기서, μg= 0.39는 이득 경사(gain slope; 역시 이득 산출기(233)에 국부적으로 저장됨)이다. 이어서, 선형 채널 이득이 다음 식을 사용함으로써 변환된다.
결정된 채널 이득은 변환된 입력 신호 G(k)에 인가되어, 다음 기준에 따라 채널 이득 수정기(239)로부터의 출력 신호 H(k)를 생성한다.
상기 수식에서 그 이외의 경우는 k의 구간이 0≤k≤M/2인 것을 가정한다. 또한, H(k)의 크기는 우수 대칭(even symmetric)인 것을 가정한다. 따라서, 다음 조건이 역시 부가된다.
여기서, *는 공액 복소수를 나타낸다. 이어서, 신호 H(k)는 채널 결합기(242)에서 역 DFT를 사용하여 시간 영역으로 다시 변환된다.
그리고, 다음 기준에 따라 중첩 가산(overlap-and-add)을 적용함으로써, 주파수 영역 필터링 과정이 완료되어 출력 신호 h'(n)을 생성한다.
디앰퍼시스(deemphasis) 블럭(245)에 의해 신호 디앰퍼시스가 신호 h'(n)에 적용되어 잡음 억제된 신호 s'(n)을 생성한다.
여기서, ζd= 0.8은 디앰퍼시스 블럭(245)에 국부적으로 저장된 디앰퍼시스 계수이다.
상술한 바와 같이, 장치(201)의 잡음 억제 부분은, TIA 문서 IS-127, '광대역 확산 스펙트럼 디지탈 시스템을 위한 향상된 가변 속도 코덱, 음성 서비스 옵션 3'의 §4.1.2에 기재된 잡음 억제 시스템을 다소 수정한 것이다. 특히, 도 2에는 속도 결정 알고리즘(RDA) 블럭(248)과 최대치 대 평균치 비 블럭(251)이 추가적으로 도시되어 있다. 최대치대 평균치비 블럭(251)의 추가는 '음색(tonal)' 신호 동안 잡음 추정치가 갱신되는 것을 방지한다. 이는 시스템 검사를 위해 특히 유용한 속도 1로의 사인파 송신을 가능하게 한다.
다시 도 2를 참조하면, IS-127 기재의 잡음 억제 시스템에 의해 생성된 패러미터들이 본 발명에 따른 음성 활동성의 검출 및 송신 속도의 결정을 위한 기준으로 사용된다. 양호한 실시예에 있어서, 잡음 억제 시스템에 의해 생성되는 패러미터들(본 발명에 따른 RDA 블럭(248)내에서 구현됨)은 음성 메트릭의 합 v(m), 총 채널 에너지 Etot(m), 총 추정 잡음 에너지 Etn(m) 및 프레임 번호 m이다. 또한, 강제 갱신이 언제 일어나야 할 지를 RDA 블럭(248)에 지시하기 위하여, 강제 갱신 플래그(forced update flag; fupdate_flag) 라고 하는 새로운 플래그가 생성된다. 강제 갱신은 주변 잡음에서의 갑작스런 증가로 인해 잡음 억제 시스템이 주변 잡음을 잘못 분류하게 될 경우에, 잡음 억제 부분을 회복시키기 위한 메커니즘이다. RDA 블럭(248)로의 입력으로 주어진 패러미터들과, RDA 블럭(248)의 출력으로서의 속도(rate)로, 본 발명에 따른 속도 결정을 상세히 설명하기로 한다.
상술한 바와 같이, RDA 블럭(248)로의 대부분의 입력 패러미터는 IS-127에서 정의된 잡음 억제 시스템에 의해 생성된다. 예를 들어, 음성 메트릭의 합 v(m)은 IS-127의 수식 4.1.2.4-1에 의해 결정되고, 총 채널 에너지 Etot(m)은 수식 4.1.2.5-4에 의해 결정된다. 총 추정 잡음 에너지 Etn(m)은 다음과 같이 주어진다.
이는 IS-127의 수식 4.1.2.8-1로부터 쉽게 얻을 수 있다. 10ms 프레임 번호 m 은 m = 1에서 시작한다. 강제 갱신 플래그(fupdate_flag)는 IS-127의 §4.1.2.6에 도시된 '강제 갱신(forced update)' 논리 구현으로부터 도출된다. 특히, 강제 갱신 플래그(fupdate_flag)의 생성을 위한 의사 코드는 다음과 같다.
여기서, sinewave_flag는 스펙트럼 최대치대 평균치 비 ψ(m)이 10 dB보다 크고, 스펙트럼 편차 ΔE(m)이 DEV_THLD보다 작을 경우에 참(TRUE)으로 세트된다. 달리 말하면,
여기서,
는 최대치대 평균치비 블럭(251)에서 결정된 최대치대 평균치비이고, Ech(m)은 IS-127의 수식 4.1.2.2-1에서 주어진 채널 에너지 추정치이다.
적절한 입력이 일단 생성되면, RDA 블럭(248)내에서의 속도 결정은 본 발명에 따라 수행될 수 있게 된다. 도 7에 도시된 흐름도를 참조하면, 수정된 총 에너지 E'tot(m)은 다음과 같이 주어진다.
여기서, 초기 수정된 총 에너지는 경험상 56dB로 설정된다. 이어서, 추정된 총 SNR이 단계(703)에서 다음과 같이 산출될 수 있다.
이 결과는 단계(706)에서 장기간의 최대치 SNR(long-term peak SNR; SNRp(m))을 추정하는데 사용되고, 이는 다음과 같다.
여기서, SNRp(0) = 0이다. 이어서, 장기간의 최대치 SNR은 단계(709)에서 다음과 같이 3dB 단계로 양자화되고, 0에서 19사이로 제한된다.
여기서, └x┘는 x(바닥 함수(floor function))보다 작거나 같은 최대의 정수이다. 이제 양자화된 SNR은 단계(712)에서 각각의 음성 메트릭 임계치 vth, 행오버 카운트(hangover count) hcnt및 버스트(burst) 카운트 임계치 bth패러미터를 결정하는데 사용될 수 있다.
여기서, SNRQ는 다음과 같이 정의된 각 테이블의 인덱스이다.
이 정보를 사용하여, RDA 블럭(248)로부터의 속도 결정 출력이 만들어진다. 블럭(712)로부터의 각각의 음성 메트릭 임계치 vth, 행오버 카운트 hcnt및 버스트 카운트 임계치 bth패러미터 출력은 블럭(715)로 입력되어, 음성 메트릭 v(m)이 음성 메트릭 임계치보다 큰 지 여부를 결정하는 테스트가 이루어진다. 음성 메트릭 임계치는 IS-127의 수식 4.1.2.4-1을 사용하여 결정된다. 중요한 것은, 잡음 억제 시스템으로부터의 음성 메트릭 v(m) 출력은 변하지 않지만, 음성 메트릭 임계치는 본 발명에 따라 RDA(248)내에서 변한다는 점이다.
도 7의 단계(715)를 참조하면, 음성 메트릭 v(m)이 음성 메트릭 임계치보다 작을 경우, 단계(718)에서 신호 s'(n)을 송신하는 속도가 1/8로 결정된다. 이 결정 이후에, 단계(721)에서 행오버(hangover)가 구현된다. 행오버는 완만히 감소하여 잡음으로 분류될 수도 있었던 음성을 '포함(cover)'하거나, 또는 적극적인 음성 활동성 검출로 인해 저하될 수도 있는 음성내의 미소 갭(gap)을 연결(bridge)하도록 구현된다. 단계(721)에서 행오버가 구현된 이후에, 단계(736)에서 유효한 속도의 송신이 보장된다. 이로써, 신호 s'(n)은 본 발명에 따라 1/8 속도로 부호화되어 적절한 이동국으로 송신된다.
단계(715)에서 음성 메트릭 v(m)이 음성 메트릭 임계치보다 크다면, 단계(724)에서 음성 메트릭 v(m)이 가중치가 부여된(α 만큼) 음성 메트릭 임계치보다 큰 지를 결정하는 또다른 테스트가 수행된다. 이 과정은 잡음 바닥(noise floor)에 매우 근접한 음성 신호들이 속도 1/2 로 부호화될 수 있도록 한다. 이는 높은 음성 품질을 유지하면서도 평균 데이타 속도를 낮추는 데 유용하다. 단계(724)에서 음성 메트릭 v(m)이 가중 음성 메트릭 임계치보다 크지 않다면, 과정은 단계(727)로 진행하여, 신호 s'(n)을 송신하는 속도를 1/2 로 결정한다. 그러나, 단계(724)에서 음성 메트릭 v(m)이 가중 음성 메트릭 임계치보다 크다면, 과정은 단계(730)로 진행하여, 신호 s'(n)을 송신하는 속도를 1(최대 속도; full rate)로 결정한다. 어떤 경우(단계(727)을 통한 1/2 속도로의 송신 또는 단계(730)을 통한 최대 속도로의 송신)에도, 이후 과정은 단계(733)으로 진행하여 행오버를 결정한다. 행오버가 결정된 이후, 과정은 단계(736)으로 진행하여, 유효한 속도의 송신이 보장된다. 이로써, 신호 s'(n)은 본 발명에 따라 1/2 또는 최대 속도로 부호화되어, 적절한 이동국(115)으로 송신된다.
도 7의 단계(715-733)는 다음 의사 코드를 참조하여 설명될 수도 있다.
다음 의사 코드는 IS-127에 정의된 것처럼 유효하지 않은 속도의 송신을 방지한다. 하나의 20ms 음성 보코더 프레임 속도를 결정하는데, 2 개의 10ms 잡음 억제 프레임이 필요하다. 최종 속도는 2개의 잡음 억제 기반의 RDA 프레임들중 최대치에 의해 결정된다.
이제까지 본 발명을 특정 실시예를 참조하여 설명하고 도시하였지만, 본 발명의 사상과 범주를 벗어나지 않은 채 다양한 변형이 가능하다. 예를 들어, 본 발명에 따른 속도 결정을 구현하는데 유용한 장치는 통신 시스템의 하부 구조측으로서 도 2에 도시되어 있지만, 도 2의 장치는 이동국(115)내에서도 유사하게 구현될 수 있다. 이러한 구현에서는, 본 발명에 따른 속도 결정을 구현하는데, 도 2에 어떠한 변형도 가할 필요가 없다.
또한, 본 발명에 따른 속도 결정의 개념은 CDMA 통신 시스템을 특별히 참조하여 설명되었으나, 이는 본 발명에 따라 시간 분할 다중 접속(TDMA) 통신 시스템에 적용될 때 음성 활동성 검출(voice activity detection; VAD)로도 확장될 수 있다. 이 구현에서는, 도 2의 RDA 블럭(248)의 기능은 음성 활동성 검출(VAD)의 기능으로 대체되고, VAD 블럭(248)의 출력인 VAD 결정이 유사하게 음성 부호화기의 입력으로 된다. VAD 블럭(248)을 빠져나오는 음성 활동성이 참(TRUE)인지 거짓(FALSE)인지를 결정하는 단계는 도 7에 도시된 흐름도와 유사하고, 이는 도 8에 도시되어 있다. 도 8에 도시된 바와 같이, 단계(703-715)는 도 7과 동일하다. 그러나, 단계(715)에서의 테스트가 거짓이라면, VAD는 단계(818)에서 거짓(FALSE)로 결정되고, 과정은 단계(721)로 진행하여 행오버가 구현된다. 단계(715)에서의 테스트가 참이라면, VAD는 단계(827)에서 참(TRUE)으로 결정되고, 과정은 단계(733)로 진행하여 행오버가 결정된다.

Claims (37)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 통신 시스템에서 한 정보 프레임에 대한 전송 속도를 결정하기 위한 방법에 있어서,
    상기 정보 프레임으로부터 음성 메트릭(voice matric)을 결정하는 단계;
    다수의 정보의 이전 프레임들과 정보의 현재 프레임의 최대 신호대 잡음비로부터 제1 음성 메트릭 임계치를 결정하는 단계;
    상기 음성 메트릭을 상기 제1 음성 메트릭 임계치와 비교하는 단계;
    상기 음성 메트릭이 상기 제1 음성 메트릭 임계치보다 작을 경우에는, 상기 정보 프레임을 제1 속도로 송신하는 단계;
    상기 음성 메트릭이 상기 제1 음성 메트릭 임계치보다 클 경우에는, 상기 음성 메트릭을 제2 음성 메트릭 임계치와 비교하는 단계;
    상기 음성 메트릭이 상기 제2 음성 메트릭 임계치보다 작을 경우에는, 상기 정보 프레임을 제2 속도로 송신하는 단계; 및
    상기 음성 메트릭이 상기 제2 음성 메트릭 임계치보다 클 경우에는, 상기 정보 프레임을 제3 속도로 송신하는 단계
    를 포함하는 전송 속도 결정 방법.
  9. 삭제
  10. 삭제
  11. 제8항에 있어서, 상기 통신 시스템은 IS-95에 정의된 코드-분할 다중 접속(CDMA) 통신 시스템을 더 포함하는 전송 속도 결정 방법.
  12. 제11항에 있어서, 상기 제1 속도는 1/8 속도를 포함하고, 상기 제2 속도는 1/2 속도를 포함하며, 상기 제3 속도는 CDMA 통신 시스템에서의 최대 속도(full rate)를 포함하는 전송 속도 결정 방법.
  13. 제8항에 있어서, 상기 제2 음성 메트릭 임계치는 상기 제1 음성 메트릭 임계치의 스케일링된 버전(scaled version)인 전송 속도 결정 방법.
  14. 제8항에 있어서, 상기 제1, 제2 또는 제3 속도가 결정된 후 행-오버(hang-over)가 구현되거나 결정되는 전송 속도 결정 방법.
  15. 제8항에 있어서, 상기 최대 신호대 잡음비는, 다수의 정보의 과거 프레임들과 정보의 현재 프레임의 양자화된 최대 신호대 잡음비를 포함하는 전송 속도 결정 방법.
  16. 제15항에 있어서, 상기 정보의 현재 프레임의 양자화된 최대 신호대 잡음비로부터 음성 메트릭 임계치를 결정하는 단계는,
    상기 정보의 현재 프레임에 대한 총 신호대 잡음비를 산출하는 단계;
    다수의 정보의 과거 프레임들과 상기 정보의 현재 프레임에 대해 산출된 총 신호대 잡음비에 기초하여 최대 신호대 잡음비를 추정하는 단계; 및
    상기 음성 메트릭 임계치를 결정하기 위해 상기 정보의 현재 프레임의 상기 최대 신호대 잡음비를 양자화하는 단계
    를 더 포함하는 전송 속도 결정 방법.
  17. 제8항에 있어서, 상기 통신 시스템은 시간 분할 다중 접속(TDMA) 통신 시스템을 더 포함하는 전송 속도 결정 방법.
  18. 제17항에 있어서, 상기 제1 속도는 무응답 서술자(silence descriptor; SID) 프레임을 포함하고, 상기 제2 및 상기 제3 속도는 정상 속도 프레임들을 포함하는 전송 속도 결정 방법.
  19. 통신 시스템에서 한 정보 프레임에 대한 음성 활동성(Voice Activity)을 결정하는 방법에 있어서,
    상기 정보 프레임으로부터 음성 메트릭을 결정하는 단계;
    다수의 정보의 과거 프레임들과 정보의 현재 프레임의 최대 신호대 잡음비로부터 음성 메트릭 임계치를 결정하는 단계;
    상기 음성 메트릭을 상기 음성 메트릭 임계치와 비교하는 단계;
    상기 음성 메트릭이 상기 음성 메트릭 임계치보다 작을 경우에는, 상기 정보 프레임을 제1 속도로 전송하는 단계; 및
    상기 음성 메트릭이 상기 음성 메트릭 임계치보다 클 경우에는, 상기 정보 프레임을 제2 속도로 전송하는 단계
    를 포함하는 음성 활동성 결정 방법.
  20. 제19항에 있어서, 상기 통신 시스템은 시간 분할 다중 접속(TDMA) 통신 시스템을 더 포함하는 음성 활동성 결정 방법.
  21. 제19항에 있어서, 상기 속도가 결정된 후 행-오버가 구현되거나 결정되는 음성 활동성 결정 방법.
  22. 제19항에 있어서, 상기 최대 신호대 잡음비는, 다수의 정보의 과거 프레임들과 정보의 현재 프레임의 양자화된 최대 신호대 잡음비를 더 포함하는 음성 활동성 결정 방법.
  23. 제22항에 있어서, 상기 음성 메트릭 임계치를 결정하는 단계는,
    상기 정보의 현재 프레임에 대한 총 신호대 잡음비를 산출하는 단계;
    다수의 정보의 과거 프레임들과 상기 정보의 현재 프레임에 대한 상기 산출된 총 신호대 잡음비를 기초로 최대 신호대 잡음비를 추정하는 단계; 및
    상기 음성 메트릭의 임계치를 결정하기 위해 상기 정보의 현재 프레임의 상기 최대 신호대 잡음비를 양자화하는 단계
    를 더 포함하는 음성 활동성 결정 방법.
  24. 통신 시스템에서 한 정보 프레임에 대한 전송 속도를 결정하는 시스템에 있어서,
    상기 정보 프레임으로부터 음성 메트릭을 결정하고, 다수의 정보의 과거 프레임들과 정보의 현재 프레임의 최대 신호대 잡음비로부터 제1 음성 메트릭 임계치를 결정하고, 상기 음성 메트릭을 상기 제1 음성 메트릭 임계치와 비교하고, 상기 음성 메트릭이 상기 제1 음성 메트릭 임계치보다 클 경우에는 상기 음성 메트릭을 제2 음성 메트릭 임계치와 비교하기 위한 속도 결정 알고리즘; 및
    상기 음성 메트릭이 상기 제1 음성 메트릭 임계치보다 작을 경우에는 상기 정보 프레임을 제1 속도로 전송하고, 상기 음성 메트릭이 상기 제2 음성 메트릭 임계치보다 작을 경우에는 상기 정보 프레임을 제2 속도로 전송하고, 상기 음성 메트릭이 상기 제2 음성 메트릭 임계치보다 클 경우에는 상기 정보 프레임을 제3 속도로 전송하기 위한 음성 부호화기(speech coder)
    를 포함하는 전송 속도 결정 시스템.
  25. 제24항에 있어서, 상기 통신 시스템은 IS-95에 정의된 코드 분할 다중 접속(CDMA) 통신 시스템을 더 포함하는 전송 속도 결정 시스템.
  26. 제25항에 있어서, 상기 제1 속도는 1/8 속도를 포함하고, 상기 제2 속도는 1/2 속도를 포함하며, 상기 제3 속도는 CDMA 통신 시스템의 최대 속도(full rate)를 포함하는 전송 속도 결정 시스템.
  27. 제24항에 있어서, 상기 제2 음성 메트릭 임계치는 상기 제1 음성 메트릭 임계치의 스케일링된 버전(scaled version)인 전송 속도 결정 시스템.
  28. 제24항에 있어서, 상기 제1, 제2 또는 제3 속도가 결정된 후 행-오버가 구현되거나 결정되는 전송 속도 결정 시스템.
  29. 제24항에 있어서, 정보의 현재 프레임의 상기 최대 신호대 잡음비는, 정보의 현재 프레임의 양자화된 최대 신호대 잡음비를 더 포함하는 전송 속도 결정 시스템.
  30. 제29항에 있어서, 정보의 현재 프레임의 상기 양자화된 최대 신호대 잡음비로부터 음성 메트릭 임계치를 결정하기 위한 상기 속도 결정 알고리즘은,
    상기 정보의 현재 프레임에 대한 총 신호대 잡음비를 산출하고, 다수의 정보의 과거 프레임들과 상기 정보의 현재 프레임에 대한 상기 산출된 총 신호대 잡음비에 기초하여 최대 신호대 잡음비를 추정하고, 상기 음성 메트릭 임계치를 결정하기 위하여 상기 정보의 현재 프레임의 상기 최대 신호대 잡음비를 양자화하는 속도 결정 알고리즘을 더 포함하는 전송 속도 결정 시스템.
  31. 제24항에 있어서, 상기 통신 시스템은 시간 분할 다중 접속(TDMA) 통신 시스템을 더 포함하는 전송 속도 결정 시스템.
  32. 제29항에 있어서, 상기 제1 속도는 무응답 서술자(SID) 프레임을 포함하고, 상기 제2 및 상기 제3 속도는 정상 속도 프레임들을 포함하는 전송 속도 결정 시스템.
  33. 통신 시스템에서 한 정보 프레임에 대한 음성 활동성을 결정하는 시스템에 있어서,
    상기 정보 프레임으로부터 음성 메트릭을 결정하고, 다수의 정보의 과거 프레임들과 정보의 현재 프레임의 최대 신호대 잡음비로부터 음성 메트릭 임계치를 결정하고, 상기 음성 메트릭을 상기 음성 메트릭 임계치와 비교하는 속도 결정 알고리즘; 및
    상기 음성 메트릭이 상기 음성 메트릭 임계치보다 작을 경우에는 상기 정보 프레임을 제1 속도로 전송하고, 상기 음성 메트릭이 상기 음성 메트릭 임계치보다 클 경우에는 상기 정보 프레임을 제2 속도로 전송하는 음성 부호화기
    를 포함하는 음성 활동성 결정 시스템.
  34. 제33항에 있어서, 상기 통신 시스템은 시간 분할 다중 접속(TDMA) 통신 시스템을 더 포함하는 음성 활동성 결정 시스템.
  35. 제33항에 있어서, 상기 속도가 결정된 후 행-오버가 구현되거나 결정되는 음성 활동성 결정 시스템.
  36. 제33항에 있어서, 정보의 현재 프레임의 상기 최대 신호대 잡음비는 정보의 현재 프레임의 양자화된 최대 신호대 잡음비를 더 포함하는 음성 활동성 결정 시스템.
  37. 제36항에 있어서,
    정보의 현재 프레임의 상기 양자화된 최대 신호대 잡음비로부터 음성 메트릭 임계치를 결정하기 위한 상기 속도 결정 알고리즘은,
    상기 정보의 현재 프레임에 대한 총 신호대 잡음비를 산출하고, 다수의 정보의 과거 프레임들과 상기 정보의 현재 프레임에 대한 상기 산출된 총 신호대 잡음비에 기초하여 최대 신호대 잡음비를 추정하고, 상기 음성 메트릭 임계치를 결정하기 위하여 상기 정보의 현재 프레임의 상기 최대 신호대 잡음비를 양자화하는 속도 결정 알고리즘을 더 포함하는 음성 활동성 결정 시스템.
KR1019997007740A 1997-02-26 1998-01-05 통신 시스템에서의 속도 결정을 위한 장치 및 방법 KR100333464B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US08/806,949 US6104993A (en) 1997-02-26 1997-02-26 Apparatus and method for rate determination in a communication system
US8/806.949 1997-02-26
US08/806.949 1997-02-26
PCT/US1998/000130 WO1998038631A1 (en) 1997-02-26 1998-01-05 Apparatus and method for rate determination in a communication system

Publications (2)

Publication Number Publication Date
KR20000075674A KR20000075674A (ko) 2000-12-26
KR100333464B1 true KR100333464B1 (ko) 2002-04-18

Family

ID=25195196

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019997007740A KR100333464B1 (ko) 1997-02-26 1998-01-05 통신 시스템에서의 속도 결정을 위한 장치 및 방법

Country Status (10)

Country Link
US (1) US6104993A (ko)
EP (1) EP0979506B1 (ko)
JP (1) JP4299888B2 (ko)
KR (1) KR100333464B1 (ko)
CN (1) CN1220179C (ko)
BR (1) BR9807369B1 (ko)
CA (1) CA2281696C (ko)
DE (1) DE69830721T2 (ko)
IL (1) IL130615A (ko)
WO (1) WO1998038631A1 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
FI982796A (fi) * 1998-12-23 2000-06-24 Nokia Networks Oy Tiedonsiirron tehostaminen
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6397177B1 (en) * 1999-03-10 2002-05-28 Samsung Electronics, Co., Ltd. Speech-encoding rate decision apparatus and method in a variable rate
EP1131815A1 (en) * 1999-09-20 2001-09-12 Cellon France SAS Processing circuit for correcting audio signals, receiver, communication system, mobile apparatus and related method
WO2001039175A1 (fr) * 1999-11-24 2001-05-31 Fujitsu Limited Procede et appareil de detection vocale
KR20020056957A (ko) * 1999-12-03 2002-07-10 비센트 비.인그라시아, 알크 엠 아헨 통신 시스템에서 음향 배경 잡음을 억제하기 위한 방법 및장치
US7127390B1 (en) * 2000-02-08 2006-10-24 Mindspeed Technologies, Inc. Rate determination coding
US6751199B1 (en) * 2000-04-24 2004-06-15 Qualcomm Incorporated Method and apparatus for a rate control in a high data rate communication system
US6564182B1 (en) 2000-05-12 2003-05-13 Conexant Systems, Inc. Look-ahead pitch determination
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
KR100425982B1 (ko) * 2001-12-29 2004-04-06 엘지전자 주식회사 아이엠티-2000 망의 음성 데이터 속도 변경 방법
US7024353B2 (en) 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
US7283956B2 (en) * 2002-09-18 2007-10-16 Motorola, Inc. Noise suppression
US7809150B2 (en) * 2003-05-27 2010-10-05 Starkey Laboratories, Inc. Method and apparatus to reduce entrainment-related artifacts for hearing assistance systems
CN100593197C (zh) * 2005-02-02 2010-03-03 富士通株式会社 信号处理方法和装置
US20070160154A1 (en) * 2005-03-28 2007-07-12 Sukkar Rafid A Method and apparatus for injecting comfort noise in a communications signal
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
US8116473B2 (en) 2006-03-13 2012-02-14 Starkey Laboratories, Inc. Output phase modulation entrainment containment for digital filters
US8553899B2 (en) * 2006-03-13 2013-10-08 Starkey Laboratories, Inc. Output phase modulation entrainment containment for digital filters
WO2008021931A1 (en) * 2006-08-11 2008-02-21 Distribution Control Systems Detection of fast poll responses in a twacs inbound receiver
JP4836720B2 (ja) * 2006-09-07 2011-12-14 株式会社東芝 ノイズサプレス装置
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US9729976B2 (en) 2009-12-22 2017-08-08 Starkey Laboratories, Inc. Acoustic feedback event monitoring system for hearing assistance devices
US8917891B2 (en) 2010-04-13 2014-12-23 Starkey Laboratories, Inc. Methods and apparatus for allocating feedback cancellation resources for hearing assistance devices
US8942398B2 (en) * 2010-04-13 2015-01-27 Starkey Laboratories, Inc. Methods and apparatus for early audio feedback cancellation for hearing assistance devices
US9654885B2 (en) 2010-04-13 2017-05-16 Starkey Laboratories, Inc. Methods and apparatus for allocating feedback cancellation resources for hearing assistance devices
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8311817B2 (en) * 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
DK3493205T3 (da) * 2010-12-24 2021-04-19 Huawei Tech Co Ltd Fremgangsmåde og indretning til adaptiv detektion af stemmeaktivitet i et lydindgangssignal
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN105023579A (zh) * 2014-04-30 2015-11-04 中国电信股份有限公司 语音通信中语音编码实现方法、装置和通信终端
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
WO2018045517A1 (zh) * 2016-09-07 2018-03-15 深圳前海达闼云端智能科技有限公司 一种VoLTE通信语音编码调整的方法和服务基站
US10861484B2 (en) * 2018-12-10 2020-12-08 Cirrus Logic, Inc. Methods and systems for speech detection
CN113314133A (zh) * 2020-02-11 2021-08-27 华为技术有限公司 音频传输方法及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
ATE294441T1 (de) * 1991-06-11 2005-05-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor
TW271524B (ko) * 1994-08-05 1996-03-01 Qualcomm Inc
US5687243A (en) * 1995-09-29 1997-11-11 Motorola, Inc. Noise suppression apparatus and method
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5920834A (en) * 1997-01-31 1999-07-06 Qualcomm Incorporated Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system
US5937377A (en) * 1997-02-19 1999-08-10 Sony Corporation Method and apparatus for utilizing noise reducer to implement voice gain control and equalization

Also Published As

Publication number Publication date
JP2001513906A (ja) 2001-09-04
IL130615A (en) 2003-02-12
DE69830721D1 (de) 2005-08-04
EP0979506B1 (en) 2005-06-29
BR9807369B1 (pt) 2009-08-11
CN1220179C (zh) 2005-09-21
CA2281696A1 (en) 1998-09-03
DE69830721T2 (de) 2005-12-15
KR20000075674A (ko) 2000-12-26
CN1248339A (zh) 2000-03-22
EP0979506A4 (en) 2000-11-15
WO1998038631A1 (en) 1998-09-03
JP4299888B2 (ja) 2009-07-22
BR9807369A (pt) 2000-03-14
CA2281696C (en) 2004-06-22
US6104993A (en) 2000-08-15
IL130615A0 (en) 2000-06-01
EP0979506A1 (en) 2000-02-16

Similar Documents

Publication Publication Date Title
KR100333464B1 (ko) 통신 시스템에서의 속도 결정을 위한 장치 및 방법
KR100286719B1 (ko) 통신 시스템에서 노이즈를 억압하는 방법 및 장치
US6453291B1 (en) Apparatus and method for voice activity detection in a communication system
US6366880B1 (en) Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
RU2471253C2 (ru) Способ и устройство для оценивания энергии полосы высоких частот в системе расширения полосы частот
US6898566B1 (en) Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
KR100898324B1 (ko) 음성 코더용 스펙트럼 크기 양자화 방법
US5978760A (en) Method and system for improved discontinuous speech transmission
US20060116874A1 (en) Noise-dependent postfiltering
KR102417047B1 (ko) 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
US20040030548A1 (en) Bandwidth-adaptive quantization
US6424942B1 (en) Methods and arrangements in a telecommunications system
JP2001501790A (ja) 復号された音声パラメータを用いる移動電話で受信された不良データパケットの検出を行う方法およびその装置
KR20020013966A (ko) 위상 스펙트럼 정보를 서브샘플링하는 방법 및 장치
JP2003504669A (ja) 符号化領域雑音制御
EP0895688B1 (en) Apparatus and method for non-linear processing in a communication system
US7584096B2 (en) Method and apparatus for encoding speech
KR100263296B1 (ko) G.729 음성 부호화기를 위한 음성 활성도 측정 방법
JP3896654B2 (ja) 音声信号区間検出方法及び装置
KR100388454B1 (ko) 배경잡음 예측을 통한 음성 출력 이득 조정 방법
Kim et al. Real-Time Implementation of QCELP Vocoder for speech and data in CDMA Cellular System Using TMS320C50 Fixed Point DSP Chip

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120329

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160325

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 16

EXPY Expiration of term