KR0185582B1 - 오디오 신호의 타임 시퀀스 처리방법 및 장치 - Google Patents

오디오 신호의 타임 시퀀스 처리방법 및 장치 Download PDF

Info

Publication number
KR0185582B1
KR0185582B1 KR1019910003725A KR910003725A KR0185582B1 KR 0185582 B1 KR0185582 B1 KR 0185582B1 KR 1019910003725 A KR1019910003725 A KR 1019910003725A KR 910003725 A KR910003725 A KR 910003725A KR 0185582 B1 KR0185582 B1 KR 0185582B1
Authority
KR
South Korea
Prior art keywords
frequency
filter
coefficients
filtering
time sequence
Prior art date
Application number
KR1019910003725A
Other languages
English (en)
Other versions
KR910017780A (ko
Inventor
하인츠 브란덴부르크 카를
데이빗 죤스턴 제임스
Original Assignee
에티 타 앤드 티 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에티 타 앤드 티 코포레이션 filed Critical 에티 타 앤드 티 코포레이션
Publication of KR910017780A publication Critical patent/KR910017780A/ko
Application granted granted Critical
Publication of KR0185582B1 publication Critical patent/KR0185582B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 신호를 고품질로 코딩하기 위한 하이브리드 코딩 기술은 다수의 보조 대역을 얻기 위해 정제된 보조 대역 필터링 기술을 사용한다. 보조 대역에 대한 잡음 마스킹 임계치는 각각의 주파수 대역 또는 단일 주파수에 적용될 수 있는 새로운 음조 측정법을 사용하여 정해진다. 정해진 임계치에 따라, 입력 신호는 코드화되어 감소된 비트 발생율에서 양호한 품질을 얻을 수 있다.

Description

오디오 신호의 타임 시퀀스 처리 방법 및 장치
제1도는 감지 코우더(coder)의 블록 다이어그램.
제2도는 제1도에 도시된 타입의 시스템에 따른 본 발명의 하이브리드 코우더에 사용된 기본 분석 시스템 도해도.
제3도는 제2도의 하이브리드 분석 구조의 시간/주파수 브레이크다운 도해도.
제4도는 테스트 신호의 단시간 스펙트럼 도해도.
제5도는 본 발명에 사용된 반복 루프의 블록 다이어그램 도해도.
* 도면의 주요부분에 대한 부호의 설명
101 : 분석 필터 뱅크 105 : 비트 스트림
502 : 양자화기
본 발명은 음성 또는 음악 정보를 나타내는 오디오 신호와 같은 시변화 신호의 코우딩에 관한 것이다.
최근에, 고품질의 디지털 오디오 용의 개선된 비트 발생 감소 알고리즘이 제외되고 있다. (예로서, 1987년 런던에서 개최된 82차 AES회의의 프리프린트 2432(C-1)에서 테일리, 엠앤드 링크와 엠 앤드 스톨, 지의 고품질 오디오 신호의 낮은 비트 발생 코드 1987년 음향, 스피치 앤드 신호 Proc. ICASSP 1987, PP 141-144 에서의 브랜덴브루크, 케이의 OCF-고품질 음성 신호용 새로운 코딩 알고리즘, IEEE 저널 볼륨 6(1988), PP 314-323 에서의 죤스턴, 제이. 디의 감지 잡음을 사용한 오디오 신호의 코딩 변환 참조 최근 주파수 영역 접근을 사용하여 비트 발생율을 64 kbit/sec 까지 강하시킨 제품이도 얻을 수 있다(예로서, 1988년 로스엔젤레스에서 개최된 제85차 AES 회의에서 브랜덴브루크, 케이 및 자이처, D의 OCF : 데이터 발생비가 64 kbit/sec 인 고품질 오디오의 코딩, 1989년도의 ICASSP의 PP 1993-1996 에서의 죤스턴, 제이.디의 광대역 스테레오 신호의 감지 변환 코딩 및 EBU 리뷰-테크니컬 NO. 230 (1988년 8월)의 PP 71-94의 테일지, 지 앤드 스톨, 지 앤드 링크, 엠의 MASCAM 시스템의 도입부의 고품질 오디오 신호의 낮은 비트 발생율 코딩에 참조).
제1도는 모든 감지 주파수 영역 코우더에 공통인 기본 블록 다이어그램을 도시한 것이다. 필터 대역(101)은 입력 신호 성분을 서브샘플린 스펙트럼 성분으로 분해시키기 위해 사용된다. 서브샘플린 스펙트럼 성분으로 사이코어코스틱으로부터 공지된 법칙을 사용한 블록(102)에서의 실제(시간의 존)마스킹 임계치의 추정치를 연산하기 위해 사용된다(윅커, 이의 psychoakustik (독일), 1982년 베를린 하이덴 베르크 뉴욕, 헤르만, 알.피의 잡음과 톤사이의 마스킹의 대칭, 감지 및 사이코 피직, 볼륨 11, PP 241-246, 1972 ; 샤프, 비의 1970년 뉴욕 아카데믹 프레스의 Foundations of Modern Auditory Theory 외 5장 참조). 스펙트럼 성분은 잡음을 유지할 목적으로 블록(103)에서 양자화 되고 코우드화된다. 여기서 잡음은 마스킹 암계치 하에서 양자화에 의해 도입된다. 알고리즘에 따라, 상기 단계는 추가적인 무잡음 압축을 사용한 합성 시스템에 의해 분석까지 확장된 간단한 블록에 의해 매우 다른 방법으로 이행된다.
최종적으로, 멀티 플렉서(104)는 비트스트림을 어셈블하기 위해 사용되며, 상기 비트 스트림은 양자화되고 코드화된 스펙트럼 계수 및 다수의 사이드 정보, 예로서, 비트 할당 정보로 구성되어 있다. 상기 장치에는 통상 두 개의 필터뱅크 디자인이 존재한다. 그중의 한 타입은 트리-구조의 필터뱅크이다(QMF 필터뱅크 ; 요얀트, 엔. 에스 앤드 놀. 피의 Digital Codinq of Waveforms ; Principles and Applications to Speech and video 앵글우드 클리프 1984). 상기 타임은 사이코 어코스틱으로 공지된 임계 대역에 따른 각 대역의 필터 대역폭으로 설계되어 있다. 또한, 상기 필터 뱅크는 변환 코우더에 사용되는 것으로 공지되어 있다. (즉, 요얀트, 엔. 에스 앤드 놀, 피 및 제린스키, 알 앤드 놀, 피의 음성 신호의 적절한 변환 코딩 IEEE Trans. 어코스틱 음성 및 신호 프로세싱, ASSP-25 (1977). PP 299-309 참조. 여기서, 상기 필터 뱅크는 낮은 연산 복합성을 가지며 동일한 대역 필터를 가진 필터 뱅크를 사용하기 위해 윈도우형 변환을 사용한다. 변환 코드는 임계 대역으로 그룹화될 수 있는 128 내지 1024 스펙트럼 성분을 연산한다.
고품질 디지털 오디오 코딩에 사용되는 분석/합성 시스템 디자인의 근본 문제점은 타임 영역과 주파수 영역 동작 사이의 트레이드-오프이다. 만약, 더 많은 스펙트럼 성분이 사용되면, 마스킹 동작은 매우 정확하게 추정된다. 또한, 스펙트럼 성분이 높은 상관관계를 가지면, 높은 코딩 이득이 얻어진다. 반면에, 높은 스펙트럼 분석치는 낮은 시간 분석치를 필요로하며, 프리에코(Vaupelt, Th, Ein Kompander Zur Unterdrueckunq Von hoerbaren Stoerungen bei dynamischen Signalpassagen fuer ein Transfor -mationscodierungsverfahrenfuer qualitative hochwertige Audiosignale (MSC), (in Germgn), ITG Fach bericht 106, PP 209-216 ; and Brandenburg, k ; (1988년 파리에서 개최된 84차 AES 회의의 preprint 2582의 2.5 비트/샘플에서의 고품질 음성 코딩 참조) 및 처리지연이 긴 문제점이 야기된다.
본 발명은 인간의 귀에 의해 오디오 신호의 처리와의 근접 접근에 의해 종래 기술의 한계를 극복하기 위한 구조 및 방법에 관한 것이다. 특히, 본 발명은 필터 뱅크로서 귀를 모델로 하나, 다른 주파수에서 다른 시간 및 주파수 분석치를 갖는다. 따라서, 본 발명은 인간의 귀에 매우 적합한 프레임 작업의 분석을 제공한다.
전형적인 실시예에서의 본 발명의 하이브리드 코우더는 입력 오디오 신호를 적절한 주파수 대역으로 초기에 분리 시키기 위한 수직 미러 필터를 사용한다. 상기 필터된 출력은 다시 윈도우형 변환을 사용하여 필터되어 다수의 채널을 가지며 효과적으로 연산할 수 있는 필터뱅크를 얻는다.
따라서, 필터된 신호에 대한 마스킹 임계치는 슈퍼 블록 기술을 사용하여 얻어진다. 본 발명에 의한 초기 작업에 있어서, 음조측정은 적절한 마스킹 임계치를 발생시키기 위해 사용된다. 그러나, 본 발명에 있어서, 임계 대역에 대해 국부적이거나 또는 단일 스펙트럼 라인이 되는 개선된 음조 측정이 사용된다. 양호하게는, 공지된 OCF 코딩 및 양자화 기술이 사용되어 전송 또는 기억을 하기 위한 감지 할 수 있는 코우드화된 신호를 처리하기 위해 사용된다.
이하, 첨부된 도면으로 본 발명을 더욱 상세하게 설명하기로 한다.
본 발명의 실시예에 부합되는 하이브리드 코우더는 하이브리드 QMF/변환 필터뱅크를 사용한다. 제2도는 기본적인 분석/합성 시스템을 나타낸다. 시간 영역 값은 종래의 QMF-트리필터뱅크(201)내지 (203)에 의해 먼저 필터된다. 상기 필터 뱅크는 3 내지 12 kHz 대역을 가진 4개의 채널을 얻기 위해 사용되며, 따라서, 2 내지 8개의 샘플 타임 분석치를 가진다.
본 발명의 디자인 목적은 최적화된 필터가 쉽게 만족시킬 수 있을때에만 QMF 필터뱅크가 선택된다. 이것은 죤스턴, 제이.디의 A Filter Family Designed for Use in Quadrafure Mirror Filter Banks, ICASSP 1980, PP 291-294 에서의 80-탭 QMF 필터를 사용하는 것이 편리한 것으로 증명한다. 상기 80-탭 필터는 확실히 오버디자인이 되며, 더 낮은 연산 복잡성으로도 충분하다.
전형적인 QMF-트리 필터뱅크는 입력 신호의 완벽한 재구성이 되지는 않는다. 그러나, 예로서 사용된 80 탭 필터는 분석/합성 필터뱅크의 거의 완벽한 재구성을 발생시킨다. 즉, 통과대역 리플의 합이 16비트 분석치 아래가 된다. 따라서, 라운딩은 완벽한 재구성을 야기시킨다.
QMF-트리의 출력 신호는 다시 필터되며, 상기 타임은 다수의 채널을 가지며, 연산 가능한 효과적인 필터뱅크(210) 내지 (213)를 얻기 위해 윈도우 변환을 사용한다. 사용된 상기 윈도우는 사인 윈도우이며, 분석 블록의 50% 오버랩을 사용한다. 상기 목적으로 다른 두 변환이 사용된다. 사용되는 제1변환은 전형적인 DFT이며, 65 또는 129(최하 주파수) 복합 라인을 연산한다. 상기 접근에 있어서, 분석-합성 필터뱅크는 임계적으로 샘플화되지 않는다. 반면에, 복합 주파수 라인의 예측은 또다른 데이터 발생을 감소시키기 위해 쉽게 사용될 수 있다. 또, Ein Beitreg zu den Verfahren und der Qualitaetsbeurteilurg fuer hochwertige Musikcodierung, (in German), Ph. D. thesis, Universitaet Erlangen-Nuernberg 1989 및 프린선, 제이 앤드, 죤선, 에이 브레드리, 에이, 의 Subband/Trandform Codinq Usinq Filter Bank Designs Basedoan Time Domain Aliasinq Cancellation, in Proc. of the 1987 Int. conf. on Acoustics, Speech and Signal Processinq ICASSP 87, PP 2161-2164 에 기재된 변형된 DCT (MDCT)가 사용될 수 있다.
상기 기술은 보조대역에 대해 64 또는 128 주파수 값을 연산하며, 임계적으로 샘플화된다. 상기 MDCT 접근을 사용할 때, 샘플의 절반만이 양자화되며 DFT 해결책에 비교되어 엔코우드된다.
상기 결합된 필터 뱅크는 낮은 주파수에서 23.4 Hz의 주파수 분석치를 가지며, 높은 주파수에서 187.5 Hz를 가지며, 시간 분석치의 차를 가진다. 시간 분석치가 2배의 양자화가 되는 반면에, 개선된 분석/합성 방법은 적은 양자화와 시간/주파수 분석치에서 많은 범위를 제공된다. 주파수 대역에 따라, 필터뱅크의 특성은 낮은 주파수에서 1024의 블록길이 및 높은 주파수에서 128의 블록 길이를 가진 MDCT 필터뱅크와 유사하다. 따라서, 낮은 주파수에서의 주파수 분석치는 감지 모델에 비해 충분하며, 높은 주파수에서의 시간 분석치는 추가적인 알고리즘 적용없이 프라-에코 제어에 대해 충분히 짧다.
표 1은 하이브리드 코우더에 사용된 결합된 필터 뱅크용의 시간 및 주파수 분석치를 나타낸 것이다.
주파수에서의 주파수에서의 주파수 시간 시간
낮은 바운드 높은 바운드 분석치 분석치 분석치
HZ HZ HZ 샘플 mS
0.0 3000. 23.4 1024 21.3
3000. 6000. 46.8 512 10.7
6000. 12000. 93.6 256 5.3
12000 24000 187.2 128 2.7
표 1 : 분석/합성 필터뱅크의 타임 및 주파수 분석치.
마스킹 임계치는 필터뱅크의 출력 신호의 구조를 사용하여 추정된다. 연산은 낮은 주파수 변환 인터멀에서의 고주파 변환수에 대응하며 8개의 타임 슬라이스를 가진 슈퍼블록에 대해 행해진다. 낮은 주파수 대역에서의 신호 에너지는 8개의 타임 슬라이스 사이에서 동일하게 분산되며, 중간 주파수에서의 신호 에너지는 변환비에 따라 분산된다.
슈퍼블록 할당은 제3도에 도시되어 있다.
죤스턴, 제이. 디의 IEEE Journal on Selected Areas in Communications, 볼륨 6. (1988), PP 314-323에 기재된 감지 잡음을 사용한 오디오 신호의 변환 코딩에 사용된 방법과 유사한 개선된 방법이 사용되어 각각의 8 타임 슬라이스에 대해 연산된다. 1타임 슬라이스 만큼 확장된 변환에 대한 임계값이 부가되어, 각 변환 블록내에 포함된 임계대역에 대한 적절한 시간 분석치를 가진 마스킹 임계치의 추정치를 제공한다. 임계대역 경계는 보조대역 경계와 일렬로되어, 25 임계 대역이 되게 한다.
실질적인 양자화기 및 코우더는 임계 모델에 따른 신호를 코우드하기 위해 추정된 마스킹 임계치에 의해 표시된 잡음보다 적은 잡음이, 추가되어야 한다.
좁은 대역 신호의 마스킹 임계치에 대한 다른 값은 톤 마스킹 잡음 및 마스크로서의 잡음으로 기록된다. 상술한 헬만 및 샤프 참조물 참조, 죤스턴 참조에 있어서 스펙트럼 플랫네스 측정은 신호의 단 시간 스펙트럼의 글로발 음조를 연산하기 위해 사용된다. 상기 음조 측정은 헬만과 샤프로부터의 마스킹 임계 포맷 사이에서 보간하기 위해 사용된다. 글로발 음조에 있어서는 문제점이 발견된다.
음성신호 또는 캐펠라 싱거(제4도)와 같은 다수의 신호는 높은 주파수에서 상당한 에너지의 음조 부분(피치 주파수의 낮은 하모니) 및 잡음 부분을 가진 스펙트럼을 나타낸다. 글로발 스펙트럼 플랫네스 측정 결과는 신호가 음조가 아닌 것을 보여준다(즉, 변환블록에서 변환 블록으로의 근접). 또, 비록, 음조는 상기 신호의 민감(음조)부에 대해 정확하게 추정되지만, 사용되는 형식은 높은 주파수에서 매우 보수적인 마스킹 임계치를 야기시켜서, 과도한 비트 발생을 요구한다.
브랜던부르크, 케이의 Ein Beitrag zu den Verfahren und der Qualitaetsbeurteilung fuer hochwertige Musik codierung, (in German), Ph, D, thesis, Universitaet Erlangen-Nuernberg 1989, 에 기재된 마스킹 임계치의 추정치와 다르게 접근하는 결과 및 추정된 마스킹 임계치를 가진 시도가 새로운 음조 측정을 찾게하였다.
신호 음조에 의한 마스킹량을 추정하기 위해 사용되는 본 발명의 한 개념은 글로발 값으로 모델화된 것이 아니고, 임계대역 또는 신호 스펙트럼라인에 대한 국부 특성에 관한 것이다.
하이브리드 코우더에 있어서, 상기 국부 음조는 간섭 측정에 의해 추정된다.
각각의 스펙트럼 성분에 대해(보조 대역 또는 변환계수), 간섭 측정이 연산된다. 상기 측정은 복소수 평면에서 극좌표로 연산되며, 간단한 예측으로 실행된다. 다수의 예측치가 테스트되며, 하기에 기술된 하나가 기본 수행으로 선택된다.
r(t, f)를 시간 T 및 주파수 f에서의 스펙트럼 값의 반경이라고하고, ø(t, f)는 t 및 f에서의 위상 값이라 가정한다.
시간 t에서의 r 및 ø의 예측값은 아래와 같다.
├(t, f) = r(t-1, f) + (r(t-1), f) -r (t-2, f))
및 ø(t, f) = ø(t-1, f) + ø(t-1, f) -ø(t-2, f).
실제값과 예측 값 사이의 유클라디언(Euclidean)거리는 새로운 음조 매트릭, C(t, f)를 얻기 위해 사용된다.
Figure kpo00002
만약 예측된 값이 매우 양호한 것으로 판명되면, C(t, f)는 0에 근접된 값이된다. 반면에, 예측하기 힘든 신호(잡음)에 대해서는, C(t, f)는 평균 0.5인 1까지의 값을 가진다. 상기 역 음조 또는 혼돈측정은 간단한 로그-선형 동작에 의해 음조 메트릭으로 변화된다.
t = αinc + β
새로운 음조 메트릭은 종래 음조 메트릭에 대해 죤스턴의 논문에서 기재된 방법과 동일한 방법으로 각 스펙트럼에 대한 마스킹 임계치를 추정하기 위해 사용된다.
리스닝 1에서의 프로그램은 512 샘플 입력 시퀸스로 C(t, f)를 형성하기 위해 사용되는 처리를 나타내었다. 리스닝 1의 프로그램은 공지된 FORTRAN 프로그램 랭귀지로 기재되어 있으며, 1988년도 Allian 5 컴퓨터 시스템 코포레이션의 Fx/FORTRAN 프로그래머 핸드북에 기술되어 있다. 상기 프로그램은 Alliant 컴퓨터 시스템 코포레이션에서 판매되고 있는 범용 컴퓨터에 사용되나, 다른 통상의 목적 또는 특정 목적의 프로세서에도 쉽게 적용될 수 있다.
본 발명에 부합되는 하이브리드 코우더의 통상의 버전에 있어서, 브랜덴버그, 케이 앤드 자이처, 디의 제85차 AES 회의에서의 OCF, 64 kbit/sec 의 데이터 발생율을 가진 고품질 오디오의 코딩에 기재된 OCF (주파수 영역에서의 최적 코딩)의 양자화 및 코딩스킴 시스템이 사용되고 있다. 상기 분석되 합성스킴에 있어서, 스펙트럼 성분은 비균일 양자화기를 사용하여 먼저 양자화된다. 초기 반복 루프에 있어서(발생율 루프), 엔트로피 코우드를 사용한 양자화 값을 코우드 하는데 필요한 비트의 카운트는 가능 비트의 수에 비교된다. 실제 가능한 비트외 비율에 따라, 양자화 단계 사이즈가 조정되며, 양자화 값의 블록을 코오드 하는데 필요한 다른 비트가 생기게 한다.
외부 반복 루프(왜곡 제어 루프)는 수정되는 마스킹 잡음을 가진 각각의 결정 대역에 대한 실제 양자화 잡음 에너지를 비교한다.
만약 실제 잡음이 다수의 임계 되역에서 마스킹 임계치를 초과하면, 상기 임계 대역에서의 스펙트럼 성분의 스케일은 낮은 양자화 잡음을 발생시키기 위해 조정된다. 제5도는 양자화 및 코딩에 사용되는 반복 루프의 블록 다이어그램의 도해도이다.
상기 알고리즘은 인용된 브랜덴 부르크의 논문과 같은 죤스턴 및 브랜덴 부르크 및 자이처의 논문에 기술되어 있다. 제5도는 OCF 시스템과 같은 코우더가 사이코 어코스딕 임계치 및 상술한 관련 정보를 사용한 방법을 보여주며, 전송되거나 기억되는 실질적인 비트스트림을 발생시킨다. 따라서, 입력(500)상의 입력 정보는 적절하게 버퍼되는 것으로 간주되며, 편리한 블록으로 구분된다. 적절한 가변 분석 스펙트럼 정보는 블록(504)에도 역시 제공되며, 상기 블록은 블록(502)에서 양자화 되기전에 블록(501)에서 가증 주파수 신호용 사이코어코스틱 측정치를 제공한다. 실질적인 엔트로피 코딩은 제5도의 블록(503)으로 나타낸다. 따라서 입력 신호의 스펙트럼 정보를 나타낸 정보는 출력(515)상에 제공된다. 사이클 음향 측정치를 나타내며, 프로세스를 양자화시키는 사이드 정보는 출력(502) 및 (525)상에 제공된다. 모든 출력은 전송 또는 기억을 하기 위해 단일 비트 스트림으로 편리하게 멀티프렉서 된다.
감지 엔트로피(ICASSP' 88, PP 2524-2527, 잡음 마스킹을 사용한 감지 엔트로피의 추정 참조)는 인간 청각 시스템의 능력에 대한 음악에 관한 정보 내용의 추정치이다.
이것은 주어진 분석/합성 스킴을 사용한 음악의 전코딩에 필요한 최소 비트 발생율의 추정치를 제공한다. 죠스턴의 최종 인용된 논문에 있어서, PE는 마스킹 임계치에서의 음악을 코우드하는데 필요한 양자화 레벨의 수로부터 연산된다.
하이브리드 코우더의 분석/합성 프레임 작업 사용에 있어서, PE의 추정치는 다른 음악에 대해 연산된다. 표 2는 다수의 결과를 나타내며, 다른 분석/합성 시스템을 사용하여 측정되는 PE와 비교된다. 하이브리드 코우더는 종래 값과 비교된다.
음악 종래 PE 새로운 PE
(타임) (비트/샘플) (비트/샘플)
오르간 .24 .48
스잔베가 .69 .54
케스터네츠 .73 .52
표 2 : PE 측정값
상술한 OCF의 양자화/코딩 스킴의 사용에 있어서, 하이브리드 코우더의 전형적인 값이 모여진다. 사용된 비트 발생율은 채널당 64 kbit/sec 에서의 기본 블록 길이는 1024 타임 영역 샘플이다. MDCT가 사용되어 OMF 트리로부터 결합된 필터 뱅크의 출력을 연산하기 위해 사용된다. 테스트 피스의 샘플링 발생율은 48 kHz이다. 신호는 20 kHz 이상의 대역으로 코우드된다. 64 kb/s에서의 각 블록에서 가능한 1362 비트로부터, 226 비트가 사용되어 사이드 정보를 코우드하기 위해 사용된다.
강화된 시간/주파수 분석치를 사용한 제 2 발생 감지 코우더가 기술되어 있다. 주파수 베이식에 따른 주파수에 따라 연산된 음조 메트릭은 각 주파수에서 코우드의 잡음 임계치의 연산과 결합되어 매우 개선된 임계치를 제공한다. 따라서, 본 발명은 낮은 비트 발생율에서 공지된 고품질 디지털 오디오의 코딩과 비교되는 기능을 제공한다.
상기 기술에 부합되는 디코더는 상술한 접근에 의해 구성된다. 강화된 시간/주파수 분석치가 본 발명에 의해 제공되므로, 디코더에서 대응하는 강화된 프로세싱이 수행된다.
코우더에서의 본래의 입력 신호를 재구성 하는 리시버 또는 디코더에 사용되는 정보는 제5의 시스템으로부터의 출력으로 제공된다. 특히, 만약 요구된다면, 디멀티 플렉싱 후에, 스펙트럼 정보 및 보조정보는 본래의 입력 신호를 재구성 하기 위해 사용된다. 사이클 음성 측정치 및 양자화 프로세스를 기술한 정보에 있어서, 글로발이득, 양자화 단계 사이즈, 스케일링 요소, 비트 할당등을 포함하며, 주파수 성분으로부터 샘플화된 시간 영역 신호를 재구성하는데 필요한 모든 정보는 수신기/디코더에 존재한다. 비균일 주파수 및 시간 분석치(모두 주파수 함수)에 관한 정보는 디코더에서 사용될 수 있다.
공지된 디지털/아나로그 변환은 확성기 상에 높은 충실도를 가진 본래의 아나로그 신호를 재생하기 위한 등가 아나로그 신호를 발생시키는 것이 요구된때, 제공된다.
리스팅 1
제 1 개시루틴
subroutine strt()
sets up threshold generation tables, ithr and bval
real freq(0:25)/0.,100.,200.,300.,400.,510.,630.,770.,
1 920.,1080.,1270.,1480.,1720.,2000.,2320.,2700.,
1 3150.,3700.,4400.,5300.,6400.,7700.,9500.,12000.,15500.,
1 25000./
common/thresh/ithr(26), bval(257), morm(257)
common/absthr/abslow(257)
common/sigs/ifirst
ithr(i) is bottom of crital band i. bval is bark index
of each line
write(*, *) 'what spl will + 32000 be- '
read(*, *) abslev
abslev=abslev-96.
abslow=522425.*5224245./exp(9.6*alog(10.))
ifirst=0
write(*, *) 'what is the sampling rate'
read(*, *)rzotz
fnyq=rzotz/2.
nyquest frequency of interest.
ithr(1)=2.
i=2
ithr(i)=freq(i-1)/fnyq*256.+2.
i=i+1
if(freq(i-1). lt. fnyq)goto 10
c sets ithr to bottom of cb
ithr(i : 26)=257
c 임계대역 인덱싱 어레이 셋업
bval(1)=0
c 먼저, 주파수를 나타내고, 다음에...
do I=2,257,1
fre=(i-1)/256. *fnyq
c write(*, *)i,fre
c fre는 라인의 주파수. 주파수를 결정 대역수로 변환
c
do j=0,25,1
if(fre. gt. freq(j)) k=j
end do
c so now, k=last CB lower than fre
rpart=fre-freq(k)
range=freq(k+1)-freq(k)
bval(i)=k+rpart/range
end do
morm=1
do I=2,257,1
tmp=0
do j=2,257,1
tmp=tmp+sprdngf(bval(j), bval(i))
end do
morm(i)=tmp
end do
morm=1./morm
c do I=1,257,1
c write(*, *)i, bval(i), 10. *alog 10(morm(i))
c end do
call openas(0, '/usr/jj/nsrc/thrtry/freqlist', 0)
do I=2,257,1
read(0, *) ii, db
if (ii. ne. i)then
write(*, *) 'freqlist is bad.'
stop
end if
db=exp((db-abslev)/10.*alog(10.))
write(*, *) i,db
abslow(i)=abslow(i)*db
end do
abslow(1)=1
write(*, *) 'lowest level is ', sqrt(abslow(45))
return
end
c 임계치연산 프로그램
subroutine thrgen(rt, phi, thr)
real r(257), phi(257)
real rt(257)
real thr(257)
common/blnk/or(257), ophi(257), dr(257), dphi(257)
common/blk1/othr(257)
real alpha(257), tr(257), tphi(257)
real beta(257), bc및(257)
common/absthr/abslow(257)
common/thresh/ithr(26), bval(257), morm(257)
common/sigs/ifirst
r=max(rt,.0005)
bcalc=1.
if(ifirst. eq. 0) then
or=0
othr=le20
ophi=0
dr=0
dphi=0
ifirst=1
end if
c 상기 서브루틴은 라인 바이 라인 측정을 사용한 새로운
c 임계치 나타냄
tr=or+dr
tphi=ophi+dphi
dr=r-or
dphi=phi-ophi
or=r
ophi=phi
alpha=sqrt((r*cos(phi)-tr*cos(tphi))
1*(r*cos(phi)-tr*cos(tphi))
2+(r*sin*(phi)-tr*sin(tphi))
3*(r*sin(phi)-tr*sin(tphi)))
4/(r+abs(tr)+1.)
beta=alpha
c 메타는 가중되지 않은 음조 요소
alpha=r*r
c 에너지는 각 라인에 존재
c 스프레드 해야함
c write(*, *)'before spreading'
thr=0.
bcalc=0.
cvd$1 cncall
do j=2,257,1
glorch=sprdngf(bval(j), bval(i))
thr(i)=alpha(j)*glorch+thr(i)
bcalc(i)=alpha(j)*glorch*beta(j)+bcalc(i)
c thr is the spread energy, bcalc is the weighted chaos
end do
c if(thr(i). eq. 0)then
c write(*, *) 'zero threshold,'
c stop
c end if
bcalc(i)=bcalc(i)/thr(i)
if (bcalc(i). gt. 5) bcalc(i)=1.-bcalc(i)
c that normalizes bcalc to 0-. 5
end do
c write(*, *) 'after spreading'
bcalc=max(bcalc,.05)
bcalc=min(bcalc,.5)
c bcalc는 혼란 메트릭, 음조
c 메트릭으로 변환
bcalc=-.43*alog(bcalc)-.299
c DB 계산
bcalc=max(24.5, (15.5+bval))*bcalc+5.5*(1.-bcalc)
bcalc=exp((-bcalc/10.)*alog(10.))
c bcalc는 파워스페이스에 대한 실제 음조 요소
c
thr=thr*morm*bcalc
c 임계치는 에너지를 승산한 음조요소(정규화)
thr=max(thr, abslow)
alpha=thr
thr=min(thr, othr*2.)
othr=alpha
c write(*, *) 'leaving thrgen'
return
end
c 그리고, 스프리딩 함수
funcion sprdngf(j, I)
real i,j
real sprdngf
c i번째 바크에 대한 스프리딩 함수값 계산,
c j번째가 중앙
c bark
temp 1=i-j
temp2=15.811389+7.5*(temp1+.474)
temp2=temp2-17.5*sqrt(1.+(temp1+.474)*(temp1+.474))
if (temp2. le. -100. )then
temp3=0
else
temp2=temp2/10.*alog(10.)
temp3=exp(temp2)
end if
sprdngf=temp3
return
end
Figure kpo00003

Claims (11)

  1. 각 블록이 제1주파수 계수 세트를 포함하는 이산주파수 스펙트럼을 갖는 정렬된 블록 세트로 분할된 오디오 신호들의 정렬된 시간 시퀀스를 처리하는 방법에 있어서, 각 블록에 대해, 각각 연속된 주파수 범위를 나타내는 다수의 주파수 대역으로 상기 제 1 주파수 계수 세트를 제 1 형태의 필터뱅크로 필터링하는 단계 ; 각각 최소한 1개의 주파수 계수를 포함하는 다수의 주파수 그룹으로 상기 주파수 대역중 최소한 하나를 제 2 형태의 최소한 1개의 필터로 필터링하는 단계 ; 각 주파수 그룹에서 주파수 계수들에 대해 자체 가청음 같은(tone-like) 품질을 초래하지 않고 한 주파수 그룹으로 도입될 수 있는 양자화 잡음의 량을 나탸내는 잡음 마스킹 임계(a noise masking thneshold)를 결정하는 단계 ; 및 상기 대응하는 잡음 마스킹 임계에 의거하여 상기 주파수 그룹중 최소한 하나에서 최소한 1개의 주파수 계수를 양자화하는 단계를 포함하며, 상기 두 필터링 단계가 인간 청각 응답(human auditory response)을 어림하는 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  2. 제 1 항에 있어서, 상기 제 1 형태의 필터가 트리(tree) 구조의 필터이고 상기 제 2 형태의 필터가 변형 필터인 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  3. 제 2 항에 있어서, 상기 트리 구조의 필터가 구형 미러 필터(quadrature mirror filter)이고, 상기 변형 필터가 수정된(modified) 이산코사인 변형 필터인 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  4. 제 2 항에 있어서, 상기 트리 구조의 필터가 구형 미러 필터이고, 상기 변형 필터가 이산 푸우리에 변형 필터인 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  5. 제 1 항에 있어서, 상기 잡음 마스킹 임계가, 각 주파수 그룹에 대해, 당해 주파수 그룹 오디오 신호의 상기 시간 시퀀스가 가청음과 유사한 품질을 포함하는 정도에 상응하는 토낼리티 메트릭(tonality metric)을 결정하는 단계에 의거하는 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  6. 제 5 항에 있어서, 상기 토낼리티 메트릭이 결합 한도에 의거하여 발생되는 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  7. 제 6 항에 있어서, 상기 결합 한도가 한 특정 시간에서 주파수 계수의 복소 평면상의 극 좌표에서 계산된 예측에 의거하며, 실제 주파수 계수와 예측된 주파수 계수 사이의 유클리드 거리(Euclidean distance)에 상응하는 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  8. 제 7 항에 있어서, 상기 주파수 계수가 주파수 대역에서 주파수 계수에 상응하는 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  9. 제 7 항에 있어서, 상기 주파수 계수가 한 주파수 그룹에서 주파수 계수에 상응하는 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  10. 각 블록이 제 1 주파수 계수 세트를 포함하는 이산 주파수 스펙트럼을 갖는 정렬된 블록 세트로 분할된 오디오 신호들의 정렬된 시간 시퀀스를 처리하는 방법에 있어서, 각 블록에 대해, 각각 최소한 1개의 주파수 계수를 포함하며, 서로 다른 형태의 2개의 필터에 의한 필터링에 의해 제공된 다수의 주파수 그룹으로 상기 주파수 계수의 제1세트를 필터링하는 단계 ; 각 주파수 그룹에서 주파수 계수들에 대해 자체 가청음 같은 (tone-like) 품질을 초래하지 않고 한 주파수 그룹으로 도입될 수 있는 양자화 잡음의 량을 나타내는 잡음 마스킹 임계(a noise masking thneshold)를 결정하는 단계 ; 및 상기 대응하는 잡음 마스킹 임계에 의거하여 상기 주파수 그룹중 최소한 하나에서 최소한 1개의 주파수 계수를 양자화하는 단계를 포함하며, 상기 필터링 단계가 인간 청각 응답(human auditory response)을 어림하는 것을 특징으로 하는 오디오 신호 시간 시퀀스 처리 방법.
  11. 각 블록이 제 1 주파수 계수 세트를 포함하는 이산주파수 스펙트럼을 갖는 정렬된 블록 세트로 분할된 오디오 신호들의 정렬된 시간 시퀀스를 처리하는 단계 ; 및 각 블록에 대해, 각각 연속된 주파수 범위를 나타내는 다수의 주파수 대역으로 상기 제 1 주파수 계수 세트를 제 1 형태의 필터 뱅크로 필터링하는 단계 ; 각각 최소한 1개의 주파수 계수를 포함하는 다수의 주파수 그룹으로 상기 주파수 대역중 최소한 하나를 제 2 형태의 최소한 1개의 필터로 필터링하는 단계(상기 두 필터링 단계는 인간 청각 응답을 어림 함) ; 각 주파수 그룹에서 주파수 계수들에 대해 자체 가청음 같은 품질을 초래하지 않고 한 주파수 그룹으로 도입될 수 있는 양자화 잡음의 량을 나타내는 잡음 마스킹 임계를 결정하는 단계 ; 상기 대응하는 잡음 마스킹 임계에 의거하여 상기 주파수 그룹중 최소한 하나에서 최소한 1개의 주파수 계수를 양자화하는 단계, 양자화된 주파수 계수 세트를 나타내는 기록 신호를 저장 매체에 인가하는 단계 ; 및 상기 기록 신호를 상기 기록 매체사에 기록하는 단계를 포함하는 프로세스에 따라 제작된 저장 매체.
KR1019910003725A 1990-03-09 1991-03-08 오디오 신호의 타임 시퀀스 처리방법 및 장치 KR0185582B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US49137390A 1990-03-09 1990-03-09
US491,373 1990-03-09

Publications (2)

Publication Number Publication Date
KR910017780A KR910017780A (ko) 1991-11-05
KR0185582B1 true KR0185582B1 (ko) 1999-04-15

Family

ID=23951937

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019910003725A KR0185582B1 (ko) 1990-03-09 1991-03-08 오디오 신호의 타임 시퀀스 처리방법 및 장치

Country Status (7)

Country Link
EP (1) EP0446037B1 (ko)
JP (2) JP2774203B2 (ko)
KR (1) KR0185582B1 (ko)
CA (1) CA2037780C (ko)
DE (1) DE69127842T2 (ko)
HK (1) HK1002743A1 (ko)
SG (1) SG44675A1 (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE40280E1 (en) 1988-12-30 2008-04-29 Lucent Technologies Inc. Rate loop processor for perceptual encoder/decoder
US5502789A (en) * 1990-03-07 1996-03-26 Sony Corporation Apparatus for encoding digital data with reduction of perceptible noise
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
HU0004768D0 (ko) * 1994-03-31 2001-02-28 Arbitron Co
EP0720316B1 (en) * 1994-12-30 1999-12-08 Daewoo Electronics Co., Ltd Adaptive digital audio encoding apparatus and a bit allocation method thereof
CN1108023C (zh) * 1995-01-27 2003-05-07 大宇电子株式会社 自适应数字音频编码装置及其一种位分配方法
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
AU7118696A (en) * 1995-10-10 1997-04-30 Audiologic, Inc. Digital signal processing hearing aid with processing strategy selection
US5864813A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for harmonic enhancement of encoded audio signals
US5845251A (en) * 1996-12-20 1998-12-01 U S West, Inc. Method, system and product for modifying the bandwidth of subband encoded audio data
US6782365B1 (en) 1996-12-20 2004-08-24 Qwest Communications International Inc. Graphic interface system and product for editing encoded audio data
US6477496B1 (en) 1996-12-20 2002-11-05 Eliot M. Case Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US6463405B1 (en) 1996-12-20 2002-10-08 Eliot M. Case Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
US6516299B1 (en) 1996-12-20 2003-02-04 Qwest Communication International, Inc. Method, system and product for modifying the dynamic range of encoded audio signals
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
DE19947877C2 (de) * 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
EP1683133B1 (en) 2003-10-30 2007-02-14 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
DE102004009949B4 (de) 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR101105359B1 (ko) * 2010-06-22 2012-01-16 연세대학교 산학협력단 깊이 영상에 기반한 3차원 영상의 피로도 측정 방법 및 장치
JP7092050B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4433604A (en) * 1981-09-22 1984-02-28 Texas Instruments Incorporated Frequency domain digital encoding technique for musical signals
JPS58193598A (ja) * 1982-05-07 1983-11-11 日本電気株式会社 音声符号化方式とそれに供する装置
JPS59129900A (ja) * 1983-01-18 1984-07-26 日本電信電話株式会社 帯域分割符号化方式
JPS6069699A (ja) * 1983-09-26 1985-04-20 株式会社リコー 音声パタ−ン作成装置

Also Published As

Publication number Publication date
DE69127842D1 (de) 1997-11-13
CA2037780C (en) 1996-07-02
EP0446037B1 (en) 1997-10-08
EP0446037A3 (en) 1992-09-16
HK1002743A1 (en) 1998-09-11
KR910017780A (ko) 1991-11-05
EP0446037A2 (en) 1991-09-11
JPH10133699A (ja) 1998-05-22
JPH04219799A (ja) 1992-08-10
DE69127842T2 (de) 1998-01-29
SG44675A1 (en) 1997-12-19
JP2774203B2 (ja) 1998-07-09
JP3145339B2 (ja) 2001-03-12
CA2037780A1 (en) 1991-09-10

Similar Documents

Publication Publication Date Title
KR0185582B1 (ko) 오디오 신호의 타임 시퀀스 처리방법 및 장치
JP3297051B2 (ja) 適応ビット配分符号化装置及び方法
KR100209870B1 (ko) 오디오 신호의 순서화된 타임 시퀸스 처리 방법 및 오디오 신호 전송 방법
US5732189A (en) Audio signal coding with a signal adaptive filterbank
KR970007661B1 (ko) 스테레오포닉 오디오 신호의 입력세트 코딩방법
US5621856A (en) Digital encoder with dynamic quantization bit allocation
US5357594A (en) Encoding and decoding using specially designed pairs of analysis and synthesis windows
Pan Digital audio compression
KR970007663B1 (ko) 신호 양자화 장치 및 방법
US5852806A (en) Switched filterbank for use in audio signal coding
KR100242864B1 (ko) 디지탈 신호 부호화 장치 및 방법
KR100361236B1 (ko) 차분코딩원리를구현하는전송시스템
KR100295217B1 (ko) 신호스펙트럼-의존양자화비트할당및노이즈스펙트럼-의존양자화비트할당으로서디지탈입력신호를압축하는장치
US5737718A (en) Method, apparatus and recording medium for a coder with a spectral-shape-adaptive subband configuration
Musmann Genesis of the MP3 audio coding standard
JP3277682B2 (ja) 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法
JPH05313694A (ja) データ圧縮伸張装置
Thiagarajan et al. Analysis of the MPEG-1 Layer III (MP3) algorithm using MATLAB
US6167093A (en) Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
KR0137472B1 (ko) 오디오 신호 코딩 방법
Johnson et al. Adaptive transform coding incorporating time domain aliasing cancellation
Purat et al. Audio coding with a dynamic wavelet packet decomposition based on frequency-varying modulated lapped transforms
JP3557674B2 (ja) 高能率符号化方法及び装置
Wiese et al. Bitrate reduction of high quality audio signals by modeling the ears masking thresholds
Sen et al. Use of an auditory model to improve speech coders

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20101221

Year of fee payment: 13

EXPY Expiration of term