KR100316769B1 - 오디오 부호화/복호화 장치 및 방법 - Google Patents

오디오 부호화/복호화 장치 및 방법 Download PDF

Info

Publication number
KR100316769B1
KR100316769B1 KR1019970008189A KR19970008189A KR100316769B1 KR 100316769 B1 KR100316769 B1 KR 100316769B1 KR 1019970008189 A KR1019970008189 A KR 1019970008189A KR 19970008189 A KR19970008189 A KR 19970008189A KR 100316769 B1 KR100316769 B1 KR 100316769B1
Authority
KR
South Korea
Prior art keywords
signal
bitstream
frequency band
unit
content
Prior art date
Application number
KR1019970008189A
Other languages
English (en)
Other versions
KR19980073078A (ko
Inventor
김상욱
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019970008189A priority Critical patent/KR100316769B1/ko
Publication of KR19980073078A publication Critical patent/KR19980073078A/ko
Application granted granted Critical
Publication of KR100316769B1 publication Critical patent/KR100316769B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 하나의 구조로 스케일 조절이 가능하고 다중 콘텐트들의 동시 처리가 가능한 오디오 부호화/복호화장치 및 방법에 관한 것으로서, 오디오 부호화장치는 입력오디오 신호를 저주파대역신호와 고주파대역신호로 나누는 제1필터; 분리된 저주파대역신호를 보다 세밀한 주파수 대역으로 나누는 제2필터; 제1필터에 의해 분리된 고주파대역 신호를 시간영역에서 주파수영역으로 변환하는 T/F변환부; 제2필터의 출력신호를 ADPCM 방식에 의해 디지털 신호로 부호화하는 ADPCM부호화기; T/F변환부의 출력신호를 비트할당하고, 양자화하는 비트할당&양자화부; 분리된 저주파 및 고주파 신호를 소정의 음향심리모델에 따라 처리하여 ADPCM부호화기와 T/F변환부에서 발생하는 양자화오차 제어에 대한 정보를 제공하는 음향심리부; 입력오디오 신호의 제1필터, 제2필터 통과여부를 제어하고, T/F변환부의 처리주파수대역을 제어하며, 다중콘텐트처리 모드 또는 스케일조절가능 모드를 나타내는 정보 및 콘텐트의 위치정보를 제공하는 제어부; 및 ADPCM부호화기에서 부호화된 신호와 비트할당&양자화부에서 양자화된 비트들과 콘텐트의 위치정보를 이용하여 비트스트림을 형성하는 1차비트스트림 형성부를 포함함을 특징으로 한다.
본 발명에 의하면, 단일 구조로 여러 콘텐트들에 대한 처리가 가능하고 스케일 조절이 가능한 부호화기 및 복호화기를 구현할 수가 있다.

Description

오디오 부호화/복호화 장치 및 방법
본 발명은 오디오 부호화/복호화 장치 및 방법에 관한 것으로서, 특히 하나의 구조로 스케일 조절이 가능하고 다중 콘텐트들의 동시 처리가 가능한 오디오 부호화/복호화 장치 및 방법에 관한 것이다.
최근 영상회의, 영상쇼핑 등 인터랙티브(interactive)한 서비스가 다양하게 제공되고 있다. 이러한 인터랙티브한 서비스에서는 의미있는 영상단위(content : 이하 콘텐트라 함)들이 모여서 하나의 화면을 이루고 있다. 상기 의미있는 영상단위(콘텐트)들 각각은 하나의 처리단위로 되며, 개별적으로 이동이나 확대, 축소 및 삭제가 된다. 이렇게 복수의 콘텐트들을 각기 개별적으로 또는 동시에 처리하는 시스템을 다중 콘크런트 시스템(multiple concurrent system)이라 한다.
또한 데이터 전송선로를 효과적으로 사용하기 위해서는 정보의 표현에 사용되는 비트들에 대해 상기 비트들이 가지는 정보의 중요도 또는 사용자의 요구에 따라 재현에 사용되는 비트율의 조절이 필요하다. 즉 사용되는 비트들의 수를 조절할 수 있는(scalable ) 처리가 요구된다.
일반적으로 오디오 데이터와 비디오 데이터를 부호화하거나 복호화할 때 각각의 콘텐트들은 서로 구분되지 않고 부호화 및 복호화되기 때문에, 존재하는 오디오 신호들 가운데 특정 오디오 신호만을 뽑아내서 재현한다든지, 존재하는 비디오 신호들 가운데 특정 부분만을 뽑아내서 이동, 삭제 및 변형 등의 처리를 하기가 쉽지 않다. 이러한 문제는 콘텐트 각각의 독립적인 제어가 가능하게 되면 해결될 수 있다. 콘텐트 각각의 독립적인 제어가 되면, 특정 사람의 목소리와 같은 콘텐트를 듣기 싫은 경우에는 이를 없앨 수가 있고, 특정 사람의 화면상의 위치가 변했을 때 변한 위치를 고려해 출력 오디오 데이터를 변형시킬 수가 있다.
그러나 이러한 경우, 각 사람의 소리가 독립된 채널로 전달되기 때문에 특정인의 소리를 없애기 위해서는 독립된 채널 데이터를 전달해준다던지 혹은 전달하지 않는다던지 하는 것에 의해 용이하게 이루어질 수 있으나, 처리하는 콘텐트 각각에 대해 독립된 채널을 할당함으로 인해 시스템의 복잡도가 커지는 문제가 있다. 또한 상기 시스템이 다중 콘텐트(multiple contents )를 사용하는 영상회의 등 특정 목적에 사용되지 않는 경우, 시스템 구성요소 중 사용되지 않는 부분들이 많아지기 때문에 시스템의 효과적인 활용이 곤란하다는 문제가 있다.
한편 부호화기 및 복호화기에서 스케일조절(scalable)이 필요한 이유는 다음과 같다. 비디오와 오디오 정보가 있을 때, 경우에 따라서는 비디오 정보만이 중요한 경우가 있고, 또 오디오 정보만이 중요한 경우도 있다. 이와 같은 때, 비디오 정보와 오디오 정보에 고정된 비트율을 사용하면, 정보 전송시 채널의 전송능력을 효과적으로 활용하지 못할 수 있다. 이런 경우 정보의 중요도에 따라 처리에 사용되는 데이터 전송 비트율을 조절하면, 한정된 전송능력을 가진 채널을보다 효과적으로 사용할 수 있게 된다. 또한 비디오 채널검색, 오디오 채널검색과 같은 경우에는 어느 프로그램이 서비스되는지를 아는게 중요하다. 그래서 서비스에 사용되는 정보를 스케일러블(scalable)하게 줄여주어서 음질이나 화질은 저하되더라도, 많은 채널에 대한 정보를 동시에 보내줘 효과적인 채널검색이 가능하도록 한다. 그런데 스케일 조절이 가능한 장치를 구현함에 있어서, 기존의 방식은 부호화한 후 복호화해서 오차신호들을 구한 다음 스케일 조절이 가능한 비트스트림을 만들기 때문에, 스케일 조절에 필요한 단계가 많아지면 각 단계수 만큼 복잡도가 배로 늘어나는 문제가 있다.
한편, Multiple concurrent processing 이 필요한 이유는 다음과 같다. 화상회의나 다자간의 통화와 같은 경우, 각자에 대해 또는 각 콘텐트들에 따라 처리가 가능하게 되면, 특정 사람의 목소리와 같은 콘텐트가 듣기 싫은 경우에는 삭제시킬 수 있으며, 또한 특정사람의 화면상의 위치가 변화할 때, 변화하는 위치를 고려해 출력 오디오 데이터를 변형시켜 음원의 위치를 이동하여 처리할 수가 있다. 이 모든 처리가 만약 동시에 일어나지 않는다면 듣는 소리와 입 모양이 틀려지게 되고 그렇게 되면 실시간으로 대화하고 있는 것같지 않아 부자연스럽게 된다. 그래서 여러 콘텐트들을 다루기 위해서는 multiple concurrent processing system 이 되어야 한다.
이 때, 음원의 위치 이동은 인간이 삼차원 공간에 존재하는 소리를 양쪽 귀로 듣고 느끼는 것에 대한 연구결과를 적용시켜 줌으로써 개선이 가능하다. 즉, 오른쪽 귀와 왼쪽 귀로 느끼는 소리 신호의 크기 차이라든지 소리의 전달 시간에 대한 연구결과에 의해 사람이 공간상의 한 점에서 존재하는 음원을 인식하는 인식 특성이 모델링되었고, 이러한 특성은 HRTF(head related transfer function)이라고 불리운다. 상기 HRTF 함수들은 공간 상의 어떤 한 점에서 소리가 존재할 때, 그 신호가 양 귀로 전송될 때에 대한 특징에 대한 중이(middle ear)에서의 임펄스 응답 또는 전달함수로 표현된다. 상기 HRTF를 응용하여 소리가 존재하는 곳을 삼차원 공간상의 임의의 위치로 옮겨주는 처리가 가능하게 되었다.
그러나 종래에는 화면상의 특정영역, 즉 사람, 동물등과 같은 의미있는 부분(콘텐트)에서 발생되는 소리만을 골라 처리하기가 어려웠다. 예를 들어 화면상의 특정인의 위치를 바꾸거나 없애주기 위한 비디오와 오디오 처리가 곤란하였다. 그렇기 때문에 독립된 콘텐트 각각에 대한 처리를 할 수 없었으며, 복호화 단계에서 전송 또는 저장되어 있는 데이터 중 일부만을 변형처리하기가 용이하지 않았다. 결론적으로, 종래의 부호화 및 복호화 시스템에서는 스케일 조절이 가능하고 동시에 다중 콘텐트 처리가 가능한 방식에 대한 고려가 없었다.
본 발명은 상술한 문제점을 해결하기 위해 창출된 것으로서, 채널검색등에 활용이 가능한 스케일조절에 의한 재생이나, 다자간 통화나 영상회의 등에 활용이 가능한 여러 콘텐트들에 대한 처리를 위해, 하나의 구조로 스케일 조절이 가능하고 다중 콘텐트들의 동시 처리가 가능한 오디오 부호화/복호화 장치 및 방법를 제공함에 그 목적이 있다.
도 1은 본 발명에 의한 스케일조절과 다중 콘텐트 처리가 가능한 오디오 부호화기의 구성을 블록도로 도시한 것이다.
도 2는 본 발명에 의한 스케일조절과 다중 콘텐트 처리가 가능한 오디오 복호화기의 구성을 블록도로 도시한 것이다.
도 3a 및 도 3b는 종래의 ADPCM 부호화기 및 ADPCM 복호화기를 블록도로 도시한 것이다.
도 4는 부호화기의 영상화면의 콘텐트 위치 정보 표현 방식을 도시한 것이다.
도 5a 및 도 5b는 복호화기에서 영상화면에서의 콘텐트 이동에 따른 위치 정보표현 방식을 설명하기 위한 것으로서, 원래화면과 콘텐트가 이동한 후의 화면을 도시한 것이다.
도 6a 및 도 6b는 본 발명에 사용되는 ADPCM의 부호화기 및 ADPCM의 복호화기의 구성을 블록도로 도시한 것이다.
도 7은 헤드폰과 스피커로 재현해 주는 경우에 대한 일예를 도시한 것이다.
상기의 목적을 달성하기 위한 본 발명에 의한, 하나의 구조로 스케일 조절이 가능하고 다중 콘텐트들의 동시 처리가 가능한 오디오 부호화장치는 입력오디오 신호를 저주파대역신호와 고주파대역신호로 나누는 제1필터; 상기 제1필터에 의해 분리된 저주파대역신호를 보다 세밀한 주파수 대역으로 나누는 제2필터; 상기 제1필터에 의해 분리된 고주파대역 신호를 시간영역에서 주파수영역으로 변환하는 T/F변환부; 상기 제2필터의 출력신호를 ADPCM 방식에 의해 디지털 신호로 부호화하는 ADPCM부호화기; 상기 T/F변환부의 출력신호를 비트할당하고, 양자화하는 비트할당&양자화부; 상기 제1필터에서 분리된 저주파 및 고주파 신호를 소정의 음향심리모델에 따라 처리하여 상기 ADPCM부호화기와 T/F변환부에서 발생되는 양자화오차 제어에 대한 정보를 제공하는 음향심리부; 상기 입력오디오 신호의 상기 제1필터, 제2필터 통과여부를 제어하고, 상기 T/F변환부의 처리 주파수 대역을 제어하며, 다중콘텐트처리 모드 또는 스케일 조절가능 모드를 나타내는 정보 및 콘텐트의 위치정보를 제공하는 제어부; 및 상기 ADPCM부호화기에서 부호화된 신호와 상기 비트할당&양자화부에서 양자화된 비트들과 상기 제어부의 콘텐트의 위치정보를 이용하여 비트스트림을 형성하는 1차비트스트림 형성부를 포함함을 특징으로 한다.
본 발명의 다른 목적을 달성하기 위한, 하나의 구조로 스케일 조절이 가능하고 다중 콘텐트들의 동시 처리가 가능한 오디오 복호화장치는 입력 비트스트림을 해체하는 비트스트림해체부; 상기 비트스트림해체부에서 해체된 비트스트림을 역양자화하는 역양자화기; 상기 비트스트림해체부에서 해체된 비트스트림을 복호화하는 ADPCM복호화기; 상기 ADPCM복호화기에서 복호화된 저주파 대역별 신호를 합성하는 제1신호합성부; 고주파 대역 신호를 시간영역으로 변환하는 F/T변환부; 상기 제1신호합성부에서 합성된 저주파대역 신호와 상기 F/T변환부 출력신호를 합성하는 제2신호합성부; 상기 비트스트림해체부에서 해체된 신호에서 콘텐트들의 공간에서의 위치정보를 추출하여 스피커 재현인지, 헤드폰 재현인지에 따라 음원의 위치를 조절하는 공간제어처리부; 상기 비트스트림해체부에서 해체된 신호를 받아, 상기 비트스트림이 다중 콘텐트처리모드인지 스케일조절가능모드인지를 판별하고, 상기 판별된 모드가 다중 콘텐트처리모드이면 상기 F/T 변환부의 출력신호가 출력되지 않게 하며, 사용자의 스케일조절 명령에 따라 상기 공간제어처리부에서의 스케일조절을 제어하는 제어부; 및 상기 공간제어처리부 및 제2신호합성부에서 출력되는 신호를 일시 저장하여 출력하는 버퍼출력부를 포함함이 바람직하다.
상기의 또 다른 목적을 달성하기 위한 본 발명에 의한, 하나의 구조로 스케일 조절이 가능하고 다중 콘텐트들의 동시 처리가 가능한 오디오 부호화방법은, 입력오디오 신호를 저주파대역신호와 고주파대역신호로 나누는 주파수대역분리단계; 상기 주파수대역분리단계에서 분리된 저주파대역신호를 보다 세밀한 주파수 대역으로 나누는 저주파분리단계; 다중 콘텐트를 동시에 처리할 수 있도록 부호화할 것인지, 스케일조절이 가능하도록 부호화할 것인지 판단하는 단계; 다중콘텐트를 동시에 처리할 수 있도록 부호화할 경우, 상기 저주파분리단계에서 분리된 신호를 ADPCM 방식에 의해 디지털 신호로 부호화하는 부호화단계; 스케일조절이 가능하도록 부호화하고자 할 경우, 상기 저주파분리단계에서 분리된 신호를 ADPCM 방식에 의해 디지털 신호로 부호화하고, 상기 주파수대역분리단계에서 분리된 고주파대역 신호를 시간영역에서 주파수영역으로 변환하는 T/F변환단계; 상기 T/F변환단계에서 변환된 신호를 비트할당하고, 양자화하는 양자화단계; 상기 주파수대역분리단계에서 분리된 저주파 및 고주파 신호를 소정의 음향심리모델에 따라 처리하여 상기 부호화단계에서 사용되는 양자화기의 단계 차이 값에 대한 정보를 제공하는 음향심리단계; 및 상기 부호화된 신호와 상기 양자화된 비트들과 콘텐트의 위치정보를 이용하여 비트스트림을 형성하는 단계를 포함함을 특징으로 한다.
본 발명의 또 다른 목적을 달성하기 위한, 하나의 구조로 스케일 조절이 가능하고 다중 콘텐트들의 동시 처리가 가능한 오디오 복호화방법은, 입력되는 비트스트림을 해체하는 비트스트림해체단계; 상기 비트스트림해체단계에서 해체된 비트스트림이 다중 콘텐트처리모드인지 스케일조절가능모드인지를 판별하는 단계; 상기 해체된 비트스트림을 역양자화하는 역양자화단계; 상기 비트스트림해체단계에서 해체된 비트스트림을 복호화하는 복호화단계; 상기 복호화된 저주파 대역별 신호를 합성하는 제1신호합성단계; 상기 판별된 모드가 다중 콘텐트처리모드가 아니면, 고주파 대역 신호를 시간영역으로 변환하는 F/T변환단계; 상기 신호합성단계에서 합성된 저주파대역 신호와 상기 F/T변환단계에서 변환된 신호를 합성하는 제2신호합성단계; 사용자의 스케일조절 명령에 따라 스케일을 조절하고, 상기 비트스트림해체단계에서 해체된 신호에서 콘텐트들의 공간에서의 위치정보를 추출하여 스피커 재현인지, 헤드폰 재현인지에 따라 음원의 위치를 조절하는 공간처리단계; 및 상기 제2신호합성단계에서 합성된 신호와 상기 공간처리단계에서 처리된 신호를 버퍼링하여 출력하는 단계를 포함함이 바람직하다.
이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다. 도 1은 본 발명에 의한 스케일조절과 다중 콘텐트 처리가 가능한 오디오 부호화기의 구성을 블록도로 도시한 것으로서, 제1필터(100), 제2필터(110), ADPCM부호화기(120), T/F변환부(130), 비트할당&양자화부(140), 1차비트스트림형성부(150), 음향심리부(160), 제어부(170), 예측부(180) 및 비트스트림형성부(190)로 이루어진다.
상기 제1필터(100)는 입력오디오 신호를 저주파대역신호와 고주파대역신호로 분리한다. 상기 제2필터(110)는 상기 제1필터(100)에 의해 분리된 저주파대역신호를 보다 세밀한 주파수 대역으로 분리한다. 상기 ADPCM부호화기(120)는 상기 제2필터(110)의 출력신호를 ADPCM 방식에 의해 디지털 신호로 부호화한다.
상기 T/F변환부(130)는 상기 제1필터(100)에 의해 분리된 고주파대역 신호를 시간영역에서 주파수영역으로 변환한다. 상기 비트할당&양자화부(140)는 상기 T/F변환부(130)의 출력신호를 비트할당하고 양자화한다. 상기 1차비트스트림 형성부(150)는 상기 ADPCM부호화기(120)에서 부호화된 신호와 상기 비트할당&양자화부(40)에서 양자화된 비트들과 콘텐트의 위치정보 및 처리모드를 이용하여 비트스트림을 형성한다.
상기 음향심리부(160)는 상기 제1필터(100)에서 분리된 저주파 및 고주파 신호를 음향심리모델에 따라 처리하여 상기 ADPCM부호화기(120)에서 사용되는 양자화기의 단계값인 델타(delta) 값을 조절하고, 비트할당&양자화부(140)에서 사용되는 비트수들을 결정하는 한 척도를 제공한다.
상기 제어부(170)는 상기 입력오디오 신호의 상기 제1필터(100), 제2필터(110) 통과여부를 제어하고, 상기 T/F변환부(130)의 처리 주파수 대역을 제어하며, 다중콘텐트처리 모드 또는 스케일 조절가능 모드를 나타내는 처리모드 및 콘텐트의 위치정보를 제공한다.
상기 예측부(180)는 상기 1차비트스트림형성부(150)의 이전 프레임 정보와 현재 프레임 정보의 연관성을 구한다. 상기 비트스트림형성부(190)는 상기 예측부(180)에서 산출된 프레임연관성에 따라 중복되는 데이터를 줄여 비트스트림을 형성한다.
도 2는 본 발명에 의한 스케일조절과 다중 콘텐트 처리가 가능한 오디오 복호화기의 구성을 블록도로 도시한 것으로서, 비트스트림해체부(200), 역양자화기(250), ADPCM복호화기(230), 제1신호합성부(240), F/T변환부(260), 제2신호합성부(280), 공간제어처리부(270), 제어부(290), 버퍼출력부(295), 예측부(210), 1차비트스트림해체부(220)를 포함하여 이루어진다.
상기 비트스트림해체부(200)는 입력 비트스트림을 해체한다. 상기 예측부(210)는 상기 비트스트림해체부(200)에서 해체된 비트스트림이 이전 프레임 정보를 이용한 비트스트림인지를 판별한다.
상기 1차비트스트림 해체부(220)는 상기 예측부(210)에서의 판별이 이전 프레임정보를 이용한 비트스트림이라고 판별하면 이전 프레임정보를 이용하여 비트스트림을 재구성한다.
상기 역양자화기(250)는 상기 1차비트스트림해체부(220)에서 해체된 비트스트림을 역양자화한다. 상기 ADPCM복호화기(230)는 상기 1차비트스트림해체부(200)에서 해체된 비트스트림을 복호화한다. 상기 제1신호합성부(240)는 상기 ADPCM복호화기(230)에서 복호화된 저주파 대역별 신호를 합성한다.
상기 F/T변환부(260)는 고주파 대역 신호를 시간영역으로 변환한다. 상기 제2신호합성부(280)는 상기 제1신호합성부(240)에서 합성된 저주파대역 신호와 상기 F/T변환부(260) 출력신호를 합성한다.
상기 공간제어처리부(270)는 상기 비트스트림해체부(200)에서 해체된 신호에서 콘텐트들의 공간에서의 위치정보를 추출하여 스피커 재현인지, 헤드폰 재현인지에 따라 음원의 위치를 조절한다. 상기 공간제어처리부(270)는 또한 위치정보를 갖는 영상 콘텐트의 위치 변동에 따라 영상콘텐트의 위치좌표를 새로 구해 음원의 위치 이동을 고려한 소리를 조절한다. 상기 공간제어처리부(270)의 위치정보는 발성기관의 위치를 기준위치로 사용한다.
상기 제어부(290)는 상기 비트스트림해체부(220)에서 해체된 신호를 받아, 상기 비트스트림이 다중 콘텐트처리모드인지 스케일조절가능모드인지를 판별하고, 상기 판별된 모드가 다중 콘텐트처리모드이면 상기 F/T 변환부(260)의 출력신호가 출력되지 않게 하며, 사용자의 스케일조절 명령에 따라 상기 공간제어처리부(270)에서의 스케일조절을 제어한다.
상기 버퍼출력부(295)는 상기 공간제어처리부(270) 및 제2신호합성부(280)에서 출력되는 신호를 일시 저장하여 출력한다.
그러면, 상기와 같은 구성에 의거하여 본 발명의 동작을 설명하기로 한다. 먼저, 부호화기에 대해서 살펴본다. 사용자가 상기 제어부(170)에서 다중콘커런트처리(multiple concurrent processing )와 스케일조절가능한 코딩(scalable coding) 중 하나의 동작모드를 선택한다. 만약, 선택된 동작모드가 multiple concurrent processing 일 경우, 상기 제어부(170)에 의해 상기 T/F변환부(130)은 동작을 하지 않고, 각 필터(100, 110)와 ADPCM부호화기(120)가 동작을 하여 배당된 콘텐트(content)에 대한 처리를 한다. 여기서 상기 필터(100, 110)는 콘텐트가 가지고 있는 주파수 특성을 처리에 고려해주기 위한 안티에일리어싱(anti-aliasing)필터이고, 대역 제한된 신호들은 도 6a에 도시된 바와 같은 ADPCM부호화기에 의해 부호화된다. 이때 상기 ADPCM부호화기(120)에서 사용되는 양자화기(도시안됨)의 단계 델타(delta)는 상기 음향심리를 모델링한 음향심리부(160)에 의해 제어가 된다. 여기서, 필터 및 ADPCM을 4개 병렬로 사용함으로써 최대 4개까지의 콘텐트들이 존재할 때 상기 콘텐트들의 콘커런트처리(concurrent processing)가 가능하게 한다.
한편 사용자가 상기 제어부(170)에서 동작모드를 scalable coding를 선택할 경우, 입력신호는 하나의 콘텐트에 대한 것으로서, 상기 입력신호를 크게 5개의 주파수 대역별로 처리가 가능하게 한다. 샘플링 주파수를 Fs라 하면, Fs/4 - Fs/2, 0 - Fs/16, Fs/16 - Fs/8, Fs/8 - 3Fs/16, 3Fs/16 - Fs/4의 5개 대역으로 처리한다. 인간이 고주파수쪽 신호에 대해서는 민감도가 떨어지므로, 고주파수쪽에는 처리에 사용되는 주파수 대역을 넓게 하여 상기 T/F변환부(120)에서 T/F 변환을 하고, 낮은 주파수 쪽에서는 구성상의 복잡도를 간단하게 해주면서 상기 ADPCM부(130)를 사용한다.
여기서 저주파수 대역에는 데이터 전송시 발생가능한 에러에 대한 탄력성(resilience)을 위해 비선형 예측기를 사용한 ADPCM을 사용한다. 비선형예측기를 사용한 ADPCM부호화기(120)의 에러 resilience 에 대한 일예는 뒤에 보다 자세히 설명하기로 한다. 그리고 DPCM을 사용하지 않고 ADPCM을 사용하는 이유는 신호에 보다 적합한 양자화기를 사용하기 위함이며, 또한 도 6a과 같이 ADPCM 결과에 의해 발생하는 오차신호의 파워를 계산해 상기 음향심리부(160)의 인간의 음향심리 모델에 의해서 구한 한계치 이내에 드는지를 고려하여, 버퍼제어가 가능하게 한다.
데이터들의 처리결과는 1차 비트스트림 형성부(150)로 전달이 되고, 전달된 다음에는 상기 예측부(180)에서 이전에 구성한 비트스트림과 비교를 해서 다른 점을 구한다. 이 때, 앞의 프레임과 뒤의 프레임간의 연관성이 소정의 한계값 이상이 되면 예측 온(prediction on)을 해서 상기 비트스트림형성부(190)를 통해 비트스트림을 구성해 전달하고, 소정의 한계값 이하일 경우는 예측 오프(prediction off)를 해서 비트스트림을 구성한다.
한편, 복호화기는 다음과 같다. 먼저, 상기 비트스트림헤체부(200)를 통해 비트스트림이 해체된다. 그리고 나서 상기 예측부(210)를 통해 해체된 비트스트림상의 프레딕션(prediction) 온/오프(on/off) 정보를 체크해 이전 프레임 결과를 처리에 사용하든지, 안하든지를 알고 비트스트림을 재구성한다. 만일 프레딕션 온인 경우에는 상기 1차비트스트림해체부(220)에 의해 이전 프레임 결과를 처리에 사용하여 비트스트림을 해체하며, 상기 역양자화기(250)을 통해 역양자화된다. 만일 프레딕션 오프인 경우는 상기 비트스트림 해체부(200)에서 해체된 비트스트림을 그대로 사용한다.
그 다음, 제어부(290)는 비트스트림상의 정보를 읽어 이 비트스트림이 multiple concurrent processing 을 하고 있는지 아니면 scalable 복호화기로서의 역할을 하고 있는지를 검출한다. 만일 multiple concurrent processing 의 경우 상기 제어부(290)에 의해 해체된 비트스트림은 F/T변환기(260)에 통과되지 않고 상기 ADPCM복호화기(230)에 의해 ADPCM을 수행한다. 그리고 나서 제1신호합성부(240)에서 부호화될 때와는 반대로 세밀하게 나누어진 저주파수 부분에 대해 다시 신호가 합쳐져 하나의 저주파수 대역으로 된다. 그리고 만일 scalable 부호화기 및 복호화기로서 사용된 경우, 상기 제어부(290)의 제어에 의해 상기 F/T변환부(260)에 통과되면서 신호들이 재현된다.
이렇게 상기 제1신호합성부(240)에서 재현된 저주파수 대역 신호와 상기 F/T변환부(260)에서 변환된 고주파수 대역 신호는 상기 제신호합성부(280)를 통해 합쳐져서 상기 버퍼출력부(295)로 출력된다.
비트스트림 상에 있는 각 content들의 위치정보를 이용해 복호화시 각 content 들의 공간상의 위치에 다른 보다 효과적인 처리가 가능하게 된다. 여기서 제어부(290)에서 어떤 content의 위치를 이동시켜주면 이동되는 위치를 연산에 의해 구한 뒤, 음원의 위치이동에 따른 보상을 해준다. 부호화기에서 음원의 위치보상을 고려해주지 않고 복호화기에서 고려해주는 이유는 만약 부호화기에서 변형시켰을 때 복호화기에서 또 다른 이동에 따른 변형을 한다면, 부호화기에서 변형된 효과를 없앤 후에 다시 변형에 따른 제어를 해줘야 하기 때문에 복잡도가 2배로 드는 문제가 있기 때문이다. 복호화기에서만 고려해줌으로써 복잡도가 2배가 되는 것을 방지할 수가 있다.
한편 상기 multiple 콘텐트에 대한 처리를 보다 상세하게 설명하면 다음과 같다. 상기 제어부(290)에 의해 상기 비트스트림이 multiple 콘텐트 처리입력인지 아닌지가 검출된다. multiple 콘텐트에 대한 신호인 경우 저주파수 신호들의 처리에 사용되는 ADPCM복호하기(230) 각각이 독립된 콘텐트를 처리하도록 한다. 이 때, 다루는 신호는 스케일 조절이 가능한 경우로 ADPCM부호화기(120)과 T/F변환부(130)들을 사용할 때 다루는 주파수 대역폭과는 다르다. 부호화시 각각의 콘텐트들에 대해 독립적인 ADPCM부호화기를 사용해 처리를 하기 때문에 사용자의 제어에 의해 특정 콘텐트의 소리를 완전히 없앨 수도 있고, 특정 콘텐트가 가지고 있는 공간에서의 분포특성도 변형할 수가 있다.
그리고 만일 스케일 조절이 가능한 신호인 경우 입력신호는 하나의 content에 대한 것이다. 5개의 주파수 대역별로 처리가 가능하게 되어 있고, 샘플링 주파수를 Fs라 하면, Fs/4 - Fs/2, 0 - Fs/16, Fs/16 - Fs/8, Fs/8 - 3Fs/16, 3Fs/16 - Fs/4의 5개 댜역으로 처리가 되어 있다. 인간이 고주파수쪽 신호에 대해서는 민감도가 떨어지므로 고주파수 쪽에는 처리에 사용되는 주파수 대역을 넓게 해주고 T/F 변환해주었으므로 상기 F/T 변환부(260)에서 F/T 변환에 의해 복원한다. 그리고 낮은 주파수쪽에서는 구성상의 복잡도를 간단하게 하기 위해 부호하기에서 ADPCM부호화기에 의해 부호화하였기 때문에 ADPCM 복호화기(230)로 복호화한다. 빠른 검색이 필요할 때에는 비트스트림상의 일부분만을 읽어서 복호해줌으로써 처리의 효율성을 높여준다.
한편, 콘텐트의 위치정보를 이용해 새로운 위치 정보를 구해 처리하는 것은 다음과 같다. 부호화시에 영상의 콘텐트의 위치를 비트스트림상에 포함해준다. 도 4는 부호화기의 영상화면의 콘텐트 위치 정보 표현 방식을 도시한 것으로서, 비트스트림에 의해 전달되는 위치정보는 도 4와 같은 영상화면에서의 x, y 좌표값에 대한 정보이고, 이 값은 영상 콘텐트의 한쪽 끝을 기준으로 삼아준다. 입의 위치가 소리가 나오는 음원의 위치이기 때문에 입의 위치를 처리에 사용해주는 것을 특징으로하고 영상에 나타나지 않는 입의 경우, 영상 테두리상의 한 점을 입이 존재하는 위치로 가정해 처리를 해준다.
도 4에 그 기준점에 의한 예를 보였다. 이 때, 처리에 사용되는 화면을 배경과 콘텐트, 그리고 각 콘텐트들의 테두리 선으로 나누어 준 뒤, 각각을 결합해 영상을 재생해 줌으로써 복호화기에서 화면의 콘텐트를 이동시 테두리선 정보를 이용해 해당 콘텐트를 추출한 뒤 새로운 위치에 이동시킬 수 있도록 한다.
복호화시에는 영상정보가 하나의 콘텐트로 사용자가 그 콘텐트를 상하좌우로 이동시키거나 zoom in/out에 의해 크기를 조절해 줄 수가 있다. 복호화시 상하좌우로 움직임에 따라 변화하는 좌표 값을 처리에 고려해 복원시 화면에서 보이는 위치에서 소리가 나오는 것과 같이 처리를 한다. 예로 도 5a 및 도 5b 에서와 같이 사람 A, B가 있을 때 사용자가 사람의 위치를 원래위치(도 5a)에서 도 5b에서와 같이 바꾸어준다면, 그 바뀐 위치정보값(x,y)를 이용해 재생되는 소리를 바뀐 영상 콘텐트의 위치를 고려해 바꾸어 주는 처리를 한다. 또 영상 content가 zoom in/out 이 되면 그 정보를 (z) 정보로 이용해 새롭게 (x,y,z)에 대한 기준을 삼아서 근거리에서 말을 하는 경우와 원거리에서 말을 하는 경우에 대한 효과가 나오도록 처리해 준다. 이 결과 영상 콘텐트의 상하좌우 이동은 물로 전후 이동에 대한 처리를 할 수 있다. 음원의 공간이동 기법에 대한 것은 뒤에서 보다 자세히 설명한다.
한편 저주파수 대역 및 multiple concurrent 처리시, 부호화기 및 복호화기에 사용되는 ADPCM 부호화기 및 복호화기(120, 230)가 비선형예측기를 사용하는 이유를 설명하기로 한다. DPCM부나 ADPCM부를 구성하는 예측기를 선형예측기로 하느냐 비선형 예측기로 하느냐에 따라 오차 신호의 영향이 달라진다. 선형예측기는 오차신호가 누적되어 주위 신호에 계속 전달되는 데 반하여, 비선형예측기는 오차가 고립되기 때문에 주위의 신호에는 오차신호의 영향이 계속 전파되지 않는 효과가 있다. 예를 들어 도 3a 및 도 3b의 ADPCM 부호화기/복호화기의 예측기 부분에 선형예측기와 비선형예측기를 사용한 경우를 살펴보자.
[수학식 1]
P_out[n] = mean { P_in[n], P_in[n-1], P_in[n-2] }
= integer [ (P_in[n] + P_in[n-1] + P_in[n-2])/3.0 ]
선형예측기는 수학식 1과 같이 상기 P_in[n], P_in[n-1], P_in[n-2]의 세 값을 더해준 뒤 3으로 나눠 정수값으로 양자화 처리한 값을 P_out[n]의 값으로 해주는 예측기이다.
한편, 비선형 예측기로는 수학식 2와 같은 중앙값 예측기(median predictor)를 사용한다.
[수학식 2]
P_out = median { P_in[n], P_in[n-1], P_in[n-2] }
즉, 상기 비선형 예측기는 위와 같이 3개의 샘플, P_in[n], P_in[n-1], P_in[n-2]을 크기순으로 정열시킨 뒤, 그 정열된 순서들 중 가운데 순서에 위치하는 값을 P_out[n]의 값으로 해주는 예측기이다.
X_in 과 Cod_X, Cod_Y 와 Y_out에 대한 선형 예측기/비선형 예측기에 대한 부호화기의 입력값/출력값, 복호화기의 입력값/출력값의 예는 다음과 같다.
[표 1]
선형예측기에 의한 부호화기 입력/출력
n 1 2 3 4 5 6 7 8 9
X_in 25 30 35 40 35 30 25 20 15
Cod_X 10 10 10 10 0 -7 -10 -10 -10
P_in 20 25 30 35 40 35 30 25 20
P_out 15 20 25 30 35 37 35 30 25
[표 2]
비선형 예측기에 의한 복호화기 입력/출력
n 1 2 3 4 5 6 7 8 9
Cod_Y 10 10 10 10 0 -7 -10 -10 -10
Y_out 20 25 30 35 40 35 30 25 20
P_out 15 20 25 30 35 37 35 30 25
[표 3]
비선형 예측기에 의한 부호화기 출력
n 1 2 3 4 5 6 7 8 9
X_in 25 30 35 40 35 30 25 20 15
Cod_X 10 10 10 10 0 -5 -10 -10 -10
P_in 20 25 30 35 40 35 30 25 20
P_out 15 20 25 30 35 35 35 30 25
[표 4]
비선형 예측기에 의한 복호화기 입력 및 출력
n 1 2 3 4 5 6 7 8 9
Cod_Y 10 10 10 10 0 -5 -10 -10 -10
Y_out 20 25 30 35 40 35 30 25 20
P_out 15 20 25 30 35 35 35 30 25
만약, 전송되는 상태에서 채널에서 잡음이 발생하게 된 경우를 고려해보면 다음과 같다. n이 5인 시간의 경우 원래의 신호는 0이었으나 오차신호에 의해 100으로 바뀐 경우에 대해서 선형예측기와 비선형 예측기를 사용한 복호화기에 의한 출력값 차이를 보인다.
[표 5]
채널에서 잡음발생시 선형예측기에 의한 복호화기 입력 및 출력
n 1 2 3 4 5 6 7 8 9
Cod_Y 10 10 10 10 100 -7 -10 -10 -10
Y_out 20 25 30 35 40 135 63 69 79
P_out 15 20 25 30 35 70 79 89 70
[표 6]
채널에서 잡음발생시 비선형예측기에 의한 복호화기 입력 및 출력
n 1 2 3 4 5 6 7 8 9
Cod_Y 10 10 10 10 100 -5 -10 -10 -10
Y_out 20 25 30 35 40 135 35 30 25
P_out 15 20 25 30 35 40 40 35 30
비선형 예측기의 경우, 0 이 100 으로 바뀐 경우 그 효과가 고립되나, 선형예측기에서는 그 효과가 고립되지 않고 전파되어 그 영향을 비치고 있음을 볼 수가 있다.
실제 발생하는 오차신호를 검출해서 오디오 부호화시에 양자화기를 보다 효과적으로 사용할 수 있고, 버퍼제어를 할 수 있다. 이것은 인간의 음향심리에 의해 발생하는 마스크된 문턱치(masked threshold)를 사용함으로서 가능하다. 이 문턱치는 인간이 들어도 느기지 못하느 신호의 파워를 나타낸다. 해당 대역의 신호들을 양자화 처리했을 때 발생되는 양자화 잡음의 합이 이 이하기 되면 더 이상의 세밀한 양자화기는 필요없고 또 더 이상의 비트들도 필요없다는 것을 의미한다. 이러한 성질을 이용해 사용되는 비트수들을 제어한다.
도 6과 같이 ADPCM 부호화한 신호들을 복호화하면서 발생한 오차신호의 양을 계산한다. 그 오차의 총합과 음향심리 모델에 의해 결정된 문턱치 상수값과 비교하여 한계를 넘는지 넘지 않는지를 조사해서 양자화기의 양자화단계 조절, ADPCM의 델타 조절, 그리고 프레임의 버퍼제어에 활용한다. 만약 그 한계를 넘게 되면 새로운 양자화기를 이용해 그 결과 값을 줄여주는 처리를 수행하여 음질과 비트 사용량에 대한 trade-off에 따라 조절할 수 있도록 한다.
삼차원 음향효과는 인간이 두 귀로서 소리를 모아서 듣기 때문에 발생하는 효과이다. 이러한 삼차원 음향효과는 스테레오 신호에 의한 재현시 고정된 재현 스피커들의 위치에 따라서 재현되는 신호들을 제어해 제공이 가능하다. 인간의 소리 인식에 대한 연구들은 크게 오른쪽이나 왼쪽 귀들 가운데 하나의 귀만을 가지고 한 연구와 양쪽 귀를 함께 고려해 한 연구들로 구분될 수가 있다. 한쪽 귀에 대한 연구는 소리 존재의 유무를 느끼는 과정 및 그 특징에 대한 모델링이 가능해 인간이 인지할 수 있는 신호의 최소 압력크기(absolute threshold value) 라든지 여러 신호들이 들어올 때 각 신호들간의 상호작용(masking)에 대한 연구결과들이 있어서 그 결과들을 데이터의 효과적인 표현, 즉 압축 등에 사용되고 있다. 양쪽 귀에 대한 연구는 양쪽 귀에 들어오는 입력신호들에 대한 상호 영향에 대한 연구, 즉 오른쪽 귀와 왼쪽귀로 느끼는 소리신호의 크기 차이라든지 소리의 전달시간의 차리로 발생하는 오른쪽 귀와 왼쪽 귀에 들어오는 소리의 위상에 대한 차이에 대한 것들을 수행해 왔다.
이러한 양쪽 귀에 대한 연구결과에 의해, 사람이 공간상의 한 점에서 존재하는 음원을 인식하는 인식특성이 모델링되었고 이러한 특성은 HRTF(head related transfer function ) 이라고 불리운다. 상기 HRTF 함수들은 공간 상의 어떤 한 점에서 소리가 존재할 때 그 신호가 양귀로 전송될 때에 대한 특징에 대한 중이(middle ear)에서의 임펄스 응답 또는 전달함수로 표현된다. 상기 HRTF를 응용함으로써 소리가 존재하는 곳을 삼차원 공간상의 임의의 위치로 옮겨주어 보다 현장감있는 재현이 가능하도록 하였다.
삼차원 공간상의 임의의 한 점 A의 정보를 이용해, 그 점에서 소리가 재현되는 효과를 헤드폰으로 들을 때 쉽게 낼 수가 있다. 공간상의 특정 점 A에서 나는 소리를 XA라 하면, 오른 쪽 귀와 왼쪽 귀에 들어오는 신호 E_r, E_l 는 다음과 같이 표현된다. 여기서 H_ar, H_al은 A점에서 나는 소리를 오른 쪽, 왼쪽 귀로 들을 때 느끼는 신호의 변형특성이다. 행렬로 표현하면,
[수학식 3]
Figure kpo00001
과 같다.
모노 입력신호를 H_ar, H_al을 이용해 마치 A 점에서 들려오는 것과 같이 느끼게 한다. 이러한 효과를 전방 오른쪽/왼쪽 스피커를 이용해 낼 경우에는 양 스피커의 출력에 의해 발생하는 소리의 혼신(cross-talk) 효과를 보상해 주어야 한다. 오른쪽 스피커와 왼쪽 스피커로 나오는 신호들을 각각
Figure kpo00002
이라 할 때, 오른쪽 왼쪽 스피커를 통해 귀에 들어오는 신호
Figure kpo00003
들은
[수학식 4]
Figure kpo00004
으로 나타낼 수가 있다. 여기서는 전달함수 이다.
이 양쪽 수학식 3, 수학식 4에 의한 값들이 같다면, 점 A에 신호가 위치하고 있다고 느끼게 된다. 풀어주면,
[수학식 5]
Figure kpo00006
가 된다.
상기 수학식 5의 해를 구하기 위해서는 오른쪽 스피커와 왼쪽 스피커의 출력으로 나오는 값을 조절해 주어야 한다. 스피커의 출력값
Figure kpo00007
값들이
Figure kpo00008
값이 각각
Figure kpo00009
에 의해 변형된 신호라고 가정해 주면,
[수학식 6]
Figure kpo00010
과 같으므로, 수학식 5에 대입해 정리하면
[수학식 7]
Figure kpo00011
이 된다. 역변환에 의해 변형시켜주는 값들인
Figure kpo00012
들을 구하면 다음과 같다.
[수학식 8]
Figure kpo00013
여기서
Figure kpo00014
는 스피커의 위치가 고정되면 결정되는 값들이고,
Figure kpo00015
은 음원의 위치가 정해지면, 그 위치에 따라 정해지는 알려진 값들이기 때문에
Figure kpo00016
을 구해줄 수가 있다.
이 값들을 구한 뒤에 수학식 6을 이용해 삼차원 공간상의 위치A에서 존재하는 신호를 다른 임의의 위치에서 재현해 주면서 A 위치에서 소리가 나는 것과 같이 스피커를 이용해 재현해 줄 수가 있다.
크로스토크의 유무에 따른 적합한 처리변환을 하지 않아서 스피커 재현과 헤드폰 재현시 들리는 신호에 대한 느낌이 다른 문제점을 갖는다. 그렇기 때문에 헤드폰으로 재현시에는 수학식 3을 이용해 처리상의 효율성을 기할 수가 있다. 이러한 차이를 처리에 고려해주기 위해서 본 발명에서는 도 7과 같이 제어부로부터 스피커/헤드폰 출력 조절 신호를 받아 그 값이 "OFF" 이면 헤드폰으로만 인식해 스피커 출력보상 과정을 거치지 않도록 처리하고, 그 값이 "ON"이면 스피커로 인식해 스피커 출력 값들에 대한 보상을 하는 처리를 한다.
본 발명에 의하면, 단일 구조로 여러 콘텐트들에 대한 처리가 가능하고 스케일 조절이 가능한 부호화기 및 복호화기를 구현할 수가 있다. ADPCM 시 실제 발생되는 양자화 에러를 처리에 사용하여 양자화기 단계의 선택 및 버퍼제어를 한다. content manipulation 이 가능하다. 즉 특정 콘텐트의 ON/OFF가 가능하며, 비선형 예측기를 이용해 오차의 전파를 줄일 수 있다.
또한 특정 콘텐트의 위치이동에 따라 음원의 위치 이동을 시켜주는 것이 가능하다. 스피커를 이용한 재생의 경우와 헤드폰을 이용한 재생 경우에 대해 서로 다른 처리들을 해줌으로써 재현 환경을 고려한 보다 적합한 처리가 가능하게 하며, 인간의 음향심리 특성을 고려해 ADPCM 기의 양자화 단계를 결정한다.
또한 재현에 사용되는 스피커의 위치를 바꾸어 줄때도 그 변화하는 위치를 알면 새로 변화된 위치의 정보를 이용해서 보다 적합한 재현이 되도록 조절하는 처리가 가능하다. 콘텐트 이동에 따라 음원의 위치 변동이 일어나더라도 처리에 인간이 가지고 있는 특정 위치들에서의 음원에 의한 전달함수를 이용해 주기 때문에 보다 현장감있는 재생이 가능하다.

Claims (11)

  1. 입력오디오 신호를 저주파대역신호와 고주파대역신호로 나누는 제1필터; 상기 제1필터에 의해 분리된 저주파대역신호를 보다 세밀한 주파수 대역으로 나누는 제2필터; 상기 제1필터에 의해 분리된 고주파대역 신호를 시간영역에서 주파수영역으로 변환하는 T/F변환부; 상기 제2필터의 출력신호를 ADPCM 방식에 의해 디지털 신호로 부호화하는 ADPCM부호화기; 상기 T/F변환부의 출력신호를 비트할당하고, 양자화하는 비트할당&양자화부; 상기 제1필터에서 분리된 저주파 및 고주파 신호를 소정의 음향심리모델에 따라 처리하여 상기 ADPCM부호화기에서 사용되는 양자화기의 단계 차이 값에 대한 정보를 제공하는 음향심리부; 상기 입력오디오 신호의 상기 제1필터, 제2필터 통과여부를 제어하고, 상기 T/F변환부의 처리 주파수 대역을 제어하며, 다중콘텐트처리 모드 또는 스케일 조절가능 모드를 나타내는 정보 및 콘텐트의 위치정보를 제공하는 제어부; 및 상기 ADPCM부호화기에서 부호화된 신호와 상기 비트할당&양자화부에서 양자화된 비트들과 상기 제어부의 콘텐트의 위치정보를 이용하여 비트스트림을 형성하는 1차비트스트림 형성부를 포함함을 특징으로 하는 오디오 부호화장치.
  2. 제1항에 있어서, 상기 1차비트스트림형성부의 이전 프레임 정보와 현재 프레임 정보의 데이터연관성을 구하는 예측부; 및 상기 예측부에서 산출된 예측부의 프레임연관성에 따라 중복되는 데이터를 줄여 비트스트림을 형성하는 비트스트림 형성부를 더 구비함을 특징으로 하는 오디오 부호화장치.
  3. 제1항 또는 제2항 중 어느 한 항에 있어서, 상기 ADPCM부호화기는 비선형 예측기를 사용함을 특징으로 하는 오디오 부호화장치.
  4. 입력 비트스트림을 해체하는 비트스트림해체부; 상기 비트스트림해체부에서 해체된 비트스트림을 역양자화하는 역양자화기; 상기 비트스트림해체부에서 해체된 비트스트림을 복호화하는 ADPCM복호화기; 상기 ADPCM복호화기에서 복호화된 저주파 대역별 신호를 합성하는 제1신호합성부; 고주파 대역 신호를 시간영역으로 변환하는 F/T변환부; 상기 제1신호합성부에서 합성된 저주파대역 신호와 상기 F/T변환부 출력신호를 합성하는 제2신호합성부; 상기 비트스트림해체부에서 해체된 신호에서 콘텐트들의 공간에서의 위치정보를 추출하여 스피커 재현인지, 헤드폰 재현인지에 따라 음원의 위치를 조절하는 공간제어처리부; 상기 비트스트림해체부에서 해체된 신호를 받아, 상기 비트스트림이 다중 콘텐트처리모드인지 스케일조절가능모드인지를 판별하고, 상기 판별된 모드가 다중 콘텐트처리모드이면 상기 F/T 변환부의 출력신호가 출력되지 않게 하며, 사용자의 스케일조절 명령에 따라 상기 공간제어처리부에서의 스케일조절을 제어하는 제어부; 및 상기 공간제어처리부 및 제2신호합성부에서 출력되는 신호를 일시 저장하여 출력하는 버퍼출력부를 포함함을 특징으로 하는 오디오 복호화장치.
  5. 제4항에 있어서, 상기 비트스트림해체부에서 해체된 비트스트림이 이전 프레임 정보를 이용한 비트스트림인지를 판별하는 예측부; 및 상기 예측부에서의 판별이 이전 프레임정보를 이용한 비트스트림이라고 판별하면 이전 프레임정보를 이용하여 비트스트림을 재구성하는 1차비트스트림 해체부를 더 구비함을 특징으로 하는 오디오 복호화장치.
  6. 제4항에 있어서, 상기 공간제어처리부는 위치정보를 갖는 영상 콘텐트의 위치 변동에 따라 영상콘텐트의 위치좌표를 새로 구해 음원의 위치 이동을 고려한 소리를 조절함을 특징으로 하는 오디오 복호화장치.
  7. 제6항에 있어서, 상기 공간제어처리부의 위치정보는 발성기관의 위치를 기준위치로 사용함을 특징으로 하는 오디오 복호화장치.
  8. 제4항에 있어서, 상기 ADPCM복호화기는 비선형예측기를 사용하는 것을 특징으로 하는 오디오 복호화장치.
  9. 제4항에 있어서, 영상 콘텐트의 확대/축소에 대한 정보를 오디오 신호의 재현에 반영시킴을 특징으로 하는 오디오 복호화장치.
  10. 입력오디오 신호를 저주파대역신호와 고주파대역신호로 나누는 주파수대역분리단계; 상기 주파수대역분리단계에서 분리된 저주파대역신호를 보다 세밀한 주파수 대역으로 나누는 저주파분리단계; 다중 콘텐트를 동시에 처리할 수 있도록 부호화할 것인지, 스케일조절이 가능하도록 부호화할 것인지 판단하는 단계; 다중콘텐트를 동시에 처리할 수 있도록 부호화할 경우, 상기 저주파분리단계에서 분리된 신호를 ADPCM 방식에 의해 디지털 신호로 부호화하는 부호화단계; 스케일조절이 가능하도록 부호화하고자 할 경우, 상기 저주파분리단계에서 분리된 신호를 ADPCM 방식에 의해 디지털 신호로 부호화하고, 상기 주파수대역분리단계에서 분리된 고주파대역 신호를 시간영역에서 주파수영역으로 변환하는 T/F변환단계; 상기 T/F변환단계에서 변환된 신호를 비트할당하고, 양자화하는 양자화단계; 상기 주파수대역분리단계에서 분리된 저주파 및 고주파 신호를 소정의 음향심리모델에 따라 처리하여 상기 부호화단계에서 사용되는 양자화기의 단계 차이 값에 대한 정보를 제공하는 음향심리단계; 및 상기 부호화된 신호와 상기 양자화된 비트들과 콘텐트의 위치정보를 이용하여 비트스트림을 형성하는 단계를 포함함을 특징으로 하는 오디오 부호화방법.
  11. 입력되는 비트스트림을 해체하는 비트스트림해체단계; 상기 비트스트림해체단계에서 해체된 비트스트림이 다중 콘텐트처리모드인지 스케일조절가능모드인지를 판별하는 단계; 상기 해체된 비트스트림을 역양자화하는 역양자화단계; 상기 비트스트림해체단계에서 해체된 비트스트림을 복호화하는 복호화단계; 상기 복호화된 저주파 대역별 신호를 합성하는 제1신호합성단계; 상기 판별된 모드가 다중 콘텐트처리모드가 아니면, 고주파 대역 신호를 시간영역으로 변환하는 F/T변환단계; 상기 신호합성단계에서 합성된 저주파대역 신호와 상기 F/T변환단계에서 변환된 신호를 합성하는 제2신호합성단계; 사용자의 스케일조절 명령에 따라 스케일을 조절하고, 상기 비트스트림해체단계에서 해체된 신호에서 콘텐트들의 공간에서의 위치정보를 추출하여 스피커 재현인지, 헤드폰 재현인지에 따라 음원의 위치를 조절하는 공간처리단계; 및 상기 제2신호합성단계에서 합성된 신호와 상기 공간처리단계에서 처리된 신호를 버퍼링하여 출력하는 단계를 포함함을 특징으로 하는 오디오 복호화방법.
KR1019970008189A 1997-03-12 1997-03-12 오디오 부호화/복호화 장치 및 방법 KR100316769B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970008189A KR100316769B1 (ko) 1997-03-12 1997-03-12 오디오 부호화/복호화 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970008189A KR100316769B1 (ko) 1997-03-12 1997-03-12 오디오 부호화/복호화 장치 및 방법

Publications (2)

Publication Number Publication Date
KR19980073078A KR19980073078A (ko) 1998-11-05
KR100316769B1 true KR100316769B1 (ko) 2002-01-15

Family

ID=37531724

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970008189A KR100316769B1 (ko) 1997-03-12 1997-03-12 오디오 부호화/복호화 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100316769B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022012677A1 (zh) * 2020-07-16 2022-01-20 华为技术有限公司 音频编解码方法和相关装置及计算机可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100592926B1 (ko) * 2004-12-08 2006-06-26 주식회사 라이브젠 이동통신 단말기용 디지털 오디오신호의 전처리 방법
US8249861B2 (en) 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0685688A (ja) * 1992-08-31 1994-03-25 Casio Comput Co Ltd 音データ符号化法及び装置
JPH0758643A (ja) * 1993-08-09 1995-03-03 Victor Co Of Japan Ltd 音声高能率符号化および復号化装置
JPH09270709A (ja) * 1996-03-29 1997-10-14 Mitsubishi Electric Corp 音声録音再生機能付き音声符復号器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0685688A (ja) * 1992-08-31 1994-03-25 Casio Comput Co Ltd 音データ符号化法及び装置
JPH0758643A (ja) * 1993-08-09 1995-03-03 Victor Co Of Japan Ltd 音声高能率符号化および復号化装置
JPH09270709A (ja) * 1996-03-29 1997-10-14 Mitsubishi Electric Corp 音声録音再生機能付き音声符復号器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022012677A1 (zh) * 2020-07-16 2022-01-20 华为技术有限公司 音频编解码方法和相关装置及计算机可读存储介质

Also Published As

Publication number Publication date
KR19980073078A (ko) 1998-11-05

Similar Documents

Publication Publication Date Title
US6016473A (en) Low bit-rate spatial coding method and system
RU2422987C2 (ru) Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
RU2394283C1 (ru) Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
KR100928311B1 (ko) 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법
KR100649299B1 (ko) 저 비트레이트 오디오 코딩 적용을 위한 효율적인스케일러블 파라미터 스테레오 코딩 방법 및 장치
KR101049143B1 (ko) 오브젝트 기반의 오디오 신호의 부호화/복호화 장치 및 방법
KR100311604B1 (ko) 다중채널로부터디지탈신호를전송또는저장하는방법
US6301555B2 (en) Adjustable psycho-acoustic parameters
JP4000261B2 (ja) ステレオ音響信号の処理方法と装置
KR100310216B1 (ko) 다중채널오디오신호를위한코딩장치또는방법
KR20080107422A (ko) 오디오 인코딩 및 디코딩
JP2010503887A (ja) オーディオオブジェクトのエンコード及びデコード
AU2021317755B2 (en) Apparatus, method and computer program for encoding an audio signal or for decoding an encoded audio scene
WO2019054559A1 (ko) Brir/rir 파라미터화(parameterization)를 적용한 오디오 인코딩 방법 및 파라미터화된 brir/rir 정보를 이용한 오디오 재생 방법 및 장치
JP4216364B2 (ja) 音声符号化/復号化方法および音声信号の成分分離方法
KR100316769B1 (ko) 오디오 부호화/복호화 장치 및 방법
KR20230153402A (ko) 다운믹스 신호들의 적응형 이득 제어를 갖는 오디오 코덱
JP2000148161A (ja) 自動音質音量制御方法と装置
US6009399A (en) Method and apparatus for encoding digital signals employing bit allocation using combinations of different threshold models to achieve desired bit rates
Kelly et al. The continuity illusion revisited: coding of multiple concurrent sound sources
CN113314130B (zh) 一种基于频谱搬移的音频对象编解码方法
KR20240004869A (ko) 3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더
JPH0869298A (ja) 再生装置
KR20070017441A (ko) 저 비트속도 공간 코딩방법 및 시스템
Richard et al. Audio Coding and 3D Sound Simulation

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081031

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee