KR101732208B1

KR101732208B1 - 오디오 녹음의 적응적 동적 범위 강화

Info

Publication number: KR101732208B1
Application number: KR1020127011806A
Authority: KR
Inventors: 마틴 왈쉬; 에드워드 스테인; 진 마크 자트
Original assignee: 디티에스, 인코포레이티드
Priority date: 2009-10-09
Filing date: 2010-10-08
Publication date: 2017-05-02
Also published as: HK1167527A1; TWI505263B; CN102668374B; EP2486654A4; TW201137862A; WO2011044521A1; KR20120093934A; HK1173274A1; EP2486654B1; PL2486654T3; JP5730881B2; CA2777182A1; US20110085677A1; BR112012008257A2; JP2013507842A; US8879750B2; CN102668374A; CA2777182C; EP2486654A1

Abstract

오디오 신호를 조절(conditioning)하는 방법 및 장치가 제공된다. 본 발명의 한 측면에 따르면, 오디오 신호를 조절하는 방법이 포함되어 있으며, 이 방법은 적어도 하나의 오디오 신호를 수신하는 단계 - 각각의 오디오 신호는 적어도 하나의 채널을 가지며, 각각의 채널은 일련의 시간에 걸쳐 복수의 프레임으로 세그먼트화됨 -, 복수의 연속적인 시간 세그먼트에 대해 오디오 신호의 적어도 하나의 동적 진폭 척도(measure of dynamic excursion)를 계산하는 단계, 오디오 신호를 복수의 서브대역으로 필터링하는 단계 - 각각의 프레임은 적어도 하나의 서브대역으로 표현됨 -, 연속적인 시간 세그먼트로부터 동적 이득 인자를 도출하는 단계, 프레임에 과도 부분이 존재하는지를 판정하기 위해 프레임의 적어도 하나의 서브대역을 분석하는 단계, 및 과도 부분을 갖는 각각의 프레임에 동적 이득을 적용하는 단계를 포함한다.

Description

오디오 녹음의 적응적 동적 범위 강화{ADAPTIVE DYNAMIC RANGE ENHANCEMENT OF AUDIO RECORDINGS}

관련 출원의 상호 참조

본 발명은 2009년 10월 9일자로 출원된, 발명의 명칭이 "ADAPTIVE DYNAMIC RANGE ENHANCEMENT OF AUDIO RECORDINGS(오디오 녹음의 적응적 동적 범위 강화)"인 미국 가특허 출원 제61/250,320호(발명자: Walsh 등), 및 2010년 9월 10일자로 출원된, 발명의 명칭이 "ADAPTIVE DYNAMIC RANGE ENHANCEMENT(적응적 동적 범위 강화)"인 미국 가특허 출원 제61/381,860호(발명자: Walsh 등)를 기초로 우선권을 주장한다. 미국 가특허 출원 제61/217,562호 및 제61/381,860호는 참조 문헌으로서 본 명세서에 포함된다.

본 발명은 일반적으로 오디오 신호 처리에 관한 것으로서, 보다 상세하게는, 그의 동적 범위를 복원하거나 강조함으로써 오디오 스트림 및 녹음을 강화시키는 것에 관한 것이다.

"큰 소리가 좋다"라는 격언에 따라, 녹음 업계에서 높은 레벨의 라우드니스(loudness)로 녹음을 마스터링하고 발매하는 것이 통례가 되었다. CD와 같은 디지털 미디어 형식의 등장으로, 음악이 인코딩된 신호를 표현하는 데 사용될 수 있는 비트의 수에 의해 정의되는 최대 피크 레벨로 인코딩되었다. CD의 최대 진폭에 도달되면, 라우드니스의 인지가 다중 대역 동적 범위 압축(multiband dynamic range compression), 피크 제한(peak limiting) 및 평활화와 같은 신호 처리 기법을 통해 훨씬 더 증가될 수 있다. 이러한 디지털 마스터링 도구를 사용하여, 사운드 엔지니어는, 과도 피크(transient peak)(드럼 치기 등)를 압축하고 얻어진 신호의 이득을 증가시킴으로써, 평균 신호 레벨을 최대화할 수 있다. 동적 범위 압축을 극도로 사용하는 것은 클리핑(clipping) 및 기타 가청 왜곡(audible distortion)을 녹음의 파형에 유입시킬 수 있다. 이러한 극도의 동적 범위 압축을 사용하는 최근의 앨범은 따라서 라우드니스를 위해 음악 재생의 품질을 희생시킨다. 경쟁하는 발매품에 대응하기 위해 음악 발매품의 라우드니스를 증가시키는 관행은 2가지 효과가 있을 수 있다. 녹음에 이용가능한 최대 라우드니스 레벨이 있기 때문에(이와 달리, 재생에서는 라우드니스가 재생 스피커 및 증폭기에 의해 제한됨), 노래 또는 트랙의 전체 라우드니스를 증가시키는 것은 궁극적으로 처음부터 끝까지 최대의 균일한 크기로 되어 있는 것을 생성한다. 이것은 작은 동적 범위(즉, 소리가 큰 섹션과 조용한 섹션 사이의 차이가 거의 없음)를 갖는 음악을 생성하고, 종종 이러한 효과는 피곤하게 만들고 음악가의 독창적인 표현이 없는 것으로 보인다.

다른 가능한 효과는 왜곡이다. 디지털 영역에서, 이것은 보통 클리핑(clipping)이라고 한다. 디지털 미디어는 디지털 전체 스케일보다 높은 신호를 출력할 수 없으며, 따라서 신호의 피크가 이 지점을 넘어갈 때마다, 파형이 클리핑되게 된다. 이것이 일어날 때, 이는 때때로 가청 클릭(audible click)을 생성할 수 있다. 그렇지만, 드럼 치기와 같은 어떤 소리는 단지 아주 짧은 시간 동안 자신의 피크에 도달할 것이고, 그 피크가 신호의 나머지보다 훨씬 더 큰 경우, 이 클릭은 들리지 않을 것이다. 많은 경우에, 트럼 치기의 피크가 클리핑되지만, 이것이 무관심한 청취자에 의해 감지되지 않는다.

도 1a 및 도 1b는 유해한 마스터링 기법의 시각적 표현을 제공한다. 도 1a 및 도 1b에 나타낸 오디오 녹음 파형은 원래의 마스터링된 트랙 및 이와 동일한 트랙을 상이한 기법을 사용하여 마스터링한 버전을 나타낸다. 도 1a는 원본 녹음을 나타낸 것으로서, 수많은 피크의 존재는 원본 연주에 존재하는 여러 종류의 동적 특성을 나타내는 높은 동적 범위를 나타낸다. 이 녹음은 진동하는 청취 경험을 제공하는데, 그 이유는 드럼 치기와 같은 특정의 타성음이 박력있고 뚜렷하게 들릴 것이기 때문이다. 이와 달리, 도 1b에 나타낸 녹음은 보다 큰 음량의 상용 CD 발매품용으로 재마스터링되어 있다. 원본 녹음에 존재하는 대부분의 피크는 압축되거나 심지어 클리핑되고, 그 결과 녹음의 동적 범위가 열화되었다. 상용 음악의 마스터링 단계에서 이와 같이 점점 더 공격적으로 동적 범위 압축을 사용하는 것은 소비자, 제작자 및 음악가로부터 많은 반발을 불러왔다.

이 문제를 해결하기 위해 오디오 업계에서 논의된 접근 방법은 문제의 근원지인 마스터링 기법을 조사하는 것에 중점을 두고 있다. 한가지 이러한 일례가 Bob Katz의 Mastering Audio , Second Edition : The Art and the Science 에 기술되어 있다. Katz는, 처리 신호의 보정된 모니터링을 사용하고 보다 적절한 압축 파라미터를 사용하여, 최종 결과물을 왜곡시키는 일 없이 라우드니스를 위해 녹음이 어떻게 마스터링될 수 있는지를 기술하고 있다. 대부분의 마스터링 엔지니어는 Katz의 접근 방법이 종종 스튜디오 관리의 요구에 의해 쓸모없게 된다는 것에 의견을 같이 하고 있다. 보다 보수적인 마스터링 기법이 새로운 기준으로 되더라도, 이는 이미 마스터링되어 최종 사용자에게 배포된 다수의 기존의 녹음에 대한 문제를 해결하지 못한다.

오디오 녹음의 동적 특성을 수정하는 기존의 처리 기법은 공지되어 있다. 한가지 이러한 프로세스는 다양한 정도의 동적 범위 압축을 거친 오디오 자료의 인지된 라우드니스 사이의 차이가 어떤 소정의 레벨로 정규화되는 라우드니스 레벨링(loudness leveling)이다. 그렇지만, 이들 접근 방법은 다양한 소스로부터 재생되는 연속적인 트랙의 평균 라우드니스를 정규화하는 데 사용되고, 지나치게 동적 범위 압축된 콘텐츠의 동적 범위를 복원하려는 어떤 시도도 하지 않는다. 그 결과, 압축된 미디어는 보다 낮은 소정의 청취 레벨로 재생될 때 훨씬 더 역동적 표현이 없는 것처럼 들릴 수 있다.

다른 공지된 기법은, 발명의 명칭이 Dynamic Expander(동적 팽창기)인 미국 특허 제3,978,423호(Bench에 특허 등록됨)에 기술된 바와 같은 상향 팽창기(upward expander)를 적용하는 것이다. 상향 팽창기는 고정된 "팽창 곡선"에 따라 오디오 신호에 시변 이득을 적용하고, 그로써 출력 신호 레벨이 선택된 임계값을 넘어서 입력 레벨보다 더 크다. 그 결과, 소스 신호의 소리가 큰 부분의 진폭이 증가된다. 그렇지만, 이 결과, 원래 동적인 사운드트랙이 출력 신호에서 과도하게 강조된 과도 부분(overemphasized transient)을 가질 수 있다.

다른 공지된 기법은 과도 부분이 검출될 때 하위 및 상위 주파수 대역이 부스트(boost)되는 동적 스펙트럼 평활화(dynamic spectral equalization)이다. 그 결과, 보다 동적인 출력이 얻어진다. 동적 스펙트럼 평활화는 XRodet, F Jaillet의 Detection and Modeling of Fast Attack Transients (2001), Proceedings of the International Computer Music Conference, 발명의 명칭이 Transient Detection and Modification in Audio Signals(오디오 신호에서의 과도 부분 검출 및 수정)인 미국 특허 제7,353,169호(Goodwin에 특허 등록됨) 및 발명의 명칭이 Method for Enhancing Audio Signals(오디오 신호 강화 방법)인 미국 특허 출원 제11/744,465호(Avendano 등에 특허 등록됨)에 기술되어 있다. 이전의 접근 방법과 달리, 이들 동적 강화 기법은 신호 과도 부분에만 영향을 준다. 그렇지만, 이는 모든 신호 과도 부분, 심지어 이미 높은 동적 특성을 나타내는 부분에도 영향을 준다. 동적 스펙트럼 평활화는 일반적으로, 필요하든 그렇지 않든 간에, 모든 오디오 신호 콘텐츠에 처리를 적용한다. 이 결과, 어떤 유형의 오디오 콘텐츠에 대해 과도하게 동적 처리된 출력이 얻어질 수 있다.

미국 특허 제6,453,282호(Hilpert 등에 특허 등록됨)는 이산 시간 오디오 영역에서의 과도 부분 검출 방법을 개략적으로 기술하고 있다. 이러한 시간 영역 방법은 과도하게 동적 범위 압축된 자료를 분석할 때 신뢰성이 떨어지는데, 그 이유는 과도 부분으로 인한 에너지의 변화가 신호를 전체로서 볼 때 덜 명백하게 되기 때문이다. 이것으로 인해 과도 신호의 오분류가 발생하고 그 결과 거짓 양성(false positive)이 일어난다.

오디오 녹음의 렌더링을 향상시키는 것에 대한 관심이 점점 증가하는 것을 고려하여, 기술 분야에서 향상된 오디오 처리가 필요하다.

본 발명에 따르면, 오디오 신호를 조절(conditioning)하는 방법 및 장치가 제공된다. 본 발명은 오디오 신호, 특히 유해한 마스터링 기법을 거친 오디오 신호의 동적 범위에 대한 매력적인 강화를 제공한다.

본 발명의 한 측면에 따르면, 오디오 신호를 조절하는 방법이 포함되어 있으며, 이 방법은 적어도 하나의 오디오 신호를 수신하는 단계 - 각각의 오디오 신호는 적어도 하나의 채널을 가지며, 각각의 채널은 일련의 시간에 걸쳐 복수의 프레임으로 세그먼트화됨 -, 복수의 연속적인 시간 세그먼트에 대해 오디오 신호의 적어도 하나의 동적 진폭 척도(measure of dynamic excursion)를 계산하는 단계, 오디오 신호를 복수의 서브대역으로 필터링하는 단계 - 각각의 프레임은 적어도 하나의 서브대역으로 표현됨 -, 연속적인 시간 세그먼트로부터 동적 이득 인자(dynamic gain factor)를 도출하는 단계, 프레임에 과도 부분이 존재하는지를 판정하기 위해 프레임의 적어도 하나의 서브대역을 분석하는 단계, 및 과도 부분을 갖는 각각의 프레임에 동적 이득을 적용하는 단계를 포함한다.

동적 진폭 척도는 시간 세그먼트에 대한 파고 인자(crest factor)로 표현될 수 있다. 각각의 연속적인 시간 세그먼트에 대한 파고 인자는 프레임 내에서의 오디오 신호의 평균 신호 크기의 함수에 대한 피크 신호 크기의 함수의 비를 구함으로써 계산될 수 있다. 이 방법은 적어도 하나의 서브대역에 대한 서브대역 상대 에너지 함수(subband relative energy function)를 계산하는 단계를 추가로 포함할 수 있다.

프레임의 각각의 서브대역 또는 그 프레임의 일부분에서의 서브대역 과도 에너지를 상대 에너지 임계값과 비교하고, 그 상대 에너지 임계값을 초과하는 서브대역의 수를 합산함으로써 각각의 프레임에 대해 전체 서브대역 과도 에너지가 계산될 수 있다. 상대 에너지 임계값을 초과하는 서브대역의 수가 그 프레임에 대해 분석 중인 총 서브대역의 소정의 비율보다 큰 경우, 과도 부분이 프레임에 존재할 수 있다. 예를 들어, 상대 에너지 임계값을 초과하는 서브대역의 수가 그 프레임에 대해 분석 중인 총 서브대역의 1/4보다 큰 경우, 과도 부분이 프레임에 존재할 수 있다.

이 방법은 계속하여 분석 중인 서브대역의 총수에 대한 임계값을 초과하는 서브대역의 수에 기초하여 동적 이득 가중 인자를 계산한다. 동적 이득 인자가 가중 인자에 따라 각각의 프레임에 대해 가중된다. 프레임에 대해 과도 부분이 검출되지 않는 경우, 프레임에 대한 이전의 동적 이득이 지수 감쇠 곡선(exponential decay curve)을 사용하여 1의 값으로 감소될 수 있다. 최종 동적 이득을 입력 신호에 적용하기 전에, 입력 신호에 존재하는 강한 음색의 가청 변조를 피하기 위해 음색과 같은 오디오가 있는지 검사가 행해질 수 있다. 서브대역 내에서 강한 음색이 검출되는 경우, 그 프레임에 대한 그 서브대역에 부가의 이득이 적용되지 않고, 그 서브대역에 대한 동적 이득이 이전의 프레임의 동적 이득값에 기초하여 계속하여 감쇠된다.

본 발명의 다른 측면에 따르면, 오디오 신호 처리 장치가 제공된다. 오디오 신호 처리 장치는 적어도 하나의 오디오 신호를 수신하는 수신 구성요소 - 각각의 오디오 신호는 적어도 하나의 채널을 가지며, 각각의 채널은 일련의 시간에 걸쳐 복수의 프레임으로 세그먼트화됨 -, 복수의 연속적인 시간 세그먼트에 대해 오디오 신호의 적어도 하나의 동적 진폭 척도를 계산하는 계산 구성요소, 오디오 신호를 복수의 서브대역으로 필터링하는 필터링 구성요소 - 각각의 프레임은 적어도 하나의 서브대역으로 표현됨 -, 동적 진폭 척도로부터 동적 이득을 도출하고, 프레임에 과도 부분이 존재하는지를 판정하기 위해 프레임의 적어도 하나의 서브대역을 분석하며, 과도 부분을 갖는 각각의 프레임에 동적 이득을 적용하는 도출 구성요소를 포함한다.

오디오 녹음의 적응적 동적 범위가 강화된다.

본 명세서에 개시된 다양한 실시예의 이들 및 기타 특징 및 이점이 이하의 설명 및 도면(도면 전체에 걸쳐 유사한 번호가 유사한 부분을 가리키고 있음)과 관련하여 더 잘 이해될 것이다.
도 1a는 원본 오디오 녹음의 파형의 사시도.
도 1b는 동적 범위가 과도하게 압축되어 있는 재마스터링된 오디오 녹음의 파형의 사시도.
도 2는 본 발명의 일 실시예에 따른, 다채널 스피커 또는 헤드폰을 통한 재생에 대한 적응적 동적 강화(adaptive dynamic enhancement)를 이용하는 청취 환경의 개략도.
도 3은 본 발명의 일 실시예에 따른, 적응적 동적 강화 처리기 이전의 선택적인 라우드니스 레벨링 처리 블록을 나타낸 플로우차트.
도 4는 본 발명의 일 실시예에 따른, 과도 부분을 검출하고 그에 따라 이득을 적용하기 위해 적응적 동적 강화 처리 동안 취해지는 단계들을 나타낸 플로우차트.
도 5는 본 발명의 일 실시예에 따른, 과도 부분을 검출하고 과도 부분을 기지의 임계값과 대조하여 평가하고 그에 따라 적응적 EQ 곡선을 적용하기 위해 적응적 동적 강화 처리 동안 취해지는 단계들을 나타낸 플로우차트.

첨부 도면들과 관련하여 이하에 기술되는 상세한 설명은 본 발명의 현재 바람직한 실시예의 설명을 위한 것이며, 본 발명이 구성되거나 이용될 수 있는 유일한 형태를 나타내기 위한 것이 아니다. 이 설명은 예시된 실시예와 관련하여 본 발명을 개발하고 동작시키는 단계들의 기능 및 순서를 기술한다. 그렇지만, 동일하거나 등가의 기능 및 순서가 역시 본 발명의 사상 및 범위 내에 포함되는 것으로 보아야 하는 상이한 실시예에 의해 달성될 수 있다는 것을 잘 알 것이다. 또한, 제1 및 제2 등과 같은 관계적 용어의 사용이, 이러한 엔터티 사이의 임의의 실제의 이러한 관계 또는 순서를 꼭 필요로 하거나 암시하지 않고, 단지 한 엔터티를 다른 엔터티와 구별하기 위해 사용된다는 것을 잘 알 것이다.

본 발명의 목적은 오디오 녹음이 동적 범위 압축 알고리즘의 공격적인 적용을 사용하여 가능한 한 큰 소리로 마스터링되는 유해한 녹음 기법을 해결하는 것이다. 그 녹음 신호에서의 과도 부분의 동적 진폭이 그래야 하는 것보다 훨씬 더 낮다. 이것은 적당한 레벨에서 청취할 때 약해진(muted), 지루한 또는 생기없는 재생의 인지를 가져온다.

본 발명은 오디오 녹음의 동적 특성(dynamics)을 분석하고, 유해한 마스터링 관례의 증거를 보여주는 과도 부분을 강화한다. 본 발명이 소스 오디오 녹음 신호의 라우드니스 및 동적 특성의 분석에 기반한 스마트/적응적 처리를 사용하여 설계된다. 원본 오디오 녹음 신호의 동적 특성을 수정하는 것은, 필요하지 않는 한, 회피된다. 그렇지만, 임의의 녹음의 동적 특성이 훨씬 더 날카롭거나 "더 박력있는" 사운드를 위해 과장되거나 더 미묘한 강화를 위해 감소될 수 있도록, 가법적 동적 특성 처리의 기본 양이 또한 사용자에 의해 조정될 수 있다. 본 발명은 임의의 미디어 소스로부터 및 임의의 청취 환경에서 도출된 임의의 음악, 영화 또는 게임 사운드트랙에서의 과도적인 동적 특성을 향상시키기 위해 사용될 수 있을 것이다.

이제 도 2를 참조하면, 다수의 실시예의 구현을 나타낸 개략도가 제공된다. 도 2는 동적으로 향상된 오디오 녹음을 스피커 또는 헤드폰을 통해 재생하는 오디오 청취 환경을 나타낸 것이다. 오디오 청취 환경은 DVD 또는 BD 플레이어, TV 튜너, CD 플레이어, 핸드헬드 플레이어, 인터넷 오디오/비디오 장치, 게임 콘솔 등과 같은 적어도 하나의 가전 제품 장치(10)를 포함한다. 가전 제품 장치(10)는 임의의 유해한 마스터링 기법을 보상하기 위해 동적으로 강화되는 소스 오디오 녹음을 제공한다.

본 실시예에서, 가전 제품 장치(10)는 오디오 재생 시스템(12)에 연결되어 있다. 오디오 재생 시스템(12)은 오디오 녹음을 동적으로 강화하는 적응적 동적 강화(ADE) 처리를 통해 오디오 녹음을 처리한다. 대안의 실시예에서, 독립형 가전 제품 장치(10)는 ADE 처리를 통해 오디오 녹음을 강화할 수 있다.

오디오 재생 시스템 유닛(12)은 IBM PowerPC, Intel Pentium(x86) 프로세서 등과 같은 하나 이상의 종래의 유형의 이러한 프로세서를 나타낼 수 있는 CPU(Central Processing Unit)를 포함한다. RAM(Random Access Memory)는 CPU에 의해 수행되는 데이터 처리 동작의 결과를 일시적으로 저장하고, 통상적으로 전용 메모리 채널을 통해 CPU에 상호연결되어 있다. 오디오 재생 시스템(12)은 또한 하드 드라이브와 같은 영구 저장 장치 - 역시 I/O 버스를 통해 CPU와 통신하고 있음 - 를 포함할 수 있다. 테이프 드라이브, 광 디스크 드라이브와 같은 다른 유형의 저장 장치가 또한 연결되어 있을 수 있다. 그래픽 카드가 또한 비디오 버스를 통해 CPU에 연결되어 있고, 디스플레이 데이터를 나타내는 신호를 디스플레이 모니터로 전송한다. 키보드 또는 마우스와 같은 외장형 주변 데이터 입력 장치가 USB 포트를 통해 오디오 재생 시스템에 연결될 수 있다. USB 제어기는 USB 포트에 연결된 외장형 주변 장치를 위해 CPU로의/로부터의 데이터 및 명령어를 변환한다. 프린터, 마이크, 스피커 등과 같은 부가의 장치가 오디오 재생 시스템(12)에 연결될 수 있다.

오디오 재생 시스템(12)은 그래픽 사용자 인터페이스(GUI)를 갖는 운영 체제 - 미국 워싱턴주 레드몬드 소재의 Microsoft Corporation의 WINDOWS, 미국 캘리포니아주 쿠퍼티노 소재의 Apple, Inc.의 MAC OS, X-Windows 윈도잉 시스템을 갖는 다양한 버전의 UNIX, 기타 등등 - 를 이용할 수 있다. 오디오 재생 시스템(12)은 하나 이상의 컴퓨터 프로그램을 실행한다. 일반적으로, 운영 체제 및 컴퓨터 프로그램은 컴퓨터 판독가능 매체 - 예컨대, 하드 드라이브를 비롯한 고정식 및/또는 이동식 데이터 저장 장치들 중 하나 이상의 데이터 저장 장치 - 에 유형적으로 구현된다. 운영 체제 및 컴퓨터 프로그램 둘다는 CPU에서 실행하기 위해 상기한 데이터 저장 장치로부터 RAM에 로드될 수 있다. 컴퓨터 프로그램은, CPU에 의해 판독되어 실행될 때, CPU로 하여금 본 발명의 단계들 또는 특징들을 실행하는 단계들을 수행하게 하는 명령어를 포함할 수 있다.

상기 오디오 재생 시스템(12)은 본 발명의 측면들을 구현하는 데 적당한 단지 하나의 예시적인 장치를 나타낸다. 오디오 재생 시스템(12)은 많은 상이한 구성 및 아키텍처를 가질 수 있다. 본 발명의 범위를 벗어나지 않고 임의의 이러한 구성 또는 아키텍처가 용이하게 대용될 수 있다. 당업자라면 상기한 시퀀스가 컴퓨터 판독가능 매체에서 가장 흔하게 이용되지만, 본 발명의 범위를 벗어나지 않고 대용될 수 있는 다른 기존의 시퀀스가 있다는 것을 잘 알 것이다.

ADE 처리의 일 실시예의 구성요소가 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 하드웨어로서 구현될 때, ADE 처리가 하나의 오디오 신호 처리기에서 이용될 수 있거나, 다양한 처리 구성요소 간에 분산되어 있을 수 있다. 소프트웨어로 구현될 때, 본 발명의 실시예의 구성요소는 본질적으로 필요한 작업을 수행하는 코드 세그먼트이다. 소프트웨어는 바람직하게는 본 발명의 일 실시예에 기술된 동작을 수행하는 실제 코드, 또는 동작을 에뮬레이트 또는 시뮬레이트하는 코드를 포함한다. 프로그램 또는 코드 세그먼트는 프로세서 또는 기계 액세스가능 매체에 저장될 수 있거나, 반송파에 구현되어 있는 컴퓨터 데이터 신호 또는 반송파에 의해 변조된 신호에 의해 전송 매체를 통해 전송될 수 있다. "프로세서 판독가능 또는 액세스가능 매체" 또는 "기계 판독가능 또는 액세스가능 매체"는 정보를 저장, 전송 또는 전달할 수 있는 임의의 매체를 포함할 수 있다. 프로세서 판독가능 매체의 일례는 전자 회로, 반도체 메모리 장치, ROM(read only memory), 플래시 메모리, EROM(erasable ROM), 플로피 디스켓, CD(compact disk) ROM, 광 디스크, 하드 디스크, 광섬유 매체, RF(radio frequency) 링크 등을 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널, 광 섬유, 공기, 전자기, RF 링크 등과 같은 전송 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수 있다. 코드 세그먼트는 인터넷, 인트라넷 등과 같은 컴퓨터 네트워크를 통해 다운로드될 수 있다. 기계 액세스가능 매체는 제조 물품으로 구현될 수 있다. 기계 액세스가능 매체는, 기계에 의해 액세스될 때, 기계로 하여금 이하에서 기술되는 동작을 수행하게 하는 데이터를 포함할 수 있다. "데이터"라는 용어는 여기서 기계 판독가능하도록 인코딩되는 임의의 유형의 정보를 말한다. 따라서, 이는 프로그램, 코드, 데이터, 파일 등을 포함할 수 있다.

본 발명의 실시예의 전부 또는 일부가 소프트웨어로 구현될 수 있다. 소프트웨어는 서로 결합되어 있는 몇개의 모듈을 가질 수 있다. 소프트웨어 모듈은 변수, 파라미터, 인수, 포인터 등을 수신하기 위해 및/또는 결과, 업데이트된 변수, 포인터 등을 발생하거나 전달하기 위해 다른 모듈에 결합되어 있다. 소프트웨어 모듈은 또한 플랫폼 상에서 실행되는 운영 체제와 상호작용하는 소프트웨어 드라이버 또는 인터페이스일 수 있다. 소프트웨어 모듈은 또한 데이터를 구성, 설정, 초기화하여, 하드웨어 장치로/로부터 전송 및 수신하는 하드웨어 드라이버일 수 있다.

본 발명의 일 실시예는 보통 플로우차트, 흐름도, 구조도, 또는 블록도로 나타내어지는 프로세스로서 기술될 수 있다. 블록도가 동작을 순차적 프로세스로서 기술할 수 있지만, 많은 동작들이 병렬로 또는 동시에 수행될 수 있다. 그에 부가하여, 동작들의 순서가 다시 배열될 수 있다. 프로세스의 동작들이 완료될 때 프로세스가 종료된다. 프로세스는 방법, 프로세스, 절차 등에 대응할 수 있다. 도 2는 헤드폰(14) 또는 스피커(16)를 통해 재생하는 오디오 재생 시스템(12)을 나타낸 개략도이다. 오디오 재생 시스템(12)은 다양한 오디오 또는 오디오/비디오 소스(10)로부터 디지털 또는 아날로그 오디오 소스 신호를 수신할 수 있다. 오디오 소스 신호는 모노 신호, 2채널 신호(음악 트랙 또는 TV 방송 등), 또는 다채널 신호(영화 사운드트랙 등)일 수 있다. 오디오 신호는 실세계 소리 또는 제작된 소리 등과 같은 임의의 인지된 또는 비인지된 소리일 수 있다.

오디오 재생 시스템(12)은 아날로그 오디오 소스 또는 디지털 오디오 입력 인터페이스를 연결시키는 아날로그-디지털 변환기를 포함할 수 있다. 오디오 재생 시스템(12)은 오디오 신호를 처리하는 디지털 신호 처리기는 물론, 처리된 출력 신호를 트랜스듀서[헤드폰(14) 또는 스피커(16)]로 전송되는 전기 신호로 변환하는 디지털-아날로그 변환기 및 신호 증폭기를 포함할 수 있다. 오디오 재생 시스템(12)은 오디오 및/또는 비디오 신호의 선택, 처리 및 라우팅에 전용되어 있는 홈 씨어터 수신기 또는 자동차 오디오 시스템일 수 있다. 다른 대안으로서, 오디오 재생 시스템(12) 및 오디오 신호 소스들 중 하나 또는 몇개가 가전 제품 장치(10) - 휴대용 미디어 플레이어, TV 세트 또는 랩톱 컴퓨터 등 - 에 함께 포함되어 있을 수 있다. 스피커(16)가 또한, TV 세트 또는 랩톱 컴퓨터의 경우에서와 같이, 동일한 가전 기기에 포함되어 있을 수 있다.

도 3은 ADE 처리 환경을 나타낸 상위 레벨 플로우차트이다. 플로우차트는 단게(300)에서 입력 신호를 수신하는 것으로 시작한다. 입력 신호는 디지털 오디오 신호이다. 본 실시예에서, 단계(310)에서, 입력 신호가 라우드니스 레벨링 알고리즘에 의해 처리되고, 그로써 들어오는 입력 신호가 실질적으로 일정한 평균 라우드니스 레벨(예컨대, 0dB 전체 스케일에 대해 -20dB)을 가지도록 들어오는 입력 신호의 이득이 시간에 따라 조정된다. 라우드니스 레벨 알고리즘은 선택적인 특징이며, ADE 처리를 구현하는 데 필수적인 것은 아니다. 그 후에, 320에서, 업스트림 이득 정규화 알고리즘이 있는 경우, ADE 처리는, 신호 파형 클리핑으로부터 발생할 수 있는 가청 아티팩트를 야기하는 일 없이, 기준 이득 레벨을 들어오는 신호의 이득을 확장하는 데 필요한 이용가능한 헤드룸 내에 들어가게 할 수 있다. 이 통신은 점선 화살표로 나타내어져 있다. ADE 헤드룸 요구사항은 또한 입력 마스터 이득 및 입력 신호 콘텐츠의 이득을 포함할 수 있다. 적용되는 동적 특성 강화의 양이 DYNAMICS ENHANCEMENT LEVEL(동적 특성 강화 레벨)로 나타내는 사용자 파라미터를 사용하여 스케일링될 수 있다. 요구된 동적 EQ를 입력 신호에 적용한 결과로서 출력 포화가 일어나지 않도록 하기 위해 출력 리미터(output limiter)가 사용된다.

이제 도 4를 참조하면, ADE 처리의 일 실시예를 나타낸 플로우차트가 도시되어 있다. ADE 처리는 단계(400)에서 오디오 녹음을 나타내는 입력 신호를 수신하는 것으로 시작된다. 입력 신호는 적어도 하나의 채널의 디지털 오디오 신호이다. 입력 신호는, 전자 신호로 변환되고 아날로그/디지털 변환에 의해 디지털 형식으로 변환되며 적당히 전처리된 유형적인 물리 현상(특히 사운드)을 나타낸다. 통상적으로, 기술 분야에 공지된 바와 같이, 앨리어싱, 포화 또는 다운스트림에서의 기타 신호 처리 오류를 최소화하기 위해 아날로그 필터링, 디지털 필터링 및 기타 전처리가 적용될 것이다. 오디오 신호는 PCM 코딩과 같은 종래의 선형 방법에 의해 표현될 수 있다. 단계(410)에서, 입력 신호가 다중-탭, 다중-대역, 분석 필터 뱅크 - 적합하게는 상보적인 직교 미러 필터의 뱅크일 수 있음 - 에 의해 필터링된다. 다른 대안으로서, 다상 필터 뱅크(polyphase filter bank)와 같은 PQMF(pseudo quadrature mirror filter)가 사용될 수 있을 것이다. 필터 뱅크는 복수의 서브대역 신호 출력을 생성한다. 본 실시예에서, 64개의 이러한 서브대역 출력이 이용된다. 그렇지만, 당업자라면 입력 신호가 임의의 수의 서브대역으로 필터링될 수 있다는 것을 잘 알 것이다. 필터링 함수의 일부로서, 필터 뱅크는 바람직하게는 또한 각각의 서브대역에서의 서브대역 신호를 임계적으로 데시메이션(critically decimate)해야만 한다 - 구체적으로는 각각의 서브대역 신호를, 단지 각각의 서브대역에서의 신호를 완전히 표현하는 데 충분할 정도로만 보다 적은 수의 샘플/초로 데시메이션해야만 한다("임계 샘플링") -. 이 서브대역 샘플링은 또한 사람의 청각의 생리 기능을 모방할 수 있다.

필터링 후에, 단계(420)에서 과도 부분 검출을 위해 서브대역이 분석된다. 과도 부분이 있는지 모든 서브대역을 분석하지는 않는 것이 생각되고 있는데, 그 이유는 특정의 주파수가 과도 부분을 가질 가능성이 보다 낮다는 것이 알려져 있을 수 있기 때문이다. 본 실시예에서, 주파수 대역에 걸쳐 에너지의 가중합을 계산하는 과도 부분 검출 알고리즘을 사용하여 과도 부분이 검출된다. 신호의 에너지가 보통 저주파수를 좌우하기 때문에, 과도 부분이 보다 두드러진 경우 신호의 에너지를 강조하기 위해 부가의 가중이 사용된다. 이것은 과도 부분의 식별 동안 "거짓 양성"의 가능성을 감소시키고,

TE_HF(m,c)는 순간 고주파 가중된 과도 에너지(instantaneous, high-frequency weighted, transient energy)이고, k는 주파수 대역 인덱스이며, m은 분석 프레임 인덱스이고, c는 채널 인덱스를 나타내며, w(k)는 제k 주파수 가중 필터 계수에 대응하고,

는 제c 채널의 제m 분석 프레임의 제k 대역의 절대 이득을 나타낸다. 당업자라면 다양한 과도 부분 검출 알고리즘이 본 발명에 따라 적용될 수 있고 상기 일례가 일례로서 제공되어 있으며 본 발명의 범위를 제한하는 것으로 해석되어서는 안된다는 것을 잘 알 것이다.

순간 과도 에너지 함수가 이전의 과도 에너지의 시간 평균과 비교된다. 이 비교는 순간 과도 에너지가 평균 과도 에너지보다 훨씬 더 클 것인 유망한 과도 이벤트를 나타낼 것이다. 평균 과도 에너지 TE_av는 각각의 주파수 대역에서 누설 적분기 필터(leaky integrator filter)를 적용함으로써 계산될 수 있고,

여기서

는 과도 에너지 감쇠 인자에 대응하고, m은 프레임 인덱스를 나타내며, c는 채널 인덱스를 나타낸다.

인 경우, 과도 부분 개시(transient onset)가 트리거되고, 여기서 G_TRANS는 어떤 소정의 과도 임계값에 대응한다. 통상적으로, 2 내지 3의 G_TRANS의 값은 양호한 결과를 산출하지만, 임계값이 또한 소스 자료에 따라 변할 수 있다. 그 후에, 단계(440)에서, 다중 대역 파고 인자값(multiband crest factor value) CF(k,m,c)이 64개 분석 대역 각각 내에서 이전의 신호 레벨의 시간 평균에 대한 피크 신호 레벨의 비를 구함으로써 계산된다.

피크 신호 레벨 및 평균 신호 레벨 둘다가 상이한 어택 및 릴리스 시상수(attack and release time constant)를 갖는 누설 적분기를 사용하여 도출된다. 평균 신호 레벨을 계산하는 대안의 방법은 시스템 메모리에 저장된 과거의 주파수 서브대역의 몇개의 "프레임"에 걸쳐 평균하는 것을 포함한다. 이 실시예에서, 피크 및 평균 이득 계산은 누설 적분기 필터를 사용한다.

(

인 경우)

(

인 경우)

도출된 파고 인자는 이득의 비에 기초하고 있다. 그 결과, 도출된 파고 인자는 입력 신호의 레벨에 독립적이다. 따라서, 시스템의 마스터 이득 또는 원본 녹음의 녹음 레벨에 상관없이 결과가 동일하다. 수학식 3을 보면, 타악기 치기와 같은 뚜렷한 과도 부분이 보다 안정된 상태 또는 음색과 같은 신호보다 더 높은 파고 인자 값을 가질 것이다. 신호가 정반대의 파고 인자 값을 나타내는 과도 부분 개시를 포함하는 경우, 이것은 동적 범위 압축을 사후 녹음하거나 그 주파수 대역에서 리미팅(limiting)한 것의 강력한 표시자이다. 이 경우에, 원본 신호가 예상된 파고 인자 값을 산출하기 위해 단시간 이득 증폭으로부터 이득을 볼 수 있을 가능성이 있으며, 이 경우 단시간이란 검출된 과도 부분의 개시 및 감쇠 시간 정도의 개시 및 감쇠 시간을 말한다.

그 결과, ADE 처리는 과도 부분 개시가 검출될 때마다 파고 인자를 평가한다. 단계(460)에서, 파고 인자가 평가되고, 파고 인자가 목표 파고 인자 임계값(알고리즘 조정 및/또는 사용자 기본 설정의 결합을 통해 결정됨)보다 낮은 경우, 원하는 파고 인자 값에 도달하도록 그 서브대역에서의 이득이 증가된다. 이 이득은 소정의 또는 동적으로 평가된 헤드룸 버짓(headroom budget) 내에서 유지되도록 제한될 수 있고,

(

이고

인 경우)

이다.

여기서 G_eq(k,m,c)는 적용된 이득 함수를 나타내고, G_{eq_max}는 최대 허용 이득(보통 할당된 알고리즘 헤드룸에 대응함)을 나타내며,

는, 빠른 이득 변화로 인한 아티팩트가 발견되는 경우, 1에 가까운 어떤 값으로 조정될 수 있는 이득 어택 감쇠 함수(gain attack damping function)이다. 이 감쇠 함수의 값은 이득 램핑(gain ramping)이 상이한 주파수 범위에 대해 상이한 레이트로 일어날 수 있게 해주기 위해 주파수 의존적일 수 있다. CF_Target는 목표 파고 인자 값을 나타내고, CF(k,m,c)는 주파수 k 및 프레임 m 및 채널 c에서 측정된 파고 인자를 나타낸다.

과도 부분 개시가 검출되지 않는 경우 또는 파고 인자가 목표 파고 인자 값보다 크거나 같은 경우, 적용된 동적 EQ 이득이 전형적인 과도 부분 히트(transient hit)의 동적 특성을 모방하는 엔벨로프를 사용하여 1의 값 쪽으로 다시 떨어진다. 고주파수 이득이 저주파수 이득보다 더 빨리 감소되도록 이득 감소의 레이트가 가중되고,

이다.

여기서

는 주파수 의존적인 감쇠 계수를 나타낸다. 본 실시예에서,

는 1과 0의 경계를 갖는 상부 값부터 하부 값까지의 주파수에 걸쳐 지수적으로 램핑하는 64-점 함수로 표현된다.

단계(480)에서, 'DEL'(Dynamics Enhancement Level)로 표현되는 사용자 파라미터는 0.0 내지 1.0의 값만큼 목표 파고 인자를 스케일링한다. 0.0의 DEL 값은 파고 인자 임계값이 항상 달성될 것이고 따라서 원본 신호에 대해 강화가 행해지지 않을 것임을 암시한다. 0.5의 DEL 값은 기본 분석 임계값(default analysis threshold)을 나타내고, '적당한' 파고 인자 기대값(crest factor expectation)을 나타낸다. 이 값을 사용하여, 압축된 신호가 강화되는 반면, 충분한 동적 특성을 갖는 신호는 동적 특성 강화(dynamics enhancement)를 거의 또는 전혀 받지 않는다. 1.0의 DEL 값은 '적당한' 것보다 큰 파고 인자 기대값을 나타내며, 따라서 대부분의 과도 부분의 동적 특성이 필요하든 그렇지 않은 간에 강화될 것이다.

서브대역 입력 신호 성분을 강화 이득으로부터 도출되는 시변 EQ 곡선과 곱함으로써 출력이 도출된다. 이들 이득은 아티팩트를 피하기 위해 주파수에 걸쳐 평활화된다. EQ 곡선이 원래의 복소 입력 신호 데이터에 적용되고, 얻어진 복소 대역 계수가 이어서 재결합되고 64-대역 합성 뱅크 또는 등가의 주파수-시간 영역 필터를 사용하여 시간 영역 출력 샘플 블록으로 변환된다. 마지막으로, 이용가능한 헤드룸을 넘어선 신호 레벨 증가에 의해 야기되었을 수 있는 임의의 우발적인 레벨 오버슈트를 제거하기 위해 합성 필터 대역의 시간 영역 출력이 소프트 리미터(또는 등가물)를 통과한다.

각각의 분석 프레임에 대해 이 입력/출력 프로세스가 반복된다. EQ 곡선의 이득이 각각의 프레임의 분석에 따라 동적으로 변한다. 상기한 실시예에서, 도출된 이득 곡선이 주파수 영역에서의 곱셈 및 그에 뒤이은 출력 합성 - 입력 합성 블록에 상보적임 - 에 의해 원본 신호에 적용되었다. 다른 실시예에서, 분석 및 합성 방법이 상이할 수 있다. 예를 들어, 분석이 상기한 바와 같이 주파수 영역에서 일어날 수 있을 것이고, 원하는 이득 곡선이 계산된 경우, 그 원하는 주파수 응답을 나타내는 필터가 FIR 및/또는 IIR 필터를 사용하여 시간 영역에서 구현될 수 있을 것이다. 시간 영역 필터의 계수는 각각의 입력 데이터 프레임의 분석에 따라 변할 것이다. 다른 대안으로서, 파고 인자의 분석 및 과도 부분 개시 검출이 또한 전체적으로 시간 영역에서 행해질 수 있을 것이다.

앞서 기술한 분석 및 합성이 균일한 간격으로 있는 주파수 대역을 사용한다. 사람의 청각의 음향 심리학에 더 잘 부합하는 로그 간격으로 있는 대역에 걸쳐 분석을 수행하는 것이 바람직하다.

이제 도 5를 참조하면, ADE 처리의 바람직한 실시예를 나타낸 플로우차트가 제시되어 있다. 플로우차트는, 단계(500)에서, 64-대역 오버샘플링된 다상 분석 필터 뱅크를 사용하여 입력 신호를 복소 주파수 영역 표현으로 변환하는 것으로 시작한다. 다른 유형의 필터 뱅크가 사용될 수 있을 것이다. 상이한 수의 필터 뱅크가 또한 사용될 수 있을 것이다. 여기에 기술된 구현에서, 분석 필터 뱅크는, 서브대역 오디오 신호를 형성하기 위해, 64개 시간 영역 입력 샘플의 각각의 블록에 대해 64개 주파수 영역 샘플의 블록을 추출한다.

단계(510)에서, 입력 신호에 존재하는 동적 특성의 양을 평가하기 위해, 주파수 독립적인 프레임별 파고 인자가 각각의 채널에 대해 도출된다.

여기서 H_sum(m,c)는 입력 데이터의 제c 채널의 제m 프레임에 대한 k개의 주파수 대역 크기의 합으로서 정의된다:

피크 합 함수가 다음과 같이 정의되고,

(

인 경우)

그렇지 않은 경우,

이다.

평균 합 함수는 누설 적분기 함수에 의해

로 정의된다.

여기서

는 피크 릴리스 계수(peak release coefficient)를 나타내고,

는 평균 평활화 계수(average smoothing coefficient)를 나타낸다.

프레임별 파고 인자는 평균 신호 크기에 대한 피크 신호 크기의 비로서 정의되고,

이다.

여기서 CF(m)은 입력 데이터의 제c 채널의 제m 프레임의 파고 인자를 나타낸다. 파고 인자가 에너지 합산의 측면에서 기술될 수 있는 것이 생각된다.

프레임별 파고 인자는 입력 신호에 존재하는 동적 범위의 양을 나타낸다. 이 파고 인자는, 과도 부분이 검출될 때, 어떤 예상된 목표값보다 크거나 같아야 한다. 과도 부분의 존재 시에 프레임별 파고 인자가 너무 낮은 경우, 측정된 파고 인자를 보다 예상된 값으로 증가시키기 위해 단기 이득이 입력 신호 프레임에 적용되고, 이 경우 단기란 여기서 검출된 과도 부분의 개시 및 감쇠 시간 정도의 개시 및 감시 시간을 말한다.

단계(520)에서, 프레임별 동적 이득 G_DYN(m,c)는 소정의 목표 파고 인자 CF_T와 측정된 파고 인자 CF(m,c)의 비를 구함으로써 도출되고, 원하는 레벨의 동적 진폭을 달성하는 데 필요한 이득의 양을 나타낸다.

CF_T의 값이 동적 자료에 대한 적당한 파고 인자(예를 들어, 14dB)를 나타내는 것으로 가정된다. 이 소정의 목표 파고 인자는 또한 DEL(Dynamic Enhancement Level)이라고 하는 사용자 제어가능 이득에 의해 수정될 수 있을 것이고, 그로써 적용된 강화의 양에 간접적으로 영향을 준다.

목표 파고 인자가 측정된 파고 인자보다 큰 경우, G_DYN(m,c)이 1보다 작을 것이다. 이 이득 값이 허용되는 경우, 이는 궁극적으로 입력에서의 과도 이벤트의 레벨의 감소를 가져올 것이다. 그렇지만, 본 실시예에서, G_DYN(m,c)는 1보다 크거나 같도록 제한된다.

G_DYN(m,c)는 이 스테이지에서 입력 신호에 적용되지 않는다. 오히려, 이는 2개의 다른 조건이 만족되는 경우에만 적용된다:

1. 현재 프레임에 대해 과도 부분이 검출되었거나,

2. 이득이 적용되는 서브대역이 어떤 강한 음색 콘텐츠도 갖지 않는다.

단계(540)에서, 현재 프레임에서의 과도 부분이 검출된다. 서브대역별 상대 에너지 함수를 계산하는 과도 부분 검출 알고리즘을 사용하여 과도 부분을 검출하기 위해 서브대역 신호가 분석된다. 서브대역에서 큰 에너지 증가가 검출될 때, 이 함수의 값이 급격히 증가할 것이다. 더 많은 서브대역의 존재는 동시적인 증가를 나타내고, 이는 또한 과도 부분이 주어진 프레임 내에서 검출되었을 가능성이 더 높다는 것을 나타낸다.

상대 에너지 함수가 다음과 같이 정의될 수 있고,

(1)

E_inst(k,m,c)는 제c 채널의 제m 프레임의 제k 서브대역에서 측정된 에너지를 나타내고, E_av(k,m,c)는 제c 채널의 제m 프레임의 제k 서브대역에서 측정된 평균된 에너지를 나타낸다. 서브대역별 평균을 구하는 것은 누설 적분 함수에 기초한다:

각각의 서브대역 상대 에너지 함수에 대해, 현재의 값이 어떤 상대 에너지 임계값 RE_TRESH과 비교된다. 서브대역에서 상대 에너지 함수 임계값이 초과되는 경우, 그 서브대역은 과도 부분을 나타내는 에너지 증가를 갖는 것으로 태깅된다. 상대 에너지 임계값을 초과하는 서브대역의 수를 합산함으로써 전체 프레임별 과도 에너지 함수가 이어서 계산된다.

여기서, TE(m,c)는 0과 K 사이의 정수값이며, 여기서 K는 분석을 위해 사용되는 서브대역의 총수이다. 주목할 점은, K가 프레임 내의 대역의 총수보다 작을 수 있다는 것이다. 예를 들어, 과도 부분 검출을 상당한 에너지가 검출된 서브대역에 집중시키는 것이 보다 바람직할 수 있다.

서브대역의 상당 비율이 상대 에너지 임계값을 초과하는 것은 과도 부분을 나타내는 에너지의 광대역 증가를 가리킨다. 그렇지만, 과도 부분을 구체적으로 정의하기 위해 정확한 서브대역의 수를 긍정적인 결과와 상관시키기는 어렵다. 어떤 상황에서, 많은 대역에서 상대 에너지 임계값이 낮게 유지될 수 있도록 평균 신호 레벨이 높을 수 있다. 이것을 고려하기 위해 필요한 긍정적인 결과를 갖는 서브대역의 수가 저하될 수 있지만, 이것은 '거짓 양성' 과도 부분 검출을 야기할 수 있다. 따라서, 프레임별 과도 에너지 함수가 과도 부분의 가능성의 추정치를 도출하도록 2치화(thresholded)되어 있다. 게다가, RE_TRESH를 초과하는 서브대역의 수에 비례하는 일련의 이득 가중 함수가 계산된다. 예를 들어,

(

인 경우)

(

인 경우)

(

인 경우)

여기서 K는 분석 중인 서브대역의 총수를 나타낸다.

그렇지 않은 경우,

이다.

플러스 서브대역 임계값 및 관련 가중 이득에 대해 다른 값이 사용될 수 있을 것이다. 단계(550)에서, 어느 한 입력 채널에서 W_T(m,c) > 0의 임의의 값이 과도 부분 개시를 나타내는지가 판정된다. 이어서, 동적 이득이 가중 인자에 의해 수정된다:

1 미만의 이득이 적용되지 않도록 하기 위해 경계 검사가 적용된다. 이 이득은 이어서 현재의 데이터 프레임의 모든 서브대역에 적용될 수 있다. 그렇지만, 이것이 상당한 음색과 같은 성분을 가지는 서브대역에서 요망되지 않을 수 있는데, 그 이유는 이들 대역에서의 갑작스런 이득의 증가로 인해 가청 신호 변조가 생길 수 있기 때문이다. 이 시나리오를 피하기 위해, 강한 음색이 존재하는지 각각의 서브대역이 분석된다. 그의 성질상, 음색과 같은 성분은 비교적 낮은 피크-평균 비(또는 서브대역 파고 인자)를 가진다. 따라서, 소위 음색 임계값 미만인 측정된 파고 인자를 갖는 서브대역에 부가의 이득이 적용되지 않으며, 그 서브대역은 그의 원래의 감쇠 궤적에 기초하여 계속 감쇠딘다.

단계(530)에서, 각각의 분석 대역 내에서 시간 평균된 이득에 대한 피크 이득 레벨의 비를 구함으로써 서브대역별 파고 인자 값이 계산된다.

피크 필터 및 평균 필터 둘다가 누설 적분기를 사용하여 구현된다.

(

인 경우)

G(k,m,c)는 제c 채널의 제m 프레임의 제k 서브대역의 크기를 나타낸다. 그렇지 않은 경우,

이다.

여기서

는 서브대역별 피크 릴리스 함수를 나타내고,

는 평균 평활화 함수를 나타낸다.

과도 부분 개시가 검출되는 프레임에서, 서브대역별 파고 인자가 소정의 임계값

과 비교되고, 이는 음색과 같은 성분이 그 서브대역에 존재하는지를 판정한다. 서브대역 파고 인자가 이 임계값 미만인 경우, 음색과 같은 성분이 검출되고 그 프레임에 대한 그 서브대역에 이득이 적용되지 않는 것으로 가정한다. J. Johnston의 "Transform coding of audio signals using perceptual noise criteria," IEEE J Sel. Areas in Comm., vol. 6, no. 2, pp. 314-323, Feb 1998에 기술된 바와 같이, 음색의 계수와 같은 다양한 음색의 척도가 사용될 수 있다.

로 나타내는 최종적인 서브대역별 동적 이득이 하기의 수식의 값으로 즉각 업데이트된다:

(

인 경우)

단계(560)에서, 과도 부분이 검출되지 않은 경우 또는 음색과 같은 성분이 서브대역에서 검출되는 경우,

의 관련 서브대역 값이 전형적인 과도 부분 감쇠 함수를 모델링하는 주파수 의존적 지수 곡선을 사용하여 1(처리 없음)의 값 쪽으로 감쇠하는 것으로 판정되며,

이다.

여기서

는 저주파 과도 부분이 어떻게 고주파 과도 부분보다 더 느리게 감쇠하는지를 모방하기 위해 주파수의 증가에 따라 감소하는 서브대역별 감쇠 함수를 나타낸다. 1 미만의 이득이 적용되지 않도록 하기 위해 경계 검사가 적용된다.

단계(570)에서, 다음과 같이 출력 포화를 피하기 위해

가 제한된 범위 내로 제약되고,

(

인 경우)

이다.

여기서

는 제c 채널의 제m 프레임의 제k 서브대역의 입력 데이터의 크기를 나타내고, Y_max는 모든 채널의 모든 프레임의 모든 서브대역에 대한 최대 허용 출력값을 나타낸다.

의 최종 버전은, 보장되는 경우, 아티팩트를 피하기 위해 주파수에 걸쳐 평활화될 수 있다.

단계(580)에서, 각각의 대역에서의 복소 입력 계수를

와 곱함으로써 소정의 강화가 적절한 입력 채널에 적용되고,

여기서 X(k,m,c)는 제c 채널의 제m 프레임의 제k 빈에 대한 입력 데이터를 나타내고, Y(k,m,c)는 제c 채널의 제m 프레임의 제k 빈에 대한 출력 데이터를 나타낸다.

얻어진 복소 대역 계수가 재결합되고 64-대역 합성 뱅크 또는 등가의 주파수-시간 영역 필터를 사용하여 시간 영역 출력 샘플 블록으로 변환된다.

각각의 입력 샘플 블록에 대해 상기한 입력/출력 프로세스(단계 500 내지 단계 580)가 반복된다. EQ 곡선의 이득이 각각의 입력 신호 블록의 분석에 따라 동적으로 변할 것이다.

EQ 곡선의 이득이 각각의 입력 신호 프레임의 분석에 따라 동적으로 변한다. 상기한 실시예에서, 도출된 이득 곡선이 주파수 영역에서의 곱셈 및 그에 뒤이은 출력 합성 - 입력 합성 블록에 상보적임 - 에 의해 원본 신호에 적용된다. 다른 실시예에서, 분석 및 합성 방법이 상이할 수 있다.

앞서 기술한 분석 및 합성이 균일한 간격으로 있는 주파수 대역을 이용한다. 그렇지만, 사람의 청각의 음향 심리학에 더 잘 부합하는 로그 간격으로 있는 대역에 걸쳐 분석을 수행하는 것이 바람직하다.

본 명세서에 나타낸 상세는 일례로서 본 발명의 실시예의 예시적인 설명을 위한 것에 불과하며, 본 발명의 원리 및 개념적 측면의 가장 유용하고 용이하게 이해되는 설명인 것으로 생각되는 것을 제공하기 위해 제시되어 있다. 이와 관련하여, 본 발명의 기본적인 이해에 필요한 것보다 더 상세히 본 발명의 상세를 나타내려고 하지 않았으며, 도면과 관련한 설명은 본 발명의 몇몇 형태가 실제로 어떻게 구현될 수 있는지를 당업자에게 명백하게 해줄 것이다.

Claims

오디오 신호를 조절하는 방법으로서,
적어도 하나의 오디오 신호를 수신하는 단계로서, 각각의 오디오 신호는 적어도 하나의 채널을 가지며, 각각의 채널은 일련의 시간에 걸쳐 복수의 프레임들로 세그먼트화되는 것인, 상기 수신하는 단계,
상기 프레임들 중 적어도 하나의 프레임에 걸쳐 상기 오디오 신호의 장기간 동적 거동(long term dynamic behavior)을 계산하는 단계,
상기 장기간 동적 거동을 미리결정된 목표값과 비교하는 단계,
상기 오디오 신호를 복수의 서브대역들로 필터링하는 단계로서, 각각의 프레임은 적어도 하나의 서브대역으로 표현된 것인, 상기 필터링하는 단계,
상기 서브대역들 각각에서 적어도 하나의 단기간 동적 거동(short term dynamic behavior)을 측정하는 단계,
상기 프레임에서 과도 부분(transient)이 존재하는지를 결정하기 위해 상기 프레임의 상기 단기간 동적 거동을 분석하는 단계,
단기간 동적 거동 및 장기간 동적 거동의 각각의 척도에 기초하여 동적 이득을 도출하는 단계,
상기 프레임에서 과도 부분을 검출하고, 상기 과도 부분이 검출된 후에, 파고(crest) 인자를 목표 파고 인자 임계값과 비교하는 단계, 및
원하는 파고 인자값에 도달하도록, 상기 파고 인자가 상기 목표 파고 인자 임계값보다 낮다고 결정한 다음, 과도 부분들을 갖는 각각의 서브대역에 상기 동적 이득을 증가시키는 단계
를 포함하는, 오디오 신호 조절 방법.
삭제
삭제
제1항에 있어서, 상기 파고 인자는, 상기 프레임 내에서의 상기 오디오 신호의 평균 신호 크기의 함수에 대한 피크 신호 크기의 함수의 비를 구함으로써, 계산되는 것인, 오디오 신호 조절 방법.
제1항에 있어서, 상기 분석하는 단계는,
적어도 하나의 서브대역에 대한 서브대역 상대적 에너지 함수(subband relative energy function)를 하기의 식,

으로 표현되는 바와 같이 계산하는 단계를 더 포함하고,
여기서,
RE(k,m,c)는 c번째 채널의 m번째 프레임의 k번째 서브대역에서 측정된 서브대역 상대적 에너지이고,
E_inst(k,m,c)는 상기 c번째 채널의 상기 m번째 프레임의 상기 k번째 서브대역에서 측정된 순간 에너지이며,
E_av(k,m,c)는 상기 c번째 채널의 상기 m번째 프레임의 상기 k번째 서브대역에서 측정된 평균 에너지를 나타내는 것인, 오디오 신호 조절 방법.
제5항에 있어서, 하기의 식

으로 표현된 바와 같이, 상기 프레임의 각각의 서브대역에서의 상기 서브대역 상대적 에너지를 임계값과 비교하고, 상기 임계값을 넘는 서브대역의 수를 합산함으로써, 각각의 프레임에 대해 전체 과도 에너지가 계산되고,
여기서,
TE(m,c)는 상기 c번째 채널의 상기 m번째 프레임에서 측정된 전체 과도 에너지이고,
RE(k,m,c)는 상기 c번째 채널의 상기 m번째 프레임의 상기 k번째 서브대역에서 측정된 서브대역 상대적 에너지이며,
RE_thresh 는 임계 상대적 에너지 값인 것인, 오디오 신호 조절 방법.
제6항에 있어서, 상기 임계값을 넘는 서브대역의 수가 해당 프레임에 대해 분석 중인 총 서브대역들의 미리결정된 비율보다 큰 경우, 상기 과도 부분이 상기 프레임에서 존재하는 것인, 오디오 신호 조절 방법.
제6항에 있어서,
RE_thresh 를 초과하는 서브대역들의 수에 비례하는 일련의 이득 가중 함수를 계산하는 단계,
상기 일련의 이득 가중 함수에 기초하여 가중 인자를 계산하는 단계, 및
상기 가중 인자에 기초하여 각각의 프레임에 대한 상기 동적 이득을 가중화하는 단계
를 더 포함하는, 오디오 신호 조절 방법.
제1항에 있어서, 상기 프레임에 대해 과도 부분들이 검출되지 않는 경우, 상기 적용된 동적 이득이 지수 감쇠 곡선을 사용하여 감소되는 것인, 오디오 신호 조절 방법.
제1항에 있어서, 미리결정된 음색(tonality) 임계값 미만의 서브대역 파고 인자를 갖는 각각의 서브대역에 대해 음조(tonal) 성분이 검출되는 경우, 상기 적용된 서브대역 이득은 음색 지수 감쇠 곡선을 사용하여 감소되는 것인, 오디오 신호 조절 방법.
제9항에 있어서, 상기 지수 감쇠 곡선은 주파수 의존적인 것인, 오디오 신호 조절 방법.
제9항에 있어서, 저주파수는 고주파수보다 느리게 감쇠되는 것인, 오디오 신호 조절 방법.
제4항에 있어서, 하기의 식

으로 표현된 바와 같이, 시간 평균화된 이득에 대한 피크 이득 레벨들의 비를 결정함으로써 각각의 서브대역에 대해 상기 파고 인자가 계산되고,
여기서
CF는 c번째 채널의 m번째 프레임의 k번째 서브대역에서의 파고 인자 값이고,
G_peak 는 상기 c번째 채널의 상기 m번째 프레임의 상기 k번째 서브대역에서의 피크 이득 레벨들이며,
G_av 는 상기 c번째 채널의 상기 m번째 프레임의 상기 k번째 서브대역에서의 시간 평균화된 이득인 것인, 오디오 신호 조절 방법.
제13항에 있어서, 상기 서브대역 파고 인자는 미리결정된 음색 임계값과 비교되고, 상기 서브대역 파고 인자가 상기 미리결정된 음색 임계값 아래인 경우, 상기 서브대역 이득은 더 이상 수정되지 않는 것인, 오디오 신호 조절 방법.
오디오 신호 장치에 있어서,
적어도 하나의 오디오 신호를 수신하는 수신 구성요소로서, 각각의 오디오 신호는 적어도 하나의 채널을 가지며, 각각의 채널은 일련의 시간에 걸쳐 복수의 프레임들로 세그먼트화된 것인, 상기 수신 구성요소,
상기 프레임들 중 적어도 하나의 프레임에 걸쳐 상기 오디오 신호의 장기간 동적 거동을 계산하는 계산 구성요소로서, 상기 장기간 동적 거동은 미리결정된 목표값과 비교되는 것인, 상기 계산 구성요소,
상기 오디오 신호를 복수의 서브대역들로 필터링하는 필터링 구성요소로서, 각각의 프레임은 적어도 하나의 서브대역으로 표현된 것인, 상기 필터링 구성요소,
상기 서브대역들 각각에서 적어도 하나의 단기간 동적 거동(short term dynamic behavior)을 측정하는 측정 구성요소,
프레임에서 과도 부분이 존재하는지를 결정하기 위해 상기 프레임의 상기 단기간 동적 거동을 분석하는 분석 구성요소,
단기간 동적 거동 및 장기간 동적 거동의 각각의 척도에 기초하여 동적 이득을 도출하는 도출 구성요소,
상기 프레임에서 과도 부분(transient)이 검출된 후에, 파고(crest) 인자를 목표 파고 인자 임계값과 비교하는 비교 구성요소,
상기 프레임의 상기 파고 인자가 상기 목표 파고 인자 임계값보다 낮다고 결정하는 결정 구성요소, 및
상기 프레임의 상기 파고 인자를 목표 파고 인자로 증가시키기 위하여 단시간(short period of time)동안 과도 부분들을 갖는 각각의 서브대역에 동적 이득을 증가시키는 증가 구성요소로서, 상기 단시간은 검출된 과도 부분의 개시(onset) 및 감쇠(decay) 시간 정도의 상기 동적 이득의 개시 및 감쇠 시간을 의미하는 것인, 상기 증가 구성요소
를 포함하는 오디오 신호 장치.
삭제
제15항에 있어서,
상기 프레임의 파고 인자와 상기 목표 파고 인자의 비(ratio)로서 단기간 동적 이득(short term dynamic gain)을 정의하는 정의 구성요소를 더 포함하고, 상기 단기간 동적 이득은 상기 목표 파고 인자에 도달하기 위해 요구되는 이득의 양을 나타내는 것인, 오디오 신호 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제