KR20170136004A - 사운드 스테이지 강화를 위한 장치 및 방법 - Google Patents

사운드 스테이지 강화를 위한 장치 및 방법 Download PDF

Info

Publication number
KR20170136004A
KR20170136004A KR1020177034580A KR20177034580A KR20170136004A KR 20170136004 A KR20170136004 A KR 20170136004A KR 1020177034580 A KR1020177034580 A KR 1020177034580A KR 20177034580 A KR20177034580 A KR 20177034580A KR 20170136004 A KR20170136004 A KR 20170136004A
Authority
KR
South Korea
Prior art keywords
digital audio
audio signal
left channels
signal
channel
Prior art date
Application number
KR1020177034580A
Other languages
English (en)
Inventor
차이-이 우
Original Assignee
앰비디오 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 앰비디오 인코포레이티드 filed Critical 앰비디오 인코포레이티드
Publication of KR20170136004A publication Critical patent/KR20170136004A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

프로세서에 의해 실행 가능한 명령들을 가진 비-일시적 컴퓨터 판독가능한 저장 매체는 디지털 오디오 입력 신호의 우측 및 좌측 채널들 내의 센터 컴포넌트, 사이드 컴포넌트 및 주위 컴포넌트를 식별한다. 공간 비율은 센터 컴포넌트와 사이드 컴포넌트로부터 결정된다. 디지털 오디오 입력 신호는 프리-프로세싱된 신호를 형성하기 위하여 공간 비율에 기초하여 조절된다. 반복 혼선 소거 프로세싱은 소거된 혼선을 형성하기 위하여 프리-프로세싱된 신호에 대해 수행된다. 혼선 소거 신호의 센터 컴포넌트는 최종 디지털 오디오 출력을 생성하도록 재정렬된다.

Description

사운드 스테이지 강화를 위한 장치 및 방법{APPARATUS AND METHOD FOR SOUND STAGE ENHANCEMENT}
본 출원은 2013년 12월 13일에 출원된 미국 가 특허 출원 일련 번호 61/916,009 및 2014년 4월 22일에 출원된 미국 가 특허 출원 일련 번호 61/982,778에 대한 우선권을 주장하고, 상기 특허 출원의 내용들은 인용에 의해 본원에 포함된다.
본 발명은 일반적으로 디지털 오디오 신호들의 프로세싱에 관한 것이다. 보다 구체적으로, 본 발명은 사운드 스테이지 강화(sound stage enhancement)를 위한 기술들에 관한 것이다.
사운드 스테이지는 스테레오 장면의 좌측 제한과 우측 제한 사이에서 감지된 거리이다. 스테레오 이미지는 사운드 스테이지를 점유하기 위하여 나타나는 팬텀 이미지(phantom image)들을 포함한다. 우수한 스테레오 이미지는 자연스러운 청취 환경을 전달하기 위하여 요구된다. 편평하고 좁은 스테레오 이미지는 모든 사운드가 하나의 방향으로부터 나오는 것으로 인지되게 하고 그러므로 사운드가 모노포닉(monophonic)을 나타낸다.
고객 전자 디바이스들(예컨대, 데스크 톱 컴퓨터들, 랩톱 컴퓨터, 테블릿들, 착용가능 컴퓨터들, 게임 콘솔들, 텔레비전들 등)은 공통적으로 스피커들을 포함한다. 바람직하지 않게, 공간 제한들은 빈약한 사운드 스테이지 성능을 초래한다. 머리 전달 함수(HRTF: Head-Related Transfer Function)를 사용하여 이 문제를 처리하기 위한 시도들이 있어왔다. HRTF들은 가상 서라운드 사운드 스피커들을 생성하기 위하여 사용된다. 바람직하지 않게, HRTF들은 하나의 개인의 귀들 및 신체 형상에 기초한다. 그러므로, 임의의 다른 귀는 품질 저하된 사운드 로컬리제이션(localization)으로 공간 왜곡을 경험할 수 있다.
따라서, 합성되거나 측정된 HRTF들에 따르지 않고 고객 디바이스들에서 강화된 사운드 스테이지 성능을 얻는 것이 바람직할 것이다.
프로세서에 의해 실행 가능한 명령들을 가지는 비-일시적 컴퓨터 판독가능한 저장 매체는 디지털 오디오 입력 신호의 우측 채널과 좌측 채널 내에서 센터(center) 컴포넌트, 사이드 컴포넌트 및 앰비언트(ambient) 컴포넌트를 식별한다. 공간 비율은 센터 컴포넌트 및 사이드 컴포넌트로부터 결정된다. 디지털 오디오 입력 신호는 프리-프로세싱(pre-process)된 신호를 형성하기 위한 공간 비율에 기초하여 조절된다. 반복 혼선 소거(recursive crosstalk cancellation) 프로세싱은 혼성 소거 신호를 형성하기 위하여 프리-프로세싱 신호에 대해 수행된다. 혼선 소거 신호의 센터 컴포넌트는 디지털 오디오 출력을 생성하기 위하여 포스트-프로세싱(post-processing) 동작에서 재정렬된다.
본 발명은 첨부 도면들과 함께 취해진 다음 상세한 설명과 관련하여 보다 완전히 인식된다.
도 1은 본 발명의 실시예에 따라 구성된 고객 전자 디바이스를 예시한다.
도 2는 본 발명의 실시예들에 따른 신호 프로세싱을 예시한다.
도 3은 본 발명의 실시예에 따라 구성된 사운드 강화 모듈을 예시한다.
도 4는 사운드 강화 모듈의 프리-프로세싱 스테이지와 연관된 프로세싱 동작들을 예시한다.
도 5는 사운드 강화 모듈의 포스트-프로세싱 스테이지와 연관된 프로세싱 동작들을 예시한다.
동일한 참조 번호들은 도면들 중 몇몇 도면들에 걸쳐 대응하는 부분들을 지칭한다.
도 1은 본 발명의 실시예에 따라 구성된 디지털 고객 전자 디바이스(100)를 예시한다. 디바이스(100)는 버스(114)를 통하여 연결된 중앙 프로세싱 유닛(110) 및 입력/출력 디바이스들(112) 같은 표준 컴포넌트들을 포함한다. 입력/출력 디바이스들(112)은 키보드, 마우스, 터치 디스플레이, 스피커들 등을 포함할 수 있다. 네트워크 인터페이스 회로(116)는 또한 네트워크(도시되지 않음)에 연결성을 제공하기 위하여 버스(114)에 연결된다. 네트워크는 유선 및 무선 네트워크들의 임의의 결합일 수 있다.
메모리(120)는 또한 버스(114)에 연결된다. 메모리(120)는 오디오 소스 신호들을 포함하는 하나 또는 그 초과의 오디오 소스 파일들(122)을 포함한다. 메모리(120)는 또한 하기 논의된 바와 같이, 본 발명의 동작들을 구현하기 위하여 중앙 프로세싱 유닛(110)에 의해 실행되는 명령들을 포함하는 사운드 강화 모듈(124)을 저장한다. 사운드 강화 모듈(124)은 또한 네트워크 인터페이스 회로(116)를 통해 수신된 스트리밍 오디오 신호를 프로세싱할 수 있다.
도 2는, 사운드 강화 모듈(124)이 오디오 소스 파일들(122)(예컨대, 스테레오 소스 파일들)을 수신할 수 있다는 것을 예시한다. 사운드 강화 모듈(124)은 강화된 오디오 출력(126)(예컨대, 강한 센터 스테이지 및 사이드 컴포넌트들을 가지는 강화된 스테레오 사운드)을 생성하기 위하여 오디오 소스 파일들을 프로세싱한다.
도 3은 사운드 강화 모듈(124)의 실시예를 예시한다. 이 경우, 입력은 좌측(Left)(L) 및 우측(Right)(R) 스테레오 채널들이다. 프리-프로세싱 스테이지(300)는 공간 단서(spatial cue)들을 분석하고 계산된 공간 비율에 기초하여 입력을 조절한다. 다음 스테이지(302)는 하기 논의되는 바와 같이, 반복 혼선 소거를 수행한다. 최종적으로, 포스트 프로세싱 스테이지(304)는 하기 논의되는 바와 같이, 센터 스테이지 프로세싱, 등화 및 레벨 제어를 수행한다.
도 4는 프리-프로세싱 스테이지(300)와 연관된 프로세싱 동작들을 예시한다. 프리-프로세싱 스테이지에서, 입력 사운드는 분석되고 다중-스케일(multi-scale) 피처(feature)들의 세트는, 청취자가 재생된 사운드의 정보를 명확하게 인지 및 디코딩하도록, 센터럴 청각 시스템에 정보 프로세싱 스테이지들을 피팅(fit)하도록 다시 부가된다. 일 실시예에서, 공간 단서들은 합산 신호(402), 차이 신호(404) 및 스펙트럼 정보(406)의 형태로 분석된다(400). 도 3에 예시된 바와 같이, 합산 및 차이는 좌측 및 우측 입력들로부터 계산된다. 2개의 채널들의 합산은 좌측 및 우측 채널들에서 상관된 컴포넌트, 또는 중간 신호를 표현한다. 합산 신호(306)는 팬텀 센터에서 종종 영화의 대화, 또는 음악의 목소리를 나타내는 신호를 드러낸다. 2개의 채널들(308)의 차이는 하드-패닝(hard-pan)된 사운드, 또는 사이드 신호이다. 차이 신호는 2개의 스피커들 중 단지 하나에 또는 하나 쪽으로만 나타나는 신호를 결정한다. 차이 신호는 종종 사이드들을 나타내는 컴포넌트에 의한 특정 사운드 효과이다. 스펙트럼은 스펙트럼 정보를 위하여 분석된다. 이것은, 센터 및 하드-패닝된 사운드가 오디오 파일 또는 스트림을 적절히 설명할 수 없기 때문에 행해진다. 예컨대, 군중 사운드는 매우 랜덤하고; 이는 센터 및 사이드에서, 또는 사이드 단독에 있을 수 있다. 스펙트럼을 분석함으로써, 합/차이 단계들에 의해 태깅(tag)된 특정 신호가 메인 컴포넌트인지(예컨대, 대화, 특정 사운드 효과) 또는 보다 앰비언스 사운드인지를 결정할 수 있다. 주파수 도메인에서, 앰비언스 사운드는 넓은 대역 사운드로서 나타나는 반면, 사운드 효과들 또는 대화들은 엔벨로프(envelope) 스펙트럼들로서 나타난다.
다음 프로세싱 동작은 센터 및 앰비언스 정보(408)로부터 공간 비율을 결정하는 것이다. "공간 비율"(r)은 센터 이미지와 앰비언스 사운드 사이의 에너지 분포를 나타내기 위하여 추정된다. 스테레오 입력들은 먼저 혼합 블록(310)으로 전송되는 반면, 좌측 채널은 하기에 의해 계산되고
Figure pat00001
여기서 LT 및 HT는 허용 가능한 공간 비율에 대한 낮은 임계치 및 높은 임계치이다. 양쪽 α 및 β는 r에 기초하는 스칼라(scalar) 조절 팩터들이다. 더 구체적으로 말하면, α 및 β는 r로부터 픽싱된 선형 변환을 통해 계산되고, 따라서 모든 항들은 서로 관련된다. G는 결과적 채널의 진폭이 그 입력과 동일하다는 것을 보장하는 포지티브 이득 팩터이다. 우측 채널에 대해 계산들은 동일하다.
공간 비율은 3개의 분석 블록들(합산/차이/스펙트럼 정보)에 의해 태깅된 센터 및/또는 사이드 컴포넌트의 양을 표현하기 위하여 계산된다. 이는 경로(314)에서 도시된 바와 같이, 다음 프리-프로세싱 단계(혼합 블록(312))에서 및 또한 포스트-프로세싱 스테이지에서의 혼합에 사용된다. LT 및 HT는 자신의 상이한 성질들을 최적화하기 위하여 음악, 필름들, 또는 게임들 같은 개별 콘텐츠에 기초하여 최적화될 수 있는 미리 설정된 인지 파라미터들이다. 임계치는 콘텐츠 타입에 기초하여 조절된다. 일반적으로, 0.1과 0.3 사이의 임의의 임계 값은 합리적이다. 시스템들은 태깅된 피처들에 기초하여 콘텐츠 타입을 추측한다. 예컨대, 영화는 강한 센터, 무거운 앰비언스, 및 동적 사운드 효과들을 가진다. 대조하여, 음악은 약간의 앰비언스 태그들을 가지며 상이한 사운드 소스들 사이에서 스펙트럼-시간 콘텐츠이 거의 중첩하지 않는다.
인지 파라미터는 사운드 같은 감각 경험에 기초한다. 개시된 인지 기반 기술은 복구된 로컬리제이션 단서들을 픽업(pick up)하기 위하여 디코더로서 동작할 인간 뇌에 따른다. 인지 임계치는 인간 뇌/청각 시스템에 의해 프로세싱되는 정보만을 고려한다. 로컬리제이션 단서들은, 인간 청각 시스템이 오디오 신호를 효과적으로 인식 및 디코딩할 수 있도록 스테레오 디지털 오디오 신호로부터 복구된다. 따라서, 인지적 연속 사운드 스케이프(scape)는 가상 스피커를 생성함이 없이 재구성될 수 있다. 개시된 기술들은 인지 공간에서 사운드를 재구성한다. 즉, 개시된 기술들은 무의식적 인식 프로세스가 인간 청각 시스템에서 디코딩할 정보를 제시한다.
도 4의 다음 프로세싱 동작은 로컬리제이션-중요 정보(즉, 뇌가 사운드를 로컬화하는 것에 따른 정보)를 얻기 위하여 공간 비율(410)에 기초하여 입력 신호를 조절하는 것이다. 앰비언스 사운드는 조절되어 시간에 걸쳐 코히어런트(coherent)하고 메인 대상들(대화, 사운드 효과)과 일관성 있게 동작한다. 앰비언스 사운드는 또한 인식 센트럴이 환경을 이해하기 위하여 중요하다. 그 다음, 입력 신호의 상이한 부분들은 공간 비율, 자신의 태그들의 수 및 콘텐츠 타입에 따라 조절된다. 명확한 센터 이미지를 가지기 위하여, 일 실시예는 센터 최저치를 -10.5 dB의 앰비언스 비율로 설정한다.
혼합 블록(312)은 계산된 공간 비율 및 선택된 인지 임계치들의 비교에 기초하여 센터 이미지 및 앰비언스 사운드를 밸런싱(balance)한다. 임계치들은 센터 사운드 또는 사이드 사운드에 대해 강조를 지정함으로써 선택될 수 있다. 간단한 그래픽 사용자 인터페이스는 사용자가 센터 사운드와 사이드 사운드 사이의 밸런스를 선택하게 하기 위해 사용될 수 있다. 간단한 그래픽 사용자 인터페이스는 또한, 사용자가 볼륨 레벨을 선택하게 하기 위하여 사용될 수 있다.
이것을 행함으로써, 종래 기술 반복 혼선 소거와 연관된 밸런스 문제가 해결된다. 이것은 효과적 자동-밸런싱 프로세스이다. 게다가, 이것은 또한, 서라운드 컴포넌트들이 청취자들에 의해 명확하게 들릴 수 있는 것을 보장한다.
분석 블록들로부터의 공간 비율 및 정보에 기초하여, 본래의 신호가 재혼합된다. 가능한 프로세싱은, 팬텀 센터(center)가 센터에 앵커(anchor) 링 되도록 팬텀 센터의 에너지를 부스팅(boosting)하는 것을 포함한다. 대안적으로, 또는 부가하여, 사이드에서 특정 사운드 효과들은 반복 혼선 소거 동안 효과적으로 확장되도록 강조된다. 대안적으로, 또는 부가적으로, 앰비언트 사운드 또는 백그라운드(background) 사운드는 센터 이미지에 영향을 주지 않고 음파 필드를 통해 확산된다. 앰비언트 사운드의 양은 또한 연속적인 실감 앰비언스를 유지하기 위하여 시간에 걸쳐 조절될 수 있다.
도 3으로 돌아가서, 프리-프로세싱(300) 후, 반복적 혼선 소거(302)가 수행된다. 혼선은, 사운드가 각각의 스피커로부터 맞은편 귀에 도달할 때 발생한다. 원하지 않는 스펙트럼 컬러레이션(coloration)은, 본래 신호와 혼선 신호 사이의 보강 간섭과 상쇄 간섭으로 인해 발생된다. 게다가, 공간 왜곡을 유발하는 충돌하는 공간적 단서들이 생성된다. 결과로서, 로컬리제이션은 실패하고 스테레오 이미지는 라우스피커들의 포지션까지 실패한다. 이 문제에 대한 해결책은 혼선 소거 프로세싱이고, 상기 프로세싱은 청취자의 고막에서 혼선 신호를 음향적으로 소거하기 위하여 혼선 소거 벡터를 반대편 스피커에 부가하는 것을 수반한다. 종래의 접근법은 혼선 소거를 위해 HRTF를 사용하는 것이다. 본원에 사용된 간략화된 접근법은 단지 소거 신호를 다시 반대편 스피커에 부가한다. 특히, 인버팅(314), 감쇠(316) 및 지연(318) 스테이지들은 높은 차수 반복 혼선 소거기를 형성하기 위하여 사용된다. 좌측 및 우측 채널은 하기에 의해 계산될 수 있고,
좌측(n) = 좌측(n) - AL * 우측(n-DL)
우측(n) = 우측(n) - AR * 좌측(n-DR)
여기서 감쇠를 나타내는 A는 포지티브 스칼라 팩터이고, D는 지연 팩터이고 n은 시간 도메인에서 주어진 샘플의 인덱스이다. "일 실시예에서", 파라미터들은 하드웨어의 물리적 구성을 매칭하기 위하여 최적화될 수 있다. 예컨대, 비대칭 스피커들 또는 밸런싱되지 않은 사운드 강도를 가지는 고객 전자 디바이스에 대해, 팩터들은 2개의 채널들 사이에서 상이할 수 있다. 감쇠 및 지연 시간은 임의의 타입의 고객 전자 디바이스 스피커 구성에 피팅하도록 구성될 수 있다.
반복 혼선 소거(302) 후, 포스트-프로세싱(304)이 수행된다. 도 5는 센터 앵커(anchor)(122), 등화(124) 및 레벨 제어(126)를 유지하는 형태의 포스트-프로세싱 동작들을 예시한다. 센터 앵커(122)를 유지하는 것에 관하여, 출력은, 이것이 센터 콘텐츠가 이해 가능하게 만드는 중요한 피처이기 때문에, 청취자들에 대해 충분히 강한 센터 스테이지를 유지하기 위하여 다시 조절된다. 사람들은 강한 센터 이미지에 사용된다. 예컨대, 2개의 스피커들이 동일한 레벨의 동일한 신호를 플레이하면, 팬텀 센터는 중앙 라인 상의 청취자에 의해 3 dB까지 부스팅되는 것으로 인지될 것이다. 그러므로, 2개의 스피커들 사이에 더 이상 간섭이 없다면, 더 이상 음향 합산이 발생하지 않을 것이고, 센터에 3 dB 부스트도 없을 것이다. 다른 한편, 반복적 혼선 소거 후, 스테레오 스트림의 깊이 및 방 앰비언스는 감추어지고 그러므로 복구되었음에 틀림 없다. 그런 피처로 인해, 오디오 콘텐츠는 잠재적으로 그 거리에서 훨씬 멀리에 있는 것으로 나타난다. 센터로부터 인공 잔향 또는 심지어 작은 팬(pan)의 사용은 사이드로 센터 이미지 드리프트(drift)를 만든다. 이들 이유들 때문에, 혼합 블록(320)은, 센터 신호들을 다시 부가할 필요가 있는지를 결정한다. 좌측 채널은 하기에 의해 계산될 수 있고,
Figure pat00002
여기서 r은 이전에 계산된 공간 비율이고 T는 인지 임계치이다. 임계치의 값은 콘텐츠 타입에 따른다. 예컨대, 영화는 대화를 위한 강한 센터 이미지를 요구하지만, 게임은 그렇지 않다. 일 실시예에서, 임계치는 0.05 내지 0.95에서 가변된다. r은, Mid 신호가 플레이되는 오디오(예컨대, 메인 대화)에서 중요한 역할을 할 때 T보다 크다. r과 T의 비교가 또한 프리-프로세싱 상태(408)에서 계산된 본래 공간 비율을 고려하는 것이 주의된다. α는 r에 관한 포지티브 스칼라 팩터이다. C는, 출력 프로세싱 신호가 본래 입력 신호와 동일한 라우드니스(loudness)인 것을 보장하기 위한 다른 이득 팩터이다. 동일한 프로세스는 또한 우측 채널에 적용된다. 다시, 이 프로세스는, 사이드 컴포넌트들에서 와이드닝 효과(widening effect)를 유지하면서, 종래 기술 지침들보다 더 안정된 센터 이미지를 만든다. 출력 신호의 스테이지 폭은 수동으로 조절될 수 있다. 이전에 논의된 센터 및 사이드 그래픽 사용자 인터페이스는 이런 취향을 설정하기 위하여 사용될 수 있다. 예컨대, 100% 폭(100% 사이드 사운드에 대한 선호도)은, 사운드가 귀 뒤쪽 또는 우측 나타날 수 있도록 전체 효과/폭을 표현한다.
혼합 블록(320) 다음, 등화(322)는 청취자의 머리 및 전자 디바이스의 사이즈에 관하여 비-이상적 지연 및 감쇠 팩터들을 사용함으로써 생성된 고주파수 대역들의 가청 컬러레이션을 제거하기 위해 적용된다. 마지막으로, 이득 제어 블록(324)은, 모든 각각의 신호가 적당한 진폭 범위 내에 있고 본래 입력 신호와 동일한 라우드니스를 가지는 것을 보장하게 한다. 사용자 특정 볼륨 선호도는 또한 이 포인트에서 적용될 수 있다.
다른 포스트-프로세싱 단계들은 압축 및 피크 제한을 포함할 수 있다. 상기 단계들은 라우드스피커들의 동적 범위를 보존하고 원하지 않는 컬러레이션 없이 사운드 품질을 유지하기 위하여 사용된다.
당업자들은, 본 발명의 기술들이 소스 파일들, 스트리밍된 콘텐츠 등에 대한 저비용 실시간 계산 프로세스를 제공하는 것을 인식할 것이다. 기술들은 또한 디지털 오디오 신호들에 삽입될 수 있다(즉, 따라서 디코더는 요구되지 않음). 본 발명의 기술들은 사운드 바아들, 스테레오 라우드피커들, 및 차 오디오 시스템들에 적용 가능하다.
본 발명의 실시예는 다양한 컴퓨터-구현 동작들을 수행하기 위하여 컴퓨터 코드를 가지는 비-일시적 컴퓨터 판독가능한 저장 매체를 가진 컴퓨터 저장 물건에 관한 것이다. 매체들 및 컴퓨터 코드는 본 발명의 목적들을 위하여 구체적으로 설계 및 구성된 것들일 수 있거나, 컴퓨터 소프트웨어 분야들의 당업자들에게 잘 알려지고 이용 가능한 종류를 가질 수 있다. 컴퓨터-판독가능 매체들의 예들은 프로그램 코드를 저장 및 실행하도록 구체적으로 구성된 자기 매체들, 광학 매체들, 자기-광학 매체들 및 하드웨어 디바이스들, 이를테면 주문형 집적 회로("ASIC")들, 프로그램 가능 논리 디바이스("PLD")들 및 ROM 및 RAM 디바이스들(그러나 이들로 제한되지 않음)을 포함한다. 컴퓨터 코드의 예들은 컴파일러에 의해 생성되는 바와 같은 머신 코드, 및 인터프리터(interpreter)를 사용하여 컴퓨터에 의해 실행되는 고급 코드를 포함하는 파일들을 포함한다. 예컨대, 본 발명의 실시예는 JAVA®, C++, 또는 다른 프로그래밍 언어 및 개발 툴들을 사용하여 구현될 수 있다. 본 발명의 다른 실시예는 머신-실행가능 소프트웨어 명령들 대신, 또는 결합하여 하드웨어에 내장된 회로로 구현될 수 있다.
설명의 목적들을 위한 상기 설명은 본 발명의 완전한 이해를 제공하기 위하여 특정 전문용어를 사용하였다. 그러나, 특정 상세들이 본 발명의 실시하기 위하여 요구되지 않는 것이 당업자에게 명백할 것이다. 따라서, 본 발명의 특정 실시예들의 상기 설명들은 예시 및 설명의 목적들을 위하여 제시된다. 상기 설명들은 개시된 정확한 형태들로 본 발명을 총망라하거나 제한하도록 의도되지 않고; 명확히, 많은 수정들 및 변형들은 상기 지침들의 측면에서 가능하다. 실시예들은 본 발명의 원리들 및 이의 실제 애플리케이션들을 가장 잘 설명하기 위하여 선택되었고 설명되었고, 이에 의해 상기 실시예들은 다른 당업자들이 고려된 특정 용도에 적합한 바와 같은 다양한 수정들을 가진 다양한 실시예들 및 본 발명을 가장 잘 활용하게 한다. 다음 청구항들 및 이의 등가물들이 본 발명의 범위를 정의하는 것이 의도된다.

Claims (18)

  1. 컴퓨터 구현된 방법으로서,
    하나 이상의 프로세서들 및 상기 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램 모듈들을 저장하기 위한 메모리를 가지는 컴퓨팅 디바이스에서:
    인지 임계치(perceptual threshold)에 따라 디지털 오디오 신호의 우측 및 좌측 채널들의 공간적 에너지 분포(spatial energy distribution)를 밸런싱하는 단계 ― 상기 디지털 오디오 신호는 미리 정의된 센터 앵커(anchor)를 가짐 ―;
    상기 디지털 오디오 신호의 혼선-소거된(crosstalk-cancelled) 우측 및 좌측 채널들의 쌍(pair)을 형성하기 위해 상기 밸런싱된 디지털 오디오 신호의 우측 및 좌측 채널들에 대해 반복(recursive) 혼선 소거를 수행하는 단계; 및
    상기 디지털 오디오 신호의 미리 정의된 센터 앵커를 유지하기 위해 상기 디지털 오디오 신호의 혼선-소거된 우측 및 좌측 채널들의 쌍을 조정하는 단계를 포함하는,
    컴퓨터 구현된 방법.
  2. 제 1 항에 있어서,
    상기 공간적 에너지 분포를 밸런싱하는 단계는:
    상기 디지털 오디오 신호의 우측 및 좌측 채널들로부터 합산 신호(sum signal) 및 차이 신호(difference signal)를 생성하는 단계;
    상기 합산 신호 및 차이 신호를 이용하여 상기 디지털 오디오 신호의 우측 및 좌측 채널들의 공간적 에너지 분포를 추정하는 단계; 및
    상기 인지 임계치에 따라 상기 추정된 공간적 에너지 분포를 조정하는 단계를 더 포함하는,
    컴퓨터 구현된 방법.
  3. 제 1 항에 있어서,
    상기 인지 임계치는 상기 디지털 오디오 신호의 콘텐츠 타입에 의해 결정되는,
    컴퓨터 구현된 방법.
  4. 제 1 항에 있어서,
    상기 디지털 오디오 신호의 혼선-소거된 우측 및 좌측 채널들의 쌍은, 상기 디지털 오디오 신호의 하나 이상의 고주파수 대역들 내 가청 컬러레이션(audible coloration)을 감쇠시키기 위해 더 프로세싱되는,
    컴퓨터 구현된 방법.
  5. 제 1 항에 있어서,
    상기 반복 혼선 소거를 수행하는 단계는, 머리-전달 함수(Head-Related Transfer Function)를 이용하지 않고 상기 우측 및 좌측 채널들의 제 1 채널로부터의 소거 신호를 상기 우측 및 좌측 채널들의 제 2 채널에 부가하는 단계를 더 포함하는,
    컴퓨터 구현된 방법.
  6. 제 5 항에 있어서,
    상기 제 2 채널에 대한 소거 신호는, 상기 혼선-소거된 오디오 신호를 재생하기 위한 디바이스의 미리 정의된 물리적 구성에 기초하여 감쇠 및 시간-지연된 제 1 채널인,
    컴퓨터 구현된 방법.
  7. 컴퓨팅 디바이스에 있어서,
    하나 이상의 프로세서들;
    메모리; 및
    상기 메모리에 저장되고 상기 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램 모듈들을 포함하고,
    상기 하나 이상의 프로그램 모듈들은:
    인지 임계치에 따라 디지털 오디오 신호의 우측 및 좌측 채널들의 공간적 에너지 분포를 밸런싱 ― 상기 디지털 오디오 신호는 미리 정의된 센터 앵커(anchor)를 가짐 ― 하고;
    상기 디지털 오디오 신호의 혼선-소거된 우측 및 좌측 채널들의 쌍을 형성하기 위해 상기 밸런싱된 디지털 오디오 신호의 우측 및 좌측 채널들에 대해 반복 혼선 소거를 수행하고; 그리고
    상기 디지털 오디오 신호의 미리 정의된 센터 앵커를 유지하기 위해 상기 디지털 오디오 신호의 혼선-소거된 우측 및 좌측 채널들의 쌍을 조정하기 위한 명령들을 더 포함하는,
    컴퓨팅 디바이스.
  8. 제 7 항에 있어서,
    상기 공간적 에너지 분포를 밸런싱하기 위한 명령은:
    상기 디지털 오디오 신호의 우측 및 좌측 채널들로부터 합산 신호 및 차이 신호를 생성하고;
    상기 합산 신호 및 차이 신호를 이용하여 상기 디지털 오디오 신호의 우측 및 좌측 채널들의 공간적 에너지 분포를 추정하고; 그리고
    상기 인지 임계치에 따라 상기 추정된 공간적 에너지 분포를 조정하기 위한 명령들을 더 포함하는,
    컴퓨팅 디바이스.
  9. 제 7 항에 있어서,
    상기 인지 임계치는 상기 디지털 오디오 신호의 콘텐츠 타입에 의해 결정되는,
    컴퓨팅 디바이스.
  10. 제 7 항에 있어서,
    상기 디지털 오디오 신호의 혼선-소거된 우측 및 좌측 채널들의 쌍은, 상기 디지털 오디오 신호의 하나 이상의 고주파수 대역들 내 가청 컬러레이션을 감쇠시키기 위해 더 프로세싱되는,
    컴퓨팅 디바이스.
  11. 제 7 항에 있어서,
    상기 반복 혼선 소거를 수행하기 위한 명령은, 머리-전달 함수를 이용하지 않고 상기 우측 및 좌측 채널들의 제 1 채널로부터의 소거 신호를 상기 우측 및 좌측 채널들의 제 2 채널에 부가하는 것을 더 포함하는,
    컴퓨팅 디바이스.
  12. 제 11 항에 있어서,
    상기 제 2 채널에 대한 소거 신호는, 상기 혼선-소거된 오디오 신호를 재생하기 위한 디바이스의 미리 정의된 물리적 구성에 기초하여 감쇠 및 시간-지연된 제 1 채널인,
    컴퓨팅 디바이스.
  13. 하나 이상의 프로세서들을 갖는 컴퓨팅 디바이스에 의해 실행 가능한 명령들을 저장하는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령들은:
    인지 임계치에 따라 디지털 오디오 신호의 우측 및 좌측 채널들의 공간적 에너지 분포를 밸런싱 ― 상기 디지털 오디오 신호는 미리 정의된 센터 앵커(anchor)를 가짐 ― 하고;
    상기 디지털 오디오 신호의 혼선-소거된 우측 및 좌측 채널들의 쌍을 형성하기 위해 상기 밸런싱된 디지털 오디오 신호의 우측 및 좌측 채널들에 대해 반복 혼선 소거를 수행하고; 그리고
    상기 디지털 오디오 신호의 미리 정의된 센터 앵커를 유지하기 위해 상기 디지털 오디오 신호의 혼선-소거된 우측 및 좌측 채널들의 쌍을 조정하기 위한 명령들을 포함하는,
    비 일시적 컴퓨터 판독 가능 저장 매체.
  14. 제 13 항에 있어서,
    상기 공간적 에너지 분포를 밸런싱하기 위한 명령은:
    상기 디지털 오디오 신호의 우측 및 좌측 채널들로부터 합산 신호 및 차이 신호를 생성하고;
    상기 합산 신호 및 차이 신호를 이용하여 상기 디지털 오디오 신호의 우측 및 좌측 채널들의 공간적 에너지 분포를 추정하고; 그리고
    상기 인지 임계치에 따라 상기 추정된 공간적 에너지 분포를 조정하기 위한 명령들을 더 포함하는,
    비 일시적 컴퓨터 판독 가능 저장 매체.
  15. 제 13 항에 있어서,
    상기 인지 임계치는 상기 디지털 오디오 신호의 콘텐츠 타입에 의해 결정되는,
    비 일시적 컴퓨터 판독 가능 저장 매체.
  16. 제 13 항에 있어서,
    상기 디지털 오디오 신호의 혼선-소거된 우측 및 좌측 채널들의 쌍은, 상기 디지털 오디오 신호의 하나 이상의 고주파수 대역들 내 가청 컬러레이션을 감쇠시키기 위해 더 프로세싱되는,
    비 일시적 컴퓨터 판독 가능 저장 매체.
  17. 제 13 항에 있어서,
    상기 반복 혼선 소거를 수행하기 위한 명령은, 머리-전달 함수를 이용하지 않고 상기 우측 및 좌측 채널들의 제 1 채널로부터의 소거 신호를 상기 우측 및 좌측 채널들의 제 2 채널에 부가하는 것을 더 포함하는,
    비 일시적 컴퓨터 판독 가능 저장 매체.
  18. 제 17 항에 있어서,
    상기 제 2 채널에 대한 소거 신호는, 상기 혼선-소거된 오디오 신호를 재생하기 위한 디바이스의 미리 정의된 물리적 구성에 기초하여 감쇠 및 시간-지연된 제 1 채널인,
    비 일시적 컴퓨터 판독 가능 저장 매체.
KR1020177034580A 2013-12-13 2014-12-12 사운드 스테이지 강화를 위한 장치 및 방법 KR20170136004A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361916009P 2013-12-13 2013-12-13
US61/916,009 2013-12-13
US201461982778P 2014-04-22 2014-04-22
US61/982,778 2014-04-22
PCT/US2014/070143 WO2015089468A2 (en) 2013-12-13 2014-12-12 Apparatus and method for sound stage enhancement

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167018300A Division KR101805110B1 (ko) 2013-12-13 2014-12-12 사운드 스테이지 강화를 위한 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20170136004A true KR20170136004A (ko) 2017-12-08

Family

ID=53370114

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167018300A KR101805110B1 (ko) 2013-12-13 2014-12-12 사운드 스테이지 강화를 위한 장치 및 방법
KR1020177034580A KR20170136004A (ko) 2013-12-13 2014-12-12 사운드 스테이지 강화를 위한 장치 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167018300A KR101805110B1 (ko) 2013-12-13 2014-12-12 사운드 스테이지 강화를 위한 장치 및 방법

Country Status (6)

Country Link
US (2) US9532156B2 (ko)
EP (1) EP3081014A4 (ko)
JP (2) JP6251809B2 (ko)
KR (2) KR101805110B1 (ko)
CN (2) CN108462936A (ko)
WO (1) WO2015089468A2 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10602275B2 (en) * 2014-12-16 2020-03-24 Bitwave Pte Ltd Audio enhancement via beamforming and multichannel filtering of an input audio signal
DK3678386T3 (da) * 2015-10-08 2022-01-10 Bang & Olufsen As Aktiv rumkompensation i et højttalersystem
JP6620235B2 (ja) * 2015-10-27 2019-12-11 アンビディオ,インコーポレイテッド サウンドステージ拡張のための機器及び方法
WO2017153872A1 (en) 2016-03-07 2017-09-14 Cirrus Logic International Semiconductor Limited Method and apparatus for acoustic crosstalk cancellation
US10028071B2 (en) * 2016-09-23 2018-07-17 Apple Inc. Binaural sound reproduction system having dynamically adjusted audio output
GB2556663A (en) * 2016-10-05 2018-06-06 Cirrus Logic Int Semiconductor Ltd Method and apparatus for acoustic crosstalk cancellation
JP7076824B2 (ja) * 2017-01-04 2022-05-30 ザット コーポレイション 複数のオーディオ強調モードに構成可能なシステム
WO2018132417A1 (en) * 2017-01-13 2018-07-19 Dolby Laboratories Licensing Corporation Dynamic equalization for cross-talk cancellation
CN109644315A (zh) * 2017-02-17 2019-04-16 无比的优声音科技公司 用于缩混多声道音频信号的设备和方法
DE102017106022A1 (de) * 2017-03-21 2018-09-27 Ask Industries Gmbh Verfahren zur Ausgabe eines Audiosignals in einen Innenraum über eine einen linken und einen rechten Ausgabekanal umfassende Ausgabeeinrichtung
US10313820B2 (en) * 2017-07-11 2019-06-04 Boomcloud 360, Inc. Sub-band spatial audio enhancement
TWI634549B (zh) 2017-08-24 2018-09-01 瑞昱半導體股份有限公司 音訊強化裝置及方法
US10524078B2 (en) * 2017-11-29 2019-12-31 Boomcloud 360, Inc. Crosstalk cancellation b-chain
US10609499B2 (en) * 2017-12-15 2020-03-31 Boomcloud 360, Inc. Spatially aware dynamic range control system with priority
US10575116B2 (en) * 2018-06-20 2020-02-25 Lg Display Co., Ltd. Spectral defect compensation for crosstalk processing of spatial audio signals
US10715915B2 (en) * 2018-09-28 2020-07-14 Boomcloud 360, Inc. Spatial crosstalk processing for stereo signal
US11432069B2 (en) 2019-10-10 2022-08-30 Boomcloud 360, Inc. Spectrally orthogonal audio component processing
US11246001B2 (en) * 2020-04-23 2022-02-08 Thx Ltd. Acoustic crosstalk cancellation and virtual speakers techniques
CN112019994B (zh) * 2020-08-12 2022-02-08 武汉理工大学 一种基于虚拟扬声器构建车内扩散声场环境的方法及装置
US11924628B1 (en) * 2020-12-09 2024-03-05 Hear360 Inc Virtual surround sound process for loudspeaker systems
WO2023156002A1 (en) 2022-02-18 2023-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reducing spectral distortion in a system for reproducing virtual acoustics via loudspeakers

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319488A (ja) * 1994-05-19 1995-12-08 Sanyo Electric Co Ltd ステレオ信号処理回路
JP2988289B2 (ja) * 1994-11-15 1999-12-13 ヤマハ株式会社 音像音場制御装置
JPH10136496A (ja) * 1996-10-28 1998-05-22 Otake Masayuki ステレオ音源移動音響効果装置
JP2001189999A (ja) * 1999-12-28 2001-07-10 Asahi Kasei Microsystems Kk ステレオ感強調装置およびステレオ感強調方法
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
GB2419265B (en) * 2004-10-18 2009-03-11 Wolfson Ltd Improved audio processing
US7974418B1 (en) * 2005-02-28 2011-07-05 Texas Instruments Incorporated Virtualizer with cross-talk cancellation and reverb
US8619998B2 (en) 2006-08-07 2013-12-31 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
CN101212834A (zh) * 2006-12-30 2008-07-02 上海乐金广电电子有限公司 音频***的串扰消除装置
WO2009035615A1 (en) * 2007-09-12 2009-03-19 Dolby Laboratories Licensing Corporation Speech enhancement
CN102440003B (zh) * 2008-10-20 2016-01-27 吉诺迪奥公司 音频空间化和环境仿真
CN102804262A (zh) * 2009-06-05 2012-11-28 皇家飞利浦电子股份有限公司 音频信号的上混合
US8482947B2 (en) 2009-07-31 2013-07-09 Solarbridge Technologies, Inc. Apparatus and method for controlling DC-AC power conversion
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US9107021B2 (en) * 2010-04-30 2015-08-11 Microsoft Technology Licensing, Llc Audio spatialization using reflective room model
JP2012027101A (ja) * 2010-07-20 2012-02-09 Sharp Corp 音声再生装置、音声再生方法、プログラム、及び、記録媒体
JP5964311B2 (ja) * 2010-10-20 2016-08-03 ディーティーエス・エルエルシーDts Llc ステレオイメージ拡張システム
UA107771C2 (en) * 2011-09-29 2015-02-10 Dolby Int Ab Prediction-based fm stereo radio noise reduction
JP6007474B2 (ja) * 2011-10-07 2016-10-12 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラムおよび記録媒体
KR101287086B1 (ko) * 2011-11-04 2013-07-17 한국전자통신연구원 멀티미디어 재생 장치 및 방법
US9271102B2 (en) * 2012-08-16 2016-02-23 Turtle Beach Corporation Multi-dimensional parametric audio system and method

Also Published As

Publication number Publication date
US10057703B2 (en) 2018-08-21
JP2018038086A (ja) 2018-03-08
WO2015089468A3 (en) 2015-11-12
CN106170991B (zh) 2018-04-24
EP3081014A4 (en) 2017-08-09
KR20160113110A (ko) 2016-09-28
CN106170991A (zh) 2016-11-30
JP2017503395A (ja) 2017-01-26
US20170064481A1 (en) 2017-03-02
JP6251809B2 (ja) 2017-12-20
US20150172812A1 (en) 2015-06-18
CN108462936A (zh) 2018-08-28
WO2015089468A2 (en) 2015-06-18
US9532156B2 (en) 2016-12-27
KR101805110B1 (ko) 2017-12-05
EP3081014A2 (en) 2016-10-19

Similar Documents

Publication Publication Date Title
KR101805110B1 (ko) 사운드 스테이지 강화를 위한 장치 및 방법
US8515104B2 (en) Binaural filters for monophonic compatibility and loudspeaker compatibility
US9307338B2 (en) Upmixing method and system for multichannel audio reproduction
CN108632714B (zh) 扬声器的声音处理方法、装置及移动终端
JP2014505427A (ja) 没入型オーディオ・レンダリング・システム
US9743215B2 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US9264838B2 (en) System and method for variable decorrelation of audio signals
EP3039675A1 (en) Hybrid waveform-coded and parametric-coded speech enhancement
US20140072121A1 (en) Audio system and method therefor
EP3005362B1 (en) Apparatus and method for improving a perception of a sound signal
JP2017526265A (ja) オーディオ信号の強化のための装置と方法及び音響強化システム
US8666081B2 (en) Apparatus for processing a media signal and method thereof
US10771896B2 (en) Crosstalk cancellation for speaker-based spatial rendering
WO2018200000A1 (en) Immersive audio rendering
US11343635B2 (en) Stereo audio
US9653065B2 (en) Audio processing device, method, and program

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application