KR20210102899A - 이중 종단 미디어 인텔리전스 - Google Patents

이중 종단 미디어 인텔리전스 Download PDF

Info

Publication number
KR20210102899A
KR20210102899A KR1020217017682A KR20217017682A KR20210102899A KR 20210102899 A KR20210102899 A KR 20210102899A KR 1020217017682 A KR1020217017682 A KR 1020217017682A KR 20217017682 A KR20217017682 A KR 20217017682A KR 20210102899 A KR20210102899 A KR 20210102899A
Authority
KR
South Korea
Prior art keywords
content
audio content
classification information
file
type
Prior art date
Application number
KR1020217017682A
Other languages
English (en)
Inventor
야닝 바이
마크 윌리엄 제라드
리차드 한
마틴 월터스
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션, 돌비 인터네셔널 에이비 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20210102899A publication Critical patent/KR20210102899A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 콘텐츠를 인코딩하는 방법은 오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계, 콘텐츠 분석에 기초하여 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계, 오디오 콘텐츠 및 분류 정보를 비트스트림으로 인코딩하는 단계, 및 비트스트림을 출력하는 단계를 포함한다. 오디오 콘텐츠 및 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법으로서, 분류 정보는 오디오 콘텐츠의 콘텐츠 분류를 나타내고, 이 방법은 비트스트림을 수신하는 단계, 오디오 콘텐츠 및 분류 정보를 디코딩하는 단계, 및 분류 정보에 기초하여, 디코딩된 오디오 콘텐츠의 후처리를 수행하기 위한 후처리 모드를 선택하는 단계를 포함한다. 후처리 모드를 선택하는 단계는 분류 정보에 기초하여 디코딩된 오디오 콘텐츠의 후처리를 위한 하나 이상의 제어 가중치를 계산하는 단계를 포함할 수 있다.

Description

이중 종단 미디어 인텔리전스
본 개시내용은 오디오 콘텐츠(audio content)를 비트스트림(bitstream)으로 인코딩하는 방법들 및 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법들에 관한 것이다. 특히, 본 개시내용은 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보(classification information)가 비트스트림에서 송신되는 그러한 방법들에 관한 것이다.
오디오 신호 후처리의 인지되는 이점들은 오디오 신호 처리 알고리즘들이 처리되고 있는 콘텐츠를 인식할 때 개선될 수 있다. 예를 들어, 현재 오디오 프레임에서의 대화(dialogue)의 측정된 높은 신뢰도가 있을 때 대화 향상기(dialogue enhancer)의 정확한 대화 검출이 개선된다. 또한, 가상화기(virtualizer)는 음악 콘텐츠의 존재 시에 음악적 음색(musical timbre)을 보존하기 위해 디스에이블될 수 있거나, 음악을 음색 매칭하도록 설계된 (Dolby® 볼륨 인텔리전트 등화기(Dolby® Volume Intelligent Equalizer)와 같은) 동적 등화기는 영화에서 대화의 존재 시에 스피치(speech)의 음색을 보존하기 위해 디스에이블될 수 있다.
전형적으로, 사용자들은 그들의 재생 디바이스(playback device) 상에서 최상의 설정들을 얻기 위해 "영화" 또는 "음악"과 같은 프로파일들을 스위칭하도록 요구될 수 있지만, 이것은 종종 많은 사용자들이 알지 못하거나 불편할 수 있는 진보된 설정들 또는 UI들에 액세스하는 것을 요구한다.
이 문제를 해결하기 위한 접근법은 오디오 신호에서의 특징들을 검출하여 특정 콘텐츠 타입들이 오디오 스트림에 있을 가능성을 결정하기 위해 (예를 들어, Dolby의 미디어 인텔리전스(Dolby's Media Intelligence)와 같은) 콘텐츠 분석 툴을 이용하는 것일 것이다.
영화들 및 음악을 포함하는 다양한 콘텐츠를 재생할 수 있는 모바일 폰과 같은 현재의 재생 디바이스는 오디오 스트림에서의 특정 콘텐츠 타입들의 존재에 대한 신뢰도 값들(confidence values)을 결정하기 위해 (예를 들어, Dolby의 미디어 인텔리전스와 같은) 콘텐츠 분석 툴을 이용할 수 있다. 콘텐츠 분석 툴은 "음악", "스피치" 또는 "배경 효과들"의 존재에 대한 신뢰도 값들(신뢰도 점수들)을 반환할 수 있다. 이어서, 신뢰도 값들은 알고리즘 조정 가중치들(algorithm steering weights)을 반환하기 위해 조합하여 이용될 수 있으며, 이어서 알고리즘 조정 가중치들은 특정 후처리 특징들(예를 들어, 그것의 강도)을 제어하는데 이용될 수 있다.
전술한 방법은 디코더 내에서 또는 PCM 오디오 데이터를 취하는 별개의 후처리 라이브러리 내에서 수행될 수 있는 "단일 종단(single ended)" 솔루션이다. 이 단일 종단 구현은 후처리 알고리즘들을 조정하는데 효과적일 수 있지만, 재생 디바이스에 상당한 계산 복잡도를 부가하고, 따라서 콘텐츠 분석의 실시간 특성이 재생 디바이스 상의 적당한 능력들로 제한될 수 있다.
따라서, 오디오 콘텐츠의 콘텐츠 인식 처리(content-aware processing)를 위한 개선된 방법들 및 디바이스들이 필요하다.
본 개시내용은 각각의 독립 청구항들의 특징들을 갖는, 오디오 콘텐츠를 인코딩하는 방법들 및 오디오 콘텐츠를 디코딩하는 방법들을 제공한다.
본 개시내용의 일 양태는 오디오 콘텐츠를 인코딩하는 방법에 관한 것이다. 방법은 오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계를 포함할 수 있다. 콘텐츠 분석은, 예를 들어, Dolby의 미디어 인텔리전스 툴을 적용함으로써 수행될 수 있다. 또한, 콘텐츠 분석은 복수의 연속적인 윈도우들 각각에 대해 수행될 수 있고, 각각의 윈도우는 미리 결정된 수의 연속적인 (오디오) 프레임들을 포함한다. 이 때, 콘텐츠 분석은 오디오 콘텐츠 내의 결정가능한 특징들에 기초한 가능성/신뢰도의 하나 이상의 계산에 기초할 수 있다. 이러한 계산들은 동적일 수 있고, 특정 가능성을 증폭 또는 역증폭(de-amplify)하도록 조정될 수 있다. 더 일반적인 용어로, 콘텐츠 분석은 적응적일 수 있고/있거나 미리 결정된 오디오 콘텐츠를 이용하여 미리 트레이닝되었을 수 있다. 콘텐츠 분석은 레이턴시를 감소시키기 위해 룩어헤드 버퍼(look-ahead buffer)를 이용할 수 있다. 추가로 또는 대안으로서, 콘텐츠 분석에 요구되는 처리 시간을 수용하기 위해 인코딩 레이턴시가 도입될 수 있다. 또한, 콘텐츠 분석은 다수의 경로들로 수행될 수 있다. 방법은 콘텐츠 분석(의 결과)에 기초하여 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계를 더 포함할 수 있다. 분류 정보를 생성하는 것은 또한 오디오 콘텐츠에서의 장면 전이들의 검출(또는 장면 전이의 수동 표시)에 기초할 수 있다. 예를 들어, 분류 정보에 포함된 신뢰도 값들의 변화율(change rate)은 장면 전이가 검출/표시되는 경우 더 클 수 있다(즉, 정상 상태(steady state)에서보다 더 클 수 있다). 방법은 오디오 콘텐츠 및 분류 정보, 예를 들어, 신뢰도 값들을 비트스트림으로 인코딩하는 단계를 더 포함할 수 있다. 인코딩된 오디오 콘텐츠 및 인코딩된 분류 정보는 멀티플렉싱될 수 있다. 방법은 비트스트림을 출력하는 단계를 더 포함할 수 있다.
본 개시내용의 맥락에서, 오디오 콘텐츠의 '콘텐츠 타입'은 재생 디바이스에서 재생될 수 있고 콘텐츠 타입의 하나 이상의 오디오 특성에 의해 인간의 귀에 의해 구별될 수 있는 콘텐츠 타입을 의미한다. 예를 들어, 음악은 스피치 또는 잡음과 구별될 수 있는데, 그 이유는 상이한 오디오 주파수 대역폭, 상이한 주파수들에 걸친 오디오 신호의 상이한 전력 분포, 상이한 음색 지속기간(different tonal duration), 상이한 타입 및 수의 기본 주파수 및 우세 주파수 등을 포함하기 때문이다.
인코더측에서 콘텐츠 분석을 수행하고, 결과적인 분류 정보를 비트스트림으로 인코딩함으로써, 디코더에 대한 계산 부담이 상당히 완화될 수 있다. 추가적으로, 인코더의 우수한 계산 능력들이 보다 복잡하고 보다 정확한 콘텐츠 분석을 수행하는데 이용될 수 있다. 인코더 및 디코더의 상이한 계산 능력들을 충족시키는 것 외에도, 제안된 방법은 디코딩된 오디오의 오디오 후처리에서의 추가적인 유연성을 디코더측에 제공한다. 예를 들어, 후처리는 디코더를 구현하는 디바이스의 디바이스 타입 및/또는 사용자의 개인 선호도들에 따라 맞춤화될 수 있다.
일부 실시예들에서, 콘텐츠 분석은 오디오 콘텐츠에 대한 메타데이터에 적어도 부분적으로 기초할 수 있다. 그에 의해, 예를 들어, 콘텐츠 생성자에 의한 콘텐츠 분석에 대한 추가적인 제어가 제공된다. 동시에, 적절한 메타데이터를 제공함으로써 콘텐츠 분석의 정확도가 향상될 수 있다.
본 개시내용의 다른 양태는 오디오 콘텐츠를 인코딩하는 추가 방법에 관한 것이다. 방법은 오디오 콘텐츠의 콘텐츠 타입에 관한 사용자 입력을 수신하는 단계를 포함할 수 있다. 사용자 입력은, 예를 들어, 수동 라벨들 또는 수동 신뢰도 값들을 포함할 수 있다. 방법은 사용자 입력에 기초하여 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계를 더 포함할 수 있다. 방법은 오디오 콘텐츠 및 분류 정보를 비트스트림으로 인코딩하는 단계를 더 포함할 수 있다. 예를 들어, 라벨들 또는 신뢰도 값들은 비트스트림에 인코딩될 수 있다. 방법은 비트스트림을 출력하는 단계를 더 포함할 수 있다. 이 방법에 의해, 예를 들어, 콘텐츠 생성자에 의한 콘텐츠 분석에 대한 추가적인 제어가 제공된다.
일부 실시예들에서, 사용자 입력은 주어진 콘텐츠 타입일 오디오 콘텐츠를 표시하는 라벨, 및 하나 이상의 신뢰도 값 중 하나 이상을 포함할 수 있고, 각각의 신뢰도 값은 개개의 콘텐츠 타입과 연관되고, 오디오 콘텐츠가 개개의 콘텐츠 타입일 가능성의 표시를 제공한다. 그에 의해, 인코더의 사용자에게는 디코더측에서 수행되는 후처리에 대한 추가적인 제어가 주어질 수 있다. 이것은, 예를 들어, 콘텐츠 생성자의 예술적 의도가 후처리에 의해 보존되는 것을 보장하는 것을 가능하게 한다.
본 개시내용의 다른 양태는 오디오 콘텐츠를 인코딩하는 추가 방법에 관한 것이다. 오디오 콘텐츠는 오디오 프로그램의 일부로서 오디오 콘텐츠의 스트림에 제공될 수 있다. 방법은 오디오 콘텐츠의 서비스 타입(예를 들어, 오디오 프로그램 타입)을 표시하는 서비스 타입 표시를 수신하는 단계를 포함할 수 있다. 서비스 타입은, 예를 들어, 음악 서비스 또는 뉴스(뉴스캐스트(newscast)) 서비스/채널일 수 있다. 방법은 서비스 타입 표시에 적어도 부분적으로 기초하여 오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계를 더 포함할 수 있다. 방법은 콘텐츠 분석(의 결과)에 기초하여 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계를 더 포함할 수 있다. 분류 정보의 예들로서, 신뢰도 값들은 또한 오디오 콘텐츠와 함께 콘텐츠 생성자에 의해 직접 제공될 수 있다. 예를 들어, 콘텐츠 생성자에 의해 제공되는 신뢰도 값들 등이 고려되는지 여부는 서비스 타입 표시에 의존할 수 있다. 방법은 오디오 콘텐츠 및 분류 정보를 비트스트림으로 인코딩하는 단계를 더 포함할 수 있다. 방법은 비트스트림을 출력하는 단계를 더 포함할 수 있다.
서비스 타입 표시를 고려함으로써, 인코더는 콘텐츠 분석을 수행하는데 도움을 받을 수 있다. 더욱이, 인코더측의 사용자에게는 디코더측 오디오 후처리에 대한 추가적인 제어가 주어질 수 있으며, 이는 예를 들어 콘텐츠 생성자의 예술적 의도가 후처리에 의해 보존되는 것을 보장할 수 있게 한다.
일부 실시예들에서, 방법은, 서비스 타입 표시에 기초하여, 오디오 콘텐츠의 서비스 타입이 음악 서비스인지를 결정하는 단계를 더 포함할 수 있다. 방법은 또한, 오디오 콘텐츠의 서비스 타입이 음악 서비스라는 결정에 응답하여, 오디오 콘텐츠의 콘텐츠 타입이 음악 콘텐츠(콘텐츠 타입 "음악")라는 것을 나타내는 분류 정보를 생성하는 단계를 더 포함할 수 있다. 이것은 콘텐츠 타입 "음악"에 대한 신뢰도 값을 최고 가능한 값(예를 들어, 1)으로 설정하는 한편, 임의의 다른 신뢰도 값들을 0으로 설정하는 것에 해당할 수 있다.
일부 실시예들에서, 방법은, 서비스 타입 표시에 기초하여, 오디오 콘텐츠의 서비스 타입이 뉴스캐스트 서비스인지를 결정하는 단계를 더 포함할 수 있다. 방법은, 오디오 콘텐츠의 서비스 타입이 뉴스캐스트 서비스라는 결정에 응답하여, 오디오 콘텐츠가 스피치 콘텐츠임을 나타낼 더 높은 가능성을 갖도록 콘텐츠 분석을 적응시키는 단계를 더 포함할 수 있다. 이것은 콘텐츠 분석의 결과에서 스피치 콘텐츠(콘텐츠 타입 "스피치")에 대한 가능성/신뢰도를 증가시키기 위해 콘텐츠 분석의 하나 이상의 계산(계산 알고리즘)을 적응시킴으로써 및/또는 스피치 콘텐츠 이외의 콘텐츠 타입들에 대한 가능성들/신뢰도들을 감소시키기 위해 콘텐츠 분석의 하나 이상의 계산을 적응시킴으로써 달성될 수 있다.
일부 실시예들에서, 서비스 타입 표시는 프레임별 기준으로 제공될 수 있다.
본 개시내용의 다른 양태는 오디오 콘텐츠를 인코딩하는 추가 방법에 관한 것이다. 오디오 콘텐츠는 파일 기준으로 제공될 수 있다. 방법은 파일 기준으로 수행될 수 있다. 파일들은 그들 개개의 오디오 콘텐츠에 대한 메타데이터를 포함할 수 있다. 메타데이터는 마커들, 라벨들, 태그들 등을 포함할 수 있다. 방법은 오디오 콘텐츠에 대한 메타데이터에 적어도 부분적으로 기초하여 오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계를 포함할 수 있다. 방법은 콘텐츠 분석(의 결과)에 기초하여 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계를 더 포함할 수 있다. 방법은 오디오 콘텐츠 및 분류 정보를 비트스트림으로 인코딩하는 단계를 더 포함할 수 있다. 방법은 비트스트림을 출력하는 단계를 더 포함할 수 있다.
파일 메타데이터를 고려함으로써, 인코더는 콘텐츠 분석을 수행하는데 도움을 받을 수 있다. 더욱이, 인코더측에서의 사용자에게는 디코더측 오디오 후처리에 대한 추가적인 제어가 주어질 수 있으며, 이는 예를 들어 콘텐츠 생성자의 예술적 의도가 후처리에 의해 보존되는 것을 보장할 수 있게 한다.
일부 실시예들에서, 메타데이터는 파일의 파일 콘텐츠 타입을 표시하는 파일 콘텐츠 타입 표시를 포함할 수 있다. 파일 콘텐츠 타입은 음악 파일(파일 콘텐츠 타입 "음악 파일"), 뉴스캐스트 파일/클립(파일 콘텐츠 타입 "뉴스캐스트 파일"), 또는 동적(비-정적, 또는 혼합-소스) 콘텐츠(예를 들어, 구두 장면들(spoken scenes)과 음악/노래 장면들 사이에서, 예를 들어, 몇 분마다 한 번씩 빈번하게 전이하는 영화의 음악 장르; 파일 콘텐츠 타입 "동적 콘텐츠")를 포함하는 파일일 수 있다. 파일 콘텐츠 타입은 전체 파일에 대해 동일(균일)할 수 있거나, 파일의 부분들 사이에서 변할 수 있다. 이어서, 콘텐츠 분석은 파일 콘텐츠 타입 표시에 적어도 부분적으로 기초할 수 있다.
일부 실시예들에서, 방법은, 파일 콘텐츠 타입 표시에 기초하여, 파일의 파일 콘텐츠 타입이 음악 파일인지를 결정하는 단계를 더 포함할 수 있다. 방법은 또한, 파일의 파일 콘텐츠 타입이 음악 파일이라는 결정에 응답하여, 오디오 콘텐츠의 콘텐츠 타입이 음악 콘텐츠라는 것을 나타내는 분류 정보를 생성하는 단계를 더 포함할 수 있다.
일부 실시예들에서, 방법은, 파일 콘텐츠 타입 표시에 기초하여, 파일의 파일 콘텐츠 타입이 뉴스캐스트 파일인지를 결정하는 단계를 더 포함할 수 있다. 방법은, 파일의 파일 콘텐츠 타입이 뉴스캐스트 파일이라는 결정에 응답하여, 오디오 콘텐츠가 스피치 콘텐츠임을 나타낼 더 높은 가능성을 갖도록 콘텐츠 분석을 적응시키는 단계를 더 포함할 수 있다. 이것은 콘텐츠 분석에서 스피치 콘텐츠에 대한 가능성/신뢰도를 증가시키기 위해 콘텐츠 분석의 하나 이상의 계산(계산 알고리즘)을 적응시킴으로써 및/또는 스피치 콘텐츠 이외의 콘텐츠 타입들에 대한 가능성들/신뢰도들을 감소시키기 위해 하나 이상의 계산을 적응시킴으로써 달성될 수 있다.
일부 실시예들에서, 방법은, 파일 콘텐츠 타입 표시에 기초하여, 파일의 파일 콘텐츠 타입이 동적 콘텐츠인지를 결정하는 단계를 더 포함할 수 있다. 방법은, 파일의 파일 콘텐츠 타입이 동적 콘텐츠라는 결정에 응답하여, 상이한 콘텐츠 타입들 사이의 더 높은 전이율을 허용하도록 콘텐츠 분석을 적응시키는 단계를 더 포함할 수 있다. 예를 들어, 콘텐츠 타입은 콘텐츠 타입들 사이에서, 예를 들어, 음악과 비음악 사이에서 더 빈번하게 (즉, 정상 상태에 대해서보다 더 빈번하게) 전이하도록 허용될 수 있다. 또한, 분류 정보의 평활화(시간 평활화)는 동적 콘텐츠(즉, 동적 파일 콘텐츠)에 대해 디스에이블될 수 있다.
일부 실시예들에서, 상기의 양태들 또는 실시예들 중 임의의 것에 따른 방법에서, 분류 정보는 하나 이상의 신뢰도 값을 포함할 수 있다. 각각의 신뢰도 값은 개개의 콘텐츠 타입과 연관될 수 있고, 오디오 콘텐츠가 개개의 콘텐츠 타입일 가능성의 표시를 제공할 수 있다.
일부 실시예들에서, 상기의 양태들 또는 실시예들 중 임의의 것에 따른 방법에서, 콘텐츠 타입들은 음악 콘텐츠, 스피치 콘텐츠, 또는 효과들(예를 들어, 배경 효과들) 콘텐츠 중 하나 이상을 포함할 수 있다. 콘텐츠 타입들은 군중 잡음(crowd noise)/환호성(cheering)을 더 포함할 수 있다.
일부 실시예들에서, 상기의 양태들 또는 실시예들 중 임의의 것에 따른 방법은 오디오 콘텐츠에서의 장면 전이들의 표시를 비트스트림으로 인코딩하는 단계를 더 포함할 수 있다. 장면 전이들의 표시는 개개의 장면 전이를 각각 표시하는 하나 이상의 장면 리셋 플래그를 포함할 수 있다. 장면 전이들은 인코더에서 검출될 수 있거나, 예를 들어, 콘텐츠 생성자에 의해 외부적으로 제공될 수 있다. 방법은, 전자의 경우에, 오디오 콘텐츠에서 장면 전이들을 검출하는 단계, 및 후자의 경우에, 오디오 콘텐츠에서 장면 전이들의 (수동) 표시를 수신하는 단계를 포함할 것이다. 비트스트림에서의 장면 전이들을 표시함으로써, 장면 전이들에 걸친 부적절한 후처리로부터 발생할 수 있는 디코더측에서의 가청 아티팩트들(audible artifacts)이 회피될 수 있다.
일부 실시예들에서, 상기의 양태들 또는 실시예들 중 임의의 것에 따른 방법은 인코딩 전에 분류 정보의 평활화(시간 평활화)를 더 포함할 수 있다. 예를 들어, 신뢰도 값들은 시간에 걸쳐 평활화될 수 있다. 평활화는 상황들에 따라, 예를 들어, 장면 전이들에서, 동적(비-정적)인 것으로서 플래그된 오디오 콘텐츠에 대해, 제어 입력/메타데이터 등에 따라 디스에이블될 수 있다. 분류 정보를 평활화함으로써, 디코더측 오디오 후처리의 안정성/연속성이 향상될 수 있다.
일부 실시예들에서, 상기의 양태들 또는 실시예들 중 임의의 것에 따른 방법은 인코딩 전에 분류 정보를 양자화하는 단계를 더 포함할 수 있다. 예를 들어, 신뢰도 값들은 양자화될 수 있다. 그에 의해, 비트스트림에서 분류 정보를 송신하는데 필요한 대역폭이 감소될 수 있다.
일부 실시예들에서, 상기의 양태들 또는 실시예들 중 임의의 것에 따른 방법은 분류 정보를 비트스트림의 패킷에서의 특정 데이터 필드로 인코딩하는 단계를 더 포함할 수 있다. 비트스트림은, 예를 들어, AC-4(Dolby® AC-4) 비트스트림일 수 있다. 특정 데이터 필드는 미디어 인텔리전스(MI) 데이터 필드일 수 있다. MI 데이터 필드는 다음의 필드들: b_mi_data_present, music_confidence, speech_confidence, effects_confidence, b_prog_switch, b_more_mi_data_present, more_mi_data 중 임의의 것, 일부, 또는 전부를 포함할 수 있다.
본 개시내용의 다른 양태는 오디오 콘텐츠 및 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법에 관한 것이다. 분류 정보는 오디오 콘텐츠의 콘텐츠 분류를 나타낼 수 있다. 콘텐츠 분류는, 예를 들어, 콘텐츠 분석 및 선택적으로 오디오 콘텐츠의 콘텐츠 타입에 관한 사용자 입력에 기초할 수 있다(콘텐츠 분석 및 입력을 제공하는 사용자는 인코더에서 수행된다). 방법은 비트스트림을 수신하는 단계를 포함할 수 있다. 방법은 오디오 콘텐츠 및 분류 정보를 디코딩하는 단계를 더 포함할 수 있다. 방법은 분류 정보에 기초하여, 디코딩된 오디오 콘텐츠의 후처리를 수행하기 위한 후처리 모드를 선택하는 단계를 더 포함할 수 있다. 즉, 디코딩 방법은 분류 정보에 기초하여 디코딩된 오디오 콘텐츠의 후처리를 선택할 수 있다.
분류 정보를 디코더에 제공하는 것은 디코더가 콘텐츠 분석을 포기할 수 있게 하며, 이는 디코더에 대한 계산 부담을 상당히 완화시킨다. 더욱이, 분류 정보에 기초하여 적절한 후처리 모드를 결정할 수 있는 추가적인 유연성이 디코더에 주어진다. 그렇게 함에 있어서, 디바이스 타입 및 사용자의 선호들과 같은 추가적인 정보가 고려될 수 있다.
일부 실시예들에서, 디코딩 방법은 분류 정보에 기초하여 디코딩된 오디오 콘텐츠의 후처리를 위한 하나 이상의 제어 가중치를 계산하는 단계를 더 포함할 수 있다.
일부 실시예들에서, 후처리 모드의 선택은 사용자 입력에 추가로 기초할 수 있다.
일부 실시예들에서, 오디오 콘텐츠는 채널 기반이다. 예를 들어, 오디오 콘텐츠는 2개 이상의 채널 오디오 콘텐츠일 수 있다. 디코딩된 오디오 콘텐츠의 후처리는 채널 기반 오디오 콘텐츠를 업믹싱된(upmixed) 채널 기반 오디오 콘텐츠로 업믹싱하는 것을 포함할 수 있다. 예를 들어, 2-채널 기반 오디오 콘텐츠는 5.1-채널, 7.1-채널 또는 9.1-채널 오디오 콘텐츠로 업믹싱될 수 있다. 방법은 원하는 수의 채널들의 스피커 어레이에 대한 가상화를 위한 가상화된 업믹싱된 채널 기반 오디오 콘텐츠를 획득하기 위해 업믹싱된 채널 기반 오디오 콘텐츠에 가상화기를 적용하는 단계를 더 포함할 수 있다. 예를 들어, 가상화는 업믹싱된 5.1-채널, 7.1-채널 또는 9.1-채널 오디오 콘텐츠를 2-채널 스피커 어레이, 예를 들어, 헤드폰에 제공할 수 있다. 그러나, 가상화는 또한 업믹싱된 5.1-채널 오디오 콘텐츠를 2-채널 또는 5.1-채널 스피커 어레이에, 업믹싱된 7.1-채널 오디오 콘텐츠를 2-채널, 5.1 또는 7.1-채널 스피커 어레이에, 그리고 업믹싱된 9.1-채널 오디오 콘텐츠를 2-채널, 5.1, 7.1, 또는 9.1-채널 스피커 어레이에 제공할 수 있다.
일부 실시예들에서, 방법은 분류 정보에 기초하여 디코딩된 오디오 콘텐츠의 후처리를 위한 하나 이상의 제어 가중치를 계산하는 단계를 더 포함할 수 있다.
일부 실시예들에서, (디코더에 의해 수신된 비트스트림에 인코딩된) 분류 정보는 하나 이상의 신뢰도 값을 포함할 수 있고, 각각의 신뢰도 값은 개개의 콘텐츠 타입과 연관되고, 오디오 콘텐츠가 개개의 콘텐츠 타입일 가능성의 표시를 제공한다. 제어 가중치들은 신뢰도 값들에 기초하여 계산될 수 있다.
일부 실시예에서, 방법은 가상화기의 출력을 스피커 어레이로 라우팅하는 단계, 및 분류 정보에 기초하여 업믹서 및 가상화기에 대한 개개의 제어 가중치들을 계산하는 단계를 더 포함할 수 있다.
일부 실시예들에서, 방법은 가상화기를 적용한 후에, 채널 기반 오디오 콘텐츠 및 가상화된 업믹싱된 오디오 콘텐츠에 크로스 페이더(cross fader)를 적용하고, 크로스 페이더의 출력을 스피커 어레이로 라우팅하는 단계를 더 포함할 수 있다. 본 실시예에서, 방법은 분류 정보에 기초하여 업믹서 및 크로스 페이더에 대한 개개의 제어 가중치들을 계산하는 단계를 더 포함할 수 있다.
일부 실시예들에서, 제어 가중치들은 업믹서, 크로스 페이더 또는 가상화기 이외의 모듈들을 제어하기 위한 것일 수 있다. 유사하게, 제어 가중치들을 계산하는 몇가지 대안적인 방법들이 가능하다. 제어 가중치들의 수 및 타입들 및 그의 계산 방법들에 관련된 실시예가 본 개시내용의 이하의 다른 양상과 관련하여 아래에서 설명된다. 그러나, 이러한 실시예들은 본 개시내용의 다음의 양태로 제한되지 않고, 본 문서에 개시된 오디오 콘텐츠를 디코딩하는 임의의 방법에 적용될 수 있다.
본 개시내용의 다른 양태는 오디오 콘텐츠 및 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 추가 방법에 관한 것이다. 분류 정보는 오디오 콘텐츠의 콘텐츠 분류를 나타낼 수 있다. 방법은 비트스트림을 수신하는 단계를 포함할 수 있다. 방법은 오디오 콘텐츠 및 분류 정보를 디코딩하는 단계를 더 포함할 수 있다. 방법은 분류 정보에 기초하여 디코딩된 오디오 콘텐츠의 후처리를 위한 하나 이상의 제어 가중치를 계산하는 단계를 더 포함할 수 있다. 제어 가중치들은 후처리 알고리즘들/모듈들에 대한 제어 가중치들일 수 있고, 알고리즘 조정 가중치들이라고 지칭될 수 있다. 제어 가중치들은 개개의 후처리 알고리즘들의 강도를 제어할 수 있다.
일부 실시예들에서, 분류 정보는 하나 이상의 신뢰도 값을 포함할 수 있고, 각각의 신뢰도 값은 개개의 콘텐츠 타입과 연관되고, 오디오 콘텐츠가 개개의 콘텐츠 타입일 가능성의 표시를 제공한다. 제어 가중치들은 신뢰도 값들에 기초하여 계산될 수 있다.
일부 실시예들에서, 제어 가중치들은 디코딩된 오디오 콘텐츠의 후처리를 위한 개개의 모듈들(알고리즘들)에 대한 제어 가중치들일 수 있다. 후처리를 위한 모듈들(알고리즘들)은, 예를 들어, (인텔리전트/동적) 등화기, (적응형) 가상화기, 서라운드 처리 모듈, 대화 향상기, 업믹서, 및 크로스 페이더 중 하나 이상을 포함할 수 있다.
일부 실시예들에서, 제어 가중치들은 등화기에 대한 제어 가중치, 가상화기에 대한 제어 가중치, 서라운드 프로세서에 대한 제어 가중치, 대화 향상기에 대한 제어 가중치, 업믹서에 대한 제어 가중치, 및 크로스 페이더에 대한 제어 가중치 중 하나 이상을 포함할 수 있다. 등화기는, 예를 들어, 인텔리전트 등화기, 즉, IEQ일 수 있다. 가상화기는, 예를 들어, 적응형 가상화기일 수 있다.
일부 실시예들에서, 제어 가중치들의 계산은 디코딩을 수행하는 디바이스의 디바이스 타입에 의존할 수 있다. 즉, 계산은 종단점 특정적(end-point specific)이거나 개인화될 수 있다. 예를 들어, 디코더측은 후처리를 위한 종단점 특정적 프로세스들/모듈들/알고리즘들의 세트를 구현할 수 있고, 이러한 프로세스들/모듈들/알고리즘들에 대한 파라미터들(제어 가중치들)은 종단점 특정적 방식으로 신뢰도 값들에 기초하여 결정될 수 있다. 그에 의해, 오디오 후처리를 수행할 때 개개의 디바이스들의 특정 능력들이 고려될 수 있다. 예를 들어, 상이한 후처리가 모바일 디바이스 및 사운드바 디바이스에 의해 적용될 수 있다.
일부 실시예들에서, 제어 가중치들의 계산은 사용자 입력에 추가로 기초할 수 있다. 사용자 입력은 신뢰도-값-기반 계산을 오버라이드(override)하거나 부분적으로 오버라이드할 수 있다. 예를 들어, 가상화는 사용자가 원한다면 스피치에 적용될 수 있거나, 스테레오 확장(stereo widening), 업믹싱, 및/또는 가상화는 사용자가 원한다면 PC 사용자에 적용될 수 있다.
일부 실시예들에서, 제어 가중치들의 계산은 오디오 콘텐츠의 채널들의 수에 추가로 기초할 수 있다. 또한, 제어 가중치들의 계산은 하나 이상의 비트스트림 파라미터(예를 들어, 비트스트림에 의해 운반되고 비트스트림으로부터 추출가능한 파라미터)에 추가로 기초할 수 있다.
일부 실시예들에서, 방법은 (예를 들어, 인코더측에 의해 고려되지 않은 콘텐츠 타입들에 대한) 하나 이상의 추가적인 신뢰도 값을 결정하기 위해 오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계를 포함할 수 있다. 이 콘텐츠 분석은 인코더측과 관련하여 전술한 것과 동일한 방식으로 진행될 수 있다. 그 후, 제어 가중치들의 계산은 하나 이상의 추가적인 신뢰도 값에 추가로 기초할 수 있다.
일부 실시예들에서, 제어 가중치들은 가상화기에 대한 제어 가중치를 포함할 수 있다. 가상화기에 대한 제어 가중치는 분류 정보가 오디오 콘텐츠의 콘텐츠 타입이 음악이거나 음악일 가능성이 있음을 나타내는 경우 가상화기가 디스에이블되도록 계산될 수 있다. 이것은, 예를 들어, 음악에 대한 신뢰도 값이 주어진 임계값을 초과하는 경우일 수 있다. 이에 의해, 음악적 음색이 보존될 수 있다.
일부 실시예들에서, 가상화기에 대한 제어 가중치는 가상화기의 계수들이 통과(pass through) 가상화와 전체(full) 가상화 사이에서 스케일링되도록 계산될 수 있다. 예를 들어, 가상화기에 대한 제어 가중치는 1-music_confidence*{1-max[effects_confidence,speech_confidence]^2}로서 계산될 수 있다. 일부 실시예들에서, 가상화기에 대한 제어 가중치는 추가로, 오디오 콘텐츠에서의 채널들의 수(즉, 채널 카운트) 또는 다른 비트스트림 파라미터(들)에 의존할 수 있다(예를 들어, 그에 기초하여 결정될 수 있다). 예를 들어, 가상화를 위한 제어 가중치(가중 인자)는 스테레오 콘텐츠에 대한 신뢰도 값들에만 기초하여 결정될 수 있고, 고정된 제어 가중치(예를 들어, 1과 동일함)는 스테레오 콘텐츠 이외의 모든 멀티-채널 콘텐츠에 (즉, 2를 초과하는 채널들의 수에 대해) 적용될 수 있다.
일부 실시예들에서, 제어 가중치들은 대화 향상기에 대한 제어 가중치를 포함할 수 있다. 대화 향상기에 대한 제어 가중치는 분류 정보가 오디오 콘텐츠의 콘텐츠 타입이 스피치이거나 스피치일 가능성이 있음을 나타내는 경우 대화 향상기에 의한 대화 향상이 가능화/향상되도록 계산될 수 있다. 이것은, 예를 들어, 스피치에 대한 신뢰도 값이 주어진 임계값을 초과하는 경우일 수 있다. 이에 의해, 대화 향상은 계산 능력을 보존하는 동시에, 그것으로부터 실제로 이익을 얻는 오디오 콘텐츠의 섹션들로 제한될 수 있다.
일부 실시예들에서, 제어 가중치들은 동적 등화기에 대한 제어 가중치를 포함할 수 있다. 동적 등화기에 대한 제어 가중치는 분류 정보가 오디오 콘텐츠의 콘텐츠 타입이 스피치이거나 스피치일 가능성이 있음을 나타내는 경우 동적 등화기가 디스에이블되도록 계산될 수 있다. 이것은, 예를 들어, 스피치에 대한 신뢰도 값이 주어진 임계값을 초과하는 경우일 수 있다. 이에 의해, 스피치의 음색의 원치 않는 변경이 회피될 수 있다.
일부 실시예들에서, 방법은 제어 가중치들의 평활화(시간 평활화)를 더 포함할 수 있다. 평활화는 상황들에 따라, 예를 들어, 장면 전이들에서, 동적(비-정적)인 것으로서 플래그된 오디오 콘텐츠에 대해, 제어 입력/메타데이터 등에 따라 디스에이블될 수 있다. 제어 가중치들의 평활화는 오디오 후처리의 안정성/연속성을 개선할 수 있다.
일부 실시예들에서, 제어 가중치들의 평활화는 평활화되는 특정 제어 가중치에 의존할 수 있다. 즉, 평활화는 적어도 2개의 제어 가중치들 사이에서 상이할 수 있다. 예를 들어, 대화 향상기 제어 가중치에 대한 평활화가 없거나 거의 없을 수 있고/있거나 가상화기 제어 가중치에 대한 더 강한 평활화가 있을 수 있다.
일부 실시예들에서, 제어 가중치들의 평활화는 디코딩을 수행하는 디바이스의 디바이스 타입에 의존할 수 있다. 예를 들어, 모바일 폰과 TV 세트 사이에 가상화기 제어 가중치의 상이한 평활화가 있을 수 있다.
일부 실시예에서, 방법은 제어 가중치들의 연속성(예를 들어, 안정성)을 증가시키기 위해 제어 가중치에 비선형 맵핑 함수를 적용하는 단계를 더 포함할 수 있다. 이것은, 예를 들어, 시그모이드 함수(sigmoid function)와 같이, 이미지 범위의 경계들에 더 가까운 제어 가중치들의 도메인 범위의 경계들에 가까운 값들을 맵핑하는 제어 가중치들에 맵핑 함수를 적용하는 것을 포함할 수 있다. 그에 의해, 오디오 후처리의 안정성/연속성이 더 개선될 수 있다.
본 개시내용의 다른 양태는 2-채널 오디오 콘텐츠 및 2-채널 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법에 관한 것이다. 비트스트림은, 예를 들어, AC-4 비트스트림일 수 있다. 분류 정보는 2-채널 오디오 콘텐츠의 콘텐츠 분류를 나타낼 수 있다. 방법은 비트스트림을 수신하는 단계를 포함할 수 있다. 방법은 2-채널 오디오 콘텐츠 및 분류 정보를 디코딩하는 단계를 더 포함할 수 있다. 방법은 2-채널 오디오 콘텐츠를 업믹싱된 5.1-채널 오디오 콘텐츠로 업믹싱하는 단계를 더 포함할 수 있다. 방법은 2-채널 스피커 어레이에 대한 5.1 가상화를 위해 업믹싱된 5.1-채널 오디오 콘텐츠에 가상화기를 적용하는 단계를 더 포함할 수 있다. 방법은 2-채널 오디오 콘텐츠 및 가상화된 업믹싱된 5.1-채널 오디오 콘텐츠에 크로스 페이더를 적용하는 단계를 더 포함할 수 있다. 방법은 크로스 페이더의 출력을 2-채널 스피커 어레이로 라우팅하는 단계를 더 포함할 수 있다. 이 때, 이 방법은 분류 정보에 기초하여 가상화기 및/또는 크로스 페이더에 대한 개개의 제어 가중치들을 계산하는 단계를 포함할 수 있다. 가상화기 및 크로스 페이더는 그들 개개의 제어 가중치들의 제어 하에서 동작할 수 있다.
본 개시내용의 다른 양태는 2-채널 오디오 콘텐츠 및 2-채널 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 추가 방법에 관한 것이다. 비트스트림은, 예를 들어, AC-4 비트스트림일 수 있다. 분류 정보는 2-채널 오디오 콘텐츠의 콘텐츠 분류를 나타낼 수 있다. 방법은 비트스트림을 수신하는 단계를 포함할 수 있다. 방법은 2-채널 오디오 콘텐츠 및 분류 정보를 디코딩하는 단계를 더 포함할 수 있다. 방법은 2-채널 오디오 콘텐츠를 업믹싱된 5.1-채널 오디오 콘텐츠로 업믹싱하기 위해 2-채널 오디오 콘텐츠에 업믹서를 적용하는 단계를 더 포함할 수 있다. 방법은 5-채널 스피커 어레이에 대한 5.1 가상화를 위해 업믹싱된 5.1-채널 오디오 콘텐츠에 가상화기를 적용하는 단계를 더 포함할 수 있다. 방법은 또한 가상화기의 출력을 5-채널 스피커 어레이로 라우팅하는 단계를 더 포함할 수 있다. 이 때, 방법은 분류 정보에 기초하여 업믹서 및/또는 가상화기에 대한 개개의 제어 가중치들을 계산하는 단계를 포함할 수 있다. 업믹서 및 가상화기는 그들 개개의 제어 가중치들의 제어 하에서 동작할 수 있다. 업믹서에 대한 제어 가중치는 업믹스 가중치와 관련될 수 있다.
다른 양태는 프로세서에 대한 명령어들을 저장하는 메모리에 결합된 프로세서를 포함하는 장치(예를 들어, 인코더 또는 디코더)에 관한 것이다. 프로세서는 상기의 양태들 및 그들의 실시예들 중 임의의 것에 따른 방법들을 수행하도록 적응될 수 있다.
추가의 양태들은 명령어들을 실행하는 프로세서로 하여금 상기의 양태들 및 그들의 실시예들 중 임의의 것에 따른 방법들을 수행하게 하는 명령어들을 포함하는 컴퓨터 프로그램들, 및 이러한 컴퓨터 프로그램들을 저장하는 개개의 컴퓨터 판독가능 저장 매체에 관한 것이다.
본 개시내용의 예시적인 실시예들이 첨부 도면들을 참조하여 아래에 설명되며, 유사한 참조 번호들은 비슷하거나 유사한 요소들을 나타낸다.
도 1은 본 개시내용의 실시예들에 따른, 인코더-디코더 시스템의 예를 개략적으로 도시한다.
도 2는 본 개시내용의 실시예들이 적용될 수 있는 비트스트림의 예를 개략적으로 도시한다.
도 3은 본 개시내용의 실시예들에 따른, 오디오 콘텐츠의 분류 정보를 저장하기 위한 데이터 필드의 예를 개략적으로 도시한다.
도 4는 본 개시내용의 실시예들에 따른, 오디오 콘텐츠를 인코딩하는 방법의 예를 흐름도 형태로 개략적으로 도시한다.
도 5는 본 개시내용의 실시예들에 따른, 오디오 콘텐츠의 콘텐츠 분석의 예를 개략적으로 도시한다.
도 6은 본 개시내용의 실시예들에 따른, 오디오 콘텐츠를 인코딩하는 방법의 다른 예를 흐름도 형태로 개략적으로 도시한다.
도 7은 본 개시내용의 실시예들에 따른, 오디오 콘텐츠를 인코딩하는 방법의 다른 예를 흐름도 형태로 개략적으로 도시한다.
도 8은 본 개시내용의 실시예들에 따른, 오디오 콘텐츠의 콘텐츠 분석의 다른 예를 개략적으로 도시한다.
도 9는 본 개시내용의 실시예들에 따른, 오디오 콘텐츠를 인코딩하는 방법의 또 다른 예를 흐름도 형태로 개략적으로 도시한다.
도 10은 본 개시내용의 실시예들에 따른, 오디오 콘텐츠의 콘텐츠 분석의 또 다른 예를 개략적으로 도시한다.
도 11은 본 개시내용의 실시예들에 따른, 오디오 콘텐츠를 디코딩하는 방법의 예를 흐름도 형태로 개략적으로 도시한다.
도 12는 본 개시내용의 실시예들에 따른, 오디오 콘텐츠를 디코딩하는 방법의 다른 예를 흐름도 형태로 개략적으로 도시한다.
도 13은 본 개시내용의 실시예들에 따른, 제어 가중치 계산의 예를 개략적으로 도시한다.
도 14는 본 개시내용의 실시예들에 따른, 오디오 콘텐츠를 디코딩하는 방법의 다른 예를 흐름도 형태로 개략적으로 도시한다.
도 15는 본 개시내용의 실시예들에 따른, 디코더에서의 제어 가중치들의 이용의 예를 개략적으로 도시한다.
도 16은 본 개시내용의 실시예들에 따른, 오디오 콘텐츠를 디코딩하는 방법의 또 다른 예를 흐름도 형태로 개략적으로 도시한다.
도 17은 본 개시내용의 실시예들에 따른, 디코더에서의 제어 가중치들의 이용의 다른 예를 개략적으로 도시한다.
전술한 바와 같이, 본 개시내용에서 동일하거나 비슷한 참조 번호들은 동일하거나 비슷한 요소들을 나타내며, 그것의 반복된 설명은 간결성을 위해 생략될 수 있다.
대체로, 본 개시내용은 오디오 디코더로부터 오디오 인코더로의 콘텐츠 분석의 전송을 제안하고, 그에 의해 오디오 후처리에 대한 이중 종단 접근법(dual-ended approach)을 생성한다. 즉, 콘텐츠 분석 모듈의 적어도 일부는 디코더로부터 인코더로 이동되고, 오디오 스트림(비트스트림)은 인코더에서의 콘텐츠 분석 모듈(의 일부)에 의해 생성된 분류 정보(예를 들어, 신뢰도 값들, 신뢰도 라벨들, 또는 신뢰도 점수들)를 운반하도록 업데이트된다. 가중치 계산은 오디오 스트림과 함께 수신된 분류 정보에 기초하여 동작하는 디코더에 남겨진다.
상기의 방식을 구현하는 인코더-디코더 시스템(100)의 예가 도 1에 블록도 형태로 도시되어 있다. 인코더-디코더 시스템(100)은 (오디오) 인코더(105) 및 (오디오) 디코더(115)를 포함한다. 후술하는 인코더(105) 및 디코더(115)의 모듈들은, 예를 들어, 개개의 컴퓨팅 디바이스들의 개개의 프로세서들에 의해 구현될 수 있다는 것이 이해된다.
인코더(105)는 콘텐츠 분석 모듈(120) 및 멀티플렉서(130)를 포함한다. 따라서, 전술한 바와 같이, 콘텐츠 분석은 이제 인코더 스테이지의 일부이다. 인코더(105)는, 가능하게는 연관된 메타데이터 및/또는 사용자 입력과 함께, 인코딩될 입력 오디오 콘텐츠(101)를 수신한다. 입력 오디오 콘텐츠(101)는 콘텐츠 분석 모듈(120) 및 멀티플렉서(130)에 제공된다. 콘텐츠 분석 모듈(120)은 (예를 들어, Dolby의 미디어 인텔리전스 툴을 적용함으로써) 오디오 콘텐츠(101)의 콘텐츠 분석을 수행하고, 오디오 콘텐츠에 대한 분류 정보(125)를 도출한다. 분류 정보(125)는, 콘텐츠 분석에 의해 추론된, 입력 오디오 콘텐츠(101)의 콘텐츠 타입을 나타낸다. 아래에 더 상세히 설명되는 바와 같이, 분류 정보(125)는 개개의 콘텐츠 타입들에 관한 하나 이상의 신뢰도 값(예를 들어, "음악", "스피치" 및 "배경 효과" 신뢰도 값)을 포함할 수 있다. 일부 실시예들에서, 신뢰도 값들은 그것보다 더 높은 입도(granularity)를 가질 수 있다. 예를 들어, 분류 정보(125)는 콘텐츠 타입 "음악"에 대한 신뢰도 값 대신에 또는 그에 부가하여, (예를 들어, 콘텐츠 타입 "클래식(classical) 음악", "락(rock)/팝(pop) 음악", "음향(acoustic) 음악", "전자(electronic) 음악" 등에 대한 신뢰도 값들과 같은) 하나 이상의 음악 장르에 대한 신뢰도 값들을 포함할 수 있다. 일부 실시예들에서, 콘텐츠 분석은 오디오 콘텐츠에 대한 메타데이터 및/또는 사용자 입력(예를 들어, 콘텐츠 생성자로부터의 제어 입력)에 추가로 기초할 수 있다.
멀티플렉서(130)는 오디오 콘텐츠 및 분류 정보(125)를 비트스트림(110)으로 멀티플렉싱한다. 오디오 콘텐츠는, 예를 들어, AC-4 코딩 표준에 따른 인코딩과 같은, 공지된 오디오 코딩 방법들에 따라 인코딩될 수 있다. 결과적으로, 오디오 콘텐츠(101) 및 분류 정보(125)는 비트스트림(110)으로 인코딩된다고 말할 수 있고, 비트스트림은 오디오 콘텐츠 및 오디오 콘텐츠에 대한 연관된 분류 정보를 포함한다고 말할 수 있다. 그 후, 비트스트림(110)은 디코더(115)에 제공될 수 있다.
일부 구현들에서, 인코더-디코더 시스템(100)의 인코더(105)에서의 콘텐츠 분석은 복수의 연속적인 윈도우들 각각에 대해 수행될 수 있으며, 각각의 윈도우는 미리 결정된 수의 연속적인 (오디오) 프레임들을 포함한다.
콘텐츠 분석은 오디오 콘텐츠 내의 결정가능한 특징들에 기초하여 개개의 콘텐츠 타입들의 가능성/신뢰도의 하나 이상의 계산에 기초할 수 있다.
예를 들어, 콘텐츠 분석은 오디오 콘텐츠를 전처리, 특징 추출, 및 신뢰도 값들 계산의 단계들을 포함할 수 있다. 선택적일 수 있는 전처리는 다운믹싱(downmixing), 리프레이밍(re-framing), 진폭 스펙트럼의 계산 등을 포함할 수 있다. 특징 추출은 오디오 콘텐츠로부터 복수의 특징들(예를 들어, 수백 개의 특징들)을 추출/계산할 수 있다. 이러한 특징들은 MFCC(Mel-Frequency Cepstral Coefficient)들, MFCC 플럭스(flux), 제로 크로싱 레이트(zero crossing rate), 크로마(chroma), 자기 상관(auto-correlation) 등 중 임의의 것을 포함할 수 있다. 최종적으로 신뢰도 값들을 산출하는 계산들은, 예를 들어, 트레이닝된 머신 학습 네트워크들에 의해 수행될 수 있다.
(예를 들어, 머신 학습 네트워크들에 의한) 콘텐츠 분석의 맥락에서 수행되는 계산은 가변적/적응적일 수 있다. 계산들이 가변적인 경우, 계산들을 조정하는 것은 특정의 콘텐츠 타입들에 대한 선호도들에 따라 분류 정보를 도출할 수 있게 해줄 것이다. 예를 들어, (디폴트) 콘텐츠 분석은 오디오 콘텐츠의 주어진 조각에 대해, 콘텐츠 타입 "음악"에 대한 0.7의 신뢰도 값, 콘텐츠 타입 "스피치"에 대한 0.15의 신뢰도 값, 및 콘텐츠 타입 "효과들"에 대한 0.15의 신뢰도 값을 반환할 수 있다(이 예에서 신뢰도 값들은 합이 1이 된다는 점에 유의한다). 콘텐츠 분석이 콘텐츠 타입 "음악"에 대해 소정의 선호도를 갖도록 적응되는 경우(즉, 그의 계산들이 이를 위해 적응되는 경우), 적응된 콘텐츠 분석/계산들은, 예를 들어, 콘텐츠 타입 "음악"에 대한 0.8의 신뢰도 값, 콘텐츠 타입 "스피치"에 대한 0.1의 신뢰도 값, 및 콘텐츠 타입 "효과들"에 대한 0.1의 신뢰도 값을 산출할 수 있다. 계산들이 적응되는 추가의 비제한적인 예들이 이하에서 설명될 것이다.
더욱이, 콘텐츠 분석(예를 들어, 머신 학습 네트워크(들))은 적응적일 수 있고/있거나 미리 결정된 오디오 콘텐츠를 이용하여 미리 트레이닝되었을 수 있다. 예를 들어, 인코더-디코더 시스템(100)과 같은 이중 종단 시스템에서, 콘텐츠 분석은 특징 라벨링의 정확도를 개선하기 위해 시간에 걸쳐 더 개발될 수 있다. 진보들은 인코딩 서버 상에서의 증가된 계산 능력 및/또는 컴퓨터 프로세서 능력들의 개선들을 통해 제공되는 증가된 복잡성으로부터 올 수 있다. 콘텐츠 분석은 또한 특정 콘텐츠 타입의 수동 라벨링을 통해 시간에 걸쳐 개선될 수 있다.
인코더측 콘텐츠 분석은 콘텐츠 타입 결정에 대한 레이턴시를 감소시키기 위해 룩어헤드 버퍼 또는 이와 유사한 것을 이용할 수 있다. 이것은 강경한 결정을 하기 위해 상당히 큰 오디오 프레임을 필요로 하는 단일 종단 구현에서 알려진 제한을 다룰 것이다. 예를 들어, 대화 존재에 대한 결정을 하기 위해 700ms의 오디오 프레임이 요구될 수 있고, 이 시점에서 대화 신뢰도 점수는 스피치의 시작의 700ms 뒤에 있고, 구두 어구의 시작은 누락될 수 있다. 추가로 또는 대안으로서, 콘텐츠 분석에 요구되는 처리 시간을 수용하기 위해 인코딩 레이턴시가 도입될 수 있다.
일부 구현들에서, 콘텐츠 타입 결정의 정확도를 개선하기 위해 콘텐츠 분석이 다수의 경로들에서 수행될 수 있다.
일반적으로, 분류 정보를 생성하는 것은 또한 오디오 콘텐츠에서의 장면 전이들의 검출(또는 장면 전이의 수동 표시)에 기초할 수 있다. 이를 위해, 인코더(105)는 오디오 콘텐츠에서 그러한 장면 전이들/리셋들을 검출하기 위한 추가적인 리셋 검출기를 포함할 수 있다. 콘텐츠 분석 신뢰도 값들의 변화율에 영향을 주기 위해 수동 라벨링 또는 추가적인 리셋 장면 검출이 이용될 수 있다. 예를 들어, 분류 정보에 포함된 신뢰도 값들의 변화율은 장면 전이가 검출/표시되는 경우 더 클 수 있다(즉, 정상 상태에서보다 더 클 수 있다). 즉, 오디오 프로그램이 변경될 때, 신뢰도 값들은 오디오 프로그램의 정상 상태에서보다 더 빠르게 적응하도록 허용되어, 후처리 효과들 사이의 가청 전이들이 최소화되는 것을 보장할 수 있다. 장면 검출에 따라, 장면 전이들의 표시(예를 들어, 개개의 장면 전이를 각각 표시하는 하나 이상의 리셋 플래그들(장면 전이 플래그들))가 분류 정보(125)(예를 들어, 신뢰도 값들)와 함께 비트스트림(110)으로 인코딩/멀티플렉싱될 수 있다.
인코더-디코더 시스템(100)에서의 디코더(115)는 디멀티플렉서(160), 가중치 계산 모듈(170) 및 후처리 모듈(180)을 포함한다. 디코더(115)에 의해 수신된 비트스트림(110)은 디멀티플렉서(160)에서 디멀티플렉싱되고, 분류 정보(125) 및 오디오 콘텐츠는, 가능하게는 예를 들어, AC-4 코딩 표준에 따른 디코딩과 같은 공지된 오디오 디코딩 방법들에 따른 디코딩 후에 추출될 수 있다. 결과적으로, 오디오 콘텐츠 및 분류 정보(125)는 비트스트림(110)으로부터 디코딩된다고 말해질 수 있다. 디코딩된 오디오 콘텐츠는 디코딩된 오디오 콘텐츠의 후처리를 수행하는 후처리 모듈(180)에 제공된다. 이를 위해, 디코더(115)는 비트스트림(110)으로부터 추출된 분류 정보(125)에 기초하여 후처리 모듈(180)에 대한 후처리 모드를 선택한다. 더 상세하게는, 비트스트림(110)으로부터 추출된 분류 정보(125)는 가중치 계산 모듈(170)에 제공되고, 가중치 계산 모듈(170)은 분류 정보(125)에 기초하여 디코딩된 오디오 콘텐츠의 후처리를 위한 하나 이상의 제어 가중치(175)를 계산한다. 각각의 제어 가중치는, 예를 들어, 0과 1 사이의 수일 수 있고, 후처리를 위한 개개의 프로세스/모듈/알고리즘의 강도를 결정할 수 있다. 하나 이상의 제어 가중치(175)가 후처리 모듈(180)에 제공된다. 후처리 모듈(180)은 디코딩된 오디오 콘텐츠를 후처리하기 위해 제어 가중치(175)에 따라 후처리 모드를 선택/적용할 수 있다. 후처리 모드를 선택하는 것은 일부 실시예들에서 사용자 입력에 추가로 기초할 수 있다. 후처리 모듈(180)에 의한 디코딩된 오디오 콘텐츠의 후처리는, 선택된 후처리 모드를 이용하여, 디코더(115)에 의해 출력되는 출력 오디오 신호(102)를 산출할 수 있다.
계산된 하나 이상의 제어 가중치(175)는 후처리 모듈(180)에 의해 수행되는 후처리 알고리즘들에 대한 제어 가중치들일 수 있고, 따라서 알고리즘 조정 가중치들이라고도 지칭될 수 있다. 이와 같이, 하나 이상의 제어 가중치(175)는 후처리 모듈(180)에서의 후처리 알고리즘들에 대한 조정을 제공할 수 있다. 이러한 의미에서, 제어 가중치들(175)은 디코딩된 오디오 콘텐츠의 후처리를 위한 개개의 (서브)모듈에 대한 제어 가중치들일 수 있다. 예를 들어, 후처리 모듈(180)은, (인텔리전트/동적) 등화기, (적응형) 가상화기, 서라운드 프로세서, 대화 향상기, 업믹서, 및/또는 크로스 페이더 등과 같은, 하나 이상의 개개의 (서브)모듈을 포함할 수 있다. 제어 가중치들(175)은 이들 (서브)모듈들에 대한 제어 가중치들일 수 있고, 이들 (서브)모듈들은 그들의 개개의 제어 가중치들의 제어 하에서 동작할 수 있다. 따라서, 제어 가중치들(175)은 (예를 들어, 인텔리전트 등화기(IEQ)와 같은) 등화기에 대한 제어 가중치, (예를 들어, 적응형 가상화기와 같은) 가상화기에 대한 제어 가중치, 서라운드 프로세서에 대한 제어 가중치, 대화 향상기에 대한 제어 가중치, 업믹서에 대한 제어 가중치, 및/또는 크로스 페이더에 대한 제어 가중치 중 하나 이상을 포함할 수 있다. 여기서, 인텔리전트 등화기는 타겟 스펙트럼 프로파일(target spectral profile)을 이용하여 복수의 주파수 대역들을 조정하는 것으로 이해된다. 이득 곡선은 인텔리전트 등화기가 적용되는 오디오 콘텐츠에 따라 적응된다.
인코더(105)에서 분류 정보(125)를 결정하고, 이를 비트스트림(110)의 일부로서 디코더(115)에 제공하는 것은 디코더(115)에서의 계산 부담을 감소시킬 수 있다. 또한, 인코더의 더 높은 계산 용량을 이용하여, 콘텐츠 분석이 더 강력하게(예를 들어, 더 정확하게) 이루어질 수 있다.
도 2는 비트스트림(110)의 예시적인 구현으로서 AC-4 비트스트림을 개략적으로 도시한다. 비트스트림(110)은 복수의 프레임들(AC-4 프레임들)(205)을 포함한다. 각각의 프레임(205)은 동기 워드(sync word), 프레임 워드(frame word), 원시 프레임(raw frame)(210)(AC-4 프레임), 및 CRC 워드를 포함한다. 원시 프레임(210)은 TOC(table of contents) 필드 및 TOC 필드에 표시된 바와 같은 복수의 서브스트림들을 포함한다. 각각의 서브스트림은 오디오 데이터 필드(211) 및 메타데이터 필드(212)를 포함한다. 오디오 데이터 필드(211)는 인코딩된 오디오 콘텐츠를 포함할 수 있고, 메타데이터 필드(212)는 분류 정보(125)를 포함할 수 있다.
그러한 비트스트림 구조가 주어지면, 분류 정보(125)는 비트스트림의 패킷에서의 특정 데이터 필드로 인코딩될 수 있다. 도 3은 분류 정보(125)를 운반하기 위한 비트스트림(의 프레임)에서의 데이터 필드의 예를 개략적으로 도시한다. 이 데이터 필드는 MI 데이터 필드라고 지칭될 수 있다. 데이터 필드는 복수의 서브필드들(310 내지 370)을 포함할 수 있다. 예를 들어, 데이터 필드는, 분류 정보(미디어 정보, 또는 미디어 인텔리전스)가 프레임에 존재하는지를 나타내는 b_mi_data_present 필드(310), 콘텐츠 타입 "음악"에 대한 신뢰도 값을 포함하는 music_confidence 필드(320), 콘텐츠 타입 "스피치"에 대한 신뢰도 값을 포함하는 speech_confidence 필드(330), 콘텐츠 타입 "효과들"에 대한 신뢰도 값을 포함하는 effects_confidence 필드(340), b_prog_switch 필드(350), 더 많은 분류 정보(미디어 정보)가 존재하는지를 나타내는 b_more_mi_data_present 필드(360), 및 더 많은 분류 정보(예를 들어, 군중 잡음에 대한 신뢰도 값)를 포함하는 more_mi_data 필드(370) 중 임의의 것, 일부, 또는 전부를 포함할 수 있다. 분류 정보(예를 들어, 신뢰도 값들)는 장기 분석(콘텐츠 분석)에 의해 결정되므로, 비교적 느리게 변화할 수 있다. 따라서, 분류 정보는 각각의 패킷/프레임에 대해 인코딩되지 않을 수 있지만, 예를 들어, N개의 프레임들 중 하나로 인코딩될 수 있으며, N≥2이다.
대안적으로, 분류 정보(125)(예를 들어, 신뢰도 값들)는 AC-4 비트스트림의 프레젠테이션 서브스트림(presentation substream)으로 인코딩될 수 있다.
더욱이, 파일 기반 오디오 콘텐츠에 대해, 분류 정보(125)(예를 들어, 신뢰도 값들)는 각각의 프레임에 대해 인코딩되지 않을 수 있지만, 파일에서의 모든 프레임들에 대해 유효하도록 비트스트림의 적절한 데이터 필드로 인코딩될 수 있다.
도 4는 오디오 콘텐츠를 인코딩하는 방법(400)의 예를 도시하는 흐름도이다. 방법(400)은, 예를 들어, 도 1의 인코더-디코더 시스템(100)에서의 인코더(105)에 의해 수행될 수 있다.
단계 S410에서, 오디오 콘텐츠의 콘텐츠 분석이 수행된다.
단계 S420에서, 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보가 콘텐츠 분석(의 결과)에 기초하여 생성된다.
단계 S430에서, 오디오 콘텐츠 및 분류 정보는 비트스트림으로 인코딩된다.
마지막으로, 단계 S440에서, 비트스트림이 출력된다.
특히, 방법(400)의 단계들은 인코더-디코더 시스템(100)에 대해 전술한 방식으로 수행될 수 있다.
전술한 바와 같이, 분류 정보를 생성하는 것은 오디오 콘텐츠에서의 장면 전이들의 검출(또는 장면 전이의 수동 표시)에 추가로 기초할 수 있다. 따라서, 방법(400)(또는 아래에 설명되는 방법들(600, 700 또는 900) 중 임의의 것)은 오디오 콘텐츠에서 장면 전이들을 검출하는 것(또는 오디오 콘텐츠에서 장면 전이들의 수동 표시들의 입력을 수신하는 것) 및 오디오 콘텐츠에서의 장면 전이들의 표시를 비트스트림으로 인코딩하는 것을 더 포함할 수 있다.
다음으로, 콘텐츠 분석(예를 들어, 인코더(105)의 콘텐츠 분석 모듈(120)에 의해 수행되는 콘텐츠 분석 또는 방법(400)의 단계 S410에서 수행된 콘텐츠 분석)의 상세들이 도 5를 참조하여 설명될 것이다.
전술한 바와 같이, 콘텐츠 분석은 오디오 콘텐츠(101)의 콘텐츠 타입을 나타내는 분류 정보(125)를 생성한다. 본 개시내용의 일부 실시예들에서, 분류 정보(125)는 하나 이상의 신뢰도 값(특징 신뢰도 값, 신뢰도 점수)을 포함한다. 이들 신뢰도 값들 각각은 개개의 콘텐츠 타입과 연관되고, 오디오 콘텐츠가 개개의 콘텐츠 타입일 가능성의 표시를 제공한다. 이들 콘텐츠 타입들은 음악 콘텐츠, 스피치 콘텐츠, 및 효과(예를 들어, 배경 효과) 콘텐츠 중 하나 이상을 포함할 수 있다. 일부 구현들에서, 콘텐츠 타입들은 군중 잡음 콘텐츠(예를 들어, 환호성)를 더 포함할 수 있다. 즉, 분류 정보(125)는 오디오 콘텐츠가 콘텐츠 타입 "음악"이라는 신뢰도(가능성)를 나타내는 음악 신뢰도 값, 오디오 콘텐츠(101)가 콘텐츠 타입 "스피치"라는 신뢰도(가능성)를 나타내는 스피치 신뢰도 값, 및 오디오 콘텐츠(101)가 콘텐츠 타입 "효과들"이라는 신뢰도(가능성)를 나타내는 효과 신뢰도 값은 물론, 가능하게는 오디오 콘텐츠(101)가 콘텐츠 타입 "군중 잡음"이라는 신뢰도(가능성)를 나타내는 군중 잡음 신뢰도 값 중 하나 이상을 포함할 수 있다.
다음에서, 신뢰도 값들은 0 내지 1의 범위에 속하도록 정규화되는 것으로 가정될 것이고, 여기서 0은 오디오 콘텐츠가 개개의 콘텐츠 타입일 제로 가능성(0%)을 표시하고, 1은 오디오 콘텐츠가 개개의 가능성일 확실성(완전한 가능성, 100%)을 표시한다. 값 "0"은 제로 가능성을 표시하는 신뢰도 값의 값에 대한 비제한적인 예이고, 값 "1"은 완전한 가능성을 표시하는 신뢰도 값의 값에 대한 비제한적인 예라는 것이 이해된다.
도 5의 예에서, 오디오 콘텐츠(101)의 콘텐츠 분석은 (원시) 음악 신뢰도 값(125a), (원시) 스피치 신뢰도 값(125b), 및 (원시) 효과 신뢰도 값(125c)을 반환한다. 원칙적으로, 이러한 원시 신뢰도 값들(125a, 125b, 125c)은 분류 정보(125)(의 일부)로서 비트스트림(110)으로 인코딩되기 위해 직접 이용될 수 있다. 대안적으로, 분류 정보(125)(즉, 원시 신뢰도 값들(125a, 125b, 125c))는 인코딩 전에 평활화(예를 들어, 시간 평활화)되어 실질적으로 연속적인 신뢰도 값들을 산출할 수 있다. 이것은 평활화된 신뢰도 값들(145a, 145b, 145c)을 각각 출력하는 개개의 평활화 모듈들(140a, 140b, 140c)에 의해 행해질 수 있다. 여기서, 상이한 평활화 모듈들은, 예를 들어, 평활화를 위한 상이한 파라미터들/계수들을 이용하여 상이한 평활화를 적용할 수 있다.
이상에 따라, 방법(400)(또는 아래에 설명되는 방법들(600, 700 또는 900) 중 임의의 것)은 멀티플렉싱/인코딩 이전에 분류 정보(예를 들어, 신뢰도 값들)를 평활화하는 단계를 더 포함할 수 있다.
분류 정보(예를 들어, 신뢰도 값들)의 평활화는, 예를 들어, 평활화가 장면 전이들에 걸쳐 수행되는 경우, 특정 상황들 하에서 가청 왜곡들을 초래할 수 있다. 따라서, 평활화는 상황들에 따라, 예를 들어, 장면 전이들에서 디스에이블될 수 있다. 또한, 아래에 더 상세히 설명되는 바와 같이, 평활화는 또한 동적(비-정적) 오디오 콘텐츠에 대해, 또는 제어 입력 또는 메타데이터에 따라 디스에이블될 수 있다.
평활화된 음악 신뢰도 값(145a), 평활화된 스피치 신뢰도 값(145b), 및 평활화된 효과 신뢰도 값(145c)은 일부 구현들에서 인코딩 전에 더 양자화될 수 있다. 이것은 양자화된 신뢰도 값들(155a, 155b, 155c)을 각각 출력하는 개개의 양자화기들(150a, 150b, 150c)에서 행해질 수 있다. 여기서, 상이한 양자화기들은, 예를 들어, 양자화를 위한 상이한 파라미터들을 이용하여, 상이한 양자화를 적용할 수 있다.
이상에 따라, 방법(400)(또는 아래에 설명되는 방법들(600, 700 또는 900) 중 임의의 것)은 멀티플렉싱/인코딩 이전에 분류 정보(예를 들어, 신뢰도 값들)를 양자화하는 단계를 더 포함할 수 있다.
분류 정보(125)의 평활화는 디코더에서의 후처리의 개선된 연속성 및 안정성, 및 따라서 청취 경험을 초래할 수 있다. 분류 정보(125)를 양자화하는 것은 비트스트림(110)의 대역폭 효율을 개선할 수 있다.
앞서 살펴본 바와 같이, 인코더(105)에서 분류 정보(125)를 결정하고, 이를 비트스트림(110)의 일부로서 디코더(115)에 제공하는 것이 계산 용량의 관점에서 유리할 수 있다. 추가적으로, 그렇게 하는 것은 오디오 스트림에서 송신되는 신뢰도 값들을 특정의 바람직한 값들로 설정하는 것에 의해 디코더측 오디오 후처리에 대한 어떤 인코더측 제어를 가능하게 할 수 있다. 예를 들어, 인코더측 사용자(예를 들어, 콘텐츠 생성자)는 분류 정보를 인코더측에서의 사용자 입력에 (적어도 부분적으로) 의존하게 함으로써 디코더측 오디오 후처리를 제어할 수 있다. 디코더측 오디오 후처리에 대한 추가적인 인코더측 제어를 가능하게 해주는 일부 예시적인 구현들이 이어서 설명될 것이다.
도 6은 디코더측 오디오 후처리의, 사용자 입력에 기초한, 그러한 인코더측 제어를 가능하게 해주는 오디오 콘텐츠를 인코딩하는 방법(600)의 예를 흐름도 형태로 개략적으로 도시한다. 방법(600)은, 예를 들어, 도 1의 인코더-디코더 시스템(100)에서의 인코더(105)에 의해 수행될 수 있다.
단계 S610에서, 사용자 입력이 수신된다. 사용자는, 예를 들어, 콘텐츠 생성자일 수 있다. 사용자 입력은 오디오 콘텐츠를 특정 콘텐츠 타입에 관련된 것으로서 라벨링하기 위한 수동 라벨들을 포함할 수 있거나, 예를 들어, 수동 신뢰도 값들에 관련될 수 있다.
단계 S620에서, 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보가 사용자 입력에 적어도 부분적으로 기초하여 생성된다. 예를 들어, 수동 라벨들 및/또는 수동 신뢰도 값들은 분류 정보로서 직접 이용될 수 있다. 오디오 콘텐츠가 특정 콘텐츠 타입인 것으로서 수동으로 라벨링되는 경우, 그 특정 콘텐츠 타입에 대한 신뢰도 값은 1로 설정될 수 있고(0과 1 사이의 값들을 갖는 신뢰도 값들을 가정함), 다른 신뢰도 값들은 0으로 설정될 수 있다. 이 경우, 콘텐츠 분석은 바이패스될 것이다. 대안적인 구현들에서, 분류 정보를 도출하기 위해 콘텐츠 분석의 출력이 사용자 입력과 함께 이용될 수 있다. 예를 들어, 최종 신뢰도 값들은 콘텐츠 분석에서 생성된 신뢰도 값들 및 수동 신뢰도 값들에 기초하여 계산될 수 있다. 이것은 평균화 또는 이러한 신뢰도 값들의 임의의 다른 적절한 조합에 의해 행해질 수 있다.
단계 S630에서, 오디오 콘텐츠 및 분류 정보는 비트스트림으로 인코딩된다.
마지막으로, 단계 S640에서, 비트스트림이 출력된다.
인코더측에서의 콘텐츠 분류 결정을 오디오 콘텐츠와 연관된 메타데이터에 적어도 부분적으로 의존하게 함으로써 추가적인 인코더측 제어가 달성될 수 있다. 그러한 인코더측 처리의 2가지 예가 이하에서 설명될 것이다. 제1 예가 도 7 및 도 8을 참조하여 설명될 것이다. 제1 예에서, 오디오 콘텐츠는 오디오 프로그램의 일부로서 오디오 콘텐츠의 스트림(예를 들어, 선형 연속 스트림)으로 제공된다. 오디오 콘텐츠에 대한 메타데이터는 적어도 오디오 콘텐츠(즉, 오디오 프로그램)의 서비스 타입의 표시를 포함한다. 이와 같이, 서비스 타입은 오디오 프로그램 타입이라고도 지칭될 수 있다. 서비스 타입의 예들은 음악 서비스(예를 들어, 음악 스트리밍 서비스, 또는 음악 방송 등) 또는 뉴스(뉴스캐스트) 서비스(예를 들어, 뉴스 채널의 오디오 컴포넌트 등)를 포함할 수 있다. 서비스 타입 표시는 프레임 기준으로 제공될 수 있거나, 오디오 스트림에 대해 동일(균일/정적)할 수 있다. 제2 예가 도 9 및 도 10을 참조하여 설명될 것이다. 제2 예에서, 오디오 콘텐츠는 파일 기준으로 제공된다. 각각의 파일은 그 개개의 오디오 콘텐츠에 대한 메타데이터를 포함할 수 있다. 메타데이터는 파일(의 오디오 콘텐츠)의 파일 콘텐츠 타입을 포함할 수 있다. 메타데이터는 마커들, 라벨들, 태그들 등을 더 포함할 수 있다. 파일 콘텐츠 타입의 예들은 파일이 음악 파일이라는 표시, 파일이 뉴스/뉴스캐스트 파일(뉴스 클립)이라는 표시, 파일이 (예를 들어, 구두 장면들과 음악/노래 장면들 사이에서 빈번하게 전이하는 영화의 음악 장르와 같은) 동적(비-정적) 콘텐츠를 포함한다는 표시를 포함할 수 있다. 파일 콘텐츠 타입은 전체 파일에 대해 동일(균일/정적)할 수 있거나, 파일의 부분들 사이에서 변할 수 있다. 제2 예에서의 처리는 파일 기준일 수 있다. 파일 콘텐츠 타입을 나타내는 메타데이터에 의한 파일의 "태깅"은 (디코더측에서 오디오 후처리에 대한 추가적인 제어를 인코더측에 제공하는 것에 부가하여) 인코더가 분류 정보를 도출하는데 도움을 준다고 말할 수 있다.
이제, 오디오 프로그램의 일부로서 오디오 콘텐츠의 스트림에 제공된 오디오 콘텐츠를 인코딩하는 방법(700)을 흐름도 형태로 도시하는 도 7을 참조한다. 이 방법(700)은 분류 정보를 도출할 때 오디오 콘텐츠의 메타데이터를 고려한다. 방법(700)은, 예를 들어, 도 1의 인코더-디코더 시스템(100)에서의 인코더(105)에 의해 수행될 수 있다.
단계 S710에서, 서비스 타입 표시가 수신된다. 전술한 바와 같이, 서비스 타입 표시는 오디오 콘텐츠의 서비스 타입을 표시한다.
단계 S720에서, 오디오 콘텐츠의 콘텐츠 분석은 서비스 타입 표시에 적어도 부분적으로 기초하여 수행된다. 그러한 콘텐츠 분석의 비제한적인 예가 도 8을 참조하여 이하에서 설명될 것이다.
단계 S730에서, 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보가 콘텐츠 분석(의 결과)에 기초하여 생성된다.
단계 S740에서, 오디오 콘텐츠 및 분류 정보는 비트스트림으로 인코딩된다.
마지막으로, 단계 S750에서, 비트스트림이 출력된다.
도 8은 방법(700)의 단계 S720에서의 오디오 콘텐츠의 콘텐츠 분석의 예들을 개략적으로 도시한다. 도 8의 상부 행(810)은 음악 서비스의 예, 즉, 오디오 콘텐츠가 서비스 타입 "음악 서비스"인 것을 표시하는 서비스 타입 표시와 관련된다. 이 경우, "음악"에 대한 신뢰도 값은 1로 설정될 수 있는 반면, 다른 콘텐츠 타입들(예를 들어, "스피치", "효과들" 및 가능하게는 "군중 잡음")에 대한 신뢰도 값들은 0으로 설정된다. 즉, 콘텐츠 타입 "음악"은 분류 정보로 하드코딩될 수 있다. 그와 같이, 방법(700)은, 서비스 타입 표시에 기초하여, 오디오 콘텐츠의 서비스 타입이 음악 서비스인지를 결정하는 단계를 포함할 수 있다. 그 후, 오디오 콘텐츠의 서비스 타입이 음악 서비스라는 결정에 응답하여, 분류 정보는 오디오 콘텐츠의 콘텐츠 타입이 음악 콘텐츠라는 것을 나타내도록 생성될 수 있다.
도 8의 하부 행(820)은 뉴스 서비스의 예, 즉, 오디오 콘텐츠가 서비스 타입 "뉴스 서비스"(또는 뉴스캐스트 서비스, 뉴스 채널)인 것을 표시하는 서비스 타입 표시와 관련된다. 이 경우, 콘텐츠 분석에 이용되는 계산들은, 스피치에 대한 명확한 선호도 및 예를 들어, 음악에 대한 덜한 선호도가 존재하도록 적응될 수 있다(예를 들어, 콘텐츠 분석에 의해 산출된 스피치 콘텐츠(콘텐츠 타입 "스피치")에 대한 신뢰도 값은 증가될 수 있는 반면, 음악 콘텐츠(콘텐츠 타입 "음악")에 대한 및 가능하게는 임의의 나머지 콘텐츠 타입들에 대한 신뢰도 값은 감소될 수 있다). 이것은, 예를 들어, 콘텐츠 타입 "음악"이, 콘텐츠 타입이 음악인 것이 다소 확실한 경우에만 표시될 것임을 의미한다. 즉, 콘텐츠 타입 "음악"의 잘못된 표시에 대한 기회들은 계산들의 적응에 의해 감소된다. 이와 같이, 방법(700)은, 서비스 타입 표시에 기초하여, 오디오 콘텐츠의 서비스 타입이 뉴스캐스트 서비스인지를 결정하는 단계를 포함할 수 있다. 그 후, 오디오 콘텐츠의 서비스 타입이 뉴스캐스트 서비스라는 결정에 응답하여, 단계 S720에서의 콘텐츠 분석은 오디오 콘텐츠가 스피치 콘텐츠임을 나타낼 더 높은 가능성을 갖도록 적응될 수 있다. 또한, 단계 S720에서의 콘텐츠 분석은 오디오 콘텐츠가 임의의 다른 콘텐츠 타입임을 나타낼 더 낮은 가능성을 갖도록 적응될 수 있다.
일부 구현들에서, 오디오 콘텐츠에 대한 하나 이상의 신뢰도 값은 사용자 입력에 의해(예를 들어, 콘텐츠 생성자에 의해) 또는 메타데이터의 일부로서 직접 제공될 수 있다. 그 후, 이 신뢰도 값들이 고려되는지 여부는 서비스 타입 표시에 의존할 수 있다. 예를 들어, 사용자 입력 또는 메타데이터에 의해 제공되는 신뢰도 값들은 오디오 콘텐츠의 서비스 타입이 특정 타입인 경우에 (그리고 특정 타입인 경우에만) 분류 정보로서 인코딩을 위해 이용될 수 있다. 일부 대안적인 구현들에서, 사용자 입력 또는 메타데이터에 의해 제공되는 신뢰도 값들은 오디오 콘텐츠의 서비스 타입이 특정 타입이 아닌 한 분류 정보의 일부로서 이용될 수 있다. 예를 들어, 사용자 입력 또는 메타데이터에 의해 제공되는 신뢰도 값들은 서비스 타입 표시가 오디오 콘텐츠의 서비스 타입이 음악 서비스인 것을 표시하지 않는 한 이용될 수 있다. 후자의 경우, 음악 콘텐츠에 대한 신뢰도 값은 사용자 입력 또는 메타데이터에 의해 제공되는 신뢰도 값들에 관계없이 1로 설정될 수 있다.
이제, 파일 기준으로 제공되는 오디오 콘텐츠를 인코딩하는 방법(900)을 흐름도 형태로 도시하는 도 9를 참조한다. 따라서, 방법(900)은 파일 기준으로 수행될 수 있다. 이 방법(900)은 분류 정보를 도출할 때 오디오 콘텐츠의 파일 메타데이터를 고려한다. 방법(900)은, 예를 들어, 도 1의 인코더-디코더 시스템(100)에서의 인코더(105)에 의해 수행될 수 있다.
단계 S910에서, 오디오 콘텐츠의 콘텐츠 분석은 오디오 콘텐츠에 대한 (파일) 메타데이터에 적어도 부분적으로 기초하여 수행된다. 예를 들어, 메타데이터는 파일의 파일 콘텐츠 타입을 표시하는 파일 콘텐츠 타입 표시를 포함할 수 있다. 이어서, 콘텐츠 분석은 파일 콘텐츠 타입 표시에 적어도 부분적으로 기초할 수 있다. 파일의 콘텐츠 타입에 적어도 부분적으로 기초한 이러한 콘텐츠 분석의 비제한적인 예가 도 10을 참조하여 이하에서 설명될 것이다.
단계 S920에서, 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보가 콘텐츠 분석(의 결과)에 기초하여 생성된다.
단계 S930에서, 오디오 콘텐츠 및 분류 정보는 비트스트림으로 인코딩된다.
마지막으로, 단계 S940에서, 비트스트림이 출력된다.
도 10은 방법(900)의 단계 S910에서의 오디오 콘텐츠의 콘텐츠 분석의 예를 개략적으로 도시한다. 도 10의 상부 행(1010)은 음악 파일의 예, 즉, 파일 콘텐츠가 파일 콘텐츠 타입 "음악"인 것을 표시하는 파일 콘텐츠 타입 표시와 관련된다. 이 경우, 콘텐츠 타입 "음악"은 분류 정보로 하드코딩될 수 있다. 더욱이, 분류 정보는 전체 파일에 대해 균일(정적)하게 될 수 있다. 따라서, 방법(900)은, 파일 콘텐츠 타입 표시에 기초하여, 파일의 파일 콘텐츠 타입이 음악 파일인지를 결정하는 단계를 더 포함할 수 있다. 그 후, 파일의 파일 콘텐츠 타입이 음악 파일이라는 결정에 응답하여, 분류 정보는 오디오 콘텐츠의 콘텐츠 타입이 음악 콘텐츠라는 것을 나타내도록 생성될 수 있다.
도 10의 중간 열(1020)은 뉴스 파일의 예, 즉, 파일 콘텐츠가 파일 콘텐츠 타입 "뉴스"인 것을 표시하는 파일 콘텐츠 타입 표시와 관련된다. 이 경우에, 방법(900)은, 파일 콘텐츠 타입 표시에 기초하여, 파일의 파일 콘텐츠 타입이 뉴스캐스트 파일인지를 결정하는 단계를 더 포함할 수 있다. 그 후, 파일의 파일 콘텐츠 타입이 뉴스캐스트 파일이라는 결정에 응답하여, 콘텐츠 분석은 오디오 콘텐츠가 스피치 콘텐츠임을 나타낼 더 높은 가능성을 갖도록 적응될 수 있다. 이것은 콘텐츠 분석에서 스피치 콘텐츠에 대한 가능성/신뢰도를 증가시키기 위해 콘텐츠 분석의 하나 이상의 계산(계산 알고리즘)을 적응시킴으로써 및/또는 스피치 콘텐츠 이외의 콘텐츠 타입들에 대한 가능성/신뢰도를 감소시키기 위해 하나 이상의 계산을 적응시킴으로써 달성될 수 있다. 다시, 분류 정보는 전체 파일에 대해 균일(정적)하게 될 수 있다.
도 10의 하부 행(1030)은 동적(비-정적) 파일(예를 들어, 구두 장면들과 음악/노래 장면들 사이에서 빈번하게 전이하는 영화의 음악 장르)의 예, 즉, 파일 콘텐츠가 파일 콘텐츠 타입 "동적"인 것을 표시하는 파일 콘텐츠 타입 표시와 관련된다. 이 경우, 방법(900)은, 파일 콘텐츠 타입 표시에 기초하여, 파일의 파일 콘텐츠 타입이 동적 콘텐츠(즉, 동적 파일 콘텐츠)인지를 결정하는 단계를 더 포함할 수 있다. 그 후, 파일의 파일 콘텐츠 타입이 동적 콘텐츠(즉, 동적 파일 콘텐츠)라는 결정에 응답하여, 콘텐츠 분석은 상이한 콘텐츠 타입들 사이의 더 높은 전이율을 허용하도록 적응될 수 있다. 예를 들어, 콘텐츠 타입은 콘텐츠 타입들 사이에서, 예를 들어, 음악과 비음악 사이에서 더 빈번하게(즉, 정상 상태에 대해서보다 더 빈번하게) 전이하도록 허용될 수 있다. 따라서, 분류 정보는, 예를 들어, 파일의 음악 섹션들과 비음악 섹션들 사이에서 스위칭하도록 허용될 수 있다. 도 10의 처음 2개의 행들(1010 및 1020)과 달리, 이것은 분류 정보가 전체 파일에 대해 균일하게(정적으로) 유지되지 않는다는 것을 의미한다.
또한, 동적 콘텐츠(즉, 동적 파일 콘텐츠)가 파일에서의 상이한 콘텐츠 타입의 섹션들 간에 급격한(sharp) 전이를 가질 수 있다는 것을 잘 알 것이다. 예를 들어, 음악 섹션들과 비음악 섹션들 사이에 급격한 전이가 있을 수 있다. 그러한 경우들에서, 분류 정보에(예를 들어, 신뢰도 값들에) 시간 평활화를 적용하는 것이 타당하지 않을 수 있다. 일부 구현들에서, 분류 정보의 평활화(시간 평활화)는 따라서 동적 콘텐츠(즉, 동적 파일 콘텐츠)에 대해 디스에이블될 수 있다.
다음으로, 오디오 콘텐츠 및 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터의 오디오 콘텐츠의 디코딩에 관한 실시예들 및 구현들이 설명될 것이다. 분류 정보는 오디오 콘텐츠의 (콘텐츠 타입에 관한) 콘텐츠 분류를 나타낸다는 것이 이해된다. 또한, 콘텐츠 분류가 인코더측에서 수행된 콘텐츠 분석에 기초할 수 있다는 것이 이해된다.
도 11은 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 일반적인 방법(1100)을 흐름도 형태로 도시한다. 방법(1100)은, 예를 들어, 도 1의 인코더-디코더 시스템(100)에서의 디코더(115)에 의해 수행될 수 있다.
단계 S1110에서, 비트스트림은, 예를 들어, 무선 또는 유선 송신에 의해, 또는 비트스트림을 저장하는 저장 매체를 통해 수신된다.
단계 S1120에서, 오디오 콘텐츠 및 분류 정보는 비트스트림으로부터 디코딩된다.
단계 S1130에서, 디코딩된 오디오 콘텐츠의 (오디오) 후처리를 수행하기 위한 후처리 모드가 단계 S1120에서 획득된 분류 정보에 기초하여 선택된다. 일부 구현들에서, 후처리 모드를 선택하는 것은 사용자 입력에 추가로 기초할 수 있다.
또한, 방법(1100)은 오디오 콘텐츠의 콘텐츠 분석을 수행하여 (예를 들어, 인코더측에 의해 고려되지 않은 콘텐츠 타입들에 대한) 하나 이상의 추가적인 신뢰도 값을 결정하는 단계를 더 포함할 수 있다. 이 콘텐츠 분석은 방법(400)에서의 단계 S410을 참조하여 전술한 바와 동일한 방식으로 진행될 수 있다. 이어서, 후처리 모드의 선택은 하나 이상의 추가적인 신뢰도 값에 추가로 기초할 수 있다. 예를 들어, 디코더가 (레거시) 인코더에 의해 고려되지 않은 콘텐츠 타입에 대한 검출기를 포함하는 경우, 디코더는 이 콘텐츠 타입에 대한 신뢰도 값을 계산하고, 이 신뢰도 값을 분류 정보에서 송신된 임의의 신뢰도 값들과 함께 이용하여 후처리 모드를 선택할 수 있다.
도 1의 맥락에서 전술한 바와 같이, 후처리는, 예를 들어, (인텔리전트/동적) 등화기, (적응형) 가상화기, 서라운드 프로세서, 대화 향상기, 업믹서 또는 크로스 페이더를 구현하는 개개의 알고리즘들과 같은 후처리 알고리즘들을 이용하여 수행될 수 있다. 따라서, 후처리를 수행하기 위한 모드를 선택하는 것은 후처리를 위한 개개의 프로세스들/모듈들/알고리즘들에 대한 하나 이상의 제어 가중치(조정 가중치, 알고리즘 조정 가중치, 알고리즘 제어 가중치)를 결정(예를 들어, 계산)하는 것에 대응한다고 말할 수 있다.
대응하는 방법(1200)이 도 12의 흐름도에 의해 도시된다. 다시, 이 방법(1200)은, 예를 들어, 도 1의 인코더-디코더 시스템(100)에서의 디코더(115)에 의해 수행될 수 있다.
단계 S1210단계 S1220은 각각 방법(1100)의 단계 S1110 및 단계 S1120과 동일하다.
단계 S1230에서, 디코딩된 오디오 콘텐츠의 후처리를 위한 하나 이상의 제어 가중치가 단계 S1220에서 획득된 분류 정보에 기초하여 결정(예를 들어, 계산)된다.
제어 가중치들(조정 가중치들) 대신에 신뢰도 값들을 송신하는 것, 즉, 가중치 계산 모듈을 인코더로 이동시키는 대신에 디코더에 남겨두는 것은, 디코더에서의 계산 자원들의 보존을 가능하게 할 뿐만 아니라, 또한 가중치 계산이 개인화될 수 있는 맞춤화가능하고 유연한 디코더를 가능하게 할 수 있다. 예를 들어, 가중치 계산은 디바이스 타입 및/또는 사용자의 개인 선호도들에 의존할 수 있다. 이것은 디코더가 디코딩된 오디오 콘텐츠에 대해 어느 오디오 후처리가 수행되어야 하는지에 관한 특정 명령어들을 인코더로부터 수신하는 종래의 접근법들과 대조적이다.
즉, 오디오 후처리의 요건들은 디코딩된 오디오 콘텐츠가 재생되는 디바이스의 디바이스 타입에 의존할 수 있다. 예를 들어, 단지 2개의 스피커를 갖는 (예를 들어, 모바일 폰과 같은) 모바일 디바이스의 스피커들에 의한 디코딩된 오디오 콘텐츠의 재생은, 5개 이상의 스피커를 갖는 사운드바 디바이스에 의한 디코딩된 오디오 콘텐츠의 재생과는 상이한 오디오 후처리를 요구할 수 있다. 따라서, 일부 구현들에서, 제어 가중치들의 계산은 디코딩을 수행하는 디바이스의 디바이스 타입에 의존한다. 즉, 계산은 종단점 특정적이거나 개인화될 수 있다. 예를 들어, 디코더측은 후처리를 위한 종단점 특정적 프로세스들/모듈들/알고리즘들의 세트를 구현할 수 있고, 이러한 프로세스들/모듈들/알고리즘들에 대한 파라미터들(제어 가중치들)은 종단점 특정적 방식으로 신뢰도 값들에 기초하여 결정될 수 있다.
더욱이, 상이한 사용자들은 오디오 후처리에 대해 상이한 선호도들을 가질 수 있다. 예를 들어, 스피치는 전형적으로 가상화되지 않지만, 사용자의 선호도들에 기초하여, 스피치가 많은(speech-heavy) 오디오 콘텐츠를 가상화하기로 결정될 수 있다(즉, 사용자에 의해 요구되는 경우, 가상화가 스피치에 적용될 수 있다). 다른 예로서, 개인용 컴퓨터에서의 오디오 재생의 경우, 전형적으로 스테레오 확장, 업믹싱 및 가상화가 없다. 그러나, 사용자의 선호도들에 따라, 스테레오 확장, 업믹싱, 및/또는 가상화가 이 경우에 적용될 수 있다(즉, 사용자가 원한다면, 스테레오 확장, 업믹싱, 및/또는 가상화가 PC 사용자에 대해 적용될 수 있다). 따라서, 일부 구현들에서, 제어 가중치들의 계산은 사용자 선호도 또는 사용자 입력(예를 들어, 사용자 선호도를 나타내는 사용자 입력)에 추가로 기초한다. 이와 같이, 사용자 입력은 분류-정보-기반 계산을 오버라이드하거나 부분적으로 오버라이드할 수 있다.
분류 정보가 개개의 콘텐츠 타입과 각각 연관되고, 오디오 콘텐츠가 개개의 콘텐츠 타입일 가능성의 표시를 제공하는 신뢰도 값들(신뢰도 점수들)을 포함하는 경우, 전술한 바와 같이, 제어 가중치들은 이러한 신뢰도 값들에 기초하여 계산될 수 있다. 이러한 계산들의 비제한적인 예가 이하에서 설명될 것이다.
또한, 방법(1200)은 오디오 콘텐츠의 콘텐츠 분석을 수행하여 (예를 들어, 인코더측에 의해 고려되지 않은 콘텐츠 타입들에 대한) 하나 이상의 추가적인 신뢰도 값을 결정하는 단계를 더 포함할 수 있다. 이 콘텐츠 분석은 방법(400)에서의 단계 S410을 참조하여 전술한 바와 동일한 방식으로 진행될 수 있다. 그 후, 제어 가중치 모드의 계산은 하나 이상의 추가적인 신뢰도 값에 추가로 기초할 수 있다. 예를 들어, 디코더가 (레거시) 인코더에 의해 고려되지 않은 콘텐츠 타입에 대한 검출기를 포함하는 경우, 디코더는 이 콘텐츠 타입에 대한 신뢰도 값을 계산하고, 분류 정보에서 송신된 임의의 신뢰도 값들과 함께 이 신뢰도 값을 이용하여 제어 가중치들을 계산할 수 있다.
앞서 살펴본 바와 같이, 인코딩되고 있는 콘텐츠를 정확하고 안정적으로 반영하기 위해, 신뢰도 값들이 이중 종단 인코더-디코더 시스템에서의 인코더측에서 평활화될 수 있다. 대안적으로 또는 추가적으로, 디코더측에서의 가중치 계산은 제어 가중치들(알고리즘 조정 가중치들)을 결정할 때 추가의 평활화를 제공할 수 있다. 그에 의해, 각각의 후처리 알고리즘이 가청 왜곡들을 피하기 위해 적절한 수준의 연속성을 갖는 것이 보장될 수 있다. 예를 들어, 가상화기는 공간 이미지에서의 원하지 않는 변동을 피하기 위해 느린 변화들을 원할 수 있는 반면, 대화 향상기는 대화 프레임들이 반응하도록 보장하기 위해 빠른 변화들을 원할 수 있지만, 대화가 아닌 프레임들은 임의의 잘못된 대화 향상을 최소화한다. 따라서, 방법(1200)은 제어 가중치들을 평활화(시간 평활화)하는 단계를 더 포함할 수 있다.
평활화는 디코딩을 수행하는 디바이스의 디바이스 타입에 의존할 수 있다. 예를 들어, 모바일 디바이스(예컨대, 모바일 폰)에 대한 가상화기 제어 가중치와 TV 세트 또는 사운드바 디바이스에 대한 가상화기 제어 가중치 사이에 상이한 평활화가 있을 수 있다. 여기서, 평활화는, 예를 들어, 평활화의 시간 상수와 같은, 평활화를 결정하는 평활화 계수들의 세트에 관하여 상이할 수 있다.
더욱이, 평활화는 평활화되는 특정 제어 가중치에 의존할 수도 있다. 즉, 평활화는 적어도 2개의 제어 가중치들 사이에서 상이할 수 있다. 예를 들어, 대화 향상기 제어 가중치에 대한 평활화가 없거나 거의 없고/없거나 가상화기 제어 가중치에 대한 더 강한 평활화가 있을 수 있다.
마지막으로, 상황들에 따라 평활화가 디스에이블될 수 있다는 점에 유의해야 한다. 전술한 바와 같이, 평활화는 동적(비-정적)인 것으로서 플래그된 오디오 콘텐츠에 대해, 또는 장면 전이들에서 역효과적일 수 있다. 또한, 평활화는 제어 입력 및/또는 메타데이터에 따라 디스에이블될 수 있다.
제어 가중치의 (그리고 그에 의해 오디오 후처리의) 연속성/안정성을 개선하는 다른 접근법은 비선형 맵핑 Φ를 제어 가중치들에 적용하는 것이다. 제어 가중치들의 값들은 0 내지 1의 범위에 있을 수 있다. 비선형 맵핑 Φ는 맵핑 Φ: [0,1] → [0,1]일 수 있다. 바람직하게, 비선형 맵핑 Φ는 맵핑된 값들의 값 범위(즉, [0,1]과 같은 이미지 범위)의 개개의 경계들에 더 가까운 제어 가중치들의 값 범위(즉, [0,1]과 같은 도메인 범위)의 경계들에 가까운 제어 값들의 값을 맵핑한다. 즉, Φ는 0에 더 가까운 값 0+ε(ε<<1), 즉, Φ(0+ε) < (0+ε)을 맵핑할 수 있고, 1에 더 가까운 값 1-ε, 즉, Φ(1-ε) > (1-ε)을 맵핑할 수 있다. 그러한 비선형 맵핑 Φ의 예는 시그모이드 함수이다.
도 13은 상기의 고려사항들에 따라 동작하는 가중치 계산 모듈(170)의 예를 개략적으로 도시한다. 이하에서 설명되는 가중치 계산 모듈(170)은, 예를 들어, 컴퓨팅 디바이스의 프로세서에 의해 구현될 수 있다는 것이 이해된다.
제한하려는 의도 없이, 가중치 계산 모듈(170)은 이 예에서 인텔리전트/동적 등화기에 대한 제어 가중치 및 가상화기에 대한 제어 가중치를 결정한다. 다른 제어 가중치들도 가중치 계산 모듈(170)에 의해 계산될 수 있다는 것이 이해된다.
가중치 계산 모듈(170)은 신뢰도 값들(즉, 분류 정보(125))을 입력으로서 수신한다. 신뢰도 값들에 기초하여, 인텔리전트/동적 등화기에 대한 제어 가중치가 블록(1310)에서 계산된다. 등화는 스피치의 음색을 변경할 수 있고, 따라서 전형적으로 스피치에 바람직하지 않기 때문에, 일부 구현들에서, 인텔리전트/동적 등화기에 대한 제어 가중치(등화기 제어 가중치)는 분류 정보(예를 들어, 신뢰도 값들)가 디코딩된 오디오 콘텐츠의 콘텐츠 타입이 스피치이거나 스피치일 가능성이 있는 것을 표시하는 경우(예를 들어, 스피치 신뢰도 값이 특정 임계값을 초과하는 경우) 등화가 디스에이블되도록 계산될 수 있다. 선택적으로, 등화기 제어 가중치는 블록(1330)에서 평활화될 수 있다. 평활화는 등화기 제어 가중치의 평활화에 특정될 수 있는 등화기 제어 가중치 평활화 계수들(1335)에 의존할 수 있다. 결국, (평활화된) 등화기 제어 가중치(175a)가 가중치 계산 모듈(170)에 의해 출력된다.
신뢰도 값들은 또한 블록(1320)에서 가상화기에 대한 제어 가중치(가상화기 제어 가중치)를 계산하기 위해 이용된다. 가상화가 음악적 음색을 변경할 수 있고, 따라서 전형적으로 음악에 대해 요망되지 않기 때문에, 일부 구현들에서, 분류 정보(예를 들어, 신뢰도 값들)가 디코딩된 오디오 콘텐츠의 콘텐츠 타입이 음악이거나 음악일 가능성이 있음을 나타내는 경우(예를 들어, 음악 신뢰도 값이 특정 임계값을 초과하는 경우) 가상화(스피커 가상화)가 디스에이블되도록 가상화기에 대한 제어 가중치가 계산될 수 있다. 또한, 가상화기에 대한 제어 가중치는 가상화기의 계수들이 통과(처리 없음)와 전체 가상화 사이에서 스케일링되도록 계산될 수 있다. 예로서, 가상화기에 대한 제어 가중치는 아래의 식을 통해 음악 신뢰도 값 music_confidence, 스피치 신뢰도 값 speech_confidence 및 효과 신뢰도 값 effects_confidence에 기초하여 계산될 수 있다.
Figure pct00001
선택적으로, 가상화기 제어 가중치는 블록(1340)에서 평활화될 수 있다. 평활화는 가상화기 제어 가중치의 평활화에 특정적일 수 있는 가상화기 제어 가중치 평활화 계수들(1345)에 의존할 수 있다.
또한, 선택적으로, (평활화된) 가상화기 제어 가중치는 가상화기 제어 가중치의 안정성/연속성을 개선하기 위해 블록(1350)에서, 예를 들어, 시그모이드 함수에 의해 증폭될 수 있다. 이에 의해, 후처리된 오디오 콘텐츠의 렌더링된 표현에서의 가청 아티팩트들이 감소될 수 있다. 증폭은 전술한 비선형 맵핑에 따라 진행될 수 있다.
결국, (평활화된 및/또는 증폭된) 가상화기 제어 가중치(175b)가 가중치 계산 모듈(170)에 의해 출력된다.
신뢰도 값들은 또한 대화 향상기에 대한 제어 가중치(대화 향상기 제어 가중치; 도면에 도시되지 않음)를 계산하기 위해 이용될 수 있다. 대화 향상기는, 주파수 도메인에서, 대화를 포함하는 시간-주파수 타일들(time-frequency tiles)을 검출할 수 있다. 이어서, 이러한 시간-주파수 타일들은 선택적으로 향상될 수 있으며, 따라서 대화를 향상시킬 수 있다. 대화 향상기의 주된 목적은 대화를 향상시키는 것이고, 무대화 콘텐츠에 대화 향상을 적용하는 것은 기껏해야 계산 자원들의 낭비이기 때문에, 대화 향상기 제어 가중치는 분류 정보가 오디오 콘텐츠의 콘텐츠 타입이 스피치이거나 스피치일 가능성이 있음을 나타내는 경우에 (그리고 그러한 경우에만) 대화 향상기에 의한 대화 향상이 가능하게 되도록 계산될 수 있다. 이것은, 예를 들어, 스피치에 대한 신뢰도 값이 주어진 임계값을 초과하는 경우일 수 있다. 등화기 제어 가중치 및 가상화기 제어 가중치에 대해서와 유사하게, 대화 향상기 제어 가중치도 평활화 및/또는 증폭될 수 있다.
또한, 신뢰도 값들은 서라운드 프로세서(서라운드 프로세서 제어 가중치; 도면에 도시되지 않음), 업믹서, 및/또는 크로스 페이더에 대한 제어 가중치를 계산하기 위해 이용될 수 있다.
도 14는 본 개시내용의 실시예들에 따른, 2개의 스피커를 갖는 모바일 디바이스(예를 들어, 모바일 폰)에 의한 재생을 위해 2-채널(예를 들어, 스테레오) 오디오 콘텐츠의 특별한 경우에 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법(1400)을 흐름도 형태로 도시한다. 비트스트림은 분류 정보 또는 2-채널 오디오 콘텐츠를 포함하고, 분류 정보는 2-채널 오디오 콘텐츠의 (예를 들어, 콘텐츠 타입에 관한) 콘텐츠 분류를 나타낸다는 것이 이해된다. 방법(1400)은 2개의 스피커를 갖는 모바일 디바이스의 디코더에 의해 수행될 수 있다. 이 디코더는, 예를 들어, 가중치 계산 및 후처리의 특정 구현들에 의해, 도 1의 인코더-디코더 시스템(100)에서의 디코더(115)와 동일한 기본 구성을 가질 수 있다.
단계 S1410에서, AC-4 비트스트림이 수신된다.
단계 S1420에서, 2-채널 오디오 콘텐츠 및 분류 정보가 비트스트림으로부터 디코딩/디멀티플렉싱된다.
단계 S1430에서, 단계 S1420에서 디코딩된 2-채널 오디오 콘텐츠는 업믹싱된 5.1-채널 오디오 콘텐츠로 업믹싱된다.
단계 S1440에서, 가상화기가 2-채널 스피커 어레이에 대한 5.1 가상화를 위해 업믹싱된 5.1-채널 오디오 콘텐츠에 적용된다. 가상화기는 개개의 제어 가중치의 제어 하에서 동작한다. 가상화기에 대한 제어 가중치는 분류 정보(예를 들어, 신뢰도 값들)에 기초하여 계산된다. 이것은, 예를 들어, 도 13을 참조하여 전술한 방식으로 행해질 수 있다.
단계 S1450에서, 크로스 페이더가 2-채널 오디오 콘텐츠 및 가상화된 업믹싱된 5.1-채널 오디오 콘텐츠에 적용된다. 크로스 페이더는 개개의 제어 가중치의 제어 하에서 동작한다. 크로스 페이더에 대한 제어 가중치는 분류 정보(예를 들어, 신뢰도 값들)에 기초하여 계산된다.
마지막으로, 단계 S1460에서, 크로스 페이더의 출력이 2-채널 스피커 어레이로 라우팅된다.
도 15는 본 개시내용의 실시예들에 따른, 방법(1400)을 수행할 수 있는 2-스피커 모바일 디바이스(1505)의 디코더(1500)의 예를 개략적으로 도시한다. 후술하는 디코더(1500)의 모듈들은, 예를 들어, 컴퓨팅 디바이스의 프로세서에 의해 구현될 수 있다는 것이 이해된다.
디코더(1500)는 비트스트림(110)(예를 들어, AC-4 비트스트림)을 수신하고, 이는 이후 AC-4 (모바일) 디코더 모듈(1510)에 의해 디코딩/디멀티플렉싱된다. AC-4 (모바일) 디코더 모듈(1510)은 디코딩된 2-채널 오디오 콘텐츠(1515) 및 디코딩된 분류 정보(125)를 출력한다. 디코딩된 분류 정보(125)는 분류 정보(125)(예를 들어, 신뢰도 값들)에 기초하여 크로스 페이드 제어 가중치(1575)를 계산하는 가상화기 크로스 페이드 가중치 계산 모듈(1570)에 제공된다. 크로스 페이드 제어 가중치(1575)는 크로스 페이드 모듈(1540)에 의해 결합되는 2개의 신호들의 상대적인 가중치를 결정하는 파라미터일 수 있다. 디코딩된 2-채널 오디오 콘텐츠(1515)는 업믹싱된 5.1-채널 오디오 콘텐츠(1625)를 출력하는 업믹스 모듈(1520)에 의해 2.0 채널로부터 5.1 채널로 업믹싱된다. 그 후, 스테레오 스피커들에 대한 5.1 가상화가 가상화 모듈(가상화기)(1530)에 의해 업믹싱된 5.1-채널 오디오 콘텐츠(1525)에 적용된다. 가상화 모듈은 가상화된 업믹싱된 5.1-채널 오디오 콘텐츠(1535)를 출력하고, 이것은 이어서 크로스 페이드 모듈(1540)에 의해 원래의 디코딩된 2-채널 오디오 콘텐츠와 결합된다. 크로스 페이드 모듈(1540)은 크로스 페이드 제어 가중치(1575)의 제어 하에 동작하고, 마지막으로 모바일 디바이스(1505)의 스피커들로 라우팅하기 위해 후처리된 2-채널 오디오 콘텐츠(102)를 출력한다.
도면에 도시되어 있지 않지만, 디코더(1500)는 또한 분류 정보(125)(예컨대, 신뢰도 값들)에 기초하여 가상화 모듈(1530)에 대한 가상화기 제어 가중치를 계산하는 모듈을 포함할 수 있다. 또한, 디코더(1500)는 분류 정보(125)(예를 들어, 신뢰도 값들)에 기초하여 업믹스 모듈(1520)에 대한 업믹스 제어 가중치를 계산하기 위한 모듈을 포함할 수 있다.
도 16은 본 개시내용의 실시예들에 따른, 예를 들어, 사운드바 디바이스의 5개(또는 그 이상)의 스피커 어레이에 의한 재생을 위해 2-채널(예를 들어, 스테레오) 오디오 콘텐츠의 특별한 경우에 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법(1600)을 흐름도 형태로 도시한다. 비트스트림은 분류 정보 또는 2-채널 오디오 콘텐츠를 포함하고, 분류 정보는 2-채널 오디오 콘텐츠의 (예를 들어, 콘텐츠 타입에 관한) 콘텐츠 분류를 나타낸다는 점이 다시 이해된다. 방법(1600)은, 예를 들어, 사운드바 디바이스와 같은, 5개(또는 그 이상)의 스피커 어레이를 갖는 디바이스의 디코더에 의해 수행될 수 있다. 이 디코더는, 예를 들어, 가중치 계산 및 후처리의 특정 구현들에 의해, 도 1의 인코더-디코더 시스템(100)에서의 디코더(115)와 동일한 기본 구성을 가질 수 있다.
단계 S1610에서, AC-4 비트스트림이 수신된다.
단계 S1620에서, 2-채널 오디오 콘텐츠 및 분류 정보가 비트스트림으로부터 디코딩/디멀티플렉싱된다.
단계 S1630에서, 업믹서가 2-채널 오디오 콘텐츠를 업믹싱된 5.1-채널 오디오 콘텐츠로 업믹싱하기 위해 2-채널 오디오 콘텐츠에 적용된다. 업믹서는 개개의 제어 가중치의 제어 하에서 동작한다. 업믹서에 대한 제어 가중치는 분류 정보(예를 들어, 신뢰도 값들)에 기초하여 계산된다. 업믹서에 대한 제어 가중치는, 예를 들어, 업믹스 가중치와 관련될 수 있다.
단계 S1640에서, 가상화기가 5-채널 스피커 어레이에 대한 5.1 가상화를 위해 업믹싱된 5.1-채널 오디오 콘텐츠에 적용된다. 가상화기는 개개의 제어 가중치의 제어 하에서 동작한다. 가상화기에 대한 제어 가중치는 분류 정보(예를 들어, 신뢰도 값들)에 기초하여 계산된다. 이것은, 예를 들어, 도 13을 참조하여 전술한 방식으로 행해질 수 있다.
마지막으로, 단계 S1650에서, 가상화기의 출력이 5-채널 스피커 어레이로 라우팅된다.
도 17은 본 개시내용의 실시예들에 따른, 방법(1600)을 수행할 수 있는 사운드바 디바이스(1705)의 디코더(1700)의 예를 개략적으로 도시한다. 후술하는 디코더(1700)의 모듈들은, 예를 들어, 컴퓨팅 디바이스의 프로세서에 의해 구현될 수 있다는 것이 이해된다.
디코더(1700)는 비트스트림(110)(예를 들어, AC-4 비트스트림)을 수신하고, 이는 이어서 AC-4 (사운드바) 디코더 모듈(1710)에 의해 디코딩/디멀티플렉싱된다. AC-4 (사운드바) 디코더 모듈(1710)은 디코딩된 2-채널 오디오 콘텐츠(1715) 및 디코딩된 분류 정보(125)를 출력한다. 디코딩된 분류 정보(125)는 분류 정보(125)(예를 들어, 신뢰도 값들)에 기초하여 업믹스 제어 가중치(1775)를 계산하는 업믹스 가중치 계산 모듈(1770)에 제공된다. 업믹스 제어 가중치(1775)는, 예를 들어, 업믹스 가중치일 수 있다. 디코딩된 2-채널 오디오 콘텐츠(1715)는 업믹싱된 5.1-채널 오디오 콘텐츠를 출력하는 업믹스 모듈(1720)에 의해 2.0 채널로부터 5.1 채널로 업믹싱된다. 업믹스 모듈(1720)은 업믹스 제어 가중치(1775)의 제어 하에서 동작한다. 예를 들어, 상이한 업믹싱(상이한 업믹스 제어 가중치들을 가짐)이 음악 및 스피치에 대해 수행될 수 있다. 이어서, 가상화 모듈(가상화기)(1730)은 5 채널 스피커 어레이에 대한 5.1 가상화를 업믹싱된 5.1-채널 오디오 콘텐츠(1725)에 적용하고, 가상화된 업믹싱된 5.1-채널 오디오 콘텐츠를 출력한다. 가상화된 업믹싱된 5.1-채널 오디오 콘텐츠는 사운드바 디바이스(1705)의 스피커들로 라우팅하기 위해 후처리된 5.1-채널 오디오 콘텐츠(102)로서 최종적으로 출력된다.
도면에 도시되어 있지는 않지만, 디코더(1700)는 또한, 예를 들어, 도 13을 참조하여 전술한 방식으로, 분류 정보(125)(예를 들어, 신뢰도 값들)에 기초하여 가상화 모듈(1730)에 대한 가상화기 제어 가중치를 계산하는 모듈을 포함할 수 있다.
특히, 방법들(1400 및 1600) 뿐만 아니라, 대응하는 디코더들(1500 및 1700)은 종단점 특정적 오디오 후처리를 위한 예들이다.
본 발명의 다양한 양태들은 다음과 같은 열거된 예시적 실시예(enumerated example embodiment)(EEE)들로부터 이해될 수 있다:
1. 오디오 콘텐츠를 인코딩하는 방법으로서, 방법은:
오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계;
콘텐츠 분석에 기초하여 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계;
오디오 콘텐츠 및 분류 정보를 비트스트림으로 인코딩하는 단계; 및
비트스트림을 출력하는 단계를 포함한다.
2. EEE 1에 따른 방법으로서, 콘텐츠 분석은 오디오 콘텐츠에 대한 메타데이터에 적어도 부분적으로 기초한다.
3. 오디오 콘텐츠를 인코딩하는 방법으로서, 방법은:
오디오 콘텐츠의 콘텐츠 타입에 관한 사용자 입력을 수신하는 단계;
사용자 입력에 기초하여 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계;
오디오 콘텐츠 및 분류 정보를 비트스트림으로 인코딩하는 단계; 및
비트스트림을 출력하는 단계를 포함한다.
4. EEE 3에 따른 방법으로서, 사용자 입력은:
오디오 콘텐츠가 주어진 콘텐츠 타입일 것임을 표시하는 라벨; 및
하나 이상의 신뢰도 값들 ― 각각의 신뢰도 값은 개개의 콘텐츠 타입과 연관되고, 오디오 콘텐츠가 개개의 콘텐츠 타입일 가능성의 표시를 제공함 ―
중 하나 이상을 포함한다.
5. 오디오 콘텐츠를 인코딩하는 방법으로서, 오디오 콘텐츠는 오디오 프로그램의 일부로서 오디오 콘텐츠의 스트림으로 제공되고, 방법은:
오디오 콘텐츠의 서비스 타입을 표시하는 서비스 타입 표시를 수신하는 단계;
서비스 타입 표시에 적어도 부분적으로 기초하여 오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계;
콘텐츠 분석에 기초하여 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계;
오디오 콘텐츠 및 분류 정보를 비트스트림으로 인코딩하는 단계; 및
비트스트림을 출력하는 단계를 포함한다.
6. EEE 5에 따른 방법으로서,
서비스 타입 표시에 기초하여, 오디오 콘텐츠의 서비스 타입이 음악 서비스인지를 결정하는 단계; 및
오디오 콘텐츠의 서비스 타입이 음악 서비스라는 결정에 응답하여, 오디오 콘텐츠의 콘텐츠 타입이 음악 콘텐츠라는 것을 나타내는 분류 정보를 생성하는 단계를 더 포함한다.
7. EEE 5 또는 6에 따른 방법으로서,
서비스 타입 표시에 기초하여, 오디오 콘텐츠의 서비스 타입이 뉴스캐스트 서비스인지를 결정하는 단계; 및
오디오 콘텐츠의 서비스 타입이 뉴스캐스트 서비스라는 결정에 응답하여, 오디오 콘텐츠가 스피치 콘텐츠임을 나타낼 더 높은 가능성을 갖도록 콘텐츠 분석을 적응시키는 단계를 더 포함한다.
8. EEE 5 내지 EEE 7 중 어느 하나에 따른 방법으로서, 서비스 타입 표시는 프레임별 기준으로 제공된다.
9. 오디오 콘텐츠를 인코딩하는 방법으로서, 오디오 콘텐츠는 파일 기준으로 제공되고, 파일들은 그들 개개의 오디오 콘텐츠에 대한 메타데이터를 포함하고, 방법은:
오디오 콘텐츠에 대한 메타데이터에 적어도 부분적으로 기초하여 오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계;
콘텐츠 분석에 기초하여 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계;
오디오 콘텐츠 및 분류 정보를 비트스트림으로 인코딩하는 단계; 및
비트스트림을 출력하는 단계를 포함한다.
10. EEE 9에 따른 방법으로서,
메타데이터는 파일의 파일 콘텐츠 타입을 표시하는 파일 콘텐츠 타입 표시를 포함하고,
콘텐츠 분석은 파일 콘텐츠 타입 표시에 적어도 부분적으로 기초한다.
11. EEE 10에 따른 방법으로서,
파일 콘텐츠 타입 표시에 기초하여, 파일의 파일 콘텐츠 타입이 음악 파일인지를 결정하는 단계; 및
파일의 파일 콘텐츠 타입이 음악 파일이라는 결정에 응답하여, 오디오 콘텐츠의 콘텐츠 타입이 음악 콘텐츠라는 것을 나타내는 분류 정보를 생성하는 단계를 더 포함한다.
12. EEE 10 또는 EEE 11에 따른 방법으로서,
파일 콘텐츠 타입 표시에 기초하여, 파일의 파일 콘텐츠 타입이 뉴스캐스트 파일인지를 결정하는 단계; 및
파일의 파일 콘텐츠 타입이 뉴스캐스트 파일이라는 결정에 응답하여, 오디오 콘텐츠가 스피치 콘텐츠임을 나타낼 더 높은 가능성을 갖도록 콘텐츠 분석을 적응시키는 단계를 더 포함한다.
13. EEE 10 내지 EEE 12 중 어느 하나에 따른 방법으로서,
파일 콘텐츠 타입 표시에 기초하여, 파일의 파일 콘텐츠 타입이 동적인지를 결정하는 단계; 및
파일의 파일 콘텐츠 타입이 동적 콘텐츠라는 결정에 응답하여, 상이한 콘텐츠 타입들 사이의 더 높은 전이율을 허용하도록 콘텐츠 분석을 적응시키는 단계를 더 포함한다.
14. EEE 1 내지 EEE 13 중 어느 하나에 따른 방법으로서, 분류 정보는 하나 이상의 신뢰도 값을 포함하고, 각각의 신뢰도 값은 개개의 콘텐츠 타입과 연관되고, 오디오 콘텐츠가 개개의 콘텐츠 타입일 가능성의 표시를 제공한다.
15. EEE 1 내지 EEE 14 중 어느 하나에 따른 방법으로서, 콘텐츠 타입들은 음악 콘텐츠, 스피치 콘텐츠 또는 효과 콘텐츠 중 하나 이상을 포함한다.
16. EEE 1 내지 EEE 15 중 어느 하나에 따른 방법으로서,
오디오 콘텐츠에서의 장면 전이들의 표시를 비트스트림으로 인코딩하는 단계를 더 포함한다.
17. EEE 1 내지 EEE 16 중 어느 하나에 따른 방법으로서,
인코딩 전에 분류 정보를 평활화하는 단계를 더 포함한다.
18. EEE 1 내지 EEE 17 중 어느 하나에 따른 방법으로서,
인코딩 전에 분류 정보를 양자화하는 단계를 더 포함한다.
19. EEE 1 내지 EEE 18 중 어느 하나에 따른 방법으로서,
분류 정보를 비트스트림의 패킷에서의 특정 데이터 필드로 인코딩하는 단계를 더 포함한다.
20. 오디오 콘텐츠 및 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법으로서, 분류 정보는 오디오 콘텐츠의 콘텐츠 분류를 나타내고, 방법은:
비트스트림을 수신하는 단계;
오디오 콘텐츠 및 분류 정보를 디코딩하는 단계; 및
분류 정보에 기초하여, 디코딩된 오디오 콘텐츠의 후처리를 수행하기 위한 후처리 모드를 선택하는 단계를 포함한다.
21. EEE 20에 따른 방법으로서, 후처리 모드의 선택은 사용자 입력에 추가로 기초한다.
22. 오디오 콘텐츠 및 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법으로서, 분류 정보는 오디오 콘텐츠의 콘텐츠 분류를 나타내고, 방법은:
비트스트림을 수신하는 단계;
오디오 콘텐츠 및 분류 정보를 디코딩하는 단계; 및
분류 정보에 기초하여 디코딩된 오디오 콘텐츠의 후처리를 위한 하나 이상의 제어 가중치를 계산하는 단계를 포함한다.
23. EEE 22에 따른 방법으로서,
분류 정보는 하나 이상의 신뢰도 값을 포함하고, 각각의 신뢰도 값은 개개의 콘텐츠 타입과 연관되고, 오디오 콘텐츠가 개개의 콘텐츠 타입일 가능성의 표시를 제공하고;
제어 가중치들은 신뢰도 값들에 기초하여 계산된다.
24. EEE 22 또는 EEE 23에 따른 방법으로서, 제어 가중치들은 디코딩된 오디오 콘텐츠의 후처리를 위한 개개의 모듈들에 대한 제어 가중치들이다.
25. EEE 22 내지 EEE 24 중 어느 하나에 따른 방법으로서, 제어 가중치들은 등화기에 대한 제어 가중치, 가상화기에 대한 제어 가중치, 서라운드 프로세서에 대한 제어 가중치, 및 대화 향상기에 대한 제어 가중치 중 하나 이상을 포함한다.
26. EEE 22 내지 EEE 25 중 어느 하나에 따른 방법으로서, 제어 가중치들의 계산은 디코딩을 수행하는 디바이스의 디바이스 타입에 의존한다.
27. EEE 22 내지 EEE 26 중 어느 하나에 따른 방법으로서, 제어 가중치들의 계산은 사용자 입력에 추가로 기초한다.
28. EEE 22 내지 EEE 27 중 어느 하나에 따른 방법으로서, 제어 가중치들의 계산은 오디오 콘텐츠의 채널들의 수에 추가로 기초한다.
29. EEE 22 내지 EEE 28 중 어느 하나에 따른 방법으로서,
제어 가중치들은 가상화기에 대한 제어 가중치를 포함하고;
가상화기에 대한 제어 가중치는 분류 정보가 오디오 콘텐츠의 콘텐츠 타입이 음악이거나 음악일 가능성이 있음을 나타내는 경우 가상화기가 디스에이블되도록 계산된다.
30. EEE 22 내지 EEE 29 중 어느 하나에 따른 방법으로서,
제어 가중치들은 가상화기에 대한 제어 가중치를 포함하고;
가상화기에 대한 제어 가중치는 가상화기의 계수들이 통과와 전체 가상화 사이에서 스케일링하도록 계산된다.
31. EEE 22 내지 EEE 30 중 어느 하나에 따른 방법으로서,
제어 가중치들은 대화 향상기에 대한 제어 가중치를 포함하고;
대화 향상기에 대한 제어 가중치는 분류 정보가 오디오 콘텐츠의 콘텐츠 타입이 스피치이거나 스피치일 가능성이 있음을 나타내는 경우 대화 향상기에 의한 대화 향상이 향상되도록 계산된다.
32. EEE 22 내지 EEE 31 중 어느 하나에 따른 방법으로서,
제어 가중치들은 동적 등화기에 대한 제어 가중치를 포함하고;
동적 등화기에 대한 제어 가중치는 분류 정보가 오디오 콘텐츠의 콘텐츠 타입이 스피치이거나 스피치일 가능성이 있음을 나타내는 경우 동적 등화기가 디스에이블되도록 계산된다.
33. EEE 22 내지 EEE 32 중 어느 하나에 따른 방법으로서, 제어 가중치들을 평활화하는 단계를 더 포함한다.
34. EEE 33에 따른 방법으로서, 제어 가중치들의 평활화는 평활화되는 특정 제어 가중치에 의존한다.
35. EEE 33 또는 EEE 34에 따른 방법으로서, 제어 가중치들의 평활화는 디코딩을 수행하는 디바이스의 디바이스 타입에 의존한다.
36. EEE 33 내지 EEE 35 중 어느 하나에 따른 방법으로서, 제어 가중치들의 연속성을 증가시키기 위해 제어 가중치들에 비선형 맵핑 함수를 적용하는 단계를 더 포함한다.
37. 2-채널 오디오 콘텐츠 및 2-채널 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법으로서, 분류 정보는 2-채널 오디오 콘텐츠의 콘텐츠 분류를 나타내고, 방법은:
AC-4 비트스트림을 수신하는 단계;
2-채널 오디오 콘텐츠 및 분류 정보를 디코딩하는 단계;
2-채널 오디오 콘텐츠를 업믹싱된 5.1-채널 오디오 콘텐츠로 업믹싱하는 단계;
2-채널 스피커 어레이에 대한 5.1 가상화를 위해 업믹싱된 5.1-채널 오디오 콘텐츠에 가상화기를 적용하는 단계;
2-채널 오디오 콘텐츠 및 가상화된 업믹싱된 5.1-채널 오디오 콘텐츠에 크로스 페이더를 적용하는 단계; 및
크로스 페이더의 출력을 2-채널 스피커 어레이로 라우팅하는 단계를 포함하고,
방법은 분류 정보에 기초하여 가상화기와 크로스 페이더에 대한 개개의 제어 가중치들을 계산하는 단계를 더 포함한다.
38. 2-채널 오디오 콘텐츠 및 2-채널 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 오디오 콘텐츠를 디코딩하는 방법으로서, 분류 정보는 2-채널 오디오 콘텐츠의 콘텐츠 분류를 나타내고, 방법은:
비트스트림을 수신하는 단계;
2-채널 오디오 콘텐츠 및 분류 정보를 디코딩하는 단계;
2-채널 오디오 콘텐츠를 업믹싱된 5.1-채널 오디오 콘텐츠로 업믹싱하기 위해 2-채널 오디오 콘텐츠에 업믹서를 적용하는 단계;
5-채널 스피커 어레이에 대한 5.1 가상화를 위해 업믹싱된 5.1-채널 오디오 콘텐츠에 가상화기를 적용하는 단계; 및
가상화기의 출력을 5-채널 스피커 어레이로 라우팅하는 단계를 포함하고,
방법은 분류 정보에 기초하여 업믹서 및 가상화기에 대한 개개의 제어 가중치들을 계산하는 단계를 더 포함한다.
39. 오디오 콘텐츠를 인코딩하기 위한 인코더로서, 인코더는 프로세서를 포함하고, 프로세서는 프로세서에 대한 명령어들을 저장하는 메모리에 결합되고, 프로세서는 EEE 1 내지 EEE 19 중 어느 하나에 따른 방법을 수행하도록 적응된다.
40. 오디오 콘텐츠를 디코딩하기 위한 디코더로서, 디코더는 프로세서를 포함하고, 프로세서는 프로세서에 대한 명령어들을 저장하는 메모리에 결합되고, 프로세서는 EEE 20 내지 EEE 38 중 어느 하나에 따른 방법을 수행하도록 적응된다.
41. 명령어들을 실행하는 프로세서로 하여금 EEE 1 내지 EEE 38 중 어느 하나에 따른 방법을 수행하게 하기 위한 명령어들을 포함하는 컴퓨터 프로그램.
42. EEE 41에 따른 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체.

Claims (41)

  1. 오디오 콘텐츠를 인코딩하는 방법으로서,
    상기 오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계;
    상기 콘텐츠 분석에 기초하여 상기 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계 ― 상기 분류 정보는 하나 이상의 신뢰도 값을 포함하고, 각각의 신뢰도 값은 개개의 콘텐츠 타입과 연관되고, 상기 오디오 콘텐츠가 상기 개개의 콘텐츠 타입일 가능성의 표시를 제공함 ―;
    상기 오디오 콘텐츠 및 상기 분류 정보를 비트스트림으로 인코딩하는 단계; 및
    상기 비트스트림을 출력하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 콘텐츠 분석은 상기 오디오 콘텐츠에 대한 메타데이터에 적어도 부분적으로 기초하는, 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 오디오 콘텐츠의 콘텐츠 타입에 관한 사용자 입력을 수신하는 단계를 더 포함하고,
    상기 정보를 생성하는 단계는 상기 사용자 입력에 기초하는, 방법.
  4. 제3항에 있어서,
    상기 사용자 입력은 주어진 콘텐츠 타입일 상기 오디오 콘텐츠를 표시하는 라벨을 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 오디오 콘텐츠는 오디오 프로그램의 일부로서 오디오 콘텐츠의 스트림에 제공되고, 상기 방법은,
    상기 오디오 콘텐츠의 서비스 타입을 표시하는 서비스 타입 표시를 수신하는 단계; 및
    상기 서비스 타입 표시에 적어도 부분적으로 기초하여 상기 오디오 콘텐츠의 콘텐츠 분석을 수행하는 단계
    를 더 포함하고,
    상기 오디오 콘텐츠의 콘텐츠 타입을 나타내는 분류 정보를 생성하는 단계는 상기 콘텐츠 분석에 기초하는, 방법.
  6. 제5항에 있어서,
    상기 서비스 타입 표시에 기초하여, 상기 오디오 콘텐츠의 서비스 타입이 음악 서비스인지를 결정하는 단계: 및
    상기 오디오 콘텐츠의 서비스 타입이 음악 서비스라는 상기 결정에 응답하여, 상기 오디오 콘텐츠의 콘텐츠 타입이 음악 콘텐츠라는 것을 나타내는 분류 정보를 생성하는 단계
    를 더 포함하는, 방법.
  7. 제5항 또는 제6항에 있어서,
    상기 서비스 타입 표시에 기초하여, 상기 오디오 콘텐츠의 서비스 타입이 뉴스캐스트 서비스인지를 결정하는 단계; 및
    상기 오디오 콘텐츠의 서비스 타입이 뉴스캐스트 서비스라는 상기 결정에 응답하여, 상기 오디오 콘텐츠가 스피치 콘텐츠임을 나타내기 위해 상기 콘텐츠 분석을 미리 결정된 임계값보다 높은 가능성 값을 갖도록 적응시키는 단계
    를 더 포함하는, 방법.
  8. 제5항 내지 제7항 중 어느 한 항에 있어서,
    상기 서비스 타입 표시는 프레임별 기준으로 제공되는, 방법.
  9. 제2항에 종속되는 한, 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 오디오 콘텐츠는 파일 기준으로 제공되고, 상기 파일은 그들 개개의 오디오 콘텐츠에 대한 메타데이터를 포함하는, 방법.
  10. 제9항에 있어서,
    상기 메타데이터는 상기 파일의 파일 콘텐츠 타입을 표시하는 파일 콘텐츠 타입 표시를 포함하고, 상기 콘텐츠 분석은 상기 파일 콘텐츠 타입 표시에 적어도 부분적으로 기초하는, 방법.
  11. 제10항에 있어서,
    상기 파일 콘텐츠 타입 표시에 기초하여, 상기 파일의 파일 콘텐츠 타입이 음악 파일인지를 결정하는 단계; 및
    상기 파일의 파일 콘텐츠 타입이 음악 파일이라는 상기 결정에 응답하여, 상기 오디오 콘텐츠의 콘텐츠 타입이 음악 콘텐츠라는 것을 나타내는 상기 분류 정보를 생성하는 단계
    를 더 포함하는, 방법.
  12. 제10항 또는 제11항에 있어서,
    상기 파일 콘텐츠 타입 표시에 기초하여, 상기 파일의 파일 콘텐츠 타입이 뉴스캐스트 파일인지를 결정하는 단계; 및
    상기 파일의 파일 콘텐츠 타입이 뉴스캐스트 파일이라는 상기 결정에 응답하여, 상기 오디오 콘텐츠가 스피치 콘텐츠임을 나타내기 위해 상기 콘텐츠 분석을 미리 결정된 임계값보다 높은 가능성 값을 갖도록 적응시키는 단계
    를 더 포함하는, 방법.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서,
    상기 파일 콘텐츠 타입 표시에 기초하여, 상기 파일의 파일 콘텐츠 타입이 동적인지를 결정하는 단계; 및
    상기 파일의 파일 콘텐츠 타입이 동적 콘텐츠라는 상기 결정에 응답하여, 상이한 콘텐츠 타입들 사이의 더 높은 전이율을 허용하도록 상기 콘텐츠 분석을 적응시키는 단계
    를 더 포함하는, 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    상기 콘텐츠 타입들은 그룹 ― 음악 콘텐츠, 스피치 콘텐츠, 효과 콘텐츠 및 군중 잡음 ― 으로부터 선택된 콘텐츠 중 하나 이상을 포함하는, 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서,
    상기 오디오 콘텐츠에서의 장면 전이들의 표시를 상기 비트스트림으로 인코딩하는 단계를 더 포함하는, 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    인코딩 전에 상기 분류 정보를 평활화하는 단계를 더 포함하는, 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    인코딩 전에 상기 분류 정보를 양자화하는 단계를 더 포함하는, 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서,
    상기 분류 정보를 상기 비트스트림의 패킷에서의 특정 데이터 필드로 인코딩하는 단계를 더 포함하는, 방법.
  19. 오디오 콘텐츠를 인코딩하기 위한 인코더로서,
    상기 인코더는 프로세서를 포함하고, 상기 프로세서는 상기 프로세서에 대한 명령어들을 저장하는 메모리에 결합되고, 상기 프로세서는 제1항 내지 제18항 중 어느 한 항에 따른 방법을 수행하도록 적응되는, 인코더.
  20. 오디오 콘텐츠 및 상기 오디오 콘텐츠에 대한 분류 정보를 포함하는 비트스트림으로부터 상기 오디오 콘텐츠를 디코딩하는 방법으로서,
    상기 분류 정보는 상기 오디오 콘텐츠의 콘텐츠 타입을 나타내고, 상기 분류 정보는 하나 이상의 신뢰도 값을 포함하고, 각각의 신뢰도 값은 개개의 콘텐츠 타입과 연관되고, 상기 오디오 콘텐츠가 상기 개개의 콘텐츠 타입일 가능성의 표시를 제공하고,
    상기 방법은,
    상기 비트스트림을 수신하는 단계;
    상기 오디오 콘텐츠 및 상기 분류 정보를 디코딩하는 단계;
    상기 분류 정보에 기초하여, 상기 디코딩된 오디오 콘텐츠의 후처리를 수행하기 위한 후처리 모드를 선택하는 단계; 및
    상기 분류 정보에 기초하여 상기 디코딩된 오디오 콘텐츠의 후처리를 위한 하나 이상의 제어 가중치를 계산하는 단계 ― 상기 제어 가중치들은 상기 신뢰도 값들에 기초하여 계산됨 ―
    를 포함하는, 방법.
  21. 제20항에 있어서,
    상기 비트스트림은 채널 기반 오디오 콘텐츠를 포함하고, 상기 후처리는,
    상기 채널 기반 오디오 콘텐츠를 업믹싱된 채널 기반 오디오 콘텐츠로 업믹싱하는 단계: 및
    원하는 수의 채널들의 스피커 어레이에 대한 가상화를 위한 가상화된 업믹싱된 채널 기반 오디오 콘텐츠를 획득하기 위해 상기 업믹싱된 채널 기반 오디오 콘텐츠에 가상화기를 적용하는 단계
    를 포함하는, 방법.
  22. 제20항 또는 제21항에 있어서,
    상기 후처리 모드를 선택하는 단계는 사용자 입력에 추가로 기초하는, 방법.
  23. 제21항 또는 제22항에 있어서,
    상기 가상화기의 출력을 상기 스피커 어레이로 라우팅하는 단계; 및
    상기 분류 정보에 기초하여 상기 업믹서 및 상기 가상화기에 대한 개개의 제어 가중치들을 계산하는 단계
    를 더 포함하는, 방법.
  24. 제21항 또는 제22항에 있어서,
    상기 가상화기를 적용한 후에, 상기 방법은,
    상기 채널 기반 오디오 콘텐츠 및 상기 가상화된 업믹싱된 오디오 콘텐츠에 크로스 페이더를 적용하는 단계;
    상기 크로스 페이더의 출력을 상기 스피커 어레이로 라우팅하는 단계; 및
    상기 분류 정보에 기초하여 상기 업믹서 및 상기 크로스 페이더에 대한 개개의 제어 가중치들을 계산하는 단계
    를 더 포함하는, 방법.
  25. 제20항 내지 제24항 중 어느 한 항에 있어서,
    상기 제어 가중치들은 상기 디코딩된 오디오 콘텐츠의 후처리를 위한 개개의 모듈들에 대한 제어 가중치들인, 방법.
  26. 제20항 내지 제25항 중 어느 한 항에 있어서,
    상기 제어 가중치들은 등화기에 대한 제어 가중치들, 가상화기에 대한 제어 가중치, 서라운드 프로세서에 대한 제어 가중치, 및 대화 향상기에 대한 제어 가중치 중 하나 이상을 포함하는, 방법.
  27. 제20항 내지 제26항 중 어느 한 항에 있어서,
    상기 제어 가중치들의 계산은 상기 디코딩을 수행하는 디바이스의 디바이스 타입에 의존하는, 방법.
  28. 제20항 내지 제27항 중 어느 한 항에 있어서,
    상기 제어 가중치들의 계산은 사용자 입력에 추가로 기초하는, 방법.
  29. 제20항 내지 제28항 중 어느 한 항에 있어서,
    상기 제어 가중치들의 계산은 상기 오디오 콘텐츠의 채널들의 수에 추가로 기초하는, 방법.
  30. 제20항 내지 제29항 중 어느 한 항에 있어서,
    상기 제어 가중치들은 가상화기에 대한 제어 가중치를 포함하고;
    상기 가상화기에 대한 상기 제어 가중치는, 상기 분류 정보가 상기 오디오 콘텐츠의 콘텐츠 타입이 음악이거나 음악일 가능성이 있음을 나타내는 경우 상기 가상화기가 디스에이블되도록 계산되는, 방법.
  31. 제20항 내지 제30항 중 어느 한 항에 있어서,
    상기 제어 가중치들은 가상화기에 대한 제어 가중치를 포함하고;
    상기 가상화기에 대한 상기 제어 가중치는 상기 가상화기의 계수들이 통과 가상화와 전체 가상화 사이에서 스케일링하도록 계산되는, 방법.
  32. 제20항 내지 제31항 중 어느 한 항에 있어서,
    상기 제어 가중치들은 대화 향상기에 대한 제어 가중치를 포함하고;
    상기 대화 향상기에 대한 상기 제어 가중치는, 상기 분류 정보가 상기 오디오 콘텐츠의 콘텐츠 타입이 스피치이거나 스피치일 가능성이 있음을 나타내는 경우 상기 대화 향상기에 의한 대화 향상이 향상되도록 계산되는, 방법.
  33. 제20항 내지 제32항 중 어느 한 항에 있어서,
    상기 제어 가중치들은 동적 등화기에 대한 제어 가중치를 포함하고;
    상기 동적 등화기에 대한 상기 제어 가중치는, 상기 분류 정보가 상기 오디오 콘텐츠의 콘텐츠 타입이 스피치이거나 스피치일 가능성이 있음을 나타내는 경우 상기 동적 등화기가 디스에이블되도록 계산되는, 방법.
  34. 제20항 내지 제33항 중 어느 한 항에 있어서,
    상기 제어 가중치들을 평활화하는 단계를 더 포함하는, 방법.
  35. 제34항에 있어서,
    상기 제어 가중치들을 평활화하는 단계는 평활화되는 특정 제어 가중치에 의존하는, 방법.
  36. 제34항 또는 제35항에 있어서,
    상기 제어 가중치들을 평활화하는 단계는 상기 디코딩을 수행하는 디바이스의 디바이스 타입에 의존하는, 방법.
  37. 제33항 내지 제36항 중 어느 한 항에 있어서,
    상기 제어 가중치들의 연속성을 증가시키기 위해 상기 제어 가중치들에 비선형 맵핑 함수를 적용하는 단계를 더 포함하는, 방법.
  38. 제21항 내지 제37항 중 어느 한 항에 있어서,
    상기 비트스트림은 AC-4 비트스트림이고, 상기 방법은,
    2-채널 오디오 콘텐츠 및 상기 분류 정보를 디코딩하는 단계;
    상기 2-채널 오디오 콘텐츠를 업믹싱된 5.1-채널 오디오 콘텐츠로 업믹싱하는 단계;
    2-채널 스피커 어레이에 대한 5.1 가상화를 위해 상기 업믹싱된 5.1-채널 오디오 콘텐츠에 가상화기를 적용하는 단계;
    상기 2-채널 오디오 콘텐츠 및 상기 가상화된 업믹싱된 5.1-채널 오디오 콘텐츠에 크로스 페이더를 적용하는 단계; 및
    상기 크로스 페이더의 출력을 상기 2-채널 스피커 어레이로 라우팅하는 단계
    를 포함하고,
    상기 방법은 상기 분류 정보에 기초하여 상기 가상화기 및 상기 크로스 페이더에 대한 개개의 제어 가중치들을 계산하는 단계를 더 포함하는, 방법.
  39. 제21항 내지 제38항 중 어느 한 항에 있어서,
    상기 비트스트림은 2-채널 오디오 콘텐츠 및 상기 2-채널 오디오 콘텐츠에 대한 분류 정보를 포함하고, 상기 분류 정보는 상기 2-채널 오디오 콘텐츠의 콘텐츠 분류를 나타내며, 상기 방법은,
    상기 2-채널 오디오 콘텐츠 및 상기 분류 정보를 디코딩하는 단계;
    상기 2-채널 오디오 콘텐츠를 업믹싱된 5.1-채널 오디오 콘텐츠로 업믹싱하기 위해 상기 2-채널 오디오 콘텐츠에 업믹서를 적용하는 단계;
    5-채널 스피커 어레이에 대한 5.1 가상화를 위해 상기 업믹싱된 5.1-채널 오디오 콘텐츠에 가상화기를 적용하는 단계; 및
    상기 가상화기의 출력을 상기 5-채널 스피커 어레이로 라우팅하는 단계
    를 포함하고,
    상기 방법은 상기 분류 정보에 기초하여 상기 업믹서 및 상기 가상화기에 대한 개개의 제어 가중치들을 계산하는 단계를 더 포함하는, 방법.
  40. 오디오 콘텐츠를 디코딩하기 위한 디코더로서,
    상기 디코더는 프로세서를 포함하고, 상기 프로세서는 상기 프로세서에 대한 명령어들을 저장하는 메모리에 결합되고, 상기 프로세서는 제20항 내지 제39항 중 어느 한 항에 따른 방법을 수행하도록 적응되는, 디코더.
  41. 명령어들을 실행하는 프로세서로 하여금 제1항 내지 제39항 중 어느 한 항에 따른 방법을 수행하게 하기 위한 명령어들을 포함하는 컴퓨터 프로그램.
KR1020217017682A 2018-12-13 2019-12-10 이중 종단 미디어 인텔리전스 KR20210102899A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CNPCT/CN2018/120923 2018-12-13
CN2018120923 2018-12-13
US201962792997P 2019-01-16 2019-01-16
US62/792,997 2019-01-16
EP19157080.3 2019-02-14
EP19157080 2019-02-14
PCT/US2019/065338 WO2020123424A1 (en) 2018-12-13 2019-12-10 Dual-ended media intelligence

Publications (1)

Publication Number Publication Date
KR20210102899A true KR20210102899A (ko) 2021-08-20

Family

ID=69104844

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217017682A KR20210102899A (ko) 2018-12-13 2019-12-10 이중 종단 미디어 인텔리전스

Country Status (8)

Country Link
US (1) US20220059102A1 (ko)
EP (1) EP3895164B1 (ko)
JP (2) JP7455836B2 (ko)
KR (1) KR20210102899A (ko)
CN (1) CN113168839B (ko)
BR (1) BR112021009667A2 (ko)
RU (1) RU2768224C1 (ko)
WO (1) WO2020123424A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023539121A (ja) * 2020-08-18 2023-09-13 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオコンテンツの識別
CN115102931B (zh) * 2022-05-20 2023-12-19 阿里巴巴(中国)有限公司 自适应调整音频延迟的方法及电子设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
JP4713396B2 (ja) 2006-05-09 2011-06-29 シャープ株式会社 映像音声再生装置、及びその音像移動方法
EP2111616B1 (en) 2007-02-14 2011-09-28 LG Electronics Inc. Method and apparatus for encoding an audio signal
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
WO2010003521A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and discriminator for classifying different segments of a signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
AP3301A (en) * 2009-12-07 2015-06-30 Dolby Lab Licensing Corp Decoding of multichannel audio encoded bit streamsusing adaptive hybrid transformation
US8965545B2 (en) * 2010-09-30 2015-02-24 Google Inc. Progressive encoding of audio
TW202405797A (zh) * 2010-12-03 2024-02-01 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US20140056430A1 (en) * 2012-08-21 2014-02-27 Electronics And Telecommunications Research Institute System and method for reproducing wave field using sound bar
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
JP6041789B2 (ja) * 2013-01-03 2016-12-14 三菱電機株式会社 入力信号を符号化する方法
JP6445460B2 (ja) * 2013-01-28 2018-12-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置
CN104080024B (zh) * 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9418650B2 (en) * 2013-09-25 2016-08-16 Verizon Patent And Licensing Inc. Training speech recognition using captions
WO2016018787A1 (en) * 2014-07-31 2016-02-04 Dolby Laboratories Licensing Corporation Audio processing systems and methods
US9934790B2 (en) * 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US9934785B1 (en) * 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal

Also Published As

Publication number Publication date
BR112021009667A2 (pt) 2021-08-17
CN113168839A (zh) 2021-07-23
US20220059102A1 (en) 2022-02-24
EP3895164B1 (en) 2022-09-07
CN113168839B (zh) 2024-01-23
WO2020123424A1 (en) 2020-06-18
JP7455836B2 (ja) 2024-03-26
JP2022513184A (ja) 2022-02-07
JP2024081674A (ja) 2024-06-18
EP3895164A1 (en) 2021-10-20
RU2768224C1 (ru) 2022-03-23

Similar Documents

Publication Publication Date Title
JP5451394B2 (ja) 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法
JP5001384B2 (ja) オーディオ信号の処理方法及び装置
KR101049144B1 (ko) 오디오 신호 처리방법 및 장치
JP2024081674A (ja) デュアルエンドのメディア・インテリジェンス
US9484039B2 (en) Method and an apparatus for processing an audio signal
US11501785B2 (en) Method and apparatus for adaptive control of decorrelation filters
CN114175151A (zh) Ivas比特流的编码和解码
US11096002B2 (en) Energy-ratio signalling and synthesis
US11463833B2 (en) Method and apparatus for voice or sound activity detection for spatial audio
KR20210113342A (ko) 고해상도 오디오 코딩
KR100740807B1 (ko) 공간정보기반 오디오 부호화에서의 공간정보 추출 방법
WO2009075511A1 (en) A method and an apparatus for processing a signal
CN114827886A (zh) 音频生成方法、装置、电子设备和存储介质