RU2430430C2 - Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования - Google Patents

Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования Download PDF

Info

Publication number
RU2430430C2
RU2430430C2 RU2009113055/09A RU2009113055A RU2430430C2 RU 2430430 C2 RU2430430 C2 RU 2430430C2 RU 2009113055/09 A RU2009113055/09 A RU 2009113055/09A RU 2009113055 A RU2009113055 A RU 2009113055A RU 2430430 C2 RU2430430 C2 RU 2430430C2
Authority
RU
Russia
Prior art keywords
audio
matrix
parameters
downmix
channels
Prior art date
Application number
RU2009113055/09A
Other languages
English (en)
Other versions
RU2009113055A (ru
Inventor
Йонас ЭНГДЕГАРД (SE)
Йонас ЭНГДЕГАРД
Ларс ВИЛЛЕМОЕС (SE)
Ларс ВИЛЛЕМОЕС
Хайко ПУРНАГЕН (SE)
Хайко ПУРНАГЕН
Барбара РЕШ (SE)
Барбара Реш
Original Assignee
Долби Свиден АБ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Свиден АБ filed Critical Долби Свиден АБ
Publication of RU2009113055A publication Critical patent/RU2009113055A/ru
Application granted granted Critical
Publication of RU2430430C2 publication Critical patent/RU2430430C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Electron Tubes For Measurement (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Sorting Of Articles (AREA)
  • Optical Measuring Cells (AREA)
  • Telephone Function (AREA)

Abstract

Изобретение относится к декодированию множественных объектов путем преобразования закодированного многообъектного сигнала с помощью многоканального понижающего микширования и вспомогательных управляющих данных. Техническим результатом является возможность гибкого управления качеством при разделении объектов в зависимости от предъявляемых прикладных требований и эксплуатационных свойств системы передачи (например, емкости канала). Указанный технический результат достигается тем, что кодер аудиообъектов предназначен для генерирования закодированных сигналов аудиообъектов с использованием множества аудиообъектов, где множество аудиообъектов включает в себя стереообъект, представленный двумя аудиообъектами, обладающими определенной ненулевой корреляцией, и включает в себя генератор (96) информации понижающего микширования для формирования информации понижающего микширования, отражающей порядок распределения множества аудиообъектов, по меньшей мере, между двумя каналами понижающего микширования, генератор параметров объекта (94) для генерации параметров объекта для аудиообъектов, где параметры объекта включают в себя аппроксимации энергий объекта для множества аудиообъектов и данные корреляции для стереообъекта, и выходной интерфейс (98) для генерирования кодированного сигнала аудиообъекта с использованием характеристик понижающего микширования и параметров объекта. 7 н. и 43 з.п. ф-лы, 18 ил.

Description

ОБЛАСТЬ ПРИМЕНЕНИЯ
Изобретение относится к декодированию множественных объектов путем преобразования закодированного многообъектного сигнала на базе доступного многоканального понижающего микширования и вспомогательных управляющих данных.
ОБЛАСТЬ ТЕХНИКИ
Последние разработки в области технологии обработки звука делают возможным воссоздание многоканального аудиосигнала на базе стерео- (или моно-) сигнала и соответствующих управляющих данных. Эти методы параметрического кодирования звукового окружения обычно включают в себя параметризацию. Параметрический многоканальный аудиодекодер (например, MPEG Surround стандарта ISO/TEC 23003-1, L.Villemoes, J.Herre, J.Breebaart, G.Hotho, S.Disch, H.Pumhagen, and K.Kjorling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," in 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Pitea, Sweden, June 30-July 2, 2006; J.Breebaart, J.Herre, L.Villemoes, C.Jin, K.Kjorling, J.Plogsties, and J.Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering," in 29th International AES Conference, Audio for Mobile and Handheld Devices, Seoul, Sept 2-4,2006) реконструирует M каналов на базе K принятых каналов, где M>K, с использованием управляющих данных. Управляющие данные представляют собой параметризацию многоканального сигнала на базе разности интенсивности сигнала между каналами (IID) и межканальной когерентности, согласованности (ICC). Как правило, такие параметры выделяются на стадии кодирования и описывают отношения мощностей и корреляцию между парами каналов, используемых при повышающем микшировании. Применение такого алгоритма кодирования позволяет выполнять кодирование при скорости передачи данных, значительно более низкой, чем передача всей совокупности М каналов, при высокой эффективности кодирования и одновременной гарантии совместимости как с устройствами каналов K, так и с устройствами каналов М.
Схожую систему кодирования осуществляет соответствующий кодер аудиообъекта [С.Faller, "Parametric Joint-Coding of Audio Sources," Convention Paper 6752 presented at the 120th AES Convention, Paris, France, May 20-23, 2006.], [С.Faller, "Parametric Joint-Coding of Audio Sources," Patent application PCT/EP2006/050904, 2006], где несколько аудиообъектов микшируются "вниз" кодером, а позже микшируются "вверх" с использованием управляющих команд. Процесс повышающего микширования может также рассматриваться как разделение объектов, смешанных при понижающем микшировании. Полученный в результате повышающего микширования сигнал может быть преобразован для воспроизведения в одно- или многоканальный вид. Определяя точнее, упомянутые выше публикации представляют метод синтеза звуковых каналов на основании результатов понижающего микширования (именуемых суммарным сигналом), статистической информации об источниках и характеристик, задающих необходимый выходной формат. Если используются несколько сигналов, полученных понижающим микшированием, эти сигналы состоят из подмножеств различных объектов, и повышающее микширование должно осуществляться по каждому каналу понижающего микширования индивидуально. Новизна предлагаемого метода заключается в осуществлении повышающего микширования одновременно по всем каналам понижающего микширования. Методы кодирования объекта, представленные до настоящего изобретения, не предлагали вариант декодирования результатов понижающего микширования по нескольким каналам одновременно.
КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Первый аспект изобретения относится к кодеру аудиообъекта, генерирующему закодированный сигнал аудиообъекта с использованием совокупности аудиообъектов, включая:
генератор данных нисходящего микширования, генерирующий параметры распределения множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования;
генератор параметров аудиообъектов и выходной интерфейс для генерирования кодированного сигнала аудиообъекта с использованием характеристик понижающего микширования и параметров объекта.
Второй аспект изобретения относится к методу кодирования аудиообъекта, обеспечивающему генерирование кодированного сигнала аудиообъекта с использованием совокупности аудиообъектов, включая:
генерирование данных понижающего микширования, характеризующих порядок распределения совокупности аудиообъектов, по крайней мере, по двум каналам понижающего микширования;
генерирование параметров аудиообъектов и генерирование кодированных сигналов аудиообъекта с использованием данных понижающего микширования и параметров объекта.
Третий аспект изобретения относится к звуковому синтезатору (аудиосинтезатору), генерирующему выходные данные с использованием кодированного сигнала аудиообъекта, включая:
синтезатор выходных данных, используемых для создания множества выходных каналов с заданной конфигурацией выходного аудиосигнала, отображающего совокупность аудиообъектов, где синтезатор выходных данных распознает характеристики понижающего микширования для распределения множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования и параметры аудиообъектов.
Четвертый аспект изобретения относится к методу синтезирования звука, позволяющего генерировать выходные данные с использованием кодированного сигнала аудиообъекта, включая:
генерирование выходных данных для формирования множества выходных каналов с заданной конфигурацией выходного аудиосигнала, отображающей совокупность аудиообъектов, с применением синтезатора выходных данных, способных считывать характеристики понижающего микширования для распределения множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования и параметры аудиообъектов.
Пятый аспект изобретения относится к кодированному сигналу аудиообъекта, содержащему характеристики понижающего микширования, указывающие порядок распределения множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования, и параметры объектов, позволяющие реконструировать аудиообъекты с использованием параметров объектов и, по крайней мере, двух каналов понижающего микширования.
Шестой аспект изобретения относится к компьютерному программному обеспечению, предназначенному для осуществления метода кодирования аудиообъекта или метода декодирования аудиообъекта на компьютере.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Далее изобретение будет представлено иллюстративным материалом, не ограничивающим его ни по форме, ни по существу, с пояснениями прилагаемых чертежей, где
на фиг.1a представлена блок-схема алгоритма кодирования пространственного аудиообъекта, включая кодирование и декодирование;
на фиг.1b представлена блок-схема алгоритма кодирования пространственного аудиообъекта с использованием декодера MPEG Surround;
на фиг.2 представлен алгоритм работы кодера пространственного аудиообъекта;
на фиг.3 представлена схема алгоритма работы экстрактора (выделителя) параметров аудиообъекта в режиме дифференциации мощности;
на фиг.4 представлена схема алгоритма работы экстрактора (выделителя) параметров аудиообъекта в режиме прогнозирования;
на фиг.5 представлена схема устройства транскодера SAOC-MPEG Surround;
на фиг.6 схематически представлены различные режимы работы преобразователя данных нисходящего микширования (даунмикса);
на фиг.7 представлена принципиальная схема декодера MPEG Surround для нисходящего микширования стереосигнала;
на фиг.8 дана схема частного случая реализации с использованием кодера SAOC;
на фиг.9 представлена схема варианта осуществления кодера;
на фиг.10 представлена схема варианта осуществления декодера;
на фиг.11 представлена таблица оптимальных режимов работы декодера/синтезатора;
на фиг.12 представлена блок-схема методики расчета некоторых пространственных параметров повышающего микширования;
на фиг.13A представлена блок-схема методики расчета дополнительных
пространственных параметров повышающего микширования;
на фиг.13B представлена блок-схема методики расчетов с применением параметров прогнозирования;
на фиг.14 дана общая принципиальная схема системы кодер/декодер;
на фиг.15 представлена блок-схема алгоритма расчета прогностических параметров объекта; и
на фиг.16 схематически представлен метод стереофонического преобразования (аудиорендеринга).
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Описанные ниже варианты осуществления изобретения являются не более чем иллюстрацией принципов усовершенствованного метода кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, но не конкретными деталями.
Предпочтительные варианты осуществления предусматривают метод кодирования, который сочетает в себе функциональные возможности алгоритма кодирования объекта с возможностями аудиорендеринга многоканального декодера. Пересылаемые управляющие данные относятся к индивидуальным объектам и в силу этого позволяют управлять при воспроизведении пространственным положением и уровнем сигнала. Таким образом, управляющая информация непосредственно связана с так называемым 'описанием сцены', дающим информацию о расположении объектов в окружающем пространстве. Описанием сцены можно управлять или со стороны декодера в интерактивном режиме со слушателем, или со стороны кодера от источника звука.
Суть изобретения заключается в том, что вводится транскодер для того, чтобы преобразовать относящиеся к объекту управляющую информацию и сигнал понижающего микширования в управляющие данные и сигнал понижающего микширования, предназначенные для системы воспроизведения, например декодера MPEG Surround. В представленном методе кодирования объекты могут быть произвольно распределены по имеющимся в наличии каналам нисходящего микширования кодера. Транскодер точно использует многоканальные параметры нисходящего микширования, обеспечивая перекодированный сигнал понижающего микширования и относящиеся к объекту управляющие данные. Благодаря этому повышающее микширование на декодере выполняется не для каждого канала индивидуально, как предложено в [С.Faller, "Parametric Joint-Coding of Audio Sources," Convention Paper 6752 presented at the 120th AES Convention, Paris, France, May 20-23, 2006.], а все каналы понижающего микширования обрабатываются одновременно за один процесс повышающего микширования. По новой схеме параметры многоканального понижающего микширования должным быть частью управляющих данных и кодируются кодером объекта.
Распределение объектов по каналам понижающего микширования может выполниться автоматически или это может быть конструктивное решение, связанное с кодером. В последнем случае систему понижающего (нисходящего) микширования можно включить в уже существующую многоканальную систему воспроизведения (например, в стереоустановку), делая упор на воспроизведение, опуская стадию перекодирования и многоканального декодирования. Это еще одно преимущество перед более ранними алгоритмами кодирования, известными из уровня техники, предусматривавшими один канал понижающего микширования или множественные каналы понижающего микширования, содержащие подмножества объектов-источников.
В то время как алгоритмы кодирования объекта известного уровня техники описывают технологию декодирования, используя исключительно единственный канал понижающего микширования, данное изобретение не имеет такого ограничения, поскольку предлагает метод одновременного декодирования материала понижающего микширования, содержащего сигналы понижающего микширования по нескольким каналам. Качество разделения объектов возрастает по мере увеличения числа каналов понижающего микширования. Таким образом, изобретение успешно заполняет пробел между алгоритмом кодирования объекта по одиночному моноканалу понижающего микширования и алгоритмом многоканального кодирования, где каждый объект передается по выделенному каналу. Таким образом, предлагаемый метод дает возможность гибкого управления качеством при разделении объектов в зависимости от предъявляемых прикладных требований и эксплуатационных свойств системы передачи (таких как емкость канала).
В дополнение к этому, преимущество использования более чем одного канала заключается в том, что оно позволяет также принимать во внимание корреляцию между различными объектами в отличие от описания, учитывающего лишь разницу в интенсивности звуковых сигналов, как в алгоритмах кодирования объекта в более ранней практике. Более ранняя практика исходила из предпосылки, что все объекты независимы друг от друга и взаимно не согласованы (нулевая взаимная корреляция), в то время как в действительности маловероятно, что объекты не могут быть коррелированы, как, например, левый и правый каналы стереофонического сигнала. В соответствии с концепцией данного изобретения включение параметров корреляции в описание (управляющие данные) делает его более полным и таким образом способствует созданию дополнительной возможности разделения объектов. Предпочтительные варианты осуществления включают в себя, по крайней мере, один из следующих отличительных признаков.
Система для передачи и создания множества отдельных аудиообъектов с использованием многоканального понижающего микширования и вспомогательных управляющих данных, описывающих эти объекты, включающая в себя:
кодер пространственных аудиообъектов, кодирующий множество аудиообъектов для многоканального понижающего микширования, информацию о многоканальном понижающего микшировании и параметры объекта; или декодер пространственных аудиообъектов, расшифровывающий данные многоканального понижающего микширования, информацию о многоканальном понижающем микшировании, параметры объекта и матрицу аудиорендеринга объекта во второй многоканальный аудиосигнал, применимый для аудиовоспроизведения.
На фиг.1a показан алгоритм кодирования пространственного аудиообъекта (SAOC), включающий в себя кодер SAOC 101 и декодер SAOC 104. Кодер пространственных аудиообъектов 101 кодирует N объектов в данные понижающего микширования объекта о K>1 аудиоканалах в соответствии с параметрами кодера. Информация о примененной весовой матрице понижающего микширования D выводится кодером SAOC вместе со вспомогательными данными относительно мощности и корреляции понижающего микширования. Матрица D часто, но не обязательно всегда, постоянна по времени и по частоте и поэтому содержит относительно мало информации. В завершение, кодер SAOC фиксирует параметры каждого объекта как частотно-временную функцию с глубиной разрешения, определяемой на основе принципов восприятия (перцептуального кодирования). Декодер пространственных аудиообъектов 104 принимает вводимые в него данные каналов понижающего микширования объектов, информацию о понижающем микшировании и параметры объектов (сгенерированные кодером) и генерирует выходные данные, содержащие M аудиоканалов для представления пользователю. Аудиорендеринг N объектов в M аудиоканалов производится посредством матрицы аудиорендеринга, представляющей собой набор параметров, вводимых пользователем в декодер SAOC.
На фиг.1b показана блок-схема алгоритма кодирования пространственного аудиообъекта с последующим применением декодера MPEG Surround. Декодер SAOC 104, примененный в настоящем изобретении, может быть реализован в виде транскодера SAOC-MPEG Surround 102 в сочетании с декодером MPEG Surround 103 с понижающим микшированием до стереосигнала. Управляемая пользователем матрица аудиорендеринга A размерности M×N определяет заданное соотношение преобразования N объектов в M аудиоканалов. Функции этой матрицы могут зависеть как от настроек, так и от частотных показателей, и это - окончательный результат наиболее дружественного интерфейса для управления аудиообъектами (куда, кроме того, извне может быть введено описание сцены). В случае применения настроек для акустической системы 5.1, количество выходных аудиоканалов будет M=6. Задача декодера SAOC заключается в перцептуальном воссоздании исходных аудиообъектов как конечного результата аудиорендеринга. На входе транскодер SAOC-MPEG Surround 102 получает матрицу аудиорендеринга A, данные понижающего микширования объекта, результаты понижающего микширования, включая весовую матрицу понижающего микширования D, и описание объекта, и генерирует понижающее микширование стереосигнала и информацию MPEG Surround. Если транскодер реализуется в соответствии с настоящим изобретением, следующий за ним декодер MPEG Surround 103, получив на входе эти данные, на выходе дает M-канальный акустический сигнал с требуемыми характеристиками.
Декодер SAOC, вводимый в настоящем изобретении, состоит из транскодера SAOC- MPEG Surround 102 и декодера MPEG Surround 103 с нисходящим микшированием до стереосигнала. Управляемая пользователем матрица аудиорендеринга A размерности M×N определяет заданное соотношение преобразования N объектов в M аудиоканалов. Эта матрица может зависеть как от настроек, так и от частоты, что является показателем более дружественного интерфейса управления аудиообъектами. При применении настроек для акустической системы 5.1 количество выходных аудиоканалов будет M=6. Декодер SAOC предназначен для перцептуального воссоздания исходных аудиообъектов как конечного результата аудиорендеринга. На входе транскодер SAOC-MPEG Surround 102 получает матрицу аудиорендеринга A, данные понижающего микширования объекта - результаты понижающего микширования, включая весовую матрицу понижающего микширования D, и описание объекта и генерирует понижающее микширование стереосигнала и информацию MPEG Surround. Если транскодер реализуется в соответствии с настоящим изобретением, следующий за ним декодер MPEG Surround 103, получив на входе эти данные, на выходе дает M-канальный акустический сигнал с требуемыми характеристиками.
На фиг.2 представлен алгоритм работы кодера пространственного аудиообъекта (SAOC) 101, вводимого настоящим изобретением. N аудиообъектов вводятся в даунмиксер (блок понижающего микширования, сокращающий число аудиоканалов) 201, а также в экстрактор (выделитель) параметров аудиообъекта 202. Даунмиксер 201 смешивает объекты в поток итоговых данных понижающего микширования объекта, состоящий из K>1 аудиоканалов, в соответствии с параметрами кодера, а также выводит информацию о понижающем микшировании. Эта информация включает в себя описание примененной весовой матрицы понижающего микширования D и дополнительно, если последовательно задействуемый экстрактор параметров аудиообъекта работает в режиме прогноза, параметры, описывающие мощность и корреляцию результатов понижающего микширования объекта.
Как будет обсуждаться в одном из следующих параграфов, роль подобных дополнительных параметров заключается в предоставлении доступа к энергетическим и корреляционным показателям подмножеств преобразуемых аудиоканалов в тех случаях, когда параметры объектов выражены только относительно понижающего микширования, и главным примером здесь являются синхросигналы "тыльный/фронтальный" для акустических систем 5.1. Экстрактор параметров аудиообъектов 202 выделяет параметры объекта в соответствии с параметрами кодера. Средства управления кодером по частотно-временным изменениям определяют, какой из двух режимов кодера применен на энергетической или прогностической основе. В режиме дифференциации мощности параметры кодера далее содержат информацию о группировании N аудиообъектов в P стереообъектов и N-2P монообъектов. Каждый режим будет описан далее на фиг.3 и 4.
На фиг.3 представлена схема алгоритма работы экстрактора параметров аудиообъекта 202 в режиме дифференциации мощности. Группирование 301 в P стереообъектов и N-2P монообъектов осуществляется согласно информации о группировании, содержавшейся в параметрах кодера. Для каждого заданного частотно-временного интервала тогда выполняются следующие операции. Два показателя мощности объекта и одна нормализованная корреляция выделяются экстрактором стереопараметров 302 для каждого из Р стереообъектов. Один энергетический показатель выделяется экстрактором параметров 303 для каждого из N-2P монообъектов. Затем полный набор из N параметров мощности и P параметров нормализованной корреляции кодируются в 304 вместе с данными группирования, формируя параметры объекта. Кодирование может включать в себя операцию нормализации с учетом самого высокого показателя мощности объекта или с учетом суммы выделенных мощностей объекта.
На фиг.4 представлена схема алгоритма работы экстрактора параметров аудиообъекта 202 в режиме прогнозирования. Для каждого заданного частотно-временного интервала тогда выполняются следующие операции. Для каждого из N объектов выводится линейная комбинация из K каналов понижающего микширования объектов, которая соответствует данному объекту по методу наименьших квадратов. K весов этой линейной комбинации называются коэффициентами предсказания объекта (ОРС), и они вычисляются экстрактором ОРС 401. Полный набор ОРС в количестве N-K кодируется в 402 с формированием параметров объекта. Кодирование может включать сокращение общего числа ОРС на основании линейных взаимозависимостей. Отличительной особенностью данного изобретения является то, что это общее число может быть сокращено максимально до {К·(N-K), 0}, если весовая матрица понижающего микширования D имеет полный ранг.
На фиг.5 представлена схема устройства транскодера SAOC - MPEG Surround 102 согласно настоящему изобретению. Для каждого частотно-временного интервала информация о понижающем микшировании и параметры объекта объединяются с матрицей аудиорендеринга счетчиком параметров 502 с формированием параметров MPEG Surround типа CLD (разность уровней каналов), СРС (коэффициент прогнозирования канала), и ICC (межканальная согласованность), и матрицы G преобразователя нисходящего микширования размерности 2×K. Преобразователь даунмикса 501 (результатов понижающего микширования) преобразует даунмикс объекта в стереодаунмикс с помощью матричной операции в соответствии с матрицей G. В упрощенном режиме транскодера для K-2 эта матрица работает как единичная матрица, и даунмикс объекта проходит без изменения как стереодаунмикс. На схеме этот режим показан в виде переключателя 503 в положении A, тогда как при нормальном режиме работы переключатель находится в положении B. Дополнительное преимущество транскодера - его пригодность к использованию в качестве автономного устройства там, где игнорируются параметры MPEG Surround, и выходные данные преобразователя даунмикса используются непосредственно как стереоаудиорендеринг.
На фиг.6 схематически представлены различные режимы работы преобразователя 501 данных понижающего микширования согласно настоящему изобретению. Учитывая, что переданный даунмикс в формате битстрима является выходом K-канального аудиокодера, этот битстрим сначала дешифруется аудиодекодером 601 в K аудиосигналов временной области. Затем все эти сигналы преобразуются в частотную область гибридным банком фильтров QMF (квадратурный зеркальный фильтр) MPEG Surround в блоке T/F (время/частота) 602. Работа матрицы варьирования времени и частоты, определяемая данными матрицы преобразователя, осуществляется на результирующих сигналах гибридной области QMF блоком матрицирования 603, который выводит стереосигнал в гибридной области QMF. Гибридный блок синтеза 604 преобразует стереосигнал гибридной области QMF в стереосигнал области QMF. Гибридная область QMF задана для улучшения частотного разрешения в сторону низких частот путем последующей фильтрации поддиапазонов QMF. При выполнении в дальнейшем такой фильтрации с использованием банков фильтров Nyquist, преобразование из гибридной в стандартную область QMF состоит в простом суммировании групп сигналов гибридных поддиапазонов, см. [Е.Schuijers, J.Breebart, and H.Pumhagen "Low complexity parametric stereo coding" Proc 116th AES convention Berlin. Germany 2004, Preprint 6073]. Этот сигнал является первым возможным выходным форматом преобразователя даунмикса, что соответствует положению A переключателя 607. Подобный сигнал домена QMF может быть подан непосредственно на соответствующий интерфейс области QMF декодера MPEG Surround, и это является наиболее предпочтительным режимом работы с точки зрения задержки, сложности и качества. Другой возможностью является формирование стереосигнала временной области с применением синтеза банка фильтров QMF 605. При положении B переключателя 607 преобразователь выдает цифровой стереосигнал, который также может быть введен в интерфейс временной области последующего декодера MPEG Surround или подан напрямую на воспроизводящее стереоустройство. Третьей возможностью при положении С переключателя 607 является кодирование стереосигнала музыкального домена с помощью стерео аудиокодера 606. В этом случае выходным форматом преобразователя даунмикса будет стерео аудиобитстрим, совместимый с центральным декодером, являющимся компонентом MPEG-декодера. Этот третий режим работы применим в случае, когда транскодер SAOC - MPEG Surround блокирован MPEG-декодером из-за соединения, ограничивающего скорость передачи данных, или когда пользователю необходимо сохранить образ определенного объекта для будущего воспроизведения.
На фиг.7 представлена принципиальная схема декодера MPEG Surround для понижающего микширования стереосигнала. Стереодаунмикс с помощью окна "два-к-трем" (ТТТ) делится на три промежуточных канала. Далее каждый промежуточный канал с помощью трех окон "один-к-двум" (ОТТ) делится на два с образованием шести каналов 5.1-канальной конфигурации.
На фиг.8 дана схема частного случая реализации с использованием кодера SAOC. Аудиомикшер 802 дает на выходе стереосигнал (левый и правый), который обычно создается путем смешения сигналов на входе микшера (здесь - входные каналы 1-6) и произвольных дополнительных входных данных от электронных эффектов типа ревербератора и т.п. Кроме того, микшер имеет один индивидуальный выходной канал (здесь канал 5). Этот канал может использоваться, например, для обычных функций микшера, таких как "прямой выход" или "дополнительная пересылка" для вывода индивидуальных данных без задействования каких-либо промежуточных процессов (таких как динамическая обработка и эквалайзер). Стереосигнал (левый и правый) и индивидуальный выходной канал (obj5) являются вводом в кодер SAOC 801, который представляет собой лишь частный случай кодера SAOC 101 на фиг.1. Однако он служит типичным примером применения, когда аудиообъект obj5 (содержащий, например, речь) должен быть полностью подконтролен пользователю с правом внесения корректировок на входе декодера, оставаясь, однако, частью смешанной стереофонограммы (с правым и левым каналами). Из концепции также очевидно, что к панели "object input" ("вход объекта") в рамке 801 может быть подключено два или более аудиообъектов, и в дополнение к этому, стереофонограмма может быть расширена за счет многоканального соединения, например, 5.1-канального устройства.
Далее представлено краткое математическое описание изобретения. Для дискретных комплексных сигналов x, y комплексное внутреннее произведение и возведенная в квадрат норма (энергия) определяется по:
Figure 00000001
где y(k) обозначает комплексно сопряженный сигнал y(k). Все рассматриваемые здесь сигналы представляют собой отсчеты поддиапазонов из модулированного банка фильтров или оконного анализа БПФ (быстрое преобразование Фурье) дискретных сигналов времени. Подразумевается, что эти поддиапазоны должны быть преобразованы обратно в дискретную временную область с помощью соответствующих операций банка фильтров синтеза. Блок сигналов из L отсчетов представляет сигнал в частотно-временном интервале, являющемся частью перцептуально мотивированного мозаичного заполнения (тайлинга) частотно-временной плоскости, используемой для описания свойств сигнала. При таком разбиении определенные аудиообъекты могут быть представлены как N рядов длины L в матрице,
Figure 00000002
Весовая матрица нисходящего микширования D размерности K×N,
где K>1, определяет K-канальный сигнал нисходящего микширования в форме матрицы с грядами матричного умножения
Figure 00000003
Управляемая пользователем матрица аудиорендеринга объекта A размерности M×N определяет M-канальный аудиорендеринг с заданными показателями аудиообъектов в форме матрицы с M рядами матричного умножения
Figure 00000004
Если временно не принимать во внимание эффекты основного потока аудиокодирования, задача декодера SAOC состоит в том, чтобы генерировать близкий к желаемому восприятию Y как результат аудиорендеринга первоначальных аудиообъектов на базе матрицы аудиорендеринга A, результатов даунмикса X, матрицы понижающего микширования D и параметров объекта.
Параметры объекта в энергетическом режиме согласно настоящему изобретению несут информацию о ковариации оригинальных объектов. В детерминированной версии, удобной для последовательного получения результатов, а также наглядной для описания типичных операций кодера, ковариация представляется в ненормализованной форме произведением матриц SS*, где звездочка обозначает операцию с комплексной сопряженной транспонированной матрицей. Таким образом, параметры объекта, полученные в энергетическом режиме, обеспечивают положительную полуопределенную матрицу A размерностью N×N таким образом, что, возможно до коэффициента масштабирования,
Figure 00000005
Известный уровень техники кодирования аудиообъектов часто рассматривает модель объекта, где все объекты не коррелируют. В таком случае матрица Е является диагональной и содержит лишь аппроксимацию к энергиям объекта Sn=||Sn||2 для n=1, 2,…,N. Согласно фиг.3 экстрактор параметров объекта вносит существенную корректировку в эту идею, что особенно актуально в случаях, когда объекты представлены стереофоническими сигналами, для которых предположение об отсутствии корреляции не действует. Группирование P отобранных стереопар объектов описывается наборами индексов {(np, mp), p=1, 2,…, P}. Для этих стереопар корреляция <Sn, Sm> вычислена, и комплексная, реальная или абсолютная величина нормализованной корреляции (ICC)
Figure 00000006
выделена экстрактором стереопараметров 302. После этого в декодере данные ICC могут быть объединены с энергетическими показателями для формирования матрицы E, на 2P отстоящей от диагональных элементов. Например, для общего числа объектов N=3, из которых первые два составляют единую пару (1,2), переданные энергетические и корреляционные данные имеют вид:
S1, S2, S3 и p1.
В этом случае объединение в матрицу E дает:
Figure 00000007
Параметры объекта в режиме прогнозирования согласно настоящему изобретению предназначены для формирования матрицы С коэффициента прогнозирования объекта (ОРС) размерностью N×K, доступной для декодера таким образом, что
Figure 00000008
Другими словами, для каждого объекта существует линейная комбинация каналов нисходящего микширования таким образом, что объект может быть восстановлен приблизительно согласно:
Figure 00000009
В предпочтительном варианте реализации экстрактор коэффициента прогнозирования объекта (ОРС) 401 решает нормальные уравнения
Figure 00000010
или, для более привлекательной реальной оценки коэффициента прогнозирования объекта (ОРС), он решает:
Figure 00000011
В обоих случаях, если принять реально оцененную весовую матрицу нисходящего микширования D и несингулярную ковариацию понижающего микширования, то из умножения слева с D следует, что
Figure 00000012
где I - единичная матрица размерностью K.
Если D имеет полный ранг, то согласно элементарной линейной алгебре набор решений для (9) может быть параметрирован макс {K·(N-K), 0} параметрами. Этот принцип задействован в 402 при совместном кодировании данных ОРС. Полная матрица прогнозирования C может быть восстановлена в декодере из сокращенного набора параметров и матрицы понижающего микширования.
Для примера рассмотрим случай понижающего микширования с получением стереодаунмикса (K=2), включающего в себя три объекта (N=3>) - музыкальную стереофонограмму (s1,s2) и центральный панорамированный одиночный музыкальный инструмент или трек вокала s3.
Матрица нисходящего микширования имеет вид:
Figure 00000013
То есть левый канал даунмикса представляет собой х1=s1+s3/√2, и правый канал
-x2=s2+s3/√2.
Коэффициенты прогнозирования объекта (ОРС) для одиночного трека стремятся приблизиться к s3≈c31x1+c32x2, и в этом случае уравнение (11) может быть решено с получением c11=1-c31/√2, c12=-c32/√2, c21=-c31/√2 и c22=1-c32/√2.
Отсюда следует, что достаточное количество коэффициентов прогнозирования объекта (ОРС) определяется через K(N-K)=2·(3-2)=2.
ОРС c31, c32 могут быть найдены из нормальных уравнений
Figure 00000014
Транскодер SAOC - MPEG Surround
Что касается фигуры 7, M=6 выходных каналов конфигурации 5.1 представляют собой
Figure 00000015
Транскодер должен давать на выходе стереодаунмикс (l0, r0) и параметры для конфигураций ТТТ и ОТТ. Поскольку внимание теперь сосредоточено на стереодаунмиксе, в дальнейшем будет принято, что K=2. Поскольку и параметры объекта, и параметры MPS ТТТ существуют и в энергетическом, и в прогностическом режиме, необходимо рассматривать все четыре комбинации.
Энергетический режим эффективен, например, когда аудиокодер понижающего микширования не является волновым кодером в рассматриваемом частотном диапазоне. Подразумевается, что параметры MPEG Surround, речь о которых пойдет ниже, перед их пересылкой должны пройти надлежащее квантование и кодировку. Для дальнейшего разъяснения четырех вышеупомянутых комбинаций следует напомнить, что это:
1. Параметры объекта в энергетическом режиме и транскодер в режиме прогнозирования.
2. Параметры объекта в энергетическом режиме и транскодер в энергетическом режиме.
3. Параметры объекта в режиме прогнозирования (коэффициент прогнозирования объекта ОРС) и транскодер в режим прогнозирования.
4. Параметры объекта в режиме прогнозирования (ОРС) и транскодер в энергетическом режиме.
Если в рассматриваемом интервале частот аудиокодер понижающего микширования представляет собой кодер волнового типа, параметры объекта могут фиксироваться как в энергетическом режиме, так и в режиме прогнозирования, при этом транскодер должен предпочтительно работать в режиме прогнозирования. Если в рассматриваемом интервале частот аудиокодер понижающего микширования не является кодером волнового типа, кодер объекта и транскодер оба должны работать в энергетическом режиме. Четвертая комбинация менее актуальна, вследствие чего дальнейшее описание затронет только первые три комбинации.
Параметры объекта в энергетическом режиме
В энергетическом режиме данные, доступные для транскодера, описываются тройкой матриц (D, E, A). Параметры ОТТ MPEG Surround формируются путем оценки энергетических и корреляционных показателей при виртуальном аудиорендеринге переданных параметров и матрицы аудиорендеринга A размерностью 6×N. Заданная шестиканальная ковариация представляется как
Figure 00000016
Введение (5) в (13) дает приближение
Figure 00000017
которое полностью определяется доступными данными. Пусть fa обозначает элементы F. Тогда параметры CLD и ICC определяются из:
Figure 00000018
Figure 00000019
Figure 00000020
Figure 00000021
Figure 00000022
где φ - или абсолютная величина <p(z)=|z|, или оператор действительного значения <р(z)-Pe{z}. В качестве наглядного примера рассмотрим случай с тремя объектами, описанный ранее в отношении уравнения (12). Представим матрицу аудиорендеринга в виде
Figure 00000023
Таким образом, задача аудиорендеринга состоит в размещении объекта 1 между правой фронтальной и правой панорамной позицией, объекта 2 - между левой фронтальной и левой панорамной позицией и объекта 3 - впереди справа, в центре и по каналу оптимизации низких частот (lfe). Для упрощения предположим также, что все эти три объекта некоррелированы и обладают одинаковой энергией так, что
Figure 00000024
В таком случае правая сторона формулы (14) приобретает вид
Figure 00000025
Подстановкой соответствующих значений в формулы (15)-(19) получаем:
Figure 00000026
Figure 00000027
Figure 00000028
Figure 00000029
Figure 00000030
В качестве реакции декодер MPEG Surround получит инструкцию на введение некоторой декорреляции между правой фронтальной и правой панорамной позициями, но не допускать декорреляцию между левым фронтальным и левым панорамным позиционированием.
Для ТТТ-параметров MPEG Surround в режиме прогнозирования первым шагом должно быть формирование сокращенной матрицы аудиорендеринга А3 размерностью 3×N для комбинированных каналов (l, r, qc), где q=1/√2. Это подразумевает, что A3=D36A, где матрица частичного понижающего микширования от 6 до 3 определяется с помощью
Figure 00000031
Figure 00000032
Веса неполного понижающего микширования wp„ p=1,2,3 корректируются таким образом, что энергия wp(y2p-1+y) равна сумме энергий
Figure 00000033
до предельного коэффициента. Все данные, необходимые для выведения матрицы частичного понижающего микширования D36, доступны в F. Затем формируется матрица прогноза C3 размерностью 3×2 таким образом, что
Figure 00000034
Более предпочтительно такую матрицу выводить, предварительно принимая во внимание нормальные уравнения C3(DED*)=A3S.
Результат решения нормальных уравнений наилучшим образом удовлетворяет форме сигнала для (21), принимая во внимание модель ковариации объекта E. Рекомендуется выполнить некоторую постобработку матрицы C3, включая рядные коэффициенты, для полной или выборочной компенсации прогнозируемых потерь по каналам.
Чтобы проиллюстрировать и пояснить указанные выше шаги, необходимо продолжить рассмотрение примера аудиорендеринга определенных ранее шести каналов. При рассмотрении элементов матрицы F следует учитывать, что веса понижающего микширования представляют собой решения уравнений
Figure 00000035
что в частном примере приобретает вид
Figure 00000036
Таким образом, что (w1,w2,w3)=(1/√1,√3/5,1/√2).
Подстановка в (20) дает:
Figure 00000037
После чего решением системы уравнений C3(DED*)=A3ED* находим (переключаясь теперь на достижение конечной точности)
Figure 00000038
Матрица C3 содержит лучшие веса для аппроксимации к желаемому результату аудиорендеринга объекта по комбинированным каналам (l, r, qc) в ходе нисходящего микширования. Этот общий тип матричной операции не может выполняться декодером MPEG Surround, который связан ограниченным пространством матриц ТТТ из-за использования всего двух параметров. Цель преобразователя даунмикса (результата понижающего микширования), относящегося к данному изобретению, стоит в предварительной обработке даунмикса объекта таким образом, чтобы комбинированный эффект от предварительной обработки и от матрицы ТТТ MPEG Surround соответствовал желаемому результату повышающего микширования (upmix), описанного с помощью С3.
В MPEG Surround матрица ТТТ для прогнозирования (l, r, qc) на основании (l0, r0) параметризуется по трем параметрам (α, β, γ) через
Figure 00000039
Матрица G преобразователя даунмикса (результатов нисходящего микширования) согласно настоящему изобретению формируется выбором 7=1 и решением системы уравнений
Figure 00000040
Легко подтверждается, что DTTTCTTT=I, где I - единичная матрица два-на-два и
Figure 00000041
Таким образом, перемножение матриц слева на DTTT обеих сторон (23) дает в результате
Figure 00000042
В общем случае G обратима, и (23) имеет единственное решение для CTTT удовлетворяющее условию CTTTGTTT=I.
Параметры ТТТ (α, β) определяются этим решением.
Для рассмотренного ранее частного примера можно легко подтвердить, что решения соответствуют
Figure 00000043
Следует обратить внимание на то, что основной объем потока стереодаунмикса при этой матрице преобразователя меняет положение между левой и правой сторонами, отражая тот факт, что в процессе приведенного в примере аудиорендеринга объекты, проходящие по левому каналу понижающего микширования, перемещаются в правую часть акустической сцены, и наоборот. Подобное явление невозможно при использовании декодера MPEG Surround в режиме стерео.
При отсутствии возможности использования преобразователя даунмикса может быть выработан описываемый далее, близкий к оптимальному, метод. При работе в энергетическом режиме для параметров ТТТ MPEG Surround требуется распределение энергии объединенных каналов (α, β). Поэтому соответствующие параметры разности уровней каналов CLD могут быть выведены непосредственно из элементов F через
Figure 00000044
Figure 00000045
В данном случае целесообразно использовать только диагональную матрицу G с положительными ячейками для преобразователя даунмикса. Функционально важно достичь правильного распределения энергии каналов нисходящего микширования до начала восходящего микширования (upmix) ТТТ. При наличии матрицы нисходящего микширования с шести каналов до двух D26=DTTTD36 и определений из
Figure 00000046
Figure 00000047
просто выбирается
Figure 00000048
Дальнейшее наблюдение показывает, что подобный диагональный преобразователь даунмикса может быть пропущен на пути от объекта к транскодеру MPEG Surround и реализован введением в действие параметров произвольного усиления даунмикса (ADG) декодера MPEG Surround. В этом случае приращения в логарифмической области будут соответствовать ADGi=10log10(wn/zn) при i=1, 2.
Параметры объекта в режиме прогнозирования (ОРС)
В режиме прогнозирования объекта доступные данные представляются тремя матрицами (D, C, A), где C - матрица N×2, содержащая N пар коэффициентов прогнозирования объекта ОРС. В силу относительности коэффициентов прогнозирования далее для оценки энергетических параметров MPEG Surround будет необходим доступ к показателям аппроксимации к матрице ковариации 2×2 понижающего микширования объекта
Figure 00000049
Предпочтительнее, если эта информация поступит от кодера объекта как часть сведений о нисходящем микшировании, однако она может также быть оценена на транскодере, исходя из измерений принятого даунмикса, или косвенно выведена из (D, C) через анализ приближенной модели объекта. При наличии Z ковариация объекта может быть оценена путем введения прогнозирующей модели Y=CX, давая в результате
Figure 00000050
и все параметры ОТТ MPEG Surround и ТТТ энергетического режима могут быть оценены, исходя из Е, как и в случае с энергетическими параметрами объекта. Однако наибольшее преимущество применения коэффициентов прогнозирования объекта ОРС проявляется в сочетании с параметрами ТТТ MPEG Surround в режиме прогнозирования. В этом случае аппроксимация формы сигнала D36Y≈A3CX сразу же дает редуцированную матрицу прогноза:
Figure 00000051
,
при опоре на которую остающиеся шаги к формированию параметров ТТТ (α, β) и преобразователя даунмикса аналогичны получению параметров объекта в энергетическом режиме. Фактически, шаги от формулы (22) к формуле (25) полностью идентичны.
Результирующая матрица G подается на преобразователь результатов понижающего микширования (даунмикса), и параметры ТТТ (α,β) пересылаются на декодер MPEG Surround.
Автономное применение преобразователя даунмикса для стереоаудиорендеринга
Во всех описанных выше случаях преобразователь 501 объекта в стереодаунмикс на выходе предоставляет данные, приближенные к 5.1-канальному стереодаунмиксу как результату аудиорендеринга исходных аудиообъектов. Этот стереоаудиорендеринг может быть выражен матрицей A2 размерностью 2×N, определяемой как A2=D26A. Во многих реализациях этот даунмикс представляет самостоятельный интерес, при этом внимание привлекает возможность прямого управления стереоаудиорендерингом A2. В качестве наглядного примера опять рассмотрим случай стереофонограммы с наложением по центру панорамированной монофонической голосовой дорожки, закодированной по частному случаю методики, кратко изложенной при описании фигуры 8 с пояснениями в контексте формулы (12). Регулирование пользователем динамического диапазона голоса может осуществляться через аудиорендеринг согласно
Figure 00000052
где v - регулирование соотношения голос-музыка. Структура матрицы преобразователя результатов понижающего микширования основывается на выражении
Figure 00000053
Для параметров объекта, полученных на базе прогноза, следует лишь подставить приближение S≈CDS и получать матрицу преобразователя G=А2С. Для параметров объекта на базе энергетических показателей следует решить нормальные уравнения
Figure 00000054
На фиг.9 представлена схема предпочтительного варианта осуществления кодера аудиообъектов в соответствии с одним из аспектов настоящего изобретения. Кодер аудиообъектов 101 в целом уже был описан при пояснении предшествующих графических схем. Кодер аудиообъектов, генерирующий закодированный сигнал объекта, использует множество аудиообъектов 90, обозначенных на фиг.9 как входные данные даунмиксера (понижающего микшера) 92 и генератора параметров объекта 94. Кроме того, кодер аудиообъектов 101 включает в себя генератор данных нисходящего микширования 96, генерирующий параметры понижающего микширования 97, фиксируя порядок распределения множества аудиообъектов по крайней мере по двум каналам понижающего микширования (даунмикс-каналам), обозначенным на схеме как тракты 93, исходящие из даунмиксера (понижающего микшера) 92.
Генератор параметров объекта предназначен для генерирования параметров аудиообъектов 95, причем параметры объекта рассчитываются таким образом, что реконструкция аудиообъекта возможна с использованием параметров объекта и, по крайней мере, двух каналов понижающего микширования 93. При этом важно, что реконструкция осуществляется не со стороны кодера, а со стороны декодера. Однако полноценная реконструкция со стороны декодера возможна благодаря расчету параметров объектов 95, выполняемому генератором параметров объектов кодера.
Кроме того, кодер аудиообъектов 101 включает в себя выходной интерфейс 98 для генерирования закодированного сигнала аудиообъекта 99 с использованием данных понижающего микширования 97 и параметров объекта 95. В зависимости от назначения каналы понижающего микширования 93 могут, кроме того, использоваться и кодироваться как сигнал аудиообъекта. При этом могут возникать ситуации, при которых выходной интерфейс 98 генерирует кодированный сигнал аудиообъекта 99, который не содержит каналы понижающего микширования. Такая ситуация может возникнуть, когда какие-либо каналы понижающего микширования, которые должны быть использованы декодером, уже находятся в распоряжении декодера таким образом, что информация по понижающему микшированию и параметры аудиообъектов передаются по каналам понижающего микширования раздельно. Пользу из такой ситуации можно извлечь, когда каналы понижающего микширования объектов 93 могут быть куплены отдельно от параметров объектов и информации по нисходящему микшированию за меньшую сумму денег, а параметры объектов и информация по понижающему микшированию могут быть куплены за дополнительные средства с целью предоставления пользователю на стороне декодера возможности получить добавленную стоимость.
При отсутствии параметров объекта и информации по понижающему микшированию пользователь может преобразовывать каналы понижающего микширования в стерео- или многоканальный сигнал в зависимости от количества каналов, задействованных в понижающем микшировании. Естественно, пользователь может также сформировать монофонический сигнал простым добавлением, по крайней мере, двух переданных каналов понижающего микширования объектов.
Параметры объекта и данные по понижающему микшированию обеспечивают пользователю гибкость акустических преобразований и повышение качества и полноценности звучания акустических объектов, позволяя осуществлять многоцелевой аудиорендеринг для воспроизведения в дальнейшем аудиоматериала на звуковой аппаратуре любого типа - на стереосистемах, на многоканальных системах или даже на системах синтеза волнового поля. Если установки синтеза волнового поля еще не очень популярны, то многоканальные системы формата 5.1 или 7.1 все шире распространяются на потребительском рынке.
На фиг.10 представлена схема звукового синтезатора для генерирования выходных данных. Для осуществления своих функций аудиосинтезатор содержит синтезатор выходных данных 100. Синтезатор выходных данных принимает на входе данные по понижающегму микшированию 97 и параметры аудиообъекта 95, а также, возможно, характеристики предполагаемого источника звука, такие как пространственное расположение источников звука или определяемый пользователем динамический диапазон конкретного источника в результате аудиорендеринга с использованием 101.
Синтезатор выходных данных 100 предназначен для генерирования выходных данных, необходимых для формирования множества выходных каналов с заданной конфигурацией выходного аудиосигнала, реконструирующих множество аудиообъектов. Наилучшим образом синтезатор выходных данных 100 реализует свои функциональные возможности, используя параметры понижающего микширования 97 и параметры аудиообъекта 95. Согласно пояснениям к фиг.11, данным ниже, выходные данные представляют собой многочисленные показатели различного назначения, включая специфический рендеринг выходных каналов или простое воссоздание исходных сигналов, или же перекодирование параметров в характеристики пространственного преобразования с формированием пространственной конфигурации для повышающего микширования без какого-либо аудиорендеринга выходных каналов, например, для хранения или пересылки этих пространственных параметров.
Общая схема реализации данного изобретения отображена на фиг.14. Здесь блок кодера 140 включает в себя кодер аудиообъектов 101, который принимает на входе N аудиообъектов.
На выходе преимущественного варианта технического исполнения кодера аудиообъектов кроме информации по понижающему микшированию и параметров объекта, не показанных на фиг.14, формируется число К каналов понижающего микширования. В соответствии с настоящим изобретением количество каналов понижающего микширования должно быть больше или равно двум.
Каналы понижающего микширования передаются на блок декодера 142, в состав которого входит пространственный повышающий микшер 143. Пространственный повышающий микшер 143 может включать в себя аудиосинтезатор, являющийся частью данного изобретения, если аудиосинтезатор работает в режиме транскодера. Однако если аудиосинтезатор 101, как показано на фиг.10, работает в режиме пространственного повышающего микширования, то в данной реализации и пространственный повышающий микшер 143, и аудиосинтезатор представляют собой одно и то же устройство. Пространственный повышающий микшер генерирует М выходных каналов для воспроизведения через М динамиков. Эти динамики размещаются в заранее определенных точках окружающего пространства и совокупно формируют выходной акустический сигнал заданной конфигурации. Выходной канал выходного аудиосигнала заданной конфигурации может рассматриваться как цифровой или аналоговый электродинамический акустический сигнал, транслируемый от выхода пространственного повышающего микшера 143 на вход громкоговорителя с заданным позиционированием в среде определенным образом сконфигурированного множества источников выходных аудиосигналов. В зависимости от конкретной ситуации, если выполняется стереоаудиорендеринг, количество М выходных каналов может быть равным двум. При выполнении многоканального аудиорендеринга число М выходных каналов будет больше двух.
Чаще всего распространена ситуация, при которой количество каналов понижающего микширования меньше числа выходных каналов из-за технических требований трактов передачи данных. В подобных случаях число М может быть значительно большим, чем число К, превышая его в два или даже более раз.
На фиг.14 дополнительно дано матричное представление функций, выполняемых блоком кодера и блоком декодера в рамках данного изобретения. В большинстве случаев обрабатываются блоки величин отсчетов. Поэтому, как видно из уравнения (2), аудиообъект отображается в виде ряда L величин отсчетов. Матрица S содержит N строк, соответствующих количеству объектов, и L столбцов, соответствующих количеству отсчетов. Матрица Е рассчитана по уравнению (5) и включает в себя N колонок и N строк. Матрица Е содержит параметры объекта, когда параметры объекта даются в энергетическом режиме. Для некоррелированых объектов матрица Е, как показано в контексте уравнения (6), имеет только основные диагональные элементы, каждый из которых отображает энергию аудиообъекта. Все недиагональные элементы, как было указано ранее, представляют корреляцию двух аудиообъектов, что особенно важно, когда несколько объектов представляют собой два канала стереофонического сигнала.
В зависимости от особенностей конструктивного исполнения уравнение (2) представляет сигнал временной области. После этого генерируется единый энергетический показатель для всего диапазона аудиообъектов. Однако предпочтительнее, если аудиообъекты обрабатываются частотно-временным преобразователем на основе, например, какого-либо алгоритма преобразования или банка фильтров, причем в последнем случае, уравнение (2) справедливо для каждого поддиапазона, в результате чего обеспечивается формирование матрицы Е для каждого поддиапазона и, безусловно, для каждого интервала времени.
Матрица X каналов понижающего микширования имеет K строк и L столбцов и рассчитывается по уравнению (3). Как видно из уравнения (4), M выходных каналов рассчитаны, исходя из N объектов с использованием так называемой матрицы аудиорендеринга A для N объектов. В зависимости от ситуации N объектов могут быть реконструированы блоком декодера с использованием даунмикса (результатов понижающего микширования) и параметров объекта, при этом аудиорендеринг может быть применен непосредственно к сигналам реконструируемых объектов.
С другой стороны, массив даунмикса может быть напрямую преобразован в сигналы выходных каналов без точного расчета сигналов источника. Матрица аудиорендеринга A, главным образом, индивидуально позиционирует источники в соответствии с заданной конфигурацией выходных аудиосигналов. Предположим, имеется шесть объектов и шесть выходных каналов, тогда каждый объект можно ассоциировать с каждым выходным каналом, и эта схема будет отражена матрицей аудиорендеринга. Однако при необходимости расположить все объекты внутри акустического пространства между двумя динамиками матрица аудиорендеринга A, отражая новое позиционирование, примет иной вид.
Матрица аудиорендеринга, или в более общем смысле, планируемая пространственная локализация объектов, как и предполагаемое соотношение динамических диапазонов источников звука, могут в целом быть рассчитаны кодером и переданы декодеру в виде так называемого описания сцены. Однако в других вариантах осуществления такое описание сцены может быть выполнено непосредственно пользователем с целью генерировать заданное им самим повышающее микширование для получения заданной им самим конфигурации выходных акустических сигналов. Таким образом, передача описания сцены не является обязательной процедурой, такое описание сцены может быть реализовано пользователем с достижением удовлетворения его собственных запросов. Пользователь может, например, по своему желанию локализовать некоторые аудиообъекты в местах, отличных от позиций, в которых эти объекты изначально находились и которые были для них сгенерированы. Возможны также случаи, когда аудиообъекты внедрены как таковые, без наличия "оригинала" и его месторасположения относительно других, реальных, объектов. В подобных ситуациях источники звука изначально позиционируются относительно друг друга пользователем.
Возвращаясь к фиг.9, рассмотрим даунмиксер 92. Даунмиксер (понижающий микшер) предназначен для сокращения при микшировании фонограммы множества аудиообъектов до количества каналов понижающего микширования, причем количество аудиообъектов превосходит количество каналов понижающего микширования, при этом даунмиксер сопряжен с генератором данных понижающего микширования так, что распределение множества аудиообъектов по множеству каналов понижающего микширования выполняется в соответствии с показателями понижающего микширования. Показатели понижающего микширования,
генерируемые генератором данных понижающего микширования 96 на фиг.9, могут создаваться автоматически или управляться вручную. Рекомендуется данные по понижающего микшированию обрабатывать с меньшей разрешающей способностью, чем параметры объектов. Благодаря этому биты служебной информации могут быть сохранены без потери качества, поскольку фиксированные показатели понижающего микширования для отдельных частей фонограммы или одиночное медленно изменяющееся состояние понижающего микширования, не требующее обязательной частотной избирательности, оказываются вполне достаточными. Возможен вариант осуществления изобретения, при котором информация о понижающем микшировании представляет собой матрицу понижающего микширования, имеющую K строк и N столбцов.
Показатель в строке матрицы понижающего микширования имеет определенное значение, когда аудиообъект, соответствующий этому показателю в матрице понижающего микширования, присутствует в канале понижающего микширования, представленном в ряду матрицы понижающего микширования. Когда аудиообъект включен в более чем один канал понижающего микширования, конкретное значение имеют более одного ряда матрицы понижающего микширования. При этом предпочтенее, если квадратичные значения при сложении для отдельного аудиообъекта дают в сумме не более 1,0. Тем не менее, возможны и другие значения.
Кроме того, аудиообъекты могут быть введены в один или более каналов понижающего микширования с различными уровнями, и эти уровни могут быть обозначены внутри матрицы понижающего микширования весами, отличными от единицы и не составляющими в целом 1,0 для конкретного аудиообъекта.
Когда каналы понижающего микширования включаются в закодированный сигнал аудиообъекта, сгенерированный выходным интерфейсом 98, закодированный сигнал аудиообъекта может представлять собой, например, мультиплексный сигнал с временным уплотнением в определенном формате. И наоборот, закодированный сигнал аудиообъекта может быть любым сигналом, который позволяет с помощью блока декодера разделять параметры объектов 95, параметры понижающего микширования 97 и каналы понижающего микширования 93. В дополнение к этому, интерфейс вывода данных 98 может включать в себя кодеры параметров объектов, информацию по понижающему микшированию или каналы понижающего микширования. Кодеры для параметров объектов и для данных по понижающему микшированию могут быть дифференциальными кодерами и/или энтропийными кодерами, а кодеры для каналов понижающего микширования могут представлять собой моно- или стереоаудиокодеры, такие как кодеры МР3 или ААС (усовершенствованный аудиокодек). Все эти операции кодирования дают в результате дополнительное сжатие данных с целью последующего уменьшения скорости передачи данных, необходимой для кодированного сигнала аудиообъекта 99.
В зависимости от конкретного применения даунмиксера 92 его функции предусматривают стереофоническое представление музыкального фона, по меньшей мере, по двум каналам понижающего микширования и введение в эти, по крайней мере, два канала понижающего микширования голосовой фонограммы в предварительно заданном соотношении. При такой версии реализации первый канал музыкального фона проходит по первому каналу понижающего микширования и второй канал музыкального фона - по второму каналу понижающего микширования. Результатом подобной компоновки является оптимальное стереофоническое воспроизведение музыкального фона на стереоаппаратуре. При этом пользователь имеет возможность позиционировать голосовую фонограмму между левым стереодинамиком и правым стереодинамиком. В качестве варианта первый и второй каналы музыкального фона могут проходить по одному каналу понижающего микширования, а голосовая фонограмма может быть проведена по другому каналу понижающего микширования.
Таким образом, исключая один канал понижающего микширования, можно полностью отделить голосовую фонограмму от фона музыкального сопровождения, что, в частности, отвечает требованиям караоке. Однако при этом качество воспроизведения каналов стереофонограммы музыкального сопровождения страдает из-за параметризации объекта, которая, безусловно, является методом сжатия с потерями.
Даунмиксер 92 имеет конфигурацию, позволяющую суммировать во временной области отсчет за отсчетом. Для такого суммирования используются отсчеты аудиообъектов, предназначенных для понижающего микширования до одного канала понижающего микширования. Если аудиообъект вводится в канал понижающего микширования в определенном процентном отношении, перед суммированием отсчетов должно выполняться предварительное взвешивание. Кроме того, суммирование может выполняться и в частотной области, или в поддиапазоне, то есть в области, следующей за частотно-временным преобразованием. Таким образом, понижающее микширование может выполняться даже в области банка фильтров, когда частотно-временное преобразование осуществляется в банке фильтров, или в области преобразования, когда частотно-временное преобразование представляет собой FFT (быстрое преобразование Фурье, БПФ), MDCT (модифицированное дискретное косинусное преобразование, МДКП), или любое другое преобразование.
Согласно одному из аспектов настоящего изобретения генератор параметров объекта 94 генерирует энергетические параметры и дополнительно - параметры корреляции между двумя объектами, когда два аудиообъекта совокупно представляют стереосигнал, что видно из последующего уравнения (6). С другой стороны, параметры объекта являются параметрами режима прогнозирования.
На фиг.15 представлена блок-схема алгоритма или способа расчета прогностических параметров аудиообъекта. Как уже пояснялось относительно уравнений с (7) по (12), расчету подлежат некоторая статистическая информация относительно каналов понижающего микширования в матрице X и аудиообъекты в матрице S. В частности, блок 150 показывает первый шаг вычисления действительной части S·X* и действительной части Х·X*. Эти действительные части - не просто числа, а матрицы, и эти матрицы в одном из вариантов реализации определяются через системы обозначений в уравнении (1) при рассмотрении реализации, следующей за уравнением (12). В большинстве случаев значения шага 150 могут быть рассчитаны с использованием данных, доступных в кодере аудиообъектов 101. Затем, как показано в шаге 152, рассчитывается матрица прогнозирования С. В частности, как принято на существующем уровне техники, необходимо решить систему уравнений таким образом, чтобы были получены все значения матрицы прогнозирования С размерностью N строк и K столбцов. Главным образом, весовые множители cn,i, как в уравнении (8), рассчитаны так, что взвешенное линейное суммирование всех каналов понижающего микширования реконструирует соответствующий аудиообъект с возможно высоким качеством. Подобная матрица прогноза дает тем лучший результат реконструкции аудиообъектов, чем большее количество каналов понижающего микширования задействуется.
Далее более подробно будет рассмотрена фиг.11. В частности, на фиг.7 отображены несколько видов выходных данных, используемых для создания множества выходных канал с заданной конфигурацией выходного сигнала. В строке 111 отображена ситуация, в которой выходными данными синтезатора выходных данных 100 являются реконструированные источники звука.
Входные данные, необходимые синтезатору выходных данных 100 для реконструирования аудиоисточников, включают в себя информацию по понижающему микшированию, каналы понижающего микширования и параметры аудиообъекта. При этом для дальнейшего воспроизведения реконструированных источников нет необходимости создавать конфигурацию выходного сигнала и предварительно позиционировать сами акустические источники внутри пространственной конфигурации выходного аудиосигнала. В режиме, обозначенном на фиг.11 номером 1, на выходе синтезатора выходных данных 100 будут формироваться реконструированные источники звуковых сигналов. В случае использования в качестве параметров аудиообъекта параметров прогнозирования синтезатор выходных данных 100 работает согласно определению, сформулированному в уравнении (7). Когда параметры объекта фиксируются в энергетическом режиме, для воссоздания исходных сигналов синтезатор выходных данных использует инверсию матрицы понижающего микширования и энергетическую матрицу.
В качестве альтернативы синтезатор выходных данных 100 может выполнять функции транскодера, как показано, например, в блоке 102 на фиг.1b. При работе синтезатора выходного сигнала в режиме транскодера, генерирующего параметры микшера пространственного звучания, требуются данные по понижающему микшированию, параметры аудиообъекта, конфигурация выходного сигнала и планируемая пространственная локализация источников звука. В частности, конфигурация выходного сигнала и планируемое пространственное позиционирование обеспечиваются с помощью матрицы аудиорендеринга A. При этом для генерирования параметров микшера пространственного звучания нет необходимости в наличии каналов понижающего микширования, более подробное объяснение чему будет дано в контексте фиг.12. В зависимости от ситуации параметры микшера пространственного звучания, сгенерированные синтезатором выходных данных 100, в дальнейшем могут быть напрямую использованы микшером пространственного звучания типа MPEG Surround для повышающего микширования каналов нисходящего микширования. При такой версии конструктивного исполнения корректировка каналов понижающего микширования объектов не обязательна, достаточно применение простой матрицы конвертирования, имеющей только диагональные элементы, что описывалось в отношении уравнения (13). В формате 2 в строке 112 на фиг.11 синтезатор выходных данных 100, следовательно, выдает параметры микшера пространственного звучания и, предпочтительно, матрицу конверсии G согласно уравнению (13), включающую в себя показатели усиления, которые могут быть использованы как параметры произвольного усиления даунмикса (ADG) декодера MPEG-surround.
В формате 3 в строке 113 на фиг.11 выходные данные содержат параметры микшера пространственного звучания в виде конверсионной матрицы, такой как показана в контексте уравнения (25). В этом контексте синтезатор выходных данных 100 не обязательно должен фактически конвертировать даунмикс объекта в стереодаунмикс.
Номером 4 в строке 114 на фиг.11 обозначен другой формат работы синтезатора выходных данных 100, представленный на фиг.10. В данном случае транскодер работает как элемент 102 на фиг.1b и выдает на выходе не только параметры микшера пространственного звучания, но и дополнительные преобразованные результаты понижающего микширования.
При этом отпадает необходимость вывода конверсионной матрицы G в дополнение к преобразованному даунмиксу. Вывод преобразованного даунмикса и параметров микшера пространственного звучания достаточно, что очевидно из фиг.1b.
Формат 5 характеризует еще одно приложение синтезатора выходных данных 100, показанное на фиг.10. В условиях, обозначенных в строке 115 на фиг.11, выходные данные, сгенерированные синтезатором выходных данных, не содержат никакие параметры микшера пространственного звучания, а только включают в себя, например, матрицу конверсии G согласно уравнению (35) или фактически содержат непосредственно выходные стереофонические сигналы, как показано в строке 115. При таком варианте реализации интерес представляет только стереоаудиорендеринг, а какие-либо параметры микшера пространственного звучания не требуются. Однако для генерирования стереовыхода требуется вся имеющаяся в наличии входная информация, как показано на фиг.11.
Еще один режим работы синтезатора выходных данных отображен в формате 6 в строке 116. В данном случае, синтезатор выходных данных 100 генерирует многоканальный выход и является аналогом компонента 104 на фиг.1b. Для этого синтезатору выходных данных 100 необходима вся доступная входная информация, на основе которой он формирует многоканальный выходной сигнал, состоящий из более чем двух выходных каналов, подлежащих воспроизведению с использованием соответствующего количества акустических динамиков, локализованных в пространстве в соответствии с заданной конфигурацией выходного аудиосигнала. Таким многоканальным выходным сигналом может быть 5.1-канальный выход, 7.1-канальный выход или 3.0-канальный выход при наличии левого, центрального и правого громкоговорителей.
Далее дается ссылка на фиг.11 для наглядности пояснения примера вычисления нескольких параметров, снятых с декодера MPEG-surround, на основании принципа параметризации, представленного на фиг.7. Как уже сказано, фиг.7 иллюстрирует процесс параметризации с использованием блока декодера MPEG-Surround, начиная с ввода стереодаунмикса 70, содержащего левый l0 и правый r0 каналы понижающего микширования. Схематически оба канала понижающего микширования вводятся в так называемый блок "два-к-трем" 71. Блок "два-к-трем" управляется несколькими входными параметрами 72. Блок 71 генерирует три выходных канала 73a, 73b, 73c. Каждый выходной канал вводится в блок "один-к-двум". Это означает, что канал 73а вводится в блок 74a, канал 73b вводится в блок 74b, и канал 73c вводится в блок 74c. Каждый блок имеет два выходных канала. Блок 74a выводит левый фронтальный lf и левый панорамный ls каналы. Одновременно, блок 74b выводит правый фронтальный rf и правый панорамный rs каналы. Вместе с тем блок 74c дает на выходе центральный канал с и канал оптимизации низких частот (lfe). Важно, что весь процесс повышающего микширования от каналов понижающего микширования 70 до выходных каналов осуществляется с использованием матричной операции, и древовидная структура, показанная на фиг.7, не обязательно должна реализовываться шаг-за-шагом, а может быть осуществлена через одну или через несколько операций над матрицами. Более того, промежуточные сигналы, обозначенные как 73a, 73b и 73c, не рассчитываются определенно каким-либо конкретным реализованным устройством, а показаны на фиг.7 только для наглядности. Вместе с тем, блоки 74a, 74b принимают некоторые остаточные сигналы res1OTT, res2OTT, которые могут использоваться для введения в выходные сигналы определенного момента случайности.
Как известно из описания декодера MPEG-surround, управление блоком 71 осуществляется с использованием или параметров предсказания СРС, или энергетических параметров CLDTTT. Для повышающего микширования с двух каналов на три канала требуются, по крайней мере, два параметра прогнозирования СРС1, СРС2 или, по крайней мере, два энергетических параметра CLD1TTT и CLD2TTT. Вместе с тем, в блок 71 может быть введен показатель степени корреляции, ICCTTT, который, однако, является лишь вспомогательной характеристикой, не обязательной к использованию в одном и том же варианте технического решения изобретения. На фиг.12 и 13 представлен алгоритм и/или необходимые средства вычисления всего комплекса параметров объекта 95 на фиг.9 - CPC/CLDTTT, CLD0, CLD1, ICC1, CLD2, ICC2, информация по понижающему микшированию 97 на фиг.9 и планируемое пространственное позиционирование источников звука, например описание сцены 101, как отображено на фиг.10. Эти параметры представляют собой предварительно задаваемый формат вывода звукового сигнала для 5.1-канальной системы звукового окружения.
Естественно, что подобный специальный расчет параметров для данного конкретного технического решения может быть адаптирован к другим форматам вывода сигнала или разновидностям параметризации в соответствии с концепцией данного изобретения. Более того, последовательность шагов алгоритма или компоновка средств на фиг.12 и 13A, B дана лишь в качестве наглядного примера и может претерпевать изменения в границах логики математических уравнений.
Шаг 120 обеспечивает функционирование матрицы аудиорендеринга A. Матрица аудиорендеринга позиционирует в акустическом пространстве каждый источник из множества источников с учетом предварительно заданной конфигурации выходного сигнала.
Шаг 121 обеспечивает образование матрицы частичного понижающего микширования D36 в соответствии с уравнением (20). Эта матрица обеспечивает возможность нисходящего микширования с шести выходных каналов до трех каналов и имеет размерность 3×N. При необходимости генерировать большее число выходных каналов, чем при конфигурации 5.1, например, при создании 8-канального формата выходного сигнала (7.1), матрица, представленная в блоке 121, станет матрицей D38.
Шаг 122 обеспечивает формирование редуцированной матрицы аудиорендеринга A3 путем перемножения матрицы D36 и полной матрицы аудиорендеринга, как определено в шаге 120.
Шаг 123 обеспечивает введение матрицы понижающего микширования D. Эта матрица понижающего микширования D может быть извлечена из закодированного сигнала аудиообъекта, когда матрица целиком содержится в этом сигнале. Или же матрица понижающего микширования может быть параметризирована, например, для введения специальных данных по понижающему микшированию и формирования матрицы понижающего микширования G.
Шаг 124 обеспечивает в дополнение к этому энергетическую матрицу объекта. Эта энергетическая матрица объекта отражена в параметрах объекта для N объектов и может быть выделена из импортируемых аудиообъектов или реконструирована с использованием определенного набора правил. Такой набор правил восстановления может включать в себя энтропийное декодирование и т.п.
Шаг 125 обеспечивает формирование "сокращенной" матрицы прогноза C3. Значения этой матрицы могут быть рассчитаны путем решения системы линейных уравнений согласно шагу 125. В частности, элементы матрицы C3 могут быть вычислены умножением обеих частей уравнения на инверсию (DED*).
Шаг 126 обеспечивает расчет конверсионной матрицы G. Конверсионная матрица G размерностью K×K сформирована согласно уравнению (25). Для решения уравнения на шаге 126 необходима специальная матрица DTTT, формируемая на шаге 127. Пример для этой матрицы дан в уравнении (24), а определение можно получить, исходя из соответствующего уравнения для CTTT, что описано уравнением (22). Таким образом, уравнение (22) определяет порядок действий на шаге 128. Шаг 129 определяет уравнения для расчета матрицы CTTT. Как только на основании уравнения блока 129 будет определена матрица CTTT, могут быть выведены параметры α, β и γ, являющиеся параметрами СРС (коэффициента прогнозирования канала). Рекомендуется задать γ значение, равное 1, после чего единственными входными параметрами СРС в блок 71 останутся α и β.
Остальные параметры, необходимые для алгоритма на фиг.7, представляют собой параметры, вводимые в блоки 74a, 74b и 74c. Расчет этих параметров описан в контексте фиг.13A. Шаг 130 обеспечивает формирование матрицы аудиорендеринга A. Размерность матрицы аудиорендеринга A составляет N строк для числа аудиообъектов и M столбцов для числа выходных каналов. Эта матрица аудиорендеринга содержит информацию, основанную на векторе сцены, когда вектор сцены используется. Чаще всего матрица аудиорендеринга включает в себя информацию об определенном местоположении в заданной конфигурации выходного сигнала. Если рассматривать матрицу аудиорендеринга A, например, в контексте ниже уравнения (19), становится понятно, каким образом может быть закодирована определенная локализация объектов в структуре матрицы аудиорендеринга. Естественно, могут использоваться и другие способы строго определенного позиционирования, такие как по значениям, не равным 1. Кроме того, используя значения, с одной стороны, меньше 1, и, с другой стороны, больше 1, можно управлять уровнем громкости конкретных аудиообъектов.
Возможен вариант конструктивного исполнения, при котором матрица аудиорендеринга формируется модулем декодера без использования какой-либо информации со стороны кодера.
Это дает возможность пользователю размещать аудиообъекты произвольно по своему желанию, без учета их взаимного пространственного расположения, зафиксированного данными кодера.
Возможна также версия технического решения, при которой относительное или абсолютное позиционирование акустических источников может быть закодировано модулем кодера и передано на декодер в виде определенного вектора сцены. Затем на модуле декодера информация относительно локализации источников звука, предпочтительно не зависящая от заданных установок аудиорендеринга, обрабатывается с формированием в результате матрицы аудиорендеринга, отражающей пространственное расположение аудиоисточников, сориентированных на специфическую конфигурацию выходного аудиосигнала.
Шаг 131 обеспечивает формирование матрицы E энергетических показателей объекта, которая уже рассматривалась в связи с шагом 124 на фиг.12. Эта матрица имеет размерность N×N и содержит параметры аудиообъекта. Один из вариантов осуществления изобретения предусматривает подобную матрицу энергетических параметров объекта для каждого поддиапазона и каждого модуля временных отсчетов или отсчетов поддиапазонов.
Шаг 132 обеспечивает расчет матрицы энергетических параметров выходного сигнала F.
F - матрица ковариации выходных каналов. Поскольку при этом выходные каналы сохраняют неопределенность, матрица F энергетических параметров выходного сигнала рассчитывается с использованием матрицы аудиорендеринга и матрицы энергетических характеристик. Эти матрицы формируются при выполнении шагов 130 и 131 с непосредственным доступом к матрицам в модуле декодера. После этого с применением специальных уравнений (15), (16), (17), (18) и (19) производится расчет показателей разности уровней каналов CLD0, CLD1, CLD2 и характеристик межканальной когерентности ICC1 и ICC2 с целью получения параметров для блоков 74a, 74b, 74c. Важно, что пространственные характеристики рассчитываются путем комбинирования специфических элементов матрицы энергетических показателей выходного сигнала F.
По выполнении шага 133 все параметры для пространственного повышающего микшера, такого, например, какой схематично показан на фиг.7, подготовлены.
В описанных ранее реализациях изобретения параметры объекта представлялись как энергетические характеристики. Однако когда параметры объектов даются в прогностическом представлении, то есть в виде матрицы С прогнозирования объектов, показанной под пунктом 124a на фиг.12, для расчета сокращенной матрицы прогноза C3 достаточно простого перемножения матриц согласно иллюстрации блока 125а и пояснениям в контексте уравнения (32). Матрица, использованная в блоке 125a, является той же самой матрицей A3, которая упоминается в блоке 122 на фиг.12.
Когда матрица C прогнозирования объектов генерируется кодером аудиообъектов и передается на декодер, требуются дополнительные вычисления для подготовки параметров для блоков 74a, 74b, 74c. Эти вспомогательные шаги представлены на фиг.13B. Вновь матрица С прогнозирования объекта формируется как блок 124a на фиг.13B, что аналогично описанию блока 124a на фиг.12. Затем, как описывалось в связи с уравнением (31), матрица ковариации Z понижающего микширования объекта рассчитывается с использованием переданного даунмикса или генерируется и передается как дополнительная служебная информация. После передачи данных о матрице Z декодер не должен выполнять какие-либо расчеты энергетических параметров, ведущие, по существу, к возобновлению отсроченной обработки некоторых данных и увеличению совокупной загрузки блока декодера. Однако когда эти вопросы не являются решающими для того или иного приложения, полоса частот пропускания может быть сохранена, и матрица ковариации Z понижающего микширования объекта также может быть рассчитана с использованием отсчетов понижающего микширования, которые, безусловно, доступны в модуле декодера. Как только действия шага 134 будут завершены и матрица ковариации понижающего микширования объекта будет готова, матрица Е энергетических параметров объекта может быть рассчитана согласно указаниям шага 135 с использованием матрицы прогнозирования C и матрицы ковариации понижающего микширования или матрицы Z "энергии понижающего микширования". По завершении шага 135 могут быть выполнены все описанные выше шаги, относящиеся к фиг.13A, а именно - 132, 133, с целью формирования всех необходимых параметров для блоков 74a, 74b, 74c на фиг.7.
На фиг.16 представлено еще одно конструктивное решение, реализующее только стереоаудиорендеринг. Стереоаудиорендеринг - это формирование выходного сигнала в соответствии с режимом номер 5 или строкой 115 фиг.11. Здесь синтезатору выходных данных 100 на фиг.10 не требуются какие-либо пространственные параметры восходящего микширования, главным образом ему необходима специальная конверсионная матрица G, чтобы преобразовать даунмикс объекта в функциональный и, безусловно, быстро настраиваемый и легко управляемый стереодаунмикс.
Шаг 160 на фиг.16 содержит в себе расчет матрицы частичного понижающего микширования с M до 2 каналов. При варианте с шестью выходными каналами матрица частичного понижающего микширования будет выполнять функции матрицы понижающего микширования с шести до двух каналов, сохраняя возможность применения других матриц понижающего микширования. Расчет такой матрицы частичного понижающего микширования может быть выполнен, например, путем выведения из матрицы частичного понижающего микширования D36, как это имело место на шаге 121, и матрицы DTTT, как это было сделано на ступени 127 фиг.12.
В дополнение к этому, на основании результата шага 160 генерируется матрица стереоаудиорендеринга A2, и на шаге 161 представлена "большая" матрица аудиорендеринга A. Матрица аудиорендеринга A - это та же самая матрица, которая рассматривалась в связи с блоком 120 фиг.12.
Далее, на шаге 162, матрица стереоаудиорендеринга может быть параметрирована показателями локализации µ и κ. При задании и для µ, и для κ значения 1 получается уравнение (33), которое дает возможность варьировать динамический диапазон голоса, что уже описывалось в примере, приведенном в контексте уравнения (33). Вместе с тем, при изменении других параметров, таких как µ и κ, может варьироваться также расположение источников.
Затем, как показано на шаге 163, рассчитывается матрица конверсии G с применением уравнения (33).
Исправления, внесенные в описание
В частности, матрица (DED*) может быть рассчитана, инвертирована, и инвертированная матрица может быть умножена на правую часть уравнения блока 163. Безусловно, могут быть применены и другие способы решения уравнения блока 163. После того как получена матрица конверсии G, даунмикс объекта X может быть преобразован путем умножения матрицы конвертирования и даунмикса объекта, что отображено в блоке 164. После этого может быть выполнен стереоаудиорендеринг конвертированного даунмикса X' с использованием двух акустических стереосистем. В зависимости от технического решения для µ, ν и κ могут быть заданы определенные значения для расчета матрицы конвертирования G. Или же конверсионная матрица G может быть рассчитана с использованием всех этих трех параметров в качестве переменных таким образом, что параметры будут задаваться в соответствии с требованиями пользователя после прохождения шага 163.
В предпочтительных вариантах реализации изобретения были найдены решения проблемы передачи нескольких самостоятельных аудиообъектов (с использованием многоканального понижающего микширования и вспомогательных управляющих данных, описывающих объекты) и аудиорендеринга объектов для заданной воспроизводящей системы (конфигурации громкоговорителей). Вводится способ преобразования относящихся к объекту управляющих данных в управляющие данные, совместимые с системой воспроизведения. Далее предлагаются соответствующие методы кодирования, основанные на алгоритме кодирования MPEG Surround.
В зависимости от технических требований конкретного варианта конструктивного исполнения вводимые методы и результирующий сигнал могут иметь форму реализации в аппаратных средствах или в программном обеспечении. Данная часть изобретения может быть осуществлена с использованием цифрового носителя информации, в частности диска или CD, предназначенного для хранения в электронно считываемом виде управляющих сигналов, совместимого с программируемой компьютерной системой таким образом, чтобы могли быть выполнены вводимые методы. Таким образом, в общем смысле настоящее изобретение представляет собой компьютерный программный продукт с присвоенным ему программным кодом, хранящемся на машинно-считываемом накопителе и предназначенным для выполнения, по меньшей мере, одного из изобретенных методов при запуске данного программного продукта на компьютере. Формулируя иначе, изобретенные методы являются, таким образом, программой для компьютера, имеющей программный код, предназначенной для осуществления изобретенных методов при запуске данной программы на компьютере.
Другими словами, конструктивное исполнение предлагаемого изобретения представляет собой кодер аудиообъектов, предназначенный для генерирования закодированного сигнала аудиообъекта, как одного из множества аудиообъектов, включающий в свою конструкцию генератор данных понижающего микширования для формирования информации по процессу сокращения числа звукопередающих каналов, отображающей порядок распределения множества аудиообъектов, по меньшей мере, между двумя каналами понижающего микширования;
генератор параметров аудиообъектов; и выходной интерфейс для генерирования кодированного сигнала аудиообъекта с использованием характеристик понижающего микширования и параметров объекта.
Как вариант, интерфейс вывода данных может генерировать закодированный аудиосигнал, дополнительно используя множество каналов понижающего микширования.
Кроме этого, или вместо этого, генератор параметров отличается тем, что способен формировать характеристики объекта с первичным временным и частотным разрешением, а в случаях когда генератор данных понижающему микширования имеет функцию генерирования данных по понижающему микшированию с вторичным временным и частотным разрешением, вторичная разрешающая способность по времени и частоте ниже, чем первичная.
Кроме того, генератор данных понижающего микширования отличается тем, что способен генерировать данные по понижающему микшированию таким образом, что параметры понижающего микширования равномерно охватывают весь диапазон частот аудиообъектов.
Кроме того, генератор данных понижающего микширования отличается тем, что способен генерировать данные по понижающему микшированию таким образом, что информация по понижающему микшированию может содержать матрицу понижающего микширования, определяемую как:
Figure 00000055
,
где S - матрица, представляющая аудиообъекты и содержащая число строк, равное количеству аудиообъектов,
где D - матрица понижающего микширования, и
где Х - матрица, представляющая множество каналов понижающего микширования и содержащая число строк, равное количеству каналов понижающего микширования.
Кроме того, информация о части объекта может иметь показатель, меньший чем 1 и больший чем 0.
Кроме того, понижающий микшер отличается тем, что способен формировать стереофоническое представление музыкального фона, по крайней мере, по двум каналам понижающего микширования и вводить голосовую фонограмму, по крайней мере, в эти два канала понижающего микширования в заданном соотношении.
Кроме того, понижающий микшер отличается тем, что способен выполнять сложение отсчетов сигналов для дальнейшего введения в канал понижающего микширования согласно данным по понижающему микшированию.
Кроме того, интерфейс вывода данных отличается тем, что способен выполнять сжатие данных по понижающему микшированию и параметров объекта перед генерированием закодированного сигнала аудиообъекта.
Кроме того, множество аудиообъектов может включать в себя стереофонический объект, представленный двумя аудиообъектами с некоторой ненулевой корреляцией и содержащий данные о группировании, сформированные генератором данные понижающего микширования, указывающие на эти два аудиообъекта, образующие данный стереофонический объект.
Кроме того, генератор параметров объекта отличается тем, что способен формировать параметры прогнозирования аудиообъектов, рассчитывая их таким образом, что взвешенное добавление каналов понижающего микширования к исходному объекту, регулируемому с помощью параметров прогнозирования, или просто к исходному объекту дает в результате аппроксимацию объекта-источника.
Кроме того, параметры прогнозирования могут формироваться на основе полосы частот, причем аудиообъекты охватывают весь частотный диапазон.
Кроме того, количество аудиообъектов может быть равным N, количество каналов понижающего микширования равен K, а число параметров прогнозирования объектов, вычисляемое генератором параметров объектов, равно или меньше чем N·К.
Кроме того, генератор параметров объекта отличается тем, что способен рассчитывать наибольшее число параметров прогнозирования объектов K·(N-K).
Кроме того, генератор параметров объекта может включать в себя повышающий микшер для увеличения числа каналов, полученных понижающим микшированием с использованием различных сочетаний контролируемых параметров предсказания объектов;
при этом входящий в состав повышающего микшера кодер аудиообъектов включает в свою конструкцию итеративный контроллер, предназначенный для обнаружения параметров прогнозирования объекта, подлежащих тестированию, в результате чего сводятся к минимуму отклонения сигнала, реконструируемого повышающим микшером, от соответствующего оригинального сигнала среди различных наборов контролируемых параметров прогнозирования объекта.
Кроме того, синтезатор выходных данных отличается тем, что способен определять матрицу конвертирования, используя информацию по понижающему микшированию, причем матрица конвертирования рассчитывается таким образом, что, по крайней мере, частично меняется расположение каналов понижающего микширования, когда аудиообъект, содержащийся в первом канале нисходящего микширования, представляющий первую половину стереоплоскости, должен быть воспроизведен во второй половине стереоплоскости.
Кроме того, аудиосинтезатор может включать в себя аудиорендерер каналов, предназначенный для выполнения аудиорендеринга выходных аудиоканалов с получением акустического сигнала предварительно заданной конфигурации благодаря использованию пространственных параметров и, по меньшей мере, двух каналов понижающего микширования или конвертированных каналов понижающего микширования.
Кроме того, синтезатор выходных данных отличается тем, что способен формировать выходные аудиоканалы заданной конфигурации, дополнительно задействуя, по крайней мере, два канала понижающего микширования.
Кроме того, синтезатор выходных данных отличается тем, что способен вычислять фактические веса даунмикса для матрицы частичного понижающего микширования таким образом, что энергия взвешенной суммы двух каналов равна энергиям каналов в пределах ограничения.
Кроме того, веса даунмикса для матрицы частичного понижающего микширования могут быть определены следующим образом:
Figure 00000056
, p=1, 2, 3,
где wp - вес даунмикса, p - целочисленная переменная индекса, fj,i - ячейка матрицы энергетических характеристик, представляющая приближение матрицы ковариации выходных каналов, предварительно заданной конфигурации выходного сигнала.
Кроме того, синтезатор выходных данных отличается тем, что способен вычислять отдельные коэффициенты матрицы прогноза путем решения системы линейных уравнений.
Кроме того, синтезатор выходных данных отличается тем, что способен решать систему линейных уравнений, основываясь на:
Figure 00000057
,
где C3 - матрица прогноза "два-к-трем", D - матрица нисходящего микширования, полученная, исходя из информации по нисходящему микшированию, E - матрица энергетических характеристик, выведенная на основании исходных аудиообъектов, и A3 - сокращенная матрица нисходящего микширования, и где "*" обозначает комплексно сопряженную операцию.
Кроме того, параметры прогнозирования для восходящего микширования "два-к-трем" могут быть получены параметризацией матрицы прогноза таким образом, что матрица прогноза определяется всего двумя параметрами, и
при этом синтезатор выходных данных отличается тем, что способен предварительно обрабатывать, по меньшей мере, два канала понижающего микширования таким образом, что результат воздействия предварительной обработки и матрицы параметризированного прогноза соответствует желаемой матрице повышающего микширования.
Кроме того, параметризация матрицы прогноза может иметь следующий вид:
Figure 00000058
,
где индекс ТТТ - матрица параметризированного прогноза, а α, β и γ - коэффициенты.
Кроме того, матрица конверсии G понижающего микширования может быть рассчитана следующим образом:
Figure 00000059
где C3 - матрица прогноза "два-к-трем", где DTTT и CTTT равны I, где I - единичная матрица "два-к-двум" и где CTTT основывается на:
Figure 00000060
,
где α, β и γ - постоянные коэффициенты.
Далее, прогностические параметры для повышающего микширования "два-к-трем" могут быть определены как α и β, при этом γ задан как 1.
Кроме того, синтезатор выходных данных отличается тем, что способен рассчитывать энергетические параметры для повышающего микширования "три-к-шести" с использованием матрицы энергетических характеристик F на основании:
Figure 00000061
,
где A - матрица аудиорендеринга, E - матрица энергетических характеристик, сформированная на основании аудиообъектов-источников, Y - матрица выходного канала, а "*" служит указателем комплексно сопряженной операции.
Кроме того, синтезатор выходных данных отличается тем, что способен рассчитывать энергетические параметры, комбинируя элементы матрицы энергетических характеристик.
Кроме того, синтезатор выходных данных отличается тем, что способен вычислять энергетические параметры на основании приведенных ниже уравнений:
Figure 00000062
,
Figure 00000063
,
Figure 00000064
,
Figure 00000065
,
Figure 00000066
,
где φ - абсолютная величина φ(z)=|z| или оператор действительного значения φ(z)=Pe{z},
где CLD0 - первый энергетический параметр разности уровней каналов, где CLD1 -второй энергетический параметр разности уровней каналов, где CLD2 - третий энергетический параметр разности уровней каналов, где ICC1 - первый энергетический параметр межканальной когерентности, a ICC2 - второй энергетический параметр межканальной когерентности, и где fi,j - элементы матрицы энергетических характеристик F в позициях i, j в этой матрице.
Кроме того, первая группа параметров может содержать энергетические параметры, и при этом синтезатор выходных данных отличается тем, что способен формировать энергетические параметры, комбинируя элементы матрицы энергетических характеристик F.
Кроме того, энергетические параметры могут быть получены, исходя из того, что:
Figure 00000067
,
Figure 00000068
где CLD0TTT - первый энергетический параметр первой группы, и где CLD1TTT - второй энергетический параметр первой группы параметров.
Кроме того, синтезатор выходных данных отличается тем, что способен рассчитывать весовые коэффициенты для взвешивания каналов понижающего микширования, весовые коэффициенты для управления коэффициентами произвольного усиления даунмикса (ADG) пространственного декодера.
Кроме того, синтезатор выходных данных отличается тем, что способен рассчитывать весовые коэффициенты, исходя из:
Figure 00000069
,
Figure 00000070
,
Figure 00000071
где D - матрица понижающего микширования, E - матрица энергетических характеристик, полученная на основании аудиообъектов-источников, где W - промежуточная матрица, где D26 - матрица частичного понижающего микширования для сокращения числа каналов с 6 до 2 с заданной конфигурацией выходного сигнала, и где G - матрица конвертирования, содержащая коэффициенты произвольного усиления даунмикса пространственного декодера.
Кроме того, синтезатор выходных данных отличается тем, что способен рассчитать матрицу энергетических характеристик, исходя из:
Figure 00000072
,
где E - матрица энергетических характеристик, C - матрица параметра прогнозирования, и Z - матрица ковариации, по меньшей мере, двух каналов нисходящего микширования.
Кроме того, синтезатор выходных данных отличается тем, что способен рассчитать матрицу конвертирования, исходя из:
Figure 00000073
,
где G - матрица конвертирования, A2 - неполная матрица аудиорендеринга, и C - матрица параметров прогнозирования.
Кроме того, синтезатор выходных данных отличается тем, что способен рассчитать матрицу конвертирования, исходя из:
Figure 00000074
,
где G - матрица энергетических характеристик, сформированная на базе источника звука на фонограмме, D - матрица понижающего микширования, полученная на основании информации по понижающему микшированию, A2 - редуцированная матрица аудиорендеринга, а "*" служит указателем полной сопряженной операции.
Кроме того, параметризованная матрица стереоаудиорендеринга A2 может быть сформирована следующим образом:
Figure 00000075
где µ, ν и κ - действительные параметры, задаваемые в соответствии с расположением и динамическим диапазоном одного или большего количества исходных аудиообъектов.

Claims (50)

1. Кодер аудиообъектов, предназначенный для генерирования закодированных сигналов аудиообъектов с использованием множества аудиообъектов, где множество аудиообъектов включает в себя стереообъект, представленный двумя аудиообъектами, обладающими определенной ненулевой корреляцией, характеризующийся тем, что включает в себя генератор (96) информации понижающего микширования для формирования информации понижающего микширования, отражающей порядок распределения множества аудиообъектов, по меньшей мере, между двумя каналами понижающего микширования; генератор параметров объекта (94) для генерации параметров объекта для аудиообъектов, где параметры объекта включают в себя аппроксимации энергий объекта для множества аудиообъектов и данные корреляции для стереообъекта; и выходной интерфейс (98) для генерирования кодированного сигнала аудиообъекта с использованием характеристик понижающего микширования и параметров объекта.
2. Кодер аудиообъектов по п.1, характеризующийся тем, что дополнительно содержит понижающий микшер (92), предназначенный для понижающего микширования множества аудиообъектов в множество каналов понижающего микширования, где количество аудиообъектов превышает количество каналов понижающего микширования, причем понижающий микшер сопряжен с генератором информации понижающего микширования таким образом, что множество аудиообъектов распределяется среди множества каналов понижающего микширования в соответствии с информацией понижающего микширования.
3. Кодер аудиообъектов по п.2, характеризующийся тем, что выходной интерфейс (98) выполнен с возможностью генерировать закодированный аудиосигнал с дополнительным использованием множества каналов понижающего микширования.
4. Кодер аудиообъектов по п.1, характеризующийся тем, что генератор параметров объекта (94) выполнен с возможностью генерировать параметры объекта с первичной разрешающей способностью по времени и частоте, и где генератор информации понижающего микширования (96) выполнен с возможностью генерировать информацию понижающего микширования с вторичным разрешением по времени и частоте, при этом вторичная разрешающая способность по времени и частоте ниже, чем начальная разрешающая способность по времени и частоте.
5. Кодер аудиообъектов по п.1, характеризующийся тем, что генератор информации понижающего микширования (96), выполнен с возможностью генерирования информации понижающего микширования таким образом, что такая информация равномерно охватывает весь диапазон частот аудиообъектов.
6. Кодер аудиообъектов по п.1, характеризующийся тем, что генератор информации понижающего микширования (96) выполнен с возможностью генерировать информацию понижающего микширования в форме матрицы понижающего микширования, определяемой как:
X=DS,
где S - матрица, представляющая аудиообъекты, состоящая из числа строк, равного количеству аудиообъектов, D - матрица понижающего микширования, и Х - матрица, представляющая множество каналов понижающего микширования и содержащая число строк, равное количеству каналов понижающего микширования.
7. Кодер аудиообъектов по п.1, характеризующийся тем, что генератор информации понижающего микширования (96) выполнен с возможностью вычислять информацию понижающего микширования таким образом, что такая информация содержит указания на то, какой аудиообъект полностью или частично распределен по одному или более каналам из множества каналов понижающего микширования, и когда аудиообъект распределен по более чем одному каналу понижающего микширования, такая информация содержит указания относительно части аудиообъекта, направленной по одному каналу понижающего микширования из нескольких каналов понижающего микширования.
8. Кодер аудиообъектов по п.7, характеризующийся тем, что информация относительно части аудиообъекта представляет собой показатель меньший, чем 1 и больший, чем 0.
9. Кодер аудиообъектов по п.2, характеризующийся тем, что понижающий микшер (92) выполнен с возможностью распределения стереофонограммы музыкального фона, по меньшей мере, между двумя каналами понижающего микширования и введения голосовой фонограммы, по меньшей мере, в эти два канала понижающего микширования в заданном соотношении.
10. Кодер аудиообъектов по п.2, характеризующийся тем, что понижающий микшер (92) выполнен с возможностью дополнения сигналов отсчетами для дальнейшего введения в канал понижающего микширования согласно информации понижающего микширования.
11. Кодер аудиообъектов по п.1, характеризующийся тем, что выходной интерфейс (98) выполнен с возможностью сжатия данных понижающего микширования и параметров объекта перед генерированием кодированного сигнала аудиообъекта.
12. Кодер аудиообъектов по п.1, характеризующийся тем, что генератор информации понижающего микширования (96) выполнен с возможностью генерирования параметров мощности и корреляции информации, отражающей характеристики мощности и корреляции характеристик, по крайней мере, двух каналов понижающего микширования.
13. Кодер аудиообъектов по п.1, характеризующийся тем, что генератор информации понижающего микширования генерирует сгруппированную информацию, отображающую два аудиообъекта, формирующих стереообъект.
14. Кодер аудиообъектов по п.1, характеризующийся тем, что генератор параметров объекта (94) выполнен с возможностью генерировать параметры предсказания объектов для аудиообъектов, рассчитываемые таким образом, что взвешенное добавление каналов понижающего микширования к исходному объекту, регулируемому с помощью параметров прогнозирования, или просто к исходному объекту дает в результате аппроксимацию исходного объекта.
15. Кодер аудиообъектов по п.14, характеризующийся тем, что предусматривает генерирование параметров предсказания в полосе частот и где аудиообъекты покрывают множество частотных полос.
16. Кодер аудиообъектов по п.14, характеризующийся тем, что число аудиообъектов равно N, количество каналов понижающего микширования равно К, и количество параметров предсказания объектов, рассчитанных генератором параметров объекта (94), равно или меньше, чем N·К.
17. Кодер аудиообъектов по п.16, характеризующийся тем, что генератор параметров объекта (94) предусматривает возможность вычисления наибольшего числа параметров предсказания объекта К·(N-K).
18. Способ кодирования аудиообъектов для генерировании закодированного сигнала аудиообъекта с использованием множества аудиообъектов, где множество аудиообъектов включает в себя стереообъект, представленный двумя аудиообъектами, обладающими определенной ненулевой корреляцией, характеризующийся тем, что включает генерирование (96) информации понижающего микширования, характеризующей порядок распределения совокупности аудиообъектов, по крайней мере, по двум каналам понижающего микширования; генерирование (94) параметров объекта для аудиообъектов, в которых параметры объекта включают в себя аппроксимации энергий объекта для множества аудиообъектов и данные корреляции для стереообъекта; и генерирование (98) кодированных сигналов аудиообъекта с использованием информации понижающего микширования и параметров объекта.
19. Аудиосинтезатор, предназначенный для генерирования выходных данных с использованием закодированного сигнала аудиообъекта, включающего параметры объекта для множества аудиообъектов и информацию понижающего микширования, характеризующийся тем, что включает синтезатор выходных данных (100) для генерирования выходных данных, применимых для рендеринга множества выходных каналов с заданной конфигурацией выходного аудиосигнала, представляющих множество аудиообъектов, в которых множество аудиобъектов включают стереообъект, представленный двумя аудиообъектами, имеющими определенную ненулевую корреляцию, при этом синтезатор выходных данных предусматривает возможность получать как входные параметры объекта (95), где параметры объекта (95) содержат аппроксимации энергий объекта для множества аудиообъектов и данные корреляции для стереообъекта и использовать информацию (97) понижающего микширования, содержащую указания на распределение множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования, и параметры объекта (95) для аудиообъектов.
20. Аудиосинтезатор по п.19, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность перекодирования параметров объекта в пространственные параметры для выходного аудиосигнала заданной конфигурации, дополнительно используя заданное расположение аудиообъектов в конфигурации выходного аудиосигнала.
21. Аудиосинтезатор по п.19, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность преобразования множества каналов понижающего микширования в стерео понижающего микширования для вывода аудиосигнала заданной конфигурации с использованием матрицы преобразования, сформированной, исходя из заданного расположения аудиообъектов.
22. Аудиосинтезатор по п.21, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность формирования матрицы преобразования с использованием информации понижающего микширования, причем матрица преобразования рассчитывается таким образом, что, по крайней мере, частично меняется расположение каналов понижающего микширования, когда аудиообъект, содержащийся в первом канале понижающего микширования, представляющий первую половину стереоплоскости, должен быть воспроизведен во второй половине стереоплоскости.
23. Аудиосинтезатор по п.20, характеризующийся тем, что, дополнительно содержит блок представления каналов (104), предназначенный для рендеринга выходных аудиоканалов с получением акустического сигнала предварительно заданной конфигурации благодаря использованию пространственных параметров и, по меньшей мере, двух каналов понижающего микширования или преобразованных каналов понижающего микширования.
24. Аудиосинтезатор по п.19, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность формирования выходных аудиоканалов заданной конфигурации при дополнительном использовании, по крайней мере, двух каналов понижающего микширования.
25. Аудиосинтезатор по п.19, характеризующийся тем, что пространственные параметры включают в себя первую группу параметров для повышающего микширования «два-к-трем» и вторую группу энергетических параметров для повышающего микширования «три-два-шесть», а в котором синтезатор выходных данных (100) предусматривает возможность вычисления параметров предсказания для матрицы предсказания «два-к-трем» с использованием матрицы рендеринга согласно заданному расположению аудиообъектов, матрицы частичного понижающего микширования, определяющей порядок понижающего микширования выходных каналов до трех каналов, генерируемых в ходе гипотетической операции повышающего микширования «два-к-трем», и матрицы понижающего микширования.
26. Аудиосинтезатор по п.25, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность вычисления фактических весов понижающего микширования для матрицы частичного понижающего микширования таким образом, что энергия взвешенной суммы двух каналов равна энергиям каналов в рамках предельного показателя.
27. Аудиосинтезатор по п.26, характеризующийся тем, что веса понижающего микширования для матрицы частичного понижающего микширования определяются следующим образом:
Figure 00000076
, p=1, 2, 3,
где wp - вес понижающего микширования, р - целочисленная переменная индекса, fj,i - ячейка матрицы энергетических характеристик, представляющая приближение матрицы ковариации выходных каналов, предварительно заданной конфигурации выходного сигнала.
28. Аудиосинтезатор по п.25, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность вычисления отдельных коэффициентов матрицы прогнозирования путем решения системы линейных уравнений.
29. Аудиосинтезатор по п.25, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность решения системы линейных уравнений:
С3(DЕD*)=A3ED*,
где С3 - матрица предсказания «два-к-трем», D - матрица понижающего микширования, полученная, исходя из информации понижающего микширования, Е - матрица энергетических характеристик, выведенная на основании источников аудиообъектов, и А3 - сокращенная матрица понижающего микширования, и где «*» обозначает комплексно сопряженную операцию.
30. Аудиосинтезатор по п.25, характеризующийся тем, что параметры предсказания для повышающего микширования «два-к-трем» выводятся параметризацией матрицы предсказания таким образом, что матрица предсказания определяется всего двумя параметрами, и при этом синтезатор выходных данных (100) предусматривает возможность предварительной обработки, по меньшей мере, двух каналов понижающего микширования таким образом, что результат воздействия предварительной обработки и матрицы параметризированного предсказания соответствует желаемой матрице повышающего микширования.
31. Аудиосинтезатор по п.30, характеризующийся тем, что выполняет параметризацию матрицы предсказания следующим образом:
Figure 00000077
,
где индекс ТТТ - матрица параметризированного предсказания, а α, β и γ -коэффициенты.
32. Аудиосинтезатор по п.19, характеризующийся тем, что расчет матрицы преобразования понижающего микширования G осуществляют следующим образом:
G=DTTTС3,
где С3 - матрица прогнозирования «два-к-трем», где DTTT и СTTT равны 1, где 1 - единичная матрица «два-к-двум», и где СTTT основывается на:
Figure 00000078
,
где α, β и γ - постоянные коэффициенты.
33. Аудиосинтезатор по п.32, характеризующийся тем, что параметры прогнозирования для повышающего микширования «два-к-трем» определяются как α и β, при этом γ задается как 1.
34. Аудиосинтезатор по п.25, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность расчета энергетических параметров для повышающего микширования «три-два-шесть» с использованием матрицы энергетических характеристик F на основании выражения:
YY*≈F=АЕА*,
где А - матрица рендеринга, Е - матрица энергетических характеристик, сформированная на основании источников аудиообъектов, Y - матрица выходного канала, а «*» служит указателем комплексно сопряженной операции.
35. Аудиосинтезатор по п.34, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность расчета энергетических параметров комбинированием элементов матрицы энергетических характеристик.
36. Аудиосинтезатор по п.35, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность расчета энергетических параметров на основании приведенных ниже уравнений:
Figure 00000079
,
Figure 00000080
,
Figure 00000081
,
Figure 00000082
,
Figure 00000083

где φ - абсолютное значение φ(z)=|z| или оператор действительного значения φ(z)=Re{z}, где CLD0 - первый энергетический параметр разности уровней каналов, где CLD1 - второй энергетический параметр разности уровней каналов, где CLD2 - третий энергетический параметр разности уровней каналов, где ICC1 - первый энергетический параметр межканальной когерентности, a ICC2 - второй энергетический параметр межканальной когерентности, и где fi,j, - элементы матрицы энергетических характеристик F в позициях i, j в этой матрице.
37. Аудиосинтезатор по п.25, характеризующийся тем, что первая группа параметров может содержать энергетические параметры, и при этом синтезатор выходных данных (100) способен формировать энергетические параметры, комбинируя элементы матрицы энергетических характеристик F.
38. Аудиосинтезатор по п.37, в котором энергетические параметры выводятся на основании:
Figure 00000084
,
Figure 00000085
,
где CLD0TTT - первый энергетический параметр первой группы, и где CLD1TTT - второй энергетический параметр первой группы параметров.
39. Аудиосинтезатор по п.37 или 38, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность вычисления весовых коэффициентов для взвешивания каналов понижающего микширования, весовых коэффициентов для управления коэффициентами произвольного усиления понижающего микширования пространственного декодера.
40. Аудиосинтезатор по п.39, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность расчета весовых коэффициентов на основании:
Z=DED*,
W=D26ED*26,
Figure 00000086
,
где D - матрица понижающего микширования, Е - матрица энергетических характеристик, полученная на основании источников аудиообъектов, где W - промежуточная матрица, где D26 - матрица частичного понижающего микширования для понижающего микширования с 6 до 2 каналов с заданной конфигурацией выходного сигнала, и где G - матрица преобразования, содержащая коэффициенты произвольного усиления понижающего микширования пространственного декодера.
41. Аудиосинтезатор по п.25, характеризующийся тем, что параметры объекта представляют собой параметры предсказания объекта, и синтезатор выходных данных предусматривает возможность предварительного расчета матрицы энергетических характеристик с использованием параметров предсказания объекта, информации по понижающему микшированию и энергетических показателей, соответствующих каналам понижающего микширования.
42. Аудиосинтезатор по п.41, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность расчета матрицы энергетических характеристик на основании:
E=CZC*,
где Е - матрица энергетических характеристик, С - матрица параметра предсказания, и Z - матрица ковариации, по меньшей мере, двух каналов понижающего микширования.
43. Аудиосинтезатор по п.19, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность генерирования двух стереоканалов для формирования выходного стереосигнала путем расчета параметризованной матрицы стереорендеринга и матрицы преобразования в зависимости от параметризованной матрицы стереорендеринга.
44. Аудиосинтезатор по п.43, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность расчета матрицы конвертирования на основании:
G=A2·С,
где G - матрица преобразования, A2 - частичная матрица рендеринга, и С -матрица параметров предсказания.
45. Аудиосинтезатор по п.43, характеризующийся тем, что синтезатор выходных данных (100) предусматривает возможность расчета матрицы преобразования на основании:
G(DED*)=A2ED*,
где G - матрица энергетических характеристик, сформированная на базе источника звука на фонограмме, D - матрица понижающего микширования, полученная на основании информации понижающего микширования, А2 - редуцированная матрица рендеринга, а «*» служит указателем полной сопряженной операции.
46. Аудиосинтезатор по п.43, характеризующийся тем, что параметризованная матрица стереопредставления А2 формируется следующим образом:
Figure 00000087

где µ, ν и κ - действительные параметры, задаваемые в соответствии с расположением и динамическим диапазоном одного или большего количества исходных аудиообъектов.
47. Способ синтезирования звука для генерирования выходных данных с использованием кодированных сигналов аудиообъектов, содержащих параметры объекта для множества аудиообъектов и информацию понижающего микширования, характеризующийся тем, что включает получение параметров объекта (95), где параметры объекта (95) включают в себя аппроксимации энергий объекта для множества аудиообъектов и данные корреляции для стереообъекта, и генерирование выходных данных для формирования множества выходных каналов с заданной конфигурацией выходного аудиосигнала, отображающей множество аудиообъектов, где множество аудиообъектов включает стереообъект, представленный двумя аудиообъектами, имеющими определенную ненулевую корреляцию, используя информацию понижающего микширования (97) для распределения множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования и параметры объекта (95) для аудиообъектов.
48. Машиночитаемый носитель данных с сохраненным на нем закодированным сигналом аудиообъекта, включающим информацию понижающего микширования, содержащую указания на порядок распределения множества аудиообъектов, по меньшей мере, по двум каналам понижающего микширования, и дополнительно параметры объекта (95), где параметры объекта (95) содержат аппроксимации энергий объекта для множества аудиообъектов и данные корреляции для стереофонического объекта, где множество аудиообъектов включает стереообъект, представленный двумя аудиообъектами, имеющими определенную ненулевую корреляцию и где параметры объекта (95) представлены таким образом, что реконструкция аудиообъектов возможна с использованием параметров объекта и этих, по меньшей мере, двух каналов понижающего микширования.
49. Машиночитаемый носитель данных с сохраненной на нем компьютерной программой, обеспечивающей при выполнении на компьютере осуществление способа по п.18.
50. Машиночитаемый носитель данных с сохраненной на нем компьютерной программой, обеспечивающей при выполнении на компьютере осуществление способа по п.47.
RU2009113055/09A 2006-10-16 2007-10-05 Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования RU2430430C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US82964906P 2006-10-16 2006-10-16
US60/829,649 2006-10-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2011102416A Division RU2485605C2 (ru) 2006-10-16 2007-10-05 Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования

Publications (2)

Publication Number Publication Date
RU2009113055A RU2009113055A (ru) 2010-11-27
RU2430430C2 true RU2430430C2 (ru) 2011-09-27

Family

ID=38810466

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009113055/09A RU2430430C2 (ru) 2006-10-16 2007-10-05 Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования

Country Status (22)

Country Link
US (2) US9565509B2 (ru)
EP (3) EP2068307B1 (ru)
JP (3) JP5270557B2 (ru)
KR (2) KR101103987B1 (ru)
CN (3) CN102892070B (ru)
AT (2) ATE536612T1 (ru)
AU (2) AU2007312598B2 (ru)
BR (1) BRPI0715559B1 (ru)
CA (3) CA2666640C (ru)
DE (1) DE602007013415D1 (ru)
ES (1) ES2378734T3 (ru)
HK (3) HK1162736A1 (ru)
MX (1) MX2009003570A (ru)
MY (1) MY145497A (ru)
NO (1) NO340450B1 (ru)
PL (1) PL2068307T3 (ru)
PT (1) PT2372701E (ru)
RU (1) RU2430430C2 (ru)
SG (1) SG175632A1 (ru)
TW (1) TWI347590B (ru)
UA (1) UA94117C2 (ru)
WO (1) WO2008046531A1 (ru)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2608847C1 (ru) * 2013-05-24 2017-01-25 Долби Интернешнл Аб Кодирование звуковых сцен
US9734833B2 (en) 2012-10-05 2017-08-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution spatial-audio-object-coding
US9947325B2 (en) 2013-11-27 2018-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
RU2672178C1 (ru) * 2012-12-04 2018-11-12 Самсунг Электроникс Ко., Лтд. Устройство предоставления аудио и способ предоставления аудио
RU2721750C2 (ru) * 2015-07-16 2020-05-21 Сони Корпорейшн Устройство обработки информации, способ обработки информации и программа
RU2722391C2 (ru) * 2015-11-17 2020-05-29 Долби Лэборетериз Лайсенсинг Корпорейшн Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала
RU2728535C2 (ru) * 2015-09-25 2020-07-30 Войсэйдж Корпорейшн Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы
US10893375B2 (en) 2015-11-17 2021-01-12 Dolby Laboratories Licensing Corporation Headtracking for parametric binaural output system and method
US10971163B2 (en) 2013-05-24 2021-04-06 Dolby International Ab Reconstruction of audio scenes from a downmix

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US20090177479A1 (en) * 2006-02-09 2009-07-09 Lg Electronics Inc. Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof
US8364497B2 (en) 2006-09-29 2013-01-29 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
JP5232791B2 (ja) * 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
RU2431940C2 (ru) 2006-10-16 2011-10-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аппаратура и метод многоканального параметрического преобразования
EP2068307B1 (en) 2006-10-16 2011-12-07 Dolby International AB Enhanced coding and parameter representation of multichannel downmixed object coding
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
KR101055739B1 (ko) * 2006-11-24 2011-08-11 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치
JP5450085B2 (ja) 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
US8370164B2 (en) * 2006-12-27 2013-02-05 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel including information bitstream conversion
US8296158B2 (en) 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US20100241434A1 (en) * 2007-02-20 2010-09-23 Kojiro Ono Multi-channel decoding device, multi-channel decoding method, program, and semiconductor integrated circuit
KR20080082916A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
RU2419168C1 (ru) * 2007-03-09 2011-05-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ обработки аудиосигнала и устройство для его осуществления
CN101636917B (zh) * 2007-03-16 2013-07-24 Lg电子株式会社 用于处理音频信号的方法和装置
WO2008120933A1 (en) * 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
CN101828219B (zh) * 2007-09-06 2012-05-09 Lg电子株式会社 解码音频信号的方法和装置
EP2076900A1 (en) * 2007-10-17 2009-07-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Audio coding using upmix
WO2009068087A1 (en) * 2007-11-27 2009-06-04 Nokia Corporation Multichannel audio coding
EP2227804B1 (en) * 2007-12-09 2017-10-25 LG Electronics Inc. A method and an apparatus for processing a signal
JP5248625B2 (ja) 2007-12-21 2013-07-31 ディーティーエス・エルエルシー オーディオ信号の知覚ラウドネスを調節するシステム
EP2254110B1 (en) * 2008-03-19 2014-04-30 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
CN102037507B (zh) * 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US8311810B2 (en) * 2008-07-29 2012-11-13 Panasonic Corporation Reduced delay spatial coding and decoding apparatus and teleconferencing system
EP2327072B1 (en) * 2008-08-14 2013-03-20 Dolby Laboratories Licensing Corporation Audio signal transformatting
US8861739B2 (en) 2008-11-10 2014-10-14 Nokia Corporation Apparatus and method for generating a multichannel signal
EP2194526A1 (en) * 2008-12-05 2010-06-09 Lg Electronics Inc. A method and apparatus for processing an audio signal
KR20100065121A (ko) * 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
WO2010091555A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
JP5214058B2 (ja) * 2009-03-17 2013-06-19 ドルビー インターナショナル アーベー 適応的に選択可能な左/右又はミッド/サイド・ステレオ符号化及びパラメトリック・ステレオ符号化の組み合わせに基づいた高度ステレオ符号化
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
JP2011002574A (ja) * 2009-06-17 2011-01-06 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
JP5345024B2 (ja) * 2009-08-28 2013-11-20 日本放送協会 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
MY165327A (en) 2009-10-16 2018-03-21 Fraunhofer Ges Forschung Apparatus,method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation,using an average value
WO2011048792A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 音響信号処理装置、音響符号化装置および音響復号装置
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
AU2010321013B2 (en) * 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
WO2011071928A2 (en) * 2009-12-07 2011-06-16 Pixel Instruments Corporation Dialogue detector and correction
EP2511908A4 (en) * 2009-12-11 2013-07-31 Korea Electronics Telecomm AUDIO CREATING APPARATUS AND AUDIO PLAYING APPARATUS FOR AUDIO BASED OBJECT BASED SERVICE, AND AUDIO CREATING METHOD AND AUDIO PLAYING METHOD USING THE SAME
EP2522016A4 (en) 2010-01-06 2015-04-22 Lg Electronics Inc DEVICE FOR PROCESSING AN AUDIO SIGNAL AND METHOD THEREFOR
CN103811010B (zh) * 2010-02-24 2017-04-12 弗劳恩霍夫应用研究促进协会 产生增强下混频信号的装置和产生增强下混频信号的方法
CN104822036B (zh) 2010-03-23 2018-03-30 杜比实验室特许公司 用于局域化感知音频的技术
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
JP5604933B2 (ja) * 2010-03-30 2014-10-15 富士通株式会社 ダウンミクス装置およびダウンミクス方法
DK2556502T3 (en) 2010-04-09 2019-03-04 Dolby Int Ab MDCT-BASED COMPLEX PREVIEW Stereo Decoding
WO2011132368A1 (ja) * 2010-04-19 2011-10-27 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
KR20120038311A (ko) 2010-10-13 2012-04-23 삼성전자주식회사 공간 파라미터 부호화 장치 및 방법,그리고 공간 파라미터 복호화 장치 및 방법
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
EP2701144B1 (en) * 2011-04-20 2016-07-27 Panasonic Intellectual Property Corporation of America Device and method for execution of huffman coding
JP6096789B2 (ja) * 2011-11-01 2017-03-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオオブジェクトのエンコーディング及びデコーディング
WO2013073810A1 (ko) * 2011-11-14 2013-05-23 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
KR20130093798A (ko) 2012-01-02 2013-08-23 한국전자통신연구원 다채널 신호 부호화 및 복호화 장치 및 방법
EP2834995B1 (en) 2012-04-05 2019-08-28 Nokia Technologies Oy Flexible spatial audio capture apparatus
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9622014B2 (en) 2012-06-19 2017-04-11 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
BR112015000247B1 (pt) * 2012-07-09 2021-08-03 Koninklijke Philips N.V. Decodificador, método de decodificação, codificador, método de codificação, e sistema de codificação e decodificação.
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
CN104541524B (zh) 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
WO2014020181A1 (en) * 2012-08-03 2014-02-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
CN104704557B (zh) * 2012-08-10 2017-08-29 弗劳恩霍夫应用研究促进协会 用于在空间音频对象编码中适配音频信息的设备和方法
KR20140027831A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법
MX347551B (es) 2013-01-15 2017-05-02 Koninklijke Philips Nv Procesamiento de audio binaural.
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
WO2014151092A1 (en) 2013-03-15 2014-09-25 Dts, Inc. Automatic multi-channel music mix from multiple audio stems
EP2982139A4 (en) 2013-04-04 2016-11-23 Nokia Technologies Oy AUDIOVISUAL PROCESSING APPARATUS
WO2014161996A2 (en) 2013-04-05 2014-10-09 Dolby International Ab Audio processing system
CN114566182A (zh) * 2013-04-05 2022-05-31 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
WO2014175591A1 (ko) * 2013-04-27 2014-10-30 인텔렉추얼디스커버리 주식회사 오디오 신호처리 방법
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
US9706324B2 (en) 2013-05-17 2017-07-11 Nokia Technologies Oy Spatial object oriented audio apparatus
JP6248186B2 (ja) * 2013-05-24 2017-12-13 ドルビー・インターナショナル・アーベー オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
CA2990261C (en) * 2013-05-24 2020-06-16 Dolby International Ab Audio encoder and decoder
CN110085240B (zh) * 2013-05-24 2023-05-23 杜比国际公司 包括音频对象的音频场景的高效编码
RU2630754C2 (ru) * 2013-05-24 2017-09-12 Долби Интернешнл Аб Эффективное кодирование звуковых сцен, содержащих звуковые объекты
WO2014195190A1 (en) * 2013-06-05 2014-12-11 Thomson Licensing Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、***和装置
US9830918B2 (en) 2013-07-05 2017-11-28 Dolby International Ab Enhanced soundfield coding using parametric component generation
EP3023984A4 (en) * 2013-07-15 2017-03-08 Electronics and Telecommunications Research Institute Encoder and encoding method for multichannel signal, and decoder and decoding method for multichannel signal
EP2830048A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830046A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
AU2014295207B2 (en) 2013-07-22 2017-02-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
CN110808055B (zh) * 2013-07-31 2021-05-28 杜比实验室特许公司 用于处理音频数据的方法和装置、介质及设备
WO2015031505A1 (en) * 2013-08-28 2015-03-05 Dolby Laboratories Licensing Corporation Hybrid waveform-coded and parametric-coded speech enhancement
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
CN117037811A (zh) * 2013-09-12 2023-11-10 杜比国际公司 多声道音频内容的编码
TWI557724B (zh) * 2013-09-27 2016-11-11 杜比實驗室特許公司 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器
JP6429092B2 (ja) * 2013-10-09 2018-11-28 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2015059154A1 (en) * 2013-10-21 2015-04-30 Dolby International Ab Audio encoder and decoder
KR20230011480A (ko) * 2013-10-21 2023-01-20 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
KR102107554B1 (ko) * 2013-11-18 2020-05-07 인포뱅크 주식회사 네트워크를 이용한 멀티미디어 합성 방법
WO2015105748A1 (en) 2014-01-09 2015-07-16 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
KR101904423B1 (ko) * 2014-09-03 2018-11-28 삼성전자주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
US10978079B2 (en) * 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corporation Audio encoding and decoding using presentation transform parameters
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10614819B2 (en) * 2016-01-27 2020-04-07 Dolby Laboratories Licensing Corporation Acoustic environment simulation
US10158758B2 (en) 2016-11-02 2018-12-18 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs at call centers
US10135979B2 (en) * 2016-11-02 2018-11-20 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs by call center supervisors
CN106604199B (zh) * 2016-12-23 2018-09-18 湖南国科微电子股份有限公司 一种数字音频信号的矩阵处理方法及装置
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10650834B2 (en) * 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN114420139A (zh) 2018-05-31 2022-04-29 华为技术有限公司 一种下混信号的计算方法及装置
CN110970008A (zh) * 2018-09-28 2020-04-07 广州灵派科技有限公司 一种嵌入式混音方法、装置、嵌入式设备及存储介质
AU2019380367A1 (en) 2018-11-13 2021-05-20 Dolby International Ab Audio processing in immersive audio services
CA3193359A1 (en) * 2019-06-14 2020-12-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Parameter encoding and decoding
KR102079691B1 (ko) * 2019-11-11 2020-02-19 인포뱅크 주식회사 네트워크를 이용한 멀티미디어 합성 단말기
WO2022245076A1 (ko) * 2021-05-21 2022-11-24 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법
CN114463584B (zh) * 2022-01-29 2023-03-24 北京百度网讯科技有限公司 图像处理、模型训练方法、装置、设备、存储介质及程序
CN114501297B (zh) * 2022-04-02 2022-09-02 北京荣耀终端有限公司 一种音频处理方法以及电子设备

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69428939T2 (de) * 1993-06-22 2002-04-04 Deutsche Thomson-Brandt Gmbh Verfahren zur Erhaltung einer Mehrkanaldekodiermatrix
JP3779320B2 (ja) 1994-02-17 2006-05-24 モトローラ・インコーポレイテッド 信号を群符号化するための方法および装置
US6128597A (en) * 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
JP2005093058A (ja) 1997-11-28 2005-04-07 Victor Co Of Japan Ltd オーディオ信号のエンコード方法及びデコード方法
JP3743671B2 (ja) 1997-11-28 2006-02-08 日本ビクター株式会社 オーディオディスク及びオーディオ再生装置
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6788880B1 (en) 1998-04-16 2004-09-07 Victor Company Of Japan, Ltd Recording medium having a first area for storing an audio title set and a second area for storing a still picture set and apparatus for processing the recorded information
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
CA2742649C (en) 1999-04-07 2014-11-04 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
KR100392384B1 (ko) 2001-01-13 2003-07-22 한국전자통신연구원 엠펙-2 데이터에 엠펙-4 데이터를 동기화시켜 전송하는장치 및 그 방법
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
JP2002369152A (ja) 2001-06-06 2002-12-20 Canon Inc 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体
CN1553841A (zh) * 2001-09-14 2004-12-08 �Ʒ� 金属包层废料件去除包层的方法
BRPI0308148A2 (pt) * 2002-04-05 2016-06-21 Koninkl Philips Electronics Nv métodos e aparelhos para codificar n sinais de entrada e para decodificar dados codificados representativos de n sinais, formato de sinal, e, portador de gravação
JP3994788B2 (ja) * 2002-04-30 2007-10-24 ソニー株式会社 伝達特性測定装置、伝達特性測定方法、及び伝達特性測定プログラム、並びに増幅装置
US7447629B2 (en) * 2002-07-12 2008-11-04 Koninklijke Philips Electronics N.V. Audio coding
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
JP2004193877A (ja) 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
KR20040060718A (ko) * 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
KR20050116828A (ko) 2003-03-24 2005-12-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 다채널 신호를 나타내는 주 및 부 신호의 코딩
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7555009B2 (en) * 2003-11-14 2009-06-30 Canon Kabushiki Kaisha Data processing method and apparatus, and data distribution method and information processing apparatus
JP4378157B2 (ja) 2003-11-14 2009-12-02 キヤノン株式会社 データ処理方法および装置
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
PL1735779T3 (pl) 2004-04-05 2014-01-31 Koninklijke Philips Nv Urządzenie kodujące, dekodujące, sposoby z nimi powiązane oraz powiązany system audio
WO2005098824A1 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Multi-channel encoder
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
US8019087B2 (en) * 2004-08-31 2011-09-13 Panasonic Corporation Stereo signal generating apparatus and stereo signal generating method
JP2006101248A (ja) 2004-09-30 2006-04-13 Victor Co Of Japan Ltd 音場補正装置
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
JP5106115B2 (ja) * 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
DE602006015294D1 (de) * 2005-03-30 2010-08-19 Dolby Int Ab Mehrkanal-audiocodierung
US7991610B2 (en) * 2005-04-13 2011-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Adaptive grouping of parameters for enhanced coding efficiency
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
US8185403B2 (en) * 2005-06-30 2012-05-22 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
JP5113049B2 (ja) * 2005-07-29 2013-01-09 エルジー エレクトロニクス インコーポレイティド 符号化されたオーディオ信号の生成方法及びオーディオ信号の処理方法
WO2007055463A1 (en) * 2005-08-30 2007-05-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
AU2006291689B2 (en) * 2005-09-14 2010-11-25 Lg Electronics Inc. Method and apparatus for decoding an audio signal
CN101297353B (zh) * 2005-10-26 2013-03-13 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
EP1974344A4 (en) * 2006-01-19 2011-06-08 Lg Electronics Inc METHOD AND APPARATUS FOR DECODING A SIGNAL
KR100852223B1 (ko) * 2006-02-03 2008-08-13 한국전자통신연구원 멀티채널 오디오 신호 시각화 장치 및 방법
EP1989704B1 (en) * 2006-02-03 2013-10-16 Electronics and Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
US20090177479A1 (en) * 2006-02-09 2009-07-09 Lg Electronics Inc. Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof
JP2009526467A (ja) 2006-02-09 2009-07-16 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法とその装置
ATE532350T1 (de) * 2006-03-24 2011-11-15 Dolby Sweden Ab Erzeugung räumlicher heruntermischungen aus parametrischen darstellungen mehrkanaliger signale
EP2000001B1 (en) * 2006-03-28 2011-12-21 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for a decoder for multi-channel surround sound
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
BRPI0713236B1 (pt) * 2006-07-07 2020-03-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Conceito para combinação de múltiplas fontes de áudio parametricamente codificadas
US20080235006A1 (en) * 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
KR20090013178A (ko) * 2006-09-29 2009-02-04 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
US8364497B2 (en) 2006-09-29 2013-01-29 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
JP5232791B2 (ja) * 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
EP2068307B1 (en) 2006-10-16 2011-12-07 Dolby International AB Enhanced coding and parameter representation of multichannel downmixed object coding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HERRE J. и др. The reference model architecture for mpeg spatial audio coding, Audio Engineering Society convention paper, 28.05.2005, c.1-13. *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734833B2 (en) 2012-10-05 2017-08-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution spatial-audio-object-coding
RU2639658C2 (ru) * 2012-10-05 2017-12-21 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, декодер и способы для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов
US10152978B2 (en) 2012-10-05 2018-12-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
US10149084B2 (en) 2012-12-04 2018-12-04 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
RU2695508C1 (ru) * 2012-12-04 2019-07-23 Самсунг Электроникс Ко., Лтд. Устройство предоставления аудио и способ предоставления аудио
US10341800B2 (en) 2012-12-04 2019-07-02 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
RU2672178C1 (ru) * 2012-12-04 2018-11-12 Самсунг Электроникс Ко., Лтд. Устройство предоставления аудио и способ предоставления аудио
US10971163B2 (en) 2013-05-24 2021-04-06 Dolby International Ab Reconstruction of audio scenes from a downmix
US10726853B2 (en) 2013-05-24 2020-07-28 Dolby International Ab Decoding of audio scenes
US10026408B2 (en) 2013-05-24 2018-07-17 Dolby International Ab Coding of audio scenes
US10347261B2 (en) 2013-05-24 2019-07-09 Dolby International Ab Decoding of audio scenes
US11315577B2 (en) 2013-05-24 2022-04-26 Dolby International Ab Decoding of audio scenes
US10468040B2 (en) 2013-05-24 2019-11-05 Dolby International Ab Decoding of audio scenes
US10468039B2 (en) 2013-05-24 2019-11-05 Dolby International Ab Decoding of audio scenes
US10468041B2 (en) 2013-05-24 2019-11-05 Dolby International Ab Decoding of audio scenes
US11580995B2 (en) 2013-05-24 2023-02-14 Dolby International Ab Reconstruction of audio scenes from a downmix
US11682403B2 (en) 2013-05-24 2023-06-20 Dolby International Ab Decoding of audio scenes
US11894003B2 (en) 2013-05-24 2024-02-06 Dolby International Ab Reconstruction of audio scenes from a downmix
RU2608847C1 (ru) * 2013-05-24 2017-01-25 Долби Интернешнл Аб Кодирование звуковых сцен
US10699722B2 (en) 2013-11-27 2020-06-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
RU2672174C2 (ru) * 2013-11-27 2018-11-12 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер, кодер и способ информированной оценки громкости в системах основывающегося на объектах кодирования аудио
US11875804B2 (en) 2013-11-27 2024-01-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
US10891963B2 (en) 2013-11-27 2021-01-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder, and method for informed loudness estimation in object-based audio coding systems
US11688407B2 (en) 2013-11-27 2023-06-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder, and method for informed loudness estimation in object-based audio coding systems
US11423914B2 (en) 2013-11-27 2022-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
US10497376B2 (en) 2013-11-27 2019-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder, and method for informed loudness estimation in object-based audio coding systems
US9947325B2 (en) 2013-11-27 2018-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
RU2721750C2 (ru) * 2015-07-16 2020-05-21 Сони Корпорейшн Устройство обработки информации, способ обработки информации и программа
RU2728535C2 (ru) * 2015-09-25 2020-07-30 Войсэйдж Корпорейшн Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы
US11056121B2 (en) 2015-09-25 2021-07-06 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
US10984806B2 (en) 2015-09-25 2021-04-20 Voiceage Corporation Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
US10839813B2 (en) 2015-09-25 2020-11-17 Voiceage Corporation Method and system for decoding left and right channels of a stereo sound signal
US10893375B2 (en) 2015-11-17 2021-01-12 Dolby Laboratories Licensing Corporation Headtracking for parametric binaural output system and method
RU2722391C2 (ru) * 2015-11-17 2020-05-29 Долби Лэборетериз Лайсенсинг Корпорейшн Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала

Also Published As

Publication number Publication date
ATE503245T1 (de) 2011-04-15
EP2372701B1 (en) 2013-12-11
PL2068307T3 (pl) 2012-07-31
AU2007312598A1 (en) 2008-04-24
CN103400583A (zh) 2013-11-20
KR101103987B1 (ko) 2012-01-06
AU2011201106A1 (en) 2011-04-07
CN103400583B (zh) 2016-01-20
HK1133116A1 (en) 2010-03-12
AU2011201106B2 (en) 2012-07-26
JP5297544B2 (ja) 2013-09-25
RU2009113055A (ru) 2010-11-27
WO2008046531A1 (en) 2008-04-24
EP2054875B1 (en) 2011-03-23
MX2009003570A (es) 2009-05-28
NO20091901L (no) 2009-05-14
CN102892070B (zh) 2016-02-24
CN101529501A (zh) 2009-09-09
JP2013190810A (ja) 2013-09-26
EP2372701A1 (en) 2011-10-05
HK1126888A1 (en) 2009-09-11
BRPI0715559A2 (pt) 2013-07-02
RU2011102416A (ru) 2012-07-27
NO340450B1 (no) 2017-04-24
EP2054875A1 (en) 2009-05-06
US20170084285A1 (en) 2017-03-23
TWI347590B (en) 2011-08-21
CN102892070A (zh) 2013-01-23
CA2874454C (en) 2017-05-02
EP2068307B1 (en) 2011-12-07
EP2068307A1 (en) 2009-06-10
PT2372701E (pt) 2014-03-20
JP2012141633A (ja) 2012-07-26
JP5592974B2 (ja) 2014-09-17
DE602007013415D1 (de) 2011-05-05
JP2010507115A (ja) 2010-03-04
UA94117C2 (ru) 2011-04-11
US9565509B2 (en) 2017-02-07
JP5270557B2 (ja) 2013-08-21
ES2378734T3 (es) 2012-04-17
ATE536612T1 (de) 2011-12-15
HK1162736A1 (en) 2012-08-31
CA2874451A1 (en) 2008-04-24
SG175632A1 (en) 2011-11-28
CA2666640C (en) 2015-03-10
CA2874451C (en) 2016-09-06
CA2666640A1 (en) 2008-04-24
BRPI0715559B1 (pt) 2021-12-07
AU2007312598B2 (en) 2011-01-20
MY145497A (en) 2012-02-29
TW200828269A (en) 2008-07-01
KR20110002504A (ko) 2011-01-07
CA2874454A1 (en) 2008-04-24
KR101012259B1 (ko) 2011-02-08
US20110022402A1 (en) 2011-01-27
CN101529501B (zh) 2013-08-07
KR20090057131A (ko) 2009-06-03

Similar Documents

Publication Publication Date Title
RU2430430C2 (ru) Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования
JP5133401B2 (ja) 出力信号の合成装置及び合成方法
RU2558612C2 (ru) Декодер аудиосигнала, способ декодирования аудиосигнала и компьютерная программа с использованием ступеней каскадной обработки аудиообъектов
Hotho et al. A backward-compatible multichannel audio codec
RU2485605C2 (ru) Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования