RU2660638C2 - Устройство и способ для улучшенного пространственного кодирования аудиообъектов - Google Patents

Устройство и способ для улучшенного пространственного кодирования аудиообъектов Download PDF

Info

Publication number
RU2660638C2
RU2660638C2 RU2016105469A RU2016105469A RU2660638C2 RU 2660638 C2 RU2660638 C2 RU 2660638C2 RU 2016105469 A RU2016105469 A RU 2016105469A RU 2016105469 A RU2016105469 A RU 2016105469A RU 2660638 C2 RU2660638 C2 RU 2660638C2
Authority
RU
Russia
Prior art keywords
audio
information
signals
channels
transport
Prior art date
Application number
RU2016105469A
Other languages
English (en)
Other versions
RU2016105469A (ru
Inventor
Юрген ХЕРРЕ
Адриан МУРТАЗА
Йоуни ПАУЛУС
Саша ДИШ
Харальд ФУКС
Оливер ХЕЛЛЬМУТ
Фалько РИДДЕРБУШ
Леон ТЕРЕНТИВ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130177378 external-priority patent/EP2830045A1/en
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2016105469A publication Critical patent/RU2016105469A/ru
Application granted granted Critical
Publication of RU2660638C2 publication Critical patent/RU2660638C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/006Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

Изобретение относится к аудиокодированию/аудиодекодированию. Технический результат – повышение точности воспроизведения аудиосигнала. Устройство содержит процессор параметров для вычисления информации микширования и процессор понижающего микширования, предназначенный для формирования одного или нескольких выходных аудиоканалов и для приема потока данных, содержащего транспортные аудиоканалы в транспортном аудиосигнале. Процессор параметров конфигурируется для приема информации понижающего микширования и для приема ковариационной информации, а также для вычисления информации микширования в зависимости от информации понижающего микширования и в зависимости от ковариационной информации. Процессор понижающего микширования конфигурируется для формирования одного или нескольких выходных аудиоканалов из транспортного аудиосигнала в зависимости от информации микширования. Ковариационная информация указывает информацию о разности уровней для одного из одного или нескольких сигналов аудиоканалов и дополнительно указывает информацию о разности уровней для одного из одного или нескольких сигналов аудиообъектов. 7 н. и 11 з.п. ф-лы, 10 ил.

Description

Настоящее изобретение имеет отношение к аудиокодированию/аудиодекодированию, в частности, к пространственному аудиокодированию и пространственному кодированию аудиообъектов, а конкретнее, к устройству и способу для улучшенного пространственного кодирования аудиообъектов.
Инструменты пространственного аудиокодирования широко известны в данной области техники и стандартизованы, например, в стандарте MPEG-Surround. Пространственное аудиокодирование начинается с исходных входных каналов, например, пяти или семи входных каналов, которые идентифицируются по их размещению в настройке воспроизведения, то есть левый канал, центральный канал, правый канал, левый канал окружения, правый канал окружения и канал низкочастотного расширения. Пространственный аудиокодер, как правило, получает один или несколько каналов понижающего микширования из исходных каналов, а кроме того, получает параметрические данные, относящиеся к пространственным меткам, например межканальные разности уровней в значениях когерентности каналов, межканальные разности фаз, межканальные разницы времени и т. п. Один или несколько каналов понижающего микширования передаются вместе с параметрической дополнительной информацией, указывающей пространственные метки, пространственному аудиодекодеру, который декодирует канал понижающего микширования и ассоциированные параметрические данные, чтобы получить в конечном счете выходные каналы, которые являются приблизительной версией исходных входных каналов. Размещение каналов в настройке вывода обычно неизменно и представляет собой, например, формат 5.1, формат 7.1 и т. п.
Такие аудиоформаты на основе каналов широко используются для хранения или передачи многоканального аудиоконтента, где каждый канал относится к определенному громкоговорителю в заданном положении. Точное воспроизведение этого вида форматов требует настройки громкоговорителей, где динамики размещаются в тех же положениях, что и динамики, которые использовались во время создания аудиосигналов. Хотя увеличивающееся количество громкоговорителей улучшает воспроизведение по-настоящему многонаправленных объемных аудиосцен, становится все сложнее выполнять это требование - особенно в домашней обстановке типа гостиной.
Необходимость конкретной настройки громкоговорителей можно обойти с помощью объектно-ориентированного подхода, где сигналы громкоговорителя подготавливаются специально для настройки воспроизведения.
Например, инструменты пространственного кодирования аудиообъектов широко известны в данной области техники и стандартизованы в стандарте SAOC MPEG (SAOC=пространственное кодирование аудиообъектов). В отличие от пространственного аудиокодирования, начинающего с исходных каналов, пространственное кодирование аудиообъектов начинает с аудиообъектов, которые не выделены автоматически для определенной настройки воспроизведения. Вместо этого размещение аудиообъектов в сцене воспроизведения гибкое и может определяться пользователем путем ввода некоторой информации о подготовке в декодер пространственного кодирования аудиообъектов. В качестве альтернативы или дополнительно информация о подготовке, то есть информация о том, в какое положение в настройке воспроизведения нужно обычно помещать некоторый аудиообъект по прошествии времени, может передаваться в качестве дополнительной информации или метаданных. Чтобы добиться определенного сжатия данных, некоторое количество аудиообъектов кодируется кодером SAOC, который вычисляет из входных объектов один или несколько транспортных каналов путем понижающего микширования объектов в соответствии с некоторой информацией понижающего микширования. Кроме того, кодер SAOC вычисляет параметрическую дополнительную информацию, представляющую межобъектные метки, например разности уровней объектов (OLD), значения когерентности объектов и т. п. Как и в SAC (SAC=пространственное аудиокодирование), межобъектные параметрические данные вычисляются для временных/частотных фрагментов параметра, то есть для некоторого кадра аудиосигнала, содержащего, например, 1024 или 2048 выборок, рассматриваются 28, 20, 14 или 10 и т. п. полос обработки, чтобы параметрические данные существовали в конечном счете для каждого кадра и каждой полосы обработки. В качестве примера, когда некая аудиочасть содержит 20 кадров, и когда каждый кадр подразделяется на 28 полос обработки, количество временных/частотных фрагментов параметра равно 560.
В объектно-ориентированном подходе звуковое поле описывается дискретными аудиообъектами. Это требует метаданных объектов, которые, среди прочего, описывают изменяющееся во времени положение каждого источника звука в трехмерном (3D) пространстве.
Первой идеей кодирования метаданных на известном уровне техники является формат обмена описанием пространственного звука (SpatDIF), формат описания аудиосцены, который по-прежнему находится в разработке [M1]. Он задуман как формат обмена для объектно-ориентированных звуковых сцен и не предоставляет никакого способа сжатия для траекторий объектов. SpatDIF использует текстовый формат Открытого управления звуком (OSC) для структурирования метаданных объектов [M2]. Однако простое текстовое представление не является возможным вариантом для сжатой передачи траекторий объектов.
Другой идеей метаданных на известном уровне техники является Формат описания аудиосцен (ASDF) [M3], текстовое решение, которое обладает таким же недостатком. Данные структурируются с помощью расширения Языка синхронизированной мультимедийной интеграции (SMIL), который является подмножеством Расширяемого языка разметки (XML) [M4], [M5].
Дополнительной идеей метаданных на известном уровне техники является двоичный формат аудио для сцен (AudioBIFS), двоичный формат, который является частью спецификации MPEG-4 [M6], [M7]. Он тесно связан с основанным на XML языком моделирования виртуальной реальности (VRML), который был разработан для описания аудиовизуальных объемных (3D) сцен и интерактивных приложений виртуальной реальности [M8]. Сложная спецификация AudioBIFS использует графы сцен для задания маршрутов перемещений объектов. Основным недостатком AudioBIFS является то, что он не предназначен для работы в реальном масштабе времени, где требованием является ограниченная задержка системы и произвольный доступ к потоку данных. Кроме того, кодирование положений объектов не использует ограниченное выявление направленности у человека. Для неизменного положения слушателя в аудиовизуальной сцене данные объектов можно квантовать с гораздо меньшим количеством разрядов [M9]. Поэтому кодирование метаданных объектов, которое применяется в AudioBIFS, неэффективно в отношении сжатия данных.
US 2009/326958 A1 раскрывает способ и устройство аудиодекодирования и способ и устройство аудиокодирования, которые могут эффективно обрабатывать объектно-ориентированные аудиосигналы. Способ аудиодекодирования включает в себя прием первого и второго аудиосигналов, которые кодируются по объектам; формирование третьей информации об энергии объекта на основе первой информации об энергии объекта, включенной в первый аудиосигнал, и второй информации об энергии объекта, включенной во второй аудиосигнал; и формирование третьего аудиосигнала путем объединения первого и второго сигналов объектов и третьей информации об энергии объекта.
Цель настоящего изобретения - предоставить усовершенствованные идеи для пространственного кодирования аудиообъектов. Цель настоящего изобретения достигается с помощью устройства по п. 1, устройства по п. 14, системы по п. 16, способа по п. 17, способа по п. 18 и компьютерной программы по п. 19.
Предоставляется устройство для формирования одного или нескольких выходных аудиоканалов. Устройство содержит процессор параметров для вычисления информации микширования и процессор понижающего микширования для формирования одного или нескольких выходных аудиоканалов. Процессор понижающего микширования конфигурируется для приема транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов. Один или несколько сигналов аудиоканалов микшируются в транспортный аудиосигнал, и один или несколько сигналов аудиообъектов микшируются в транспортный аудиосигнал, и где количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов. Процессор параметров конфигурируется для приема информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов микшируются в один или несколько транспортных аудиоканалов, и где процессор параметров конфигурируется для приема ковариационной информации. Кроме того, процессор параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования и в зависимости от ковариационной информации. Процессор понижающего микширования конфигурируется для формирования одного или нескольких выходных аудиоканалов из транспортного аудиосигнала в зависимости от информации микширования. Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
Кроме того, предоставляется устройство для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов. Устройство содержит микшер каналов/объектов для формирования одного или нескольких транспортных аудиоканалов в транспортном аудиосигнале и выходной интерфейс. Микшер каналов/объектов конфигурируется для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, путем микширования одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов в транспортный аудиосигнал в зависимости от информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов нужно микшировать в один или несколько транспортных аудиоканалов, где количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов. Выходной интерфейс конфигурируется для вывода транспортного аудиосигнала, информации понижающего микширования и ковариационной информации. Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
Кроме того, предоставляется система. Система содержит устройство для формирования транспортного аудиосигнала, как описано выше, и устройство для формирования одного или нескольких выходных аудиоканалов, как описано выше. Устройство для формирования одного или нескольких выходных аудиоканалов конфигурируется для приема транспортного аудиосигнала, информации понижающего микширования и ковариационной информации от устройства для формирования транспортного аудиосигнала. Кроме того, устройство для формирования выходных аудиоканалов конфигурируется для формирования одного или нескольких выходных аудиоканалов в зависимости от транспортного аудиосигнала, в зависимости от информации понижающего микширования и в зависимости от ковариационной информации.
Кроме того, предоставляется способ для формирования одного или нескольких выходных аудиоканалов. Способ содержит:
- Прием транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, где один или несколько сигналов аудиоканалов микшируются в транспортный аудиосигнал, где один или несколько сигналов аудиообъектов микшируются в транспортный аудиосигнал, и где количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов.
- Прием информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов микшируются в один или несколько транспортных аудиоканалов.
- Прием ковариационной информации.
- Вычисление информации микширования в зависимости от информации понижающего микширования и в зависимости от ковариационной информации. И:
- Формирование одного или нескольких выходных аудиоканалов.
Формирование одного или нескольких выходных аудиоканалов из транспортного аудиосигнала проводится в зависимости от информации микширования. Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
Кроме того, предоставляется способ для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов. Способ содержит:
- Формирование транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, путем микширования одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов в транспортный аудиосигнал в зависимости от информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов нужно микшировать в один или несколько транспортных аудиоканалов, где количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов. И:
- Вывод транспортного аудиосигнала, информации понижающего микширования и ковариационной информации.
Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
Кроме того, предоставляется компьютерная программа для реализации вышеописанного способа, когда исполняется на компьютере или процессоре сигналов.
Ниже подробнее описываются варианты осуществления настоящего изобретения со ссылкой на фигуры, на которых:
Фиг. 1 иллюстрирует устройство для формирования одного или нескольких выходных аудиоканалов в соответствии с вариантом осуществления,
Фиг. 2 иллюстрирует устройство для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, в соответствии с вариантом осуществления,
Фиг. 3 иллюстрирует систему в соответствии с вариантом осуществления,
Фиг. 4 иллюстрирует первый вариант осуществления кодера объемного аудио,
Фиг. 5 иллюстрирует первый вариант осуществления декодера объемного аудио,
Фиг. 6 иллюстрирует второй вариант осуществления кодера объемного аудио,
Фиг. 7 иллюстрирует второй вариант осуществления декодера объемного аудио,
Фиг. 8 иллюстрирует третий вариант осуществления кодера объемного аудио,
Фиг. 9 иллюстрирует третий вариант осуществления декодера объемного аудио, и
Фиг. 10 иллюстрирует блок совместной обработки в соответствии с вариантом осуществления.
Перед подробным описанием предпочтительных вариантов осуществления настоящего изобретения описывается новая система кодека объемного (3D) аудио.
На известном уровне техники не существует никакой гибкой технологии, объединяющей канальное кодирование с одной стороны и кодирование объектов с другой стороны, чтобы получить приемлемое качество аудио на низких скоростях передачи разрядов.
Это ограничение обходится новой системой кодека объемного аудио.
Перед подробным описанием предпочтительных вариантов осуществления описывается новая система кодека объемного аудио.
Фиг. 4 иллюстрирует кодер объемного аудио в соответствии с вариантом осуществления настоящего изобретения. Кодер объемного аудио конфигурируется для кодирования входных аудиоданных 101, чтобы получить выходные аудиоданные 501. Кодер объемного аудио содержит входной интерфейс для приема множества аудиоканалов, указанных с помощью CH, и множества аудиообъектов, указанных с помощью OBJ. Кроме того, как проиллюстрировано на фиг. 4, входной интерфейс 1100 дополнительно принимает метаданные, связанные с одним или несколькими из множества аудиообъектов OBJ. Кроме того, кодер объемного аудио содержит микшер 200 для микширования множества объектов и множества каналов, чтобы получить множество предварительно микшированных каналов, в котором каждый предварительно микшированный канал содержит аудиоданные канала и аудиоданные по меньшей мере одного объекта.
Кроме того, кодер объемного аудио содержит базовый кодер 300 для базового кодирования входных данных базового кодера, компрессор 400 метаданных для сжатия метаданных, связанных с одним или несколькими из множества аудиообъектов.
Кроме того, кодер объемного аудио может содержать контроллер 600 режимов для управления микшером, базовым кодером и/или выходным интерфейсом 500 в одном из нескольких режимов работы, где в первом режиме базовый кодер конфигурируется для кодирования множества аудиоканалов и множества аудиообъектов, принятых входным интерфейсом 1100, без какого-либо взаимодействия с микшером, то есть без какого-либо микширования с помощью микшера 200. Однако во втором режиме, в котором был активен микшер 200, базовый кодер кодирует множество микшированных каналов, то есть вывод, сформированный блоком 200. В этом последнем случае предпочтительно уже не кодировать никакие данные объектов. Вместо этого микшером 200 уже используются метаданные, указывающие положения аудиообъектов, для подготовки объектов по каналам, как указано метаданными. Другими словами, микшер 200 использует метаданные, связанные с множеством аудиообъектов, чтобы предварительно подготовить аудиообъекты, а затем предварительно подготовленные аудиообъекты микшируются с каналами для получения микшированных каналов на выходе микшера. В этом варианте осуществления не обязательно могут передаваться любые объекты, и это также применяется к сжатым метаданным, которые выведены блоком 400. Однако, если микшируются не все введенные в интерфейс 1100 объекты, а микшируется только некоторое количество объектов, тогда только оставшиеся немикшированные объекты и ассоциированные метаданные все-таки передаются соответственно в базовый кодер 300 или компрессор 400 метаданных.
Фиг. 6 иллюстрирует дополнительный вариант осуществления кодера объемного аудио, который дополнительно содержит кодер 800 SAOC. Кодер 800 SAOC конфигурируется для формирования одного или нескольких транспортных каналов и параметрических данных из входных данных в пространственный кодер аудиообъектов. Как проиллюстрировано на фиг. 6, входные данные в пространственный кодер аудиообъектов являются объектами, которые не обработаны устройством предварительной подготовки/микшером. В качестве альтернативы при условии, что обходят устройство предварительной подготовки/микшер, как в первом режиме, где активно кодирование отдельного канала/объекта, все введенные во входной интерфейс 1100 объекты кодируются кодером 800 SAOC.
Кроме того, как проиллюстрировано на фиг. 6, базовый кодер 300 предпочтительно реализуется в виде кодера USAC, то есть в виде кодера, который определен и стандартизован в стандарте MPEG-USAC (USAC=унифицированное кодирование речи и аудио). Выход всего кодера объемного аудио, проиллюстрированного на фиг. 6, является потоком данных MPEG 4, потоком данных MPEG H или потоком объемных аудиоданных, содержащим структуры типа контейнеров для отдельных типов данных. Кроме того, метаданные указываются как данные "OAM", и компрессор 400 метаданных на фиг. 4 соответствует кодеру 400 OAM для получения сжатых данных OAM, которые вводятся в кодер 300 USAC, который, как видно на фиг. 6, дополнительно содержит выходной интерфейс для получения выходного потока данных MP4, содержащего не только кодированные данные каналов/объектов, но также сжатые данные OAM.
Фиг. 8 иллюстрирует дополнительный вариант осуществления кодера объемного аудио, где в отличие от фиг. 6 кодер SAOC может быть сконфигурирован либо для кодирования с помощью алгоритма кодирования SAOC каналов, предоставленных в устройстве 200 предварительной подготовки/микшере, не активном в этом режиме, либо, в качестве альтернативы, для SAOC-кодирования предварительно подготовленных каналов плюс объектов. Таким образом, на фиг. 8 кодер 800 SAOC может воздействовать на три разных вида входных данных, то есть каналы без каких-либо предварительно подготовленных объектов, каналы и предварительно подготовленные объекты или только объекты. Кроме того, на фиг. 8 предпочтительно предоставить дополнительный декодер 420 OAM, чтобы кодер 800 SAOC использовал для своей обработки такие же данные, как и на стороне декодера, то есть данные, полученные путем сжатия с потерями, а не исходные данные OAM.
Кодер объемного аудио из фиг. 8 может работать в нескольких отдельных режимах.
В дополнение к первому и второму режимам, которые обсуждались применительно к фиг. 4, кодер объемного аудио из фиг. 8 дополнительно может работать в третьем режиме, в котором базовый кодер формирует один или несколько транспортных каналов из отдельных объектов, когда было не активно устройство 200 предварительной подготовки/микшер. В качестве альтернативы или дополнительно в этом третьем режиме кодер 800 SAOC может формировать один или несколько альтернативных или дополнительных транспортных каналов из исходных каналов, то есть снова, когда было не активно устройство 200 предварительной подготовки/микшер, соответствующее микшеру 200 из фиг. 4.
В конечном счете кодер 800 SAOC может кодировать, когда кодер объемного аудио конфигурируется в четвертом режиме, каналы плюс предварительно подготовленные объекты, которые сформированы устройством предварительной подготовки/микшером. Таким образом, в четвертом режиме приложения с наименьшей скоростью передачи разрядов обеспечат хорошее качество благодаря тому, что каналы и объекты полностью преобразованы в отдельные транспортные каналы SAOC и ассоциированную дополнительную информацию, которая указана на фиг. 3 и 5 как "SAOC-SI", а кроме того, никакие сжатые метаданные не нужно передавать в этом четвертом режиме.
Фиг. 5 иллюстрирует декодер объемного аудио в соответствии с вариантом осуществления настоящего изобретения. Декодер объемного аудио в качестве входа принимает кодированные аудиоданные, то есть данные 501 из фиг. 4.
Декодер объемного аудио содержит декомпрессор 1400 метаданных, базовый декодер 1300, процессор 1200 объектов, контроллер 1600 режимов и постпроцессор 1700.
В частности, декодер объемного аудио конфигурируется для декодирования кодированных аудиоданных, а входной интерфейс конфигурируется для приема кодированных аудиоданных, причем кодированные аудиоданные содержат множество кодированных каналов и множество кодированных объектов и сжатых метаданных, связанных с множеством объектов в некотором режиме.
Кроме того, базовый декодер 1300 конфигурируется для декодирования множества кодированных каналов и множества кодированных объектов, а кроме того, декомпрессор метаданных конфигурируется для распаковки сжатых метаданных.
Кроме того, процессор 1200 объектов конфигурируется для обработки множества декодированных объектов, которое сформировано базовым декодером 1300, используя распакованные метаданные, чтобы получить заранее установленное количество выходных каналов, содержащих данные объектов и декодированные каналы. Эти выходные каналы, которые указаны по ссылке 1205, затем вводятся в постпроцессор 1700. Постпроцессор 1700 конфигурируется для преобразования количества выходных каналов 1205 в некий выходной формат, который может быть бинауральным выходным форматом или выходным форматом громкоговорителей, например выходным форматом 5.1, 7.1 и т. п.
Предпочтительно, чтобы декодер объемного аудио содержал контроллер 1600 режимов, который конфигурируется для анализа кодированных данных, чтобы обнаружить указание режима. Поэтому контроллер 1600 режимов на фиг. 5 подключается к входному интерфейсу 1100. Однако в качестве альтернативы контроллер режимов не обязательно должен быть там. Вместо этого гибкий аудиодекодер может предварительно настраиваться с помощью любого другого вида управляющих данных, например пользовательского ввода или любого другого управления. Декодер объемного аудио на фиг. 5, предпочтительно управляемый контроллером 1600 режимов, конфигурируется для обхода процессора объектов и подачи множества декодированных каналов в постпроцессор 1700. Это работа в режиме 2, то есть в режиме, в котором принимаются только предварительно подготовленные каналы, то есть когда в кодере объемного аудио из фиг. 4 применен режим 2. В качестве альтернативы, когда в кодере объемного аудио применен режим 1, то есть когда кодер объемного аудио выполнил кодирование отдельного канала/объекта, тогда не обходят процессор 1200 объектов, а множество декодированных каналов и множество декодированных объектов подаются в процессор 1200 объектов вместе с распакованными метаданными, сформированными декомпрессором 1400 метаданных.
Предпочтительно, чтобы указание того, нужно ли применять режим 1 или режим 2, включалось в кодированные аудиоданные, и тогда контроллер 1600 режимов анализирует кодированные данные для обнаружения указания режима. Режим 1 используется, когда указание режима указывает, что кодированные аудиоданные содержат кодированные каналы и кодированные объекты, а режим 2 применяется, когда указание режима указывает, что кодированные аудиоданные не содержат никаких аудиообъектов, то есть содержат только предварительно подготовленные каналы, полученные с помощью режима 2 в кодере объемного аудио из фиг. 4.
Фиг. 7 иллюстрирует предпочтительный вариант осуществления по сравнению с декодером объемного аудио из фиг. 5, и вариант осуществления из фиг. 7 соответствует кодеру объемного аудио из фиг. 6. В дополнение к реализации декодера объемного аудио из фиг. 5 декодер объемного аудио на фиг. 7 содержит декодер 1800 SAOC. Кроме того, процессор 1200 объектов из фиг. 5 реализуется как отдельное устройство 1210 подготовки объектов и микшер 1220, хотя в зависимости от режима функциональные возможности устройства 1210 подготовки объектов также можно реализовать с помощью декодера 1800 SAOC.
Кроме того, постпроцессор 1700 можно реализовать как устройство 1710 бинауральной подготовки или преобразователь 1720 формата. В качестве альтернативы также можно реализовать прямой вывод данных 1205 из фиг. 5, как проиллюстрировано ссылкой 1730. Поэтому предпочтительно выполнять обработку в декодере над наибольшим количеством каналов, например 22.2 или 32, чтобы обладать гибкостью, а затем проводить постобработку, если понадобится меньший формат. Однако, когда с самого начала становится понятно, что необходим только небольшой формат, например формат 5.1, то предпочтительно, как указано на фиг. 5 или 6 с помощью сокращенного пути 1727, чтобы могло применяться некоторое управление декодером SAOC и/или декодером USAC, чтобы избежать ненужных операций повышающего микширования и последующих операций понижающего микширования.
В предпочтительном варианте осуществления настоящего изобретения процессор 1200 объектов содержит декодер 1800 SAOC, и декодер SAOC конфигурируется для декодирования одного или нескольких транспортных каналов, выведенных базовым декодером, и ассоциированных параметрических данных, и использования распакованных метаданных для получения множества подготовленных аудиообъектов. С этой целью выход OAM подключается к блоку 1800.
Кроме того, процессор 1200 объектов конфигурируется для подготовки декодированных объектов, выведенных базовым декодером, которые не кодируются в транспортные каналы SAOC, а которые по отдельности кодируются обычно в одноканальные элементы, как указано устройством 1210 подготовки объектов. Кроме того, декодер содержит выходной интерфейс, соответствующий выходу 1730, для вывода результата из микшера в громкоговорители.
В дополнительном варианте осуществления процессор 1200 объектов содержит декодер 1800 пространственного кодирования аудиообъектов для декодирования одного или нескольких транспортных каналов и ассоциированной параметрической дополнительной информации, представляющей кодированные аудиосигналы или кодированные аудиоканалы, где декодер пространственного кодирования аудиообъектов конфигурируется для перекодирования ассоциированной параметрической информации и распакованных метаданных в перекодированную параметрическую дополнительную информацию, используемую для непосредственной подготовки выходного формата, например, как задано в предыдущей версии SAOC. Постпроцессор 1700 конфигурируется для вычисления аудиоканалов выходного формата с использованием декодированных транспортных каналов и перекодированной параметрической дополнительной информации. Выполняемая постпроцессором обработка может быть аналогична обработке MPEG Surround либо может быть любой другой обработкой, например обработкой BCC или чем-то в этом роде.
В дополнительном варианте осуществления процессор 1200 объектов содержит декодер 1800 пространственного кодирования аудиообъектов, сконфигурированный для непосредственного повышающего микширования и подготовки сигналов каналов для выходного формата, используя декодированные (базовым декодером) транспортные каналы и параметрическую дополнительную информацию.
Кроме того, и это важно, процессор 1200 объектов из фиг. 5 дополнительно содержит микшер 1220, который в качестве входа принимает данные, выведенные декодером 1300 USAC напрямую, когда существуют предварительно подготовленные объекты, микшированные с каналами, то есть когда был активен микшер 200 из фиг. 4. Более того, микшер 1220 принимает данные от устройства подготовки объектов, выполняющего подготовку объектов без декодирования SAOC. Кроме того, микшер принимает выходные данные декодера SAOC, то есть подготовленные объекты SAOC.
Микшер 1220 подключается к выходному интерфейсу 1730, устройству 1710 бинауральной подготовки и преобразователю 1720 формата. Устройство 1710 бинауральной подготовки конфигурируется для подготовки выходных каналов в двух бинауральных каналах, используя функции моделирования восприятия звука человеком или бинауральные импульсные характеристики помещения (BRIR). Преобразователь 1720 формата конфигурируется для преобразования выходных каналов в выходной формат, имеющий меньшее количество каналов, чем выходные каналы 1205 микшера, и преобразователю 1720 формата необходима информация о компоновке воспроизведения, например динамики 5.1 или что-то в этом роде.
Декодер объемного аудио из фиг. 9 отличается от декодера объемного аудио из фиг. 7 в том, что декодер SAOC не может формировать только подготовленные объекты, но также подготовленные каналы, и это тот случай, когда использован кодер объемного аудио из фиг. 8, и активно соединение 900 между каналами/предварительно подготовленными объектами и входным интерфейсом кодера 800 SAOC.
Кроме того, конфигурируется каскад 1810 векторного амплитудного панорамирования (VBAP), который принимает от декодера SAOC информацию о компоновке воспроизведения и который выводит матрицу подготовки в декодер SAOC, чтобы декодер SAOC в конечном счете мог предоставить подготовленные каналы без какой-либо дополнительной операции микшера в многоканальном формате 1205, то есть с 32 громкоговорителями.
Блок VBAP предпочтительно принимает декодированные данные OAM, чтобы получить матрицы подготовки. В более общем смысле это предпочтительно требует геометрической информации не только о компоновке воспроизведения, но также о положениях, где следует подготовить входные сигналы в компоновке воспроизведения. Эти геометрические входные данные могут быть данными OAM для объектов или информацией о положениях каналов для каналов, которые переданы с использованием SAOC.
Однако, если необходим только определенный выходной интерфейс, то каскад 1810 VBAP уже может предоставить необходимую матрицу подготовки, например, для выхода 5.1. Декодер 1800 SAOC затем выполняет прямую подготовку из транспортных каналов SAOC, ассоциированных параметрических данных и распакованных метаданных, прямую подготовку в необходимый выходной формат без какого-либо взаимодействия с микшером 1220. Однако, когда применяется некоторое микширование между режимами, то есть, где несколько каналов кодируются по SAOC, но не все каналы кодируются по SAOC, или где несколько объектов кодируются по SAOC, но не все объекты кодируются по SAOC, или когда только некоторое количество предварительно подготовленных объектов с каналами декодируется по SAOC, а оставшиеся каналы не обрабатываются по SAOC, тогда микшер соединит данные из отдельных входных частей, то есть напрямую из базового декодера 1300, из устройства 1210 подготовки объектов и из декодера 1800 SAOC.
Применяется следующая математическое обозначение:
N Objects - количество сигналов входных аудиообъектов
N Channels - количество входных каналов
N - количество входных сигналов;
N может быть равно N Objects , N Channels или N Objects +N Channels
N DmxCh - количество каналов понижающего микширования (обработанных)
N Samples - количество обработанных выборок данных
N OutputChannels - количество выходных каналов на стороне декодера
D - матрица понижающего микширования с размером N DmxCh × N
X - входной аудиосигнал с размером N × N Samples
E X - ковариационная матрица входных сигналов с размером N × N, заданная в виде E X =X X H
Y - аудиосигнал понижающего микширования с размером N DmxCh × N Samples , заданный в виде Y=DX
E Y - ковариационная матрица сигналов понижающего микширования с размером N DmxCh × N DmxCh , заданная в виде E Y =Y Y H
G - матрица параметрической оценки источника с размером N × N DmxCh , которая приблизительно равна E X D H (D E X D H ) -1
Figure 00000001
- параметрически восстановленные входные сигналы с размером N Objects × N Samples , которые приблизительно равны X и заданы в виде
Figure 00000001
=GY
(⋅) H - самосопряженный (эрмитов) оператор, который представляет сопряженную транспозицию (⋅)
R - матрица подготовки с размером N OutputChannels × N
S - матрица формирования выходных каналов с размером N OutputChannels × N DmxCh , заданная в виде S=RG
Z - выходные каналы с размером N OutputChannels × N Samples , сформированные на стороне декодера из сигналов понижающего микширования, Z=SY
Figure 00000002
- нужные выходные каналы с размером N OutputChannels × N Samples ,
Figure 00000003
Чтобы улучшить удобочитаемость уравнений без потери общности, в этом документе для всех введенных переменных опускаются индексы, обозначающие временную и частотную зависимость.
В контексте объемного (3D) аудио каналы громкоговорителей распределены по нескольким уровням высоты, что приводит к парам горизонтальных и вертикальных каналов. Совместного кодирования только двух каналов, которое задано в USAC, не достаточно для учета пространственных и перцепционных связей между каналами.
Чтобы учесть пространственные и перцепционные связи между каналами в контексте объемного (3D) аудио, можно было бы использовать SAOC-подобную параметрическую методику для восстановления входных каналов (сигналы аудиоканалов и сигналы аудиообъектов, которые кодируются кодером SAOC), чтобы получить восстановленные входные каналы
Figure 00000001
на стороне декодера. Декодирование SAOC основывается на алгоритме минимальной среднеквадратической ошибки (MMSE):
Figure 00000001
= GY при G ≈ E X D H (D E X D H )-1.
Вместо восстановления входных каналов для получения восстановленных входных каналов
Figure 00000001
выходные каналы Z можно сформировать непосредственно на стороне декодера, принимая во внимание матрицу R подготовки.
Figure 00000004
Z=SY; при S=RG
Как видно, вместо явного восстановления входных аудиообъектов и входных аудиоканалов выходные каналы Z можно сформировать непосредственно путем применения матрицы S формирования выходных каналов к аудиосигналу Y понижающего микширования.
Чтобы получить матрицу S формирования выходных каналов, матрица R подготовки может, например, определяться или может быть, например, уже доступна. Кроме того, матрица G параметрической оценки источника может вычисляться, например, как описано выше. Затем матрицу S формирования выходных каналов можно получить в виде произведения матриц S=RG из матрицы R подготовки и матрицы G параметрической оценки источника.
Система объемного аудио может потребовать объединенного режима, чтобы кодировать каналы и объекты.
Вообще, для такого объединенного режима кодирование/декодирование SAOC может применяться двумя разными способами:
Одним подходом могло бы быть применение одного экземпляра SAOC-подобной параметрической системы, где такой экземпляр допускает обработку каналов и объектов. Это решение обладает недостатком, так как является сложным в вычислительном отношении, потому что большое количество входных сигналов увеличит количество транспортных каналов, чтобы сохранить аналогичное качество восстановления. В результате увеличится размер матрицы D E X D H , и увеличится сложность обращения. Кроме того, такое решение может вносить больше неустойчивостей численного решения, так как увеличивается размер матрицы D E X D H . Кроме того, в качестве другого недостатка обращение матрицы D E X D H может приводить к дополнительным перекрестным помехам между восстановленными каналами и восстановленными объектами. Это обусловлено тем, что некоторые коэффициенты в матрице G восстановления, которые предполагаются равными нулю, устанавливаются в ненулевые значения из-за числовых неточностей.
Другим подходом могло бы быть применение двух экземпляров SAOC-подобных параметрических систем: один экземпляр для канально-ориентированной обработки, а другой экземпляр - для объектно-ориентированной обработки. Такой подход обладал бы недостатком в том, что одна и та же информация передается дважды для инициализации гребенок фильтров и конфигурирования декодера. Кроме того, невозможно микшировать вместе каналы и объекты, если это необходимо, и следовательно, невозможно использовать корреляционные свойства между каналами и объектами.
Чтобы избежать недостатков подхода, который применяет разные экземпляры для аудиообъектов и аудиоканалов, варианты осуществления применяют первый подход и предоставляют систему улучшенного SAOC, допускающую эффективную обработку каналов, объектов или каналов и объектов с использованием только одного экземпляра системы. Хотя аудиоканалы и аудиообъекты обрабатываются соответственно одним и тем же экземпляром кодера и декодера, предоставляются эффективные идеи, чтобы можно было избежать недостатков первого подхода.
Фиг. 2 иллюстрирует устройство для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, в соответствии с вариантом осуществления.
Устройство содержит микшер 210 каналов/объектов для формирования одного или нескольких транспортных аудиоканалов в транспортном аудиосигнале и выходной интерфейс 220.
Микшер 210 каналов/объектов конфигурируется для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, путем микширования одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов в транспортный аудиосигнал в зависимости от информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов нужно микшировать в один или несколько транспортных аудиоканалов.
Количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов. Таким образом, микшер 210 каналов/объектов допускает понижающее микширование одного или нескольких сигналов аудиоканалов плюс одного или нескольких сигналов аудиообъектов, так как микшер 210 каналов/объектов приспособлен для формирования транспортного аудиосигнала, который содержит меньше каналов, чем количество одного или нескольких сигналов аудиоканалов плюс количество одного или нескольких сигналов аудиообъектов.
Выходной интерфейс 220 конфигурируется для вывода транспортного аудиосигнала, информации понижающего микширования и ковариационной информации.
Например, микшер 210 каналов/объектов может конфигурироваться для подачи информации понижающего микширования, которая используется для понижающего микширования одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов, в выходной интерфейс 220. Кроме того, например, выходной интерфейс 220 может конфигурироваться, например, для приема одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов, а кроме того, может конфигурироваться для определения ковариационной информации на основе одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов. Либо выходной интерфейс 220 может конфигурироваться, например, для приема уже определенной ковариационной информации.
Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
Фиг. 1 иллюстрирует устройство для формирования одного или нескольких выходных аудиоканалов в соответствии с вариантом осуществления.
Устройство содержит процессор 110 параметров для вычисления информации микширования и процессор 120 понижающего микширования для формирования одного или нескольких выходных аудиоканалов.
Процессор 120 понижающего микширования конфигурируется для приема транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов. Один или несколько сигналов аудиоканалов микшируются в транспортный аудиосигнал. Кроме того, один или несколько сигналов аудиообъектов микшируются в транспортный аудиосигнал. Количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов.
Процессор 110 параметров конфигурируется для приема информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов микшируются в один или несколько транспортных аудиоканалов. Кроме того, процессор 110 параметров конфигурируется для приема ковариационной информации. Процессор 110 параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования и в зависимости от ковариационной информации.
Процессор 120 понижающего микширования конфигурируется для формирования одного или нескольких выходных аудиоканалов из транспортного аудиосигнала в зависимости от информации микширования.
Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
В варианте осуществления ковариационная информация может указывать, например, информацию о разности уровней для каждого из одного или нескольких сигналов аудиоканалов, и дополнительно может указывать, например, информацию о разности уровней для каждого из одного или нескольких сигналов аудиообъектов.
В соответствии с вариантом осуществления два или более сигнала аудиообъектов можно микшировать, например, в транспортный аудиосигнал, и два или более сигнала аудиоканалов можно микшировать, например, в транспортный аудиосигнал. Ковариационная информация может указывать, например, корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиоканалов и второго из двух или более сигналов аудиоканалов. Либо ковариационная информация может указывать, например, корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиообъектов и второго из двух или более сигналов аудиообъектов. Либо ковариационная информация может указывать, например, корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиоканалов и второго из двух или более сигналов аудиоканалов и указывает корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиообъектов и второго из двух или более сигналов аудиообъектов.
Информация о разности уровней для сигнала аудиообъекта может быть, например, разностью уровней объектов (OLD). "Уровень" может относиться, например, к уровню энергии. "Разность" может относиться, например, к разности по отношению к максимальному уровню среди сигналов аудиообъектов.
Корреляционная информация для пары из первого из сигналов аудиообъектов и второго из сигналов аудиообъектов может быть, например, межобъектной корреляцией (IOC).
Например, чтобы обеспечить оптимальную производительность 3D SAOC в соответствии с вариантом осуществления, рекомендуется использовать сигналы входных аудиообъектов с совместимой мощностью. Произведение двух входных аудиосигналов (нормализованных по соответствующим временным/частотным фрагментам) определяется как:
Figure 00000005
Здесь i и j являются индексами для сигналов xi и xj аудиообъектов соответственно, n указывает время, k указывает частоту, l указывает набор индексов времени, а m указывает набор индексов частоты. ε является аддитивной постоянной, чтобы избежать деления на ноль, например, ε=10-9.
Абсолютная энергия объекта (NRG) у объекта с наибольшей энергией может вычисляться, например, в виде:
Figure 00000006
Отношение мощностей у соответствующих сигналов входных объектов (OLD) может задаваться, например, с помощью
Figure 00000007
.
Степень сходства входных объектов (IOC) может задаваться, например, с помощью взаимной корреляции:
Figure 00000008
.
Например, в варианте осуществления IOC могут передаваться для всех пар аудиосигналов i и j, для которых переменная bsRelatedTo[i][j] потока двоичных сигналов устанавливается в единицу.
Информация о разности уровней для сигнала аудиоканала может быть, например, разностью уровней каналов (CLD). "Уровень" может относиться, например, к уровню энергии. "Разность" может относиться, например, к разности по отношению к максимальному уровню среди сигналов аудиоканалов.
Корреляционная информация для пары из первого из сигналов аудиоканалов и второго из сигналов аудиоканалов может быть, например, межканальной корреляцией (ICC).
В варианте осуществления разность уровней каналов (CLD) можно задать точно так же, как вышеупомянутую разность уровней объектов (OLD), когда сигналы аудиообъектов в вышеприведенных формулах заменяются сигналами аудиоканалов. Кроме того, межканальную корреляцию (ICC) можно задать точно так же, как вышеупомянутую межобъектную корреляцию (IOC), когда сигналы аудиообъектов в вышеприведенных формулах заменяются сигналами аудиоканалов.
В SAOC кодер SAOC осуществляет понижающее микширование (в соответствии с информацией понижающего микширования, например, в соответствии с матрицей D понижающего микширования) множества сигналов аудиообъектов, чтобы получить один или несколько (например, меньшее количество) транспортных аудиоканалов. На стороне декодера декодер SAOC декодирует один или несколько транспортных аудиоканалов, используя принятую от кодера информацию понижающего микширования и используя принятую от кодера ковариационную информацию. Ковариационная информация может быть, например, коэффициентами ковариационной матрицы E, которая указывает разности уровней объектов у сигналов аудиообъектов и межобъектные корреляции между двумя сигналами аудиообъектов. В SAOC определенная матрица D понижающего микширования и определенная ковариационная матрица E используются для декодирования множества выборок одного или нескольких транспортных аудиоканалов (например, 2048 выборок одного или нескольких транспортных аудиоканалов). Применяя эту идею, экономят скорость передачи разрядов по сравнению с передачей одного или нескольких сигналов аудиообъектов без кодирования.
Варианты осуществления основываются на заключении, что хотя сигналы аудиообъектов и сигналы аудиоканалов демонстрируют значительные различия, кодер улучшенного SAOC может формировать транспортный аудиосигнал, чтобы в таком транспортном аудиосигнале микшировались не только сигналы аудиообъектов, но также сигналы аудиоканалов.
Сигналы аудиообъектов и сигналы аудиоканалов отличаются значительно. Например, каждый из множества сигналов аудиообъектов может представлять аудиоисточник звуковой сцены. Поэтому два аудиообъекта обычно могут быть сильно некоррелированными. В отличие от этого сигналы аудиоканалов представляют разные каналы звуковой сцены, как если бы они записываются разными микрофонами. Вообще, два таких сигнала аудиоканалов сильно коррелированы, в частности, по сравнению с корреляцией двух сигналов аудиообъектов, которые обычно сильно некоррелированы. Таким образом, варианты осуществления основываются на заключении, что сигналы аудиоканалов особенно выигрывают от передачи корреляции между парой сигналов аудиоканалов и использования этого переданного корреляционного значения для декодирования.
Кроме того, сигналы аудиообъектов и сигналы аудиоканалов отличаются в том, что сигналам аудиообъектов назначается информация о положении, указывающая, например, (предполагаемое) положение источника звука (например, аудиообъекта), из которого исходит сигнал аудиообъекта. Такая информация о положении (например, содержащаяся в информации метаданных) может использоваться при формировании выходных аудиоканалов из транспортного аудиосигнала на стороне декодера. Однако сигналы аудиоканалов, в отличие от этого, не показывают положения, и никакая информация о положении не назначается сигналам аудиоканалов. Однако варианты осуществления основываются на заключении, что все же эффективно кодировать по SAOC сигналы аудиоканалов вместе сигналами аудиообъектов, так как формирование сигналов аудиоканалов можно разделить на две подзадачи, а именно, определение информации о декодировании (например, определение матрицы G для разделения, см. ниже), для которой не нужна информация о положении, и определение информации о подготовке (например, путем определения матрицы R подготовки, см. ниже), для которой информация о положении сигналов аудиообъектов может применяться для подготовки аудиообъектов в выходных аудиоканалах, которые формируются.
Кроме того, настоящее изобретение основывается на заключении, что не существует никакой корреляции (или по меньшей мере никакой значительной) между любой парой из одного из сигналов аудиообъектов и одного из сигналов аудиоканалов. Поэтому кодер не передает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов. С помощью этого экономят значительную полосу пропускания передачи и значительное количество времени вычислений для кодирования и декодирования. Декодер, который конфигурируется для отказа от обработки такой незначительной корреляционной информации, экономит значительное количество времени вычислений при определении информации микширования (которая применяется для формирования выходных аудиоканалов из транспортного аудиосигнала на стороне декодера).
В соответствии с вариантом осуществления процессор 110 параметров может конфигурироваться, например, для приема информации о подготовке, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов микшируются в один или несколько выходных аудиоканалов. Процессор 110 параметров может конфигурироваться, например, для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от ковариационной информации и в зависимости от информации о подготовке.
Например, процессор 110 параметров может конфигурироваться, например, для приема множества коэффициентов матрицы R подготовки в качестве информации о подготовке и может конфигурироваться для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от ковариационной информации и в зависимости от матрицы R подготовки. Например, процессор параметров может принимать коэффициенты матрицы R подготовки со стороны кодера или от пользователя. В другом варианте осуществления процессор 110 параметров может конфигурироваться, например, для приема информации метаданных, например информации о положении или информации об усилении, и может конфигурироваться, например, для вычисления коэффициентов матрицы R подготовки в зависимости от принятой информации метаданных. В дополнительном варианте осуществления процессор параметров может конфигурироваться для приема обоих вариантов (информации о подготовке от кодера и от пользователя) и для создания матрицы подготовки на основе обоих вариантов (что означает по существу, что реализуется интерактивность).
Либо процессор параметров может, например, принимать две подматрицы Rch, Robj подготовки в качестве информации о подготовке, где R=(Rch, Robj), где Rch указывает, например, как микшировать сигналы аудиоканалов в выходные аудиоканалы, и где Robj может быть матрицей подготовки, полученной из информации OAM, где Robj может предоставляться, например, блоком 1810 VBAP из фиг. 9.
В конкретном варианте осуществления два или более сигнала аудиообъектов можно микшировать, например, в транспортный аудиосигнал, два или более сигнала аудиоканалов микшируются в транспортный аудиосигнал. В таком варианте осуществления ковариационная информация может указывать, например, корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиоканалов и второго из двух или более сигналов аудиоканалов. Кроме того, в таком варианте осуществления ковариационная информация (которая, например, передается со стороны кодера к стороне декодера) не указывает корреляционную информацию ни для какой пары из первого одного или нескольких сигналов аудиообъектов и второго одного или нескольких сигналов аудиообъектов, потому что корреляция между сигналами аудиообъектов может быть настолько малой, что ей можно пренебречь, и соответственно, она не передается для экономии скорости передачи разрядов и времени обработки. В таком варианте осуществления процессор 110 параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от информации о разности уровней каждого из одного или нескольких сигналов аудиоканалов, в зависимости от второй информации о разности уровней каждого из одного или нескольких сигналов аудиообъектов и в зависимости от корреляционной информации одной или нескольких пар из первого из двух или более сигналов аудиоканалов и второго из двух или более сигналов аудиоканалов. Такой вариант осуществления применяет вышеописанное заключение, что корреляция между сигналами аудиообъектов обычно относительно низкая, и ей следует пренебрегать, тогда как корреляция между двумя сигналами аудиоканалов обычно относительно высокая, и ее следует учитывать. Время обработки можно экономить путем отказа от обработки несущественной корреляционной информации между сигналами аудиообъектов. Эффективность кодирования можно повысить путем обработки релевантной корреляции между сигналами аудиоканалов.
В конкретных вариантах осуществления один или несколько сигналов аудиоканалов микшируются в первую группу из одного или нескольких транспортных аудиоканалов, где один или несколько сигналов аудиообъектов микшируются во вторую группу из одного или нескольких транспортных аудиоканалов, где каждый транспортный аудиоканал из первой группы не содержится во второй группе, и где каждый транспортный аудиоканал из второй группы не содержится в первой группе. В таких вариантах осуществления информация понижающего микширования содержит первую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиоканалов микшируются в первую группу из одного или нескольких транспортных аудиоканалов, и информация понижающего микширования содержит вторую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиообъектов микшируются во вторую группу из одного или нескольких транспортных аудиоканалов. В таких вариантах осуществления процессор 110 параметров конфигурируется для вычисления информации микширования в зависимости от первой подинформации понижающего микширования, в зависимости от второй подинформации понижающего микширования и в зависимости от ковариационной информации, и процессор 120 понижающего микширования конфигурируется для формирования одного или нескольких выходных аудиосигналов из первой группы из одного или нескольких транспортных аудиоканалов и из второй группы транспортных аудиоканалов в зависимости от информации микширования. При таком подходе повышается эффективность кодирования, так как между сигналами аудиоканалов звуковой сцены существует высокая корреляция. Кроме того, коэффициенты матрицы понижающего микширования, указывающей влияние сигналов аудиоканалов на транспортные аудиоканалы, которые кодируют сигналы аудиообъектов и наоборот, не нужно вычислять с помощью кодера, не нужно передавать и можно устанавливать в ноль с помощью декодера без потребности их обработки. Это экономит полосу пропускания передачи и время вычислений для кодера и декодера.
В варианте осуществления процессор 120 понижающего микширования конфигурируется для приема транспортного аудиосигнала в потоке двоичных сигналов, процессор 120 понижающего микширования конфигурируется для приема первого подсчета каналов, указывающего количество транспортных аудиоканалов, кодирующих только сигналы аудиоканалов, и процессор 120 понижающего микширования конфигурируется для приема второго подсчета каналов, указывающего количество транспортных аудиоканалов, кодирующих только сигналы аудиообъектов. В таком варианте осуществления процессор 120 понижающего микширования конфигурируется для идентификации, кодирует ли транспортный аудиоканал в транспортном аудиосигнале сигналы аудиоканалов, или кодирует ли транспортный аудиоканал в транспортном аудиосигнале сигналы аудиообъектов, в зависимости от первого подсчета каналов или в зависимости от второго подсчета каналов, либо в зависимости от первого подсчета каналов и второго подсчета каналов. Например, в потоке двоичных сигналов первыми появляются транспортные аудиоканалы, которые кодируют сигналы аудиоканалов, а позже появляются транспортные аудиоканалы, которые кодируют сигналы аудиообъектов. Тогда, если первый подсчет каналов равен, например, 3, а второй подсчет каналов равен, например, 2, то процессор понижающего микширования может сделать вывод, что три первых транспортных аудиоканала содержат кодированные сигналы аудиоканалов, а два последующих транспортных аудиоканала содержат кодированные сигналы аудиообъектов.
В варианте осуществления процессор 110 параметров конфигурируется для приема информации метаданных, содержащей информацию о положении, где информация о положении указывает положение для каждого из одного или нескольких сигналов аудиообъектов, и где информация о положении не указывает положение ни для какого из одного или нескольких сигналов аудиоканалов. В таком варианте осуществления процессор 110 параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от ковариационной информации и в зависимости от информации о положении. Дополнительно или в качестве альтернативы информация метаданных дополнительно содержит информацию об усилении, где информация об усилении указывает значение усиления для каждого из одного или нескольких сигналов аудиообъектов, и где информация об усилении не указывает значение усиления ни для какого из одного или нескольких сигналов аудиоканалов. В таком варианте осуществления процессор 110 параметров может конфигурироваться для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от ковариационной информации, в зависимости от информации о положении и в зависимости от информации об усилении. Например, процессор 110 параметров может конфигурироваться для вычисления информации микширования в зависимости, кроме того, от описанной выше подматрицы Rch.
В соответствии с вариантом осуществления процессор 110 параметров конфигурируется для вычисления матрицы S микширования в качестве информации микширования, где матрица S микширования задается в соответствии с формулой S=RG, где G является матрицей декодирования, зависящей от информации понижающего микширования и зависящей от ковариационной информации, где R является матрицей подготовки, зависящей от информации метаданных. В таком варианте осуществления процессор (120) понижающего микширования может конфигурироваться для формирования одного или нескольких выходных аудиоканалов в выходном аудиосигнале путем применения формулы Z=SY, где Z - выходной аудиосигнал, и где Y - транспортный аудиосигнал. Например, R может зависеть от описанных выше подматриц Rch и/или Robj (например, R=(Rch, Robj)).
Фиг. 3 иллюстрирует систему в соответствии с вариантом осуществления. Система содержит устройство 310 для формирования транспортного аудиосигнала, как описано выше, и устройство 320 для формирования одного или нескольких выходных аудиоканалов, как описано выше.
Устройство 320 для формирования одного или нескольких выходных аудиоканалов конфигурируется для приема транспортного аудиосигнала, информации понижающего микширования и ковариационной информации от устройства 310 для формирования транспортного аудиосигнала. Кроме того, устройство 320 для формирования выходных аудиоканалов конфигурируется для формирования одного или нескольких выходных аудиоканалов в зависимости от транспортного аудиосигнала, в зависимости от информации понижающего микширования и в зависимости от ковариационной информации.
В соответствии с вариантами осуществления функциональные возможности системы SAOC, которая является объектно-ориентированной системы, которая осуществляет кодирование объектов, расширяются так, что могут кодироваться аудиообъекты (кодирование объектов) или аудиоканалы (канальное кодирование), либо аудиоканалы и аудиообъекты вместе (смешанное кодирование).
Описанный выше кодер 800 SAOC из фиг. 6 и 8 улучшается, чтобы он мог не только принимать в качестве входа аудиообъекты, но также мог принимать в качестве входа аудиоканалы, и чтобы кодер SAOC мог формировать каналы понижающего микширования (например, транспортные каналы SAOC), в которых кодируются принятые аудиообъекты и принятые аудиоканалы. В вышеописанных вариантах осуществления, например, из фиг. 6 и 8, такой кодер 800 SAOC в качестве входа принимает не только аудиообъекты, но также аудиоканалы, и формирует каналы понижающего микширования (например, транспортные каналы SAOC), в которых кодируются принятые аудиообъекты и принятые аудиоканалы. Например, кодер SAOC из фиг. 6 и 8 реализуется как устройство для формирования транспортного аудиосигнала (содержащего один или несколько транспортных аудиоканалов, например, один или несколько транспортных каналов SAOC), которое описано со ссылкой на фиг. 2, и варианты осуществления из фиг. 6 и 8 изменяются так, что не только объекты, но также один, некоторые или все каналы подаются в кодер 800 SAOC.
Описанный выше декодер 1800 SAOC из фиг. 7 и 9 улучшается, чтобы он мог принимать каналы понижающего микширования (например, транспортные каналы SAOC), в которых кодируются аудиообъекты и аудиоканалы, и чтобы он мог формировать выходные каналы (подготовленные сигналы каналов и подготовленные сигналы объектов) из принятых каналов понижающего микширования (например, транспортных каналов SAOC), в которых кодируются аудиообъекты и аудиоканалы. В вышеописанных вариантах осуществления, например, из фиг. 7 и 9, такой декодер 1800 SAOC принимает каналы понижающего микширования (например, транспортные каналы SAOC), в которых кодируются не только аудиообъекты, но также аудиоканалы, и формирует выходные каналы (подготовленные сигналы каналов и подготовленные сигналы объектов) из принятых каналов понижающего микширования (например, транспортных каналов SAOC), в которых кодируются аудиообъекты и аудиоканалы. Например, декодер SAOC из фиг. 7 и 9 реализуется как устройство для формирования одного или нескольких выходных аудиоканалов, которое описано со ссылкой на фиг. 1, и варианты осуществления из фиг. 7 и 9 изменяются так, что один, некоторые или все каналы, проиллюстрированные между декодером 1300 USAC и микшером 1220, не формируются (восстанавливаются) декодером 1300 USAC, а вместо этого восстанавливаются декодером 1800 SAOC из транспортных каналов SAOC (транспортных аудиоканалов).
В зависимости от применения можно пользоваться разными преимуществами системы SAOC, используя такую систему улучшенного SAOC.
В соответствии с некоторыми вариантами осуществления такая система улучшенного SAOC поддерживает произвольное количество каналов понижающего микширования и подготовку к произвольному количеству выходных каналов. В некоторых вариантах осуществления, например, количество каналов понижающего микширования (транспортных каналов SAOC) можно уменьшить (например, во время выполнения), чтобы значительно снизить общую скорость передачи разрядов. Это приведет к низким скоростям передачи разрядов.
Кроме того, в соответствии с некоторыми вариантами осуществления декодер SAOC в такой системе улучшенного SAOC может содержать, например, встроенное устройство гибкой подготовки, которое может позволять, например, взаимодействие с пользователем. С помощью этого пользователь может менять положение объектов в аудиосцене, ослаблять или повышать уровень отдельных объектов, полностью убирать объекты и т. п. Например, считая сигналы каналов объектами заднего плана (BGO), а сигналы объектов - объектами переднего плана (FGO), свойство интерактивности у SAOC может использоваться для применений типа усиления диалога (усиления центрального канала). С помощью такого свойства интерактивности пользователь может свободно манипулировать BGO и FGO в ограниченном диапазоне, чтобы повысить разборчивость диалога (например, диалог можно представить с помощью объектов переднего плана) или добиться равновесия между диалогом (например, представленным с помощью FGO) и внешним фоном (например, представленным с помощью BGO).
Кроме того, в соответствии с вариантами осуществления в зависимости от доступной сложности вычислений на стороне декодера декодер SAOC может автоматически снижать вычислительную сложность с помощью работы в режиме "низкой сложности вычислений", например, путем уменьшения количества декорреляторов и/или, например, путем подготовки непосредственно к компоновке воспроизведения и отключения последующего преобразователя 1720 формата, который описан выше. Например, информация о подготовке может управлять тем, как осуществлять понижающее микширование каналов системы 22.2 в каналы системы 5.1.
В соответствии с вариантами осуществления кодер улучшенного SAOC может обрабатывать переменное количество входных каналов (N Channels ) и входных объектов (N Objects ). Количества каналов и объектов передаются в поток двоичных сигналов, чтобы сигнализировать стороне декодера наличие траектории канала. Входные сигналы в кодер SAOC всегда упорядочены так, что сигналы каналов идут первыми, а сигналы объектов идут последними.
В соответствии с другим вариантом осуществления микшер 210 каналов/объектов конфигурируется для формирования транспортного аудиосигнала так, чтобы количество одного или нескольких транспортных аудиоканалов в транспортном аудиосигнале зависело от того, какая скорость передачи разрядов доступна для передачи транспортного аудиосигнала.
Например, количество каналов понижающего микширования (транспортных) может вычисляться, например, в зависимости от доступной скорости передачи разрядов и общего количества входных сигналов:
N DmxCh =f (bitrate, N).
Коэффициенты понижающего микширования в D определяют микширование входных сигналов (каналов и объектов). В зависимости от применения структура матрицы D может задаваться такой, что каналы и объекты микшируются вместе или остаются отдельными.
Некоторые варианты осуществления основываются на заключении, что выгодно не микшировать объекты вместе с каналами. Чтобы не микшировать объекты вместе с каналами, матрицу понижающего микширования можно построить, например, в виде:
Figure 00000009
Чтобы сигнализировать раздельное микширование в поток двоичных сигналов, можно, например, передавать значения количества каналов понижающего микширования, назначенных траектории канала
Figure 00000010
и количества каналов понижающего микширования, назначенных траектории объекта (
Figure 00000011
).
Матрицы Dch и Dobj блочного понижающего микширования имеют размеры:
Figure 00000012
соответственно.
В декодере коэффициенты матрицы G ≈ E X D H (D E X D H )-1 параметрической оценки источника вычисляются иным образом. Используя матричную форму, это можно выразить в виде:
Figure 00000013
при:
Figure 00000014
Значения ковариации сигналов каналов (
Figure 00000015
) и ковариации сигналов объектов (
Figure 00000016
) можно получить, например, из ковариационной матрицы входных сигналов (E X ) путем выбора только соответствующих диагональных блоков:
Figure 00000017
В качестве прямого следствия скорость передачи разрядов уменьшается путем отказа от отправки дополнительной информации (например, OLD, IOC) для восстановления взаимной ковариационной матрицы между каналами и объектами:
Figure 00000018
В соответствии с некоторыми вариантами осуществления
Figure 00000019
и таким образом:
Figure 00000020
В соответствии с вариантом осуществления кодер улучшенного SAOC конфигурируется не передавать информацию о ковариации между каким-либо из аудиообъектов и каким-либо из аудиоканалов в декодер улучшенного SAOC.
Кроме того, в соответствии с вариантом осуществления декодер улучшенного SAOC конфигурируется не принимать информацию о ковариации между каким-либо из аудиообъектов и каким-либо из аудиоканалов.
Недиагональные блочные элементы в G не вычисляются, а устанавливаются в ноль. Поэтому избегают возможных перекрестных помех между восстановленными каналами и объектами. Кроме того, с помощью этого достигается уменьшение вычислительной сложности, так как нужно вычислять меньше коэффициентов в G.
Кроме того, в соответствии с вариантами осуществления, вместо обращения более крупной матрицы
D E X D H с размером
Figure 00000021
,
обращаются две следующие небольшие матрицы:
Figure 00000022
Обращение меньших матриц
Figure 00000023
гораздо легче по вычислительной сложности, нежели обращение более крупной матрицы D E X D H .
Кроме того, путем обращения отдельных матриц
Figure 00000024
и
Figure 00000025
уменьшаются возможные неустойчивости численного решения по сравнению с обращением более крупной матрицы D E X D H . Например, в наихудшем случае, когда ковариационные матрицы
Figure 00000026
транспортных каналов обладают линейными зависимостями вследствие подобий сигналов, полная матрица D E X D H может быть плохо обусловленной, тогда как отдельные меньшие матрицы могут быть хорошо обусловленными.
После того, как
Figure 00000027
вычисляется на стороне декодера, можно, например, параметрически оценить входные сигналы для получения восстановленных входных сигналов
Figure 00000028
(сигналы входных аудиоканалов и сигналы входных аудиообъектов), например, с использованием:
Figure 00000029
Кроме того, как описано выше, подготовка может проводиться на стороне декодера, чтобы получить выходные каналы Z, например, путем применения матрицы R подготовки:
Figure 00000030
Вместо явного восстановления входных сигналов (сигналов входных аудиоканалов и сигналов входных аудиообъектов) для получения восстановленных входных каналов
Figure 00000028
выходные каналы Z можно сформировать непосредственно на стороне декодера путем применения матрицы S формирования выходных каналов к аудиосигналу Y понижающего микширования.
Как уже описывалось выше, чтобы получить матрицу S формирования выходных каналов, матрица R подготовки может, например, определяться или может быть, например, уже доступна. Кроме того, матрица G параметрической оценки источника может вычисляться, например, как описано выше. Затем матрицу S формирования выходных каналов можно получить в виде произведения матриц S=RG из матрицы R подготовки и матрицы G параметрической оценки источника.
Что касается восстановленных сигналов аудиообъектов, можно учитывать сжатые метаданные об аудиообъектах, которые передаются от кодера к декодеру. Например, метаданные об аудиообъектах могут указывать информацию о положении каждого из аудиообъектов. Такая информация о положении может быть, например, азимутальным углом, углом возвышения и радиусом. Эта информация о положении может указывать положение аудиообъекта в трехмерном (3D) пространстве. Например, когда аудиообъект располагается близко к предполагаемому или реальному положению громкоговорителя, такой аудиообъект имеет больший вес в выходном канале для упомянутого громкоговорителя по сравнению с весом другого аудиообъекта, расположенного далеко от упомянутого громкоговорителя, в выходном канале. Например, векторное амплитудное панорамирование (VBAP) может применяться (см., например, [VBAP]) для определения коэффициентов подготовки в матрице R подготовки для аудиообъектов.
Кроме того, в некоторых вариантах осуществления сжатые метаданные могут содержать значение усиления для каждого из аудиообъектов. Например, для каждого сигнала аудиообъекта значение усиления может указывать коэффициент усиления для упомянутого сигнала аудиообъекта.
В отличие от аудиообъектов никакая информация о положении не передается от кодера к декодеру для сигналов аудиоканалов. Может применяться, например, дополнительная матрица (например, для преобразования 22.2 в 5.1) или единичная матрица (когда входная конфигурация каналов равна выходной конфигурации) для определения коэффициентов подготовки в матрице R подготовки для аудиоканалов.
Матрица R подготовки может иметь размер N OutputChannels × N. Здесь для каждого из выходных каналов существует строка в матрице R. Кроме того, в каждой строке матрицы R подготовки N коэффициентов определяют вес N входных сигналов (входных аудиоканалов и входных аудиообъектов) в соответствующем выходном канале. Те аудиообъекты, которые расположены близко к громкоговорителю упомянутого выходного канала, имеют больший коэффициент, чем коэффициент аудиообъектов, расположенных далеко от громкоговорителя соответствующего выходного канала.
Например, векторное амплитудное панорамирование (VBAP) может применяться (см., например, [VBAP]) для определения веса сигнала аудиообъекта в каждом из аудиоканалов громкоговорителей. Например, по отношению к VBAP предполагается, что аудиообъект относится к виртуальному источнику.
Так как аудиоканалы не имеют положения, в отличие от аудиообъектов, коэффициенты, относящиеся к аудиоканалам в матрице подготовки, могут, например, не зависеть от информации о положении.
Ниже описывается синтаксис потока двоичных сигналов в соответствии с вариантами осуществления.
В контексте SAOC MPEG сигнализация возможных режимов работы (канально-ориентированный, объектно-ориентированный или объединенный режим) может выполняться с использованием, например, одной из двух следующих возможностей (первая возможность: с использованием признаков для сигнализации режима работы; вторая возможность: без использования признаков для сигнализации режима работы).
Таким образом, в соответствии с первым вариантом осуществления для сигнализации режима работы используются признаки.
Чтобы использовать признаки для сигнализации режима работы, синтаксис элемента SAOCSpecifigConfig() или элемента SAOC3DSpecifigConfig() может содержать, например:
Figure 00000031
Если переменная bsSaocChannelFlag потока двоичных сигналов устанавливается в единицу, то первые bsNumSaocChannels+1 входных сигналов расцениваются как канально-ориентированные сигналы. Если переменная bsSaocObjectFlag потока двоичных сигналов устанавливается в единицу, то последние bsNumSaocObjects+1 входных сигналов обрабатываются как сигналы объектов. Поэтому, если обе переменные потока двоичных сигналов (bsSaocChannelFlag, bsSaocObjectFlag) отличны от нуля, то сигнализируется наличие каналов и объектов в транспортных аудиоканалах.
Если переменная bsSaocCombinedModeFlag потока двоичных сигналов равна единице, то сигнализируется объединенный режим декодирования в потоке двоичных сигналов, и декодер будет обрабатывать bsNumSaocDmxChannels транспортных каналов с использованием полной матрицы D понижающего микширования (это означает, что сигналы каналов и сигналы объектов микшируются вместе).
Если переменная bsSaocCombinedModeFlag потока двоичных сигналов равна нулю, то сигнализируется независимый режим декодирования, и декодер будет обрабатывать (bsNumSaocDmxChannels+1)+(bsNumSaocDmxObjects+1) транспортных каналов с использованием матрицы блочного понижающего микширования, которая описана выше.
В соответствии с предпочтительным вторым вариантом осуществления не нужны никакие признаки для сигнализации режима работы.
Сигнализацию режима работы без использования признаков можно реализовать, например, путем применения следующего синтаксиса
Сигнализация:
Синтаксис SAOC3DSpecificConfig():
Figure 00000032
Ограничить нулем взаимную корреляцию между каналами и объектами:
Figure 00000033
Считать усиления понижающего микширования по-разному для случая, когда аудиоканалы и аудиообъекты микшируются в разные транспортные аудиоканалы, и когда они микшируются в транспортные аудиоканалы вместе:
Figure 00000034
Если переменная bsNumSaocChannels потока двоичных сигналов отличается от нуля, то первые bsNumSaocChannels входных сигналов расцениваются как канально-ориентированные сигналы. Если переменная bsNumSaocObjects потока двоичных сигналов отличается от нуля, то последние bsNumSaocObjects входных сигналов обрабатываются как сигналы объектов. Поэтому, если обе переменные потока двоичных сигналов отличны от нуля, то сигнализируется наличие каналов и объектов в транспортных аудиоканалах.
Если переменная bsNumSaocDmxObjects потока двоичных сигналов равна нулю, то сигнализируется объединенный режим декодирования в потоке двоичных сигналов, и декодер будет обрабатывать bsNumSaocDmxChannels транспортных каналов с использованием полной матрицы D понижающего микширования (это означает, что сигналы каналов и сигналы объектов микшируются вместе).
Если переменная bsNumSaocDmxObjects потока двоичных сигналов отличается от нуля, то сигнализируется независимый режим декодирования, и декодер будет обрабатывать bsNumSaocDmxChannels+bsNumSaocDmxObjects транспортных каналов с использованием матрицы блочного понижающего микширования, которая описана выше.
Ниже описываются аспекты обработки понижающего микширования в соответствии с вариантом осуществления:
Выходной сигнал процессора понижающего микширования (представленный в области гибридного QMF) подается в соответствующую гребенку фильтров синтеза, которая описана в ISO/IEC 23003-1:2007, дающую окончательный результат декодера 3D SAOC.
Процессор 110 параметров из фиг. 1 и процессор 120 понижающего микширования из фиг. 1 можно реализовать в виде блока совместной обработки. Такой блок совместной обработки иллюстрируется фиг. 1, где блоки U и R реализуют процессор 110 параметров путем предоставления информации микширования.
Выходной сигнал
Figure 00000035
вычисляется из многоканального сигнала X понижающего микширования и декоррелированного многоканального сигнала Xd в виде:
Figure 00000036
где U представляет матрицу параметрического разделения.
Матрица
Figure 00000037
микширования является матрицей микширования.
Декоррелированный многоканальный сигнал Xd задается в виде
Figure 00000038
Режим декодирования управляется элементом bsNumSaocDmxObjects потока двоичных сигналов:
bsNumSaocDmxObjects Режим декодирования Смысл
0 Объединенный Входные канально-ориентированные сигналы и входные объектно-ориентированные сигналы микшируются вместе в Nch каналов.
>=1 Независимый Входные канально-ориентированные сигналы микшируются в Nch каналов.
Входные объектно-ориентированные сигналы микшируются в Nch каналов.
В случае объединенного режима декодирования матрица U параметрического разделения имеет вид:
U=ED*J.
Матрица J с размером Ndmx×Ndmx имеет вид J≈Δ-1 при Δ=DED*.
В случае независимого режима декодирования матрица U разделения имеет вид:
Figure 00000039
Канально-ориентированная ковариационная матрица Ech с размером Nch×Nch и объектно-ориентированная ковариационная матрица Eobj с размером Nobj×Nobj получаются из ковариационной матрицы E путем выбора только соответствующих диагональных блоков:
Figure 00000040
где матрица
Figure 00000041
представляет взаимную ковариационную матрицу между входными каналами и входными объектами и не требует вычисления.
Канально-ориентированная матрица Dch понижающего микширования с размером
Figure 00000042
и объектно-ориентированная матрица Dobj понижающего микширования с размером
Figure 00000043
получаются из матрицы D понижающего микширования путем выбора только соответствующих диагональных блоков:
Figure 00000044
Матрица
Figure 00000045
с размером
Figure 00000046
получается из определения матрицы J для
Figure 00000047
.
Матрица
Figure 00000048
с размером
Figure 00000049
получается из определения матрицы J для
Figure 00000050
Матрица
Figure 00000051
вычисляется с использованием следующего уравнения:
Figure 00000052
Здесь сингулярные векторы V матрицы Δ получаются с использованием следующего характеристического уравнения
Figure 00000053
Регуляризованное обращение Λinv диагонального сингулярного числа Λ матрицы вычисляется в виде
Figure 00000054
Относительный скаляр
Figure 00000055
регуляризации определяется с использованием абсолютной пороговой величины
Figure 00000056
и максимального значения
Figure 00000057
в виде
Figure 00000058
Ниже описывается матрица подготовки в соответствии с вариантом осуществления:
Матрица R подготовки, примененная к входным аудиосигналам S, определяет целевой подготовленный выход в виде Y=RS. Матрица R подготовки с размером Nout×N имеет вид
Figure 00000059
где Rch с размером Nout×Nch представляет матрицу подготовки, ассоциированную с входными каналами, а Robj с размером Nout×Nobj представляет матрицу подготовки, ассоциированную с входными объектами.
Ниже описывается декоррелированный многоканальный сигнал Xd в соответствии с вариантом осуществления:
Декоррелированные сигналы Xd создаются, например, из декоррелятора, описанного в 6.6.2 в ISO/IEC 23003-1:2007, при bsDecorrConfig == 0 и, например, индексе X декоррелятора. Поэтому decorrFunc() обозначает, например, процесс декорреляции:
Figure 00000060
Хотя некоторые аспекты описаны применительно к устройству, понято, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. По аналогии аспекты, описанные применительно к этапу способа, также представляют собой описание соответствующего блока или элемента либо признака соответствующего устройства.
Патентоспособный разложенный сигнал может храниться на цифровом носителе информации или может передаваться по передающей среде, например беспроводной передающей среде или проводной передающей среде, такой как Интернет.
В зависимости от некоторых требований к реализации варианты осуществления изобретения можно реализовать в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя информации, например дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные на нем электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой так, что выполняется соответствующий способ.
Некоторые варианты осуществления в соответствии с изобретением содержат неизменяемый со временем носитель данных, имеющий электронно считываемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой так, что выполняется один из способов, описанных в этом документе.
Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код действует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может храниться, например, на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в этом документе способов, сохраненную на машиночитаемом носителе.
Другими словами, вариант осуществления патентоспособного способа поэтому является компьютерной программой, имеющей программный код для выполнения одного из описанных в этом документе способов, когда компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления патентоспособных способов поэтому является носителем данных (или цифровым носителем информации, или машиночитаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.
Дополнительный вариант осуществления патентоспособного способа поэтому является потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в этом документе. Поток данных или последовательность сигналов могут конфигурироваться, например, для передачи по соединению передачи данных, например по Интернету.
Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, сконфигурированные или приспособленные для выполнения одного из способов, описанных в этом документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в этом документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в этом документе. Как правило, способы предпочтительно выполняются любым аппаратным устройством.
Вышеописанные варианты осуществления являются всего лишь пояснительными для принципов настоящего изобретения. Подразумевается, что модификации и изменения компоновок и подробностей, описанных в этом документе, будут очевидны другим специалистам в данной области техники. Поэтому есть намерение ограничиться только объемом предстоящей формулы изобретения, а не определенными подробностями, представленными посредством описания и объяснения вариантов осуществления в этом документе.
Источники информации
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22-я региональная конференция AES UK, Кембридж, Соединенное Королевство, апрель 2007.
[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers и W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124-й съезд AES, Амстердам, 2008.
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", Международный стандарт 23003-2 ISO/IEC JTC1/SC29/WG11 (MPEG).
[VBAP] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning"; J. Audio Eng. Soc., ступень 45, выпуск 6, стр. 456-466, июнь 1997.
[M1] Peters, N., Lossius, T. и Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9-я Конференция по звуковому и музыкальному компьютингу, Копенгаген, Дания, июль 2012.
[M2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", Международная конференция по компьютерной музыке, Салоники, Греция, 1997.
[M3] Matthias Geier, Jens Ahrens и Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, том 15, № 3, стр. 219-227, декабрь 2010.
[M4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", декабрь 2008.
[M5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", ноябрь 2008.
[M6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009.
[M7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116-ый съезд AES, Берлин, Германия, май 2004.
[M8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.
[M9] Sporer, T. (2012), "Codierung räumlicher Audiosignale mit leichtgewichtigen Audio-Objekten", материалы ежегодного собрания Немецкого общества аудиологии (DGA), Эрланген, Германия, март 2012.

Claims (105)

1. Устройство для формирования одного или нескольких выходных аудиоканалов, причем устройство содержит:
процессор (110) параметров для вычисления информации микширования и
процессор (120) понижающего микширования для формирования одного или нескольких выходных аудиоканалов,
причем процессор (120) понижающего микширования конфигурируется для приема потока данных, содержащего транспортные аудиоканалы в транспортном аудиосигнале, причем один или несколько сигналов аудиоканалов микшируются в транспортный аудиосигнал, причем один или несколько сигналов аудиообъектов микшируются в транспортный аудиосигнал, и причем количество транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов,
причем процессор (110) параметров конфигурируется для приема информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов микшируются в транспортные аудиоканалы, и причем процессор (110) параметров конфигурируется для приема ковариационной информации, и причем процессор (110) параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования и в зависимости от ковариационной информации, и
причем процессор (120) понижающего микширования конфигурируется для формирования одного или нескольких выходных аудиоканалов из транспортного аудиосигнала в зависимости от информации микширования,
причем ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов, и причем ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов,
причем один или несколько сигналов аудиоканалов микшируются в первую группу из одного или нескольких транспортных аудиоканалов, причем один или несколько сигналов аудиообъектов микшируются во вторую группу из одного или нескольких транспортных аудиоканалов, причем каждый транспортный аудиоканал из первой группы не содержится во второй группе, и причем каждый транспортный аудиоканал из второй группы не содержится в первой группе, и
причем информация понижающего микширования содержит первую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиоканалов микшируются в первую группу транспортных аудиоканалов, и причем информация понижающего микширования содержит вторую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиообъектов микшируются во вторую группу из одного или нескольких транспортных аудиоканалов,
причем процессор (110) параметров конфигурируется для вычисления информации микширования в зависимости от первой подинформации понижающего микширования, в зависимости от второй подинформации понижающего микширования и в зависимости от ковариационной информации,
причем процессор (120) понижающего микширования конфигурируется для формирования одного или нескольких выходных аудиосигналов из первой группы транспортных аудиоканалов и из второй группы транспортных аудиоканалов в зависимости от информации микширования,
причем процессор (120) понижающего микширования конфигурируется для приема первого подсчета каналов, указывающего количество транспортных аудиоканалов в первой группе транспортных аудиоканалов, и причем процессор (120) понижающего микширования конфигурируется для приема второго подсчета каналов, указывающего количество транспортных аудиоканалов во второй группе транспортных аудиоканалов, и
причем процессор (120) понижающего микширования конфигурируется для идентификации, принадлежит ли транспортный аудиоканал в потоке данных первой группе или второй группе, в зависимости от первого подсчета каналов или в зависимости от второго подсчета каналов, либо в зависимости от первого подсчета каналов и второго подсчета каналов.
2. Устройство по п. 1, в котором ковариационная информация указывает информацию о разности уровней для каждого из одного или нескольких сигналов аудиоканалов и дополнительно указывает информацию о разности уровней для каждого из одного или нескольких сигналов аудиообъектов.
3. Устройство по п. 1,
в котором два или более сигнала аудиообъектов микшируются в транспортный аудиосигнал и в котором два или более сигнала аудиоканалов микшируются в транспортный аудиосигнал,
в котором ковариационная информация указывает корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиоканалов и второго из двух или более сигналов аудиоканалов, либо
в котором ковариационная информация указывает корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиообъектов и второго из двух или более сигналов аудиообъектов, либо
в котором ковариационная информация указывает корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиоканалов и второго из двух и более сигналов аудиоканалов и указывает корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиообъектов и второго из двух или более сигналов аудиообъектов.
4. Устройство по п. 1,
в котором ковариационная информация содержит множество ковариационных коэффициентов в ковариационной матрице EX с размером N × N, где N указывает количество одного или нескольких сигналов аудиоканалов плюс количество одного или нескольких сигналов аудиообъектов,
где ковариационная матрица EX задается в соответствии с формулой
Figure 00000061
где
Figure 00000062
указывает коэффициенты первой ковариационной подматрицы с размером N Channels × N Channels , где N Channels указывает количество одного или нескольких сигналов аудиоканалов,
где
Figure 00000063
указывает коэффициенты второй ковариационной подматрицы с размером N Objects × N Objects , где N Objects указывает количество одного или нескольких сигналов аудиообъектов,
где 0 указывает нулевую матрицу,
в котором процессор (110) параметров конфигурируется для приема множества ковариационных коэффициентов в ковариационной матрице EX, и
в котором процессор (110) параметров конфигурируется для установки в 0 всех коэффициентов ковариационной матрицы EX, которые не приняты процессором (110) параметров.
5. Устройство по п. 1,
в котором информация понижающего микширования содержит множество коэффициентов понижающего микширования в матрице D понижающего микширования с размером N DmxCh × N, где N DmxCh указывает количество транспортных аудиоканалов, и где N указывает количество одного или нескольких сигналов аудиоканалов плюс количество одного или нескольких сигналов аудиообъектов,
где матрица D понижающего микширования задается в соответствии с формулой
Figure 00000064
где Dch указывает коэффициенты первой подматрицы понижающего микширования с размером
Figure 00000065
указывает количество транспортных аудиоканалов в первой группе транспортных аудиоканалов, и где N Channels указывает количество одного или нескольких сигналов аудиоканалов,
где Dobj указывает коэффициенты второй подматрицы понижающего микширования с размером
Figure 00000066
указывает количество транспортных аудиоканалов во второй группе транспортных аудиоканалов, и где N Objects указывает количество одного или нескольких сигналов аудиоканалов,
где 0 указывает нулевую матрицу,
в котором процессор (110) параметров конфигурируется для приема множества коэффициентов понижающего микширования в матрице D понижающего микширования, и
в котором процессор (110) параметров конфигурируется для установки в 0 всех коэффициентов матрицы D понижающего микширования, которые не приняты процессором (110) параметров.
6. Устройство по п. 1,
в котором процессор (110) параметров конфигурируется для приема информации о подготовке, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов микшируются в один или несколько выходных аудиоканалов,
в котором процессор (110) параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от ковариационной информации и в зависимости от информации о подготовке.
7. Устройство по п. 6,
в котором процессор (110) параметров конфигурируется для приема множества коэффициентов матрицы R подготовки в качестве информации о подготовке, и
в котором процессор (110) параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от ковариационной информации и в зависимости от матрицы R подготовки.
8. Устройство по п. 6,
в котором процессор (110) параметров конфигурируется для приема информации метаданных в качестве информации о подготовке, причем информация метаданных содержит информацию о положении,
причем информация о положении указывает положение для каждого из одного или нескольких сигналов аудиообъектов,
причем информация о положении не указывает положение ни для какого из одного или нескольких сигналов аудиоканалов,
в котором процессор (110) параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от ковариационной информации и в зависимости от информации о положении.
9. Устройство по п. 8,
в котором информация метаданных дополнительно содержит информацию об усилении,
причем информация об усилении указывает значение усиления для каждого из одного или нескольких сигналов аудиообъектов,
причем информация об усилении не указывает значение усиления ни для какого из одного или нескольких сигналов аудиоканалов,
в котором процессор (110) параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от ковариационной информации, в зависимости от информации о положении и в зависимости от информации об усилении.
10. Устройство по п. 8,
в котором процессор (110) параметров конфигурируется для вычисления матрицы S микширования в качестве информации микширования, где матрица S микширования задается в соответствии с формулой
S=RG,
где G является матрицей декодирования, зависящей от информации понижающего микширования и зависящей от ковариационной информации,
где R является матрицей подготовки, зависящей от информации метаданных,
в котором процессор (120) понижающего микширования конфигурируется для формирования одного или нескольких выходных аудиоканалов в выходном аудиосигнале путем применения формулы
Z=SY,
где Z - выходной аудиосигнал, Y - транспортный аудиосигнал.
11. Устройство по п. 1,
в котором два или более сигнала аудиообъектов микшируются в транспортный аудиосигнал, и в котором два или более сигнала аудиоканалов микшируются в транспортный аудиосигнал,
в котором ковариационная информация указывает корреляционную информацию для одной или нескольких пар из первого из двух или более сигналов аудиоканалов и второго из двух и более сигналов аудиоканалов,
в котором ковариационная информация не указывает корреляционную информацию ни для какой пары из первого одного или нескольких сигналов аудиообъектов и второго одного или нескольких сигналов аудиообъектов, и
в котором процессор (110) параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования, в зависимости от информации о разности уровней каждого из одного или нескольких сигналов аудиоканалов, в зависимости от второй информации о разности уровней каждого из одного или нескольких сигналов аудиообъектов и в зависимости от корреляционной информации одной или нескольких пар из первого из двух или более сигналов аудиоканалов и второго из двух или более сигналов аудиоканалов.
12. Устройство для формирования транспортного аудиосигнала, содержащего транспортные аудиоканалы, причем устройство содержит:
микшер (210) каналов/объектов для формирования транспортных аудиоканалов в транспортном аудиосигнале и
выходной интерфейс (220),
причем микшер (210) каналов/объектов конфигурируется для формирования транспортного аудиосигнала, содержащего транспортные аудиоканалы, путем микширования одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов в транспортный аудиосигнал в зависимости от информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов нужно микшировать в транспортные аудиоканалы, причем количество транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов,
причем выходной интерфейс (220) конфигурируется для вывода транспортного аудиосигнала, информации понижающего микширования и ковариационной информации,
причем ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов, и причем ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов,
причем устройство конфигурируется для микширования одного или нескольких сигналов аудиоканалов в первую группу из одного или нескольких транспортных аудиоканалов, причем устройство конфигурируется для микширования одного или нескольких сигналов аудиообъектов во вторую группу из одного или нескольких транспортных аудиоканалов, причем каждый транспортный аудиоканал из первой группы не содержится во второй группе, и причем каждый транспортный аудиоканал из второй группы не содержится в первой группе, и
причем информация понижающего микширования содержит первую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиоканалов микшируются в первую группу транспортных аудиоканалов, и причем информация понижающего микширования содержит вторую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиообъектов микшируются во вторую группу транспортных аудиоканалов,
причем устройство конфигурируется для вывода первого подсчета каналов, указывающего количество транспортных аудиоканалов в первой группе транспортных аудиоканалов, и причем устройство конфигурируется для вывода второго подсчета каналов, указывающего количество транспортных аудиоканалов во второй группе транспортных аудиоканалов.
13. Устройство по п. 12, в котором микшер (210) каналов/объектов конфигурируется для формирования транспортного аудиосигнала так, чтобы количество транспортных аудиоканалов в транспортном аудиосигнале зависело от того, какая скорость передачи разрядов доступна для передачи транспортного аудиосигнала.
14. Система для формирования транспортного аудиосигнала и формирования одного или нескольких выходных аудиоканалов, содержащая:
устройство (310) по п. 12 для формирования транспортного аудиосигнала и
устройство (320) по п. 1 для формирования одного или нескольких выходных аудиоканалов,
причем устройство (320) конфигурируется для приема транспортного аудиосигнала, информации понижающего микширования и ковариационной информации от устройства (310), и
причем устройство (320) конфигурируется для формирования одного или нескольких выходных аудиоканалов из транспортного аудиосигнала в зависимости от информации понижающего микширования и в зависимости от ковариационной информации.
15. Способ для формирования одного или нескольких выходных аудиоканалов, причем способ содержит этапы, на которых:
принимают поток данных, содержащий транспортные аудиоканалы в транспортном аудиосигнале, причем один или несколько сигналов аудиоканалов микшируются в транспортный аудиосигнал, причем один или несколько сигналов аудиообъектов микшируются в транспортный аудиосигнал, и причем количество транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов,
принимают информацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов микшируются в транспортные аудиоканалы,
принимают ковариационную информацию,
вычисляют информацию микширования в зависимости от информации понижающего микширования и в зависимости от ковариационной информации, и
формируют один или несколько выходных аудиоканалов,
формируют один или несколько выходных аудиоканалов из транспортного аудиосигнала в зависимости от информации микширования,
причем ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов, и причем ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов,
причем один или несколько сигналов аудиоканалов микшируются в первую группу из одного или нескольких транспортных аудиоканалов, причем один или несколько сигналов аудиообъектов микшируются во вторую группу из одного или нескольких транспортных аудиоканалов, причем каждый транспортный аудиоканал из первой группы не содержится во второй группе, и причем каждый транспортный аудиоканал из второй группы не содержится в первой группе, и
причем информация понижающего микширования содержит первую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиоканалов микшируются в первую группу транспортных аудиоканалов, и причем информация понижающего микширования содержит вторую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиообъектов микшируются во вторую группу транспортных аудиоканалов,
причем информация микширования вычисляется в зависимости от первой подинформации понижающего микширования, в зависимости от второй подинформации понижающего микширования и в зависимости от ковариационной информации,
причем один или несколько выходных аудиосигналов формируются из первой группы транспортных аудиоканалов и из второй группы транспортных аудиоканалов в зависимости от информации микширования,
причем способ дополнительно содержит этап, на котором принимают первый подсчет каналов, указывающий количество транспортных аудиоканалов в первой группе транспортных аудиоканалов, и причем способ дополнительно содержит этап, на котором принимают второй подсчет каналов, указывающий количество транспортных аудиоканалов во второй группе транспортных аудиоканалов, и
причем способ дополнительно содержит этап, на котором идентифицируют, принадлежит ли транспортный аудиоканал в потоке данных первой группе или второй группе, в зависимости от первого подсчета каналов, или в зависимости от второго подсчета каналов, либо в зависимости от первого подсчета каналов и второго подсчета каналов.
16. Способ для формирования транспортного аудиосигнала, содержащего транспортные аудиоканалы, причем способ содержит этапы, на которых:
формируют транспортный аудиосигнал, содержащий транспортные аудиоканалы, путем микширования одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов в транспортный аудиосигнал в зависимости от информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов нужно микшировать в транспортные аудиоканалы, причем количество транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов, и
выводят транспортный аудиосигнал, информацию понижающего микширования и ковариационную информацию,
причем ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов, и
причем ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов,
причем один или несколько сигналов аудиоканалов микшируются в первую группу из одного или нескольких транспортных аудиоканалов, причем один или несколько сигналов аудиообъектов микшируются во вторую группу из одного или нескольких транспортных аудиоканалов, причем каждый транспортный аудиоканал из первой группы не содержится во второй группе, и причем каждый транспортный аудиоканал из второй группы не содержится в первой группе, и
причем информация понижающего микширования содержит первую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиоканалов микшируются в первую группу транспортных аудиоканалов, и причем информация понижающего микширования содержит вторую подинформацию понижающего микширования, указывающую информацию о том, как один или несколько сигналов аудиообъектов микшируются во вторую группу транспортных аудиоканалов, и
причем способ дополнительно содержит этап, на котором выводят первый подсчет каналов, указывающий количество транспортных аудиоканалов в первой группе транспортных аудиоканалов, и причем способ дополнительно содержит этап, на котором выводят второй подсчет каналов, указывающий количество транспортных аудиоканалов во второй группе транспортных аудиоканалов.
17. Компьютерно-читаемый носитель, содержащий компьютерную программу для реализации способа по п. 15 при исполнении на компьютере или процессоре сигналов.
18. Компьютерно-читаемый носитель, содержащий компьютерную программу для реализации способа по п. 16 при исполнении на компьютере или процессоре сигналов.
RU2016105469A 2013-07-22 2014-07-17 Устройство и способ для улучшенного пространственного кодирования аудиообъектов RU2660638C2 (ru)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EPEP13177371 2013-07-22
EPEP13177357 2013-07-22
EP13177357 2013-07-22
EPEP13177378 2013-07-22
EP13177371 2013-07-22
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
EPEP13189290 2013-10-18
EP13189290.3A EP2830050A1 (en) 2013-07-22 2013-10-18 Apparatus and method for enhanced spatial audio object coding
PCT/EP2014/065427 WO2015011024A1 (en) 2013-07-22 2014-07-17 Apparatus and method for enhanced spatial audio object coding

Publications (2)

Publication Number Publication Date
RU2016105469A RU2016105469A (ru) 2017-08-25
RU2660638C2 true RU2660638C2 (ru) 2018-07-06

Family

ID=49385153

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2016105472A RU2666239C2 (ru) 2013-07-22 2014-07-16 Устройство и способ для осуществления понижающего микширования saoc объемного (3d) аудиоконтента
RU2016105469A RU2660638C2 (ru) 2013-07-22 2014-07-17 Устройство и способ для улучшенного пространственного кодирования аудиообъектов

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2016105472A RU2666239C2 (ru) 2013-07-22 2014-07-16 Устройство и способ для осуществления понижающего микширования saoc объемного (3d) аудиоконтента

Country Status (19)

Country Link
US (4) US9699584B2 (ru)
EP (4) EP2830050A1 (ru)
JP (3) JP6395827B2 (ru)
KR (2) KR101774796B1 (ru)
CN (3) CN105593929B (ru)
AU (2) AU2014295270B2 (ru)
BR (2) BR112016001244B1 (ru)
CA (2) CA2918529C (ru)
ES (2) ES2768431T3 (ru)
HK (1) HK1225505A1 (ru)
MX (2) MX355589B (ru)
MY (2) MY176990A (ru)
PL (2) PL3025333T3 (ru)
PT (1) PT3025333T (ru)
RU (2) RU2666239C2 (ru)
SG (2) SG11201600460UA (ru)
TW (2) TWI560700B (ru)
WO (2) WO2015010999A1 (ru)
ZA (1) ZA201600984B (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2815754C2 (ru) * 2019-08-01 2024-03-21 Долби Лэборетериз Лайсенсинг Корпорейшн Системы и способы для сглаживания ковариации
US11972767B2 (en) 2019-08-01 2024-04-30 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102088337B1 (ko) * 2015-02-02 2020-03-13 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção
US10271157B2 (en) 2016-05-31 2019-04-23 Gaudio Lab, Inc. Method and apparatus for processing audio signal
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10535355B2 (en) 2016-11-18 2020-01-14 Microsoft Technology Licensing, Llc Frame coding for spatial audio data
CN108182947B (zh) * 2016-12-08 2020-12-15 武汉斗鱼网络科技有限公司 一种声道混合处理方法及装置
EP3605531A4 (en) 2017-03-28 2020-04-15 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
GB2574239A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
US10620904B2 (en) 2018-09-12 2020-04-14 At&T Intellectual Property I, L.P. Network broadcasting for selective presentation of audio content
WO2020067057A1 (ja) 2018-09-28 2020-04-02 株式会社フジミインコーポレーテッド 酸化ガリウム基板研磨用組成物
GB2577885A (en) * 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
US11622219B2 (en) * 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
CN115280411A (zh) * 2020-03-09 2022-11-01 日本电信电话株式会社 声音信号缩混方法、声音信号编码方法、声音信号缩混装置、声音信号编码装置、程序及记录介质
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
US11930349B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for producing audio content for realizing customized being-there and method thereof
KR102505249B1 (ko) 2020-11-24 2023-03-03 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
JP2022083443A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
WO2023131398A1 (en) * 2022-01-04 2023-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for implementing versatile audio object rendering

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008039042A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US20090326958A1 (en) * 2007-02-14 2009-12-31 Lg Electronics Inc. Methods and Apparatuses for Encoding and Decoding Object-Based Audio Signals
RU2411594C2 (ru) * 2005-03-30 2011-02-10 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование аудио
RU2439719C2 (ru) * 2007-04-26 2012-01-10 Долби Свиден АБ Устройство и способ для синтезирования выходного сигнала
WO2012072804A1 (en) * 2010-12-03 2012-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for geometry-based spatial audio coding
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
ATE406651T1 (de) * 2005-03-30 2008-09-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101288115A (zh) * 2005-10-13 2008-10-15 Lg电子株式会社 用于处理信号的方法和装置
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101410891A (zh) * 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
DE602007004451D1 (de) 2006-02-21 2010-03-11 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
EP2005787B1 (en) 2006-04-03 2012-01-25 Srs Labs, Inc. Audio signal processing
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US8326609B2 (en) 2006-06-29 2012-12-04 Lg Electronics Inc. Method and apparatus for an audio signal processing
MY151651A (en) 2006-07-04 2014-06-30 Dolby Int Ab Filter compressor and method for manufacturing compressed subband filter impulse responses
EP2575129A1 (en) * 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
MY145497A (en) 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008063034A1 (en) * 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
EP2595148A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
RU2394283C1 (ru) 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
CN101542596B (zh) * 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP5541928B2 (ja) * 2007-03-09 2014-07-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR20080082917A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
JP5161893B2 (ja) 2007-03-16 2013-03-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US7991622B2 (en) 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
KR101422745B1 (ko) * 2007-03-30 2014-07-24 한국전자통신연구원 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법
MY146431A (en) 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009049895A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
MX2010002629A (es) 2007-11-21 2010-06-02 Lg Electronics Inc Metodo y aparato para procesar una señal.
KR101024924B1 (ko) * 2008-01-23 2011-03-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR101061129B1 (ko) * 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL2146344T3 (pl) 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US8351612B2 (en) 2008-12-02 2013-01-08 Electronics And Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20100065121A (ko) * 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US8620008B2 (en) * 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
RU2520329C2 (ru) 2009-03-17 2014-06-20 Долби Интернешнл Аб Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
US8909521B2 (en) 2009-06-03 2014-12-09 Nippon Telegraph And Telephone Corporation Coding method, coding apparatus, coding program, and recording medium therefor
TWI404050B (zh) 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
CN102171754B (zh) * 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
KR101805212B1 (ko) 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
TWI463485B (zh) 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
WO2011048067A1 (en) 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multichannel audio signal, methods, computer program and bitstream using a distortion control signaling
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
CN102823273B (zh) 2010-03-23 2015-12-16 杜比实验室特许公司 用于局域化感知音频的技术
US8675748B2 (en) 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
TWI716169B (zh) 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
CN103649706B (zh) 2011-03-16 2015-11-25 Dts(英属维尔京群岛)有限公司 三维音频音轨的编码及再现
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
JP5740531B2 (ja) 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
KR102185941B1 (ko) 2011-07-01 2020-12-03 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
CA3151342A1 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
CN102931969B (zh) 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2013075753A1 (en) 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2411594C2 (ru) * 2005-03-30 2011-02-10 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование аудио
WO2008039042A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US7979282B2 (en) * 2006-09-29 2011-07-12 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US20090326958A1 (en) * 2007-02-14 2009-12-31 Lg Electronics Inc. Methods and Apparatuses for Encoding and Decoding Object-Based Audio Signals
RU2439719C2 (ru) * 2007-04-26 2012-01-10 Долби Свиден АБ Устройство и способ для синтезирования выходного сигнала
WO2012072804A1 (en) * 2010-12-03 2012-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for geometry-based spatial audio coding
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
WO2013024085A1 (en) * 2011-08-17 2013-02-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2823573C1 (ru) * 2018-08-28 2024-07-24 Конинклейке Филипс Н.В. Аудиоустройство и способ обработки аудио
RU2815754C2 (ru) * 2019-08-01 2024-03-21 Долби Лэборетериз Лайсенсинг Корпорейшн Системы и способы для сглаживания ковариации
US11972767B2 (en) 2019-08-01 2024-04-30 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing

Also Published As

Publication number Publication date
EP3025333A1 (en) 2016-06-01
JP2016527558A (ja) 2016-09-08
RU2016105469A (ru) 2017-08-25
CA2918869A1 (en) 2015-01-29
TW201519217A (zh) 2015-05-16
JP6395827B2 (ja) 2018-09-26
US20160142847A1 (en) 2016-05-19
EP2830050A1 (en) 2015-01-28
JP6873949B2 (ja) 2021-05-19
ES2959236T3 (es) 2024-02-22
HK1225505A1 (zh) 2017-09-08
ES2768431T3 (es) 2020-06-22
MY192210A (en) 2022-08-08
CA2918529A1 (en) 2015-01-29
ZA201600984B (en) 2019-04-24
RU2016105472A (ru) 2017-08-28
MX357511B (es) 2018-07-12
JP2016528542A (ja) 2016-09-15
CN105593930A (zh) 2016-05-18
CN112839296B (zh) 2023-05-09
AU2014295216A1 (en) 2016-03-10
MX2016000914A (es) 2016-05-05
CN105593929A (zh) 2016-05-18
US11330386B2 (en) 2022-05-10
EP3025333B1 (en) 2019-11-13
JP6333374B2 (ja) 2018-05-30
BR112016001243B1 (pt) 2022-03-03
BR112016001244B1 (pt) 2022-03-03
CA2918529C (en) 2018-05-22
WO2015011024A1 (en) 2015-01-29
EP3025335A1 (en) 2016-06-01
US9699584B2 (en) 2017-07-04
SG11201600396QA (en) 2016-02-26
TWI560701B (en) 2016-12-01
KR20160053910A (ko) 2016-05-13
CN112839296A (zh) 2021-05-25
CN105593929B (zh) 2020-12-11
JP2018185526A (ja) 2018-11-22
TW201519216A (zh) 2015-05-16
RU2666239C2 (ru) 2018-09-06
US9578435B2 (en) 2017-02-21
US20170272883A1 (en) 2017-09-21
WO2015010999A1 (en) 2015-01-29
EP2830048A1 (en) 2015-01-28
PL3025333T3 (pl) 2020-07-27
AU2014295216B2 (en) 2017-10-19
PT3025333T (pt) 2020-02-25
BR112016001244A2 (ru) 2017-07-25
EP3025335B1 (en) 2023-08-30
TWI560700B (en) 2016-12-01
CN105593930B (zh) 2019-11-08
MX355589B (es) 2018-04-24
US10701504B2 (en) 2020-06-30
CA2918869C (en) 2018-06-26
KR101852951B1 (ko) 2018-06-04
KR20160041941A (ko) 2016-04-18
AU2014295270B2 (en) 2016-12-01
MX2016000851A (es) 2016-04-27
AU2014295270A1 (en) 2016-03-10
US20160142846A1 (en) 2016-05-19
BR112016001243A2 (ru) 2017-07-25
PL3025335T3 (pl) 2024-02-19
EP3025335C0 (en) 2023-08-30
SG11201600460UA (en) 2016-02-26
KR101774796B1 (ko) 2017-09-05
MY176990A (en) 2020-08-31
US20200304932A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
RU2660638C2 (ru) Устройство и способ для улучшенного пространственного кодирования аудиообъектов
US11227616B2 (en) Concept for audio encoding and decoding for audio channels and audio objects
JP6687683B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
RU2665917C2 (ru) Многоканальный аудиодекодер, многоканальный аудиокодер, способы, компьютерная программа и кодированное аудиопредставление с использованием декорреляции представленных посредством рендеринга аудиосигналов
RU2659497C2 (ru) Управляемое модулем рендеринга пространственное повышающее микширование