RU2533437C2 - Способ и устройство для кодирования и оптимальной реконструкции трехмерного акустического поля - Google Patents

Способ и устройство для кодирования и оптимальной реконструкции трехмерного акустического поля Download PDF

Info

Publication number
RU2533437C2
RU2533437C2 RU2011131868/08A RU2011131868A RU2533437C2 RU 2533437 C2 RU2533437 C2 RU 2533437C2 RU 2011131868/08 A RU2011131868/08 A RU 2011131868/08A RU 2011131868 A RU2011131868 A RU 2011131868A RU 2533437 C2 RU2533437 C2 RU 2533437C2
Authority
RU
Russia
Prior art keywords
audio
tracks
ambiophony
encoding
decoding
Prior art date
Application number
RU2011131868/08A
Other languages
English (en)
Other versions
RU2011131868A (ru
Inventor
СОЛЕ Антонио МАТЕОС
АЛЬБО Пау АРУМИ
Original Assignee
Долби Интернэшнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернэшнл Аб filed Critical Долби Интернэшнл Аб
Publication of RU2011131868A publication Critical patent/RU2011131868A/ru
Application granted granted Critical
Publication of RU2533437C2 publication Critical patent/RU2533437C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к средствам кодирования аудиосигналов и относящейся к ним пространственной информации в формат, не зависящий от схемы воспроизведения. Технический результат заключается в обеспечении технологии, способной представлять пространственный аудиоконтент независящим от демонстрационного способа методом. Назначают первый набор аудиосигналов в первую группу. Кодируют первую группу в качестве набора моноаудиодорожек с ассоциированными метаданными, описывающими направление источника сигнала каждой дорожки по отношению к позиции записи и время начала его воспроизведения. Назначают второй набор аудиосигналов во вторую группу. Кодируют вторую группу в качестве, по меньшей мере, одного набора дорожек амбиофонии данного порядка и смешения порядков. Генерируют две группы дорожек, содержащих первый и второй набор аудиосигналов. 6 н. и 20 з.п. ф-лы, 11 ил.

Description

Область изобретения
Настоящее изобретение относится к технологиям, позволяющим улучшить кодирование, распределение, и декодирование трехмерного акустического поля. В частности, настоящее изобретение относится к технологиям кодирования аудиосигналов вместе с пространственной информацией независящим от демонстрационного комплекса методом; и для оптимального декодирования для данной демонстрационной системы, либо комплекса громкоговорителей, либо наушников.
Предшествующий уровень техники
При многоканальном воспроизведении и прослушивании слушатель обычно окружен множеством громкоговорителей. Как правило, одной задачей воспроизведения является создание акустического поля, в котором слушатель может воспринимать намеченные местоположения источников звука, например, расположение музыканта в группе. Различные комплексы громкоговорителей могут создавать различные пространственные впечатления. Например, стандартные стереокомплексы могут убедительно воссоздавать акустическую сцену в пространстве между двумя громкоговорителями, но не справляются с такой задачей при углах вне пространства между двумя громкоговорителями.
Комплексы с большим количеством громкоговорителей, окружающих слушателя, могут достигать лучшего пространственного впечатления при большем наборе углов. Например, одним из наиболее широко известных стандартов комплексов нескольких громкоговорителей является Surround 5.1 (ITU-R775-1), состоящий из 5 громкоговорителей, расположенных по азимутам -30, 0, 30, -110, 110 градусов вокруг слушателя, где 0 обозначает фронтальное направление. Однако такой комплекс не может справиться со звуком, расположенным выше горизонтальной плоскости слушателя.
Для увеличения впечатления погружения у слушателя настоящие тенденции заключаются в том, чтобы использовать комплексы громкоговорителей с большим количеством громкоговорителей, включая громкоговорители, расположенные на разной высоте. Одним из примеров является система 22.2, разработанная Hamasaki из NHK, Япония, которая состоит из 24 громкоговорителей, расположенных на трех различных высотах.
В настоящем, парадигма производства пространственного аудио в профессиональных применениях таких комплексов заключается в том, чтобы предоставить одну аудиодорожку для каждого канала, используемого при воспроизведении. Например, для стереокомплекса требуются две аудиодорожки; для комплекса 5.1 требуется шесть аудиодорожек, и т.п. Эти дорожки, обыкновенно, появляются на этапе постпроизводства, хотя их и можно создать непосредственно на этапе записи для вещания. Стоит отметить, что во многих случаях несколько громкоговорителей используют для того, чтобы воспроизводить один и тот же аудиоканал. Так обстоит дело в случае большинства кинотеатров 5.1, где каждый surround канал проигрывают через три или более громкоговорителей. Таким образом, в этих случаях, несмотря на то, что количество громкоговорителей может превышать 6, количество различных аудиоканалов по-прежнему 6, и, суммарно, проигрывается только 6 различных сигналов.
Одним из следствий этой парадигмы "одной дорожки на канал" является то, что работа, выполняемая на этапах записи и постпроизводства, связывается с демонстрационным комплексом, на котором будет демонстрироваться создаваемое информационное содержимое (контент). На этапе записи, например, при трансляции, тип и расположение используемых микрофонов, и метод микширования определяется как функция от комплекса, на котором будет воспроизводиться событие. Аналогично, при производстве носителя, инженеры постпроизводства должны знать детали комплекса, на котором будет демонстрироваться контент, и позаботиться о каждом из каналов. Неудача при попытке правильно установить демонстрационную схему с несколькими громкоговорителями, для которой был доработан контент, приведет к снижению качества воспроизведения. Если контент будет демонстрироваться на различных комплексах, то на этапе постпроизводства необходимо создать несколько версий. Это приводит к увеличению финансовых затрат и затрат времени.
Другим следствием этой парадигмы "одной дорожки на канал" является размер требуемых данных. С одной стороны, без дополнительного кодирования, парадигма требует столько дорожек, сколько используют каналов. С другой стороны, если необходимо предоставить несколько версий, то их предоставляют либо отдельно, что, опять-таки, увеличивают размер данных, либо выполняют некое преобразование по снижению количества каналов, что ухудшает качество результата.
И наконец, последним недостатком парадигмы "одной дорожки на канал" является то, что произведенный таким образом контент не выдерживает проверки временем. Например, 6 дорожек, присутствующие в данном фильме, произведенном для комплекса 5.1, не включают в себя источники звука, расположенные над слушателем, и не полностью задействуют комплексы, в которых громкоговорители расположены на различных высотах. В настоящее время существует несколько технологий, способных предоставить пространственное аудио, не зависящее от демонстрационной системы. Возможно, простейшей технологией является векторный амплитудный перенос (VBAP). Она основана на подаче одного и того же моносигнала на громкоговорители, ближайшие к намеченному расположению источника звука, с регулировкой громкости для каждого громкоговорителя. Такая система может работать для двухмерных или трехмерных (с высотами) комплексов, обычно, выбирая два или три, соответственно, ближайших громкоговорителя. Одно из достоинств этого способа заключается в том, что он обеспечивает большую зону наилучшего восприятия, что означает, что в комплексе громкоговорителей есть большая область, в которой звук воспринимают как исходящий из намеченного направления. Однако этот способ неприменим ни к воспроизведению полей реверберирующего звука, таких, как присутствующие в реверберационных камерах, ни для воспроизведения источников звука с большим разнесением. В лучшем случае, с применением этих способов можно воспроизвести первые отражения звука, издаваемого источниками, но тем не менее этот способ предоставляет дорогое и низкокачественное решение.
Другой технологией, способной предоставить пространственное аудио, независящее от демонстрационной системы, является амбиофония. Эту технологию разработал в 70-х Michael Gerzon, она предоставляет полную методологию цепи кодирования-декодирования. При кодировании сохраняется набор сферических гармоник акустического поля в одной точке. Нулевой порядок (W) соответствует тому, что запишет всенаправленный микрофон, расположенный в этой точке. Первый порядок, состоящий из трех сигналов (X, Y, Z), соответствует тому, что запишут в этой точке три микрофона с диаграммой направленности в виде восьмерки, выровненные по осям декартовой системы координат. Сигналы более высоких порядков соответствуют тому, что запишут микрофоны в более сложных схемах расположения. Существует также кодирование амбиофонии смешанного порядка, когда используют только часть набора сигналов каждого порядка; например, при использовании только сигналов W, X, Y из амбиофонии первого порядка, таким образом, игнорируя сигнал Z. Несмотря на то, что генерация сигналов за пределами первого порядка несложна на этапе постпроизводства, либо при помощи моделирования акустического поля, при записи настоящего акустического поля микрофонами это осложняется; и в самом деле, до недавнего времени, для применения в профессиональных областях, были доступны только микрофоны, способные измерять сигналы нулевого и первого порядков. Пример микрофонов амбиофонии первого порядка представляют собой микрофоны Soundfield, и более современные TetraMic. При декодировании, после специфицирования комплекса нескольких громкоговорителей (количество и положение каждого громкоговорителя), сигнал, направляемый на каждый громкоговоритель, обычно определяют, требуя максимального совпадения акустического поля, созданного комплексом в целом, с намеченным полем (либо созданным на этапе постпроизводства, либо том, с которого были записаны сигналы). Помимо независимости от демонстрационной системы, дополнительными преимуществами данной технологии является высокий уровень обеспечиваемой ею манипуляции (в основном, вращением и масштабированием звуковой сцены), и ее способность точно воспроизводить реверберационное поле.
Однако технология амбиофонии ограничена двумя основными недостатками: неспособностью воспроизводить близкие источники звука, и малый размер зоны наилучшего восприятия. Концепцию близких или разнесенных источников звука используют в данном контексте как обозначающую угловую ширину воспринимаемой звуковой картины. Первая проблема происходит из факта того, что, даже при попытке воспроизвести очень узкий источник звука, амбиофоническое декодирование задействует больше громкоговорителей, чем расположено вблизи намеченной позиции источника. Вторая проблема происходит из того факта, что, несмотря на расположение в зоне наилучшего восприятия, волны, исходящие из каждого громкоговорителя, фазово суммируются для создания желаемого акустического поля, вне зоны наилучшего восприятия, волны создают некорректную фазовую интерференцию. Это изменяет окраску звука, и, что более важно, звук представляется исходящим из громкоговорителя, расположенного ближе к слушателю, из-за общеизвестного эффекта психоакустического предпочтения. Для фиксированного размера комнаты прослушивания, единственным способом уменьшить обе проблемы является увеличение используемого порядка амбиофонии, но это подразумевает быстрый рост в количестве задействованных каналов и громкоговорителей.
Стоит отметить, что существует еще одна технология, способная точно воспроизводить произвольное звуковое поле, так называемый синтез волнового поля (WFS). Однако эта технология требует расположения громкоговорителей на удалении один от другого менее, чем в 15-20 сантиметрах, что требует дополнительных аппроксимаций (и, соответственно, потери качества) и сильно увеличивает количество требуемых громкоговорителей; существующие комплексы используют между 100 и 500 громкоговорителей, что сужает область ее применения до событий очень высокого уровня подготовки.
Требуется обеспечить технологию, способную предоставлять пространственный аудиоконтент, который можно распределять независимо от демонстрационного комплекса, как двумерный, так и трехмерный; который, после специфицирования комплекса, можно декодировать для использования ее полных возможностей; которая способна воспроизводить все типы акустических полей (узкие источники, реверберационные или диффундирующие поля) для всех слушателей в пространстве, то есть с большой областью наилучшего восприятия; и которая не требует использования большого количества громкоговорителей. Это обеспечит возможность создавать контент, пригодный для использования в будущем, в том смысле, что она будет легко адаптироваться ко всем существующим и будущим комплексам из нескольких громкоговорителей, и даст возможность кинотеатрам или домашним пользователям выбирать комплекс из нескольких громкоговорителей, который максимально соответствует их целям и задачам, обеспечивая при этом уверенность в том, что найдется большое количество контента, который сможет полностью использовать возможности выбранного ими комплекса.
Сущность изобретения
Способ и устройство для кодирования аудио с пространственной информацией независящим от демонстрационного комплекса образом, и декодирование и оптимальное воспроизведение для любого данного демонстрационного комплекса, включая и комплексы с громкоговорителями, расположенными на разных высотах, и наушники.
Изобретение основано на способе для кодирования некоего входного аудиоматериала, в формат, независящий от демонстрации, путем распределения его в две группы: первая группа содержит в себе аудио, которое требует точно направленной локализации; вторая группа содержит аудио, для которого достаточно локализации, обеспечиваемой технологией амбиофонии низкого порядка.
Все аудио в первой группе кодируется в виде набора раздельных моноаудиодорожек с соответствующими метаданными. Количество отдельных моноаудиодорожек не ограничено, однако, в некоторых вариантах осуществления можно накладывать определенные ограничения, как описано ниже. Метаданные должны содержать в себе информацию о точном времени, когда необходимо воспроизвести каждую такую аудиодорожку, а также пространственную информацию, описывающую, по меньшей мере, направление источника сигнала в каждый момент времени. Все аудио во второй группе кодируют в набор аудиодорожек, представляющих собой данный порядок амбиофонических сигналов. В идеальном случае присутствует один набор амбиофонических каналов, хотя в определенных вариантах осуществления можно использовать более одного.
При воспроизведении, когда становится известна демонстрационная система, первую группу аудиодорожек декодируют для воспроизведения с использованием стандартных алгоритмов переноса, которые используют небольшое количество громкоговорителей поблизости от намеченного положения аудиоисточника. Второй набор аудиоканалов декодируют для воспроизведения с использованием амбиофонических декодеров, оптимизированных для данной демонстрационной системы.
Эти способ и устройство решают вышеописанные проблемы, как это описано далее.
Во-первых, это позволяет этапам записи аудио, постпроизводства и распространения обычных материалов проходить независимо от комплексов, на которых будет демонстрироваться контент. Одним из следствий этого факта является то, что созданный этим способом контент пригоден для использования в будущем, в том смысле, что его можно легко адаптировать к любому произвольному комплексу нескольких громкоговорителей как существующему, так и созданному в будущем. Этому качеству также удовлетворяет и технология амбиофонии.
Во-вторых, появляется возможность корректно воспроизводить очень узкие источники. Их кодируют в индивидуальные аудиодорожки, вместе с ассоциированными метаданными направления, позволяя использовать декодирующие алгоритмы, использующие меньшее количество громкоговорителей вокруг намеченного места расположения аудиоисточника, такие как двумерный или трехмерный векторный амплитудный перенос. В противоположность этому, амбиофония требует использования очень высоких порядков для достижения таких результатов, с соответственным увеличением количества связанных дорожек, данных, и сложности декодирования.
В-третьих, этот способ и устройство способны в большинстве ситуаций обеспечить большую область наилучшего восприятия, таким образом, увеличивая область оптимальной реконструкции звукового поля. Это достигается путем отделения в первую группу аудиодорожек всех частей аудио, которые будут приводить к уменьшению области наилучшего восприятия. Например, в варианте осуществления, проиллюстрированном на фиг.8, и описанном ниже, прямой звук диалога кодируют в виде отдельной аудиодорожки с информацией о направлении, с которого он исходит, в то время как реверберантная часть кодируется в виде набора дорожек амбиофонии первого порядка. Таким образом, большая часть публики воспринимает прямой звук этого источника как исходящий из правильного местоположения, главным образом из нескольких громкоговорителей в намеченном направлении; таким образом, из прямого звука устраняют эффекты дефазированной окраски и предшествования, что закрепляет звуковое изображение в его правильном местоположении.
В-четвертых, количество данных, в большей части случаев кодирования аудио для комплексов нескольких громкоговорителей, уменьшается, по сравнению с парадигмой одной дорожки на канал, и по сравнению с кодированием амбиофонии более высокого порядка. Этот факт обеспечивает преимущество для целей хранения и распространения. Для этого есть две причины. С одной стороны, назначение звука высокой степени направленности к списку воспроизведения узкого аудио позволяет использовать для реконструкции остальной части звуковой сцены амбиофонию всего лишь первого порядка, состоящей из разнесенного, диффундированного или с невысокой степенью направленности звука. Таким образом, 4 дорожек группы амбиофонии первого порядка достаточно. Напротив, для корректной реконструкции узких источников требуется, например, 16 аудиоканалов для третьего, или 25 для четвертого порядка. С другой стороны, количество узких источников, требующих одновременного проигрывания, во многих случаях невелико; это так, например, для фильма, где в список воспроизведения узкого аудио входят только диалоги и некоторые спецэффекты. Более того, все аудио в группе списка воспроизведения узкого аудио представляет собой набор дорожек с длительностью, соответствующей только длительности данного источника аудио. Например, аудио, соответствующее автомобилю, находящемуся в одной сцене в течение трех секунд, имеет длительность только в три секунды. Таким образом, в примере применения к фильму, где необходимо создать звуковую дорожку фильма для комплекса 22.2, в парадигме одной дорожки на канал потребуется 24 аудиодорожки, и кодирование амбиофонии третьего порядка потребует 16 аудиодорожек. Напротив, в предлагаемом формате, независящем от демонстрации, потребуется только 4 аудиодорожки полной длительности, плюс набор отдельных аудиодорожек различной длительности, которые уменьшают таким образом, чтобы они покрывали только намеченную длительность узких источников аудио.
Краткое описание чертежей
На фиг.1 показан вариант осуществления способа для, имея данный набор начальных звуковых дорожек, выбора и кодирования их, и наконец, декодирования и оптимального воспроизведения в произвольном демонстрационном комплексе.
На фиг.2 показана схема предлагаемого формата, независящего от демонстрации, с двумя группами аудио: списка воспроизведения узкого аудио с пространственной информацией и дорожками амбиофонии.
На фиг.3 показан декодер, использующий различные алгоритмы для обработки любой из групп аудио.
На фиг.4 показан вариант осуществления способа, которым можно перекодировать две группы аудио.
На фиг.5 показан вариант осуществления, в котором независящий от демонстрации формат можно основать на аудиопотоках, вместо полных аудиофайлов, сохраненных на дисках или в памяти других типов.
На фиг.6 показан дополнительный вариант осуществления способа, в котором независящий от демонстрации формат вводят в декодер, который может воспроизводить контент в любом демонстрационном комплексе.
На фиг.7 показаны некоторые технические детали процесса ротации, который соответствует простым операциям, проводимым с обеими группами аудио.
На фиг.8 показан вариант осуществления способа в рабочем окружении аудиовизуального постпроизводства.
На фиг.9 показан дополнительный вариант осуществления, в виде части производства аудио и постпроизводства в виртуальной сцене (например, в анимационном кино или трехмерной игре).
На фиг.10 показан дополнительный вариант осуществления способа, в виде части цифрового сервера фильмов.
На фиг.11 показан альтернативный вариант осуществления способа для кино, в котором контент можно декодировать до распределения.
Подробное описание предпочтительных вариантов осуществления
На фиг.1 показан вариант осуществления способа для, имея данный набор начальных аудиодорожек, выбора и кодирования их, и, наконец, декодирования и оптимального воспроизведения в произвольном демонстрационном комплексе. Таким образом, для данного расположения громкоговорителей, пространственное звуковое поле будет реконструировано максимально качественно, адаптировано для имеющихся громкоговорителей, и увеличивая область оптимального воспроизведения до максимально возможного предела. Первоначальный звук может исходить из любого источника, например: используя любой тип микрофона с любой диаграммой направленности или любой амплитудно-частотной чувствительностью; используя амбиофонические микрофоны, способные выдавать амбиофонические сигналы любого порядка или смешанного порядка; или используя синтезированное аудио, или спецэффекты, такие как комнатная реверберация.
Процесс выбора и кодирования состоит из создания двух групп дорожек из первоначального аудио. Первая группа состоит из тех частей аудио, которые требуют узкой локализации, в то время как вторая группа состоит из оставшегося аудио, для которого достаточно направленности данного порядка амбиофонии. Аудиосигналы, распределенные в первую группу, содержат в моноаудиодорожках, вместе с пространственными метаданными о направлении источника во времени, и временем первоначального воспроизведения.
Выбор представляет собой процесс, проводимый пользователем, хотя над некоторыми типами первоначального аудио можно выполнять действия по умолчанию. В общем случае (т.е. для не амбиофонических аудиодорожек), пользователь определяет, для каждого элемента изначального аудио, направление источника и тип источника: узкий или амбиофонический источник, в соответствии с описанными ранее группами кодирования. Углы направления можно определить, например, азимутом и углом возвышения источника по отношению к слушателю, и его можно указывать как фиксированные значения для дорожки, или как данные, изменяющиеся со временем. Если для некоторых дорожек направление не указывают, можно определить назначение по умолчанию, например, назначая таким дорожкам данное фиксированное постоянное направление.
Дополнительно, углы направления может сопровождать параметр разнесения. Термины разнесенный и узкий, в данном контексте необходимо понимать как угловую ширину воспринимаемой звуковой картины источника. Например, можно квантифицировать разнесение, используя значения на интервале [0, 1], где значение 0 обозначает точно направленный звук (то есть звук, исходящий от только одного четко определенного направления), и значение 1 обозначает звук, исходящий со всех направлений с одинаковой энергетикой.
Для некоторых типов первоначальных дорожек, можно определить действия по умолчанию. Например, дорожки, идентифицированные как стереопары, можно помещать в амбиофоническую группу с азимутами -30 и 30 градусов для левого и правого каналов, соответственно. Дорожки, идентифицированные как surround 5.1 (ITU-R775-1), можно, аналогично, назначать на азимуты -30, 0, 30, -110, 110 градусов. И, наконец, дорожки, идентифицированные как амбиофонические первого порядка (или B-формат), можно назначать в группу амбиофонии без запроса дополнительной информации о направленности.
Процесс кодирования с фиг.1 получает вышеупомянутую определенную пользователем информацию и выдает независящий от демонстрации аудиоформат с пространственной информацией, как описано на фиг.2. Выходные данные процесса кодирования представляют собой, для первой группы, набор моноаудиодорожек с аудиосигналами, соответствующими различным источникам звука, с ассоциированными пространственными метаданными, включающими в себя направления источника в соответствии с данной системой отсчета, или параметрами разнесения аудио. Выходные данные процесса преобразования для второй группы аудио представляют собой один единый набор амбиофонических дорожек выбранного порядка (например, 4 дорожки, если выбрана амбиофония первого порядка), который соответствует смешению всех источников в амбиофонической группе.
Затем, выходные данные процесса кодирования использует декодер, который использует информацию о выбранном демонстрационном комплексе для создания одной аудиодорожки или поток аудио для каждого канала комплекса.
На фиг.3 показан декодер, использующий различные алгоритмы для обработки каждой из групп аудио. Группу амбиофонических дорожек декодируют с использованием подходящих для конкретного комплекса амбиофонических декодеров. Дорожки в списке воспроизведения узконаправленного аудио декодируют, используя алгоритмы, подходящие для этой цели; они используют пространственную информацию из метаданных каждой дорожки для декодирования, обычно, с использованием очень малого количества громкоговорителей вокруг намеченного местоположения каждой дорожки. Одним из примеров такого алгоритма является векторный амплитудный перенос. Метаданные времени используют для начала воспроизведения каждого такого аудио в правильный момент. Наконец, декодированные каналы отправляются для воспроизведения на громкоговорители или наушники.
На фиг.4 показан дополнительный вариант осуществления способа, которым две группы аудио можно перекодировать. В общем случае, процесс перекодирования принимает на вход список воспроизведения узконаправленного аудио, содержащий в себе N разных аудиодорожек с ассоциированными метаданными направленности, и набор амбиофонических дорожек данного порядка P, и данный тип смеси A (например, она может содержать в себе все дорожки нулевого и первого порядка, но только две дорожки, соответствующие сигналам второго порядка). Выходные данные процесса перекодирования представляет собой список воспроизведения узконаправленного аудио, который содержит в себе М разных аудиодорожек с ассоциированными метаданными направленности, и набор амбиофонических дорожек данного порядка Q, с данным типом смеси B. В процессе перекодирования, M, Q, B могут отличаться от N, P, A, соответственно.
Перекодирование можно использовать, например, для уменьшения количества содержащихся данных. Этого можно достигнуть, например, путем выбора одной или нескольких дорожек, содержащихся в списке воспроизведения узконаправленного аудио, и переназначения их в группу амбиофонии, конвертируя, с использованием ассоциированной с монодорожкой информации направленности моно, в амбиофонию. В этом случае, становится возможным достигнуть M<N, за счет использования амбиофонической локализации для перекодированного аудио узкой направленности. С этой же целью можно уменьшить количество дорожек амбиофонии, например, оставив только те, которые необходимы для воспроизведения в плоскостных демонстрационных комплексах. В тех случаях, когда количество сигналов амбиофонии для данного P описывается формулой (P+1)*2, уменьшение до плоскостных комплексов уменьшает это количество до 1+2*P.
Другим применением процесса перекодирования является уменьшение количества одновременных аудиодорожек, требуемых данным списком воспроизведения узконаправленного аудио. Например, в вещательных применениях желательно ограничить количество аудиодорожек, которые проигрываются одновременно. Опять-таки, этого можно добиться, переназначив ряд дорожек из списка воспроизведения узконаправленного аудио в группу амбиофонии.
Список воспроизведения узконаправленного аудио может содержать в себе необязательные метаданные, описывающие релевантность содержащегося в нем аудио, которое представляет из себя описание важности декодирования каждого из аудио с использованием алгоритмов для узконаправленных источников. Эти метаданные можно использовать для автоматического назначения наименее релевантного аудио в группу амбиофонии.
Другое использование процесса перекодирования заключается в том, чтобы просто позволить пользователю назначать аудио в списке воспроизведения узконаправленного аудио в группу амбиофонии, или для изменения порядка и типа смешения группы амбиофонии с эстетическими целями. Также возможно назначать аудио из группы амбиофонии в список воспроизведения узконаправленного аудио: одной из возможностей является выбор части дорожки нулевого порядка и назначения ей пространственных метаданных вручную; другой возможностью является использование алгоритмов, которые вычисляют месторасположения источника из дорожек амбиофонии, такие как алгоритм DirAC.
На фиг.5 показан дополнительный вариант осуществления настоящего изобретения, в котором предлагаемый формат, независящий от демонстрации, может быть основан на аудиопотоках, вместо полных аудиофайлов, хранимых на дисках или других типах памяти. В вещательных сценариях использования полоса пропускания, выделенная под аудио, ограничена и фиксирована, и, вследствие этого, количество аудиоканалов, которые можно одновременно передавать. Предлагаемый способ состоит, во-первых, в разделении существующих аудиопотоков между двумя группами, потоков узкой направленной и амбиофонических потоков, и, во-вторых, перекодировании промежуточного файлового формата, независящего от демонстрации, в ограниченное количество потоков.
Такое перекодирование использует технологии, описанные в предыдущих параграфах, для уменьшения, если требуется, количества одновременных дорожек и для части узконаправленного аудио (переназначая дорожки с низкой релевантностью в группу амбиофонии), и для амбиофонической части (путем удаления амбиофонических компонент).
У передачи аудио есть дополнительные особенности, такие, как необходимость конкатенации дорожек узконаправленного аудио в непрерывные потоки, и необходимость перекодировать метаданные направленности узконаправленного аудио в доступные методы передачи. Если формат передачи аудио не позволяет передавать такие метаданные направленности, нужно выделить одну аудиодорожку для передачи этих метаданных, соответственным образом перекодированных.
Следующий простой пример должен послужить целям более детального объяснения. Рассмотрим звуковую дорожку фильма, в предлагаемом формате, не зависящем от демонстрации, использующий амбиофонию первого порядка (4 канала) и список воспроизведения узконаправленного аудио, с максимальным количеством каналов одновременного воспроизведения, равным 4. Эту звуковую дорожку нужно передать на цифровой телевизор, используя только 6 его каналов. Как показано на фиг.5, перекодирование использует 3 канал амбиофонии (удаляя канал Z) и два канала узконаправленного аудио (таким образом, переназначая максимум две одновременно воспроизводимые дорожки в группу амбиофонии).
Необязательно, предлагаемый формат, независящий от демонстрации, может использовать компрессию аудиоданных. Ее можно использовать при обоих типах предлагаемого формата, независящего от демонстрации: файловом и потоковом. Когда используют психоакустические форматы с потерями, компрессия может влиять на качество пространственной реконструкции.
На фиг.6 показан дополнительный вариант осуществления этого способа, в котором формат, не зависящий от демонстрации, подают на вход декодера, способного воспроизвести контент в любом демонстрационном комплексе. Специфицирование демонстрационного комплекса можно выполнить несколькими различными путями. Декодер может обладать стандартными предварительными настройками, такими, как surround 5.1 (ITU-R775-1), из которых пользователь может выбрать совпадающий с его демонстрационным комплексом. Выбор может предусматривать необязательную подстройку, для подстройки более точного совпадения с месторасположением громкоговорителей конкретной пользовательской конфигурации. Существует необязательная возможность использовать некую систему автоопределения, способную локализовать местоположение каждого громкоговорителя, например, при помощи звуковой, ультразвуковой, или инфракрасной технологии. Спецификацию демонстрационного комплекса можно переконфигурировать неограниченное количество раз, обеспечивая для пользователя возможность адаптироваться к любому существующему или будущему демонстрационному комплексу. Декодер может обладать множеством выходов, так, чтобы различные процессы декодирования можно было бы выполнять одновременно, для одновременного воспроизведения в различных комплексах. В идеале, декодирование выполняется до любого возможного уравнивания системы воспроизведения.
В том случае, если в качестве системы воспроизведения используются наушники, декодирование выполняют способами стандартной технологии стереофонии. Используя одну или различные базы данных функций передачи, учитывающей особенности восприятия (HRTF), возможно производить пространственный звук, используя алгоритмы, адаптированные для обеих групп аудио, предлагаемых в настоящем способе: списка воспроизведения узконаправленного аудио и дорожек амбиофонии. Обычно этого добиваются, используя вышеописанные алгоритмы для декодирования на виртуальный комплекс из нескольких громкоговорителей, и, затем, свертывая каждый канал с HRTF, соответствующему местоположению виртуального громкоговорителя.
Один из дополнительных вариантов осуществления способа позволяет осуществлять, на этапе демонстрации, финальное вращение всей звуковой сцены как для демонстрации в комплексе из нескольких громкоговорителей, так и для наушников. Это может оказаться полезным в различных случаях. В одном из применений, пользователь в наушниках может обладать механизмом отслеживания положения головы, измеряющий параметры ориентации его головы для соответствующего вращения всей звуковой сцены.
На фиг.7 показаны некоторые технические детали, касающиеся процесса поворота, который соответствует простым операциям с обеими группами аудио. Вращение дорожек амбиофонии выполняют, применяя различные матрицы вращения к каждому порядку амбиофонии. Эта процедура хорошо известна. С другой стороны, пространственные метаданные, ассоциированные с каждой дорожкой из списка воспроизведения узконаправленного аудио можно модифицировать простым вычислением азимута и угла возвышения источника, с которых этот звук воспримет пользователь с данной ориентацией. И снова, это представляет собой простое обычное вычисление.
На фиг.8 показан вариант осуществления способа в рабочем окружении аудиовизуального постпроизводства. Пользователь обладает всем контентом в его постпроизводственном программном обеспечении, которое может представлять собой рабочую станцию обработки цифрового звука. Пользователь указывает направление каждого источника, нуждающегося в локализации, используя либо стандартные, либо специальные модули. Для генерации предлагаемого промежуточного формата, не зависящего от демонстрации, она выбирает аудио, которое должно быть кодировано в список воспроизведения монодорожек, и аудио, которое будет кодировано в группу амбиофонии. Это назначение можно осуществлять разными путями. В одном из вариантов осуществления, пользователь, при помощи модуля, назначает коэффициент направленности для каждого из источников аудио; это назначение затем используют для автоматического назначения всех источников с коэффициентом направленности, превышающим данное значение, в список воспроизведения узконаправленного аудио, и оставшееся аудио в группу амбиофонии. В другом варианте осуществления, некоторые назначения выполняет программное обеспечение; например, реверберантная часть всего аудио, равно как и все аудио, которое было записано с использованием амбиофонических микрофонов, можно назначить в группу амбиофонии, если иное не указано пользователем. Как альтернатива, все назначения можно осуществлять вручную.
Когда назначения завершены, программное обеспечение использует специальные модули для генерации списка воспроизведения узконаправленного аудио и дорожек амбиофонии. В этой процедуре кодируют метаданные о пространственных свойствах списка воспроизведения узконаправленного аудио. Аналогично, направление, и, необязательно, разнесение, аудиоисточников, которые назначены в группу амбиофонии, используют для трансформации моно или стерео в амбиофонию, путем применения стандартных алгоритмов. Таким образом, результатом этапа постпроизводства аудио является промежуточный формат, не зависящий от демонстрации, со списком воспроизведения узконаправленного аудио и набором каналов амбиофонии данного порядка и смешения.
В этом варианте осуществления может оказаться полезной генерация более одного набора каналов амбиофонии для создания других версий. Например, если будут производить версии одного и того же фильма на разных языках, полезным будет закодировать во второй набор дорожек амбиофонии все аудио, имеющее отношение к диалогам, включая реверберантную часть диалогов. Используя данный способ, единственное изменение, которое потребуется для производства версии на другом языке, состоит в замене сухих диалогов, содержащихся в списке воспроизведения узконаправленного аудио, и реверберантной части диалогов, содержащихся во втором наборе дорожек амбиофонии.
На фиг.9 показан дополнительный вариант осуществления данного способа, как части производства аудио и постпроизводства в виртуальной сцене (например, в анимационном фильме или трехмерной игре). В виртуальной сцене, доступна информация о месторасположении и ориентации источников звука и слушателя. Возможно также наличие информации о трехмерной геометрии сцены, равно как и о материалах, в ней присутствующих. Необязательный расчет реверберации можно автоматически вычислять, используя моделирование акустики комнаты. В этом контексте, кодирование звуковой сцены в промежуточный формат, не зависящий от демонстрации, можно упростить. С одной стороны, возможно назначить аудиодорожки каждому источнику, и кодировать положение по отношению к слушателю в каждый момент, просто автоматически рассчитывая их из соответственных местоположений и ориентаций, вместо того, чтобы указывать их позднее, на этапе постпроизводства. Также можно решить, как много реверберации кодировать в группу амбиофонии, присваивая прямой звук каждого источника, равно как и определенное число первых отражений звука, в список воспроизведения узконаправленного аудио, и оставшуюся часть реверберации в группу амбиофонии.
На фиг.10 показан дополнительный вариант осуществления способа, как части цифрового сервера кино. В этом случае, один и тот же аудиоконтент можно распределять по кинотеатрам в описанном формате, не зависящем от демонстрации, состоящем из списка воспроизведения узконаправленного аудио, плюс набора дорожек амбиофонии. В каждом кинотеатре можно установить декодер, со спецификацией конкретного комплекса из нескольких громкоговорителей, который можно вводить вручную, либо при помощи механизма автоопределения какого-либо типа. В частности, автоматическое определение комплекса можно легко встроить в систему, которая, одновременно, вычисляет уравнивание, необходимое для каждого громкоговорителя. Этот этап может состоять из измерения импульсной реакции каждого громкоговорителя в данном кинотеатре, для вычисления и местоположения громкоговорителя, и обратного фильтра, требующегося для его уравнивания. Измерение импульсной реакции, которое можно выполнять различными существующими способами (такими, как синусоидальной развертки или последовательностями MLS), и соответствующее вычисление местоположения громкоговорителя представляет собой процедуру, которую не надо выполнять часто, но, напротив, только когда характеристики места размещения или комплекса изменяются. В любом случае, после того, как декодер обладает спецификацией комплекса, контент можно декодировать оптимальным образом в формат одной дорожки на канал, готовый к воспроизведению.
На фиг.11 показан альтернативный вариант осуществления способа для кино, в котором контент можно декодировать до распределения. В этом случае декодер должен обладать спецификацией каждого комплекса кино, так, чтобы можно было генерировать несколько версий одной дорожки на канал, которые затем распределяют. Это применение полезно, например, для доставки контента в кинотеатры, не оборудованные декодером, совместимым с предлагаемым в настоящем документе форматом, независящим от демонстрации. Также это может оказаться полезным для проверки или сертификации качества аудио, которое адаптировано для конкретного комплекса до его распределения.
В дополнительном варианте осуществления этого способа, некоторые из списка воспроизведения узконаправленного аудио можно редактировать без обращения к изначальному мастер-проекту. Например, некоторые из метаданных, описывающих положение источников или их разнесение, можно изменять.
Несмотря на то, что предшествующее показано и описано со ссылкой на конкретные варианты осуществления изобретения, специалисты в данной области поймут, что различные другие изменения формы и подробностей можно выполнять без отхода от области и духа данного изобретения. Необходимо понимать, что различные изменения можно вносить для адаптации к различным вариантам осуществления, без отхода от широких концепций, раскрытых в данном документе и описанных в приложенной формуле изобретения.

Claims (26)

1. Способ кодирования аудиосигналов и относящейся к ним пространственной информации в формат, не зависящий от схемы воспроизведения, причем способ включает в себя:
a. назначение первого набора аудиосигналов в первую группу, и кодирование первой группы в качестве набора моноаудиодорожек с ассоциированными метаданными, описывающими направление источника сигнала каждой дорожки по отношению к позиции записи и время начала его воспроизведения;
b. назначение второго набора аудиосигналов во вторую группу, и кодирование второй группы в качестве, по меньшей мере, одного набора дорожек амбиофонии данного порядка и смешения порядков; и
c. генерирование двух групп дорожек, содержащих первый и второй набор аудиосигналов.
2. Способ по п.1, дополнительно содержащий кодирование параметров разнесения, ассоциированных с дорожками в наборе моноаудиодорожек.
3. Способ по п.1, дополнительно содержащий кодирование дополнительных параметров направленности, ассоциированных с дорожками в наборе моноаудиодорожек.
4. Способ по п.1, дополнительно содержащий получение направления источника сигналов для дорожек в первом наборе из любого трехмерного представления сцены, содержащей звуковые источники, ассоциированные с дорожками, и положение записи.
5. Способ по п.1, дополнительно содержащий назначение направления источника сигналов для дорожек в первом наборе в соответствии с предварительно определенными правилами.
6. Способ по п.1, дополнительно содержащий кодирование параметров направленности для каждой дорожки в первом наборе либо в виде фиксированных постоянных значений, либо значений, изменяющихся со временем.
7. Способ по п.1, дополнительно содержащий кодирование метаданных, описывающих спецификацию используемого формата амбиофонии, например, порядок амбиофонии, тип смешения порядков, коэффициенты усиления дорожек, и упорядочивание дорожек.
8. Способ по п.1, дополнительно содержащий кодирование времени начала воспроизведения, ассоциированное с дорожками амбиофонии.
9. Способ по п.1, дополнительно содержащий кодирование входных моносигналов с ассоциированными данными направленности в дорожки амбиофонии данного порядка и смешения порядков.
10. Способ по п.1, дополнительно содержащий кодирование любых входных многоканальных сигналов в дорожки амбиофонии данного порядка и смешения порядков.
11. Способ по п.1, дополнительно содержащий кодирование любых входных амбиофонических сигналов любого порядка и смешения порядков в дорожки амбиофонии, возможно, другого данного порядка и смешения порядков.
12. Способ по п.1, дополнительно содержащий перекодирование формата, не зависящего от схемы воспроизведения, причем перекодирование включает в себя, по меньшей мере, одно из следующего:
a. назначение дорожек из набора монодорожек в набор амбиофонии;
b. назначение частей аудио из набора амбиофонии в набор монодорожек, возможно, включая полученную информацию о направленности из амбиофонических сигналов;
c. изменение порядка или смешения порядков набора дорожек амбиофонии;
d. изменение метаданных направленности, ассоциированных с набором монодорожек;
e. изменение дорожек амбиофонии посредством выполнения операций, таких как вращение и масштабирование.
13. Способ по п.12, дополнительно содержащий перекодирование формата, не зависящего от схемы воспроизведения, в формат, применимый для широковещательной передачи, причем перекодирование удовлетворяет следующим ограничениям: фиксированное количество непрерывных аудиопотоков, использование доступных протоколов для передачи метаданных, содержащихся в формате, независящем от схемы воспроизведения.
14. Способ по п.1, дополнительно содержащий декодирование формата, не зависящего от схемы воспроизведения для данного комплекса из нескольких громкоговорителей, причем декодирование использует спецификацию позиций нескольких громкоговорителей для:
a. декодирования набора монодорожек с использованием алгоритмов, применимых для воспроизведения узконаправленных звуковых источников;
b. декодирования набора дорожек амбиофонии при помощи алгоритмов, адаптированных для порядка дорожек и смешения порядков, и для специфицированного комплекса.
15. Способ по п.14, дополнительно содержащий использование параметров разнесения, и, возможно, других пространственных метаданных, ассоциированных с набором монодорожек для использования алгоритмов декодирования, применимых для специфицированного разнесения.
16. Способ по п.14, дополнительно содержащий использование стандартных предварительных настроек схем воспроизведения, например, стерео и surround 5.1, ITU-R775-1.
17. Способ по п.14, дополнительно содержащий декодирование для наушников, посредством стандартной технологии стереофонии, с использованием баз данных функций передачи, учитывающей особенности восприятия.
18. Способ по п.14, дополнительно содержащий использование параметров управления вращением, для выполнения вращения полной звуковой сцены, причем такие параметры управления могут быть сформированы, например, устройствами, отслеживающими положение головы.
19. Способ по п.14, дополнительно содержащий использование технологии для автоматического получения позиции громкоговорителей, для определения спецификации комплекса для использования декодером.
20. Способ по п.14 или 17, в котором выходные данные декодирования сохраняют в качестве набора аудиодорожек, вместо непосредственного воспроизведения.
21. Способ по п.1, 12, 13, 14 или 17, при помощи которого аудиосигналы, целиком или частично, кодируются в сжатые аудиоформаты.
22. Аудиокодер для кодирования аудиосигналов и относящейся к ним пространственной информации в формат, не зависящий от схемы воспроизведения, причем кодер включает в себя:
a. кодер для назначения первого набора аудиосигналов в первую группу и кодирования первой группы в набор монодорожек с информацией о направленности и времени начала воспроизведения;
b. кодер для назначения второго набора аудиосигналов во вторую группу и кодирования второй группы в набор дорожек амбиофонии любого порядка и смешения порядков; и
c. кодер для генерации двух групп дорожек, содержащих первый и второй набор аудиосигналов.
23. Перекодировщик аудио для перекодирования аудио во входном формате, не зависящем от схемы воспроизведения, причем перекодировщик выполнен с возможностью выполнения, по меньшей мере, одного из нижеследующего:
a. назначать дорожки из набора монодорожек в набор амбиофонии;
b. назначать части аудио из набора амбиофонии в набор монодорожек, по возможности включая полученную из сигналов амбиофонии информацию о направленности;
c. изменять порядок или смешение порядков набора дорожек амбиофонии;
d. изменять метаданные направленности, ассоциированные с набором монодорожек;
e. изменять дорожки амбиофонии посредством таких операций, как вращение и масштабирование.
24. Аудиодекодер для декодирования формата, не зависящего от схемы воспроизведения, для данной системы воспроизведения с N каналами, причем формат, не зависящий от схемы воспроизведения, генерируют в соответствии со способом по п.1, причем аудиодекодер содержит:
a. декодер для декодирования набора монодорожек с информацией о направленности и времени начала воспроизведения в N аудиоканалов на основании спецификации комплекса воспроизведения,
b. декодер для декодирования набора дорожек амбиофонии в N аудиоканалов на основании спецификации комплекса воспроизведения,
c. микшер для смешения выходных данных двух предыдущих декодеров для генерации N выходных аудиоканалов, готовых для воспроизведения или сохранения.
25. Система для кодирования и перекодирования пространственного аудио в формате, не зависящем от схемы воспроизведения, и для декодирования и воспроизведения в любом комплексе нескольких громкоговорителей, или для наушников, причем система содержит:
a. аудиокодер для кодирования набора аудиосигналов и относящейся к ним пространственной информации в формат, не зависящий от схемы воспроизведения, как в п.22,
b. перекодировщик и преобразователь аудио для манипулирования и перекодирования аудио во входном формате, не зависящем от схемы воспроизведения, как в п.23,
c. аудиодекодер для декодирования формата, не зависящего от схемы воспроизведения, для данной системы воспроизведения, либо комплекса нескольких громкоговорителей, либо наушников, как в п.24.
26. Преобразователь аудио для манипулирования аудио во входном формате, не зависящем от схемы воспроизведения, причем выходные данные преобразуются в соответствии со способом по п.12.
RU2011131868/08A 2008-12-30 2009-12-29 Способ и устройство для кодирования и оптимальной реконструкции трехмерного акустического поля RU2533437C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08382091.0A EP2205007B1 (en) 2008-12-30 2008-12-30 Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
EP08382091.0 2008-12-30
PCT/EP2009/009356 WO2010076040A1 (en) 2008-12-30 2009-12-29 Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction

Publications (2)

Publication Number Publication Date
RU2011131868A RU2011131868A (ru) 2013-02-10
RU2533437C2 true RU2533437C2 (ru) 2014-11-20

Family

ID=40606571

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011131868/08A RU2533437C2 (ru) 2008-12-30 2009-12-29 Способ и устройство для кодирования и оптимальной реконструкции трехмерного акустического поля

Country Status (8)

Country Link
US (1) US9299353B2 (ru)
EP (2) EP2205007B1 (ru)
JP (1) JP5688030B2 (ru)
CN (1) CN102326417B (ru)
MX (1) MX2011007035A (ru)
RU (1) RU2533437C2 (ru)
UA (1) UA106598C2 (ru)
WO (1) WO2010076040A1 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2770438C1 (ru) * 2020-02-19 2022-04-18 Ямаха Корпорейшн Способ обработки звукового сигнала и устройство обработки звукового сигнала
RU2809587C1 (ru) * 2020-07-30 2023-12-13 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для кодирования звукового сигнала или для декодирования кодированной аудиосцены
US12020714B2 (en) 2015-10-08 2024-06-25 Dolby International Ab Layered coding for compressed sound or sound field represententations

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9591374B2 (en) 2010-06-30 2017-03-07 Warner Bros. Entertainment Inc. Method and apparatus for generating encoded content using dynamically optimized conversion for 3D movies
US10326978B2 (en) 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US9552840B2 (en) * 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
ES2643163T3 (es) * 2010-12-03 2017-11-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para codificación de audio espacial basada en geometría
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
FR2970574B1 (fr) * 2011-01-19 2013-10-04 Devialet Dispositif de traitement audio
EP2637427A1 (en) 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2862370B1 (en) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
TWI590234B (zh) 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
EP2733963A1 (en) * 2012-11-14 2014-05-21 Thomson Licensing Method and apparatus for facilitating listening to a sound signal for matrixed sound signals
KR102028122B1 (ko) * 2012-12-05 2019-11-14 삼성전자주식회사 오디오 장치 및 그의 신호 처리 방법 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
CN108174341B (zh) * 2013-01-16 2021-01-08 杜比国际公司 测量高阶高保真度立体声响复制响度级的方法及设备
US9913064B2 (en) * 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
WO2014160576A2 (en) 2013-03-28 2014-10-02 Dolby Laboratories Licensing Corporation Rendering audio using speakers organized as a mesh of arbitrary n-gons
US9723305B2 (en) 2013-03-29 2017-08-01 Qualcomm Incorporated RTP payload format designs
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
JP6204684B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
JP6228389B2 (ja) * 2013-05-14 2017-11-08 日本放送協会 音響信号再生装置
JP6228387B2 (ja) * 2013-05-14 2017-11-08 日本放送協会 音響信号再生装置
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
WO2015038475A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
EP3056025B1 (en) * 2013-10-07 2018-04-25 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
JP6374980B2 (ja) * 2014-03-26 2018-08-15 パナソニック株式会社 サラウンドオーディオ信号処理のための装置及び方法
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10070094B2 (en) * 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
EP3188504B1 (en) 2016-01-04 2020-07-29 Harman Becker Automotive Systems GmbH Multi-media reproduction for a multiplicity of recipients
FR3046489B1 (fr) 2016-01-05 2018-01-12 Mimi Hearing Technologies GmbH Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions
CN109564760A (zh) * 2016-05-25 2019-04-02 华纳兄弟娱乐公司 通过3d音频定位来生成虚拟或增强现实呈现的方法和装置
US10158963B2 (en) * 2017-01-30 2018-12-18 Google Llc Ambisonic audio with non-head tracked stereo based on head position and time
US10390166B2 (en) 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
AU2018298874C1 (en) * 2017-07-14 2023-10-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
WO2019012133A1 (en) 2017-07-14 2019-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPT OF GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTILAYER DESCRIPTION
US10257633B1 (en) * 2017-09-15 2019-04-09 Htc Corporation Sound-reproducing method and sound-reproducing apparatus
CN109756683B (zh) * 2017-11-02 2024-06-04 深圳市裂石影音科技有限公司 全景音视频录制方法、装置、存储介质和计算机设备
US10714098B2 (en) * 2017-12-21 2020-07-14 Dolby Laboratories Licensing Corporation Selective forward error correction for spatial audio codecs
US10595146B2 (en) 2017-12-21 2020-03-17 Verizon Patent And Licensing Inc. Methods and systems for extracting location-diffused ambient sound from a real-world scene
EP3503102A1 (en) * 2017-12-22 2019-06-26 Nokia Technologies Oy An apparatus and associated methods for presentation of captured spatial audio content
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
CN109462811B (zh) * 2018-11-23 2020-11-17 武汉轻工大学 基于非中心点的声场重建方法、设备、存储介质及装置
CN218839317U (zh) * 2019-10-23 2023-04-11 索尼公司 移动装置
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
CN111263291B (zh) * 2020-01-19 2021-06-11 西北工业大学太仓长三角研究院 一种基于高阶麦克风阵列的声场重构方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018630A1 (en) * 1992-03-02 1993-09-16 Trifield Productions Ltd. Surround sound apparatus
US6628787B1 (en) * 1998-03-31 2003-09-30 Lake Technology Ltd Wavelet conversion of 3-D audio signals
US6718042B1 (en) * 1996-10-23 2004-04-06 Lake Technology Limited Dithered binaural system
EP1416769A1 (en) * 2002-10-28 2004-05-06 Electronics and Telecommunications Research Institute Object-based three-dimensional audio system and method of controlling the same
FR2847376A1 (fr) * 2002-11-19 2004-05-21 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
WO2007074269A1 (fr) * 2005-12-27 2007-07-05 France Telecom Procede de determination d'un mode d'encodage spatial de donnees audio
RU2009115648A (ru) * 2006-09-25 2010-11-10 Долби Лэборетериз Лайсенсинг Корпорейшн (Us) Улучшенное пространственное разрешение звукового поля для систем многоканального воспроизведения аудио посредством получения сигналов с угловыми членами высокого порядка

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3863306B2 (ja) * 1998-10-28 2006-12-27 富士通株式会社 マイクロホンアレイ装置
US8027482B2 (en) * 2003-02-13 2011-09-27 Hollinbeck Mgmt. Gmbh, Llc DVD audio encoding using environmental audio tracks
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
US7672196B1 (en) * 2004-11-16 2010-03-02 Nihon University Sound source localizing apparatus and method
FI20055260A0 (fi) * 2005-05-27 2005-05-27 Midas Studios Avoin Yhtioe Laite, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
WO2007141677A2 (en) * 2006-06-09 2007-12-13 Koninklijke Philips Electronics N.V. A device for and a method of generating audio data for transmission to a plurality of audio reproduction units
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
JP2008061186A (ja) * 2006-09-04 2008-03-13 Yamaha Corp 指向特性制御装置、収音装置および収音システム
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018630A1 (en) * 1992-03-02 1993-09-16 Trifield Productions Ltd. Surround sound apparatus
US6718042B1 (en) * 1996-10-23 2004-04-06 Lake Technology Limited Dithered binaural system
US6628787B1 (en) * 1998-03-31 2003-09-30 Lake Technology Ltd Wavelet conversion of 3-D audio signals
EP1416769A1 (en) * 2002-10-28 2004-05-06 Electronics and Telecommunications Research Institute Object-based three-dimensional audio system and method of controlling the same
FR2847376A1 (fr) * 2002-11-19 2004-05-21 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
WO2007074269A1 (fr) * 2005-12-27 2007-07-05 France Telecom Procede de determination d'un mode d'encodage spatial de donnees audio
RU2009115648A (ru) * 2006-09-25 2010-11-10 Долби Лэборетериз Лайсенсинг Корпорейшн (Us) Улучшенное пространственное разрешение звукового поля для систем многоканального воспроизведения аудио посредством получения сигналов с угловыми членами высокого порядка

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12020714B2 (en) 2015-10-08 2024-06-25 Dolby International Ab Layered coding for compressed sound or sound field represententations
RU2770438C1 (ru) * 2020-02-19 2022-04-18 Ямаха Корпорейшн Способ обработки звукового сигнала и устройство обработки звукового сигнала
RU2809587C1 (ru) * 2020-07-30 2023-12-13 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для кодирования звукового сигнала или для декодирования кодированной аудиосцены

Also Published As

Publication number Publication date
UA106598C2 (uk) 2014-09-25
JP2012514358A (ja) 2012-06-21
US20110305344A1 (en) 2011-12-15
CN102326417A (zh) 2012-01-18
RU2011131868A (ru) 2013-02-10
WO2010076040A1 (en) 2010-07-08
EP2382803A1 (en) 2011-11-02
EP2205007A1 (en) 2010-07-07
CN102326417B (zh) 2015-07-08
EP2382803B1 (en) 2020-02-19
US9299353B2 (en) 2016-03-29
EP2205007B1 (en) 2019-01-09
MX2011007035A (es) 2011-10-11
JP5688030B2 (ja) 2015-03-25

Similar Documents

Publication Publication Date Title
RU2533437C2 (ru) Способ и устройство для кодирования и оптимальной реконструкции трехмерного акустического поля
Zotter et al. Ambisonics: A practical 3D audio theory for recording, studio production, sound reinforcement, and virtual reality
TWI744341B (zh) 使用近場/遠場渲染之距離聲相偏移
CN112262585B (zh) 环境立体声深度提取
Herre et al. MPEG-H 3D audio—The new standard for coding of immersive spatial audio
RU2736274C1 (ru) Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий
JP4993227B2 (ja) 多チャンネル音声フォーマット間の変換のための方法および装置
US20170125030A1 (en) Spatial audio rendering and encoding
US8712061B2 (en) Phase-amplitude 3-D stereo encoder and decoder
RU2617553C2 (ru) Система и способ для генерирования, кодирования и представления данных адаптивного звукового сигнала
TWI442789B (zh) 使用物件式元資料來產生音訊輸出信號之裝置與方法
RU2740703C1 (ru) Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многослойного описания
Wiggins An investigation into the real-time manipulation and control of three-dimensional sound fields
Daniel Evolving views on HOA: From technological to pragmatic concerns
Paterson et al. Producing 3-D audio
Jot et al. Perceptually Motivated Spatial Audio Scene Description and Rendering for 6-DoF Immersive Music Experiences
Tsakostas et al. Binaural rendering for enhanced 3d audio perception
Pfanzagl-Cardone HOA—Higher Order Ambisonics (Eigenmike®)

Legal Events

Date Code Title Description
HZ9A Changing address for correspondence with an applicant