RU2628177C2 - Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука - Google Patents

Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука Download PDF

Info

Publication number
RU2628177C2
RU2628177C2 RU2015150066A RU2015150066A RU2628177C2 RU 2628177 C2 RU2628177 C2 RU 2628177C2 RU 2015150066 A RU2015150066 A RU 2015150066A RU 2015150066 A RU2015150066 A RU 2015150066A RU 2628177 C2 RU2628177 C2 RU 2628177C2
Authority
RU
Russia
Prior art keywords
sound
approximated
sound object
objects
signals
Prior art date
Application number
RU2015150066A
Other languages
English (en)
Other versions
RU2015150066A (ru
Inventor
Хейко ПУРНХАГЕН
Ларс ВИЛЛЕМОЕС
Лейф Йонас САМУЭЛЬССОН
Тони ХИРВОНЕН
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Publication of RU2015150066A publication Critical patent/RU2015150066A/ru
Application granted granted Critical
Publication of RU2628177C2 publication Critical patent/RU2628177C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к кодированию и декодированию аудио сигналов. Технический результат – обеспечение возможности улучшения восстановления звукового объекта. Данная группа изобретений обеспечивает менее сложное и более гибкое регулирование внесенной в систему кодирования звука декорреляции. Согласно раскрытию это достигается посредством вычисления и применения двух весовых коэффициентов, одного для аппроксимированного звукового объекта и одного для декоррелированного звукового объекта, для внесения декорреляции звуковых объектов в систему кодирования звука. 6 н. и 22 з.п. ф-лы, 7 ил.

Description

Перекрестная ссылка на родственные заявки
Настоящая заявка заявляет приоритет предыдущей заявки на патент США № 61/827288, поданной 24 мая 2013 г., содержание которой включено в настоящий документ посредством ссылки во всей полноте.
Область техники изобретения
Раскрытие, описанное в настоящем документе, относится, как правило, к звуковому кодированию. В частности, оно относится к применению и вычислению весовых коэффициентов для декорреляции звуковых объектов в системе кодирования звука.
Настоящее раскрытие является родственным предварительной заявке на патент США № 61/827246, поданной в тот же день, что и настоящая заявка, под названием «Coding of Audio Scenes», с указанием в качестве авторов изобретения Heiko Purnhagen и др. Указанная заявка включена в полном объеме в настоящую заявку посредством ссылки.
Уровень техники
В общепринятых звуковых системах применяется подход на основе каналов. Каждый канал может, например, представлять содержимое одного громкоговорителя или одного массива громкоговорителей. Возможные схемы кодирования для таких систем включают дискретное многоканальное кодирование или параметрическое кодирование, такое как MPEG Surround.
Совсем недавно был разработан новый подход. Этот подход является объектно-ориентированным. В системах, использующих объектно-ориентированный подход, трехмерная звуковая сцена представлена звуковыми объектами и связанными с ними метаданными положения. Данные звуковые объекты перемещаются по трехмерной сцене во время воспроизведения звукового сигнала. Система может дополнительно включать так называемые каналы платформы, которые могут быть описаны как стационарные звуковые объекты, которые непосредственно отображаются в местоположениях громкоговорителей, например, общепринятой звуковой системы, как описано выше. На декодирующей стороне такой системы объекты/каналы платформы могут восстанавливаться с применением сигналов понижающего микширования и матрицы повышающего микширования или восстановления, в которой объекты/каналы платформы восстанавливаются посредством формирования линейной комбинации сигналов понижающего микширования на основе значения соответствующих элементов в матрице восстановления. Проблемой, которая может возникнуть в объектно-ориентированной звуковой системе, особенно при низких целевых скоростях цифрового потока, является то, что корреляция между декодированными объектами/каналами платформы может быть больше, чем она была для кодированных исходных объектов/каналов платформы. Общим подходом для решения таких проблем, а также улучшения восстановления звуковых объектов, например, как в MPEG SAOC, является введение декорреляторов в декодирующее устройство. В MPEG SAOC внесенная декорреляция направлена на восстановление правильной корреляции между звуковыми объектами с учетом конкретного представления звуковых объектов, т.е. в зависимости от того, какой тип устройства воспроизведения подключается к звуковой системе.
Однако известные способы для объектно-ориентированных звуковых систем чувствительны к количеству сигналов понижающего микширования и количеству объектов/каналов платформы и могут дополнительно быть сложной операцией, которая зависит от представления звуковых объектов. Следовательно, в таких системах существует потребность в простых и гибких способах регулирования величины вносимой в декодирующее устройство декорреляции, что обеспечивает возможность улучшения восстановления звукового объекта.
Краткое описание чертежей
Далее приводится описание примерных вариантов осуществления со ссылками на прилагаемые чертежи, на которых:
фиг. 1 представляет собой обобщенную блок-схему системы декодирования звука в соответствии с одним примерным вариантом осуществления;
фиг. 2 в качестве примера показывает формат, в котором системой декодирования звука, показанной на фиг. 1, принимаются матрица восстановления и весовой параметр;
фиг. 3 представляет собой обобщенную блок-схему звукового кодирующего устройства для формирования по меньшей мере одного весового параметра для применения в процессе декорреляции в системе декодирования звука;
фиг. 4 в качестве примера показывает обобщенную блок-схему части кодирующего устройства, приведенного на фиг. 3, для формирования по меньшей мере одного весового параметра;
фиг. 5a-5c в качестве примера показывают отображающие функции, применяемые в части кодирующего устройства, приведенного на фиг. 4.
Все фигуры являются схематическими и, как правило, показывают лишь те части, которые необходимы для разъяснения раскрытия; другие части могут быть упущены или просто подразумеваться. Если не указано иное, подобные части на разных фигурах обозначены подобными позициями.
Подробное описание
В свете вышесказанного целью является предложение кодирующего устройства и декодирующего устройства и связанных с ними способов, которые обеспечивают менее сложное и более гибкое регулирование внесенной декорреляции, благодаря чему обеспечивается возможность улучшения восстановления звуковых объектов.
I. Обзор: декодирующее устройство
Согласно первому аспекту примерные варианты осуществления предлагают способы декодирования, декодирующие устройства и компьютерные программные продукты для декодирования. Предлагаемые способы, декодирующие устройства и компьютерные программные продукты могут, как правило, иметь одни и те же признаки и преимущества.
Согласно примерным вариантам осуществления предлагается способ восстановления частотно-временной мозаики N звуковых объектов. Способ включает этапы: приема М сигналов понижающего микширования; приема матрицы восстановления, обеспечивающей возможность восстановления аппроксимации N звуковых объектов из M сигналов понижающего микширования; применения матрицы восстановления к M сигналам понижающего микширования с целью формирования N аппроксимированных звуковых объектов; подвергания процессу декорреляции по меньшей мере подмножества N аппроксимированных звуковых объектов с целью формирования по меньшей мере одного декоррелированного звукового объекта, на основании чего каждый из по меньшей мере одного декоррелированного звукового объекта соответствует одному из N аппроксимированных звуковых объектов; восстановления частотно-временной мозаики звукового объекта посредством аппроксимированного звукового объекта для каждого из N аппроксимированных звуковых объектов, не имеющих соответствующий декоррелированный звуковой объект; и восстановления частотно-временной мозаики звукового объекта для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, посредством: приема по меньшей мере одного весового параметра, представляющего первый весовой коэффициент и второй весовой коэффициент, взвешивания аппроксимированного звукового объекта посредством первого весового коэффициента, взвешивания декоррелированного звукового объекта, соответствующего аппроксимированному звуковому объекту, посредством второго весового коэффициента и комбинирования взвешенного аппроксимированного звукового объекта с соответствующим взвешенным декоррелированным звуковым объектом.
Системы кодирования/декодирования звука, как правило, делят частотно-временное пространство на частотно-временные мозаики, например, путем применения подходящих банков фильтров для входных звуковых сигналов. Под частотно-временной мозаикой, как правило, подразумевается часть частотно-временного пространства, соответствующая временному интервалу и частотному поддиапазону. Временной интервал может обычно соответствовать длительности временного кадра, используемого в системе кодирования/декодирования звука. Частотный поддиапазон может, как правило, соответствовать одному или нескольким соседним частотным поддиапазонам, определенным банком фильтров, применяемым в системе кодирования/декодирования. В случае, если частотный поддиапазон соответствует нескольким соседним частотным поддиапазонам, определенным банком фильтров, это позволяет иметь неравномерные частотные поддиапазоны в процессе декодирования звукового сигнала, например, более широкие частотные поддиапазоны для верхних частот звукового сигнала. В случае широкого диапазона частот, когда система кодирования/декодирования звука работает во всем диапазоне частот, частотный поддиапазон частотно-временной мозаики может соответствовать всему диапазону частот. Описанный выше способ раскрывает этапы восстановления такой частотно-временной мозаики N звуковых объектов. Тем не менее, следует понимать, что способ может быть повторен для каждой частотно-временной мозаики системы декодирования звука. Также следует понимать, что несколько частотно-временных мозаик могут быть кодированы одновременно. Как правило, соседние частотно-временные мозаики могут немного перекрываться по времени и/или частоте. Например, перекрытие по времени может быть эквивалентно линейной интерполяции элементов матрицы восстановления во времени, то есть от одного временного интервала до следующего. Тем не менее, это раскрытие предназначается для прочих частей системы кодирования/декодирования, и любое перекрытие по времени и/или частоте между соседними частотно-временными мозаиками остается для реализации специалистом.
В данном контексте сигнал понижающего микширования является сигналом, который представляет собой комбинацию одного или нескольких каналов платформы и/или звуковых объектов.
Описанный выше способ обеспечивает гибкий и простой способ восстановления частотно-временной мозаики N звуковых объектов, где уменьшается любая нежелательная корреляция между аппроксимированными N звуковыми объектами. При использовании двух весовых коэффициентов, одного для аппроксимированного звукового объекта и одного для декоррелированного звукового объекта, достигается простая параметризация, которая позволяет обеспечить гибкое регулирование величины вносимой декорреляции.
Кроме того, простая параметризация в способе не зависит от того, какому типу представления подвергаются восстановленные звуковое объекты. Преимущество этого заключается в том, что такой же способ используется независимо от того, какой блок воспроизведения подключен к системе декодирования звука, реализующей данный способ, что приводит к менее сложной системе декодирования звука.
В соответствии с вариантом осуществления для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, по меньшей мере один весовой параметр содержит единственный весовой параметр, из которого выводятся первый весовой коэффициент и второй весовой коэффициент.
Преимущество этого заключается в том, что предлагается простая параметризация для управления величиной, вносимой в систему декодирования звука декорреляции. Этот подход использует единственный параметр, описывающий смесь «сухих» (не декоррелированных) и «влажных» (декоррелированных) вкладов для каждого объекта и частотно-временной мозаики. При использовании единственного параметра необходимая скорость цифрового потока может быть снижена по сравнению с использованием нескольких параметров, например, одного, описывающего влажный вклад, и одного, описывающего сухой вклад.
В соответствии с вариантом осуществления сумма квадратов первого весового коэффициента и второго весового коэффициента равна единице. В этом случае, единственный весовой параметр содержит либо первый весовой коэффициент, либо второй весовой коэффициент. Это может быть простой способ реализации единственного весового параметра для описания смешивания сухих и влажных вкладов для каждого объекта и частотно-временной мозаики. Кроме того, это означает, что восстановленный объект будет иметь такую же энергию, что и аппроксимированный объект.
В соответствии с вариантом осуществления этап подвергания процессу декорреляции по меньшей мере подмножества N аппроксимированных звуковых объектов включает подвергание процессу декорреляции каждого из N аппроксимированных звуковых объектов, на основании чего каждый из N аппроксимированных звуковых объектов соответствует декоррелированному звуковому объекту. Это может еще больше снизить любую нежелательную корреляцию между восстановленными звуковыми объектами, поскольку все восстановленные звуковые объекты основываются как на декоррелированном звуковом объекте, так и на аппроксимированном звуковом объекте.
В соответствии с вариантом осуществления первый и второй весовые коэффициенты являются переменными во времени и по частоте. Следовательно, гибкость системы декодирования звука может увеличиваться по той причине, что для разных частотно-временных мозаик может вноситься разная величина декорреляции. Это также может дополнительно снижать любую нежелательную корреляцию между восстановленными звуковыми объектами и улучшать качество восстановленных звуковых объектов.
В соответствии с вариантом осуществления матрица восстановления является переменной во времени и по частоте. Таким образом, гибкость системы декодирования звука увеличивается по той причине, что параметры, используемые для восстановления или аппроксимации звуковых объектов из сигналов понижающего микширования, могут отличаться для разных частотно-временных мозаик.
Согласно другому варианту осуществления матрица восстановления и по меньшей мере один весовой параметр после получения располагаются в кадре. Матрица восстановления расположена в первом поле кадра с применением первого формата, и по меньшей мере один весовой параметр расположен во втором поле кадра с применением второго формата, тем самым обеспечивая возможность декодирующему устройству, которое поддерживает только первый формат, декодировать матрицу восстановления в первом поле и отбрасывать по меньшей мере один весовой параметр во втором поле. Таким образом, может достигаться совместимость с декодирующим устройством, которое не реализует декорреляцию.
В соответствии с вариантом осуществления способ может дополнительно включать прием L дополнительных сигналов, при этом матрица восстановления дополнительно обеспечивает возможность восстановления аппроксимации N звуковых объектов из M сигналов понижающего микширования и L дополнительных сигналов, и при этом способ дополнительно включает применение матрицы восстановления к M сигналам понижающего микширования и L дополнительным сигналам для формирования N аппроксимированных звуковых объектов. L дополнительных сигналов могут, например, включать по меньшей мере один L дополнительный сигнал, который равен одному из восстанавливаемых N звуковых объектов. Это может улучшить качество конкретного восстановленного звукового объекта. Это может быть предпочтительным в случае, когда один из восстанавливаемых N звуковых объектов представляет собой часть звукового сигнала, которая имеет особое значение, например, звуковой объект, представляющий голос диктора в документальном кинофильме. В соответствии с вариантом осуществления по меньшей мере один из L дополнительных сигналов представляет собой комбинацию по меньшей мере двух из восстанавливаемых N звуковых объектов, тем самым обеспечивая компромисс между скоростью цифрового потока и качеством.
В соответствии с вариантом осуществления M сигналов понижающего микширования охватывают гиперплоскость, и при этом по меньшей мере один из L дополнительных сигналов не лежит в гиперплоскости, охватываемой М сигналами понижающего микширования. Таким образом, один или несколько из L дополнительных сигналов могут представлять размеры сигнала, которые не включены в любой из M сигналов понижающего микширования. Следовательно, качество восстановленных звуковых объектов может увеличиваться. В одном из вариантов осуществления по меньшей мере один из L дополнительных сигналов ортогонален гиперплоскости, охватываемой М сигналами понижающего микширования. Таким образом, весь полный сигнал одного или нескольких из L дополнительных сигналов представляет части звукового сигнала, не включенные ни в один из M сигналов понижающего микширования. Это может повысить качество восстановленных звуковых объектов и в то же время уменьшить требуемую скорость цифрового потока, поскольку по меньшей мере один из L дополнительных сигналов не содержит любую информацию, уже присутствующую в любом из M сигналов понижающего микширования.
Согласно примерным вариантам осуществления предлагается машиночитаемый носитель, содержащий команды машинного кода, предназначенные для выполнения любого способа согласно первому аспекту при выполнении на устройстве, имеющем возможность обработки.
Согласно примерным вариантам осуществления предлагается устройство для восстановления частотно-временной мозаики N звуковых объектов, содержащее: первый принимающий компонент, выполненный с возможностью приема M сигналов понижающего микширования; второй принимающий компонент, выполненный с возможностью приема матрицы восстановления, обеспечивающей возможность восстановления аппроксимации N звуковых объектов из M сигналов понижающего микширования; компонент аппроксимации звукового объекта, расположенный ниже по потоку от первого и второго принимающих компонентов и выполненный с возможностью применения матрицы восстановления к M сигналам понижающего микширования с целью формирования N аппроксимированных звуковых объектов; компонент декорреляции, расположенный ниже по потоку от компонента аппроксимации звукового объекта и выполненный с возможностью подвергать процессу декорреляции по меньшей мере подмножество N аппроксимированных звуковых объектов для формирования по меньшей мере одного декоррелированного звукового объекта, на основании чего каждый из по меньшей мере одного декоррелированного звукового объекта соответствует одному из N аппроксимированных звуковых объектов; при этом второй принимающий компонент дополнительно выполнен с возможностью приема для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, по меньшей мере одного весового параметра, представляющего первый весовой коэффициент и второй весовой коэффициент; и компонент восстановления звукового объекта, расположенный ниже по потоку от компонента аппроксимации звукового объекта, компонента декорреляции и второго принимающего компонента и выполненный с возможностью восстановления частотно-временной мозаики звукового объекта посредством аппроксимированного звукового объекта для каждого из N аппроксимированных звуковых объектов, не имеющих соответствующий декоррелированный звуковой объект; и восстановления частотно-временной мозаики звукового объекта для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, посредством: взвешивания аппроксимированного звукового объекта с помощью первого весового коэффициента; взвешивания декоррелированного звукового объекта, соответствующего аппроксимированному звуковому объекту, с помощью второго весового коэффициента; и комбинирования взвешенного аппроксимированного звукового объекта с соответствующим взвешенным декоррелированным звуковым объектом.
II. Обзор: кодирующее устройство
Согласно второму аспекту примерные варианты осуществления предлагают способы кодирования, кодирующие устройства и компьютерные программные продукты для кодирования. Предлагаемые способы, кодирующие устройства и компьютерные программные продукты могут, как правило, иметь одни и те же признаки и преимущества.
Согласно примерным вариантам осуществления предложен способ в кодирующем устройстве для формирования по меньшей мере одного весового параметра, при этом по меньшей мере один весовой параметр подлежит применению в декодирующем устройстве при восстановлении частотно-временной мозаики конкретного звукового объекта посредством комбинирования взвешенной аппроксимации конкретного звукового объекта на декодирующей стороне с соответствующей взвешенной декоррелированной версией аппроксимированного конкретного звукового объекта на декодирующей стороне, при этом способ включает этапы: приема М сигналов понижающего микширования, являющихся комбинациями по меньшей мере N звуковых объектов, включая конкретный звуковой объект; приема конкретного звукового объекта; вычисления первой величины, указывающей на уровень энергии конкретного звукового объекта; вычисления второй величины, указывающей на уровень энергии, соответствующий уровню энергии аппроксимации конкретного звукового объекта на кодирующей стороне, при этом аппроксимация на кодирующей стороне является комбинацией M сигналов понижающего микширования; вычисления по меньшей мере одного весового параметра на основе первой и второй величины.
Вышеописанный способ раскрывает этапы формирования по меньшей мере одного весового параметра для конкретного звукового объекта в ходе одной частотно-временной мозаики. Тем не менее, следует понимать, что способ может быть повторен для каждой частотно-временной мозаики системы кодирования/декодирования звука и для каждого звукового объекта.
Следует отметить, что мозаичное размещение, т.е. деление звукового сигнала/объекта на частотно-временные мозаики, в системе кодирования звука не должно быть таким же, как мозаичное размещение в системе декодирования звука.
Кроме того, также следует отметить, что аппроксимация конкретного звукового объекта на декодирующей стороне и аппроксимация конкретного звукового объекта на кодирующей стороне могут быть разными аппроксимациями, или они могут быть одинаковыми аппроксимациями.
С целью уменьшения требуемой скорости цифрового потока и уменьшения сложности по меньшей мере один весовой параметр может содержать единственный весовой параметр, из которого выводятся первый весовой коэффициент и второй весовой коэффициент, первый весовой коэффициент для взвешивания аппроксимации конкретного звукового объекта на декодирующей стороне, а второй весовой коэффициент для взвешивания декоррелированной версии аппроксимированного звукового объекта на декодирующей стороне.
С целью предотвращения добавления энергии к восстановленному звуковому объекту на декодирующей стороне восстановленный звуковой объект содержит аппроксимацию конкретного звукового объекта на декодирующей стороне и декоррелированную версию аппроксимированного звукового объекта на декодирующей стороне, сумма квадратов первого весового коэффициента и второго весового коэффициента может быть равна единице. В этом случае единственный весовой параметр может содержать либо первый весовой коэффициент, либо второй весовой коэффициент.
В соответствии с вариантом осуществления этап вычисления по меньшей мере одного весового параметра включает сравнение первой величины и второй величины. Например, могут сравниваться энергия аппроксимированного конкретного звукового объекта и энергия конкретного звукового объекта.
В соответствии с примерными вариантами осуществления сравнение первой величины и второй величины включает вычисление отношения второй величины к первой величине, возведение отношения в степень α и применение отношения, возведенного в степень α, для вычисления весового параметра. Это может повысить гибкость кодирующего устройства. Параметр α может быть равен двум.
В соответствии с примерными вариантами осуществления отношение, возведенное в степень α, подвергается действию возрастающей функции, которая отображает отношение, возведенное в степень α, по меньшей мере на один весовой параметр.
В соответствии с примерными вариантами осуществления первый и второй весовые коэффициенты являются переменными во времени и по частоте.
В соответствии с примерными вариантами осуществления вторая величина, указывающая на уровень энергии, соответствует уровню энергии аппроксимации конкретного звукового объекта на кодирующей стороне, при этом аппроксимация на кодирующей стороне является линейной комбинацией M сигналов понижающего микширования и L дополнительных сигналов, при этом сигналы понижающего микширования и дополнительные сигналы формируются из N звуковых объектов. С целью улучшения восстановления звукового объекта на декодирующей стороне в систему кодирования/декодирования звука могут быть включены дополнительные сигналы.
В соответствии с примерным вариантом осуществления по меньшей мере один из L дополнительных сигналов может соответствовать особо важным звуковым объектам, таким как звуковой объект, представляющий диалог. Таким образом, по меньшей мере один из L дополнительных сигналов может быть равным одному из N звуковых объектов. В соответствии с дополнительными вариантами осуществления по меньшей мере один из L дополнительных сигналов представляет собой комбинацию по меньшей мере двух из N звуковых объектов.
В соответствии с вариантами осуществления M сигналов понижающего микширования охватывают гиперплоскость, и при этом по меньшей мере один из L дополнительных сигналов не лежит в гиперплоскости, охваченной М сигналами понижающего микширования. Это означает, что по меньшей мере один из L дополнительных сигналов представляет размеры сигнала звуковых объектов, которые пропали в процессе формирования M сигналов понижающего микширования, которые могут улучшить восстановление звукового объекта на декодирующей стороне. В соответствии с дополнительными вариантами осуществления по меньшей мере один из L дополнительных сигналов ортогонален гиперплоскости, охватываемой М сигналами понижающего микширования.
Согласно примерным вариантам осуществления предлагается машиночитаемый носитель, содержащий команды машинного кода, предназначенные для выполнения любого способа согласно второму аспекту при выполнении на устройстве, имеющем возможность обработки.
В соответствии с вариантом осуществления предлагается кодирующее устройство для формирования по меньшей мере одного весового параметра, при этом по меньшей мере один весовой параметр подлежит применению в декодирующем устройстве при восстановлении частотно-временной мозаики конкретного звукового объекта посредством комбинирования взвешенной аппроксимации конкретного звукового объекта на декодирующей стороне с соответствующей взвешенной декоррелированной версией аппроксимированного конкретного звукового объекта на декодирующей стороне, при этом устройство содержит: принимающий компонент, выполненный с возможностью приема M сигналов понижающего микширования, являющихся комбинациями по меньшей мере N звуковых объектов, включая конкретный звуковой объект, при этом принимающий компонент дополнительно выполнен с возможностью приема конкретного звукового объекта; вычислительный блок, выполненный с возможностью вычисления первой величины, указывающей на уровень энергии конкретного звукового объекта; вычисления второй величины, указывающей на уровень энергии, соответствующий уровню энергии аппроксимации конкретного звукового объекта на кодирующей стороне, при этом аппроксимация на кодирующей стороне является комбинацией M сигналов понижающего микширования; вычисления по меньшей мере одного весового параметра на основе первой и второй величины.
Примерные варианты осуществления
На фиг. 1 показана обобщенная блок-схема системы 100 декодирования звука для восстановления N звуковых объектов. Система 100 декодирования звука выполняет обработку с частотно-временным разрешением, что означает, что она выполняется на отдельных частотно-временных мозаиках для восстановления N звуковых объектов. Далее описывается работа системы 100 для восстановления одной частотно-временной мозаики N звуковых объектов. N звуковых объектов могут представлять собой один или несколько звуковых объектов.
Система 100 содержит первый принимающий компонент 102, выполненный с возможностью приема М сигналов 106 понижающего микширования. M сигналов понижающего микширования могут представлять собой один или несколько сигналов понижающего микширования. M сигналов 106 понижающего микширования, например, могут представлять собой окружающий сигнал конфигурации 5.1 или 7.1, который является обратно совместимым с существующими системами декодирования звука, такими как Dolby Digital Plus, MPEG или AAC. В других вариантах осуществления М сигналов 106 понижающего микширования не являются обратно совместимыми. Входной сигнал первого принимающего компонента 102 может представлять собой битовый поток 130, из которого принимающий компонент может извлекать М сигналов 106 понижающего микширования.
Система 100 дополнительно содержит второй принимающий компонент 112, выполненный с возможностью приема матрицы 104 восстановления, обеспечивающей возможность восстановления аппроксимации N звуковых объектов из M сигналов 106 понижающего микширования. Матрица 104 восстановления может также называться матрицей повышающего микширования. Входной сигнал 126 второго принимающего компонента 112 может представлять собой битовый поток 126, из которого принимающий компонент может извлекать матрицу 104 восстановления или ее элементы и дополнительную информацию, которая будет более подробно описана ниже. В некоторых вариантах осуществления системы 100 декодирования звука первый принимающий компонент 102 и второй принимающий компонент 112 объединены в один принимающий компонент. В некоторых вариантах осуществления входные сигналы 130, 126 объединены в единый входной сигнал, который может представлять собой битовый поток с форматом, обеспечивающим возможность принимающим компонентам 102, 112 извлекать разную информацию из одного единого входного сигнала.
Система 100 может дополнительно содержать компонент 108 аппроксимации звукового объекта, расположенный ниже по потоку от первого 102 и второго 112 принимающих компонентов и выполненный с возможностью применения матрицы 104 восстановления к M сигналам 106 понижающего микширования для формирования N аппроксимированных звуковых объектов 110. Более конкретно, компонент 108 аппроксимации звукового объекта может выполнять матричную операцию, в которой матрица 104 восстановления умножается на вектор, содержащий M сигналов понижающего микширования. Матрица 104 восстановления может быть переменной во времени и по частоте, то есть значение элементов в матрице 104 восстановления может отличаться для каждой частотно-временной мозаики. Таким образом, элементы матрицы 104 восстановления зависят от того, какая частотно-временная мозаика в настоящее время обрабатывается.
Аппроксимированный
Figure 00000001
звуковой объект
Figure 00000002
на частоте
Figure 00000003
и временном интервале
Figure 00000004
, т.е. частотно-временной мозаике, вычисляется, например, в компоненте 108 аппроксимации звукового объекта, например, посредством
Figure 00000005
для всех частотных выборок
Figure 00000003
в диапазоне частот
Figure 00000006
где
Figure 00000007
представляет собой коэффициент восстановления объекта
Figure 00000002
в диапазоне частот
Figure 00000008
и связан с каналом понижающего микширования
Figure 00000009
. Следует отметить, что коэффициент восстановления
Figure 00000007
предполагается фиксированным на частотно-временной мозаике, но в дополнительных вариантах осуществления коэффициент может изменяться в ходе частотно-временной мозаики.
Система 100 дополнительно содержит компонент 118 декорреляции, расположенный ниже по потоку от компонента 108 аппроксимации звукового объекта. Компонент 118 декорреляции выполнен с возможностью подвергания процессу декорреляции по меньшей мере подмножества 140 N аппроксимированных звуковых объектов 110 для формирования по меньшей мере одного декоррелированного звукового объекта 136. Другими словами, все или только некоторые из N аппроксимированных звуковых объектов 110 подвергаются процессу декорреляции. Каждый из по меньшей мере одного декоррелированного звукового объекта 136 соответствует одному из N аппроксимированных звуковых объектов 110. Точнее, множество декоррелированных звуковых объектов 136 соответствует множеству 140 аппроксимированных звуковых объектов, которое вводится в процессе 118 декорреляции. Назначение по меньшей мере одного декоррелированного звукового объекта 136 заключается в том, чтобы уменьшить нежелательную корреляцию между N аппроксимированными звуковыми объектами 110. Эта нежелательная корреляция может появиться, в частности, при низких целевых скоростях цифрового потока звуковой системы, включающей систему 100 декодирования звука. При низких целевых скоростях цифрового потока матрица восстановления может быть разреженной. Это означает, что многие из элементов в матрице восстановления могут быть равны нулю. В этом случае определенный аппроксимированный звуковой объект 110 может основываться на единственном сигнале понижающего микширования или небольшом числе сигналов понижающего микширования из M сигналов 106 понижающего микширования, увеличивая, таким образом, риск нежелательного внесения корреляции между аппроксимированными звуковыми объектами 110. В соответствии с некоторыми вариантами осуществления каждый из N аппроксимированных звуковых объектов 110 подвергается процессу декорреляции посредством компонента 118 декорреляции, на основании чего каждый из N аппроксимированных звуковых объектов 110 соответствует декоррелированному звуковому объекту 136.
Каждый из N аппроксимированных звуковых объектов 110, подвергаемый процессу декорреляции посредством компонента 118 декорреляции, может подвергаться другому процессу декорреляции, например, посредством применения фильтра белого шума к декоррелируемому аппроксимированному звуковому объекту или посредством применения любого другого подходящего процесса декорреляции, такого как широкополосная фильтрация.
Примеры дополнительных процессов декорреляции могут быть найдены в инструментальном средстве параметрического стереокодирования MPEG (используемого в HE-AAC v2, как описано в стандарте ISO/IEC 14496-3 и в статье: J.
Figure 00000010
, H. Purnhagen, J.
Figure 00000011
, L. Liljeryd, “Synthetic ambience in parametric stereo coding,” в AES 116th Convention, Berlin, DE, May 2004.), MPEG Surround (ISO/IEC 23003-1) и MPEG SAOC (ISO/IEC 23003-2).
Чтобы не вносить нежелательную корреляцию, различные процессы декорреляции взаимно декоррелируются. Согласно другим вариантам осуществления несколько или все аппроксимированные звуковые объекты 110 подвергаются такому же процессу декорреляции.
Система 100 дополнительно содержит компонент 128 восстановления звукового объекта. Компонент 128 восстановления объекта расположен ниже по потоку от компонента 108 аппроксимации звукового объекта, компонента 118 декорреляции и второго принимающего компонента 112. Компонент 128 восстановления объекта выполнен с возможностью восстановления частотно-временной мозаики звукового объекта 142 для каждого из N аппроксимированных звуковых объектов 138, не имеющих соответствующий декоррелированный звуковой объект 136, посредством аппроксимированного звукового объекта 138. Другими словами, если определенный аппроксимированный звуковой объект 138 не подвергался процессу декорреляции, то он просто восстанавливается как аппроксимированный звуковой объект 110, предусмотренный компонентом 108 аппроксимации звукового объекта. Компонент 128 восстановления объекта дополнительно выполнен с возможностью восстановления частотно-временной мозаики звукового объекта для каждого из N аппроксимированных звуковых объектов 110, имеющих соответствующий декоррелированный звуковой объект 136, с применением как декоррелированного звукового объекта 136, так и соответствующего аппроксимированного звукового объекта 110.
Для облегчения данного процесса второй принимающий компонент 112 дополнительно выполнен с возможностью приема для каждого из N аппроксимированных звуковых объектов 110, имеющих соответствующий декоррелированный звуковой объект 136, по меньшей мере одного весового параметра 132. По меньшей мере один весовой параметр 132 представляет собой первый весовой коэффициент 116 и второй весовой коэффициент 114. Первый весовой коэффициент 116, также называемый сухим коэффициентом, и второй весовой коэффициент 114, также называемый влажным коэффициентом, получаются посредством устройства 134 сухого/влажного извлечения по меньшей мере из одного весового параметра 132. Первый и/или второй весовые коэффициенты 116, 114 могут быть переменными во времени и по частоте, то есть значение весовых коэффициентов 116, 114 может отличаться для каждой обрабатываемой частотно-временной мозаики.
В некоторых вариантах осуществления по меньшей мере один весовой параметр 132 содержит первый весовой коэффициент 116 и второй весовой коэффициент 114. В некоторых вариантах осуществления по меньшей мере один весовой параметр 132 содержит единственный весовой параметр. Если это так, устройство 134 влажного/сухого извлечения может получать первый и второй весовые коэффициенты 116, 114 из единственного весового параметра 132 . Например, первый и второй весовые коэффициенты 116, 114 могут удовлетворять определенным зависимостям, которые обеспечивают возможность получения одного из весовых коэффициентов, поскольку другой весовой коэффициент известен. Примером или такой зависимостью может быть то, что сумма квадратов первого весового коэффициента 116 и второго весового коэффициента 114 равна единице. Таким образом, если единственный весовой параметр 132 содержит первый весовой коэффициент 116, то второй весовой коэффициент 114 может получаться как квадратный корень из единицы минус квадрат первого весового коэффициента 116 и наоборот.
Первый весовой коэффициент 116 применяется для взвешивания 122, то есть для умножения, аппроксимированного звукового объекта 110. Второй весовой коэффициент 114 применяется для взвешивания 120, то есть для умножения, соответствующего декоррелированного звукового объекта 136. Компонент 128 восстановления звукового объекта дополнительно выполнен с возможностью комбинирования 124, например, посредством выполнения суммирования взвешенного аппроксимированного звукового объекта 150 с соответствующим взвешенным декоррелированным звуковым объектом 152 для восстановления частотно-временной мозаики соответствующего звукового объекта 142.
Другими словами, для каждого объекта и каждой частотно-временной мозаики величина декорреляции может регулироваться одним весовым параметром 132. В устройстве 134 влажного/сухого извлечения данный весовой параметр 132 преобразуется в весовой коэффициент 116
Figure 00000012
применяемый к аппроксимированному объекту 110, и весовой коэффициент 114
Figure 00000013
применяемый к декоррелированному объекту 136. Сумма квадратов данных весовых коэффициентов равна единице, т.е.
Figure 00000014
что означает, что окончательный объект 142, который является результатом суммирования 124, имеет ту же энергию, что и соответствующий аппроксимированный объект 110.
С целью обеспечения возможности декодирования входных сигналов 126, 130 посредством системы декодирования звука, которая не способна выполнять декорреляцию, то есть для сохранения обратной совместимости с таким устройством декодирования звука, входной сигнал 126 может располагаться в кадре 202, как изображено на фиг. 2. Согласно этому варианту осуществления матрица 104 восстановления располагается в первом поле кадра 202 с применением первого формата, и по меньшей мере один весовой параметр 132 располагается во втором поле кадра 202 с применением второго формата. Таким образом, декодирующее устройство, которое способно считывать первый формат, но не второй формат, может по-прежнему декодировать и использовать матрицу 104 восстановления для повышающего микширования сигнала 106 понижающего микширования любым общепринятым способом. Второе поле кадра 202 может в этом случае отбрасываться.
Согласно некоторым вариантам осуществления система 100 декодирования звука, приведенная на фиг. 1, может дополнительно принимать L дополнительных сигналов 144, например, в первый принимающий компонент 102. Таких дополнительных сигналов может быть один или несколько, т.е.
Figure 00000015
. Эти дополнительные сигналы 144 могут быть включены во входной сигнал 130. Дополнительные сигналы 144 могут быть включены во входной сигнал 130 таким образом, что сохраняется обратная совместимость в соответствии с описанием, приведенным выше, т.е. таким образом, что система декодирования, не способная обрабатывать дополнительные сигналы, по-прежнему может извлекать сигналы 106 понижающего микширования из входного сигнала 130. Матрица 104 восстановления может дополнительно обеспечивать возможность восстановления аппроксимации N звуковых объектов 110 из M сигналов 106 понижающего микширования и L дополнительных сигналов 144. Компонент 108 аппроксимации звукового объекта может, таким образом, быть выполненным с возможностью применения матрицы 104 восстановления к M сигналам 106 понижающего микширования и L дополнительным сигналам 144 с целью формирования N аппроксимированных звуковых объектов 110.
Роль дополнительных сигналов 144 заключается в том, чтобы улучшить аппроксимацию N звуковых объектов в компоненте 108 аппроксимации звукового объекта. Согласно одному примеру по меньшей мере один из дополнительных сигналов 144 равен одному из N восстанавливаемых звуковых объектов. В этом случае вектор в матрице 104 восстановления, используемый для восстановления конкретного звукового объекта, будет содержать только единственный ненулевой параметр, например, параметр со значением один (1). В соответствии с другими примерами по меньшей мере один из L дополнительных сигналов 144 представляет собой комбинацию по меньшей мере двух из N восстанавливаемых звуковых объектов.
В некоторых вариантах осуществления L дополнительных сигналов могут представлять размеры сигнала N звуковых объектов, которые были утерянной информацией в процессе формирования M сигналов 106 понижающего микширования из N звуковых объектов. Это можно объяснить тем, что M сигналов 106 понижающего микширования охватывают гиперплоскость в пространстве сигналов, и что L дополнительных сигналов 144 не лежат в этой гиперплоскости. Например, L дополнительных сигналов 144 могут быть ортогональными гиперплоскости, охватываемой М сигналами 106 понижающего микширования. На основании M сигналов 106 понижающего микширования самих по себе, могут восстанавливаться только сигналы, которые лежат в гиперплоскости, т.е. звуковые объекты, которые не лежат в гиперплоскости, будут аппроксимироваться посредством звукового сигнала в гиперплоскости. При дальнейшем использовании L дополнительных сигналов 144 для восстановления сигналы, которые не лежат в гиперплоскости, также могут быть восстановлены. В результате, аппроксимация звуковых объектов может улучшаться также посредством применения L дополнительных сигналов.
На фиг. 3 в качестве примера показана обобщенная блок-схема устройства 300 кодирования звука для формирования по меньшей мере одного весового параметра 320. По меньшей мере один весовой параметр 320 должен использоваться в декодирующем устройстве, например, системе 100 декодирования звука, описанной выше, при восстановлении частотно-временной мозаики конкретного звукового объекта посредством комбинирования (позиция 124 на фиг.1) взвешенной аппроксимации (позиция 150 на фиг. 1) конкретного звукового объекта на декодирующей стороне с соответствующей взвешенной декоррелированной версией (позиция 152 на фиг. 1) аппроксимированного конкретного звукового объекта на декодирующей стороне.
Кодирующее устройство 300 содержит принимающий компонент 302, выполненный с возможностью приема M сигналов 312 понижающего микширования, являющихся комбинациями по меньшей мере N звуковых объектов, включая конкретный звуковой объект. Принимающий компонент 302 дополнительно выполнен с возможностью приема конкретного звукового объекта 314. В некоторых вариантах осуществления принимающий компонент 302 дополнительно выполнен с возможностью приема сигналов L дополнительных сигналов 322. Как было рассмотрено выше, по меньшей мере один из L дополнительных сигналов 322 может быть равным одному из N звуковых объектов, по меньшей мере один из L дополнительных сигналов 322 может представлять собой комбинацию по меньшей мере двух из N звуковых объектов, и по меньшей мере один из L дополнительных сигналов 322 может содержать информацию, не присутствующую в любом из M сигналов понижающего микширования.
Кодирующее устройство 300 дополнительно содержит вычислительный блок 304. Вычислительный блок 304 выполнен с возможностью вычисления первой величины 316, указывающей на уровень энергии конкретного звукового объекта, например, в первом компоненте 306 вычисления энергии. Первая величина 316 может вычисляться в качестве нормы конкретного звукового объекта. Например, первая величина 316 может быть равна энергии конкретного звукового объекта и, таким образом, может быть вычислена посредством нормы по скалярному квадрату
Figure 00000016
, где
Figure 00000017
обозначает конкретный звуковой объект. Первая величина может альтернативно быть вычислена в качестве другой величины, которая указывает на энергию конкретного звукового объекта, например, как квадратный корень из энергии.
Вычислительный блок 304 дополнительно выполнен с возможностью вычисления второй величины 318, которая указывает на уровень энергии, соответствующий уровню энергии аппроксимации конкретного звукового объекта 314 на кодирующей стороне. Аппроксимация на кодирующей стороне может представлять собой, например, комбинацию, такую как линейная комбинация M сигналов 312 понижающего микширования. В альтернативном варианте аппроксимация на кодирующей стороне может представлять собой комбинацию, такую как линейная комбинация M сигналов 312 понижающего микширования и L дополнительных сигналов 322. Вторая величина может быть вычислена во втором компоненте 308 вычисления энергии.
Затем аппроксимация на кодирующей стороне может, например, быть вычислена посредством не энергетически согласованной матрицы повышающего микширования и M сигналов 312 понижающего микширования. Под термином "не энергетически согласованный" в контексте настоящего описания следует понимать, что аппроксимация конкретного звукового объекта не будет согласована по энергии с самим конкретным звуковым объектом, то есть аппроксимация будет иметь другой уровень энергии, часто ниже, по сравнению с конкретным звуковым объектом 314.
Не энергетически согласованная матрица повышающего микширования может формироваться с применением различных подходов. Например, может применяться прогнозирующий подход минимальной среднеквадратичной ошибки (MMSE), который берет по меньшей мере N звуковых объектов, а также M сигналов 312 понижающего микширования (и, возможно, L дополнительных сигналов 322) в качестве входных данных. Это может быть описано как итеративный подход, который направлен на нахождение матрицы повышающего микширования, которая сводит к минимуму среднеквадратичную ошибку аппроксимации N звуковых объектов. В частности, подход аппроксимирует N звуковых объектов посредством предварительной матрицы повышающего микширования, которая перемножается c M сигналами 312 понижающего микширования (и, возможно, L дополнительными сигналами 322) и сравнивает аппроксимацию с N звуковыми объектами с точки зрения среднеквадратичной ошибки. Предварительная матрица повышающего микширования, которая сводит к минимуму среднеквадратичную ошибку, выбирается в качестве матрицы повышающего микширования, которая применяется для определения аппроксимации конкретного звукового объекта на кодирующей стороне.
При использовании подхода MMSE ошибка прогнозирования e между конкретным звуковым объектом
Figure 00000017
и аппроксимированным звуковым объектом
Figure 00000018
ортогональна
Figure 00000017
. Это значит, что:
Figure 00000019
Другими словами, энергия звукового объекта
Figure 00000017
равна сумме энергии аппроксимированного звукового объекта и энергии ошибки прогнозирования. В связи с вышеприведенным соотношением, энергия ошибки прогнозирования e, таким образом, дает показание энергии аппроксимации на кодирующей стороне
Figure 00000020
Следовательно, вторая величина 318 может быть вычислена с использованием либо аппроксимации конкретного звукового объекта
Figure 00000018
, либо ошибки прогнозирования. Вторая величина может быть вычислена как норма аппроксимации конкретного звукового объекта
Figure 00000018
или норма ошибки прогнозирования e. Например, вторая величина может быть вычислена как норма по скалярному квадрату, т.е.
Figure 00000021
или
Figure 00000022
. Вторая величина может альтернативно быть вычислена как другая величина, которая указывает на энергию аппроксимированного конкретного звукового объекта, например, как корень квадратный из энергии аппроксимированного конкретного звукового объекта или корень квадратный из энергии ошибки прогнозирования.
Вычислительный блок дополнительно выполнен с возможностью вычисления по меньшей мере одного весового параметра 320 на основе первой 316 и второй 318 величины, например, в компоненте 310 вычисления параметра. Компонент 310 вычисления параметра может, например, вычислять по меньшей мере один весовой параметр 320 посредством сравнения первой величины 316 и второй величины 318. Далее со ссылкой на фиг. 4 и фиг. 5а-с подробно описывается типовой компонент 310 вычисления параметра.
На фиг. 4 в качестве примера показана обобщенная блок-схема компонента 310 вычисления параметра для формирования по меньшей мере одного весового параметра 320. Компонент 310 вычисления параметра сравнивает первую величину 316 и вторую величину 318, например, в компоненте 402 вычисления отношения посредством вычисления отношения r второй 318 и первой 316 величин. Отношение затем возводится в степень α, т.е.
Figure 00000023
,
где Q2 - вторая величина 318 и Q1 - первая величина 316. Согласно некоторым вариантам осуществления при
Figure 00000024
и
Figure 00000025
α равно 2, то есть отношение r представляет собой отношение энергии аппроксимированного конкретного звукового объекта и энергии конкретного звукового объекта. Отношение, возведенное в степень α 406, затем используется для вычисления по меньшей мере одного весового параметра 320, например, в отображающем компоненте 404. Отображающий компонент 404 подвергает r 406 воздействию возрастающей функции, отображающей r по меньшей мере на один весовой параметр 320. Такие возрастающие функции представлены в качестве примера на фиг. 5а-с. На фиг. 5а-с горизонтальная ось представляет величину r 406, а вертикальная ось представляет значение весового параметра 320. В этом примере весовой параметр 320 является единственным весовым параметром, который соответствует первому весовому коэффициенту 116 на фиг. 1.
В целом, принцип для отображающей функции представляет собой:
Если Q2 << Q1, то первый весовой коэффициент приближается к 0, и если Q2 ≈ Q1, то первый весовой коэффициент приближается к 1.
На фиг. 5а показана отображающая функция 502, на которой для значений r 406 от 0 до 1 значение r будет таким же, как значение весового параметра 312. Для значений r выше 1 значение весового параметра 320 будет 1.
На фиг. 5b показана другая отображающая функция 504, в которой для значений r 406 от 0 до 0,5 значение весового параметра 320 будет 0. Для значений r выше 1 значение весового параметра 320 будет 1. Для значений r от 0,5 до 1 значение весового параметра 320 будет (r -0,5) * 2.
На фиг. 5c показана третья альтернативная отображающая функция 506, которая обобщает отображающие функции на фиг. 5a-b. Отображающая функция 506 определяется по меньшей мере посредством четырех параметров, b1, b2, β1 и β2, которые могут быть постоянными, настроенными для лучшего качества восприятия восстановленных звуковых объектов на декодирующей стороне. В целом, ограничение максимальной величины декорреляции в выходном звуковом сигнале может быть полезным, поскольку декоррелированный аппроксимированный звуковой объект часто имеет более низкое качество, чем аппроксимированный звуковой объект при прослушивании отдельно. Установка b1 больше нуля управляет этим непосредственно и, таким образом, может обеспечить то, что весовой параметр 320 (и, следовательно, первый весовой коэффициент 116 на фиг.1) будет больше нуля во всех случаях. Установка b2 меньше 1 имеет следствие, что всегда есть минимальный уровень энергии декорреляции на выходе из системы 100 декодирования звука. Другими словами, второй весовой коэффициент 114 на фиг. 1 всегда будет больше нуля. β1 неявно регулирует величину декорреляции, добавленной на выходе из системы 100 декодирования звука, но с разной предусмотренной динамикой (по сравнению с b1). Подобным образом β2 неявно регулирует величину декорреляции на выходе из системы 100 декодирования звука.
В случае криволинейной отображающей функции желательно, чтобы r принимало значения от β1 до β2, причем необходим по меньшей мере один дополнительный параметр, который может быть постоянным.
Эквиваленты, дополнения, альтернативы и прочее
Дополнительные варианты осуществления настоящего раскрытия будут очевидны для специалиста в данной области техники после изучения описания, приведенного выше. Несмотря на то что настоящее описание и графические материалы раскрывают варианты осуществления и примеры, раскрытие не ограничивается данными конкретными примерами. Возможны многочисленные модификации и изменения в пределах объема настоящего раскрытия, определенного прилагаемой формулой изобретения. Любые ссылочные позиции, встречающиеся в формуле изобретения, не должны рассматриваться как ограничивающие ее объем.
Кроме того, после изучения графических материалов, описания и прилагаемой формулы изобретения специалисту могут быть понятными изменения раскрытых вариантов осуществления и могут использоваться им при практической реализации раскрытия. В формуле изобретения слово «содержащий» не исключает другие элементы или этапы, и единственное число не исключает множественное. Сам факт, что некоторые признаки упоминаются во взаимно отличных зависимых пунктах формулы изобретения, не говорит о том, что не может быть использована с выгодой комбинация этих признаков.
Системы и способы, раскрытые выше, могут быть осуществлены в виде программного обеспечения, программно-аппаратного обеспечения, аппаратного обеспечения или их комбинации. При осуществлении в виде аппаратного обеспечения разделение задач между функциональными узлами, о которых говорилось в вышеприведенном описании, необязательно соответствует разделению на физические узлы; наоборот, один физический компонент может выполнять несколько функций, а одно задание может выполняться несколькими физическими компонентами во взаимодействии. Некоторые компоненты или все компоненты могут быть осуществлены в виде программного обеспечения, выполняемого процессором цифровых сигналов или микропроцессором, или быть осуществлены в виде аппаратного обеспечения или в виде зависимой от приложения интегральной микросхемы. Такое программное обеспечение может распространяться на машиночитаемых носителях, которые могут содержать компьютерные носители информации (или постоянные носители) и каналы передачи информации (или временные носители). Как хорошо известно специалисту в области техники, термин «компьютерные носители информации» включает энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или технологией для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители информации включают, но не ограничиваются этим, ОЗУ, ПЗУ, ЭСППЗУ, флеш-память или другую технологию памяти, компакт-диски, компакт-диски формата DVD или другие оптические диски для хранения информации, магнитные кассеты, магнитную ленту, магнитный диск для хранения информации или другие магнитные устройства для хранения информации, или любой другой носитель, который может быть использован для хранения желаемой информации, и который может быть доступным с помощью компьютера. Дополнительно специалисту хорошо известно, что в каналах передачи информации, как правило, осуществлены машиночитаемые команды, структуры данных, программные модули или другие данные в виде модулированного сигнала данных, такого как несущая волна или другой механизм переноса, и включены любые средства для доставки информации.

Claims (59)

1. Способ восстановления частотно-временной мозаики N звуковых объектов, включающий этапы:
приема М сигналов понижающего микширования;
приема матрицы восстановления, обеспечивающей возможность восстановления аппроксимации N звуковых объектов из M сигналов понижающего микширования;
применения матрицы восстановления к M сигналам понижающего микширования для формирования N аппроксимированных звуковых объектов;
подвергания процессу декорреляции по меньшей мере подмножества N аппроксимированных звуковых объектов для формирования по меньшей мере одного декоррелированного звукового объекта, при этом каждый из по меньшей мере одного декоррелированного звукового объекта соответствует одному из N аппроксимированных звуковых объектов;
восстановления частотно-временной мозаики звукового объекта посредством аппроксимированного звукового объекта для каждого из N аппроксимированных звуковых объектов, не имеющих соответствующий декоррелированный звуковой объект; и
восстановления частотно-временной мозаики звукового объекта для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, посредством:
приема единственного весового параметра, из которого выводят первый весовой коэффициент и второй весовой коэффициент,
взвешивания аппроксимированного звукового объекта с помощью первого весового коэффициента,
взвешивания декоррелированного звукового объекта, соответствующего аппроксимированному звуковому объекту, с помощью второго весового коэффициента, и
комбинирования посредством осуществления суммирования взвешенного аппроксимированного звукового объекта с соответствующим взвешенным декоррелированным звуковым объектом для восстановления частотно-временной мозаики аппроксимированного звукового объекта, при этом уровень энергии восстановленной частотно-временной мозаики равен уровню энергии соответствующей частотно-временной мозаики аппроксимированного звукового объекта.
2. Способ по п. 1, в котором сумма квадратов первого весового коэффициента и второго весового коэффициента равна единице, и при этом единственный весовой параметр содержит либо первый весовой коэффициент, либо второй весовой коэффициент.
3. Способ по п. 1 или 2, в котором этап подвергания процессу декорреляции по меньшей мере подмножества N аппроксимированных звуковых объектов включает подвергание процессу декорреляции каждого из N аппроксимированных звуковых объектов, при этом каждый из N аппроксимированных звуковых объектов соответствует декоррелированному звуковому объекту.
4. Способ по п. 1 или 2, в котором первый и второй весовые коэффициенты являются переменными во времени и по частоте.
5. Способ по п. 1 или 2, в котором матрица восстановления является переменной во времени и по частоте.
6. Способ по п. 1 или 2, в котором матрица восстановления и по меньшей мере один весовой параметр при получении расположены в кадре, при этом матрица восстановления расположена в первом поле кадра с применением первого формата, и по меньшей мере один весовой параметр расположен во втором поле кадра с применением второго формата, тем самым обеспечивая возможность декодирующему устройству, которое поддерживает только первый формат, декодировать матрицу восстановления в первом поле и отбрасывать по меньшей мере один весовой параметр во втором поле.
7. Способ по п. 1 или 2, дополнительно включающий прием L дополнительных сигналов, при этом матрица восстановления дополнительно обеспечивает возможность восстановления аппроксимации N звуковых объектов из M сигналов понижающего микширования и L дополнительных сигналов, и при этом способ дополнительно включает применение матрицы восстановления к M сигналам понижающего микширования и L дополнительным сигналам для формирования N аппроксимированных звуковых объектов.
8. Способ по п. 7, в котором по меньшей мере один из L дополнительных сигналов равен одному из N восстанавливаемых звуковых объектов.
9. Способ по п. 7, в котором по меньшей мере один из L дополнительных сигналов представляет собой комбинацию по меньшей мере двух из N восстанавливаемых звуковых объектов.
10. Способ по п. 7, в котором M сигналов понижающего микширования охватывают гиперплоскость, и при этом по меньшей мере один из L дополнительных сигналов не лежит в гиперплоскости, охватываемой М сигналами понижающего микширования.
11. Способ по п. 10, в котором по меньшей мере один из L дополнительных сигналов ортогонален гиперплоскости, охватываемой М сигналами понижающего микширования.
12. Машиночитаемый носитель, содержащий команды машинного кода, предназначенные для выполнения способа по п. 1 или 2, при выполнении на устройстве, имеющем возможность обработки.
13. Устройство для восстановления частотно-временной мозаики N звуковых объектов, содержащее:
первый принимающий компонент, выполненный с возможностью приема M сигналов понижающего микширования;
второй принимающий компонент, выполненный с возможностью приема матрицы восстановления, обеспечивающей возможность восстановления аппроксимации N звуковых объектов из M сигналов понижающего микширования;
компонент аппроксимации звукового объекта, расположенный ниже по потоку от первого и второго принимающих компонентов и выполненный с возможностью применения матрицы восстановления к M сигналам понижающего микширования для формирования N аппроксимированных звуковых объектов;
компонент декорреляции, расположенный ниже по потоку от компонента аппроксимации звукового объекта и выполненный с возможностью подвергать процессу декорреляции по меньшей мере подмножество N аппроксимированных звуковых объектов для формирования по меньшей мере одного декоррелированного звукового объекта, при этом каждый из по меньшей мере одного декоррелированного звукового объекта соответствует одному из N аппроксимированных звуковых объектов;
при этом второй принимающий компонент дополнительно выполнен с возможностью приема для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, единственного весового параметра, из которого выводят первый весовой коэффициент и второй весовой коэффициент; и
компонент восстановления звукового объекта, расположенный ниже по потоку от компонента аппроксимации звукового объекта, компонента декорреляции и второго принимающего компонента и выполненный с возможностью:
восстановления частотно-временной мозаики звукового объекта посредством аппроксимированного звукового объекта для каждого из N аппроксимированных звуковых объектов, не имеющих соответствующий декоррелированный звуковой объект; и
восстановления частотно-временной мозаики звукового объекта для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, посредством:
взвешивания аппроксимированного звукового объекта с помощью первого весового коэффициента;
взвешивания декоррелированного звукового объекта, соответствующего аппроксимированному звуковому объекту, с помощью второго весового коэффициента; и
комбинирования посредством осуществления суммирования взвешенного аппроксимированного звукового объекта с соответствующим взвешенным декоррелированным звуковым объектом для восстановления частотно-временной мозаики аппроксимированного звукового объекта, при этом уровень энергии восстановленной частотно-временной мозаики равен уровню энергии соответствующей частотно-временной мозаики аппроксимированного звукового объекта.
14. Способ формирования в кодирующем устройстве по меньшей мере одного весового параметра, который подлежит применению при восстановлении частотно-временной мозаики конкретного звукового объекта, при этом способ включает этапы:
приема M сигналов понижающего микширования, являющихся комбинациями по меньшей мере N звуковых объектов, включая конкретный звуковой объект;
приема конкретного звукового объекта;
вычисления первой величины, указывающей на уровень энергии конкретного звукового объекта;
вычисления второй величины, указывающей на уровень энергии, соответствующий уровню энергии аппроксимации конкретного звукового объекта на кодирующей стороне, при этом аппроксимация на кодирующей стороне является комбинацией M сигналов понижающего микширования;
вычисления по меньшей мере одного весового параметра на основе первой и второй величины, при этом по меньшей мере один весовой параметр предназначен для взвешивания аппроксимации конкретного звукового объекта на декодирующей стороне и декоррелированной версии аппроксимации конкретного звукового объекта на декодирующей стороне.
15. Способ по п. 14, в котором по меньшей мере один весовой параметр содержит единственный весовой параметр, из которого выводят первый весовой коэффициент и второй весовой коэффициент, при этом первый весовой коэффициент предназначен для взвешивания аппроксимации конкретного звукового объекта на декодирующей стороне, а второй весовой коэффициент предназначен для взвешивания декоррелированной версии аппроксимированного звукового объекта на декодирующей стороне.
16. Способ по п. 15, в котором сумма квадратов первого весового коэффициента и второго весового коэффициента равна единице, и при этом единственный весовой параметр содержит либо первый весовой коэффициент, либо второй весовой коэффициент.
17. Способ по любому из пп. 14-16, в котором этап вычисления по меньшей мере одного весового параметра включает сравнение первой величины и второй величины.
18. Способ по п. 17, в котором сравнение первой величины и второй величины включает вычисление отношения второй и первой величины, возведение отношения в степень α и применение отношения, возведенного в степень α, для вычисления весового параметра.
19. Способ по п. 18, в котором α равно двум.
20. Способ по п. 18, в котором отношение, возведенное в степень α, подвергают действию возрастающей функции, отображающей отношение, возведенное в степень α, по меньшей мере на один весовой параметр.
21. Способ по любому из пп. 14-16, в котором первый и второй весовые коэффициенты являются переменными во времени и по частоте.
22. Способ по любому из пп. 14-16, в котором вторая величина, указывающая на уровень энергии, соответствует уровню энергии аппроксимации конкретного звукового объекта на кодирующей стороне, при этом аппроксимация на кодирующей стороне является линейной комбинацией M сигналов понижающего микширования и L дополнительных сигналов, при этом сигналы понижающего микширования и дополнительные сигналы сформированы из N звуковых объектов.
23. Способ по п. 22, в котором по меньшей мере один из L дополнительных сигналов равен одному из N звуковых объектов.
24. Способ по п. 22, в котором по меньшей мере один из L дополнительных сигналов представляет собой комбинацию по меньшей мере двух из N звуковых объектов.
25. Способ по п. 22, в котором M сигналов понижающего микширования охватывают гиперплоскость, и при этом по меньшей мере один из L дополнительных сигналов не лежит в гиперплоскости, охватываемой М сигналами понижающего микширования.
26. Способ по п. 25, в котором по меньшей мере один из L дополнительных сигналов ортогонален гиперплоскости, охватываемой М сигналами понижающего микширования.
27. Машиночитаемый носитель, содержащий команды машинного кода, предназначенные для выполнения способа по любому из пп. 14-16, при выполнении на устройстве, имеющем возможность обработки.
28. Кодирующее устройство для формирования по меньшей мере одного весового параметра, который подлежит применению при восстановлении частотно-временной мозаики конкретного звукового объекта, при этом устройство содержит:
принимающий компонент, выполненный с возможностью приема M сигналов понижающего микширования, являющихся комбинациями по меньшей мере N звуковых объектов, включая конкретный звуковой объект, при этом принимающий компонент дополнительно выполнен с возможностью приема конкретного звукового объекта;
вычислительный блок, выполненный с возможностью:
вычисления первой величины, указывающей на уровень энергии конкретного звукового объекта;
вычисления второй величины, указывающей на уровень энергии, соответствующий уровню энергии аппроксимации конкретного звукового объекта на кодирующей стороне, при этом аппроксимация на кодирующей стороне является комбинацией M сигналов понижающего микширования;
вычисления по меньшей мере одного весового параметра на основе первой и второй величин, при этом по меньшей мере один весовой параметр предназначен для взвешивания аппроксимации конкретного звукового объекта на декодирующей стороне и декоррелированной версии аппроксимации конкретного звукового объекта на декодирующей стороне.
RU2015150066A 2013-05-24 2014-05-23 Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука RU2628177C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361827288P 2013-05-24 2013-05-24
US61/827,288 2013-05-24
PCT/EP2014/060728 WO2014187987A1 (en) 2013-05-24 2014-05-23 Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder

Publications (2)

Publication Number Publication Date
RU2015150066A RU2015150066A (ru) 2017-05-26
RU2628177C2 true RU2628177C2 (ru) 2017-08-15

Family

ID=50771513

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015150066A RU2628177C2 (ru) 2013-05-24 2014-05-23 Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука

Country Status (10)

Country Link
US (1) US9818412B2 (ru)
EP (1) EP3005352B1 (ru)
JP (1) JP6248186B2 (ru)
KR (1) KR101761099B1 (ru)
CN (2) CN105393304B (ru)
BR (1) BR112015028914B1 (ru)
ES (1) ES2624668T3 (ru)
HK (1) HK1216453A1 (ru)
RU (1) RU2628177C2 (ru)
WO (1) WO2014187987A1 (ru)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112016008426B1 (pt) 2013-10-21 2022-09-27 Dolby International Ab Método para reconstrução de uma pluralidade de sinais de áudio, sistema de decodificação de áudio, método para codificação de uma pluralidade de sinais de áudio, sistema de codificação de áudio, e mídia legível por computador
CN107886960B (zh) * 2016-09-30 2020-12-01 华为技术有限公司 一种音频信号重建方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2406164C2 (ru) * 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
RU2452043C2 (ru) * 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования
RU2461078C2 (ru) * 2005-07-14 2012-09-10 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование звука

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
KR101079066B1 (ko) 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
WO2006008697A1 (en) 2004-07-14 2006-01-26 Koninklijke Philips Electronics N.V. Audio channel conversion
EP1792306B1 (en) 2004-09-17 2013-03-13 Koninklijke Philips Electronics N.V. Combined audio coding minimizing perceptual distortion
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
KR101215868B1 (ko) 2004-11-30 2012-12-31 에이저 시스템즈 엘엘시 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
JP5017121B2 (ja) 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
BRPI0615899B1 (pt) 2005-09-13 2019-07-09 Koninklijke Philips N.V. Unidade decodificadora espacial, dispositivo decodificador espacial, sistema de áudio, dispositivo de consumidor, e método para produzir um par de canais de saída binaurais
CN101506875B (zh) * 2006-07-07 2012-12-19 弗劳恩霍夫应用研究促进协会 用于组合多个参数编码的音频源的设备和方法
KR101396140B1 (ko) * 2006-09-18 2014-05-20 코닌클리케 필립스 엔.브이. 오디오 객체들의 인코딩과 디코딩
KR20090013178A (ko) 2006-09-29 2009-02-04 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
UA94117C2 (ru) * 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
WO2008069596A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101149448B1 (ko) 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
AU2008215232B2 (en) 2007-02-14 2010-02-25 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
DE102007018032B4 (de) * 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
BRPI0809760B1 (pt) 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
SG177277A1 (en) 2009-06-24 2012-02-28 Fraunhofer Ges Forschung Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
KR101391110B1 (ko) 2009-09-29 2014-04-30 돌비 인터네셔널 에이비 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
PL2491551T3 (pl) * 2009-10-20 2015-06-30 Fraunhofer Ges Forschung Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami
MX2012005781A (es) 2009-11-20 2012-11-06 Fraunhofer Ges Forschung Aparato para proporcionar una representacion de señal de mezcla ascendente con base en la representacion de señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, metodos, programas informaticos y flujo de bits que representan una señal de audio multicanal usando un parametro de combinacion lineal.
BR122021008581B1 (pt) 2010-01-12 2022-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
ES2529025T3 (es) * 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
ES2749967T3 (es) 2011-11-02 2020-03-24 Ericsson Telefon Ab L M Codificación de audio en base a una representación eficiente de coeficientes autorregresivos
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
CA3211308A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2461078C2 (ru) * 2005-07-14 2012-09-10 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование звука
RU2406164C2 (ru) * 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
RU2452043C2 (ru) * 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования

Also Published As

Publication number Publication date
BR112015028914B1 (pt) 2021-12-07
HK1216453A1 (zh) 2016-11-11
RU2015150066A (ru) 2017-05-26
CN110223702A (zh) 2019-09-10
BR112015028914A2 (pt) 2017-08-29
KR20160003083A (ko) 2016-01-08
WO2014187987A1 (en) 2014-11-27
EP3005352B1 (en) 2017-03-29
KR101761099B1 (ko) 2017-07-25
ES2624668T3 (es) 2017-07-17
CN110223702B (zh) 2023-04-11
US20160111097A1 (en) 2016-04-21
CN105393304A (zh) 2016-03-09
EP3005352A1 (en) 2016-04-13
JP2016522445A (ja) 2016-07-28
CN105393304B (zh) 2019-05-28
JP6248186B2 (ja) 2017-12-13
US9818412B2 (en) 2017-11-14

Similar Documents

Publication Publication Date Title
US11580995B2 (en) Reconstruction of audio scenes from a downmix
RU2678161C2 (ru) Уменьшение артефактов гребенчатого фильтра при многоканальном понижающем микшировании с адаптивным фазовым совмещением
RU2608847C1 (ru) Кодирование звуковых сцен
RU2648947C2 (ru) Параметрическая реконструкция аудиосигналов
RU2628898C1 (ru) Неравномерное квантование параметров для усовершенствованной связи
EP3201916B1 (en) Audio encoder and decoder
RU2701055C2 (ru) Способ декодирования и декодер для усиления диалога
RU2628177C2 (ru) Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука
JP2017537342A (ja) オーディオ信号のパラメトリック混合
TWI843389B (zh) 音訊編碼器、降混訊號產生方法及非暫時性儲存單元