RU2678136C1 - Устройство и способ обработки кодированного аудиосигнала - Google Patents

Устройство и способ обработки кодированного аудиосигнала Download PDF

Info

Publication number
RU2678136C1
RU2678136C1 RU2017130900A RU2017130900A RU2678136C1 RU 2678136 C1 RU2678136 C1 RU 2678136C1 RU 2017130900 A RU2017130900 A RU 2017130900A RU 2017130900 A RU2017130900 A RU 2017130900A RU 2678136 C1 RU2678136 C1 RU 2678136C1
Authority
RU
Russia
Prior art keywords
group
downmix
signals
matrix
individual
Prior art date
Application number
RU2017130900A
Other languages
English (en)
Inventor
Адриан МУРТАЗА
Йоуни ПАУЛУС
Харальд ФУКС
Роберта КАМИЛЛЕРИ
Леон ТЕРЕНТИВ
Саша ДИШ
Юрген ХЕРРЕ
Оливер ХЕЛЛЬМУТ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Application granted granted Critical
Publication of RU2678136C1 publication Critical patent/RU2678136C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Amplifiers (AREA)

Abstract

Изобретение относится к средствам для обработки кодированного аудиосигнала, включающего в себя множество микшированных с понижением сигналов, связанных с множеством входных звуковых объектов и параметрами объектов. Технический результат заключается в повышении эффективности обработки аудиосигнала. Группируют множество микшированных с понижением сигналов во множество групп микшированных с понижением сигналов на основании информации в упомянутом кодированном аудиосигнале. Каждая группа микшированных с понижением сигналов связана с набором входных звуковых объектов из множества входных звуковых объектов. Индивидуально выполняют по меньшей мере один этап обработки параметров () объектов каждого набора входных звуковых объектов, чтобы обеспечить результаты группы. Объединяют результаты групп, чтобы обеспечить декодированный аудиосигнал. Группирование множества микшированных с понижением сигналов в множество групп микшированных с понижением сигналов конфигурировано таким образом, что каждый входной звуковой объект принадлежит только одному набору входных звуковых объектов. 3 н. и 17 з.п. ф-лы, 19 ил., 1 табл.

Description

Изобретение относится к устройству и способу обработки кодированного аудиосигнала.
Недавно были предложены параметрические методики для передачи и/или сохранения с эффективной битовой скоростью звуковых сцен, содержащих множественные звуковые объекты, в области аудиокодирования (см. следующие ссылки [BCC, АО, SAOC, SAOC1, SAOC2]) и разделения информированных источников (см., например, следующие ссылки [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]).
Эти методики стремятся восстановить желаемую выдаваемую звуковую сцену или желаемый объект источника звука на основании дополнительной вспомогательной информации, описывающей переданные и/или сохраненные аудиосигналы и/или объекты источников звука в звуковой сцене. Это восстановление происходит в декодере с использованием схемы параметрического разделения информированного источника.
К сожалению, было обнаружено, что в некоторых случаях схемы параметрического разделения могут приводить к серьезным слышимым артефактам, вызывающим неудовлетворительное восприятие при прослушивании.
Способ обработки аудиосигналов, исходящих от разных звуковых объектов, описан в документе WO 2014/021588 A1. Кодер обеспечивает битовый поток, содержащий микшированные с понижением сигналы. Микшированные с понижением сигналы сформированы на основе групп сигналов звуковых объектов. Декодер формирует микшированные с понижением сигналы из принятого битового потока и восстанавливает соответствующие группы сигналов объектов.
Таким образом, задача изобретения состоит в улучшении качества звука декодированных аудиосигналов, используя методики параметрического кодирования.
Задача решается устройством по пункту 1 формулы и соответствующим способом по пункту 21 формулы.
Задача решается посредством устройства для обработки кодированного аудиосигнала. Кодированный аудиосигнал содержит множество микшированных с понижением сигналов, связанных с множеством входных звуковых объектов и параметрами (E) объектов. Устройство содержит блок группирования, процессор и блок объединения.
Блок группирования выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов. Каждая группа микшированных с понижением сигналов связана с набором входных звуковых объектов (или входных аудиосигналов) из множества входных звуковых объектов. Другими словами, группы покрывают подмножества набора входных аудиосигналов, представленных кодированным аудиосигналом. Каждая группа микшированных с понижением сигналов также связана с некоторыми параметрами E объектов, описывающих входные звуковые объекты. Далее индивидуальные группы Gk идентифицируются с помощью индекса k (1≤k≤K), где K - количество групп микшированных с понижением сигналов.
Далее, после группирования процессор выполнен с возможностью индивидуального выполнения по меньшей мере одного этапа обработки параметров объекта из каждого набора входных звуковых объектов. Следовательно, по меньшей мере один этап обработки выполняется не одновременно для всех параметров объекта, а индивидуально для параметров объекта, принадлежащих соответствующей группе микшированных с понижением сигналов. В одном варианте осуществления только один этап выполняется индивидуально. В другом варианте осуществления выполняется более одного этапа, тогда как в альтернативном варианте осуществления вся обработка выполняется индивидуально для групп микшированных с понижением сигналов. Процессор обеспечивает результаты групп для индивидуальных групп.
В другом варианте осуществления процессор после группирования выполнен с возможностью индивидуального выполнения по меньшей мере одного этапа обработки для каждой группы из множества групп микшированных с понижением сигналов. Следовательно, по меньшей мере один этап обработки выполняется не одновременно для всех микшированных с понижением сигналов, а индивидуально для соответствующих групп микшированных с понижением сигналов.
Наконец, блок объединения выполнен с возможностью объединения результатов групп или обработанные результаты групп, чтобы обеспечить декодированный аудиосигнал. Следовательно, результаты групп или результаты этапов последующей обработки, выполненных для результатов групп, объединяются, чтобы обеспечить декодированный аудиосигнал. Декодированный аудиосигнал соответствует множеству входных звуковых объектов, которые кодированы посредством кодированного аудиосигнала.
Группирование, выполняемое блоком группирования, делается по меньшей мере с ограничением, что каждый входной звуковой объект из множества входных звуковых объектов принадлежит одному и только одному набору входных звуковых объектов. Это подразумевает, что каждый входной звуковой объект принадлежит только одной группе микшированных с понижением сигналов. Это также подразумевает, что каждый микшированный с понижением сигнал принадлежит только одной группе микшированных с понижением сигналов.
В соответствии с вариантом осуществления блок группирования выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов таким образом, что каждый входной звуковой объект из каждого набора входных звуковых объектов либо лишен отношения, сигнализированного в кодированном аудиосигнале, с другими входными звуковыми объектами, либо имеет отношение, сигнализированное в кодированном аудиосигнале, только по меньшей мере с одним входным звуковым объектом, принадлежащим тому же набору входных звуковых объектов. Это подразумевает, что никакой входной звуковой объект не имеет сигнализированного отношения с входным звуковым объектом, принадлежащим другой группе микшированных с понижением сигналов. Такое сигнализированное отношение в одном варианте осуществления представляет собой то, что два входных звуковых объекта являются стереосигналами, исходящими от одного источника.
Устройство по изобретению обрабатывает кодированный аудиосигнал, содержащий микшированные с понижением сигналы. Понижающее микширование представляет собой часть процесса кодирования заданного количества индивидуальных аудиосигналов и подразумевает, что определенное количество входных звуковых объектов объединено в сигнал понижающего микширования. Количество входных звуковых объектов, таким образом, сокращается до меньшего количества микшированных с понижением сигналов. Вследствие этого микшированные с понижением сигналы связаны с множеством входных звуковых объектов.
Микшированные с понижением сигналы группируются в группы микшированных с понижением сигналов и индивидуально подвергаются (т.е., как единые группы) по меньшей мере одному этапу обработки. Следовательно, устройство выполняет по меньшей мере один этап обработки не совместно для всех микшированных с понижением сигналах, а индивидуально для индивидуальных групп микшированных с понижением сигналов. В другом варианте осуществления параметры объектов групп рассматриваются отдельно, чтобы получить матрицы, которые будут применены к кодированному аудиосигналу.
В одном варианте осуществления устройство представляет собой декодер кодированных аудиосигналов. Устройство в альтернативном варианте осуществления представляет собой часть декодера.
В одном варианте осуществления каждый микшированный с понижением сигнал назначен в одну группу микшированных с понижением сигналов и, следовательно, обрабатывается индивидуально относительно по меньшей мере одного этапа обработки. В этом варианте осуществления количество групп микшированных с понижением сигналов равно количеству микшированных с понижением сигналов. Это подразумевает, что группирование и индивидуальная обработка совпадают.
В одном варианте осуществления объединение представляет собой один из окончательных этапов обработки кодированного аудиосигнала. В другом варианте осуществления результаты групп далее подвергаются разным этапам обработки, которые выполняются либо индивидуально, либо совместно для результатов групп.
Группирование (или обнаружение групп) и индивидуальная обработка групп показали улучшение качества звука. Это особенно относится, например, к методикам параметрического кодирования.
В соответствии с вариантом осуществления блок группирования устройства выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов, минимизируя количество микшированных с понижением сигналов в каждой группе микшированных с понижением сигналов. В этом варианте осуществления устройство пытается сократить количество микшированных с понижением сигналов, принадлежащих каждой группе. В одном случае по меньшей мере одной группе микшированных с понижением сигналов принадлежит только один микшированный с понижением сигнал.
В соответствии с вариантом осуществления блок группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов в упомянутое множество групп микшированных с понижением сигналов таким образом, что всего один единственный микшированный с понижением сигнал принадлежит одной группе микшированных с понижением сигналов. Другими словами, группирование приводит к различным группам микшированных с понижением сигналов, причем задана по меньшей мере одна группа микшированных с понижением сигналов, которой принадлежит только один микшированный с понижением сигнал. Таким образом, по меньшей мере одна группа микшированных с понижением сигналов относится только к одному единственному микшированному с понижением сигналу. В дополнительном варианте осуществления максимизируется количество групп микшированных с понижением сигналов, которым принадлежит только один микшированный с понижением сигнал.
В одном варианте осуществления блок группирования устройства выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов на основании информации в кодированном аудиосигнале. В дополнительном варианте осуществления устройство использует только информацию в кодированном аудиосигнале для группирования микшированных с понижением сигналов. Использование информации в битовом потоке кодированного аудиосигнала в одном варианте осуществления содержит принятие во внимание информации корреляции или ковариации. Блок группирования, в частности, извлекает из кодированного аудиосигнала информацию об отношении между разными входными звуковыми объектами.
В одном варианте осуществления блок группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов в упомянутое множество групп микшированных с понижением сигналов на основании значений bsRelatedTo в упомянутом кодированном аудиосигнале. Относительно этих значений см., например, WO 2011/039195 A1.
В соответствии с вариантом осуществления блок группирования выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов, применяя по меньшей мере следующие этапы (к каждой группе микшированных с понижением сигналов):
- обнаружения, назначен ли микшированный с понижением сигнал в существующую группу микшированных с понижением сигналов;
- обнаружения, является ли по меньшей мере один входной звуковой объект из множества входных звуковых объектов, связанных с микшированным с понижением сигналом, частью набора входных звуковых объектов, связанных с существующей группой микшированных с понижением сигналов;
- назначения микшированного с понижением сигнала в новую группу микшированных с понижением сигналов
-- в случае, если микшированный с понижением сигнал лишен назначения в существующую группу микшированных с понижением сигналов (следовательно, микшированный с понижением сигнал еще не приписан к группе), и
-- в случае, если все входные звуковые объекты из множества входных звуковых объектов, связанных с микшированным с понижением сигналом, лишены привязки к существующей группе микшированных с понижением сигналов (следовательно, входные звуковые объекты микшированного с понижением сигнала еще не назначены (через другой микшированный с понижением сигнал) в группу); и
- объединения микшированного с понижением сигнала с существующей группой микшированных с понижением сигналов
-- либо в случае, если микшированный с понижением сигнал назначен в существующую группу микшированных с понижением сигналов,
-- либо в случае, если по меньшей мере один входной звуковой объект из множества входных звуковых объектов, связанных с микшированным с понижением сигналом, связан с существующей группой микшированных с понижением сигналов.
Если отношение, сигнализированное в кодированном аудиосигнале, также будет принято во внимание, то будет добавлен другой этап обнаружения, приводящий к дополнительному требованию для привязки и объединения микшированных с понижением сигналов.
В соответствии с вариантом осуществления процессор выполнен с возможностью индивидуального выполнения различных этапов обработки для параметров (E k) объектов из каждого набора входных звуковых объектов (или каждой группы микшированных с понижением сигналов), чтобы обеспечить индивидуальные матрицы как результаты группы. Блок объединения выполнен с возможностью объединения индивидуальных матриц, чтобы обеспечить упомянутый декодированный аудиосигнал. Параметры (E k) объектов принадлежат входным звуковым объектам соответствующей группы микшированных с понижением сигналов с индексом k и обрабатываются для получения индивидуальных матриц для этой группы, имеющей индекс k.
В соответствии с другим вариантом осуществления процессор выполнен с возможностью индивидуального выполнения различных этапов обработки для каждой группы из упомянутого множества групп микшированных с понижением сигналов, чтобы обеспечить выходные аудиосигналы как результаты групп. Блок объединения выполнен с возможностью объединения выходных аудиосигналов, чтобы обеспечить упомянутый декодированный аудиосигнал.
В этом варианте осуществления группы микшированных с понижением сигналов обрабатываются таким образом, что получаются выходные аудиосигналы, которые соответствуют входным звуковым объектам, принадлежащим соответствующей группе микшированных с понижением сигналов. Следовательно, объединение выходных аудиосигналов с декодированными аудиосигналами является близким к заключительным этапам процессов декодирования, выполняемым над кодированным аудиосигналом. В этом варианте осуществления, таким образом, каждая группа микшированных с понижением сигналов индивидуально подвергается всем этапам обработки после обнаружения групп микшированных с понижением сигналов.
В другом варианте осуществления процессор выполнен с возможностью выполнения по меньшей мере одного этапа обработки индивидуально для каждой группы из упомянутого множества групп микшированных с понижением сигналов, чтобы обеспечить обработанные сигналы как результаты группы. Устройство также содержит постпроцессор, выполненный с возможностью совместной обработки упомянутых обработанных сигналов, чтобы обеспечить выходные аудиосигналы. Блок объединения выполнен с возможностью объединения выходных аудиосигналов как результаты обработанных групп, чтобы обеспечить упомянутый декодированный аудиосигнал.
В этом варианте осуществления группы микшированного с понижением сигнала подвергаются по меньшей мере одному этапу обработки индивидуально и по меньшей мере одному этапу обработки совместно с другими группами. Индивидуальная обработка приводит к обработанным сигналам, которые в варианте осуществления обрабатываются совместно.
Что касается матриц, в одном варианте осуществления процессор выполнен с возможностью индивидуального выполнения по меньшей мере одного этапа обработки параметров (E k) объектов каждого набора входных звуковых объектов, чтобы обеспечить индивидуальные матрицы. Постпроцессор, содержащийся в устройстве, выполнен с возможностью совместной обработки параметров объектов, чтобы обеспечить по меньшей мере одну общую матрицу. Блок объединения выполнен с возможностью объединения упомянутых индивидуальных матриц и упомянутой по меньшей мере одной общей матрицы. В одном варианте осуществления постпроцессоры совместно выполняют по меньшей мере один этап обработки для индивидуальных матриц, чтобы получить по меньшей мере одну общую матрицу.
Следующие варианты осуществления относятся к этапам обработки, выполняемых процессором. Некоторые из этих этапов также подходят для упомянутого в предыдущем варианте осуществления постпроцессора.
В одном варианте осуществления процессор содержит блок разбиения, выполненный с возможностью выполнения разбиения микшированных с понижением сигналов соответствующих групп из упомянутого множества групп микшированных с понижением сигналов. Посредством разбиения микшированных с понижением сигналов процессор получает представления первоначальных входных звуковых объектов, которые были микшированы в микшированный с понижением сигнал.
В соответствии с вариантом осуществления блок разбиения выполнен с возможностью выполнения разбиения микшированных с понижением сигналов соответствующих групп из упомянутого множества групп микшированных с понижением сигналов на основании алгоритма оценки минимальной среднеквадратичной ошибки (MMSE). Такой алгоритм будет описан в следующем описании.
В другом варианте осуществления процессор содержит блок разбиения, выполненный с возможностью индивидуальной обработки параметров объекта каждого из набора входных звуковых объектов, чтобы обеспечить индивидуальные матрицы разбиения.
В одном варианте осуществления процессор содержит блок вычисления, выполненный с возможностью индивидуального вычисления для каждой группы микшированных с понижением сигналов матрицы с размерами, зависящими по меньшей мере от одного количества из количества входных звуковых объектов из набора входных звуковых объектов, связанных с соответствующей группой микшированных с понижением сигналов, и количества микшированных с понижением сигналов, принадлежащих соответствующей группе микшированных с понижением сигналов. Поскольку группы микшированных с понижением сигналов меньше, чем весь ансамбль микшированных с понижением сигналов, и поскольку группы микшированных с понижением сигналов относятся к меньшему количеству входных аудиосигналов, матрицы, используемые для обработки групп микшированных с понижением сигналов, меньше, чем используемые на текущем уровне техники. Это облегчает вычисления.
В соответствии с вариантом осуществления блок вычисления выполнен с возможностью вычисления для индивидуальных матриц разбиения индивидуальной пороговой величины на основании максимального значения энергии в соответствующей группе микшированных с понижением сигналов.
В соответствии с вариантом осуществления процессор выполнен с возможностью вычисления индивидуальной пороговой величины на основании максимального значения энергии в соответствующей группе микшированных с понижением сигналов для каждой группы микшированных с понижением сигналов индивидуально.
В одном варианте осуществления блок вычисления выполнен с возможностью вычисления индивидуальной пороговой величины для этапа регуляризации для разбиения микшированных с понижением сигналов каждой группы микшированных с понижением сигналов на основании максимального значения энергии в соответствующей группе микшированных с понижением сигналов. Пороговые величины для групп микшированных с понижением сигналов в другом варианте осуществления вычисляются самим блоком разбиения.
Нижеследующее описание покажет интересный эффект вычисления пороговой величины для групп (одна пороговая величина для каждой группы), а не для всех микшированных с понижением сигналов.
В соответствии с вариантом осуществления процессор содержит блок рендеризации, выполненный с возможностью рендеризации подвергнутых разбиению микшированных с понижением сигналов соответствующих групп для сценария вывода упомянутого декодированного аудиосигнала, чтобы обеспечить рендеризированные сигналы. Рендеризация основана на вводе, обеспеченном слушателем, или на основании данных о фактическом сценарии вывода.
В варианте осуществления процессор содержит блок рендеризации, выполненный с возможностью обработки параметров объекта, чтобы обеспечить по меньшей мере одну матрицу рендеризации.
В варианте осуществления процессор содержит постмикшер, выполненный с возможностью обработки параметров объекта, чтобы обеспечить по меньшей мере одну матрицу декорреляции.
В соответствии с вариантом осуществления процессор содержит постмикшер, выполненный с возможностью выполнения по меньшей мере одного этапа декорреляции для упомянутых рендеризированных сигналов, и выполненный с возможностью объединения результатов (Ywet) выполненного этапа декорреляции с упомянутыми соответствующими рендеризированными сигналами (Ydry).
В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (D k) понижающего микширования для каждой группы микшированных с понижением сигналов (k - индекс соответствующей группы), процессор выполнен с возможностью определения индивидуальной ковариационной матрицы (E k) группы для каждой группы микшированных с понижением сигналов, процессор выполнен с возможностью определения индивидуальной ковариационной матрицы (Δk) понижающего микширования группы для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (D k) понижающего микширования и индивидуальной ковариационной матрицы (E k) группы, и процессор выполнен с возможностью определения индивидуальной матрицы (J k) регуляризированной инверсии группы для каждой группы микшированных с понижением сигналов.
В соответствии с вариантом осуществления блок объединения выполнен с возможностью объединения индивидуальных матриц (J k) регуляризированной инверсии группы, чтобы получить общую матрицу (J) регуляризированной инверсии группы.
В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (U k) параметрического разбиения группы для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (D k) понижающего микширования, индивидуальной ковариационной матрицы (E k) группы и индивидуальной матрицы (J k) регуляризированной инверсии группы, и блок объединения выполнен с возможностью объединения индивидуальной матрицы (U k) параметрического разбиения группы, чтобы получить общую матрицу (U) параметрического разбиения группы.
В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (U k) параметрического разбиения группы для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (D k) понижающего микширования, индивидуальной ковариационной матрицы (E k) группы и индивидуальной матрицы (J k) регуляризированной инверсии группы, и блок объединения выполнен с возможностью объединения индивидуальной матрицы (U k) параметрического разбиения группы, чтобы получить общую матрицу (U) параметрического разбиения группы.
В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (R k) рендеризации группы для каждой группы микшированных с понижением сигналов.
В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (R k U k) повышающего микширования для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (R k) рендеризации группы и индивидуальной матрицы (U k) параметрического разбиения группы, и блок объединения выполнен с возможностью объединения индивидуальных матриц (R k U k) повышающего микширования, чтобы получить общую матрицу (RU) повышающего микширования.
В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной ковариационной матрицы (C k) группы для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (R k) рендеризации группы и индивидуальной ковариационной матрицы (E k) группы, и блок объединения выполнен с возможностью объединения индивидуальных ковариационных матриц (C k) группы, чтобы получить общую ковариационную матрицу (C) группы.
В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной ковариационной матрицы группы параметрически оцененного сигнала (E y dry)k на основании индивидуальной матрицы (R k) рендеризации группы, индивидуальной матрицы (U k) параметрического разбиения группы, индивидуальной матрицы (D k) понижающего микширования и индивидуальной ковариационной матрицы (E k) группы, и блок объединения выполнен с возможностью объединения индивидуальных ковариационных матриц группы параметрически оцененного сигнала (E y dry)k, чтобы получить общий параметрически оцененный сигнал E y dry.
В соответствии с вариантом осуществления процессор выполнен с возможностью определения матрицы (J) регуляризированной инверсии на основании сингулярного разложения ковариационной матрицы (E DMX) понижающего микширования.
В соответствии с вариантом осуществления процессор выполнен с возможностью определения подматрицы (Δ k) для определения матрицы (U) параметрического разбиения посредством выбора элементов (Δ (m, n)), соответствующих микшированным с понижением сигналам (m, n), назначенным в соответствующую группу (имеющей индекс k) микшированных с понижением сигналов. Каждая группа микшированных с понижением сигналов покрывает заданное количество микшированных с понижением сигналов и связанный набор входных звуковых объектов и обозначена здесь индексом k.
В соответствии с этим вариантом осуществления индивидуальные подматрицы (Δ k) получаются посредством выбора элементов из ковариационной матрицы Δ понижающего микширования, которые принадлежат соответствующей группе k.
В одном варианте осуществления индивидуальные подматрицы (Δ k) индивидуально инвертируются, и результаты объединяются в матрице (J) регуляризированной инверсии.
В другом варианте осуществления подматрица (Δ k) получается с использованием ее определения как Δ k=D k E k D k* с помощью индивидуальной матрицы (D k) понижающего микширования.
В соответствии с вариантом осуществления блок объединения выполнен с возможностью определения матрицы (P) постмикширования основе индивидуально определенных матриц для каждой группы микшированных с понижением сигналов, и блок объединения выполнен с возможностью применения матрицы (P) постмикширования к множеству микшированных с понижением сигналов, чтобы получить декодированный аудиосигнал. В этом варианте осуществления из параметров объектов вычисляется матрица постмикширования, которая применяется к кодированному аудиосигналу, чтобы получить декодированный аудиосигнал.
В соответствии с одним вариантом осуществления устройство и его соответствующие компоненты выполнены с возможностью индивидуального выполнения для каждой группы микшированных с понижением сигналов по меньшей мере одного из следующих вычислений:
- вычисление ковариационной матрицы E k группы с размером Nk на Nk с элементами:
Figure 00000001
,
- вычисление ковариационной матрицы Δ k понижающего микширования группы с размером Mk на Mk: Δ k=D k E k D k*,
- вычисление сингулярного разложения ковариационной матрицы понижающего микширования группы Δ k=D k E k D k*: Δ k=V k Λ k V k*,
- вычисление матрицы J k регуляризированной инверсии группы, аппроксимирующей
Figure 00000002
:
Figure 00000003
, в том числе вычисление индивидуальной матрицы Λ inv k (подробности будут даны ниже),
- вычисление матрицы U k параметрического разбиения группы с размером Nk на Mk: U k=E k D k*J k,
- умножение матрицы R k рендеризации группы с размером NUpmix на Nk на матрицу U k разбиения с размером Nk на Mk: R k U k,
- вычисление ковариационной матрицы C k группы с размером Nout на Nout: C k=R k E k R k*,
- вычисление ковариации группы параметрически оцененного сигнала (E y dry)k с размером Nout на Nout:
Figure 00000004
.
В этом отношении k обозначает индекс соответствующей группы микшированных с понижением сигналов, Nk обозначает количество входных звуковых объектов привязанного набора входных звуковых объектов, Nk обозначает количество микшированных с понижением сигналов, принадлежащих соответствующей группе микшированных с понижением сигналов, и Nout обозначает количество подвергнутых повышающему микшированию и рендеризации выходных каналов.
Вычисленные матрицы имеют меньшие размеры, чем используемые на текущем уровне техники. В соответствии с этим в одном варианте осуществления как можно больше этапов обработки выполняются индивидуально для групп микшированных с понижением сигналов.
Задача изобретения также решается соответствующим способом обработки кодированного аудиосигнала. Кодированный аудиосигнал содержит множество микшированных с понижением сигналов, связанных с множеством входных звуковых объектов и параметрами объектов. Способ содержит следующие этапы:
- группирование микшированных с понижением сигналов во множество групп микшированных с понижением сигналов, связанных с набором входных звуковых объектов из множества входных звуковых объектов,
- индивидуальное выполнение по меньшей мере одного этапа обработки для параметров объектов из каждого набора входных звуковых объектов, чтобы обеспечить результаты групп, и
- объединение упомянутых результатов групп, чтобы обеспечить декодированный аудиосигнал.
Группирование выполняется по меньшей мере с ограничением, что каждый входной звуковой объект из множества входных звуковых объектов принадлежит только одному набору входных звуковых объектов.
Упомянутые выше варианты осуществления устройства также могут быть выполнены посредством этапов способа и соответствующих вариантов осуществления способа. Таким образом, разъяснения, данные для вариантов осуществления устройства, также относятся к способу.
Далее изобретение будет описано в отношении прилагаемых чертежей и вариантов осуществления, изображенные в прилагаемых чертежах:
Фиг. 1 показывает обзор концепции параметрического понижающего/повышающего микширования на основе MMSE,
Фиг. 2 показывает схему параметрической реконструкции с декорреляцией, применяемую к рендеризированному выводу,
Фиг. 3 показывает структуру процессора понижающего микширования,
Фиг. 4 показывает спектрограммы пяти входных звуковых объектов (столбец слева) и спектрограммы соответствующих микшированных с понижением каналов (столбец справа),
Фиг. 5 показывает спектрограммы опорных выходных сигналов (столбец слева) и спектрограммы соответствующих декодированных посредством SAOC 3D и рендеризированных выходных сигналов (столбец справа),
Фиг. 6 показывает спектрограмм выходных сигналов SAOC 3D с использованием изобретения,
Фиг. 7 показывает параметрическую обработку кадра в соответствии с текущим уровнем техники,
Фиг. 8 показывает параметрическую обработку кадра в соответствии с изобретением,
Фиг. 9 показывает пример реализации функции обнаружения групп,
Фиг. 10 схематично показывает устройство для кодирования входных звуковых объектов,
Фиг. 11 схематично показывает пример устройства по изобретению для обработки кодированного аудиосигнала,
Фиг. 12 схематично показывает другой пример устройства по изобретению для обработки кодированного аудиосигнала,
Фиг. 13 показывает последовательность этапов варианта осуществления способа по изобретению,
Фиг. 14 схематично показывает пример устройства по изобретению,
Фиг. 15 схематично показывает дополнительный пример устройства,
Фиг. 16 схематично показывает процессор устройства по изобретению, и
Фиг. 17 схематично показывает применение устройства по изобретению.
Далее будет дан обзор схем параметрического разделения с использованием примера технологии пространственного кодирования звуковых объектов (Spatial Audio Object Coding, SAOC) для MPEG ([SAOC]) и части обработки 3D SAOC для MPEG-H 3D Audio ([SAOC3D, SAOC3D2]). Рассматриваются математические свойства этих способов.
Используются следующие математические обозначения:
N количество входных звуковых объектов (альтернативно: входных объектов)
Ndmx Количество микшированных с понижением (транспортных) каналов
Nout Количество микшированных с повышением (рендеризированных) каналов
Nsamples Количество отсчетов на аудиосигнал
D Матрица понижающего микширования, размер Ndmx на N
S Входной сигнал звукового объекта, размер N на Nsamples
E Ковариационная матрица объекта, размер N на N, аппроксимация ESS*
X Микшированные с понижением аудиосигналы, размер Ndmx на Nsamples, определенны как X=DS
E DMX Ковариационная матрица микшированных с понижением сигналов, размер Ndmx на Ndmx, определена как E DMX =DED*
U Матрица параметрической оценки источника, размер N times Ndmx, аппроксимация UED* (DED*)-1
R Матрица рендеризации (определяется на стороне декодера), размер Nout times N
Figure 00000005
Параметрически восстановленные сигналы объекта, размер N на Nsamples, аппроксимация S, определены как
Figure 00000005
=UX
Y dry Параметрически восстановленные и рендеризированные сигналы объекта, размер Nout на Nsamples, определены как Y dry=RUX
Y wet Выводы декоррелятора, размер Nout на Nsamples
Y Окончательный вывод, размер Nout на Nsamples
(⋅)* Самосопряженный (эрмитов) оператор, который представляет сопряженное транспонирование (⋅)
F decorr (⋅) Функция декоррелятора
Без потери общности, чтобы улучшить удобочитаемость уравнений для всех введенных переменных, опущены индексы, обозначающие зависимость от времени и частоты.
Системы параметрического разделения объектов:
Общие схемы параметрического разделения нацелены на оценку нескольких звуковых источников из смеси сигналов (микшированных с понижением) с использованием вспомогательной параметрической информации. Стандартное решение этой задачи основано на применении алгоритмов оценки минимальной среднеквадратичной ошибки (MMSE). Технология SAOC является одним примером таких систем параметрического аудиокодирования.
Фиг. 1 изображает общий принцип архитектуры кодера/декодера SAOC.
Общая параметрическая обработка понижающего/повышающего микширования выполняется выборочно по времени/частоте и может быть описана как последовательность следующих этапов:
- В «Кодер» вводятся входные «звуковые объекты» S и «параметры микширования» D. «икшер» выполняет понижающее микширование «звуковых объектов» S в некоторое количество «микшированных с понижением сигналов» X с использованием «параметров микширования» D (например, коэффициентов понижающего микширования).
- «Блок оценки вспомогательной информации» извлекает вспомогательную информацию, описывающую характеристики входных «звуковых объектов» S (например, свойства ковариации).
- «Микшированные с понижением сигналы» X и вспомогательная информация передаются или сохраняются. Эти микшированные с понижением аудиосигналы могут быть дополнительно сжаты с использованием звуковых кодеров (таких как MPEG-1/2 уровня II или III, MPEG-2/4 усовершенствованный аудиокодер (AAC) MPEG-2/4, унифицированный кодер речи и звука (USAC) MPEG и т.д.). Вспомогательная информация также может быть представлена и эффективно кодирована (например, как кодированные отношения мощностей объектов и коэффициентов корреляции объектов).
«Декодер» восстанавливает первоначальные «звуковые объекты» из декодированных «микшированных с понижением сигналов» с использованием переданной вспомогательной информации (эта информация обеспечивает параметры объектов). «Процессор вспомогательной информации» выполняет оценку коэффициентов разбиения, которые следует применить к «микшированным с понижением сигналам» в «параметрическом разделителе объектов», чтобы получить параметрическую реконструкцию объекта S. Восстановленные «звуковые объекты» рендеризируются как (многоканальная) целевая сцена, представленная выходными каналами Y, посредством применения «параметров рендеризации» R.
Тот же самый общий принцип и последовательные этапы применяются в обработке SAOC 3D, которая включает в себя дополнительную ветвь декорреляции.
Фиг. 2 обеспечивает обзор концепции параметрического понижающего/повышающего микширования с интегрированной ветвью декорреляции.
С использованием примера методики SAOC 3D, части методики MPEG-H 3D Audio, главные этапы обработки такой системы параметрического разделения могут быть кратко описаны следующим образом:
Декодер SAOC 3D производит модифицированный рендеризированный вывод Y как смесь параметрически восстановленного и рендеризированного сигнала («сухого», необработанного сигнала) Y dry и его декоррелированной версии («влажного», обработанного сигнала) Y wet.
Для надлежащего описания изобретения этапы обработки могут быть дифференцированы, как проиллюстрировано на фиг. 3:
- Разбиение, которое параметрически восстанавливает входные звуковые объекты с использованием матрицы U,
- Рендеризация с использованием информации рендеризации (матрица R),
- Декорреляция,
- Постмикширование с использованием матрицы P, вычисленной на основании информации, содержащейся в битовом потоке.
Параметрическое разделение объектов получается из микшированного с понижением сигнала X с использованием матрицы U разбиения на основании дополнительной вспомогательной информации:
Figure 00000005
=UX.
Информация R рендеризации используется для получения необработанного сигнала как: Y dry=R
Figure 00000005
=RUX.
Окончательный выходной сигнал Y вычисляется из сигналов Y dry и Y wet как
Figure 00000006
.
Матрица P микширования вычисляется, например, на основании информации рендеризации, информации корреляции, информации энергии, информации ковариации и т.д.
В изобретении матрица постмикширования будет применяться к кодированному аудиосигналу для получения декодированного аудиосигнала.
Далее будет описана общая операция параметрического разделения объектов с использованием MMSE.
Матрица U разбиения получается на основании информации, выведенной из переменных, содержащихся в битовом потоке (например, матрицы D понижающего микширования и информации E ковариации), с использованием алгоритма оценки минимальной среднеквадратичной ошибки (MMSE): U=ED*J.
Матрица J с размером Ndmx на Ndmx представляет приближение псевдоинверсии ковариационной матрицы E DMX =DED* понижающего микширования как: JE DMX -1.
Вычисление матрицы J выводится в соответствии с: J=V Λ inv V*,
где матрицы V и Λ определены с использованием сингулярного разложения (SVD) матрицы E DMX как: E DMX=V Λ V*.
Следует отметить, что подобные результаты могут быть получены с использованием разных способов разложения, таких как: разложение по собственным значениям, разложение Шура и т.д.
Операция (⋅)inv регуляризированной инверсии, используемая для диагональной сингулярной матрицы Λ, может быть определена, например, как это сделано в SAOC 3D, с использованием отсечения сингулярных значений относительно наибольшего сингулярного значения:
Figure 00000007
В другом варианте осуществления используется следующая формула:
Figure 00000008
Скаляр
Figure 00000009
относительной регуляризации определяется с использованием абсолютной пороговой величины Treg и максимального значения Λ как:
Figure 00000010
, например, при Treg=10-2.
В зависимости от определения сингулярных значений λi,i могут быть ограничены только положительными значениями (если λi,i<0, то λi,i=abs(λi,i), и sign(λi,i) умножается на соответствующий левый или правый сингулярный вектор), или отрицательные значения могут быть разрешены.
Во втором случае с отрицательными значениями λi,i скаляр относительной регуляризации
Figure 00000009
вычисляется как:
Figure 00000011
.
Для простоты далее будет использоваться второе определение
Figure 00000009
.
Подобные результаты могут быть получены с использованием усечения сингулярных значений относительно абсолютного значения или других способов регуляризации, используемых для инверсии матриц.
Инверсия очень малых сингулярных значений может привести к очень высоким коэффициентам разбиения и, следовательно, к высоким усилениям соответствующих микшированных с понижением каналов. В таком случае каналы с очень малыми энергетическими уровнями могут быть усилены с использованием высоких коэффициентов усиления, и это может привести к слышимым артефактам. Чтобы сократить этот нежелательный эффект, сингулярные значения, которые меньше относительной пороговой величины
Figure 00000009
, отсекаются до нуля.
Теперь будут пояснены обнаруженные недостатки в методике параметрического разделения объектов из уровня техники.
Описанные способы параметрического разделения объектов из уровня техники определяют использование регуляризированной инверсии ковариационной матрицы понижающего микширования, чтобы избежать артефактов разделения. Однако для некоторых реальных сценариев микширования на выходе системы были идентифицированы вредные артефакты, вызванные слишком агрессивной регуляризацией.
Далее построен и проанализирован пример такого сценария.
Входные звуковые объекты (S) в количество N=5 кодируются с использованием описанной методики (более точно, способа обработки SAOC 3D, части MPEG-H 3D Audio) как микшированные с понижением каналы (X) в количестве Ndmx=3.
Входные звуковые объекты примера могут состоять из:
- одной группы из двух коррелированных звуковых объектов, содержащих сигналы из музыкального сопровождения (левый и правый каналы стереопары),
- одной группы из одного независимого звукового объекта, содержащего речевой сигнал, и
- одной группы из двух коррелированных звуковых объектов, содержащих запись фортепьяно (левый и правый каналы стереопары).
Входные сигналы подвергаются понижающему микшированию на три группы транспортных каналов:
- группу G1 с одним (M1=1) микшированным с понижением каналом, содержащую первую группу объектов,
- группу G2 с одним (M2=1) микшированным с понижением каналом, содержащую вторую группу объектов, и
- группу G3 с одним (M3=1) микшированным с понижением каналом, содержащую третью группу объектов,
причем Ndmx=M1+M2+M3.
Матрицы D k понижающего микширования, соответствующие каждой группе Gk, k=1, 2, 3, строятся с использованием унарных коэффициентов микширования, и полная матрица D понижающего микширования задана как:
Figure 00000012
Можно отметить отсутствие перекрестного микширования между группой из первых двух сигналов объектов, третьим сигналом объекта и группой из последних двух сигналов объектов. Также следует отметить, что третий сигнал объекта, содержащий речь, только один микшируется как один микшированный с понижением канал. Таким образом, ожидается хорошая реконструкция этого объекта, и, следовательно, также хорошая рендеризация. Спектрограммы входных сигналов и полученного микшированного с понижением сигнала проиллюстрированы на фиг. 4.
Возможное основное кодирование микшированного с понижением сигнала, используемое в реальной системе, здесь опущено для лучшего обозначения в общих чертах нежелательного эффекта. На стороне декодера параметрическое декодирование SAOC 3D используется для восстановления и рендеризации сигналов звуковых объектов как компоновки с 3 каналами (Nout=3): левый (L), центральный (C) и правый (R) каналы.
Простое ремикширование входных звуковых объектов примера используется следующим образом:
- первые два звуковых объекта (музыкальное сопровождение) заглушаются (т.е., рендеризируются с коэффициентом усиления 0),
- третий входной объект (речь) рендеризируется в центральном канале, и
- объект 4 рендеризируется в левом канале, и объект 5 - в правом канале.
В соответствии с этим используемая матрица рендеризации задается как:
Figure 00000013
где
Figure 00000014
.
Опорный выходной сигнал может быть вычислен посредством применения заданной матрицы рендеризации непосредственно к входным сигналам: Y ref=RS.
Спектрограммы опорного выходного сигнала и выходных сигналов декодирования и рендеризации SAOC 3D и визуализации проиллюстрированы двумя столбцами на фиг. 5.
На основании показанных спектрограмм выхода декодера SAOC 3D могут быть отмечены следующие наблюдения:
- Центральный канал, содержащий только речевой сигнал, сильно поврежден по сравнению с опорным сигналом. Могут быть замечены большие спектральные провалы. Эти спектральные провалы (являющийся частотно-временными областями с недостающей энергией) приводят к серьезным слышимым артефактам.
- Малые спектральные провалы присутствуют также в левом и правом каналах, особенно в низкочастотных областях, в которых сконцентрирована наибольшая часть энергии сигнала. Эти спектральные провалы также приводят к слышимым артефактам.
- В микшированных с понижением каналах нет перекрестного микширования групп объектов, т.е., объекты, микшированные в одном микшированном с понижением канале, не присутствуют ни в каком другом микшированном с понижением канале. Второй микшированный с понижением канал содержит только один объект (речь); таким образом, спектральные провалы на выходе системы могут быть формированы только потому, что он обработан вместе с другими микшированными с понижением каналами.
На основании упомянутых наблюдений можно прийти к заключению, что:
- Система SAOC 3D не является «сквозной» системой, т.е. если только один входной сигнал микшируется как один микшированный с понижением канал, качество звука этого входного сигнала должно сохраниться при декодировании и рендеризации.
- Система SAOC 3D может вносить слышимые артефакты вследствие обработки многоканальных микшированных с понижением сигналов. Выходное качество объектов, содержащихся в одной группе микшированных с понижением каналов, зависит от обработки остальных микшированных с понижением каналов.
Спектральные провалы, особенно в центральном канале, указывают, что некоторая полезная информация, содержащаяся в микшированных с понижением каналах, отбрасывается посредством обработки. Эта потеря информации может быть отслежена обратно до этапа параметрического разделения объектов, более точно до этапа регуляризации инверсии ковариационной матрицы понижающего микширования.
По определению матрица понижающего микширования в примере имеет блочно-диагональную структуру:
Figure 00000015
Кроме того, вследствие заданного отношения между входными объектами (например, сигнализация параметрических корреляций) также ковариационная матрица входного сигнала объекта, доступная в декодере, имеет блочно-диагональную структуру:
Figure 00000016
Как следствие ковариационная матрица понижающего микширования может быть представлена в блочно-диагональной форме:
Figure 00000017
В этом случае матрица E DMX уже является блочно-диагональной, но для общего случая ее блочно-диагональная форма может быть получена после перестановки строк/столбцов с использованием оператора перестановки
Figure 00000018
:
Figure 00000019
.
Оператор перестановки
Figure 00000018
определен как матрица, полученная посредством перестановки строк единичной матрицы. Если симметричная матрица A может быть представлена в блочно-диагональной форме посредством перестановки строк и столбцов, оператор перестановки может использоваться, чтобы выразить полученную в результате матрицу Ā как: Ā=Φ AΦ*.
Если
Figure 00000018
является оператором перестановки, тогда поддерживаются следующие свойства:
- во-первых, если V является унарной матрицей, тогда T=ΦV также является унитарной матрицей, и
- во-вторых, Φ Φ*=Φ* Φ=I, где I является единичной матрицей.
Как следствие операторы перестановки являются прозрачными для алгоритмов сингулярного разложения. Это означает, что первоначальная матрица A и полученная посредством перестановки матрица Ā имеют общие сингулярные значения и полученные посредством перестановки сингулярные векторы:
Figure 00000020
Вследствие блочно-диагонального представления сингулярные значения матрицы E DMX могут быть вычислены посредством применения сингулярной декомпозиции к матрице E DMX или посредством применения сингулярной декомпозиции к блочно-диагональным подматрицам E DMX k и объединения результатов:
Figure 00000021
где
Figure 00000022
,
Figure 00000023
,
Figure 00000024
и
Figure 00000025
.
Так как сингулярные значения ковариационной матрицы понижающего микширования непосредственно относятся к энергетическим уровням микшированных с понижением каналов (которые описаны главной диагональю матрицы E DMX):
Figure 00000026
и объекты, содержащиеся в одном канале, не содержатся ни в каком другом микшированном с понижением канале, можно прийти к заключению, что каждое сингулярное значение соответствует одному микшированному с понижением каналу.
Таким образом, если один из микшированных с понижением каналов будет иметь намного меньший энергетический уровень, чем остальные микшированные с понижением каналы, сингулярное значение, соответствующее этому каналу, будет намного меньше, чем остальные сингулярные значения.
Этап отсечения, используемый при инверсии матрицы, содержащей сингулярные значения матрицы E DMX:
Figure 00000027
или
Figure 00000028
может привести к отсечению сингулярных значений, соответствующих микшированному с понижением каналу с малым энергетическим уровнем (относительно микшированного с понижением канала с самой высокой энергией). Вследствие этого информация, присутствующая в этом микшированном с понижением канале с малой относительной энергией, отбрасывается, и формируются спектральные провалы, наблюдаемые в фигурах спектрограммы и на аудиовыходе.
Для лучшего понимания следует учесть то, что понижающее микширование входных звуковых объектов происходит для каждого отсчета и для каждого диапазона частот отдельно. Особенно разделение на разные полосы помогает понять, почему в спектрограммах выходных сигналов на разных частотах могут находиться провалы.
Идентифицированная проблема может быть сведена к тому, что относительная пороговая величина регуляризации вычисляется для сингулярных значений без учета того, что матрица, которая будет инвертирована, является блочно-диагональной:
Figure 00000011
.
Каждая блочно-диагональная матрица соответствует одной независимой группе микшированных с понижением каналов. Отсечение реализуется относительно самого большого сингулярного значения, но это значение описывает только одну группу каналов. Таким образом, реконструкция объектов, содержащихся во всех независимых группах микшированных с понижением каналов, становится зависимой от группы, которая содержит это самое большое сингулярное значение.
Далее изобретение будет описано на основе описанного выше варианта осуществления в отношении уровня техники.
С учетом описанного выше примера три ковариационных матрицы могут быть связаны с тремя разными группами микшированных с понижением каналов G k, 1≤k≤3. Звуковые объекты или входные звуковые объекты, содержащиеся в микшированных с понижением каналах каждой группы, не содержатся ни в какой другой группе. Кроме того, не сигнализировано никакое отношение (например, корреляция) между объектами, содержащимися в микшированных с понижением каналах из разных групп.
Чтобы решить выявленную проблему системы параметрической реконструкции, способ по изобретению предлагает применять этап регуляризации независимо для каждой группы. Это подразумевает, что вычисляются три различных пороговых величины для инверсии трех независимых ковариационных матриц понижающего микширования:
Figure 00000029
, где 1≤k≤3. Следовательно, в изобретении в одном варианте осуществления такая пороговая величина вычисляется для каждой группы отдельно, а не как на текущем уровне техники - одна общая пороговая величина для соответствующих диапазонов частот и отсчетов.
Инверсия сингулярных значений получается соответствующим образом посредством применения регуляризации независимо для подматриц E DMXk, 1≤k≤3:
Figure 00000030
В другом варианте осуществления используется следующая формула:
Figure 00000031
С использованием предложенного способа по изобретению в идентичной в других отношениях системе SAOC 3D для примера, описанного в предыдущем разделе, улучшается качество звука декодированного и рендеризированного выхода. Полученные в результате сигналы проиллюстрированы на фиг. 6.
При сравнении спектрограмм в правом столбце на фиг. 5 и фиг. 6 можно заметить, что способ по изобретению решает выявленные проблемы в существующей системе параметрического разделения предшествующего уровня техники. Способ по изобретению гарантирует функциональность «сквозной» системы, и самое главное, удаляются спектральные провалы.
Описанное решение для обработки трех независимых групп микшированных с понижением каналов может быть легко обобщено для любого количества групп.
Способ по изобретению предлагает модифицировать методику параметрического разделения объектов с использованием информации группирования при инверсии ковариационной матрицы микшированного с понижением сигнала. Это приводит к существенному улучшению качества аудиовывода.
Группирование может быть получено, например, из информации микширования и/или корреляции, уже доступной в декодере без дополнительной сигнализации.
Более точно, одна группа определена в одном варианте осуществления посредством наименьшего набора микшированных с понижением сигналов со следующими двумя свойствами в этом примере:
- Во-первых, входные звуковые объекты, содержащиеся в этих микшированных с понижением каналах, не содержатся ни в каком другом микшированном с понижением канале.
- Во-вторых, все входные сигналы, содержащиеся в микшированных с понижением каналах одной группы, не соотносятся (например, в кодированном аудиосигнале не сигнализирована никакая взаимная корреляция) с любыми другими входными сигналами, содержащимся в микшированных с понижением каналах любой другой группы. Такая взаимная корреляция подразумевает объединенную обработку соответствующих звуковых объектов во время декодирования.
На основании введенного определения группы могут быть определены K (1≤K≤Ndmx) групп: G k (1≤k≤K), и ковариационная матрица E DMX понижающего микширования может быть выражена с использованием блочно-диагональной формы посредством применения оператора перестановки
Figure 00000018
:
Figure 00000032
Подматрицы E DMX k построены посредством выбора элементов ковариационной матрицы понижающего микширования, соответствующей независимым группам G k. Для каждой группы G k матрица E DMX k с размером Mk на Mk выражена с использованием сингулярной декомпозиции как: E DMX k=V k Λ k V k*,
где
Figure 00000033
и
Figure 00000034
.
Матрица E DMXk псевдоинверсии вычисляется как (E DMX k)-1=V k Λ inv k V k*, где матрица Λ inv k регуляризированной инверсии задана в одном варианте осуществления как:
Figure 00000035
и в другом варианте осуществления как:
Figure 00000036
Скаляр
Figure 00000037
относительной регуляризации определен с использованием абсолютной пороговой величины Treg и максимального значения Λ k как:
Figure 00000038
, где Treg=10-2, например.
Инверсия полученной посредством перестановки ковариационной матрицы
Figure 00000039
понижающего микширования получена как:
Figure 00000040
и инверсия ковариационной матрицы понижающего микширования вычисляется посредством применения обратной операции перестановки
Figure 00000041
.
Кроме того, способ по изобретению предлагает в одном варианте осуществления определять группы полностью на основании информации, содержащейся в битовом потоке. Например, эта информация может быть задана посредством информации понижающего микширования и информации корреляции.
Более точно одна группа G k определяется посредством наименьшего набора микшированных с понижением каналов со следующими свойствами:
- Входные звуковые объекты, содержащиеся в микшированных с понижением каналах группы G k, не содержатся ни в каком другом микшированном с понижением канале. Входной звуковой объект не содержится в микшированном с понижением канале, например, если соответствующий коэффициент понижающего микширования задан посредством наименьшего индекса квантования, или если он равен нулю.
- Все входные сигналы i, содержащиеся в микшированных с понижением каналах группы G k, не соотносятся ни с каким входным сигналом j, содержащимся в каком-либо микшированном с понижением канале какой-либо другой группы. Например, (сравните, например, с WO 2011/039195 A1) переменная битового потока bsRelatedTo[i][j] может использоваться, чтобы сигнализировать, соотносятся ли два объекта (bsRelatedTo[i][j] == 1), или они не соотносятся (bsRelatedTo[i][j] == 0). Также могут использоваться разные способы сигнализации двух соотносящихся объектов, например, на основании информации корреляции или ковариации.
Группы могут быть определены один раз на кадр или один раз на набор параметров для всех полос обработки, или один раз на кадр или один раз на набор параметров для каждой полосы обработки.
Способ по изобретению также позволяет в одном варианте осуществления значительно сокращать вычислительную сложность системы параметрического разделения (например, декодера SAOC 3D) с использованием информации группирования в большинстве дорогих вычислительных компонентах параметрической обработки.
Таким образом, способ по изобретению предлагает удалить вычисления, которые не вносят вклад в качество звука окончательного результата. Эти вычисления могут быть выбраны на основании информации группирования.
Более точно, способ по изобретению предлагает вычислять все параметрические этапы обработки независимо для каждой предварительно заданной группы и в конце объединять результаты.
С использованием примера обработки SAOC 3D, часть MPEG-H 3D Audio сложные, в вычислительном отношении операции заданы как:
- вычисление ковариационной матрицы E с размером N на N с элементами:
Figure 00000042
,
- вычисление ковариационной матрицы Δ микшированного с понижением сигнала с размером Ndmx на Ndmx: Δ=DED*,
- вычисление сингулярного разложения матрицы Δ=DED*: Δ=V Λ V*,
- вычисление матрицы J регуляризированной инверсии, аппроксимирующей
Figure 00000043
:
Figure 00000044
,
- вычисление матрицы U параметрического разбиения с размером N на Ndmx: U=ED*J ,
- умножение матрицы R рендеризации с размером Nout на N на матрицу U разбиения с размером N на Ndmx: RU,
- вычисление ковариационной матрицы C с размером Nout на Nout: C=RER*,
- вычисление ковариации параметрически оцененного сигнала E y dry с размером Nout times Nout:
Figure 00000045
.
Различиями на уровне объектов (OLD) называется относительная энергия одного объекта к объекту с наибольшей энергией в течение некоторого времени и для некоторого диапазона частот, и перекрестная когерентность между объектами (IOC) описывает величину подобия или взаимную корреляцию для двух объектов в некоторое время и в некотором диапазоне частот.
Способ по изобретению предлагает сократить вычислительную сложность посредством независимого вычисления всех этапов параметрической обработки для всех предварительно определенных K групп G k, 1≤k≤K, и объединения результатов в конце параметрической обработки.
Одна группа G k содержит Mk микшированных с понижением каналов и Nk входных звуковых объектов таким образом, что:
Figure 00000046
и
Figure 00000047
.
Для каждой группы G k матрица понижающего микширования группы определена как D k посредством выбора элементов матрицы D понижающего микширования, соответствующих микшированным с понижением каналам и входным звуковым объектам, содержащимся в группе G k.
Аналогичным образом, матрица R k рендеризации группы получается из матрицы R рендеризации посредством выбора строк, соответствующих входным звуковым объектам, содержащимся в группе G k.
Аналогичным образом, вектор OLDk группы и матрица IOCk группы получаются из вектора OLD и матрицы IOC посредством выбора элементов, соответствующих входным звуковым объектам, содержащимся в группе G k.
Для каждой группы G k описанные этапы обработки заменяются на менее сложные вычислительном отношении этапы следующим образом:
- вычисление ковариационной матрицы E k группы с размером Nk на Nk с элементами:
Figure 00000048
- вычисление ковариационной матрицы Δ k понижающего микширования группы с размером Mk на Mk: Δ k=D k E k D k*,
- вычисление сингулярного разложения ковариационной матрицы понижающего микширования группы Δ k=D k E k D k*: Δ k=V k Λ k V k*,
- вычисление матрицы J k регуляризированной инверсии группы, аппроксимирующей
Figure 00000002
:
Figure 00000003
,
- вычисление матрицы U k параметрического разбиения группы с размером Nk на Mk: U k=E k D k*J k,
- умножение матрицы R k рендеризации группы с размером NUpmix на Nk на матрицу U k разбиения с размером Nk на Mk: R k U k,
- вычисление ковариационной матрицы C k группы с размером Nout на Nout: C k=R k E k R k*,
- вычисление ковариации группы параметрически оцененного сигнала (E y dry)k с размером Nout на Nout:
Figure 00000004
.
И результаты этапов индивидуальной обработки групп в конце объединяются:
- матрица RU повышающего микширования с размером Nout на Ndmx получается посредством слияния матриц R k U k групп:
Figure 00000049
,
- ковариационная матрица C с размером Nout на Nout получается посредством суммирования матриц C k групп:
Figure 00000050
,
- ковариация параметрически оцененного сигнала E y dry с размером Nout на Nout получается посредством суммирования матриц (E y dry)k групп:
Figure 00000051
Для краткого описания этапов обработки в соответствии со структурой процессора понижающего микширования, проиллюстрированного на фиг. 3, опуская этап декорреляции, существующая параметрическая обработка кадров предшествующего уровня техники может быть изображена на фиг. 7.
С использованием предложенного способа по изобретению сложность вычисления сокращается, используя обнаружение групп, как проиллюстрировано на фиг. 8.
Пример реализации функции обнаружения групп, называемой:
Figure 00000052
, дан на фиг. 9 с использованием кода на языке ANSI C и статической функции ʺgetSaocCoreGroups()ʺ.
Предложенный способ по изобретению оказывается значительно более эффективным в вычислительном отношении, чем выполнение операций без группирования. Он также позволяет лучше распределять память и использование, поддерживает параллелизацию вычислений, сокращает накопление числовых ошибок и т.д.
Предложенный способ по изобретению и предложенное устройство по изобретению решают существующую проблему систем параметрического разделения объектов текущего уровня техники и предлагают значительно более высокое качество звука на выходе.
Предложенный способ по изобретению описывает способ обнаружения групп, который полностью реализован на основании существующей информации битового потока.
Предложенное изобретательское решение для группирования приводит к значительному сокращению вычислительной сложности. В целом сингулярное разложение в вычислительном отношении является затратным, и его сложность растет экспоненциально с размером матрицы, которая должна быть инвертирована:
Figure 00000053
.
Для большого количества микшированных с понижением каналов вычисление K операций сингулярной декомпозиции для матрицы меньшего размера в вычислительном отношении намного более эффективно:
Figure 00000054
.
С использованием тех же соображений все этапы параметрической обработки в декодере могут быть эффективно реализованы посредством вычисления всех умножений матриц, описанных в системе, только для независимых групп и объединения результатов.
Оценка сокращения сложности для разного количества входных звуковых объектов, т.е., входных звуковых объектов, микшированных с понижением каналов и фиксированного количества из 24 выходных каналов дана в следующей таблице:
Количество входных звуковых объектов 8 16 32 60 96 128 256
Количество микшированных с понижением каналов, Ndmx 4 8 16 24 24 32 64
Количество групп, K 2 4 4 6 6 8 8
Параметрическая обработка SAOC 3D [миллионов операций в секунду] 7,5 28 56 464 1000 2022 12000
Параметрическая обработка способа по изобретению [миллионов операций в секунду] 3 3 7,5 10 20 20 81
Сокращение сложности [%] 60,00 89,29 86,61 97,84 98,00 99,01 99,33
Изобретение представляет следующие дополнительные преимущества:
- Для ситуаций, когда может быть создана только одна группа, вывод побитно идентичен системам текущего уровня техники.
- Группирование сохраняет функциональность «сквозной» системы. Это подразумевает, что если только один входной звуковой объект микшируется как один микшированный с понижением канал, декодер способен отлично восстановить его.
Изобретение приводит к следующим предложенным иллюстративным модификациям для формулировки стандарта.
Добавить в ʺ9.5.4.2.4 Операция регуляризированной инверсииʺ:
Матрица J регуляризированной инверсии, аппроксимирующая
Figure 00000043
, вычисляется как
Figure 00000044
.
Матрицы V и Λ определяются как сингулярное разложение матрицы Δ как: Δ=V Λ V*.
Регуляризированная инверсия Λ inv диагональной сингулярной матрицы Λ вычисляется в соответствии с 9.5.4.2.5.
В случае, когда матрица Δ используется при вычислении матрицы U параметрического разбиения, описанные операции применяются для всех подматриц Δk. Подматрица Δk получается посредством выбора элементов Δ(m, n), соответствующих микшированным с понижением каналам m и n, назначенным в группу k.
Группа k определяется посредством наименьшего набора микшированных с понижением каналов со следующими свойствами:
- входные сигналы, содержащиеся в микшированных с понижением каналах группы k, не содержатся ни в каком другом микшированном с понижением канале. Входной сигнал не содержится в микшированном с понижением канале, если соответствующий коэффициент понижающего микширования задан посредством наименьшего индекса квантования (23003-2:2010 ISO/IEC, Таблица 49).
- Все входные сигналы i, содержащиеся в микшированных с понижением каналах группы k, не соотносятся ни с каким входным сигналом, содержащимся в каком-либо микшированном с понижением канале какой-либо другой группы (т.е., bsRelatedTo[i][j] == 0).
Результаты независимых операций регуляризированной инверсии
Figure 00000055
объединяются для получения матрицы J.
Изобретение также приводит к следующим предложенным иллюстративным модификациям для формулировки стандарта.
9.5.4.2.5 Операция регуляризированной инверсии
Матрица
Figure 00000056
регуляризированной инверсии, аппроксимирующая
Figure 00000043
, вычисляется как:
Figure 00000044
.
Матрицы
Figure 00000057
и
Figure 00000058
определены как сингулярное разложение матрицы
Figure 00000059
как:
Figure 00000060
.
Регуляризированная инверсия
Figure 00000061
диагональной сингулярной матрицы
Figure 00000062
вычисляется в соответствии с 9.5.4.2.6.
В случае, когда матрица
Figure 00000063
используется при вычислении матрицы
Figure 00000064
параметрического разбиения, описанные операции применяются для всех подматриц
Figure 00000065
. Подматрица
Figure 00000065
с размером
Figure 00000066
, с элементами
Figure 00000067
получается посредством выбора элементов
Figure 00000068
, соответствующих микшированным с понижением каналам
Figure 00000069
и
Figure 00000070
, назначенным в группу
Figure 00000071
(т.е.
Figure 00000072
и
Figure 00000073
).
Группа
Figure 00000071
с размером
Figure 00000074
определяется посредством наименьшего набора микшированных с понижением каналов со следующими свойствами:
- входные сигналы, содержащиеся в микшированных с понижением каналах группы
Figure 00000071
, не содержатся ни в каком другом микшированном с понижением канале. Входной сигнал не содержится в микшированном с понижением канале, если соответствующий коэффициент понижающего микширования задан посредством наименьшего индекса квантования (23003-2:2010 ISO/IEC, Таблица 49).
- Все входные сигналы
Figure 00000075
, содержащиеся в микшированных с понижением каналах группы
Figure 00000071
, не соотносятся ни с каким входным сигналом
Figure 00000076
, содержащимся в каком-либо микшированном с понижением канале какой-либо другой группы (т.е., bsRelatedTo[i][j] == 0).
Результаты независимых операций регуляризированной инверсии
Figure 00000077
объединяются для получения матрицы
Figure 00000078
как:
Figure 00000079
9.5.4.2.6 Регуляризация сингулярных значений
Операция
Figure 00000080
регуляризированной инверсии, используемая для диагональной сингулярной матрицы
Figure 00000081
, определена как:
Figure 00000082
Скаляр
Figure 00000009
относительной регуляризации определен с использованием абсолютной пороговой величины
Figure 00000083
и максимального значения Λ следующим образом:
Figure 00000084
, где
Figure 00000085
.
На некоторых из следующих фигур индивидуальные сигналы показаны как получаемые из различных этапов обработки. Это сделано для лучшего понимания изобретения и является одной возможностью реализации изобретения, т.е., извлечение индивидуальных сигналов и выполнение этапов обработки этих сигналов или обработанных сигналов.
Другой вариант осуществления вычисляет все необходимые матрицы и применяет их как последний этап к кодированному аудиосигналу, чтобы получить декодированный аудиосигнал. Это включает в себя вычисление разных матриц и их соответствующих комбинаций.
Вариант осуществления объединяет оба метода.
Фиг. 10 схематично показывает устройство 10 для обработки множества (здесь в этом примере пяти) входных звуковых объектов 111, чтобы обеспечить представление входных звуковых объектов 111 посредством кодированного аудиосигнала 100.
Входные звуковые объекты 111 распределяются или микшируются с понижением как микшированные с понижением сигналы 101. В показанном варианте осуществления четыре из пяти входных звуковых объектов 111 назначены в два микшированных с понижением сигнала 101. Один входной звуковой объект 111 назначен в третий микшированный с понижением сигнал 101. Таким образом, пять входных звуковых объектов 111 представлены тремя микшированными с понижением сигналами 101.
Эти микшированные с понижением сигналы 101 затем (возможно, после некоторых не показанных этапов обработки) объединяются в кодированный аудиосигнал 100.
Такой кодированный аудиосигнал 100 подается на устройство 1 по изобретению, для которого один вариант осуществления показан на фиг. 11.
Из кодированного аудиосигнала 100 извлекаются три микшированных с понижением сигнала 101 (сравните с фиг. 10).
Микшированные с понижением сигналы 101 группируются (в показанном примере) в две группы 102 микшированных с понижением сигналов.
Поскольку каждый микшированный с понижением сигнал 101 связан с заданным количеством входных звуковых объектов, каждая группа 102 микшированных с понижением сигналов относится к заданному количеству входных звуковых объектов (соответствующее выражение - входной объект). Следовательно, каждая группа 102 микшированных с понижением сигналов связана с набором входных звуковых объектов из множества входных звуковых объектов, которые кодированы посредством кодированного аудиосигнала 100 (сравните с фиг. 10).
Группирование происходит в показанном варианте осуществления со следующими ограничениями:
1. Каждый входной звуковой объект 111 принадлежит только одному набору входных звуковых объектов и, таким образом, одной группе 102 микшированных с понижением сигналов.
2. Каждый входной звуковой объект 111 не имеет отношения, сигнализированного в кодированном аудиосигнале, к входному звуковому объекту 111, принадлежащему другому набору, связанному с другой группой микшированных с понижением сигналов. Это означает, что кодированный аудиосигнал не имеет такой информации, которая вследствие стандарта привела бы к объединенному вычислению соответствующих входных звуковых объектов.
3. Количество микшированных с понижением сигналов 101 в соответствующих группах 102 минимизировано.
Группы (здесь: две группы) 102 микшированных с понижением сигналов затем обрабатываются индивидуально для получения пяти выходных аудиосигналов 103, соответствующих пяти входным звуковым объектам 111.
Одна группа 102 микшированных с понижением сигналов, которая связана с двумя микшированными с понижением сигналами 101, покрывающими две пары входных звуковых объектов 111 (сравните с фиг. 10), позволяет получить четыре выходных аудиосигнала 103.
Другая группа 102 микшированных с понижением сигналов приводит к одному выходному сигналу 103 как единственному микшированному с понижением сигналу 101, или эта группа 102 микшированных с понижением сигналов (или более точно: группа из одного микшированного с понижением сигнала) относится к одному входному звуковому объекту 111 (сравните с фиг. 10).
Пять выходных аудиосигналов 103 объединяются в один декодированный аудиосигнал 110 в качестве выхода устройства 1.
В варианте осуществления на фиг. 11 все этапы обработки выполняются индивидуально для групп 102 микшированных с понижением сигналов.
Вариант осуществления устройства 1, показанный на фиг. 12, может принимать такой же кодированный аудиосигнал 100, как устройство 1, показанное на фиг. 11, и полученный устройством 10, как показано на фиг. 10.
Из кодированного аудиосигнала 100 получаются три микшированных с понижением сигнала 101 (для трех транспортных каналов) и группируются в две группы 102 микшированных с понижением сигналов. Эти группы 102 обрабатываются индивидуально для получения пяти обработанных сигналов 104, соответствующих пяти входным звуковым объектам, показанным на фиг. 10.
На следующих этапах из пяти совместно обработанных сигналов 104 получаются восемь выходных аудиосигналов 103, например, рендеризируются для использования для восьми выходных каналов. Выходные аудиосигналы 103 объединяются в декодированный аудиосигнал 110, который является выходом из устройства 1. В этом варианте осуществления, выполняется как индивидуальная, так и совместная обработка групп 102 микшированных с понижением сигналов.
Фиг. 13 показывает некоторые этапы варианта осуществления способа по изобретению, в котором декодируется кодированный аудиосигнал.
На этапе 200 микшированные с понижением сигналы извлекаются из кодированного аудиосигнала. На следующем этапе 201 микшированные с понижением сигналы распределяются в группы микшированных с понижением сигналов.
На этапе 202 каждая группа микшированных с понижением сигналов индивидуально обрабатывается, чтобы обеспечить результаты индивидуальных групп. Индивидуальная обработка групп содержит по меньшей мере разбиение для получения представлений аудиосигналов, которые были объединены через понижающее микширование входных звуковых объектов в процессе кодирования. В одном варианте осуществления (не показанном здесь) после индивидуальной обработки следует совместная обработка.
На этапе 203 эти результаты групп объединяются в декодированный аудиосигнал для вывода.
Фиг. 14 еще раз показывает вариант осуществления устройства 1, в котором все этапы обработки после группирования микшированных с понижением сигналов 101 из кодированного аудиосигнала 100 в группы 102 микшированных с понижением сигналов выполняются индивидуально. Устройство 1, которое принимает кодированный аудиосигнал 100 с микшированными с понижением сигналами 101, содержит блок 2 группирования, который группирует микшированные с понижением сигналы 101, чтобы обеспечить группы 102 микшированных с понижением сигналов. Группы 102 микшированных с понижением сигналов обрабатываются процессором 3, выполняющим все необходимые этапы индивидуально для каждой группы 102 микшированных с понижением сигналов. Индивидуальными результатами обработки групп 102 микшированных с понижением сигналов являются выходные аудиосигналы 103, которые объединяются блоком 4 объединения, чтобы получить декодированный аудиосигнал 110 для вывода посредством устройства 1.
Устройство 1, показанное на фиг. 15, отличается от варианта осуществления, показанного на фиг. 14, после группирования микшированных с понижением сигналов 101. В примере не все этапы обработки групп 102 микшированных с понижением сигналов выполняются индивидуально, а некоторые этапы выполняются совместно, и тем самым учитывается более чем одна группа 102 микшированных с понижением сигналов.
Вследствие этого процессор 3 в этом варианте осуществления выполнен с возможностью выполнения только некоторых или по меньшей мере одного этапа обработки индивидуально. Результатом обработки являются обработанные сигналы 104, которые обрабатываются совместно постпроцессором 5. Полученные выходные аудиосигналы 103, наконец, объединяются блоком 4 объединения, что приводит к декодированному аудиосигналу 110.
На фиг. 16 схематично показан процессор 3, принимающий группы 102 микшированных с понижением сигналов и обеспечивающий выходные аудиосигналы 103.
Процессор 3 содержит блок 300 разбиения, выполненный с возможностью разбиения микшированных с понижением сигналов 101 из соответствующих групп 102 микшированных с понижением сигналов. Блок 300 разбиения, таким образом, восстанавливает индивидуальные входные звуковые объекты, которые были объединены кодером в соответствующие микшированные с понижением сигналы 101.
Восстановленные или разделенные входные звуковые объекты подаются на блок 302 рендеризации. Блок 302 рендеризации выполнен с возможностью рендеризации разбитых микшированных с понижением сигналов соответствующих групп для сценария вывода упомянутого декодированного аудиосигнала 110, чтобы обеспечить рендеризированные сигналы 112. Рендеризированные сигналы 112, таким образом, адаптированы к сценарию воспроизведения декодированного аудиосигнала. Рендеризация зависит, например, от количества динамиков, которые будут использоваться, от их размещения или от вида эффектов, которые должны быть получены посредством воспроизведения декодированного аудиосигнала.
Рендеризированные сигналы 112, Y dry, далее подаются на постмикшер 303, выполненный с возможностью выполнения по меньшей мере одного этапа декорреляции для упомянутых рендеризированных сигналов 112, и выполненный с возможностью объединения результатов Y wet выполненного этапа декорреляции с упомянутыми соответствующими рендеризированными сигналами 112, Y dry. Постмикшер 303, таким образом, выполняет этапы для декорреляции сигналов, которые были объединены в одном микшированном с понижением сигнале.
Полученные в результате выходные аудиосигналы 103, наконец, подаются на блок объединения, как показано выше.
Для выполнения этапов процессор 3 полагается на блок 301 вычисления, который является здесь отдельным от других блоков процессора 3, но который в альтернативном (не показанном) варианте осуществления представляет собой признак блока 300 группирования, блока 302 рендеризации и постмикшера 303, соответственно.
Уместно упомянуть, что необходимые матрицы, значения и т.д. вычисляются индивидуально для соответствующих групп 102 микшированных с понижением сигналов. Это подразумевает, что, например, вычисляемые матрицы меньше, чем матрицы, используемые на текущем уровне техники. Матрицы имеют размеры, зависящие от количества входных звуковых объектов соответствующего набора входных звуковых объектов, связанных с группами микшированных с понижением сигналов, и/или от количества микшированных с понижением сигналов, принадлежащих соответствующей группе микшированных с понижением сигналов.
На существующем уровне техники матрица, которая будет использоваться для разбиения, имеет размер [количество входных звуковых объектов или входных аудиосигналов] на [это же количество]. Изобретение позволяет вычислять меньшую матрицу с размером, зависящим от количества входных аудиосигналов, принадлежащих соответствующей группе микшированных с понижением сигналов.
На фиг. 17 разъясняется цель рендеризации.
Устройство 1 принимает кодированный аудиосигнал 100 и декодирует его, обеспечивая декодированный аудиосигнал 110.
Этот декодированный аудиосигнал 110 воспроизводится в заданном сценарии 400 вывода. Декодированный аудиосигнал 110 в этом примере должен быть выдан пятью динамиками 401: левым, правым, центральным левым окружающим и правым окружающим. Слушатель 402 находится в середине сценария 400 и направлен лицом к центральному динамику.
Блок рендеризации в устройстве 1 распределяет восстановленные аудиосигналы, которые должны быть переданы на отдельные динамики 401, и, таким образом, распределяет восстановленное представление первоначальных звуковых объектов как источники аудиосигналов в данном сценарии 400 вывода.
Рендеризация, таким образом, зависит от вида сценария 400 вывода и от индивидуальных вкусовых предпочтений слушателя 402.
Хотя некоторые аспекты были описаны в контексте устройства, понятно, что эти аспекты также представляют описание соответствующего способа, в котором блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все этапы способа могут быть исполнены посредством (или с использованием) аппаратного устройства, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления один или более самых важных этапов способа могут быть исполнены таким устройством.
В зависимости от конкретных требований реализации варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении, или по меньшей мере частично в аппаратных средствах, или по меньшей мере частично в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например, гибкого диска, DVD, Blu-Ray, CD, ПЗУ (ROM), ППЗУ (PROM), СППЗУ (EPROM), ЭСППЗУ (EEPROM) или флэш-памяти, имеющего сохраненные на нем электронно-читаемые управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ. Таким образом, цифровой запоминающий носитель может быть машиночитаемым.
Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронно-читаемые управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой таким образом, что выполняется один из способов, описанных в настоящем документе.
В целом варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, программный код выполнен с возможностью выполнения одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код программы, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в настоящем документе, сохраненную на машиночитаемом носителе.
Другими словами, вариант осуществления способа по изобретению, таким образом, является компьютерной программой, имеющей программный код для выполнения одного из способов, описанных в настоящем документе, когда компьютерная программа работает на компьютере.
Дополнительный вариант осуществления способов по изобретению, таким образом, является носителем информации (или цифровым носителем, или машиночитаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой запоминающий носитель или носитель с записанными данными обычно являются материальными и/или постоянными.
Дополнительный вариант осуществления способа по изобретению, таким образом, является потоком данных или последовательностью сигналов, представляющими компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов, например, могут быть выполнены с возможностью их передачи через соединение передачи данных, например, через Интернет или по радиоканалу.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью выполнения одного из способов, описанных в настоящем документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.
Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, выполненные с возможностью переноса (например, в электронном виде или оптически) компьютерной программы для выполнения одного из способов, описанных в настоящем документе, к приемнику. Приемник может, например, представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система могут, например, содержать файловый сервер для переноса компьютерной программы к приемнику.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторой или всей функциональности способов, описанных в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в настоящем документе. В общем случае способы предпочтительно выполняются любым аппаратным устройством.
Устройство, описанное в настоящем документе, может быть реализовано с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.
Способы, описанные в настоящем документе, могут быть выполнены с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.
Список литературы
[BCC] C. Faller and F. Baumgarte, ʺBinaural Cue Coding - Part II: Schemes and applications,ʺ IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[ISS1] M. Parvaix and L. Girin: ʺInformed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embeddingʺ, IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: ʺA watermarking-based method for informed source separation of audio signals with a single sensorʺ, IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus, J. Pinel, R. Badeau, L. Girin, G. Richard: ʺInformed source separation through spectrogram coding and data embeddingʺ, Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: ʺInformed source separation: source coding meets source separationʺ, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] S. Zhang and L. Girin: ʺAn Informed Source Separation System for Speech Signalsʺ, INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: ʺInformed Audio Source Separation from Compressed Linear Stereo Mixturesʺ, AES 42nd International Conference: Semantic Audio, 2011.
[JSC] C. Faller, ʺParametric Joint-Coding of Audio Sourcesʺ, 120th AES Convention, Paris, 2006.
[SAOC] ISO/IEC, ʺMPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),ʺ ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC3D] ISO/IEC, JTC1/SC29/WG11 N14747, Text of ISO/MPEG 23008-3/DIS 3D Audio, Sapporo, July 2014.
[SAOC3D2] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, ʺMPEG-H Audio - The new standard for universal spatial/3D audio coding,ʺ 137th AES Convention, Los Angeles, 2011.

Claims (61)

1. Устройство (1) для обработки кодированного аудиосигнала (100), содержащего множество микшированных с понижением сигналов (101), связанных с множеством входных звуковых объектов (111) и параметрами (E) объектов, причем устройство содержит:
блок (2) группирования, выполненный с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) во множество групп (102) микшированных с понижением сигналов на основании информации в упомянутом кодированном аудиосигнале (100), причем каждая группа (102) микшированных с понижением сигналов связана с набором входных звуковых объектов (111) из упомянутого множества входных звуковых объектов (111),
процессор (3), выполненный с возможностью индивидуального выполнения по меньшей мере одного этапа обработки параметров (E k) объектов каждого из набора входных звуковых объектов (111), чтобы обеспечить результаты (103, 104) группы, и
блок (4) объединения, выполненный с возможностью объединения упомянутых результатов (103, 104) групп, чтобы обеспечить декодированный аудиосигнал (110),
причем упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов таким образом, что каждый входной звуковой объект (111) из упомянутого множества входных звуковых объектов (111) принадлежит только одному набору входных звуковых объектов (111), и
причем упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов таким образом, что каждый входной звуковой объект (111) из каждого набора входных звуковых объектов либо лишен отношения, сигнализированного в кодированном аудиосигнале (100), с другими входными звуковыми объектами (111), либо имеет отношение, сигнализированное в кодированном аудиосигнале (100), только по меньшей мере с одним входным звуковым объектом (111), принадлежащим тому же набору входных звуковых объектов (111).
2. Устройство (1) по п. 1, в котором упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов, минимизируя количество микшированных с понижением сигналов (101) в каждой группе (102) микшированных с понижением сигналов.
3. Устройство (1) по п. 1, в котором упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов таким образом, что только один единственный микшированный с понижением сигнал (101) принадлежит одной группе (102) микшированных с понижением сигналов.
4. Устройство (1) по п. 1,
в котором упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов посредством применения по меньшей мере следующих этапов:
обнаружения, назначен ли микшированный с понижением сигнал (101) в существующую группу (102) микшированных с понижением сигналов;
обнаружения, является ли по меньшей мере один входной звуковой объект (111) из множества входных звуковых объектов (111), связанный с микшированным с понижением сигналом (101), частью набора входных звуковых объектов (111), связанных с существующей группой (102) микшированных с понижением сигналов;
назначения микшированного с понижением сигнала (101) в новую группу (102) микшированных с понижением сигналов в случае, если микшированный с понижением сигнал (101) лишен назначения в существующую группу (102) микшированных с понижением сигналов, и в случае, если все входные звуковые объекты (111) из множества входных звуковых объектов, связанных с микшированным с понижением сигналом (101), лишены привязки к существующей группе (102) микшированных с понижением сигналов; и
объединения микшированного с понижением сигнала (101) с существующей группой (102) микшированных с понижением сигналов либо в случае, если микшированный с понижением сигнал (101) назначен в существующую группу (102) микшированных с понижением сигналов, либо в случае, если по меньшей мере один входной звуковой объект (111) из множества входных звуковых объектов, связанных с микшированным с понижением сигналом (101), связан с существующей группой (102) микшированных с понижением сигналов.
5. Устройство (1) по п. 1,
в котором упомянутый процессор (3) выполнен с возможностью индивидуального выполнения различных этапов обработки для параметров (E k) объектов из каждого набора входных звуковых объектов (111), чтобы обеспечить индивидуальные матрицы в качестве результатов группы, и
в котором упомянутый блок (4) объединения выполнен с возможностью объединения упомянутых индивидуальных матриц.
6. Устройство (1) по п. 1,
в котором упомянутый процессор (3) выполнен с возможностью индивидуального выполнения по меньшей мере одного этапа обработки для параметров (E k) объектов из каждого набора входных звуковых объектов (111), чтобы обеспечить индивидуальные матрицы,
причем упомянутое устройство (1) содержит постпроцессор (5), выполненный с возможностью совместной обработки параметров объектов, чтобы обеспечить по меньшей мере одну общую матрицу, и
причем упомянутый блок (4) объединения выполнен с возможностью объединения упомянутых индивидуальных матриц и упомянутой по меньшей мере одной общей матрицы.
7. Устройство (1) по п. 1,
в котором упомянутый процессор (3) содержит блок (301) вычисления, выполненный с возможностью вычисления индивидуально для каждой группы (102) микшированных с понижением сигналов матрицы с размерами, зависящими по меньшей мере от одного количества из количества входных звуковых объектов набора входных звуковых объектов, связанных с соответствующей группой (102) микшированных с понижением сигналов, и количества микшированных с понижением сигналов (101), принадлежащих соответствующей группе (102) микшированных с понижением сигналов.
8. Устройство (1) по п. 1,
в котором упомянутый процессор (3) выполнен с возможностью вычисления для каждой отдельной группы микшированных с понижением сигналов индивидуальной пороговой величины на основании максимального абсолютного значения среди абсолютных сингулярных значений в соответствующей группе (102) микшированных с понижением сигналов.
9. Устройство (1) по п. 1,
в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (D k) понижающего микширования для каждой группы (102) микшированных с понижением сигналов,
в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной ковариационной матрицы (E k) группы для каждой группы (102) микшированных с понижением сигналов,
в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной ковариационной матрицы (Δ k) понижающего микширования группы для каждой группы (102) микшированных с понижением сигналов на основании индивидуальной матрицы (D k) понижающего микширования и индивидуальной ковариационной матрицы (E k) группы, и
в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (J k) регуляризированной инверсии группы для каждой группы (102) микшированных с понижением сигналов.
10. Устройство (1) по п. 9,
в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных матриц (J k) регуляризированной инверсии группы, чтобы получить общую матрицу (J) регуляризированной инверсии группы.
11. Устройство (1) по п. 9,
в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (U k) параметрического разбиения группы для каждой группы (102) микшированных с понижением сигналов на основании индивидуальной матрицы (D k) понижающего микширования, индивидуальной ковариационной матрицы (E k) группы и индивидуальной матрицы (J k) регуляризированной инверсии группы, и
в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных матриц (U k) параметрического разбиения группы, чтобы получить общую матрицу (U) параметрического разбиения группы.
12. Устройство (1) по п. 1,
в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (R k) рендеризации группы для каждой группы (102) микшированных с понижением сигналов.
13. Устройство (1) по п. 12,
в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (R k U k) повышающего микширования для каждой группы (102) микшированных с понижением сигналов на основании индивидуальной матрицы (R k) рендеризации группы и индивидуальной матрицы (U k) параметрического разбиения группы, и
в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных матриц (R k U k) повышающего микширования, чтобы получить общую матрицу (RU) повышающего микширования.
14. Устройство (1) по п. 12,
в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной ковариационной матрицы (C k) группы для каждой группы (102) микшированных с понижением сигналов на основании индивидуальной матрицы (R k) рендеризации группы и индивидуальной ковариационной матрицы (E k) группы, и
в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных ковариационных матриц (C k) группы, чтобы получить общую ковариационную матрицу (C) группы.
15. Устройство (1) по п. 12,
в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной ковариационной матрицы группы параметрически оцененного сигнала (E y dry)k на основании индивидуальной матрицы (R k) рендеризации группы, индивидуальной матрицы (U k) параметрического разбиения группы, индивидуальной матрицы (D k) понижающего микширования и индивидуальной ковариационной матрицы (E k) группы, и
в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных ковариационных матриц группы параметрически оцененного сигнала (E y dry)k, чтобы получить общий параметрически оцененный сигнал E y dry.
16. Устройство (1) по п. 1,
в котором упомянутый процессор (3) выполнен с возможностью определения матрицы (J) регуляризированной инверсии на основании сингулярного разложения ковариационной матрицы (E DMX) понижающего микширования.
17. Устройство (1) по п. 1,
в котором упомянутый процессор (3) выполнен с возможностью определения подматрицы (Δ k) для определения матрицы (U) параметрического разбиения посредством выбора элементов (Δ (m, n)), соответствующих микшированным с понижением сигналам (m, n), назначенным в соответствующую группу (k) (102) микшированных с понижением сигналов.
18. Устройство (1) по п. 1,
в котором упомянутый блок (4) объединения выполнен с возможностью определения матрицы (P) постмикширования на основании индивидуально определенных матриц для каждой группы (102) микшированных с понижением сигналов и
в котором упомянутый блок (4) объединения выполнен с возможностью применения матрицы (P) постмикширования к множеству микшированных с понижением сигналов (101), чтобы получить декодированный аудиосигнал (110).
19. Способ обработки кодированного аудиосигнала (100), содержащего множество микшированных с понижением сигналов (101), связанных с множеством входных звуковых объектов (111) и параметрами (E) объектов,
причем упомянутый способ содержит этапы, на которых:
группируют упомянутое множество микшированных с понижением сигналов (101) во множество групп (102) микшированных с понижением сигналов на основании информации в упомянутом кодированном аудиосигнале (100), причем каждая группа (102) микшированных с понижением сигналов связана с набором входных звуковых объектов (111) из упомянутого множества входных звуковых объектов (111),
индивидуально выполняют по меньшей мере один этап обработки параметров (E k) объектов каждого набора входных звуковых объектов (111), чтобы обеспечить результаты (103, 104) группы, и
объединяют упомянутые результаты (103, 104) групп, чтобы обеспечить декодированный аудиосигнал (110),
причем группирование упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов конфигурировано таким образом, что каждый входной звуковой объект (111) из упомянутого множества входных звуковых объектов (111) принадлежит только одному набору входных звуковых объектов (111), и
причем группирование упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов конфигурировано таким образом, что каждый входной звуковой объект (111) из каждого набора входных звуковых объектов либо лишен отношения, сигнализированного в кодированном аудиосигнале (100), с другими входными звуковыми объектами (111), либо имеет отношение, сигнализированное в кодированном аудиосигнале (100), по меньшей мере только с одним входным звуковым объектом (111), принадлежащим тому же набору входных звуковых объектов (111).
20. Физический запоминающий носитель, на котором сохранён программный код для выполнения способа по п. 19 при его выполнении на компьютере.
RU2017130900A 2015-02-02 2016-02-01 Устройство и способ обработки кодированного аудиосигнала RU2678136C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15153486.4 2015-02-02
EP15153486 2015-02-02
PCT/EP2016/052037 WO2016124524A1 (en) 2015-02-02 2016-02-01 Apparatus and method for processing an encoded audio signal

Publications (1)

Publication Number Publication Date
RU2678136C1 true RU2678136C1 (ru) 2019-01-23

Family

ID=52449979

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017130900A RU2678136C1 (ru) 2015-02-02 2016-02-01 Устройство и способ обработки кодированного аудиосигнала

Country Status (16)

Country Link
US (3) US10152979B2 (ru)
EP (1) EP3254280B1 (ru)
JP (2) JP6564068B2 (ru)
KR (1) KR102088337B1 (ru)
CN (1) CN107533845B (ru)
AR (1) AR103584A1 (ru)
AU (1) AU2016214553B2 (ru)
CA (1) CA2975431C (ru)
HK (1) HK1247433A1 (ru)
MX (1) MX370034B (ru)
MY (1) MY182955A (ru)
RU (1) RU2678136C1 (ru)
SG (1) SG11201706101RA (ru)
TW (1) TWI603321B (ru)
WO (1) WO2016124524A1 (ru)
ZA (1) ZA201704862B (ru)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102088337B1 (ko) 2015-02-02 2020-03-13 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互***的音频对象编码方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
WO2010125104A1 (en) * 2009-04-28 2010-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and computer program using an object-related parametric information
RU2417459C2 (ru) * 2006-11-15 2011-04-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
EP2535892B1 (en) * 2009-06-24 2014-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
US20140350944A1 (en) * 2011-03-16 2014-11-27 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
EP2830048A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7792722B2 (en) 2004-10-13 2010-09-07 Ares Capital Management Pty Ltd Data processing system and method incorporating feedback
EP1946294A2 (en) * 2005-06-30 2008-07-23 LG Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CN101479785B (zh) * 2006-09-29 2013-08-07 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
ES2452348T3 (es) * 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
WO2010017833A1 (en) 2008-08-11 2010-02-18 Nokia Corporation Multichannel audio coder and decoder
US20100042446A1 (en) 2008-08-12 2010-02-18 Bank Of America Systems and methods for providing core property review
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
TWI505262B (zh) 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
KR20140128564A (ko) * 2013-04-27 2014-11-06 인텔렉추얼디스커버리 주식회사 음상 정위를 위한 오디오 시스템 및 방법
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
WO2015150384A1 (en) * 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN105895086B (zh) * 2014-12-11 2021-01-12 杜比实验室特许公司 元数据保留的音频对象聚类
KR102088337B1 (ko) 2015-02-02 2020-03-13 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2417459C2 (ru) * 2006-11-15 2011-04-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
WO2010125104A1 (en) * 2009-04-28 2010-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing one or more adjusted parameters for a provision of an upmix signal representation on the basis of a downmix signal representation, audio signal decoder, audio signal transcoder, audio signal encoder, audio bitstream, method and computer program using an object-related parametric information
EP2535892B1 (en) * 2009-06-24 2014-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
US20140350944A1 (en) * 2011-03-16 2014-11-27 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
EP2830048A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content

Also Published As

Publication number Publication date
TW201633290A (zh) 2016-09-16
MX370034B (es) 2019-11-28
CA2975431C (en) 2019-09-17
ZA201704862B (en) 2019-06-26
US20170323647A1 (en) 2017-11-09
MY182955A (en) 2021-02-05
JP2018507444A (ja) 2018-03-15
US10529344B2 (en) 2020-01-07
US11004455B2 (en) 2021-05-11
MX2017009769A (es) 2018-03-28
TWI603321B (zh) 2017-10-21
AU2016214553B2 (en) 2019-01-31
EP3254280B1 (en) 2024-03-27
CN107533845B (zh) 2020-12-22
CA2975431A1 (en) 2016-08-11
JP6906570B2 (ja) 2021-07-21
JP2019219669A (ja) 2019-12-26
EP3254280A1 (en) 2017-12-13
US10152979B2 (en) 2018-12-11
HK1247433A1 (zh) 2018-09-21
AR103584A1 (es) 2017-05-17
CN107533845A (zh) 2018-01-02
US20190108847A1 (en) 2019-04-11
WO2016124524A1 (en) 2016-08-11
KR20170110680A (ko) 2017-10-11
US20200194012A1 (en) 2020-06-18
BR112017015930A2 (pt) 2018-03-27
AU2016214553A1 (en) 2017-09-07
SG11201706101RA (en) 2017-08-30
KR102088337B1 (ko) 2020-03-13
EP3254280C0 (en) 2024-03-27
JP6564068B2 (ja) 2019-08-21

Similar Documents

Publication Publication Date Title
KR101391110B1 (ko) 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
KR101290461B1 (ko) 다운믹스 오디오 신호를 업믹싱하는 업믹서, 방법 및 컴퓨터 프로그램
CN105518775B (zh) 使用自适应相位校准的多声道降混的梳型滤波器的伪迹消除
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
TW201248619A (en) Encoding and decoding of slot positions of events in an audio signal frame
US10163446B2 (en) Audio encoder and decoder
RU2604337C2 (ru) Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования
US11004455B2 (en) Apparatus and method for processing an encoded audio signal
RU2803451C2 (ru) Кодирование и декодирование параметров
BR112017015930B1 (pt) Aparelho e método para processar um sinal de áudio codificado