RU2607267C2

RU2607267C2 - Устройство для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, способы, компьютерные программы и битовый поток, представляющий многоканальный звуковой сигнал посредством использования параметра линейной комбинации

Info

Publication number: RU2607267C2
Application number: RU2012127554A
Authority: RU
Inventors: Йонас ЭНГДЕГАРД; Хеико ПУРНХАГЕН; Юрген ХЕРРЕ; Корелиа ФАЛХ; Оливер ХЕЛЬМУТ; Леонид ТЕРЕНТЬЕВ
Original assignee: Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф.; Долби Интернейшнл АБ
Priority date: 2009-11-20
Filing date: 2010-11-16
Publication date: 2017-01-10
Also published as: KR101414737B1; PL2489038T3; JP5645951B2; CN102714038B; CA2781310A1; TW201131553A; ES2569779T3; AU2010321013B2; JP2013511738A; TWI441165B; US20120259643A1; KR20120084314A; EP2489038A1; WO2011061174A1; CN102714038A; MY154641A; EP2489038B1; BR112012012097A2; BR112012012097B1; AU2010321013A1

Abstract

Изобретение относится к средствам для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования. Технический результат заключается в обеспечении высокого качества звука даже в случае выбора пользователем матрицы аудиокодирования при сохранении низкого уровня вычислительной эффективности на стороне аудиокодера. Устройство включает ограничитель искажения, формируемый, чтобы получить измененную матрицу визуализации посредством использования линейной комбинации определенной пользователем матрицы визуализации и заданной матрицы визуализации в зависимости от параметра линейной комбинации. Устройство также включает процессор сигнала, формируемый, чтобы получить представление сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом параметрической информации посредством использования измененной матрицы визуализации. 6 н. и 15 з.п. ф-лы, 19 ил.

Description

Область применения

Осуществления согласно изобретению связаны с устройством для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом (объектно-связанной) параметрической информации, которые включаются в представление битового потока звукового содержания (контента), и в зависимости от определенной пользователем матрицы визуализации.

Другие осуществления согласно изобретению связаны с устройством для обеспечения битового потока, представляющего многоканальный звуковой сигнал.

Другие осуществления согласно изобретению связаны со способом обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом параметрической информации, которые включаются в представление битового потока звукового содержания, и в зависимости от определенной пользователем матрицы визуализации.

Другие осуществления согласно изобретению связаны со способом обеспечения битового потока, представляющего многоканальный звуковой сигнал.

Другие осуществления согласно изобретению связаны с компьютерной программой, выполняющей один из указанных способов.

Другое осуществление согласно изобретению связано с битовым потоком, представляющим многоканальный звуковой сигнал.

Уровень техники

В области обработки, передачи и хранения звуковых сигналов существует возрастающая необходимость управлять многоканальным содержанием для улучшения впечатления от прослушивания. Использование многоканального звукового содержания способствует существенному улучшению впечатления пользователя. Например, может быть получено трехмерное впечатление от прослушивания, которое улучшает впечатление пользователя при использовании в развлекательных целях. Однако многоканальное звуковое содержание также полезно в профессиональной среде, например, при проведении телефонных конференций, потому что может быть улучшена разборчивость речи говорящего при использовании многоканального звукового воспроизведения.

Однако также желательно иметь хорошее соотношение между качеством звука и требованиями к скорости передачи звука, чтобы избежать чрезмерной ресурсной нагрузки в случае дешевого или профессионального применения многоканального звукового сигнала.

В последнее время были предложены параметрические методы передачи, эффективные относительно скорости передачи битового потока и/или хранения звуковых сцен (объектов передачи), содержащих множественные звуковые объекты. Например, было предложено бинауральное кодирование реплик, которое описано, например, в ссылке [1], и параметрическое кодирование объединенных звуковых источников, которое описано, например, в ссылке [2]. Кроме того, было предложено MPEGпространственное кодирование звукового объекта (SAOC), которое описано, например, в ссылках [3] и [4]. MPEGпространственное кодирование звукового объекта в настоящее время находится в процессе стандартизации и описано в предварительно неопубликованной ссылке [5].

Эти методы направлены на перцепционное восстановление желательной(требуемой) выходной звуковой сцены, а не на соответствие волновой формы сигнала.

Однако, в сочетании с пользовательской интерактивностью на приемной стороне, такие методы могут привести к снижению звукового качества выходных звуковых сигналов, если выполняется экстремальная визуализация объекта. Это описано, например, в ссылке [6].

В дальнейшем будут описаны такие системы, и следует заметить, что основные концепции также применяются к осуществлениям изобретения.

Фиг.8 показывает краткий обзор такой системы (здесь: MPEGSAOC). MPEGSAOC система 800, показанная на Фиг.8, включает SAOCкодирующее устройство 810 и SAOCдекодер 820. SAOCкодирующее устройство 810 получает множество объектных сигналов x₁-x_N, которые могут быть представлены, например, как сигналы временного интервала или как сигналы частотно-временной области (например, в форме комплекта коэффициентов преобразования типа преобразования Фурье или в форме сигналов поддиапазона QMF (квадратурный зеркальный фильтр)). SAOCкодирующее устройство 810 обычно также получает коэффициенты понижающего микширования с d₁-d_N, которые связаны с объектными сигналами х₁-x_N. Отдельные комплекты коэффициентов понижающего микширования могут быть доступными для каждого канала сигнала понижающего микширования. SAOCкодирующее устройство 810 обычно формируется, чтобы получить канал сигнала понижающего микширования посредством объединения объектных сигналов x₁-x_N в соответствии со связанными коэффициентами понижающего микширования d₁-d_N. Как правило, имеется меньше каналов понижающего микширования, чем объектных сигналов х₁-x_N. Чтобы сделать возможным (по крайней мере, приблизительно) разделение (или отдельную обработку) объектных сигналов на стороне SAOCдекодера 820, SAOCкодирующее устройство 810 предоставляет как один или несколько сигналов понижающего микширования (обозначены как каналы понижающего микширования) 812, так и дополнительную информацию 814. Дополнительная информация 814 описывает характеристики объектных сигналов х₁-x_N, чтобы обеспечить специфическую для объекта обработку на стороне декодера.

SAOCдекодер 820 формируется, чтобы получить один или несколько сигналов понижающего микширования 812 и дополнительную информацию 814. Кроме того, SAOCдекодер 820 обычно формируется, чтобы получить пользовательскую информацию о взаимодействии и/или пользовательскую управляющую информацию 822, которая описывает желательную (требуемую) установку визуализации. Например, пользовательская управляющая информация /пользовательская информация о взаимодействии 822 может описывать установку громкоговорителя и желательное (требуемое) пространственное размещение объектов, обеспечивающих объектные сигналы х₁-x_N. SAOCдекодер 820 формируется, чтобы обеспечить, например, множество декодированных сигналов канала повышающего микширования

. Сигналы канала повышающего микширования могут, например, быть связаны с индивидуальными громкоговорителями схемы визуализации с множеством громкоговорителей. SAOCдекодер 820 может, например, включать разделитель объектов 820а, который формируется, чтобы восстановить, по крайней мере приблизительно, объектные сигналы х₁-x_N на основе одного или нескольких сигналов понижающего микширования 812 и дополнительной информации 814, таким образом, получая восстановленные объектные сигналы 820b. Однако восстановленные объектные сигналы 820b могут немного отклоняться от оригинальных объектных сигналов х₁-x_N, например, потому что дополнительная информация 814 недостаточна для идеальной реконструкции ввиду ограничений скорости передачи битового потока. SAOCдекодер 820 может далее включать микшер 820с, который может формироваться, чтобы получить восстановленные объектные сигналы 820b и пользовательскую управляющую информацию/пользовательскую информацию о взаимодействии 822 и обеспечить на их основе сигналы канала повышающего микширования

. Микшер 820с может формироваться, чтобы использовать пользовательскую информацию о взаимодействии/пользовательскую управляющую информацию 822, чтобы определить вклад (ответное сообщение) отдельных восстановленных объектных сигналов 820b в сигналы канала повышающего микширования

. Пользовательская управляющая информация/пользовательская информация о взаимодействии 822 может, например, включать параметры визуализации (также обозначаемые как коэффициенты визуализации), которые определяют вклад (ответное сообщение) отдельных восстановленных объектных сигналов 822 в сигналы канала повышающего микширования

.

Однако следует отметить, что во многих осуществлениях разделение объекта, которое обозначено разделителем объектов 820а на Фиг.8, и микширование, которое обозначено микшером 820с на Фиг.8, выполняется на едином этапе. С этой целью могут быть вычислены общие параметры, которые описывают прямое отображение одного или нескольких сигналов понижающего микширования 812 на сигналы канала повышающего микширования

. Эти параметры могут быть вычислены на основе дополнительной информации и пользовательской управляющей информации/пользовательской информации о взаимодействии 820.

Теперь со ссылкой на Фиг.9а, 9b и 9с будут описаны различные устройства для получения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом дополнительной информации. Фиг.9а показывает блок-схему MPEGSAOC системы 900, включающую SAOCдекодер 920. SAOCдекодер 920 включает, в качестве отдельных функциональных блоков, декодер объектов 922 и микшер/рендерер 926. Декодер объектов 922 обеспечивает множество восстановленных объектных сигналов 924 в зависимости от представления сигнала понижающего микширования (например, в форме одного или нескольких сигналов понижающего микширования, представленных во временном интервале или в частотно-временной области) и связанной с объектом дополнительной информации (например, в форме метаданных объекта). Микшер/рендерер 926 получает восстановленные объектные сигналы 924, связанные с множеством N объектов, и обеспечивает, на их основе, один или несколько сигналов канала повышающего микширования 928. В SAOCдекодере 920 извлечение объектных сигналов 924 осуществляется отдельно от микширования/визуализации, которое обеспечивает отделение функциональных возможностей декодирования объекта от функциональных возможностей микширования/визуализации, но приводит к относительно высокой сложности вычислений.

Теперь, со ссылкой на Фиг.9b будет кратко обсуждена другая MPEGSAOC система 930, которая включает SAOCдекодер 950. SAOCдекодер 950 обеспечивает множество сигналов канала повышающего микширования 958 в зависимости от представления сигнала понижающего микширования (например, в форме одного или нескольких сигналов понижающего микширования) и связанной с объектом дополнительной информации (например, в форме метаданных объекта). SAOCдекодер 950 включает объединенный декодер объекта и микшер/рендерер, который формируется для получения сигналов канала повышающего микширования 958 в объединенном процессе микширования без разделения декодирования объекта и микширования/визуализации, где параметры указанного объединенного процесса повышающего микширования зависят как от связанной с объектом дополнительной информации, так и от информации о визуализации. Объединенный процесс повышающего микширования зависит также от информации о понижающем микшировании, которая рассматривается как часть связанной с объектом дополнительной информации.

Чтобы суммировать вышесказанное, предоставление сигналов канала повышающего микширования 928, 958 может быть выполнено в одноэтапном процессе или двухэтапном процессе.

Теперь, со ссылкой на Фиг.9с будет описана MPEGSAOC система 960. SAOCсистема 960 включает SAOC-MPEG Окружающий транскодер 980, а не SAOCдекодер.

SAOC-MPEG Окружающий транскодер включает транскодер дополнительной информации 982, который формируется для получения связанной с объектом дополнительной информации (например, в форме метаданных объекта) и, факультативно, информации ободном или нескольких сигналах понижающего микширования и информации о визуализации. Транскодер дополнительной информации также формируется для предоставления MPEG Окружающей дополнительной информации (например, в форме MPEG Окружающего битового потока) на основе полученных данных. Соответственно, транскодер дополнительной информации 982 формируется, чтобы преобразовывать связанную с объектом (параметрическую) дополнительную информацию, полученную от объектного кодирующего устройства, в связанную с каналом (параметрическую) дополнительную информацию, с учетом информации о визуализации и, факультативно, информации о содержании одного или нескольких сигналов понижающего микширования.

Факультативно, SAOC-MPEG Окружающий транскодер 980 может формироваться, чтобы управлять одним или несколькими сигналами понижающего микширования, описанными, например, представлением сигнала понижающего микширования, для получения управляемого представления сигнала понижающего микширования 988. Однако манипулятор сигнала понижающего микширования 986 может быть опущен, чтобы представление сигнала понижающего микширования на выходе 988 SAOC-MPEG Окружающего транскодера 980 было идентично представлению сигнала понижающего микширования на входе SAOC-MPEG Окружающего транскодера. Манипулятор сигнала понижающего микширования 986 может, например, использоваться, если связанная с каналом MPEG Окружающая дополнительная информация 984 не позволяет обеспечить желательное впечатление от прослушивания на основе представления сигнала понижающего микширования на входе SAOC-MPEG Окружающего транскодера 980, что может иметь место в некоторых совокупностях визуализаций.

Соответственно, SAOC-MPEGОкружаюший транскодер 980 обеспечивает представление сигнала понижающего микширования 988 и MPEG Окружающий битовый поток 984 таким образом, что множество сигналов канала повышающего микширования, которые представляют звуковые объекты в соответствии с информацией о визуализации на входе SAOC-MPEG Окружающего транскодера 980, может быть получено посредством использования MPEG Окружающего декодера, который получает MPEG Окружающий битовый поток 984 и представление сигнала понижающего микширования 988.

Чтобы суммировать вышесказанное, могут использоваться различные концепции декодирования SAOC-кодированных звуковых сигналов. В некоторых случаях используется SAOCдекодер, который обеспечивает сигналы канала повышающего микширования (например, сигналы канала понижающего микширования 928, 958) в зависимости от представления сигнала понижающего микширования и связанной с объектом параметрической дополнительной информации. Примеры этой концепции можно увидеть нафиг.9а и 9b. Альтернативно, SAOC-кодированная звуковая информация может быть транскодирована для получения представления сигнала понижающего микширования (например, представление сигнала понижающего микширования 988) и связанной с каналом дополнительной информации (например, связанный с каналом MPEG Окружающий битовый поток 984), которые могут использоваться MPEG Окружающим декодером, чтобы обеспечить желательные сигналы канала повышающего микширования.

В MPEGSAOC системе 800, краткий обзор которой дан на Фиг.8, общая обработка выполняется способом частотной селекции и может быть описана в каждом частотном диапазоне следующим образом:

- N входных объектных звуковых сигналов х₁-x_N микшируется с понижением как часть процесса обработки SAOCкодирующего устройства. Для моно понижающего микширования коэффициенты понижающего микширования обозначены d₁-d_N. Кроме того, SAOCкодирующее устройство 810 извлекает дополнительную информацию 814, описывающую характеристики входных звуковых объектов. Для MPEGSAOC соотношение мощностей объектов друг с другом - самая основная форма такой дополнительной информации.

- Сигнал (или сигналы) понижающего микширования 812 и дополнительная информация 814 передаются и/или сохраняются. Чтобы закончить, звуковой сигнал понижающего микширования может быть сжат посредством использования известных перцепционных звуковых кодирующих устройств, таких как MPEG-1 Уровень II или III (также известный как «mp3»), MPEG Усовершенствованное Звуковое Кодирование (ААС) или любое другое кодирующее устройство.

- На стороне приема SAOCдекодер 820 концептуально пытается восстановить оригинальный сигнал объекта («разделение объекта»), используя переданную дополнительную информацию 814 (и, естественно, один или несколько сигналов понижающего микширования 812). Затем эти приближенные (аппроксимированные) объектные сигналы (также определяемые как восстановленные объектные сигналы 820b) смешиваются в заданную (целевую) сцену, представленную М звуковыми выходными каналами (которые могут, например, быть представлены сигналами канала повышающего микширования

) посредством использования матрицы визуализации. Для моно выхода коэффициенты матрицы визуализации представлены r₁-r_N.

- Практически, разделение сигналов объекта выполняется редко (или даже никогда не выполняется), поскольку и стадия разделения (обозначенная объектным разделителем (сепаратором) 820а), и стадия микширования (обозначенная микшером 820с) объединены в единую стадию транскодирования, которая часто приводит к значительному снижению сложности вычислений.

Было установлено, что такая схема чрезвычайно эффективна как в отношении скорости передачи битового потока (необходимо передать только несколько каналов понижающего микширования плюс некоторую дополнительную информацию вместо Nдискретных объектных звуковых сигналов или дискретной системы), так и вычислительной сложности (сложность обработки связана, главным образом, с числом выходных каналов, а не с числом звуковых объектов). Дальнейшие преимущества для пользователя на стороне приема включают свободу выбора установки визуализации (моно, стерео, окружающая, виртуализованное воспроизведение в наушниках и так далее) и свойство интерактивности пользователя: матрица визуализации, и таким образом, сцена на выходе могут быть согласованно установлены и изменены пользователем по желанию, по личному предпочтению или по другим критериям. Например, можно расположить конкретных говорящих из одной группы вместе в одной пространственной области, чтобы максимизировать их дифференциацию от остальных говорящих. Эта интерактивность достигается посредством обеспечения пользовательского интерфейса декодера.

Для каждого переданного звукового объекта может быть отрегулирован его относительный уровень и (для не моно визуализации) пространственное положение визуализации. Это может происходить в реальном времени, поскольку пользователь меняет положение ползунков связанного графического пользовательского интерфейса (GUI) (например: уровень объекта = +5дБ, положение объекта = -30°).

Однако было обнаружено, что выбор параметров на стороне декодера для обеспечения представления сигнала повышающего микширования (например, сигналы канала повышающего микширования

) в некоторых случаях приводит к ухудшению слышимости.

Ввиду вышеизложенного, целью данного изобретения является создание концепции, которая позволит сократить или даже предотвратить слышимые искажения при обеспечении представления сигнала повышающего микширования (например, в форме сигналов канала повышающего микширования

).

Краткое изложение сущности изобретения

Осуществление согласно изобретению создает устройство для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом параметрической информации, которые включены в представление битового потока звукового содержания, и в зависимости от определенной пользователем матрицы визуализации. Устройство включает ограничитель искажения, формируемый, чтобы получить измененную матрицу визуализации посредством использования линейной комбинации определенной пользователем матрицы визуализации и заданной (целевой) матрицы визуализации в зависимости от параметра линейной комбинации. Устройство также включает процессор сигналов, формируемый, чтобы получить представление сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом параметрической информации посредством использования измененной матрицы визуализации. Устройство формируется, чтобы оценить элемент битового потока, представляющий параметр линейной комбинации, для получения параметра линейной комбинации.

Это осуществление согласно изобретению основано на ключевой идее о том, что слышимые искажения представления сигнала повышающего микширования могут быть уменьшены или даже уничтожены при низкой сложности вычисления посредством использования линейной комбинации определенной пользователем матрицы визуализации и заданной (целевой) матрицы визуализации в зависимости от параметра линейной комбинации, который извлекается из представления битового потока звукового содержания, потому что линейная комбинация может быть выполнена эффективно и потому что выполнение требуемой задачи по определению параметра линейной комбинации может осуществляться на стороне кодирующего устройства звукового сигнала, где обычно имеется больше доступной вычислительной мощности, чем на стороне декодера звукового сигнала (устройство для обеспечения представления сигнала повышающего микширования).

Соответственно, обсужденная выше концепция позволяет получить измененную матрицу визуализации, которая приводит к уменьшенным слышимым искажениям даже при несоответствующем выборе определенной пользователем матрицы визуализации, при этом существенно не увеличивая сложности устройства для обеспечения представления сигнала повышающего микширования. В частности, может даже оказаться ненужным изменять процессор сигнала при сравнении с устройством без ограничителя искажения, потому что измененная матрица визуализации создает входную величину в процессор сигнала и просто заменяет определенную пользователем матрицу визуализации. Кроме того, концепция согласно изобретению дает то преимущество, что кодирующее устройство звукового сигнала может приспособить схему ограничения искажения, которая применяется на стороне декодера звукового сигнала, в соответствии с требованиями, определенными на стороне кодирующего устройства, простой настройкой параметра линейной комбинации, который включается в представление битового потока звукового содержания. Соответственно, кодирующее устройство звукового сигнала может постепенно обеспечить пользователю декодера (устройство для обеспечения представления сигнала повышающего микширования) большую или меньшую свободу выбора матрицы визуализации посредством соответствующего выбора параметра линейной комбинации. Это обеспечивает адаптацию декодера звукового сигнала к ожиданиям пользователя данной услуги, потому что в отношении некоторых услуг пользователь может ожидать получения максимального качества (что подразумевает уменьшение возможности пользователя произвольно приспосабливать матрицу визуализации), в то время как для других услуг пользователь может обычно ожидать максимальную степень свободы (что подразумевает увеличение воздействия определенной пользователем матрицы визуализации на результат линейной комбинации).

Чтобы суммировать вышесказанное, концепция согласно изобретению объединяет высокую вычислительную эффективность на стороне декодера, что может иметь особое значение для портативных звуковых декодеров, при простом выполнении без необходимости модифицировать процессор сигнала, а также обеспечивает высокую степень управления кодирующему устройству звукового сигнала, что важно для реализации ожиданий пользователя в отношении различных типов звуковых услуг.

В предпочтительном осуществлении ограничитель искажения формируется, чтобы получить заданную (целевую) матрицу визуализации таким образом, что заданная (целевая) матрица визуализации является заданной (целевой) матрицей визуализации без искажений. Это дает возможности иметь сценарий воспроизведения, в котором нет искажений или, по крайней мере, нет искажений, вызванных выбором матрицы визуализации. Кроме того, было обнаружено, что вычисление заданной (целевой) матрицы визуализации без искажений в некоторых случаях может быть выполнено очень просто. Далее, было обнаружено, что матрица визуализации, которая выбирается в промежутке между определенной пользователем матрицей визуализации и заданной (целевой) матрицей визуализации без искажений, обычно приводит к хорошему впечатлению от прослушивания.

В предпочтительном осуществлении ограничитель искажения формируется, чтобы получить заданную (целевую) матрицу визуализации таким образом, что заданная (целевая) матрица визуализации является заданной (целевой) матрицей визуализации, подобной матрице понижающего микширования. Было обнаружено, что использование заданной (целевой) матрицы визуализации, подобной матрице понижающего микширования, способствует получению очень низкой или даже минимальной степени искажений. Кроме того, такая заданная (целевая) матрица визуализации, подобная матрице понижающего микширования, может быть получена при очень низких вычислительных усилиях, потому что заданная (целевая) матрица визуализации, подобная матрице понижающего микширования, может быть получена посредством масштабирования элементов матрицы понижающего микширования с использованием общего масштабного коэффициента и добавления некоторых дополнительных нулевых элементов.

В предпочтительном осуществлении ограничитель искажения формируется, чтобы масштабировать расширенную матрицу понижающего микширования посредством использования скаляра энергетической нормализации для получения заданной (целевой) матрицы визуализации, где расширенная матрица понижающего микширования является расширенной версией матрицы понижающего микширования (ряд таких матриц понижающего микширования описывает вклад (ответное сообщение) множества сигналов звукового объекта в один или несколько каналов представления сигнала понижающего микширования), расширенной рядами нулевых элементов таким образом, что несколько рядов расширенной матрицы понижающего микширования идентичны совокупности визуализаций, описанной определенной пользователем матрицей визуализации. Таким образом, расширенная матрица понижающего микширования получается посредством копировании величин из матрицы понижающего микширования в расширенную матрицу понижающего микширования, дополнения нулевых элементов матрицы и скалярного умножения всех матричных элементов на тот же самый скаляр нормализации энергии. Все эти операции могут выполняться очень эффективно, так что заданная (целевая) матрица визуализации может быть получена быстро, даже в очень простом звуковом декодере.

В предпочтительном осуществлении ограничитель искажения формируется, чтобы получить заданную (целевую) матрицу визуализации таким образом, что заданная (целевая) матрица визуализации является заданной (целевой) матрицей визуализации с наилучшим усилием (трудозатратами). Даже при том, что этот подход несколько более сложен в вычислительном отношении, чем использование заданной (целевой) матрицы визуализации, подобной матрице понижающего микширования, использование заданной (целевой) матрицы визуализации с наилучшим усилием предоставляет возможность пользователю наилучшим образом определить желаемый сценарий визуализации. При использовании заданной (целевой) матрицы визуализации с наилучшим усилием принимается в расчет пользовательское определение желательной матрицы визуализации, когда определяется заданная (целевая) матрица визуализации, насколько возможно, без введения искажений или существенных искажений. В частности, заданная (целевая) матрица визуализации с наилучшим усилием учитывает желательную для пользователя громкость для множества громкоговорителей (или каналы представления сигнала повышающего микширования). Соответственно, улучшенное впечатление от прослушивания может быть получено при использовании заданной (целевой) матрицы визуализации с наилучшим усилием.

В предпочтительном осуществлении ограничитель искажения формируется для получения заданной (целевой) матрицы визуализации таким образом, что заданная (целевая) матрица визуализации зависит от матрицы понижающего микширования и определенной пользователем матрицы визуализации. Соответственно, заданная (целевая) матрица визуализации сравнительно близка к ожиданиям пользователя, но все же обеспечивает звуковую визуализацию в основном без искажений. Таким образом, параметр линейной комбинации определяет соотношение между приближением (аппроксимацией) желательной для пользователя визуализации и минимизацией слышимых искажений, где рассмотрение определенной пользователем матрицы визуализации для вычисления заданной (целевой) матрицы визуализации обеспечивает хорошее удовлетворение желаний пользователя, даже если параметр линейной комбинации указывает на то, что заданная (целевая) матрица визуализации должна доминировать над линейной комбинацией.

В предпочтительном осуществлении ограничитель искажения формируется для вычисления матрицы, включающей индивидуальные для каждого канала значения нормализации для множества выходных звуковых каналов устройства для обеспечения представления сигнала повышающего микширования, таким образом, что значение нормализации энергии для данного выходного канала устройства описывает, по крайней мере приблизительно, отношение между суммой значений визуализации энергии, связанных с данным выходным каналом в определенной пользователем матрице визуализации для множества звуковых объектов, и суммой значений понижающего микширования энергии для множества звуковых объектов. Соответственно, ожидание пользователя относительно громкости различных выходных каналов устройства может быть оправдано до некоторой степени.

В этом случае ограничитель искажения формируется для масштабирования ряда значений понижающего микширования посредством использования связанного индивидуального для каждого канала значения нормализации энергии, чтобы получить ряд значений визуализации заданной (целевой) матрицы визуализации, связанный с данным выходным каналом. Соответственно, относительный вклад (ответное сообщение) данного звукового объекта в выходной канал устройства идентичен относительному вкладу (ответному сообщению) данного звукового объекта в представление сигнала понижающего микширования, что позволяет в значительной мере избежать слышимых искажений, вызываемых изменением относительных вкладов (ответных сообщений) звуковых объектов. Соответственно, каждый из выходных каналов устройства в основном неискажен. Тем не менее, принимается во внимание ожидание пользователя в отношении распределения громкости по множеству громкоговорителей (или каналов представления сигнала повышающего микширования), даже при том, что детали относительно того, где поместить, какой звуковой объект и/или как изменить относительную интенсивность звуковых объектов относительно друг друга, остаются нерассмотренными (по крайней мере, до некоторой степени), чтобы избежать искажений, которые могут вызываться чрезмерно резким пространственным разделением звуковых объектов или чрезмерным изменением относительной интенсивности звуковых объектов.

Таким образом, оценивая соотношение между суммой значений визуализации энергии (например, квадраты величин значений визуализации), связанных с данным выходным каналом в определенной пользователем матрице визуализации для множества звуковых объектов, и суммой значений понижающего микширования энергии для множества звуковых объектов, позволяет рассматривать все выходные звуковые каналы, даже при том, что представление сигнала понижающего микширования может включать меньше каналов и все же избегать искажений, вызываемых пространственным перераспределением звуковых объектов или чрезмерным изменением относительной громкости различных звуковых объектов.

В предпочтительном осуществлении ограничитель искажения формируется, чтобы вычислить матрицу, описывающую индивидуальную для каждого канала нормализацию энергии для множества выходных звуковых каналов устройства для обеспечения представления сигнала повышающего микширования в зависимости от определенной пользователем матрицы визуализации и матрицы понижающего микширования. В этом случае ограничитель искажения формируется, чтобы применить матрицу, описывающую индивидуальную для каждого канала нормализацию энергии, чтобы получить ряд коэффициентов визуализации заданной (целевой) матрицы визуализации, связанную с данным выходным каналом устройства в качестве линейной комбинации ряда значений понижающего микширования (то есть значения, описывающие масштабирование, применяемое к звуковым сигналам различных звуковых объектов для получения канала сигнала понижающего микширования), связанный с различными каналами представления сигнала понижающего микширования. Используя эту концепцию, можно получить заданную (целевую) матрицу визуализации, хорошо приспособленную к желательной определенной пользователем матрице визуализации, даже если представление сигнала понижающего микширования включает больше одного звукового канала, и все же, в основном, избежать искажений. Было обнаружено, что формирование линейной комбинации ряда значений понижающего микширования приводит к появлению ряда коэффициентов визуализации, который обычно вызывает только небольшие слышимые искажения. Тем не менее, было обнаружено, что можно приблизиться к ожиданию пользователя посредством использования подхода, позволяющего получить заданную (целевую) матрицу визуализации.

В предпочтительном осуществлении устройство формируется, чтобы считывать заданное значение, представляющее параметр линейной комбинации, из представления битового потока звукового содержания и чтобы отображать заданное значение на параметре линейной комбинации посредством использования таблицы квантизации параметра. Было обнаружено, что это особенно эффективная концепция в вычислительном отношении для получения параметра линейной комбинации. Было также обнаружено, что этот подход обеспечивает лучшее соотношение между удовлетворением пользователя и вычислительной сложностью по сравнению с другими возможными концепциями, в которых выполняются сложные вычисления, а не оценка 1-мерной таблицы отображения.

В предпочтительном осуществлении таблица квантизации описывает неоднородную квантизацию, где меньшие значения параметра линейной комбинации, которые описывают более значительный вклад (ответное сообщение) определенной пользователем матрицы визуализации в измененную матрицу визуализации, квантуются со сравнительно высоким разрешением, а большие значения параметра линейной комбинации, которые описывают менее значительный вклад (ответное сообщение) определенной пользователем матрицы визуализации в измененную матрицу визуализации, квантуются со сравнительно более низким разрешением. Было обнаружено, что во многих случаях только предельные настройки матрицы визуализации приводят к существенным слышимым искажениям. Соответственно, было обнаружено, что точная настройка параметра линейной комбинации более важна в зоне более значительного вклада (ответного сообщения) определенной пользователем матрицы визуализации в заданную (целевую) матрицу визуализации, чтобы получить настройку, которая обеспечивает оптимальное соотношение между реализацией ожидания пользователя относительно визуализации и минимизацией слышимых искажений.

В предпочтительном осуществлении устройство формируется, чтобы оценить элемент битового потока, описывающий способ ограничения искажения. В этом случае ограничитель искажения предпочтительно формируется, чтобы селективно получить заданную (целевую) матрицу визуализации таким образом, что заданная (целевая) матрица визуализации является заданной (целевой) матрицей визуализации, подобной матрице понижающего микширования, или таким образом, что заданная (целевая) матрица визуализации является заданной (целевой) матрицей визуализации с наилучшим усилием. Было обнаружено, что такая переключаемая концепция обеспечивает эффективную возможность получить хорошее соотношение между реализацией ожиданий пользователя относительно визуализации и минимизацией слышимых искажений для большого числа различных звуковых частей. Эта концепция также обеспечивает хорошее регулирование кодирующего устройства звукового сигнала при текущей визуализации на стороне декодера. Следовательно, могут быть выполнены требования большого разнообразия различных звуковых услуг.

Другое осуществление согласно изобретению создает устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал.

Устройство включает микшер понижающего микширования, формируемый, чтобы обеспечить сигнал понижающего микширования на основе множества сигналов звукового объекта. Устройство также включает источник дополнительной информации, формируемый, чтобы предоставить связанную с объектом параметрическую дополнительную информацию, описывающую характеристики сигналов звукового объекта и параметры понижающего микширования, и параметр линейной комбинации, описывающий вклады (ответные сообщения) определенной пользователем матрицы визуализации и заданной (целевой) матрицы визуализации в измененную матрицу визуализации. Устройство для обеспечения битового потока также включает форматер битового потока, формируемый, чтобы обеспечить битовый поток, включающий представление сигнала понижающего микширования, связанную с объектом параметрическую дополнительную информацию и параметр линейной комбинации.

Это устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, хорошо подходит для взаимодействия с обсуждавшимся выше устройством для обеспечения представления сигнала повышающего микширования. Устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, предоставляет параметр линейной комбинации в зависимости от его знания (сведений о) сигналов звукового объекта. Соответственно, звуковое кодирующее устройство (то есть устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал) может оказать сильное влияние на качество визуализации, предоставленной звуковым декодером (то есть обсужденным выше устройством для обеспечения представления сигнала повышающего микширования), который оценивает параметр линейной комбинации. Таким образом, устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, имеет очень высокий уровень управления результатами визуализации, что способствует улучшению впечатления пользователя во многих различных сценариях. Соответственно, действительно, звуковое кодирующее устройство поставщика услуг обеспечивает управление с использованием параметра линейной комбинации в случае, если пользователю разрешено или не разрешено использовать предельные настройки визуализации с риском вызвать слышимые искажения. Таким образом, при использовании вышеописанного звукового кодирующего устройства можно избежать разочарования пользователя наряду с соответствующими отрицательными экономическими последствиями.

Другое осуществление согласно изобретению создает способ обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом параметрической информации, которые включаются в представление битового потока звукового содержания, в зависимости от определенной пользователем матрицы визуализации. Этот способ основывается на той же самой ключевой идее, что и описанное выше устройство.

Другой способ согласно изобретению создает способ обеспечения битового потока, представляющего многоканальный звуковой сигнал. Указанный способ основывается на тех же полученных сведениях, что и описанное выше устройство.

Другое осуществление согласно изобретению создает компьютерную программу для выполнения вышеупомянутых способов.

Другое осуществление согласно изобретению создает битовый поток, представляющий многоканальный звуковой сигнал. Битовый поток включает представление сигнала понижающего микширования, объединяющее звуковые сигналы множества звуковых объектов и связанную с объектом параметрическую дополнительную информацию, описывающую характеристики звуковых объектов. Битовый поток также включает параметр линейной комбинации, описывающий вклады (ответные сообщения) определенной пользователем матрицы визуализации и заданной (целевой) матрицы визуализации в измененную матрицу визуализации. Указанный битовый поток обеспечивает некоторую степень управления параметрами визуализации на стороне декодера со стороны кодирующего устройства звукового сигнала.

Краткое описание чертежей

Осуществления согласно данному изобретению будут впоследствии описаны со ссылкой на приложенные чертежи, где:

Фиг.1а показывает блок-схему устройства для обеспечения представления сигнала повышающего микширования согласно осуществлению изобретения;

Фиг.1b показывает блок-схему устройства для обеспечениябитового потока, представляющего многоканальный звуковой сигнал согласно осуществлению изобретения;

Фиг.2 показывает блок-схему устройства для обеспечения представления сигнала повышающего микширования согласно другому осуществлению изобретения;

Фиг.3а показывает схематическое представление битового потока, представляющего многоканальный звуковой сигнал согласно осуществлению изобретения;

Фиг.3b показывает детальное представление синтаксиса информации о SAOCособой конфигурации согласно осуществлению изобретения;

Фиг.3с показывает детальное представление синтаксиса информации о SAOCфрейме согласно осуществлению изобретения;

Фиг.3d показывает схематическое представление кодирования способом регулирования искажения в элементе битового потока "bsDcuMode", который может использоваться в SAOCбитовом потоке;

Фиг.3е показывает представление таблицы взаимосвязи между индексом битового потока idx и значением параметра линейной комбинации "DcuParam [idx]", которая может использоваться для кодирования информации о линейной комбинации в SАОСбитовом потоке;

Фиг.4 показывает блок-схему устройства для обеспечения представления сигнала повышающего микширования согласно другому осуществлению изобретения;

Фиг.5а показывает представление синтаксиса информации о SAOCособой конфигурации согласно осуществлению изобретения;

Фиг.5b показывает представление таблицы взаимосвязи между индексом битового потока idx и параметром линейной комбинации Param [idx], которая может использоваться для кодирования параметралинейной комбинации в SАОСбитовом потоке;

Фиг.6а показывает таблицу, описывающую условия проведения теста прослушивания;

Фиг.6b показывает таблицу, описывающую звуковые образцы тестов прослушивания;

Фиг.6с показывает таблицу, описывающую протестированные условия понижающего микширования/визуализации для SАОС сценария декодирования стерео - стерео;

Фиг.7 показывает графическое представление результатов теста прослушивания с использованием блока управления искажением (DCU) для SAOC сценария стерео - стерео;

Фиг.8 показывает блок-схему эталонной MPEGSAOC системы;

Фиг.9а показывает блок-схему эталонной SAOCсистемы, использующей отдельный декодер и микшер;

Фиг.9b показывает блок-схему эталонной SAOCсистемы, использующей интегрированный декодер и микшер; и

Фиг.9с показывает блок-схему эталонной SAOCсистемы, использующей SAOC-MPEGтранскодер.

Детальное описание осуществлений

1. Устройство для обеспечения представления сигнала повышающего микширования согласно Фиг.1а

Фиг.1а показывает блок-схему устройства для обеспечения представления сигнала повышающего микширования согласно осуществлению изобретения.

Устройство 100 формируется, чтобы получить представление сигнала понижающего микширования 110 и связанную с объектом параметрическую информацию 112. Устройство 100 также формируется, чтобы получить параметр линейной комбинации 114. Представление сигнала понижающего микширования 110, связанная с объектом параметрическая информация 112 и параметр линейной комбинации 114 все включены в представление битового потока звукового содержания. Например, параметр линейной комбинации 114 описывается элементом битового потока в указанном представлении битового потока. Устройство 100 также формируется, чтобы получить информацию о визуализации 120, которая описывает определенную пользователем матрицу визуализации.

Устройство 100 формируется, чтобы обеспечить представление сигнала повышающего микширования 130, например сигналы индивидуальных каналов или MPEG окружающий сигнал понижающего микширования в комбинации с MPEG окружающей дополнительной информацией.

Устройство 100 включает ограничитель искажения 140, который формируется, чтобы получить измененную матрицу визуализации 142 посредством использования линейной комбинации определенной пользователем матрицы визуализации 144 (которая описывается, прямо или косвенно, информацией о визуализации 120) и заданной (целевой) матрицы визуализации в зависимости от параметра линейной комбинации 146, который может, например, обозначаться g_DCU.

Устройство 100 может, например, формироваться, чтобы оценить элемент битового потока 114, представляющий параметр линейной комбинации 146, для получения параметра линейной комбинации.

Устройство 100 также включает процессор сигнала 148, который формируется, чтобы получить представление сигнала повышающего микширования 130 на основе представления сигнала понижающего микширования 110 и связанной с объектом параметрической информации 112 посредством использования измененной матрицы визуализации 142.

Соответственно, устройство 100 может обеспечивать представление сигнала повышающего микширования с хорошим качеством визуализации посредством использования, например, SAOCпроцессора сигнала 148 или любого другого связанного с объектом процессора сигнала 148. Измененная матрица визуализации 142 приспосабливается ограничителем искажения 140 таким образом, что достаточно хорошее впечатление от прослушивания с достаточно небольшими искажениями достигается в большинстве или во всех случаях. Измененная матрица визуализации обычно находится «в промежутке» между определенной пользователем (желательной) матрицей визуализации и заданной (целевой) матрицей визуализации, где степень подобия измененной матрицы визуализации матрице визуализации, определенной пользователем, и заданной (целевой) матрице визуализации определяется параметром линейной комбинации, который, следовательно, обеспечивает регулирование достижимого качества визуализации и/или максимального уровня искажения представления сигнала повышающего микширования 130.

Процессор сигнала 148 может, например, быть SAOCпроцессором сигнала. Соответственно, процессор сигнала 148 может формироваться, чтобы оценить связанную с объектом параметрическую информацию 112, чтобы получить параметры, описывающие характеристики представленных звуковых объектов в микшированной с понижением форме, посредством представления сигнала понижающего микширования 110. Кроме того, процессор сигнала 148 может приобрести (например, получить) параметры, описывающие процедуру понижающего микширования, которая используется на стороне звукового кодирующего устройства, обеспечивающего представление битового потока звукового содержания, чтобы получить представление сигнала понижающего микширования 110 посредством объединения сигналов звукового объекта множества звуковых объектов. Таким образом, процессор сигнала 148 может, например, оценить информацию о разности уровней объекта (OLD) посредством описания разности уровней между множеством звуковых объектов для данного звукового фрейма и одного или нескольких частотных диапазонов и информации о межобъектной корреляции (IOC), описывающей корреляцию между звуковыми сигналами множества пар звуковых объектов для данного звукового фрейма и для одного или нескольких частотных диапазонов. Кроме того, процессор сигнала 148 может также оценить информацию о понижающем микшировании BMG, DCLD, описывающую понижающее микширование, которое выполняется на стороне звукового кодирующего устройства, обеспечивающего представление битового потока звукового содержания, например, в форме одного или нескольких параметров усиления понижающего микширования DMG и одного или нескольких параметров разности уровней канала понижающего микширования DCLD.

Кроме того, процессор сигнала 148 получает измененную матрицу визуализации 142, которая указывает, какие звуковые каналы представления сигнала повышающего микширования 130 должны включать звуковое содержание различных звуковых объектов. Соответственно, процессор сигнала 148 формируется, чтобы определить вклады (ответные сообщения) различных звуковых объектов в представление сигнала понижающего микширования 110 посредством использования сведений (полученных из OLD информации и IOC информации) о звуковых объектах, а также сведений о процессе понижающего микширования (полученных из информации DMG и информации DCLD). Кроме того, процессор сигнала обеспечивает представление сигнала повышающего микширования таким образом, что рассматривается измененная матрица визуализации 142.

Соответственно, процессор сигнала 148 реализует функциональные возможности SAOCдекодера 820, где представление сигнала понижающего микширования 110 занимает место одного или нескольких сигналов понижающего микширования 812, где связанная с объектом параметрическая информация 112 занимает место дополнительной информации 814 и где измененная матрица визуализации 142 занимает место пользовательской информации о взаимодействии/управлении 822. Сигналы канала

играют роль представления сигнала повышающего микширования 130. Соответственно, делается ссылка на описание SAOCдекодера 820.

Точно так же, процессор сигнала 148 может играть роль декодера/микшера 920, где представление сигнала понижающего микширования 110 играет роль одного или нескольких сигналов понижающего микширования, где связанная с объектом параметрическая информация 112 играет роль метаданных объекта, где измененная матрица визуализации 142 играет роль входной информации о визуализации в микшер/рендерер 926 и где сигнал канала 928 играет роль представления сигнала повышающего микширования 130.

Альтернативно, процессор сигнала 148 может реализовывать функциональные возможности интегрированного декодера и микшера 950, где представление сигнала понижающего микширования 110 может играть роль одного или нескольких сигналов понижающего микширования, где связанная с объектом параметрическая информация 112 может играть роль метаданных объекта, где измененная матрица визуализации 142 может играть роль входной информации о визуализации в декодер объекта плюс микшер/рендерер 950 и где сигналы канала 958 могут играть роль представления сигнала повышающего микширования 130.

Альтернативно, процессор сигнала 148 может реализовывать функциональные возможности SAOC-MPEG окружающего транскодера 980, где представление сигнала понижающего микширования 110 может играть роль одного или нескольких сигналов понижающего микширования, где связанная с объектом параметрическая информация 112 может играть роль метаданных объекта, где измененная матрица визуализации 142 может играть роль информации о визуализации и где один или несколько сигналов понижающего микширования 988 в сочетании с MPEG окружающим битовым потоком 984 может играть роль представления сигнала повышающего микширования 130.

Соответственно, относительно деталей, касающихся функциональных возможностей процессора сигнала 148, делается ссылка на описание SAOCдекодера 820, отдельного декодера и микшера 920, интегрированного декодера и микшера 950 и SAOC-MPEG окружающего транскодера 980. Ссылка также делается, например, на документы [3] и [4] относительно функциональных возможностей процессора сигнала 148, где измененная матрица визуализации 142, а не определенная пользователем матрица визуализации 120, играет роль входной информации о визуализации в осуществлениях согласно изобретению.

Дальнейшие детали относительно функциональных возможностей ограничителя искажения 140 будут описаны ниже.

2. Устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал согласно Фиг.1b

Фиг.1b показывает блок-схему устройства 150 для обеспечения битового потока, представляющего многоканальный звуковой сигнал.

Устройство 150 формируется, чтобы получить множество сигналов звукового объекта 160а-160N. Устройство 150 далее формируется, чтобы обеспечить битовый поток 170, представляющий многоканальный звуковой сигнал, который описывается сигналами звукового объекта 160а-160N.

Устройство 150 включает микшер понижающего микширования 180, который формируется, чтобы обеспечить сигнал понижающего микширования 182 на основе множества сигналов звукового объекта 160а-160N. Устройство 150 также включает поставщик дополнительной информации 184, который формируется, чтобы предоставить связанную с объектом параметрическую дополнительную информацию 186, описывающую характеристики сигналов звукового объекта 160а-160N и параметры понижающего микширования, используемые микшером понижающего микширования 180. Поставщик дополнительной информации 184 также формируется, чтобы обеспечить параметр линейной комбинации 188, описывающий желательный вклад (ответное сообщение) (желательной) определенной пользователем матрицы визуализации и заданной (с низким искажением) матрицы визуализации в измененную матрицу визуализации.

Связанная с объектом параметрическая дополнительная информация 186 может, например, включать информацию о разности уровней объекта (OLD), описывающую разности уровней объекта сигналов звукового объекта 160а-160N (например, по полосам). Связанная с объектом параметрическая дополнительная информация может также включать информацию о межобъектной корреляции (IOC), описывающей корреляцию между сигналами звукового объекта 160а-160N. Кроме того, связанная с объектом параметрическая дополнительная информация может описывать усиление понижающего микширования (например, по объектам), где значения усиления понижающего микширования используются микшером понижающего микширования 180, чтобы получить сигнал понижающего микширования 182, объединяющий сигналы звукового объекта 160а-160N. Связанная с объектом параметрическая дополнительная информация 186 может включать информацию о разности уровней канала понижающего микширования (DCLD), который описывает разницу между уровнями понижающего микширования для множественных каналов сигнала понижающего микширования 182 (например, если сигнал понижающего микширования182 является многоканальным сигналом).

Параметр линейной комбинации 188 может, например, быть числовой величиной между 0 и 1, описывающей использование только определенной пользователем матрицы понижающего микширования (например, для значения параметра, равного 0), только заданной (целевой) матрицы визуализации (например, для значения параметра, равного 1) или любой данной комбинации определенной пользователем матрицы визуализации и заданной (целевой) матрицы визуализации в промежутке между этими предельными значениями (например, для значения параметра между 0 и 1).

Устройство 150 также включает форматер битового потока 190, который формируется, чтобы обеспечить битовый поток 170 таким образом, что битовый поток включает представление сигнала понижающего микширования182, связанную с объектом параметрическую дополнительную информацию 186 и параметр линейной комбинации 188.

Соответственно, устройство 150 выполняет функциональные возможности SAOCкодирующего устройства 810 согласно Фиг.8 или кодирующего устройства объекта согласно Фиг.9а-9с. Сигналы звукового объекта 160а-160N эквивалентны сигналам объекта x₁-x_N, полученным, например, SAOCкодирующим устройством 810. Сигнал понижающего микширования 182 может, например, быть эквивалентным одному или нескольким сигналам понижающего микширования 812. Связанная с объектом параметрическая дополнительная информация 186 может, например, быть эквивалентной дополнительной информации 814 или метаданным объекта. Однако, в дополнение к указанному одноканальному сигналу понижающего микширования или многоканальному сигналу понижающего микширования182 и указанной связанной с объектом параметрической дополнительной информации 186, битовый поток 170 может также кодировать параметр линейной комбинации 188.

Соответственно, устройство 150, которое может рассматриваться как звуковое кодирующее устройство, оказывает влияние на управляемую со стороны декодера схему контроля искажения, которая выполняется ограничителем искажения 140 посредством соответствующей настройки параметра линейной комбинации 188 таким образом, что устройство 150 ожидает достаточное качество визуализации, предоставляемое звуковым декодером (например, устройство 100), получающим битовый поток 170.

Например, поставщик дополнительной информации 184 может установить параметр линейной комбинации в зависимости от информации о требуемом качестве, которая получается от факультативного пользовательского интерфейса 199 устройства 150. Альтернативно, или дополнительно, поставщик дополнительной информации 184 может также рассматривать характеристики сигналов звукового объекта 160а-160N и параметры понижающего микширования микшера понижающего микширования 180. Например, устройство 150 может оценить степень искажения, которое получено в звуковом декодере при условии наличия одной или нескольких худших определенных пользователем матриц визуализации, и может приспособить параметр линейной комбинации 188 таким образом, что качество визуализации (которое рассматриваемый декодер звукового сигнала ожидает получить) этого параметра линейной комбинации, все еще рассматривается как достаточное поставщиком дополнительной информации 184. Например, устройство 150 может установить параметр линейной комбинации 188 назначения, которое обеспечит сильное пользовательское воздействие (влияние определенной пользователем матрицы визуализации) на измененную матрицу визуализации, если поставщик дополнительной информации 184 находит, что звуковое качество представления сигнала повышающего микширования не будет серьезно ухудшено даже в присутствии предельных настроек определенной пользователем визуализации. Это может, например, иметь место, если сигналы звукового объекта 160а-160N в значительной мере подобны. Напротив, поставщик дополнительной информации 184 может установить параметр линейной комбинации 188 на значение, которое обеспечит сравнительно небольшое воздействие пользователя (или определенной пользователем матрицы визуализации), если поставщик дополнительной информации 184 находит, что предельные настройки визуализации могут привести к сильным слышимым искажениям. Это может, например, иметь место, если сигналы звукового объекта 160а-160N значительно различаются, и поэтому ясное разделение звуковых объектов на стороне звукового декодера становится трудным (или связано со слышимыми искажениями).

Здесь следует заметить, что устройство 150 может использовать сведения для установки параметра линейной комбинации 188, которые доступны только на стороне устройства 150, а не на стороне звукового декодера (например, устройство 100), такие как, например, желательная информация о качестве визуализации на входе в устройство 150 через пользовательский интерфейс или детальные сведения об отдельных звуковых объектах, представленных сигналами звукового объекта 160а-160N.

Соответственно, поставщик дополнительной информации 184 может обеспечить параметр линейной комбинации 188 достоверным способом.

3. SAOCсистема с блоком управления искажением (DCU) согласно Фиг.2

3.1 Структура SAOC декодера

В дальнейшем, обработка, выполненная блоком управления искажением (DCU обработка), будет описана со ссылкой на Фиг.2, который показывает блок-схему SAOCсистемы 200. А именно Фиг.2 иллюстрирует блок управления искажением DCU внутри полной SAOCсистемы.

Со ссылкой на Фиг.2 SAOCдекодер 200 формируется, чтобы получить представление сигнала понижающего микширования 210, представляющее, например, одноканальный сигнал понижающего микширования, или двухканальный сигнал понижающего микширования, или даже сигнал понижающего микширования, имеющий более двух каналов. SAOCдекодер 200 формируется, чтобы получить SAOCбитовый поток 212, который включает связанную с объектом параметрическую дополнительную информацию, такую как, например, информация о разности уровней объекта DMG, информация о межобъектной корреляции IOC, информация об усилении понижающего микширования DMG и, факультативно, информация о разности уровней канала понижающего микширования DCLD. SAOCдекодер 200 также формируется, чтобы получить параметр линейной комбинации 214, который также обозначается g_DCU.

Как правило, представление сигнала понижающего микширования 210, SAOCбитовый поток 212 и параметр линейной комбинации 214 включаются в представление битового потока звукового содержания.

SAOC декодер 200 также формируется, чтобы получить, например, от пользовательского интерфейса входную информацию о матрице визуализации 220. Например, SAOCдекодер 200 может получить входную информацию о матрице визуализации 220 в форме матрицы M_ren, которая определяет (желательный определенный пользователем) вклад (ответное сообщение) множества N_obj звуковых объектов в 1, 2 или даже более выходных каналов звукового сигнала (представления повышающего микширования). Матрица визуализации M_ren может, например, вводиться с пользовательского интерфейса, где пользовательский интерфейс может перевести другую определенную пользователем форму представления желательной установки визуализации в параметры матрицы визуализации M_ren. Например, пользовательский интерфейс может перевести входную информацию в форме значений уровня ползунка и информацию о положении звукового объекта в определенную пользователем матрицу визуализации M_ren посредством использования некоторого отображения.

Здесь следует заметить, что везде в данном описании индексы l, определяющие временной интервал параметра, и m, определяющие полосу обработки, иногда опускаются ради ясности. Однако следует иметь ввиду, что обработка может выполняться индивидуально для множества следующих временных интервалов параметра, имеющего индексы l, и для множества частотных диапазонов, имеющих индексы частотного диапазона m.

SAOCдекодер 200 также включает блок управления искажением DCU 240, который формируется, чтобы получить определенную пользователем матрицу визуализации M_ren, по крайней мере, часть информации о SAOCбитовом потоке 212 (что будет подробно описано ниже) и параметр линейной комбинации 214. Блок управления искажением 240 обеспечивает измененную матрицу визуализации M_{ren, lim}.

Звуковой декодер 200 также включает SAOCблок декодирования/транскодирования 248, который может рассматриваться как процессор сигнала и который получает представление сигнала понижающего микширования 210, SAOCбитовый поток 212 и измененную матрицу визуализации M_{ren, lim}.

SAOCблок декодирования/транскодирования 248 обеспечивает представление 230 одного или нескольких выходных каналов, которое может рассматриваться как представление сигнала повышающего микширования. Представление 230 одного или нескольких выходных каналов может, например, принять форму представления частотной области индивидуальных каналов звукового сигнала, представления временного интервала индивидуальных звуковых каналов или параметрического многоканального представления. Например, представление сигнала повышающего микширования 230 может принимать форму MPEG окружающего представления, включающего MPEG окружающий сигнал понижающего микширования и MPEG окружающую дополнительную информацию.

Следует заметить, что SAOCблок декодирования/транскодирования 248 может включать те же самые функциональные возможности, что и процессор сигнала 148, и может быть эквивалентным SAOCдекодеру 820, отдельному кодирующему устройству и микшеру 920, интегрированному декодеру и микшеру 950 и SAOC-MPEG окружающему транскодеру 980.

3.2 Введение в действие SAOCдекодера

В дальнейшем будет дано краткое описание введения в действие SAOCдекодера 200.

Внутри всей SAOCсистемы блок управления искажением (DCU) включается в SAOCцепь обработки декодер/транскодер между интерфейсом визуализации (например, пользовательский интерфейс, с которого вводится определенная пользователем матрица визуализации, или информация, из которой может быть получена определенная пользователем матрица визуализации) и фактическим SAOCблоком декодирования/транскодирования.

Блок управления искажением 240 обеспечивает измененную матрицу визуализации M_{ren, lim}, использующую информацию от интерфейса визуализации (например, определенный пользователем вход матрицы визуализации, прямо или косвенно, через интерфейс визуализации или пользовательский интерфейс) и данные SAOC (например, данные из SAOCбитового потока 212). Относительно деталей делается ссылка на Фиг.2. Измененная матрица визуализации M_{ren, lim} может стать доступной посредством применения приложения (например, SAOCблок декодирования/транскодирования 248), отражающего реально эффективные настройки визуализации.

Основанный на определенном пользователем сценарии визуализации, представленном (определенном пользователем) матрицей визуализации

с элементами

, DCU предотвращает предельные настройки визуализации посредством создания измененной матрицы

, включающей коэффициенты ограничения визуализации, которые должны использоваться SAOCсредствами визуализации. Для всех эксплуатационных режимов SAOCконечные (обработанные DCU) коэффициенты визуализации должны вычисляться согласно

.

Параметр g_DCU∈ [0,1], который также обозначается как параметр линейной комбинации, используется, чтобы определить степень перехода от определенной пользователем матрицы визуализации

к заданной (целевой) матрице без искажений

.

Параметр g_DCU получается из элемента битового потока "bsDcuParam" согласно

g_DCU=DcuParam[bsDcuParam].

Соответственно, линейная комбинация между определенной пользователем матрицей визуализации M_ren и заданной (целевой) матрицей визуализации без искажений M_{ren, tar} формируется в зависимости от параметра линейной комбинации g_DCU. Параметр линейной комбинации g_DCU получается из элемента битового потока таким образом, что не возникает необходимости в сложных вычислениях указанного параметра линейной комбинации g_DCU (по крайней мере на стороне декодера). Кроме того, получение параметра линейной комбинации g_DCU из битового потока, включающего представление сигнала понижающего микширования 210, SAOCбитовый поток 212 и элемент битового потока, представляющий параметр линейной комбинации, дает кодирующему устройству звукового сигнала возможность частичного управления механизмом управления искажением, который выполняется на стороне декодера SAOC.

Существуют две возможные версии заданной (целевой) матрицы без искажений

, подходящие для различных приложений. Она управляется элементом битового потока "bsDcuMode":

- ("bsDcuMode" = 0): визуализация, «подобная матрице понижающего микширования», где

соответствует матрице понижающего микширования с нормализованной энергией;

- ("bsDcuMode" = 1): визуализация с «наилучшим усилием», где

определяется как функция как матрицы понижающего микширования, так и определенной пользователем матрицы визуализации.

Чтобы суммировать, существует два способа управления искажением, называемые визуализация, «подобная матрице понижающего микширования», и визуализация «с наилучшим усилием», которые могут быть выбраны в соответствии с элементами битового потока "bsDcuMode". Эти два способа отличаются методом вычисления их заданной (целевой) матрицы визуализации. В дальнейшем, детали относительно вычисления заданной (целевой) матрицы визуализации для этих двух способов (визуализация, «подобная матрице понижающего микширования», и визуализация «с наилучшим усилием») будут описаны подробно.

3.3 Визуализация, «подобная матрице понижающего микширования»

3.3.1 Введение

Способ визуализации, «подобной матрице понижающего микширования», может типично использоваться в случаях, где понижающее микширование является важной рекомендацией высокого художественного качества. Матрица визуализации, «подобная матрице понижающего микширования»

, вычисляется как

,

где

представляет скаляр нормализации энергии (для каждого временного интервала параметра l) и

- матрица понижающего микширования D^l, расширенная рядами нулевых элементов таким образом, что число и порядок рядов

соответствуют совокупности

.

Например, в режиме SAOCтранскодирования стерео - многоканальный N_MPS=6. Соответственно

имеет размер N_MPS×N (где N представляет число входных звуковых объектов), и его ряды, представляющие передние левые и правые выходные каналы, равны D^l (или соответствующие ряды D^l).

Чтобы облегчить понимание вышесказанного, необходимо рассмотреть следующие определения матрицы визуализации и матрицы понижающего микширования.

(Измененная) матрица визуализации M_{ren, lim}, примененная к входным звуковым объектам S, определяет выход заданной (целевой) визуализации как Y=M_{ren, lim}S. (Измененная) матрица визуализации M_{ren, lim} с элементами m_i,j отображает все входные объекты i (то есть входные объекты, имеющие индекс объекта i) на желательные выходные каналы j (то есть выходные каналы, имеющие индекс канала j). (Измененная) матрица визуализации M_{ren, lim} представлена

для 5.1 выходной конфигурации,

для стерео выходной конфигурации,

для моно выходной конфигурации.

Те же размеры обычно также применяются к определенной пользователем матрице визуализации M_ren и заданной (целевой) матрице визуализации M_{ren, tar}.

Матрица понижающего микширования D, примененная к входным звуковым объектам S, (в звуковом декодере) определяет сигнал понижающего микширования as X=DS.

Для случая стерео понижающего микширования матрица понижающего микширования D размера 2×N (также обозначена D^l, чтобы показать возможную зависимость от времени) с элементами d_i,j (i=0,1; j=0, …, N-1) получается (в звуковом декодере) из параметров DMG и DCLD как

,

.

Для случая моно понижающего микширования матрица понижающего микширования D размера 1×N с элементами d_i,j (i=0; j=0, …, N-1) получается (в звуковом декодере) из параметров DMG как

.

Параметры понижающего микширования DMG и DCLD получаются из SAOCбитового потока 212.

3.3.2 Вычисление скаляра нормализации энергии для всех SAOC способов декодирования/транскодирования

Для всех SAOC способов декодирования/транскодирования скаляр нормализации энергии

вычисляется посредством использования следующего уравнения:

3.4 Визуализация «с наилучшим усилием»

3.4.1 Введение

Способ визуализации «c наилучшим усилием» обычно используется в случаях, где заданная (целевая) визуализация является важной рекомендацией.

Матрица визуализации «с наилучшим усилием» описывает заданную (целевую) матрицу визуализации, которая зависит от информации о визуализации и понижающем микшировании. Нормализация энергии представлена матрицей

размера N_MPS×M, следовательно, она обеспечивает индивидуальные значения для каждого выходного канала. Это требует различных вычислений

для различных режимов работы SAOC, которые описаны в дальнейшем. Матрица визуализации «с наилучшим усилием» вычисляется как

для следующих SAOCрежимов: "x-1-1/2/5/b", "x-2-1/b",

для следующих SAOCрежимов: "х-2-2/5".

Здесь D^l - матрица понижающего микширования и

представляет матрицу нормализации энергии.

Оператор корня квадратного в вышеприведенном уравнении обозначает поэлементную структуру корня квадратного.

В дальнейшем, будет подробно обсуждено вычисление значения

, которое может быть скаляром нормализации энергии в случае SAOCрежима декодирования моно - моно и который может быть матрицей нормализации энергии в случае других режимов декодирования или транскодирования.

3.4.2 SAOC режим декодирования моно - моно ("х-1-1")

Для "х-1-1" SAOCрежима, в котором моно сигнал понижающего микширования декодируется для получения моно выходного сигнала (как представление сигнала повышающего микширования), скаляр нормализации энергии

.

3.4.3 SAOC режим декодирования моно - стерео ("х-1-2")

Для "х-1-2" SAOCрежима, в котором моно сигнал понижающего микширования декодируется для получения стерео (двухканального) выхода (как представление сигнала повышающего микширования), матрица нормализации энергии

размера 2×1 вычисляется посредством использования следующего уравнения:

.

3.4.4 SAOC режим декодирования моно - бинауральный ("x-1-b")

Для "x-1-b" SAOCрежима, в котором моно сигнал понижающего микширования декодируется для получения бинаурального визуализированного выходного сигнала (как представление сигнала повышающего микширования), матрица нормализации энергии

.

Элементы

включают (или берутся из) заданную (целевую) бинауральную матрицу визуализации A^l,m.

3.4.5 SAOCрежим декодирования стерео - моно ("х-2-1")

Для "х-2-1" SAOCрежима, в котором двухканальный (стерео) сигнал понижающего микширования декодируется для получения одноканального (моно) выходного сигнала (как представление сигнала повышающего микширования), матрица нормализации энергии

размера 1х2 вычисляется посредством использования следующего уравнения:

,

где

- моно матрица визуализации размера 1×N.

3.4.6 SAOCрежим декодирования стерео - стерео ("х-2-2")

Для "х-2-2" SAOCрежима, в котором стерео сигнал понижающего микширования декодируется для получения стерео выходного сигнала (как представление сигнала повышающего микширования), матрица нормализации энергии

размера 2×2 вычисляется посредством использования следующего уравнения:

,

где

- стерео матрица визуализации размера 2×N.

3.4.7 SAOCрежим декодирования стерео - бинауральный ("х-2-b")

Для "х-2-b" SAOCрежима, в котором стерео сигнал понижающего микширования декодируется для получения бинаурально визуализированного выходного сигнала (как представление сигнала повышающего микширования), матрица нормализации энергии

размера 2×2 вычисляется посредством использования следующего уравнения

,

где A^l,m - бинауральная матрица визуализации размера 2×N.

3.4.8 SAOCрежим транскодирования моно - многоканальный ("х-1-5")

Для "х-1-5" SAOCрежим, в котором моно сигнал понижающего микширования транскодируется для получения выходного сигнала с 5-ю каналами или с 6-ю каналами (как представление сигнала повышающего микширования), матрица нормализации энергии

размера N_MPS×1 вычисляется посредством использования следующего уравнения:

.

3.4.9 SAOCрежим транскодирования стерео - многоканальный("х-2-5")

Для "х-2-5" SAOCрежима, в котором стерео сигнал понижающего микширования транскодируется для получения выходного сигнала с 5-ю каналами или с 6-ю каналами (как представление сигнала повышающего микширования), матрица нормализации энергии

размера N_MPS×2 вычисляется посредством использования следующего уравнения:

3.4.10 Вычисление J^l

Чтобы избежать численных задач при вычислении члена

в 3.4.5, 3.4.6, 3.4.7 и 3.4.9, J^l изменяется в некоторых осуществлениях. Первое характеристическое число λ_1,2 J^l вычисляется посредством решения определителя

.

Характеристические числа сортируются в убывающем (λ₁≥λ₂) порядке и характеристический вектор, соответствующий большему характеристическому значению, вычисляется согласно уравнению, приведенному выше. Он гарантированно должен лежать на положительной х-пластине (горизонтальная отклоняющая пластина) (первый элемент должен быть положительным). Второй характеристический вектор получается из первого посредством 90-градусного вращения:

3.4.11 Применение блока управления искажением (DCU) для расширенных звуковых объектов (ЕАО)

В дальнейшем, будут описаны некоторые дополнительные расширения относительно применения блока управления искажением, который может быть выполнен в некоторых осуществлениях согласно изобретению.

Для SAOCдекодеров, которые декодируют остаточные данные кодирования и, таким образом, способствуют управлению EAOs (расширенные звуковые объекты), это может быть важным для обеспечения второй параметризации DCU, которая позволяет использовать преимущество улучшенного звукового качества, полученного при использовании EAOs. Это достигается декодированием и использованием второго запасного набора параметров DCU (то есть bsDcuMode2 и bsDcuParam2), который дополнительно передается как часть структур данных, содержащих остаточные данные (то есть SAOCExtensionConfigData () и SAOCExtensionFrameData ()). Приложение может использовать этот второй набор параметров, если он декодирует остаточные данные кодирования и работает в строгом режимеЕАО, который определяется тем обстоятельством, что только EAOs могут быть изменены произвольно, в то время как все не-EAOs (не расширенные звуковые объекты) подвергаются только единственной общей модификации. А именно этот строгий режим ЕАО требует выполнения двух следующих условий:

Матрица понижающего микширования и матрица визуализации имеет те же размеры (при допущении, что число каналов визуализации равно числу каналов понижающего микширования).

Приложение использует только коэффициенты визуализации для каждого из регулярных объектов (то есть не-EAOs), которые связаны с их соответствующим и коэффициентами понижающего микширования единственным общим коэффициентом масштабирования.

4. Битовый поток согласно Фиг.3а

В дальнейшем, битовый поток, представляющий многоканальный звуковой сигнал, будет описан со ссылкой на Фиг.3а, который показывает графическое представление такого битового потока 300.

Битовый поток 300 включает представление сигнала понижающего микширования 302, которое является представлением (например, кодированным представлением) сигнала понижающего микширования, объединяющего звуковые сигналы множества звуковых объектов. Битовый поток 300 также включает связанную с объектом параметрическую дополнительную информацию 304, описывающую характеристики звукового объекта и, обычно, также характеристики понижающего микширования, выполненного в звуковом кодирующем устройстве. Связанная с объектом параметрическая информация 304 предпочтительно включает информацию о разности уровней объекта OLD, информацию о межобъектной корреляции IOC, информацию обусилении понижающего микширования DMG и информацию о разности уровней канала понижающего микширования DCLD. Битовый поток 300 также включает параметр линейной комбинации 306, описывающий желательные вклады (ответные сообщения) определенной пользователем матрицы визуализации и заданной (целевой) матрицы визуализации в измененную матрицу визуализации (чтобы применяться к декодеру звукового сигнала).

Дальнейшие факультативные детали относительно этого битового потока 300, который может предоставляться устройством 150 как битовый поток 170 и который может вводиться в устройство 100, чтобы получить представление сигнала понижающего микширования 110, связанную с объектом параметрическую информацию 112 и параметр линейной комбинации 140, или в устройство 200, чтобы получить информацию о понижающем микшировании 210, информацию о SAOCбитовом потоке 212 и параметр линейной комбинации 214, будут описаны в дальнейшем со ссылкой на Фиг.3b и 3с.

5. Детали синтаксиса битового потока

5.1. Синтаксис SAOCособой конфигурации

Фиг.3b показывает детальное синтаксическое представление информации о SAOCособой конфигурации.

SAOCособая конфигурация 310 согласно Фиг.3b может, например, быть частью заголовка битового потока 300 согласно Фиг.3а.

SAOCособая конфигурация может, например, включать конфигурацию частоты дискретизации, описывающую частоту дискретизации, которая будет применена SAOCдекодером. SAOCособая конфигурация также включает конфигурацию режима малой задержки, описывающую, должен ли использоваться режим малой задержки или режим большой задержки процессора сигнала 148 или SAOCблока декодирования/транскодирования 248. SAOCособая конфигурация также включает конфигурацию разрешения по частоте, описывающую разрешение по частоте, которое будет использоваться процессором сигнала 148 или SAOCблоком декодирования/транскодирования 248. Кроме того, SAOCособая конфигурация может включать конфигурацию длины фрейма, описывающую длину звуковых фреймов, которые будут использоваться процессором сигнала 148 или SAOCблоком декодирования/транскодирования 248. Более того, SAOCособая конфигурация обычно включает конфигурацию числа объектов, описывающую число звуковых объектов, подлежащих обработке процессором сигнала 148 или SAOCблоком декодирования/транскодирования 248. Конфигурация числа объектов также описывает число связанных с объектом параметров, включенных в связанную с объектом параметрическую информацию 112 или в SAOCбитовый поток 212. SAOCособая конфигурация может включать конфигурацию взаимосвязи объектов, которая обозначает объекты, имеющие общую связанную с объектом параметрическую информацию. SAOCособая конфигурация может также включать конфигурацию абсолютной передачи энергии, которая указывает, передается ли информация об абсолютной энергии от звукового кодирующего устройства к звуковому декодеру. SAOCособая конфигурация может также включать конфигурацию числа каналов понижающего микширования, которая указывает, имеется ли только один канал понижающего микширования, два канала понижающего микширования или, факультативно, более двухканалов понижающего микширования. Кроме того, в некоторых осуществлениях SAOCособая конфигурация может включать дополнительную информацию о конфигурации.

SAOCособая конфигурация может также включать информацию о конфигурации усиления понижающего микширования после обработки в постпроцессоре "bsPdgFlag", которая определяет, передается ли усиление понижающего микширования после обработки в постпроцессоре для дополнительной постобработки.

SAOCособая конфигурация также включает признак (флажок) "bsDcuFlag" (который может, например, быть 1-битовым признаком), который определяет, передаются ли значения "bsDcuMode" и "bsDcuParam" в битовом потоке. Если этот признак "bsDcuFlag" принимает значение «1», другой признак, который обозначен "bsDcuMandatory", и признак "bsDcuDynamic" включаются в SAOCособую конфигурацию 310. Признак "bsDcuMandatory" описывает, должен ли звуковой декодер применять управление искажением. Если признак "bsDcuMandatory" равен 1, то блок управления искажением должен применяться, используя параметры "bsDcuMode" и "bsDcuParam" как переданные в битовом потоке. Если признак "bsDcuMandatory" равен «0», то параметры блока управления искажением "bsDcuMode" и "bsDcuParam", переданные в битовом потоке, являются только рекомендованными значениями и могут использоваться также другие настройки блока управления искажением.

Другими словами, звуковое кодирующее устройство может активизировать признак "bsDcuMandatory", чтобы вводить в действие механизм управления искажением в совместимом со стандартным звуковом декодере, и может дезактивировать указанный признак, чтобы звуковой декодер мог решать, применять ли блок управления искажением, и если да, какие параметры использовать для блока управления искажением.

Признак "bsDcuDynamic" запускает динамическую передачу значений "bsDcuMode" и "bsDcuParam". Если признак "bsDcuDynamic" дезактивирован, параметры "bsDcuMode" и "bsDcuParam" включаются в SAOCособую конфигурацию и, иначе, параметры "bsDcuMode" и "bsDcuParam" включаются в SAOC фреймы, или, по крайней мере, в некоторые из SAOC фреймов, что будет обсуждено позже. Соответственно, кодирующее устройство звукового сигнала может переключаться между одноразовой передачей сигнала (на часть звукового сигнала, включающую единственную SAOCособую конфигурацию и, обычно, множество SAOCфреймов) и динамической передачей указанных параметров в пределах некоторых или всех SAOCфреймов.

Параметр "bsDcuMode" определяет тип заданной (целевой) матрицы без искажений для блока управления искажением (DCLJ) согласно таблице Фиг.3d.

Параметр "bsDcuParam" определяет значение параметра для алгоритма блока управления искажением (DCU) согласно таблице Фиг.3е. Другими словами, 4-битовый параметр "bsDcuParam" определяет значение индекса idx, который может отображаться декодером звукового сигнала на значение линейной комбинации g_DCU (также обозначается "DcuParam [ind]" или "DcuParam [idx]"). Таким образом, параметр "bsDcuParam" представляет, квантованным способом, параметр линейной комбинации.

Как видно по Фиг.3b, параметры "bsDcuMandatory", "bsDcuDynamic", "bsDcuMode" и "bsDcuParam" устанавливаются на значение по умолчанию, равное «0», если признак "bsDcuFlag" принимает значение «0», который указывает на то, что никакие параметры блока управления искажением не передаются.

SAOCособая конфигурация также включает, факультативно, один или несколько битов выравнивания байта "ByteAlign ()", чтобы привести SAOCособую конфигурацию к желательной длине.

Кроме того, SAOCособая конфигурация может дополнительно включать SAOCконфигурацию расширения "SAOCExtensionConfig ()", которая включает дополнительные параметры конфигурации. Однако указанные параметры конфигурации не важны для данного изобретения, так что ради краткости обсуждение здесь опущено.

5.2. Синтаксис SAOCфрейма

В дальнейшем синтаксис SAOCфрейма будет описан со ссылкой на Фиг.3с.

SAOCфрейм "SAOCFrame" обычно включает кодированные значения разности уровней объекта OLD, как обсуждалось ранее, которые могут включаться в данные SAOC фрейма для множества частотных диапазонов («подиапазонно») и для множества звуковых объектов (на звуковой объект).

SAOCфрейм также, факультативно, включает кодированные абсолютные значения энергии NRG, которые могут включаться для множества частотных диапазонов (подиапазонно).

SAOCфрейм может также включать кодированные значения межобъектной корреляции IOC, которые включаются в данные SAOCфрейма для множества комбинаций звуковых объектов. Значения IOC обычно включаются подиапазонно.

SAOCфрейм также включает кодированные значения усиления понижающего микширования DMG, где обычно имеется одно значение усиления понижающего микширования на звуковой объект на SAOCфрейм.

SAOCфрейм также включает, факультативно, кодированные разности уровней канала понижающего микширования DCLD, где обычно имеется одно значение разности уровней канала понижающего микширования на звуковой объект и на SAOCфрейм.

Кроме того, SAOCфрейм обычно включает, факультативно, кодированные значения усиления понижающего микширования, обработанные в постпроцессоре PDG.

Кроме того, SAOCфрейм может также включать, при определенных обстоятельствах, один или несколько параметров управления искажением. Если признак "bsDcuFlag", включенный в сегмент SAOCособой конфигурации, равен «1», что указывает на использование информации блока управления искажением в битовом потоке, и если признак "bsDcuDynamic" в SAOCособой конфигурации также принимает значение «1», что указывает на использование динамической (по фрейму) информации блока управления искажением, информация об управлении искажением включается в SAOCфрейм, при условии, что SAOCфрейм является так называемым «независимым» SAOCфреймом, для которого признак "bsIndependencyFlag" является активным, или что признак "bsDcuDynamicUpdate" является активным.

Здесь следует заметить, что признак "bsDcuDynamicUpdate" включается в SAOC фрейм только, если признак "bsIndependencyFlag" неактивен, и что признак "bsDcuDynamicUpdate" определяет, обновлены ли значения "bsDcuMode" и "bsDcuParam". Более точно, "bsDcuDynamicUpdate" = 1 означает, что значения "bsDcuMode" и "bsDcuParam" обновлены в данном фрейме, тогда как "bsDcuDynamicUpdate" = 0 означает, что ранее переданные значения сохранены.

Соответственно, параметры "bsDcuMode" и "bsDcuParam", которые были объяснены выше, включаются в SAOCфрейм, если передача параметров блока управления искажением активизирована, и динамическая передача данных блока управления искажением также активизирована, и признак "bsDcuDynamicUpdate" активизирован. Кроме того, параметры "bsDcuMode" и "bsDcuParam" также включаются в SAOCфрейм, если SAOCфрейм является «независимым» SAOCфреймом, передача данных блока управления искажением активизирована и динамическая передача данных блока управления искажением также активизирована.

SAOCфрейм также включает, факультативно, наполняющие данные "byteAlign ()", чтобы наполнить SAOCфрейм до желательной длины.

Факультативно, SAOCфрейм может включать дополнительную информацию, которая обозначается как "SAOCExt или ExtensionFrame ()". Однако эта факультативная дополнительная информация о SAOCфрейме не важна для данного изобретения и поэтому, ради краткости, здесь обсуждаться не будет.

Чтобы закончить, следует заметить, что признак "bsIndependencyFlag" указывает, осуществлено ли кодирование без потерь текущего SAOCфрейма независимо от предыдущего SAOCфрейма, то есть может ли текущий SAOCSфрейм декодироваться без знания (сведений о)предыдущего SAOCфрейма.

6. SAOCдекодер/транскодер согласно Фиг.4

В дальнейших осуществлениях будут описаны схемы ограничения коэффициента визуализации для управления искажением в SAOC.

6.1 Краткий обзор

Фиг.4 показывает блок-схему звукового декодера 400 согласно осуществлению изобретения.

Звуковой декодер 400 формируется, чтобы получить сигнал понижающего микширования 410, SAOCбитовый поток 412, параметр линейной комбинации 414 (также обозначается Λ) и информацию о матрице визуализации 420 (также обозначается R). Звуковой декодер 400 формируется, чтобы получить представление сигнала повышающего микширования, например, в форме множества выходных каналов 130а-130М. Звуковой декодер 400 включает блок управления искажением 440 (также обозначается DCU), который получает, по крайней мере, часть SAOCинформации о битовом потоке SAOCбитового потока 412, параметр линейной комбинации 414 и информацию о матрице визуализации 420. Блок управления искажением предоставляет измененную информацию о визуализации R_lim, которая может быть измененной информацией о матрице визуализации.

Звуковой декодер 400 также включает SAOCдекодер и/или SAOCтранскодер 448, который получает сигнал понижающего микширования 410, SAOCбитовый поток 412 и измененную информацию о визуализации R_lim и обеспечивает, на их основе, выходные каналы 130а-130М.

В дальнейшем, будут подробно обсуждены функциональные возможности звукового декодера 400, который использует одну или несколько схем ограничения коэффициентов визуализации согласно данному изобретению.

Общая SAOCобработка выполняется методом выбора времени/частоты и может быть описана следующим образом. SAOCкодирующее устройство (например, SAOCкодирующее устройство 150) извлекает психоакустические характеристики (например, степенные соотношения объекта и корреляция) нескольких входных сигналов звукового объекта и затем микширует их с понижением в объединенный моно или стерео канал (например, сигнал понижающего микширования 182 или сигнал понижающего микширования 410). Этот сигнал понижающего микширования и извлеченная дополнительная информация (например, связанная с объектом параметрическая дополнительная информация или информация о SAOCбитовом потоке 412) передаются (или сохраняются) в сжатом формате посредством использования известных перцепционных звуковых кодирующих устройств. На приемном конце SAOCдекодер 418 концептуально пытается восстановить оригинальные объектные сигналы (то есть отделить микшированные с понижением объекты) посредством использования переданной дополнительной информации 412. Затем эти аппроксимированные объектные сигналы микшируются в заданную (целевую) сцену посредством использования матрицы визуализации. Матрица визуализации, например R или R_lim, компонуется из Коэффициентов Визуализации (RCs), определенных для каждого переданного звукового объекта и громкоговорителя установки повышающего микширования. Эти RCs определяют усиление и пространственное положение всех разделенных/визуализированных объектов.

Фактически, разделение сигналов объекта редко, или даже никогда, не выполняется, так как разделение и микширование выполняются на единственном объединенном этапе обработки, который приводит к огромному уменьшению вычислительной сложности. Эта схема чрезвычайно эффективна как в отношении скорости передачи битов (необходимо передать только один или два канала понижающего микширования 182, 410 плюс некоторую дополнительную информацию 186, 188, 412, 414 вместо ряда индивидуальных сигналов звукового объекта), так и вычислительной сложности (сложность обработки связана, главным образом, с числом выходных каналов, а не числом звуковых объектов). SAOCдекодер преобразовывает (на параметрическом уровне) усиление объекта и другую дополнительную информацию непосредственно в Коэффициенты Транскодирования (TCs), которые применяются к сигналу понижающего микширования 182, 414, чтобы создать соответствующие сигналы 130а-130М для визуализированной выходной звуковой сцены (или предварительно обработанного сигнала понижающего микширования для дальнейшей операции декодирования, то есть, обычно, многоканальной MPEG Окружающей визуализации).

Субъективно воспринимаемое звуковое качество визуализированной выходной сцены может быть улучшено посредством применения блока управления искажением DCU (например, блок изменения матрицы визуализации), как описано в [6]. Это усовершенствование может быть достигнуто за счет принятия умеренной динамической модификации настройки заданной (целевой) визуализации. Модификация информации о визуализации может осуществляться в различное время и с различной частотой, что, при определенных обстоятельствах, может привести к неестественной звуковой окраске и/или временным артефактам колебания.

В пределах полной SAOCсистемы DCU может быть включен в SAOCцепь обработки декодер/транскодер прямым способом. А именно он размещается на переднем конце SAOC посредством управления RCs R, см. Фиг.4.

6.2 Основная гипотеза

Основная гипотеза способа непрямого управления рассматривает соотношение между уровнем искажения и отклонениями RCs от уровня их соответствующих объектов в понижающем микшировании. Она основана на наблюдении о том, что более определенное ослабление/повышение применяется RCs к конкретному объекту относительно других объектов, более интенсивная модификация переданного сигнала понижающего микширования должна выполняться SAOCдекодером/транскодером. Другими словами: чем больше отклонение значений «усиления объекта» относительно друг друга, тем выше шанс возникновения недопустимого искажения (при условии идентичных коэффициентов понижающего микширования).

6.3 Вычисление коэффициентов ограниченной визуализации

Основанный на определенном пользователем сценарии визуализации, представленный коэффициентами (RCs) матрицы R размера

(то есть ряды соответствуют выходным каналам 130а-130М, столбцы - входным звуковым объектам), DCU предотвращает предельные настройки визуализации посредством производства измененной матрицы R_lim, включающей коэффициенты ограниченной визуализации, которые фактически используются SAOCсредством визуализации 448. Без потери универсальности в последующем описании предполагается, что RCs являются неизменными по частоте, чтобы упростить запись. Для всех рабочих режимов SAOC коэффициенты ограниченной визуализации могут быть получены как

.

Это означает, что посредством включения параметра перекрестного затухания Λ∈[0,1] (также обозначается как параметр линейной комбинации) может быть выполнено смешивание (определенной пользователем) матрицы визуализации R с заданной (целевой) матрицей

. Другими словами, ограниченная матрица R_lim представляет линейную комбинацию матрицы визуализации R и заданной (целевой) матрицы. С одной стороны, заданная (целевая) матрица визуализации может быть матрицей понижающего микширования (то есть каналы понижающего микширования передаются через транскодер 448) с коэффициентом нормализации или другой статической матрицей, результатом чего является статическая матрица транскодирования. Эта «визуализация, подобная матрице понижающего микширования», гарантирует, что заданная (целевая) матрица визуализации не вводит SAOCартефакты обработки и, следовательно, представляет оптимальную точку визуализации в отношении звукового качества, будучи полностью независимой от начальных коэффициентов визуализации.

Однако, если приложение требует особого сценария визуализации или пользователь установил верхнее значение на своей исходной установке визуализации (в частности, например, пространственное положение одного или нескольких объектов), визуализация, подобная матрице понижающего микширования, не может служить заданной (целевой) точкой. С другой стороны, такая точка может интерпретироваться как «визуализация с наилучшим усилием», принимая во внимание как коэффициенты понижающего микширования, так и начальные коэффициенты визуализации (например, определенная пользователем матрица визуализации). Цель этого второго определения заданной (целевой) матрицы визуализации состоит в том, чтобы сохранить указанный сценарий визуализации (например, описанный определенной пользователем матрицей визуализации) наилучшим образом, но в то же время, сохраняя слышимую деградацию, возникающую из-за чрезмерной манипуляции объектами, на минимальном уровне.

6.4 Визуализация, подобная понижающему микшированию

6.4.1 Введение

Матрица понижающего микширования D размера N_dmx×N_ob определяется кодирующим устройством (например, звуковое кодирующее устройство 150) и включает информацию относительно того, как входные объекты линейно объединяются в сигнал понижающего микширования, который передается декодеру. Например, при моно сигнале понижающего микширования D уменьшается до вектора, состоящего из одного ряда, и в случае стерео понижающего микширования N_dmx=2.

Матрица «визуализации, подобная матрице понижающего микширования» R_DS вычисляется как

,

где N_DS представляет скаляр нормализации энергии и D_R - матрица понижающего микширования, расширенная рядами нулевых элементов таким образом, что число и порядок рядов D_R соответствуют совокупности R. Например, в SAOC способе стерео - многоканальное транскодирование (х-2-5) N_dmx=2 и N_ch=6. Соответственно, D_R имеет размер

, и его ряды, представляющие передние левые и правые выходные каналы, равны D.

6.4.2 Bce SAOC способы декодирования/транскодирования

Для всех SAOC способов декодирования/транскодирования скаляр нормализации энергии N_DS может быть вычислен посредством использования следующего уравнения:

,

где оператор trace(X) предполагает суммирование всех диагональных элементов матрицы Х. (^*) подразумевает комплексно-сопряженный транспонированный оператор.

6.5 Визуализация с наилучшим усилием

6.5.1 Введение

Способ визуализации с наилучшим усилием описывает заданную (целевую) матрицу визуализации, которая зависит от информации о понижающем микшировании и о визуализации. Нормализация энергии представлена матрицей N_BE размера

, следовательно, она обеспечивает индивидуальные значения для каждого выходного канала (при условии, что имеется больше одного выходного канала). Это требует различных вычислений N_BE для различных SAOC рабочих режимов, которые обрисованы в общих чертах в следующих разделах.

Матрица «визуализации с наилучшим усилием» вычисляется как

,

где D - матрица понижающего микширования и N_BE представляет матрицу нормализации энергии.

6.5.2 SAOC способ декодирования моно - моно ("х-1-1")

Для "х-1-1" SAOC способа скаляр нормализации энергии N_BE может вычисляться посредством использования следующего уравнения:

.

6.5.3 SAOC способ декодирования моно - стерео ("х-1-2")

Для "х-1-2" SAOC способа матрица нормализации энергии N_BE размера 2×1 может вычисляться посредством использования следующего уравнения:

.

6.5.4 SAOC способ декодирования моно - бинауральный ("x-1-b")

Для "x-1-b" SAOC способа матрица нормализации энергии N_BE размера 2х1 может вычисляться посредством использования следующего уравнения:

.

Далее следует заметить, что здесь r₁ и r₂ учитывают/включают информацию о бинауральном HRTP параметре.

Также следует заметить, что для всех 3 уравнений, приведенных выше, должен быть взятк вадратный корень N_BE, то есть

(см. предыдущее описание).

6.5.5 SAOC способ декодирования стерео - моно ("х-2-1")

Для "х-2-1" SAOC способа матрица нормализации энергии N_BE размера 1×2 может вычисляться посредством использования следующего уравнения:

,

где моно матрица визуализации R₁ размера 1×N_ob определяется как

.

6.5.6 SAOC способ декодирования стерео - стерео ("х-2-2")

Для "х-2-2" SAOC способа матрица нормализации энергии N_BE размера 2×2 может вычисляться посредством использования следующего уравнения:

,

где стерео матрица визуализации R₂ размера 2×N_ob, определяется как

.

6.5.7 SAOC способ декодирования моно - бинауральный ("x-2-b")

Для "x-2-b" SAOC способа матрица нормализации энергии N_BE размера 2×2 может вычисляться посредством использования следующего уравнения:

,

где бинауральная матрица визуализации R₂ размера 2×N_ob определяется как

.

Далее следует заметить, что здесь r_1,n и r_2,n учитывают/включают информацию о бинауральном НКТР параметре.

6.5.8 SAOC способ транскодирования моно - многоканальный ("х-1-5")

Для "х-1-5" SAOC способа матрица нормализации энергии N_BE размера N_ch×1 может вычисляться посредством использования следующего уравнения:

.

Снова, в некоторых случаях рекомендуется или даже требуется брать корень квадратный для каждого элемента.

6.5.9 SAOC способ транскодирования стерео – многоканальный ("х-2-5")

Для "х-2-5" SAOC способа матрица нормализации энергии N_BE размера N_ch×2 может вычисляться посредством использования следующего уравнения:

.

6.5.10 Вычисление (DD^*)^-1

Для вычисления члена (DD^*)^-1 могут применяться способы регуляризации, чтобы предотвратить появление некорректных результатов матрицы.

6.6 Управление схемами ограничения коэффициентов визуализации

6.6.1 Пример синтаксиса битового потока

В дальнейшем представление синтаксиса SAOCособой конфигурации будет описано со ссылкой на Фиг.5а. SAOCособая конфигурация "SAOCSpecificConfig ()" включает обычную информацию о SAOCконфигурации. Более того, SAOCособая конфигурация включает DCU особое дополнение 510, которое будет описано более подробно в дальнейшем. SAOCособая конфигурация также включает один или несколько наполняющих битов "ByteAlign ()", которые могут использоваться, чтобы приспособить длину SAOCособой конфигурации. Кроме того, SАОСособая конфигурация может факультативно включать и SAOCрасширенную конфигурацию, которая включает дальнейшие параметры конфигурации.

DCU особое дополнение 510 согласно Фиг.5а к элементу синтаксиса битового потока "SAOCSpecificConfig ()" является примером передачи сигналов битового потока для предложенной DCU схемы. Это связано с синтаксисом, описанным в подпункте "5.1 полезная нагрузка для SAOC" проекта SAOC стандарта согласно ссылке [8].

В дальнейшем будет дано определение некоторых параметров.

"bsDcuFlag" устанавливает, определяются ли настройки для DCU SAOCкодирующим устройством или декодером/транскодером. Более точно, "bsDcuFlag" = 1 означает, что значения "bsDcuMode" и "bsDcuParam", указанные в SAOCSpecificConfig () SAOC кодирующим устройством, применяются к DCU, тогда как "bsDcuFlag" = 0 означает, что переменные "bsDcuMode" и "bsDcuParam" (инициализированные значениями по умолчанию) могут далее изменяться посредством применения SAOCдекодера/транскодера или пользователем.

"bsDcuMode" устанавливает способ DCU. Более точно, "bsDcuMod" = 0 означает, что способ визуализации «подобный понижающему микшированию» применяется DCU тогда как "bsDcuMode" = 1 означает, что способ визуализации с «наилучшим усилием» применяется алгоритмом DCU.

"bsDcuParam" устанавливает значение параметра смешивания для алгоритма DCU, где таблица Фиг.5b показывает таблицу квантизации для "bsDcuParam" параметров.

Возможные значения "bsDcuParam" в этом примере являются частью таблицы с 16 элементами (записями), представленными 4 битами. Конечно, может использоваться любая таблица, большая или маленькая. Интервал между значениями может быть логарифмическим, чтобы соответствовать максимальному разделению объекта в децибелах. Но значения также могут быть расположены линейно, или иметь гибридную комбинацию расположения: логарифмическую и линейную, или любой другой вид шкалы.

"bsDcuMode" параметр в битовом потоке позволяет на стороне кодирующего устройства выбирать оптимальный, для данной ситуации, алгоритм DCU. Это может быть очень полезно, так как некоторые приложения или содержание могут извлечь пользу из способа визуализации, «подобного понижающему микшированию», в то время как другие могут извлечь пользу из способа визуализации «с наилучшим усилием».

Как правило, способ визуализации, «подобный понижающему микшированию», может быть желательным способом для приложений, где важна совместимость снизу вверх/обратная и понижающее микширование имеет важные художественные качества, которые должны быть сохранены. С другой стороны, способ визуализации «с наилучшим усилием» может работать лучше в случаях, где дело обстоит не так.

Эти параметры DCU, связанные с данным изобретением, могут, конечно, быть переданы в любых других частях SAOCбитового потока. Альтернативное местоположение может использовать "SAOCExtensionConfig ()" контейнер, где может использоваться определенное расширение ID (идентификатора). Обе эти части расположены в SAOCзаголовке, что обеспечивает минимальную скорость передачи служебных данных.

Другая альтернатива заключается в передаче данных DCU в данных полезной нагрузки (то есть в SAOCFrame ()). Это обеспечит изменяющуюся во времени передачу сигналов (например, адаптивное управление сигналом).

Гибкий подход должен определить передачу сигналов битового потока данных DCU как для заголовка (то есть статическая передача сигналов), так и в данных полезной нагрузки (то есть динамическая передача сигналов). Тогда SAOCкодирующее устройство может свободно выбирать один из двух способов передачи сигналов.

6.7 Стратегия обработки

В случае если настройки DCU (например, способ DCU "bsDcuMode" и настройка параметра смешивания "bsDcuParam") однозначно заданы SAOCкодирующим устройством (например, "bsDcuFlag" = 1), SAOCдекодер/транскодер применяет эти значения непосредственно к DCU. Если настройки DCU однозначно не заданы (например, "bsDcuFlag" = 0), SAOCдекодер/транскодер использует значения по умолчанию и позволяет приложению SAOCдекодера/транскодера или пользователю изменять их. Первый индекс квантизации (например, idx=0) может использоваться для выключения DCU. Альтернативно, значение по умолчанию DCU ("bsDcuParam") может быть равно "0", то есть выключение DCU, или "1", то есть полное ограничение.

7. Оценка работы

7.1 Модель теста прослушивания

Субъективный тест прослушивания проводился, чтобы оценить перцепционную работу предложенной DCM концепции и сравнить с результатами обычной SAOCRM декодирующей/транскодирующей обработки. По сравнению с другими тестами прослушивания задача этого теста состоит в том, чтобы учитывать самое лучшее качество воспроизведения в предельных ситуациях визуализации («солирующие объекты», «приглушенные объекты») относительно двух качественных аспектов:

1) достижение цели визуализации (хорошее ослабление/усиление заданных (целевых) объектов);

2) качество звука полной сцены (учитывающая искажения, артефакты, неестественность…).

Пожалуйста, заметьте, что неизмененная SAOCобработка может выполнить аспект #1, но не аспект #2, тогда как простое использование переданного сигнала понижающего микширования может выполнить аспект #2, но не аспект #1.

Тест прослушивания проводился с представлением только истинного выбора слушателю, то есть только материал, который действительно доступен как сигнал на стороне декодера. Таким образом, представленные сигналы являются выходным сигналом обычного (не обработанного DCU) SAOCдекодера, демонстрирующим базовую работу SAOC и выход SAOC/DCU. Кроме того, случай обычной визуализации, который соответствует сигналу понижающее микширование, представлен в тесте прослушивания.

Таблица Фиг.6а описывает условия проведения теста прослушивания.

Так как предложенный DCU работает, используя обычные SAOCданные, микширует с понижением и не полагается на остаточную информацию, основное кодирующее устройство не применялось к соответствующим SAOCсигналам понижающего микширования.

7.2 Образцы теста прослушивания

Следующие образцы вместе с предельной и критической визуализацией были выбраны для текущего теста прослушивания из материалов CfP теста прослушивания.

Таблица Фиг.6b описывает звуковые образцы тестов прослушивания.

7.3 Настройки параметров понижающего микширования и визуализации Коэффициенты усиления визуализации объектов, описанные в таблице Фиг.6с, применялись для рассматриваемых сценариев повышающего микширования.

7.4 Инструкции по проведению теста прослушивания

Субъективные тесты прослушивания проводились в акустически изолированной комнате для прослушивания, которая разработана для обеспечения высококачественного прослушивания. Воспроизведение осуществлялось посредством использования наушников (STAX SR LambdaProwithLake-People D/A-Converter (преобразователь) и STAX SRM-Monitor (монитор)).

Способ тестирования, следовавший за процедурой, использовавшейся в пространственных звуковых проверочных тестах, подобных способу «Кратный стимул со скрытой ссылкой и якорями» (MUSHRA) для субъективной оценки промежуточного качественного звука [2]. Способ тестирования был изменен, как описано выше, чтобы оценить перцепционную работу предложенного DCU. Слушатели были проинструктированы придерживаться следующих инструкций по проведению теста прослушивания:

«Сценарий приложения: Представьте, что Вы - пользователь интерактивной системы для аранжировки музыки, которая позволяет делать специальные ремиксы музыкального материала. Система состоит из стола для микширования с ползунками для каждого инструмента, чтобы изменять его уровень, пространственное положение и т.д.

Благодаря характеру системы некоторые предельные звуковые миксы могут привести к искажению, которое ухудшает общее звуковое качество. С другой стороны, звуковые миксы со сходными уровнями инструментов имеют тенденцию производить лучшее звуковое качество.

Цель этого теста - оценить различные алгоритмы обработки относительно их воздействия на интенсивность модификации звука и звуковое качество.

В этом тесте нет никакого «Опорного сигнала»! Вместо этого ниже приведено описание желательных (требуемых) звуковых миксов.

Для каждого звукового образца, пожалуйста:

сначала прочитайте описание желательных звуковых миксов, которые Вы, как пользователь системы, хотели бы получить:

Образец "BlackCoffee": Тихие духовые инструменты внутри звукового микса,

Образец "VoiceOverMusic": Тихий музыкальный фон,

Образец "Audition": Громкий вокал и тихая музыка,

Образец "LovePop": Тихие струнные инструменты внутри звукового микса;

- затем отсортируйте сигналы, используя один общий стандарт, чтобы описать

- достижение цели визуализации желательного звукового микса,

- качество общей звуковой сцены (учитывайте искажения, артефакты, неестественность, пространственные искажения…)».

Всего 8 слушателей участвовали в каждом из выполненных тестов. Каждого из них можно рассматривать как опытного слушателя. Условия теста автоматически перемешивались для каждого образца теста и для каждого слушателя. Субъективные ответы регистрировались компьютерной программой для теста прослушивания по шкале от от 0 до 100, с пятью интервалами, маркированными таким же образом, как на шкале MUSHRA. Было разрешено мгновенное переключение между образцами теста.

7.5 Результаты теста прослушивания

Диаграммы, показанные в графическом представлении Фиг.7, показывают среднюю оценку на образец по всем слушателям и статистическое среднее значение по всем оцененным образцам вместе со связанными 95%-ными доверительными интервалами.

Могут быть сделаны следующие наблюдения, основанные на результатах проведенных тестов прослушивания: Для проведенного теста прослушивания полученные MUSHRA оценки доказывают, что предложенные функциональные возможности DCU обеспечивают значительно улучшенную работу по сравнению с обычной SAOCRM системой в смысле общих средних статистических значений. Следует заметить, что качество всех образцов, произведенных обычным SAOCдекодером (показывающим сильные звуковые артефакты для рассматриваемых предельных условий визуализации), классифицируется как такое же низкое, как качество настроек визуализации, подобной понижающему микшированию, которая вообще не выполняет желательный сценарий визуализации. Следовательно, можно сделать вывод о том, что предложенные способы DCU приводят к значительному улучшению субъективного качества сигнала для всех рассматривавшихся сценариев теста прослушивания.

8. Заключения

Чтобы суммировать вышеприведенное обсуждение, были описаны схемы ограничения коэффициента визуализации для управления искажением в SAOC. Осуществления согласно изобретению могут использоваться в комбинации с параметрическими методиками для эффективной в отношении скорости передачи битов/хранения звуковых сцен, содержащих многозначные звуковые объекты, которые были недавно предложены (например, см. ссылки [1], [2], [3], [4] и [5]).

В комбинации с пользовательской интерактивностью на стороне приема такие методы могут традиционно (без использования схемы ограничения коэффициента визуализации согласно изобретению) приводить к низкому качеству выходных сигналов, если выполняется предельная визуализация объекта (см., например, ссылку [6]).

Данная спецификация фокусируется на Пространственном Кодировании Звукового Объекта (SAOC), который обеспечивает средства для пользовательского интерфейса для выбора желательной установки воспроизведения (например, моно, стерео, 5.1 и т.д.) и интерактивного изменения в реальном времени желательной выходной сцены визуализации посредством управления матрицей визуализации согласно личному предпочтению или другим критериям. Однако изобретение также применимо для параметрических методов вообще.

Благодаря параметрическому подходу, основанному на понижающем микшировании/разделении/смешивании, субъективное качество звукового выхода визуализации зависит от настройки параметров визуализации. Свобода выбора настроек визуализации по выбору пользователя влечет за собой риск выбора пользователем несоответствующих вариантов визуализации объекта, таких как предельные манипуляции с усилением объекта в пределах полной звуковой сцены.

Для коммерческого продукта совершенно недопустимо производить плохое звуковое качество и/или звуковые артефакты для любых настроек на пользовательском интерфейсе. Чтобы управлять чрезмерным ухудшением произведенного SAOCзвукового выхода, было описано несколько вычислительных мер, основанных на идее вычисления меры перцепционного качества визуализированной сцены, и в зависимости от этой меры (и, факультативно, другой информации) изменить фактически приложенные коэффициенты визуализации (см., например, ссылку [6]).

Данный документ описывает альтернативные идеи для защиты субъективного звукового качества визуализированной SAOCсцены, для которой выполнена вся обработка полностью в SAOCдекодоре/транскодере, и которые не требуют применения сложных мер вычисления воспринятого звукового качества визуализированной звуковой сцены.

Эти идеи могут, таким образом, реализовываться структурно простым и чрезвычайно эффективным способом в структуре SAOCдекодер/транскодер. Предложенный алгоритм Блока Управления Искажением (DCU) стремится ограничивать входные параметры SAOCдекодера, а именно коэффициенты визуализации.

Чтобы суммировать вышесказанное, осуществления согласно изобретению создают звуковое кодирующее устройство, звуковой декодер, способ кодирования, способ декодирования и компьютерные программы для кодирования или декодирования или кодированные звуковые сигналы, как описано выше.

9. Альтернативы выполнения

Хотя некоторые аспекты было описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или приспособление соответствуют стадии способа или характеристике стадии способа. Аналогично, аспекты, описанные в контексте стадии способа, также представляют описание соответствующего блока или образца или характеристики соответствующего устройства. Некоторые или все стадии способа могут выполняться аппаратными средствами устройства (или с их использованием), например микропроцессор, программируемый компьютер или электронная схема. В некоторых осуществлениях одна или несколько самых важных стадий способа могут быть выполнены таким устройством.

Кодированный звуковой сигнал согласно изобретению может сохраняться на цифровом носителе данных или может передаваться по каналу передачи, такому как беспроводной канал передачи или проводной канал передачи, такой как Интернет.

В зависимости от определенных требований к выполнению осуществления изобретения могут выполняться в аппаратных средствах или в программном обеспечении. Выполнение может реализовываться посредством использования цифрового носителя данных, например дискета, DVD, Blue-Ray, CD, ROM (постоянное запоминающее устройство, ПЗУ), PROM (программируемое постоянное запоминающее устройство, ППЗУ), EPROM (стираемое программируемое постоянное запоминающее устройство, СППЗУ), EEPROM (электрически стираемое программируемое постоянное запоминающее устройство, ЭСППЗУ) или флэш-память, с хранящимися на них электронно-считываемыми управляющими сигналами, которые взаимодействуют (или могут взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ. Поэтому цифровой носитель данных может быть читаемым посредством компьютера.

Некоторые осуществления согласно изобретению включают носитель информации с сохраненными на нем электронно-считываемыми управляющими сигналами, которые могут взаимодействовать с программируемой компьютерной системой таким образом, чтобы выполнялся один из описанных здесь способов.

В общем, осуществления данного изобретения могут реализовываться как компьютерный программный продукт с управляющей программой; управляющая программа служит для выполнения одного из способов, когда компьютерный программный продукт запущен на компьютере. Управляющая программа может, например, храниться на машиночитаемом носителе.

Другие осуществления включают хранящуюся на машиночитаемом носителе компьютерную программу для выполнения одного из способов, описанных здесь.

Другими словами, осуществление способа согласно изобретению представляет собой, поэтому, компьютерную программу, имеющую управляющую программу для выполнения одного из описанных здесь способов, когда компьютерная программа запущена на компьютере.

Дальнейшее осуществление способов согласно изобретению, поэтому, представляет собой носитель информации (или цифровую запоминающую среду, или читаемую компьютером среду), включающий записанную на нем компьютерную программу для выполнения одного из описанных здесь способов. Носитель информации, цифровая запоминающая среда или записанная среда типично являются реальными и/или непереходными.

Дальнейшее осуществление способа согласно изобретению, поэтому, представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из описанных здесь способов. Поток данных или последовательность сигналов могут, например, формироваться, чтобы быть переданными через канал передачи данных, например через Интернет.

Дальнейшее осуществление включает средство обработки, например компьютер или программируемое логическое устройство, формируемое для или приспособленное к выполнению одного из описанных здесь способов.

Дальнейшее осуществление включает компьютер с установленной на нем компьютерной программой для выполнения одного из описанных здесь способов.

В некоторых осуществлениях программируемое логическое устройство (например, логическая матрица с эксплуатационным программированием) может использоваться для выполнения некоторых или всех функциональных возможностей описанных здесь способов. В некоторых осуществлениях логическая матрица с эксплуатационным программированием может взаимодействовать с микропроцессором для выполнения одного из описанных здесь способов. В общем, способы предпочтительно выполняются любыми аппаратными средствами устройства.

Описанные выше осуществления просто иллюстрируют принципы данного изобретения. Следует понимать, что модификации и изменения схем и деталей, описанных здесь, будут очевидны для специалистов, сведущих в этой области техники. Поэтому, цель состоит в том, чтобы ограничиться только областью патентной формулы, а не определенными деталями, представленными здесь посредством описания и объяснения осуществлений.

Ссылки

[1] К. Фоллер и Ф. Баумгарт. «Бинауральное кодирование реплики. - Вторая часть: Схемы и применения», IEEE обработка речи и звукового сигнала, издание 11, номер 6, ноябрь 2003 г.

[2] К. Фоллер. «Параметрическое совместное кодирование звуковых источников», 120-ое Соглашение AES, Париж, 2006 г., Предпринт 6752.

[3] Дж. Герре, С. Диш, Дж. Гилперт, О. Гельмут: «От SAC до SAOC – Современные разработки в параметрическом кодировании пространственного звукового сигнала», 22-ая Региональная Конференция AES, Кембридж, Великобритания, апрель 2007 г.

[4] Дж. Энгегард, Б. Реш, К. Фальч, О. Гельмут, Дж. Гилперт, А. Хольцер, Л. Терентьев, Дж. Брибаарт, Дж. Коппенс, Э. Шуйджерс и У. Омен: «Пространственное кодирование звукового объекта, (SAOC) -Вступающий в силу MPEG стандарт на кодирование звукового сигнала, основанное на параметрическом объекте», 124-ое Соглашение AES, Амстердам 2008 г, Предпринт 7377.

[5] ISO/IEC, «MPEG звуковые технологии. - Часть 2: Пространственное кодирование звукового объекта (SAOC)», ISO/IECJTC1/SC29/WG11 (MPEG) FCD 23003-2.

[6] Американская патентная заявка 61/173,456, СПОСОБЫ, УСТРОЙСТВА И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ ДЛЯ ОБРАБОТКИ ЗВУКОВОГО СИГНАЛА, ИМЕЮЩИЕ ЦЕЛЬЮ ИЗБЕЖАТЬ ИСКАЖЕНИЙ.

[7] EBU Техническая рекомендация: "Cnocoб MUSHRA-EBU для Субъективных Тестов Прослушивания Промежуточного Звукового Качества", Док. B/AIM022, октябрь 1999 г.

[8] ISO/IECJTC1/SC29/WG11 (MPEG), Документ N10843, "Исследование ISO/IEC23003-2:200x Пространственное Кодирование Звукового Объекта, (SAOC)", 89-ое Собрание MPEG, Лондон, Великобритания, июль 2009 г.

Claims

1. Устройство обработки звука (100; 200) для обеспечения представления сигнала повышающего микширования (130; 230) на основе представления сигнала понижающего микширования (110; 210) и связанной с объектом параметрической информации, которые включаются в представление битового потока (300) звукового содержания, и в зависимости от определенной пользователем матрицы визуализации (144, M_ren), которая определяет требуемый вклад множества звуковых объектов в один, два или более выходных звуковых каналов; включающее ограничитель искажения (140; 240), формируемый, чтобы получить измененную матрицу визуализации (142; M_ren,lim) посредством использования линейной комбинации определенной пользователем матрицы визуализации (M_ren) и заданной матрицы визуализации без искажений (M_ren,tar) в зависимости от параметра линейной комбинации (146; g_DCU)); и процессор сигнала (148; 248), формируемый, чтобы получить представление сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом параметрической информации посредством использования измененной матрицы визуализации; где устройство формируется, чтобы оценить элемент битового потока (306; bsDcuParameter), представляющий параметр линейной комбинации (146; g_DCU), чтобы получить параметр линейной комбинации.

2. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы получить заданную матрицу визуализации (M_ren,tar) таким образом, чтобы заданная матрица визуализации являлась заданной матрицей визуализации без искажений.

3. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы получить измененную матрицу визуализации

согласно

где g_DCU обозначает параметр линейной комбинации, значение которого находится в интервале [0, 1];

обозначает определенную пользователем матрицу визуализации и

обозначает заданную (целевую) матрицу визуализации.

4. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы получить заданную матрицу визуализации (M_ren,tar) таким образом, чтобы заданная матрица визуализации являлась заданной матрицей визуализации, подобной матрице понижающего микширования.

5. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы масштабировать расширенную матрицу понижающего микширования

, используя скаляр нормализации энергии

, чтобы получить заданную матрицу визуализации (M_ren,tar), где расширенная матрица понижающего микширования является расширенной версией матрицы понижающего микширования, один или несколько рядов которой описывают вклады множества сигналов звукового объекта в один или несколько каналов представления сигнала понижающего микширования, расширенной рядами нулевых элементов таким образом, что несколько рядов расширенной матрицы понижающего микширования идентичны совокупности визуализаций, описанной определенной пользователем матрицей визуализации (M_ren).

6. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы получить заданную матрицу визуализации (M_ren,tar) таким образом, чтобы заданная матрица визуализации являлась оптимально достижимой заданной матрицей визуализации аудиорендеринга.

7. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы получить заданную матрицу визуализации (M_ren,tar) таким образом, чтобы заданная матрица визуализации зависела от матрицы понижающего микширования (D) и определенной пользователем матрицы визуализации (M_ren).

8. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы вычислить матрицу (N_BE), включающую значения нормализации энергии индивидуальных каналов для множества выходных звуковых каналов устройства для обеспечения представления сигнала повышающего микширования, таким образом, что значение нормализации энергии для данного выходного звукового канала устройства описывает соотношение между суммой значений визуализации энергии, связанных с данным выходным звуковым каналом в определенной пользователем матрице визуализации для множества звуковых объектов, и суммой значений понижающего микширования энергии для множества звуковых объектов; и где ограничитель искажения формируется, чтобы масштабировать ряд значений понижающего микширования, используя значение нормализации энергии каждого индивидуального канала, чтобы получить ряд значений визуализации заданной матрицы визуализации (M_ren,tar), связанной с данным выходным каналом.

9. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы вычислить матрицу

, включающую значения нормализации энергии индивидуальных каналов для множества выходных звуковых каналов согласно

для случая представления одноканального сигнала понижающего микширования и двухканального выходного сигнала устройства; или согласно

для случая представления одноканального сигнала понижающего микширования и бинаурального визуализированного выходного сигнала устройства; или согласно

для случая представления одноканального сигнала понижающего микширования и выходного сигнала с N_MPS каналами устройства,

где

обозначает коэффициенты визуализации определенной пользователем матрицы визуализации

, описывающие требуемый вклад звукового объекта, имеющего индекс объекта j, в первый выходной звуковой канал устройства;

, описывающие требуемый вклад звукового объекта, имеющего индекс объекта j, во второй выходной звуковой канал устройства;

и

обозначают коэффициенты визуализации определенной пользователем матрицы визуализации

, описывающие требуемый вклад звукового объекта, имеющего индекс объекта j, в первый и второй выходной звуковой канал устройства, и учитывающего параметрическую HRTF информацию;

обозначает коэффициент понижающего микширования, описывающий вклад звукового объекта, имеющего индекс объекта j, в представление сигнала понижающего микширования; и

ε обозначает аддитивную постоянную, необходимую, чтобы избежать деления на ноль; и

где ограничитель искажения формируется, чтобы вычислить заданную матрицу визуализации

согласно

где D^l обозначает матрицу понижающего микширования, включающую коэффициент понижающего микширования d_j.

10. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы вычислить матрицу, описывающую нормализацию энергии индивидуального канала для множества выходных звуковых каналов устройства в зависимости от определенной пользователем матрицы визуализации (M_ren) и матрицы понижающего микширования D; и где ограничитель искажения формируется, чтобы применить матрицу, описывающую нормализацию энергии индивидуального канала, для получения ряда коэффициентов визуализации заданной матрицы визуализации (M_ren,tar), связанных с данным выходным звуковым каналом устройства, как линейной комбинации ряда значений понижающего микширования, связанных с различными каналами представления сигнала понижающего микширования.

11. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы вычислить матрицу

, описывающую нормализацию энергии индивидуального канала для множества выходных звуковых каналов согласно

для случая представления двухканального сигнала понижающего микширования и многоканального выходного звукового сигнала устройства,

где

обозначает определенную пользователем матрицу визуализации, описывающую определенные пользователем требуемые вклады множества выходных звуковых сигналов объекта в многоканальный выходной звуковой сигнал устройства;

D^l обозначает матрицу понижающего микширования, описывающую вклады множества сигналов звукового объекта в представление сигнала понижающего микширования;

где

и

согласно

.

12. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы вычислить матрицу

согласно

для случая представления двухканального сигнала понижающего микширования и одноканального выходного звукового сигнала устройства, или согласно

для случая представления двухканального сигнала понижающего микширования и бинаурально визуализированного выходного звукового сигнала устройства,

где

обозначает определенную пользователем матрицу визуализации, описывающую определенные пользователем требуемые вклады множества выходных сигналов звукового объекта в выходной сигнал устройства;

A^l,m обозначает матрицу бинауральной визуализации, которая основывается на определенной пользователем матрице визуализации и параметрах связанной с заголовком передаточной функции.

13. Устройство (100; 200) по п. 1, где ограничитель искажения формируется, чтобы вычислить скаляр нормализации энергии

согласно

где

обозначает коэффициент визуализации определенной пользователем матрицы визуализации

, описывающий требуемый вклад звукового объекта, имеющего индекс объекта j, в выходной звуковой сигнал устройства;

d_j обозначает коэффициент понижающего микширования, описывающий вклад звукового объекта, имеющего индекс объекта j, в представление сигнала понижающего микширования; и

ε обозначает аддитивную постоянную, необходимую, чтобы избежать деления на ноль.

14. Устройство (100; 200) по п. 1, где устройство формируется, чтобы считывать значение индекса (idx), представляющего параметр линейной комбинации (g_DCU), из представления битового потока звукового содержания и отображать значение индекса на параметр линейной комбинации (g_DCU) посредством использования таблицы квантизации параметров.

15. Устройство (100; 200) по п. 14, где таблица квантизации описывает неоднородную квантизацию, где меньшие значения параметра линейной комбинации (g_DCU), которые описывают более значительный вклад определенной пользователем матрицы визуализации (M_ren) в измененную матрицу визуализации (M_ren,lim), квантуются с более высоким разрешением.

16. Устройство (100; 200) по п. 1, где устройство формируется, чтобы оценить элемент битового потока (bsDcuMode), описывающий способ ограничения искажения, и где ограничитель искажения формируется, чтобы селективно получить заданную матрицу визуализации таким образом, чтобы заданная матрица визуализации являлась заданной матрицей визуализации, подобной матрице понижающего микширования, или таким образом, чтобы заданная матрица визуализации являлась заданной матрицей визуализации с наилучшим усилием.

17. Устройство (150) для обеспечения битового потока (170), представляющего многоканальный звуковой сигнал, включающее микшер понижающего микширования (180), формируемый, чтобы обеспечить сигнал понижающего микширования (182) на основе множества сигналов звукового объекта (160a-160N); поставщик дополнительной информации (184), формируемый, чтобы предоставить связанную с объектом параметрическую дополнительную информацию (186), описывающую характеристики сигналов звукового объекта (160a-160N) и параметры понижающего микширования, и параметр линейной комбинации (188), описывающий требуемые вклады определенной пользователем матрицы визуализации (M_ren) и заданной матрицы визуализации (M_ren,tar) в измененную матрицу визуализации (M_ren,lim), которая будет использована устройством (100; 200) для обеспечения представления сигнала повышающего микширования на основе битового потока; и форматер битового потока (190), формируемый, чтобы обеспечить битовый поток (170), включающий представление сигнала понижающего микширования, связанную с объектом параметрическую дополнительную информацию и параметр линейной комбинации, где определенная пользователем матрица визуализации (144; M_ren) определяет требуемый вклад множества звуковых объектов в один, два или более выходных звуковых каналов.

18. Способ обработки звука для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом параметрической информации, которые включаются в представление битового потока звукового содержания, и в зависимости от определенной пользователем матрицы визуализации, которая определяет требуемый вклад множества звуковых объектов в один, два или более выходных звуковых каналов; включающий оценку элемента битового потока, представляющего параметр линейной комбинации, чтобы получить параметр линейной комбинации; получение измененной матрицы визуализации посредством использования линейной комбинации определенной пользователем матрицы визуализации и заданной матрицы визуализации без искажений в зависимости от параметра линейной комбинации и получение представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом параметрической информации посредством использования измененной матрицы визуализации.

19. Способ обеспечения битового потока, представляющего многоканальный звуковой сигнал, включающий обеспечение сигнала понижающего микширования на основе множества сигналов звукового объекта; обеспечение связанной с объектом параметрической дополнительной информации, описывающей характеристики сигналов звукового объекта и параметры понижающего микширования, и параметра линейной комбинации, описывающего требуемые вклады определенной пользователем матрицы визуализации и заданной матрицы визуализации в измененную матрицу визуализации; и обеспечение битового потока, включающего представление сигнала понижающего микширования, связанной с объектом параметрической дополнительной информации и параметра линейной комбинации, где определенная пользователем матрица визуализации определяет требуемый вклад множества звуковых объектов в один, два или более выходных звуковых каналов.

20. Машиночитаемый носитель информации с записанной на него компьютерной программой для выполнения способа по п. 18, когда компьютерная программа запущена на компьютере.

21. Машиночитаемый носитель информации с записанной на него компьютерной программой для выполнения способа по п. 19, когда компьютерная программа запущена на компьютере.