RU2798821C2 - Преобразование звуковых сигналов, захваченных в разных форматах, в уменьшенное количество форматов для упрощения операций кодирования и декодирования - Google Patents

Преобразование звуковых сигналов, захваченных в разных форматах, в уменьшенное количество форматов для упрощения операций кодирования и декодирования Download PDF

Info

Publication number
RU2798821C2
RU2798821C2 RU2021109480A RU2021109480A RU2798821C2 RU 2798821 C2 RU2798821 C2 RU 2798821C2 RU 2021109480 A RU2021109480 A RU 2021109480A RU 2021109480 A RU2021109480 A RU 2021109480A RU 2798821 C2 RU2798821 C2 RU 2798821C2
Authority
RU
Russia
Prior art keywords
audio
format
audio signal
formats
spatial
Prior art date
Application number
RU2021109480A
Other languages
English (en)
Other versions
RU2021109480A (ru
Inventor
Стефан БРУН
Майкл ЭКЕРТ
Хуан Феликс ТОРРЕС
Стефани БРАУН
Дэвид С. МАКГРАТ
Original Assignee
Долби Лабораторис Лайсэнзин Корпорейшн
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лабораторис Лайсэнзин Корпорейшн, Долби Интернешнл Аб filed Critical Долби Лабораторис Лайсэнзин Корпорейшн
Publication of RU2021109480A publication Critical patent/RU2021109480A/ru
Application granted granted Critical
Publication of RU2798821C2 publication Critical patent/RU2798821C2/ru

Links

Images

Abstract

Изобретение относится к области вычислительной техники для обработки аудиосигнала. Технический результат заключается в обеспечении преобразования звуковых сигналов, захваченных в различных форматах, в ограниченное количество форматов, которые могут быть обработаны кодеком. Технический результат достигается за счет приема блоком упрощения в передающем устройстве от блока предварительной обработки звука звуковых сигналов во множестве форматов представления звука; приема блоком упрощения от принимающего устройства атрибутов принимающего устройства, при этом атрибуты содержат указания одного или более форматов звука, поддерживаемых принимающим устройством, при этом один или более форматов звука включают по меньшей мере один из монофонического формата, стереофонического формата или пространственного формата; преобразования блоком упрощения звуковых сигналов в формат получения, который является альтернативным представлением одного или более форматов звука; и предоставления блоком упрощения преобразованного звукового сигнала блоку кодирования для обработки в нисходящем направлении, кодирования блоком кодирования звукового сигнала в формате получения в кодированный звуковой сигнал в формате для передачи, декодируемый принимающим устройством. 3 н. и 9 з.п. ф-лы, 8 ил.

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
Эта заявка заявляет приоритет предварительной заявки на патент США № 62/742729, поданной 8 октября 2018 г., которая полностью включена в настоящий документ посредством ссылки.
ОБЛАСТЬ ТЕХНИКИ
Варианты осуществления настоящего изобретения в целом относятся к обработке звукового сигнала и, более конкретно, к распределению захваченных звуковых сигналов.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ
Разработка стандарта кодера/декодера («кодека») для голоса и видео в последнее время сконцентрировалась на разработке кодека для голосовых и звуковых услуг с эффектом присутствия (IVAS). Ожидается, что IVAS поддерживает ряд рабочих функциональных возможностей, таких как операция с преобразованием монофонического сигнала в стереофонический сигнал для кодирования, декодирования и рендеринга звука с полным эффектом присутствия. Подходящий кодек IVAS также обеспечивает высокую устойчивость к ошибкам потери пакетов и флуктуации времени задержки при разных условиях передачи. Предполагается, что IVAS поддерживает широкий диапазон устройств, оконечных устройств и узлов сети, включая, но без ограничения, мобильные телефоны и смартфоны, электронные планшеты, персональные компьютеры, конференц-телефоны, помещения для переговоров, устройства виртуальной реальности и дополненной реальности, устройства в виде домашнего кинотеатра и другие подходящие устройства. Поскольку эти устройства, оконечные устройства и узлы сети могут иметь различные акустические интерфейсы для захвата и рендеринга звука, может быть непрактичным для кодека IVAS использовать все различные способы, при помощи которых осуществляется захват и рендеринг звукового сигнала.
КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
Описанные варианты осуществления позволяют осуществлять преобразование звуковых сигналов, захваченных в различных форматах при помощи различных устройств захвата, в ограниченное количество форматов, которые могут быть обработаны кодеком, например, кодеком IVAS.
В некоторых вариантах осуществления блок упрощения, встроенный в звуковое устройство, принимает звуковой сигнал. Этот звуковой сигнал может быть сигналом, захваченным одним или более устройствами захвата звука, соединенными со звуковым устройством. Звуковой сигнал может быть, например, звуком видеоконференцсвязи между людьми в разных местах. Блок упрощения определяет, находится ли звуковой сигнал в формате, который не поддерживается блоком кодирования звукового устройства, обычно называемым «кодером». Например, блок упрощения может определить, находится звуковой сигнал в монофоническом, стереофоническом или стандартном или закрытом пространственном формате или нет. На основе определения того, что звуковой сигнал находится в формате, который не поддерживается блоком кодирования, блок упрощения преобразует звуковой сигнал в формат, поддерживаемый блоком кодирования. Например, если блок упрощения определяет, что звуковой сигнал находится в закрытом пространственном формате, блок упрощения может преобразовать звуковой сигнал в пространственный «промежуточный» формат, поддерживаемый блоком кодирования. Блок упрощения передает преобразованный звуковой сигнал блоку кодирования.
Преимуществом раскрытых вариантов осуществления является то, что сложность кодека, например, кодека IVAS, может быть уменьшена посредством уменьшения потенциально большого количества форматов захвата звука до ограниченного количества форматов, например, монофонического, стереофонического и пространственного. В результате кодек может быть установлен на различных устройствах независимо от функциональных возможностей захвата звука устройств.
Эти и другие аспекты, признаки и варианты осуществления могут быть выражены в качестве способов, аппарата, систем, составляющих, программных продуктов, средств или этапов для осуществления функции и иным образом.
В некоторых реализациях блок упрощения звукового устройства принимает звуковой сигнал в первом формате. Первый формат является одним из набора множества форматов звука, поддерживаемого звуковым устройством. Блок упрощения определяет, поддерживается ли кодером звукового устройства первый формат. В соответствии с тем, что первый формат не поддерживается кодером, блок упрощения преобразует звуковой сигнал во второй формат, который поддерживается кодером. Второй формат является альтернативным представлением первого формата. Блок упрощения передает звуковой сигнал во втором формате кодеру. Кодер кодирует звуковой сигнал. Звуковое устройство сохраняет кодированный звуковой сигнал или передает кодированный звуковой сигнал одному или более другим устройствам.
Преобразование звукового сигнала во второй формат может включать генерирование метаданных для звукового сигнала. Метаданные могут содержать представление части звукового сигнала. Кодирование звукового сигнала может включать кодирование звукового сигнала во втором формате в формат для передачи, поддерживаемый вторым устройством. Звуковое устройство может передавать кодированный звуковой сигнал посредством передачи метаданных, которые содержат представление части звукового сигнала, не поддерживаемой вторым форматом.
В некоторых реализациях определение блоком упрощения, находится ли звуковой сигнал в первом формате, может включать определение количества устройств захвата звука и соответствующего положения каждого устройства захвата, используемого для захвата звукового сигнала. Каждое из одного или более других устройств может быть выполнено с возможностью воспроизведения звукового сигнала во втором формате. По меньшей мере одно из одного или более других устройств не может воспроизводить звуковой сигнал в первом формате.
Второй формат может представлять звуковой сигнал в виде некоторого количества звуковых объектов в звуковой сцене, при этом и то и другое зависит от некоторого количества каналов звука для передачи пространственной информации. Второй формат может содержать метаданные для передачи дополнительной части пространственной информации. Оба из первого формата и второго формата могут быть пространственными форматами звука. Второй формат может быть пространственным форматом звука, и первый формат может быть монофоническим форматом, связанным с метаданными, или стереофоническим форматом, связанным с метаданными. Набор множества форматов звука, поддерживаемый звуковым устройством, может включать множество пространственных форматов звука. Второй формат может быть альтернативным представлением первого формата и дополнительно характеризуется обеспечением сравнимой степени качества восприятия.
В некоторых реализациях блок рендеринга звукового устройства принимает звуковой сигнал в первом формате. Блок рендеринга определяет, может ли звуковое устройство воспроизводить звуковой сигнал в первом формате. В ответ на определение того, что звуковое устройство не может воспроизводить звуковой сигнал в первом формате, блок рендеринга адаптирует звуковой сигнал так, чтобы он был доступен во втором формате. Блок рендеринга передает звуковой сигнал во втором формате для рендеринга.
В некоторых реализациях преобразование блоком рендеринга звукового сигнала во второй формат может включать использование метаданных, которые содержат представление части звукового сигнала, не поддерживаемой четвертым форматом, используемое для кодирования в сочетании со звуковым сигналом в третьем формате. В настоящем документе третий формат соответствует термину «первый формат» в контексте блока упрощения, который является одним из набора множества форматов звука, поддерживаемых на стороне кодера. Четвертый формат соответствует термину «второй формат» в контексте блока упрощения, который является форматом, поддерживаемым кодером, и который является альтернативным представлением третьего формата. Здесь и где-либо в этом документе термины «первый», «второй», «третий» и «четвертый» используют для идентификации, и они не обязательно указывают на конкретный порядок.
Блок декодирования принимает звуковой сигнал в формате для передачи. Блок декодирования декодирует звуковой сигнал в формате для передачи в первый формат и передает звуковой сигнал в первом формате блоку рендеринга. В некоторых реализациях адаптация звукового сигнала так, чтобы он был доступен во втором формате, может включать адаптацию декодирования для получения принятого звука во втором формате. В некоторых реализациях каждое из множества устройств выполнено с возможностью воспроизведения звукового сигнала во втором формате. Одно или более из множества устройств не могут воспроизводить звуковой сигнал в первом формате.
В некоторых реализациях блок упрощения принимает от блока предварительной обработки звука звуковые сигналы во множестве форматов. Блок упрощения принимает от устройства атрибуты устройства, при этом атрибуты содержат указания одного или более форматов звука, поддерживаемых устройством. Один или более форматов звука включают по меньшей мере один из монофонического формата, стереофонического формата или пространственного формата. Блок упрощения преобразует звуковые сигналы в формат получения, который является альтернативным представлением одного или более форматов звука. Блок упрощения предоставляет преобразованный звуковой сигнал блоку кодирования для обработки в нисходящем направлении. Каждый из блока предварительной обработки звука, блока упрощения и блока кодирования может содержать один или более компьютерных процессоров.
В некоторых реализациях система кодирования содержит блок захвата, выполненный с возможностью захвата звукового сигнала, блок предварительной обработки звука, выполненный с возможностью осуществления операций, включающих предварительную обработку звукового сигнала, кодер и блок упрощения. Блок упрощения выполнен с возможностью осуществления следующих операций. Блок упрощения принимает от блока предварительной обработки звука звуковой сигнал в первом формате. Первый формат является одним из набора множества форматов звука, поддерживаемых кодером. Блок упрощения определяет, поддерживается ли кодером первый формат. В ответ на определение того, что первый формат не поддерживается кодером, блок упрощения преобразует звуковой сигнал во второй формат, который поддерживается кодером. Блок упрощения передает звуковой сигнал во втором формате кодеру. Кодер выполнен с возможностью осуществления операций, включающих кодирование звукового сигнала и по меньшей мере одно из сохранения кодированного звукового сигнала или передачи кодированного звукового сигнала другому устройству.
В некоторых реализациях преобразование звукового сигнала во второй формат включает генерирование метаданных для звукового сигнала. Метаданные могут содержать представление части звукового сигнала, не поддерживаемой вторым форматом. Операции кодера могут дополнительно включать передачу кодированного звукового сигнала посредством передачи метаданных, которые содержат представление части звукового сигнала, не поддерживаемой вторым форматом.
В некоторых реализациях второй формат представляет звук звукового сигнала в виде некоторого количества объектов в звуковой сцене и некоторого количества каналов для передачи пространственной информации. В некоторых реализациях предварительная обработка звукового сигнала может включать одно или более из осуществления подавления шумов, осуществления компенсации эха, уменьшения количества каналов звукового сигнала, увеличения количества каналов звука звукового сигнала или генерирования звуковых метаданных.
В некоторых реализациях система декодирования содержит декодер, блок рендеринга и блок воспроизведения. Декодер выполнен с возможностью осуществления операций, включая, например, декодирование звукового сигнала из формата для передачи в первый формат. Блок рендеринга выполнен с возможностью осуществления следующих операций. Блок рендеринга принимает звуковой сигнал в первом формате. Блок рендеринга определяет, может звуковое устройство воспроизводить звуковой сигнал во втором формате или нет. Второй формат позволяет использовать больше устройств вывода, чем первый формат. В ответ на определение того, что звуковое устройство может воспроизводить звуковой сигнал во втором формате, блок рендеринга преобразует звуковой сигнал во второй формат. Блок рендеринга осуществляет рендеринг звукового сигнала во втором формате. Блок воспроизведения выполнен с возможностью осуществления операций, включающих инициацию проигрывания подвергнутого рендерингу звукового сигнала в системе динамиков.
В некоторых реализациях преобразование звукового сигнала во второй формат может включать использование метаданных, которые содержат представление части звукового сигнала, не поддерживаемой четвертым форматом, используемое для кодирования в сочетании со звуковым сигналом в третьем формате. В настоящем документе третий формат соответствует термину «первый формат» в контексте блока упрощения, который является одним из набора множества форматов звука, поддерживаемых на стороне кодера. Четвертый формат соответствует термину «второй формат» в контексте блока упрощения, который является форматом, поддерживаемым кодером, и который является альтернативным представлением третьего формата.
В некоторых реализациях операции декодера могут дополнительно включать прием звукового сигнала в формате для передачи и передачу звукового сигнала в первом формате блоку рендеринга.
Эти и другие аспекты, признаки и варианты осуществления станут очевидными из последующих частей описания, включая формулу изобретения.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
На графических материалах конкретные расположения или порядки схематических элементов, например, тех, что представляют устройства, блоки, блоки команд и элементы данных, показаны для облегчения описания. Однако специалистам в данной области техники следует понимать, что конкретный порядок или расположение схематических элементов в графических материалах не предполагает, что требуется конкретный порядок или последовательность обработки или разделение процессов. Дополнительно включение схематического элемента в графический материал не предполагает, что такой элемент необходим во всех вариантах осуществления, или что признаки, представленные таким элементом, нельзя включать в другие элементы или сочетать с ними в некоторых вариантах осуществления.
Дополнительно в графических материалах, где соединительные элементы, такие как сплошные или пунктирные линии или стрелки, используют для иллюстрации соединения, отношения или связи между двумя или более другими схематическими элементами или среди них, отсутствие любого из таких соединяющих элементов не предполагает, что соединения, отношения или связи не могут существовать. Другими словами, некоторые соединения, отношения или связи между элементами не показаны на графических материалах, чтобы не затруднять понимание настоящего изобретения. Кроме того, для упрощения иллюстрации один соединительный элемент используют для представления множества соединений, отношений или связей между элементами. Например, если соединительный элемент представляет передачу сигналов, данных или команд, специалистам в данной области техники следует понимать, что такой элемент представляет один или множество путей сигнала, которые могут быть необходимы для влияния на передачу.
На фиг. 1 проиллюстрированы различные устройства, которые может поддерживать система IVAS, в соответствии с некоторыми вариантами осуществления настоящего изобретения.
На фиг. 2A показана блок-схема системы для преобразования захваченного звукового сигнала в формат, готовый для кодирования, в соответствии с некоторыми вариантами осуществления настоящего изобретения.
На фиг. 2B показана блок-схема системы для обратного преобразования захваченного звука в подходящий формат воспроизведения в соответствии с некоторыми вариантами осуществления настоящего изобретения.
На фиг. 3 показана схема последовательности примерных действий для преобразования звукового сигнала в формат, поддерживаемый блоком кодирования, в соответствии с некоторыми вариантами осуществления настоящего изобретения.
На фиг. 4 показана схема последовательности примерных действий для определения, находится ли звуковой сигнал в формате, поддерживаемом блоком кодирования, в соответствии с некоторыми вариантами осуществления настоящего изобретения.
На фиг. 5 показана схема последовательности примерных действий для преобразования звукового сигнала в доступный формат воспроизведения в соответствии с некоторыми вариантами осуществления настоящего изобретения.
На фиг. 6 показана другая схема последовательности примерных действий для преобразования звукового сигнала в доступный формат воспроизведения в соответствии с некоторыми вариантами осуществления настоящего изобретения.
На фиг. 7 показана блок-схема архитектуры аппаратного обеспечения для реализации признаков, описанных со ссылкой на фиг. 1—6, в соответствии с некоторыми вариантами осуществления настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ
В следующем описании в целях пояснения изложены многочисленные конкретные подробности для обеспечения полного понимания настоящего изобретения. Однако следует понимать, что настоящее изобретение может быть реализовано на практике без этих конкретных подробностей.
Далее будет сделана подробная ссылка на варианты осуществления, примеры которых проиллюстрированы на прилагаемых графических материалах. В следующем подробном описании многочисленные конкретные подробности изложены для обеспечения полного понимания различных описанных вариантов осуществления. Однако для специалистов в данной области техники средней квалификации будет очевидно, что различные описанные варианты осуществления могут быть реализованы на практике без этих конкретных подробностей. В других примерах хорошо известные способы, процедуры, составляющие и схемы не были описаны подробно, чтобы не создавать ненужного затруднения понимания аспектов вариантов осуществления. Ниже описаны некоторые признаки, каждый из которых может быть использован независимо друг от друга или с любым сочетанием других признаков.
В контексте настоящего документа слово «включает» и его варианты следует понимать как неограничивающие термины, которые означают «включает, но без ограничения». Слово «или» следует понимать как «и/или», если контекст явно не указывает иное. Выражение «на основе» следует понимать как «на основе по меньшей мере частично».
На фиг. 1 проиллюстрированы различные устройства, которые может поддерживать система IVAS. В некоторых реализациях эти устройства поддерживают связь посредством сервера 102 обработки вызовов, который может принимать звуковые сигналы от, например, устройства телефонной сети общего пользования (PSTN) или устройства наземной сети мобильной связи общего пользования (PLMN), проиллюстрированного как устройство 104 PSTN/ДРУГОЙ PLMN. Это устройство может использовать стандарт G.711 и/или G.722 для компрессии и декомпрессии звука (речи). Устройство 104 в целом может захватывать и осуществлять рендеринг только монофонического звука. Систему IVAS реализуют также для поддержки существующего оборудования 106 пользователя. Эти существующие устройства могут включать устройства улучшенных голосовых услуг (EVS), устройства, поддерживающие стандарт адаптивного многоскоростного широкополосного (AMR-WB) кодирования речи в звуковые файлы, устройства поддерживающие стандарт адаптивного многоскоростного узкополосного (AMR-NB) кодирования и другие подходящие устройства. Эти устройства обычно осуществляют рендеринг и захват только монофонического звука.
Систему IVAS также реализуют для поддержки оборудования пользователя, которое осуществляет захват и рендеринг звуковых сигналов в различных форматах, включая усовершенствованные форматы звука. Например, систему IVAS реализуют для поддержки устройств стереофонического захвата и рендеринга (например, оборудования 108 пользователя, ноутбука 114 и системы 118 помещения для переговоров), устройств монофонического захвата и бинаурального рендеринга (например, устройства 110 пользователя и компьютерного устройства 112), устройств захвата и рендеринга с эффектом присутствия (например, оборудования 116, используемого в помещении для переговоров), устройств стереофонического захвата и рендеринга с эффектом присутствия (например, домашнего кинотеатра 120), захвата монофонического сигнала и рендеринга с эффектом присутствия (например, оборудования 122 виртуальной реальности (VR)), получающих содержимое устройств 124 с эффектом присутствия и других подходящих устройств. Для прямой поддержки всех этих форматов кодек для системы IVAS должен быть очень сложным и дорогим в установке. Таким образом, является желательной система для упрощения кодека до стадии кодирования.
Хотя описание, которое следует, сконцентрировано на системе IVAS и кодеке, раскрытые варианты осуществления являются применимыми к любому кодеку для любой звуковой системы, в которой существует преимущество в уменьшении большого количества форматов захвата звука до меньшего количества для уменьшения сложности звукового кодека или по любой другой желаемой причине.
На фиг. 2A показана блок-схема системы 200 для преобразования захваченных звуковых сигналов в формат, готовый для кодирования, в соответствии с некоторыми вариантами осуществления настоящего изобретения. Блок 210 захвата принимает звуковой сигнал от одного или более устройств захвата, например, микрофонов. Например, блок 210 захвата может принимать звуковой сигнал от одного микрофона (например, монофонический сигнал), от двух микрофонов (например, стереофонический сигнал), от трех микрофонов или от другого количества и конфигурации устройств захвата звука. Блок 210 захвата может содержать изменения под заказ, выполненные одной или более третьими сторонами, где изменения под заказ могут касаться используемых устройств захвата.
В некоторых реализациях монофонический звуковой сигнал захватывает один микрофон. Монофонический сигнал может быть захвачен, например, телефоном 104 PSTN/PLMN, существующим оборудованием 106 пользователя, устройством 110 пользователя с бесконтактной гарнитурой, компьютерным устройством 112 с подключенной гарнитурой и оборудованием 122 виртуальной реальности, как проиллюстрировано на фиг. 1.
В некоторых реализациях блок 210 захвата принимает стереофонический звук, захваченный с использованием различных методов записи/записи при помощи микрофона. Стереофонический звук может быть захвачен, например, оборудованием 108 пользователя, ноутбуком 114, системой 118 помещения для переговоров и домашним кинотеатром 120. В одном примере стереофонический звук захватывается двумя направленными микрофонами в том же месте, размещенными под углом приблизительно девяносто градусов или больше. Стереофонический эффект достигается в результате разниц уровней между каналами. В другом примере стереофонический звук захватывают двумя смещенными в пространстве микрофонами. В некоторых реализациях смещенные в пространстве микрофоны являются всенаправленными микрофонами. Стереофонический эффект в этой конфигурации достигается в результате разницы уровней между каналами и разницы во времени между каналами. Расстояние между микрофонами имеет значительное влияние на воспринимаемую стереофоническую полосу. В еще одном примере звук захватывают при помощи двух направленных микрофонов со смещением семнадцать сантиметров и углом между ними сто десять градусов. Эту систему часто называют стереофонической микрофонной системой Office de Radiodiffusion Télévision
Figure 00000001
(«ORTF»). Еще одна система стереофонического захвата содержит два микрофона с разными характеристиками, которые расположены так, что сигнал одного микрофона является средним сигналом и другой является побочным сигналом. Это расположение часто называют центрально-боковой (M/S) записью. Стереофонический эффект сигналов от M/S строится обычно на разницах уровней между каналами.
В некоторых реализациях блок 210 захвата принимает звук, захваченный с использованием многомикрофонных методов. В этих реализациях захват звука включает расположение трех или более микрофонов. Это расположение в общем требуется для захвата пространственного звука и может также быть эффективным для осуществления подавления шумов окружающей среды. При увеличении количества микрофонов количество подробностей сцены в пространстве, которые могут быть захвачены микрофонами, также увеличивается. В некоторых примерах точность захваченной сцены также улучшается, когда количество микрофонов увеличивают. Например, различное оборудование пользователя (UE), изображенное на фиг. 1, которое работает в бесконтактном режиме, может использовать множество микрофонов для создания монофонического, стереофонического или пространственного звукового сигнала. Более того, открытый портативный компьютер 114 с множеством микрофонов может быть использован для осуществления стереофонического захвата. Некоторые производители выпускают портативные компьютеры с количеством микрофонов с микроэлектромеханическими системами («MEMS»), позволяющих осуществлять стереофонический захват, от двух до четырех. Многомикрофонный захват звука с эффектом присутствия может быть реализован, например, оборудованием 216 пользователя помещения для переговоров.
Захваченный звук в целом проходит стадию предварительной обработки перед получением голосовым или звуковым кодеком. Таким образом, блок 220 предварительной обработки звука принимает звуковой сигнал от блока 210 захвата. В некоторых реализациях блок 220 предварительной обработки звука осуществляет обработку по подавлению шумов и компенсации эха, понижающее и повышающее микширование каналов (например, уменьшение или увеличение количества каналов звука) и/или любой вид пространственной обработки. Выходной звуковой сигнал блока 220 предварительной обработки звука в целом подходит для кодирования и передачи другим устройствам. В некоторых реализациях конкретная конструкция блока 220 предварительной обработки звука осуществляется производителем устройства, поскольку она зависит от особенностей захвата звука конкретным устройством. Однако требования, установленные характеристиками подходящего акустического интерфейса, могут устанавливать ограничения для этих конструкций и обеспечивать соответствие определенным требованиям к качеству. Предварительную обработку звука осуществляют с целью создания одного или более разных видов звуковых сигналов или форматов ввода звука, которые поддерживает кодек IVAS, для обеспечения различных случаев целевого использования или уровней услуги IVAS. В зависимости от конкретных требований к услуге IVAS, связанных с этими случаями использования, может потребоваться, чтобы кодек IVAS поддерживал монофонический, стереофонический и пространственный форматы.
В общем, монофонический формат используют, когда он является единственным доступным форматом, например, на основе типа устройства захвата, например, если функциональные возможности захвата передающего устройства ограничены. Для стереофонических звуковых сигналов блок 220 предварительной обработки звука преобразует захваченные сигналы в нормализованное представление, соответствующее конкретным правилам (например, правилу порядка каналов «слева направо»). Для M/S стереофонического захвата этот процесс может включать, например, матричную операцию, так что сигнал представляется с использованием правила «слева направо». После предварительной обработки стереофонический сигнал соответствует определенным правилам (например, правилу «слева направо»). Однако информация о конкретных устройствах стереофонического захвата (например, количестве микрофонов и конфигурации) удаляется.
Для пространственных форматов вид пространственных входных сигналов или конкретных пространственных форматов звука, полученных после предварительной обработки звука, может зависеть от типа передающего устройства и его функциональных возможностей для захвата звука. В то же время пространственные форматы звука, которые могут быть предусмотрены в требованиях к услуге IVAS, включают пространственный формат низкого разрешения, пространственный формат высокого разрешения, формат пространственного звука, сопровождаемого метаданными (MASA), и формат амбиофонии высшего порядка («HOA») для передачи (HTF) или даже дополнительные пространственные форматы звука. Блок 220 предварительной обработки звука передающего устройства с функциональными возможностями пространственного звука, таким образом, должен быть подготовлен для обеспечения пространственного звукового сигнала в надлежащем формате, соответствующем этим требованиям.
Пространственные форматы низкого разрешения включают пространственный формат WXY, формат амбиофонии первого порядка («FOA») и другие форматы. Пространственный формат WXY относится к представлению звука в трехканальном плоском B-формате первого порядка c пропущенной составляющей высоты (Z). Этот формат используется для сценариев телефонной связи с эффективной битовой скоростью с эффектом присутствия и конференц-связи с эффектом присутствия, где требования к пространственному разрешению не очень высоки, и где пространственную составляющую высоты можно считать незначительной. Формат особенно полезен для конференц-телефонов, так как он позволяет принимающим клиентам осуществлять рендеринг с эффектом присутствия сцены конференц-связи, захваченной в помещении для переговоров с множеством участников. Подобным образом, формат используют для серверов конференц-связи, которые пространственно располагают участников конференц-связи в виртуальной переговорной комнате. В отличие от этого, FOA содержит составляющую высоты (Z) в качестве сигнала 4-й составляющей. Представления FOA значимы для применений VR с низкой скоростью передачи.
Пространственные форматы высокого разрешения включают пространственные форматы, основанные на каналах, объектах и сцене. В зависимости от количества включенных сигналов звуковых составляющих, каждый из этих форматов позволяет представлять пространственный звук с фактически неограниченным разрешением. По различным причинам (например, ограничения битовой скорости и ограничения сложности), однако, существуют практические ограничения относительно небольшим количеством сигналов составляющих (например, двенадцати). Дополнительные пространственные форматы включают форматы MASA или HTF или могут основываться на них.
Необходимость в устройстве, которое поддерживает IVAS для поддержки большого количества и разнообразия форматов ввода звука, описанных выше, может привести к существенным затратам с точки зрения сложности, занимаемой памяти, испытания реализации и технического обслуживания. Однако не все устройства обладают функциональной возможностью поддержки всех форматов звука или извлечения пользы из этого. Например, могут существовать устройства с реализованными IVAS, которые поддерживают только стереофонический захват, но не поддерживают пространственный захват. Другие устройства могут поддерживать только пространственный ввод низкого разрешения, тогда как дополнительный класс устройств может поддерживать только захват HOA. Таким образом, разные устройства используют только определенные подмножества форматов звука. Следовательно, если бы кодек IVAS должен был поддерживать прямое кодирование всех форматов звука, кодек IVAS стал бы излишне сложным и дорогим.
Для решения этой проблемы система 200, показанная на фиг. 2A, содержит блок 230 упрощения. Блок 220 предварительной обработки звука передает звуковой сигнал блоку 130 упрощения. В некоторых реализациях блок 220 предварительной обработки звука генерирует звуковые метаданные, которые передаются блоку 230 упрощения вместе со звуковым сигналом. Звуковые метаданные могут содержать данные относящиеся к звуковому сигналу (например, метаданные формата, например, монофонические, стереофонические, пространственные). Звуковые метаданные могут также содержать данные подавления шумов и другие подходящие данные, например, относящиеся к физическим или геометрическим свойствам блока 210 захвата.
Блок 230 упрощения преобразует различные форматы ввода, поддерживаемые устройством, в уменьшенный общий набор форматов получения кодеков. Например, кодек IVAS может поддерживать три формата получения: монофонический, стереофонический и пространственный. В то время как монофонический и стереофонический форматы подобны или идентичны соответствующим форматам, которые создает блок предварительной обработки звука, пространственный формат может быть «промежуточным» форматом. Промежуточный формат является форматом, который может точно представлять любой пространственный звуковой сигнал, полученный от блока 220 предварительной обработки звука и описанный выше. Это включает пространственный звук, представленный в любом формате, основанном на каналах, объектах и сценах (или их сочетании). В некоторых реализациях промежуточный формат может представлять звуковой сигнал в виде некоторого количества объектов в звуковой сцене и некоторого количества каналов для передачи пространственной информации для этой звуковой сцены. Кроме того, промежуточный формат может представлять MASA, HTF или другие пространственные форматы звука. Один подходящий пространственный промежуточный формат может представлять пространственный звук в виде m объектов и HOA-представления n-го порядка («mObj+HOAn»), где m и n являются малыми целыми числами, включая ноль.
Процесс 300, показанный на фиг. 3, иллюстрирует примерные действия для преобразования звуковых данных из первого формата во второй формат. На этапе 302 блок 230 упрощения принимает звуковой сигнал, например, от блока 220 предварительной обработки звука. Как описано выше, звуковой сигнал, принятый от блока 220 предварительной обработки звука, может быть сигналом, прошедшим обработку по подавлению шумов и компенсации эха, а также прошедшим обработку понижающего и повышающего микширования каналов, например, уменьшения или увеличения количества каналов звука. В некоторых реализациях блок 230 упрощения принимает звуковые метаданные вместе со звуковым сигналом. Звуковые метаданные могут содержать указание формата и другую информацию, как описано выше.
На этапе 304 блок упрощения 230 определяет, находится ли звуковой сигнал в первом формате, который поддерживается или не поддерживается блоком 240 кодирования звукового устройства. Например, блок 232 определения формата звука, как показано на фиг. 2A, может анализировать звуковой сигнал, принятый от блока 220 предварительной обработки звука, и идентифицировать формат звукового сигнала. Если блок 232 определения формата звука определяет, что звуковой сигнал находится в монофоническом формате или стереофоническом формате, блок 230 упрощения передает сигнал блоку 240 кодирования. Однако, если блок 232 определения формата звука определяет, что сигнал находится в пространственном формате, блок 232 определения формата звука передает звуковой сигнал блоку 234 преобразования. В некоторых реализациях блок 232 определения формата звука может использовать звуковые метаданные для определения формата звукового сигнала.
В некоторых реализациях блок 230 упрощения определяет, находится ли звуковой сигнал в первом формате, посредством определения количества, конфигурации или положения устройств захвата звука (например, микрофонов), используемых для захвата звукового сигнала. Например, если блок 232 определения формата звука определяет, что звуковой сигнал захвачен одним устройством захвата (например, одним микрофоном), блок 232 определения формата звука может определить, что это монофонический сигнал. Если блок 232 определения формата звука определяет, что звуковой сигнал захвачен двумя устройствами захвата под конкретным углом относительно друг друга, блок 232 определения формата звука может определить, что сигнал является стереофоническим сигналом.
На фиг. 4 показана схема последовательности примерных действий для определения, находится ли звуковой сигнал в формате, поддерживаемом блоком кодирования, в соответствии с некоторыми вариантами осуществления настоящего изобретения. На этапе 402 блок 230 упрощения получает доступ к звуковому сигналу. Например, блок 232 определения формата звука может принимать звуковой сигнал как ввод. На этапе 404 блок 230 упрощения определяет конфигурацию захвата звука звукового устройства, например, количество микрофонов и их конфигурацию положения, используемую для захвата звукового сигнала. Например, блок 232 определения формата звука может анализировать звуковой сигнал и определять, что три микрофона расположены в разных местах в пространстве. В некоторых реализациях блок 232 определения формата звука может использовать звуковые метаданные для определения конфигурации захвата звука. То есть блок 220 предварительной обработки звука может создавать звуковые метаданные, которые указывают положение каждого устройства захвата и количество устройств захвата. Метаданные могут также содержать описания обнаруженных свойств звука, таких как направление или направленность источника звука. На этапе 406 блок 230 упрощения сравнивает конфигурацию захвата звука с одной или более сохраненными конфигурациями захвата звука. Например, сохраненные конфигурации захвата звука могут содержать некоторое количество микрофонов и положение каждого микрофона для идентификации конкретной конфигурации (например, монофонической, стереофонической или пространственной). Блок 230 упрощения сравнивает каждую из этих конфигураций захвата звука с конфигурацией захвата звука звукового сигнала.
На этапе 408 блок 230 упрощения определяет, соответствует ли конфигурация захвата звука сохраненной конфигурации захвата звука, связанной с пространственным форматом. Например, блок 230 упрощения может определить количество микрофонов, используемых для захвата звукового сигнала, и их места в пространстве. Блок 230 упрощения может сравнить эти данные с сохраненными известными конфигурациями для пространственных форматов. Если блок 230 упрощения определяет, что нет соответствия с пространственным форматом, что может быть указанием на то, что формат звука является монофоническим или стереофоническим, процесс 400 переходит на этап 412, где блок 230 упрощения передает звуковой сигнал блоку 240 кодирования. Однако, если блок 230 упрощения идентифицирует формат звука как принадлежащий набору пространственных форматов, процесс 400 переходит на этап 410, где блок 230 упрощения преобразует звуковой сигнал в промежуточный формат.
Снова, со ссылкой на фиг. 3, на этапе 306 блок 230 упрощения в соответствии с определением того, что звуковой сигнал находится в формате, который не поддерживается блоком кодирования, преобразует звуковой сигнал во второй формат, который поддерживается блоком кодирования. Например, блок 234 преобразования может преобразовать звуковой сигнал в промежуточный формат. Промежуточный формат точно представляет пространственный звуковой сигнал, первоначально представленный в любом формате, основанном на каналах, объектах и сценах (или их сочетании). Кроме того, промежуточный формат может представлять MASA, HTF или другой подходящий формат. Например, формат, который может служить в качестве пространственного промежуточного формата, может представлять звук в виде m объектов и HOA-представления n-ого порядка («mObj+HOAn»), где m и n являются малыми целыми числами, включая ноль. Промежуточный формат может, таким образом, заключаться в представлении звука колебаниями (сигналами) и метаданными, которые могут захватывать явные свойства звукового сигнала.
В некоторых реализациях блок 234 преобразования, при преобразовании звукового сигнала во второй формат, генерирует метаданные для звукового сигнала. Метаданные могут быть связаны с частью звукового сигнала во втором формате, например, метаданными объекта, содержащими положения одного или более объектов. Другим примером является случай, когда звук захвачен с использованием специализированного набора устройств захвата и когда количество и конфигурация устройств не поддерживаются или неэффективно представляются блоком кодирования и/или промежуточным форматом. В таких случаях блок 234 преобразования может генерировать метаданные. Метаданные могут содержать по меньшей мере одни из метаданных преобразования или звуковых метаданных. Метаданные преобразования могут содержать подмножество метаданных, связанное с частью формата, который не поддерживается процессом кодирования и/или промежуточным форматом. Например, метаданные преобразования могут содержать установки устройства для конфигурации захвата (например, микрофона) и/или установки устройства для конфигурации устройства вывода (например, динамика), когда звуковой сигнал воспроизводят в системе, которая выполнена с возможностью вывода, в частности, звука, захваченного благодаря специализированной конфигурации. Метаданные, происходящие или из блока 220 предварительной обработки звука и/или блока 234 преобразования, могут также содержать звуковые метаданные, которые описывают определенные свойства звукового сигнала, такие как пространственное направление, с которого захваченный звук поступает, направленность или диффузность звука. В этом примере может существовать определение того, что звук является пространственным в пространственном формате, хотя представлен как монофонический или стереофонический сигнал с дополнительными метаданными. В этом случае монофонический или стереофонический сигналы и метаданные передаются кодеру 240.
На этапе 308 блок 230 упрощения передает звуковой сигнал во втором формате блоку кодирования. Как проиллюстрировано на фиг. 2A, если блок 232 определения формата звука определяет, что звук находится в монофоническом или стереофоническом формате, блок 232 определения формата звука передает звуковой сигнал блоку кодирования. Однако, если блок 232 определения формата звука определяет, что звуковой сигнал находится в пространственном формате, блок 232 определения формата звука передает звуковой сигнал блоку 234 преобразования. Блок 234 преобразования, после преобразования пространственного звука в, например, промежуточный формат, передает звуковой сигнал блоку 240 кодирования. В некоторых реализациях блок 234 преобразования передает метаданные преобразования и звуковые метаданные, в дополнение к звуковому сигналу, блоку 240 кодирования.
Блок 240 кодирования принимает звуковой сигнал во втором формате (например, промежуточном формате) и кодирует звуковой сигнал во втором формате в формат для передачи. Блок 240 кодирования передает кодированный звуковой сигнал некоторому посылающему логическому объекту, который передает его второму устройству. В некоторых реализациях блок 240 кодирования или последующий объект сохраняет кодированный звуковой сигнал для последующей передачи. Блок 240 кодирования может принимать звуковой сигнал в монофоническом, стереофоническом или промежуточном формате и кодировать эти сигналы для передачи звука. Если звуковой сигнал находится в промежуточном формате, и блок кодирования принимает метаданные преобразования и/или звуковые метаданные от блока 230 упрощения, блок кодирования передает метаданные преобразования и/или звуковые метаданные второму устройству. В некоторых реализациях блок 240 кодирования кодирует метаданные преобразования и/или звуковые метаданные в конкретный сигнал, который второе устройство может принимать и декодировать. Блок кодирования затем выдает кодированный звуковой сигнал для передачи звука одному или более другим устройствам. Таким образом, каждое устройство (например, из устройств, показанных на фиг. 1) может кодировать звуковой сигнал во второй формат (например, промежуточный формат), но устройства в общем не могут кодировать звуковой сигнал в первом формате.
В варианте осуществления блок 240 кодирования (например, ранее описанный кодек IVAS) работает с монофоническими, стереофоническими или пространственными звуковыми сигналами, обеспеченными стадией упрощения. Кодирование осуществляется в зависимости от выбора режима кодека, который может быть основан на одном или более из обсуждаемого уровня услуги IVAS, функциональных возможностей устройства стороны передачи и приема и доступной битовой скорости.
Уровень услуги может, например, включать стереофоническую телефонную связь IVAS, конференц-связь с эффектом присутствия IVAS, инициируемую пользователем потоковую VR-передачу IVAS или другой подходящий уровень обслуживания. Определенный формат звука (монофонический, стереофонический, пространственный) может быть назначен конкретному уровню услуги IVAS, для которого выбирают подходящий режим работы кодека IVAS.
Более того, режим работы кодека IVAS может быть выбран в ответ на функциональные возможности устройства стороны передачи и приема. Например, в зависимости от функциональных возможностей устройства передачи, блок 240 кодирования может быть не в состоянии получить доступ к пространственному сигналу получения, например, поскольку блок 240 кодирования обеспечен только монофоническим или стереофоническим сигналом. Кроме того, обмен информацией о функциональных возможностях между концами или соответствующий запрос режима кодека может указывать на то, что принимающий конец имеет определенные ограничения по рендерингу, что делает необязательным кодирование и передачу пространственного звукового сигнала или наоборот. В другом примере другое устройство может запрашивать пространственный звук.
В некоторых реализациях обмен информацией о функциональных возможностях между концами не может полностью определить функциональные возможности удаленного устройства. Например, точка кодирования может не иметь информации о том, является ли блок декодирования, иногда называемый декодером, одним монофоническим динамиком, стереофоническими динамиками, или осуществляется ли бинауральный рендеринг. Фактический сценарий рендеринга может изменяться во время сеанса обслуживания. Например, сценарий рендеринга может измениться, если изменится подключенное оборудование для воспроизведения. В примере может не осуществляться обмен информацией о функциональных возможностях между концами, поскольку приемник не подключен во время сеанса кодирования IVAS. Это может происходить для услуги голосовой почты или в (инициируемых пользователем) услугах потоковой передачи содержимого виртуальной реальности. Другим примером, в котором функциональные возможности принимающего устройства неизвестны или не могут быть определены вследствие неоднозначностей, является один кодер, которому необходимо поддерживать множество оконечных устройств. Например, в случае конференц-связи IVAS или распространении содержимого виртуальной реальности одно оконечное устройство может использовать гарнитуру, и другое оконечное устройство может осуществлять рендеринг на стереофонические динамики.
Одним способом решения этой проблемы является допущение наименее вероятной функциональной возможности принимающего устройства и выбор соответствующего режима работы кодека IVAS, который в определенных случаях может быть монофоническим. Другим способом решения этой проблемы является требование того, чтобы декодер IVAS, даже если кодер работает в режиме, поддерживающем пространственный или стереофонический звук, вывел декодированный звуковой сигнал, рендеринг которого может быть осуществлен на устройствах с соответственно более низкими функциональными возможностями по воспроизведению звука. То есть сигнал, кодированный как пространственный звуковой сигнал, должен также быть декодируемым для осуществления как стереофонического, так и монофонического рендеринга. Подобным образом, сигнал, кодированный как стереофонический, должен также быть декодируемым для осуществления монофонического рендеринга.
Например, в случае конференц-связи IVAS серверу обработки вызовов необходимо только осуществлять одно кодирование и передавать один и тот же результат кодирования множеству оконечных устройств, некоторые из которых могут быть бинауральными, и некоторые из которых могут быть стереофоническими. Таким образом, одно двухканальное кодирование может поддерживать как рендеринг на, например, ноутбуке 114 и системе 118 помещения для переговоров со стереофоническими динамиками, так и рендеринг с эффектом присутствия с бинауральным представлением на устройстве 110 пользователя и оборудовании 122 виртуальной реальности. Таким образом, одно кодирование может поддерживать оба результата одновременно. В итоге, одним последствием является то, что двухканальное кодирование поддерживает как проигрывание через стереофонический динамик, так и проигрывание с бинауральным рендерингом при помощи одного кодирования.
Другой пример включает извлечение высококачественного монофонического сигнала. Система может поддерживать извлечение высококачественного монофонического сигнала из кодированного пространственного или стереофонического звукового сигнала. В некоторых реализациях возможно извлечь битовый поток кодека улучшенных голосовых услуг («EVS») для монофонического декодирования, например, с использованием стандартного декодера EVS.
В качестве альтернативы или в дополнение к уровню услуги и функциональным возможностям устройства доступная битовая скорость является другим параметром, который может регулировать выбор режима кодека. В некоторых реализациях битовая скорость требует увеличения с качеством восприятия, которое может быть предложено на принимающем конце, и со связанным количеством составляющих звукового сигнала. При самых низких конечных битовых скоростях возможен только рендеринг монофонического звука. Кодек EVS предлагает работу в монофоническом режиме со скоростью передачи данных вплоть до 5,9 килобита в секунду. При увеличении битовой скорости может быть достигнуто более высокое качество услуги. Однако качество кодирования («QoE») остается ограниченным вследствие работы и рендеринга только в монофоническом режиме. Следующий более высокий уровень QoE возможен при использовании (обычного) двухканального стереофонического сигнала. Однако система требует более высокой битовой скорости, чем самая низкая битовая скорость в монофоническом режиме, чтобы предложить достаточное качество, поскольку теперь существуют две составляющих звукового сигнала для передачи. Пространственное восприятие звука требует более высокого QoE, чем стереофонического. На самом нижнем конце диапазона битовой скорости это восприятие может быть осуществлено при помощи бинаурального представления пространственного сигнала, которое может называться «пространственной стереофонией». Пространственная стереофония основана на бинауральном предварительном рендеринге (с подходящими функциями моделирования восприятия звука («HRTF»)) приема пространственного звукового сигнала кодером (например, блоком 240 кодирования) и вероятно наиболее компактном пространственном представлении, поскольку оно состоит из только двух сигналов звуковых составляющих. Поскольку пространственное стереофоническое представление несет больше воспринимаемой информации, битовая скорость, требуемая для достижения достаточного качества, вероятно выше, чем необходимая битовая скорость для обычного стереофонического сигнала. Однако пространственное стереофоническое представление может иметь ограничения в отношении индивидуальной настройки рендеринга на принимающем конце. Эти ограничения могут включать ограничения на рендеринг для наушников, на использование предварительно выбранного набора HRTF или на рендеринг без слежения за положением головы. Даже более высокое QoE при более высоких битовых скоростях реализуется при помощи режима кодека для кодирования звукового сигнала в пространственный формат, который не зависит от бинаурального предварительного рендеринга в кодере и скорее представляет полученный пространственный промежуточный формат. В зависимости от битовой скорости может быть настроено количество представленных сигналов звуковых составляющих этого формата. Например, это может привести к более или менее сильному пространственному представлению в диапазоне от пространственных форматов WXY звука до пространственных форматов звука высокого разрешения, как описано выше. Это позволяет использовать пространственное разрешение от низкого до высокого в зависимости от доступной битовой скорости и предлагает гибкость для использования с большим диапазоном сценариев рендеринга, включая бинауральный со слежением за положением головы. Этот режим называют «универсальным пространственным» режимом.
В некоторых реализациях кодек IVAS работает при битовых скоростях кодека EVS, то есть в диапазоне от 5,9 до 128 килобит в секунду. Для работы в стереофоническом режиме с низкой скоростью передачи при передаче в средах с ограниченной шириной полосы могут потребоваться битовой скорости вплоть до 13,2 кбит/с. Это требование может быть технически осуществимо с использованием конкретного кодека IVAS и, кроме того, возможно обеспечит привлекательную работу услуги IVAS. Для работы в пространственном стереофоническом режиме с низкой скоростью передачи при передаче в средах с ограниченной шириной полосы самые низкие битовые скорости, обеспечивающие пространственный рендеринг и одновременный стереофонический рендеринг, могут быть возможны вплоть до 24,4 килобита в секунду. Для работы в универсальном пространственном режиме низкое пространственное разрешение (пространственный формат WXY, формат FOA) вероятно возможно вплоть до скоростей 24,4 килобита в секунду, при которых, однако, может быть достигнуто качество звука, как при использовании пространственного стереофонического режима работы.
Теперь, со ссылкой на фиг. 2B, принимающее устройство принимает транспортный поток звука, который содержит кодированный звуковой сигнал. Блок 250 декодирования принимающего устройства принимает кодированный звуковой сигнал (например, в формате для передачи как кодированный кодером) и декодирует его. В некоторых реализациях блок 250 декодирования принимает звуковой сигнал, кодированный в одном из четырех режимов: монофоническом, (обычном) стереофоническом, пространственном стереофоническом или универсальном пространственном. Блок 250 декодирования передает звуковой сигнал блоку 260 рендеринга. Блок 260 рендеринга принимает звуковой сигнал от блока 250 декодирования для рендеринга звукового сигнала. Следует отметить, что в общем нет необходимости восстанавливать исходный первый пространственный формат звука, полученный в блоке 230 упрощения. Это обеспечивает значительную экономию в сложности декодера и/или занимаемой памяти реализации декодера IVAS.
На фиг. 5 показана схема последовательности примерных действий для преобразования звукового сигнала в доступный формат воспроизведения в соответствии с некоторыми вариантами осуществления настоящего изобретения. На этапе 502 блок 260 рендеринга принимает звуковой сигнал в первом формате. Например, блок 260 рендеринга может принимать звуковой сигнал в следующих форматах: монофонический, обычный стереофонический, пространственный стереофонический, универсальный пространственный. В некоторых реализациях блок 262 выбора режима принимает звуковой сигнал. Блок 262 выбора режима идентифицирует формат звукового сигнала. Если блок 262 выбора режима определяет, что формат звукового сигнала поддерживает конфигурация воспроизведения, блок 262 выбора режима передает звуковой сигнал устройству 264 рендеринга. Однако, если блок выбора режима определяет, что звуковой сигнал не поддерживается, блок выбора режима осуществляет дальнейшую обработку. В некоторых реализациях блок 262 выбора режима выбирает другой блок декодирования.
На этапе 504 блок 260 рендеринга определяет, может ли звуковое устройство воспроизводить звуковой сигнал во втором формате, который поддерживает конфигурация воспроизведения. Например, блок 260 рендеринга может определять (например, на основе количества динамиков и/или других устройств вывода и их конфигурации и/или метаданных, связанных с декодируемым звуком), что звуковой сигнал находится в пространственном стереофонического формате, но звуковое устройство может воспроизводить принятый звук только в монофоническом режиме. В некоторых реализациях не все устройства в системе (например, как проиллюстрировано на фиг. 1) могут воспроизводить звуковой сигнал в первом формате, но все устройства могут воспроизводить звуковой сигнал во втором формате.
На этапе 506 блок 260 рендеринга на основе определения того, что устройство вывода может воспроизводить звуковой сигнал во втором формате, адаптирует декодирование звука для получения сигнала во втором формате. В качестве альтернативы, блок 260 рендеринга (например, блок 262 выбора режима или устройство 264 рендеринга) может использовать метаданные, например, звуковые метаданные, метаданные преобразования или сочетание звуковых метаданных и метаданных преобразования, для модификации звукового сигнала во второй формат. На этапе 508 блок 260 рендеринга передает звуковой сигнал или в поддерживаемом первом формате, или в поддерживаемом втором формате для вывода звука (например, драйверу, который взаимодействует с системой динамиков).
В некоторых реализациях блок 260 рендеринга преобразует звуковой сигнал во второй формат, используя метаданные, которые содержат представление части звукового сигнала, не поддерживаемой вторым форматом, в сочетании со звуковым сигналом в первом формате. Например, если звуковой сигнал принимается в монофоническом формате и метаданные содержат информацию пространственного формата, блок рендеринга может преобразовать звуковой сигнал в монофоническом формате в пространственный формат, используя метаданные.
На фиг. 6 показана другая блок-схема примерных действий для преобразования звукового сигнала в доступный формат воспроизведения в соответствии с некоторыми вариантами осуществления настоящего изобретения. На этапе 602 блок 260 рендеринга принимает звуковой сигнал в первом формате. Например, блок 260 рендеринга может принимать звуковой сигнал в монофоническом, обычном стереофоническом, пространственном стереофоническом или универсальном пространственном формате. В некоторых реализациях блок 262 выбора режима принимает звуковой сигнал. На этапе 604 блок 260 рендеринга осуществляет поиск и выборку функциональных возможностей вывода звука (например, функциональных возможностей воспроизведения звука) звукового устройства. Например, блок 260 рендеринга может осуществлять поиск и выборку количества динамиков, их конфигурации положения и/или конфигурации других устройств воспроизведения, доступных для воспроизведения. В некоторых реализациях блок 262 выбора режима осуществляет операцию поиска и выборки.
На этапе 606 блок 260 рендеринга сравнивает свойства звука первого формата с функциональными возможностями вывода звукового устройства. Например, блок 262 выбора режима может определять, что звуковой сигнал находится в пространственном стереофоническом формате (например, на основе звуковых метаданных, метаданных преобразования или сочетания звуковых метаданных и метаданных преобразования), и звуковое устройство может воспроизводить звуковой сигнал только в обычном стереофоническом формате через систему стереофонических динамиков (например, на основе динамика и другой конфигурации устройства вывода). Блок 260 рендеринга может сравнивать свойства звука первого формата с функциональными возможностями вывода звукового устройства. На этапе 608 блок 260 рендеринга определяет, соответствуют ли функциональные возможности вывода звукового устройства свойствам вывода звука первого формата. Если функциональные возможности вывода звукового устройства не соответствуют свойствам звука первого формата, процесс 600 переходит на этап 610, на котором блок 260 рендеринга (например, блок 262 выбора режима) осуществляет действия для получения звукового сигнала во втором формате. Например, блок 260 рендеринга может адаптировать блок 250 декодирования для декодирования принятого звука во второй формат, или блок рендеринга может использовать звуковые метаданные, метаданные преобразования или сочетание звуковых метаданных и метаданных преобразования для преобразования звука из пространственного стереофонического формата в поддерживаемый второй формат, который является обычным стереофоническим в приведенном примере. Если функциональные возможности вывода звукового устройства соответствуют свойствам вывода звука первого формата, или после операции 610 преобразования, процесс 600 переходит на этап 612, на котором блок 260 рендеринга (например, используя устройство 264 рендеринга) передает звуковой сигнал, который теперь гарантированно поддерживается, устройству вывода.
На фиг. 7 показана блок-схема примерной системы 700, подходящей для реализации примерных вариантов осуществления настоящего изобретения. Как показано, система 700 содержит центральный процессор (CPU) 701, который может осуществлять различные процессы в соответствии с программой, сохраненной, например, в постоянном запоминающем устройстве (ROM) 702, или программой, загруженной из, например, блока 708 памяти в оперативное запоминающее устройство (RAM) 703. В RAM 703 данные, требуемые при осуществлении CPU 701 различных процессов, также сохраняются, если это необходимо. CPU 701, ROM 702 и RAM 703 соединены друг с другом посредством шины 704. Интерфейс 705 ввода/вывода (I/O) также соединен с шиной 704.
Следующие составляющие соединены с интерфейсом 705 I/O: блок 706 ввода, который может содержать клавиатуру, мышь или т. п.; блок 707 вывода, который может содержать дисплей, такой как жидкокристаллический дисплей (LCD), и один или более динамиков; блок 708 памяти, содержащий жесткий диск или другое подходящее устройство хранения; и блок 709 связи, содержащий сетевую интерфейсную карту, такую как сетевая карта (например, проводная или беспроводная).
В некоторых реализациях блок 706 ввода содержит один или более микрофонов в разных положениях (в зависимости от хост-устройства), обеспечивающих захват звуковых сигналов в различных форматах (например, монофоническом, стереофоническом, пространственном, с эффектом присутствия и других подходящих форматах).
В некоторых реализациях блок 707 вывода содержит системы с различным количеством динамиков. Как проиллюстрировано на фиг. 1, блок 707 вывода (в зависимости от функциональных возможностей хост-устройства) может осуществлять рендеринг звуковых сигналов в различных форматах (например, монофоническом, стереофоническом, с эффектом присутствия, бинауральном и других подходящих форматах).
Блок 709 связи выполнен с возможностью осуществления связи с другими устройствами (например, посредством сети). Накопитель 710 также соединен с интерфейсом 705 I/O, если это необходимо. Сменный носитель 711, такой как магнитный диск, оптический диск, магнитооптический диск, флеш-накопитель или другой подходящий сменный носитель установлен в накопителе 710 так, что компьютерную программу, считанную с него, устанавливают в блок 708 памяти, если это необходимо. Для специалиста в данной области техники понятно, что хотя система 700 описана как содержащая вышеописанные составляющие, в реальных применениях возможно добавить, удалить и/или заменить некоторые из этих составляющих, и все эти модификации или изменения попадают в объем настоящего изобретения.
В соответствии с примерными вариантами осуществления настоящего изобретения процессы, описанные выше, могут быть реализованы как компьютерные программы, реализованные программно, или на машиночитаемом носителе данных. Например, варианты осуществления настоящего изобретения содержат компьютерный программный продукт, содержащий компьютерную программу, материально воплощенную на носителе для машинного считывания, при этом компьютерная программа содержит программный код для осуществления способов. В таких вариантах осуществления, компьютерная программа может быть загружена и установлена из сети посредством блока 709 связи и/или установлена со сменного носителя 711.
В общем, различные примерные варианты осуществления настоящего изобретения могут быть реализованы в аппаратном обеспечении или схемах специального назначения (например, схеме управления), программном обеспечении, логической схеме или любом их сочетании. Например, блок 230 упрощения и другие блоки, описанные выше, могут быть исполнены схемой управления (например, CPU в сочетании с другими составляющими, показанными на фиг. 7), таким образом, схема управления может осуществлять действия, описанные в этом описании. Некоторые аспекты могут быть реализованы посредством аппаратного обеспечения, тогда как другие аспекты могут быть реализованы посредством аппаратно-программного обеспечения или программного обеспечения, которые могут быть исполнены контроллером, микропроцессором или другим вычислительным устройством (например, схемой управления). Тогда как различные аспекты примерных вариантов осуществления настоящего изобретения проиллюстрированы и описаны как блок-схемы, схемы последовательности действий, или используя некоторое другое графическое представление, следует понимать, что блоки, аппарат, системы, методы или способы, описанные в настоящем документе, могут быть реализованы как неограничивающие примеры посредством аппаратного обеспечения, программного обеспечения, аппаратно-программного обеспечения, схем специального назначения или логической схемы, аппаратного обеспечения или контроллера, или других вычислительных устройств общего назначения, или некоторого их сочетания.
Дополнительно различные блоки, показанные в схемах последовательности действий, можно рассматривать как этапы способа и/или как операции, которые являются результатом операции компьютерного программного кода, и/или как множество элементов связанной логической схемы, созданных для осуществления связанной функции (связанных функций). Например, варианты осуществления настоящего изобретения содержат компьютерный программный продукт, содержащий компьютерную программу, материально воплощенную на носителе для машинного считывания, при этом компьютерная программа содержит программные коды, выполненные для осуществления способов, как описано выше.
В контексте настоящего изобретения носитель для машинного считывания может быть любым материальным носителем, который может содержать или сохранять программу для использования системой, аппаратом или устройством для исполнения команд или в сочетании с ними. Носитель для машинного считывания может быть носителем сигналов для машинного считывания или носителем данных для машинного считывания. Носитель для машинного считывания может быть постоянным и может содержать, но без ограничения, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, аппарат или устройство или любое подходящее сочетание вышепредставленного. Более конкретные примеры носителя данных для машинного считывания будут включать электрическое соединение посредством одного или более проводов, портативный компьютерный гибкий диск, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флеш-память), оптическое волокно, портативный компактный диск с памятью только для чтения (CD-ROM), оптическое устройство для хранения данных, магнитное устройство для хранения информации или любую подходящую комбинацию вышепредставленного.
Компьютерный программный код для осуществления способов настоящего изобретения может быть написан на одном или более языках программирования в любом их сочетании. Эти компьютерные программные коды могут быть предоставлены процессору компьютера общего назначения, компьютеру специального назначения или другому программируемому аппарату обработки данных, который имеет схему управления, вследствие чего программные коды при исполнении процессором компьютера или другого программируемого аппарата обработки данных обеспечивают реализацию функций/операций, указанных в схемах последовательности действий и/или блок-схемах. Программный код может быть исполнен полностью на компьютере, частично на компьютере в качестве автономного пакета программного обеспечения, частично на компьютере и частично на удаленном компьютере или полностью на удаленном компьютере или сервере или распределен между одним или более удаленными компьютерами и/или серверами.

Claims (30)

1. Способ кодирования звукового сигнала, включающий:
прием (этап 602) блоком (230) упрощения в передающем устройстве от блока (220) предварительной обработки звука звуковых сигналов во множестве форматов представления звука;
прием (этап 604) блоком (230) упрощения от принимающего устройства атрибутов принимающего устройства, при этом атрибуты содержат указания одного или более форматов звука, поддерживаемых принимающим устройством, при этом один или более форматов звука включают по меньшей мере один из монофонического формата, стереофонического формата или пространственного формата;
преобразование (этап 610) блоком упрощения звуковых сигналов в формат получения, который является альтернативным представлением одного или более форматов звука; и
предоставление блоком упрощения преобразованного звукового сигнала блоку (240) кодирования для обработки в нисходящем направлении,
кодирование блоком кодирования звукового сигнала в формате получения в кодированный звуковой сигнал в формате для передачи, декодируемый принимающим устройством,
при этом каждый из блока предварительной обработки звука, блока упрощения и блока кодирования содержит один или более компьютерных процессоров.
2. Способ по п. 1, отличающийся тем, что дополнительно включает передачу кодированного звукового сигнала на принимающее устройство.
3. Способ по п. 1 или 2, отличающийся тем, что преобразование звукового сигнала в формат получения включает генерирование метаданных для звукового сигнала, при этом метаданные содержат представление части звукового сигнала.
4. Способ по п. 2, отличающийся тем, что дополнительно включает передачу кодированного звукового сигнала посредством передачи метаданных, которые содержат представление части звукового сигнала.
5. Способ по п. 1, отличающийся тем, что формат получения представляет звуковой сигнал в виде некоторого количества звуковых объектов в звуковой сцене, при этом и то, и другое зависит от количества каналов звука для передачи пространственной информации.
6. Способ по п. 5, отличающийся тем, что формат получения дополнительно содержит метаданные для передачи дополнительной части пространственной информации.
7. Способ по любому из предыдущих пунктов, отличающийся тем, что формат получения дополнительно характеризуется обеспечением сравнимой степени качества восприятия.
8. Устройство кодирования звукового сигнала, содержащее один или более компьютерных процессоров; и
один или более постоянных носителей данных, хранящих команды, которые при исполнении одним или более компьютерными процессорами обеспечивают осуществление одним или более компьютерными процессорами операций по любому из пп. 1-7.
9. Система кодирования, содержащая:
оборудование пользователя, выполненное с возможностью захвата звуковых сигналов во множестве форматов представления;
блок предварительной обработки звука, выполненный с возможностью осуществления операций, включающих предварительную обработку звуковых сигналов;
кодер;
и блок упрощения, выполненный с возможностью осуществления операций, включающих:
прием от блока предварительной обработки звука звуковых сигналов;
прием от принимающего устройства атрибутов принимающего устройства, при этом атрибуты содержат указания одного или более форматов звука, поддерживаемых принимающим устройством, при этом один или более форматов звука включают по меньшей мере один из монофонического формата, стереофонического формата или пространственного формата;
преобразование звукового сигнала в формат получения, который является альтернативным представлением одного или более форматов звука; и
передачу звукового сигнала в формате получения кодеру,
при этом кодер выполнен с возможностью осуществления операций, включающих:
кодирование звукового сигнала в формате получения в кодированный звуковой сигнал в формате для передачи, декодируемый принимающим устройством; и
сохранение кодированного звукового сигнала или передачу кодированного звукового сигнала на другое устройство.
10. Система кодирования по п. 9, отличающаяся тем, что преобразование звукового сигнала в формат получения включает генерирование метаданных для звукового сигнала, при этом метаданные содержат представление части звукового сигнала.
11. Система кодирования по п. 10, отличающаяся тем, что операции кодера дополнительно включают передачу кодированного звукового сигнала посредством передачи метаданных, которые содержат представление части звукового сигнала.
12. Система кодирования по п. 10, отличающаяся тем, что формат получения представляет звук звукового сигнала в виде некоторого количества объектов в звуковой сцене и некоторого количества каналов для передачи пространственной информации.
RU2021109480A 2018-10-08 2019-10-07 Преобразование звуковых сигналов, захваченных в разных форматах, в уменьшенное количество форматов для упрощения операций кодирования и декодирования RU2798821C2 (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US62/742,729 2018-10-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2023115266A Division RU2023115266A (ru) 2018-10-08 2019-10-07 Преобразование звуковых сигналов, захваченных в разных форматах, в уменьшенное количество форматов для упрощения операций кодирования и декодирования

Publications (2)

Publication Number Publication Date
RU2021109480A RU2021109480A (ru) 2022-10-06
RU2798821C2 true RU2798821C2 (ru) 2023-06-28

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2449385C2 (ru) * 2007-03-21 2012-04-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Способ и устройство для осуществления преобразования между многоканальными звуковыми форматами
US20140016802A1 (en) * 2012-07-16 2014-01-16 Qualcomm Incorporated Loudspeaker position compensation with 3d-audio hierarchical coding
US20160134988A1 (en) * 2014-11-11 2016-05-12 Google Inc. 3d immersive spatial audio systems and methods
US20180233157A1 (en) * 2015-06-17 2018-08-16 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
WO2018152004A1 (en) * 2017-02-15 2018-08-23 Pcms Holdings, Inc. Contextual filtering for immersive audio

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2449385C2 (ru) * 2007-03-21 2012-04-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Способ и устройство для осуществления преобразования между многоканальными звуковыми форматами
US20140016802A1 (en) * 2012-07-16 2014-01-16 Qualcomm Incorporated Loudspeaker position compensation with 3d-audio hierarchical coding
US20160134988A1 (en) * 2014-11-11 2016-05-12 Google Inc. 3d immersive spatial audio systems and methods
US20180233157A1 (en) * 2015-06-17 2018-08-16 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
WO2018152004A1 (en) * 2017-02-15 2018-08-23 Pcms Holdings, Inc. Contextual filtering for immersive audio

Similar Documents

Publication Publication Date Title
US12014745B2 (en) Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations
CN110770824B (zh) 多流音频译码
WO2019229299A1 (en) Spatial audio parameter merging
US11765536B2 (en) Representing spatial audio by means of an audio signal and associated metadata
CN114600188A (zh) 用于音频编码的装置和方法
EP3948862A1 (en) Audio codec extension
US20230085918A1 (en) Audio Representation and Associated Rendering
RU2798821C2 (ru) Преобразование звуковых сигналов, захваченных в разных форматах, в уменьшенное количество форматов для упрощения операций кодирования и декодирования
KR20230070016A (ko) 공간 오디오 파라미터 인코딩 및 관련 디코딩
JP2024102273A (ja) 異なるフォーマットで捕捉されたオーディオ信号を、エンコードおよびデコード動作を簡単にするために、より少数のフォーマットに変換すること
CN113170270A (zh) 空间音频增强和再现
CN112133316A (zh) 空间音频表示和渲染
WO2024146720A1 (en) Recalibration signaling
WO2023066456A1 (en) Metadata generation within spatial audio