RU2801698C2

RU2801698C2 - Optimizing audio delivery for virtual reality applications

Info

Publication number: RU2801698C2
Application number: RU2022101458A
Authority: RU
Inventors: Адриан МУРТАЗА; Харальд ФУКС; Бернд КЦЕЛЬХАН; Ян ПЛОГСТИС; Маттео АГНЕЛЛИ; Инго ХОФМАНН
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2017-10-12
Filing date: 2022-01-24
Publication date: 2023-08-14

Abstract

FIELD: audio coding.

SUBSTANCE: at least one audio stream and/or one audio element in the audio stream and/or one adaptation set is requested based on at least the current orientation of the user's head and/or user movement data and/or user interaction metadata. At least one scene is associated with at least one set of N audio elements, N≥2, with each audio element associated with a position and/or area in the environment. Said at least one set of N audio elements is provided in at least one high bitrate and/or quality level representation. At least one said set of N audio elements is provided in at least one low bitrate and/or quality level representation, where the at least one representation is obtained by processing N audio elements to obtain a smaller number M of audio elements (M<N), associated with a position or region close to the position or region of the N audio elements. A higher quality representation for the audio elements is requested if the audio elements are more relevant to the user's current virtual position in the scene.

EFFECT: increased efficiency of audio encoding.

50 cl, 19 dwg

Description

В среде виртуальной реальности (VR), или также в средах дополненной реальности (AR) либо смешанной реальности (MR), или в средах панорамного (360 градусов) видео пользователь может визуализировать полный панорамный контент с использованием, например, наголовного дисплея (HMD) и слушать его через наушники (или также через громкоговорители, включая правильное выведение в зависимости от его положения).In a virtual reality (VR) environment, or also in augmented reality (AR) or mixed reality (MR) environments, or in 360 degree video environments, the user can visualize the full panoramic content using, for example, a head-mounted display (HMD) and listen to it through headphones (or also through loudspeakers, including the correct output depending on its position).

В простом варианте использования контент создается таким образом, что в некоторый момент времени воспроизводится только одна аудио/видеосцена (то есть панорамное видео). У аудио/видеосцены постоянное местоположение (например, сфера с пользователем в центре), и пользователь не может перемещаться по сцене, а может только поворачивать голову в различных направлениях (поворот, продольный крен, поперечный крен). В этом случае пользователю воспроизводится разное видео и аудио (отображаются разные поля видимости) на основе ориентации его головы.In a simple use case, content is created in such a way that only one audio/video scene (i.e. 360 video) is played at any given time. The audio/video scene has a fixed location (for example, a sphere with the user in the center), and the user cannot move around the scene, but can only turn their head in different directions (turn, roll, roll). In this case, different video and audio are played to the user (different fields of view are displayed) based on the orientation of their head.

Контент для аудио одинаков для всей сцены, тогда как контент для видео доставляется для всей панорамной сцены вместе с метаданными для описания процесса выведения (например, информация о сшивке, проекционное наложение и т.п.) и выбирается на основе текущего поля видимости пользователя. На основе метаданных аудиоконтент приспосабливается к текущему полю видимости пользователя (например, аудиообъект выводится по-разному на основе информации о поле видимости/ориентации пользователя). Следует отметить, что панорамный контент относится к любому типу контента, который содержит больше одного угла обзора в один и тот же момент времени, из которых пользователь может выбирать (например, с помощью ориентации головы или с использованием устройства дистанционного управления).The content for audio is the same for the entire scene, while the content for video is delivered for the entire panoramic scene, along with metadata to describe the inference process (eg, stitching information, projection overlay, etc.) and is selected based on the user's current field of view. Based on the metadata, the audio content adapts to the user's current field of view (eg, the audio object is rendered differently based on the user's field of view/orientation information). It should be noted that panoramic content refers to any type of content that contains more than one viewing angle at the same time, from which the user can choose (for example, using head orientation or using a remote control device).

В более сложном сценарии, когда пользователь может перемещаться по VR-сцене или "перепрыгивать" от одной сцены к следующей, аудиоконтент также мог бы меняться (например, аудиоисточники, которые не слышны в одной сцене, можно услышать в следующей сцене - "дверь открывается"). В существующих системах законченные аудиосцены могут кодироваться в один поток и, при необходимости, в дополнительные потоки (зависимые от главного потока). Такие системы известны как аудиосистемы следующего поколения (например, MPEG-H 3D Audio). Примеры таких вариантов использования могут содержать:In a more complex scenario, where the user can move around the VR scene or "jump" from one scene to the next, the audio content could also change (for example, audio sources that are not heard in one scene can be heard in the next scene - "door opens" ). In existing systems, complete audio scenes can be encoded into one stream and, if necessary, into additional streams (depending on the main stream). Such systems are known as next generation audio systems (eg MPEG-H 3D Audio). Examples of such use cases might include:

Пример 1: пользователь выбирает вход в новую комнату, и меняется вся аудио/видеосцена;Example 1: The user selects the entrance to a new room and the entire audio/video scene changes;

Пример 2: пользователь перемещается по VR-сцене, открывает дверь и проходит в нее, что предполагает необходимый переход аудио от одной сцены к следующей сцене.Example 2: The user navigates through a VR scene, opens a door, and walks through it, which implies the necessary audio transition from one scene to the next scene.

С целью описания этого сценария предлагается идея "дискретных точек наблюдения в пространстве" в качестве дискретного местоположения в пространстве (или в VR-среде), для которых доступен разный аудио/видеоконтент.In order to describe this scenario, the idea of "discrete viewpoints in space" is proposed as a discrete location in space (or in a VR environment) for which different audio/video content is available.

Решение "в лоб" состоит в наличии кодера в реальном масштабе времени, который меняет кодирование (число аудиоэлементов, пространственную информацию и т. д.) на основе обратной связи касательно положения/ориентации пользователя от воспроизводящего устройства. Это решение, например, в среде потоковой передачи подразумевало бы очень сложную связь между клиентом и сервером:The head-on solution is to have a real-time encoder that changes the encoding (number of audio elements, spatial information, etc.) based on user position/orientation feedback from the playback device. This solution, for example in a streaming environment, would imply a very complex communication between client and server:

- клиенту (который обычно предполагают использующим только простую логику) потребовались бы продвинутые механизмы для передачи не только запросов разных потоков, но также сложной информации о подробностях кодирования, которая обеспечила бы обработку правильного контента на основе положения пользователя;- the client (which is usually assumed to use only simple logic) would need advanced mechanisms to convey not only requests from different streams, but also complex information about the details of the encoding, which would ensure that the correct content is processed based on the position of the user;

- медиа-сервер обычно заранее заполняется разными потоками (форматированными определенным образом, что допускает "посегментную" доставку), и основная функция сервера - предоставлять информацию о доступных потоках и порождать их доставку при запросе. Чтобы обеспечить сценарии, которые допускают кодирование на основе обратной связи от воспроизводящего устройства, медиа-серверу потребовались бы развитые линии связи с несколькими медиа-кодерами прямого эфира и способность оперативно создавать всю сигнальную информацию (например, Описание представления мультимедиа), которая могла бы меняться в реальном масштабе времени.- the media server is usually pre-populated with different streams (formatted in a certain way to allow "hop by hop" delivery), and the main function of the server is to provide information about the available streams and generate their delivery when requested. To provide scenarios that allow encoding based on playback device feedback, a media server would need advanced links to multiple live media encoders and the ability to rapidly generate all signaling information (e.g., Media Presentation Description) that could change over time. real time.

Хотя и можно представить себе такую систему, ее сложность и вычислительные требования выходят за функциональные возможности и особенности оборудования и доступных сегодня систем или даже тех, что будут разработаны в следующих десятилетиях.While such a system is conceivable, its complexity and computational requirements are beyond the functionality and features of the hardware and systems available today, or even those that will be developed in the coming decades.

В качестве альтернативы всегда можно доставлять контент, представляющий собой законченную VR-среду ("совершенный мир"). Это решило бы проблему, но потребовало бы гигантской скорости передачи битов (битрейта), которая превышает пропускную способность доступных линий связи.Alternatively, it is always possible to deliver content that is a complete VR environment ("perfect world"). This would solve the problem, but would require a gigantic bit rate (bitrate) that exceeds the bandwidth of the available communication lines.

Это сложно для среды в реальном масштабе времени, и чтобы обеспечить такие варианты использования с использованием доступных систем, предлагаются альтернативные решения, которые обеспечивают эти функциональные возможности при низкой сложности.This is difficult in a real-time environment, and in order to provide such use cases using available systems, alternative solutions are provided that provide this functionality at low complexity.

Терминология и определенияTerminology and definitions

В данной области техники используется следующая терминология:The following terminology is used in the art:

- аудиоэлементы: аудиосигналы, которые можно представить, например, в виде аудиообъектов, аудиоканалов, сценового аудио (амбиофония высшего порядка - HOA) или любого их сочетания;- audio elements : audio signals that can be represented, for example, as audio objects, audio channels, stage audio (higher order ambiophony - HOA) or any combination thereof;

- видимая область (ROI): одна область видеоконтента (или отображенной либо имитированной среды), которая интересна пользователю в один момент времени. Обычно это область на сфере, например, или многоугольная выборка из 2-мерной карты. ROI идентифицирует определенную область для конкретной цели, задавая границы исследуемого объекта;- Region of View (ROI): One area of video content (or displayed or simulated environment) that is of interest to the user at one time. This is usually an area on a sphere, for example, or a polygonal selection from a 2D map. ROI identifies a specific area for a specific purpose, setting the boundaries of the object under study;

- информация о положении пользователя: информация о местоположении (например, координаты x, y, z), информация об ориентации (поворот, продольный крен, поперечный крен), направление и скорость перемещения и т.п.;- user position information : position information (eg x, y, z coordinates), orientation information (turn, pitch, roll), direction and speed of movement, etc.;

- поле видимости: часть сферического видео, которое в настоящее время отображается и наблюдается пользователем;- field of view : the part of the spherical video that is currently displayed and observed by the user;

- точка наблюдения: центральная точка поля видимости;- observation point : central point of the field of view;

- панорамное видео (также известное как видео с эффектом присутствия или сферическое видео): применительно к этому документу представляет собой видеоконтент, который содержит более одного вида (то есть поля видимости) в одном направлении в один и тот же момент времени. Такой контент можно создать, например, с использованием всенаправленной камеры или совокупности камер. Во время воспроизведения зритель управляет направлением наблюдения;- panoramic video (also known as immersive video or spherical video): in the context of this document, is video content that contains more than one view (i.e. field of view) in the same direction at the same time. Such content can be created, for example, using an omnidirectional camera or a combination of cameras. During playback, the viewer controls the direction of observation;

- Описание представления мультимедиа (MPD) является синтаксисом, например XML, содержащим информацию о медиасегментах, их взаимосвязях и информацию, необходимую для выбора между ними;- Media Presentation Description (MPD) is a syntax, such as XML, containing information about media segments, their relationships, and the information needed to select between them;

- адаптационные наборы содержат медиапоток или набор медиапотоков. В самом простом случае один адаптационный набор содержит все аудио и видео для контента, но для уменьшения полосы пропускания каждый поток можно разделить на разный адаптационный набор. Общий случай - наличие одного адаптационного набора видео и нескольких адаптационных наборов аудио (один для каждого поддерживаемого языка). Адаптационные наборы также могут содержать субтитры или произвольные метаданные;- adaptation sets contain a media stream or a set of media streams. In the simplest case, one adaptation set contains all the audio and video for the content, but to reduce bandwidth, each stream can be divided into a different adaptation set. The common case is to have one video adaptation set and several audio adaptation sets (one for each supported language). Customization sets may also contain subtitles or arbitrary metadata;

- представления позволяют адаптационному набору содержать одинаковый контент, кодированный по-разному. В большинстве случаев представления будут предоставляться в нескольких скоростях передачи битов. Это позволяет клиентам запрашивать контент наивысшего качества, который они могут воспроизводить без ожидания буферизации. Представления также могут кодироваться разными кодеками, допуская поддержку клиентов с разными поддерживаемыми кодеками.- views allow the adaptation set to contain the same content encoded differently. In most cases, representations will be provided at multiple bit rates. This allows clients to request the highest quality content that they can play without waiting for buffering. Views can also be encoded with different codecs, allowing support for clients with different supported codecs.

Применительно к данной заявке идеи адаптационных наборов используются универсальнее, иногда фактически относясь к представлениям. Также медиапотоки (аудио/видеопотоки) в целом заключаются сначала в медиасегменты, которые являются фактическими медиафайлами, воспроизводимыми клиентом (например, DASH-клиентом). Для медиасегментов можно использовать различные форматы, например ISO Base Media File Format (ISOBMFF), который аналогичен формату контейнера MPEG-4, или транспортный поток (TS) MPEG-2. Заключение в медиасегменты и в разные представления/адаптационные наборы не зависит от описанных здесь способов, эти способы применяются ко всем различным вариантам.As applied to this application, the ideas of adaptation sets are used more universally, sometimes actually referring to views. Also, media streams (audio/video streams) in general are first wrapped in media segments, which are the actual media files played by the client (eg, DASH client). Various formats can be used for media segments, such as the ISO Base Media File Format (ISOBMFF), which is similar to the MPEG-4 container format, or the MPEG-2 Transport Stream (TS). Wrapping into media segments and into different representations/adaptation sets is independent of the methods described here, these methods apply to all the different options.

Более того, описание способов в этом документе сосредоточено на связи сервер-клиент DASH, но способы являются достаточно универсальными для работы с другими средами доставки, например MMT, TS MPEG-2, DASH-ROUTE, форматом файла для воспроизведения файлов и т.п.Moreover, the description of the methods in this document is focused on DASH server-client communication, but the methods are generic enough to work with other delivery media, such as MMT, MPEG-2 TS, DASH-ROUTE, file format for playing files, and the like.

Вообще говоря, адаптационный набор находится на более высоком уровне относительно потока и может содержать метаданные (например, ассоциированные с положениями). Поток может содержать множество аудиоэлементов. Аудиосцена может ассоциироваться с множеством потоков, доставляемых как часть множества адаптационных наборов.Generally speaking, an adaptation set is at a higher level than a stream and may contain metadata (eg, associated with locations). A stream may contain multiple audio elements. An audio scene may be associated with a plurality of streams delivered as part of a plurality of adaptation sets.

Современные решенияModern solutions

Современными решениями являются:Modern solutions are:

[1]. ISO/IEC 23008-3:2015, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio[1]. ISO/IEC 23008-3:2015, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

[2]. N16950, Study of ISO/IEC DIS 23000-20 Omnidirectional Media Format[2]. N16950, Study of ISO/IEC DIS 23000-20 Omnidirectional Media Format

Современные решения ограничены в предоставлении независимого VR-восприятия в одном постоянном местоположении, что позволяет пользователю менять ориентацию, но не перемещаться в VR-среде.Current solutions are limited in providing an independent VR experience in one fixed location, allowing the user to change orientation but not move around in the VR environment.

Сущность изобретенияThe essence of the invention

В соответствии с вариантом осуществления система для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного видео может быть выполнена с возможностью принимать видео- и аудиопотоки для воспроизведения в мультимедийном устройстве, причем система может содержать: по меньшей мере один медиа-декодер видео, выполненный с возможностью декодировать видеосигналы из видеопотоков для представления пользователю сцен среды VR, AR, MR или панорамного видео, и по меньшей мере один декодер аудио, выполненный с возможностью декодировать аудиосигналы по меньшей мере из одного аудиопотока, причем система может быть выполнена с возможностью запрашивать у сервера по меньшей мере один аудиопоток, и/или один аудиоэлемент в аудиопотоке, и/или один адаптационный набор на основе по меньшей мере текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения.According to an embodiment, a system for a virtual reality, VR, augmented reality, AR, mixed reality, MR, or 360 video environment may be configured to receive video and audio streams for playback on a multimedia device, the system may comprise: at least one video media decoder configured to decode video signals from video streams to present scenes of a VR, AR, MR or panoramic video environment to a user, and at least one audio decoder configured to decode audio signals from at least one audio stream, wherein the system can be configured to request at least one audio stream and/or one audio element in the audio stream and/or one adaptation set from the server based on at least the user's current field of view and/or head orientation and/or movement data, and /or interaction metadata, and/or virtual location data.

В соответствии с аспектом система может быть выполнена с возможностью предоставлять серверу текущее поле видимости пользователя, и/или ориентацию головы, и/или данные перемещения, и/или метаданные взаимодействия, и/или данные виртуального положения, чтобы получить от сервера по меньшей мере один аудиопоток, и/или один аудиоэлемент аудиопотока, и/или один адаптационный набор.In accordance with an aspect, the system may be configured to provide the server with the user's current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data to obtain at least one an audio stream and/or one audio stream element and/or one adaptation set.

Вариант осуществления может конфигурироваться так, что по меньшей мере одна сцена ассоциируется по меньшей мере с одним аудиоэлементом, при этом каждый аудиоэлемент ассоциируется с положением и/или областью в визуальной среде, где слышен аудиоэлемент, чтобы разные аудиопотоки предоставлялись для разных положений пользователя, и/или полей видимости, и/или ориентаций головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения в сцене.An embodiment may be configured such that at least one scene is associated with at least one audio element, with each audio element associated with a position and/or area in the visual environment where the audio element is heard, so that different audio streams are provided for different user positions, and/ or fields of view, and/or head orientations, and/or movement data, and/or interaction metadata, and/or virtual position data in the scene.

В соответствии с другим аспектом система может быть выполнена с возможностью решать, нужно ли воспроизводить по меньшей мере один аудиоэлемент аудиопотока и/или один адаптационный набор для текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или виртуального положения в сцене, и при этом система может быть выполнена с возможностью запрашивать и/или принимать по меньшей мере один аудиоэлемент в текущем виртуальном положении пользователя.In accordance with another aspect, the system may be configured to decide whether to play at least one audio element of the audio stream and/or one adaptation set for the user's current field of view and/or head orientation and/or movement data and/or metadata interaction, and/or virtual position in the scene, and wherein the system may be configured to request and/or receive at least one audio element in the user's current virtual position.

В соответствии с аспектом система может быть выполнена с возможностью прогнозировать, станет ли релевантным и/или слышимым по меньшей мере один аудиоэлемент аудиопотока и/или один адаптационный набор, на основе по меньшей мере текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения, и при этом система может быть выполнена с возможностью запрашивать и/или принимать по меньшей мере один аудиоэлемент, и/или аудиопоток, и/или адаптационный набор в конкретном виртуальном положении пользователя до предсказанного перемещения и/или взаимодействия пользователя в сцене, причем система может быть выполнена с возможностью воспроизводить, при приеме, по меньшей мере один аудиоэлемент и/или аудиопоток в конкретном виртуальном положении пользователя после перемещения и/или взаимодействия пользователя в сцене.In accordance with an aspect, the system may be configured to predict whether at least one audio stream element and/or one adaptation set will become relevant and/or audible, based on at least the user's current field of view and/or head orientation, and/ or movement data and/or interaction metadata and/or virtual position data, wherein the system may be configured to request and/or receive at least one audio element and/or audio stream and/or adaptation set in a particular virtual position of the user prior to the predicted movement and/or interaction of the user in the scene, and the system can be configured to play, upon receipt, at least one audio element and/or audio stream at a particular virtual position of the user after the movement and/or interaction of the user in the scene.

Вариант осуществления системы может быть выполнен с возможностью запрашивать и/или принимать по меньшей мере один аудиоэлемент с более низкой скоростью передачи битов и/или уровнем качества в виртуальном положении пользователя до перемещения и/или взаимодействия пользователя в сцене, причем система может быть выполнена с возможностью запрашивать и/или принимать по меньшей мере один аудиоэлемент с более высокой скоростью передачи битов и/или уровнем качества в виртуальном положении пользователя после перемещения и/или взаимодействия пользователя в сцене.An embodiment of the system may be configured to request and/or receive at least one audio element at a lower bit rate and/or quality level at a user's virtual position prior to user movement and/or interaction in a scene, wherein the system may be configured to request and/or receive at least one audio element with a higher bit rate and/or quality level at the user's virtual position after the user has moved and/or interacted in the scene.

В соответствии с аспектом система может быть выполнена так, что по меньшей мере один аудиоэлемент ассоциируется по меньшей мере с одной сценой, при этом каждый аудиоэлемент ассоциируется с положением и/или областью в визуальной среде, ассоциированной со сценой, причем система может быть выполнена с возможностью запрашивать и/или принимать потоки с более высокой скоростью передачи битов и/или качеством для аудиоэлементов ближе к пользователю, чем для аудиоэлементов, более отдаленных от пользователя.In accordance with an aspect, the system may be configured such that at least one audio element is associated with at least one scene, with each audio element associated with a position and/or area in the visual environment associated with the scene, and the system may be configured to request and/or receive higher bitrate and/or quality streams for audio elements closer to the user than for audio elements more distant from the user.

В соответствии с аспектом в системе по меньшей мере один аудиоэлемент может ассоциироваться по меньшей мере с одной сценой, при этом по меньшей мере один аудиоэлемент ассоциируется с положением и/или областью в визуальной среде, ассоциированной со сценой, причем система может быть выполнена с возможностью запрашивать разные потоки с разными скоростями передачи битов и/или уровнями качества для аудиоэлементов на основе их релевантности и/или уровня слышимости в каждом виртуальном положении пользователя в сцене, где система может быть выполнена с возможностью запрашивать аудиопоток с более высокой скоростью передачи битов и/или уровнем качества для аудиоэлементов, которые более релевантны и/или лучше слышны в текущем виртуальном положении пользователя, и/или аудиопоток с более низкой скоростью передачи битов и/или уровнем качества для аудиоэлементов, которые менее релевантны и/или хуже слышны в текущем виртуальном положении пользователя.In accordance with an aspect in the system, at least one audio element may be associated with at least one scene, wherein at least one audio element is associated with a position and/or area in the visual environment associated with the scene, and the system may be configured to request different streams with different bitrates and/or quality levels for audio elements based on their relevance and/or audibility level at each user's virtual position in the scene, where the system may be configured to request an audio stream at a higher bitrate and/or level qualities for audio elements that are more relevant and/or better audible at the user's current virtual position, and/or an audio stream with a lower bit rate and/or quality level for audio elements that are less relevant and/or less audible at the user's current virtual position.

В варианте осуществления в системе по меньшей мере один аудиоэлемент может ассоциироваться со сценой, при этом каждый аудиоэлемент ассоциируется с положением и/или областью в визуальной среде, ассоциированной со сценой, где система может быть выполнена с возможностью периодически отправлять серверу текущее поле видимости пользователя, и/или ориентацию головы, и/или данные перемещения, и/или метаданные взаимодействия, и/или данные виртуального положения, чтобы: для первого положения от сервера предоставлялся поток с более высокой скоростью передачи битов и/или качеством, а для второго положения от сервера предоставлялся поток с более низкой скоростью передачи битов и/или качеством, где первое положение ближе по меньшей мере к одному аудиоэлементу, чем второе положение.In an embodiment, the system may have at least one audio element associated with a scene, with each audio element associated with a position and/or area in the visual environment associated with the scene, where the system may be configured to periodically send the user's current field of view to the server, and /or head orientation and/or movement data and/or interaction metadata and/or virtual position data such that: a higher bitrate and/or quality stream is provided for the first position from the server and a higher bitrate and/or quality stream for the second position from the server provided a stream with a lower bit rate and/or quality, where the first position is closer to at least one audio element than the second position.

В варианте осуществления системы может задаваться множество сцен для нескольких визуальных сред, например смежных и/или соседних сред, чтобы предоставлялись первые потоки, ассоциированные с первой текущей сценой, и чтобы в случае перехода пользователя ко второй, дальней сцене предоставить потоки, ассоциированные с первой сценой, и вторые потоки, ассоциированные со второй сценой.In an embodiment of the system, a plurality of scenes may be defined for multiple visual environments, such as adjacent and/or neighboring environments, so that the first streams associated with the first current scene are provided, and that if the user navigates to a second, far scene, the streams associated with the first scene are provided. , and second streams associated with the second scene.

В варианте осуществления системы может задаваться множество сцен для первой и второй визуальных сред, при этом первая и вторая среды являются смежными и/или соседними средами, где от сервера предоставляются первые потоки, ассоциированные с первой сценой, для воспроизведения первой сцены, если положение или виртуальное положение пользователя находится в первой среде, ассоциированной с первой сценой, от сервера предоставляются вторые потоки, ассоциированные со второй сценой, для воспроизведения второй сцены, если положение или виртуальное положение пользователя находится во второй среде, ассоциированной со второй сценой, и предоставляются первые потоки, ассоциированные с первой сценой, и вторые потоки, ассоциированные со второй сценой, если положение или виртуальное положение пользователя находится в переходном положении между первой сценой и второй сценой.In an embodiment of the system, a plurality of scenes may be defined for the first and second visual environments, wherein the first and second environments are contiguous and/or neighboring environments, where the first streams associated with the first scene are provided from the server to reproduce the first scene if the position or virtual the user's position is in the first environment associated with the first scene, second streams associated with the second scene are provided from the server to play the second scene, if the user's position or virtual position is in the second environment associated with the second scene, and the first streams associated with the second scene are provided. with the first scene, and second streams associated with the second scene if the user's position or virtual position is in a transitional position between the first scene and the second scene.

В варианте осуществления системы может задаваться множество сцен для первой и второй визуальных сред, которые являются смежными и/или соседними средами, причем система выполнена с возможностью запрашивать и/или принимать первые потоки, ассоциированные с первой сценой, ассоциированной с первой средой, для воспроизведения первой сцены, если виртуальное положение пользователя находится в первой среде, причем система может быть выполнена с возможностью запрашивать и/или принимать вторые потоки, ассоциированные со второй сценой, ассоциированной со второй средой, для воспроизведения второй сцены, если виртуальное положение пользователя находится во второй среде, и при этом система может быть выполнена с возможностью запрашивать и/или принимать первые потоки, ассоциированные с первой сценой, и вторые потоки, ассоциированные со второй сценой, если виртуальное положение пользователя находится в переходном положении между первой средой и второй средой.In an embodiment of the system, a plurality of scenes may be defined for first and second visual media that are contiguous and/or adjacent media, wherein the system is configured to request and/or receive first streams associated with the first scene associated with the first environment to play the first scenes if the user's virtual location is in the first environment, wherein the system can be configured to request and/or receive second streams associated with the second scene associated with the second environment to play the second scene if the user's virtual location is in the second environment, and wherein the system may be configured to request and/or receive first streams associated with the first scene and second streams associated with the second scene if the user's virtual location is in a transitional position between the first environment and the second environment.

В соответствии с аспектом система может быть выполнена так, что первые потоки, ассоциированные с первой сценой, получаются с более высокой скоростью передачи битов и/или качеством, когда пользователь находится в первой среде, ассоциированной с первой сценой, тогда как вторые потоки, ассоциированные со второй сценой, ассоциированной со второй средой, получаются с более низкой скоростью передачи битов и/или качеством, когда пользователь находится в начале переходного положения от первой сцены ко второй сцене, и первые потоки, ассоциированные с первой сценой, получаются с более низкой скоростью передачи битов и/или качеством, а вторые потоки, ассоциированные со второй сценой, получаются с более высокой скоростью передачи битов и/или качеством, когда пользователь находится в конце переходного положения от первой сцены ко второй сцене, где более низкая скорость передачи битов и/или качество ниже более высокой скорости передачи битов и/или качества.According to an aspect, the system may be configured such that the first streams associated with the first scene are obtained at a higher bit rate and/or quality when the user is in the first environment associated with the first scene, while the second streams associated with the second scene associated with the second environment are obtained at a lower bit rate and/or quality when the user is at the beginning of the transition from the first scene to the second scene, and the first streams associated with the first scene are obtained at a lower bit rate and/or quality, and the second streams associated with the second scene are obtained at a higher bit rate and/or quality when the user is at the end of the transition from the first scene to the second scene, where the lower bit rate and/or quality below a higher bit rate and/or quality.

В соответствии с аспектом система может быть выполнена так, что может задаваться множество сцен для нескольких сред, например смежных и/или соседних сред, чтобы система могла получать потоки, ассоциированные с первой текущей сценой, ассоциированной с первой текущей средой, и если расстояние положения или виртуального положения пользователя от границы сцены меньше заранее установленной пороговой величины, то система может дополнительно получать аудиопотоки, ассоциированные со второй, смежной и/или соседней средой, ассоциированной со второй сценой.In accordance with an aspect, the system may be configured such that a plurality of scenes for multiple environments, such as contiguous and/or neighboring environments, may be defined so that the system can receive streams associated with the first current scene associated with the first current environment, and if the position distance or virtual position of the user from the scene boundary is less than a predetermined threshold value, then the system can additionally receive audio streams associated with the second, adjacent and/or adjacent environment associated with the second scene.

В соответствии с аспектом система может быть выполнена так, что может задаваться множество сцен для нескольких визуальных сред, чтобы система запрашивала и/или получала потоки, ассоциированные с текущей сценой, с более высокой скоростью передачи битов и/или качеством, и потоки, ассоциированные со второй сценой, с более низкой скоростью передачи битов и/или качеством, где более низкая скорость передачи битов и/или качество ниже более высокой скорости передачи битов и/или качества.In accordance with an aspect, the system may be configured such that a plurality of scenes for multiple visual media may be defined such that the system requests and/or receives streams associated with the current scene at a higher bit rate and/or quality, and streams associated with a second scene, with a lower bit rate and/or quality, where the lower bit rate and/or quality is lower than the higher bit rate and/or quality.

В соответствии с аспектом система может быть выполнена так, что может задаваться множество из N аудиоэлементов, и если расстояние пользователя до положения или области этих аудиоэлементов больше заранее установленной пороговой величины, то обрабатываются N аудиоэлементов для получения меньшего числа M аудиоэлементов (M<N), ассоциированных с положением или областью, близкой к положению или области N аудиоэлементов, чтобы предоставить системе по меньшей мере один аудиопоток, ассоциированный с N аудиоэлементами, если расстояние пользователя до положения или области N аудиоэлементов меньше заранее установленной пороговой величины, либо предоставить системе по меньшей мере один аудиопоток, ассоциированный с M аудиоэлементами, если расстояние пользователя до положения или области N аудиоэлементов больше заранее установленной пороговой величины.In accordance with an aspect, the system can be configured such that a plurality of N audio elements can be specified, and if the user's distance to the position or area of these audio elements is greater than a predetermined threshold, then N audio elements are processed to obtain a smaller number M of audio elements (M<N), associated with a position or region close to the position or region of the N audio elements to provide the system with at least one audio stream associated with the N audio elements if the user's distance to the position or region of the N audio elements is less than a predetermined threshold, or to provide the system with at least one an audio stream associated with the M audio elements if the user's distance to the position or area of the N audio elements is greater than a predetermined threshold.

В соответствии с аспектом система может быть выполнена так, что по меньшей мере одна сцена визуальной среды ассоциируется по меньшей мере с одним множеством из N аудиоэлементов (N>=2), при этом каждый аудиоэлемент ассоциируется с положением и/или областью в визуальной среде, где по меньшей мере одно множество из N аудиоэлементов предоставляется по меньшей мере в одном представлении с высокой скоростью передачи битов и/или уровнем качества, и где по меньшей мере одно множество из N аудиоэлементов предоставляется по меньшей мере в одном представлении с низкой скоростью передачи битов и/или уровнем качества, где по меньшей мере одно представление получается путем обработки N аудиоэлементов, чтобы получить меньшее число M аудиоэлементов (M<N), ассоциированных с положением или областью, близкой к положению или области N аудиоэлементов, причем система может быть выполнена с возможностью запрашивать представление с более высокой скоростью передачи битов и/или уровнем качества для аудиоэлементов, если аудиоэлементы более релевантны и/или лучше слышны в текущем виртуальном положении пользователя в сцене, причем система может быть выполнена с возможностью запрашивать представление с более низкой скоростью передачи битов и/или уровнем качества для аудиоэлементов, если аудиоэлементы менее релевантны и/или хуже слышны в текущем виртуальном положении пользователя в сцене.In accordance with an aspect, the system may be configured such that at least one scene of the visual environment is associated with at least one set of N audio elements (N>=2), with each audio element associated with a position and/or area in the visual environment, where at least one set of N audio elements is provided in at least one representation with a high bit rate and/or quality level, and where at least one set of N audio elements is provided in at least one representation with a low bit rate and /or a quality level, where at least one representation is obtained by processing N audio elements to obtain a smaller number M of audio elements (M<N) associated with a position or area close to the position or area of N audio elements, and the system can be configured to request a representation at a higher bit rate and/or quality level for audio elements if the audio elements are more relevant and/or better audible at the user's current virtual position in the scene, wherein the system may be configured to request a representation at a lower bit rate and/ or a quality level for the audio elements, if the audio elements are less relevant and/or less audible in the user's current virtual position in the scene.

В соответствии с аспектом система может быть выполнена так, что если расстояние пользователя, и/или релевантность, и/или уровень слышимости, и/или угловая ориентация меньше заранее установленной пороговой величины, то получаются разные потоки для разных аудиоэлементов.According to an aspect, the system can be configured such that if user distance and/or relevance and/or audibility level and/or angular orientation is less than a predetermined threshold value, then different streams are obtained for different audio elements.

В варианте осуществления система может быть выполнена с возможностью запрашивать и/или получать потоки на основе ориентации пользователя, и/или направления перемещения пользователя, и/или взаимодействий пользователя в сцене.In an embodiment, the system may be configured to request and/or receive streams based on the user's orientation and/or direction of user movement and/or user interactions in the scene.

В варианте осуществления системы поле видимости может ассоциироваться с положением, и/или виртуальным положением, и/или данными перемещения, и/или головой.In an embodiment of the system, the field of view may be associated with position and/or virtual position and/or movement data and/or head.

В соответствии с аспектом система может быть выполнена так, что разные аудиоэлементы предоставляются в разных полях видимости, причем система может быть выполнена с возможностью запрашивать и/или принимать первый аудиоэлемент с более высокой скоростью передачи битов, чем второй аудиоэлемент, который не входит в поле видимости, если один первый аудиоэлемент входит в поле видимости.In accordance with an aspect, the system may be configured such that different audio elements are provided in different fields of view, and the system can be configured to request and/or receive a first audio element with a higher bit rate than a second audio element that is not included in the field of view. if one first audio element is in view.

В соответствии с аспектом система может быть выполнена с возможностью запрашивать и/или принимать первые аудиопотоки и вторые аудиопотоки, где первые аудиоэлементы в первых аудиопотоках более релевантны и/или лучше слышны, чем вторые аудиоэлементы во вторых аудиопотоках, где первые аудиопотоки запрашиваются и/или принимаются с более высокой скоростью передачи битов и/или качеством, чем скорость передачи битов и/или качество у вторых аудиопотоков.In accordance with an aspect, the system may be configured to request and/or receive first audio streams and second audio streams, where the first audio elements in the first audio streams are more relevant and/or better heard than the second audio elements in the second audio streams, where the first audio streams are requested and/or received with a higher bit rate and/or quality than the bit rate and/or quality of the second audio streams.

В соответствии с аспектом система может быть выполнена так, что задаются по меньшей мере две сцены визуальной среды, где по меньшей мере один первый и второй аудиоэлементы ассоциируются с первой сценой, ассоциированной с первой визуальной средой, и по меньшей мере один третий аудиоэлемент ассоциируется со второй сценой, ассоциированной со второй визуальной средой, причем система может быть выполнена с возможностью получать метаданные, описывающие, что по меньшей мере один второй аудиоэлемент дополнительно ассоциируется со второй сценой визуальной среды, и причем система может быть выполнена с возможностью запрашивать и/или принимать по меньшей мере первый и второй аудиоэлементы, если виртуальное положение пользователя находится в первой визуальной среде, и при этом система может быть выполнена с возможностью запрашивать и/или принимать по меньшей мере второй и третий аудиоэлементы, если виртуальное положение пользователя находится во второй сцене визуальной среды, и при этом система может быть выполнена с возможностью запрашивать и/или принимать по меньшей мере первый, второй и третий аудиоэлементы, если виртуальное положение пользователя находится в переходе между первой сценой визуальной среды и второй сценой визуальной среды.In accordance with an aspect, the system may be configured such that at least two scenes of the visual environment are defined, where at least one first and second audio elements are associated with the first scene associated with the first visual environment, and at least one third audio element is associated with the second scene associated with the second visual environment, wherein the system can be configured to receive metadata describing that at least one second audio element is further associated with the second visual environment scene, and wherein the system can be configured to request and/or receive at least at least the first and second audio elements if the user's virtual position is in the first visual environment, wherein the system can be configured to request and/or receive at least the second and third audio elements if the user's virtual position is in the second scene of the visual environment, and wherein the system may be configured to request and/or receive at least the first, second and third audio elements if the user's virtual position is in a transition between the first visual environment scene and the second visual environment scene.

Вариант осуществления системы может конфигурироваться так, что по меньшей мере один первый аудиоэлемент предоставляется по меньшей мере в одном аудиопотоке и/или адаптационном наборе, и по меньшей мере один второй аудиоэлемент предоставляется по меньшей мере в одном втором аудиопотоке и/или адаптационном наборе, и по меньшей мере один третий аудиоэлемент предоставляется по меньшей мере в одном третьем аудиопотоке и/или адаптационном наборе, и где по меньшей мере первая сцена визуальной среды описывается метаданными как законченная сцена, которая требует по меньшей мере первого и второго аудиопотоков и/или адаптационных наборов, и при этом вторая сцена визуальной среды описывается метаданными как незаконченная сцена, которая требует по меньшей мере третьего аудиопотока и/или адаптационного набора и по меньшей мере второго аудиопотока и/или адаптационных наборов, ассоциированных по меньшей мере с первой сценой визуальной среды, причем система содержит процессор метаданных, выполненный с возможностью работать с метаданными, чтобы разрешить соединение второго аудиопотока, принадлежащего первой визуальной среде, и третьего аудиопотока, ассоциированного со второй визуальной средой, в новый единый поток, если виртуальное положение пользователя находится во второй визуальной среде.An embodiment of the system may be configured such that at least one first audio element is provided in at least one audio stream and/or adaptation set, and at least one second audio element is provided in at least one second audio stream and/or adaptation set, and at least one third audio element is provided in at least one third audio stream and/or adaptation set, and where at least the first scene of the visual environment is described by metadata as a complete scene that requires at least the first and second audio streams and/or adaptation sets, and wherein the second scene of the visual environment is described by metadata as an unfinished scene that requires at least a third audio stream and/or adaptation set and at least a second audio stream and/or adaptation sets associated with at least the first scene of the visual environment, and the system contains a processor metadata, configured to work with the metadata to allow the connection of the second audio stream belonging to the first visual environment and the third audio stream associated with the second visual environment into a new single stream if the user's virtual position is in the second visual environment.

В соответствии с аспектом система содержит процессор метаданных, выполненный с возможностью работать с метаданными по меньшей мере в одном аудиопотоке по меньшей мере перед одним декодером аудио, на основе текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения.In accordance with an aspect, the system comprises a metadata processor configured to operate on metadata in at least one audio stream in front of at least one audio decoder, based on the user's current field of view and/or head orientation and/or movement data, and/ or interaction metadata, and/or virtual location data.

В соответствии с аспектом процессор метаданных может быть выполнен с возможностью включать и/или отключать по меньшей мере один аудиоэлемент по меньшей мере в одном аудиопотоке по меньшей мере перед одним декодером аудио на основе текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения, причем процессор метаданных может быть выполнен с возможностью отключать по меньшей мере один аудиоэлемент по меньшей мере в одном аудиопотоке по меньшей мере перед одним декодером аудио, если система решает, что аудиоэлемент больше не нужно воспроизводить как следствие текущего поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения, и причем процессор метаданных может быть выполнен с возможностью включать по меньшей мере один аудиоэлемент по меньшей мере в одном аудиопотоке по меньшей мере перед одним декодером аудио, если система решает, что аудиоэлемент нужно воспроизводить как следствие текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения.According to an aspect, the metadata processor may be configured to enable and/or disable at least one audio element in at least one audio stream before at least one audio decoder based on the user's current field of view, and/or head orientation, and/or movement data, and/or interaction metadata, and/or virtual position data, wherein the metadata processor may be configured to turn off at least one audio element in at least one audio stream before at least one audio decoder if the system determines that the audio element no longer need to be rendered as a consequence of the current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data, and wherein the metadata processor may be configured to include at least one audio element in at least one audio stream before at least one audio decoder, if the system decides that the audio element should be played as a consequence of the user's current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data.

В соответствии с аспектом система может быть выполнена с возможностью отключать декодирование аудиоэлементов, выбранных на основе текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или виртуального положения.According to an aspect, the system may be configured to disable decoding of audio elements selected based on the user's current field of view and/or head orientation and/or movement data and/or metadata and/or virtual position.

В соответствии с аспектом система может быть выполнена с возможностью соединять по меньшей мере один первый аудиопоток, ассоциированный с текущей аудиосценой, по меньшей мере с одним потоком, ассоциированным с соседней, смежной и/или будущей аудиосценой.In accordance with an aspect, the system may be configured to connect at least one first audio stream associated with a current audio scene to at least one stream associated with an adjacent, adjacent, and/or future audio scene.

В соответствии с аспектом система может быть выполнена с возможностью получать и/или собирать статистические или агрегированные данные о текущем поле видимости пользователя, и/или ориентации головы, и/или данные перемещения, и/или метаданные, и/или данные виртуального положения, чтобы передавать серверу запрос, ассоциированный со статистическими или агрегированными данными.According to an aspect, the system may be configured to receive and/or collect statistical or aggregated data about the user's current field of view and/or head orientation and/or movement data and/or metadata and/or virtual position data to send a request associated with the statistical or aggregated data to the server.

В соответствии с аспектом система может быть выполнена с возможностью отключать декодирование и/или воспроизведение по меньшей мере одного потока на основе метаданных, ассоциированных по меньшей мере с одним потоком, и на основе текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или данных виртуального положения.According to an aspect, the system may be configured to disable decoding and/or playback of at least one stream based on metadata associated with at least one stream and based on the user's current field of view and/or head orientation and/or movement data, and/or metadata, and/or virtual position data.

В соответствии с аспектом система может быть выполнена с возможностью: работать с метаданными, ассоциированными с группой выбранных аудиопотоков, на основе по меньшей мере текущего или предполагаемого поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или данных виртуального положения, чтобы: выбирать, и/или включать, и/или активировать аудиоэлементы, составляющие воспроизводимую аудиосцену; и/или обеспечивать соединение всех выбранных аудиопотоков в единый аудиопоток.According to an aspect, the system may be configured to: operate on metadata associated with a group of selected audio streams based on at least the user's current or intended field of view and/or head orientation and/or movement data and/or metadata, and/or virtual position data to: select and/or turn on and/or activate the audio elements that make up the reproduced audio scene; and/or provide a connection of all selected audio streams into a single audio stream.

В соответствии с аспектом система может быть выполнена с возможностью управлять запросом у сервера по меньшей мере одного потока на основе расстояния положения пользователя от границ соседних и/или смежных сред, ассоциированных с разными сценами, или других показателей, ассоциированных с положением пользователя в текущей среде или предсказаниями о будущей среде.In accordance with an aspect, the system may be configured to manage a request from a server for at least one stream based on the distance of the user's position from the boundaries of neighboring and/or adjacent environments associated with different scenes, or other indicators associated with the user's position in the current environment, or predictions about the future environment.

В соответствии с аспектом системная информация может предоставляться от серверной системы для каждого аудиоэлемента или аудиообъекта, причем эта информация включает в себя описательную информацию о местоположениях, в которых звуковая сцена или аудиоэлементы активны.According to an aspect, system information may be provided from a server system for each audio element or audio object, the information including descriptive information about the locations at which the sound stage or audio elements are active.

В соответствии с аспектом система может быть выполнена с возможностью выбирать между воспроизведением одной сцены и составлением, или смешиванием, или мультиплексированием, или наложением, или объединением по меньшей мере двух сцен на основе текущего или будущего поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или виртуального положения, и/или выбора пользователя, при этом две сцены ассоциированы с разными соседними и/или смежными средами.According to an aspect, the system may be configured to choose between playing one scene and composing or mixing or multiplexing or overlaying or merging at least two scenes based on the current or future field of view and/or head orientation and/ or movement data and/or metadata and/or virtual location and/or user selection, wherein the two scenes are associated with different adjacent and/or adjacent environments.

В соответствии с аспектом система может быть выполнена с возможностью создавать или использовать по меньшей мере адаптационные наборы, чтобы: некоторое количество адаптационных наборов ассоциировалось с одной аудиосценой; и/или предоставлялась дополнительная информация, которая соотносит каждый адаптационный набор с одной точкой наблюдения, или одной аудиосценой; и/или предоставлялась дополнительная информация, которая может включать в себя: информацию о границах одной аудиосцены, и/или информацию о взаимосвязи между одним адаптационным набором и одной аудиосценой (например, аудиосцена кодируется в три потока, которые заключаются в три адаптационных набора), и/или информацию о связи между границами аудиосцены и несколькими адаптационными наборами.According to an aspect, the system may be configured to create or use at least adaptation sets such that: a number of adaptation sets are associated with one audio scene; and/or provided additional information that relates each adaptation set to one viewpoint, or one audio scene; and/or provided additional information, which may include: information about the boundaries of one audio scene, and/or information about the relationship between one adaptation set and one audio scene (for example, an audio scene is encoded into three streams that are contained in three adaptation sets), and /or information about the relationship between the boundaries of the audio scene and several adaptation sets.

В соответствии с аспектом система может быть выполнена с возможностью: принимать поток для сцены, ассоциированной с соседней или смежной средой; запускать декодирование и/или воспроизведение потока для соседней или смежной среды при обнаружении перехода границы между двумя средами.According to an aspect, the system may be configured to: receive a stream for a scene associated with an adjacent or adjacent environment; trigger decoding and/or playback of a stream for an adjacent or adjacent media upon detection of a boundary crossing between the two media.

В соответствии с аспектом система может быть выполнена с возможностью работать в качестве клиента и сервера, сконфигурированных для доставки видео- и аудиопотоков для воспроизведения в мультимедийном устройстве.In accordance with an aspect, the system may be configured to operate as a client and server configured to deliver video and audio streams for playback on a multimedia device.

В соответствии с аспектом система может быть выполнена с возможностью: запрашивать и/или принимать по меньшей мере один первый адаптационный набор, содержащий по меньшей мере один аудиопоток, ассоциированный по меньшей мере с одной первой аудиосценой; запрашивать и/или принимать по меньшей мере один второй адаптационный набор, содержащий по меньшей мере один второй аудиопоток, ассоциированный по меньшей мере с двумя аудиосценами, включая по меньшей мере одну первую аудиосцену; и обеспечивать соединение по меньшей мере одного первого аудиопотока и по меньшей мере одного второго аудиопотока в новый аудиопоток для декодирования на основе метаданных, доступных касательно текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или данных виртуального положения, и/или информации, описывающей ассоциацию по меньшей мере одного первого адаптационного набора по меньшей мере с одной первой аудиосценой и/или ассоциацию по меньшей мере одного второго адаптационного набора по меньшей мере с одной первой аудиосценой.In accordance with an aspect, the system may be configured to: request and/or receive at least one first adaptation set containing at least one audio stream associated with at least one first audio scene; request and/or receive at least one second adaptation set containing at least one second audio stream associated with at least two audio scenes, including at least one first audio scene; and provide connection of at least one first audio stream and at least one second audio stream into a new audio stream for decoding based on metadata available regarding the user's current field of view and/or head orientation and/or movement data and/or metadata, and /or virtual position data, and/or information describing the association of at least one first adaptation set with at least one first audio scene and/or the association of at least one second adaptation set with at least one first audio scene.

В соответствии с аспектом система может быть выполнена с возможностью принимать информацию о текущем поле видимости пользователя, и/или ориентацию головы, и/или данные перемещения, и/или метаданные, и/или данные виртуального положения, и/или любую информацию, описывающую изменения, вызванные действиями пользователя; и принимать информацию о доступности адаптационных наборов и информацию, описывающую ассоциацию по меньшей мере одного адаптационного набора по меньшей мере с одной сценой, и/или точкой наблюдения, и/или полем видимости, и/или положением, и/или виртуальным положением, и/или данными перемещения, и/или ориентацией.According to an aspect, the system may be configured to receive information about the user's current field of view and/or head orientation and/or movement data and/or metadata and/or virtual position data and/or any information describing changes , caused by user actions; and receive information about the availability of adaptation sets and information describing the association of at least one adaptation set with at least one scene and/or viewpoint and/or field of view and/or position and/or virtual position, and/ or movement data, and/or orientation.

В соответствии с аспектом система может быть выполнена с возможностью решать, нужно ли воспроизводить по меньшей мере один аудиоэлемент по меньшей мере из одной аудиосцены, встроенной по меньшей мере в один поток, и по меньшей мере один дополнительный аудиоэлемент по меньшей мере из одной дополнительной аудиосцены, встроенной по меньшей мере в один дополнительный поток; и вызывать, при положительном решении, операцию соединения, или составления, или мультиплексирования, или наложения, или объединения по меньшей мере одного дополнительного потока дополнительной аудиосцены по меньшей мере с одним потоком по меньшей мере одной аудиосцены.According to an aspect, the system may be configured to decide whether at least one audio element from at least one audio scene embedded in at least one stream and at least one additional audio element from at least one additional audio scene should be played, embedded in at least one additional thread; and cause, if positive, the operation of connecting, or composing, or multiplexing, or overlaying, or combining at least one additional additional audio scene stream with at least one stream of at least one audio scene.

В соответствии с аспектом система может быть выполнена с возможностью работать с метаданными аудио, ассоциированными с выбранными аудиопотоками, на основе по меньшей мере текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или данных виртуального положения, чтобы: выбирать, и/или включать, и/или активировать аудиоэлементы, составляющие аудиосцену, выбранную для воспроизведения; и обеспечивать соединение всех выбранных аудиопотоков в единый аудиопоток.According to an aspect, the system may be configured to operate on audio metadata associated with selected audio streams based on at least the user's current field of view and/or head orientation and/or movement data and/or metadata and/or virtual position data to: select and/or enable and/or activate the audio elements that make up the audio scene selected for playback; and provide connection of all selected audio streams into a single audio stream.

В соответствии с аспектом может обеспечиваться сервер для доставки аудио- и видеопотоков клиенту для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного видео, при этом видео- и аудиопотоки должны воспроизводиться в мультимедийном устройстве, причем сервер может содержать кодер для кодирования и/или хранилище для хранения видеопотоков, чтобы описывать визуальную среду, при этом визуальная среда ассоциирована с аудиосценой; причем сервер может дополнительно содержать кодер для кодирования и/или хранилище для хранения множества потоков, и/или аудиоэлементов, и/или адаптационных наборов для доставки клиенту, при этом потоки, и/или аудиоэлементы, и/или адаптационные наборы ассоциированы по меньшей мере с одной аудиосценой, причем сервер выполнен с возможностью: выбирать и доставлять видеопоток на основе запроса от клиента, при этом видеопоток ассоциирован со средой; выбирать аудиопоток, и/или аудиоэлемент, и/или адаптационный набор на основе запроса от клиента, при этом запрос ассоциирован по меньшей мере с текущим полем видимости пользователя, и/или ориентацией головы, и/или данными перемещения, и/или метаданными взаимодействия, и/или данными виртуального положения и с аудиосценой, ассоциированной со средой; и доставки аудиопотока клиенту.In accordance with an aspect, a server may be provided for delivering audio and video streams to a client for a virtual reality, VR, augmented reality, AR, mixed reality, MR, or 360 video environment, wherein the video and audio streams are to be played on a multimedia device, wherein the server can contain an encoder for encoding and/or storage for storing video streams to describe a visual environment, wherein the visual environment is associated with an audio scene; wherein the server may further comprise an encoder for encoding and/or storage for storing a plurality of streams and/or audio elements and/or adaptation sets for delivery to the client, wherein the streams and/or audio elements and/or adaptation sets are associated with at least one audio scene, wherein the server is configured to: select and deliver a video stream based on a request from a client, with the video stream associated with the environment; select an audio stream and/or an audio element and/or an adaptation set based on a request from the client, wherein the request is associated with at least the user's current field of view and/or head orientation and/or movement data and/or interaction metadata, and/or virtual position data and with an audio scene associated with the environment; and delivering the audio stream to the client.

В соответствии с аспектом потоки могут заключаться в адаптационные наборы, при этом каждый адаптационный набор включает в себя множество потоков, ассоциированных с разными представлениями с разной скоростью передачи битов и/или качеством одного и того же аудиоконтента, причем выбранный адаптационный набор выбирается на основе запроса от клиента.According to an aspect, the streams may be included in adaptation sets, where each adaptation set includes a plurality of streams associated with different representations with different bit rates and/or quality of the same audio content, the selected adaptation set being selected based on a request from client.

В соответствии с аспектом система может работать как клиент и сервер.According to an aspect, the system can operate as both a client and a server.

В соответствии с аспектом система может включать в себя сервер.In accordance with an aspect, the system may include a server.

В соответствии с аспектом может предоставляться способ для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного видео, выполненный с возможностью принимать видео- и аудиопотоки для воспроизведения в мультимедийном устройстве (например, воспроизводящем устройстве), содержащий: декодирование видеосигналов из видеопотоков для представления пользователю сцен среды VR, AR, MR или панорамного видео, и декодирование аудиосигналов из аудиопотоков, запрос и/или получение от сервера по меньшей мере одного аудиопотока на основе текущего поля видимости пользователя, и/или данных о положении, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или данных виртуального положения, и/или метаданных.According to an aspect, a method may be provided for a virtual reality, VR, augmented reality, AR, mixed reality, MR, or 360 video environment, configured to receive video and audio streams for playback on a multimedia device (e.g., playback device), comprising: decoding video signals from video streams to present scenes of the VR, AR, MR or panoramic video environment to the user, and decoding audio signals from audio streams, requesting and / or receiving from the server at least one audio stream based on the user's current field of view, and / or position data, and/or head orientation and/or movement data and/or metadata and/or virtual position data and/or metadata.

В соответствии с аспектом может предоставляться компьютерная программа, содержащая команды, которые при исполнении процессором побуждают процессор выполнять вышеупомянутый способ.In accordance with an aspect, a computer program may be provided containing instructions that, when executed by a processor, cause the processor to perform the above method.

Краткое описание чертежейBrief description of the drawings

Фиг. 1.1-1.8 показывают патентоспособные примеры.Fig. 1.1-1.8 show patentable examples.

Фиг. 2-6 показывают патентоспособные сценарии.Fig. 2-6 show patentable scenarios.

Фиг. 7A-8B показывают патентоспособные способы.Fig. 7A-8B show patentable methods.

Осуществление изобретенияImplementation of the invention

Ниже в этом документе (например, фиг. 1.1 и последующие) раскрываются примеры систем в соответствии с патентоспособными аспектами.Below in this document (for example, Fig. 1.1 and subsequent) disclosed examples of systems in accordance with patentable aspects.

Примеры патентоспособной системы (которую можно воплотить в разных раскрытых ниже примерах) вместе указываются ссылкой 102. Система 102 может быть клиентской системой, например, так как может получать от серверной системы (например, 120) аудио- и/или видеопотоки для представления пользователю аудиосцен и/или визуальных сред. Клиентская система 102 также может принимать от серверной системы 120 метаданные, которые предоставляют, например, дополнительную и/или вспомогательную информацию об аудио- и/или видеопотоках.Examples of an inventive system (which may be embodied in the various examples disclosed below) are collectively referenced at 102. System 102 may be a client system, for example, as it may receive audio and/or video streams from a server system (eg, 120) to present audio scenes to the user and /or visual environments. The client system 102 may also receive metadata from the server system 120 that provides, for example, additional and/or ancillary information about the audio and/or video streams.

Система 102 может ассоциироваться (или содержать в некоторых примерах) с мультимедийным устройством (MCD), которое фактически воспроизводит пользователю аудио- и/или видеосигналы. В некоторых примерах пользователь может надевать MCD.System 102 may be associated with (or comprise in some examples) a multimedia device (MCD) that actually renders audio and/or video to the user. In some examples, the user may wear the MCD.

Система 102 может выполнять запросы к серверной системе 120, при этом запросы ассоциируются по меньшей мере с одним текущим полем видимости пользователя, и/или ориентацией головы, (например, угловой ориентацией), и/или данными перемещения, и/или метаданными взаимодействия, и/или данными 110 виртуального положения (могут предоставляться несколько показателей). Поле видимости, и/или ориентация головы, и/или данные перемещения, и/или метаданные взаимодействия, и/или данные 110 виртуального положения могут предоставляться в обратной связи от MCD к клиентской системе 102, которая может, в свою очередь, предоставлять запрос серверной системе 120 на основе этой обратной связи.System 102 may make requests to server system 120, wherein the requests are associated with at least one of the user's current field of view and/or head orientation (e.g., angular orientation) and/or movement data and/or interaction metadata, and /or virtual position data 110 (multiple indications may be provided). Field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data 110 may be provided in feedback from the MCD to the client system 102, which may in turn provide a request to the server system 120 based on this feedback.

В некоторых случаях запрос (который указывается ссылкой 112) может содержать текущее поле видимости пользователя, и/или ориентацию головы, и/или данные перемещения, и/или метаданные взаимодействия, и/или данные 110 виртуального положения (или указание либо его обработанную версию). На основе текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных 110 виртуального положения серверная система 120 предоставит необходимые аудио- и/или видеопотоки и/или метаданные. В этом случае серверная система 120 может знать о положении пользователя (например, в виртуальной среде) и может ассоциировать правильные потоки с положениями пользователя.In some cases, the request (which is indicated by link 112) may contain the user's current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data 110 (or an indication or a processed version thereof) . Based on the user's current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data 110, server system 120 will provide the necessary audio and/or video streams and/or metadata. In this case, the server system 120 may be aware of the user's location (eg, in a virtual environment) and may associate the correct streams with the user's locations.

В других случаях запрос 112 от клиентской системы 102 может содержать явные запросы конкретных аудио- и/или видеопотоков. В этом случае запрос 112 может основываться на текущем поле видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных 110 виртуального положения. Клиентская система 102 знает об аудио- и видеосигналах, которые нужно вывести пользователю, даже если клиентская система 102 не хранит необходимые потоки. Клиентская система 102 в примерах может обращаться к конкретным потокам в серверной системе 120.In other cases, request 112 from client system 102 may include explicit requests for specific audio and/or video streams. In this case, query 112 may be based on the user's current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data 110. The client system 102 is aware of the audio and video signals to be output to the user, even if the client system 102 does not store the required streams. Client system 102 in the examples may access specific threads on server system 120.

Клиентская система 102 может быть системой для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного видео, выполненной с возможностью принимать видео- и аудиопотоки для воспроизведения в мультимедийном устройстве,The client system 102 may be a system for a virtual reality, VR, augmented reality, AR, mixed reality, MR, or 360 video environment configured to receive video and audio streams for playback on a multimedia device,

причем система 102 содержит:wherein the system 102 comprises:

по меньшей мере один медиа-декодер видео, выполненный с возможностью декодировать видеосигналы из видеопотоков для представления пользователю сцен среды VR, AR, MR или панорамного видео, иat least one video media decoder configured to decode video signals from video streams to present scenes of a VR, AR, MR or panoramic video environment to a user, and

по меньшей мере один декодер 104 аудио, выполненный с возможностью декодировать аудиосигналы (108) по меньшей мере из одного аудиопотока 106,at least one audio decoder 104 configured to decode audio signals (108) from at least one audio stream 106,

причем система 102 выполнена с возможностью запрашивать 112 у сервера 120 по меньшей мере один аудиопоток 106, и/или один аудиоэлемент в аудиопотоке, и/или один адаптационный набор на основе по меньшей мере текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных 110 виртуального положения.wherein the system 102 is configured to request 112 from the server 120 at least one audio stream 106 and/or one audio element in the audio stream and/or one adaptation set based on at least the user's current field of view and/or head orientation and/ or movement data and/or interaction metadata and/or virtual position data 110 .

Нужно отметить, что в средах VR, AR, MR может подразумеваться, что пользователь 140 находится в конкретной среде (например, в конкретной комнате). Среда описывается видеосигналами, которые кодируются, например, на стороне сервера (сторона серверной системы 120, что не обязательно включает в себя серверную систему 120, но может содержать другой кодер, который ранее кодировал видеопотоки, которые после этого были сохранены в хранилище сервера 120). В некоторых примерах в каждый момент пользователь может получать только некоторые видеосигналы (например, поле видимости).It should be noted that in VR, AR, MR environments, it may be assumed that the user 140 is in a specific environment (eg, in a specific room). The environment is described by video signals that are encoded, for example, at the server side (the side of the server system 120, which does not necessarily include the server system 120, but may contain another encoder that previously encoded video streams that were then stored in the storage of the server 120). In some examples, the user may only receive certain video signals at any given moment (eg, field of view).

Вообще говоря, каждая среда может ассоциироваться с конкретной аудиосценой. Аудиосцену можно понимать как совокупность всех звуков, которые нужно воспроизвести для пользователя в конкретной среде и за конкретный период времени.Generally speaking, each environment can be associated with a specific audio scene. An audio scene can be understood as the collection of all the sounds that need to be played for the user in a particular environment and for a particular period of time.

Традиционно среды понимали как дискретное число. Соответственно, количество сред понималось как конечное. По тем же причинам количество аудиосцен понималось как конечное. Поэтому на известном уровне техники системы VR, AR, MR спроектированы так, что:Traditionally, environments were understood as a discrete number. Accordingly, the number of media was understood as finite. For the same reasons, the number of audio scenes was understood to be finite. Therefore, in the prior art, VR, AR, MR systems are designed so that:

- пользователь должен находиться в одной-единственной среде в каждый момент; поэтому для каждой среды:- the user must be in one single environment at a time; so for each environment:

- клиентская система 102 запрашивает у серверной системы 120 только видеопотоки, ассоциированные с одной средой;- the client system 102 requests from the server system 120 only video streams associated with one environment;

- клиентская система 102 запрашивает у серверной системы 120 только аудиопотоки, ассоциированные с одной сценой.- the client system 102 requests from the server system 120 only the audio streams associated with one scene.

Этот подход привел к неудобствам.This approach has led to inconvenience.

Например, все аудиопотоки должны доставляться клиентской системе 102 вместе для каждой сцены/среды, а совсем новые аудиопотоки нужно доставлять, когда пользователь перемещается в другую среду (например, когда пользователь проходит в дверь, подразумевая передачу сред/сцен).For example, all audio streams must be delivered to the client system 102 together for each scene/environment, and completely new audio streams must be delivered when the user moves to another environment (eg, when the user walks through a door, implying a transfer of environments/scenes).

Кроме того, в некоторых случаях появлялось неестественное восприятие: например, когда пользователь находится рядом со стеной (например, виртуальной стеной виртуальной комнаты), он должен воспринимать звуки, идущие с другой стороны стены. Однако это восприятие в традиционных средах невозможно: очевидно, что совокупность аудиопотоков, ассоциированных с текущей сценой, не содержит никакой поток, ассоциированный со смежными средами/сценами.In addition, in some cases, unnatural perception appeared: for example, when the user is next to a wall (for example, a virtual wall of a virtual room), he should perceive sounds coming from the other side of the wall. However, this perception in traditional environments is not possible: it is obvious that the set of audio streams associated with the current scene does not contain any stream associated with adjacent environments/scenes.

С другой стороны, восприятие пользователя обычно улучшается, когда увеличивается скорость передачи битов у аудиопотоков. Это может вызвать дополнительные проблемы: чем выше скорость передачи битов, тем больше полезная нагрузка, которую серверной системе нужно доставлять в клиентскую систему 102. Например, когда аудиосцена содержит несколько аудиоисточников (передаваемых в виде аудиоэлементов), причем некоторые из них расположены возле положения пользователя, а другие - далеко от него, то расположенные далеко источники звука будут слышны меньше. Поэтому доставка всех аудиоэлементов с одинаковой скоростью передачи битов или уровнем качества может приводить к очень высоким скоростям передачи битов. Это означает неэффективную доставку аудиопотока. Если серверная система 120 доставляет аудиопотоки с наивысшей возможной скоростью передачи битов, то получается неэффективная доставка, так как звуки с низким уровнем слышимости или низкой релевантностью к общей аудиосцене все же потребовали бы высокой скорости передачи битов аналогично релевантным звукам, сформированным ближе к пользователю. Поэтому, если бы все аудиопотоки одной сцены доставлялись с наивысшей скоростью передачи битов, то связь между серверной системой 120 и клиентской системой 102 излишне увеличила бы полезную нагрузку. Если все аудиопотоки одной сцены доставляются с более низкой скоростью передачи битов, то восприятие пользователя не будет удовлетворительным.On the other hand, the user experience generally improves when the bit rate of the audio streams is increased. This can cause additional problems: the higher the bit rate, the larger the payload that the server system needs to deliver to the client system 102. For example, when an audio scene contains multiple audio sources (transmitted as audio elements), some of which are located near the user's position, and others are far away from it, then distant sound sources will be heard less. Therefore, delivering all audio elements at the same bit rate or quality level can result in very high bit rates. This means inefficient delivery of the audio stream. If server system 120 delivers audio streams at the highest possible bit rate, then inefficient delivery results because sounds with low audibility or low relevance to the overall audio scene would still require a high bit rate similar to relevant sounds generated closer to the user. Therefore, if all audio streams of a single scene were delivered at the highest bit rate, then communication between server system 120 and client system 102 would unnecessarily increase the payload. If all audio streams of one scene are delivered at a lower bit rate, then the user experience will not be satisfactory.

Проблемы связи усиливают рассмотренное выше неудобство: когда пользователь проходит в дверь, предполагается, что он немедленно меняет среду/сцену, что потребовало бы от серверной системы 120 немедленное предоставление всех потоков клиентской системе 102.Communication problems exacerbate the disadvantage discussed above: when the user passes through the door, it is assumed that he immediately changes the environment / scene, which would require the server system 120 to immediately provide all streams to the client system 102.

Поэтому традиционно было невозможно решить рассмотренные выше проблемы.Therefore, traditionally it was impossible to solve the problems discussed above.

Однако эти проблемы можно решить с помощью данного изобретения: клиентская система 102 предоставляет запрос серверной системе 120, который также может основываться на текущем поле видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения (а не только на среде/сцене). Соответственно, серверная система 120 может предоставлять для каждого момента аудиопотоки, которые нужно вывести, например, для каждого положения пользователя.However, these problems can be solved with the present invention: the client system 102 provides a query to the server system 120, which can also be based on the user's current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data (not just on the environment/scene). Accordingly, the server system 120 may provide for each moment the audio streams to be output, for example, for each user's position.

Например, если пользователь никогда не ходит близко к стене, то клиентской системе 102 не нужно запрашивать потоки соседней среды (например, они могут запрашиваться клиентской системой 102, только когда пользователь подходит к стене). Кроме того, потоки снаружи стены могут обладать уменьшенной скоростью передачи битов, так как они могут звучать на малой громкости. Примечательно, что более релевантные потоки (например, потоки от аудиообъектов в текущей среде) могут доставляться серверной системой 120 клиентской системе 102 с наивысшей скоростью передачи битов и/или наивысшим уровнем качества (в результате того, что менее релевантные потоки передаются с более низкой скоростью передачи битов и/или уровнем качества, оставляя поэтому свободную полосу для более релевантных потоков).For example, if the user never walks close to a wall, then the client system 102 does not need to request neighbor flows (eg, they may only be requested by the client system 102 when the user approaches the wall). In addition, streams outside the wall may have a reduced bit rate as they may be played at low volume. Notably, more relevant streams (e.g., streams from audio objects in the current environment) may be delivered by server system 120 to client system 102 at the highest bit rate and/or highest quality level (as a result of less relevant streams being transmitted at a lower bit rate). bits and/or quality level, thus leaving free bandwidth for more relevant streams).

Более низкий уровень качества можно получить, например, путем уменьшения скорости передачи битов или путем обработки аудиоэлементов таким образом, что сокращаются необходимые данные для передачи, тогда как используемая скорость передачи битов по каждому аудиосигнала остается постоянной. Например, если 10 аудиообъектов располагаются в разных положениях далеко от пользователя, то эти объекты можно смешать в меньшее число сигналов на основе положения пользователя:A lower level of quality can be obtained, for example, by reducing the bit rate or by processing the audio elements in such a way that the necessary data for transmission is reduced, while the bit rate used for each audio signal remains constant. For example, if 10 audio objects are located at different positions far from the user, then these objects can be mixed into fewer signals based on the user's position:

- в положениях, очень удаленных от положения пользователя (например, больше первой пороговой величины) объекты смешиваются в 2 сигнала (возможны другие числа на основе их пространственного положения и семантики) и доставляются как 2 "виртуальных объекта";- at positions very remote from the user's position (eg, greater than the first threshold), objects are mixed into 2 signals (other numbers are possible based on their spatial position and semantics) and delivered as 2 "virtual objects";

- в положениях ближе к положению пользователя (например, меньше первой пороговой величины, но больше второй пороговой величины, которая меньше первой пороговой величины) объекты смешиваются в 5 сигналов (на основе их пространственного положения и семантики) и доставляются как 5 (возможны другие числа) "виртуальных объектов";- at positions closer to the user's position (e.g. less than the first threshold but greater than a second threshold that is less than the first threshold) objects are mixed into 5 signals (based on their spatial position and semantics) and delivered as 5 (other numbers are possible) "virtual objects";

- в положениях очень близко к положениям пользователя (меньше первой и второй пороговых величин) 10 объектов доставляются как 10 аудиосигналов с наивысшим качеством.- in positions very close to the positions of the user (less than the first and second thresholds), 10 objects are delivered as 10 audio signals with the highest quality.

Хотя для наивысшего качества все аудиосигналы могут считаться очень важными и слышимыми, пользователь может отдельно определять местонахождение каждого объекта. Для более низких уровней качества в удаленных положениях некоторые аудиообъекты могут становиться менее релевантными или менее слышимыми, поэтому пользователь никак не смог бы отдельно определить местонахождение аудиосигналов в пространстве, и поэтому снижение уровня качества для доставки этих аудиосигналов не привело бы ни к какому снижению качества восприятия для пользователя.Although all audio signals can be considered very important and audible for the highest quality, the user can separately locate each object. For lower quality levels at distant locations, some audio objects may become less relevant or less audible, so there is no way for the user to separately locate audio signals in space, and therefore reducing the quality level for delivering these audio signals would not result in any reduction in perceptual quality for user.

Другой пример про то, когда пользователь выходит за дверь: в переходном положении (например, на границе между двумя разными средами/сценами) серверная система 120 предоставит оба потока обоих сцен/сред, но с более низкими скоростями передачи битов. Причина в том, что пользователь будет воспринимать звуки из двух разных сред (звуки могут соединяться из разных аудиопотоков, первоначально ассоциированных с разными сценами/средами), и не возникает потребности в наивысшем уровне качества у каждого источника звука (или аудиоэлемента).Another example is when the user walks out the door: in a transitional position (eg, at the boundary between two different environments/scenes), server system 120 will provide both streams of both scenes/media, but at lower bit rates. The reason is that the user will perceive sounds from two different environments (sounds can be combined from different audio streams originally associated with different scenes/environments), and there is no need for the highest level of quality for each sound source (or audio element).

В связи с вышеизложенным изобретение позволяет превзойти традиционный подход с дискретным числом визуальных сред и аудиосцен, но может позволить постепенное представление разных сред/сцен, создавая более реалистичное восприятие у пользователя.In view of the foregoing, the invention overcomes the traditional approach of a discrete number of visual environments and audio scenes, but can allow gradual presentation of different environments/scenes, creating a more realistic experience for the user.

В этом документе считается, что каждая визуальная среда (например, виртуальная среда) ассоциируется с аудиосценой (атрибуты сред также могут быть атрибутами сцены). Каждая среда/сцена может ассоциироваться, например, с геометрической системой координат (которая может быть виртуальной геометрической системой координат). Среда/сцена может иметь границы, чтобы получалась другая среда/сцена, когда положение пользователя (например, виртуальное положение) выходит за границы. Границы могут основываться на используемой системе координат. Среда может содержать аудиообъекты (аудиоэлементы, источники звука), которые могут располагаться в некоторых конкретных координатах среды/сцены. Например, по отношению к относительному положению и/или ориентации пользователя относительно аудиообъектов (аудиоэлементов, источников звука) клиентская система 102 может запрашивать разные потоки, и/или серверная система 120 может предоставлять разные потоки (например, с более высокими/более низкими скоростями передачи битов и/или уровнями качества в соответствии с расстоянием и/или ориентацией).In this document, each visual environment (eg, virtual environment) is considered to be associated with an audio scene (environment attributes can also be scene attributes). Each environment/scene may be associated with, for example, a geometric coordinate system (which may be a virtual geometric coordinate system). The environment/scene may have boundaries so that a different environment/scene is obtained when the user's position (eg, virtual position) is out of bounds. Boundaries can be based on the coordinate system used. The environment may contain audio objects (audio elements, sound sources) that may be located at some specific environment/scene coordinates. For example, with respect to the relative position and/or orientation of the user relative to audio objects (audio elements, audio sources), client system 102 may request different streams, and/or server system 120 may provide different streams (e.g., higher/lower bit rates). and/or quality levels according to distance and/or orientation).

В общих чертах клиентская система 102 может запрашивать и/или получать от серверной системы 120 разные потоки (например, разные представления одних и тех же звуков с разными скоростями передачи битов и/или уровнями качества) на основе их слышимости и/или релевантности. Слышимость и/или релевантность может определяться, например, на основе по меньшей мере текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения.In general, client system 102 may request and/or receive from server system 120 different streams (eg, different representations of the same sounds at different bit rates and/or quality levels) based on their audibility and/or relevance. Audibility and/or relevance may be determined, for example, based on at least the user's current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data.

В нескольких примерах существует возможность соединения разных потоков. В нескольких случаях имеется возможность составления, или смешивания, или мультиплексирования, или наложения, или объединения по меньшей мере двух сцен. Существует, например, возможность использования смесителя и/или блока вывода (который может использоваться, например, после нескольких декодеров, декодирующих по меньшей мере один аудиопоток) либо выполнение операции мультиплексирования потоков, например, перед декодированием потоков. В других случаях может быть возможность декодирования разных потоков и их вывода при разных настройках громкоговорителей.In several examples, it is possible to connect different streams. In several cases, it is possible to compose, or mix, or multiplex, or overlay, or combine at least two scenes. There is, for example, the possibility of using a mixer and/or an output unit (which may be used, for example, after several decoders decoding at least one audio stream) or performing a stream multiplexing operation, for example, before decoding the streams. In other cases, it may be possible to decode different streams and output them with different speaker settings.

Нужно отметить, что настоящее изобретение не обязательно отвергает концепцию визуальной среды и аудиосцены. В частности, с помощью изобретения аудио- и видеопотоки, ассоциированные с конкретной сценой/средой, могут доставляться от серверной системы 120 клиентской системе 102, когда пользователь входит в среде/сцену. Тем не менее, в одной и той же среде/сцене можно запрашивать, обращаться и/или доставлять разные аудиопотоки, и/или аудиообъекты, и/или адаптационные наборы. В частности, может быть так, что:It should be noted that the present invention does not necessarily override the concept of a visual environment and an audio scene. In particular, with the invention, audio and video streams associated with a particular scene/environment can be delivered from server system 120 to client system 102 when a user enters the environment/scene. However, different audio streams and/or audio objects and/or adaptation sets may be requested, accessed and/or delivered in the same environment/scene. In particular, it could be that:

- по меньшей мере некоторые видеоданные, ассоциированные с визуальной средой, доставляются от сервера 120 клиенту 102 при входе пользователя в сцену; и/или- at least some video data associated with the visual environment is delivered from the server 120 to the client 102 when the user enters the scene; and/or

- по меньшей мере некоторые аудиоданные (потоки, объекты, адаптационные наборы, …) доставляются клиентской системе 102 только на основе текущего (или будущего) поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или виртуального положения, и/или выбора/взаимодействия пользователя; и/или- at least some audio data (streams, objects, adaptation sets, ...) are delivered to the client system 102 based only on the current (or future) field of view, and/or head orientation, and/or movement data, and/or metadata, and/ or virtual position, and/or user selection/interaction; and/or

- (в некоторых случаях): некоторые аудиоданные доставляются клиентской системе 102 на основе текущей сцены (независимо от текущего или будущего положения, или поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или виртуального положения, и/или выбора пользователя), тогда как оставшиеся аудиоданные доставляются на основе текущего или будущего поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или виртуального положения, и/или выбора пользователя.- (in some cases): some audio data is delivered to the client system 102 based on the current scene (regardless of the current or future position, or field of view, and/or head orientation, and/or movement data, and/or metadata, and/or virtual position and/or user selection), while the remaining audio data is delivered based on the current or future field of view and/or head orientation and/or movement data and/or metadata and/or virtual position and/or user selection .

Нужно отметить, что различные элементы (серверная система, клиентская система, MCD и т.п.) могут представлять собой элементы в разных аппаратных устройствах или даже в одних и тех же устройствах (например, клиент и MCD можно реализовать как часть одного мобильного телефона, или аналогичным образом клиент может находиться в ПК, подключенном к вспомогательному экрану, который содержал бы MCD).It should be noted that different elements (server system, client system, MCD, etc.) may be elements in different hardware devices or even in the same devices (for example, client and MCD can be implemented as part of the same mobile phone, or similarly, the client could be in a PC connected to an auxiliary screen that would contain an MCD).

ПримерыExamples

Один вариант осуществления системы 102 (клиента), как показано на фиг. 1.1, выполнен с возможностью принимать (аудио) потоки 106 на основе заданного положения в некой среде (например, виртуальной среде), которую можно понимать как ассоциированную с видео- и аудиосценой (в дальнейшем называемой сценой 150). Разные положения в одной и той же сцене 150 обычно подразумевают разные потоки 106 или разные метаданные, ассоциированные с потоками 106, которые нужно предоставить декодеру 104 аудио в системе 102 (например, от медиа-сервера 120). Система 102 подключается к мультимедийному бытовому прибору (MCD), от которого принимает обратную связь, ассоциированную с положением и/или виртуальным положением пользователя в той же среде. В дальнейшем положение пользователя в среде может ассоциироваться с конкретным полем видимости, которое нравится пользователю (предполагаемое поле видимости, например, поверхность, предполагаемую в виде прямоугольной поверхности, проецируемой на сферу, которая представляется пользователю).One embodiment of system 102 (client), as shown in FIG. 1.1 is configured to receive (audio) streams 106 based on a given position in an environment (eg, virtual environment) that can be understood to be associated with a video and audio scene (hereinafter referred to as scene 150). Different locations in the same scene 150 typically imply different streams 106 or different metadata associated with streams 106 to be provided to audio decoder 104 in system 102 (eg, from media server 120). System 102 connects to a multimedia home appliance (MCD) from which it receives feedback associated with the user's position and/or virtual position in the same environment. Further, the user's position in the environment may be associated with a particular field of view that the user likes (the intended field of view, eg, a surface assumed to be a rectangular surface projected onto a sphere that is presented to the user).

В примерном сценарии, когда пользователь перемещается по сцене 150 VR, AR и/или MR, аудиоконтент можно представить как виртуально формируемый одним или более аудиоисточниками 152, которые могут меняться. Аудиоисточники 152 можно понимать как виртуальные аудиоисточники в том смысле, что они могут относиться к положениям в виртуальной среде: выведение каждого аудиоисточник приспосабливается к положению пользователя (например, в упрощенном пояснении уровень аудиоисточника выше, когда пользователь находится ближе к положению аудиоисточника, и ниже, когда пользователь более отдален от аудиоисточника). Каждый аудиоэлемент (аудиоисточник), тем не менее, кодируется в аудиопотоки, которые предоставляются декодеру. Аудиопотоки могут ассоциироваться с различными положениями и/или областями в сцене. Например аудиоисточники 152, которые не слышны в одной сцене, можно услышать в следующей сцене, например, когда открывается дверь в сцену 150 VR, AR и/или MR. Тогда пользователь может решить войти в новую сцену/среду 150 (например, комнату), и меняется вся аудиосцена. С целью описания этого сценария термин "дискретные точки наблюдения в пространстве" может использоваться в качестве дискретного местоположения в пространстве (или в VR-среде), для которого доступен разный аудиоконтент.In an exemplary scenario, as the user navigates through the VR, AR and/or MR scene 150, the audio content can be imagined as being virtually generated by one or more audio sources 152, which may change. The audio sources 152 can be understood as virtual audio sources in that they can refer to positions in a virtual environment: the output of each audio source is adjusted to the position of the user (e.g., in a simplified explanation, the level of the audio source is higher when the user is closer to the position of the audio source, and lower when the user is further away from the audio source). Each audio element (audio source), however, is encoded into audio streams that are provided to the decoder. Audio streams may be associated with different positions and/or regions in a scene. For example, audio sources 152 that are not heard in one scene can be heard in the next scene, such as when the door to VR, AR and/or MR scene 150 is opened. The user may then decide to enter a new scene/environment 150 (eg, a room) and the entire audio scene changes. For the purpose of describing this scenario, the term "discrete viewpoints in space" can be used as a discrete location in space (or VR environment) for which different audio content is available.

Вообще говоря, медиа-сервер 120 может предоставлять потоки 106, ассоциированные с конкретной сценой 150, на основе положения пользователя в сцене 150. Потоки 106 могут кодироваться по меньшей мере одним кодером 154 и предоставляться медиа-серверу 120. Медиа-сервер 120 может передавать потоки 113 с помощью связей 113 (например, по сети связи). Предоставление потоков 113 может основываться на запросах 112, поданных системой 102 на основе положения 110 пользователя (например, в виртуальной среде). Положение 110 пользователя также можно понимать как ассоциируемое с полем видимости, которое нравится пользователю (так как для каждого положения имеется один-единственный прямоугольник, который представляется), и с точкой наблюдения (так как точка наблюдения является центром поля видимости). Поэтому предоставление поля видимости в некоторых примерах может быть таким же, как предоставление положения.Generally speaking, media server 120 may provide streams 106 associated with a particular scene 150 based on a user's position in scene 150. Streams 106 may be encoded by at least one encoder 154 and provided to media server 120. Media server 120 may stream 113 using connections 113 (for example, over a communication network). The provision of streams 113 may be based on requests 112 submitted by the system 102 based on the location 110 of the user (eg, in a virtual environment). The user's position 110 can also be understood to be associated with a field of view that the user likes (because there is a single rectangle for each position that is represented), and with a viewpoint (because the viewpoint is the center of the view). Therefore, providing a field of view in some examples may be the same as providing a position.

Система 102, как показано на фиг. 1.2, выполнена с возможностью принимать (аудио) потоки 113 на основе другой конфигурации на стороне клиента. В этой примерной реализации на кодирующей стороне предоставляется множество медиа-кодеров 154, которое может использоваться для создания одного или более потоков 106 для каждой доступной сцены 150, ассоциированной с одной частью звуковой сцены у одной точки наблюдения.System 102, as shown in FIG. 1.2 is configured to receive (audio) streams 113 based on a different configuration on the client side. In this exemplary implementation, a plurality of media encoders 154 are provided on the encoding side, which can be used to create one or more streams 106 for each available scene 150 associated with one part of the soundstage at one viewpoint.

Медиа-сервер 120 может хранить несколько адаптационных наборов аудио и (не показано) видео, содержащих разные кодирования одних и тех же аудио- и видеопотоков с разными скоростями передачи битов. Более того, медиа-сервер может содержать описательную информацию обо всех адаптационных наборах, которая может включать в себя доступность всех созданных адаптационных наборов. Адаптационные наборы могут включать в себя также информацию, описывающую ассоциацию одного адаптационного набора с одной конкретной аудиосценой и/или точкой наблюдения. Таким образом, каждый адаптационный набор может ассоциироваться с одной из доступных аудиосцен.Media server 120 may store multiple audio and (not shown) video adaptation sets containing different encodings of the same audio and video streams at different bit rates. Moreover, the media server may contain descriptive information about all adaptation sets, which may include the availability of all created adaptation sets. The adaptation sets may also include information describing the association of one adaptation set with one particular audio scene and/or viewpoint. Thus, each adaptation set may be associated with one of the available audio scenes.

Кроме того, адаптационные наборы могут включать в себя информацию, описывающую границы каждой аудиосцены и/или точки наблюдения, которая может содержать, например, законченную аудиосцену или только отдельные аудиообъекты. Границы одной аудиосцены могут задаваться, например, в виде геометрических координат сферы (например, центр и радиус).In addition, adaptation sets may include information describing the boundaries of each audio scene and/or viewpoint, which may contain, for example, a complete audio scene or only individual audio objects. The boundaries of one audio scene can be specified, for example, in the form of geometric coordinates of a sphere (eg, center and radius).

Система 102 на стороне клиента может принимать информацию о текущем поле видимости, и/или ориентации головы, и/или данные перемещения, и/или метаданные взаимодействия, и/или о виртуальном положении пользователя, или любую информацию, описывающую изменения, вызванные действиями пользователя. Кроме того, система 102 также может принимать информацию о доступности всех адаптационных наборов и информацию, описывающую ассоциацию одного адаптационного набора с одной аудиосценой и/или точкой наблюдения; и/или информацию, описывающую "границы" каждой аудиосцены и/или точки наблюдения (которая может содержать, например, законченную аудиосцену или только отдельные объекты). Например, в случае среды доставки DASH такая информация может предоставляться как часть синтаксиса XML Описания представления мультимедиа (MPD).The client-side system 102 may receive information about the current field of view and/or head orientation and/or movement data and/or interaction metadata and/or the user's virtual position, or any information describing changes caused by user actions. In addition, the system 102 may also receive information about the availability of all adaptation sets and information describing the association of one adaptation set with one audio scene and/or viewpoint; and/or information describing the "boundaries" of each audio scene and/or viewpoint (which may include, for example, a complete audio scene or only individual objects). For example, in the case of a DASH delivery environment, such information may be provided as part of the Media Presentation Description (MPD) XML syntax.

Система 102 может предоставлять аудиосигнал мультимедийному устройству (MCD), используемому для потребления контента. Мультимедийное устройство также отвечает за сбор информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения (или любой информации, описывающей изменения, вызванные действиями пользователя) в виде данных 110 о положении и переходе.System 102 may provide an audio signal to a multimedia device (MCD) used for content consumption. The multimedia device is also responsible for collecting information about the user's location and/or orientation and/or direction of movement (or any information describing the changes caused by the user's actions) in the form of position and transition data 110.

Процессор 1232 поля видимости может быть выполнен с возможностью принимать от мультимедийного устройства упомянутые данные 110 о положении и переходе. Процессор 1232 поля видимости также может принимать информацию о ROI, сигнализированную в метаданных, и всю информацию, доступную на принимающей стороне (система 102). Тогда процессор 1232 поля видимости может на основе всей информации, принятой и/или выведенной из принятых и/или доступных метаданных, решать, какую точку наблюдения аудио ему следует воспроизводить в некоторый момент времени. Например, процессор 1232 поля видимости может решить, что нужно воспроизвести одну законченную аудиосцену, одну новую аудиосцену 108 нужно создать из всех доступных аудиосцен, например, только некоторые аудиоэлементы из нескольких аудиосцен нужно воспроизвести, тогда как другие оставшиеся аудиоэлементы из этих аудиосцен воспроизводить не нужно. Процессор 1232 поля видимости также может решить, нужно ли воспроизводить переход между двумя или более аудиосценами.The field of view processor 1232 may be configured to receive said position and transition data 110 from the multimedia device. The field of view processor 1232 may also receive the ROI information signaled in the metadata and all information available at the receiving end (system 102). The viewport processor 1232 can then, based on all the information received and/or derived from the received and/or available metadata, decide which viewpoint of the audio it should play at some point in time. For example, the view processor 1232 may decide that one complete audio scene needs to be played, one new audio scene 108 needs to be created from all available audio scenes, e.g., only some audio elements from multiple audio scenes need to be played, while other remaining audio elements from these audio scenes do not need to be played. The field of view processor 1232 can also decide whether to play a transition between two or more audio scenes.

Выборная часть 1230 может предоставляться для выбора на основе информации, принятой от процессора 1232 поля видимости, одного или более адаптационных наборов из доступных адаптационных наборов, которые сигнализированы в информации, принятой принимающей стороной; при этом выбранные адаптационные наборы полностью описывают аудиосцену, которую следует воспроизводить в текущем местоположении пользователя. Эта аудиосцена может быть законченной аудиосценой, которая задана на кодирующей стороне, или может потребоваться создать новую аудиосцену из всех доступных аудиосцен.Elective portion 1230 may be provided to select, based on information received from field of view processor 1232, one or more adaptation sets from available adaptation sets that are signaled in the information received by the receiving end; the selected adaptation sets fully describe the audio scene to be played at the user's current location. This audio scene may be a complete audio scene that is defined on the encoding side, or it may be necessary to create a new audio scene from all available audio scenes.

Более того, в случае, когда на основе указания от процессора 1232 поля видимости предстоит переход между двумя или более аудиосценами, выборная часть может быть выполнена с возможностью выбирать один или более адаптационных наборов из доступных адаптационных наборов, которые сигнализированы в информации, принятой принимающей стороной; при этом выбранные адаптационные наборы полностью описывают аудиосцену, которую может потребоваться воспроизвести в ближайшем будущем (например, если пользователь идет в направлении следующей аудиосцены с некоторой скоростью, то можно предсказать, что потребуется следующая аудиосцена, и она выбирается перед воспроизведением).Moreover, in the case where, based on an indication from the field of view processor 1232, there is a transition between two or more audio scenes, the selective part may be configured to select one or more adaptation sets from the available adaptation sets that are signaled in the information received by the receiving party; the selected adaptation sets fully describe an audio scene that may need to be played in the near future (for example, if the user walks towards the next audio scene at some speed, then it can be predicted that the next audio scene will be required and is selected before playback).

Более того, сначала можно выбрать некоторые адаптационные наборы, соответствующие соседним местоположениям, с более низкой скоростью передачи битов и/или более низким уровнем качества, например представление, кодированное с более низкой скоростью передачи битов, выбирается из доступных представлений в одном адаптационном наборе, и на основе изменений положения качество увеличивается путем выбора более высокой скорости передачи битов для тех определенных адаптационных наборов, например представление, кодированное с более высокой скоростью передачи битов, выбирается из доступных представлений в одном адаптационном наборе.Moreover, some adaptation sets corresponding to neighboring locations with a lower bit rate and/or a lower quality level may first be selected, for example, a lower bit rate encoded representation is selected from the available representations in one adaptation set, and on based on position changes, quality is increased by selecting a higher bit rate for those specific adaptation sets, eg a representation encoded at a higher bit rate is selected from the available representations in one adaptation set.

Может предоставляться загружающая и переключающая часть 1234 для запроса у медиа-сервера одного или более адаптационных наборов из доступных адаптационных наборов на основе указания, принятого от выборной части, конфигурируемая для приема одного или более адаптационных наборов из доступных адаптационных наборов от медиа-сервера и извлечения метаданных из всех принятых аудиопотоков.A loading and switching part 1234 may be provided to query the media server for one or more adaptation sets from the available adaptation sets based on an indication received from the elective part, configurable to receive one or more adaptation sets from the available adaptation sets from the media server and retrieve metadata from all received audio streams.

Процессор 1236 метаданных может предоставляться для приема от загружающей и переключающей части информации о принятых аудиопотоках, которая может включать в себя метаданные аудио, соответствующие каждому принятому аудиопотоку. Процессор 1236 метаданных также может быть выполнен с возможностью обрабатывать метаданные аудио, ассоциированные с каждым аудиопотоком 113, на основе принятой от процессора 1232 поля видимости информации, которая может включать в себя информацию о местоположении пользователя, и/или ориентации, и/или направлении 110 перемещения, чтобы выбирать/включать необходимые аудиоэлементы 152, составляющие новую аудиосцену, которая указана процессором 1232 поля видимости, и разрешать соединение всех аудиопотоков 113 в единый аудиопоток 106.A metadata processor 1236 may be provided to receive from the download and switch portion information about received audio streams, which may include audio metadata corresponding to each received audio stream. Metadata processor 1236 may also be configured to process audio metadata associated with each audio stream 113 based on information received from field of view processor 1232, which may include information about the user's location and/or orientation and/or direction of movement 110 to select/include the necessary audio elements 152 that make up the new audio scene that is specified by the field of view processor 1232, and allow the connection of all audio streams 113 into a single audio stream 106.

Мультиплексор/устройство 1238 соединения потоков может быть выполнено с возможностью соединять все выбранные аудиопотоки в один аудиопоток 106 на основе принятой от процессора 1236 метаданных информации, которая может включать в себя измененные и обработанные метаданные аудио, соответствующие всем принятым аудиопотокам 113.The multiplexer/stream connector 1238 may be configured to combine all selected audio streams into one audio stream 106 based on the information received from the metadata processor 1236, which may include modified and processed audio metadata corresponding to all received audio streams 113.

Медиа-декодер 104 выполнен с возможностью принимать и декодировать по меньшей мере один аудиопоток для воспроизведения новой аудиосцены, которая указана процессором 1232 поля видимости, на основе информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения.The media decoder 104 is configured to receive and decode at least one audio stream to reproduce a new audio scene, which is indicated by the field of view processor 1232, based on information about the user's location and/or orientation and/or movement direction.

В другом варианте осуществления система 102, как показано на фиг. 1.7, может быть выполнена с возможностью принимать аудиопотоки 106 с разными скоростями передачи битов и/или уровнями качества аудио. Аппаратная конфигурация этого варианта осуществления аналогична конфигурации из фиг. 1.2. По меньшей мере одна сцена 152 визуальной среды может ассоциироваться по меньшей мере с одним множеством из N аудиоэлементов (N>=2), при этом каждый аудиоэлемент ассоциируется с положением и/или областью в визуальной среде. По меньшей мере одно множество из N аудиоэлементов 152 предоставляется по меньшей мере в одном представлении с высокой скоростью передачи битов и/или уровнем качества, и где по меньшей мере одно множество из N аудиоэлементов 152 предоставляется по меньшей мере в одном представлении с низкой скоростью передачи битов и/или уровнем качества, где по меньшей мере одно представление получается путем обработки N аудиоэлементов 152, чтобы получить меньшее число M аудиоэлементов 152 (M<N), ассоциированных с положением или областью, близкой к положению или области N аудиоэлементов 152.In another embodiment, system 102, as shown in FIG. 1.7 may be configured to receive audio streams 106 with different bit rates and/or audio quality levels. The hardware configuration of this embodiment is similar to that of FIG. 1.2. At least one scene 152 of the visual environment may be associated with at least one set of N audio elements (N>=2), with each audio element associated with a position and/or area in the visual environment. At least one set of N audio elements 152 is provided in at least one high bit rate and/or quality level representation, and where at least one set of N audio elements 152 is provided in at least one low bit rate representation and/or a quality level, where at least one representation is obtained by processing N audio elements 152 to obtain a smaller number M of audio elements 152 (M<N) associated with a position or area close to the position or area of N audio elements 152.

Обработка N аудиоэлементов 152 могла быть, например, простым сложением аудиосигналов, или могла быть активным понижающим микшированием на основе их пространственного положения 110, или выведением аудиосигналов с использованием их пространственного положения в новом виртуальном положении, расположенном между аудиосигналами. Система может быть выполнена с возможностью запрашивать представление с более высокой скоростью передачи битов и/или уровнем качества для аудиоэлементов, если аудиоэлементы более релевантны и/или лучше слышны в текущем виртуальном положении пользователя в сцене, причем система выполнена с возможностью запрашивать представление с более низкой скоростью передачи битов и/или уровнем качества для аудиоэлементов, если аудиоэлементы менее релевантны и/или хуже слышны в текущем виртуальном положении пользователя в сцене.The processing of the N audio elements 152 could be, for example, a simple addition of the audio signals, or could be an active downmix based on their spatial position 110, or a derivation of the audio signals using their spatial position at a new virtual position located between the audio signals. The system may be configured to request a presentation at a higher bit rate and/or quality level for audio elements if the audio elements are more relevant and/or better audible at the user's current virtual position in the scene, the system being configured to request a representation at a lower rate. bitrate and/or quality level for the audio elements if the audio elements are less relevant and/or less audible in the user's current virtual position in the scene.

Фиг. 1.8 показывает пример системы (которая может быть системой 102), показывающий систему 102 для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного видео, сконфигурированную для приема видеопотоков 1800 и аудиопотоков 106 для воспроизведения в мультимедийном устройстве,Fig. 1.8 shows an example system (which may be system 102) showing a system 102 for a virtual reality, VR, augmented reality, AR, mixed reality, MR, or 360 video environment configured to receive video streams 1800 and audio streams 106 for playback on a multimedia device,

причем система 102 может содержать:wherein the system 102 may comprise:

по меньшей мере один медиа-декодер 1804 видео, выполненный с возможностью декодировать видеосигналы 1808 из видеопотоков 1800 для представления пользователю среды VR, AR, MR или панорамного видео, иat least one video media decoder 1804 configured to decode video signals 1808 from video streams 1800 to present a VR, AR, MR or panoramic video environment to the user, and

по меньшей мере один декодер 104 аудио, выполненный с возможностью декодировать аудиосигналы 108 по меньшей мере из одного аудиопотока 106.at least one audio decoder 104 configured to decode audio signals 108 from at least one audio stream 106.

Система 102 может быть выполнена с возможностью запрашивать (112) у сервера (например, 120) по меньшей мере один аудиопоток 106, и/или один аудиоэлемент в аудиопотоке, и/или один адаптационный набор на основе по меньшей мере текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных 110 виртуального положения (например, предоставленных в качестве обратной связи от мультимедийного устройства 180).System 102 may be configured to request (112) from a server (e.g., 120) at least one audio stream 106 and/or one audio element in the audio stream and/or one adaptation set based on at least the user's current field of view, and /or head orientation and/or movement data and/or interaction metadata and/or virtual position data 110 (eg, provided as feedback from multimedia device 180).

Система 102 может быть такой же, как система 102 из фиг. 1.1-1.7, и/или получать сценарии из фиг. 2a и последующих.System 102 may be the same as system 102 of FIG. 1.1-1.7 and/or receive scripts from FIG. 2a and following.

Настоящие примеры также относятся к способу для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного видео, сконфигурированному для приема видео- и аудиопотоков для воспроизведения в мультимедийном устройстве [например, воспроизводящем устройстве], содержащему:The present examples also relate to a method for a virtual reality, VR, augmented reality, AR, mixed reality, MR, or 360 video environment configured to receive video and audio streams for playback on a multimedia device [e.g., playback device], comprising:

декодирование видеосигналов из видеопотоков для представления пользователю сцен среды VR, AR, MR или панорамного видео, иdecoding video signals from video streams to present scenes of a VR, AR, MR or panoramic video environment to the user, and

декодирование аудиосигналов из аудиопотоков,decoding audio signals from audio streams,

запрос и/или получение от сервера по меньшей мере одного аудиопотока на основе текущего поля видимости пользователя, и/или данных о положении, и/или ориентации головы, и/или данных перемещения, и/или метаданных, и/или данных виртуального положения, и/или метаданных.requesting and/or receiving from the server at least one audio stream based on the user's current field of view and/or position data and/or head orientation and/or movement data and/or metadata and/or virtual position data, and/or metadata.

Случай 1Case 1

Разные сцены/среды 150 обычно подразумевают прием разных потоков 106 от сервера 120. Однако потоки 106, принимаемые декодером 104 аудио, также могут быть обусловлены положением пользователя в одной и той же сцене 150.Different scenes/environments 150 typically involve receiving different streams 106 from server 120. However, streams 106 received by audio decoder 104 can also be based on the user's position in the same scene 150.

В первый (начальный) момент (t=t₁), показанный на фиг. 2a, пользователь располагается, например, в сцене 150 с первым заданным положением в VR-среде (или AR-среде, или MR-среде). В декартовой системе XYZ (например, горизонтальной) первое поле 110’ видимости (положение) пользователя ассоциируется с координатами x’_u и y’_u (ось Z здесь ориентирована выходящей из листа). В этой первой сцене 150 располагаются два аудиоэлемента 152-1 и 152-1 с соответствующими координатами x’₁ и y’₁ для аудиоэлемента 1 (152-1) и x’₂ и y’₂ для аудиоэлемента 2 (152-2). Расстояние d’₁ от пользователя до аудиоэлемента 1 (152-1) меньше расстояния d’₂ (152-1) от пользователя до аудиоэлемента 2. Все данные о положении пользователя (поле видимости) передаются от MCD в систему 102.At the first (initial) moment (t=t ₁ ), shown in FIG. 2a, the user is located, for example, in the scene 150 with the first predetermined position in the VR environment (or AR environment or MR environment). In an XYZ Cartesian system (eg, horizontal), the user's first field of view (position) 110' is associated with x' _u and y' _u coordinates (the Z-axis here is oriented out of the sheet). In this first scene 150, two audio elements 152-1 and 152-1 are located with respective coordinates x' ₁ and y' ₁ for audio element 1 (152-1) and x' ₂ and y' ₂ for audio element 2 (152-2). The distance d' ₁ from the user to audio element 1 (152-1) is less than the distance d' ₂ (152-1) from the user to audio element 2. All data about the position of the user (field of view) is transmitted from the MCD to the system 102.

Во второй примерный момент (t=t₂), показанный на фиг. 2b, пользователь располагается, например, в той же сцене 150, но во втором, отличном положении. В декартовой системе XY второе поле 110” видимости (положение) пользователя ассоциируется с новыми координатами x”_u и y”_u (ось Z здесь ориентирована выходящей из листа). Теперь расстояние d”₁ пользователя от аудиоэлемента 1 (152-1) больше расстояния d”₂ пользователя от аудиоэлемента 2 (152-2). Все данные о положении пользователя (поле видимости) опять передаются от MCD в систему 102.At the second exemplary time (t=t ₂ ) shown in FIG. 2b, the user is located, for example, in the same scene 150, but in a second, different position. In the XY Cartesian system, the user's second field of visibility (position) 110” is associated with new x” _u and y” _u coordinates (the Z-axis here is oriented out of the sheet). Now the distance d” ₁ of the user from audio element 1 (152-1) is greater than the distance d” ₂ of the user from audio element 2 (152-2). All data about the position of the user (field of view) is again transmitted from the MCD to the system 102.

Пользователь, оснащенный упомянутым MCD для визуализации некоторого поля видимости в панорамной среде, может слушать, например, через наушники. Пользователю может нравиться воспроизведение разных звуков для разных положений, изображенных на фиг. 2a и 2b, одной и той же сцены 150.A user equipped with said MCD to visualize a certain field of view in a panoramic environment can listen through headphones, for example. The user may enjoy playing different sounds for different positions shown in FIG. 2a and 2b, of the same scene 150.

Любое положение, и/или любой переход, и/или поле видимости, и/или виртуальное положение, и/или ориентация головы, и/или данные перемещения в сцене, например, от фиг. 2a к 2b, могут передаваться периодически (например, в обратной связи) от MCD в систему 102 (клиент) в виде сигнала 110. Клиент может повторно передавать данные 110’ или 110” о положении и переходе (например, данные поля видимости) серверу 120. Клиент 102 либо сервер 120 на основе данных 110’ или 110” о положении и переходе (например, данных поля видимости) может решать, какие аудиопотоки 106 необходимы для воспроизведения правильной аудиосцены в текущем положении пользователя. Клиент мог бы выбирать и передавать запрос 112 соответствующего аудиопотока 106, тогда как сервер 120 может быть выполнен с возможностью доставлять соответственно поток (потоки) 106 в зависимости от информации о положении, предоставленной клиентом (системой 102). В качестве альтернативы сервер 120 мог бы выбирать и доставлять соответственно поток (потоки) 106 в зависимости от информации о положении, предоставленной клиентом (системой 102).Any position and/or any transition and/or field of view and/or virtual position and/or head orientation and/or movement data in the scene, such as from FIG. 2a to 2b may be transmitted periodically (eg, in feedback) from the MCD to the system 102 (client) as a signal 110. The client may retransmit position and transition data 110' or 110" (eg, field of view data) to the server 120 The client 102 or server 120 can decide based on position and transition data 110' or 110'' (eg field of view data) which audio streams 106 are needed to play the correct audio scene at the user's current position. The client could select and request 112 the appropriate audio stream 106, while the server 120 could be configured to deliver the appropriate stream(s) 106 depending on the position information provided by the client (system 102). Alternatively, server 120 could select and deliver stream(s) 106 accordingly, depending on position information provided by the client (system 102).

Клиент (система 102) может запрашивать передачу потоков, которые нужно декодировать для представления сцены 150. В некоторых примерах система 102 может передавать информацию о наивысшем уровне качества для воспроизведения на MCD (в других примерах это делает сервер 120, который выбирает уровень качества для воспроизведения на MCD на основе положения пользователя в сцене). В ответ сервер 120 может выбрать одно из множества представлений, ассоциированных с представляемой аудиосценой, чтобы доставить по меньшей мере один поток 106 в соответствии с положением 110’ или 110” пользователя. Поэтому клиент (система 102) может быть выполнен с возможностью доставлять аудиосигнал 108 пользователю, например посредством декодера 104 аудио, чтобы воспроизвести звук, ассоциированный с фактическим (действующим) положением 110’ или 110”. (Можно использовать адаптационные наборы 113: разные варианты одних и тех же потоков, например, с разными скоростями передачи битов, можно использовать для разных положений пользователя).The client (system 102) may request the transmission of streams to be decoded to represent scene 150. In some examples, system 102 may send information about the highest quality level for playback on the MCD (in other examples, this is done by the server 120, which selects the quality level for playback on MCD based on the user's position in the scene). In response, the server 120 may select one of a plurality of views associated with the presented audio scene to deliver at least one stream 106 according to the user's position 110' or 110'. Therefore, the client (system 102) may be configured to deliver the audio signal 108 to the user, for example via the audio decoder 104, to reproduce the audio associated with the actual (actual) position 110' or 110'. (Adaptation sets 113 may be used: different versions of the same streams, for example with different bit rates, may be used for different user positions).

Потоки 106 (которые могут предварительно обрабатываться или оперативно формироваться) могут передаваться клиенту (системе 102) и могут конфигурироваться для множества точек наблюдения, ассоциированных с некоторыми звуковыми сценами.Streams 106 (which may be pre-processed or generated online) may be transmitted to the client (system 102) and may be configured for multiple viewpoints associated with some sound scenes.

Отмечалось, что разные качества (например, разные скорости передачи битов) могут предоставляться для разных потоков 106 в соответствии с конкретным положением (например, 110’ или 110”) пользователя в среде (например, виртуальной). Например: в случае множества аудиоисточников 152-1 и 152-2 каждый аудиоисточник 152-1 и 152-2 может ассоциироваться с конкретным положением в сцене 150. Чем ближе положение 110’ или 110’ пользователя к первому аудиоисточнику 152-1, тем больше необходимое разрешение и/или качество потока, ассоциированного с первым аудиоисточником 152-2. Этот примерный случай может применяться к аудиоэлементу 1 (152-1) на фиг. 2a, а также к аудиоэлементу 2 (152-2) на фиг. 2b. Чем больше удалено положение 110 пользователя от второго аудиоисточника 152-2, тем меньше необходимое разрешение потока 106, ассоциированного со вторым аудиоисточником 152-2. Этот примерный случай может применяться к аудиоэлементу 2 (152-2) на фиг. 2a, а также к аудиоэлементу 1 (152-1) на фиг. 2b.It has been noted that different qualities (eg, different bit rates) may be provided for different streams 106 according to a particular position (eg, 110' or 110") of the user in the environment (eg, virtual). For example: in the case of multiple audio sources 152-1 and 152-2, each audio source 152-1 and 152-2 may be associated with a specific position in the scene 150. The closer the user position 110' or 110' is to the first audio source 152-1, the more the resolution and/or quality of the stream associated with the first audio source 152-2. This exemplary case may apply to audio element 1 (152-1) in FIG. 2a as well as audio element 2 (152-2) in FIG. 2b. The further away the user's position 110 is from the second audio source 152-2, the smaller the required resolution of the stream 106 associated with the second audio source 152-2. This exemplary case may apply to audio element 2 (152-2) in FIG. 2a as well as audio element 1 (152-1) in FIG. 2b.

Фактически, первый, близкий аудиоисточник должен звучать на более высоком уровне (и поэтому предоставляться с более высокой скоростью передачи битов), тогда как второй, дальний аудиоисточник должен звучать на более низком уровне (что может позволить требовать меньшего разрешения).In fact, the first, nearer audio source must sound at a higher level (and therefore be provided at a higher bit rate), while the second, farther audio source must sound at a lower level (which may allow a lower resolution to be required).

Поэтому на основе положения 110’ или 110” в среде, которое предоставлено клиентом 102, сервер 120 может предоставлять разные потоки 106 с разными скоростями передачи битов (или другим качеством). На основе того, что аудиоэлементы, которые находятся далеко, не требуют высоких уровней качества, сохраняется общее качество восприятия пользователя, даже если они доставляются с более низкой скоростью передачи битов или уровнем качества.Therefore, based on the position 110' or 110" in the media as provided by the client 102, the server 120 may provide different streams 106 with different bit rates (or different quality). On the basis that audio elements that are far away do not require high quality levels, the overall quality of the user's experience is maintained even if they are delivered at a lower bit rate or quality level.

Поэтому для некоторых аудиоэлементов в разных положениях пользователя могут использоваться разные уровни качества, сохраняя при этом качество восприятия.Therefore, different quality levels can be used for some audio elements at different user positions while maintaining perceptual quality.

Без этого решения серверу 120 следует предоставлять все потоки 106 клиенту с наивысшей скоростью передачи битов, что увеличило бы полезную нагрузку в канале связи от сервера 120 клиенту.Without this solution, server 120 should provide all streams 106 to the client at the highest bit rate, which would increase the payload on the link from server 120 to the client.

Случай 2Case 2

Фиг. 3 (случай 2) показывает вариант осуществления с другим примерным сценарием (представленным на вертикальной плоскости XZ в пространстве XYZ, где ось Y представляется входящей в лист), где пользователь перемещается в первой сцене A VR, AR и/или MR (150A), открывает дверь и проходит в нее (переход 150AB), подразумевая переход аудио от первой сцены 150A в момент t₁ через переходное положение (150AB) в момент t₂ к следующей (второй) сцене B (150B) в момент t₃.Fig. 3 (Case 2) shows an embodiment with another exemplary scenario (represented on a vertical XZ plane in XYZ space where the Y axis appears to enter a sheet) where the user moves in the first scene A VR, AR and/or MR (150A), opens door and passes into it (transition 150AB), implying the transition of audio from the first scene 150A at time t ₁ through the transition position (150AB) at time t ₂ to the next (second) scene B (150B) at time t ₃ .

В момент времени t₁ пользователь может находиться в положении x₁ в направлении x первой сцены VR, AR и/или MR. В момент времени t₃ пользователь может находиться в другой, второй сцене B VR, AR и/или MR (150B) в положении x₃. В момент t₂ пользователь может находиться в переходном положении 150AB, пока он открывает дверь (например, виртуальную дверь) и проходит в нее. Поэтому переход подразумевает переход аудиоинформации от первой сцены 150A ко второй сцене 150B.At time t ₁ , the user may be at position x ₁ in the x direction of the first scene VR, AR and/or MR. At time t ₃ the user may be in another second scene B VR, AR and/or MR (150B) at position x ₃ . At time t ₂ , the user may be in transition position 150AB while he opens and enters a door (eg, a virtual door). Therefore, a transition implies a transition of audio information from the first scene 150A to the second scene 150B.

В этом смысле пользователь меняет положение 110, например из первой VR-среды (отличающейся первой точкой (A) наблюдения, как показано на фиг. 1.1) во вторую VR-среду (отличающуюся второй точкой (B) наблюдения, как показано на фиг. 1.1). В конкретном случае, например, во время перехода через дверь, расположенную в положении x₂ в направлении x, некоторые аудиоэлементы 152A и 152B могут присутствовать в обеих точках наблюдения (положения A и B).In this sense, the user changes the position 110, for example from the first VR environment (characterized by the first viewpoint (A) as shown in Fig. 1.1) to the second VR environment (characterized by the second viewpoint (B) as shown in Fig. 1.1 ). In a particular case, for example, during a transition through a door located at position x ₂ in the x direction, some audio elements 152A and 152B may be present at both viewpoints (positions A and B).

Пользователь (оснащенный MCD) меняет положение 110 (x₁-x₃) по отношению к двери, что может подразумевать, что аудиоэлементы в переходном положении x₂ принадлежат первой сцене 150A и второй сцене 150B. MCD передает новое положение и данные 110 о переходе клиенту, который повторно передает их медиа-серверу 120. Пользователь может слушать подходящие аудиоисточники, заданные промежуточным положением x₂ между первым и вторым положениями x₁ и x₃.The user (equipped with an MCD) changes position 110 (x ₁ -x ₃ ) with respect to the door, which may imply that the audio elements in the x ₂ transition position belong to the first stage 150A and the second stage 150B. The MCD transmits the new position and transition data 110 to the client, which retransmits them to the media server 120. The user may listen to suitable audio sources given an intermediate position x ₂ between the first and second positions x ₁ and x ₃ .

Любое положение и любой переход из первого положения (x₁) во второе положение (x₃) теперь периодически (например, постоянно) передается от MCD к клиенту. Клиент 102 может повторно передать данные 110 о положении и переходе (x₁-x₃) медиа-серверу 120, который выполнен с возможностью доставлять соответственно один специальный элемент, например, из нового набора предварительно обработанных потоков 106 в виде актуализированного адаптационного набора 113’, в зависимости от принятых данных 110 о положении и переходе (x₁-x₃).Any position and any transition from the first position (x ₁ ) to the second position (x ₃ ) is now periodically (eg, constantly) transmitted from the MCD to the client. The client 102 may retransmit the position and transition data 110 (x ₁ -x ₃ ) to the media server 120, which is configured to deliver respectively one special item, for example, from a new set of pre-processed streams 106 in the form of an updated adaptation set 113', depending on the received position and transition data 110 (x ₁ -x ₃ ).

Медиа-сервер 120 может выбирать одно из множества представлений, ассоциированных с вышеупомянутой информацией, не только касательно способности MCD отображать наивысшую скорость передачи битов, но также касательно данных 110 о положении и переходе (x₁-x₃) пользователя во время его перемещения из одного положения в другое. (В этом смысле можно использовать адаптационные наборы: медиа-сервер 120 может решать, какой адаптационный набор 113’ оптимально представляет виртуальный переход пользователя, не мешая способности выведения у MCD).The media server 120 may select one of a variety of views associated with the above information, not only regarding the ability of the MCD to display the highest bit rate, but also regarding the position and transition data 110 (x ₁ -x ₃ ) of the user during his movement from one positions to another. (In this sense, adaptation sets can be used: media server 120 can decide which adaptation set 113' best represents the user's virtual transition without interfering with the inference capability of the MCD).

Поэтому медиа-сервер 120 может доставлять специальный поток 106 (например, в виде нового адаптационного набора 113’) в соответствии с переходом положений. Клиент 102 может быть выполнен с возможностью соответственно доставлять аудиосигнал 108 пользователю 140, например, посредством медиа-декодера 104 аудио.Therefore, the media server 120 may deliver the special stream 106 (eg, in the form of a new adaptation set 113') in accordance with the transition. The client 102 may be configured to appropriately deliver the audio signal 108 to the user 140, for example, via the audio media decoder 104.

Потоки 106 (сформированные оперативно и/или предварительно обработанные) могут передаваться клиенту 102 в периодически (например, постоянно) актуализируемом адаптационном наборе 113’.Streams 106 (generated online and/or pre-processed) may be transmitted to the client 102 in a periodically (eg, constantly) updated adaptation set 113'.

Когда пользователь проходит в дверь, сервер 120 может передавать потоки 106 первой сцены 150A и потоки 106 второй сцены 150B. Это происходит для того, чтобы смешивать, или мультиплексировать, или составлять, или воспроизводить эти потоки 106 одновременно, чтобы обеспечить пользователю подлинное впечатление. Поэтому на основе положения 110 пользователя (например, "положение, соответствующее двери") сервер 120 передает клиенту разные потоки 106.As the user passes through the door, server 120 may transmit streams 106 of first scene 150A and streams 106 of second scene 150B. This is in order to mix or multiplex or compose or play these streams 106 at the same time to provide the user with an authentic experience. Therefore, based on the position 110 of the user (e.g., "position corresponding to the door"), the server 120 sends different streams 106 to the client.

Даже в этом случае, так как разные потоки 106 должны звучать одновременно, они могут обладать разными разрешениями и могут передаваться от сервера 120 клиенту с разными разрешениями. Когда пользователь завершил переход и находится во второй сцене (положении) 150A (и закрыл дверь за собой), у сервера 120 будет возможность сокращения или отказа от передачи потоков 106 первой сцены 150 (если сервер 120 уже предоставил клиенту 102 потоки, то клиент 102 может решить не использовать их).Even so, since the different streams 106 must sound at the same time, they may have different resolutions and may be transmitted from the server 120 to the client with different resolutions. When the user has completed the transition and is in the second scene (position) 150A (and closed the door behind him), the server 120 will have the option to reduce or refuse to transmit the streams 106 of the first scene 150 (if the server 120 has already provided the client 102 with the streams, then the client 102 can decide not to use them).

Случай 3Case 3

Фиг. 4 (случай 3) показывает вариант осуществления с другим примерным сценарием (представленным на вертикальной плоскости XZ в пространстве XYZ, где ось Y представляется входящей в лист), где пользователь перемещается в сцене 150A VR, AR и/или MR, подразумевая переход аудио из одного первого положения в момент t₁ во второе положение также в первой сцене 150A в момент t₂. Пользователь в первом положении может находиться далеко от стены в момент t₁ на расстоянии d₁ от стены; и может находиться близко к стене в момент t₂ на расстоянии d₂ от стены. Здесь d₁> d₂. Хотя на расстоянии d₁ пользователь слышит только источник 152A сцены 150A, он также может слышать источник 152B сцены 150B за стеной.Fig. 4 (Case 3) shows an embodiment with another exemplary scenario (represented on a vertical XZ plane in XYZ space, where the Y axis appears to enter a sheet) where the user moves in a VR, AR and/or MR scene 150A, implying an audio transition from one the first position at time t ₁ to the second position also in the first scene 150A at time t ₂ . The user in the first position may be away from the wall at time t ₁ at a distance d ₁ from the wall; and can be close to the wall at the moment t ₂ at a distance d ₂ from the wall. Here d ₁ > d ₂ . Although at a distance d ₁ the user hears only the source 152A of the scene 150A, he can also hear the source 152B of the scene 150B behind the wall.

Когда пользователь находится во втором положении (d₂), клиент 102 отправляет серверу 120 данные касательно положения 110 пользователя (d₂) и принимает от сервера 120 не только аудиопотоки 106 первой сцены 150A, но также аудиопотоки 106 второй сцены 150B. На основе метаданных, предоставленных сервером 120, клиент 102 запустит воспроизведение, например посредством декодера 104, потоков 106 второй сцены 150B (за стеной) на малой громкости.When the user is in the second position (d ₂ ), the client 102 sends the server 120 data regarding the user's position 110 (d ₂ ) and receives from the server 120 not only the audio streams 106 of the first scene 150A, but also the audio streams 106 of the second scene 150B. Based on the metadata provided by the server 120, the client 102 will start playback, for example via the decoder 104, of the streams 106 of the second scene 150B (behind the wall) at low volume.

Даже в этом случае скорость передачи битов (качество) потоков 106 второй сцены 150B может быть низкой (низким), поэтому требуя уменьшенной полезной нагрузки передачи от сервера 120 клиенту. Примечательно, что положение 110 (d₁, d₂) клиента (и/или поле видимости) задает аудиопотоки 106, которые предоставляются сервером 120.Even so, the bit rate (quality) of the streams 106 of the second scene 150B may be low (low), thus requiring a reduced transmission payload from the server 120 to the client. Notably, the position (d ₁ , d ₂ ) of the client (and/or field of view) 110 specifies the audio streams 106 that are provided by the server 120.

Например, система 102 может быть выполнена с возможностью получать потоки, ассоциированные с первой текущей сценой (150A), ассоциированной с первой, текущей средой, и если расстояние положения пользователя или виртуального положения от границы сцены (например, соответствующей стене) меньше заранее установленной пороговой величины (например, когда d₂<d_threshold), то система 102 дополнительно получает аудиопотоки, ассоциированные со второй, смежной и/или соседней средой, ассоциированной со второй сценой (150B).For example, system 102 may be configured to receive streams associated with a first current scene (150A) associated with a first, current environment, and if the distance of the user position or virtual position from a scene boundary (eg, corresponding to a wall) is less than a predetermined threshold (eg, when d ₂ <d _threshold ), then system 102 further obtains audio streams associated with the second, adjacent and/or adjacent environment associated with the second scene (150B).

Случай 4Case 4

Фиг. 5a и 5b показывают вариант осуществления с другим примерным сценарием (представленным на горизонтальной плоскости XY в пространстве XYZ, где ось Z представляется выходящей из листа), где пользователь располагается в одной и той же сцене 150 VR, AR и/или MR, но в разные моменты на разных расстояниях, например до двух аудиоэлементов.Fig. 5a and 5b show an embodiment with another exemplary scenario (represented on the horizontal XY plane in XYZ space, where the Z axis is represented as coming out of the sheet) where the user is located in the same VR, AR and/or MR scene 150 but in different moments at different distances, for example up to two audio elements.

В первый момент t=t₁, показанный на фиг. 5a, пользователь располагается, например, в первом положении. В этом первом положении первый аудиоэлемент 1(152-1) и второй аудиоэлемент 2 (152-2) располагаются (например, виртуально) на расстояниях d₁ и соответствующем d₂ от пользователя, оснащенного MCD. Оба расстояния d₁ и d₂ в этом случае могут быть больше заданного порогового расстояния d_threshold, и поэтому система 102 выполнена с возможностью группировать оба аудиоэлемента в один-единственный виртуальный источник 152-3. Положение и свойства (например, пространственная протяженность) одного виртуального источника могут вычисляться, например, на основе положений двух исходных источников таким образом, чтобы он как можно лучше имитировал исходное звуковое поле, сформированное двумя источниками (например, два хорошо локализованных точечных источника можно воспроизвести посередине расстояния между ними как один источник). Данные 110 о положении пользователя (d₁, d₂) могут передаваться от MCD системе 102 (клиенту) и впоследствии серверу 120, который может решить отправить подходящий аудиопоток 106, который серверной системе 120 нужно вывести (в других вариантах осуществления это клиент 102, который решает, какие потоки нужно передать от сервера 120). Группируя оба аудиоэлемента в один-единственный виртуальный источник 152-3, сервер 120 может выбрать одно из множества представлений, ассоциированных с вышеупомянутой информацией. (Например, можно доставить специальный поток 106 с адаптационным набором 113’, соответственно ассоциированным, например, с одним-единственным каналом.) Поэтому пользователь посредством MCD может принимать аудиосигнал как передаваемый от одного виртуального аудиоэлемента 152-3, расположенного между настоящими аудиоэлементами 1 (152-1) и 2 (152-2).At the first moment t=t ₁ shown in FIG. 5a, the user is located, for example, in the first position. In this first position, the first audio element 1(152-1) and the second audio element 2 (152-2) are located (eg virtually) at distances d ₁ and corresponding d ₂ from the user equipped with the MCD. Both distances d ₁ and d ₂ in this case may be greater than a predetermined threshold distance d _threshold and therefore the system 102 is configured to group both audio elements into a single virtual source 152-3. The position and properties (e.g., spatial extent) of one virtual source can be calculated, for example, from the positions of the two original sources, so that it mimics the original sound field formed by the two sources as best as possible (for example, two well-localized point sources can be reproduced in the middle distances between them as one source). User position data 110 (d ₁ , d ₂ ) may be transmitted from MCD to system 102 (client) and subsequently to server 120, which may decide to send the appropriate audio stream 106 to be output to server system 120 (in other embodiments, it is client 102 which decides which streams to send from server 120). By grouping both audio elements into a single virtual source 152-3, server 120 may select one of a variety of representations associated with the above information. (For example, it is possible to deliver a special stream 106 with an adaptation set 113', respectively, associated with, for example, a single channel.) Therefore, the user through the MCD can receive the audio signal as being transmitted from one virtual audio element 152-3 located between real audio elements 1 (152 -1) and 2 (152-2).

Во второй момент t=t₂, показанный на фиг. 5b, пользователь располагается, например, в той же сцене 150 со вторым заданным положением в той же VR-среде, как и на фиг. 5a. В этом втором положении два аудиоэлемента 152-1 и 152-2 располагаются (например, виртуально) на расстояниях d₃ и соответствующем d₄ от пользователя. Оба расстояния d₃ и d₄ могут быть меньше порогового расстояния d_threshold, и поэтому группирование аудиоэлементов 152-1 и 152-2 в один-единственный виртуальный источник 152-3 больше не используется. Данные о положении пользователя передаются от MCD в систему 102 и впоследствии серверу 120, который может решить отправить другой подходящий аудиопоток 106, который серверной системе 120 нужно вывести (в других вариантах осуществления это решение принимается клиентом 102). Избегая группировки аудиоэлементов, сервер 120 может выбирать разное представление, ассоциированное с вышеупомянутой информацией, для доставки соответственно специального потока 106 с адаптационным набором 113’, соответственно ассоциированным с разными каналами для каждого аудиоэлемента. Поэтому пользователь посредством MCD может принимать аудиосигнал 108 как передаваемый от двух разных аудиоэлементов 1 (152-1) и 2 (152-2). Следовательно, чем ближе положение 110 пользователя к аудиоисточникам 1 (152-1) и 2 (152-2), тем выше нужно выбирать необходимый уровень качества потока, ассоциированного с аудиоисточниками.At the second moment t=t ₂ shown in FIG. 5b, the user is located, for example, in the same scene 150 with the second predetermined position in the same VR environment as in FIG. 5a. In this second position, the two audio elements 152-1 and 152-2 are located (eg, virtually) at distances d ₃ and corresponding d ₄ from the user. Both distances d ₃ and d ₄ may be less than the threshold distance d _threshold and therefore the grouping of audio elements 152-1 and 152-2 into a single virtual source 152-3 is no longer used. User position data is transmitted from the MCD to system 102 and subsequently to server 120, which may decide to send another suitable audio stream 106 to be output by server system 120 (in other embodiments, this decision is made by client 102). By avoiding the grouping of audio elements, the server 120 may select a different representation associated with the above information to deliver a respectively special stream 106 with an adaptation set 113' respectively associated with different channels for each audio element. Therefore, the user, through the MCD, can receive the audio signal 108 as being transmitted from two different audio elements 1 (152-1) and 2 (152-2). Therefore, the closer the user's position 110 is to audio sources 1 (152-1) and 2 (152-2), the higher the desired quality level of the stream associated with the audio sources should be selected.

Фактически, чем ближе располагаются аудиоисточники 1 (152-1) и 2 (152-2) относительно пользователя, как изображено на фиг. 5b, тем выше нужно поднимать уровень, и поэтому аудиосигналы 108 можно выводить с более высоким уровнем качества. В отличие от этого удаленные аудиоисточники 1 и 2, представленные на фиг. 5b, должны звучать на более низком уровне как воспроизводимые одним виртуальным источником, а поэтому выводимые, например, с более низким уровнем качества.In fact, the closer audio sources 1 (152-1) and 2 (152-2) are to the user, as shown in FIG. 5b, the higher the level needs to be raised, and therefore the audio signals 108 can be output with a higher level of quality. In contrast, the remote audio sources 1 and 2 shown in FIG. 5b should sound at a lower level as being played back by a single virtual source, and therefore output, for example, at a lower quality level.

В аналогичной конфигурации множество аудиоэлементов может располагаться перед пользователем, при этом все они расположены на расстояниях больше порогового расстояния от пользователя. В одном варианте осуществления две группы по пять аудиоэлементов могут объединяться в два виртуальных источника. Данные о положении пользователя передаются от MCD в систему 102 и впоследствии серверу 120, который может решить отправить подходящий аудиопоток 106, который серверной системе 120 нужно вывести. Группируя все 10 аудиоэлементов только в два виртуальных источника, сервер 120 может выбирать одно из множества представлений, ассоциированных с вышеупомянутой информацией, для доставки специального потока 106 с адаптационным набором 113’, соответственно ассоциированным, например, с двумя одиночными аудиоэлементами. Поэтому пользователь посредством MCD может принимать аудиосигнал как передаваемый от двух отдельных виртуальных аудиоэлементов, расположенных в той же области с настоящими аудиоэлементами.In a similar configuration, a plurality of audio elements may be placed in front of the user, all of which are located at distances greater than a threshold distance from the user. In one embodiment, two groups of five audio elements can be combined into two virtual sources. The user's position data is transmitted from the MCD to the system 102 and subsequently to the server 120, which may decide to send the appropriate audio stream 106 to be output by the server system 120. By grouping all 10 audio elements into only two virtual sources, the server 120 can select one of the multiple representations associated with the above information to deliver a special stream 106 with an adaptation set 113' respectively associated with, for example, two single audio elements. Therefore, the user, through the MCD, can receive the audio signal as being transmitted from two separate virtual audio elements located in the same area as the real audio elements.

В последующий момент времени пользователь приближается к множеству (из десяти) аудиоэлементов. В этой последующей сцене все аудиоэлементы располагаются на расстояниях меньше порогового расстояния d_threshold, и поэтому система 102 выполнена с возможностью завершать группирование аудиоэлементов. Новые данные о положении пользователя передаются от MCD в систему 102 и впоследствии серверу 120, который может решить отправить другой подходящий аудиопоток 106, который серверной системе 120 нужно вывести. Не группируя аудиоэлементы, сервер 120 может выбирать разное представление, ассоциированное с вышеупомянутой информацией, для доставки соответственно специального потока 106 с адаптационным набором 113’, соответственно ассоциированным с разными каналами для каждого аудиоэлемента. Поэтому пользователь посредством MCD может принимать аудиосигнал как передаваемые от десяти разных аудиоэлементов. Следовательно, чем ближе положение 110 пользователя к аудиоисточникам, тем выше нужно выбирать необходимое разрешение потока, ассоциированного с аудиоисточниками.At a subsequent point in time, the user approaches a plurality (out of ten) of the audio elements. In this subsequent scene, all audio elements are located at distances less than the threshold distance d _threshold , and therefore the system 102 is configured to complete the grouping of the audio elements. The new user position data is transmitted from the MCD to the system 102 and subsequently to the server 120, which may decide to send another suitable audio stream 106 to be output by the server system 120. By not grouping the audio elements, the server 120 may select a different representation associated with the above information to deliver a respectively special stream 106 with an adaptation set 113' respectively associated with different channels for each audio element. Therefore, the user, through the MCD, can receive the audio signal as being transmitted from ten different audio elements. Therefore, the closer the user's position 110 is to the audio sources, the higher the desired resolution of the stream associated with the audio sources should be selected.

Случай 5Case 5

Фиг. 6 (случай 5) изображает пользователя 140, расположенного в одном положении одной-единственной сцены 150, с мультимедийным бытовым прибором (MCD), который может быть направлен в трех примерных разных направлениях (каждое ассоциировано с разным полем 160-1, 160-2, 160-3 видимости). Эти направления, как показано на фиг. 6, могут обладать ориентацией (например, угловой ориентацией) в полярной системе координат и/или декартовой системе XY, указывая на первую точку 801 наблюдения, расположенную, например, под углом 180° в нижней части фиг. 6, на вторую точку 802 наблюдения, расположенную, например, под углом 90° с правой стороны фиг. 6, и на третью точку 803 наблюдения, расположенную, например, под углом 0° в верхней части фиг. 6. Каждая из этих точек наблюдения ассоциируется с ориентацией пользователя 140 с мультимедийным бытовым прибором (MCD), при этом пользователь расположен в центре, предлагаемом определенным полем видимости, отображенным MCD, выводящим соответствующий аудиосигнал 108 в соответствии с ориентацией MCD.Fig. 6 (Case 5) depicts a user 140 positioned in the same position of a single stage 150 with a multimedia home appliance (MCD) that can be pointed in three exemplary different directions (each associated with a different field 160-1, 160-2, 160-3 visibility). These directions, as shown in Fig. 6 may be oriented (eg, angular orientation) in a polar coordinate system and/or an XY Cartesian system, pointing to a first viewpoint 801 located, for example, at a 180° angle at the bottom of FIG. 6 to a second observation point 802 located, for example, at a 90° angle on the right side of FIG. 6 and to a third observation point 803 located, for example, at an angle of 0° at the top of FIG. 6. Each of these viewpoints is associated with a user orientation 140 with a multimedia home appliance (MCD), with the user positioned at the center offered by a specific field of view displayed by the MCD outputting a corresponding audio signal 108 according to the orientation of the MCD.

В этой конкретной VR-среде первый аудиоэлемент s1 (152) располагается в первом поле 160-1 видимости поблизости от точки наблюдения, расположенной, например, под углом 180°, а второй аудиоэлемент s2 (152) располагается в третьем поле 160-3 видимости поблизости от точки наблюдения, расположенной, например, под углом 180°. Перед изменением ориентации пользователь 140 в первой ориентации к точке 801 наблюдения (поле 160-1 видимости) воспринимает звук, ассоциированный с фактическим (действующим) положением, громче от аудиоэлемента s1, чем от аудиоэлемента s2.In this particular VR environment, the first audio element s1 (152) is located in the first field of view 160-1 in the vicinity of the viewpoint located, for example, at an angle of 180°, and the second audio element s2 (152) is located in the third field of view 160-3 in the vicinity from an observation point located, for example, at an angle of 180°. Before the orientation change, the user 140 in the first orientation towards the observation point 801 (visibility field 160-1) perceives the sound associated with the actual (acting) position to be louder from the audio element s1 than from the audio element s2.

Меняя ориентацию, пользователь 140 во второй ориентации к точке 802 наблюдения может воспринимать звук, ассоциированный с фактическим положением 110, почти на той же громкости сбоку от обоих аудиоэлементов s1 и s2.By changing the orientation, the user 140 in the second orientation towards the point of view 802 can perceive the sound associated with the actual position 110 at almost the same volume on the side of both audio elements s1 and s2.

В конечном счете, меняя ориентацию, пользователь 140 в третьей ориентации к точке 801 наблюдения (поле 160-3 видимости) может воспринимать звук, ассоциированный с аудиоэлементом 2, громче звука, ассоциированного с аудиоэлементом s1 (фактически, звук от аудиоэлемента 2 приходит спереди, тогда как звук от аудиоэлемента 1 приходит сзади).Ultimately, by changing the orientation, the user 140 in the third orientation towards the viewing point 801 (field of view 160-3) can perceive the sound associated with audio element 2 as louder than the sound associated with audio element s1 (in fact, the sound from audio element 2 comes from the front, then how the sound from audio element 1 comes from behind).

Поэтому разные поля видимости, и/или ориентации, и/или данные о виртуальном положении можно ассоциировать с разными скоростями передачи битов и/или качествами.Therefore, different fields of view and/or orientations and/or virtual position data may be associated with different bit rates and/or qualities.

Другие случаи и примерыOther cases and examples

Фиг. 7A показывает вариант осуществления способа для приема аудиопотоков системой в виде последовательности этапов на схеме. В любой момент пользователь системы 102 ассоциируется с текущим полем видимости, и/или ориентацией головы, и/или данными перемещения, и/или метаданными взаимодействия, и/или виртуальным положением. В некоторый момент система на этапе 701 из фиг. 7A может определить аудиоэлементы для воспроизведения на основе текущего поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или виртуального положения. Поэтому на следующем этапе 703 может определяться релевантность и уровень слышимости для каждого аудиоэлемента. Как описано выше на фиг. 6, у VR-среды могут быть разные аудиоэлементы, расположенные в конкретной сцене 150 либо поблизости от пользователя, либо дальше от него, но также с определенной ориентацией в 360-градусном окружении. Все эти факторы определяют релевантность и уровень слышимости для каждого упомянутого аудиоэлемента.Fig. 7A shows an embodiment of a method for receiving audio streams by a system as a sequence of steps in a diagram. At any time, the user of system 102 is associated with a current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position. At some point, the system at step 701 of FIG. 7A may determine the audio elements to play based on the current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position. Therefore, in the next step 703, the relevance and audibility level for each audio element can be determined. As described above in FIG. 6, a VR environment may have different audio elements located in a particular scene 150 either near or far from the user, but also with a certain orientation in the 360-degree environment. All these factors determine the relevance and audibility level for each mentioned audio element.

На следующем этапе 705 система 102 может запросить у медиа-сервера 120 аудиопотоки в соответствии с определенной релевантностью и уровнем слышимости для каждого из аудиоэлементов.In a next step 705, system 102 may request audio streams from media server 120 according to the determined relevance and audibility level for each of the audio elements.

На следующем этапе 707 система 102 может принять аудиопотоки 113, соответственно подготовленные медиа-сервером 120, где потоки с разными скоростями передачи битов могут отражать релевантность и уровень слышимости, которые определены на предшествующих этапах.In a next step 707, system 102 may receive audio streams 113 appropriately prepared by media server 120, where the different bitrate streams may reflect the relevance and audibility level as determined in the previous steps.

На следующем этапе 709 система 102 (например, декодер аудио) может декодировать принятые аудиопотоки 113, чтобы на этапе 711 воспроизводилась конкретная сцена 150 (например, посредством MCD) в соответствии с текущим полем видимости, и/или ориентацией головы, и/или данными перемещения, и/или метаданными взаимодействия, и/или виртуальным положением.At a next step 709, the system 102 (eg, an audio decoder) may decode the received audio streams 113 so that at step 711, a specific scene 150 is played back (eg, by MCD) according to the current field of view and/or head orientation and/or movement data. , and/or interaction metadata, and/or virtual location.

Фиг. 7B изображает взаимодействие между медиа-сервером 120 и системой 102 в соответствии с вышеописанной последовательностью из схемы работы. В некоторый момент медиа-сервер может передать аудиопоток 750 с более низкой скоростью передачи битов в соответствии с вышеупомянутой определенной более низкой релевантностью и уровнем слышимости релевантных аудиоэлементов вышеупомянутой сцены 150. В последующий момент 752 система может определить, что происходит взаимодействие или изменение данных о положении. Такое взаимодействие может возникать, например, либо из-за изменения данных о положении в той же сцене 150, либо, например, приведения в действие дверной ручки, пока пользователь пытается войти во вторую сцену, отделенную от первой сцены дверью, снабженной дверной ручкой.Fig. 7B depicts the interaction between the media server 120 and the system 102 in accordance with the above sequence from the flowchart. At some point, the media server may transmit the audio stream 750 at a lower bit rate in accordance with the aforementioned determined lower relevance and audibility level of the relevant audio elements of the aforementioned scene 150. At a subsequent point 752, the system may determine that there is an interaction or change in the position data. Such interaction may occur, for example, either due to a change in position data in the same scene 150, or, for example, actuation of a door handle while the user is trying to enter a second scene separated from the first scene by a door provided with a door handle.

Изменение текущего поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или виртуального положения может привести к запросу 754, отправленному системой 102 медиа-серверу 120. Этот запрос может отражать более высокую релевантность и уровень слышимости релевантных аудиоэлементов, определенных для той последующей сцены 150. В качестве ответа на запрос 754 медиа-сервер может передать поток 756 с более высокой скоростью передачи битов, обеспечивающей правдоподобное и реалистичное воспроизведение сцены 150 системой 102 в любом текущем виртуальном положении пользователя.Changing the current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position may result in a request 754 sent by system 102 to media server 120. This request may reflect higher relevance and the audibility level of the relevant audio elements determined for that subsequent scene 150. In response to request 754, the media server may send a stream 756 at a higher bit rate to ensure that scene 150 is faithfully and realistically reproduced by system 102 in any user's current virtual position.

Фиг. 8A показывает другой вариант осуществления способа для приема аудиопотоков системой также в виде последовательности этапов на схеме. В некоторый момент 801 может выполняться определение первого текущего поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или виртуального положения. В утвердительном случае система 102 может подготовить запрос потоков, ассоциированных с первым положением, заданным низкой скоростью передачи битов, и передать его на этапе 803.Fig. 8A shows another embodiment of the method for receiving audio streams by the system, also as a series of steps in a diagram. At some point 801, a first current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position may be determined. In the affirmative case, system 102 may prepare a request for the streams associated with the first location given the low bit rate and transmit it at step 803.

В последующий момент может выполняться этап 805 определения с тремя разными результатами. Одна или две заданных пороговых величины могут быть релевантны на этом этапе для определения, например, предсказывающего решения о последующем поле видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или виртуального положения. Поэтому может выполняться сравнение с первой и/или второй пороговой величиной касательно вероятности изменения второго положения, приводящее, например, к выполнению трех разных последующих этапов.At a later point in time, determine block 805 may be performed with three different results. One or two predetermined thresholds may be relevant at this stage to determine, for example, a predictive decision about the subsequent field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position. Therefore, a comparison can be made with a first and/or a second threshold regarding the probability of changing the second position, leading, for example, to performing three different subsequent steps.

При результате, отражающем, например, очень низкую вероятность (например, ассоциированную с вышеупомянутым сравнением с первой заранее установленной пороговой величиной), выполнялся бы новый этап 801 сравнения.With a result reflecting, for example, a very low probability (eg, associated with the above comparison with the first predetermined threshold), a new comparison step 801 would be performed.

При результате, отражающем низкую вероятность (например, больше первой заранее установленной пороговой величины, но меньше второй заранее установленной пороговой величины, которая больше первой пороговой величины), это может привести на этапе 809 к запросу аудиопотоков 113 с низкой скоростью передачи битов.With a result reflecting a low probability (e.g., greater than the first predetermined threshold but less than a second predetermined threshold greater than the first threshold), this may result in requesting low bit rate audio streams 113 at step 809.

При результате, отражающем высокую вероятность (например, больше второй заранее установленной пороговой величины), на этапе 807 может выполняться запрос аудиопотоков 113 с высокой скоростью передачи битов. Поэтому последующим этапом, который нужно выполнить после исполнения этапов 807 или 809, опять мог бы быть этап 801 определения.If the result reflects a high probability (eg, greater than a second predetermined threshold), at step 807, a request for high bit rate audio streams 113 may be performed. Therefore, the next step to be performed after the execution of steps 807 or 809 could again be the determination step 801.

Фиг. 8B изображает взаимодействие между медиа-сервером 120 и системой 102 в соответствии только с одной вышеописанной последовательностью из схемы работы. В некоторый момент медиа-сервер может передать аудиопоток 850 с низкой скоростью передачи битов в соответствии с вышеупомянутой определенной низкой релевантностью и уровнем слышимости аудиоэлементов вышеупомянутой сцены 150. В последующий момент 852 система может определить, что вероятно произойдет взаимодействие. Предсказывающее изменение текущего поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или виртуального положения может привести к подходящему запросу 854, отправленному системой 102 медиа-серверу 120. Этот запрос может отражать один из вышеописанных случаев касательно высокой вероятности прихода во второе положение, ассоциированное с высокой скоростью передачи битов в соответствии с уровнем слышимости аудиоэлементов, который необходим для соответствующей последующей сцены 150. В качестве ответа медиа-сервер может передать поток 856 с более высокой скоростью передачи битов, обеспечивающей правдоподобное и реалистичное воспроизведение сцены 150 системой 102 в любом текущем виртуальном положении пользователя.Fig. 8B depicts the interaction between the media server 120 and the system 102 in accordance with only one of the above sequences from the scheme of operation. At some point, the media server may transmit the audio stream 850 at a low bit rate in accordance with the aforementioned determined low relevance and audibility level of the audio elements of the aforementioned scene 150. At a subsequent point 852, the system may determine that an interaction is likely to occur. A predictive change in the current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position may result in a suitable request 854 sent by system 102 to media server 120. This request may reflect one of of the above cases regarding a high probability of arriving at a second position associated with a high bit rate in accordance with the level of audibility of the audio elements that is necessary for the corresponding subsequent scene 150. As a response, the media server may transmit stream 856 with a higher bit rate providing a believable and realistic rendering of scene 150 by system 102 in any current virtual position of the user.

Система 102, как показано на фиг. 1.3, выполнена с возможностью принимать аудиопотоки 113 на основе другой конфигурации на стороне клиента, при этом архитектура системы может использовать дискретные точки наблюдения на основе решения, использующего несколько декодеров 1320, 1322 аудио. На стороне клиента система 102 может воплощать, например, части системы, описанной на фиг. 1.2, которые дополнительно или в качестве альтернативы содержат несколько декодеров 1320, 1322 аудио, которые могут быть выполнены с возможностью декодировать отдельные аудиопотоки, которые указаны процессором 1236 метаданных, например, с некоторым количеством отключенных аудиоэлементов.System 102, as shown in FIG. 1.3 is configured to receive audio streams 113 based on a different client-side configuration, while the system architecture can use discrete viewpoints based on a solution using multiple audio decoders 1320, 1322. On the client side, system 102 may implement, for example, portions of the system described in FIG. 1.2, which additionally or alternatively comprise multiple audio decoders 1320, 1322 that can be configured to decode individual audio streams that are specified by the metadata processor 1236, for example, with a number of audio elements disabled.

В системе 102 может предоставляться смеситель/блок 1238 вывода, конфигурируемый для воспроизведения итоговой аудиосцены на основе информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения, то есть некоторые аудиоэлементы, которые не слышны в определенном местоположении, следует отключить или не выводить.System 102 may provide a mixer/output unit 1238 configurable to play the resulting audio scene based on information about the user's location and/or orientation and/or movement direction, i.e. some audio elements that are not audible at a certain location should be muted or not output.

Нижеследующие варианты осуществления, показанные на фиг. 1.4, 1.5 и 1.6, основываются на независимых адаптационных наборах для дискретных точек наблюдения с гибкими адаптационными наборами. В случае, когда пользователь перемещается в VR-среде, аудиосцена может постоянно меняться. Для обеспечения хорошего восприятия аудио все аудиоэлементы, составляющие аудиосцену в некоторый момент времени, может потребоваться сделать доступными медиа-декодеру, который может применить информацию о положении для создания итоговой аудиосцены.The following embodiments shown in FIG. 1.4, 1.5 and 1.6 are based on independent adaptation sets for discrete observation points with flexible adaptation sets. In the case where the user is moving around in the VR environment, the audio scene may be constantly changing. To provide a good audio experience, all the audio elements that make up an audio scene at some point in time may need to be made available to a media decoder that can apply the position information to create the final audio scene.

Если контент предварительно кодируется для некоторого количества предопределенных местоположений, то система может обеспечить точное воспроизведение аудиосцен в этих конкретных местоположениях при допущении, что эти аудиосцены не перекрываются, и пользователь может "перепрыгивать/переключаться" с одного местоположения на следующее.If the content is pre-encoded for a number of predefined locations, then the system can accurately reproduce the audio scenes at those specific locations, assuming that the audio scenes do not overlap and the user can "jump/switch" from one location to the next.

Но в случаях, когда пользователь "идет" из одного местоположения в следующее, аудиоэлементы из двух (или более) аудиосцен можно услышать одновременно. Решение для этих вариантов использования было предоставлено в предыдущих примерах систем, где независимо от механизмов, предусмотренных для декодирования нескольких аудиопотоков (либо с использованием мультиплексора с одним медиа-декодером, либо с несколькими медиа-декодерами и дополнительным смесителем/блоком вывода), клиенту нужно предоставлять аудиопотоки, которые описывают законченные аудиосцены.But in cases where the user "walks" from one location to the next, audio elements from two (or more) audio scenes can be heard at the same time. A solution for these use cases has been provided in previous system examples where, regardless of the mechanisms provided for decoding multiple audio streams (either using a multiplexer with a single media decoder or multiple media decoders and an additional mixer/output unit), the client needs to provide audio streams that describe complete audio scenes.

Ниже предоставляется оптимизация путем предложения идеи общих аудиоэлементов между несколькими аудиопотоками.An optimization is provided below by suggesting the idea of common audio elements between multiple audio streams.

Обсуждение аспектов и примеровDiscussion of aspects and examples

Решение 1: Независимые адаптационные наборы для дискретных местоположений (точек наблюдения).Solution 1: Independent adaptation sets for discrete locations (observation points).

Одним из способов решения описанной проблемы является использование законченных независимых адаптационных наборов для каждого местоположения. Для лучшего понимания решения фиг. 1.1 используется в качестве примерного сценария. В этом примере три разных дискретных точки наблюдения (содержащие три разных аудиосцены) используются для создания законченной VR-среды, в которой должен перемещаться пользователь. Поэтому:One way to solve the described problem is to use complete independent adaptation sets for each location. For a better understanding of the solution of Fig. 1.1 is used as an example scenario. In this example, three different discrete viewpoints (containing three different audio scenes) are used to create a complete VR environment in which the user must navigate. That's why:

- несколько независимых или перекрывающихся аудиосцен кодируются в некоторое количество аудиопотоков. Для каждой аудиосцены может использоваться один главный поток либо, в зависимости от варианта использования, один главный поток и дополнительные вспомогательные потоки (например, некоторые аудиообъекты, содержащие разные языки, могут кодироваться в независимые потоки для эффективной доставки). В предоставленном примере аудиосцена A кодируется в два потока (A1 и A2), аудиосцена B кодируется в три потока (B1, B2 и B3), тогда как аудиосцена C кодируется в три потока (C1, C2 и C3). Нужно отметить, что аудиосцена A и аудиосцена B совместно используют некоторое количество общих элементов (в этом примере два аудиообъекта). Поскольку каждая сцена должна быть законченной и независимой (для независимого воспроизведения, например на воспроизводящих устройствах без VR), общие элементы приходится кодировать дважды для каждой сцены;- several independent or overlapping audio scenes are encoded into a number of audio streams. One main stream may be used for each audio scene, or, depending on the use case, one main stream and additional auxiliary streams (for example, some audio objects containing different languages may be encoded into independent streams for efficient delivery). In the example provided, audio scene A is encoded into two streams (A1 and A2), audio scene B is encoded into three streams (B1, B2 and B3), while audio scene C is encoded into three streams (C1, C2 and C3). Note that Audio Scene A and Audio Scene B share a number of common elements (two audio objects in this example). Because each scene must be complete and independent (for independent playback, such as on non-VR playback devices), common elements have to be encoded twice for each scene;

- все аудиопотоки кодируются с разными скоростями передачи битов (то есть разными представлениями), что допускает эффективную адаптацию скорости передачи битов в зависимости от сетевого соединения (то есть для пользователей, использующих высокоскоростное соединение, доставляется кодированная с высокой скоростью передачи битов версия, тогда как для пользователей с менее скоростным сетевым соединением доставляется версия с более низкой скоростью передачи битов);- all audio streams are encoded at different bit rates (i.e., different representations), which allows efficient adaptation of the bit rate depending on the network connection (i.e., for users using a high speed connection, a high bit rate encoded version is delivered, while for users with a slower network connection are delivered the lower bitrate version);

- аудиопотоки сохраняются на медиа-сервере, где для каждого аудиопотока разные кодирования с разными скоростями передачи битов (то есть разными представлениями) группируются в один адаптационный набор с подходящими данными, сигнализирующими доступность всех созданных адаптационных наборов;- the audio streams are stored in a media server where, for each audio stream, different encodings with different bit rates (i.e., different representations) are grouped into one adaptation set with suitable data signaling the availability of all created adaptation sets;

- дополнительно к адаптационным наборам медиа-сервер принимает информацию о "границах" местоположения у каждой аудиосцены и их взаимосвязь с каждым адаптационным набором (который может содержать, например, законченную аудиосцену или только отдельные объекты). Таким образом, каждый адаптационный набор может ассоциироваться с одной из доступных аудиосцен. Границы одной аудиосцены могут задаваться, например, в виде геометрических координат сферы (например, центр и радиус);- in addition to the adaptation sets, the media server receives information about the "boundaries" of the location at each audio scene and their relationship with each adaptation set (which may contain, for example, a complete audio scene or only individual objects). Thus, each adaptation set may be associated with one of the available audio scenes. The boundaries of one audio scene can be specified, for example, in the form of geometric coordinates of a sphere (for example, center and radius);

- каждый адаптационный набор содержит также описательную информацию о местоположениях, в которых активна звуковая сцена или аудиоэлементы. Например, если один вспомогательный поток содержит один или более объектов, то адаптационный набор мог бы содержать такую информацию, как местоположения, где слышны объекты (например, координаты центра сферы и радиус);- each adaptation set also contains descriptive information about the locations where the soundstage or audio elements are active. For example, if one helper stream contains one or more objects, then the adaptation set could contain information such as locations where the objects are heard (eg, sphere center coordinates and radius);

- медиа-сервер предоставляет клиенту, например клиенту DASH, информацию о "границах" местоположения, ассоциированных с каждым адаптационным набором. Например, в случае среды доставки DASH ее можно встроить в синтаксис XML Описания представления мультимедиа (MPD);- the media server provides the client, eg the DASH client, with information about the "boundaries" of the location associated with each adaptation set. For example, in the case of a DASH delivery environment, it can be embedded in the Media Presentation Description (MPD) XML syntax;

- клиент принимает информацию о местоположении пользователя, и/или ориентации, и/или направлении перемещения (или любую информацию, описывающую изменения, вызванные действиями пользователя);- the client receives information about the user's location, and/or orientation, and/or direction of movement (or any information describing the changes caused by the user's actions);

- клиент принимает информацию о каждом адаптационном наборе, и на ее основе и местоположения пользователя, и/или ориентации, и/или направления перемещения (или любой информации, описывающей изменения, вызванные действиями пользователя, например содержащей координаты x, y, z и/или значения поворота, продольного крена, поперечного крена) клиент выбирает один или более адаптационных наборов, полностью описывающих аудиосцену, которую следует воспроизвести в текущем местоположении пользователя;- the client receives information about each adaptation set, and based on it, the user's location, and / or orientation, and / or direction of movement (or any information describing the changes caused by the user's actions, for example, containing x, y, z coordinates and / or roll, pitch, roll values) the client selects one or more adaptation sets that fully describe the audio scene to be played at the user's current location;

- клиент запрашивает один или более адаптационных наборов;- the client requests one or more adaptation sets;

- кроме того, клиент может выбрать больше адаптационных наборов, полностью описывающих более одной аудиосцены, и использовать аудиопотоки, соответствующие более одной аудиосцене, для создания новой аудиосцены, которую следует воспроизвести в текущем местоположении пользователя. Например, если пользователь идет в VR-среде и в некоторый момент времени располагается между ними (или в местоположении, расположенном в месте, где у двух аудиосцен есть слышимые эффекты);- in addition, the client can select more adaptation sets that fully describe more than one audio scene, and use the audio streams corresponding to more than one audio scene to create a new audio scene to be played at the user's current location. For example, if the user is walking in a VR environment and at some point in time is positioned between them (or at a location located at a location where two audio scenes have audible effects);

- как только доступны аудиопотоки, можно использовать несколько медиа-декодеров для декодирования отдельных аудиопотоков и дополнительный смеситель/блок 1238 вывода для воспроизведения итоговой аудиосцены на основе информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения (то есть, например, некоторые аудиоэлементы, которые не слышны в определенном местоположении, следует отключить или не выводить);- once the audio streams are available, multiple media decoders can be used to decode the individual audio streams and an additional mixer/output unit 1238 to render the final audio scene based on information about the user's location and/or orientation and/or movement direction (that is, for example, some audio elements that are not audible in a particular location should be muted or not output);

- в качестве альтернативы процессор 1236 метаданных может использоваться для работы с метаданными аудио, ассоциированными со всем аудиопотоками, на основе информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения, чтобы:- alternatively, the metadata processor 1236 can be used to work with the audio metadata associated with all audio streams, based on information about the user's location and/or orientation and/or direction of movement, to:

- выбрать/включить необходимые аудиоэлементы 152, составляющие новую аудиосцену;- select/turn on the necessary audio elements 152 that make up the new audio scene;

- и обеспечить соединение всех аудиопотоков в единый аудиопоток;- and ensure the connection of all audio streams into a single audio stream;

- медиа-сервер доставляет необходимые адаптационные наборы;- the media server delivers the necessary adaptation kits;

- в качестве альтернативы клиент предоставляет информацию о местоположении пользователя медиа-серверу, а медиа-сервер предоставляет указание о необходимых адаптационных наборах.alternatively, the client provides information about the user's location to the media server, and the media server provides an indication of the required adaptation sets.

Фиг. 1.2 показывает другую примерную реализацию такой системы, содержащей:Fig. 1.2 shows another exemplary implementation of such a system, containing:

- на кодирующей стороне- on the coding side

- множество медиа-кодеров, которые могут использоваться для создания одного или более аудиопотоков для каждой доступной аудиосцены, ассоциированной с одной частью звуковой сцены у одной точки наблюдения;- many media encoders that can be used to create one or more audio streams for each available audio scene associated with one part of the sound stage at one viewpoint;

- множество медиа-кодеров, которые могут использоваться для создания одного или более видеопотоков для каждой доступной видеосцены, ассоциированной с одной частью видеосцены у одной точки наблюдения. На чертеже видеокодеры не представлены для простоты;- a plurality of media encoders that can be used to create one or more video streams for each available video scene associated with one part of the video scene at one viewpoint. In the drawing, video encoders are omitted for simplicity;

- медиа-сервер, который хранит несколько адаптационных наборов аудио и видео, содержащих разные кодирования одних и тех же аудио- и видеопотоков с разными скоростями передачи битов (то есть разные представления). Более того, медиа-сервер содержит описательную информацию про все адаптационные наборы, которая может включать в себя:- a media server that stores several audio and video adaptation sets containing different encodings of the same audio and video streams with different bit rates (that is, different representations). Moreover, the media server contains descriptive information about all adaptation sets, which may include:

- доступность всех созданных адаптационных наборов;- availability of all created adaptation sets;

- информацию, описывающую ассоциацию одного адаптационного набора с одной аудиосценой и/или точкой наблюдения; Таким образом, каждый адаптационный набор может ассоциироваться с одной из доступных аудиосцен;- information describing the association of one adaptation set with one audio scene and/or viewpoint; Thus, each adaptation set may be associated with one of the available audio scenes;

- информацию, описывающую "границы" каждой аудиосцены и/или точки наблюдения (которая может содержать, например, законченную аудиосцену или только отдельные объекты). Границы одной аудиосцены могут задаваться, например, в виде геометрических координат сферы (например, центр и радиус);- information describing the "boundaries" of each audio scene and/or viewpoint (which may contain, for example, a complete audio scene or only individual objects). The boundaries of one audio scene can be specified, for example, in the form of geometric coordinates of a sphere (for example, center and radius);

- на стороне клиента систему (клиентскую систему), которая может содержать в любой из:- on the client side, a system (client system), which may contain any of:

- принимающей стороны, которая может принимать:- a host that can receive:

- информацию о местоположении пользователя, и/или ориентации, и/или направлении перемещения (или любую информацию, описывающую изменения, вызванные действиями пользователя);- information about the user's location and/or orientation and/or direction of movement (or any information describing the changes caused by the user's actions);

- информацию о доступности всех адаптационных наборов и информацию, описывающую ассоциацию одного адаптационного набора с одной аудиосценой и/или точкой наблюдения; и/или информацию, описывающую "границы" каждой аудиосцены и/или точки наблюдения (которая может содержать, например, законченную аудиосцену или только отдельные объекты). Например, в случае среды доставки DASH такая информация может предоставляться как часть синтаксиса XML Описания представления мультимедиа (MPD);- information about the availability of all adaptation sets and information describing the association of one adaptation set with one audio scene and/or viewpoint; and/or information describing the "boundaries" of each audio scene and/or viewpoint (which may include, for example, a complete audio scene or only individual objects). For example, in the case of a DASH delivery environment, such information may be provided as part of the Media Presentation Description (MPD) XML syntax;

- стороны мультимедийного устройства, используемой для потребления контента (например, на основе HMD). Мультимедийное устройство также отвечает за сбор информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения (или любой информации, описывающей изменения, вызванные действиями пользователя);- the side of the multimedia device used to consume the content (eg based on HMD). The multimedia device is also responsible for collecting information about the user's location and/or orientation and/or direction of movement (or any information describing the changes caused by the user's actions);

- процессор 1232 поля видимости, который может быть выполнен с возможностью- field of view processor 1232, which may be configured to

- принимать от мультимедийного устройства информацию о текущем поле видимости, которая может содержать местоположение пользователя, и/или ориентацию, и/или направление перемещения (или любую информацию, описывающую изменения, вызванные действиями пользователя);- receive from the multimedia device information about the current field of view, which may contain the user's location and/or orientation and/or direction of movement (or any information describing changes caused by user actions);

- принимать информацию о ROI, сигнализированную в метаданных (поля видимости видео, сигнализированные в виде спецификации OMAF);- receive ROI information signaled in metadata (video visual fields signaled in the form of an OMAF specification);

- принимать всю информацию, доступную на принимающей стороне;- receive all information available on the receiving side;

- решать, какую точку наблюдения аудио/видео следует воспроизводить в некоторый момент времени, на основе всей информации, принятой и/или выведенной из принятых и/или доступных метаданных. Например, процессор 1232 поля видимости может решить, что:- decide which viewpoint of the audio/video should be played at some point in time, based on all the information received and/or derived from the received and/or available metadata. For example, visibility processor 1232 may decide that:

- нужно воспроизвести одну законченную аудиосцену;- you need to play one complete audio scene;

- нужно создать одну новую аудиосцену из всех доступных аудиосцен (например, нужно воспроизводить только некоторые аудиоэлементы из нескольких аудиосцен, тогда как другие оставшиеся аудиоэлементы из этих аудиосцен воспроизводить не нужно);- you need to create one new audio scene from all available audio scenes (for example, you need to play only some audio elements from several audio scenes, while other remaining audio elements from these audio scenes do not need to be played);

- нужно воспроизвести переход между двумя или более аудиосценами;- you need to play a transition between two or more audio scenes;

- выборная часть 1230, выполненная с возможностью выбирать на основе информации, принятой от процессора 1232 поля видимости, один или более адаптационных наборов из доступных адаптационных наборов, которые сигнализированы в информации, принятой принимающей стороной; при этом выбранные адаптационные наборы полностью описывают аудиосцену, которую следует воспроизводить в текущем местоположении пользователя. Эта аудиосцена может быть законченной аудиосценой, которая задана на кодирующей стороне, или нужно создать новую аудиосцену из всех доступных аудиосцен;- an elective portion 1230 configured to select, based on the information received from the field of view processor 1232, one or more adaptation sets from the available adaptation sets that are signaled in the information received by the receiving party; the selected adaptation sets fully describe the audio scene to be played at the user's current location. This audio scene can be a complete audio scene that is defined on the encoding side, or you need to create a new audio scene from all available audio scenes;

- более того, в случае, когда на основе указания от процессора 1232 поля видимости предстоит переход между двумя или более аудиосценами, выборная часть 1230 может быть выполнена с возможностью выбирать один или более адаптационных наборов из доступных адаптационных наборов, которые сигнализированы в информации, принятой принимающей стороной; при этом выбранные адаптационные наборы полностью описывают аудиосцену, которую может потребоваться воспроизвести в ближайшем будущем (например, если пользователь идет в направлении следующей аудиосцены с некоторой скоростью, то можно предсказать, что потребуется следующая аудиосцена, и она выбирается перед воспроизведением);furthermore, in the case where a transition between two or more audio scenes is to be made based on an indication from the field of view processor 1232, the selective portion 1230 may be configured to select one or more adaptation sets from the available adaptation sets that are signaled in the information received by the receiving party; wherein the selected adaptation sets fully describe an audio scene that may need to be played in the near future (for example, if the user walks towards the next audio scene at some speed, then it can be predicted that the next audio scene will be required and it is selected before playback);

- более того, сначала можно выбрать некоторые адаптационные наборы, соответствующие соседним местоположениям, с более низкой скоростью передачи битов (то есть представление, кодированное с более низкой скоростью передачи битов, выбирается из доступных представлений в одном адаптационном наборе), и на основе изменений положения качество увеличивается путем выбора более высокой скорости передачи битов для тех определенных адаптационных наборов (то есть представление, кодированное с более высокой скоростью передачи битов, выбирается из доступных представлений в одном адаптационном наборе);- moreover, some adaptation sets corresponding to neighboring locations with a lower bit rate can be selected first (i.e., a lower bit rate encoded representation is selected from the available representations in one adaptation set), and based on position changes, the quality is increased by selecting a higher bit rate for those specific adaptation sets (ie, a representation encoded at a higher bit rate is selected from the available representations in one adaptation set);

- загружающая и переключающая часть, которая может быть выполнена с возможностью:- loading and switching part, which can be configured to:

- запрашивать у медиа-сервера 120 один или более адаптационных наборов из доступных адаптационных наборов на основе указания, принятого от выборной части 1230;- request from the media server 120 one or more adaptation sets from the available adaptation sets based on the indication received from the elective part 1230;

- принимать от медиа-сервера 120 один или более адаптационных наборов (то есть одного представления из всех представлений, доступных внутри каждого адаптационного набора) из доступных адаптационных наборов;- receive from the media server 120 one or more adaptation sets (ie one view from all the views available within each adaptation set) from the available adaptation sets;

- извлекать метаданные из всех принятых аудиопотоков;- extract metadata from all received audio streams;

- процессор 1236 метаданных, который может быть выполнен с возможностью:- a metadata processor 1236, which may be configured to:

- принимать от загружающей и переключающей части информацию о принятых аудиопотоках, которая может включать в себя метаданные аудио, соответствующие каждому принятому аудиопотоку;- receive from the downloading and switching part information about the received audio streams, which may include audio metadata corresponding to each received audio stream;

- обрабатывать метаданные аудио, ассоциированные с каждым аудиопотоком, на основе принятой от процессора 1232 поля видимости информации, которая может включать в себя информацию о местоположении пользователя, и/или ориентации, и/или направлении перемещения, чтобы:- process the audio metadata associated with each audio stream based on the information received from the field of view processor 1232, which may include information about the user's location and/or orientation and/or direction of movement, to:

- выбрать/включить необходимые аудиоэлементы 152, составляющие новую аудиосцену, которая указана процессором 1232 поля видимости;- select/turn on the necessary audio elements 152 that make up the new audio scene, which is indicated by the field of view processor 1232;

- обеспечить соединение всех аудиопотоков в единый аудиопоток;- provide connection of all audio streams into a single audio stream;

- мультиплексор/устройство 1238 соединения потоков, которое может быть выполнено с возможностью соединения всех выбранных аудиопотоков в один аудиопоток на основе принятой от процессора 1236 метаданных информации, которая может включать в себя измененные и обработанные метаданные аудио, соответствующие всем принятым аудиопотокам;- a multiplexer/stream connecter 1238 that can be configured to connect all selected audio streams into one audio stream based on the information received from the processor 1236 metadata, which may include modified and processed audio metadata corresponding to all received audio streams;

- медиа-декодер, выполненный с возможностью принимать и декодировать по меньшей мере один аудиопоток для воспроизведения новой аудиосцены, которая указана процессором 1232 поля видимости, на основе информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения.- a media decoder configured to receive and decode at least one audio stream to reproduce a new audio scene, which is indicated by the field of view processor 1232, based on information about the user's location, and/or orientation, and/or direction of movement.

Фиг. 1.3 показывает систему, содержащую на стороне клиента систему (клиентскую систему), которая может воплощать, например, части системы, описанной на фиг. 1.2, которые дополнительно или в качестве альтернативы содержат:Fig. 1.3 shows a system comprising, on the client side, a system (client system) that may implement, for example, parts of the system described in FIG. 1.2 which additionally or alternatively contain:

- несколько медиа-декодеров, которые могут быть выполнены с возможностью декодировать отдельные аудиопотоки, которые указаны процессором 1236 метаданных (например, с некоторым количеством отключенных аудиоэлементов);- multiple media decoders that can be configured to decode individual audio streams that are specified by the metadata processor 1236 (eg, with a number of audio elements disabled);

- смеситель/блок 1238 вывода, который может быть выполнен с возможностью воспроизводить итоговую аудиосцену на основе информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения (то есть некоторые аудиоэлементы, которые не слышны в определенном местоположении, следует отключить или не выводить).- a mixer/output unit 1238 that can be configured to reproduce the resulting audio scene based on information about the user's location and/or orientation and/or direction of movement (that is, some audio elements that are not heard at a certain location should be turned off or output).

Решение 2Solution 2

Фиг. 1.4, 1.5 и 1.6 относятся к примерам в соответствии с решением 2 из изобретения (которое может быть вариантами осуществления примеров из фиг. 1.1, и/или 1.2, и/или 1.3): независимые адаптационные наборы для дискретных местоположений (точек наблюдения) с гибкими адаптационными наборами.Fig. 1.4, 1.5 and 1.6 refer to examples according to solution 2 of the invention (which may be variants of the examples of figures 1.1 and/or 1.2 and/or 1.3): independent adaptation sets for discrete locations (viewpoints) with flexible adaptation kits.

В случае, когда пользователь перемещается в VR-среде, аудиосцена 150 может постоянно меняться. Для обеспечения хорошего восприятия аудио все аудиоэлементы 152, составляющие аудиосцену 150 в некоторый момент времени, может потребоваться сделать доступными медиа-декодеру, который может применить информацию о положении для создания итоговой аудиосцены.In the case where the user is moving around in the VR environment, the audio scene 150 may constantly change. To provide a good audio experience, all of the audio elements 152 that make up the audio scene 150 at some point in time may need to be made available to a media decoder that can apply the position information to create the final audio scene.

Но в случаях, когда пользователь "идет" из одного местоположения в следующее, аудиоэлементы 152 из двух (или более) аудиосцен 150 можно услышать одновременно. Решение для этих вариантов использования было предоставлено в предыдущих примерах систем, где независимо от механизмов, предусмотренных для декодирования нескольких аудиопотоков (либо с использованием мультиплексора с одним медиа-декодером, либо с несколькими медиа-декодерами и дополнительным смесителем/блоком 1238 вывода), клиенту/системе 102 нужно предоставлять аудиопотоки, которые описывают законченные аудиосцены 150.But in cases where the user is "walking" from one location to the next, audio elements 152 from two (or more) audio scenes 150 can be heard at the same time. A solution to these use cases has been provided in previous system examples where, regardless of the mechanisms provided for decoding multiple audio streams (either using a multiplexer with a single media decoder or multiple media decoders and an additional mixer/output unit 1238), the client/ the system 102 needs to be provided with audio streams that describe the completed audio scenes 150.

Ниже предоставляется оптимизация путем предложения идеи общих аудиоэлементов 152 между несколькими аудиопотоками.An optimization is provided below by suggesting the idea of common audio elements 152 between multiple audio streams.

Фиг. 1.4 показывает пример, в котором разные сцены совместно используют по меньшей мере один аудиоэлемент (аудиообъект, источник звука, …). Поэтому клиент 102 может принимать, например, один главный поток 106A, ассоциированный только с одной сценой A (например, ассоциированной со средой, где пользователь находится в настоящее время) и ассоциированный с объектами 152A, и один вспомогательный поток 106B, совместно используемый другой сценой B (например, поток на границе между сценой A, в которой пользователь находится в настоящее время, и соседний или смежный поток B, совместно использующий объекты 152B) и ассоциированный с объектами 152B.Fig. 1.4 shows an example where different scenes share at least one audio element (audio object, sound source, ...). Therefore, client 102 may receive, for example, one main stream 106A associated with only one scene A (eg, associated with the environment where the user is currently located) and associated with objects 152A, and one auxiliary stream 106B shared by another scene B (eg, a stream at the boundary between scene A, in which the user is currently located, and an adjacent or adjacent stream B sharing objects 152B) and associated with objects 152B.

Поэтому, как показано на фиг. 1.4:Therefore, as shown in FIG. 1.4:

- несколько независимых или перекрывающихся аудиосцен кодируются в некоторое количество аудиопотоков. Аудиопотоки 106 создаются таким образом, что:- several independent or overlapping audio scenes are encoded into a number of audio streams. Audio streams 106 are created such that:

- для каждой аудиосцены 150 можно создать один главный поток, содержащий только аудиоэлементы 152, которые являются частью соответствующей аудиосцены, но не частью никакой другой аудиосцены; и/или- for each audio scene 150, you can create one main stream containing only audio elements 152 that are part of the corresponding audio scene, but not part of any other audio scene; and/or

- для всех аудиосцен 150, которые совместно используют аудиоэлементы 152, общие аудиоэлементы 152 могут кодироваться только во вспомогательные аудиопотоки, ассоциированные только с одной из аудиосцен, и создаются подходящие метаданные, указывающие ассоциацию с другими аудиосценами. Или, другими словами, дополнительные метаданные указывают возможность того, что некоторые аудиопотоки можно использовать вместе с несколькими аудиосценами; и/или- for all audio scenes 150 that share audio elements 152, common audio elements 152 can only be encoded into auxiliary audio streams associated with only one of the audio scenes, and suitable metadata is created indicating the association with other audio scenes. Or, in other words, additional metadata indicates the possibility that some audio streams can be used together with multiple audio scenes; and/or

- в зависимости от варианта использования можно создать дополнительные вспомогательные потоки (например, некоторые аудиообъекты, содержащие разный языки, могут кодироваться в независимые потоки для эффективной доставки).- depending on the use case, additional auxiliary streams can be created (for example, some audio objects containing different languages can be encoded into independent streams for efficient delivery).

- В предоставленном варианте осуществления:- In the provided embodiment:

- аудиосцена A кодируется в:- audio scene A is encoded in:

- главный аудиопоток (A1, 106A);- main audio stream (A1, 106A);

- вспомогательный аудиопоток (A2, 106B);- auxiliary audio stream (A2, 106B);

- метаданные, которые могут указывать, что некоторые аудиоэлементы 152B из аудиосцены A не кодируются в этот аудиопоток A, а во вспомогательный поток A2 (106B), принадлежащий другой аудиосцене (аудиосцене B);- metadata that may indicate that some audio elements 152B from audio scene A are not encoded into this audio stream A, but into an auxiliary stream A2 (106B) belonging to another audio scene (audio scene B);

- аудиосцена B кодируется в:- audio scene B is encoded in:

- главный аудиопоток (B1, 106C);- main audio stream (B1, 106C);

- вспомогательный аудиопоток (B2);- auxiliary audio stream (B2);

- вспомогательный аудиопоток (B3);- auxiliary audio stream (B3);

- метаданные, которые могут указывать, что аудиоэлементы 152B из аудиопотока B2 являются общими аудиоэлементами 152B, которые принадлежат также аудиосцене A;- metadata that may indicate that audio elements 152B from audio stream B2 are common audio elements 152B that also belong to audio scene A;

- аудиосцена C кодируется в три потока (C1, C2 и C3);- audio scene C is encoded into three streams (C1, C2 and C3);

- аудиопотоки 106 (106A, 106B, 106C, …) могут кодировать с разными скоростями передачи битов (то есть разными представлениями), что допускает эффективную адаптацию скорости передачи битов в зависимости от сетевого соединения (то есть для пользователей, использующих высокоскоростное соединение, доставляется кодированная с высокой скоростью передачи битов версия, тогда как для пользователей с менее скоростным сетевым соединением доставляется версия с более низкой скоростью передачи битов);- audio streams 106 (106A, 106B, 106C, ...) can be encoded at different bit rates (i.e., different representations), which allows for efficient adaptation of the bit rate depending on the network connection (i.e., for users using a high-speed connection, an encoded a high bit rate version, while a lower bit rate version is delivered to users with a slower network connection);

- аудиопотоки 106 сохраняются на медиа-сервере 120, где для каждого аудиопотока разные кодирования с разными скоростями передачи битов (то есть разными представлениями) группируются в один адаптационный набор с подходящими данными, сигнализирующими доступность всех созданных адаптационных наборов. (В одном адаптационном наборе может присутствовать несколько представлений потоков, ассоциированных с одними и теми же аудиосигналами, но с разными скоростями передачи битов, и/или качествами, и/или разрешениями);the audio streams 106 are stored on the media server 120 where, for each audio stream, different encodings with different bit rates (i.e., different representations) are grouped into one adaptation set with the appropriate data signaling the availability of all created adaptation sets. (There may be multiple stream representations in one adaptation set associated with the same audio signals but with different bit rates and/or qualities and/or resolutions);

- дополнительно к адаптационным наборам медиа-сервер 120 может принимать информацию о "границах" местоположения у каждой аудиосцены и их взаимосвязь с каждым адаптационным набором (который может содержать, например, законченную аудиосцену или только отдельные объекты). Таким образом, каждый адаптационный набор может ассоциироваться с одной или более доступными аудиосценами 150. Границы одной аудиосцены могут задаваться, например, в виде геометрических координат сферы (например, центр и радиус);In addition to the adaptation sets, the media server 120 may receive information about the "boundaries" of the location at each audio scene and their relationship to each adaptation set (which may contain, for example, a complete audio scene or only individual objects). Thus, each adaptation set may be associated with one or more available audio scenes 150. The boundaries of one audio scene may be defined, for example, as the geometric coordinates of a sphere (eg, center and radius);

- каждый адаптационный набор может содержать также описательную информацию о местоположениях, в которых активна звуковая сцена или аудиоэлементы 152. Например, если один вспомогательный поток (например, A2, 106B) содержит один или более объектов, то адаптационный набор мог бы содержать такую информацию, как местоположения, где слышны объекты (например, координаты центра сферы и радиус);- each adaptation set may also contain descriptive information about the locations at which the soundstage or audio elements 152 are active. locations where objects are heard (for example, the coordinates of the center of the sphere and the radius);

- дополнительно или в качестве альтернативы каждый адаптационный набор (например, адаптационный набор, ассоциированный со сценой B) может содержать описательную информацию (например, метаданные), которая может указывать, что аудиоэлементы (например, 152B) из одной аудиосцены (например, B) кодируются (также или дополнительно) в аудиопотоки (например, 106B), принадлежащие другой аудиосцене (например, A);- additionally or alternatively, each adaptation set (eg, adaptation set associated with scene B) may contain descriptive information (eg, metadata) that may indicate that audio elements (eg, 152B) from one audio scene (eg, B) are encoded (also or additionally) to audio streams (eg, 106B) belonging to another audio scene (eg, A);

- медиа-сервер 120 может предоставлять системе 102 (клиенту), например клиенту DASH, информацию о "границах" местоположения, ассоциированных с каждым адаптационным набором. Например, в случае среды доставки DASH ее можно встроить в синтаксис XML Описания представления мультимедиа (MPD);media server 120 may provide system 102 (client), such as a DASH client, with information about the location "boundaries" associated with each adaptation set. For example, in the case of a DASH delivery environment, it can be embedded in the Media Presentation Description (MPD) XML syntax;

- система 102 (клиент) может принимать информацию о местоположении пользователя, и/или ориентации, и/или направлении перемещения (или любую информацию, описывающую изменения, вызванные действиями пользователя);- system 102 (client) can receive information about the user's location and/or orientation and/or direction of movement (or any information describing changes caused by user actions);

- система 102 (клиент) может принимать информацию о каждом адаптационном наборе, и на ее основе и/или местоположения пользователя, и/или ориентации, и/или направления перемещения (или любой информации, описывающей изменения, вызванные действиями пользователя, например содержащей координаты x, y, z и/или значения поворота, продольного крена, поперечного крена) система 102 (клиент) может выбрать один или более адаптационных наборов, полностью или частично описывающих аудиосцену 150, которую следует воспроизвести в текущем местоположении пользователя 140;- system 102 (client) can receive information about each adaptation set, and based on it and / or the user's location, and / or orientation, and / or direction of movement (or any information describing changes caused by user actions, for example containing x coordinates , y, z and/or roll, roll, roll values) the system 102 (client) may select one or more adaptation sets that fully or partially describe the audio scene 150 to be played at the current location of the user 140;

- система 102 (клиент) может запрашивать один или более адаптационных наборов:- system 102 (client) may request one or more adaptation sets:

- кроме того, система 102 (клиент) может выбрать один или более адаптационных наборов, полностью или частично описывающих более одной аудиосцены 150, и использовать аудиопотоки 106, соответствующие более одной аудиосцене 150, для создания новой аудиосцены 150 для воспроизведения в текущем местоположении пользователя 140;- in addition, the system 102 (client) can select one or more adaptation sets that fully or partially describe more than one audio scene 150, and use the audio streams 106 corresponding to more than one audio scene 150 to create a new audio scene 150 for playback at the current location of the user 140;

- на основе метаданных, указывающих, что аудиоэлементы 152 являются частью нескольких аудиосцен 150, общие аудиоэлементы 152 можно запросить только один раз для создания новой аудиосцены вместо запрашивания их дважды, по одному разу для каждой законченной аудиосцены;- based on the metadata indicating that the audio elements 152 are part of multiple audio scenes 150, the common audio elements 152 can only be requested once to create a new audio scene, instead of being requested twice, once for each completed audio scene;

- как только аудиопотоки доступны клиентской системе 102, в примерах можно использовать один или более медиа-декодеров (104) для декодирования отдельных аудиопотоков и/или дополнительный смеситель/блок вывода для воспроизведения итоговой аудиосцены на основе информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения (то есть, например, некоторые аудиоэлементы, которые не слышны в определенном местоположении, следует отключить или не выводить);- once the audio streams are available to the client system 102, the examples can use one or more media decoders (104) to decode the individual audio streams and/or an additional mixer/output unit to render the final audio scene based on the user's location information and/or orientation, and/or direction of travel (ie, for example, some audio elements that are not audible at a particular location should be muted or not output);

- в качестве альтернативы или дополнительно процессор метаданных может использоваться для работы с метаданными аудио, ассоциированными со всем аудиопотоками, на основе информации о местоположении пользователя, и/или ориентации, и/или направлении перемещения, чтобы:- alternatively or additionally, a metadata processor can be used to work with audio metadata associated with all audio streams, based on information about the user's location, and/or orientation, and/or direction of movement, in order to:

- выбрать/включить необходимые аудиоэлементы 152 (152A-152c), составляющие новую аудиосцену; и/или- select/turn on the necessary audio elements 152 (152A-152c) that make up the new audio scene; and/or

- медиа-сервер 120 может доставить необходимые адаптационные наборы;- media server 120 can deliver the necessary adaptation kits;

- в качестве альтернативы система 102 (клиент) предоставляет информацию о местоположении пользователя 140 медиа-серверу 120, а медиа-сервер предоставляет указание о необходимых адаптационных наборах.- alternatively, the system 102 (client) provides information about the location of the user 140 to the media server 120, and the media server provides an indication of the necessary adaptation sets.

Фиг. 1.5 показывает другую примерную реализацию такой системы, содержащей:Fig. 1.5 shows another exemplary implementation of such a system, containing:

- на кодирующей стороне- on the coding side

- множество медиа-кодеров 154, которые могут использоваться для создания одного или более аудиопотоков 106, встраивающих аудиоэлементы 152 из одной или более доступных аудиосцен 150, ассоциированных с одной частью звуковой сцены у одной точки наблюдения;a plurality of media encoders 154 that can be used to create one or more audio streams 106 embedding audio elements 152 from one or more available audio scenes 150 associated with one part of the soundstage at one viewpoint;

- для каждой аудиосцены 150 можно создать один главный поток, содержащий только аудиоэлементы 152, которые являются частью соответствующей аудиосцены 150, но не частью никакой другой аудиосцены;- for each audio scene 150, you can create one main stream containing only audio elements 152 that are part of the corresponding audio scene 150, but not part of any other audio scene;

- для той же аудиосцены можно создать дополнительные вспомогательные потоки (например, некоторые аудиообъекты, содержащие разные языки, могут кодироваться в независимые потоки для эффективной доставки);- additional auxiliary streams can be created for the same audio scene (for example, some audio objects containing different languages can be encoded into independent streams for efficient delivery);

- можно создать дополнительные вспомогательные потоки, которые содержат:- you can create additional helper threads that contain:

- аудиоэлементы 152, общие более чем для одной аудиосцены 150;- audio elements 152 common to more than one audio scene 150;

- метаданные, указывающие ассоциацию этого вспомогательного потока со всеми другими аудиосценами 150, которые совместно используют общие аудиоэлементы 152. Или, другими словами, метаданные указывают возможность того, что некоторые аудиопотоки можно использовать вместе с несколькими аудиосценами;- metadata indicating the association of this auxiliary stream with all other audio scenes 150 that share common audio elements 152. Or, in other words, the metadata indicates the possibility that some audio streams can be used together with several audio scenes;

- медиа-сервер 120, который хранит несколько адаптационных наборов аудио и видео, содержащих разные кодирования одних и тех же аудио- и видеопотоков с разными скоростями передачи битов (то есть разные представления). Более того, медиа-сервер 120 содержит описательную информацию про все адаптационные наборы, которая может включать в себяa media server 120 that stores multiple audio and video adaptation sets containing different encodings of the same audio and video streams at different bit rates (i.e., different representations). Moreover, media server 120 contains descriptive information about all adaptation sets, which may include

- информацию, указывающую ассоциацию одного адаптационного набора более чем с одной аудиосценой, которые совместно используют по меньшей мере один общий аудиоэлемент;- information indicating the association of one adaptation set with more than one audio scene that share at least one common audio element;

- выборная часть 1230, выполненная с возможностью выбирать на основе информации, принятой от процессора 1232 поля видимости, один или более адаптационных наборов из доступных адаптационных наборов, которые сигнализированы в информации, принятой принимающей стороной; при этом выбранные адаптационные наборы полностью или частично описывают аудиосцену, которую следует воспроизводить в текущем местоположении пользователя. Эта аудиосцена может быть законченной или частично законченной аудиосценой, которая задана на кодирующей стороне, или нужно создать новую аудиосцену из всех доступных аудиосцен;- an elective portion 1230 configured to select, based on the information received from the field of view processor 1232, one or more adaptation sets from the available adaptation sets that are signaled in the information received by the receiving party; wherein the selected adaptation sets fully or partially describe the audio scene to be played at the user's current location. This audio scene can be a complete or partially finished audio scene that is defined on the encoding side, or you need to create a new audio scene from all available audio scenes;

- более того, в случае аудиоэлементов 152, принадлежащих более одной аудиосцене, по меньшей мере один из адаптационных наборов выбирается на основе информации, указывающей ассоциацию по меньшей мере одного адаптационного набора более чем с одной аудиосценой, которые содержат те же аудиоэлементы 152;- moreover, in the case of audio elements 152 belonging to more than one audio scene, at least one of the adaptation sets is selected based on information indicating the association of at least one adaptation set with more than one audio scene that contain the same audio elements 152;

- принимать от медиа-сервера 120 один или более адаптационных наборов (то есть одно представление из всех представлений, доступных внутри каждого адаптационного набора) из доступных адаптационных наборов;- receive from the media server 120 one or more adaptation sets (that is, one view from all the views available within each adaptation set) from the available adaptation sets;

- мультиплексор/устройство 1238 соединения потоков, которое может быть выполнено с возможностью соединять все выбранные аудиопотоки в один аудиопоток на основе принятой от процессора 1236 метаданных информации, которая может включать в себя измененные и обработанные метаданные аудио, соответствующие всем принятым аудиопотокам;a multiplexer/stream connector 1238 that can be configured to combine all selected audio streams into a single audio stream based on information received from the metadata processor 1236, which may include modified and processed audio metadata corresponding to all received audio streams;

Фиг. 1.6 показывает систему, содержащую на стороне клиента систему (клиентскую систему), которая может воплощать, например, части системы, описанной на фиг. 5, которые дополнительно или в качестве альтернативы содержат:Fig. 1.6 shows a system comprising, on the client side, a system (client system) that may implement, for example, parts of the system described in FIG. 5 which additionally or alternatively contain:

Обновления форматов файлов для воспроизведенияPlayback file format updates

Для варианта использования формата файла несколько главных и вспомогательных потоков можно заключить в виде отдельных дорожек в одном файле ISOBMFF. Одна дорожка такого файла представляла бы один аудиоэлемент, как упоминалось ранее. Поскольку не доступно MPD, которое содержит необходимую информацию для правильного воспроизведения, информацию нужно предоставлять на уровне формата файла, например путем предоставления/введения определенного контейнера формата файла или определенных контейнеров формата файла на уровне дорожки и фильма. В зависимости от варианта использования есть разная информация, необходимая для правильного представления заключенных аудиосцен, однако следующий набор информации является основополагающим и поэтому всегда должен присутствовать:For the file format use case, multiple main and sub streams can be wrapped as separate tracks in a single ISOBMFF file. One track of such a file would represent one audio element, as mentioned earlier. Since no MPD is available that contains the necessary information for proper playback, the information needs to be provided at the file format level, for example by providing/introducing a specific file format container or specific file format containers at the track and movie level. Depending on the use case, there is different information needed to correctly represent the enclosed audio scenes, however the following set of information is fundamental and should therefore always be present:

- информация о включенных аудиосценах, например "границы местоположения";- information about included audio scenes, such as "location boundaries";

- информация обо всех доступных аудиоэлементах, в особенности о том, какой аудиоэлемент заключается в какую дорожку;- information about all available audio elements, in particular about which audio element is included in which track;

- информация о местоположении заключенных аудиоэлементов;- information about the location of the imprisoned audio elements;

- список всех аудиоэлементов, принадлежащих одной аудиосцене, при этом аудиоэлемент может принадлежать нескольким аудиосценам;- a list of all audio elements belonging to one audio scene, while an audio element can belong to several audio scenes;

С помощью этой информации все упомянутые варианты использования, включая вариант с дополнительным процессором метаданных и совместно используемым кодированием, также должны работать в файловой среде.With this information, all mentioned use cases, including the option with an additional metadata processor and shared encoding, should also work in a file environment.

Дополнительные соображения по вышеприведенным примерамAdditional considerations for the above examples

В примерах (например, по меньшей мере среди фиг. 1.1-6) по меньшей мере одна сцена может ассоциироваться по меньшей мере с одним аудиоэлементом (аудиоисточником 152), при этом каждый аудиоэлемент ассоциируется с положением и/или областью в визуальной среде, где слышен аудиоэлемент, чтобы разные аудиопотоки предоставлялись от серверной системы 120 клиентской системе 102 для разных положений пользователя, и/или полей видимости, и/или ориентаций головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения в сцене.In examples (for example, at least among FIGS. 1.1-6), at least one scene may be associated with at least one audio element (audio source 152), with each audio element associated with a position and/or area in the visual environment where the audio is heard. an audio element so that different audio streams are provided from the server system 120 to the client system 102 for different user positions and/or fields of view and/or head orientations and/or movement data and/or interaction metadata and/or virtual position data in the scene .

В примерах клиентская система 102 может быть выполнена с возможностью решать, нужно ли воспроизводить по меньшей мере один аудиоэлемент 152 аудиопотока (например, A1, A2) и/или один адаптационный набор при наличии текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или виртуального положения в сцене, причем система 102 выполнена с возможностью запрашивать и/или принимать по меньшей мере один аудиоэлемент в текущем виртуальном положении пользователя.In the examples, the client system 102 may be configured to decide whether to play at least one audio element 152 of the audio stream (eg, A1, A2) and/or one adaptation set given the user's current field of view, and/or head orientation, and/ or movement data and/or interaction metadata and/or virtual position in the scene, wherein the system 102 is configured to request and/or receive at least one audio element at the user's current virtual position.

В примерах клиентская система (например, 102) может быть выполнена с возможностью прогнозировать, станет ли релевантным и/или слышимым по меньшей мере один аудиоэлемент (152) аудиопотока и/или один адаптационный набор, на основе по меньшей мере текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных (110) виртуального положения, и при этом система выполнена с возможностью запрашивать и/или принимать по меньшей мере один аудиоэлемент, и/или аудиопоток, и/или адаптационный набор в конкретном виртуальном положении пользователя до предсказанного перемещения и/или взаимодействия пользователя в сцене, причем система выполнена с возможностью воспроизводить, при приеме, по меньшей мере один аудиоэлемент и/или аудиопоток в конкретном виртуальном положении пользователя после перемещения и/или взаимодействия пользователя в сцене. См., например, фиг. 8A и 8B выше. В некоторых примерах по меньшей мере одна из операций системы 102 или 120 может выполняться на основе прогнозных, и/или статистических, и/или агрегатных данных.In examples, the client system (eg, 102) may be configured to predict whether at least one audio stream element (152) and/or one adaptation set will become relevant and/or audible, based on at least the user's current field of view, and /or head orientation and/or movement data and/or interaction metadata and/or virtual position data (110), wherein the system is configured to request and/or receive at least one audio element and/or audio stream, and/or an adaptation set at a specific virtual position of the user prior to the predicted movement and/or interaction of the user in the scene, wherein the system is configured to play, upon receipt, at least one audio element and/or audio stream at the specific virtual position of the user after the movement and/or user interaction in the scene. See, for example, FIG. 8A and 8B above. In some examples, at least one of the operations of system 102 or 120 may be performed based on predictive and/or statistical and/or aggregated data.

В примерах клиентская система (например, 102) может быть выполнена с возможностью запрашивать и/или принимать по меньшей мере один аудиоэлемент (например, 152) с более низкой скоростью передачи битов и/или уровнем качества в виртуальном положении пользователя до перемещения и/или взаимодействия пользователя в сцене, причем система выполнена с возможностью запрашивать и/или принимать по меньшей мере один аудиоэлемент с более высокой скоростью передачи битов и/или уровнем качества в виртуальном положении пользователя после перемещения и/или взаимодействия пользователя в сцене. См., например, фиг. 7B.In examples, the client system (eg, 102) may be configured to request and/or receive at least one audio element (eg, 152) with a lower bit rate and/or quality level at the user's virtual position prior to movement and/or interaction. of a user in the scene, wherein the system is configured to request and/or receive at least one audio element with a higher bit rate and/or quality level at the user's virtual position after the user moves and/or interacts in the scene. See, for example, FIG. 7B.

В примерах по меньшей мере один аудиоэлемент может ассоциироваться по меньшей мере с одной сценой, при этом по меньшей мере один аудиоэлемент ассоциируется с положением и/или областью в визуальной среде, ассоциированной со сценой, причем система выполнена с возможностью запрашивать разные потоки с разными скоростями передачи битов и/или уровнями качества для аудиоэлементов на основе их релевантности и/или уровня слышимости в каждом виртуальном положении пользователя в сцене, причем система выполнена с возможностью запрашивать аудиопоток с более высокой скоростью передачи битов и/или уровнем качества для аудиоэлементов, которые более релевантны и/или лучше слышны в текущем виртуальном положении пользователя, и/или аудиопотока с более низкой скоростью передачи битов и/или уровнем качества для аудиоэлементов, которые менее релевантны и/или хуже слышны в текущем виртуальном положении пользователя. В общих чертах см. фиг. 7A. См. также фиг. 2a и 2b (где более релевантные и/или слышимые источники могут быть ближе к пользователю), фиг. 3 (где более релевантный и/или слышимый источник является источником сцены 150a, когда пользователь находится в положении x₁, и более релевантный и/или слышимый источник является источником сцены 150b, когда пользователь находится в положении x₃), фиг. 4 (где в момент t₂ времени более релевантные и/или слышимые источники могут быть источниками первой сцены), фиг. 6 (где более слышимые источники могут быть источниками, которые пользователь наблюдает перед собой).In examples, at least one audio element may be associated with at least one scene, wherein at least one audio element is associated with a position and/or area in the visual environment associated with the scene, and the system is configured to request different streams at different bit rates. bits and/or quality levels for audio elements based on their relevance and/or audibility level at each user's virtual position in the scene, wherein the system is configured to request an audio stream with a higher bit rate and/or quality level for audio elements that are more relevant and /or better audible at the current virtual position of the user, and/or an audio stream with a lower bit rate and/or quality level for audio elements that are less relevant and/or worse audible at the current virtual position of the user. In general terms, see FIG. 7A. See also FIG. 2a and 2b (where more relevant and/or audible sources may be closer to the user), FIG. 3 (where the more relevant and/or audible source is the source of scene 150a when the user is at position x ₁ and the more relevant and/or audible source is the source of scene 150b when the user is at position x ₃ ), FIG. 4 (where at time t ₂ more relevant and/or audible sources may be the sources of the first scene), FIG. 6 (where more audible sources may be sources that the user observes in front of him).

В примерах по меньшей мере один аудиоэлемент (152) ассоциируется со сценой, при этом каждый аудиоэлемент ассоциируется с положением и/или областью в визуальной среде, ассоциированной со сценой, где клиентская система 102 выполнена с возможностью периодически отправлять серверной системе 120 текущее поле видимости пользователя, и/или ориентацию головы, и/или данные перемещения, и/или метаданные взаимодействия, и/или данные (110) виртуального положения, чтобы: для положения ближе по меньшей мере к одному аудиоэлементу (152) от сервера предоставлялся поток с более высокой скоростью передачи битов и/или качеством, а для положения дальше по меньшей мере от одного аудиоэлемента (152) от сервера предоставлялся поток с более низкой скоростью передачи битов и/или качеством. См., например, фиг. 2a и 2b.In the examples, at least one audio element (152) is associated with a scene, with each audio element associated with a position and/or area in the visual environment associated with the scene, where the client system 102 is configured to periodically send the server system 120 the user's current field of view, and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data (110) so that: for a position closer to at least one audio element (152) a higher rate stream is provided from the server bit rate and/or quality, and for a position further away from at least one audio element (152) from the server, a stream with a lower bit rate and/or quality was provided. See, for example, FIG. 2a and 2b.

В примерах может задаваться множество сцен (например, 150A, 150B) для нескольких визуальных сред, например смежных и/или соседних сред, чтобы предоставлялись первые потоки, ассоциированные с первой текущей сценой (например, 150A), и чтобы в случае перехода пользователя (150AB) ко второй, дальней сцене (например, 150B) предоставить потоки, ассоциированные с первой сценой, и вторые потоки, ассоциированные со второй сценой. См., например, фиг. 3.The examples may define multiple scenes (eg, 150A, 150B) for multiple visual environments, such as contiguous and/or neighboring environments, so that the first streams associated with the first current scene are provided (eg, 150A), and that in the event of a user transition (150AB ) to a second, far scene (eg, 150B) to provide the streams associated with the first scene and the second streams associated with the second scene. See, for example, FIG. 3.

В примерах задается множество сцен для первой и второй визуальных сред, при этом первая и вторая среды являются смежными и/или соседними средами, где от сервера предоставляются первые потоки, ассоциированные с первой сценой, для воспроизведения первой сцены, если виртуальное положение пользователя находится в первой среде, ассоциированной с первой сценой, от сервера предоставляются вторые потоки, ассоциированные со второй сценой, для воспроизведения второй сцены, если виртуальное положение пользователя находится во второй среде, ассоциированной со второй сценой, и предоставляются первые потоки, ассоциированные с первой сценой, и вторые потоки, ассоциированные со второй сценой, если виртуальное положение пользователя находится в переходном положении между первой сценой и второй сценой. См., например, фиг. 3.The examples define a plurality of scenes for the first and second visual environments, with the first and second environments being contiguous and/or neighboring environments, where the first streams associated with the first scene are provided from the server to play the first scene if the user's virtual position is in the first to the environment associated with the first scene, second streams associated with the second scene are provided from the server to play the second scene if the user's virtual position is in the second environment associated with the second scene, and the first streams associated with the first scene and the second streams are provided associated with the second scene if the user's virtual position is in a transitional position between the first scene and the second scene. See, for example, FIG. 3.

В примерах первые потоки, ассоциированные с первой сценой, получаются с более высокой скоростью передачи битов и/или качеством, когда пользователь находится в первой среде, ассоциированной с первой сценой, тогда как вторые потоки, ассоциированные со второй сценой, ассоциированной со второй средой, получаются с более низкой скоростью передачи битов и/или качеством, когда пользователь находится в начале переходного положения от первой сцены ко второй сцене, и первые потоки, ассоциированные с первой сценой, получаются с более низкой скоростью передачи битов и/или качеством, а вторые потоки, ассоциированные со второй сценой, получаются с более высокой скоростью передачи битов и/или качеством, когда пользователь находится в конце переходного положения от первой сцены ко второй сцене. Это может быть случай, например, из фиг. 3.In the examples, the first streams associated with the first scene are obtained at a higher bit rate and/or quality when the user is in the first environment associated with the first scene, while the second streams associated with the second scene associated with the second environment are obtained with a lower bit rate and/or quality, when the user is at the beginning of the transition from the first scene to the second scene, and the first streams associated with the first scene are obtained with a lower bit rate and/or quality, and the second streams, associated with the second scene are obtained at a higher bit rate and/or quality when the user is at the end of the transition from the first scene to the second scene. This may be the case, for example, from FIG. 3.

В примерах задается множество сцен (например, 150A, 150B) для нескольких визуальных сред (например, смежных сред), чтобы система 102 могла запрашивать и/или получать потоки, ассоциированные с текущей сценой, с более высокой скоростью передачи битов и/или качеством, а потоки, ассоциированные со второй сценой, с более низкой скоростью передачи битов и/или качеством. См., например, фиг. 4.The examples define multiple scenes (eg, 150A, 150B) for multiple visual media (eg, adjacent media) so that system 102 can request and/or receive streams associated with the current scene at a higher bit rate and/or quality, and streams associated with the second scene, with a lower bit rate and/or quality. See, for example, FIG. 4.

В примерах задается множество из N аудиоэлементов, и если расстояние пользователя до положения или области этих аудиоэлементов больше заранее установленной пороговой величины, то обрабатываются N аудиоэлементов для получения меньшего числа M аудиоэлементов (M<N), ассоциированных с положением или областью, близкой к положению или области N аудиоэлементов, чтобы предоставить системе по меньшей мере один аудиопоток, ассоциированный с N аудиоэлементами, если расстояние пользователя до положения или области N аудиоэлементов меньше заранее установленной пороговой величины, либо предоставить системе по меньшей мере один аудиопоток, ассоциированный с M аудиоэлементами, если расстояние пользователя до положения или области N аудиоэлементов больше заранее установленной пороговой величины. См., например, фиг. 1.7.In the examples, a set of N audio elements is specified, and if the user's distance to a position or area of these audio elements is greater than a predetermined threshold, then N audio elements are processed to obtain a smaller number M of audio elements (M<N) associated with a position or area close to the position or region of N audio elements to provide the system with at least one audio stream associated with N audio elements if the user's distance to the location or region of the N audio elements is less than a predetermined threshold, or to provide the system with at least one audio stream associated with M audio elements if the user's distance to a position or area of the N audio elements greater than a predetermined threshold. See, for example, FIG. 1.7.

В примерах по меньшей мере одна сцена визуальной среды ассоциируется по меньшей мере с одним множеством из N аудиоэлементов (N>=2), при этом каждый аудиоэлемент ассоциируется с положением и/или областью в визуальной среде, где по меньшей мере одно множество из N аудиоэлементов может предоставляться по меньшей мере в одном представлении с высокой скоростью передачи битов и/или уровнем качества, и где по меньшей мере одно множество из N аудиоэлементов предоставляется по меньшей мере в одном представлении с низкой скоростью передачи битов и/или уровнем качества, где по меньшей мере одно представление получается путем обработки N аудиоэлементов, чтобы получить меньшее число M аудиоэлементов (M<N), ассоциированных с положением или областью, близкой к положению или области N аудиоэлементов, где система выполнена с возможностью запрашивать представление с более высокой скоростью передачи битов и/или уровнем качества для аудиоэлементов, если аудиоэлементы более релевантны и/или лучше слышны в текущем виртуальном положении пользователя в сцене, причем система выполнена с возможностью запрашивать представление с более низкой скоростью передачи битов и/или уровнем качества для аудиоэлементов, если аудиоэлементы менее релевантны и/или хуже слышны в текущем виртуальном положении пользователя в сцене. См., например, фиг. 1.7.In the examples, at least one scene of the visual environment is associated with at least one set of N audio elements (N>=2), with each audio element associated with a position and/or area in the visual environment, where at least one set of N audio elements may be provided in at least one high bit rate and/or quality level representation, and where at least one set of N audio elements is provided in at least one low bit rate and/or quality level representation, where at least at least one representation is obtained by processing N audio elements to obtain a smaller number M of audio elements (M<N) associated with a position or region close to the position or region of N audio elements where the system is configured to request a representation at a higher bit rate and/ or a quality level for the audio elements if the audio elements are more relevant and/or better heard at the user's current virtual position in the scene, wherein the system is configured to request a representation with a lower bit rate and/or a quality level for the audio elements if the audio elements are less relevant and/ or less audible in the user's current virtual position in the scene. See, for example, FIG. 1.7.

В примерах, если расстояние пользователя, и/или релевантность, и/или уровень слышимости, и/или угловая ориентация меньше заранее установленной пороговой величины, то получаются разные потоки для разных аудиоэлементов. См., например, фиг. 1.7.In the examples, if the user distance and/or relevance and/or audibility level and/or angular orientation is less than a predetermined threshold, then different streams are obtained for different audio elements. See, for example, FIG. 1.7.

В примерах разные аудиоэлементы предоставляются в разных полях видимости, чтобы, если один первый аудиоэлемент входит в текущее поле видимости, первый аудиоэлемент получался с более высокой скоростью передачи битов, чем второй аудиоэлемент, который не входит в поле видимости. См., например, фиг. 6.In the examples, different audio elements are provided in different scopes so that if one first audio element is included in the current scope, the first audio element is obtained at a higher bit rate than the second audio element that is not in the scope. See, for example, FIG. 6.

В примерах задаются по меньшей мере две сцены визуальной среды, где по меньшей мере один первый и второй аудиоэлементы ассоциируются с первой сценой, ассоциированной с первой визуальной средой, и по меньшей мере один третий аудиоэлемент ассоциируется со второй сценой, ассоциированной со второй визуальной средой, причем система 102 выполнена с возможностью получать метаданные, описывающие, что по меньшей мере один второй аудиоэлемент дополнительно ассоциируется со второй сценой визуальной среды, и при этом система выполнена с возможностью запрашивать и/или принимать по меньшей мере первый и второй аудиоэлементы, если виртуальное положение пользователя находится в первой визуальной среде, и при этом система выполнена с возможностью запрашивать и/или принимать по меньшей мере второй и третий аудиоэлементы, если виртуальное положение пользователя находится во второй сцене визуальной среды, и при этом система выполнена с возможностью запрашивать и/или принимать по меньшей мере первый, второй и третий аудиоэлементы, если виртуальное положение пользователя находится в переходе между первой сценой визуальной среды и второй сценой визуальной среды. См., например, фиг. 1.4. Это также может применяться к фиг. 3.In the examples, at least two scenes of the visual environment are defined, where at least one first and second audio elements are associated with the first scene associated with the first visual environment, and at least one third audio element is associated with the second scene associated with the second visual environment, and system 102 is configured to receive metadata describing that at least one second audio element is further associated with a second scene of the visual environment, and wherein the system is configured to request and/or receive at least the first and second audio elements if the user's virtual location is in the first visual environment, and wherein the system is configured to request and/or receive at least the second and third audio elements if the user's virtual position is in the second scene of the visual environment, and wherein the system is configured to request and/or receive at least at least the first, second, and third audio elements if the user's virtual position is in the transition between the first visual environment scene and the second visual environment scene. See, for example, FIG. 1.4. This may also apply to FIG. 3.

В примерах по меньшей мере один первый аудиоэлемент может предоставляться по меньшей мере в одном аудиопотоке и/или адаптационном наборе, и по меньшей мере один второй аудиоэлемент предоставляется по меньшей мере в одном втором аудиопотоке и/или адаптационном наборе, и по меньшей мере один третий аудиоэлемент предоставляется по меньшей мере в одном третьем аудиопотоке и/или адаптационном наборе, и где по меньшей мере первая сцена визуальной среды описывается метаданными как законченная сцена, которая требует по меньшей мере первого и второго аудиопотоков и/или адаптационных наборов, и где вторая сцена визуальной среды описывается метаданными как незаконченная сцена, которая требует по меньшей мере третьего аудиопотока и/или адаптационного набора и по меньшей мере второго аудиопотока и/или адаптационных наборов, ассоциированных по меньшей мере с первой сценой визуальной среды, где система содержит процессор метаданных, выполненный с возможностью работать с метаданными, чтобы разрешить соединение второго аудиопотока, принадлежащего первой визуальной среде, и третьего аудиопотока, ассоциированного со второй визуальной средой, в новый единый поток, если виртуальное положение пользователя находится во второй визуальной среде. См., например, фиг. 1.2-1.3, 1.5 и 1.6.In examples, at least one first audio element may be provided in at least one audio stream and/or adaptation set, and at least one second audio element may be provided in at least one second audio stream and/or adaptation set, and at least one third audio element provided in at least one third audio stream and/or adaptation set, and where at least the first scene of the visual environment is described by metadata as a complete scene that requires at least the first and second audio streams and/or adaptation sets, and where the second scene of the visual environment is described by the metadata as an unfinished scene that requires at least a third audio stream and/or adaptation set and at least a second audio stream and/or adaptation sets associated with at least the first scene of the visual environment, where the system comprises a metadata processor configured to operate with metadata to allow connection of the second audio stream belonging to the first visual environment and the third audio stream associated with the second visual environment into a new single stream if the user's virtual location is in the second visual environment. See, for example, FIG. 1.2-1.3, 1.5 and 1.6.

В примерах система 102 может содержать процессор метаданных (например, 1236), выполненный с возможностью работать с метаданными по меньшей мере в одном аудиопотоке по меньшей мере перед одним декодером аудио, на основе текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения.In examples, system 102 may include a metadata processor (eg, 1236) configured to operate on metadata in at least one audio stream before at least one audio decoder, based on the user's current field of view, and/or head orientation, and/or movement data, and/or interaction metadata, and/or virtual position data.

В примерах процессор метаданных (например, 1236) может быть выполнен с возможностью включать и/или отключать по меньшей мере один аудиоэлемент по меньшей мере в одном аудиопотоке по меньшей мере перед одним декодером аудио на основе текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения, причем процессор метаданных может быть выполнен с возможностью отключать по меньшей мере один аудиоэлемент по меньшей мере в одном аудиопотоке по меньшей мере перед одним декодером аудио, если система решает, что аудиоэлемент больше не нужно воспроизводить как следствие текущего поля видимости, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения, и при этом процессор метаданных может быть выполнен с возможностью включать по меньшей мере один аудиоэлемент по меньшей мере в одном аудиопотоке по меньшей мере перед одним декодером аудио, если система решает, что аудиоэлемент нужно воспроизводить как следствие текущего поля видимости пользователя, и/или ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и/или данных виртуального положения.In examples, the metadata processor (e.g., 1236) may be configured to enable and/or disable at least one audio element in at least one audio stream in front of at least one audio decoder based on the user's current field of view, and/or head orientation, and/or movement data and/or interaction metadata and/or virtual position data, wherein the metadata processor may be configured to turn off at least one audio element in at least one audio stream before at least one audio decoder if the system decides that the audio element no longer needs to be played as a consequence of the current field of view and/or head orientation and/or movement data and/or interaction metadata and/or virtual position data, and the metadata processor may be configured to include at least one audio element in at least one audio stream before at least one audio decoder if the system decides that the audio element should be played as a consequence of the user's current field of view and/or head orientation and/or movement data and/or interaction metadata , and/or virtual position data.

Серверная сторонаServer Side

Вышеизложенное также относится к серверу (120) для доставки аудио- и видеопотоков клиенту для среды виртуальной реальности, VR, дополненной реальности, AR, смешанной реальности, MR, или панорамного видео, при этом видео- и аудиопотоки должны воспроизводиться в мультимедийном устройстве, причем сервер (120) содержит кодер для кодирования и/или хранилище для хранения видеопотоков, чтобы описывать визуальную среду, при этом визуальная среда ассоциирована с аудиосценой; причем сервер дополнительно содержит кодер для кодирования и/или хранилище для хранения множества потоков, и/или аудиоэлементов, и/или адаптационных наборов для доставки клиенту, при этом потоки, и/или аудиоэлементы, и/или адаптационные наборы ассоциированы по меньшей мере с одной аудиосценой, причем сервер выполнен с возможностью:The above also applies to a server (120) for delivering audio and video streams to a client for a virtual reality, VR, augmented reality, AR, mixed reality, MR, or 360 video environment, wherein the video and audio streams must be played in a multimedia device, and the server (120) contains an encoder for encoding and/or storage for storing video streams to describe a visual environment, wherein the visual environment is associated with an audio scene; wherein the server further comprises an encoder for encoding and/or storage for storing a plurality of streams and/or audio elements and/or adaptation sets for delivery to the client, wherein the streams and/or audio elements and/or adaptation sets are associated with at least one audio scene, and the server is configured to:

выбирать и доставлять видеопоток на основе запроса от клиента, при этом видеопоток ассоциирован со средой;select and deliver a video stream based on a request from a client, wherein the video stream is associated with the environment;

выбирать аудиопоток, и/или аудиоэлемент, и/или адаптационный набор на основе запроса от клиента, при этом запрос ассоциирован по меньшей мере с текущим полем видимости пользователя, и/или ориентацией головы, и/или данными перемещения, и/или метаданными взаимодействия, и/или данными виртуального положения и с аудиосценой, ассоциированной со средой; иselect an audio stream and/or an audio element and/or an adaptation set based on a request from the client, wherein the request is associated with at least the user's current field of view and/or head orientation and/or movement data and/or interaction metadata, and/or virtual position data and with an audio scene associated with the environment; And

доставлять аудиопоток клиенту.deliver the audio stream to the client.

Дополнительные варианты осуществления и разновидностиAdditional Embodiments and Variations

В зависимости от некоторых требований к реализации примеры можно реализовать в аппаратных средствах. Реализация может выполняться с использованием цифрового носителя информации, например гибкого диска, универсального цифрового диска (DVD), диска Blu-Ray, компакт-диска (CD), постоянного запоминающего устройства (ROM), программируемого постоянного запоминающего устройства (PROM), стираемого и программируемого постоянного запоминающего устройства (EPROM), электрически стираемого программируемого постоянного запоминающего устройства (EEPROM) или флэш-памяти, с сохраненными на нем электронно считываемыми управляющими сигналами, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что выполняется соответствующий способ. Поэтому цифровой носитель информации может быть машиночитаемым.Depending on some implementation requirements, the examples may be implemented in hardware. Implementation may be performed using a digital storage medium such as floppy disk, digital versatile disk (DVD), Blu-ray disc, compact disc (CD), read-only memory (ROM), programmable read-only memory (PROM), erasable and programmable read-only memory (EPROM), electrically erasable programmable read-only memory (EEPROM), or flash memory, stored thereon with electronically readable control signals that interact (or are capable of interacting) with a programmable computer system such that the corresponding method is performed. Therefore, the digital storage medium can be machine readable.

Как правило, примеры можно реализовать как компьютерный программный продукт с программными командами, причем программные команды действуют для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программные команды могут храниться, например, на машиночитаемом носителе.Typically, the examples may be implemented as a computer program product with program instructions, the program instructions being operable to perform one of the methods when the computer program product is running on the computer. The program instructions may be stored, for example, on a computer-readable medium.

Другие примеры выполнены в виде компьютерной программы для выполнения одного из описанных в этом документе способов, сохраненной на машиночитаемом носителе. Другими словами, пример способа поэтому является компьютерной программой с программными командами для выполнения одного из описанных в этом документе способов, когда компьютерная программа выполняется на компьютере.Other examples are in the form of a computer program for performing one of the methods described herein, stored on a computer-readable medium. In other words, an exemplary method is therefore a computer program with program instructions for performing one of the methods described herein when the computer program is running on a computer.

Дополнительный пример способов поэтому является носителем информации (или цифровым носителем информации, или машиночитаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из описанных в этом документе способов. Носитель информации, цифровой носитель информации или записанный носитель являются материальными и/или постоянными в отличие от сигналов, которые являются неосязаемыми и временными.An additional example of methods is therefore a storage medium (or digital storage medium or computer-readable medium) containing a computer program recorded thereon for performing one of the methods described herein. The storage medium, digital storage medium or recorded medium is tangible and/or permanent in contrast to signals which are intangible and temporary.

Дополнительный пример выполнен в виде блока обработки, например, компьютера, или программируемого логического устройства, выполняющего один из описанных в этом документе способов.An additional example is made in the form of a processing unit, such as a computer, or a programmable logic device that performs one of the methods described in this document.

Дополнительный пример выполнен в виде компьютера с установленной на нем компьютерной программой для выполнения одного из описанных в этом документе способов.An additional example is made in the form of a computer with a computer program installed on it to perform one of the methods described in this document.

Дополнительный пример выполнен в виде устройства или системы, передающих приемнику (например, электронно или оптически) компьютерную программу для выполнения одного из описанных в этом документе способов. Приемник может быть, например, компьютером, мобильным устройством, запоминающим устройством или т.п. Устройство или система могут, например, содержать файл-сервер для передачи компьютерной программы приемнику.A further example is in the form of a device or system that transmits (eg, electronically or optically) a computer program to a receiver to perform one of the methods described herein. The receiver may be, for example, a computer, mobile device, storage device, or the like. The device or system may, for example, include a file server for transmitting a computer program to a receiver.

В некоторых примерах программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей описанных в этом документе способов. В некоторых примерах программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в этом документе. Как правило, способы могут выполняться любым подходящим аппаратным устройством.In some examples, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some examples, a user-programmable gate array may interact with a microprocessor to perform one of the methods described in this document. Typically, the methods may be performed by any suitable hardware device.

Вышеописанные примеры поясняют рассмотренные выше принципы. Подразумевается, что будут очевидны модификации и изменения компоновок и подробностей, описанных в этом документе. Поэтому есть намерение ограничиться только объемом предстоящей формулы изобретения, а не определенными подробностями, представленными посредством описания и объяснения примеров в этом документе.The above examples illustrate the principles discussed above. It is intended that modifications and changes to the arrangements and details described in this document will be apparent. Therefore, it is intended to be limited only by the scope of the forthcoming claims, and not by the specific details provided through the description and explanation of the examples in this document.

Claims

1. Система (102) для приема аудиопотоков, которые должны воспроизводиться в мультимедийном устройстве,1. System (102) for receiving audio streams to be played in a multimedia device,

при этом система (102) содержит по меньшей мере один декодер (104) аудио, выполненный с возможностью декодировать аудиосигналы (108) из по меньшей мере одного аудиопотока (106),wherein the system (102) comprises at least one audio decoder (104) configured to decode audio signals (108) from at least one audio stream (106),

причем система (102) выполнена с возможностью запрашивать (112) по меньшей мере один аудиопоток (106), и/или один аудиоэлемент в аудиопотоке, и/или один адаптационный набор на основе, по меньшей мере, текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных взаимодействия пользователя,moreover, the system (102) is configured to request (112) at least one audio stream (106), and/or one audio element in the audio stream, and/or one adaptation set based on at least the current orientation of the user's head, and/or user movement data, and/or user interaction metadata,

при этом система выполнена с возможностью соединять по меньшей мере один первый аудиопоток, ассоциированный с текущей аудиосценой, с по меньшей мере одним потоком, ассоциированным с соседней, смежной и/или будущей аудиосценой.wherein the system is configured to connect at least one first audio stream associated with the current audio scene with at least one stream associated with an adjacent, adjacent and/or future audio scene.

2. Система по п.1, выполненная с возможностью предоставлять серверу (120) текущую ориентацию головы пользователя, и/или данные перемещения пользователя, и/или метаданные взаимодействия пользователя, чтобы получить от сервера (120) по меньшей мере один аудиопоток (106), и/или один аудиоэлемент аудиопотока, и/или один адаптационный набор.2. The system according to claim 1, configured to provide the server (120) with the current orientation of the user's head, and/or user movement data, and/or user interaction metadata to receive from the server (120) at least one audio stream (106) , and/or one audio stream element, and/or one adaptation set.

3. Система по п.1 или 2, при этом по меньшей мере одна сцена ассоциирована с по меньшей мере одним аудиоэлементом (152), причем каждый аудиоэлемент ассоциируется с положением и/или областью в среде, где слышен этот аудиоэлемент, чтобы разные аудиопотоки предоставлялись для разных положений пользователя, и/или ориентаций головы пользователя, и/или данных перемещения пользователя, и/или метаданных взаимодействия пользователя в упомянутой сцене.3. The system of claim 1 or 2, wherein at least one scene is associated with at least one audio element (152), each audio element being associated with a position and/or area in the environment where that audio element is heard so that different audio streams are provided for different user positions and/or user head orientations and/or user movement data and/or user interaction metadata in said scene.

4. Система по любому из предшествующих пунктов, при этом упомянутый по меньшей мере один аудиопоток заключен в аудиосегменты согласно MPEG-2 или MPEG-4.4. A system according to any one of the preceding claims, wherein said at least one audio stream is enclosed in MPEG-2 or MPEG-4 audio segments.

5. Система по любому из предшествующих пунктов, выполненная с возможностью решать, нужно ли воспроизводить по меньшей мере один аудиоэлемент аудиопотока и/или один адаптационный набор для текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных взаимодействия пользователя, и/или виртуального положения пользователя в сцене, при этом система выполнена с возможностью запрашивать и/или принимать этот по меньшей мере один аудиоэлемент в текущем виртуальном положении пользователя.5. The system according to any one of the preceding claims, configured to decide whether to play at least one audio element of the audio stream and/or one adaptation set for the user's current head orientation and/or user movement data and/or user interaction metadata, and /or the user's virtual position in the scene, wherein the system is configured to request and/or receive this at least one audio element in the user's current virtual position.

6. Система по любому из предшествующих пунктов, 6. The system according to any one of the preceding claims,

при этом система выполнена с возможностью прогнозировать, станет ли релевантным и/или слышимым по меньшей мере один аудиоэлемент (152) аудиопотока и/или один адаптационный набор, на основе, по меньшей мере, текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных взаимодействия пользователя, wherein the system is configured to predict whether at least one audio element (152) of the audio stream and/or one adaptation set will become relevant and/or audible, based on at least the current orientation of the user's head and/or the user's movement data, and/or user interaction metadata,

причем система выполнена с возможностью запрашивать и/или принимать этот по меньшей мере один аудиоэлемент, и/или аудиопоток, и/или адаптационный набор в конкретном виртуальном положении пользователя до предсказанного перемещения и/или взаимодействия пользователя в сцене, иwherein the system is configured to request and/or receive that at least one audio element and/or audio stream and/or adaptation set at a particular virtual position of the user prior to the predicted movement and/or interaction of the user in the scene, and

при этом система выполнена с возможностью воспроизводить данный по меньшей мере один аудиоэлемент и/или аудиопоток, по его приему, в упомянутом конкретном виртуальном положении пользователя после перемещения и/или взаимодействия пользователя в сцене.wherein the system is configured to play the given at least one audio element and/or audio stream, upon receiving it, at said particular virtual position of the user after the user has moved and/or interacted in the scene.

7. Система по любому из предшествующих пунктов, выполненная с возможностью запрашивать и/или принимать по меньшей мере один аудиоэлемент (152) с более низким битрейтом и/или уровнем качества в виртуальном положении пользователя до перемещения и/или взаимодействия пользователя в сцене, причем система выполнена с возможностью запрашивать и/или принимать этот по меньшей мере один аудиоэлемент с более высоким битрейтом и/или уровнем качества в виртуальном положении пользователя после упомянутого перемещения и/или взаимодействия пользователя в сцене.7. The system according to any one of the preceding claims, configured to request and/or receive at least one audio element (152) with a lower bit rate and/or quality level at the user's virtual position prior to the user moving and/or interacting in the scene, the system configured to request and/or receive this at least one audio element with a higher bitrate and/or quality level in the user's virtual position after said movement and/or user interaction in the scene.

8. Система по любому из предшествующих пунктов, при этом по меньшей мере один аудиоэлемент (152) ассоциирован с по меньшей мере одной сценой, каждый аудиоэлемент ассоциируется с положением и/или областью в среде, ассоциированной со сценой, причем система выполнена с возможностью запрашивать и/или принимать потоки с более высоким битрейтом и/или уровнем качества для аудиоэлементов ближе к пользователю, чем для аудиоэлементов, более отдаленных от пользователя.8. The system according to any of the preceding claims, wherein at least one audio element (152) is associated with at least one scene, each audio element is associated with a position and/or area in the environment associated with the scene, and the system is configured to request and /or accept streams with a higher bitrate and/or quality level for audio elements closer to the user than for audio elements more distant from the user.

9. Система по любому из предшествующих пунктов, при этом по меньшей мере один аудиоэлемент (152) ассоциируется с по меньшей мере одной сценой, причем этот по меньшей мере один аудиоэлемент ассоциируется с положением и/или областью в среде, ассоциированной с упомянутой сценой,9. The system according to any of the preceding claims, wherein at least one audio element (152) is associated with at least one scene, and this at least one audio element is associated with a position and / or area in the environment associated with said scene,

при этом система выполнена с возможностью запрашивать разные потоки с разными битрейтами и/или уровнями качества для аудиоэлементов на основе их релевантности и/или уровня слышимости в каждом виртуальном положении пользователя в упомянутой сцене,wherein the system is configured to request different streams with different bitrates and/or quality levels for audio elements based on their relevance and/or audibility level in each virtual position of the user in said scene,

причем система выполнена с возможностью запрашивать аудиопоток с более высоким битрейтом и/или уровнем качества для аудиоэлементов, которые более релевантны и/или лучше слышны в текущем виртуальном положении пользователя, и/или аудиопоток с более низким битрейтом и/или уровнем качества для аудиоэлементов, которые менее релевантны и/или хуже слышны в текущем виртуальном положении пользователя.wherein the system is configured to request an audio stream with a higher bitrate and/or quality level for audio elements that are more relevant and/or better audible in the user's current virtual position, and/or an audio stream with a lower bitrate and/or quality level for audio elements that are are less relevant and/or less audible in the user's current virtual position.

10. Система по любому из предшествующих пунктов, при этом по меньшей мере один аудиоэлемент (152) ассоциируется со сценой, причем каждый аудиоэлемент ассоциируется с положением и/или областью в среде, ассоциированной с данной сценой, при этом система выполнена с возможностью периодически отправлять на сервер текущую ориентацию головы пользователя, и/или данные перемещения пользователя, и/или метаданные взаимодействия пользователя, чтобы:10. The system according to any of the preceding claims, wherein at least one audio element (152) is associated with a scene, each audio element is associated with a position and/or area in the environment associated with this scene, while the system is configured to periodically send to server the user's current head orientation, and/or user movement data, and/or user interaction metadata to:

для первого положения с сервера предоставлялся поток с более высоким битрейтом и/или уровнем качества, аfor the first position, a stream with a higher bitrate and/or quality level was provided from the server, and

для второго положения с сервера предоставлялся поток с более низким битрейтом и/или уровнем качества,for the second position, a stream with a lower bitrate and/or quality level was provided from the server,

причем первое положение ближе к упомянутому по меньшей мере одному аудиоэлементу (152), чем второе положение.wherein the first position is closer to said at least one audio element (152) than the second position.

11. Система по любому из предшествующих пунктов, в которой задается множество сцен (150A, 150B) для нескольких сред, например, смежных и/или соседних сред, с тем чтобы предоставлялись первые потоки, ассоциированные с первой, текущей сценой, и, в случае перехода пользователя ко второй, дальней сцене, предоставлялись как потоки, ассоциированные с первой сценой, так и вторые потоки, ассоциированные со второй сценой.11. A system according to any one of the preceding claims, wherein a plurality of scenes (150A, 150B) are defined for multiple environments, such as adjacent and/or neighboring environments, so that the first streams associated with the first, current scene are provided, and, in the case the user's transition to the second, distant scene, both the streams associated with the first scene and the second streams associated with the second scene were provided.

12. Система по любому из предшествующих пунктов, в которой задается множество сцен (150A, 150B) для первой и второй сред, при этом первая и вторая среды являются смежными и/или соседними средами,12. A system according to any one of the preceding claims, wherein a plurality of scenes (150A, 150B) are defined for the first and second environments, wherein the first and second environments are contiguous and/or neighboring environments,

причем с сервера предоставляются первые потоки, ассоциированные с первой сценой, для воспроизведения первой сцены, если положение или виртуальное положение пользователя находится в первой среде, ассоциированной с первой сценой,wherein the first streams associated with the first scene are provided from the server to play the first scene if the user's location or virtual location is in the first environment associated with the first scene,

с сервера предоставляются вторые потоки, ассоциированные со второй сценой, для воспроизведения второй сцены, если положение или виртуальное положение пользователя находится во второй среде, ассоциированной со второй сценой, иsecond streams associated with the second scene are provided from the server to play the second scene if the user's location or virtual location is in the second environment associated with the second scene, and

предоставляются как первые потоки, ассоциированные с первой сценой, так и вторые потоки, ассоциированные со второй сценой, если положение или виртуальное положение пользователя находится в переходном положении между первой сценой и второй сценой.both the first streams associated with the first scene and the second streams associated with the second scene are provided if the user's position or virtual position is in a transitional position between the first scene and the second scene.

13. Система по любому из предшествующих пунктов, в которой задается множество сцен (150A, 150B) для первой и второй сред, которые являются смежными и/или соседними средами,13. A system according to any one of the preceding claims, wherein a plurality of scenes (150A, 150B) are defined for first and second environments that are contiguous and/or neighboring environments,

причем система выполнена с возможностью запрашивать и/или принимать первые потоки, ассоциированные с первой сценой (150A), ассоциированной с первой средой, для воспроизведения первой сцены, если виртуальное положение пользователя находится в первой среде,wherein the system is configured to request and/or receive first streams associated with the first scene (150A) associated with the first environment to play the first scene if the user's virtual position is in the first environment,

причем система выполнена с возможностью запрашивать и/или принимать вторые потоки, ассоциированные со второй сценой (150B), ассоциированной со второй средой, для воспроизведения второй сцены, если виртуальное положение пользователя находится во второй среде, иwherein the system is configured to request and/or receive second streams associated with the second scene (150B) associated with the second environment to play the second scene if the user's virtual position is in the second environment, and

при этом система выполнена с возможностью запрашивать и/или принимать как первые потоки, ассоциированные с первой сценой, так и вторые потоки, ассоциированные со второй сценой, если виртуальное положение пользователя находится в переходном положении (150AB) между первой средой и второй средой.wherein the system is configured to request and/or receive both the first streams associated with the first scene and the second streams associated with the second scene if the user's virtual position is in a transitional position (150AB) between the first environment and the second environment.

14. Система по любому из пп.11-13, при этом14. The system according to any one of claims 11-13, while

первые потоки, ассоциированные с первой сценой, получаются с более высоким битрейтом и/или уровнем качества, когда пользователь находится в первой среде, ассоциированной с первой сценой,the first streams associated with the first scene are obtained at a higher bit rate and/or quality level when the user is in the first environment associated with the first scene,

тогда как вторые потоки, ассоциированные со второй сценой, ассоциированной со второй средой, получаются с более низким битрейтом и/или уровнем качества, когда пользователь находится в начале переходного положения от первой сцены ко второй сцене, иwhile the second streams associated with the second scene associated with the second environment are obtained at a lower bit rate and/or quality level when the user is at the beginning of the transition from the first scene to the second scene, and

первые потоки, ассоциированные с первой сценой, получаются с более низким битрейтом и/или уровнем качества, а вторые потоки, ассоциированные со второй сценой, получаются с более высоким битрейтом и/или уровнем качества, когда пользователь находится в конце переходного положения от первой сцены ко второй сцене,the first streams associated with the first scene are obtained at a lower bit rate and/or quality level, and the second streams associated with the second scene are obtained at a higher bit rate and/or quality level when the user is at the end of the transition position from the first scene to second scene,

причем упомянутый более низкий битрейт и/или уровень качества ниже упомянутого более высокого битрейта и/или уровня качества.wherein said lower bitrate and/or quality level is lower than said higher bitrate and/or quality level.

15. Система по любому из предшествующих пунктов, при этом15. The system according to any one of the preceding claims, wherein

система выполнена с возможностью, в начале перехода от первой аудиосцены ко второй аудиосцене, принимать и/или запрашивать:the system is configured, at the beginning of the transition from the first audio scene to the second audio scene, to receive and/or request:

с более высоким битрейтом, первые аудиопотоки или первые адаптационные наборы, ассоциированные с первой аудиосценой, иwith a higher bit rate, the first audio streams or first adaptation sets associated with the first audio scene, and

с более низким битрейтом, вторые аудиопотоки или вторые адаптационные наборы, ассоциированные со второй аудиосценой; иwith a lower bit rate, second audio streams or second adaptation sets associated with the second audio scene; And

система выполнена с возможностью, в конце перехода от первой аудиосцены ко второй аудиосцене, принимать и/или запрашивать:the system is configured, at the end of the transition from the first audio scene to the second audio scene, to receive and/or request:

с более высоким битрейтом, первые аудиопотоки или первые адаптационные наборы, ассоциированные со второй аудиосценой, иwith a higher bit rate, the first audio streams or first adaptation sets associated with the second audio scene, and

с более низким битрейтом, вторые аудиопотоки или вторые адаптационные наборы, ассоциированные с первой аудиосценой.with a lower bit rate, second audio streams or second adaptation sets associated with the first audio scene.

16. Система по любому из предшествующих пунктов, дополнительно выполненная с возможностью соединять два аудиопотока перед по меньшей мере одним декодером (104) аудио.16. A system according to any one of the preceding claims, further configured to connect two audio streams before at least one audio decoder (104).

17. Система по любому из пп.1-13, дополнительно содержащая смеситель, выполненный с возможностью смешивания разных аудиосигналов, декодированных из разных аудиопотоков.17. The system according to any one of claims 1 to 13, further comprising a mixer configured to mix different audio signals decoded from different audio streams.

18. Система по любому из предшествующих пунктов, в которой задается множество сцен (150A, 150B) для нескольких сред, например, смежных и/или соседних сред, так что система выполнена с возможностью получать потоки, ассоциированные с первой, текущей сценой, ассоциированной с первой, текущей средой, и18. The system of any one of the preceding claims, wherein a plurality of scenes (150A, 150B) are defined for multiple environments, such as adjacent and/or neighboring environments, such that the system is configured to receive streams associated with a first, current scene associated with the first, current environment, and

если расстояние положения или виртуального положения пользователя от границы сцены меньше заранее установленной пороговой величины, то система дополнительно получает аудиопотоки, ассоциированные со второй, смежной и/или соседней средой, ассоциированной со второй сценой.if the distance of the position or virtual position of the user from the scene boundary is less than a predetermined threshold, then the system additionally receives audio streams associated with the second, adjacent and/or neighboring environment associated with the second scene.

19. Система по любому из предшествующих пунктов, в которой задается множество сцен (150A, 150B) для нескольких сред, чтобы система запрашивала и/или получала потоки, ассоциированные с текущей сценой, с более высоким битрейтом и/или уровнем качества, а потоки, ассоциированные со второй сценой, - с более низким битрейтом и/или уровнем качества, причем упомянутый более низкий битрейт и/или уровень качества ниже упомянутого более высокого битрейта и/или уровня качества.19. The system according to any one of the preceding claims, wherein a plurality of scenes (150A, 150B) for multiple environments is specified so that the system requests and/or receives streams associated with the current scene at a higher bit rate and/or quality level, and streams associated with the second scene, with a lower bitrate and/or quality level, wherein said lower bitrate and/or quality level is lower than said higher bitrate and/or quality level.

20. Система по любому из предшествующих пунктов, в которой задается множество из N аудиоэлементов, и если расстояние пользователя до положения или области этих аудиоэлементов больше заранее установленной пороговой величины, то обрабатываются N аудиоэлементов для получения меньшего числа M аудиоэлементов (M<N), ассоциированных с положением или областью, близкой к положению или области N аудиоэлементов, чтобы20. The system according to any one of the preceding claims, wherein a set of N audio elements is specified, and if the user's distance to the position or area of these audio elements is greater than a predetermined threshold, then N audio elements are processed to obtain a smaller number M of audio elements (M<N) associated with a position or area close to the position or area of the N audio elements to

предоставить системе по меньшей мере один аудиопоток, ассоциированный с N аудиоэлементами, если расстояние пользователя до положения или области N аудиоэлементов меньше заранее установленной пороговой величины, либоprovide the system with at least one audio stream associated with N audio elements if the user's distance to the position or region of the N audio elements is less than a predetermined threshold, or

предоставить системе по меньшей мере один аудиопоток, ассоциированный с M аудиоэлементами, если расстояние пользователя до положения или области N аудиоэлементов больше заранее установленной пороговой величины.provide the system with at least one audio stream associated with the M audio elements if the user's distance to the position or region of the N audio elements is greater than a predetermined threshold.

21. Система (102) для приема аудиопотоков, которые должны воспроизводиться в мультимедийном устройстве,21. System (102) for receiving audio streams to be played in a multimedia device,

причем система (102) выполнена с возможностью запрашивать (112) по меньшей мере один аудиопоток (106), и/или один аудиоэлемент в аудиопотоке, и/или один адаптационный набор на основе, по меньшей мере, текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных взаимодействия пользователя, иmoreover, the system (102) is configured to request (112) at least one audio stream (106), and/or one audio element in the audio stream, and/or one adaptation set based on at least the current orientation of the user's head, and/or user movement data, and/or user interaction metadata, and

при этом по меньшей мере одна сцена ассоциирована с по меньшей мере одним множеством из N аудиоэлементов, N≥2, при этом каждый аудиоэлемент ассоциируется с положением и/или областью в среде,wherein at least one scene is associated with at least one set of N audio elements, N≥2, with each audio element associated with a position and/or area in the environment,

причем по меньшей мере упомянутое по меньшей мере одно множество из N аудиоэлементов предоставляется в по меньшей мере одном представлении с высоким битрейтом и/или уровнем качества, wherein at least said at least one set of N audio elements is provided in at least one representation with a high bitrate and/or quality level,

при этом по меньшей мере упомянутое по меньшей мере одно множество из N аудиоэлементов предоставляется в по меньшей мере одном представлении с низким битрейтом и/или уровнем качества, где данное по меньшей мере одно представление получается путем обработки N аудиоэлементов, чтобы получить меньшее число M аудиоэлементов (M<N), ассоциированных с положением или областью, близкой к положению или области N аудиоэлементов,wherein at least said at least one set of N audio elements is provided in at least one representation with a low bitrate and/or quality level, where this at least one representation is obtained by processing N audio elements to obtain a smaller number M of audio elements ( M<N) associated with a position or area close to the position or area of N audio elements,

причем система выполнена с возможностью запрашивать представление с более высоким битрейтом и/или уровнем качества для аудиоэлементов, если аудиоэлементы более релевантны и/или лучше слышны в текущем виртуальном положении пользователя в сцене,wherein the system is configured to request a presentation with a higher bitrate and/or quality level for the audio elements if the audio elements are more relevant and/or better audible in the user's current virtual position in the scene,

причем система выполнена с возможностью запрашивать представление с более низким битрейтом и/или уровнем качества для аудиоэлементов, если аудиоэлементы менее релевантны и/или хуже слышны в текущем виртуальном положении пользователя в сцене.wherein the system is configured to request a presentation at a lower bitrate and/or quality level for the audio elements if the audio elements are less relevant and/or less audible at the user's current virtual position in the scene.

22. Система по п.20 или 21, в которой, если расстояние пользователя, и/или релевантность, и/или уровень слышимости, и/или угловая ориентация ниже заранее установленной пороговой величины, то разные потоки получаются для разных аудиоэлементов.22. The system of claim 20 or 21, wherein if user distance and/or relevance and/or audibility level and/or angular orientation are below a predetermined threshold, then different streams are obtained for different audio elements.

23. Система по любому из предшествующих пунктов, при этом система выполнена с возможностью запрашивать и/или получать потоки на основе ориентации пользователя, и/или направления перемещения пользователя, и/или взаимодействия пользователя в сцене.23. The system of any one of the preceding claims, wherein the system is configured to request and/or receive streams based on a user's orientation and/or direction of user movement and/or user interaction in a scene.

24. Система по любому из предшествующих пунктов, в которой разные аудиоэлементы предоставляются в разных положениях, причем система выполнена с возможностью запрашивать и/или принимать, в случае когда один первый аудиоэлемент (S1) входит в положение (160-1), этот первый аудиоэлемент с более высоким битрейтом, чем второй аудиоэлемент (S2), который не входит в эти положения.24. The system according to any one of the preceding claims, wherein different audio elements are provided in different positions, wherein the system is configured to request and/or receive, in case one first audio element (S1) enters position (160-1), that first audio element with a higher bit rate than the second audio element (S2), which is not included in these provisions.

25. Система по любому из предшествующих пунктов, выполненная с возможностью запрашивать и/или принимать первые аудиопотоки или первые адаптационные наборы и вторые аудиопотоки или вторые адаптационные наборы, причем первые аудиоэлементы в первых аудиопотоках или первых адаптационных наборах более релевантны и/или лучше слышны, чем вторые аудиоэлементы во вторых аудиопотоках или вторых адаптационных наборах, при этом первые аудиопотоки запрашиваются и/или принимаются с более высоким битрейтом и/или уровнем качества, чем битрейт и/или уровень качества вторых аудиопотоков.25. The system according to any one of the preceding claims, configured to request and/or receive first audio streams or first adaptation sets and second audio streams or second adaptation sets, wherein the first audio elements in the first audio streams or first adaptation sets are more relevant and/or better heard than second audio elements in second audio streams or second adaptation sets, wherein the first audio streams are requested and/or received at a higher bit rate and/or quality level than the bit rate and/or quality level of the second audio streams.

26. Система по п.25, в которой одни из первых и вторых аудиопотоков, либо первых и вторых адаптационных наборов запрашиваются или принимаются на основе текущей аудиосцены независимо от данных перемещения пользователя, тогда как другие из первых и вторых аудиопотоков запрашиваются или принимаются на основе данных перемещения пользователя.26. The system of claim 25, wherein one of the first and second audio streams, or the first and second adaptation sets, is requested or received based on the current audio scene regardless of user movement data, while the other of the first and second audio streams is requested or received based on the data. user movement.

27. Система по п.25 или 26, выполненная с возможностью определять слышимость аудиоэлементов в текущей аудиосцене, причем первыми аудиоэлементами являются аудиоэлементы с лучшей слышимостью, чем у вторых аудиоэлементов. 27. The system of claim 25 or 26, configured to determine the audibility of audio elements in the current audio scene, wherein the first audio elements are audio elements with better audibility than the second audio elements.

28. Система по п.25, или 26, или 27, выполненная с возможностью определять релевантность аудиоэлементов в текущей аудиосцене, причем первыми аудиоэлементами являются аудиоэлементы с большей релевантностью, чем у вторых аудиоэлементов. 28. The system of claim 25, or 26, or 27, configured to determine the relevance of audio elements in the current audio scene, wherein the first audio elements are audio elements with greater relevance than the second audio elements.

29. Система по любому из пп.25-28, при этом изначально запрашиваются или принимаются вторые аудиопотоки или вторые адаптационные наборы с более низким битрейтом, и, после приема данных перемещения пользователя, отражающих более высокую релевантность или слышимость элементов в аудиосцене, система отправляет запрос на передачу вторых аудиопотоков или вторых адаптационных наборов с более высоким битрейтом, с тем чтобы впоследствии принимать первые аудиопотоки или первые адаптационные наборы с более высоким битрейтом.29. The system according to any one of claims 25-28, wherein the second audio streams or second adaptation sets with a lower bit rate are initially requested or received, and after receiving user movement data indicative of a higher relevance or audibility of elements in the audio scene, the system sends a request to transmit second audio streams or second adaptation sets at a higher bit rate, so as to subsequently receive first audio streams or first adaptation sets at a higher bit rate.

30. Система по любому из предшествующих пунктов, в которой задаются по меньшей мере две сцены среды, причем по меньшей мере один первый и второй аудиоэлементы ассоциируются с первой сценой, ассоциированной с первой средой, и по меньшей мере один третий аудиоэлемент ассоциируется со второй сценой, ассоциированной со второй средой,30. The system according to any one of the preceding claims, wherein at least two environment scenes are defined, wherein at least one first and second audio elements are associated with a first scene associated with the first environment, and at least one third audio element is associated with a second scene, associated with the second environment,

причем система выполнена с возможностью получать метаданные, описывающие, что по меньшей мере один второй аудиоэлемент дополнительно ассоциируется со сценой второй среды,moreover, the system is configured to receive metadata describing that at least one second audio element is additionally associated with the scene of the second environment,

при этом система выполнена с возможностью запрашивать и/или принимать по меньшей мере первый и второй аудиоэлементы, если виртуальное положение пользователя находится в первой среде, иwherein the system is configured to request and/or receive at least the first and second audio elements if the user's virtual position is in the first environment, and

причем система выполнена с возможностью запрашивать и/или принимать по меньшей мере второй и третий аудиоэлементы, если виртуальное положение пользователя находится в сцене второй среды, иwherein the system is configured to request and/or receive at least the second and third audio elements if the user's virtual position is in the scene of the second environment, and

при этом система выполнена с возможностью запрашивать и/или принимать по меньшей мере первый, второй и третий аудиоэлементы, если виртуальное положение пользователя находится в переходе между сценой первой среды и сценой второй среды.wherein the system is configured to request and/or receive at least the first, second, and third audio elements if the user's virtual position is in a transition between a first environment scene and a second environment scene.

31. Система по п.30, в которой по меньшей мере один первый аудиоэлемент предоставляется в по меньшей мере одном аудиопотоке и/или адаптационном наборе, по меньшей мере один второй аудиоэлемент предоставляется в по меньшей мере одном втором аудиопотоке и/или адаптационном наборе, и по меньшей мере один третий аудиоэлемент предоставляется в по меньшей мере одном третьем аудиопотоке и/или адаптационном наборе, при этом по меньшей мере сцена первой среды описывается метаданными как законченная сцена, которая требует по меньшей мере первого и второго аудиопотоков и/или адаптационных наборов, причем сцена второй среды описывается метаданными как незаконченная сцена, которая требует по меньшей мере третьего аудиопотока и/или адаптационного набора и по меньшей мере второго аудиопотока и/или адаптационных наборов, ассоциированных с по меньшей мере сценой первой среды,31. The system of claim 30, wherein at least one first audio element is provided in at least one audio stream and/or adaptation set, at least one second audio element is provided in at least one second audio stream and/or adaptation set, and at least one third audio element is provided in at least one third audio stream and/or adaptation set, wherein at least the first environment scene is described by metadata as a complete scene that requires at least first and second audio streams and/or adaptation sets, wherein the second environment scene is described by metadata as an unfinished scene that requires at least a third audio stream and/or adaptation set and at least a second audio stream and/or adaptation sets associated with at least the first environment scene,

причем система содержит процессор метаданных, выполненный с возможностью работать с метаданными для обеспечения возможности соединения второго аудиопотока, принадлежащего первой среде, и третьего аудиопотока, ассоциированного со второй средой, в новый единый поток, если виртуальное положение пользователя находится во второй среде.wherein the system comprises a metadata processor configured to work with the metadata to enable the connection of the second audio stream belonging to the first environment and the third audio stream associated with the second environment into a new single stream if the user's virtual location is in the second environment.

32. Система по любому из предшествующих пунктов, причем система содержит процессор метаданных, выполненный с возможностью работать с метаданными в по меньшей мере одном аудиопотоке перед по меньшей мере одним декодером аудио на основе текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных взаимодействия пользователя.32. The system according to any one of the preceding claims, wherein the system comprises a metadata processor configured to operate on metadata in at least one audio stream ahead of at least one audio decoder based on the user's current head orientation, and/or user movement data, and/ or user interaction metadata.

33. Система по п.32, в которой процессор метаданных выполнен с возможностью включать и/или отключать по меньшей мере один аудиоэлемент в по меньшей мере одном аудиопотоке перед по меньшей мере одним декодером аудио на основе текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных взаимодействия пользователя, причем33. The system of claim 32, wherein the metadata processor is configured to enable and/or disable at least one audio element in at least one audio stream before at least one audio decoder based on the user's current head orientation, and/or movement data user, and/or user interaction metadata, and

процессор метаданных выполнен с возможностью отключать по меньшей мере один аудиоэлемент в по меньшей мере одном аудиопотоке перед по меньшей мере одним декодером аудио, если система решает, что этот аудиоэлемент больше не нужно воспроизводить как следствие текущей ориентации головы, и/или данных перемещения, и/или метаданных взаимодействия, и при этомthe metadata processor is configured to turn off at least one audio element in at least one audio stream before at least one audio decoder if the system determines that this audio element no longer needs to be played as a consequence of the current head orientation and/or movement data, and/ or interaction metadata, and at the same time

процессор метаданных выполнен с возможностью включать по меньшей мере один аудиоэлемент в по меньшей мере одном аудиопотоке перед по меньшей мере одним декодером аудио, если система решает, что этот аудиоэлемент нужно воспроизводить как следствие текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных взаимодействия пользователя.the metadata processor is configured to include at least one audio element in at least one audio stream before at least one audio decoder if the system decides that this audio element should be played as a consequence of the user's current head orientation and/or user movement data, and/ or user interaction metadata.

34. Система по любому из предшествующих пунктов, выполненная с возможностью отключать декодирование аудиоэлементов, выбранных на основе текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных пользователя, и/или виртуального положения пользователя.34. The system of any one of the preceding claims, configured to disable decoding of audio elements selected based on the user's current head orientation and/or user movement data and/or user metadata and/or user virtual position.

35. Система по любому из предшествующих пунктов, выполненная с возможностью работать с метаданными аудио, ассоциированными с выбранными аудиопотоками, основываясь на по меньшей мере текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных пользователя, чтобы:35. The system of any one of the preceding claims, configured to operate on audio metadata associated with selected audio streams based on at least the user's current head orientation and/or user movement data and/or user metadata to:

выбирать и/или включать и/или активировать аудиоэлементы, составляющие аудиосцену, которую решено воспроизводить; иselect and/or enable and/or activate the audio elements that make up the audio scene that is decided to be played; And

обеспечивать соединение всех выбранных аудиопотоков в единый аудиопоток.provide connection of all selected audio streams into a single audio stream.

36. Система по любому из предшествующих пунктов, выполненная с возможностью получать и/или собирать статистические или агрегированные данные о текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных пользователя, чтобы передавать запрос, ассоциированный с этими статистическими или агрегированными данными.36. The system according to any of the preceding claims, configured to receive and/or collect statistical or aggregated data about the current orientation of the user's head, and/or user movement data, and/or user metadata, in order to transmit a query associated with these statistical or aggregated data.

37. Система по любому из предшествующих пунктов, выполненная с возможностью отключать декодирование и/или воспроизведение по меньшей мере одного потока на основе метаданных, ассоциированных с этим по меньшей мере одним потоком, и на основе текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных пользователя.37. The system according to any one of the preceding claims, configured to disable decoding and/or playback of at least one stream based on the metadata associated with the at least one stream and based on the user's current head orientation and/or user movement data , and/or user metadata.

38. Система по любому из предшествующих пунктов, дополнительно выполненная с возможностью работать с метаданными, ассоциированными с группой выбранных аудиопотоков, на основе по меньшей мере текущей или предполагаемой ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных пользователя, чтобы:38. The system according to any one of the preceding claims, further configured to work with metadata associated with a group of selected audio streams based on at least the current or estimated orientation of the user's head and/or the user's movement data and/or the user's metadata to:

выбирать и/или включать и/или активировать аудиоэлементы, составляющие аудиосцену для воспроизведения; и/илиselect and/or enable and/or activate the audio elements that make up the audio scene for playback; and/or

39. Система по любому из предшествующих пунктов, выполненная с возможностью управлять запросом по меньшей мере одного потока на основе расстояния положения пользователя от границ соседних и/или смежных сред, ассоциированных с разными сценами, либо других метрик, ассоциированных с положением пользователя в текущей среде, или предсказаний касаемо будущей среды.39. The system according to any of the preceding claims, configured to manage the request of at least one stream based on the distance of the user's position from the boundaries of neighboring and / or adjacent environments associated with different scenes, or other metrics associated with the user's position in the current environment, or predictions about the future environment.

40. Система по любому из предшествующих пунктов, в которой предоставляется информация для каждого аудиоэлемента или аудиообъекта, каковая информация включает в себя описательную информацию о местоположениях, в которых активны звуковая сцена или аудиоэлементы.40. The system of any one of the preceding claims, wherein information is provided for each audio element or audio object, which information includes descriptive information about the locations at which the soundstage or audio elements are active.

41. Система по любому из предшествующих пунктов, выполненная с возможностью выбирать между воспроизведением одной сцены и составлением, или смешиванием, или мультиплексированием, или наложением, или объединением по меньшей мере двух сцен на основе текущей или будущей ориентации головы, и/или данных перемещения, и/или метаданных, и/или виртуального положения, и/или выбора со стороны пользователя, причем эти две сцены ассоциированы с разными соседними и/или смежными средами.41. The system according to any one of the preceding claims, configured to choose between playing one scene and composing or mixing or multiplexing or overlaying or combining at least two scenes based on current or future head orientation and/or movement data, and/or metadata, and/or virtual location, and/or user selection, the two scenes being associated with different adjacent and/or adjacent environments.

42. Система по любому из предшествующих пунктов, выполненная с возможностью создавать или использовать по меньшей мере адаптационные наборы, чтобы:42. The system according to any of the preceding claims, configured to create or use at least adaptation sets in order to:

множество адаптационных наборов ассоциировалось с одной аудиосценой; и/илиmultiple adaptation sets associated with a single audio scene; and/or

предоставлялась дополнительная информация, которая соотносит каждый адаптационный набор с одной точкой наблюдения или одной аудиосценой; и/илиadditional information was provided that correlates each adaptation set with one viewpoint or one audio scene; and/or

предоставлялась дополнительная информация, которая может включать в себя:provided additional information, which may include:

- информацию о границах одной аудиосцены, и/или- information about the boundaries of one audio scene, and/or

- информацию о взаимосвязи между одним адаптационным набором и одной аудиосценой (например, аудиосцена кодируется в три потока, которые заключаются в три адаптационных набора), и/или- information about the relationship between one adaptation set and one audio scene (for example, an audio scene is encoded into three streams that are enclosed in three adaptation sets), and/or

- информацию о связи между границами аудиосцены и множеством адаптационных наборов.- information about the relationship between the boundaries of the audio scene and the set of adaptation sets.

43. Система по любому из предшествующих пунктов, выполненная с возможностью:43. The system according to any one of the preceding claims, configured to:

принимать поток для сцены, ассоциированной с соседней или смежной средой;receive a stream for a scene associated with an adjacent or adjacent environment;

запускать декодирование и/или воспроизведение потока для соседней или смежной среды при обнаружении перехода границы между двумя средами.trigger decoding and/or playback of a stream for an adjacent or adjacent media upon detection of a boundary crossing between the two media.

44. Система по любому из предшествующих пунктов, 44. The system according to any one of the preceding claims,

причем по меньшей мере упомянутое по меньшей мере одно множество из N аудиоэлементов предоставляется в по меньшей мере одном представлении с высоким битрейтом и/или уровнем качества, иwherein at least said at least one set of N audio elements is provided in at least one representation with a high bitrate and/or quality level, and

45. Система по любому из предшествующих пунктов, дополнительно выполненная с возможностью:45. The system according to any one of the preceding claims, further configured to:

запрашивать и/или принимать по меньшей мере один первый адаптационный набор, содержащий по меньшей мере один аудиопоток, ассоциированный с по меньшей мере одной первой аудиосценой;request and/or receive at least one first adaptation set containing at least one audio stream associated with at least one first audio scene;

запрашивать и/или принимать по меньшей мере один второй адаптационный набор, содержащий по меньшей мере один второй аудиопоток, ассоциированный с по меньшей мере двумя аудиосценами, включая упомянутую по меньшей мере одну первую аудиосцену; иrequest and/or receive at least one second adaptation set containing at least one second audio stream associated with at least two audio scenes, including said at least one first audio scene; And

обеспечивать соединение по меньшей мере одного первого аудиопотока и по меньшей мере одного второго аудиопотока в новый аудиопоток для декодирования, основываясь на метаданных, доступных касаемо текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных пользователя, и/или информации, описывающей ассоциацию по меньшей мере одного первого адаптационного набора с по меньшей мере одной первой аудиосценой и/или ассоциацию по меньшей мере одного второго адаптационного набора с по меньшей мере одной первой аудиосценой.provide connection of at least one first audio stream and at least one second audio stream into a new audio stream for decoding, based on the metadata available regarding the current orientation of the user's head, and/or user movement data, and/or user metadata, and/or information, describing the association of at least one first adaptation set with at least one first audio scene and/or the association of at least one second adaptation set with at least one first audio scene.

46. Система по любому из предшествующих пунктов, выполненная с возможностью:46. The system according to any one of the preceding claims, configured to:

принимать информацию о текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных пользователя, и/или любой информации, описывающей изменения, вызванные действиями пользователя; иreceive information about the current orientation of the user's head, and/or user movement data, and/or user metadata, and/or any information describing changes caused by user actions; And

принимать информацию о доступности адаптационных наборов и информации, описывающей ассоциацию по меньшей мере одного адаптационного набора с по меньшей мере одной сценой, и/или точкой наблюдения, и/или положением, и/или виртуальным положением, и/или данными перемещения, и/или ориентацией.receive information about the availability of adaptation sets and information describing the association of at least one adaptation set with at least one scene and/or viewpoint and/or position and/or virtual position and/or movement data and/or orientation.

47. Система по любому из предшествующих пунктов, выполненная с возможностью:47. The system according to any one of the preceding claims, configured to:

решать, нужно ли воспроизводить по меньшей мере один аудиоэлемент из по меньшей мере одной аудиосцены, встроенной в по меньшей мере один поток, и по меньшей мере один дополнительный аудиоэлемент из по меньшей мере одной дополнительной аудиосцены, встроенной в по меньшей мере один дополнительный поток; иdecide whether to play at least one audio element from at least one audio scene embedded in at least one stream, and at least one additional audio element from at least one additional audio scene embedded in at least one additional stream; And

вызывать, при положительном решении, операцию соединения, или составления, или мультиплексирования, или наложения, или объединения упомянутого по меньшей мере одного дополнительного потока дополнительной аудиосцены с упомянутым по меньшей мере одним потоком по меньшей мере одной аудиосцены.cause, if positive, the operation of connecting, or composing, or multiplexing, or overlaying, or combining said at least one additional additional audio scene stream with said at least one stream of at least one audio scene.

48. Система по любому из предшествующих пунктов, дополнительно содержащая декодер видео.48. The system of any one of the preceding claims, further comprising a video decoder.

49. Система по п.48, в которой декодер видео выполнен с возможностью декодировать видеосигналы из видеопотоков для представления пользователю сцен сред виртуальной реальности (VR), дополненной реальности (AR), смешанной реальности (MR) или панорамного видео.49. The system of claim 48, wherein the video decoder is configured to decode video signals from the video streams to present scenes of virtual reality (VR), augmented reality (AR), mixed reality (MR) or panoramic video environments to the user.

50. Способ приема аудиопотоков для воспроизведения в мультимедийном устройстве, содержащий этапы, на которых:50. A method for receiving audio streams for playback in a multimedia device, comprising the steps of:

декодируют аудиосигналы из аудиопотоков; иdecoding audio signals from the audio streams; And

запрашивают и/или принимают по меньшей мере один аудиопоток на основе текущей ориентации головы пользователя, и/или данных перемещения пользователя, и/или метаданных пользователя;requesting and/or receiving at least one audio stream based on the user's current head orientation and/or user movement data and/or user metadata;

при этом способ включает в себя этап, на котором соединяют по меньшей мере один первый аудиопоток, ассоциированный с текущей аудиосценой, с по меньшей мере одним потоком, ассоциированным с соседней, смежной и/или будущей аудиосценой.wherein the method includes connecting at least one first audio stream associated with the current audio scene to at least one stream associated with an adjacent, adjacent and/or future audio scene.