UA124570C2

UA124570C2 - Система та спосіб для генерування, кодування та представлення даних адаптивного звукового сигналу

Info

Publication number: UA124570C2
Application number: UAA201702759A
Authority: UA
Inventors: Чарльз К. Робінсон; Чарльз К. РОБИНСОН; Ніколас Р. Тсінгос; Николас Р. ТСИНГОС; Крістоф Шабанне; Кристоф ШАБАННЕ
Original assignee: Долбі Лабораторіс Лайсензін Корпорейшн
Priority date: 2011-07-01
Filing date: 2012-06-27
Publication date: 2021-10-13
Also published as: CA2973703C; US20190306652A1; KR20180035937A; EP2727383A2; JP6882618B2; JP2020057014A; JP7348320B2; JP6174184B2; JP6486995B2; KR20150013913A; TWI543642B; IL295733B1; JP2022058569A; IL291043B; US20230045090A1; AU2021258043A1; US20180192230A1; CA3157717A1; TWI792203B; US9942688B2

Abstract

Описано варіанти здійснення системи адаптивного звуку, яка обробляє аудіодані, що містять деяку кількість незалежних монофонічних аудіопотоків. З одним або декількома з потоків були зв'язані метадані, які описують, чи є зазначений потік потоком на основі каналів або потоком на основі об'єктів. Потоки на основі каналів містять інформацію представлення даних, кодовану за допомогою назви каналу; а потоки на основі об'єктів містять інформацію місця розташування, кодовану через вираження місця розташування, закодовані у зв'язаних метаданих. Кодек упаковує незалежні аудіопотоки в єдину двійкову послідовність, яка містить усі аудіодані. Така конфігурація дозволяє представляти дані звуку відповідно до алоцентричної системи відліку, у якій, для відповідності задуму оператора мікшування, місце розташування представлення даних звуку ґрунтується на характеристиках середовища програвання (наприклад на розмірі приміщення, його формі тощо). Метадані положення об'єктів містять відповідну інформацію алоцентричної системи відліку, необхідну для вірного програвання звуку з використанням положень доступних гучномовців у приміщенні, яке пристосовано для програвання адаптивного звукового вмісту.

Description

зе см шк й зо й й Ї . Гаккреккня авторських

Ї Вих З Зву кова робоча . уозрогня і. Е стави кермі і міквера ? і В пУЛЬК і «Я

ГПіристунй: прозетаюлення З дани модуль кецееє Я «правки З

Я Гавивш ВО фони моли Те нйкжка з Звукпанй мікс ну ' Адвнаний і ро бенеміканнлію в звукиеМнї кіна Н я є 1 ; Кснтиня ; ї а

КО Пристрій вбробкн лани пифрової Упакукення. і кінематографії і Казнанінннй мікс я плЛвП ВИК з уковні певне Кен п и

Її ее та ! и їв сення ння фени : Ткрчукаий СН, Н ламттняинй і к мікс 1: у Знуксаній іх 1 т На і к з ї і р а в п п во

Вон В у аРО : Суввидавнкий дуввни ножем хінетенів завтвнн МуКОХ В фіг. З

Дана заявка заявляє пріоритет попередньої заявки на патент США Мо 61/504005, поданої 1 липня 2011 р., та попередньої заявки на патент США Мо 61/636429, поданої 20 квітня 2012 р.; обидві ці заявки посиланням включаються в дане розкриття повністю у всіх відношеннях.

Одна або кілька реалізацій, в цілому, належать до обробки звукових сигналів та, конкретніше, до гібридної обробки звуку на основі об'єктів та каналів для використання в кінематографічних, домашніх та інших середовищах.

Не слід вважати, що предмет винаходу, обговорюваний у розділі передумов, являє собою відомий рівень техніки єдино в результаті його згадування в розділі передумов. Аналогічно, не слід вважати, що проблема, що згадується в розділі передумов або пов'язана із предметом винаходу в розділі передумов, є визнаною на відомому рівні техніки. Предмет винаходу в розділі передумов лише представляє різні підходи, які самі по собі також можуть являти собою винаходи.

З моменту введення звуку у фільми відбувався сталий розвиток технології, призначеної для фіксації художнього задуму творця звукової доріжки кінокартини та для його точного відтворення в середовищі кінотеатру. Основна роль звуку в кінематографії полягає в сприянні сюжету на екрані. Типові звукові доріжки для кінематографії містять безліч різних звукових елементів, що відповідають елементам і зображенням на екрані, діалогам, шумам та звуковим ефектам, які виходять від різних елементів на екрані та сполучаються з музичним фоном і ефектами навколишнього середовища, створюючи загальне враження від перегляду. Художній задум творців і продюсерів відображає їхнє бажання відтворювати зазначені звуки таким чином, який як можна точніше відповідає тому, що демонструється на екрані, в тому, що стосується положення, інтенсивності, переміщення та інших аналогічних параметрів джерел звуку.

Сучасна авторська розробка, поширення та програвання кінофільмів страждає від обмежень, які стримують створення по-справжньому життєвого звуку, що створює ефект присутності. Традиційні аудіосистеми на основі каналів передають звуковий вміст у формі сигналів, що подаються на гучномовці, для окремих гучномовців у такому середовищі програвання, як стереофонічна система або система 5.1. Впровадження цифрової кінематографії створило такі нові стандарти звуку у фільмах, як об'єднання до 16 звукових каналів, що дозволяє збільшувати творчі можливості творців вмісту, а також більше охоплення

Зо та реалістичність вражень від прослуховування для глядачів. Введення оточуючих систем 7.1 забезпечило новий формат, який збільшує кількість оточуючих каналів шляхом розбивки існуючого лівого та правого оточуючих каналів на чотири зони, що, таким чином, розширює межі можливостей операторів обробки та синтезу звуку та операторів мікшування при керуванні місцями розташування звукових елементів у кінотеатрі.

Для подальшого поліпшення користувацького сприйняття, програвання звуку у віртуальних тривимірних середовищах стало областю посилених проектно-конструкторських розробок.

Представлення звуку в просторі використовує звукові об'єкти, які являють собою звукові сигнали зі зв'язаними параметричними описами джерел для положень гаданого джерела (наприклад тривимірних координат), ширини гаданого джерела та інших параметрів. Звук на основі об'єктів в усе зростаючій мірі використовується для багатьох сучасних мультимедійних застосувань, таких як цифрові кінофільми, відеоігри, симулятори та тривимірне відео.

Вирішальним є вихід за межі традиційних сигналів, що подаються на гучномовці, і звуку на основі каналів як засобів поширення звуку в просторі, і існує значний інтерес до опису звуку на основі моделей, який є багатообіцяючим для того, щоб давати слухачеві/кінопрокатникові свободу вибору конфігурації програвання, яка відповідає їхнім індивідуальним потребам або бюджету, зі звуком, дані якого представляються спеціально для вибраної ними конфігурації. На високому рівні в цей час існує чотири основні формати просторового опису звуку: сигнали, що подаються на гучномовці, де звук описується як сигнали, призначені для гучномовців у номінальних положеннях гучномовців; сигнал, що подається на мікрофон, де звук описується як сигнали, захоплювані віртуальними або фактичними мікрофонами в попередньо обумовленому масиві; опис на основі моделей, у якому звук описується в термінах послідовності звукових подій в описуваних положеннях; і бінауральний, у якому звук описується сигналами, які досягають вух користувача. Ці чотири формати опису часто пов'язані з однією або декількома технологіями представлення даних, які перетворюють звукові сигнали в сигнали, що подаються на гучномовці. Сучасні технології представлення даних включають панорамування, при якому аудіопотік перетворюється в сигнали, що подаються на гучномовці, з використанням набору законів панорамування та відомих, або передбачуваних, положень гучномовців (як правило, представлення даних відбувається перед поширенням); амбіфонію, при якій сигнали мікрофонів перетворюються в подавані сигнали для масштабованого масиву гучномовців (як правило, бо представлення даних відбувається після поширення); М/Е5 (синтез хвильового поля), при якому звукові події перетворюються в відповідні сигнали гучномовців для синтезу звукового поля (як правило, представлення даних відбувається після поширення); і бінауральну технологію, у якій бінауральні сигнали І /А (лівий/правий) доставляються у вуха І /В, як правило, з використанням навушників, але також з використанням гучномовців та придушення перехресних перешкод (представлення даних відбувається до або після поширення). Серед цих форматів найбільш загальним є формат подачі сигналів на гучномовці, оскільки він є простим і ефективним.

Найкращі акустичні результати (найбільш точні, найбільш достовірні) досягаються шляхом мікшування/поточного контролю та поширення безпосередньо в сигнали, що подаються на гучномовці, оскільки між творцем вмісту та слухачем обробка відсутня. Якщо система, що програє, відома заздалегідь, опис сигналів, що подаються на гучномовці, звичайно забезпечує найвищу точність відтворення. Однак в багатьох застосуваннях на практиці система, що програє, невідома. Найбільш адаптованим вважається опис на основі моделей, оскільки він не робить припущень про технологію представлення даних, і тому він легше всього застосовується для будь-якої технології представлення даних. Незважаючи на те, що опис на основі моделей ефективно збирає просторову інформацію, він стає надзвичайно неефективним у міру збільшення кількості джерел звуку.

Протягом багатьох років системи для кінематографії характеризувалися дискретними екранними каналами у формі лівого, центрального, правого та, іноді, "внутрішнього лівого" і "внутрішнього правого" каналів. Ці дискретні джерела звичайно мають достатню амплітудно- частотну характеристику та потужність, що комутується, для того, щоб дозволяти точно розміщати звуки в різних областях екрана та допускати тембральне узгодження в міру того, як звуки переміщаються, або панорамуються, між місцями розташування. Сучасні розробки з посилення сприйняття слухача прагнуть до точного відтворення місця розташування звуків відносно слухача. В установці 5.1 оточуючі "зони" включають масив гучномовців, всі з яких несуть однакову звукову інформацію в межах кожної лівої оточуючої або правої оточуючої зони.

Зазначені масиви можуть бути ефективні для ефектів "навколишнього середовища" і розсіяного оточуючого звуку, однак у повсякденному житті багато звукових ефектів виникають із випадково розміщених точкових джерел. Наприклад, у ресторані здається, що оточуюча музика відіграє з усіх боків, у той час як з певних точок виникають дискретні звуки: розмова людини - з однієї

Зо точки, стукіт ножа по тарілці - з іншої. Наявність можливості дискретного розміщення цих звуків навколо залу для глядачів може створювати посилене відчуття реальності, не будучи при цьому занадто помітним. Також важливої складової чіткості оточуючого звуку є звуки зверху. У реальному світі звуки приходять із усіх напрямків, і не завжди - з єдиної горизонтальної площини. Додаткове почуття реальності може досягатися, якщо звуки можуть чутися зверху, іншими словами з "верхньої півсфери". Сучасні системи, однак, не пропонують по-справжньому точного відтворення звуку для різних типів звуку для ряду різних середовищ програвання. Буде потрібно ще чимало зробити в області обробки, знання та конфігурації фактичних середовищ програвання, щоб, використовуючи існуючі системи, спробувати точно відтворювати місце розташування певних звуків і, таким чином, зробити сучасні системи непридатними до вживання для більшості застосувань.

Те, що є необхідним, являє собою систему, яка підтримує кілька екранних каналів, що в результаті приводить до підвищеної чіткості та поліпшеної аудіовізуальної когерентності для звуків або діалогу на екрані та до можливості точно розташовувати джерела де завгодно в оточуючих зонах, поліпшуючи аудіовізуальний перехід від екрана в приміщення. Наприклад, якщо герой на екрані дивиться усередину приміщення в напрямку джерела звуку, звукоінженер ("оператор мікшування") повинен мати можливість точно розміщати звук так, щоб він збігався з лінією погляду героя, і щоб цей ефект був однаковим для всіх глядачів. Однак при традиційному мікшуванні оточуючого звуку 5.1 або 7.1 ефект сильно залежить від положення посадкового місця слухача, що є несприятливим для більшості великих середовищ прослуховування.

Підвищена роздільність оточуючого звуку створює нові можливості для використання звуку центрованим у приміщенні чином, на відміну від традиційного підходу, де вміст створюється в припущенні єдиного слухача в "зоні найкращого сприйняття".

Крім просторових проблем, багатоканальні системи на сучасному рівні техніки страждають відносно тембру. Наприклад, при відтворенні масивом гучномовців може страждати тембральна якість деяких звуків, таких як шипіння пари, що виходить із ушкодженої труби. Здатність направляти певні звуки в єдиний гучномовець дає операторові мікшування можливість усувати викривлення при відтворенні масивом і домагатися більш реалістичного сприйняття глядачами.

Традиційно, оточуючі гучномовці не підтримують настільки ж повний діапазон звукових частот і рівень, які підтримують більші екранні канали. У минулому це створювало труднощі для бо операторів мікшування, зменшуючи їх можливості вільно переміщати широкосмугові звуки від екрана в приміщення. У результаті, власники кінотеатрів не відчували необхідності в модернізації конфігурації оточуючих каналів, що перешкоджало широкому впровадженню більш високоякісних установок.

Системи та способи описуються для формату звуку для кінематографії та системи обробки даних, яка включає новий шар гучномовців (конфігурацію каналів) і зв'язаний формат просторового опису. Визначена система адаптивного звуку та формат, який підтримує кілька технологій представлення даних. Аудіопотоки передаються поряд з метаданими, які описують "задум оператора мікшування", що включає необхідне положення аудіопотоку. Зазначене положення може бути виражене як названий канал (з каналів у межах попередньо визначеної конфігурації каналів) або як інформація про тривимірне положення. Такий формат - канали плюс об'єкти - поєднує оптимальні способи опису звукової картини на основі каналів і на основі моделей. Аудіодані для системи адаптивного звуку містять деяку кількість незалежних монофонічних аудіопотоків. Кожний потік, що має пов'язані з ним метадані, які описують, буде являти собою потік на основі каналів або потік на основі об'єктів. Потоки на основі каналів містять інформацію представлення даних, кодовану за допомогою назви каналу; а потоки на основі об'єктів містять інформацію місця розташування, кодовану через математичні вираження, кодовані в додаткових зв'язаних метаданих. Оригінальні незалежні аудіопотоки упаковуються як єдина двійкова послідовність, яка містить усі аудіодані. Дана конфігурація дозволяє представляти звук відповідно до алоцентричної системи відліку, у якій представлення даних місця розташування звуку грунтується на характеристиках середовища програвання (наприклад на розмірі приміщення, його формі тощо) для відповідності задуму оператора мікшування. Метадані положення об'єкта містять відповідну інформацію алоцентричної системи координат, необхідну для правильного програвання звуку з використанням положень доступних гучномовців у приміщенні, яке підготовлено для програвання адаптивного звукового вмісту. Це дозволяє оптимально мікшувати звук для певного середовища програвання, яке може відрізнятися від середовища мікшування, яке випробовує звукоінженер.

Система адаптивного звуку підвищує якість звуку в різних приміщеннях за допомогою таких переваг, як удосконалене керування корекцією амплітудно-частотної характеристики в приміщенні та оточуючими басами для того, щоб оператор мікшування міг вільно звертатися до

Зо гучномовців (як таких, що перебувають на екрані, так і тих, що перебувають поза екраном) без необхідності думати про тембральне узгодження. Система адаптивного звуку додає в традиційні послідовності операцій на основі каналів гнучкість і можливості динамічних звукових об'єктів. Зазначені звукові об'єкти дозволяють творцям контролювати дискретні звукові елементи незалежно від конкретних конфігурацій гучномовців, що програють, у тому числі верхніх гучномовців. Система також вносить нову ефективність у процес компонування, дозволяючи звукоїнженерам ефективно фіксувати всі їх задуми, а потім, у ході поточного контролю в реальному часі або автоматично, генерувати версії оточуючого звуку 7.1 або 5.1.

Система адаптивного звуку спрощує поширення, виділяючи звукову суть художнього задуму в єдиний файл доріжки в пристрої обробки даних для цифрової кінематографії, який може точно програватися в широкому діапазоні конфігурацій кінотеатрів. Система забезпечує оптимальне відтворення художнього задуму, коли засоби мікшування та представлення даних використовують однакову конфігурацію каналів і єдиний інвентар зі спадною адаптацією до конфігурації представлення даних, тобто з понижувальним мікшуванням.

Ці та інші переваги представлені через варіанти здійснення винаходу, які спрямовані на звукову платформу для кінематографії, звертаючись до обмежень сучасних систем, і доставляють враження від звуку, який перебуває за межами досяжності систем, доступних сьогодні.

У нижченаведених графічних матеріалах подібні посилальні позиції використовуються для посилання на подібні елементи. Незважаючи на те, що наступні фігури зображують різні приклади, одна або кілька реалізацій не обмежуються прикладами, зображеними на зазначених фігурах.

Фіг. 1 являє собою загальний вигляд зверху середовища створення та програвання звуку, що використовує систему адаптивного звуку, відповідно до одного з варіантів здійснення винаходу.

Фіг. 2 ілюструє об'єднання даних на основі каналів і на основі об'єктів з метою генерування адаптивного звукового міксу, відповідно до одного з варіантів здійснення винаходу.

Фіг. З являє собою блок-схему, що ілюструє послідовність операцій створення, упакування та представлення даних адаптивного звукового вмісту, відповідно до одного з варіантів здійснення винаходу.

Фіг. 4 являє собою блок-схему етапу представлення даних системи адаптивного звуку, відповідно до одного з варіантів здійснення винаходу.

Фіг. 5 являє собою таблицю, у якій перелічуються типи метаданих і зв'язані елементи метаданих для системи адаптивного звуку, відповідно до одного з варіантів здійснення винаходу.

Фіг. б являє собою схему, яка ілюструє компонування та остаточну обробку для системи адаптивного звуку, відповідно до одного з варіантів здійснення винаходу.

Фіг. 7 являє собою схему одного із прикладів послідовності операцій процесу упакування цифрового кінофільму з використанням файлів адаптивного звуку, відповідно до одного з варіантів здійснення винаходу.

Фіг. 8 являє собою вигляд зверху одного із прикладів схеми розташування передбачуваних місць розташування гучномовців для їхнього використання із системою адаптивного звуку в типовому залі для глядачів.

Фіг. 9 являє собою вигляд спереду одного із прикладів розміщення передбачуваних місць розташування гучномовців на екрані для використання в типовому залі для глядачів.

Фіг. 10 являє собою вигляд збоку одного із прикладів схеми розташування передбачуваних місць розташування гучномовців для їхнього використання із системою адаптивного звуку в типовому залі для глядачів.

Фіг. 11 являє собою один із прикладів розташування верхніх оточуючих гучномовців і бічних оточуючих гучномовців відносно початку відліку, відповідно до одного з варіантів здійснення винаходу.

Описуються системи та способи для системи адаптивного звуку та зв'язаного звукового сигналу та формату даних, які підтримують кілька технологій представлення даних. Особливості для одного або декількох варіантів здійснення винаходу, описувані в даному розкритті, можуть реалізовуватися в аудіосистемі або аудіовізуальній системі, яка обробляє вихідну звукову інформацію в системі мікшування, представлення даних і програвання, яка містить один або кілька комп'ютерів або пристроїв обробки даних, що виконують команди програмного забезпечення. Кожний з описуваних варіантів здійснення винаходу може використовуватися сам по собі або разом з якими-небудь іншими варіантами в будь-якій комбінації. Незважаючи на те,

Зо що різні варіанти здійснення винаходу могли бути мотивовані різними недоліками на відомому рівні техніки, які можуть обговорюватися або згадуватися в одному або декількох місцях у даному описі, варіанти здійснення винаходу необов'язково звертаються до якого-небудь із цих недоліків. Іншими словами, різні варіанти здійснення винаходу можуть звертатися до різних недоліків, які можуть обговорюватися в даному описі. Деякі варіанти здійснення винаходу можуть лише частково звертатися до деяких недоліків або тільки до одного недоліку, описуваного в даному описі, а деякі варіанти здійснення винаходу можуть не звертатися до жодного із цих недоліків.

Для цілей даного опису, нижченаведені терміни мають наступні зв'язані значення:

Канал, або звуковий канал: монофонічний звуковий сигнал або аудіопотік, плюс метадані, у яких положення закодоване як ідентифікатор каналу, наприклад "лівий передній" або "правий верхній оточуючий". Канальний об'єкт може управляти декількома гучномовцями, наприклад ліві оточуючі канали (І 5) будуть подаватися на гучномовці масиву І 5.

Конфігурація каналів: попередньо визначений набір зон гучномовців зі зв'язаними номінальними місцями розташування, наприклад 5.1, 7.1 тощо; 5.1 належить до шестиканальної аудіосистеми оточуючого звуку, що містить передні лівий і правий канали, центральний канал, два оточуючі канали та наднизькочастотний канал; 7.1 належить до восьмиканальної системи оточуючого звуку, у якій до системи 5.1 додано два додаткові оточуючі канали. Приклади конфігурацій 5.1 і 7.1 включають системи роїру? витоипа.

Гучномовець: перетворювач звуку або набір перетворювачів, які представляють дані звукового сигналу.

Зона гучномовців: масив з одного або декількох гучномовців, які можуть бути однозначно віднесені і які приймають єдиний, наприклад лівий оточуючий, звуковий сигнал, звичайно перебувають у кінотеатрі й, зокрема, призначені для виключення або включення у представлення даних об'єкта.

Канал гучномовця, або канал сигналу, що подається на гучномовець: звуковий канал, який пов'язаний з названим гучномовцем або зоною гучномовців, у межах певної конфігурації гучномовців. Канал гучномовця звичайно представляється з використанням зв'язаної зони гучномовців.

Група каналів гучномовців: набір з одного або декількох каналів гучномовців, що бо відповідають конфігурації каналів (наприклад зі стереодоріжками, монодоріжками тощо)

Об'єкт, або канал об'єкта: один або кілька звукових каналів з таким параметричним описом джерела, як положення гаданого джерела (наприклад тривимірні координати), ширина гаданого джерела тощо. Аудіопотік плюс метадані, у яких положення закодоване як тривимірне положення в просторі.

Звукова програма: повний набір каналів гучномовців та/або об'єктних каналів і зв'язаних метаданих, які описують необхідне представлення звуку в просторі.

Алоцентрична система відліку просторова система відліку, у якій звукові об'єкти визначаються в межах середовища представлення даних відносно таких ознак, як стіни та кути приміщення, стандартні місця розташування гучномовців і місце розташування екрана (наприклад передній лівий кут приміщення).

Егоцентрична система відліку: просторова система відліку, у якій об'єкти визначаються відносно перспективи (глядачів) слухача, і яка часто визначається відносно кутів стосовно слухача (наприклад 30 градусів праворуч від слухача).

Кадр: кадри являють собою короткі сегменти, що декодуються незалежно, на які розділяється повна звукова програма. Розмір та границі аудіокадрів звичайно вирівняні з відеокадрами.

Адаптивний звук: звукові сигнали на основі каналів та/або на основі об'єктів плюс метадані, які представляють дані звукових сигналів на основі середовища програвання.

Описуваний у даному розкритті формат звуку для кінематографії та система обробки даних, також іменована "системою адаптивного звуку", використовують нову технологію опису та представлення просторових даних звуку, що дозволяє підсилювати ефект присутності в глядачів, підвищувати художній контроль, гнучкість і масштабованість системи та простоту установки та обслуговування. Варіанти здійснення звукової платформи для кінематографії включають кілька дискретних компонентів, у тому числі інструментальні засоби мікшування, пристрій упакування/кодер, пристрій розпакування/декодер, компоненти остаточного мікшування та представлення даних у кінотеатрі, нові схеми гучномовців та об'єднані в мережу підсилювачі. Система включає рекомендації для нової конфігурації каналів, що підлягає використанню творцями та кінопрокатниками. Система використовує опис на основі моделей, який підтримує кілька таких характерних ознак як: єдиний інвентар зі спадною та висхідною адаптацією до конфігурації представлення даних, тобто відстрочене представлення даних і забезпечення можливості оптимального використання доступних гучномовців; поліпшений охват звуку, включення оптимізованого понижувального мікшування, щоб уникнути кореляції між каналами; підвищена просторова роздільність через наскрізне керування масивами (наприклад звуковий об'єкт динамічно приписується до одного або декількох гучномовців у межах масиву оточуючого звуку); і підтримка альтернативних способів представлення даних.

Фіг. 1 являє собою загальний вигляд зверху середовища створення та програвання звуку, що використовує систему адаптивного звуку, відповідно до одного з варіантів здійснення винаходу. Як показано на Фіг. 1, повне, безперервне середовище 100 містить компоненти створення вмісту, упакування, поширення та/або програвання/представлення даних у велику кількість кінцевих пристроїв і варіантів використання. Система 100 у цілому веде свій початок від вмісту, захопленого з і для деякої кількості різних варіантів використання, які включають сприйняття 112 глядачами. Елемент 102 захвата даних вмісту включає, наприклад, кінематографію, телебачення, пряму трансляцію, вміст, що генерується користувачем, записаний вміст, ігри, музику тощо і може включати звуковий/візуальний або чисто звуковий вміст. Вміст у міру просування через систему 100 від етапу 102 захвата даних до сприйняття 112 кінцевими користувачами проходить кілька ключових етапів обробки через дискретні компоненти системи. Зазначені етапи процесу включають попередню обробку звуку 104, інструментальні засоби та процеси 106 авторської розробки, кодування аудіокодеком 108, який веде збір, наприклад, аудіоданих, додаткових метаданих і інформації відтворення, і об'єктні канали. Для успішного та захищеного поширення за допомогою різних носіїв до об'єктних каналів можуть застосовуватися такі різноманітні впливи обробки, як стиск (із втратами або без втрат), шифрування тощо. Для відтворення та передачі певного сприйняття 112 користувачем адаптивного звуку потім застосовуються відповідні специфічні для кінцевих точок процеси 110 декодування та представлення даних. Сприйняття 112 звуку представляє програвання звукового або аудіовізуального вмісту через відповідні гучномовці та пристрої, що програють, і може представляти будь-яке середовище, у якому слухач зазнає відтворення захопленого вмісту, таке як кінотеатр, концертний зал, відкритий кінотеатр, будинок або приміщення, кабінка для прослуховування, автомобіль, ігрова приставка, навушники або гарнітура, система оповіщення або інше середовище, що програє.

Даний варіант здійснення системи 100 включає аудіокодек 108, який здатний ефективно поширювати та зберігати в пам'яті багатоканальні звукові програми, і тому може йменуватися як "гібридний" кодек. Кодек 108 поєднує традиційні аудіодані на основі каналів зі зв'язаними метаданими, утворюючи звукові об'єкти, які полегшують створення та доставку звуку, який є адаптованим і оптимізованим для представлення даних і програвання в середовищах, які, можливо, відрізняються від середовища мікшування. Це дозволяє звукоїнженеру кодувати його або її задум у тому, як кінцевий звук повинен чутися слухачем, на основі фактичного середовища прослуховування слухачем.

Традиційні аудіокодеки на основі каналів діють у припущенні, що звукова програма буде відтворюватися масивом гучномовців, що перебувають у попередньо визначених положеннях відносно слухача. Для створення повної багатоканальної звукової програми, звукоїнженери звичайно мікшують велику кількість окремих аудіопотоків (наприклад діалог, музику, ефекти) з метою створення необхідного загального сприйняття. При мікшуванні звуку рішення звичайно приймаються шляхом прослуховування звукової програми, відтвореної масивом гучномовців, що перебувають у попередньо визначених положеннях, наприклад, зокрема, у системі 5.1 або 7.1 у певному кінотеатрі. Кінцевий, мікшований сигнал служить уведенням в аудіокодек.

Просторово точні звукові поля досягаються при відтворенні тільки тоді, коли гучномовці розміщаються в попередньо визначених положеннях.

Одна з нових форм кодування звуку, що зветься кодуванням звукових об'єктів, включає як введення в кодер окремі джерела звуку (звукові об'єкти) у формі окремих аудіопотоків.

Приклади звукових об'єктів включають діалогові доріжки, окремі інструменти, окремі звукові ефекти та інші точкові джерела. Кожний звуковий об'єкт пов'язаний із просторовими параметрами, які можуть включати як необмежуючі приклади положення звуку, ширину звуку та інформацію швидкості. Для поширення та зберігання звукові об'єкти та зв'язані параметри потім кодуються. Остаточне мікшування та представлення даних звукового об'єкта виконується на стороні прийняття в ланцюзі поширення звуку як частина програвання звукової програми. Цей етап може грунтуватися на відомостях про фактичні положення гучномовців, тому результатом є система поширення звуку, яка є такою, що настроюється, відповідно до умов прослуховування конкретним користувачем. Дві зазначені форми кодування, на основі каналів і на основі об'єктів, оптимально діють для різних умов вхідного сигналу. Аудіокодери на основі каналів звичайно більш ефективні для кодування вхідних сигналів, що містять щільні суміші різних джерел звуку, а також для розсіяних звуків. Кодери звукових об'єктів, навпаки, більш ефективні для кодування невеликої кількості високоспрямованих джерел звуку.

У одному з варіантів здійснення винаходу, способи та компоненти системи 100 включають систему кодування, поширення та декодування звуку, сконфігуровану для генерування одного або декількох бітових потоків, що містять як традиційні звукові елементи на основі каналів, так і елементи кодування звукових об'єктів. Такий комбінований підхід забезпечує більшу ефективність кодування та гнучкість представлення даних у порівнянні з узятими окремо підходами на основі каналів і на основі об'єктів.

Інші особливості описуваних варіантів здійснення винаходу включають розширення назад сумісно попередньо визначеного аудіокодека на основі каналів для включення елементів кодування звукових об'єктів. Новий "шар розширення", що містить елементи кодування звукових об'єктів, визначається та додається до "основного", або "зворотно сумісного", шару бітового потоку аудіокодека на основі каналів. Такий підхід дозволяє успадкованим декодерам обробляти один або кілька бітових потоків, які містять шар розширення, і, у той же час, забезпечує поліпшене враження від прослуховування для користувачів з новими декодерами.

Один із прикладів посилення користувацького сприйняття включає керування представленням даних звукового об'єкта. Додатковою перевагою цього підходу є те, що звукові об'єкти можуть додаватися або модифікуватися всюди по ланцюжку поширення без декодування/мікшування/повторного кодування багатоканального звуку, кодованого аудіокодеком на основі каналів.

Відносно системи координат, просторові ефекти звукових сигналів є вирішальними при забезпеченні для слухача враження ефекту присутності. Звуки, які маються на увазі як вихідні з певної області глядацького екрана або приміщення, повинні відтворюватися через гучномовець (гучномовці), розташований у тому ж самому відносному місці розташування. Тому первинним елементом метаданих звуку для звукової події в описі на основі моделей є положення, хоча можуть також описуватися і такі інші параметри, як розмір, орієнтація, швидкість і дисперсія звуку. Для передачі положення тривимірний просторовий опис звуку на основі моделей вимагає тривимірної системи координат. Система координат, що використовується для передачі бо (евклідова, сферична тощо), звичайно вибирається для зручності або компактності, однак для обробки представлення даних можуть використовуватися й інші системи координат. Окрім системи координат для представлення місць розташування об'єктів у просторі потрібна система відліку. Вибір належної системи відліку може бути вирішальним фактором точного відтворення звуку системами на основі положення в безлічі різних середовищ. У алоцентричній системі відліку положення джерела звуку визначається відносно таких ознак у межах середовища представлення даних, як стіни та кути приміщення, стандартні місця розташування гучномовців і місце розташування екрана. У егоцентричній системі відліку місця розташування представляються відносно перспективи слухача, як, наприклад, "переді мною, трохи вліво" тощо. Наукові дослідження просторового сприйняття (звуку та ін-) показали, що найбільш універсальним є використання егоцентричної перспективи. Однак для кінематографа з ряду причин більш підходящою є алоцентрична система. Наприклад, точне місце розташування звукового об'єкта є більш важливим, коли зв'язаний об'єкт перебуває на екрані. При використанні алоцентричної системи відліку для кожного положення прослуховування та для екрана будь-якого розміру звук буде локалізовуватися в тому самому положенні на екрані, наприклад на третину більш вліво середини екрана. Іншою причиною є те, що оператори мікшування схильні міркувати та мікшувати в алоцентричному вирахуванні, і засоби панорамування компонуються в алоцентричній системі відліку (стіни приміщення), і оператори мікшування очікують, що представлятися ці засоби будуть саме таким чином, наприклад "цей звук повинен перебувати на екрані", "цей звук повинен перебувати за екраном" або "від лівої стіни" тощо.

Незважаючи на використання алоцентричної системи відліку в середовищі для кінематографії, існують деякі випадки, для яких може бути корисна егоцентрична система відліку. Ці випадки включають закадрові звуки, тобто звуки, які не присутні в "просторі фільму", наприклад музичний супровід, для якого може вимагатися однорідне егоцентричне представлення. Інший випадок - ефекти в близькій зоні (наприклад дзижчання комара в лівому вусі слухача), які вимагають егоцентричного представлення. На сьогоднішній день не існує засобів для представлення даних такого близького звукового поля з використанням навушників або гучномовців близької зони. Крім цього нескінченно віддалені джерела звуку (і результуючі плоскі хвилі) здаються такими, що надходять з постійного егоцентричного положення

Зо (наприклад 30 градусів ліворуч), і такі звуки легше описати в егоцентричному вирахуванні, а не в алоцентричному.

У деяких випадках можна використовувати алоцентричну систему відліку доти, доки є визначеним номінальне положення прослуховування, незважаючи на те, що деякі приклади вимагають егоцентричного представлення, дані якого дотепер неможливо представити. | хоча алоцентрична система відліку може бути більш корисною та підходящою, представлення звуку повинно бути розширюваним, оскільки багато нових особливостей, у тому числі й егоцентричне представлення, можуть виявитися більш бажаними в деяких застосуваннях і середовищах прослуховування. Варіанти здійснення системи адаптованого звуку включають гібридний підхід до просторового опису, який включає рекомендовану конфігурацію каналів для оптимальної точності відтворення та для представлення даних розсіяних або складних, багатоточкових джерел (наприклад юрба на стадіоні, навколишнє середовище) з використанням егоцентричної системи відліку плюс алоцентричний опис звуку на основі моделей - для того, щоб допускалися висока просторова роздільність та масштабованість.

Компоненти системи

З посиланням на Фіг. 1, оригінальні дані 102 звукового вмісту, у першу чергу, обробляються в блоці 104 попередньої обробки. Блок 104 попередньої обробки системи 100 містить компонент фільтрації об'єктних каналів. У багатьох випадках, звукові об'єкти містять окремі джерела звуку, що дозволяють панорамувати звуки незалежно. У деяких випадках, як, наприклад, при створенні звукових програм з використанням природного або "виробничого" звуку, може виявитися необхідним отримання окремих звукових об'єктів із запису, який містить кілька джерел звуку. Варіанти здійснення винаходу включають спосіб виділення незалежних звукових сигналів з більш складного сигналу. Небажані елементи, що підлягають відділенню від незалежних сигналів джерел, можуть включати як необмежуючі приклади інші незалежні джерела звуку та фоновий шум. Крім цього, для відтворення "сухих" джерел звуку може усуватися реверберація.

Пристрій 104 попередньої обробки даних також включає функціональну можливість поділу джерел і виявлення типу вмісту. Система включає автоматичне генерування метаданих шляхом аналізу вхідного звуку. Позиційні метадані виходять із багатоканального запису шляхом аналізу відносних рівнів корельованого вхідного сигналу між парами каналів. Виявлення типу вмісту,

такого як "мова" або "музика", може виконуватися, наприклад, шляхом отримання та класифікації характерних ознак.

Інструментальні засоби авторської розробки

Блок 106 інструментальних засобів авторської розробки включає характерні ознаки, призначені для вдосконалення авторської розробки звукових програм шляхом оптимізації введення та кодифікації творчого задуму звукоїнженера, дозволяючи йому створювати кінцевий звуковий мікс, як тільки вона буде оптимізована для програвання практично в будь-якому середовищі програвання. Це виконується шляхом використання звукових об'єктів і позиційних даних, які зв'язуються та кодуються разом з оригінальним звуковим вмістом. Для того, щоб точно розмістити звуки по периметру залу для глядачів, звукоїнженеру необхідно мати контроль над тим, як звук буде в остаточному підсумку представлятися на основі фактичних обмежень і характерних ознак середовища програвання. Система адаптивного звуку передбачає такий контроль, дозволяючи звукоїнженеру змінювати те, яким чином звуковий вміст розробляється та мікшується шляхом використання звукових об'єктів і позиційних даних.

Звукові об'єкти можна вважати групами звукових елементів, які можуть сприйматися як вихідні з певного фізичного місця розташування або місць розташування у залі для глядачів.

Такі об'єкти можуть бути нерухомими або вони можуть переміщатися. У системі 100 адаптивного звуку звукові об'єкти управляються метаданими, які, серед іншого, докладно описують місце розташування звуку в цей момент часу. Коли об'єкти піддаються поточному контролю або програються в кінотеатрі, їх дані представляються, згідно з позиційними метаданими, з використанням гучномовців, які Є в наявності, замість обов'язкового виводу у фізичний канал. Доріжка в сесії може являти собою звуковий об'єкт, а стандартні дані панорамування можуть бути аналогічні позиційним метаданим. Таким чином, вміст, що розташовується на екрані, може ефективно панорамуватися точно так само, як у випадку вмісту на основі каналів, однак дані вмісту, розташовуваного в навколишніх каналах, можуть при бажанні представлятися в окремий канал. Незважаючи на те, що використання звукових об'єктів забезпечує необхідний контроль над дискретними ефектами, інші особливості звукової доріжки кінофільму ефективніше працюють у середовищі на основі каналів. Наприклад, багато ефектів навколишнього середовища або реверберація фактично виграють від подачі в масиви

Зо гучномовців. І хоча вони можуть оброблятися як об'єкти із шириною, достатньою для заповнення масиву, більш корисним є збереження деяких функціональних можливостей на основі каналів.

У одному з варіантів здійснення винаходу система адаптивного звуку на додаток до звукових об'єктів підтримує "тракти", де тракти являють собою ефективно субмікшовані сигнали на основі каналів або стемів. Залежно від задуму творця вмісту вони можуть виходити для кінцевого програвання (представлення даних) або окремо, або об'єднаними в єдиний тракт.

Зазначені тракти можуть створюватися в таких різних конфігураціях на основі каналів, як 5.1, 7.1, і є розповсюджуваними на такі більш великі формати, як 9.1 і масиви, що включають верхні гучномовці.

Фіг. 2 ілюструє комбінацію даних на основі каналів і об'єктів при генеруванні адаптивного звукового міксу відповідно до одного з варіантів здійснення винаходу. Як показано в процесі 200, дані 202 на основі каналів, які, наприклад, можуть являти собою дані оточуючого звуку 5.1 або 7.1, представлені у формі даних з імпульсно-кодовою модуляцією (РСМ), поєднуються з даними 204 звукових об'єктів, утворюючи адаптивний звуковий мікс 208. Дані 204 звукових об'єктів генеруються шляхом об'єднання елементів оригінальних даних на основі каналів зі зв'язаними метаданими, які вказують деякі параметри, що мають відношення до місця розташування звукових об'єктів.

Як концептуально показано на Фіг. 2, інструментальні засоби авторської розробки забезпечують можливість створення звукових програм, які одночасно містять комбінацію груп каналів гучномовців і об'єктних каналів. Наприклад, звукова програма може містити один або кілька каналів гучномовців, необов'язково, організованих у групи (або доріжки, наприклад стереофонічну доріжку або доріжку 5.1), і описові метадані для одного або декількох каналів гучномовців, один або кілька об'єктних каналів і описові метадані для одного або декількох об'єктних каналів. У межах звукової програми кожна група каналів гучномовців і кожний об'єктний канал можуть бути представленими з використанням однієї або декількох частот дискретизації. Наприклад, програма бідна! Сіпета (О-Сіпета) підтримує частоти дискретизації 48 кГу і 96 кГу, однак також можуть підтримуватися й інші частоти дискретизації. Крім цього також може підтримуватися прийняття, збереження в пам'яті та редагування каналів з різними частотами дискретизації.

Створення звукової програми вимагає етапу звукової сценографії, який включає об'єднання звукових елементів як суми складених звукових елементів з відрегульованими рівнями для створення необхідного нового звукового ефекту.

Інструментальні засоби авторської розробки системи адаптивного звуку дозволяють створювати звукові ефекти як сукупність звукових об'єктів з відносними положеннями, використовуючи просторово-візуальний графічний користувацький інтерфейс звукової сценографії. Наприклад, візуальне відображення об'єкта, що генерує звук (наприклад автомобіля), може використовуватися як шаблон для складання звукових елементів (шум вихлопу, шурхіт шин, шум двигуна), як об'єктні канали, що містять звук і відповідне положення в просторі (біля вихлопної труби, шин і капота). Канали окремих об'єктів можуть потім зв'язуватися та оброблятися як група. Інструментальний засіб 106 авторської розробки містить кілька елементів користувацького інтерфейсу, що дозволяють звукоїнженеру вводити керуючу інформацію та переглядати параметри мікшування, а також удосконалювати функціональні можливості системи. Процес звукової сценографії й авторської розробки також удосконалюється шляхом уможливлення зв'язування та обробки об'єктних каналів і каналів гучномовців як групи. Одним із прикладів є об'єднання об'єктного каналу з дискретним, сухим джерелом звуку з набором каналів гучномовців, які містять зв'язаний реверберований сигнал.

Інструментальний засіб 106 авторської розробки підтримує можливість об'єднання декількох звукових каналів, загальновідому під найменуванням "мікшування". Підтримується безліч способів мікшування, які можуть включати традиційне мікшування на основі рівнів і мікшування на основі гучності. При мікшуванні на основі рівнів до звукових каналів застосовується широкосмугове масштабування, і масштабовані звукові канали потім підсумуються. Коефіцієнти широкосмугового масштабування для кожного каналу вибираються так, щоб вони управляли абсолютним рівнем результуючого мікшованого сигналу, а також відносними рівнями мікшованих каналів у мікшованому сигналі. При мікшуванні на основі гучності один або кілька вхідних сигналів модифікуються з використанням масштабування залежних від частоти амплітуд, де залежна від частоти амплітуда вибирається так, щоб вона забезпечувала необхідну сприйману абсолютну та відносну гучність і, у той же час, зберігала сприйманий тембр вхідного звуку.

Зо Інструментальні засоби авторської розробки допускають можливість створення каналів гучномовців і груп каналів гучномовців. Це дозволяє зв'язувати метадані з кожною із груп каналів гучномовців. Кожна із груп каналів гучномовців може позначатися відповідно до типу вмісту. Тип вмісту поширюється за допомогою текстового опису. Типи вмісту можуть включати як необмежуючі приклади діалог, музику та ефекти. Кожній з груп каналів гучномовців можуть привласнюватися унікальні команди про те, як слід виконувати підвищувальне мікшування з однієї конфігурації каналів в іншу, де підвищувальне мікшування визначається як створення М звукових каналів з М звукових каналів, де М»М. Команди підвищувального мікшування можуть включати як необмежуючі приклади наступні команди: прапор розблокування/блокування, що вказує допустимість підвищувального мікшування; матрицю підвищувального мікшування, призначену для керування присвоюванням між кожним вхідним та вихідним каналами; а розблокування за промовчуванням та установки матриці можуть привласнюватися на основі типу вмісту, наприклад розблокувати підвищувальне мікшування тільки для музики. Кожній із груп каналів гучномовців також можуть привласнюватися унікальні команди про те, яким чином виконувати понижувальне мікшування від однієї конфігурації каналів до іншої, де понижувальне мікшування визначається як створення У звукових каналів з Х звукових каналів, де У»Х.

Команди понижувального мікшування можуть включати як необмежуючі приклади наступні команди: матрицю, призначену для керування присвоюванням між кожним вхідним і вихідним каналами; та настроювання матриці за замовчуванням, які можуть привласнюватися на основі типу вмісту, наприклад діалог повинен зазнавати понижувальне мікшування на екран; ефекти повинні зазнавати понижувальне мікшування за межі екрана. Кожний канал гучномовців також може бути пов'язаний із прапором метаданих, що блокують керування басами в ході представлення даних.

Варіанти здійснення винаходу включають характерну ознаку, яка допускає створення об'єктних каналів і груп об'єктних каналів. Винахід дозволяє зв'язувати метадані з кожної із груп об'єктних каналів. Кожна із груп об'єктних каналів може позначатися відповідно до типу вмісту.

Тип вмісту поширюється за допомогою текстового опису, де типи вмісту можуть включати як необмежуючі приклади діалог, музику та ефекти. Кожній з груп об'єктних каналів можуть привласнюватися метадані для опису того, як слід представляти дані об'єкта (об'єктів).

Інформація положення передбачається для зазначення необхідного положення гаданого бо джерела. Положення може вказуватися з використанням егоцентричної або алоцентричної системи відліку. Егоцентрична система відліку є підходящою тоді, коли положення джерела повинне опиратися на слухача. Для опису положення в егоцентричній системі придатні сферичні координати. Алоцентрична система відліку є типовою системою відліку для кінематографічних або інших аудіовізуальних вистав, де положення джерела вказується відносно таких об'єктів у середовищі представлення, як положення екрана відеомонітора або границі приміщення. Інформація тривимірної (30) траєкторії надається для того, щоб дозволяти інтерполювати положення або для використання інших рішень представлення даних, таких як розблокування "прив'язки до режиму". Інформація розміру представляється для указания необхідного сприйманого розміру гаданого джерела звуку.

Просторове квантування передбачається за допомогою елемента керування "прив'язка до найближчого гучномовця", який вказує задум звукоїнженера або оператора мікшування представити дані об'єкта в точності одним гучномовцем (потенційно жертвуючи просторовою точністю). Межа припустимого просторового викривлення може вказуватися за допомогою граничних значень допусків піднесення та азимута для того, щоб, якщо граничне значення перевищується, функція "прив'язка" не виконувалася. На додаток до граничних значень відстаней може вказуватися параметр швидкості плавного переходу, призначений для контролю над тим, наскільки швидко об'єкт, що рухається, перейде або зробить стрибок з одного гучномовця в іншій, коли необхідне положення перебуває між гучномовцями.

У одному з варіантів здійснення винаходу для деяких метаданих положення використовуються залежні просторові метадані. Наприклад, метадані можуть автоматично генеруватися для "веденого" об'єкта шляхом зв'язування його з "ведучим" об'єктом, за яким повинен слідувати ведений об'єкт. Для веденого об'єкта може задаватися затримка в часі або відносна швидкість. Також можуть передбачатися механізми, що дозволяють визначати акустичний центр ваги для наборів або груп об'єктів для того, щоб дані об'єкта могли представлятися таким чином, щоб він сприймався як такий, що рухається біля іншого об'єкта. У цьому випадку один або кілька об'єктів можуть обертатися навколо деякого об'єкта або певної області як панівної точки або приямку приміщення. Тоді акустичний центр ваги можна було б використовувати на етапі представлення даних для того, щоб сприяти визначенню інформації місця розташування для кожного з звуків на основі об'єктів, навіть якщо остаточна інформація

Зо місця розташування буде виражатися як місце розташування відносно приміщення, на відміну від місця розташування відносно іншого об'єкта.

Коли представляються дані об'єкта, він, відповідно до метаданих положення та місця розташування гучномовців, що програють, привласнюється одному або декільком гучномовцям.

З метою обмеження гучномовців, які могли б використовуватися, з об'єктом можуть зв'язуватися

З5 додаткові метадані. Використання обмежень може забороняти використання зазначених гучномовців або тільки заглушати зазначені гучномовці (допускати в гучномовець або гучномовці менше енергії, ніж могло б застосовуватися). Набори гучномовців, що підлягають обмеженню, можуть включати як необмежуючі приклади які-небудь названі гучномовці або зони гучномовців (наприклад Ї, С, А тощо), або такі зони гучномовців, як передня стіна, задня стіна, ліва стіна, права стіна, стеля, підлога, гучномовці в приміщенні тощо Аналогічно, у ході зазначення необхідного мікшування декількох звукових елементів можна викликати перетворення одного або декількох звукових елементів у нечутні або "замасковані" через присутність інших, "маскувальних", звукових елементів. Наприклад, якщо виявляються "замасковані" звукові елементи, їх можна ідентифікувати за допомогою графічного дисплея.

Як описано в іншому місці, опис звукової програми може адаптуватися для представлення даних на широкому виборі установок гучномовців і конфігурацій каналів. Коли автором розробляється звукова програма, важливо виконувати поточний контроль програми в очікуваних конфігураціях програвання для того, щоб переконатися, що досягаються необхідні результати. Даний винахід включає можливість вибору цільових конфігурацій програвання та здійснення поточного контролю результату. Крім цього, система може автоматично відслідковувати гірший випадок рівнів сигналу (тобто найвищі рівні), які могли б генеруватися в кожній з очікуваних конфігурацій відтворення та передбачати покажчик, якщо буде виникати обрізка або обмеження.

Фіг. З являє собою блок-схему, що ілюструє послідовність операцій створення, упакування та представлення даних адаптивного звукового вмісту відповідно до одного з варіантів здійснення винаходу. Послідовність 300 операцій за Фіг. З розділена на три окремі групи завдань, позначених як створення/авторська розробка, упакування та демонстрація. Загалом, гібридна модель трактів і об'єктів, показана на Фіг. 2, дозволяє виконувати більшість завдань - звукову сценографію, редагування, попереднє мікшування та остаточне мікшування - у такий же 60 спосіб, яким вони виконуються в цей час, без додавання до сучасних процесів надлишкових службових даних. У одному з варіантів здійснення винаходу функціональна можливість адаптації звуку передбачається у формі програмного забезпечення, апаратно-програмного забезпечення або схеми, яка використовується в комбінації з устаткуванням для генерування та обробки звуку, де зазначене устаткування може являти собою нові апаратні системи або модифікації існуючих систем. Наприклад, для робочих станцій цифрового звуку можуть передбачатися модульні застосування, що дозволяють залишати без зміни існуючі методики панорамування в ході звукової сценографії та редагування. Таким чином, можна сформувати як тракти, так і об'єкти для робочої станції в робочій станції 5.1 або аналогічних монтажних, оснащених оточуючими каналами. Метадані об'єктів і звуку записуються в ході сесії з підготовки етапів попереднього та остаточного мікшування в дублюючому кінотеатрі.

Як показано на Фіг. 3, створення або авторська розробка завдань включає введення користувачем, наприклад у нижченаведеному прикладі звукоїнженером, сигналів 302, що управляють, мікшування в мікшерний пульт або звукову робочу станцію 304. У одному з варіантів здійснення винаходу, метадані вбудовуються в поверхню мікшерного пульта, дозволяючи регуляторам настроювання каналів, панорамування та обробки звуку працювати як із трактами або стемами, так і з звуковими об'єктами. Метадані можуть редагуватися з використанням поверхні пульта або користувацького інтерфейсу робочої станції, а поточний контроль звуку здійснюється з використанням модуля 306 представлення даних і остаточної обробки (АМШ). Аудіодані трактів і об'єктів і зв'язані метадані записуються в ході сесії остаточної обробки з метою створення "контрольної копії" яка включає адаптивний звуковий мікс 310 ї будь-які інші кінцеві видавані дані 308 (такі як оточуючий мікс 7.1 або 5.1 для кінотеатрів). Для того, щоб дозволити звукоіїнженерам позначати окремі звукові доріжки в ході сесії мікшування, можуть використовуватися існуючі інструментальні засоби авторської розробки (наприклад такі цифрові звукові робочі станції, як Рго Тооів). Варіанти здійснення винаходу поширюють цю концепцію, дозволяючи користувачам позначати окремі субсегменти в межах доріжки для сприяння пошуку або швидкої ідентифікації звукових елементів.

Користувацький інтерфейс для мікшерного пульта, який дозволяє визначати та створювати метадані, може реалізовуватися через елементи графічного користувацького інтерфейсу, фізичні елементи керування (наприклад повзунки та кнопки) або будь-які їхні комбінації.

Зо На етапі упакування файл контрольної копії поміщається в оболонку з використанням процедур поміщення в оболонку, згідно із промисловим стандартом МХЕ, хешується й, необов'язково, зашифровується для забезпечення цілісності звукового вмісту при доставці до устаткування упакування даних цифрової кінематографії. Даний етап може виконуватися пристроєм 312 обробки даних цифрової кінематографії (ОСР), або будь-яким підходящим пристроєм для обробки звуку, залежно від кінцевого середовища програвання, такого як кінотеатр 318, оснащений стандартним оточуючим звуком, кінотеатр 320, що допускає адаптивний звук, або яке-небудь інше середовище програвання. Як показано на Фіг. 3, пристрій 312 обробки даних виводить відповідні звукові сигнали 314 і 316 залежно від середовища, що демонструє.

У одному з варіантів здійснення винаходу контрольна копія адаптивного звуку містить адаптивний аудіомікс поряд зі стандартним ЮСі-сумісним міксом з імпульсно-кодовою модуляцією (РСМ). Мікс РОМ може представлятися модулем представлення даних і остаточної обробки в дублюючому кінотеатрі або, за бажанням, створюватися окремим прогоном мікшування. Звук РОМ утворює в пристрої 312 обробки даних для цифрової кінематографії файл стандартної основної звукової доріжки, а адаптивний звук утворює файл додаткової доріжки. Зазначений файл доріжки може бути сумісним з існуючими промисловими стандартами та може ігноруватися ЮСІ-сумісними серверами, які не можуть його використовувати.

У одному із прикладів середовища, що програє, для кінематографії ОСР, що містить файл доріжки адаптивного звуку, розпізнається сервером як достовірний пакет і приймається сервером, а потім передається у вигляді потоку в пристрій обробки адаптивних аудіоданих для кінематографії. Система, для якої доступні як лінійний РСМ-, так і адаптивний звукові файли, може за потреби перемикатися між ними. Для поширення на етап демонстрації схема упакування адаптивного звуку допускає доставку в кінотеатр пакетів одного типу. Пакет ОСР містить як файл РОМ, так й адаптивні звукові файли. Для забезпечення захищеної доставки вмісту кінофільму або іншого подібного вмісту може включатися використання ключів захисту, таких як доставка повідомлення, зашифрованого на певному ключі (КОМ).

Як показано на Фіг. 3, методологія адаптивного звуку реалізується шляхом створення для звукоїнженера можливості вираження його задуму відносно представлення даних і програвання звукового вмісту через звукову робочу станцію 304. Керуючи деякими елементами управління бо введення, інженер здатний указувати, де і як програвати звукові об'єкти та звукові елементи залежно від середовища прослуховування. Метадані генеруються у звуковій робочій станції 304 у відповідь на вхідні дані 302 мікшування інженера, забезпечуючи черги на представлення даних, які управляють просторовими параметрами (наприклад положенням, швидкістю, інтенсивністю, тембром тощо) і вказують, який гучномовець (гучномовці) або групи гучномовців у середовищі прослуховування програють відповідні звуки в ході демонстрації. Метадані зв'язуються з відповідними аудіоданими в робочій станції 304 або ВАМИ 306 з метою упакування та передачі за допомогою ЮСР 312.

Графічний користувацький інтерфейс і засоби програмного забезпечення, які забезпечують керування робочою станцією 304 інженером, містять щонайменше частину інструментальних засобів 106 авторської розробки за Фіг. 1.

Гібридний аудіокодек

Як показано на Фіг. 1, система 100 включає гібридний аудіокодек 108. Цей компонент містить систему кодування, поширення та декодування звуку, яка сконфігурована для генерування єдиного бітового потоку, що містить як традиційні звукові елементи на основі каналів, так і елементи кодування звукових об'єктів. Гібридна система кодування звуку вибудовується навколо системи кодування на основі каналів, яка сконфігурована для генерування єдиного (уніфікованого) бітового потоку, який одночасно є сумісним з першим декодером (наприклад може їм декодуватися), сконфігурованим для декодування аудіоданих, кодованих відповідно до першого протоколу кодування (на основі каналів), і один або кілька вторинних декодерів, сконфігурованих для декодування аудіоданих, кодованих відповідно до одного або декількох вторинних протоколів декодування (на основі об'єктів). Бітовий потік може включати як кодовані дані "(у формі пакетів даних), що декодуються першим декодером (і ігноровані кожним із вторинних декодерів), так і кодовані дані (наприклад інші пакети даних), що декодуються одним або декількома вторинними декодерами (і ігноровані першим декодером).

Декодований звук і зв'язана інформація (метадані) з першого та одного або декількох вторинних декодерів можуть потім поєднуватися таким чином, щоб представлення даних як інформації на основі каналів, так і інформації на основі об'єктів відбувалося одночасно для відтворення точної копії середовища, каналів, просторової інформації та об'єктів, представлених у гібридну систему кодування (наприклад у межах тривимірного простору або середовища

Зо прослуховування).

Кодек 108 генерує бітовий потік, що містить інформацію кодованого звуку та інформацію, що належить до декількох наборів положень каналів (гучномовців). У одному з варіантів здійснення винаходу один набір положень каналів фіксується та використовується для протоколу кодування на основі каналів, у той час як інший набір положень каналів є адаптивним і використовується для протоколу кодування на основі звукових об'єктів, і, таким чином, конфігурація каналів для звукового об'єкта може змінюватися залежно від часу (залежно від того, де у звуковому полі розміщається об'єкт). Таким чином, гібридна система кодування звуку може нести інформацію про два набори місць розташування гучномовців для програвання, де один набір може бути фіксованим і являти собою підмножину іншого набору. Пристрої, які підтримують успадковану інформацію кодованого звуку, можуть декодуватися та представляти дані для звукової інформації з фіксованої підмножини, у той час як пристрій, здатний підтримувати більший набір, може декодувати та представляти дані для додаткової інформації кодованого звуку, яка може зі зміною у часі приписуватися різним гучномовцям з більшого набору. Крім цього, система не залежить від першого та одного або декількох вторинних декодерів, одночасно присутніх у системі та/або пристрої. Тому успадкований та/або існуючий пристрій/система, що містить тільки декодер, що підтримує перший протокол, може виводити повністю сумісне звукове поле, дані якого підлягають представленню через традиційні системи відтворення на основі каналів. У цьому випадку невідома або непідтримувана частка (частки) протоколу гібридного бітового потоку (тобто звукова інформація, представлена вторинним протоколом кодування) може ігноруватися системою або пристроєм декодера, що підтримує перший протокол гібридного кодування.

У іншому варіанті здійснення винаходу кодек 108 сконфігурований для роботи в режимі, де перша підсистема кодування (підтримуюча перший протокол) містить комбіноване представлення всієї інформації звукового поля (каналів і об'єктів), що представляється як у першій, так і в одній або декількох вторинних підсистемах кодера, присутніх у гібридному кодері.

Це забезпечує те, що гібридний бітовий потік включає зворотну сумісність із декодерами, що підтримують тільки протокол першої підсистеми кодера, дозволяючи звуковим об'єктам (як правило, таким, що переносяться в одному або декількох вторинних протоколах кодера) бути відображуваними, що й представляються в декодерах, що підтримують тільки перший протокол.

У ще одному варіанті здійснення винаходу кодек 108 включає дві або більшу кількість підсистем кодування, де кожна з цих підсистем сконфігурована для кодування аудіоданих, відповідно до протоколу, що відрізняється, та сконфігурована для об'єднання виводів підсистем з метою генерування гібридного формату (уніфікованого) бітового потоку.

Однією з переваг варіантів здійснення винаходу є можливість переносу гібридного бітового потоку кодованого звуку через широкий вибір систем поширення вмісту, де кожна із систем поширення традиційно підтримує тільки дані, кодовані відповідно до першого протоколу кодування. Це виключає необхідність у модифікації/зміні протоколу будь-якої системи та/або транспортного рівня з метою спеціальної підтримки гібридної системи кодування.

Системи кодування звуку, як правило, використовують стандартизовані елементи бітового потоку, що дозволяють передавати додаткові (довільні) дані усередині самого бітового потоку.

Ці додаткові (довільні) дані, як правило, пропускаються (тобто ігноруються) у ході декодування кодованого звуку, поміщеного в бітовому потоці, але можуть використовуватися з іншими цілями, ніж декодування. Різні стандарти кодування звуку виражають ці додаткові поля даних з використанням унікальної номенклатури. Елементи бітового потоку зазначеного загального типу можуть включати як необмежуючі приклади допоміжні дані, пропущені поля, елементи потоку даних, що заповнюють елементи, службові дані та елементи вкладених потоків даних. Якщо не обумовлене інше, використання виразу "довільні дані" у даному документі не має на увазі певний тип або формат додаткових даних, але, навпаки, його слід інтерпретувати як загальний вираз, який охоплює будь-який або всі приклади, пов'язані з даним винаходом.

Канал даних, забезпечуваний за допомогою "довільних" елементів бітового потоку першого протоколу кодування в комбінованому бітовому потоці гібридної системи кодування, може нести один або декілька вторинних (залежних або незалежних) бітових потоків аудіоданих (кодованих відповідно до одного або декількох вторинних протоколів кодування). Один або кілька вторинних бітових звукових потоків можуть розбиватися на блоки з М дискретних значень і ущільнюватися в поля "допоміжних даних" першого бітового потоку. Перший бітовий потік декодується відповідним (додатковим) декодером. Крім цього, допоміжні дані першого бітового потоку можуть отримуватися та знову поєднуватися в один або кілька вторинних бітових потоків аудіоданих, що декодуються пристроєм обробки даних, що підтримують синтаксис одного або декількох вторинних бітових потоків, а потім спільно або незалежно комбінуватися та представлятися. Крім цього, також можна поміняти ролі першого та другого бітових потоків так, щоб блоки даних першого бітового потоку ущільнювалися в допоміжні дані другого бітового потоку.

Елементи бітового потоку, зв'язані із другим протоколом кодування, також переносять і передають характеристики інформації (метадані), покладеної в їхню основу звуку, які можуть як необмежуючі приклади включати необхідне положення, швидкість і розмір джерела звуку. Ці метадані використовуються в ході процесів декодування та представлення даних для відтворення належного (тобто оригінального) положення зв'язаного звукового об'єкта, що переносяться в застосовному бітовому потоці. Також можна переносити вищеописані метадані, які застосовні до звукових об'єктів, що містяться в одному або декількох вторинних бітових потоках, присутніх у гібридному потоці, в елементах бітового потоку, пов'язаних з першим протоколом кодування.

Елементи бітового потоку, пов'язані з одним, першим або другим, протоколом кодування або з обома протоколами кодування гібридної системи кодування, переносять/передають контекстні метадані, які ідентифікують просторові параметри (наприклад суть властивостей самого сигналу), і додаткову інформацію, що описує тип суті покладеного в її основу звуку у формі спеціальних класів звуку, які переносяться в гібридному бітовому потоці кодованого звуку. Такі метадані можуть указувати, наприклад, на присутність мовного діалогу, музики, діалогу на тлі музики, оплесків, співу тощо і можуть використовуватися для адаптивної модифікації поведінки взаємозалежних модулів попередньої та наступної обробки у висхідному напрямку або в спадному напрямку відносно гібридної системи кодування.

У одному з варіантів здійснення винаходу кодек 108 сконфігурований для роботи зі спільно використовуваним або загальним бітовим пулом, у якому біти, доступні для кодування, "діляться" між усіма або частиною підсистем кодування, що підтримують один або кілька протоколів. Такий кодек може розподіляти доступні біти (із загального, "спільно використовуваного" бітового пулу) між підсистемами кодування з метою оптимізації загальної якості звуку в уніфікованому бітовому потоці. Наприклад, протягом першого проміжку часу кодек може привласнювати більше доступних бітів першій підсистемі кодування і менше доступних бітів - іншим підсистемам, у той час як протягом другого проміжку часу кодек може бо привласнювати менше доступних бітів першій підсистемі кодування і більше доступних бітів -

іншим підсистемам кодування. Рішення про те, яким чином розподіляти біти між підсистемами кодування, може залежати, наприклад, від результатів статистичного аналізу спільно використовуваного бітового пулу та/або від аналізу звукового вмісту, кодованого кожною з підсистем. Кодек може привласнювати біти зі спільно використовуваного пулу таким чином, щоб уніфікований бітовий потік, сконструйований шляхом ущільнення виводів підсистем кодування, зберігав постійну довжину кадру/бітову швидкість передачі даних протягом заданого проміжку часу. Також, у деяких випадках, можлива зміна довжини кадру/бітової швидкості передачі даних протягом заданого проміжку часу.

У альтернативному варіанті здійснення винаходу кодек 108 генерує уніфікований бітовий потік, що включає дані, кодовані відповідно до першого протоколу кодування, конфігуровані та передані як незалежний підпотік потоку кодованих даних (який буде декодуватися декодером, що підтримує перший протокол кодування), а дані, що кодуються у відповідності із другим протоколом, передаються як незалежний або залежний підпотік потоку кодованих даних (потік, який буде ігноруватися декодером, що підтримують перший протокол). У більш загальному розумінні в одному із класів варіантів здійснення винаходу кодек генерує уніфікований бітовий потік, що включає два або більшу кількість незалежних або залежних підпотоків (де кожний підпотік включає дані, кодовані відповідно до ідентичного протоколу кодування або такого, що відрізняється).

У ще одному альтернативному варіанті здійснення винаходу кодек 108 генерує уніфікований бітовий потік, що включає дані, кодовані відповідно до першого протоколу кодування, сконфігуровані та передані з унікальним ідентифікатором бітового потоку (який буде декодуватися декодером, що підтримує перший протокол кодування, пов'язаний з унікальним ідентифікатором бітового потоку), і дані, кодовані відповідно до другого протоколу, сконфігуровані та передані з унікальним ідентифікатором бітового потоку, який декодер, що підтримує перший протокол, буде ігнорувати. У більш загальному розумінні в одному із класів варіантів здійснення винаходу кодек генерує уніфікований бітовий потік, що містить два або більшу кількість підпотоків (де кожний підпотік містить дані, що кодуються відповідно до ідентичного протоколу кодування або такого, що відрізняється, і де кожний підпотік несе унікальний ідентифікатор бітового потоку). Вищеописані способи та системи, призначені для

Зо створення уніфікованого бітового потоку, передбачають можливість передачі (у декодер) недвозначного сигналу про те, яке чергування та/або протокол були використані у гібридному бітовому потоці (наприклад передавати сигнал про те, чи використовуються дані АХ, КІР,

О5Е або описаний підхід на основі підпотоків).

Гібридна система кодування сконфігурована для підтримки усунення чергування/розущільнення та повторного чергування/повторного ущільнення бітових потоків, що підтримують один або кілька вторинних протоколів, у перший бітовий потік (підтримуючий перший протокол) у будь-якій точці обробки всюди в системі доставки мультимедійних даних.

Гібридний кодек також сконфігурований для того, щоб мати здатність кодування вхідних аудіопотоків з різними частотами дискретизації в один бітовий потік. Це створює засоби для ефективного кодування та поширення джерел звукових сигналів, що містять сигнали з різними по своїй суті смугами пропущення. Наприклад, діалогові доріжки звичайно мають суттєво меншу ширину смуги пропускання, ніж доріжки музики та ефектів.

Представлення даних

У одному з варіантів здійснення винаходу система адаптивного звуку допускає упакування декількох (наприклад до 128) доріжок зазвичай як комбінацій трактів і об'єктів. Основний формат аудіоданих для системи адаптивного звуку включає декілька незалежних монофонічних аудіопотоків. Кожний потік містить пов'язані з ним метадані, які вказують, чи є даний потік потоком на основі каналів або потоком на основі об'єктів. Потоки на основі каналів містять інформацію представлення даних, кодовану за допомогою назви або мітки каналу; а потоки на основі об'єктів містять інформацію місця розташування, кодовану через математичні вираження, закодовані в додаткових зв'язаних метаданих. Оригінальні незалежні аудіопотоки потім упаковуються в єдину двійкову послідовність, яка містить усі аудіодані в упорядкованому вигляді.

Така конфігурація адаптивних даних дозволяє представляти дані звуку відповідно до алоцентричної системи відліку, у якій остаточне місце розташування представлення даних звуку грунтується на середовищі програвання так, щоб воно відповідало задуму оператора мікшування. Таким чином, походження звуку може вказуватися в системі відліку приміщення для програвання (наприклад середина лівої стіни), а не з певного позначеного гучномовця або групи гучномовців (наприклад лівої оточуючої). Метадані положення об'єкта містять інформацію бо відповідної алоцентричної системи відліку, необхідну для правильного програвання звуку з використанням положень доступних гучномовців у приміщенні, яке підготовлено для програвання адаптивного звукового вмісту.

Оператор представлення даних ухвалює бітовий потік, що кодує звукові доріжки, і обробляє вміст відповідно до типу сигналу. Тракти подаються на масиви, що потенційно буде вимагати інших затримок і обробки зрівнювання, ніж окремі об'єкти. Процес підтримує представлення даних зазначених трактів і об'єктів у кілька (до 64) вихідних сигналів гучномовців. Фіг. 4 являє собою блок-схему етапу представлення даних системи адаптивного звуку відповідно до одного з варіантів здійснення винаходу. Як показано в системі 400 за Фіг. 4, кілька вхідних сигналів, таких як звукові доріжки в кількості до 128, які включають адаптивні звукові сигнали 402, створюються певними компонентами етапів створення, авторської розробки та упакування системи 300, такими як ВМИ 306 і пристрій 312 обробки даних. Ці сигнали містять тракти на основі каналів і об'єкти, які використовуються оператором 404 представлення даних. Звук на основі каналів (тракти) і об'єкти вводяться в пристрій 406 керування рівнем, який забезпечує керування вихідними рівнями або амплітудами різних звукових складових. Деякі звукові складові можуть оброблятися компонентом 408 корекції масивів. Адаптивні звукові сигнали потім пропускаються через компонент 410 обробки в ланцюгу В, який генерує певну кількість (наприклад до 64) вихідних сигналів, що подаються на гучномовці. Загалом, сигнали ланцюга В належать до сигналів, оброблюваних підсилювачами потужності, роздільниками спектра сигналу та гучномовцями, на відміну від вмісту ланцюга А, який становить звукову доріжку на кіноплівці.

У одному з варіантів здійснення винаходу, оператор 404 представлення даних запускає алгоритм представлення даних, який якнайкраще розумно використовує можливості оточуючих гучномовців у кінотеатрі. Шляхом поліпшення комутації потужності та амплітудно-частотних характеристик оточуючих гучномовців, а також шляхом підтримки однакового опорного рівня поточного контролю для кожного вихідного каналу або гучномовця у кінотеатрі об'єкти, що панорамуються між екранними та оточуючими гучномовцями, можуть зберігати рівень їх звукового тиску та мати більш близьке тембральне узгодження, що важливо, без збільшення загального рівня звукового тиску в кінотеатрі. Масив відповідним чином зазначених оточуючих гучномовців, як правило, буде мати достатній запас за рівнем для відтворення максимального

Зо доступного динамічного діапазону в межах оточуючої звукової доріжки 7.1 або 5.1 (тобто на 20 дБ вище опорного рівня), однак малоймовірно, щоб одиничний оточуючий гучномовець мав такий же запас за рівнем, що й великий багатопозиційний екранний гучномовець. Як результат, імовірні випадки, коли об'єкт, поміщений у навколишнє поле, зажадає більшого звукового тиску, ніж звуковий тиск, досяжний з використанням єдиного оточуючого гучномовця. У цих випадках, оператор представлення даних буде поширювати звук по відповідній кількості гучномовців з метою досягнення необхідного рівня звукового тиску. Система адаптивного звуку поліпшує якість і комутацію потужності оточуючих гучномовців, забезпечуючи поліпшення вірогідності представлення даних. Вона включає підтримку керування басами оточуючих гучномовців через використання необов'язкових задніх наднизькочастотних гучномовців, які дозволяють кожному оточуючому гучномовцю досягати поліпшеної комутації потужності, одночасно потенційно використовуючи корпуси гучномовців меншого розміру. Вона також дозволяє додавати бічні оточуючі гучномовці ближче до екрана, ніж в сучасній практиці, для того, щоб забезпечити плавний перехід об'єктів від екрана до оточення.

Шляхом використання метаданих для зазначення інформації місця розташування звукових об'єктів поряд з певними процесами представлення даних система 400 надає творцям вмісту всебічний, гнучкий спосіб виходу за межі обмежень існуючих систем. Як визначено вище, сучасні системи створюють і поширюють звук, який є фіксованим у місцях розташування певних гучномовців з обмеженими відомостями про тип вмісту, переданого у звуковій суті (у тій частині звуку, яка програється). Система 100 адаптивного звуку включає новий, гібридний підхід, який включає можливості як для звуку, специфічного для місць розташування гучномовців (лівий канал, правий канал тощо), так і для об'єктно-орієнтованих звукових елементів, які містять узагальнену просторову інформацію, яка може як необмежуючі приклади включати місце розташування, розмір і швидкість. Такий гібридний підхід забезпечує збалансований підхід до точності (забезпечуваної фіксованими місцями розташування гучномовців) і гнучкості представлення даних (узагальнені звукові об'єкти). Система також включає додаткову корисну інформацію про звуковий вміст, яку творець вмісту спаровує зі звуковою суттю в момент створення вмісту. Ця інформація забезпечує значну, докладну інформацію про характерні властивості звуку, яка може використовуватися надзвичайно діючими способами в ході представлення даних. Зазначені характерні властивості можуть включати як необмежуючі бо приклади тип вмісту (діалог, музика, ефект, шумовий ефект, фон/навколишнє середовище тощо), характерні властивості в просторі (тривимірне положення, тривимірний розмір, швидкість) і інформацію представлення даних (прив'язку до місця розташування гучномовця, вагові коефіцієнти каналів, коефіцієнт посилення, інформація керування басами тощо).

Система адаптивного звуку, описувана в даному розкритті, включає значну інформацію, яка може використовуватися для представлення даних широко варіювальною кількістю кінцевих точок. У багатьох випадках, застосовувана оптимальна методика представлення даних значною мірою залежить від пристрою в кінцевій точці. Наприклад, системи домашніх кінотеатрів і звукові панелі можуть містити 2, 3, 5, 7 або навіть 9 окремих гучномовців. Системи багатьох інших типів, такі як телевізори, комп'ютери та музичні апаратні модулі містять лише два гучномовці, і майже всі традиційно використовувані пристрої мають бінауральний вихід для навушників (ПК, ноутбук, планшетний комп'ютер, стільниковий телефон, музичний програвач тощо). Однак для традиційного звуку, розповсюджуваного сьогодні (монофонічні, стереофонічні канали, канали 5.1, 7.1), пристрої в кінцевих точках часто потребують прийняття спрощених рішень і компромісів для представлення даних і відтворення звуку, який сьогодні поширюється у формі, специфічної для каналів/гучномовців. Крім цього, є небагато або зовсім немає інформації, переданої відносно фактичного вмісту, який поширюється (діалог, музика, оточення), а також є небагато або зовсім немає інформації про задум творця вмісту для відтворення звуку. Однак система 100 адаптивного звуку надає цю інформацію й, потенційно, доступ до звукових об'єктів, які можуть використовуватися для створення захоплюючого користувацького враження нового покоління.

Система 100 дозволяє творцеві вмісту впроваджувати просторовий задум міксу в бітовому потоці, використовуючи такі метадані, як метадані положення, розміру, швидкості тощо, через унікальні та вагомі метадані та формат передачі адаптивного звуку. Це дозволяє набагато збільшити гнучкість при відтворенні звуку в просторі. З погляду просторового представлення даних адаптивний звук дозволяє адаптувати мікс до точного положення гучномовців у конкретному приміщенні, уникаючи просторового викривлення, яке виникає тоді, коли геометрія системи програвання не ідентична системі авторської розробки. У сучасних системах відтворення звуку, де передається тільки звук для каналу гучномовця, задум творця вмісту невідомий. Система 100 використовує метадані, передані по всьому конвеєру створення та

Зо поширення. Система відтворення, орієнтована на адаптивний звук, може використовувати цю інформацію метаданих для відтворення вмісту тим способом, який узгоджується з оригінальним задумом творця вмісту. Більше того, мікс може адаптуватися до точної конфігурації апаратного забезпечення системи відтворення. Сьогодні у такому устаткуванні для представлення даних, як телевізори, домашні кінотеатри, звукові панелі, переносні апаратні модулі музичних програвачів тощо, існує безліч різних можливих конфігурацій і типів гучномовців. Коли ці системи сьогодні передають специфічну для каналів звукову інформацію (тобто звук лівого та правого каналів або багатоканальний звук), система повинна обробляти звук так, щоб він відповідним чином узгоджувався з можливостями устаткування для представлення даних.

Одним із прикладів є стандартний стереофонічний звук, переданий на звукову панель, що містить більше двох гучномовців. У сучасному звуковідтворенні, де передається тільки звук для каналів гучномовців, задум творця вмісту невідомий. Шляхом використання метаданих, переданих по всьому процесу створення та поширення, система відтворення, орієнтована на адаптивний звук, може використовувати цю інформацію для відтворення вмісту тим способом, який узгоджується з оригінальним задумом творця вмісту. Наприклад, деякі звукові панелі містять бічні додаткові гучномовці, призначені для створення відчуття охвату. Для адаптивного звуку просторова інформація та тип вмісту (такий як ефекти навколишнього середовища) можуть використовуватися звуковою панеллю для передачі на зазначені бічні додаткові гучномовці тільки відповідного звуку.

Система адаптивного звуку допускає необмежену інтерполяцію гучномовців у системі у всіх передніх/задніх, лівих/правих, верхніх/нижніх, близьких/дальніх розмірах. У сучасних системах звуковідтворення не існує інформації про те, яким чином обробляти звук тоді, коли може бути бажано розташувати звук так, щоб він сприймався слухачем як такий, що перебуває між двома гучномовцями. Сьогодні для звуку, який привласнюється тільки певному гучномовцю, уводиться коефіцієнт просторового квантування. У випадку адаптивного звуку, просторове розташування звуку може бути відомо точно, і воно може відповідним чином відтворюватися системою звуковідтворення.

Відносно представлення даних навушниками, задум творця реалізується шляхом приведення передатних функцій, що належать до голови (НАТЕ), у відповідність до положення у просторі. Коли звук відтворюється через навушники, просторова віртуалізація може бо досягатися шляхом застосування передатної функції, що належить до голови, яка обробляє звук, додаючи сприймані властивості, які створюють сприйняття звуку, що програється в тривимірному просторі, а не через навушники. Точність просторового відтворення залежить від вибору підходящої НАТЕ, яка може мінятися на основі декількох факторів, що включають положення в просторі. Використання просторової інформації, що передбачається системою адаптивного звуку, може в результаті приводити до вибору однієї НЕТЕ, або кількості НАТЕ, що постійно змінюється, для того, щоб значно підсилити сприйняття відтворення.

Просторова інформація, передана системою адаптивного звуку, може використовуватися не тільки творцем вмісту для створення захоплюючого розважального враження (від фільму, телевізійної програми, музики тощо), але також просторова інформація також може вказувати, де розташовується слухач відносно таких фізичних об'єктів, як будинки або географічні точки, що представляють інтерес. Це могло б дозволити користувачеві взаємодіяти з віртуалізованим звуковим враженням, яке пов'язане з реальним світом, тобто з додатковою реальністю.

Варіанти здійснення винаходу допускають просторове підвищувальне мікшування шляхом виконання вдосконаленого підвищувального мікшування за допомогою зчитування метаданих тільки в тому випадку, якщо аудіодані об'єктів недоступні. Відомості про положення всіх об'єктів і їх типів дозволяють операторові підвищувального мікшування краще розрізняти елементи в доріжках на основі каналів. Для створення високоякісного підвищувального мікшування з мінімальними чутними викривленнями або з їхньою відсутністю алгоритмам підвищувального мікшування, що існують, доводиться виводити таку інформацію, як тип звукового вмісту (мова, музика, ефекти навколишнього середовища), а також місце розташування різних елементів в аудіопотоці. У багатьох випадках зазначена виведена інформація може виявитися невірною або невідповідною. Для адаптивного звуку додаткова інформація, доступна з метаданих, що належать, наприклад, до типу звукового вмісту, положенню в просторі, швидкості, розміру звукового об'єкта тощо, може використовуватися алгоритмом підвищувального мікшування для створення високоякісного результату відтворення. Система також просторово співвідносить звук ії відеозображення, точно розташовуючи звуковий об'єкт на екрані стосовно видимих елементів. У цьому випадку можливе захоплююче враження від відтворення звуку/відеозображення, особливо, на екранах великого розміру, якщо відтворене місце розташування деяких звукових елементів у просторі відповідає елементам зображення на

Зо екрані. Одним із прикладів є діалог у фільмі або телевізійній програмі, що просторово збігається з людиною або героєм, який говорить на екрані. Для звичайного звуку на основі каналів гучномовців не існує простого способу визначення того, де в просторі повинен розташовуватися діалог для того, щоб він збігався з місцем розташування людини або героя на екрані. Для звукової інформації, доступної через адаптивний звук, таке аудіовізуальне вирівнювання може досягатися. Візуальне позиційне та просторове звукове вирівнювання також може використовуватися для таких нерольових/недіалогових об'єктів, як автомобілі, вантажівки, анімація тощо.

Система 100 сприяє обробці просторового маскування, оскільки відомості про просторовий задум мікшування, доступні через метадані адаптивного звуку, означають, що мікс може бути адаптованим до будь-якої конфігурації гучномовців. Однак, виникає ризик понижувального мікшування об'єктів у такому ж або майже такому ж місці розташування через обмеження системи, що програє. Наприклад, об'єкт, який, як мається на увазі, підлягає панорамуванню в лівий задній канал, може зазнати понижувального мікшування в лівий передній канал, якщо оточуючі канали відсутні, однак якщо, у той же час, у лівому передньому каналі виникає більш голосний елемент, підданий понижувальному мікшуванню об'єкт буде маскуватися та зникати з міксу. З використанням метаданих адаптивного звуку просторове маскування може передбачатися оператором представлення даних, і параметри понижувального мікшування в просторі та/"або по гучності для кожного об'єкта можуть коректуватися так, щоб усі звукові елементи міксу залишалися сприйманими точно так само, як і в оригінальному міксі. Оскільки оператор представлення даних розуміє просторовий взаємозв'язок між міксом і системою програвання, він має можливість "прив'язувати" об'єкти до найближчих гучномовців замість створення паразитного зображення між двома або більшою кількістю гучномовців. Незважаючи на те, що може трохи спотворюватися просторове представлення міксу, це також дозволяє операторові представлення даних уникати ненавмисного паразитного зображення. Наприклад, якщо кутове положення лівого гучномовця на етапі мікшування не відповідає кутовому положенню лівого гучномовця у відтворюючій системі, використання функції прив'язки до найближчого гучномовця може дозволити уникнути відтворення системою, що програє, постійного паразитного зображення лівого каналу етапу мікшування.

Відносно обробки вмісту, система 100 адаптивного звуку дозволяє творцеві вмісту бо створювати окремі звукові об'єкти та додавати інформацію про вміст, яка може передаватися у відтворюючу систему. Це допускає більшу гнучкість при обробці звуку перед відтворенням. З погляду обробки вмісту та представлення даних система адаптивного звуку дозволяє адаптувати обробку до типу об'єкта. Наприклад, діалогове посилення може застосовуватися тільки до діалогових об'єктів. Діалогове посилення належить до способу обробки звуку, який містить діалог, таким чином, щоб чутність та/або розбірливість діалогу підвищувалася та/або поліпшувалася. У багатьох випадках обробка звуку, яка застосовується до діалогу, є невідповідною для недіалогового звукового вмісту (тобто музики, ефектів навколишнього середовища тощо) і в результаті може приводити до небажаних чутних викривлень. Для адаптивного звуку звуковий об'єкт може містити тільки діалог в одному із фрагментів вмісту, і він може відповідним чином позначатися так, щоб рішення представлення даних могло вибірково застосовувати діалогове посилення тільки до діалогового вмісту. Крім цього, якщо звуковий об'єкт являє собою тільки діалог (а не, як часто буває, суміш діалогу та іншого вмісту), то обробка діалогового посилення може обробляти винятково діалог (таким чином, обмежуючи будь-яку обробку, виконувану на будь-якому іншому вмісті). Аналогічно, керування басами (фільтрація, ослаблення, посилення) може бути націлене на певні об'єкти на основі їх типу.

Керування басами належить до вибіркового виділення та обробки тільки басових (або ще більш низьких) частот у певному фрагменті вмісту. У сучасних звукових системах і механізмах доставки цей процес є "сліпим", тобто застосовується до всього звуку. Для адаптивного звуку певні звукові об'єкти, для яких керування басами є підходящим, можуть ідентифікуватися по метаданих, і обробка представлення даних може застосовуватися відповідно.

Система 100 адаптивного звуку також включає стиск динамічного діапазону та вибіркове підвищувальне мікшування на основі об'єктів. Традиційні звукові доріжки мають таку ж тривалість, як і сам вміст, у той час як звуковий об'єкт може з'являтися у вмісті лише протягом обмеженої кількості часу. Метадані, пов'язані з об'єктом, можуть містити інформацію про його середню та пікову амплітуду сигналу, а також про час його появи або час наростання (особливо, для короткочасного матеріалу). Ця інформація могла б дозволяти пристрою стиску краще адаптувати його постійні стиску та часу (наростання, вивільнення тощо) для кращої відповідності вмісту. Для вибіркового підвищувального мікшування творці вмісту можуть вибрати вказівку в бітовому потоці адаптивного звуку на те, чи слід піддавати об'єкт

Зо підвищувальному мікшуванню чи ні. Ця інформація дозволяє операторові представлення даних адаптивного звуку та операторові підвищувального мікшування розрізняти, які звукові елементи можуть безпечно піддаватися підвищувальному мікшуванню, у той же час не порушуючи задум творця.

Варіанти здійснення винаходу також дозволяють системі адаптивного звуку вибирати кращий алгоритм представлення даних з деякої кількості доступних алгоритмів представлення даних та/або форматів оточуючого звуку. Приклади доступних алгоритмів представлення даних включають: бінауральний, стереодипольний, амбіофонічний, синтез хвильового поля (М/Е5), багатоканальне панорамування, неопрацьовані стеми з метаданими положення. Інші алгоритми включають подвійний баланс і амплітудне панорамування на векторній основі.

Бінауральний формат поширення використовує двоканальне представлення звукового поля на основі сигналу, присутнього в лівому та правому вухах. Бінауральна інформація може створюватися за допомогою внутрішньоканального запису або синтезуватися з використанням моделей НЕТЕ. Програвання бінаурального представлення, як правило, здійснюється через навушники або шляхом використання заглушення перехресних перешкод. Програвання через довільну схему гучномовців потребувало б аналізу сигналу для визначення зв'язаного звукового поля та/або джерела (джерел) сигналу.

Стереодіпольний спосіб представлення даних являє собою трансауральний процес заглушення перехресних перешкод для того, щоб зробити бінауральні сигнали придатними для програвання через стереофонічні гучномовці (наприклад на ч- і - 10 градусів від центру).

Амбіофонія являє собою формат поширення та спосіб відтворення, який кодується в чотириканальній формі, що зветься форматом В. Перший канал МУ - це сигнал ненаправленого тиску; другий канал Х - це градієнт спрямованого тиску, що містить передню та задню інформацію; третій канал, М, містить ліво та право, і 7 - верх і низ. Ці канали визначають дискретне значення першого порядку для повного звукового поля в даній точці. Амбіофонія використовує всі доступні гучномовці для відтворення дискретизованого (або синтезованого) звукового поля в межах масиву гучномовців так, щоб, коли деякі з гучномовців штовхають, інші - тягли.

Синтез хвильового поля являє собою спосіб представлення даних для звуковідтворення на основі точної побудови хвильового поля вторинними джерелами. М/Е5 грунтується на принципі бо Гюйгенса та реалізується як масиви гучномовців (десятки або сотні), які оточують кільцем простір прослуховування та скоординованим, сфазованим чином діють для відтворення кожної окремої звукової хвилі.

Багатоканальне панорамування являє собою формат поширення та/або спосіб представлення даних і може йменуватися звуком на основі каналів. У цьому випадку звук відображається як деяка кількість дискретних джерел для програвання через рівну кількість гучномовців, розташованих під певними кутами відносно слухача. Творець вмісту/оператор мікшування може створювати віртуальні зображення шляхом панорамування сигналів між суміжними каналами з метою створення сприйняття напрямку; для створення сприйняття напрямку та властивостей навколишнього середовища у кілька каналів можуть мікшуватися первинні відбиття, реверберація, тощо

Неопрацьовані стеми з метаданими положення являють собою формат поширення, який також може йменуватися звуком на основі об'єктів. У цьому форматі виразні джерела звуку "їз близького мікрофона" представляються поряд з метаданими положення та середовища. Дані віргуальних джерел представляються на основі метаданих устаткування, що програє, і середовища прослуховування.

Формат адаптивного звуку являє собою гібрид формату багатоканального панорамування та формату неопрацьованих стемів. Способом представлення даних у даному варіанті здійснення винаходу є багатоканальне панорамування. Для звукових каналів, представлення даних (панорамування) відбувається в момент авторської розробки, у той час як для об'єктів представлення даних (панорамування) відбувається при програванні.

Метадані та формат передачі адаптивного звуку

Як викладено вище, метадані генеруються на етапі створення з метою кодування певної інформації положення для звукових об'єктів і для супроводу звукової програми з метою сприяння при представленні даних звукової програми й, зокрема, для опису звукової програми способом, який дозволяє представляти дані звукової програми для широкого вибору устаткування, що програє, і середовищ програвання. Метадані генеруються для даної програми та редакторів і операторів мікшування, які створюють, збирають, редагують і обробляють звук у ході компонування. Важливою характерною ознакою формату адаптивного звуку є можливість контролю над тим, яким чином звук буде транслюватися в системи та середовища відтворення,

Зо які відрізняються від середовища мікшування. Зокрема, даний кінотеатр може мати менші можливості, ніж середовище мікшування.

Оператор представлення даних адаптивного звуку націлений на найкраще використання доступного устаткування для відтворення задуму оператора мікшування. Крім цього, інструментальні засоби авторської розробки адаптивного звуку дозволяють операторові мікшування попередньо переглядати та коректувати те, яким чином дані міксу будуть представлятися в різних конфігураціях програвання. Усі значення метаданих можуть обумовлюватися середовищем програвання та конфігурацією гучномовців. Наприклад, на основі конфігурації або режиму програвання для даного звукового елемента може вказуватися інший рівень мікшування. У одному з варіантів здійснення винаходу список обумовлених режимів програвання є розширюваним і включає наступні режими: (1) програвання тільки на основі каналів: 5.1, 7.1, 7.1 (з верхніми), 9.1; та (2) програвання дискретними гучномовцями: тривимірне, двовимірне (без верхніх).

У одному з варіантів здійснення винаходу метадані контролюють або диктують різні особливості адаптивного звукового вмісту і є організованими на основі різних типів, у тому числі: програмні метадані, метадані звуку та метадані представлення даних (для каналів і об'єктів). Кожний тип метаданих включає один або кілька елементів метаданих, які передбачають значення для характеристик, на які посилається ідентифікатор (І0). Фіг. 5 являє собою таблицю, яка перераховує типи метаданих і зв'язані елементи метаданих для системи адаптивного звуку, відповідно до одного з варіантів здійснення винаходу.

Як показано в таблиці 500 за фіг. 5, метадані першого типу являють собою програмні метадані, які включають елементи метаданих, що визначають частоту кадрів, підрахунок доріжок, розширюваний опис каналів і опис етапу мікшування. Елемент метаданих "частота кадрів" описує частоту кадрів звукового вмісту в одиницях кадрів у секунду (Трз). Формат неопрацьованого звуку не вимагає включення кадрування звуку або метаданих, оскільки звук доставляється у вигляді повних доріжок (тривалість котушки або всього кінофільму), а не сегментів звуку (тривалість об'єкта). Неопрацьований формат не вимагає переносу всієї інформації, необхідної для розблокування адаптивного аудіокодера з метою кадрування аудіоданих і метаданих, включаючи фактичну частоту кадрів.

Таблиця 1 показує І0, приклади значень і опис елемента метаданих "частота кадрів".

Таблиця 1 в Значення Опис 2

Покажчик передбачуваної частоти кадрів для всієї програми. Поле може

ЕгатеВаїеє 24,25,30,48,50,60, 96, 100, 120, забезпечувати ефективне кодування розширюваний (кадри/сек.) загальноприйнятих частот, а також можливість розширення до розширюваного поля з рухомою комою та з дозволом 0,01

Елемент метаданих "рахунок доріжок" указує кількість звукових доріжок у кадрі. Один із прикладів декодера/пристрою обробки даних адаптивного звуку може одночасно підтримувати до 128 звукових доріжок, у той час як формат адаптивного звуку буде підтримувати будь-яку кількість звукових доріжок.

Таблиця 2 показує ІО, приклади значень і опис елемента метаданих "рахунок доріжок".

Таблиця 2 в | Значення Опис2

Позитивне ціле число, й й й й пТтаско во Покажчик кількості звукових доріжок у кадрі розширюваний інтервал

Звук на основі каналів може приписуватися нестандартним каналам, і елемент метаданих "опис розширюваних каналів" дозволяє міксам використовувати нові положення каналів. Для кожного каналу розширення повинні створюватися наступні метадані, показані в Таблиці 3.

Таблиця З нини инші Значення Опис 2

ЕхіСпапРозійоп Координати х, у, 7 Положення

ЕхіСнапуміат Координати х, у, 7 Ширина

Елемент метаданих "опис етапу мікшування" визначає частоту, на якій певний гучномовець генерує половину потужності смуги пропущення.

Таблиця 4 показує ІЮО, приклади значень і опис елемента метаданих "опис етапу мікшування", де І Е - - нижня частота, НЕ - верхня частота, точка З дБ - край смуги пропущення гучномовця.

Таблиця 4 нн Значення Опис пМіхвреакегв Позитивне ціле число ннІ"н'нІЮЕХЦНВНННИИИИИИВВВВВВВИ . Координати х, у, 7 для кожного

МіхбреаКегРо5 рд уд гучномовця

Повний діапазон, обмежена ! ЕВ, ПЕ, Бибві, для кожного амплітудно-частотна характеристика

МіхбреакегТур (РВЕ, БМб), д уд рактер гучномовця для І Е, наднизькочастотний гучномовець

Низькочастотна точка З дБ для гучномовців ЕВ і ТЕ, високочастотна точка З дБ для гучномовців ! Позитивне ціле число (Гц) для наднизькочастотних типів. Може

МіхбреаКетзав В (Гу) д д кожного гучномовця використовуватися для приведення у відповідність до можливостей відтворення спектра устаткування етапу мікшування.

(, С, В, 15, В5, 155, Ввв5, Ів, Вів, Мв, Відображення гучномовець - канал.

МіхСпаппвеї! Вів, жодного, інший), для кожного икористовувати жодного для гучномовця гучномовців, які не являються зв'язаними

Відображення гучномовець -» наднизькочастотний канал.

Використовується для зазначення цільового наднизькочастотного гучномовця для керування басами

Список пар (коефіцієнт посилення, кожного гучномовця. Баси кожного номер гучномовця). Коефіцієнт гучномовця можуть управлятися посилення має дійсне значення: 0 - гучномовцем Коефіцієнь повилення.

Мобреакоттмю |Крофіцієнт посилення 2 по, вказує частку сигналу басів, яка 0 « номер гучномовця « повинна проходити в кожний

Міхереакегв-1 наднизькочастотний гучномовець. й р Коефіцієнт посилення - 0, указує кінець списку, і номер гучномовця за цим не слідує. Якщо баси гучномовця не управляються, перше значення коефіцієнта посилення прирівнюється 0. міксу мікшування

МіхбстеєпОїт |х,у, для розмірівекрана(метр)ї | |/ (МіхбстеепРов |х,у, для центруєкрана(метр)ї

Як показано на Фіг. 5, другим типом метаданих є метадані звуку. Кожний звуковий елемент на основі каналів або на основі об'єктів складається зі звукової суті та метаданих. Звукова суть являє собою монофонічний аудіопотік, що переноситься однією або декількома звуковими доріжками. Зв'язані метадані описують те, яким чином зберігається в пам'яті звукова суть (метадані звуку, наприклад частота дискретизації), або те, яким чином повинні представлятися її дані (метадані представлення даних, наприклад необхідне положення джерела звуку).

Загалом, звукові доріжки є безперервними по всій тривалості звукової програми. Редактор програми або оператор мікшування відповідає за приписування звукових елементів доріжкам.

Очікується, що використання доріжок буде розрідженим, тобто середня кількість одночасно використовуваних доріжок може становити лише 16-32. У типовій реалізації звук буде ефективно передаватися з використанням кодера без втрат. Однак можливі альтернативні реалізації, наприклад передача некодованих аудіоданих або аудіоданих, кодованих із втратами.

У типовій реалізації формат складається зі звукових доріжок кількістю до 128, де кожна доріжка має єдину частоту дискретизації і єдину систему кодування. Кожна доріжка триває протягом тривалості фільму (підтримка котушки в явному вигляді відсутня). Присвоювання об'єктів доріжкам (ущільнення в часі) входить в обов'язки творця вмісту (оператора мікшування).

Як показано на Фіг. 3, метадані звуку включають елементи "частота дискретизації", "бітова глибина" і "системи кодування".

Таблиця 5 показує І0, приклади значень і опис елемента метаданих "частота дискретизації".

Таблиця 5 61171111 Значення.//////// | 77771717 Опис

Поле ЗатрієРаїєе буде забезпечувати 16, 24, 32, 44.1,48,88.296,і | ефективне кодування загальноприйнятих затрієВаїе розширювані (х 1000 дискретних) частот, а також можливість розширення до значень/с) розширюваного поля із рухомою комою з дозволом 0,01.

Таблиця 6 показує ІО, приклади значень і опис елемента метаданих "бітова глибина" (для

РСМ і стиску без втрат).

Таблиця 6 по 1111111 |ЇЗначення./////777777777770 (Опис

Покажчик бітової глибини дискретного значення. Дискретні значення будуть

Віберій Позитивне ціле число до 32 залишатися обгрунтованими, якщо бітова глибина менше контейнера (тобто молодших бітів (І 58), заповнених нулями).

Таблиця 7 показує І0, приклади значень і опис елемента метаданих "система кодування".

Таблиця 7 61711111 Значення./////// | 77777777 Опис

Покажчик формату звуку. Кожній звуковій

Содес РОМ, без втрат, розширюваний | доріжці може привласнюватися будь-який з підтримуваних типів кодування. сеямти (ниечняю НЕ . Застосовується до звукових об'єктів і

СтоирМитье" Позитивне ціле число Вид канальних об'єктів, наприклад для зазначення стемів. . Тип звуку. Список повинен бути . ідіалог, музика, ефекти, музика розширюваним і включати наступне:

АцайотТур та ефекти, невизначений, - й інший) невизначений, музика, ефекти, шумові ефекти, оточення, інший. (Ацаотуртх! о |Вільнийтекстовийописї///| 77777772

Як показано на Фіг. 5, метадані третього типу являють собою метадані представлення даних. Метадані представлення даних указують значення, які допомагають операторові представлення даних установлювати відповідність максимально близько до задуму оператора оригінального мікшування незалежно від середовища програвання. Набір елементів метаданих для звуку на основі каналів і звуку на основі об'єктів відрізняється. Перше поле метаданих представлення даних робить вибір між двома типами звуку - звуком на основі каналів і звуком на основі об'єктів, як показано в Таблиці 8.

Таблиця 8 61777171 Значення./.::7/ | /////////////// ЕТАП2///

Указує для кожного звукового елемента, чи

СнапоОгОбі іканал, об'єкт) описується він з використанням метаданих об'єктів або каналів

І00120| Метадані представлення даних для звуку на основі каналів містять елемент метаданих "положення", який указує положення джерела звуку як одне або кілька положень гучномовців.

Таблиця 9 показує І0 і значення елемента метаданих "положення" для випадку на основі каналів.

Таблиця 9 61711111 Значення... | ОписСССсС

Положення джерела звуку вказується як

П, С, В, 15, В5, 155, Вв5, в, одне з набору положень названих

СНнаппе!Роз Вг5, в, Вів, Іс, Ве, Стів, Сів) уЧнОМОВЦіВ. Набір є розширюваним. : інший) " т? " " у" Положення та поширення каналу (каналів) розширення передбачається ЕхіСНапрРоз і

ЕхіСпапууідін.

Метадані представлення даних для звуку на основі каналів також містять елемент "керування представленням даних", який указує деякі характеристики відносно програвання звуку на основі каналів, як показано в Таблиці 10.

Таблиця 10 по 11111111 ф|Значення///////////////// |Опиб/////////////////СССсС розблокувати підвищувальне мікшування

Ї, С, А, 15, Ав, І 55, Н5бз5, І в, - 7 підвищувальне мікшування інший)

Користувацькі матриці понижувального мікшування канальних об'єктів для певних

СнапромлптіхУесі Позитивні дійсні значення «1 | конфігурацій каналів. Список конфігурацій каналів повинен бути розширюваним і включати 5.1 і боїбу Зштоицпа 7.1.

Користувацькі матриці підвищувального мікшування канальних об'єктів для певних

СпапОртіхМесі Позитивні дійсні значення « 1| конфігурацій каналів. Список конфігурацій каналів повинен бути розширюваним і включати 5.1 і боїбу Зштоицпа 7.1.

Покажчик зсуву від екрана до оточення.

Найбільш корисний для коректування

Снап5о5Віав представлення за промовчуванням даних альтернативних режимів програвання 5.1,7.1).

Для звуку на основі об'єктів метадані включають елементи, аналогічні елементам для звуку на основі каналів.

Таблиця 11 представляє ІЮО і значення для елемента метаданих "положення об'єкта".

Положення об'єкта описується одним із трьох способів: тривимірними координатами; площиною та двовимірними координатами; або лінією та одномірною координатою. Спосіб представлення даних може адаптуватися на основі типу інформації положення.

Таблиця 11 00126011 Значення.//// | 77777777 ОписСССсС

З набори координат х, у, 72 для визначення площини, і 1 набір

ОБІРоз20 координат х, у - для Площина «ж двовимірне положення зазначення положення площини 2 набори координат х, у, 2 для Лінія - одномірне місце розташування,

ОБІРОзІ0Ю визначення лінії, т одна або крива я одномірне місце скалярна величина - для сш розташування зазначення положення лінії

Використання екрана як початку відліку.

Інформація положення повинна

ОБіРов бстееп (так, немає) масштабуватися та зміщатися на основі розміру та місця розташування екрана при мікшуванні в порівнянні з екраном для демонстрації.

ІЮО ї значення елементів метаданих "керування представленням метаданих об'єктів" показано в Таблиці 12. Ці величини забезпечують додаткові елементи керування, або оптимізації, представлення даних для звуку на основі об'єктів.

Таблиця 12 26111111 Значення./:.7/// | 77777771 Опис

Ширина функції поширення. Значення 20 указують на те, що слід використовувати більш одного гучномовця. У міру збільшення значення, більша кількість

ОБі бргеаа х або х, у,7, позитивні дійсні гучномовців використовується більшою значення «1 мірою. Поширення вказується як єдине значення, або воно незалежне для кожного виміру. Може використовуватися для плавного панорамування або для створення неоднозначності положення.

Ширина гаданого джерела. Більші

ОБІАБМУ х або х, у, 7, позитивні дійсні | значення вказують більшу ширину значення «1 джерела. Може реалізовуватися через декореляцію.

Прив'язка до найближчого гучномовця.

ОБ) Зпар ітак, немає) Придатний, коли тембр точкового джерела більш важливий, ніж просторова точність.

Овемостеюнтю СГС реж проти до" Бобть Ко пн ! . Позитивне дійсне значення " й " ій -

ОБІ| Зпар Зтооїпіпд режиму "прив'язати до". Робить його більш -10 (у секундах) п" п" близьким до "сковзати до".

Допуск для режиму "прив'язати до": яку ще величину просторової погрішності (для ! Позитивне дійсне значення вище : .

ОБіІзЗпартої -10 нормованої відстані, ширина приміщення 1) допускати перед поверненням до паразитного зображення.

рег: вибір оператора диаїІбаІапсе: спосіб

Боівру мБрар: амплітудне панорамування на векторній основі драр: амплітудне панорамування на основі

ОБіВепоад (тої, сна раталсе, мбар, абар, відстані шо ; ІО, інший) 20: у комбінації з ОБіРоз20О, використовувати убрар тільки із трьома положеннями (віртуальних) джерел І: у комбінації з ОБІРОзіО, використовувати попарне панорамування між двома положеннями (віртуальних) джерел

Ступінь внеску якої-небудь із зон названих гучномовців. Підтримувані зони ! ці кош, гучномовців включають: І, С, В, І 55, Н55,

ОБ|7опезРозійме Позитивні дійсні значення «1 І тв, Вгв, Ів, Вів, Іс, Ве. Список зон гучномовців повинен бути розширюваним для підтримки нових зон у майбутньому.

Рівень альтернативного звукового об'єкта для певних конфігурацій каналів. Список конфігурацій каналів повинен бути ! у. розширюваним і включати 5.1 і ОоІру

ОБ) І емеї Позитивні дійсні значення х2 ЗШштоицпа 7.1. Об'єкт може послаблятися або повністю виключатися у разі представлення даних в менших конфігураціях каналів.

Покажчик зсуву між екраном і приміщенням. Найбільш корисний для коректування представлення даних за замовчуванням для альтернативних режимів програвання (5.1, 7.1). с. Уважається "необов'язковим", оскільки ця

ОБ/|55Біа5 характерна ознака може не вимагати додаткових метаданих - інші дані представлення даних можуть модифікуватися безпосередньо (наприклад траєкторія панорамування, матриця понижувального мікшування).

У одному з варіантів здійснення винаходу метадані, описані вище та проілюстровані на Фіг. 5, генеруються та зберігаються як один або кілька файлів, які зв'язуються або індексуються з відповідним звуковим вмістом так, щоб аудіопотоки оброблялися системою адаптивного звуку, що інтерпретує метадані, що генеруються оператором мікшування. Слід зазначити, що вищеописані метадані являють собою один із прикладів набору ідентифікаторів ІО, значень і визначень, і для використання в системі адаптивного звуку в них можуть включатися інші або додаткові елементи метаданих.

У одному з варіантів здійснення винаходу з кожним з аудіопотоків на основі каналів і на основі об'єктів зв'язується два (або більше) набори елементів метаданих. Перший набір метаданих застосовується до ряду аудіопотоків для перших умов середовища програвання, і другий набір метаданих застосовується до ряду аудіопотоків для других умов середовища програвання. Другий або наступний набір елементів метаданих заміщає перший набір елементів метаданих для даного аудіопотоку на основі умов середовища програвання. Умови можуть включати такі фактори, як розмір приміщення, форму, склад матеріалу усередині приміщення, поточну заповненість та густоту людей у приміщенні, характеристики оточуючого шуму, характеристики оточуючого світла і які-небудь інші фактори, які можуть впливати на звук або навіть на настрій у середовищі програвання.

Компонування та остаточна обробка

Етап 110 представлення даних системи 100 обробки адаптивного звуку може включати етапи компонування аудіозапису, які приводять до створення кінцевого міксу. У одному з кінематографічних застосувань трьома основними категоріями звуку, використовуваного при мікшуванні звукозапису для кінофільму, є діалог, музика та ефекти. Ефекти складаються зі звуків, які не є діалогом або музикою (наприклад шум, що оточує, фоновий/постановочний шум).

Звукові ефекти можуть записуватися, або синтезуватися, звукорежисером, або вони можуть братися з бібліотек ефектів. Одна з підгруп ефектів, які включають спеціальні джерела шуму (наприклад звуки кроків, дверей тощо), відома як шумові ефекти та здійснюється звукооформлювачами. Звуки різних типів відповідним чином позначаються та панорамуються звукорежисерами.

Фіг. б ілюструє приклад послідовності операцій процесу компонування в системі адаптивного, звуку відповідно до одного з варіантів здійснення винаходу. Як показано на схемі 600, усі окремі звукові складові музики, діалогу, шумових ефектів і ефектів зводяться разом у дублюючому кінотеатрі в ході остаточного мікшування 606, і засіб (засоби) 604 мікшування при перезаписі використовують попередні мікси (також відомі як "мікшований мінус") поряд з окремими звуковими об'єктами та позиційними даними для створення стемів як способу групування, наприклад діалогу, музики, ефектів, шумових ефектів і фонових звуків. На додаток до формування кінцевого міксу 606 музика та усі стеми ефектів можуть використовуватися як основа для створення версій фільму, дубльованих на інших мовах. Кожний стем складається із тракту на основі каналів і з декількох звукових об'єктів з метаданими. Для формування кінцевого міксу, стеми поєднують. Використовуючи інформацію панорамування об'єктів як зі звукової робочої станції, так і з мікшерного пульта, блок 608 представлення даних і остаточної обробки представляє дані звуку в місця розташування гучномовців у дублюючому кінотеатрі. Це представлення даних дозволяє операторам мікшування чути, як сполучаються тракти на основі каналів і звукові об'єкти, а також дає можливість представити дані в різних конфігураціях.

Оператор мікшування може використовувати умовні метадані, які для значимих профілів є даними за замовчуванням, з метою контролю над тим, яким чином дані вмісту представляються в оточуючі канали. Таким чином, оператори мікшування повністю зберігають контроль над тим, як програється кінофільм у всіх масштабованих середовищах. Після кожного з етапів 604 перезапису та етапу 606 остаточного мікшування, або після обох цих етапів, може включатися етап поточного контролю, що дозволяє операторові мікшування прослухати та оцінити

Зо проміжний вміст, що генерується в ході кожного із цих етапів.

У ході сесії остаточної обробки указані стеми, об'єкти та метадані зводяться разом у пакеті 614 адаптивного звуку, який виготовляється оператором 610 контрольної копії. Цей пакет також містить зворотно-сумісний (з успадкованими 5.1 або 7.1) мікс 612 оточуючого звуку для кінотеатрів. Модуль 608 представлення даних/остаточної обробки (ВАМИ) може, якщо буде потреба, представляти дані цього вихідного сигналу, таким чином, виключаючи необхідність в яких-небудь додаткових етапах послідовності операцій при генеруванні існуючих видаваних даних на основі каналів. В одному з варіантів здійснення винаходу звукові файли упаковуються шляхом поміщення в стандартну оболонку матеріального комунікативного формату (МХЕ).

Головний файл адаптивного звукового міксу також може використовуватися для генерування інших видаваних даних, таких як користувацькі багатоканальні або стереофонічні мікси. Розумні профілі та умовні метадані допускають керовані представлення даних, які можуть значно скорочувати час, необхідний для створення таких міксів.

У одному з варіантів здійснення винаходу система упакування може використовуватися для створення пакета цифрової фільмокопії для видаваних даних, що включають адаптивний звуковий мікс. Файли звукових доріжок можуть зчіплюватися разом, перешкоджаючи помилкам синхронізації з файлами доріжок адаптивного звуку. Деякі країни вимагають додавання файлів доріжок у ході етапу упакування, наприклад додавання доріжок для осіб з обмеженим слухом (НІ) або доріжок опису для осіб з обмеженим зором (МІ-М) до головного файлу звукових доріжок.

У одному з варіантів здійснення винаходу масив гучномовців у середовищі програвання може включати будь-яку кількість гучномовців оточуючого звуку, розміщених і позначених у відповідності до стандартів оточуючого звуку. Будь-яка кількість додаткових гучномовців для точного представлення даних звукового вмісту на основі об'єктів також може розміщатися на основі умов середовища програвання. Ці додаткові гучномовці можуть установлюватися звукоінженером, і дане встановлення представляється системі у формі установчого файлу, який використовується системою для представлення в певний гучномовець або гучномовці у межах загального масиву гучномовців складових адаптивного звуку на основі об'єктів. Зазначений установчий файл містить щонайменше список позначень гучномовців і присвоювання каналів окремим гучномовцям, інформацію відносно групування гучномовців і динамічного присвоювання на основі відносного положення гучномовців у середовищі програвання. бо Зазначений час виконання відображення використовується характерною ознакою "прив'язка до"

у системі, яка представляє дані звукового вмісту точкових джерел на основі об'єктів у певний гучномовець, який за задумом звукоїнженера є найближчим до сприйманого місця розташування звуку.

Фіг. 7 являє собою схему одного із прикладів послідовності операцій процесу упакування цифрової фільмокопії з використанням файлів адаптивного звуку відповідно до одного з варіантів здійснення винаходу. Як показано на схемі 700, звукові файли, що включають як файли адаптивного звуку, так і звукові файли оточуючого звуку 5.1 або 7.1, уводяться в блок 704 поміщення в оболонку/шифрування. В одному з варіантів здійснення винаходу при створенні пакета цифрової фільмокопії в блоці 706, файл РОМ МХЕ (із прикладеними відповідними додатковими доріжками) зашифровується з використанням технічних умов

ЗМРТЕ, відповідно до існуючої практики. МХЕ адаптивного звуку впаковується як файл допоміжної доріжки й, необов'язково, зашифровується за допомогою технічних умов 5МРТЕ з використанням симетричного ключа керування вмістом. Цей єдиний ЮСР 708 може потім доставлятися будь-якому серверу, сумісному з вимогами організації Оідйа! Сіпета Іпйаїймев5 (ОСІ). Загалом, будь-які установки, які не оснащені належним чином, будуть просто ігнорувати файл додаткової доріжки, що містить звукову доріжку адаптивного звуку, і буде використовувати існуючий файл головної звукової доріжки для стандартного програвання. Установки, оснащені відповідними пристроями обробки даних адаптивного звуку, будуть здатні приймати та відтворювати звукову доріжку адаптивного звуку там, де це застосовується, за потреби вертаючись до стандартної звукової доріжки.

Компонент 704 поміщення в оболонку/шифрування також може доставляти вхідний сигнал безпосередньо в блок 710 поширення КОМ з метою генерування відповідного ключа захисту для використання в сервері цифрового кінотеатру. Інші елементи фільму або файли, такі як субтитри 714 і зображення 716, можуть розміщуватися в оболонці та зашифровуватися поряд з аудіофайлами 702. У цьому випадку можуть включатися деякі етапи обробки, такі як стиск 712 у випадку файлів 716 зображень.

Відносно керування вмістом, система 100 адаптивного звуку дозволяє творцеві вмісту створювати окремі звукові об'єкти та додавати інформацію про вміст, який повинен передаватися у відтворюючу систему. Це дозволяє значно збільшити гнучкість при керуванні

Зо звуковим вмістом. З погляду керування вмістом способи адаптивного звуку роблять можливими кілька характерних ознак. Ці ознаки включають зміну мови вмісту лише шляхом заміщення діалогового об'єкта для економії місця, ефективності скачування, географічної адаптації програвання тощо. Фільми, телевізійні та інші розважальні програми, як правило, поширюються по усьому світу. Це часто вимагає, щоб мова фрагмента вмісту мінялася залежно від того, де він буде відтворюватися (французький - для фільмів, що демонструються у Франції, німецький - для ТВ програм, які йдуть у Німеччині). Сьогодні це часто вимагає створення, упакування та поширення повністю незалежної звукової доріжки. У випадку адаптивного звуку і його невід'ємної концепції звукових об'єктів діалог для фрагмента вмісту може являти собою незалежний звуковий об'єкт. Це дозволяє легко міняти мову вмісту без відновлення або зміни інших елементів звукової доріжки, таких як музика, ефекти тощо Це може застосовуватися не тільки для іноземних мов, але також для мови, невідповідної для деяких глядачів (наприклад телевізійні програми для дітей, фільми для показу в літаках тощо), цільової реклами тощо.

Міркування відносно встановлення та устаткування

Формат файлу адаптивного звуку та зв'язані пристрої обробки даних допускають зміни в встановленні, калібруванні та обслуговуванні устаткування кінотеатру. При введенні набагато більшої кількості потенційних вихідних сигналів гучномовців, кожний з яких коректується та балансується окремо, існує потреба в розумній і оперативній автоматичній корекції амплітудно- частотної характеристики приміщення, яка може здійснюватися через можливість ручного регулювання якої-небудь автоматичної корекції амплітудно-частотної характеристики приміщення. У одному з варіантів здійснення винаходу система адаптивного звуку використовує оптимізований засіб частотної корекції з 1/12-октавною смугою частот. Для більш точного балансу звуку в кінотеатрі може оброблятися до 64 вихідних сигналів. Система також допускає плановий контроль вихідних сигналів окремих гучномовців від виводу пристрою обробки даних для кінематографії аж до звуку, відтвореного в залі для глядачів. Для гарантії того, що розпочалася відповідна дія, можуть створюватися локальні або мережні попередження. Гнучка система представлення даних може автоматично видаляти ушкоджений гучномовець або підсилювач із ланцюга відтворення та представляти дані в обхід його, роблячи можливим продовження показу.

Пристрій обробки даних для кінематографії може бути підключений до сервера цифрового бо кінотеатру через існуючі головні звукові рознімачі 8хАЕ5 і підключення до мережі ЕШПегпеї для потокових даних адаптивного звуку. Програвання оточуючого вмісту 7.1 або 5.1 використовує існуючі з'єднання РСМ. Потік даних адаптивного звуку передається по мережі ЕїПегпеї у пристрій обробки даних для кінематографії з метою декодування та представлення даних, а зв'язок між сервером і пристроєм обробки даних для кінематографії дозволяє ідентифікувати та синхронізувати звук. У випадку якої-небудь проблеми із програванням доріжки адаптивного звуку, звук вертається назад до звуку РОМ для роіру Зйитоишпа 7.1 або 5.1.

Незважаючи на те, що варіанти здійснення винаходу були описані відносно систем оточуючого звуку 5.1 і 7.1, слід ураховувати, що в комбінації із зазначеними варіантами здійснення винаходу може використовуватися багато інших сучасних та майбутніх конфігурацій оточуючого звуку, у тому числі 9.1, 11.1 ї 13.1 і далі.

Система адаптивного звуку розрахована як на творців вмісту, так і на кінопрокатників для ухвалення рішення про те, яким чином повинні представлятися дані в різних конфігураціях гучномовців, що програють. Ідеальна використовувана кількість вихідних каналів гучномовців буде змінюватися відповідно до розміру приміщення. Рекомендоване розташування гучномовців, таким чином, залежить від безлічі факторів, таких як розмір, склад, конфігурація посадкових місць, середовище, середні розміри залів для глядачів тощо. Приклади або зразки конфігурацій і схем розташування гучномовців представлені в даному розкритті лише з метою ілюстрації та не призначені для обмеження обсягу жодного із заявлених варіантів здійснення винаходу.

Рекомендована схема розташування гучномовців для системи адаптивного звуку залишається сумісною з існуючими системами для кінематографії, що є життєво важливим для того, щоб не компрометувати програвання існуючих форматів 5.1 і 7.1 на основі каналів. Для того, щоб зберегти задум звукоїнженера адаптивного звукозапису та задум операторів мікшування вмісту 7.1 і 5.1, положення існуючих екранних каналів не повинні надто радикально змінюватися в спробі підсилити або підкреслити уведення нових місць розташування гучномовців. На відміну від використання всіх доступних 64 вихідних каналів, дані формату адаптивного звуку можуть точно представлятися в кінотеатрі в такі конфігурації гучномовців, як 7.1, що навіть дозволяє використовувати цей формат (і пов'язані з ним переваги) в існуючих кінотеатрах без внесення змін у підсилювачі або гучномовці.

Зо Залежно від конструкції кінотеатру різні місця розташування гучномовців можуть мати різну ефективність, тому на даний момент відсутня обумовлена галузевими технічними умовами ідеальна кількість або розташування каналів. Адаптивний звук, як передбачається, є по- справжньому таким, що адаптується, і здатний точно програватися в різних залах для глядачів, незалежно від того, чи мають вони обмежену кількість каналів, що програють, або багато каналів з дуже гнучкими конфігураціями.

Фіг. 8 являє собою вигляд 800 зверху одного із прикладів схеми розташування припустимих місць розташування гучномовців для використання із системою адаптивного звуку по типовому алгоритму, і Фіг. 9У являє собою вигляд 900 спереду зазначеного прикладу схеми розташування припустимих місць розташування гучномовців на екрані залу для глядачів. Вихідне положення, що є переважним у цьому випадку, відповідає положенню 2/3 відстані назад від екрана до задньої стіни на середній лінії екрана. Стандартні екранні гучномовці 801 показані в їхніх звичайних положеннях відносно екрана. Вивчення сприйняття піднесення площини екрана показало, що додаткові гучномовці 804 за екраном, такі як лівий центральний (Іс) і правий центральний (Не) екранні гучномовці (у місцях розташування лівого додаткового та правого додаткового каналів у форматах плівки 70 мм), можуть виявитися корисними при створенні більш плавного панорамування через екран. Тому зазначені необов'язкові гучномовці є рекомендованими, особливо в залах для глядачів з екранами шириною більш 12 м (40 футів).

Усі екранні гучномовці повинні розташовуватися під кутом для того, щоб вони були націлені в напрямку вихідного положення. Рекомендоване розміщення наднизькочастотного гучномовця 810 за екраном повинне залишатися незмінним, включаючи збереження асиметричного розміщення корпусу відносно центру приміщення, щоб уникнути порушення стоячих хвиль. У задній частині кінотеатру можуть розташовуватися додаткові наднизькочастотні гучномовці 816.

Оточуючі гучномовці 802 повинні окремо з'єднуватися проводами із задньою частиною стійки підсилювачів і повинні, там, де це можливо, окремо підсилюватися призначеним каналом посилення потужності, відповідним до комутовної потужності гучномовця, відповідно до технічного паспорта. У ідеальному випадку оточуючі гучномовці повинні визначатися технічними умовами для обробки підвищеного 5РІ для кожного окремого гучномовця, а також, там, де це можливо, для більш широкої амплітудно-частотної характеристики. Як показує практика, для кінотеатру середнього розміру інтервал між оточуючими гучномовцями повинен знаходитися в бо межах 2-3 м (б футів б дюймів - 9 футів 9 дюймів), де лівий і правий оточуючі гучномовці розміщаються симетрично. Однак вважається, що, на противагу використанню абсолютних відстаней між гучномовцями, інтервал між оточуючими гучномовцями є найбільш ефективним під кутами, що стягаються від даного слухача між суміжними гучномовцями. Для оптимального програвання всюди в залі для глядачів кутова відстань між суміжними гучномовцями повинна становити 30 градусів або менше при відліку від кожного із чотирьох кутів основної області прослуховування. Гарні результати можуть досягатися при інтервалі до 50 градусів. Для кожної зони гучномовців, там, де це можливо, гучномовці повинні зберігати рівний лінійний інтервал поблизу зони посадкових місць. Лінійний інтервал за межами області прослуховування, наприклад між переднім рядом і екраном, може бути трохи більшим. Фіг. 11 являє собою один із прикладів розташування верхніх оточуючих гучномовців 808 і бічних оточуючих гучномовців 806 відносно вихідного положення відповідно до одного з варіантів здійснення винаходу.

Додаткові бічні оточуючі гучномовці 806 повинні монтуватися ближче до екрана, ніж рекомендується на практиці сьогодні - починаючи приблизно з однієї третини відстані до задньої частини залу для глядачів. У ході програвання звукових доріжок боїЇру Зштоишпа 7.1 або 5.1 ці гучномовці не використовуються як бічні оточуючі, але дозволяють здійснювати плавний перехід і краще тембральне узгодження при панорамуванні об'єктів від екранних гучномовців до оточуючих зон. Для максимального посилення відчуття простору оточуючі масиви слід розташовувати так само низько, як і використовувані на практиці, піддаючи їх наступним обмеженням: вертикальне розміщення оточуючих гучномовців у передній частині масиву повинне бути досить близьким до висоти акустичного центру екранного гучномовця та достатньо високим для збереження гарного охвату через зону посадкових місць відповідно до спрямованості гучномовця. Вертикальне розміщення оточуючих гучномовців повинне бути таким, щоб вони утворювали пряму лінію спереду назад і (як правило) були нахилені вгору так, щоб відносне піднесення оточуючих гучномовців над слухачами зберігалося в напрямку задньої частини кінотеатру в міру того, як збільшується піднесення посадкових місць, як показано на

Фіг. 10, яка являє собою вигляд збоку одного із прикладів схеми розташування передбачуваних місць розташування гучномовців для використання із системою адаптивного звуку в типовому залі для глядачів. На практиці цього найпростіше досягти, вибираючи піднесення для самого переднього та самого заднього бічних оточуючих гучномовців і розміщуючи інші гучномовці на

Зо лінії між цими точками.

З метою забезпечення оптимального охвату для кожного гучномовця по всій зоні посадкових місць бічні оточуючі гучномовці 806, задні гучномовці 816 і верхні оточуючі гучномовці 808 повинні бути націлені в напрямку положення початку відліку в кінотеатрі відповідно до певних керівних принципів відносно інтервалу, положення, кута тощо.

Варіанти здійснення системи та формату адаптивного звуку для кінематографії досягають підвищених рівнів ефекту присутності та залучення залу для глядачів у порівнянні із сучасними системами, пропонуючи нові потужні інструментальні засоби авторської розробки для операторів мікшування та новий пристрій обробки даних для кінематографії, які відрізняються гнучким засобом представлення даних, який оптимізує якість звуку та оточуючі ефекти звукової доріжки для кожної схеми розміщення та характеристик гучномовців у приміщенні. Крім цього, система зберігає зворотну сумісність і мінімізує вплив на сучасні послідовності операцій виробництва та поширення.

Незважаючи на те, що варіанти здійснення винаходу були описані відносно прикладів і реалізацій у кінематографічному середовищі, де адаптивний звуковий вміст пов'язаний зі змістом фільму з метою використання в системах обробки даних для цифрової кінематографії, слід зазначити, що варіанти здійснення винаходу також можуть реалізовуватися в некінематографічних середовищах. Адаптивний звуковий вміст, що включає звук на основі об'єктів і звук на основі каналів, може використовуватися в комбінації з яким-небудь зв'язаним вмістом (зв'язаної аудіозаписом, відеозаписом, графікою тощо), або він може становити автономний звуковий вміст. Середовище програвання може являти собою будь-яке середовище від навушників або моніторів у близькій зоні до малих і більших приміщень, автомобілів, відкритих майданчиків, концертних залів тощо.

Особливості системи 100 можуть реалізовуватися в підходящому мережному середовищі обробки звуку на комп'ютерній основі, призначеному для обробки файлів цифрового або оцифрованого звуку. Частини системи адаптивного звуку можуть включати одну або кілька мереж, які містять будь-яку необхідну кількість окремих машин, у тому числі один або кілька маршрутизаторів (не показані), які служать для буферування та перенаправления даних, переданих між комп'ютерами. Така мережа може бути побудована на різних мережних протоколах і може являти собою інтернет, глобальну мережу (МАМ), локальну мережу (ГАМ) бо або будь-яку їхню комбінацію. В одному з варіантів здійснення винаходу, де мережа включає інтернет, одна або кілька машин можуть бути сконфігурованими для доступу в інтернет через програми-навігатори.

Один або кілька компонентів, блоків, процесів або інших функціональних складових можуть реалізовуватися через комп'ютерну програму, яка контролює виконання обчислювальним пристроєм системи на основі процесора. Також слід зазначити, що різні функції, розкриті в даному описі, можуть описуватися з використанням будь-якої кількості комбінацій апаратного забезпечення, програмно-апаратного забезпечення та/або як дані, та/або як команди, втілені в різних машинопрочитуваних носіях даних, або носіях даних, що читаються комп'ютером, виходячи з характеристик їх поведінки, регістрового пересилання, логічних компонентів і ін.

Носії даних, що читаються комп'ютером, у яких можуть втілюватися зазначені форматовані дані та/або команди, включають як необмежуючі приклади фізичні (постійні), енергонезалежні носії даних у різних формах, такі як оптичні, магнітні або напівпровідникові носії даних.

Якщо контекст явно не вимагає іншого, усюди в даному описі та формулі винаходу, слова "містити", "що містить" тощо слід тлумачити в сенсі, що включає, на противагу від сенсу, що виключає або що вичерпує; тобто в сенсі "що включає як необмежуючий приклад". Слова, що використовують форму єдиного або множинного числа, також відповідно включають форму множинного або єдиного числа. Крім цього, вирази "у даному розкритті", "відповідно до даного розкриття", "вище", "нижче" і схожі за змістом слова належать до даної заявки в цілому, а не тільки до яких-небудь частин даної заявки. Коли слово "або" використовується з посиланням на список із двох або більшої кількості елементів, це слово охоплює всі наступні інтерпретації слова: будь-який з елементів у списку, усі елементи в списку, усі елементи в списку та будь-яку комбінацію елементів у списку.

Незважаючи на те, що одна або кілька реалізацій були описані за допомогою прикладів і виходячи з конкретних варіантів здійснення винаходу, слід розуміти, що одна або кілька реалізацій не обмежуються розкритими варіантами здійснення винаходу. Навпаки, вони призначені для охвату різних модифікацій і подібних схем, що повинно бути очевидно для фахівців у даній області. Тому обсяг прикладеної формули винаходу повинен відповідати найбільш широкій інтерпретації для того, щоб він охоплював усі такі модифікації в подібних схемах.

Коо)

Claims

ФОРМУЛА ВИНАХОДУ

1. Система, призначена для обробки звукових сигналів, яка містить компонент авторської розробки, сконфігурований для: прийняття ряду звукових сигналів; генерування адаптивного звукового міксу, що містить ряд монофонічних аудіопотоків і метаданих, що пов'язані з кожним з аудіопотоків і що визначають місце розташування програвання відповідного монофонічного аудіопотоку, при цьому щонайменше деякі з ряду монофонічних аудіопотоків ідентифікуються як звук на основі каналів та інші з ряду монофонічних аудіопотоків ідентифікуються як звук на основі об'єктів, і при цьому місце розташування програвання монофонічного аудіопотоку на основі каналів містить позначення гучномовця в масиві гучномовців, і місце розташування програвання монофонічного аудіопотоку на основі об'єктів містить місце розташування в тривимірному просторі, і при цьому кожний монофонічний аудіопотік на основі об'єктів представлений в щонайменше одному певному гучномовці масиву гучномовців; і розміщення ряду монофонічних аудіопотоків і метаданих усередині бітового потоку для передачі в систему представлення даних, сконфігуровану для представлення ряду монофонічних аудіопотоків у ряд сигналів, що подаються на гучномовець, що відповідають гучномовцям у середовищі програвання, при цьому гучномовці масиву гучномовців розміщено у певних положеннях у межах середовища програвання, і при цьому елементи метаданих, пов'язані з кожним відповідним монофонічним аудіопотоком на основі об'єктів, визначають, чи є одна або декілька складових звуку представленими у сигнал, що подають на гучномовець, для програвання через гучномовець, найближчий до присвоєного місця розташування програвання складової звуку, так що відповідний монофонічний аудіопотік на основі об'єктів ефективно представлений гучномовцем, найближчим до присвоєного місця розташування програвання.

2. Система за п. 1, яка відрізняється тим, що компонент авторської розробки містить мікшерний пульт, що має елементи керування, що приводяться в дію користувачем, для визначення рівнів програвання ряду монофонічних аудіопотоків, і при цьому елементи метаданих, пов'язані з кожним відповідним потоком на основі об'єктів, автоматично генеруються бо при введенні користувачем керуючих сигналів у мікшерний пульт. Зо

3. Система за п. 1 або п. 2, яка відрізняється тим, що додатково містить кодер, пов'язаний з компонентом авторської розробки і сконфігурований для прийняття ряду монофонічних аудіопотоків і метаданих і для генерування єдиного цифрового бітового потоку, що упорядкованим чином містить ряд монофонічних аудіопотоків.

4. Система, призначена для обробки звукових сигналів, яка містить систему представлення даних, сконфігуровану для: прийняття бітового потоку, усередині якого розміщено адаптивний звуковий мікс, що містить ряд монофонічних аудіопотоків і метаданих, що пов'язані з кожним з аудіопотоків і що визначають місце розташування програвання відповідного монофонічного аудіопотоку, при цьому щонайменше деякі з ряду монофонічних аудіопотоків ідентифікуються як звук на основі каналів та інші з ряду монофонічних аудіопотоків ідентифікуються як звук на основі об'єктів, і при цьому місце розташування програвання монофонічного аудіопотоку на основі каналів містить позначення гучномовця в масиві гучномовців, а місце розташування програвання монофонічного аудіопотоку на основі об'єктів містить місце розташування в тривимірному просторі, і при цьому кожний монофонічний аудіопотік на основі об'єктів представлений в щонайменше одному певному гучномовці масиву гучномовців; і представлення ряду монофонічних аудіопотоків у ряд сигналів, що подаються на гучномовець, що відповідають гучномовцям у середовищі програвання, при цьому гучномовці масиву гучномовців розміщено у певних положеннях у межах середовища програвання, і при цьому елементи метаданих, пов'язані з кожним відповідним монофонічним аудіопотоком на основі об'єктів, визначають, чи є одна або декілька складових звуку представленими у сигнал, що подають на гучномовець, для програвання через гучномовець, найближчий до присвоєного місця розташування програвання складової звуку, так що відповідний монофонічний аудіопотік на основі об'єктів ефективно представлений гучномовцем, найближчим до присвоєного місця розташування програвання.

5. Система за п. 4, яка відрізняється тим, що елементи метаданих, пов'язані 3 кожним відповідним монофонічним аудіопотоком на основі об'єктів, додатково визначають граничне значення просторового викривлення, і при цьому елементи метаданих, які вказують, чи проігноровано відповідну складову звуку, представлену гучномовцем, найближчим до Зо присвоєного місця розташування програвання, якщо просторове викривлення, що виникає з представлення відповідної складової звуку гучномовцем, найближчим до присвоєного місця розташування програвання, перевищує граничне значення просторового викривлення.

6. Система за п. 5, яка відрізняється тим, що граничне значення просторового викривлення містить щонайменше одне з граничного значення допуску азимута і граничного значення допуску піднесення.

7. Система за будь-яким з пп. 4-6, яка відрізняється тим, що елементи метаданих, пов'язані з кожним відповідним монофонічним аудіопотоком на основі об'єктів, додатково визначають параметр швидкості плавного переходу, і при цьому, коли гучномовець, найближчий до присвоєного місця розташування програвання для складової звуку, переходить з одного гучномовця на другий гучномовець, відповідно до параметра швидкості плавного переходу регулюють швидкість, з якою складова звуку переходить з одного гучномовця на інший гучномовець.

8. Система за будь-яким з пп. 4-7, яка відрізняється тим, що елементи метаданих, пов'язані з кожним відповідним монофонічним аудіопотоком на основі об'єктів, додатково визначають просторові параметри, що управляють програванням відповідної складової звуку, що містять один або декілька наступних параметрів: положення звуку, ширина звуку та швидкість звуку.

9. Система за будь-яким з пп. 4-8, яка відрізняється тим, що місце розташування програвання для кожного з ряду монофонічних аудіопотоків на основі об'єктів містить положення в просторі відносно екрана в середовищі програвання або поверхні, яка оточує середовище програвання, і при цьому поверхня містить передню площину, задню площину, ліву площину, праву площину, верхню площину та нижню площину.

10. Система за будь-яким з пп. 4-9, яка відрізняється тим, що система представлення даних вибирає алгоритм представлення даних, що використовується системою представлення даних, при цьому алгоритм представлення даних вибрано із групи, яка складається з: бінаурального алгоритму, стереодипольного алгоритму, амбіофонії, синтезу хвильового поля (УМЕ5), багатоканального панорамування, неопрацьованих стемів з метаданими положення, подвійного балансу та амплітудного панорамування на векторній основі.

11. Система за будь-яким з пп. 4-10, яка відрізняється тим, що місце розташування програвання для кожного з ряду монофонічних аудіопотоків на основі об'єктів незалежно бо визначається відносно егоцентричної системи відліку або алоцентричної системи відліку, при цьому егоцентрична система відліку визначається відносно слухача в середовищі програвання, і при цьому алоцентрична система відліку визначається відносно однієї з характеристик середовища програвання.

12. Спосіб авторської розробки звукового вмісту для представлення даних, який включає: прийняття ряду звукових сигналів; генерування адаптивного звукового міксу, що містить ряд монофонічних аудіопотоків і метаданих, що пов'язані з кожним з ряду аудіопотоків і що визначають місце розташування програвання відповідного монофонічного аудіопотоку, при цьому щонайменше деякі з ряду монофонічних аудіопотоків ідентифікуються як звук на основі каналів та інші з ряду монофонічних аудіопотоків ідентифікуються як звук на основі об'єктів, і при цьому місце розташування програвання аудіо на основі каналів містить позначення гучномовців в масиві гучномовців, і місце розташування програвання аудіо на основі об'єктів містить місце розташування в тривимірному просторі, і при цьому кожний монофонічний аудіопотік на основі об'єктів представлений в щонайменше одному певному гучномовці масиву гучномовців; розміщення ряду монофонічних аудіопотоків і метаданих усередині бітового потоку для передачі в систему представлення даних, сконфігуровану для представлення ряду монофонічних аудіопотоків у ряд сигналів, що подаються на гучномовець, що відповідають гучномовцям у середовищі програвання, при цьому гучномовці масиву гучномовців розміщено у певних положеннях у межах середовища програвання, і при цьому елементи метаданих, пов'язані з кожним відповідним монофонічним аудіопотоком на основі об'єктів, визначають, чи є одна або декілька складових звуку представленими у сигнал, що подають на гучномовець, для програвання через гучномовець, найближчий до присвоєного місця розташування програвання складової звуку, так що монофонічний аудіопотік на основі об'єктів ефективно представлений гучномовцем, найближчим до присвоєного місця розташування програвання.

13. Спосіб за п. 12, який відрізняється тим, що додатково включає: прийняття з мікшерного пульта, що має елементи керування, що приводяться в дію користувачем для визначення рівнів програвання ряду монофонічних аудіопотоків, що містять звуковий вміст; та автоматичне генерування при прийнятті користувацького вводу елементів метаданих, пов'язаних з кожним відповідним потоком на основі об'єктів.

14. Спосіб представлення звукових сигналів, який включає: прийняття бітового потоку, усередині якого розміщено адаптивний звуковий мікс, що містить ряд монофонічних аудіопотоків і метаданих, що пов'язані з кожним з аудіопотоків і що визначають місце розташування програвання відповідного монофонічного аудіопотоку, при цьому щонайменше деякі з ряду монофонічних аудіопотоків ідентифікуються як звук на основі каналів та інші з ряду монофонічних аудіопотоків ідентифікуються як звук на основі об'єктів, і при цьому місце розташування програвання монофонічного аудіопотоку на основі каналів містить позначення гучномовця в масиві гучномовців, а місце розташування програвання монофонічного аудіопотоку на основі об'єктів містить місце розташування в тривимірному просторі, ії при цьому кожний монофонічний аудіопотік на основі об'єктів представляється в щонайменше один певний гучномовець масиву гучномовців; і представлення ряду монофонічних аудіопотоків у ряд сигналів, що подаються на гучномовець, що відповідають гучномовцям у середовищі програвання, при цьому гучномовці масиву гучномовців розміщено у певних положеннях у межах середовища програвання, і при цьому елементи метаданих, пов'язані з кожним відповідним монофонічним аудіопотоком на основі об'єктів, визначають, чи є одна або декілька складових звуку представленими у сигнал, що подають на гучномовець, для програвання через гучномовець, найближчий до присвоєного місця розташування програвання складової звуку, так що монофонічний аудіопотік на основі об'єктів ефективно представлений гучномовцем, найближчим до присвоєного місця розташування програвання.

15. Спосіб за п. 14, який відрізняється тим, що елементи метаданих, пов'язані з кожним відповідним монофонічним аудіопотоком на основі об'єктів, додатково визначають граничне значення просторового викривлення, і при цьому елементи метаданих, які вказують, чи проігноровано відповідну складову звуку, представлену гучномовцем, найближчим до присвоєного місця розташування програвання, якщо просторове викривлення, що виникає з представлення відповідної складової звуку гучномовцем, найближчим до присвоєного місця розташування програвання, перевищує граничне значення просторового викривлення.

16. Спосіб за п. 15, який відрізняється тим, що граничне значення просторового викривлення містить щонайменше одне з граничного значення допуску азимута і граничного значення 60 допуску піднесення.

17. Спосіб за будь-яким з пп. 14-16, який відрізняється тим, що елементи метаданих, пов'язані з кожним відповідним монофонічним аудіопотоком на основі об'єктів, додатково визначають параметр швидкості плавного переходу, і при цьому, коли гучномовець, найближчий до присвоєного місця розташування програвання для складової звуку, переходить з одного гучномовця на другий гучномовець, відповідно до параметра швидкості плавного переходу регулюють швидкість, з якою складова звуку переходить з одного гучномовця на інший гучномовець.

18. Спосіб за будь-яким з пп. 14-17, який відрізняється тим, що елементи метаданих, пов'язані з кожним монофонічним аудіопотоком на основі об'єктів, додатково визначають просторові параметри, що управляють програванням відповідної складової звуку, що містять один або декілька наступних параметрів: положення звуку, ширина звуку та швидкість звуку.

19. Спосіб за будь-яким з пп. 14-18, який відрізняється тим, що місце розташування програвання для кожного з ряду монофонічних аудіопотоків на основі об'єктів містить положення в просторі відносно екрана в середовищі програвання або поверхні, яка оточує середовище програвання, і при цьому поверхня містить передню площину, задню площину, ліву площину, праву площину, верхню площину та нижню площину, та/або незалежно визначають відносно егоцентричної системи відліку або алоцентричної системи відліку, при цьому егоцентричну систему відліку визначають відносно слухача в середовищі програвання, і при цьому алоцентричну систему відліку визначають відносно однієї з характеристик середовища програвання.

20. Спосіб за будь-яким з пп. 14-19, який відрізняється тим, що система представлення даних вибирає алгоритм представлення даних, що використовується системою представлення даних, при цьому алгоритм представлення даних вибрано із групи, яка складається з: бінаурального алгоритму, стереодипольного алгоритму, амбіофонії, синтезу хвильового поля (УМЕ5), багатоканального панорамування, неопрацьованих стемів з метаданими положення, подвійного балансу та амплітудного панорамування на векторній основі. та но Раш т то5 ТОВ ук 119 ч АВНВХ. Її обробка знтореької й р чання порізівевяенм Ї рмлафиятких г Ц

Фіг. ї Фон, Ст Канаян суєкти Алевтивиий звукавий мікс ктзжикостяжию учи ст я і пчжжаєазьичка ячна жх зетнтнеттнтютння х зеейрнетеямнхехнню тенти | оф й ш Пиши пит А енечннненн ення хода -204 --ОВ я- ДОВ Жензлині дані Метадані

Фіг. 2

-З04 ди є ді я ме й й Сиріт зяторевия дв Ї ІиУКОВУ ТЯ Я кк: Вкіз| іні ас пе макера й ре ї і На роовов Ії Пристрій прежтзайсння Ї лявикоюдинькищиМК суки Тов и Мини ди дини лящ з Звудажан міна; ях Е Адявінкияй и йо НіхВІ НЯ г звукокий мік и і « з тажнжеа шлюжтож в сжбю т ю т ж вощратю кю лою Престрій обробках заних внфрової Миакуввннх кінематографії Ка: ЯК докелнтьнй зекуковий : зіке. па ее З нн ни В п и и ; рак дТВ фею же всю рев хе шою їюся ж яв совуючни (Я з Ко Аа у Й мік і К зяукавий іже т І: У 1 Е і - Е пен п НО ! ТВ | нев Стерн КО дах ан щінстевте ГБН Ху

Фіг.З в тм п 402 с М ці ' ; | яти саАКАААКАМКХ ' й й ій ій ь ; с Ввід Ор ВИантнвнаг у і Е Кристрй керужихня 1 звуку ; рівня яння І за Е Е : скгєскін 1 ІЗ пре. слі Ана какааннка НА Призу пенцнноння прежтанлення дання Жортюцію / жгнех дек ; га й Я Ї Сібоеюко я важно» ЕЕ дв кино Е кжедрллк ви 11 г і іш я 1 Кі Ккал, мк УчЛпа ють Я мія суоновєкня

Фіг. 4 не пуаких Витх

Зю ж В акне вне казаих Туементи метдланих Нраграмні «етядані тнни Накката кадрів миши Ї Віхозаемях леріжих пн АТАКИ КАН ЕЕ СХТМН КН і НИ й о Ошнестоюх хікшуханчя Е Металені звука Часто щекрети ці Е | Екеловва: пакт і парна Система колукзиих і Металані зіжлствалення здних Кіалаження каналя ї і Керуваюя прежстаалнннкм плйних явну Еаложення об'єк у Жерувнюне предетивхемахя лккиєх ой'ктю Ж

Фіг. 5 0 ек дллляхакахААЛАХАКАХЯТЯ Я- В «м -ВІ Мука кни ут х й ша пл й з Е "Перелавне 4 "Кінлежіх мвке с і 3 , . ' « : , : ; ОВ - -к є з є ання , ухолможалоювьслог |: Н і Н Я Н м: екс і сземи : 1 Н |: Два | рр Зректи я х нн п МИ Я ї Е ! 1 : ; М ї срехозаномтия ї ! т 1 2 я 1 ви а г наннннкннакьни во 2 ' ч я 1 лаМаюКНВиХМ В : з : . Н 1 сек: к я НІ Сяє : 1 м: Іумоні гарикгн й ТКткти і х Що : З НИ: се інн як ярі Е Е З ІЗ Ь ІЗ ; ІЗ 4 ї г ї г Ь х я |: ; 4 и к Каікгіалаяну кіліхих |; - етткня - кбежиня же женням Хкжазх юю ж кої |: ше Ві тя пт ДК олкючх рення НІ ї ї Міве Я т ! лдавувнязй зу ХХ

Фіг. б