RU2529591C2 - Устранение позиционной неоднозначности при формировании пространственного звука - Google Patents

Устранение позиционной неоднозначности при формировании пространственного звука Download PDF

Info

Publication number
RU2529591C2
RU2529591C2 RU2012102700/28A RU2012102700A RU2529591C2 RU 2529591 C2 RU2529591 C2 RU 2529591C2 RU 2012102700/28 A RU2012102700/28 A RU 2012102700/28A RU 2012102700 A RU2012102700 A RU 2012102700A RU 2529591 C2 RU2529591 C2 RU 2529591C2
Authority
RU
Russia
Prior art keywords
sound
spatial
sample
time
information
Prior art date
Application number
RU2012102700/28A
Other languages
English (en)
Other versions
RU2012102700A (ru
Inventor
Паси ОЯЛА
Юсси ВИРОЛАЙНЕН
Original Assignee
Нокиа Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Нокиа Корпорейшн filed Critical Нокиа Корпорейшн
Publication of RU2012102700A publication Critical patent/RU2012102700A/ru
Application granted granted Critical
Publication of RU2529591C2 publication Critical patent/RU2529591C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/809Rotating or oscillating beam systems using continuous analysis of received signal for determining direction in the plane of rotation or oscillation or for determining deviation from a predetermined direction in such a plane
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Предлагается способ, включающий получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами; получение информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и обработку информации о фазе и информации выборки для определения информации управления звуковым сигналом с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов. 8 н. и 30 з.п. ф-лы, 14 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
Варианты осуществления настоящего изобретения относятся к устранению неоднозначности при формировании пространственного звука. В частности, эти варианты осуществления настоящего изобретения относятся к устройству, способам и компьютерным программам, которые позволяют устранить неоднозначность в позиции источника звука при формировании пространственного звука.
УРОВЕНЬ ТЕХНИКИ
У человека два уха. Путь прохождения звукового сигнала от источника звука до левого уха обычно отличается от пути прохождения этого сигнала от источника звука до правого уха. Важным для человека фактором является разность во времени (разность фаз) прохождения этого сигнала от источника до левого уха и от источника до правого уха. Однако такой фактор, как разность фаз, сам по себе создает позиционную неоднозначность, поскольку местоположение источника звука для конкретной разности фаз обычно находится в круге, центр которого располагается на линии, проходящей через оба уха, а не в отдельной точке.
Голова и тело человека преломляют звуковые волны. Этот эффект является более анизотропным в направлениях "вверх/вниз", чем в направлениях "влево/вправо". Разность амплитуд (уровень разности) сигналов, проходящих по путям до левого и правого уха, может позволить переместить источник звука выше или ниже, но этот фактор не является достаточным для расположения источника спереди/сзади.
Существует проблема, связанная со способом формирования пространственного звука (объемного звучания) при использовании нескольких акустических систем (громкоговорителей). Может возникнуть ситуация, в которой конфигурация микрофона вносит неоднозначность в определении позиции источника звука, в результате чего, например, источник звука формируется позади слушателя, в то время как он должен располагаться перед слушателем, и источник звука, который должен располагаться позади слушателя, формируется перед слушателем.
КРАТКОЕ ОПИСАНИЕ РАЗЛИЧНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯ
В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается способ, включающий: получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами; получение информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и обработку информации о фазе, а также информации выборки для определения информации управления звуковым сигналом с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.
В соответствии с различными, но не обязательно со всеми, вариантами осуществления настоящего изобретения предлагается компьютерная программа, после загрузки которой процессор выполняет следующие операции: обработка информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов, для определения информации управления звуковыми сигналами с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.
В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается устройство, содержащее: схему, сконфигурированную для обработки информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов, для определения информации управления звуковым сигналом с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.
В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается способ, включающий: регистрацию звуковых каналов с использованием изменяющейся во времени пространственной выборки; выполнение параметрического кодирования звука зарегистрированных звуковых каналов для формирования опорного звукового сигнала и параметров звукового сигнала; передачу в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала и передачу в удаленный пункт назначения информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов.
В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается способ, включающий: прием параметризированного звукового сигнала; прием управляющей информации; формирование пространственного звука с использованием зарегистрированных звуковых каналов с использованием множества акустических систем, при этом управляющая информация используется для управления относительным усилением множества акустических систем с целью устранения неоднозначности в азимуте формируемого источника звука.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Для лучшего понимания различных примеров осуществления настоящего изобретения далее в примерах приводятся ссылки на прилагаемые чертежи, на которых:
на фиг.1 представлена блок-схема системы для регистрации многоканального звукового сигнала и формирования многоканального пространственного звука;
на фиг.2А, 2В и 2С показано изменение во времени расположения линейного массива микрофонов;
на фиг.3А показана таблица, в которой приведен пример информации управления устранением неоднозначности для источника звука, расположенного спереди;
на фиг.3В показана таблица, в которой приведен пример информации управления устранением неоднозначности для источника звука, расположенного сзади;
на фиг.4 схематично показан пример конфигурации акустической системы;
на фиг.5 схематично показан процесс формирования информации управления устранением неоднозначности для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;
на фиг.6 показана блок-схема декодера, который принимает входные сигналы от кодера;
на фиг.7 показана подробная блок-схема процесса формирования информации управления устранением неоднозначности;
на фиг.8 схематично показана реализация, в соответствии с которой информация управления устранением неоднозначности формируется в декодере;
на фиг.9 схематично показана реализация, в которой информация управления устранением неоднозначности формируется в кодере;
на фиг.10 показана блок-схема устройства, подходящего для использования в качестве компонента кодера или декодера; и
на фиг.11 схематично показан носитель для хранения компьютерной программы.
ПОДРОБНОЕ ОПИСАНИЕ РАЗЛИЧНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯ
На фиг.1 представлена блок-схема системы 2 для регистрации многоканального звукового сигнала и формирования многоканального пространственного звука. Система 2 выполняет параметрическое кодирование многоканального звукового сигнала. Система 2 также позволяет устранять неоднозначность в азимуте источника звука.
Система 2, схематично показанная в этом примере, содержит нескольких блоков, а именно: блок 4 пространственной выборки для регистрации многоканального звукового сигнала; блок 6 параметризации для параметрического кодирования многоканального звукового сигнала с целью получения параметризованного звукового сигнала 7; блок 8 устранения неоднозначности для формирования информации 9 управления устранением неоднозначности и блок 10 формирования пространственного звука, который декодирует параметризованный звуковой сигнал 7 и использует информацию 9 управления устранением неоднозначности для улучшения процесса формирования пространственного звука.
Блок 4 пространственной выборки позволяет выполнять регистрацию (прием) N-канального звукового сигнала с помощью N пространственно разнесенных микрофонов. Каждый звуковой канал связан с микрофоном.
Блок 4 пространственной выборки позволяет получать изменяющуюся во времени пространственную выборку N зарегистрированных звуковых каналов. То есть в зависимости от времени изменяются позиции N микрофонов, связанных с N каналами. Этого можно добиться путем выборочной активизации подмножества набора микрофонов или путем перемещения массива микрофонов.
Например, процесс изменяющейся во времени пространственной выборки может выполняться с помощью фиксированного массива из N микрофонов, относительная позиция которых зафиксирована. Массив микрофонов затем размещается в фиксированном местоположении, однако изменяет свою ориентацию.
Такой массив микрофонов может представлять собой планарный массив микрофонов, установленных на плоскости, но не на одной прямой линии. В альтернативном варианте массив микрофонов может представлять собой линейный массив микрофонов, установленных на одной прямой линии.
В реализациях бинауральной или стереофонической системы массив 12 микрофонов может содержать пару микрофонов 14А, 14В, показанных на фиг.2А, 2В, 2С. Микрофоны 14А, 14В могут быть расположены друг от друга на фиксированном расстоянии d.
На фиг.2А, 2В и 2С показано изменение во времени расположения линейного массива 12. Например, как показано на фиг.2А-2С, возможны периодические колебания ориентации микрофонов.
Изменения ориентации массива 12 микрофонов могут обнаруживаться с помощью датчиков движения. Например, если пользователь надевает бинауральные микрофоны (микрофон располагается рядом с каждым ухом слушателя), то ориентация головы слушателя (ориентация массива микрофонов) по отношению к внешней среде отслеживается с помощью устройства слежения за головой. Таким образом, для измерения параметров местоположения массива может использоваться отдельное внешнее устройство.
Линейный массив 12 показан в плоскости чертежа, и его ориентация изменяется под углом θ в этой плоскости. В момент времени t1, показанный на фиг.2А, угол θ является отрицательным, и микрофон 14А находится перед микрофоном 14В. Затем в момент времени t2, показанный на фиг.2В, угол θ становится нулевым, и микрофон 14А находится на одном уровне с микрофоном 14В. В момент времени t3, показанный на фиг.2С, угол θ становится положительным, и микрофон 14В находится перед микрофоном 14А. Затем в момент времени t4, показанный на фиг.2В, угол θ становится нулевым, и микрофон 14А находится на одном уровне с микрофоном 14В. Далее в момент времени t5, показанный на фиг.2А, угол θ становится отрицательным, и микрофон 14А находится перед микрофоном 14В.
На фиг.2А-2С показано одно из возможных местоположений источника 16 звука. Это местоположение показано только для примера.
Путь 15 от источника 16 звука до микрофона 14А характеризуется временной задержкой TA(t). Путь 17 от источника 16 звука до микрофона 14В характеризуется временной задержкой TB(t).
Источник 16 звука расположен “перед” линейным массивом 12. Разность фаз φ между путем 15 звукового сигнала от источника 16 звука до микрофона 14А и путем 17 от источника 16 звука до микрофона 14В может вычисляться следующим образом: TA(t)-TB(t). Если микрофон 14А находится перед микрофоном 14В (фиг.2А), разность фаз является отрицательной. Если микрофон 14В находится перед микрофоном 14А (фиг.2С), разность фаз является положительной. Таким образом, если источник 16 звукового сигнала расположен “перед” линейным массивом 12, разность фаз φ имеет тот же знак, что и угол θ, определяющий ориентацию микрофонов. Если разность фаз φ отрицательна, угол θ ориентации также отрицателен. Если разность фаз φ положительна, угол θ ориентации также положителен. Эта взаимосвязь очевидно показана в таблице 1 на фиг.3А. Изменение разности фаз φ коррелирует с углом θ изменения ориентации.
Если же источник 16 звукового сигнала расположен “позади” линейного массива 12, разность фаз положительна, когда микрофон 14А находится перед микрофоном 14В (фиг.2А). Если микрофон 14В находится перед микрофоном 14А (фиг.2С), разность фаз является отрицательной. Таким образом, если источник 16 звукового сигнала расположен “позади” линейного массива 12, разность фаз φ имеет противоположный знак по отношению к знаку угла θ ориентации. Если разность фаз φ отрицательна, угол θ ориентации положителен. Если разность фаз φ положительна, угол θ ориентации отрицателен. Эта взаимосвязь показана в таблице 2 на фиг.3В. Изменение разности фаз φ находится в обратной корреляции с изменением угла θ ориентации.
Источник звука, характеризуемый разностью фаз φ, может находиться в неопределенном местоположении. Он может располагаться перед массивом 12 или позади него. Изменяющиеся во времени пространственные выборки, генерируемые перемещающимся массивом 12, позволяют устранить неоднозначность при определении местоположения источника звука. Например, если изменяющаяся во времени разность фаз φ находится в прямой корреляции с изменяющимся во времени углом θ ориентации, то источник 16 звукового сигнала расположен перед массивом 12, а если изменяющаяся во времени разность фаз φ находится в обратной корреляции с изменяющимся во времени углом θ ориентации, то источник 16 звукового сигнала расположен позади массива 12.
Таким образом, можно обрабатывать информацию о фазе и информацию выборки для формирования информации 9 управления устранением неоднозначности с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов. Этот процесс выполняется блоком 8 устранения неоднозначности, показанным на фиг.1.
На фиг.5 показан алгоритм такого процесса 30. Процесс или способ 30 начинается в блоке 32, в котором осуществляется получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами. В примере, описанном со ссылкой на фиг.2А-2С, информация о фазе может быть выражена как изменяющаяся во времени разность фаз φ(t) (например, TA(t)-TB(t)).
В блоке 34 осуществляется получение информации 5 выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов. В примере, описанном со ссылкой на фиг.2А-2С, информация 5 выборки может быть выражена как изменяющийся во времени угол θ(t) ориентации.
Затем в блоке 36 обрабатывается информация о фазе и информация 5 выборки с целью определения информации 9 управления звуковым сигналом для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов. Информация 9 управления звуковым сигналом позволяет устранить неоднозначность азимута/местоположения источника звука.
На фиг.7 показан алгоритм процесса 60, который является примером одного из множества процессов, подходящих для использования в блоке 36. В ходе выполнения процесса 60 в блоке 62 принимается информация 61 о фазе в качестве первого входного сигнала и информация 63 выборки в качестве второго входного сигнала.
В блоке 62 сравниваются характеристики синхронизации информации 61 о фазе и информации 63 выборки, а затем результаты сравнения интегрируются в блоке 64 для формирования информации 9 управления звуковым сигналом. Информация 9 управления звуковым сигналом позволяет устранить неоднозначность азимута/местоположения источника звука.
В примере, описанном со ссылкой на фиг.2А-2С, информация 61 о фазе может быть выражена как изменяющаяся во времени разность фаз φ(t), a информация 63 выборки может быть выражена как изменяющийся во времени угол θ(t) ориентации. Первый входной сигнал может быть выражен как {φ(t1), φ(t2), φ(t3), φ(t4), φ(t5), …}. Второй входной сигнал может быть выражен как {θ(t1), θ(t2), θ(t3), θ(t4), θ(t5) …}.
В примере, описанном со ссылкой на фиг.2А-2С, под сравнением характеристик подразумевается сравнение знаков разности фаз φ(tn) и угла θ(tn) ориентации.
Блок 62 сравнения может определить, например, что знаки разности фаз φ(tn) и угла θ(tn) ориентации совпадают или противоположны. Это можно определить путем получения информации о синхронном изменении знака разности фаз φ(tn) и угла θ(tn) ориентации в их среднем диапазоне и перемножения разности фаз φ(tn) и угла θ(tn) ориентации, как показано в столбце 4 таблиц 1 и 2, изображенных на фиг.3А и 3В. Результаты перемножения затем интегрируются в блоке 64 для формирования информации управления звуковым сигналом. Если знаки разности фаз φ(tn) и угла θ(tn) ориентации одинаковы, то результат интегрирования строго положительный. Если знаки разности фаз φ(tn) и угла θ(tn) ориентации противоположны, то результат интегрирования строго отрицательный. Таким образом, знак результата интегрирования может использоваться как информация 9 управления звуковым сигналом, которая позволяет устранять неоднозначность азимута/местоположения источника звука. Если знак положительный, источник звука расположен перед массивом 12 микрофонов (таблица 1, фиг.3А). Если знак отрицательный, источник звука расположен позади массива 12 микрофонов (таблица 2, фиг.3В).
В альтернативной реализации блок 62 сравнения может определять, например, одинаково ли направлены “векторы движения” для разности фаз φ(tn) и угла θ(tn) ориентации. Этот процесс может выполняться путем сравнения, например, величин φ(tn)-φ(tn-1) и θ(tn)-θ(tn-1) для каждого значения n. Далее значение φ(tn)-φ(tn-1) умножается на значение θ(tn)-θ(tn-1). Результаты перемножения затем интегрируются в блоке 64 для формирования информации управления звуковым сигналом.
В другом варианте осуществления настоящего изобретения, объясняемом со ссылкой на фиг.2А-2С, информация о фазе может быть выведена из изменяющейся во времени разности фаз φ(t). Изменяющаяся во времени разность фаз φ(t) может быть преобразована в направление Ω(t) на источник 16 звука с помощью, например, справочной таблицы. Поскольку изменяющийся во времени азимут Ω(t) источника звука и изменяющийся во времени угол θ(t) ориентации измеряются в одинаковых единицах, можно выполнять непосредственное сравнение между Ω(t) и θ(t) или между Ω(tm)-Ω(tm-1) и θ(tm)-θ(tm-1).
В некоторых вариантах осуществления настоящего изобретения информация 9 управления звуковым сигналом может быть основана на отдельной обработке 36 информации о фазе для различных частотных диапазонов и информации выборки. Изменяющаяся во времени разность фаз между зарегистрированными звуковыми каналами может быть одновременно получена для различных частотных диапазонов.
Преобразователь может использоваться для преобразования входных звуковых сигналов 3 (два или более входных звуковых каналов) из временной области в частотную область с использованием, например, декомпозиции блоком фильтров в дискретных временных кадрах. Блок фильтров может быть критично дискретизирован. Под критичной дискретизацией подразумевается, что объем данных (отсчетов в секунду) остается таким же в преобразованной области. С этой целью может использоваться преобразователь, применяемый для кодирования звукового сигнала.
Каналы входного звукового сигнала по отдельности преобразуются в частотную область, то есть в частотный поддиапазон для временного интервала входного кадра. Входные звуковые каналы сегментируются во временные интервалы во временной области и в поддиапазоны в частотной области.
Сегментация может выполняться единообразно во временной области для формирования единообразных временных интервалов, например временных интервалов одинаковой длительности. Сегментация может выполняться единообразно в частотной области для формирования единообразных поддиапазонов, например поддиапазонов одинакового размера, либо сегментация может выполняться неравномерно в частотной области для формирования неравномерной структуры поддиапазонов, например поддиапазонов различных размеров. В некоторых вариантах осуществления настоящего изобретения ширина поддиапазонов в низкочастотной области меньше ширины поддиапазонов в высокочастотной области.
Информация 9 управления звуковым сигналом может быть сгенерирована для каждого поддиапазона путем обработки 62 информации 61 о фазе для поддиапазона и информации 63 выборки. Это позволяет устранить несоответствие при одновременном использовании источников звука. Это может также повысить устойчивость системы при перемещении источников звука. В процессе обнаружения информации о фазе полезно выравнивать частотные диапазоны таким же образом, как это делается в кодере звукового сигнала, поскольку в некоторых вариантах осуществления настоящего изобретения процесс обнаружения фазы может быть интегрирован в блок анализа звуковой сцены.
На фиг.1 блок 10 формирования пространственного звука использует управляющую информацию 9, сформированную блоком 8 устранения неоднозначности, для управления формированием пространственного звука с помощью множества акустических систем 22 и для устранения неоднозначности в положении источника звука в формируемом пространственном звуке.
На фиг.4 схематично показан пример возможной, но не обязательно типовой, конфигурации 24 акустических систем. Акустические системы 22 распределены вокруг слушателя 20 для формирования пространственного звучания. Пространственный звук окружает слушателя 20 по меньшей мере с четырех сторон (например, спереди, сзади, слева, справа), благодаря чему формируется звуковое пространство 26.
В конфигурации 24 задействовано М акустических систем. Значение М может превышать значение N, равное количеству микрофонов в массиве 12 микрофонов. В альтернативном варианте значение М может быть меньше значения N (или равно этому значению). Одна или более акустических систем 221, 222 расположена перед слушателем 20, и одна или более акустических систем 223, 224 расположена позади слушателя 20. Одна или более акустических систем 221, 224 расположена слева от слушателя 20, и одна или более акустических систем 222, 223 расположена справа от слушателя 20. Хотя на фиг.4 показаны равномерно расположенные акустические системы 221, 222, 223, 224, следует принимать во внимание, что эти системы можно расположить другим образом и что может использоваться другое количество систем. Изменяющаяся во времени пространственная выборка, формируемая блоком 4 пространственной выборки, состоит из выборок в пространстве, эквивалентном формируемому звуковому пространству 26. То есть два или три ортогональных вектора, которые проходят в области звукового пространства выборок, также проходят в области формируемого звукового пространства 26.
Управляющая информация 9 позволяет принять решение об азимуте/местоположении источника звука в пределах формируемого звукового пространства 26.
Если управляющая информация 9, например, указывает на то, что источник звука должен быть перед слушателем 20, усиление расположенных спереди акустических систем 221, 222 этого звукового сигнала может быть увеличено, а уровень усиления звукового сигнала акустических систем 223, 224, расположенных сзади, может быть уменьшен. Более высокий уровень усиления расположенных спереди акустических систем позволяет сформировать источник звука перед слушателем в пределах звукового пространства.
Если управляющая информация 9, например, указывает на то, что источник звука должен быть позади слушателя 20, усиление расположенных сзади акустических систем этого звукового сигнала может быть увеличено, а уровень усиления звукового сигнала акустических систем, расположенных спереди, может быть уменьшен. Более высокий уровень усиления расположенных сзади акустических систем позволяет сформировать источник звука позади слушателя в пределах звукового пространства.
В некоторых ситуациях может потребоваться компенсация изменяющегося во времени поворота формируемого звукового пространства 26 в результате изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов. Функция изменения в зависимости от времени может использоваться для обеспечения пространственной компенсации таким образом, чтобы формируемое звуковое пространство 26, определяемое множеством акустических систем 22, оставалось стационарным по отношению к слушателю 20. Функция изменения в зависимости от времени может представлять собой инверсную функцию преобразования для изменяющейся во времени пространственной выборки.
Функция изменения в зависимости от времени позволяет компенсировать изменяющееся во времени вращение звукового пространства с использованием полученной информации о выборке. Этого можно добиться путем изменения параметров звукового сигнала или фильтрации формируемого звукового сигнала. Например, может использоваться модифицированная функция передачи звука, связанная с головой (HRTF, head related transfer function), которая выполняет компенсацию фазы с компенсацией или без компенсации уровня.
В некоторых ситуациях компенсация поворота звукового пространства может не понадобиться. Например, если массив 12 микрофонов быстро колеблется с очень небольшим смещением. В другом примере имеется возможность создания конфигурации для увеличения скорости регистрации звукового сигнала с целью устранения неоднозначности, а не с целью кодирования звукового сигнала. Так, в конфигурациях, показанных на фиг.2А-2С, регистрация звукового сигнала для кодирования может выполняться только в том случае, когда массив размещен таким образом, как это показано на фиг.2В, в то время как регистрация звукового сигнала для устранения неоднозначности может выполняться, если массив размещен таким образом, как это показано на фиг.2А-2С, и при перемещении между различными позициями, показанными на фиг.2А-2С.
Блок 10 формирования пространственного звука в некоторых, но не во всех реализациях для управления пространственной выборкой может передавать сигнал 11 обратной связи в блок 4 пространственной выборки. Сигнал 11 обратной связи может, например, использоваться для адаптации изменяющейся во времени пространственной выборки, например, путем изменения направления перемещения массива микрофонов. Это может способствовать выполнению процесса устранения неоднозначности путем управления перемещением массива 12 микрофонов таким образом, чтобы они размещались в пространстве, соответствующем формируемому звуковому пространству 26, определенному позициями акустических систем 22.
Блок 6 параметризации может использоваться, если для хранения или связи требуется уменьшить полосу частот, занимаемую звуковыми каналами. Блок 6 параметризации параметрически кодирует N звуковых каналов 3 для выработки параметризованного звукового сигнала 7. Затем блок 10 формирования пространственного звука принимает параметризованный звуковой сигнал и декодирует его с целью получения пространственного звукового сигнала.
Могут использоваться различные типы параметрического кодирования звукового сигнала, такие как направленное кодирование звукового сигнала (DirAC, Directional Audio Coding) или бинауральное кодирование сигнала (ВСС, binaural cue coding).
На фиг.6 схематично показан кодер 42, который передает параметризированные звуковые сигналы 47, 45 в удаленный декодер 40.
Показанный кодер 42 многоканального звукового сигнала является в этом примере параметрическим кодером, который выполняет кодирование в соответствии с определенной параметрической моделью с использованием анализа многоканального звукового сигнала.
Параметрическая модель в этом примере представляет собой модель, основанную на восприятии, которая позволяет выполнять сжатие с потерей данных и уменьшать полосу частот.
В этом примере кодер 42 выполняет кодирование пространственного звукового сигнала с использованием технологии параметрического кодирования, такой как параметризация при бинауральном кодировании сигнала (ВСС). Обычно модели параметрического кодирования звукового сигнала, такие как ВСС, представляют исходный звуковой сигнал в виде сигнала с уменьшенным количеством звуковых каналов (downmix), сформированных из каналов исходного сигнала, например, в виде монофонического или двухканального (стерео) суммарного сигнала, совместно с битовым потоком параметров, описывающих пространственный образ. Сигнал с уменьшенным количеством звуковых каналов, содержащий несколько каналов, может рассматриваться как несколько отдельных сигналов с уменьшенным количеством звуковых каналов.
Преобразователь 44 выполняет преобразование входных звуковых сигналов 3 (два или более входных звуковых каналов) из временной области в частотную область с использованием, например, декомпозиции блоком фильтров в дискретных временных кадрах. Блок фильтров может быть критично дискретизирован. Под критичной дискретизацией подразумевается, что объем данных (отсчетов в секунду) остается таким же в преобразованной области.
Блок фильтров может быть реализован, например, в виде перекрывающего преобразователя, позволяющего осуществлять плавный переход от одного кадра к другому, если формирование окон для блоков, то есть кадров, осуществляется как часть процесса декомпозиции поддиапазонов. В альтернативном варианте декомпозиция может быть реализована в виде операции аналоговой фильтрации с использованием, например, фильтров FIR в многофазном формате, позволяющем эффективно выполнять вычислительный процесс.
Каналы входного звукового сигнала по отдельности преобразуются в частотную область, то есть в частотный поддиапазон для временного интервала входного кадра. Входные звуковые каналы сегментируются во временные интервалы во временной области и в поддиапазоны в частотной области.
Сегментация может выполняться единообразно во временной области для формирования единообразных временных интервалов, например временных интервалов одинаковой длительности. Сегментация может выполняться единообразно в частотной области для формирования единообразных поддиапазонов, например поддиапазонов одинакового размера, либо сегментация может выполняться неравномерно в частотной области для формирования неравномерной структуры поддиапазонов, например поддиапазонов различных размеров. В некоторых вариантах осуществления настоящего изобретения ширина поддиапазонов в низкочастотной области меньше ширины поддиапазонов в высокочастотной области.
С точки зрения восприятия и психоакустики предпочтительно выбирать структуру поддиапазона, близкую к шкале ERB (equivalent rectangular bandwidth, эквивалентная прямоугольная полоса частот). Однако может применяться любой способ разделения на поддиапазоны.
Выходной сигнал преобразователя 44 подается на анализатор 48 звуковой сцены, который формирует параметры 45 сцены. Звуковая сцена анализируется в области преобразования, и соответствующие параметры 45 извлекаются и обрабатываются для передачи или сохранения с целью последующего использования.
Анализатор 48 звуковой сцены использует модель межканального предсказания для формирования межканальных параметров 45. В набор межканальных параметров могут, например, входить такие параметры, как разность уровней между каналами (ILD, inter-channel level difference) и разность фаз между каналами (ICPD, inter-channel phase difference). Разность фаз между каналами (ICPD) может выражаться в виде разности времени прохождения сигнала по различным каналам (ITD, inter-channel time difference). Кроме того, может быть определена межканальная когерентность (ICC, inter-channel coherence), связанная с частотным поддиапазоном для входного кадра, между выбранными парами каналов. Межканальные параметры могут оцениваться в пределах частотно-временного интервала области преобразования, то есть в частотном поддиапазоне для входного кадра. Обычно параметры ILD, ICPD/ITD и ICC определяют для каждого частотно-временного интервала входного сигнала или для подмножества частотно-временных интервалов. Подмножество частотно-временных интервалов может представлять, например, наиболее важные воспринимаемые частотные компоненты, (подмножество) частотных интервалов подмножества входных кадров или любое подмножество частотно-временных интервалов, представляющих определенный интерес. Степень важности межканальных параметров с точки зрения восприятия может отличаться для различных частотно-временных интервалов. Кроме того, степень важности межканальных параметров с точки зрения восприятия может отличаться для входных сигналов с различными характеристиками. Например, для некоторых входных сигналов параметр ITD может представлять собой параметр пространственного образа, имеющий определенную значимость.
Параметры ILD и ITD могут быть определены на основе сравнения входного звукового канала и опорного канала, обычно на основе сравнения каждого входного звукового канала и опорного входного звукового канала. Параметр ICC обычно определяется отдельно для каждого канала, сравниваемого с опорным каналом.
Далее приводятся некоторые подробности, относящиеся к подходу ВСС, на примере с двумя каналами L, R и одним сигналом, полученным путем уменьшения числа каналов. Однако такое представление процесса может быть обобщено для большего количества входных звуковых каналов и/или для конфигурации, в которой используется несколько сигналов, полученных путем уменьшения числа каналов.
Значение разности уровней между каналами (ILD) для каждого поддиапазона ∆Ln обычно рассчитывается следующим образом:
Δ L n = 10 log 10 ( S n L T S n L S n R T S n R ) , ( 1 )
Figure 00000001
где S n L
Figure 00000002
и S n R
Figure 00000003
являются соответственно сигналами левого и правого каналов временной области в поддиапазоне n.
Разность времени прохождения сигнала по различным каналам (ITD), то есть задержка между двумя входными звуковыми каналами, может определяться следующим образом:
τ n = arg max d { Φ n ( k , d ) } ( 2 )
Figure 00000004
,
где Фn(k,d) представляет собой нормализованную корреляцию:
Φ n ( k , d ) = S n L ( k d 1 ) T S n R ( k d 2 ) ( S n L ( k d 1 ) T S n L ( k d 1 ) ) ( S n R ( k d 2 ) T S n R ( k d 2 ) ) ( 3 )
Figure 00000005
где
d 1 = max { 0, d } d 2 = max { 0, d } ( 4 )
Figure 00000006
Нормализованная корреляция, вычисляемая по формуле (3), фактически является параметром межканальной когерентности (IC, inter-channel coherence). Этот параметр может использоваться для регистрации внешних компонентов, которые не коррелированны со звуковыми компонентами, представленными параметрами фазы и амплитуды в формулах (1) и (2).
В альтернативном варианте коэффициенты ВСС могут определяться посредством дискретного преобразования Фурье (DFT, Discrete Fourier Transform). При использовании, например, оконного преобразования Фурье для коротких интервалов времени (STFT, Short Time Fourier Transform) вышеописанные сигналы поддиапазонов конвертируются в группы коэффициентов преобразования. S n L
Figure 00000002
и S n R
Figure 00000003
представляют собой соответственно спектральные коэффициенты двух входных звуковых каналов L и R для поддиапазона n заданного кадра анализа. Параметр ILD в области преобразования может быть определен так же, как и в формуле (1):
Δ L n = 10 log 10 ( S n L * S n L S n R * S n R ) , ( 5 )
Figure 00000007
где знак * обозначает операцию комплексного сопряжения.
Однако разностью времени прохождения сигнала (ITD) можно более удобно оперировать в виде разности фаз между каналами (1CPD, inter-channel phase difference):
ϕ n = ( S n L * S n R ) ( 6 )
Figure 00000008
Значение межканальной когерентности может вычисляться в частотной области с использованием формулы, схожей с формулой (3), применяемой при вычислении во временной области:
Φ n = S n L * S n R ( S n L * S n L ) ( S n R * S n R ) ( 7 )
Figure 00000009
В альтернативном варианте определение ВСС, основанное на формулах (5)-(7) с использованием DFT, может потребовать значительно меньшего объема вычислений, если применяется оценка фазы ICPD спектральных коэффициентов в области DFT, а не оценка ITD во временной области с учетом корреляции.
Параметры разности уровня и времени/фазы представляют общие компоненты пространственного звука, то есть они могут учитываться для моделирования местоположений источника звука в пространстве. В основном параметры ILD и ITD определяют коэффициенты панорамирования объемного звучания.
С другой стороны, параметр когерентности зависит от взаимосвязи между когерентным и декоррелированным звуковым сигналом. Уровень поздней реверберации источников звука вследствие, например, воздействия стен помещения и окружающий звуковой сигнал, распределенный между входными каналами, могут оказать значительное влияние на восприятие пространственного звукового сигнала.
Микшер 46 формирует микшированный сигнал(ы) 47 в виде комбинации каналов входных сигналов.
Микшированный сигнал обычно формируется в виде линейной комбинации каналов входного сигнала в области преобразования. Например, в случае двух каналов микшированный сигнал может создаваться в результате простого усреднения сигналов левого и правого канала:
S n = 1 2 ( S n L + S n R )
Figure 00000010
Существуют также другие средства создания микшированного сигнала. В одном из примеров левый и правый входные каналы перед объединением могут взвешиваться таким образом, чтобы сохранялась энергия сигнала. Это может быть удобно, например, если энергия сигнала в одном из каналов значительно меньше уровня энергии в другом канале или если уровень энергии в одном из каналов близок к нулю.
Дополнительно можно использовать обратный преобразователь для формирования микшированного звукового сигнала 47 во временной области.
В альтернативном варианте обратный преобразователь может отсутствовать. Выходной микшированный звуковой сигнал 47 в результате кодируется в частотной области.
Выходными сигналами многоканального или стереофонического кодера обычно являются микшированный сигнал или сигналы 47 и параметры 45 сцены. Такое кодирование может выполняться отдельными блоками кодирования (не показанными на чертеже) для сигналов 47 и 45. Любой монофонический (или стереофонический) кодер звукового сигнала подходит для микшированного звукового сигнала 47, в то время как для межканальных параметров 45 требуется специфический кодер параметров ВСС. К межканальным параметрам могут, например, относиться один или более следующих параметров: разность уровней между каналами (ILD) и разность фаз между каналами (ICPD), например разность времени прохождения сигнала по различным каналам (ITD).
Разность времени прохождения сигнала по различным каналам (ITD, inter-channel time difference) может использоваться в качестве информации о фазе в блоке 32, показанном на фиг.5.
Декодер 52, который обычно отделен от кодера 42 каналом 74 связи, содержит блок 54 синтеза и блок 56 обработки параметров. Синтез сигнала, например синтез ВСС, может выполняться в блоке 54 синтеза на основе параметров, предоставляемых блоком 56 обработки параметров.
Кадр микшированного сигнала (сигналов) 47, состоящий из N отсчетов S0, …, Sn-1, преобразуется в N спектральных отсчетов S0, …, Sn-1, например, с помощью преобразования DTF.
Межканальные параметры 45, например описанные выше параметры ILD и/или ITD, из блока 56 обработки параметров подаются в блок 54 синтеза для создания пространственных звуковых сигналов, в данном примере - стереофонического звукового сигнала, в множестве (N) выходных звуковых каналов 53.
Если микширование двухканального сигнала выполняется согласно приведенной выше формуле и ILD ∆Ln определяется как разность уровней левого и правого каналов, то выходные звуковые сигналы левого и правого каналов могут быть синтезированы для поддиапазона n следующим образом:
S n L = 1 2 Δ L n Δ L n + 1 S n e j 2 π n τ n 2 N
Figure 00000011
S n R = 1 2 Δ L n Δ L n + 1 S n e j 2 π n τ n 2 N
Figure 00000012
,
где Sn представляет собой вектор спектральных коэффициентов реконструированного микшированного сигнала,
S n L
Figure 00000002
и S n R
Figure 00000003
соответственно являются спектральными коэффициентами стереофонического сигнала левого и правого каналов.
Следует отметить, что с помощью синтеза с использованием зависящего от частоты уровня и параметров задержки воссоздаются компоненты звукового сигнала, представляющие источники звукового сигнала. Параметры окружения могут отсутствовать, и они могут быть синтезированы, например, с помощью параметра ICC, определяющего межканальную когерентность.
Способ синтеза компонента окружения, основанный на параметре когерентности, включает декорреляцию сигнала для создания последнего сигнала реверберации. В реализации может использоваться фильтрация выходных звуковых каналов с помощью фильтров произвольной фазы и добавление результата к выходному сигналу. Если различные задержки фильтров применяются к выходным звуковым каналам, то создается набор декоррелированных сигналов.
Многоканальный выходной сигнал блока 54 синтеза может смешиваться смесителем 58 для формирования множества (К) выходных звуковых каналов 57.
Это позволяет формировать пространственный звук в соответствии с различными форматами пространственного смешивания сигналов. Например, смеситель 58 может отвечать за информацию 9 управления звуковым сигналом для изменения способа смешивания, а также характера и количества выходных звуковых каналов 57. Источник информации 9 управления звуковым сигналом описывается ниже со ссылками на фиг.8 и 9. На практике это означает, что, например, источник звука может принудительно перемещаться, например, в местоположение, расположенное перед слушателем, путем управления усилением акустических систем, относящихся к этому источнику звука. Если используются наушники, то пространственное звучание может достигаться за счет выполнения функции HRTF.
На фиг.8 схематично показан вариант осуществления настоящего изобретения, в котором блок пространственной выборки и блок параметризации реализованы в кодере 70, а блок 8 устранения неоднозначности и блок 10 формирования пространственного звука реализованы в декодере 72. Кодер 70 передает параметризированный звуковой сигнал 7 по каналу 74 связи в декодер 72. Кодер 70 через канал 74 связи передает в декодер 72 информацию 5 выборки, связанную с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов.
На фиг.9 схематично показан вариант осуществления настоящего изобретения, в котором блок 4 пространственной выборки, блок 6 параметризации и блок 8 устранения неоднозначности реализованы в кодере 70, а блок 10 формирования пространственного звука реализован в декодере 72. Кодер 70 передает кодированный звуковой сигнал 7 по каналу 74 связи в декодер 72. Кодер 70 генерирует и передает информацию 9 управления звуковым сигналом через канал 74 связи в декодер 72. Декодер 72 принимает параметризированный звуковой сигнал 7 и информацию 9 управления звуковым сигналом. Кодер 70 также может передавать информацию 5 выборки для выполнения пространственной компенсации с помощью декодера 72.
Внутриканальное представление может быть реализовано посредством параметризации DirAC, а не с помощью параметризации кодирования стереофонического сигнала (ВСС). При использовании параметризации DirAC направление поступления сигнала от источника звука определяется для каждого частотно-временного компонента многоканального звукового сигнала, например, в виде разницы времени прохождения сигналов между каналами и разницы уровней каналов. Требуемая информация о направлении затем может быть извлечена с применением закона панорамирования. Одно из преимуществ параметризации DirAC заключается в том, что устранение неоднозначности в направлении поступления сигналов для поддиапазона можно осуществить с помощью кодера. В этом случае другую дополнительную информацию (информацию 9 управления звуковым сигналом) не требуется передавать по каналу 74 связи в декодер.
В формате DirAC вектор направления (азимут θ и угол возвышения φ (и диффузность ψ)) связан с каждым частотным поддиапазоном. Формат DirAC может быть сгенерирован из сигналов, записанных с использованием двух микрофонов, или на основе параметров, закодированных посредством ВСС, с использованием, как это описано выше, устранения позиционного несоответствия для однозначного расположения источника звука перед выполнением кодирования DirAC.
На фиг.10 показана блок-схема устройства 80, подходящего для использования в качестве компонента кодера или декодера.
Процессор 82 сконфигурирован для чтения данных из памяти 84 и записи данных в память. Процессор 82 может также содержать выходной интерфейс, через который этот процессор выводит данные и/или команды, а также входной интерфейс, через который данные и/или команды передаются в процессор 82.
В памяти 84 хранится компьютерная программа 86, состоящая из программных инструкций, которые после загрузки в процессор 82 управляют функционированием устройства. Компьютерные программные инструкции 86 реализуют логические процессы и формируют подпрограммы, которые позволяют устройству 80 выполнять операции способов, показанных на фиг.1, 5, 6-9. Процессор 82 может считывать из памяти 84 инструкции для загрузки и выполнения компьютерной программы 86.
На фиг.11 показано, что компьютерная программа может устанавливаться в устройстве 80 с помощью любого подходящего средства 88 доставки. К средствам 88 доставки может относиться, например, машиночитаемый носитель информации, компьютерное программное изделие, устройство памяти, носитель информации, такой как CD-ROM или DVD, изделие, которое физически хранит компьютерную программу 86. В качестве механизма доставки может использоваться сигнал, сконфигурированный для надежной передачи компьютерной программы 86. Устройство 80 может распространять или передавать компьютерную программу 86 в виде компьютерного сигнала передачи данных.
Хотя память 84 показана на чертеже в виде отдельного компонента, она может быть реализована в виде одного или более компонентов, все или некоторые из которых могут быть выполнены в виде встроенных/сменных модулей и/или могут обеспечивать постоянное/полупостоянное/динамическое/кэшируемое хранение данных.
Термины “машиночитаемый носитель информации”, “компьютерное программное изделие”, “физически записанная компьютерная программа” и т.д. или “контроллер”, “компьютер”, “процессор” и т.д. относятся не только к компьютерам с различными архитектурами, такими как однопроцессорная/многопроцессорная архитектура и последовательная (неймановская)/параллельная архитектура, но также и к специализированным схемам, таким как программируемые пользователем вентильные матрицы (FPGA, field programmable gate array), индивидуально спроектированные специализированные интегральные схемы (ASIC, Application Specific Integrated Circuit), сигнальные процессоры и другие устройства. Ссылки на компьютерную программу, инструкции, код и т.д. следует рассматривать как программное обеспечение для программируемого процессора или микропрограммное обеспечение, такое как, например, программируемые компоненты аппаратного устройства, инструкции для процессора или конфигурируемые настройки для непрограммируемого устройства, вентильной матрицы или программируемого логического устройства и т.д.
Устройство 80 может быть выполнено в виде модуля. В данном описании под “модулем” понимается блок или устройство, не включающий определенные части/компоненты, которые могут быть добавлены конечным производителем или пользователем.
Блоки, показанные на фиг.5, могут представлять шаги способа и/или секции кода компьютерной программы 86. Показанный конкретный порядок блоков не обязательно является требуемым или предпочтительным порядком расположения блоков и может изменяться. Кроме того, некоторые шаги могут быть опущены.
Хотя некоторые варианты осуществления настоящего изобретения описаны выше со ссылкой на различные примеры, следует принимать во внимание, что возможны изменения приведенных примеров в рамках изобретения, изложенного в формуле изобретения.
Хотя в некоторых из описанных выше примеров рассматривается линейный массив микрофонов, которые колеблются в направлении "вперед-назад", и, следовательно, объясняется способ устранения несоответствий позиционирования звука спереди и сзади, в других вариантах осуществления настоящего изобретения пространственная выборка может осуществляться в другой двумерной плоскости. Например, линейный массив микрофонов, который колеблется в направлении "сверху вниз", может использоваться для устранения несоответствий позиционирования звука сверху и снизу. В других вариантах осуществления настоящего изобретения пространственная выборка может выполняться в трех измерениях, например, путем вращения массива микрофонов или выборочной активизации микрофонов в трехмерном массиве. Описанные выше признаки могут сочетаться в иных комбинациях, отличающихся от явно описанных.
Хотя выше функции были описаны со ссылкой на определенные признаки, эти функции могут выполняться с использованием других признаков, независимо от того, были ли эти признаки описаны.
Хотя выше признаки были описаны со ссылкой на определенные варианты осуществления, эти признаки могут также использоваться в других вариантах, независимо от того, были ли эти варианты описаны.
Хотя в приведенном описании предпринята попытка обратить внимание на те признаки изобретения, которые имеют особое значение, следует иметь в виду, что заявитель притязает на защиту патентом любых отличительных признаков или комбинации признаков, упомянутых выше и/или показанных на чертежах, независимо от того, был ли сделан на этом определенный акцент.

Claims (38)

1. Способ формирования пространственного звука, включающий:
получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами;
получение информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и
обработку информации о фазе и информации выборки для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивают характеристику информации о фазе и соответствующую характеристику информации выборки и
характеристика зависит от знака изменения разности фаз и знака изменения пространственной выборки.
2. Способ по п.1, отличающийся тем, что в процессе обработки выполняют
определение первого вектора движения на основе информации о фазе;
определение второго вектора движения для пространственной выборки и
сравнение первого и второго векторов движения.
3. Способ по п.1, отличающийся тем, что в процессе обработки выполняют
определение направления прихода звукового сигнала на основе информации о фазе;
определение первого вектора движения для направления прихода звукового сигнала;
определение второго вектора движения для пространственной выборки и
сравнение первого и второго векторов движения.
4. Способ по п.1, отличающийся тем, что информация о фазе представляет собой параметр параметрического кодирования звукового сигнала.
5. Способ по п.1 или 2, включающий также:
определение информации о фазе для каждого из множества частотных поддиапазонов и
обработку информации о фазе для каждого из множества частотных поддиапазонов и информации выборки для определения информации управления звуковым сигналом для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.
6. Способ по п.1, также включающий выполнение изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов путем выборки звукового сигнала при различных позициях микрофона в различные моменты времени, при этом каждому звуковому каналу соответствует свой микрофон.
7. Способ по п.6, отличающийся тем, что изменяющаяся во времени пространственная выборка звуковых сигналов формируется с использованием фиксированного массива микрофонов, расположенного в фиксированном местоположении и изменяющего свою ориентацию.
8. Способ по п.7, отличающийся тем, что фиксированный массив микрофонов содержит пару микрофонов, расположенных на фиксированном расстоянии друг от друга.
9. Способ по любому из пп.6-8, также включающий передачу информации управления звуковым сигналом в удаленный пункт назначения для формирования пространственного звука с использованием зарегистрированных звуковых каналов.
10. Способ по любому из пп.6-8, также включающий выполнение параметрического кодирования звукового сигнала для формирования опорного звукового сигнала и параметров звукового сигнала и передачу в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала для формирования пространственного звука с использованием зарегистрированных звуковых каналов.
11. Способ по п.1, включающий также использование управляющей информации для устранения неоднозначности в азимуте источника звука в формируемом пространственном звуке.
12. Способ по любому из пп.6-8, также включающий выполнение компенсации с учетом изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов.
13. Способ по п.1, включающий также выполнение динамической адаптации с учетом изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов.
14. Способ по п.1, также включающий выполнение адаптации изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов таким образом, чтобы микрофоны размещались в пространстве, соответствующем пространству, определенному позициями акустических систем, используемых для формирования пространственного звука.
15. Машиночитаемый носитель, содержащий компьютерную программу, которая после загрузки в процессор управляет им так, что он
обрабатывает информацию о фазе, зависящую от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информацию выборки, связанную с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов, для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивают характеристику информации о фазе и соответствующую характеристику информации выборки и
характеристика зависит от знака изменения разности фаз и знака изменения пространственной выборки.
16. Машиночитаемый носитель по п.15, отличающийся тем, что после загрузки компьютерной программы в процессор она управляет им так, что он выполняет способ по любому из пп.1-14.
17. Устройство для формирования пространственного звука, содержащее:
схему, сконфигурированную для обработки:
информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами; и
информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов,
для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;
при этом упомянутая схема сконфигурирована для сравнения характеристики информации о фазе и соответствующей характеристики информации выборки и
характеристика зависит от знака изменения разности фаз и знака изменения пространственной выборки.
18. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для:
определения первого вектора движения на основе информации о фазе;
определения второго вектора движения для пространственной выборки и
сравнения первого и второго векторов движения.
19. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для:
определения направления прихода звукового сигнала на основе информации о фазе;
определения первого вектора движения для направления прихода звукового сигнала;
определения второго вектора движения для пространственной выборки и
сравнения первого и второго векторов движения.
20. Устройство по п.17, отличающееся тем, что информация о фазе представляет собой параметр параметрического кодирования звукового сигнала.
21. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для определения информации о фазе для каждого из множества частотных поддиапазонов и обработки информации о фазе для каждого из множества частотных поддиапазонов и информации выборки для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.
22. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для выполнения изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов путем выборки звукового сигнала при различных позициях микрофона в различные моменты времени, при этом каждому звуковому каналу соответствует свой микрофон.
23. Устройство по п.22, отличающееся тем, что оно сконфигурировано для управления изменением ориентации фиксированного массива микрофонов, расположенного в фиксированном местоположении, для выполнения изменяющейся во времени пространственной выборки звуковых сигналов.
24. Устройство по п.23, отличающееся тем, что фиксированный массив микрофонов содержит пару микрофонов, расположенных на фиксированном расстоянии друг от друга.
25. Устройство по п.17, отличающееся тем, что оно сконфигурировано для передачи информации управления звуковым сигналом в удаленный пункт назначения для формирования пространственного звука с использованием зарегистрированных звуковых каналов.
26. Устройство по п.17, отличающееся тем, что оно сконфигурировано для выполнения параметрического кодирования звукового сигнала для формирования опорного звукового сигнала и параметров звукового сигнала и передачи в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала для формирования пространственного звука с использованием зарегистрированных звуковых каналов.
27. Устройство по п.17, отличающееся тем, что оно сконфигурировано для использования управляющей информации для устранения неоднозначности в азимуте источника звука в формируемом пространственном звуке.
28. Устройство по п.17, отличающееся тем, что оно сконфигурировано для выполнения компенсации для изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов.
29. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для динамической адаптации изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов.
30. Устройство по п.17, отличающееся тем, что упомянутая схема сконфигурирована для выполнения адаптации изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов таким образом, что микрофоны размещаются в пространстве, соответствующем пространству, определенному позициями акустических систем, используемых для формирования пространственного звука.
31. Устройство для формирования пространственного звука, содержащее:
средства для получения информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами;
средства для получения информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и
средства для обработки информации о фазе и информации выборки для определения информации управления звуковым сигналом, предназначенной для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивают характеристику информации о фазе и соответствующую характеристику информации выборки и
характеристика зависит от знака изменения разности фаз и знака изменения пространственной выборки.
32. Способ формирования пространственного звука, включающий:
регистрацию звуковых каналов с использованием изменяющейся во времени пространственной выборки;
выполнение параметрического кодирования звука в зарегистрированных звуковых каналах для формирования опорного звукового сигнала и параметров звукового сигнала;
передачу в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала и
передачу в удаленный пункт назначения информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов.
33. Способ по п.32, отличающийся тем, что процесс регистрации звуковых каналов с использованием изменяющейся во времени пространственной выборки включает выполнение выборки звуковых сигналов при различных позициях микрофона в различные моменты времени, при этом каждому звуковому каналу соответствует свой микрофон.
34. Способ по п.33, отличающийся тем, что изменяющаяся во времени пространственная выборка звуковых сигналов осуществляется с использованием фиксированного массива микрофонов, расположенного в фиксированном местоположении и изменяющего свою ориентацию.
35. Способ по п.34, отличающийся тем, что фиксированный массив микрофонов содержит пару микрофонов, расположенных на фиксированном расстоянии друг от друга.
36. Устройство для формирования пространственного звука, содержащее:
средства для регистрации звуковых каналов с использованием изменяющейся во времени пространственной выборки;
средства для выполнения параметрического кодирования зарегистрированных звуковых каналов для формирования опорного звукового сигнала и параметров звукового сигнала;
средства для передачи в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала и
средства для передачи в удаленный пункт назначения информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов.
37. Способ формирования пространственного звука, включающий:
прием параметризированного звукового сигнала;
прием управляющей информации;
формирование пространственного звука с использованием зарегистрированных звуковых каналов посредством множества акустических систем, при этом управляющая информация используется для управления относительным усилением множества акустических систем для устранения неоднозначности в азимуте формируемого источника пространственного звука;
при этом принятая управляющая информация была определена путем обработки информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивали характеристику информации о фазе и соответствующую характеристику информации выборки и характеристика зависела от знака изменения разности фаз и знака изменения пространственной выборки.
38. Устройство для формирования пространственного звука, содержащее:
средства для приема параметризированного звукового сигнала;
средства для приема управляющей информации;
средства для формирования пространственного звука с использованием зарегистрированных звуковых каналов посредством множества акустических систем, при этом управляющая информация используется для управления относительным усилением множества акустических систем для устранения неоднозначности в азимуте формируемого источника пространственного звука;
при этом принятая управляющая информация была определена путем обработки информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов;
при этом в процессе обработки сравнивали характеристику информации о фазе и соответствующую характеристику информации выборки и характеристика зависела от знака изменения разности фаз и знака изменения пространственной выборки.
RU2012102700/28A 2009-06-30 2009-06-30 Устранение позиционной неоднозначности при формировании пространственного звука RU2529591C2 (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2009/058171 WO2011000409A1 (en) 2009-06-30 2009-06-30 Positional disambiguation in spatial audio

Publications (2)

Publication Number Publication Date
RU2012102700A RU2012102700A (ru) 2013-08-10
RU2529591C2 true RU2529591C2 (ru) 2014-09-27

Family

ID=41698521

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012102700/28A RU2529591C2 (ru) 2009-06-30 2009-06-30 Устранение позиционной неоднозначности при формировании пространственного звука

Country Status (5)

Country Link
US (1) US9351070B2 (ru)
EP (1) EP2449795B1 (ru)
CN (1) CN102804808B (ru)
RU (1) RU2529591C2 (ru)
WO (1) WO2011000409A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9351070B2 (en) 2009-06-30 2016-05-24 Nokia Technologies Oy Positional disambiguation in spatial audio

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439585B (zh) * 2009-05-11 2015-04-22 雅基达布鲁公司 从任意信号对提取共同及唯一分量
BR112014017457A8 (pt) * 2012-01-19 2017-07-04 Koninklijke Philips Nv aparelho de transmissão de áudio espacial; aparelho de codificação de áudio espacial; método de geração de sinais de saída de áudio espacial; e método de codificação de áudio espacial
WO2014013070A1 (en) 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals
FR2998438A1 (fr) * 2012-11-16 2014-05-23 France Telecom Acquisition de donnees sonores spatialisees
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
WO2015009748A1 (en) 2013-07-15 2015-01-22 Dts, Inc. Spatial calibration of surround sound systems including listener position estimation
US10219094B2 (en) 2013-07-30 2019-02-26 Thomas Alan Donaldson Acoustic detection of audio sources to facilitate reproduction of spatial audio spaces
US10225680B2 (en) * 2013-07-30 2019-03-05 Thomas Alan Donaldson Motion detection of audio sources to facilitate reproduction of spatial audio spaces
US9894454B2 (en) 2013-10-23 2018-02-13 Nokia Technologies Oy Multi-channel audio capture in an apparatus with changeable microphone configurations
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104410939B (zh) 2014-10-16 2017-12-29 华为技术有限公司 声像方位感处理方法和装置
CN104538037A (zh) * 2014-12-05 2015-04-22 北京塞宾科技有限公司 一种声场采集呈现方法
CN104735588B (zh) * 2015-01-21 2018-10-30 华为技术有限公司 处理声音信号的方法和终端设备
CN105704634B (zh) * 2016-02-22 2019-01-01 惠州华阳通用电子有限公司 反馈式音频输出检测方法及装置
US10560661B2 (en) 2017-03-16 2020-02-11 Dolby Laboratories Licensing Corporation Detecting and mitigating audio-visual incongruence
JP6652096B2 (ja) * 2017-03-22 2020-02-19 ヤマハ株式会社 音響システム、及びヘッドホン装置
CN107087239B (zh) * 2017-04-05 2019-03-08 歌尔股份有限公司 声音信号的处理方法及装置、麦克风
MX2020005045A (es) * 2017-11-17 2020-08-20 Fraunhofer Ges Forschung Aparato y metodo para codificar o decodificar parametros de codificacion de audio direccional utilizando cuantificacion y codificacion entropica.
JP7359146B2 (ja) * 2018-07-04 2023-10-11 ソニーグループ株式会社 インパルス応答生成装置および方法、並びにプログラム
US11425521B2 (en) * 2018-10-18 2022-08-23 Dts, Inc. Compensating for binaural loudspeaker directivity
EP3651448B1 (en) * 2018-11-07 2023-06-28 Nokia Technologies Oy Panoramas
NL2028629B1 (en) * 2021-07-06 2023-01-12 Stichting Radboud Univ Biomimetic microphone and cochlear implant comprising said biomimetic microphone

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2106075C1 (ru) * 1996-03-25 1998-02-27 Владимир Анатольевич Ефремов Пространственная звуковоспроизводящая система
RU2234819C2 (ru) * 1997-10-20 2004-08-20 Нокиа Ойй Способ и система для передачи характеристик виртуального акустического окружающего пространства
RU2329548C2 (ru) * 2004-01-20 2008-07-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ создания многоканального выходного сигнала или формирования низведенного сигнала
RU2007134215A (ru) * 2005-02-14 2009-03-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. (De) Параметрическое совместное кодирование аудиоисточников

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2366617B (en) 1989-07-28 2002-06-26 Secr Defence A towed sonar array apparatus for resolving left/right ambiguity
US6047192A (en) 1996-05-13 2000-04-04 Ksi Inc. Robust, efficient, localization system
ES2257477T3 (es) 2001-04-20 2006-08-01 Lg Electronics Inc. Estimacion de la posicion de un terminal de comunicacion movil mediante la combinacion de medidas de señales intercambiadas entre el terminal movil y las estaciones de base.
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20050147261A1 (en) 2003-12-30 2005-07-07 Chiang Yeh Head relational transfer function virtualizer
JP2006060720A (ja) * 2004-08-24 2006-03-02 Hitachi Ltd 集音システム
US7275008B2 (en) 2005-09-02 2007-09-25 Nokia Corporation Calibration of 3D field sensors
US7558156B2 (en) 2006-01-06 2009-07-07 Agilent Technologies, Inc. Acoustic location and enhancement
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
EP1862813A1 (en) 2006-05-31 2007-12-05 Honda Research Institute Europe GmbH A method for estimating the position of a sound source for online calibration of auditory cue to location transformations
CN100562182C (zh) 2006-07-29 2009-11-18 重庆邮电大学 一种基于信息融合的无线定位多算法增强方法
JP4234746B2 (ja) * 2006-09-25 2009-03-04 株式会社東芝 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム
KR100921368B1 (ko) 2007-10-10 2009-10-14 충남대학교산학협력단 이동형 마이크로폰 어레이를 이용한 소음원 위치 판별정밀도 개선 시스템 및 방법
EP2250821A1 (en) * 2008-03-03 2010-11-17 Nokia Corporation Apparatus for capturing and rendering a plurality of audio channels
DE102008029352A1 (de) 2008-06-20 2009-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zum Lokalisieren einer Schallquelle
RU2529591C2 (ru) 2009-06-30 2014-09-27 Нокиа Корпорейшн Устранение позиционной неоднозначности при формировании пространственного звука

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2106075C1 (ru) * 1996-03-25 1998-02-27 Владимир Анатольевич Ефремов Пространственная звуковоспроизводящая система
RU2234819C2 (ru) * 1997-10-20 2004-08-20 Нокиа Ойй Способ и система для передачи характеристик виртуального акустического окружающего пространства
RU2329548C2 (ru) * 2004-01-20 2008-07-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ создания многоканального выходного сигнала или формирования низведенного сигнала
RU2007134215A (ru) * 2005-02-14 2009-03-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. (De) Параметрическое совместное кодирование аудиоисточников

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9351070B2 (en) 2009-06-30 2016-05-24 Nokia Technologies Oy Positional disambiguation in spatial audio

Also Published As

Publication number Publication date
US20120101610A1 (en) 2012-04-26
US9351070B2 (en) 2016-05-24
WO2011000409A1 (en) 2011-01-06
RU2012102700A (ru) 2013-08-10
CN102804808B (zh) 2015-05-27
EP2449795B1 (en) 2017-05-17
CN102804808A (zh) 2012-11-28
EP2449795A1 (en) 2012-05-09

Similar Documents

Publication Publication Date Title
RU2529591C2 (ru) Устранение позиционной неоднозначности при формировании пространственного звука
US10531198B2 (en) Apparatus and method for decomposing an input signal using a downmixer
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
US20210281964A1 (en) Spatial Audio Signal Format Generation From a Microphone Array Using Adaptive Capture
CA2908180C (en) Apparatus and method for generating an output signal employing a decomposer
KR20230105002A (ko) 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩및 디코딩
US11350213B2 (en) Spatial audio capture
WO2019175472A1 (en) Temporal spatial audio parameter smoothing
US20200413211A1 (en) Spatial Audio Representation and Rendering
AU2015255287B2 (en) Apparatus and method for generating an output signal employing a decomposer

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20160602

MM4A The patent is invalid due to non-payment of fees

Effective date: 20200701