RU2568278C2 - Расширение полосы пропускания звукового сигнала нижней полосы - Google Patents

Расширение полосы пропускания звукового сигнала нижней полосы Download PDF

Info

Publication number
RU2568278C2
RU2568278C2 RU2012125251/08A RU2012125251A RU2568278C2 RU 2568278 C2 RU2568278 C2 RU 2568278C2 RU 2012125251/08 A RU2012125251/08 A RU 2012125251/08A RU 2012125251 A RU2012125251 A RU 2012125251A RU 2568278 C2 RU2568278 C2 RU 2568278C2
Authority
RU
Russia
Prior art keywords
audio signal
band
lower band
frequency
features
Prior art date
Application number
RU2012125251/08A
Other languages
English (en)
Other versions
RU2012125251A (ru
Inventor
Володя ГРАНЧАРОВ
Стефан БРУН
Харальд ПОБЛОТ
Сигурдур СВЕРРИССОН
Original Assignee
Телефонактиеболагет Лм Эрикссон (Пабл)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Телефонактиеболагет Лм Эрикссон (Пабл) filed Critical Телефонактиеболагет Лм Эрикссон (Пабл)
Publication of RU2012125251A publication Critical patent/RU2012125251A/ru
Application granted granted Critical
Publication of RU2568278C2 publication Critical patent/RU2568278C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

Изобретение относится к средствам расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала. Технический результат заключается в повышении эффективности расширения полосы звукового сигнала. Расширение полосы звукового сигнала включает в себя следующие этапы: извлекают (S1) набор особенностей звукового сигнала нижней полосы; сопоставляют (S2) извлеченные особенности по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования; сдвигают (S3) по частоте копию звукового сигнала нижней полосы в верхнюю полосу; управляют (S4) огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью упомянутого по меньшей мере одного параметра верхней полосы. 4 н. и 9 з.п. ф-лы, 14 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к кодированию звука, и в частности, к расширению полосы пропускания звукового сигнала нижней полосы.
УРОВЕНЬ ТЕХНИКИ
Настоящее изобретение относится к расширению полосы пропускания (BWE) звуковых сигналов. Схемы BWE все больше используют в кодировании/декодировании речи и аудиосигналов для улучшения воспринимаемого качества при заданной скорости передачи битов. Главной идеей в основе BWE является то, что часть звукового сигнала не передают, а восстанавливают (оценивают) в декодере из компонентов принятого сигнала.
Таким образом, в схеме BWE часть спектра сигнала восстанавливают в декодере. Восстановление выполняют, используя некоторые особенности спектра сигнала, который был фактически передан, используя традиционные методы кодирования. Обычно верхнюю полосу (HB) сигнала восстанавливают из некоторых особенностей звукового сигнала нижней полосы (LB).
Зависимости между особенностями LB и характеристиками сигнала HB часто моделируют с помощью модели гауссовых смесей (GMM) или скрытых марковских моделей (ХМ), например, [1-2]. Чаще всего предсказанные характеристики HB относятся к спектральным и/или временным огибающим.
Существуют два основных подхода BWE:
• В первом подходе характеристики сигнала HB полностью предсказывают из некоторых особенностей LB. Эти решения BWE вносят артефакты в восстановленный сигнал HB, что в некоторых случаях приводит к ухудшению качества по сравнению с сигналом с ограниченной полосой. Сложные сопоставления (например, основанные на GMM или ХМ) вполне вероятно приводят к ухудшению качества при неизвестных данных. Практика обычно такова, что чем сложнее сопоставление (большое количество обучающих параметров), тем более вероятно возникновение артефактов при данных того типа, который не присутствует в обучающем наборе данных. Не является тривиальной задачей найти сопоставление с такой сложностью, которая обеспечивает оптимальный баланс между общей точностью предсказания и низким количеством выбросов (данных, которые заметно отклоняются от данных в обучающем наборе, т.е. компонентов, которые не могут быть очень хорошо смоделированы).
• Вторым подходом (пример описан в [3]) является восстановление сигнала HB из комбинации особенностей LB и небольшого количества переданной информации HB. Схемы BWE с помощью переданной информации HB приводят к улучшению эффективности (за счет увеличения битового бюджета), но не предлагают обобщенную схему объединения переданных и предсказанных параметров. Обычно один набор параметров HB передают, а другой набор параметров HB предсказывают, что означает, что переданная информация не может компенсировать неудачи в предсказанных параметрах.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Задачей настоящего изобретения является достижение улучшенной схемы BWE.
Эта задача достигается с помощью прилагаемой формулы изобретения.
Согласно первому аспекту настоящее изобретение содержит способ оценки расширения верхней полосы звукового сигнала нижней полосы. Этот способ включает в себя следующие этапы. Извлекают набор особенностей звукового сигнала нижней полосы. Извлеченные особенности сопоставляют по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования. Копию звукового сигнала нижней полосы сдвигают по частоте в верхнюю полосу. Огибающей сдвинутой по частоте копии звукового сигнала нижней полосы управляют по меньшей мере с помощью одного параметра верхней полосы.
Согласно второму аспекту настоящее изобретение содержит устройство для оценки расширения верхней полосы звукового сигнала нижней полосы. Блок извлечения особенностей конфигурируют для извлечения набора особенностей звукового сигнала нижней полосы. Блок сопоставления включает в себя следующие элементы: модуль сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования; модуль сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы в верхнюю полосу; модуль управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью упомянутого по меньшей мере одного параметра верхней полосы.
Согласно третьему аспекту настоящее изобретение содержит речевой декодер, включающий в себя устройство согласно второму аспекту.
Согласно четвертому аспекту настоящее изобретение содержит сетевой узел, включающий в себя речевой декодер согласно третьему аспекту.
Преимущество предложенной схемы BWE состоит в том, что она предлагает хороший баланс между сложными схемами сопоставления (хорошая средняя эффективность, но сильные выбросы) и более ограниченной схемой сопоставления (ниже средняя эффективность, но более устойчивая).
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Данное изобретение, вместе с дополнительными задачами и преимуществами, можно лучше всего понять, обращаясь к последующему описанию, рассмотренному вместе с сопроводительными чертежами, на которых:
Фиг.1 - структурная схема, иллюстрирующая вариант осуществления структуры кодирования/декодирования, которая включает в себя речевой декодер согласно одному из вариантов осуществления настоящего изобретения;
Фиг.2A-C являются схемами, иллюстрирующими принципы обобщенных аддитивных моделей;
Фиг.3 - структурная схема, иллюстрирующая вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB;
Фиг.4 - схема, иллюстрирующая пример параметра верхней полосы, полученного с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения;
Фиг.5 - схема, иллюстрирующая определение подходящих для извлечения особенностей в другом варианте осуществления настоящего изобретения;
Фиг.6 - структурная схема, иллюстрирующая вариант осуществления устройства согласно настоящему изобретению, подходящий для генерации расширения HB, основываясь на особенностях, проиллюстрированных на фиг.5;
Фиг.7 - схема, иллюстрирующая пример параметров верхней полосы, полученных с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения, основываясь на особенностях, проиллюстрированных на фиг.5;
Фиг.8 - структурная схема, иллюстрирующая другой вариант осуществления структуры кодирования/декодирование, которая включает в себя речевой декодер согласно другому варианту осуществления настоящего изобретения;
Фиг.9 - структурная схема, иллюстрирующая дополнительный вариант осуществления структуры кодирования/декодирования, которая включает в себя речевой декодер согласно дополнительному варианту осуществления настоящего изобретения;
Фиг.10 - структурная схема, иллюстрирующая другой вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB;
Фиг.11 - структурная схема, иллюстрирующая дополнительный вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB;
Фиг.12 - структурная схема, иллюстрирующая вариант осуществления сетевого узла, включающего в себя вариант осуществления речевого декодера согласно настоящему изобретению;
Фиг.13 - структурная схема, иллюстрирующая вариант осуществления речевого декодера согласно настоящему изобретению; и
Фиг.14 - последовательность операций, которая иллюстрирует вариант осуществления способа согласно настоящему изобретению.
ПОДРОБНОЕ ОПИСАНИЕ
Элементы, имеющие одинаковые или подобные функции, будут обеспечены теми же самыми условными обозначениями на чертежах.
Далее объясняют набор особенностей LB и их использование для оценки части HB сигнала посредством сопоставления. Дополнительно, также объясняют, как переданная информация HB может использоваться для управления сопоставлением.
Фиг.1 - структурная схема, иллюстрирующая вариант осуществления структуры кодирования/декодирования, которая включает в себя речевой декодер согласно одному из вариантов осуществления настоящего изобретения. Речевой кодер 1 принимает (обычно кадр) исходный звуковой сигнал s, который направляют к блоку 10 фильтров анализа, который разделяет звуковой сигнал на часть SLB нижней полосы и часть SHB верхней полосы. В данном варианте осуществления часть HB не используют (что подразумевает, что блок фильтров анализа может просто содержать низкочастотный фильтр). Часть LB SLB звукового сигнала кодируют в кодере 12 LB (обычно в кодере линейного предсказания с кодовым возбуждением (CELP), например, в кодере с линейным предсказанием с алгебраическим кодовым возбуждением (ACELP)), и код посылают в речевой декодер 2. Пример кодирования/декодирования ACELP можно найти в [4]. Код, принимаемый речевым декодером 2, декодируют в декодере 14 LB (обычно в декодере CELP, например, в декодере ACELP), который выдает звуковой сигнал ŝLB нижней полосы, соответствующий SLB. Этот звуковой сигнал ŝLB нижней полосы направляют к блоку 16 извлечения особенностей, который извлекает набор особенностей FLB (описан ниже) сигнала ŝLB. Извлеченные особенности FLB направляют к блоку 18 сопоставления, который сопоставляет их по меньшей мере с одним параметром верхней полосы (описан ниже) с помощью обобщенного аддитивного моделирования (описано ниже). Параметр(ы) HB используется(ются) для управления огибающей копии звукового сигнала LB ŝLB, которая была сдвинута по частоте в верхнюю полосу, который дает предсказание или оценку ŝHB части HB, которую не используют, SHB. Сигналы SLB и SHB направляют к блоку 20 фильтров синтеза, который восстанавливает оценку ŝ оригинального исходного звукового сигнала. Блок 16 извлечения особенностей и блок 18 сопоставления вместе формируют устройство 30 (дополнительно описано ниже) для генерации расширения HB.
Представленные ниже в качестве примера особенности звукового сигнала LB, называемые локальными особенностями, используют для предсказания некоторых характеристик сигнала HB. Можно использовать все особенности или подмножество представленных в качестве примера особенностей. Все эти локальные особенности вычисляют на покадровой основе, и динамика локальных особенностей также включает в себя информацию из предыдущего кадра. В последующем n является индексом кадра, l является индексом выборки и s(n,l) является речевой выборкой.
Первые две примерные особенности относятся к наклону спектра и к динамике наклона. Они измеряют частотное распределение энергии:
Figure 00000001
Figure 00000002
Следующие две примерные особенности измеряют частоту основного тона (основную частоту речи) и динамику частоты основного тона. Поиск оптимальной задержки ограничен имеющим смысл диапазоном частоты основного тона, τMIN и τMAX, например, 50-400 Гц:
Figure 00000003
Figure 00000004
Пятая и шестая примерные особенности отражают баланс между тоновым и шумоподобным компонентами в сигнале. В данном случае σ2ACB и σ2FCB являются энергией адаптивной и фиксированной кодовой книги в кодеках CELP, например, в кодеках ACELP, и является энергией сигнала возбуждения:
Figure 00000005
Figure 00000006
Последняя локальная особенность в данном примерном наборе фиксирует динамику энергии на покадровой основе. В данном случае σ2S является энергией речевого кадра:
Figure 00000007
Все эти локальные особенности, которые используются при сопоставлении, масштабируются перед сопоставлением следующим образом:
Figure 00000008
где ΨΜΙΝ и ΨΜАX являются предварительно определенными константами, которые соответствуют минимальному и максимальному значению для заданной особенности. Это дает набор извлеченных особенностей Ψ= { Ψ ˜ 1 ,..., Ψ ˜ 7 }
Figure 00000009
.
Согласно настоящему изобретению оценка расширения HB из локальных особенностей основана на обобщенном аддитивном моделировании. По этой причине данная концепция будет кратко описана в отношении фиг.2A-C. Дополнительные подробности относительно обобщенных аддитивных моделей могут быть найдены, например, в [5].
В статистике регрессионные модели часто используют для оценки поведения параметров. Простой моделью является линейная модель:
Figure 00000010
,
где Ŷ - оценка переменной Y, которая зависит от (случайных) переменных X1,..., XM. Это показано для М=2 на фиг.2A. В этом случае Ŷ будет плоской поверхностью.
Характерной особенностью линейной модели является то, что каждый элемент суммирования линейно зависит только от одной переменной. Обобщением этой особенности является изменение (по меньшей мере одной из) этих линейных функций на нелинейные функции (каждая из которых все еще зависит только от одной переменной). Это приводит к аддитивной модели:
Figure 00000011
Эта аддитивная модель проиллюстрирована на фиг.2B для М = 2. В этом случае поверхность, представляющая Ŷ, является изогнутой. Функции fm(Xm) обычно являются сигмоидальными функциями (в общем случае функциями, имеющими форму «S»), как проиллюстрировано на фиг.2B. Примерами сигмоидальных функций являются логистическая функция, кривая Гомперца, S-образная кривая и функция гиперболического тангенса. Изменяя параметры, которые определяют сигмоидальную функцию, сигмоидальная форма может изменяться непрерывно от приблизительно линейной формы между минимумом и максимумом до приблизительно ступенчатой функции между теми же самыми минимумом и максимумом.
Дополнительное обобщение получают с помощью обобщенной аддитивной модели
Figure 00000012
где g(⋅) называют связывающей функцией. Это проиллюстрировано на фиг.2C, где поверхность Ŷ дополнительно изменяют (Ŷ получают, беря инверсию g-1(⋅), обычно также сигмоидальную, обеих сторон в уравнении (11)). В особом случае, когда связывающая функция g(⋅) является функцией тождественности, уравнение (11) уменьшают до уравнения (10). Так как оба случая представляют интерес, в целях настоящего изобретения «обобщенная аддитивная модель» будет также включать в себя случай связывающей функции тождественности. Однако, как отмечено выше, по меньшей мере одна из функций fm(Xm) нелинейна, что делает модель нелинейной (поверхность Ŷ изогнута).
В одном из вариантов осуществления настоящего изобретения 7 (нормализованных) особенностей Ψ= { Ψ ˜ 1 ,..., Ψ ˜ 7 }
Figure 00000013
, полученных согласно уравнениям (1)-(8), используют для оценки соотношения Y(n) между энергией HB и LB в сжатой (обусловленной восприятием) области. Это соотношение может соответствовать некоторым частям временной или спектральной огибающих или полному усилению, как будет дополнительно описано ниже. Например:
Figure 00000014
где β можно выбирать как, например, β = 0,2. Другой пример:
Figure 00000015
В уравнениях (12) и (13) параметр β и функцию log10 используют для преобразования соотношения энергии в сжатую «обусловленную восприятием» область. Это преобразование выполняют для учета приблизительно логарифмических характеристик чувствительности человеческого уха.
Так как энергия EHB(n) не доступна в декодере, соотношение Y(n) предсказывают или оценивают. Это делают с помощью моделирования оценки Ŷ(n) соотношения Y(n), основываясь на извлеченных особенностях LB и обобщенной аддитивной модели. Пример задан с помощью:
Figure 00000016
где М = 7 при заданных извлеченных локальных особенностях (меньшее количество особенностей также допустимо). Если сравнивать с уравнением (11), то очевидно, что Ψ ˜ 1 ,..., Ψ ˜ M
Figure 00000017
соответствуют переменным X1,..., XP и что функции fk соответствуют элементам в сумме, которые являются сигмоидальными функциями, определенными с помощью параметров модели ω={ω1m, ω2m, ω2m}Mm=1 и связывающей функцией тождественности. Параметры ω0 и ω обобщенной аддитивной модели хранятся в декодере, и они были получены с помощью обучения на базе данных речевых кадров. Обучающая процедура находит подходящие параметры ω0 и ω с помощью минимизации ошибки между соотношением Ŷ(n), оцененным с помощью уравнения (14), и фактическим соотношением Y(n), заданным уравнением (12) (или (13)) по речевой базе данных. Подходящим способом (специально для сигмоидальных параметров) является способ Левенберга-Марквардта, описанный, например, в [6].
Фиг.3 - структурная схема, иллюстрирующая вариант осуществления устройства 30 согласно настоящему изобретению для генерации расширения HB. Устройство 30 включает в себя блок 16 извлечения особенностей, сконфигурированный для извлечения набора особенностей Ψ ˜ 1 Ψ ˜ 7
Figure 00000018
звукового сигнала нижней полосы. Блок 18 сопоставления, соединенный с блоком 16 извлечения особенностей, включает в себя модуль 32 сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей с параметром верхней полосы Ŷ с помощью обобщенного аддитивного моделирования. В проиллюстрированном варианте осуществления блок 18 сопоставления включает в себя модуль 34 сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы ŝLB в верхнюю полосу. В проиллюстрированном варианте осуществления блок 18 сопоставления также включает в себя модуль 36 управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью параметра верхней полосы Ŷ.
Фиг.4 - схема, иллюстрирующая пример параметра верхней полосы, полученного с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения. Она иллюстрирует, как предполагаемое соотношение (усиление) Ŷ используется для управления огибающей сдвинутой по частоте копии сигнала LB (в этом случае в частотной области). Пунктирная линия представляет постоянное усиление (1,0) сигнала LB. Таким образом, в данном варианте осуществления расширение HB получают с помощью применения одного предполагаемого усиления Ŷ к сдвинутой по частоте копии сигнала LB.
Фиг.5 - схема, иллюстрирующая определение подходящих для извлечения особенностей в другом варианте осуществления настоящего изобретения. В данном варианте осуществления извлекают только 2 особенности F1, F2 сигнала LB.
В показанном на фиг.5 варианте осуществления особенность F1 определяют с помощью:
Figure 00000019
где
E10,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 10,0-11,6 кГц,
E8,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 8,0-11,6 кГц.
Кроме того, в проиллюстрированном на фиг.5 варианте осуществления особенность F2 определяют с помощью:
Figure 00000020
где
E8,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 8,0-11,6 кГц,
E0,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 0,0-11,6 кГц.
Особенности F1, F2 представляют наклон спектра и аналогичны описанной выше особенности Ψ1, но их определяют в частотной области вместо временной области. Кроме того, может применяться определение особенностей F1, F2 по другим частотным интервалам сигнала LB. Однако в данном варианте осуществления настоящего изобретения важно, что F1, F2 описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
Используя извлеченные особенности F1, F2, теперь возможно, чтобы модуль 32 сопоставления сопоставлял их с параметрами HB E ^ k
Figure 00000021
с помощью использования обобщенной аддитивной модели:
Figure 00000022
где
E ^ k
Figure 00000023
k=1..., K, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей K предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
{w0k, w1mk, w2mk, w3mk} являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра E ^ k
Figure 00000024
верхней полосы,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
Фиг.6 - структурная схема, иллюстрирующая вариант осуществления устройства согласно настоящему изобретению, подходящий для генерации расширения HB, основываясь на особенностях, проиллюстрированных на фиг.5. Данный вариант осуществления включает в себя аналогичные элементы, как вариант осуществления на фиг.3, но в этом случае они сконфигурированы для сопоставления особенностей F1, F2 с K усилениями E ^ k
Figure 00000025
вместо одного усиления Ŷ.
Фиг.7 - схема, иллюстрирующая пример параметров верхней полосы, полученных с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения, основываясь на особенностях, проиллюстрированных на фиг.5. В данном примере существует K=4 усилений E ^ k
Figure 00000026
, которые управляют огибающей 4 предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы. Таким образом, в данном примере огибающей HB управляют с помощью 4 параметров E ^ k
Figure 00000027
вместо одного параметра Ŷ в примере, относящемся к фиг.4. Меньшее и большее количество параметров также допустимо.
Фиг.8 - структурная схема, иллюстрирующая другой вариант осуществления структуры кодирования/декодирования, которая включает в себя декодер согласно другому варианту осуществления настоящего изобретения. Данный вариант осуществления отличается от варианта осуществления на фиг.1 тем, что в нем используют сигнал HB SHB. Вместо этого сигнал HB направляют к блоку 22 информации HB, который классифицирует сигнал HB и посылает N-битовый индекс класса в речевой декодер 2. Если передача информации HB разрешена, как проиллюстрировано на фиг.8, то сопоставление выполняют по частям с совокупностями, которые обеспечивают с помощью данной передачи, причем количество классов зависит от количества доступных битов. Индекс класса используют с помощью блока 18 сопоставления, как будет описано ниже.
Фиг.9 - структурная схема, иллюстрирующая дополнительный вариант осуществления структуры кодирования/декодирования, которая включает в себя декодер согласно дополнительному варианту осуществления настоящего изобретения. Этот вариант осуществления аналогичен варианту осуществления на фиг.8, но формирует индекс класса, используя и сигнал HB sHB, и сигнал LB sLB. В данном примере N=1 бит, но также возможно иметь больше 2 классов, если индекс будет включать в себя большее количество битов.
Фиг.10 - структурная схема, иллюстрирующая другой вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB. Данный вариант осуществления отличается от варианта осуществления на фиг.3 тем, что он включает в себя модуль 38 выбора набора коэффициентов сопоставления, который сконфигурирован для выбора набора коэффициентов сопоставления ωC = { w 0 k C , w 1 m k C , w 2 m k C , w 3 m k C }
Figure 00000028
, зависящего от принятого индекса C класса сигнала. В данном варианте осуществления параметр верхней полосы Ŷ предсказывают из набора особенностей нижней полосы Ψ ˜
Figure 00000029
и предварительно сохраненных коэффициентов сопоставления ωC. Индекс C класса выбирает набор коэффициентов сопоставления, который определяют с помощью обучающей процедуры в автономном режиме, чтобы они соответствовали данным в этой совокупности. Это можно увидеть, как постепенный переход из состояния, когда HB просто предсказывают (нет классификации), в состояние, когда HB просто квантуют (с классификацией). Последнее является результатом того факта, что с увеличением количества совокупностей сопоставление будет иметь тенденцию предсказывать среднее значение совокупности.
Фиг.11 - структурная схема, иллюстрирующая дополнительный вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB. Данный вариант осуществления аналогичен варианту осуществления на фиг.10, но основан на особенностях F1, F2, описанных в отношении фиг.5. Кроме того, в данном варианте осуществления класс C сигнала задают с помощью (также относится к верхней части фиг.5):
Figure 00000030
где
ES8,0-11,6 - оценка энергии исходного звукового сигнала в частотной полосе 8,0-11,6 кГц, и
ES11,6-16,0 - оценка энергии исходного звукового сигнала в частотной полосе 11,6-16,0 кГц.
В данном примере C классифицирует (грубо говоря, чтобы дать мысленное представление того, что означает данная примерная классификация) звуки на «вокализованные» (класс 1) и «невокализованные» (класс 2).
Основываясь на этой классификации, блок 18 сопоставления можно конфигурировать для выполнения сопоставления согласно (обобщенной аддитивной модели 32):
Figure 00000031
где
E ^ k C
Figure 00000032
, k = 1,…,K, являются параметрами верхней полосы, которые определяют усиление, связанное с классом C сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы (ŝLB), и управляют огибающей K предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
{ w 0 k C , w 1 m k C , w 2 m k C , w 3 m k C }
Figure 00000028
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра E ^ k
Figure 00000033
верхней полосы в классе сигнала,
Fm, m = 1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
В качестве примера K = 4, и F1, F2 можно определять с помощью (15) и (16).
Преимущество вариантов осуществления на фиг.8-11 состоит в том, что они обеспечивают «точную настройку» сопоставления извлеченных особенностей с типом кодируемого звука.
Фиг.12 - структурная схема, иллюстрирующая вариант осуществления сетевого узла, включающего в себя вариант осуществления речевого декодера 2 согласно настоящему изобретению. Этот вариант осуществления иллюстрирует радио-терминал, но другие сетевые узлы можно также применять. Например, если передача голоса по IP (Интернет протоколу) используется в сети, то узлы могут содержать компьютеры.
В сетевом узле на фиг.12 антенна принимает закодированный речевой сигнал. Демодулятор и канальный декодер 50 преобразовывает этот сигнал в речевые параметры нижней полосы (и дополнительно - в класс C сигнала, как обозначено «(класс C)» и штриховой линией сигнала) и направляет их к речевому декодеру 2 для генерации речевого сигнала s, как описано выше в отношении различных вариантов осуществления.
Описанные в данном документе этапы, функции, процедуры и/или блоки можно воплощать в аппаратном обеспечении, используя любую обычную технологию, такую как технология дискретных схем или интегральных схем, которые включают в себя и универсальную электронную схему, и специальную схему.
Альтернативно, по меньшей мере некоторые из описанных этапов, функций, процедур и/или блоков можно воплощать в программном обеспечении для выполнения с помощью подходящего устройства обработки, такого как микропроцессор, цифровой сигнальный процессор (DSP) и/или любое подходящее программируемое логическое устройство, например, устройство на основе программируемой пользователем вентильной матрицы (FPGA).
Нужно также подразумевать, что можно многократно использовать обычные возможности обработки сетевых узлов. Это можно сделать, например, с помощью перепрограммирования существующего программного обеспечения или добавления новых компонентов программного обеспечения.
В качестве примера реализации, фиг.13 является структурной схемой, иллюстрирующей вариант осуществления примера речевого декодера 2 согласно настоящему изобретению. Данный вариант осуществления основан на процессоре 100, например, микропроцессоре, который выполняет компонент 110 программного обеспечения для оценки речевого сигнала нижней полосы ŝLB, компонент 120 программного обеспечения для оценки речевого сигнала верхней полосы ŝHB, и компонент 130 программного обеспечения для генерации речевого сигнала ŝ из ŝLB и ŝHB. Данное программное обеспечение хранится в памяти 150. Процессор 100 осуществляет связь с памятью по системной шине. Параметры речи нижней полосы (и дополнительно класс C сигнала) принимаются с помощью контроллера 160 ввода/вывода (I/O), который управляет шиной I/O, с которой соединены процессор 100 и память 150. В данном варианте осуществления параметры, принимаемые контроллером 150 I/O, сохраняются в памяти 150, где они обрабатываются с помощью компонентов программного обеспечения. Компонент 110 программного обеспечения может воплощать функциональные возможности блока 14 в описанных выше вариантах осуществления. Компонент 120 программного обеспечения может воплощать функциональные возможности блока 30 в описанных выше вариантах осуществления. Компонент 130 программного обеспечения может воплощать функциональные возможности блока 20 в описанных выше вариантах осуществления. Речевой сигнал, полученный из компонента 130 программного обеспечения, выводится из памяти 150 с помощью контроллера 160 I/O по шине I/O.
В варианте осуществления на фиг.13 речевые параметры принимаются с помощью контроллера 160 I/O, а другие задачи, такие как демодуляция и канальное декодирование в радио-терминале, как предполагается, обрабатываются в другом месте в принимающем сетевом узле. Однако, в качестве альтернативы можно предоставлять возможность дополнительным компонентам программного обеспечения в памяти 150 также выполнять всю или часть цифровой обработки сигналов для извлечения речевых параметров из принимаемого сигнала. В таком варианте осуществления речевые параметры можно получать непосредственно из памяти 150.
В случае, если принимающий сетевой узел является компьютером, принимающим пакеты передачи голоса по IP-протоколу, то IP-пакеты обычно направляются к контроллеру 160 I/O, а речевые параметры извлекаются с помощью дополнительных компонентов программного обеспечения в памяти 150.
Некоторые или все описанные выше компоненты программного обеспечения можно переносить на компьютерно-читаемом носителе, например, на CD (компакт-диске), на DVD (цифровом универсальном диске) или на жестком диске, и загружать в память для выполнения с помощью процессора.
Фиг.14 - последовательность операций, которая иллюстрирует один из вариантов осуществления способа согласно настоящему изобретению. На этапе S1 извлекают набор особенностей ( F L B , Ψ ˜ 1 Ψ ˜ 7 , F 1 , F 2 )
Figure 00000034
звукового сигнала нижней полосы. На этапе S2 сопоставляют извлеченные особенности по меньшей мере с одним параметром верхней полосы ( Y ^ , Y ^ C , E ^ k , E ^ k C )
Figure 00000035
с помощью обобщенного аддитивного моделирования. На этапе S3 сдвигают по частоте копию звукового сигнала нижней полосы ŝLB в верхнюю полосу. На этапе S4 управляют огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью параметра(ов) верхней полосы.
Специалистам будет понятно, что различные модификации и изменения могут быть сделаны в настоящем изобретении без отступления от его объема, который определен с помощью прилагаемой формулы изобретения.
СОКРАЩЕНИЯ
ACELP - линейное предсказание с алгебраическим кодовым возбуждением
BWE - расширение полосы пропускания
CELP - линейное предсказание с кодовым возбуждением
DSP - цифровой сигнальный процессор
FPGA - программируемая пользователем вентильная матрица
GMM - модель гауссовых смесей
HB - верхняя полоса
HMM - скрытые марковские модели
IP - Интернет-протокол
LB - нижняя полоса
ССЫЛКИ
[1] M. Nilsson and W. B. Kleijn, «Avoiding over-estimation in bandwidth extension of telephony speech», Proc. IEEE Int. Conf. Acoust. Speech Sign. Process., 2001.
[2] P. Jax and P. Vary, «Wideband extension of telephone speech using a hidden Markov model», IEEE Workshop on Speech Coding, 2000.
[3] ITU-T Rec. G.729.1, «G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729», 2006.
[4] 3GPP TS 26. 190, «Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions», 2008.
[5] «New Approaches to Regression by Generalized Additive Models and Continuous Optimization for Modern Applications in Finance, Science and Technology», Pakize Taylan, Gerhard- Wilhelm Weber, Amir Beck, http://www3.iam.metu.edu.tr/iam/images/1/10/Preprint56.pdf
[6] Numerical Recipes in C++: The Art of Scientific Computing, 2nd edition, reprinted 2003, W. Press, S. Teukolsky, W. Vetterling, B. Flannery.

Claims (13)

1. Способ расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала, который включает в себя этап извлечения (S1) набора особенностей
Figure 00000036
звукового сигнала нижней полосы, причем упомянутый способ отличается тем, что содержит этапы, на которых:
сопоставляют (S2) извлеченные особенности по меньшей мере с одним параметром верхней полосы
Figure 00000037
с помощью обобщенного аддитивного моделирования;
сдвигают (S3) по частоте копию звукового сигнала нижней полосы
Figure 00000038
в верхнюю полосу;
управляют (S4) огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью упомянутого по меньшей мере одного параметра верхней полосы.
2. Способ по п. 1, в котором сопоставление основано на сумме сигмоидальных функций извлеченных особенностей
Figure 00000039
.
3. Способ по п. 2, в котором сопоставление задают с помощью:
Figure 00000040

где
Figure 00000041
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
Figure 00000042
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра
Figure 00000043
верхней полосы,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
4. Способ по п. 2, в котором сопоставление задают с помощью:
Figure 00000044

где
Figure 00000045
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, связанное с классом С сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы
Figure 00000038
, и управляют огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
Figure 00000046
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра
Figure 00000047
верхней полосы в классе С сигнала,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
5. Способ по п. 3 или 4, в котором К=4.
6. Устройство (30) расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала, которое включает в себя блок (16) извлечения особенностей, сконфигурированный для
извлечения набора особенностей
Figure 00000048
звукового сигнала нижней полосы, причем упомянутое устройство отличается тем, что содержит блок (18) сопоставления, который включает в себя:
модуль (32) сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей по меньшей мере с одним параметром верхней полосы
Figure 00000049
с помощью обобщенного аддитивного моделирования;
модуль (34) сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы
Figure 00000050
в верхнюю полосу;
модуль (36) управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью упомянутого по меньшей мере одного параметра верхней полосы.
7. Устройство по п. 6, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для сопоставления, основанного на сумме сигмоидальных функций извлеченных особенностей
Figure 00000051
.
8. Устройство по п. 7, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для выполнения сопоставления согласно:
Figure 00000052

где
Figure 00000053
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
Figure 00000054
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра
Figure 00000055
верхней полосы,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
9. Устройство по п. 7, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для выполнения сопоставления согласно:
Figure 00000056

где
Figure 00000057
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, связанное с классом С сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы
Figure 00000038
, и управляют огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
Figure 00000058
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра
Figure 00000059
верхней полосы в классе С сигнала,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
10. Устройство по п. 8 или 9, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для сопоставления извлеченных особенностей с К=4 параметрами верхней полосы
Figure 00000060
.
11. Речевой декодер, включающий в себя устройство (30) по любому из предыдущих пп. 6-9.
12. Сетевой узел, включающий в себя речевой декодер по п. 11.
13. Сетевой узел по п. 12, в котором сетевой узел является радио-терминалом.
RU2012125251/08A 2009-11-19 2010-09-14 Расширение полосы пропускания звукового сигнала нижней полосы RU2568278C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US26259309P 2009-11-19 2009-11-19
US61/262,593 2009-11-19
PCT/SE2010/050984 WO2011062538A1 (en) 2009-11-19 2010-09-14 Bandwidth extension of a low band audio signal

Publications (2)

Publication Number Publication Date
RU2012125251A RU2012125251A (ru) 2013-12-27
RU2568278C2 true RU2568278C2 (ru) 2015-11-20

Family

ID=44059836

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012125251/08A RU2568278C2 (ru) 2009-11-19 2010-09-14 Расширение полосы пропускания звукового сигнала нижней полосы

Country Status (7)

Country Link
US (1) US8929568B2 (ru)
EP (1) EP2502231B1 (ru)
JP (1) JP5619177B2 (ru)
CN (1) CN102612712B (ru)
BR (1) BR112012012119A2 (ru)
RU (1) RU2568278C2 (ru)
WO (1) WO2011062538A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
WO2013147668A1 (en) 2012-03-29 2013-10-03 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of harmonic audio signal
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
CN110111801B (zh) * 2013-01-29 2023-11-10 弗劳恩霍夫应用研究促进协会 音频编码器、音频解码器、方法及编码音频表示
PT2951825T (pt) * 2013-01-29 2022-02-02 Fraunhofer Ges Forschung Aparelho e método para geração de um sinal aprimorado em frequência utilizando suavização temporal de sub-bandas
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9837094B2 (en) * 2015-08-18 2017-12-05 Qualcomm Incorporated Signal re-use during bandwidth transition period
WO2020180424A1 (en) 2019-03-04 2020-09-10 Iocurrents, Inc. Data compression and communication using machine learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0732687A2 (en) * 1995-03-13 1996-09-18 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
RU2199157C2 (ru) * 1997-03-03 2003-02-20 Телефонактиеболагет Лм Эрикссон (Пабл) Способ последующей обработки с высокой разрешающей способностью для речевого декодера
EP1300833A2 (en) * 2001-10-04 2003-04-09 AT&T Corp. A method of bandwidth extension for narrow-band speech
EP1638083A1 (en) * 2004-09-17 2006-03-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
WO2005078707A1 (en) * 2004-02-16 2005-08-25 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
AU2006232361B2 (en) * 2005-04-01 2010-12-23 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
CA2558595C (en) 2005-09-02 2015-05-26 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
KR20070037945A (ko) * 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
TWI556227B (zh) * 2009-05-27 2016-11-01 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0732687A2 (en) * 1995-03-13 1996-09-18 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
RU2199157C2 (ru) * 1997-03-03 2003-02-20 Телефонактиеболагет Лм Эрикссон (Пабл) Способ последующей обработки с высокой разрешающей способностью для речевого декодера
EP1300833A2 (en) * 2001-10-04 2003-04-09 AT&T Corp. A method of bandwidth extension for narrow-band speech
EP1638083A1 (en) * 2004-09-17 2006-03-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
RU2742296C2 (ru) * 2015-06-18 2021-02-04 Квэлкомм Инкорпорейтед Генерация сигнала верхней полосы
US11437049B2 (en) 2015-06-18 2022-09-06 Qualcomm Incorporated High-band signal generation
US12009003B2 (en) 2015-06-18 2024-06-11 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges

Also Published As

Publication number Publication date
EP2502231A1 (en) 2012-09-26
JP5619177B2 (ja) 2014-11-05
CN102612712B (zh) 2014-03-12
JP2013511743A (ja) 2013-04-04
WO2011062538A9 (en) 2011-06-30
CN102612712A (zh) 2012-07-25
US8929568B2 (en) 2015-01-06
US20120230515A1 (en) 2012-09-13
BR112012012119A2 (pt) 2021-01-05
WO2011062538A1 (en) 2011-05-26
RU2012125251A (ru) 2013-12-27
EP2502231A4 (en) 2013-07-10
EP2502231B1 (en) 2014-06-04

Similar Documents

Publication Publication Date Title
RU2568278C2 (ru) Расширение полосы пропускания звукового сигнала нижней полосы
US11562764B2 (en) Apparatus, method or computer program for generating a bandwidth-enhanced audio signal using a neural network processor
RU2371784C2 (ru) Изменение масштаба времени кадров в вокодере посредством изменения остатка
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
RU2414010C2 (ru) Трансформация шкалы времени кадров в широкополосном вокодере
TWI480857B (zh) 在不活動階段期間利用雜訊合成之音訊編解碼器
JP5714180B2 (ja) パラメトリックオーディオコーディング方式の鑑識検出
TWI480856B (zh) 音訊編解碼器中之雜訊產生技術
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
RU2420817C2 (ru) Системы, способы и устройство для ограничения коэффициента усиления
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
TW201009812A (en) Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
KR102380487B1 (ko) 오디오 신호 디코더에서의 개선된 주파수 대역 확장
RU2744485C1 (ru) Ослабление шума в декодере
IL239718A (en) Systems and methods for performing amplification control
JP6321684B2 (ja) サブバンドの時間的平滑化を用いて周波数増強信号を生成する装置および方法
Yu et al. Speech enhancement using a DNN-augmented colored-noise Kalman filter
CN116997962A (zh) 基于卷积神经网络的鲁棒侵入式感知音频质量评估
JP2016507789A (ja) 平均符号化レートを制御するためのシステムおよび方法
JP2006521576A (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
US20090063158A1 (en) Efficient audio coding using signal properties
Giacobello et al. Stable 1-norm error minimization based linear predictors for speech modeling
JP2008519308A5 (ru)
Faycal et al. Comparative performance study of several features for voiced/non-voiced classification
JPWO2007037359A1 (ja) 音声符号化装置および音声符号化方法

Legal Events

Date Code Title Description
HC9A Changing information about inventors
MM4A The patent is invalid due to non-payment of fees

Effective date: 20200915