RU2682851C2 - Усовершенствованная коррекция потери кадров с помощью речевой информации - Google Patents

Усовершенствованная коррекция потери кадров с помощью речевой информации Download PDF

Info

Publication number
RU2682851C2
RU2682851C2 RU2016146916A RU2016146916A RU2682851C2 RU 2682851 C2 RU2682851 C2 RU 2682851C2 RU 2016146916 A RU2016146916 A RU 2016146916A RU 2016146916 A RU2016146916 A RU 2016146916A RU 2682851 C2 RU2682851 C2 RU 2682851C2
Authority
RU
Russia
Prior art keywords
signal
components
period
decoding
useful signal
Prior art date
Application number
RU2016146916A
Other languages
English (en)
Other versions
RU2016146916A (ru
RU2016146916A3 (ru
Inventor
Жюльен ФОР
Стефан РАГО
Original Assignee
Оранж
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Оранж filed Critical Оранж
Publication of RU2016146916A publication Critical patent/RU2016146916A/ru
Publication of RU2016146916A3 publication Critical patent/RU2016146916A3/ru
Application granted granted Critical
Publication of RU2682851C2 publication Critical patent/RU2682851C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Изобретение относится к вычислительной технике для обработки цифрового аудиосигнала. Технический результат заключается в повышении качества аудиосигнала после коррекции потери кадра. Технический результат достигается за счет осуществления поиска в доступном при декодировании сегменте полезного сигнала по меньшей мере одного периода в сигнале, определяемого на основе упомянутого полезного сигнала, анализа сигнала в упомянутом периоде, чтобы определить спектральные компоненты сигнала в упомянутом периоде, синтеза по меньшей мере одной замены для потерянного кадра путем построения синтезированного сигнала из: суммы компонент, выбранных из упомянутых определенных спектральных компонент, и шума, добавленного к сумме компонент, при этом величину шума, добавленного к сумме компонент, взвешивают на основании речевой информации полезного сигнала, полученного при декодировании. 3 н. и 12 з.п. ф-лы, 6 ил.

Description

Настоящее изобретение относится к области кодирования/декодирования в телекоммуникации, и более конкретно, к области коррекции потери кадров при декодировании.
"Кадр" - это сегмент аудио, состоящий по меньшей мере из одного отсчета (изобретение применимо к потере одного или нескольких отсчетов при кодировании в соответствии с G.711, а также к потере одного или нескольких пакетов отсчетов при кодировании в соответствии со стандартами G.723, G.729 и т.д.).
Потери аудиокадров возникают, кода осуществление связи с использованием кодера и декодера нарушается из-за условий в сети связи (вследствие радиочастотных проблем, перегрузки сети доступа и т.д.). В этом случае декодер применяет механизмы коррекции потери кадров, чтобы попытаться заменить потерянный сигнал сигналом, реконструированным с использованием доступной декодеру информации (например, аудиосигнала, уже декодированного для одного или нескольких прошлых кадров). Эта технология может поддерживать качество обслуживания, несмотря на уменьшенную пропускную способность сети.
Технологии коррекции потери кадров часто сильно зависят от типа используемого кодирования.
В случае CELP-кодирования обычно повторяют определенные параметры, декодированные в предыдущем кадре (огибающую спектра, основной тон, коэффициенты усиления из кодовых книг), с уточнениями, такими как модификация огибающей спектра так, чтобы она приближалась к средней огибающей, или применение произвольной фиксированной кодовой книги.
В случае кодирования с преобразованием наиболее широко используемая технология коррекции потери кадров состоит в повторении последнего принятого кадра, если кадр потерян, и сброс повторенного кадра в ноль, как только потеряно более одного кадра. Эту технологию применяют во многих стандартах кодирования (G.719, G.722.1, G.722.1C). Также можно упомянуть стандарт кодирования G.711, для которого в примере коррекции потери кадров, описанном в Приложении I к G.711, определен основной период (называемый "периодом основного тона") в уже декодированном сигнале, и его повторяют, перекрывая и добавляя уже декодированный сигнал и повторенный сигнал ("перекрытие-прибавление"). Такое перекрытие-прибавление "стирает" звуковые артефакты, но для его реализации требуется дополнительная задержка в декодере (соответствующая длительности перекрытия).
Более того, в случае стандарта кодирования G.722.1 модулированное преобразование с перекрытием (или MLT) с перекрытием-прибавлением на 50% и синусоидальными окнами гарантирует переход между последним потерянным кадром и повторенным кадром, являющийся достаточно медленным, чтобы стереть артефакты, относящиеся к простому повтору кадра, в случае потери одного кадра. В отличие от коррекции потери кадра, описанной в стандарте G.711 (Приложение I), этот вариант осуществления не требует дополнительной задержки, потому что использует существующую задержку и временное искажение преобразования MLT, чтобы реализовать перекрытие-прибавление с реконструированным сигналом.
Эта технология недорогая, но ее основной недостаток заключается в несовместимости между сигналом, декодированным до потери кадра и повторенным сигналом. Это приводит к фазовой разрывности, которая может дать существенные звуковые артефакты, если продолжительность перекрытия между двумя кадрами мала, как в случае, когда окна, используемые для MLT преобразования, представляют собой "короткую задержку", как описано в документе FR 1350845 со ссылкой на фиг. 1А и 1В этого документа. В таком случае даже решение, сочетающее поиск основного тона, как в случае кодера в соответствии со стандартом G.711 (Приложение I) и перекрытием-прибавление с использованием окна MLT-преобразования, не является достаточным для того, чтобы устранить звуковые артефакты.
В документе FR 1350845 предложен гибридный способ, который сочетает преимущества обоих этих способов для сохранения фазовой непрерывности в преобразованной области. Настоящее изобретение задано в этой общей схеме. Подробное описание решения, предложенного в FR 1350845, приведено ниже со ссылкой на фиг. 1.
Хотя оно является многообещающим, это решение требует усовершенствования, потому что, если кодированный сигнал имеет только один основной период ("один основной тон"), например, в вокализованном сегменте речевого сигнала, то качество звука после коррекции потери кадра может ухудшиться и стать не таким хорошим, как при коррекции потери кадра с применением речевой модели, такой как CELP ("линейное предсказание с кодовым возбуждением").
Настоящее изобретение улучшает эту ситуацию.
Для этого в нем предложен способ обработки цифрового аудиосигнала, содержащего последовательность отсчетов, распределенных в последовательных кадрах, причем способ реализуют при декодировании упомянутого сигнала, чтобы заменить по меньшей мере один потерянный кадр сигнала во время декодирования.
Способ содержит следующие этапы:
a) осуществляют поиск в доступном при декодировании сегменте полезного сигнала по меньшей мере одного периода в сигнале, определяемого на основе упомянутого полезного сигнала,
b) анализируют сигнал в упомянутом периоде, чтобы определить спектральные компоненты этого сигнала в упомянутом периоде,
c) синтезируют по меньшей мере одну замену для потерянного кадра путем построения синтезированного сигнала из:
- сложения компонент, выбранных из упомянутых определенных спектральных компонент, и
- шума, добавленного к сложению компонент.
В частности, величину шума, добавленного к сложению компонент, взвешивают, исходя из голосовой информации полезного сигнала, полученного при декодировании.
Преимущественно, информация о вокализации, используемая при декодировании, передаваемая по меньшей мере с одной скоростью передачи битов кодера, дает больший вес синусоидальным компонентам пройденного сигнала, если сигнал вокализованный, или дает больший вес шуму в противном случае, что приводит к намного более удовлетворительному слышимому результату. Тем не менее, в случае невокализованного сигнала или в случае музыкального сигнала нет необходимости сохранять так много компонентов для синтеза сигнала, замещающего потерянный кадр. В этом случае больший вес можно придать внедряемому для синтеза сигнала шуму. Это преимущественно сокращает сложность обработки, в частности, в случае невокализованного сигнала, не ухудшая при этом качество синтеза.
В варианте осуществления, в котором шумовой сигнал добавляют к компонентам, этот шумовой сигнал взвешивают с меньшим усилением в случае вокализации полезного сигнала. Например, шумовой сигнал может быть получен из ранее принятого кадра путем определения разности между принятым сигналом и сумой выбранных компонент.
В дополнительном или альтернативном варианте осуществления число компонент, выбираемых для сложения, больше в случае вокализации полезного сигнала. Таким образом, если сигнал является вокализованным, то спектру пройденного сигнала придают больше внимания, как указано выше.
Преимущественно, может быть выбрана дополнительная форма варианта осуществления, в которой выбирают больше компонент, если сигнал является вокализованным, минимизируя при этом коэффициент усиления, применяемый к шумовому сигналу. Таким образом, общая величина энергии, затраченной на применение коэффициента усиления, меньшего 1, к шумовому сигналу, частично компенсируется выбором большего числа компонент. Наоборот, коэффициент усиления, который необходимо применить к шумовому сигналу, не уменьшают, а выбирают меньше компонент, если сигнал не является вокализованным или слабо вокализован.
Кроме того, можно дополнительно улучшить компромисс между качеством/сложностью при декодировании, и на этапе а) поиск вышеупомянутого периода может осуществляться в сегменте полезного сигнала большей длительности в случае вокализованного полезного сигнала. В представленном в приведенном ниже подробном описании поиск выполняют путем сопоставления в полезном сигнале периода повторения, обычно соответствующего по меньшей мере одному периоду основного тона, если сигнал вокализованный, и в этом случае, особенно для мужских голосов, поиск основного тона может выполняться, например, на длительности более 30 миллисекунд.
В опциональном варианте осуществления информацию о вокализации передают в кодированном потоке ("битовом потоке"), принимаемым при декодировании и соответствующем упомянутому сигналу, содержащему последовательность отсчетов, распределенных в последовательных кадрах. Тогда, в случае потери кадра при декодировании используют информацию о вокализации в кадре полезного сигнала, предшествующем потерянному кадру.
Таким образом, информация о вокализации поступает из кодера, генерирующего битовый поток и определяющего информацию о вокализации, и в одном отдельном варианте осуществления информацию о вокализации кодируют одним битом в битовом потоке. Тем не менее, в качестве примера осуществления, генерация этих данных о вокализации в кодере может зависеть от того, имеется ли достаточная полоса пропускания в сети связи между кодером и декодером. Например, если ширина полосы пропускания меньше пороговой величины, то данные о вокализации не передаются кодером, чтобы сэкономить полосу пропускания. В этом случае, только для примера, последняя полученная на декодере информация о вокализации может быть использована для синтеза кадра, или как вариант, может быть принято решение применить невокализированный случай для синтеза кадра.
При реализации речевую информацию кодируют одним битом битового потока, значение коэффициента усиления, применяемого к шумовому сигналу, также может быть бинарным, и если сигнал является вокализованным, то значение коэффициента усиления устанавливают равным 0,25, а в противном случае - 1.
Как вариант, речевая информация поступает от кодера, определяющего значение гармоничности или неравномерности спектра (получаемую, например, путем сравнения амплитуд спектральных компонент сигнала с фоновым шумом), затем кодер доставляет это значение в бинарном виде в битовом потоке (используя более одного бита).
При такой альтернативе значение усиления можно определить как функцию упомянутого значения неравномерности (например, непрерывно возрастающую функцию от этого значения).
В общем, упомянутое значение неравномерности можно сравнить с пороговым значением, чтобы определить:
- что сигнал является вокализованным, если значение неравномерности ниже порога, и
- что сигнал не является вокализованным в противном случае, (что бинарным образом характеризует вокализацию).
Таким образом, при реализации с использованием единственного бита, а также в ее варианте, критерий выбора компонент и/или выбора продолжительности сегмента сигнала, в котором происходит поиск основного тона, может быть бинарным.
Например, для выбора компонент:
- если сигнал является вокализованным, то выбирают спектральные компоненты, имеющие амплитуду больше, чем амплитуда первых соседних спектральных компонент, а также первые соседние спектральные компоненты, и
- в противном случае выбирают только спектральные компоненты, имеющие амплитуду больше, чем амплитуда первых соседних спектральных компонент.
Для выбора продолжительности сегмента поиска основного тона, например:
- если сигнал является вокализованным, то осуществляют поиск периода для сегмента полезного сигнала продолжительностью более 30 миллисекунд (например, 33 миллисекунды),
- а если нет, то осуществляют поиск периода для сегмента полезного сигнала продолжительностью менее 30 миллисекунд (например, 28 миллисекунд).
Таким образом, цель изобретения заключается в том, чтобы усовершенствовать имеющийся уровень техники в смысле документа FR 1350845 путем модификации различных этапов обработки, представленной в этом документе (поиск основного тона, выбор компонент, внедрение шума), но основываясь при этом, в частности, на характеристиках исходного сигнала.
Эти характеристики исходного сигнала могут быть закодированы как спектральная информация в потоке данных к декодеру (или в "битовом потоке") в соответствии с разделением на речь и/или музыку, и в соответствующем случае, в частности, на речевой класс.
Эта информация в битовом потоке при декодировании позволяет оптимизировать компромисс между качеством и сложностью и в совокупности:
- изменить коэффициент усиления шума, который следует внедрить в сумму выбранных спектральных компонент, чтобы построить синтезированный сигнал, заменяющий потерянный кадр,
- изменить число компонент, выбранных для синтеза,
- изменить продолжительность сегмента поиска основного тона.
Такой вариант осуществления может быть реализован в кодере для определения информации о вокализации, и конкретнее в декодере, для случая потери кадра. Он может быть реализован в виде программного обеспечения для выполнения кодирования/декодирования для усовершенствованных речевых служб (или "EVS"), заданных группой 3GPP (SA4).
В этом качестве в изобретении также предложена компьютерная программа, содержащая команды для реализации при выполнении процессором этой программы вышеупомянутого способа. В качестве примера ниже в подробном описании представлена блок-схема такой программы, на фиг. 4 для декодирования, а на фиг. 3 для кодирования.
Изобретение также относится к устройству для декодирования цифрового аудиосигнала, содержащего последовательность отсчетов, распределенных в последовательных кадрах. Устройство содержит средство (такое как процессор и память, или специализированная интегральная схема или другая схема) для замены по меньшей мере одного потерянного кадра посредством следующих действий:
a) осуществляют поиск в доступном при декодировании сегменте полезного сигнала по меньшей мере одного периода в сигнале, определяемого на основе упомянутого полезного сигнала,
b) анализируют сигнал в упомянутом периоде, чтобы определить спектральные компоненты этого сигнала в упомянутом периоде,
c) синтезируют по меньшей мере один кадр для замены потерянного кадра путем построения синтезированного сигнала из:
- суммы компонент, выбранных из упомянутых определенных спектральных компонент, и
- шума, добавленного к сумме компонент,
при этом величину шума, добавленного к сумме компонент, взвешивают, исходя из речевой информации полезного сигнала, полученного при декодировании.
Аналогично, изобретение относится к устройству для кодирования цифрового аудиосигнала, содержащему средство (такое как процессор и память, или специализированная интегральная схема или другая схема) для предоставления информации о вокализации в потоке данных, доставляемом кодирующим устройством, различающей речевой сигнал, который вероятно является вокализованным, от музыкального сигнала, и в случае речевого сигнала:
- определяют, что сигнал является вокализованным или типичным, чтобы рассматривать его как в целом вокализованный, или
- определяют, что сигнал является неактивным, переходным или невокализованным, чтобы рассматривать его как в целом невокализованный.
Другие признаки и преимущества изобретения будут очевидными после изучения последующего подробного описания и прилагаемых чертежей, на которых:
- на фиг. 1 собраны основные этапы способ коррекции потери кадров в соответствии с документом FR 1350845;
- на фиг. 2 схематически показаны основные этапы способа в соответствии с изобретением;
- на фиг. 3 приведен пример этапов, реализованных при кодировании в одном варианте осуществления настоящего изобретения;
- на фиг. 4 показан пример этапов, реализованных при декодировании в одном варианте осуществления настоящего изобретения;
- на фиг. 5 показан пример этапов, реализованных при декодировании, для описка основного тона в сегменте Nc полезного сигнала;
- на фиг. 6 схематично показан пример устройств кодера и декодера в соответствии с настоящим изобретением.
Обратимся теперь к фиг. 1, показывающей основные этапы, описанные в документе FR 1350845. Последовательность из N звуковых отсчетов, обозначенную ниже через b(n), сохраняют в буферной памяти декодера. Эти отсчеты соответствуют уже декодированным отсчетам и, поэтому, доступны для коррекции потери кадра в декодере. Если первый отсчет, который надо синтезировать, является отсчетом N, то аудиобуфер соответствует предыдущим отсчетам от 0 до N-1. В случае кодирования с преобразованием аудиобуфер соответствует отсчетам в предыдущем кадре, который не может быть изменен, потому что в этом типе кодирования/декодирования не предусмотрена задержка в реконструкции сигнала; поэтому, не предусмотрена реализация перекрестного затухания достаточной длительности, чтобы охватить потерю кадра.
Затем следует этап S2 частотной фильтрации, на котором аудиобуфер b(n) разделяют на две полосы частот, полосу LB низких частот и полосу НВ высоких частот, при этом частота разделения обозначена через Fc (например, Fc=4 кГц). Эта фильтрация предпочтительно является фильтрацией без задержки. Размер аудиобуфера теперь сокращают до N'=N*Fc/f следом за прореживанием fs до Fc. В вариантах изобретения этот этап фильтрации может быть опциональным, следующие этапы выполняют на полном диапазоне.
Следующий этап S3 состоит в осуществлении поиска в полосе низких частот точки цикла и сегмента p(n), соответствующего основному периоду (или "основному тону") в буфере b(n) прореженном с частотой Fc. Этот вариант осуществления позволяет учесть непрерывность основного тона в потерянном кадре (кадрах), который надо реконструировать.
Этап S4 состоит в разбиении сегмента p(n) на сумму синусоидальных компонент. Например, можно вычислить дискретное преобразование Фурье (DFT) сигнала p(n) на длительности, соответствующей длине сигнала. Таким образом, получают частоту, фазу и амплитуду каждой из синусоидальных компонент (или "пиков") сигнала. Возможны преобразования отличные от DFT. Например, можно применить такие преобразования, как DCT, MDCT или MCLT.
Этап S5 представляет собой этап выбора K синусоидальных компонент, чтобы сохранить только наиболее значимые компоненты. В одном отдельном варианте осуществления выбор компонент прежде всего соответствует выбору амплитуд A(n), для которых A(n)>A(n-1) и A(n)>A(n+1), где
Figure 00000001
, что гарантирует, что амплитуды соответствуют спектральным пикам.
Для этого интерполируют отсчеты сегмента p(n) (основного тона), чтобы получить сегмент p'(n), состоящий из P' отсчетов, где
Figure 00000002
,
Figure 00000003
- целое число, больше или равное x. Поэтому, анализ с помощью преобразования Фурье FFT выполняют более эффективно на длине, равной степени 2, без модификации действительного периода основного тона (вследствие интерполяции). Вычисляют преобразование FFT сегмента
Figure 00000004
; и из преобразования FFT непосредственно получают фазы ϕ(k) и амплитуды A(k) синусоидальных компонент, нормализованные частоты от 0 до 1 задаются здесь следующим образом:
Figure 00000005
Далее, из амплитуд этого первого выбора выбирают компоненты в порядке уменьшения амплитуд, так что совокупная амплитуда выбранных пиков составляет по меньшей мере x% (например, x=70%) от совокупной амплитуды на, как правило, половине спектра в текущем кадре.
Кроме того, также можно ограничить число компонент (например, 20), чтобы снизить сложность синтеза.
Этап S6 синтеза синусоид состоит в генерации сегмента s(n) длины по меньшей мере равной размеру потерянного кадра (Т). Синтезированный сигнал s(n) вычисляют как сумму выбранных синусоидальных компонент:
Figure 00000006
где k - индекс K пиков, выбранных на этапе S5.
Этап S7 состоит во "внедрении шума" (заполнение спектральных областей, соответствующих не выбранным линиям), чтобы компенсировать потерю энергии из-за пропуска определенных частотных пиков в полосе низких частот. Одна отдельная реализация состоит в вычислении разности r(n) между сегментом, соответствующим основному тону p(n), и синтезированным сигналом s(n), где, так что:
Figure 00000007
Эту разность размера P преобразовывают, например, ее обрабатывают методом окна и повторяют с перекрытиями между окнам различных размеров, как описано в патенте FR 1353551:
Figure 00000008
Затем, сигнал s(n) комбинируют с сигналом r'(n):
Figure 00000009
Этап S8, применяемый к полосе высоких частот, может просто состоять в повторе пройденного сигнала.
На этапе S9 синтезируют сигнал путем повторной выборки из полосы низких частот с исходной частотой fc после смешивания на этапе S8 с фильтрованной полосой высоких частот (просто повторенной на этапе S11).
На этапе S10 выполняют перекрытие-сложение, чтобы гарантировать непрерывность между сигналом до потери кадра и синтезированным сигналом.
Теперь опишем элементы, добавленные к способу, показанному на фиг. 1, в одном варианте осуществления настоящего изобретения.
В соответствии с общим подходом, представленным на фиг. 2, информацию о вокализации сигнала до потери кадра, передаваемую по меньшей мере с одной скоростью передачи битов кодера, используют при декодировании (этап DI-1), чтобы количественно определить долю шума, который надо добавить к синтезированному сигналу, заменяющему один или несколько потерянных кадров). Таким образом, декодер использует информацию о вокализации для того, чтобы, исходя из того, является ли сигнал вокализованным или нет, уменьшить общее количество шума, подмешиваемого в синтезированный сигнал (путем задания коэффициента усиления G(res) меньше, чем шумовой сигнал r'(k), получаемый из разности на этапе DI-3, и/или путем выбора большего числа компонент амплитуды A(k) для применения в построении синтезированного сигнала на этапе DI-4).
Кроме того, декодер может регулировать свои параметры, в частности, для поиска основного тона, чтобы оптимизировать компромисс между качеством/сложностью обработки, исходя из информации о вокализации. Например, для поиска основного тона, если сигнал является вокализованным, то окно Nc поиска основного тона может быть больше (на этапе DI-5), как мы увидим на фиг. 5 ниже.
Для определения вокализации кодером может быть предоставлена информация двумя способами по меньшей мере с одной скоростью передачи кодера:
- в виде бита, имеющего значение 1 или 0 в зависимости от степени вокализации, определенной в кодере (полученной от кодера на этапе DI-1 и считанной на этапе DI-2 в случае потери кадра для последующей обработки), или
- в виде значения средней амплитуды пиков, составляющих сигнал при кодировании, по сравнению с фоновым шумом.
Этот спектр "неравномерности" данных
Figure 00000010
может быть получен декодером в нескольких битах на необязательном этапе DI-10 на фиг. 2, затем сравнен с порогом на этапе DI-11, что является тем же самым, что и определение на этапах DI-1 и DI-2 того, что вокализация выше или ниже порога, и вывод соответствующей обработки, в частности, для выбора пиков и для выбора длины сегмента поиска основного тона.
В описанном здесь примере эту информацию (либо в виде единственного бита, либо в виде многобитового значения) принимают от кодера (по меньшей мере с одной скоростью передачи битов кодека).
Действительно, со ссылкой на фиг. 3 в кодере входной сигнал, представленный в виде кадров С1, анализируют на этапе С2. Этап анализа состоит в определении, обладает ли аудиосигнал текущего кадра характеристиками, которые требуют специальной обработки в случае потери кадра в декодере, как в случае, например, вокализованных речевых сигналов.
В одном отдельном варианте осуществления для того, чтобы предотвратить увеличение общей сложности обработки, преимущественно используют классификацию (речь/музыка и др.), уже определенную в кодере. Действительно, в случае кодеров, которые могут переключать режимы кодирования между речевым режимом и режимом музыки, классификация в кодере уже позволяет адаптировать используемую технологию кодирования к природе сигнала (речь или музыка). Аналогично, в случае речи предсказывающие кодеры, такие как кодер стандарта G.718, также используют классификацию, чтобы адаптировать параметры кодера к типу сигнала (вокализованные/невокализованные звуки, переходный, типичный, неактивный).
В одном отдельном первом варианте осуществления для "описания потери кадра" зарезервирован только один бит. Его добавляют к кодированному потоку (или "битовому потоку") на этапе С3, чтобы указать, является ли сигнал речевым сигналом (вокализованным или типичным). Этот бит, например, устанавливают равным 1 или 0 в соответствии со следующей таблицей, исходя из:
- решения классификатора речи/музыки,
- а также решения классификатора режима кодирования речи.
Figure 00000011
Здесь, термин "типичный" относится к обычному речевому сигналу (который не является переходным, относящимся к произношению взрывного звука, не является неактивным, и не обязательно является чисто вокализованным, таким как произношение гласной без согласной).
Во втором альтернативном варианте осуществления информация, передаваемая декодеру в битовом потоке, не является бинарной, но соответствует количественному представлению соотношения между пиками и впадинами в спектре. Это соотношение можно выразить как меру "неравномерности" спектра, обозначенную через
Figure 00000010
:
Figure 00000012
В этом выражении x(k) - это спектр амплитуды размера N, получаемый из анализа текущего кадра в частотной области (после FFT).
В альтернативе производят синусоидальный анализ, разбивающий сигнал в кодере на синусоидальные компоненты и шум, а меру неравномерности получают из соотношения синусоидальных компонент и общей энергии кадра.
После этапа С3 (включающего в себя один бит информации о вокализации или несколько бит меры неравномерности) аудиобуфер кодера кодируют обычным образом на этапе С4 до последующей передачи на декодер.
Теперь со ссылкой на фиг. 4 опишем этапы, реализуемые в декодере в одном примере осуществления изобретения.
В случае, когда на этапе D1 нет потери кадра (стрелка NOK, отходящая от проверки D1 на фиг. 4), на этапе D2 декодер считывает информацию, содержащуюся в битовом потоке, включая "описание потери кадра" (по меньшей мере с одной скоростью передачи битов кодека). Эту информацию сохраняют в памяти, так что ее можно повторно использовать, если потерян следующий кадр. Затем, декодер продолжает выполнять обычные шаги декодирования D3 и т.д., чтобы получить синтезированный выходной кадр FR SYNTH.
В случае, когда происходит потеря кадра (кадров) (стрелка ОК, отходящая от проверки D1), выполняют этапы D4, D5, D6, D7, D8 и D12, соответствующие этапам S2, S3, S4, S5, S6 и S11 на фиг. 1. Тем не менее, сделано несколько изменений, касающихся этапов S3 и S5 и соответственно этапов D5 (поиска точки цикла для определения основного тона) и D7 (выбора синусоидальных компонент). Более того, внедрение шума на этапе S7 на фиг. 1 выполняют с определением коэффициента усиления за два этапа D9 и D10 на фиг. 4 декодера в соответствии с изобретением.
В случае, когда "описание потери кадра" известно (когда предыдущий кадр был принят), изобретение состоит в модификации обработки на этапах D5, D7 и D9-D10 следующим образом.
В первом варианте осуществления "описание потери кадра" является бинарным и имеет значение:
- равное 0 для невокализованного сигнала такого типа, как музыка или переходной сигнал,
- равное 1 в противном случае (таблица выше).
Этап S5 состоит в осуществлении поиска точки цикла и сегмента p(n), соответствующего основному тону в аудиобуфере, прореженном с частотой Fc. Эта технология, описанная в документе FR 1350845, показана на фиг. 5, на которой:
- аудиобуфер в декодере имеет размер N' отсчетов,
- определяют размер целевого буфера ВС из Ns отсчетов,
- поиск корреляции осуществляют на Nc отсчетах,
- корреляционная кривая "Correl" имеет максимум в точке mc,
- точка цикла обозначена через Loop pt и расположена через Ns отсчетов от максимума корреляции,
- затем определяют основной тон на p(n) оставшихся отсчетах в N'-1.
В частности, вычисляем нормализованную корреляцию corr(n) между сегментом целевого буфера размера Ns, между N'-Ns и N'-1 (например, длительностью 6 мс) и скользящим сегментом размера Ns, который начинается между отсчетом 0 и Nc (где Nc>N'-Ns):
Figure 00000013
Для музыкальных сигналов вследствие природы этого сигнала не требуется, чтобы значение Nc было очень большим (например, Nc=28 мс). Это ограничение позволяет сэкономить на вычислительной сложности во время поиска основного тона.
Тем не менее, речевая информация, из последнего действительного принятого кадра позволяет определить, является ли сигнал, который надо реконструировать, вокализованным речевым сигналом (один основной тон). Поэтому, в таких случаях и с такой информацией можно увеличить размер сегмента Nc (например, Nc=33 мс), чтобы оптимизировать поиск основного тона (и потенциально найти более высокое значение корреляции).
На этапе D7 на фиг. 4 синусоидальные компоненты выбирают так, что остаются только наиболее значительные компоненты. В одном отдельном варианте осуществления, также представленном в документе FR 1350845, первый выбор компонент эквивалентен выбору амплитуд A(n), где A(n)>A(n-1) и
Figure 00000014
.
В случае изобретения преимущественно известно, является ли сигнал, который надо реконструировать, речевым сигналом (вокализованным или типичным), и поэтому в нем имеются произносимые пики и низкий уровень шума. При этих условиях предпочтительно выбирать не только пики A(n), где A(n)>A(n-1) и A(n)>A(n+1), как показано выше, но также расширять выбор до A(n-1) и A(n+1), так что выбранные пики представляют больший участок общей энергии спектра. Эта модификация позволяет понизить уровень шума (и, в частности, уровень шума, внедряемого на этапах D9 и D10, представленных ниже) по сравнению с уровнем сигнала, получаемого посредством синусоидального анализа на этапе D8, при этом сохраняя общий уровень энергии достаточным для того, чтобы не вызывать появление звуковых артефактов, связанных с флуктуациями энергии.
Далее, в случае, когда сигнал не содержит шума (по меньшей мере в низких частотах), как в случае типичного или вокализованного речевого сигнала наблюдаем, что добавление шума, соответствующего преобразованной разнице r'(n) в понимании документа FR 1350845 в действительности ухудшает качество.
Поэтому, речевую информацию преимущественно используют, чтобы снизить шум путем применения коэффициента усиления G на этапе D10. Сигнал s(n), получаемый на этапе D8, смешивают с шумовым сигналом r'(n), получающимся на этапе D9, но применяют коэффициент G усиления, который зависит от "описания потери кадра", получаемого из битового потока предыдущего кадра, то есть:
Figure 00000015
В отдельном варианте осуществления G может представлять собой константу, равную 1 или 0,25, в зависимости от того, является ли сигнал предыдущего кадра вокализованным или невокализованным, в соответствии с таблицей, приведенной ниже в качестве примера:
Figure 00000016
В альтернативном варианте осуществления, где "описание потери кадра" имеет несколько дискретных уровней, характеризующих неравномерность
Figure 00000010
спектра, коэффициент усиления G можно выразить непосредственно как функцию значения
Figure 00000010
. Это же верно для границ сегмента Nc для поиска основного тона и/или для числа пиков An, которые надо учесть для синтеза сигнала.
В качестве примера можно задать такую обработку, как приведено ниже.
Коэффициент усиления G уже был непосредственно определен как функция значения
Figure 00000017
.
Кроме того, значение
Figure 00000010
сравнивают со средним значением -3дБ, причем значение 0 соответствует плоскому спектру, а -5дБ соответствует спектру с отчетливыми пиками.
Если значение
Figure 00000010
меньше, чем среднее пороговое значение -3 дБ (соответствуя, таким образом, спектру с отчетливыми пиками, типичными для вокализованного сигнала), то можно задать длительность сегмента для поиска основного тона Nc равной 33 мс, и можно выбрать пики A(n), так что A(n)>A(n-1) и A(n)>A(n+1), а также первые соседние пики A(n-1) и A(n+1).
В противном случае (если значение
Figure 00000010
выше порога, соответствуя менее отчетливым пикам, большему фоновому шуму, как, например, в музыкальном сигнале) продолжительность Nc можно выбрать покороче, например, 25 мс, и выбирают только пики A(n), которые удовлетворяют условию A(n)>A(n-1) и A(n)>A(n+1).
Затем может продолжаться декодирование путем смешивания шума, для которого получен коэффициент усиления, с выбранными таким образом компонентами, чтобы получить синтезированный сигнал в низких частотах на этапе D13, который складывают с синтезированным сигналом в высоких частотах, полученным на этапе D14, чтобы получить общий синтезированный сигнал на этапе D15.
Со ссылкой на фиг. 6, показана одна возможная реализация изобретения, в которой декодер DECOD (содержащий, например, программное и аппаратное обеспечение, такое как соответствующим образом запрограммированная память MEM и процессор PROC, взаимодействующий с этой памятью, или, в качестве альтернативы, такой компонент, как специализированная интегральная схема (ASIC) или другой, а также интерфейс связи СОМ), встроенный, например, в телекоммуникационное устройство, такое как телефон TEL, для реализации способа, показанного на фиг. 4, использует информацию о вокализации, которую принимает от кодера ENCOD. Этот кодер содержит, например, программное и аппаратное обеспечение, такое как соответствующим образом запрограммированная память MEM' для определения информации о вокализации и процессор PROC', взаимодействующий с этой памятью, или, в качестве альтернативы, такой компонент, как ASIC или другой, и интерфейс связи СОМ'. Кодер ENCOD встроен в телекоммуникационное устройство, такое как телефон TEL'.
Конечно, изобретение не ограничено изложенными выше в качестве примера вариантами осуществления; оно распространяется на другие варианты.
Таким образом, например, понятно, что информация о вокализации может принимать различные формы в виде вариантов. В описанном выше примере это может быть бинарное значение из одного бита (вокализованный или невокализованный) или многобитовое значение, которое может касаться такого параметра, как неравномерность спектра сигнала, или любого другого параметра, который позволяет охарактеризовать вокализацию (количественно или качественно). Более того, этот параметр может быть определен путем декодирования, например, на основе степени корреляции, которую можно измерить при идентификации периода основного тона.
Выше в качестве примера был представлен вариант осуществления, который включал в себя разделение на полосу высоких частот и полосу низких частот сигнала из предыдущих действительных кадров, в частности, с выбором спектральных компонент в полосе низких частот. Однако эта реализация является опциональной, хотя предпочтительной, так как снижает сложность обработки. Как вариант, способ замены кадра с помощью информации о вокализации в соответствии с изобретением может быть выполнен при рассмотрении всего спектра полезного сигнала.
Выше был описан вариант осуществления, в котором изобретение реализовано в контексте кодирования с преобразованием с перекрытием-сложением. Тем не менее, этот тип способа можно адаптировать к любому другому типу кодирования (в частности, CELP).
Следует отметить, что в контексте кодирования с преобразованием с перекрытием-сложением (где обычно синтезированный сигнал строят по меньшей мере на продолжительность двух кадров из-за перекрытия), упомянутый шумовой сигнал может быть получен путем нахождения разности (между полезным сигналом и суммой пиков) посредством взвешивания во времени разности. Например, она может быть взвешена посредством перекрывающих окон, как в обычном контексте кодирования/декодирования посредством преобразования с перекрытием.
Понятно, что применение усиления как функции информации о вокализации добавляет другой вес, на этот раз основанный на вокализации.

Claims (35)

1. Способ обработки цифрового аудиосигнала, содержащего последовательность отсчетов, распределенных в последовательных кадрах, причем способ реализуют при декодировании упомянутого сигнала, чтобы заменить по меньшей мере один потерянный кадр сигнала во время декодирования,
причем способ содержит этапы, на которых:
a) осуществляют поиск в доступном при декодировании сегменте полезного сигнала по меньшей мере одного периода в сигнале, определяемого на основе упомянутого полезного сигнала,
b) анализируют сигнал в упомянутом периоде, чтобы определить спектральные компоненты сигнала в упомянутом периоде,
с) синтезируют по меньшей мере одну замену для потерянного кадра путем построения синтезированного сигнала из:
суммы компонент, выбранных из упомянутых определенных спектральных компонент, и
шума, добавленного к сумме компонент,
при этом величину шума, добавленного к сумме компонент, взвешивают на основании речевой информации полезного сигнала, полученного при декодировании.
2. Способ по п. 1, в котором шумовой сигнал, добавляемый к сумме компонент, взвешивают посредством меньшего коэффициента усиления в случае наличия речевой информации в полезном сигнале.
3. Способ по п. 2, в котором шумовой сигнал получают путем нахождения разности между полезным сигналом и суммой выбранных компонент.
4. Способ по п. 1, в котором число компонент, выбираемых для сложения, больше в случае наличия речевой информации в полезном сигнале.
5. Способ по п. 1, в котором на этапе а) осуществляют поиск периода в сегменте полезного сигнала большей длительности в случае наличия речевой информации в полезном сигнале.
6. Способ по п. 1, в котором речевую информацию передают в битовом потоке, принимаемом при декодировании и соответствующем упомянутому сигналу, содержащему последовательность отсчетов, распределенных в последовательных кадрах,
при этом в случае потери кадра при декодировании используют речевую информацию, содержащуюся в кадре полезного сигнала, предшествующем потерянному кадру.
7. Способ по п. 6, в котором речевая информация поступает из кодера, генерирующего битовый поток и определяющего речевую информацию, при этом речевую информацию кодируют одним битом в битовом потоке.
8. Способ по п. 7, в котором шумовой сигнал, добавленный к сумме компонент, взвешивают с меньшим коэффициентом усиления в случае наличия речевой информации в полезном сигнале, при этом, если сигнал является речевым, то коэффициент усиления равен 0, 25, а в противном случае равен 1.
9. Способ по п. 6, в котором речевая информация поступает от кодера, определяющего значение равномерности спектра, получаемое путем сравнения амплитуд спектральных компонент сигнала с фоновым шумом, причем упомянутый кодер доставляет упомянутое значение в двоичном виде в битовом потоке.
10. Способ по п. 7, в котором шумовой сигнал, добавленный к сумме компонент, взвешивают с меньшим коэффициентом усиления в случае наличия речевой информации в полезном сигнале, при этом значение коэффициента усиления определяют как функцию упомянутого значения равномерности.
11. Способ по п. 9, в котором упомянутое значение равномерности сравнивают с порогом, чтобы определить:
что сигнал является речевым, если значение равномерности ниже порога, и
что сигнал не является речевым в противном случае.
12. Способ по п. 7, в котором количество компонент, выбранных для суммирования, больше в случае наличия речевой информации в полезном сигнале, при этом:
если сигнал является речевым, то выбирают спектральные компоненты, имеющие амплитуду больше, чем амплитуда первых соседних спектральных компонент, а также первые соседние спектральные компоненты, и
в противном случае выбирают только спектральные компоненты, имеющие амплитуду больше, чем амплитуда первых соседних спектральных компонент.
13. Способ по п. 7, в котором на этапе a) осуществляют поиск в упомянутом периоде сегмента полезного сигнала большей длины в случае наличия речевой информации в полезном сигнале, при этом:
если сигнал является речевым, то осуществляют поиск периода в сегменте полезного сигнала длительностью более 30 миллисекунд,
в противном случае осуществляют поиск периода в сегменте полезного сигнала длительностью менее 30 миллисекунд.
14. Считываемый компьютером носитель, содержащий код компьютерной программы, причем компьютерная программа содержит команды для реализации способа по любому из пп. 1-13 при выполнении программы процессором.
15. Устройство для декодирования цифрового аудиосигнала, содержащего последовательность отсчетов, распределенных в последовательных кадрах, при этом устройство содержит компьютерную схему для замены по меньшей мере одного потерянного кадра сигнала посредством:
a) поиска в доступном при декодировании сегменте полезного сигнала по меньшей мере одного периода в сигнале, определяемого на основе упомянутого полезного сигнала,
b) анализа сигнала в упомянутом периоде, чтобы определить спектральные компоненты сигнала в упомянутом периоде,
с) синтеза по меньшей мере одного кадра для замены потерянного кадра путем построения синтезированного сигнала из:
суммы компонент, выбранных из упомянутых определенных спектральных компонент, и
шума, добавленного к сумме компонент,
при этом величина шума, добавленного к сумме компонент, взвешена на основании речевой информации полезного сигнала, полученного при декодировании.
RU2016146916A 2014-04-30 2015-04-24 Усовершенствованная коррекция потери кадров с помощью речевой информации RU2682851C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1453912 2014-04-30
FR1453912A FR3020732A1 (fr) 2014-04-30 2014-04-30 Correction de perte de trame perfectionnee avec information de voisement
PCT/FR2015/051127 WO2015166175A1 (fr) 2014-04-30 2015-04-24 Correction de perte de trame perfectionnée avec information de voisement

Publications (3)

Publication Number Publication Date
RU2016146916A RU2016146916A (ru) 2018-05-31
RU2016146916A3 RU2016146916A3 (ru) 2018-10-26
RU2682851C2 true RU2682851C2 (ru) 2019-03-21

Family

ID=50976942

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016146916A RU2682851C2 (ru) 2014-04-30 2015-04-24 Усовершенствованная коррекция потери кадров с помощью речевой информации

Country Status (12)

Country Link
US (1) US10431226B2 (ru)
EP (1) EP3138095B1 (ru)
JP (1) JP6584431B2 (ru)
KR (3) KR20230129581A (ru)
CN (1) CN106463140B (ru)
BR (1) BR112016024358B1 (ru)
ES (1) ES2743197T3 (ru)
FR (1) FR3020732A1 (ru)
MX (1) MX368973B (ru)
RU (1) RU2682851C2 (ru)
WO (1) WO2015166175A1 (ru)
ZA (1) ZA201606984B (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
EP3389043A4 (en) * 2015-12-07 2019-05-15 Yamaha Corporation VOICE INTERACTION DEVICE AND VOICE INTERACTION METHOD
EP3997697A4 (en) * 2019-07-08 2023-09-06 VoiceAge Corporation METHOD AND SYSTEM FOR ENCODING METADATA IN AUDIO DATA STREAMS AND FOR EFFICIENT BIT RATE ALLOCATION FOR ENCODING AUDIO DATA STREAMS
CN111883171B (zh) * 2020-04-08 2023-09-22 珠海市杰理科技股份有限公司 音频信号的处理方法及***、音频处理芯片、蓝牙设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147414A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus
RU2428748C2 (ru) * 2007-02-13 2011-09-10 Нокиа Корпорейшн Кодирование аудиосигнала
RU2484543C2 (ru) * 2006-11-24 2013-06-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для кодирования и декодирования, основывающегося на объектах аудиосигнала
US20130218579A1 (en) * 2005-11-03 2013-08-22 Dolby International Ab Time Warped Modified Transform Coding of Audio Signals
US20130262130A1 (en) * 2010-10-22 2013-10-03 France Telecom Stereo parametric coding/decoding for channels in phase opposition

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1350845A (fr) 1962-12-20 1964-01-31 Procédé de classement visible sans index
FR1353551A (fr) 1963-01-14 1964-02-28 Fenêtre destinée en particulier à être montée sur des roulottes, des caravanes ou installations analogues
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5799271A (en) * 1996-06-24 1998-08-25 Electronics And Telecommunications Research Institute Method for reducing pitch search time for vocoder
JP3364827B2 (ja) * 1996-10-18 2003-01-08 三菱電機株式会社 音声符号化方法、音声復号化方法及び音声符号化復号化方法並びにそれ等の装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6912496B1 (en) * 1999-10-26 2005-06-28 Silicon Automation Systems Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
JP4089347B2 (ja) * 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
AU2003274526A1 (en) * 2002-11-27 2004-06-18 Koninklijke Philips Electronics N.V. Method for separating a sound frame into sinusoidal components and residual noise
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7825321B2 (en) * 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
CA2690433C (en) * 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US20090180531A1 (en) * 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
US8036891B2 (en) * 2008-06-26 2011-10-11 California State University, Fresno Methods of identification using voice sound analysis
MX2011000370A (es) * 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
WO2014036263A1 (en) * 2012-08-29 2014-03-06 Brown University An accurate analysis tool and method for the quantitative acoustic assessment of infant cry
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218579A1 (en) * 2005-11-03 2013-08-22 Dolby International Ab Time Warped Modified Transform Coding of Audio Signals
RU2484543C2 (ru) * 2006-11-24 2013-06-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для кодирования и декодирования, основывающегося на объектах аудиосигнала
US20080147414A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus
RU2428748C2 (ru) * 2007-02-13 2011-09-10 Нокиа Корпорейшн Кодирование аудиосигнала
US20130262130A1 (en) * 2010-10-22 2013-10-03 France Telecom Stereo parametric coding/decoding for channels in phase opposition

Also Published As

Publication number Publication date
FR3020732A1 (fr) 2015-11-06
RU2016146916A (ru) 2018-05-31
KR20170003596A (ko) 2017-01-09
MX2016014237A (es) 2017-06-06
ES2743197T3 (es) 2020-02-18
WO2015166175A1 (fr) 2015-11-05
US20170040021A1 (en) 2017-02-09
CN106463140A (zh) 2017-02-22
MX368973B (es) 2019-10-23
RU2016146916A3 (ru) 2018-10-26
JP2017515155A (ja) 2017-06-08
BR112016024358B1 (pt) 2022-09-27
KR20220045260A (ko) 2022-04-12
EP3138095A1 (fr) 2017-03-08
JP6584431B2 (ja) 2019-10-02
US10431226B2 (en) 2019-10-01
CN106463140B (zh) 2019-07-26
BR112016024358A2 (pt) 2017-08-15
ZA201606984B (en) 2018-08-30
KR20230129581A (ko) 2023-09-08
EP3138095B1 (fr) 2019-06-05

Similar Documents

Publication Publication Date Title
KR101092167B1 (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
RU2641224C2 (ru) Адаптивное расширение полосы пропускания и устройство для этого
CN105122356B (zh) 信号解码期间帧丢失的改进型校正
US10891964B2 (en) Generation of comfort noise
US20110016077A1 (en) Audio signal classifier
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
US10957331B2 (en) Phase reconstruction in a speech decoder
RU2682851C2 (ru) Усовершенствованная коррекция потери кадров с помощью речевой информации
US10847172B2 (en) Phase quantization in a speech encoder
US20220277754A1 (en) Multi-lag format for audio coding