RU2643646C2 - Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции - Google Patents

Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции Download PDF

Info

Publication number
RU2643646C2
RU2643646C2 RU2016122865A RU2016122865A RU2643646C2 RU 2643646 C2 RU2643646 C2 RU 2643646C2 RU 2016122865 A RU2016122865 A RU 2016122865A RU 2016122865 A RU2016122865 A RU 2016122865A RU 2643646 C2 RU2643646 C2 RU 2643646C2
Authority
RU
Russia
Prior art keywords
audio signal
coefficients
weights
prediction coefficients
correction values
Prior art date
Application number
RU2016122865A
Other languages
English (en)
Other versions
RU2016122865A (ru
Inventor
Константин ШМИДТ
Гийом ФУКС
Маттиас НОЙЗИНГЕР
Мартин ДИТЦ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2016122865A publication Critical patent/RU2016122865A/ru
Application granted granted Critical
Publication of RU2643646C2 publication Critical patent/RU2643646C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к области кодирования и передачи аудиосигналов. Технический результат заключается в повышении точности кодирования аудиосигнала. Технический результат достигается за счет вычисления первого множества (IHM) первых весовых коэффициентов для каждого аудиосигнала набора аудиосигналов и на основе первого правила определения, вычисления второго множества вторых весовых коэффициентов для каждого аудиосигнала набора аудиосигналов на основе второго правила определения, причем каждый из второго множества весовых коэффициентов связан с первым весовым коэффициентом, вычисления третьего множества значений (di) расстояния, причем каждое значение (di) расстояния имеет значение, связанное с расстоянием между первым весовым коэффициентом и вторым весовым коэффициентом (142”), связанным с частью аудиосигнала (102), и вычисления четвертого множества значений коррекции, адаптированных для уменьшения значений (di) расстояния при объединении с первыми весовыми коэффициентами. 6 н. и 9 з.п. ф-лы, 11 ил.

Description

Настоящее изобретение относится к кодеру для кодирования аудио сигнала, системе передачи аудио, способу определения значений коррекции и компьютерной программе. Кроме того, изобретение относится к взвешиванию частот спектральных иммитансов/частот спектральных линий.
В современных кодеках речи и аудио, согласно уровню техники, осуществляется извлечение огибающей спектра речевого или аудиосигнала путем линейного предсказания и последующее квантование и кодирование преобразования коэффициентов линейного предсказания (LPC). Такими преобразованиями являются, например, частоты спектральных линий (LSF) или частоты спектральных иммитансов (ISF).
Векторное квантование (VQ), как правило, предпочтительнее скалярного квантования для квантования LPC ввиду повышения производительности. Однако было установлено, что оптимальное кодирование LPC показывает различную скалярную чувствительность для каждой частоты вектора LSF или ISF. Как прямое следствие, использование классического евклидова расстояния в качестве метрики в шаге квантования приведет к неоптимальной системе. Это можно объяснить тем фактом, что производительность квантования LPC обычно измеряется расстоянием, подобным логарифмическому спектральному расстоянию (LSD) или взвешенному логарифмическому спектральному расстоянию (WLSD), которые не имеют прямой пропорциональной зависимости от евклидова расстояния.
LSD определяется как логарифм евклидова расстояния спектральных огибающих исходных коэффициентов LPC и их квантованной версии. WLSD представляет собой взвешенную версию, которая учитывает, что низкие частоты являются перцептивно более релевантными, чем высокие частоты.
Как LSD, так и WLSD слишком сложны, чтобы вычисляться в рамках схемы квантования LPC. Поэтому большинство схем кодирования LPC используют либо простое евклидово расстояние, либо его взвешенную версию (WED), определяемую как
Figure 00000001
где lsfi является параметром, подлежащим квантованию, и qlsfi является квантованным параметром, w являются весами, придающими больше искажения для некоторых коэффициентов и меньше для других.
В Laroia et al. [1] представлен эвристический подход, известный как метод инверсного гармонического среднего для вычисления весовых коэффициентов, которые придают большую важность LSF, близким к областям формант. Если два параметра LSF близки друг к другу спектр сигнала, как ожидается, будет содержать пик вблизи этой частоты. Следовательно, LSF, которая близка к одной из своих соседей, имеет высокую скалярную чувствительность, и ей должен быть присвоен более высокий вес
Figure 00000002
Первый и последний весовые коэффициенты вычисляются с помощью этих псевдо-LSF:
lsf0=0 и lsfр+1=π, где р - порядок модели LP. Порядок, как правило, 10 для речевого сигнала, дискретизированного с частотой 8 кГц, и 16 для речевого сигнала, дискретизированного с частотой 16 кГц.
Gardner и Rao [2] вывели индивидуальную скалярную чувствительность для LSF из приближения высокой скорости (например, при использовании VQ с 30 или более бит). В таком случае полученные веса являются оптимальными и минимизируют LSD. Скалярные веса образуют диагональ так называемой матрицы чувствительности, задаваемой посредством
Figure 00000003
где является автокорреляционной матрицей импульсного отклика фильтра синтеза 1/А(z), полученного из исходных предиктивных коэффициентов анализа LPC. Jω(ω) является якобианом, преобразующим LSF в коэффициенты LPC.
Основным недостатком этого решения является сложность вычислений для вычисления матрицы чувствительности.
ITU-рекомендация G.718 [3] расширяет подход Гарднера путем добавки некоторых психоакустических факторов. Вместо рассмотрения матрицы , рассматривается импульсный отклик перцепционно взвешенного фильтра синтеза W(Z)
Figure 00000004
где WB(z) является фильтром IIR, аппроксимирующим взвешивающий фильтр Барка, придающим большую важность низким частотам. Матрица чувствительности затем вычисляется путем замены 1/А(z) на W(z).
Хотя взвешивание, используемое в G.718, теоретически является почти оптимальным подходом, оно наследует от подхода Гарднера очень высокую сложность. Современные аудиокодеки стандартизированы с ограничением в сложности и, следовательно, компромисс между сложностью и выигрышем в перцепционном качестве не удовлетворяется при этом подходе.
Подход, представленный Laroia et al., может давать субоптимальные веса, но он имеет низкую сложность. Веса, генерируемые при таком подходе, рассматривают весь частотный диапазон в равной степени, хотя чувствительность человеческого уха является весьма нелинейной. Искажение на более низких частотах является намного более слышимым, чем искажение на более высоких частотах.
Таким образом, существует необходимость в усовершенствовании схем кодирования.
Задачей настоящего изобретения является создание схем кодирования, которые допускают вычислительную сложность алгоритмов и/или обеспечивают их повышенную точности при поддержании хорошего качества аудио при декодировании кодированного аудиосигнала.
Эта задача решается кодером согласно пункту 1 формулы изобретения, системой передачи аудио согласно пункту 10, способом согласно пункту 11 и компьютерной программой согласно пункту 15.
Авторы настоящего изобретения обнаружили, что путем определения спектральных весовых коэффициентов с использованием способа, имеющего низкую вычислительную сложность, и посредством по меньшей мере частичной коррекции полученных спектральных весовых коэффициентов с использованием предварительно вычисленной информации коррекции, полученные скорректированные спектральные весовые коэффициенты могут обеспечить возможность кодирования и декодирования аудиосигнала с низкими вычислительными затратами при поддержании точности кодирования и/или уменьшения сниженных расстояний спектральных линий (LSD).
В соответствии с вариантом осуществления настоящего изобретения, кодер для кодирования аудиосигнала содержит анализатор для анализа аудиосигнала и для определения коэффициентов предсказания анализа из аудиосигнала. Кодер дополнительно содержит преобразователь, сконфигурированный для получения преобразованных коэффициентов предсказания из коэффициентов предсказания анализа, и память, сконфигурированную для хранения множества значений коррекции. Кодер дополнительно содержит вычислитель и формирователь битового потока. Вычислитель содержит процессор, объединитель и квантователь, причем процессор сконфигурирован для обработки преобразованных коэффициентов предсказания для получения спектральных весовых коэффициентов. Объединитель сконфигурирован для объединения спектральных весовых коэффициентов и множества значений коррекции для получения скорректированных весовых коэффициентов. Квантователь сконфигурирован для квантования преобразованных коэффициентов предсказания с использованием скорректированных весовых коэффициентов для получения квантованного представления преобразованных коэффициентов предсказания, например, значения, связанного с записью коэффициентов предсказания в базе данных. Формирователь битового потока сконфигурирован для формирования выходного сигнала на основе информации, связанной с квантованным представлением преобразованных коэффициентов предсказания, и на основе аудиосигнала. Преимуществом этого варианта осуществления является то, что процессор может получать спектральные весовые коэффициенты с использованием методов и/или концепций, имеющих низкую вычислительную сложность. Возможно, полученная погрешность относительно других концепций или способов может быть скорректирована по меньшей мере частично путем применения множества значений коррекции. Это обеспечивает сниженную вычислительную сложность получения весов по сравнению с правилом определения на основе [3] и сниженные LSD по сравнению с правилом определения в соответствии с [1].
Другие варианты осуществления обеспечивают кодер, в котором объединитель сконфигурирован для объединения спектральных весовых коэффициентов, множества значений коррекции и дополнительной информации, связанной с входным сигналом, чтобы получать скорректированные весовые коэффициенты. Путем использования дополнительной информации, связанной с входным сигналом, может быть достигнуто дальнейшее улучшение полученных скорректированных весовых коэффициентов при сохранении низкой вычислительной сложности, в частности, когда дополнительная информация, связанная с входным сигналом, по меньшей мере, частично получена в ходе других этапов кодирования, так что дополнительная информация может повторно использоваться.
Другие варианты осуществления обеспечивают кодер, в котором объединитель сконфигурирован для циклического, в каждом цикле, получения скорректированных весовых коэффициентов. Вычислитель содержит сглаживатель, сконфигурированный для взвешенного объединения первых квантованных весовых коэффициентов, полученных для предыдущего цикла, и вторых квантованных весовых коэффициентов, полученных для цикла, следующего за предыдущим циклом, чтобы получить сглаженные скорректированные весовые коэффициенты, содержащие значение между значениями первых и вторых квантованных весовых коэффициентов. Это позволяет уменьшить или предотвратить переходные искажения, особенно в случае, когда скорректированные весовые коэффициенты двух последовательных циклов определены таким образом, что они имеют большое различие, когда сравниваются друг с другом.
Другие варианты осуществления обеспечивают систему передачи аудио, содержащую кодер и декодер, сконфигурированный для приема выходного сигнала кодера или сигнала, полученного из него, и для декодирования принятого сигнала, чтобы обеспечить синтезированный аудиосигнал, при этом выходной сигнал кодера передается через среду передачи, такую как проводная или беспроводная среда. Преимуществом системы передачи аудио является то, что декодер может декодировать выходной сигнал, соответственно аудиосигнал, на основе неизмененных способов.
Другие варианты осуществления обеспечивают способ для определения значений коррекции для первого множества первых весовых коэффициентов. Каждый весовой коэффициент адаптирован для взвешивания части аудиосигнала, например, представленного как частота спектральной линии или частота спектрального иммитанса. Первое множество первых весовых коэффициентов определяется на основе первого правила определения для каждого аудиосигнала. Второе множество вторых весовых коэффициентов вычисляется для каждого аудиосигнала из набора аудиосигналов на основе второго правила определения. Каждый из второго множества весовых коэффициентов связан с первым весовым коэффициентом, т.е. весовой коэффициент может быть определен для части аудиосигнала на основе первого правила определения и на основе второго правила определения для получения двух результатов, которые могут быть различными. Вычисляется третье множество значений расстояния, причем значения расстояния имеют значение, связанное с расстоянием между первым весовым коэффициентом и вторым весовым коэффициентом, оба из которых относятся к части аудиосигнала. Вычисляется четвертое множество значений коррекции, адаптированное для уменьшения значений расстояния при объединении с первыми весовыми коэффициентами, так что когда первые весовые коэффициенты объединяются с четвертым множеством значений коррекции, расстояние между скорректированными первыми весовыми коэффициентами уменьшается по сравнению с вторыми весовыми коэффициентами. Это обеспечивает возможность вычисления весовых коэффициентов на основании обучающего набора данных один раз на основе второго правила определения, имеющего высокую вычислительную сложность и/или высокую точность, а другой раз на основе первого правила определения, которое может иметь более низкую вычислительную сложность и может быть меньшей точности, причем пониженная точность компенсируется или сокращается по меньшей мере частично посредством коррекции.
Другие варианты осуществления обеспечивают способ, в котором расстояние уменьшается путем адаптации полинома, причем коэффициенты полинома связаны со значениями коррекции. Другие варианты осуществления обеспечивают компьютерную программу.
Предпочтительные варианты осуществления настоящего изобретения будут описаны подробно со ссылкой на приложенные чертежи, на которых:
Фиг.1 показывает блок-схему кодера для кодирования аудиосигнала в соответствии с вариантом осуществления;
Фиг. 2 показывает блок-схему вычислителя в соответствии с вариантом осуществления, в котором вычислитель модифицирован по сравнению с вычислителем, показанным на фиг. 1;
Фиг. 3 показывает блок-схему кодера, дополнительно содержащего спектральный анализатор и спектральный процессор в соответствии с вариантом осуществления;
Фиг. 4а иллюстрирует вектор, содержащий 16 значений частот спектральных линий, которые получены преобразователем на основе определенных коэффициентов предсказания согласно варианту осуществления;
Фиг. 4b иллюстрирует правило определения, выполняемое объединителем, согласно варианту осуществления;
Фиг. 4с показывает примерное правило определения для иллюстрации этапа получения скорректированных весовых коэффициентов согласно варианту осуществления;
Фиг. 5а изображает примерную схему определения, которая может быть реализована посредством квантователя для определения квантованного представления преобразованных коэффициентов предсказания согласно варианту осуществления;
Фиг. 5b показывает примерный вектор значений квантования, которые могут быть объединены в их наборы, согласно варианту осуществления;
Фиг. 6 показывает блок-схему системы передачи аудио согласно варианту осуществления;
Фиг. 7 иллюстрирует вариант осуществления для получения значений коррекции; и
Фиг. 8 показывает блок-схему последовательности операций способа кодирования аудиосигнала согласно варианту осуществления.
Одинаковые или эквивалентные элементы или элементы с одинаковой или эквивалентной функциональностью, обозначены в нижеследующем описании одинаковыми или эквивалентными ссылочными позициями, даже если они имеются на различных фигурах.
В последующем описании множество деталей изложено для обеспечения более полного объяснения вариантов осуществления настоящего изобретения. Однако специалистам в данной области техники должно быть понятно, что варианты осуществления настоящего изобретения могут быть осуществлены без этих конкретных деталей. В других случаях, хорошо известные структуры и устройства показаны в виде блок-схемы, а не в деталях, чтобы избежать затенения вариантов осуществления настоящего изобретения. Кроме того, признаки различных вариантов осуществления, описанных ниже, могут быть объединены друг с другом, если специально не оговорено иное.
На фиг.1 показана блок-схема кодера 100 для кодирования аудиосигнала. Аудиосигнал может быть получен кодером 100 как последовательность кадров 102 аудиосигнала. Кодер 100 содержит анализатор для анализа кадра 102 и для определения коэффициентов 112 предсказания анализа из аудиосигнала 102. Коэффициенты 112 предсказания анализа (коэффициенты предсказания) могут быть получены, например, как коэффициенты линейного предсказания (LPC). В качестве альтернативы, также могут быть получены коэффициенты нелинейного предсказания, причем коэффициенты линейного предсказания могут быть получены с использованием меньшей вычислительной мощности и, следовательно, могут быть получены быстрее.
Кодер 100 содержит преобразователь 120, сконфигурированный для получения преобразованных коэффициентов 122 предсказания из коэффициентов 112 предсказания. Преобразователь 120 может быть сконфигурирован для определения преобразованных коэффициентов 122 предсказания, например, частот спектральных линий (LSF) и/или частот спектральных иммитансов (ISF). Преобразованные коэффициенты 122 предсказания могут иметь более высокую устойчивость по отношению к погрешностям квантования в последующем квантовании по сравнению с коэффициентами 112 предсказания. Поскольку квантование обычно выполняется нелинейно, квантование коэффициентов линейного предсказания может привести к искажениям декодированного аудиосигнала.
Кодер 100 содержит вычислитель 130. Вычислитель 130 содержит процессор 140, который сконфигурирован для обработки преобразованных коэффициентов 122 предсказания для получения спектральных весовых коэффициентов 142. Процессор может быть сконфигурирован для вычисления и/или для определения весовых коэффициентов 142 на основе одного или более из множества известных правил определения, таких как инверсное гармоническое среднее (IHM), как это известно из [1], или в соответствии с более сложным подходом, как описано в [2]. Стандарт G.718 Международного союза электросвязи (ITU) описывает другой подход определения весовых коэффициентов путем расширения подхода [2], как описано в [3]. Предпочтительно процессор 140 сконфигурирован, чтобы определять весовые коэффициенты 142 на основе правила определения, имеющего низкую вычислительную сложность. Это может обеспечить высокую пропускную способность кодированных аудиосигналов и/или простую реализацию кодера 100 ввиду аппаратных средств, которые могут потреблять меньше энергии на основе меньших вычислительных затрат.
Вычислитель 130 включает в себя объединитель 150, сконфигурированный для объединения спектральных весовых коэффициентов 142 и множества значений 162 коррекции, чтобы получать скорректированные весовые коэффициенты 152. Множество значений коррекции предоставляется из памяти 160, в которой хранятся значения 162 коррекции. Значения 162 коррекции могут быть статическими или динамическими, т.е. значения 162 коррекции могут быть обновлены во время работы кодера 100 или могут оставаться неизменными в процессе работы и/или могут быть обновлены только во время процедуры калибровки для калибровки кодера 100. Предпочтительно, память 160 содержит статические значения 162 коррекции. Значения 162 коррекции могут быть получены, например, с помощью процедуры предварительного вычисления, как описано в дальнейшем. В качестве альтернативы, память 160 может альтернативно содержаться в вычислителе 130, как указано пунктирными линиями.
Вычислитель 130 содержит квантователь 170, сконфигурированный для квантования преобразованных коэффициентов 122 предсказания с использованием скорректированных весовых коэффициентов 152. Квантователь 170 сконфигурирован для вывода квантованного представления 172 преобразованных коэффициентов 122 предсказания. Квантователь 170 может быть линейным квантователем, нелинейным квантователем, таким как логарифмический квантователь, или векторно-подобным квантователем, векторным квантователем, соответственно. Векторно-подобный квантователь может быть сконфигурирован для квантования множества pf частей скорректированных весовых коэффициентов 152 во множество квантованных значений (частей). Квантователь 170 может быть сконфигурирован для взвешивания преобразованных коэффициентов 122 предсказания скорректированными весовыми коэффициентами 152. Квантователь может быть дополнительно сконфигурирован для определения расстояния от взвешенных преобразованных коэффициентов 122 предсказания до записей базы данных квантователя 170 и для выбора кодового слова (представления), которое связано с записью в базе данных, причем запись может содержать наименьшее расстояние до взвешенных преобразованных коэффициентов 122 предсказания. Такая процедура иллюстративно описана ниже. Квантователь 170 может быть стохастическим векторным квантователем (VQ). В качестве альтернативы, квантователь 170 может также быть сконфигурирован для применения других векторных квантователей, таких как решеточный VQ или любой скалярный квантователь. В качестве альтернативы, квантователь 170 может быть также сконфигурирован для применения линейного или логарифмического квантования.
Квантованное представление 172 преобразованных коэффициентов 122 предсказания, то есть кодовое слово, выдается на формирователь 180 битового потока кодера 100. Кодер 100 может содержать блок 190 обработки аудио, сконфигурированный для обработки некоторой или всей из аудио информации аудиосигнала 102 и/или дополнительной информации. Блок 190 обработки аудио сконфигурирован для предоставления аудиоданных 192, таких как вокализованная сигнальная информации или невокализованная сигнальная информация, на формирователь 180 битового потока. Формирователь 180 битового потока сконфигурирован для формирования выходного сигнала (битового потока) 182 на основе квантованного представления 172 преобразованных коэффициентов 122 предсказания и на основе аудио информации 192, которая основана на аудиосигнале 102.
Преимуществом кодера 100 является то, что процессор 140 может быть сконфигурирован так, чтобы получать, например, вычислять весовые коэффициенты 142 с использованием правила определения, которое имеет низкую вычислительную сложность. Значения 162 коррекции могут быть получены посредством, при выражении в упрощенном виде, сравнения набора весовых коэффициентов, полученных с помощью (опорного) правила определения с высокой вычислительной сложностью, но поэтому с высокой точностью и/или хорошим качеством аудио и/или низким LSD, с весовыми коэффициентами, полученными с помощью правила определения, выполняемого процессором 140. Это может быть сделано для множества аудиосигналов, причем для каждого из аудиосигналов получают ряд весовых коэффициентов на основе обоих правил определения. Для каждого аудиосигнала, полученные результаты можно сравнивать, чтобы получать информацию, относящуюся к рассогласованию или погрешности. Информация, относящаяся к рассогласованию или погрешности, может суммироваться и/или усредняться по множеству аудиосигналов для получения информации, относящейся к средней погрешности, которая создана процессором 140 по отношению к опорному правилу определения при выполнении правила определения с более низкой вычислительной сложностью. Полученная информация, относящаяся к средней погрешности и/или рассогласованию, может быть представлена в значениях 162 коррекции, так что весовые коэффициенты 142 могут быть объединены со значениями 162 коррекции объединителем, чтобы уменьшить или скомпенсировать среднюю погрешность. Это позволяет уменьшить или почти скомпенсировать погрешность весовых коэффициентов 142 по сравнению с опорным правилом определения, используемым офлайн, в то же время позволяя выполнять менее сложное определение весовых коэффициентов 142.
Фиг. 2 показывает блок-схему модифицированного вычислителя 130’. Вычислитель 130’ содержит процессор 140’, сконфигурированный для вычисления весов инверсного гармонического среднего (IHM) из LSF 122’, которые представляют преобразованные коэффициенты предсказания. Вычислитель 130’ содержит объединитель 150’, который, по сравнению с объединителем 150, сконфигурирован для объединения IHM-весов 142’ процессора 140’, значений 162 коррекции и дополнительной информации 114 аудиосигнала 102, указанной как “коэффициенты отражения”, причем дополнительная информация 114 не ограничивается этим. Дополнительная информация может быть промежуточным результатом других этапов кодирования, например, коэффициенты 114 отражения могут быть получены анализатором 110 при определении коэффициентов 112 предсказания, как представлено на фиг. 1. Коэффициенты линейного предсказания могут быть определены анализатором 110 при выполнении правила определения в соответствии с алгоритмом Левинсона-Дарбина, в котором определяются алгоритмы отражения. Кроме того, может быть получена информация, относящаяся к спектру мощности (энергетическому спектру), при вычислении коэффициентов 112 предсказания. Возможная реализация объединителя 150’ описана далее. В качестве альтернативы или в дополнение, дополнительная информация 114 может быть объединена с весами 142 или 142’ и параметрами 162 коррекции, например, информацией, относящейся к энергетическому спектру аудиосигнала 102. Дополнительная информация 114 позволяет дополнительно уменьшить разницу между весами 142 или 142’, определяемыми вычислителем 130 или 130’, и опорными весами. Увеличение вычислительной сложности может иметь лишь незначительные эффекты, так как дополнительная информация 114 может уже быть определена другими компонентами, такими как анализатор 110, в ходе других этапов кодирования аудио.
Вычислитель 130’ дополнительно содержит сглаживатель 155, сконфигурированный для приема скорректированных весовых коэффициентов 152’ от объединителя 150’ и опциональной информации 157 (флага управления), обеспечивающей возможность операции управления (состояния включения/выключения) сглаживателя 155. Флаг 157 управления может быть получен, например, из анализатора, указывающего, что сглаживание должно быть выполнено для того, чтобы смягчить резкие переходы. Сглаживатель 155 сконфигурирован для объединения скорректированных весовых коэффициентов 152’ и скорректированных весовых коэффициентов 152”’, которые являются задержанным представлением скорректированных весовых коэффициентов, определенных для предыдущего кадра или подкадра аудиосигнала, т.е. скорректированных весовых коэффициентов, определенных в предыдущем цикле в состоянии включения. Сглаживатель 155 может быть реализован в виде фильтра с бесконечным импульсным откликом (IIR). Таким образом, вычислитель 130’ содержит блок 159 задержки, сконфигурированный для приема и задержки скорректированных весовых коэффициентов 152”, обеспеченных сглаживателем 155 в первом цикле, и обеспечения тех весовых коэффициентов как скорректированных весовых коэффициентов 152”’ в следующем цикле.
Блок 159 задержки может быть реализован, например, как фильтр задержки или как память, сконфигурированная для сохранения принятых скорректированных весовых коэффициентов 152”. Сглаживатель 155 сконфигурирован для весового объединения принятых скорректированных весовых коэффициентов 152’ и принятых скорректированных весовых коэффициентов 152”’ из прошлого. Например, (текущие) скорректированные весовые коэффициенты 152’ могут содержать долю 25%, 50% , 75% или любое другое значение в сглаженных скорректированных весовых коэффициентах 152”, причем (прошлые) весовые коэффициенты 152”’ могут содержать долю, равную (1-доля скорректированных весовых коэффициентов 152’). Это позволяет избежать резких переходов между последовательными аудиокадрами, когда аудиосигнал, то есть его два последовательных кадра приводят к различным скорректированным весовым коэффициентам, которые привели бы к искажениям в декодированном аудиосигнале. В состоянии выключения, сглаживатель 155 сконфигурирован для пересылки скорректированных весовых коэффициентов 152’. В качестве альтернативы или в дополнение, сглаживание может обеспечить повышенное качество аудио для аудиосигналов, содержащих высокий уровень периодичности.
В качестве альтернативы, сглаживатель 155 может быть сконфигурирован, чтобы дополнительно объединять скорректированные весовые коэффициенты нескольких предыдущих циклов. В качестве альтернативы или в дополнение, преобразованные коэффициенты 122’ предсказания могут также быть частотами спектральных иммитансов.
Весовой коэффициент wi может быть получен, например, на основе инверсного гармонического среднего (IHM). Правило определение может быть основано на форме:
Figure 00000005
,
где wi обозначает определенный вес 142’ с индексом i, LSFi обозначает частоту спектральной линии с индексом i. Индекс i соответствует числу полученных спектральных весовых коэффициентов и может быть равен числу коэффициентов предсказания, определенных анализатором. Число коэффициентов предсказания и, следовательно, число преобразованных коэффициентов может быть, например, равно 16. В качестве альтернативы, это число может также быть равно 8 или 32. В качестве альтернативы, число преобразованных коэффициентов также может быть ниже, чем число коэффициентов предсказания, например, если преобразованные коэффициенты 122 определены как частоты спектральных иммитансов, которые могут содержать меньшее число по сравнению с числом коэффициентов предсказания.
Другими словами, фиг. 2 детализирует обработку, выполняемую на этапе получения веса, исполняемого преобразователем 120. Сначала IHM-веса вычисляются из LSF. В соответствии с одним вариантом осуществления, порядок LPC, равный 16, используется для сигнала, дискретизированного с частотой 16 кГц. Это означает, что LSF ограничены между 0 и 8 кГц. В соответствии с другим вариантом осуществления, LPC имеет порядок 16, и сигнал дискретизируется с частотой 12,8 кГц. В этом случае, LSF ограничены между 0 и 6,4 кГц. В соответствии с другим вариантом осуществления, сигнал дискретизируется с частотой 8 кГц, что может называться узкополосной дискретизацией. IHM-веса могут затем объединяться с дополнительной информацией, например, относящейся к некоторым из коэффициентов отражения, в полиноме, для которого коэффициенты оптимизируются офлайн на этапе обучения. И, наконец, полученные веса могут быть сглажены предыдущим набором весов в некоторых случаях, например, для стационарных сигналов. В соответствии с одним вариантом осуществления, сглаживание никогда не выполняется. В соответствии с другими вариантами осуществления, оно выполняется только тогда, когда входной кадр классифицируется как вокализованный, то есть сигнал, детектируемый как в высокой степени периодический.
Далее будут сделаны ссылки на детали коррекции полученных весовых коэффициентов. Например, анализатор сконфигурирован для определения коэффициентов линейного предсказания (LPC) порядка 10 или 16, то есть числа 10 или 16 LPC. Хотя анализатор может быть также сконфигурирован для определения любого другого числа коэффициентов линейного предсказания или другого типа коэффициента, следующее описание сделано со ссылкой на 16 коэффициентов, так как это число коэффициентов используется в мобильной связи.
На фиг. 3 показана блок-схема кодера 300, дополнительно содержащего спектральный анализатор 115 и спектральный процессор 145, по сравнению с кодером 100. Спектральный анализатор 115 сконфигурирован для получения спектральных параметров 116 из аудиосигнала 102. Спектральные параметры могут быть, например, огибающей кривой спектра аудиосигнала либо его кадра и/или параметрами, характеризующими огибающую кривую. В качестве альтернативы, могут быть получены коэффициенты, связанные с энергетическим спектром.
Спектральный процессор 145 содержит вычислитель 145а энергии, который сконфигурирован для вычисления величины или меры 146 для энергии частотных бинов спектра аудиосигнала 102 на основе спектральных параметров 116. Спектральный процессор дополнительно содержит нормализатор 145b для нормализации преобразованных коэффициентов 122’ предсказания (LSF) для получения нормализованных коэффициентов 147 предсказания. Преобразованные коэффициенты предсказания могут быть нормализованы, например, относительным образом, по отношению к максимальному значению множества LSF и/или абсолютным образом, т.е. по отношению к предопределенному значению, такому как максимальное значение, ожидаемое или представимое используемыми переменными вычисления.
Спектральный процессор 145 дополнительно содержит первый определитель 145c, сконфигурированный для определения энергии бина для каждого нормализованного параметра предсказания, то есть, чтобы связывать каждый нормированный параметр 147 предсказания, полученный из нормализатора 45b, с вычисленным в качестве меры 146, чтобы получать вектор W1, содержащий энергию бина для каждой LSF. Спектральный процессор 145 дополнительно содержит второй определитель 145d, сконфигурированный для нахождения (определения) частотного взвешивания для каждой нормализованной LSF, чтобы получать вектор W2, содержащий частотные взвешивания. Дополнительная информация 114 содержит векторы W1 и W2, т.е. векторы W1 и W2 являются признаком, представляющим дополнительную информацию 114.
Процессор 142’ сконфигурирован для определения IHM на основе преобразованных параметров 122’ предсказания и степени IHM, например, второй степени, причем в качестве альтернативы или в дополнение также может вычисляться более высокая степень, при этом IHM и его степень(и) формируют весовые коэффициенты 142’.
Объединитель 150” сконфигурирован для определения скорректированных весовых коэффициентов (скорректированных весов LSF) 152’ на основе дополнительной информации 114 и весовых коэффициентов 142’.
В качестве альтернативы, процессор 140’, спектральный процессор 145 и/или объединитель могут быть реализованы как один блок обработки, такой как центральный процессорный блок, (микро) контроллер, программируемая вентильная матрица или т.п.
Другими словами, первой и второй записью для объединителя являются IHM и IHM2, т.е. весовые коэффициенты 142’. Третья запись для каждого элемента i LSF-вектора будет
Figure 00000006
где wfft представляет собой комбинацию W1 и W2 и где min является минимумом wfft.
i=0…М, где М может быть равно 16, когда 16 коэффициентов предсказания получают из аудиосигнала и
Figure 00000007
где binEner содержит энергию каждого бина спектра, т.е. binEner соответствует мере 146.
Отображение
Figure 00000008
представляет собой грубое приближение энергии форманты в спектральной огибающей. FreqWTable представляет собой вектор, содержащий дополнительные веса, которые выбираются в зависимости от входного сигнала, являющегося вокализованным или невокализованным.
Wfft является приближением спектральной энергии, близкой к коэффициенту предсказания, такому как коэффициент LSF. Проще говоря, если коэффициент предсказания (LSF) содержит значение X, это означает, что спектр аудиосигнала (кадра) содержит максимум энергии (форманту) на частоте X или ниже нее. wfft является логарифмическим выражением энергии на частоте X, то есть, оно соответствует логарифмической энергии в этом местоположении. По сравнению с вариантами осуществления, описанными ранее, с использованием коэффициентов отражения в качестве дополнительной информации, в качестве альтернативы или в дополнение, комбинация wfft (W1) и FrequWTable (W2) может быть использована для получения дополнительной информации 114. FreqWTable описывает одну из множества возможных таблиц, подлежащих использованию. На основе “режима кодирования” кодера 300, например, вокализованного, фрикативного и т.п., может быть выбрана по меньшей мере одна из множества таблиц. Одна или более из множества таблиц может обучаться (программироваться и адаптироваться) во время работы кодера 300.
Решение использовать wfft направлено на улучшение кодирования преобразованных коэффициентов предсказания, которые представляют форманту. В отличие от классического формирования шума, где шум имеется на частотах, содержащих большие количества энергии (сигнала), описанный подход относится к квантованию кривой спектральной огибающей. Когда энергетический спектр содержит большое количество энергии (большую меру) на частотах, содержащихся или расположенных рядом с частотой преобразованного коэффициента предсказания, этот преобразованный коэффициент предсказания (LSF) может быть квантован лучше, то есть с меньшими погрешностями, полученными за счет более высокого взвешивания, чем другие коэффициенты, содержащие более низкую меру энергии.
Фиг. 4a иллюстрирует вектор LSF, содержащий 16 значений записей определенных частот спектральных линий, которые получены с помощью преобразователя на основе определенных коэффициентов предсказания. Процессор сконфигурирован, чтобы получать 16 весов, например, инверсное гармоническое среднее IHM, представленное в векторе IHM. Значения 162 коррекции сгруппированы, например, в вектор а, вектор b и вектор с. Каждый из векторов а, b и c содержит 16 значений а1-16, b1-16 и c1-16, причем равные индексы указывают, что соответствующее значение коррекции связано с коэффициентом предсказания, его преобразованное представление и весовой коэффициент содержат тот же самый индекс. Фиг. 4b иллюстрирует правило определения, выполняемое объединителем 150 или 150’ в соответствии с вариантом осуществления. Объединитель сконфигурирован для вычисления или определения результата для полиномиальной функции, основанной на форме у=а++cx 2, то есть разные значения a, b, c коррекции объединяются (умножаются) с различными степенями весовых коэффициентов (иллюстрируемых как х). y обозначает вектор полученных скорректированных весовых коэффициентов.
В качестве альтернативы или в дополнение, объединитель также может быть сконфигурирован так, чтобы суммировать дополнительные значения (d, e, f,…) коррекции и дополнительные степени весовых коэффициентов или дополнительную информацию. Например, полином, изображенный на фиг. 4b, может быть расширен с помощью вектора d, содержащего 16 значений, умноженного на третью степень дополнительной информации 114, соответствующий вектор, таким образом, содержит 16 значений. Это может быть, например, вектор, основанный на IHM3, когда процессор 140’, как показано на фиг. 3, сконфигурирован для определения дополнительных степеней IHM. В качестве альтернативы, может вычисляться по меньшей мере только вектор b и опционально один или несколько из векторов c, d,… более высокого порядка. Упрощенно, порядок полинома увеличивается с каждым членом, причем каждый тип может быть сформирован на основе весового коэффициента и/или опционально на основе дополнительной информации, причем полином основан на форме у=а++cx 2, то есть, когда содержит член более высокого порядка. Значения а, b, c и опционально d, е,… могут содержать действительные значения и/или мнимые значения, а также могут содержать значение, равное нулю.
Фиг. 4c изображает приведенное для примера правило определения для иллюстрации этапа получения скорректированных весовых коэффициентов 152 или 152’. Скорректированные весовые коэффициенты представлены в векторе w, содержащем 16 значений, по одному весовому коэффициенту для каждого из преобразованных коэффициентов предсказания, изображенных на фиг. 4а. Каждый из скорректированных весовых коэффициентов w1-16 вычисляется в соответствии с правилом определения, показанным на фиг. 4b. Приведенные выше описания должны иллюстрировать только принцип определения скорректированных весовых коэффициентов и не должны ограничиваться правилами определения, описанными выше. Описанные выше правила определения также могут варьироваться, масштабироваться, сдвигаться и т.п. В общем, скорректированные весовые коэффициенты получают путем выполнения объединения значений коррекции с определенным весовыми коэффициентами.
Фиг. 5a изображает примерную схему определения, которая может быть реализована квантователем, таким как квантователь 170, чтобы определять квантованное представление преобразованных коэффициентов предсказания. Квантователь может суммировать погрешность, например, разность или ее степень между определенным преобразованным коэффициентом, показанным как LSFi, и опорным коэффициентом, указанным как LSF’i, при этом опорные коэффициенты могут быть сохранены в базе данных квантователя. Определенное расстояние может быть квадратичным, так что получаются только положительные значения. Каждое из расстояний (погрешностей) взвешивается соответствующим весовым коэффициентом wi. Это позволяет придать больший вес частотным диапазонам или преобразованным коэффициентам предсказания с более высокой важностью для качества аудио и меньший вес частотным диапазонам с более низкой важностью для качества аудио. Погрешности суммируются по некоторым или всем индексам 1-16, чтобы получить полное значение погрешности. Это может быть сделано для множества предопределенных комбинаций (записей базы данных) коэффициентов, которые могут быть объединены в наборы Qu’, Qu”,… Qun, как показано на фиг. 5b. Квантователь может быть сконфигурирован для выбора кодового слова, связанного с набором предопределенных коэффициентов, имеющих минимальную погрешность по отношению к определенным скорректированным весовым коэффициентам и преобразованным коэффициентам предсказания. Кодовое слово может быть, например, индексом таблицы, так что декодер может восстановить предопределенный набор Qu’, Qu”,… на основе принятого индекса, принятого кодового слова, соответственно.
Для получения значений коррекции во время фазы обучения выбирается опорное правило определения, в соответствии с которым определяются опорные веса. Так как кодер сконфигурирован для коррекции определенных весовых коэффициентов по отношению к опорным весам, и определение опорных весов может быть выполнено офлайн, т.е. во время этапа калибровки или т.п., правило определения, имеющее высокую точность (например, низкое LSD), может быть выбрано, пренебрегая результирующими вычислительными затратами. Предпочтительно, способ, имеющий высокую точность и, возможно, высокую вычислительную сложность, может быть выбран, чтобы получить высокоточные опорные весовые коэффициенты. Например, может использоваться метод определения весовых коэффициентов в соответствии со стандартом G.718 [3].
Правило определения, в соответствии с которым кодер будет определять весовые коэффициенты, также выполняется. Это может быть способ, имеющий низкую вычислительную сложность, при допущении более низкой точности определенных результатов. Веса вычисляются в соответствии с обоими правилами определения при использовании набора аудио материала, содержащего, например, речь и/или музыку. Аудио материал может быть представлен в количестве М обучающих векторов, где М может содержать значение более 100, более 1000 или более 5000. Оба набора полученных весовых коэффициентов, сохраняются в матрице, каждая матрица содержит векторы, каждый из которых связан с одним из М обучающих векторов.
Для каждого из М обучающих векторов определяется расстояние между вектором, содержащим весовые коэффициенты, определенные на основе первого (опорного) правила определения, и вектором, содержащим весовые векторы, определенные на основе правила определения кодера. Расстояния суммируются для получения полного расстояния (погрешности), причем полная погрешность может быть усреднена, чтобы получить среднее значение погрешности.
При определении значений коррекции, целью может быть уменьшение полной погрешности и/или средней погрешности. Поэтому полиномиальная аппроксимация может быть выполнена на основе правила определения, показанного на фиг. 4b, где векторы а, b и c и/или дополнительные векторы адаптированы к полиному, так что полная и/или средняя погрешность уменьшается или сводится к минимуму. Полином аппроксимирован к весовым коэффициентам, определенным на основе правила определения, которые будут выполняться в декодере. Полином может быть аппроксимирован таким образом, что полная погрешность или средняя погрешность ниже порогового значения, например, 0,01, 0,1 или 0,2, где 1 указывает полное рассогласование. В качестве альтернативы или в дополнение, полином может быть аппроксимирован таким образом, что суммарная погрешность сводится к минимуму за счет использования алгоритма, основанного на минимизации погрешности. Значение 0,01 может указывать относительную погрешность, которая может быть выражена в виде разности (расстояния) и/или как частное расстояний. В качестве альтернативы, полиномиальная аппроксимация может быть выполнена путем определения значений коррекции так, что результирующая общая погрешность или средняя погрешность содержит значение, близкое к математическому минимуму. Это может быть сделано, например, путем взятия производной используемых функций и оптимизации на основе установки полученной производной в нуль.
Дальнейшее уменьшение расстояния (погрешности), например, евклидова расстояния, может быть достигнуто при добавлении дополнительной информации, как показано для 114 на стороне кодера. Эта дополнительная информация также может быть использована при вычислении параметров коррекции. Информация может быть использована путем объединения ее с полиномом для определения значения коррекции.
Другими словами, первые IHM-веса и G.718-веса могут быть извлечены из базы данных, содержащей более 5000 секунд (или M обучающих векторов) речи и музыкального материала. IHM-веса могут быть сохранены в матрице I, а G.718-веса могут быть сохранены в матрице G. Пусть Ii и Gi - векторы, содержащие все IHM- и G.718-веса wi i-го коэффициента ISF или LSF всей обучающей базы данных. Среднее евклидово расстояние между этими двумя векторами может быть определено на основе:
Figure 00000009
Для того чтобы минимизировать расстояние между этими двумя векторами, полином второго порядка может быть аппроксимирован
Figure 00000010
Может быть введена матрица
Figure 00000011
и вектор
Figure 00000012
, чтобы записать
Figure 00000013
и
Figure 00000014
Чтобы получить вектор Pi с самым низким средним евклидовым расстоянием, производная
Figure 00000015
может быть установлена равной нулю
Figure 00000016
чтобы получить
Figure 00000017
Для дополнительного уменьшения разности (евклидова расстояния) между предложенными весами и G.718-весами, коэффициенты отражения другой информации могут быть добавлены к матрице EIi. Так как, например, коэффициенты отражения несут некоторую информацию о модели LPC, которая не является непосредственно наблюдаемой в области LSF или ISF, они способствуют уменьшению евклидова расстояния di. На практике, вероятно, не все коэффициенты отражения приведут к значительному снижению евклидова расстояния. Авторы настоящего изобретения обнаружили, что может быть достаточно использовать первый и 14-ый коэффициент отражения. Добавление коэффициентов отражения к матрице EIi будет выглядеть следующим образом:
Figure 00000018
где rху является y-ым коэффициентом отражения (или другой информацией) х-го экземпляра в обучающем наборе данных. Соответственно, размерность вектора Рi будет содержать измененные размерности в соответствии с числом столбцов в матрице EIi. Вычисление оптимального вектора Рi остается таким же, как описано выше.
Путем добавления дополнительной информации, правило определения, изображенное на фиг. 4b, может быть изменено (расширено) в соответствии с у=а+b х+c x 2+d r 1 3+….
Фиг. 6 показывает блок-схему системы 600 передачи аудио в соответствии с вариантом осуществления. Система 600 передачи аудио включает в себя кодер 100 и декодер 602, сконфигурированный для приема выходного сигнала 182 в виде битового потока, содержащего квантованную LSF, или информацию, относящуюся к ней, соответственно. Битовый поток передается через передающую среду 604, такую как проводное соединение (кабель) или воздух.
Другими словами, на фиг. 6 показан общий вид схемы кодирования LPC на стороне кодера. Следует отметить, что взвешивание используется только кодером и не требуется декодером. Сначала выполняется анализ LPC на входном сигнале. Он выводит коэффициенты LPC и коэффициенты отражения (RC). После анализа LPC коэффициенты предсказания LPC преобразуются в LSF. Эти LSF являются вектором, квантованным с использованием схемы, такой как многоступенчатое векторное квантование, и затем передаются в декодер. Кодовое слово выбирается в соответствии с взвешенным квадратичным расстоянием погрешности, называемым WED, как представлено выше. Для этой цели соответствующие веса должны быть вычислены заранее. Вывод весов является функцией исходных LSF и коэффициентов отражения. Коэффициенты отражения непосредственно доступны во время анализа LPC в качестве внутренних переменных, необходимых для алгоритма Левинсона-Дарбина.
Фиг. 7 иллюстрирует вариант осуществления для получения значений коррекции, как было описано выше. Преобразованные коэффициенты 122’ предсказания (LSF) или другие коэффициенты используются для определения весов в соответствии с кодером в блоке А и для вычисления соответствующих весов в блоке B. Полученные веса 142 непосредственно комбинируются с полученными опорными весами 142” в блоке C для аппроксимации моделирования, то есть для вычисления вектора Pi, как показано пунктирной линией от блока А к блоку С. Опционально, если дополнительная информация 114, такая как коэффициенты отражения или информация спектральной мощности, используется для определения значений 162 коррекции, веса 142’ комбинируются с дополнительной информацией 114 в векторе регрессии, указанном как блок D, как это было описано расширенной матрицей EIi посредством значений отражения. Полученные веса 142”’ затем объединяются с опорными весовыми коэффициентами 142” в блоке С.
Другими словами, аппроксимирующей моделью блока С является вектор Р, который описан выше. Приведенный ниже псевдо-код иллюстративно обобщает обработку вывода весов:
Вход:lsf=исходный вектор LSF
order=порядок LPC, длина lsf
parcorr[0]=-1-ый коэффициент отражения
parcorr[1]=-14-ый коэффициент отражения
smooth_flag=флаг для сглаживания весов
w_past=прошлые веса
Выход
weights=вычисленные веса
Figure 00000019
Figure 00000020
Это указывает сглаживание, описанное выше, в котором представленные веса взвешены с коэффициентом 0,75 и прошлые веса взвешены с коэффициентом 0,25.
Полученные коэффициенты для вектора Р могут содержать скалярные значения, как указано в качестве примера ниже для сигнала, дискретизированного с частотой 16 кГц и с порядком LPC, равным 16:
lsf_fit_model[5][16]={
{679, 10921, 10643, 4998, 11223, 6847, 6637, 5200, 3347, 3423, 3208, 3329, 2785, 2295, 2287, 1743},
{23735, 14092, 9659, 7977, 4125, 3600, 3099, 2572, 2695, 2208, 1759, 1474, 1262, 1219, 931, 1139},
{-6548, -2496, -2002, -1675, -565, -529, -469, -395, -477, -423, -297, -248, -209, -160, -125, -217},
{-10830, 10563, 17248, 19032, 11645, 9608, 7454, 5045, 5270, 3712, 3567, 2433, 2380, 1895, 1962, 1801},
{-17553, 12265, -758, -1524, 3435, -2644, 2013, -616, -25, 651, -826, 973, -379, 301, 281, -165}};
Как было указано выше, вместо LSF также ISF могут быть предоставлены преобразователем в качестве коэффициентов 122. Вывод весов может быть очень сходным, как указано посредством следующего псевдокода. ISF порядка N эквивалентны LSF порядка N-1 для N-1 первых коэффициентов, к которым прибавлены N-ые коэффициенты отражения. Поэтому вывод весов очень близок к выводу весов LSF. Это задается следующим псевдокодом:
Вход:isf=исходный вектор ISF
order=порядок LPC, длина lsf
parcorr[0]=-1-ый коэффициент отражения
parcorr[1]=-14-ый коэффициент отражения
smooth_flag=флаг для сглаживания весов
w_past=прошлые веса
Выход
weights=вычисленные веса
Figure 00000021
Figure 00000022
где коэффициенты аппроксимирующей модели для входного сигнала с частотными компонентами, возрастающими до 6,4 кГц:
isf_fit_model[5][15]={
{8112, 7326, 12119, 6264, 6398, 7690, 5676, 4712, 4776, 3789, 3059, 2908, 2862, 3266, 2740},
{16517, 13269, 7121, 7291, 4981, 3107, 3031, 2493, 2000, 1815, 1747, 1477, 1152, 761, 728},
{-4481, -2819, -1509, -1578, -1065, -378, -519, -416, -300, -288, -323, -242, -187, -7, -45},
{-7787, 5365, 12879, 14908, 12116, 8166, 7215, 6354, 4981, 5116, 4734, 4435, 4901, 4433, 5088},
{-11794, 9971, -3548, 1408, 1108, -2119, 2616, -1814, 1607, -714, 855, 279, 52, 972, -416}};
где коэффициенты аппроксимирующей модели для входного сигнала с частотными компонентами, возрастающими до 4 кГц, и с нулевой энергией для частотного компонента от 4 до 6,4 кГц:
isf_fit_model [5][15]={
{21229, -746, 11940, 205, 3352, 5645, 3765, 3275, 3513, 2982, 4812, 4410, 1036, -6623, 6103},
{15704, 12323, 7411, 7416, 5391, 3658, 3578, 3027, 2624, 2086, 1686, 1501, 2294, 9648, -6401},
{-4198, -2228, -1598, -1481, -917, -538, -659, -529, -486, -295, -221, -174, -84, -11874, 27397},
{-29198, 25427, 13679, 26389, 16548, 9738, 8116, 6058, 3812, 4181, 2296, 2357, 4220, 2977, -71},
{-16320, 15452, -5600, 3390, 589, -2398, 2453, -1999, 1351, -1853, 1628, -1404, 113, -765, -359}};
В основном, порядки ISF модифицированы, что можно видеть при сравнении блока /*Compute IHM weights*/ (вычислить IHM-веса) обоих псевдо-кодов.
Фиг. 8 показывает схему последовательности операций способа 800 для кодирования аудиосигнала. Способ 800 включает в себя этап 802, на котором аудиосигнал анализируется, при этом анализе из аудиосигнала определяются коэффициенты предсказания. Способ 800 дополнительно включает в себя этап 804, на котором преобразованные коэффициенты предсказания получаются из коэффициентов предсказания, полученных на этапе анализа. На этапе 806 множество значений коррекции сохраняется, например, в памяти, такой как память 160. На этапе 808 преобразованные коэффициенты предсказания и множество значений коррекции объединяются для получения скорректированных весовых коэффициентов. На этапе 812 преобразованные коэффициенты предсказания квантуются с использованием скорректированных весовых коэффициентов для получения квантованного представления преобразованных коэффициентов предсказания. На этапе 814 формируется выходной сигнал на основе представления преобразованных коэффициентов предсказания и на основе аудиосигнала.
Другими словами, настоящее изобретение предлагает новый эффективный способ получения оптимальных весов w с использованием эвристического алгоритма низкой сложности. Представлена оптимизация по взвешиванию IHM, что приводит к меньшему искажению на более низких частотах и большему искажению на более высоких частотах, давая в результате менее слышимое общее искажение. Такая оптимизация достигается путем вычисления первых весов, как предложено в [1], а затем модифицирования их таким образом, чтобы сделать их очень близкими к весам, которые были бы получены при использовании подхода G.718 [3]. Второй этап состоит из простой полиномиальной модели второго порядка в фазе обучения путем минимизации среднего евклидова расстояния между модифицированными IHM-весами и G.718-весами. Упрощая, соотношение между IHM-весами и G.718-весами моделируется (вероятно, простой) полиномиальной функцией.
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока или элемента или признака соответствующего устройства.
Соответствующий изобретению кодированный аудиосигнал может быть сохранен на цифровом носителе хранения данных или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, такая как Интернет.
В зависимости от конкретных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может быть выполнена с использованием цифрового носителя хранения данных, например, дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего электронно-считываемые сигналы управления, сохраненные на нем, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ.
Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронным образом считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой таким образом, что выполняется один из способов, описанных в настоящем документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код предназначен для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.
Другие варианты осуществления включают в себя компьютерную программу для выполнения одного из способов, описанных в настоящем документе, сохраненную на машиночитаемом носителе.
Другими словами, вариант осуществления соответствующего изобретению способа является, поэтому, компьютерной программой, имеющей программный код для выполнения одного из способов, описанных в настоящем документе, когда компьютерная программа выполняется на компьютере.
Еще один вариант осуществления соответствующих изобретению способов является, поэтому, носителем данных (или цифровым носителем хранения данных или считываемым компьютером носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.
Еще один вариант осуществления соответствующего изобретению способа является, поэтому, потоком данных или последовательностью сигналов, представляющих собой компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов могут, например, конфигурироваться для передачи через соединение для передачи данных, например, через Интернет.
Еще один вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное или адаптированное для выполнения одного из способов, описанных в настоящем документе.
Еще один вариант осуществления включает в себя компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для выполнения некоторых или всех функциональных возможностей способов, описанных в настоящем документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящей заявке. В общем, способы предпочтительно выполняются любым аппаратным устройством.
Описанные выше варианты осуществления являются лишь иллюстративными для пояснения принципов настоящего изобретения. Понятно, что модификации и вариации компоновок и деталей, описанных здесь, будут очевидны для специалистов в данной области техники. Поэтому подразумевается, что изобретение должно быть ограничено только объемом приложенной формулы изобретения, а не конкретными деталями, представленными посредством описания и объяснения вариантов осуществления в данном документе.
Литература
[1] Laroia, R.; Phamdo, N.; Farvardin, N., “Robust and efficient quantization of speech LSP parameters using structured vector quantizers”, Acoustics, Speech, and Signal Processing, 1991. ICASSP-91., 1991 International Conference on, vol., no., pp.641, 644 vol. 1, 14-17 Apr 1991
[2] Gardner, William R.; Rao, B.D., “Theoretical analysis of the high-rate vector quantization of LPC parameters”, Speech and Audio Processing, IEEE Transactions on, vol.3, no.5, pp.367, 381, Sep 1995
[3] ITU-T G.718 “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s”, 06/2008, section 6.8.2.4 “ISF weighting function for frame-end ISF quantization”.

Claims (55)

1. Кодер (100) для кодирования аудиосигнала (102), причем кодер (100) содержит:
анализатор (100), сконфигурированный для анализа аудиосигнала (102) и для определения коэффициентов (112) предсказания анализа из аудиосигнала (102);
преобразователь (120), сконфигурированный для получения преобразованных коэффициентов (122; 122’) предсказания из коэффициентов (112) предсказания анализа;
память (160), сконфигурированную для хранения множества значений (162) коррекции;
вычислитель (130; 130’), содержащий:
- процессор (140; 140’), сконфигурированный для обработки преобразованных коэффициентов (122; 122’) предсказания для получения спектральных весовых коэффициентов (142; 142’);
- объединитель (150; 150’), сконфигурированный для объединения спектральных весовых коэффициентов (142; 142’) и множества значений (162; а, b, c) коррекции для получения скорректированных весовых коэффициентов (152; 152’); и
- квантователь (170), сконфигурированный для квантования преобразованных коэффициентов (122; 122’) предсказания с использованием скорректированных весовых коэффициентов (152; 152’) для получения квантованного представления (172) преобразованных коэффициентов (122; 122’) предсказания; и
формирователь (180) битового потока, сконфигурированный для формирования выходного сигнала (182) на основе квантованного представления (172) преобразованных коэффициентов (122) предсказания и на основе аудиосигнала (102);
при этом объединитель (150; 150’) сконфигурирован для применения полинома на основе формы
w=a+bx+cх2,
где w обозначает полученный скорректированный весовой коэффициент, х обозначает спектральный весовой коэффициент, и где а, b и c обозначают значения коррекции.
2. Кодер по п.1, в котором объединитель (150’) сконфигурирован для объединения спектральных весовых коэффициентов (142; 142’), множества значений (162; а, b, c) коррекции и дополнительной информации (114), связанной с входным сигналом (102), для получения скорректированных весовых коэффициентов (152’).
3. Кодер по п. 2, в котором дополнительная информация (114), связанная с входным сигналом (102), содержит коэффициенты отражения, полученные с помощью анализатора (110), или содержит информацию, относящуюся к энергетическому спектру аудиосигнала (102).
4. Кодер по п. 1, в котором анализатор (110) сконфигурирован для определения коэффициентов линейного предсказания (LPC) и в котором преобразователь (120) сконфигурирован для получения частот спектральных линий (LSF; 122’) или частот спектральных иммитансов (ISF) из коэффициентов линейного предсказания (LPC).
5. Кодер по п. 1, в котором объединитель (150; 150’) сконфигурирован для циклического, в каждом цикле, получения скорректированных весовых коэффициентов (152; 152’), при этом
вычислитель (130’) дополнительно содержит сглаживатель (155), сконфигурированный для взвешенного объединения первых квантованных весовых коэффициентов (152”’), полученных для предыдущего цикла, и вторых квантованных весовых коэффициентов (152’), полученных для цикла, следующего за предыдущим циклом, для получения сглаженных скорректированных весовых коэффициентов (152”), содержащих значение между значениями первых (152”’) и вторых (152’) квантованных весовых коэффициентов.
6. Кодер по п. 1, в котором множество значений (162; а, b, c) коррекции получены из предварительно вычисленных весов (LSF; 142”), причем вычислительная сложность для определения предварительно вычисленных весов (LSF; 142”) выше по сравнению с вычислительной сложностью определения спектральных весовых коэффициентов (142; 142’).
7. Кодер по п. 1, в котором процессор (140; 140’) сконфигурирован для получения спектральных весовых коэффициентов (142; 142’) посредством инверсного гармонического среднего.
8. Кодер по п. 1, в котором процессор (140; 140’) сконфигурирован для получения спектральных весовых коэффициентов (142; 142’) на основе формы
Figure 00000023
,
где wi обозначает определенный вес с индексом i, lsfi обозначает частоту спектральной линии с индексом i, причем индекс i соответствует числу полученных спектральных весовых коэффициентов (142; 142’).
9. Система (600) передачи аудио, содержащая:
кодер (100) по одному из предыдущих пунктов; и
декодер (602), сконфигурированный для приема выходного сигнала (182) кодера или сигнала, полученного от него, и для декодирования принятого сигнала (182), чтобы обеспечить синтезированный аудиосигнал (102’);
при этом кодер (100) сконфигурирован для доступа к среде (604) передачи и для передачи выходного сигнала (182) через среду (604) передачи.
10. Способ определения значений (162; а, b, c) коррекции для первого множества (IHM) первых весовых коэффициентов (142; 142’), причем каждый весовой коэффициент адаптирован для взвешивания части (LSF; ISF) аудиосигнала (102), причем способ (700) содержит:
вычисление первого множества (IHM) первых весовых коэффициентов (142; 142’) для каждого аудиосигнала набора аудиосигналов и на основе первого правила определения;
вычисление второго множества вторых весовых коэффициентов (142”) для каждого аудиосигнала набора аудиосигналов на основе второго правила определения, причем каждый из второго множества весовых коэффициентов (142”) связан с первым весовым коэффициентом (142; 142’);
вычисление третьего множества значений (di) расстояния, причем каждое значение (di) расстояния имеет значение, связанное с расстоянием между первым весовым коэффициентом (142; 142’) и вторым весовым коэффициентом (142”), связанным с частью аудиосигнала (102); и
вычисление четвертого множества значений коррекции, адаптированных для уменьшения значений (di) расстояния при объединении с первыми весовыми коэффициентами (142; 142’);
причем четвертое множество значений коррекции определяется на основе полиномиальной аппроксимации, содержащей умножение значений первых весовых коэффициентов (142; 142’) на полином (у=а+bх+сх2), содержащий по меньшей мере одну переменную для адаптации члена полинома.
11. Способ по п. 10, в котором четвертое множество значений коррекции определяется на основе полиномиальной аппроксимации, содержащей:
умножение значений первых весовых коэффициентов (142; 142’) на полином (у=а+bх+сх2), содержащий по меньшей мере одну переменную для адаптации члена полинома;
вычисление значения для переменной таким образом, что третье множество значений (di) расстояния содержит значение ниже порогового значения, на основе
Figure 00000024
и
Figure 00000025
,
где di обозначает значение расстояния i-й части аудиосигналов, где Рi обозначает вектор, имеющий форму на основе
Figure 00000026
, и где EIi обозначает матрицу на основе
Figure 00000027
,
где Ix,i обозначает i-й весовой коэффициент (142; 142’), определенный на основе первого правила определения (IHM) для х-й части аудиосигнала (102).
12. Способ по п. 10, в котором третье множество значений (di) расстояния вычисляется на основе дополнительной информации (114), содержащей коэффициенты отражения или информацию, связанную с энергетическим спектром по меньшей мере одного из набора аудиосигналов (102), на основе
Figure 00000028
где Ix,i обозначает i-й весовой коэффициент (142; 142’), определенный на основе первого правила определения (IHM) для х-й части аудиосигнала (102), и ra,b обозначает дополнительную информацию (114), основанную на b-ом весовом коэффициенте (142; 142’) и х-й части аудиосигнала (102).
13. Способ (800) кодирования аудиосигнала, причем способ содержит:
анализ (802) аудиосигнала (102) для определения коэффициентов (112) предсказания анализа из аудиосигнала (102);
получение (804) преобразованных коэффициентов (122; 122’) предсказания из коэффициентов (112) предсказания анализа;
сохранение (806) множества значений (162; a-d) коррекции;
объединение (808) преобразованных коэффициентов (122; 122’) предсказания и множества значений (162; a-d) коррекции для получения скорректированных весовых коэффициентов (152; 152’), содержащее применение полинома на основе формы
w=a+bx+cх2,
где w обозначает полученный скорректированный весовой коэффициент, х обозначает спектральный весовой коэффициент, и где а, b и c обозначают значения коррекции;
квантование (812) преобразованных коэффициентов (122; 122’) предсказания с использованием скорректированных весовых коэффициентов (152; 152’) для получения квантованного представления (172) преобразованных коэффициентов (122; 122’) предсказания; и
формирование (814) выходного сигнала (182) на основе представления (172) преобразованных коэффициентов (122) предсказания и на основе аудиосигнала (102).
14. Цифровой носитель хранения данных, содержащий компьютерную программу, имеющую программный код для выполнения, при исполнении на компьютере, способа согласно одному из пп. 10-12.
15. Цифровой носитель хранения данных, содержащий компьютерную программу, имеющую программный код для выполнения, при исполнении на компьютере, способа согласно п. 13.
RU2016122865A 2013-11-13 2014-11-06 Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции RU2643646C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13192735.2 2013-11-13
EP13192735 2013-11-13
EP14178815 2014-07-28
EP14178815.8 2014-07-28
PCT/EP2014/073960 WO2015071173A1 (en) 2013-11-13 2014-11-06 Encoder for encoding an audio signal, audio transmission system and method for determining correction values

Publications (2)

Publication Number Publication Date
RU2016122865A RU2016122865A (ru) 2017-12-18
RU2643646C2 true RU2643646C2 (ru) 2018-02-02

Family

ID=51903884

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016122865A RU2643646C2 (ru) 2013-11-13 2014-11-06 Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции

Country Status (16)

Country Link
US (4) US9818420B2 (ru)
EP (2) EP3069338B1 (ru)
JP (1) JP6272619B2 (ru)
KR (1) KR101831088B1 (ru)
CN (2) CN111179953B (ru)
AU (1) AU2014350366B2 (ru)
BR (1) BR112016010197B1 (ru)
CA (1) CA2928882C (ru)
ES (1) ES2716652T3 (ru)
MX (1) MX356164B (ru)
PL (1) PL3069338T3 (ru)
PT (1) PT3069338T (ru)
RU (1) RU2643646C2 (ru)
TW (1) TWI571867B (ru)
WO (1) WO2015071173A1 (ru)
ZA (1) ZA201603823B (ru)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102623012B (zh) 2011-01-26 2014-08-20 华为技术有限公司 矢量联合编解码方法及编解码器
MX356164B (es) * 2013-11-13 2018-05-16 Fraunhofer Ges Forschung Codificador para codificar una señal de audio, sistema de audio de transmisión y método para determinar valores de corrección.
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
KR20190069192A (ko) 2017-12-11 2019-06-19 한국전자통신연구원 오디오 신호의 채널 파라미터 예측 방법 및 장치
KR20200099561A (ko) * 2017-12-19 2020-08-24 돌비 인터네셔널 에이비 통합 음성 및 오디오 디코딩 및 인코딩 개선을 위한 방법, 장치 및 시스템
JP7049234B2 (ja) 2018-11-15 2022-04-06 本田技研工業株式会社 ハイブリッド飛行体
CN114734436B (zh) * 2022-03-24 2023-12-22 苏州艾利特机器人有限公司 一种机器人的编码器校准方法、装置及机器人

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011048117A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
WO2012004349A1 (en) * 2010-07-08 2012-01-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coder using forward aliasing cancellation
RU2464650C2 (ru) * 2006-12-13 2012-10-20 Панасоник Корпорэйшн Устройство и способ кодирования, устройство и способ декодирования
RU2483365C2 (ru) * 2008-07-11 2013-05-27 Фраунховер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Низкоскоростная аудиокодирующая/декодирующая схема с общей предварительной обработкой
US20130204630A1 (en) * 2010-06-24 2013-08-08 France Telecom Controlling a Noise-Shaping Feedback Loop in a Digital Audio Signal Encoder
RU2493617C2 (ru) * 2008-09-11 2013-09-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для обеспечения набора пространственных указателей на основе сигнала микрофона и устройство для обеспечения двухканального аудиосигнала и набора пространственных указателей

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE467806B (sv) 1991-01-14 1992-09-14 Ericsson Telefon Ab L M Metod att kvantisera linjespektralfrekvenser (lsf) vid beraekning av parametrar foer ett analysfilter ingaaende i en talkodare
JPH0764599A (ja) * 1993-08-24 1995-03-10 Hitachi Ltd 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置
JP3273455B2 (ja) 1994-10-07 2002-04-08 日本電信電話株式会社 ベクトル量子化方法及びその復号化器
US6098037A (en) * 1998-05-19 2000-08-01 Texas Instruments Incorporated Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes
DE19947877C2 (de) 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
US7392179B2 (en) * 2000-11-30 2008-06-24 Matsushita Electric Industrial Co., Ltd. LPC vector quantization apparatus
US8271274B2 (en) 2006-02-22 2012-09-18 France Telecom Coding/decoding of a digital audio signal, in CELP technique
DE102006051673A1 (de) 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
KR101412255B1 (ko) 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8023660B2 (en) 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
KR100963219B1 (ko) 2009-09-09 2010-06-10 민 우 전 연결부재를 이용한 관 연결공법
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
KR101508819B1 (ko) * 2009-10-20 2015-04-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
KR101747917B1 (ko) 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
CA2903681C (en) * 2011-02-14 2017-03-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
MY159444A (en) * 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
EP2700173A4 (en) * 2011-04-21 2014-05-28 Samsung Electronics Co Ltd METHOD FOR QUANTIFYING LINEAR PREDICTIVE ENCODING COEFFICIENTS, METHOD FOR SOUND ENCODING, METHOD FOR DEQUANTIFYING LINEAR PREDICTIVE ENCODING COEFFICIENTS, METHOD FOR DECODING SOUND, AND RECORDING MEDIUM
US9115883B1 (en) 2012-07-18 2015-08-25 C-M Glo, Llc Variable length lamp
RU2660605C2 (ru) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
CN105761723B (zh) * 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
MX356164B (es) * 2013-11-13 2018-05-16 Fraunhofer Ges Forschung Codificador para codificar una señal de audio, sistema de audio de transmisión y método para determinar valores de corrección.

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2464650C2 (ru) * 2006-12-13 2012-10-20 Панасоник Корпорэйшн Устройство и способ кодирования, устройство и способ декодирования
RU2483365C2 (ru) * 2008-07-11 2013-05-27 Фраунховер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Низкоскоростная аудиокодирующая/декодирующая схема с общей предварительной обработкой
RU2493617C2 (ru) * 2008-09-11 2013-09-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для обеспечения набора пространственных указателей на основе сигнала микрофона и устройство для обеспечения двухканального аудиосигнала и набора пространственных указателей
WO2011048117A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
US20130204630A1 (en) * 2010-06-24 2013-08-08 France Telecom Controlling a Noise-Shaping Feedback Loop in a Digital Audio Signal Encoder
WO2012004349A1 (en) * 2010-07-08 2012-01-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coder using forward aliasing cancellation

Also Published As

Publication number Publication date
US20180047403A1 (en) 2018-02-15
CN111179953A (zh) 2020-05-19
BR112016010197A2 (pt) 2017-08-08
KR101831088B1 (ko) 2018-02-21
TWI571867B (zh) 2017-02-21
US20160247516A1 (en) 2016-08-25
US10720172B2 (en) 2020-07-21
EP3069338B1 (en) 2018-12-19
JP2017501430A (ja) 2017-01-12
KR20160079110A (ko) 2016-07-05
US10354666B2 (en) 2019-07-16
CN105723455A (zh) 2016-06-29
MX2016006208A (es) 2016-09-13
PT3069338T (pt) 2019-03-26
US20170309284A1 (en) 2017-10-26
MX356164B (es) 2018-05-16
US10229693B2 (en) 2019-03-12
WO2015071173A1 (en) 2015-05-21
AU2014350366A1 (en) 2016-05-26
RU2016122865A (ru) 2017-12-18
CA2928882C (en) 2018-08-14
CN111179953B (zh) 2023-09-26
TW201523594A (zh) 2015-06-16
CA2928882A1 (en) 2015-05-21
AU2014350366B2 (en) 2017-02-23
BR112016010197B1 (pt) 2021-12-21
PL3069338T3 (pl) 2019-06-28
EP3483881A1 (en) 2019-05-15
JP6272619B2 (ja) 2018-01-31
US20190189142A1 (en) 2019-06-20
EP3069338A1 (en) 2016-09-21
US9818420B2 (en) 2017-11-14
CN105723455B (zh) 2020-01-24
ZA201603823B (en) 2017-11-29
ES2716652T3 (es) 2019-06-13

Similar Documents

Publication Publication Date Title
RU2643646C2 (ru) Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции
JP5624192B2 (ja) オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
JP5918249B2 (ja) 線形予測符号化係数を量子化するための低複雑度を有する加重値関数決定装置及びその方法
US11011181B2 (en) Audio encoding/decoding based on an efficient representation of auto-regressive coefficients
KR20130111611A (ko) 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체
JP6122961B2 (ja) 自己相関ドメインにおけるacelpを用いたスピーチ信号の符号化装置
EP2571170B1 (en) Encoding method, decoding method, encoding device, decoding device, program, and recording medium
JPH11143498A (ja) Lpc係数のベクトル量子化方法
JP3194930B2 (ja) 音声符号化装置
Patel Low complexity VQ for multi-tap pitch predictor coding
KR20220084294A (ko) 생성 모델을 사용한 오디오 신호의 파형 코딩 방법 및 시스템
WO2012053149A1 (ja) 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法