RU2462770C2 - Устройство кодирования и способ кодирования - Google Patents

Устройство кодирования и способ кодирования Download PDF

Info

Publication number
RU2462770C2
RU2462770C2 RU2009132937/08A RU2009132937A RU2462770C2 RU 2462770 C2 RU2462770 C2 RU 2462770C2 RU 2009132937/08 A RU2009132937/08 A RU 2009132937/08A RU 2009132937 A RU2009132937 A RU 2009132937A RU 2462770 C2 RU2462770 C2 RU 2462770C2
Authority
RU
Russia
Prior art keywords
section
search
quantization
coding
pulse
Prior art date
Application number
RU2009132937/08A
Other languages
English (en)
Other versions
RU2009132937A (ru
Inventor
Тосиюки МОРИИ (JP)
Тосиюки МОРИИ
Масахиро ОСИКИРИ (JP)
Масахиро ОСИКИРИ
Томофуми ЯМАНАСИ (JP)
Томофуми ЯМАНАСИ
Original Assignee
Панасоник Корпорэйшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Панасоник Корпорэйшн filed Critical Панасоник Корпорэйшн
Publication of RU2009132937A publication Critical patent/RU2009132937A/ru
Application granted granted Critical
Publication of RU2462770C2 publication Critical patent/RU2462770C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Изобретение относится к кодированию речевых и аудиосигналов. Техническим результатом является уменьшение искажения кодирования по сравнению со стандартным способом и получение достаточного качества звука для слухового восприятия. В устройстве кодирования блок (111) квантования форм квантует форму входного спектра с малым количеством положений и полярностей импульсов. Блок (111) квантования форм устанавливает ширину импульсной амплитуды, подлежащую поиску позже, при поиске положения импульса на значение, не большее, чем ширина амплитуды импульса, которая искалась ранее. Блок (112) квантования усилений вычисляет усиление импульса, который искался блоком (111) квантования форм, для каждой из полос. 2 н. и 1 з.п. ф-лы, 4 ил.

Description

Область техники, к которой относится изобретение
Настоящее изобретение относится к устройству кодирования и способу кодирования для кодирования речевых сигналов и аудиосигналов.
Предшествующий уровень техники
При осуществлении мобильной связи является необходимым сжимать и кодировать цифровую информацию, такую как речь и изображения, для эффективного использования емкости радиоканала и носителей хранения для радиоволн, и много схем кодирования и декодирования было разработано до настоящего времени.
Среди них производительность технологии речевого кодирования была значительно повышена посредством фундаментальной схемы "CELP (возбуждаемое кодом линейное предсказание)", в которой квалифицированно применено векторное квантование посредством моделирования системы вокального тракта речи. Дополнительно, производительность технологии звукового кодирования, такой как аудиокодирование, была значительно улучшена посредством технологий кодирования с преобразованием (таких как ACC и MP3 стандарта MPEG).
При кодировании речевых сигналов на основе схемы CELP и других речевой сигнал часто представляется посредством фильтра возбуждения и синтеза. Если вектор, имеющий форму, аналогичную сигналу возбуждения, который является векторной последовательностью временной области, может быть декодирован, является возможным получать волновую форму, аналогичную входной речи, через фильтр синтеза и достигать хорошего воспринимаемого качества. Это является качественной характеристикой, которая привела к успеху алгебраической кодовой книги, используемой в CELP.
С другой стороны, масштабируемый кодек, стандартизация которого находится в процессе исполнения в текущий момент со стороны ITU-T (Сектора Стандартизации в области Телекоммуникаций - Международного Телекоммуникационного Союза) и других, разрабатывается, чтобы охватывать от стандартного речевого диапазона (300 Гц по 3,4 кГц) до широкого диапазона (вплоть до 7 кГц), с его расходов битов (битрейтом), установленным настолько высоко, как вплоть до приблизительно 32 кбит/с. То есть широкополосный кодек должен даже применять некоторую степень кодирования к аудио и поэтому не может поддерживаться посредством только стандартных способов речевого кодирования с низким битрейтом на основе модели человеческого голоса, такой как CELP. Теперь стандарт G.729.1 от ITU-T, объявленный ранее как рекомендация, использует схему кодирования аудиокодека, соответствующую кодированию преобразования, чтобы кодировать речь широкого диапазона и выше.
Патентный документ 1 раскрывает схему кодирования частотного спектра, использующую спектральные параметры и параметры основного тона, в силу чего ортогональное преобразование и кодирование сигнала, полученного посредством обратной фильтрации речевого сигнала, выполняются на основе спектральных параметров, и дополнительно раскрывает, в качестве примера кодирования, способ кодирования на основе кодовых книг алгебраических структур.
Патентный документ 1: Открыто выложенная японская патентная заявка номер HEI10-260698.
Раскрытие изобретения
Проблемы, подлежащие решению посредством этого изобретения
Тем не менее, в стандартной схеме кодирования частотного спектра ограниченная битовая информация назначается информации о положениях импульсов. С другой стороны, эта ограниченная битовая информация не назначается амплитудной информации импульсов, и амплитуды всех импульсов являются фиксированными. Следовательно, искажение кодирования остается.
Поэтому задачей настоящего изобретения является обеспечить устройство кодирования и способ кодирования, которые могут уменьшать среднее искажение кодирования по сравнению со стандартной схемой и достигать хорошего воспринимаемого качества звука в схеме кодирования частотного спектра.
Средство для решения проблемы
В устройстве кодирования по настоящему изобретению, которое моделирует и кодирует частотный спектр с множеством фиксированных волновых форм, применяется конфигурация, имеющая секцию квантования форм, которая осуществляет поиск и кодирует положения и полярности фиксированных волновых форм; и секцию квантования усилений, которая кодирует усиления фиксированных волновых форм, при этом при поиске положений фиксированных волновых форм секция квантования форм устанавливает амплитуду фиксированной волновой формы, поиск в отношении которой должен быть выполнен позже, равной или меньшей, чем амплитуда фиксированной волновой формы, которая искалась ранее.
Способ кодирования по настоящему изобретению, относящемуся к моделированию и кодированию частотного спектра с множеством фиксированных волновых форм, включает в себя этап квантования форм, на котором осуществляют поиск и кодирование положений и полярностей фиксированных волновых форм; и этап квантования усилений, при котором кодируют усиления фиксированных волновых форм, при этом при поиске положений фиксированных волновых форм на этапе квантования устанавливают амплитуду фиксированной волновой формы, поиск в отношении которой должен быть выполнен позже, равной или меньшей, чем амплитуда фиксированной волновой формы, которая искалась ранее.
Выгодные эффекты изобретения
Согласно настоящему изобретению, в схеме кодирования частотного спектра посредством установки амплитуды импульса, поиск которого должен быть выполнен позже, равной или меньшей, чем амплитуда импульса, который искался ранее, является возможным уменьшать среднее искажение кодирования по сравнению со стандартной схемой и обеспечивать высокое качество звука даже при низком битрейте.
Перечень фигур чертежей
Фиг.1 - блок-схема, показывающая конфигурацию устройства кодирования речи согласно одному варианту осуществления настоящего изобретения;
Фиг.2 - блок-схема, показывающая конфигурацию устройства декодирования речи согласно одному варианту осуществления настоящего изобретения;
Фиг.3 - блок-схема последовательности операций, показывающая алгоритм поиска для секции квантования формы согласно одному варианту осуществления настоящего изобретения; и
Фиг.4 - пример спектра, представленный импульсом, поиск осуществляется секцией квантования формы согласно одному варианту осуществления настоящего изобретения.
Наилучший вариант осуществления для выполнения изобретения
При кодировании речевого сигнала на основе схемы CELP и других схем речевой сигнал часто представляется посредством фильтра возбуждения и синтеза. Если вектор, имеющий форму, аналогичную сигналу возбуждения, который является векторной последовательностью временной области, может быть декодирован, является возможным получать волновую форму, аналогичную входной речи, через фильтр синтеза и достигать хорошего воспринимаемого качества. Это является качественной характеристикой, которая привела к успеху алгебраической кодовой книги, используемой в CELP.
С другой стороны, в случае кодирования частотного спектра (вектора) фильтр синтеза имеет спектральные усиления в качестве его компонентов, и поэтому искажение частот (т.е. положений) компонентов большой мощности является более значительным, чем искажение этих усилений. То есть посредством поиска положений высокой энергии и декодирования импульсов в положениях высокой энергии, нежели декодирования вектора, имеющего форму, аналогичную входному спектру, является более вероятным достигать хорошего воспринимаемого качества.
Поэтому при кодировании частотного спектра применяется модель кодирования частоты посредством малого количества импульсов и применяется способ поиска импульсов по открытому контуру в частотном интервале цели кодирования.
Авторы настоящего изобретения делают акцент на том моменте, что так как импульсы выбираются в порядке от импульсов, которые уменьшают искажение, то импульс, поиск которого должен быть выполнен позже, имеет меньшее значение ожидания, и пришли к настоящему изобретению. То есть характерная особенность настоящего изобретения лежит в установке амплитуды импульса, поиск которого должен быть выполнен позже, равной или меньшей, чем амплитуда импульса, поиск которого выполнялся ранее.
Один вариант осуществления настоящего изобретения будет объяснен ниже с использованием сопровождающих чертежей.
Фиг.1 - это блок-схема, показывающая конфигурацию устройства кодирования речи согласно настоящему варианту осуществления. В устройстве кодирования речи, показанном на фиг.1, предусмотрена секция 101 анализа LPC, секция 102 квантования LPC, обратный фильтр 103, секция 104 ортогонального преобразования, секция 105 спектрального кодирования и секция 106 мультиплексирования. В секции 105 спектрального кодирования предусмотрена секция 111 квантования форм и секция 112 квантования усилений.
Секция 101 анализа LPC выполняет анализ с линейным предсказанием в отношении сигнала входной речи и выводит параметр огибающей спектра в секцию 102 квантования LPC как результат этого анализа. Секция 102 квантования LPC выполняет обработку по квантованию параметра огибающей спектра (LPC: коэффициент линейного предсказания), выведенного из секции 101 анализа LPC, и выводит код, представляющий квантованный LPC, в секцию 106 мультиплексирования. Дополнительно, секция 102 квантования LPC выводит декодированные параметры, полученные посредством декодирования кода, представляющего квантованный LPC, в обратный фильтр 103. Здесь, при квантовании параметра может применяться векторное квантование ("VQ"), квантование с предсказанием, многоэтапное VQ, расщипленное VQ и другие режимы.
Обратный фильтр 103 осуществляет обратную фильтрацию входной речи с использованием декодированных параметров и выводит результирующий остаточный компонент в секцию 104 ортогонального преобразования.
Секция 104 ортогонального преобразования применяет окно соответствия, такое как синусное окно, к остаточному компоненту, выполняет ортогональное преобразование с использованием MDCT и выводит спектр, преобразованный в спектр частотной области (ниже "входной спектр"), в секцию 105 спектрального кодирования. Здесь, ортогональное преобразование может применять другие преобразования, такие как FFT, KLT и Оейвлет-преобразование, и хотя их использование варьируемо, является возможным преобразовывать остаточный компонент во входной спектр с использованием любого из перечисленных.
Здесь, порядок обработки между обратным фильтром 103 и секцией 104 ортогонального преобразования может меняться на противоположный. То есть посредством разделения входной речи, подвергаемой ортогональному преобразованию посредством частотного спектра обратного фильтра (т.е. вычитания в логарифмической оси), является возможным вырабатывать такой же входной спектр.
Секция 105 спектрального кодирования разделяет входной спектр посредством квантования форм и усиления спектра по отдельности и выводит результирующие коды квантования в секцию 106 мультиплексирования. Секция 111 квантования форм квантует форму входного спектра с использованием малого количества положений и полярностей импульсов, и секция 112 квантования усилений вычисляет и квантует усиления импульсов, которые искались секцией 111 квантования форм, на полосной основе. Секция 111 квантования форм и секция 112 квантования усилений будут описываться подробно позже.
Секция 106 мультиплексирования принимает в качестве входных данных код, представляющий LPC квантования, из секции 102 квантования LPC и код, представляющий квантованный входной спектр из секции 105 спектрального кодирования, мультиплексирует эту информацию и выводит результат в канал передачи в качестве информации кодирования.
Фиг.2 - это блок-схема, показывающая конфигурацию устройства декодирования речи согласно настоящему варианту осуществления. В устройстве декодирования речи, показанном на фиг.2, предусмотрены секция 201 демультиплексирования, секция 202 декодирования параметров, секция 203 декодирования спектра, секция 204 ортогонального преобразования и фильтр 205 синтеза.
На фиг.2 информация кодирования демультиплексируется в индивидуальные коды в секции 201 демультиплексирования. Код, представляющий квантованный LPC, выводится в секцию 202 декодирования параметров, и код входного спектра выводится в секцию 203 декодирования спектра.
Секция 202 декодирования параметров декодирует параметр огибающей спектра и выводит результирующий декодированный параметр в фильтр 205 синтеза.
Секция 203 декодирования спектра декодирует вектор формы и усиление посредством способа, поддерживающего способ кодирования в секции 105 спектрального кодирования, показанной на фиг.1, получает декодированный спектр посредством умножения декодированного вектора формы на декодированное усиление и выводит декодированный спектр в секцию 204 ортогонального преобразования.
Секция 204 ортогонального преобразования выполняет обратное преобразование декодированного спектра, выведенного из секции 203 декодирования спектра, по сравнению с секцией 104 ортогонального преобразования, показанной на фиг.1, и выводит результирующий, декодированный остаточный сигнал временной последовательности в фильтр 205 синтеза.
Фильтр 205 синтеза вырабатывает выходную речь посредством применения фильтрации синтеза к декодированному остаточному сигналу, выведенному из секции 204 ортогонального преобразования, с использованием декодированного параметра, выведенного из секции 202 декодирования параметров.
Здесь, чтобы обращать порядок обработки между обратным фильтром 103 и секцией 104 ортогонального преобразования, показанной на фиг.1, устройство декодирования речи на фиг.2 умножает декодированный спектр посредством частотного спектра декодированного параметра (т.е. добавление в логарифмической оси) и выполняет ортогональное преобразование результирующего спектра.
Далее, секция 111 квантования форм и секция 112 квантования усилений будут объясняться в деталях.
Секция 111 квантования форм осуществляет поиск положения и полярности (+/-) импульса на основе один за одним по всему предопределенному интервалу поиска.
Следующее уравнение 1 является опорным для поиска. Здесь, в уравнении 1, E представляет искажение кодирования, si представляет входной спектр, g представляет оптимальное усиление, δ - это дельта-функция, p представляет положение импульса, γb представляет амплитуду импульса, и b представляет номер импульса. Секция 111 квантования формы устанавливает амплитуду импульса, поиск которого должен выполняться позже, равной или меньшей, чем амплитуда импульса, поиск которого выполнялся ранее.
[1]
Figure 00000001
... (Уравнение 1)
Из уравнения 1, приведенного выше, положение импульса, чтобы минимизировать функцию стоимости, - это положение, в котором абсолютное значение |sp| входного спектра в каждой полосе является максимальным, и его полярность - это полярность значения величины входного спектра в положении этого импульса.
Согласно настоящему варианту осуществления, амплитуда импульса для поиска определяется заранее на основе порядка поиска импульсов. Амплитуда импульса устанавливается согласно, например, следующим этапам. (1) Во-первых, амплитуды всех импульсов устанавливаются на "1.0".
Далее, "n" устанавливается на "2" как начальное значение. (2) Посредством уменьшения амплитуды n-го импульса мало-помалу и кодирования/декодирования данных обучения, значение, в котором рабочие характеристики (как, например, отношение S/N и SD (Спектральное расстояние)) являются пиковыми. В этом случае, предполагаем, что амплитуды (n+1)-го или более поздних импульсов являются такими же, как амплитуда n-го импульса. (3) Все амплитуды, которым соответствуют наилучшие рабочие характеристики, являются фиксированными, и n=n+1 имеет место. (4) Обработка вышеописанных действий с (2) по (3) повторяется до тех пор, пока n не будет равно количеству импульсов.
Будет объясняться иллюстративный случай, где векторная длина входного спектра - это шестьдесят четыре выборки (шесть битов) и спектр кодируется с пятью импульсами. В этом примере, шесть битов требуются, чтобы показывать положение импульса (записи положений: 16) и один бит требуется, чтобы показывать полярность (+/-), требуя информационных битов в количестве тридцати пяти битов в целом.
Последовательность операций алгоритма для поиска секции 111 квантования форм в этом примере будет показана на фиг.3. Здесь, символы, используемые в блок-схеме последовательности операций по фиг.3, обозначают следующее.
c: положение импульса
pos[b]: результат поиска (положение)
pol[b]: результат поиска (полярность)
s[i]: входной спектр
x: член числителя
y: член знаменателя
dn_mx: максимальный член числителя
cc:mx максимальный член знаменателя
dn: член числителя, который искался ранее
cc: член знаменателя, который искался ранее
b: номер импульса
γ[b]: амплитуда импульса
Фиг.3 иллюстрирует алгоритм поиска положения, отвечающего наивысшей энергии, и повышения импульса в упомянутом положении сначала и затем поиска следующего импульса без повышения двух импульсов в одном и том же положении (см. знак "*" на фиг.3). Здесь, в алгоритме по фиг.3, знаменатель "y" зависит только от номера "b", и, следовательно, посредством вычисления этого значения заранее является возможным упростить алгоритм по фиг.3.
Пример спектра, представленного посредством импульсов, которые искались секцией 111 квантования форм, показан на фиг.4. Здесь, фиг.4 иллюстрирует случай, где импульсы с P1 по P5 ищутся в порядке. Как показано на фиг.4, настоящий вариант осуществления устанавливает амплитуду импульса, поиск которого должен выполняться позже, равной или меньшей, чем амплитуда импульса, поиск которого выполнялся ранее. Амплитуды импульсов для поиска определяются заранее на основе порядка поиска импульсов, так что является необходимым использовать информационные биты для представления амплитуд и является возможным делать полное количество информационных битов таким же, как в случае фиксирования амплитуд.
Секция 112 квантования усилений анализирует корреляцию между декодированной последовательностью импульсов и входным спектром и вычисляет идеальное усиление. Идеальное усиление "g" вычисляется посредством следующего уравнения 2. Здесь, в уравнении 2, s(i) представляет входной спектр, и v(i) представляет вектор, полученный посредством декодирования формы.
[2]
Figure 00000002
... (Уравнение 2)
Дополнительно секция 112 квантования усилений вычисляет идеальные усиления и затем выполняет кодирование посредством скалярного квантования (SQ) или векторного квантования. В случае выполнения векторного квантования, является возможным выполнять эффективное кодирование посредством квантования с предсказанием, многоэтапного VQ, расщепленного VQ и так далее. Здесь, усиление может восприниматься слышимым образом на основе логарифмического масштаба, и, следовательно, посредством выполнения SQ или VQ после выполнения логарифмического преобразования усиления является возможным вырабатывать хороший с точки зрения восприятия синтезированный звук.
Таким образом, согласно настоящему варианту осуществления, в схеме кодирования частотного спектра посредством установки амплитуды импульса, поиск которого должен выполняться позже, равной или меньшей, чем амплитуда импульса, который искался ранее, является возможным уменьшать среднее искажение кодирования по сравнению со стандартной схемой и достигать хорошего качества звука даже в случае низкого битрейта скорости.
Дополнительно, посредством применения настоящего изобретения к случаю группирования амплитуд импульсов и поиска групп открытым образом является возможным улучшать рабочие характеристики. Например, когда общее количество из восьми импульсов группируется в пять импульсов и три импульса, пять импульсов ищутся и фиксируются первыми, и затем ищется остаток из трех импульсов, амплитуды последних трех импульсов равным образом уменьшаются. Является экспериментально доказанным, что посредством установки амплитуд пяти импульсов, которые искались первыми, на [1.0, 1.0, 1.0, 1.0, 1.0] и установки амплитуд трех импульсов, которые искались позже, на [0.8, 0.8, 0.8] является возможным улучшать рабочие характеристики по сравнению со случаем установки импульсов всех импульсов на "1.0". Дополнительно, посредством установки амплитуд пяти импульсов, которые искались первыми, на "1.0" умножения амплитуд не являются необходимыми, тем самым подавляя величину вычислений.
Дополнительно, хотя случай был описан выше с настоящим вариантом осуществления, где кодирование усилений выполняется после кодирования форм, настоящее изобретение может обеспечивать такие же рабочие характеристики, если кодирование форм выполняется после кодирования усилений.
Дополнительно, хотя иллюстративный случай был описан с вышеописанным вариантом осуществления, где длина спектра - это шестьдесят четыре и количество импульсов - это пять при квантовании формы спектра, настоящее изобретение не зависит от вышеуказанных числовых значений и может обеспечивать такие же эффекты с другими числовыми значениями.
Дополнительно, может быть возможным применять способ выполнения кодирования усилений на полосной основе и затем нормирования спектра декодированными усилениями, и выполнения кодирования форм согласно настоящему изобретению. Например, если обработка по s[pos[b]]=0, dn=dn_mx и cc=cc_mx не выполняется, является возможным повышать множество импульсов в одном и том же положении. Однако, если множество импульсов происходят в одном и том же положении, их амплитуды могут возрастать, и поэтому является необходимым проверять количество импульсов в каждом положении и вычислять член знаменателя точно.
Дополнительно, хотя кодирование посредством импульсов выполняется для спектра, подвергаемого ортогональному преобразованию в настоящем варианте осуществления, настоящее изобретение не ограничено этим и является также применимым к другим векторам. Например, настоящее изобретение может применяться к векторам комплексных чисел в FFT или комплексном DCT и может применяться к векторной последовательности временной области в вейвлет-преобразовании или подобном. Дополнительно, настоящее изобретение является также применимым к векторной последовательности временной области, такой как волновые формы возбуждения схемы CELP. Что касается волновых форм возбуждения в CELP, задействуется фильтр синтеза, и поэтому функция стоимости включает в себя матричное вычисление. Здесь, рабочие характеристики не являются достаточными при поиске в открытом контуре, когда задействуется фильтр, и поэтому в некоторой степени должен выполняться поиск в закрытом контуре. Когда имеется много импульсов, является эффективным использовать лучевой поиск или подобное, чтобы уменьшать объем вычислений.
Дополнительно, согласно настоящему изобретению, волновая форма, подлежащая поиску, не ограничена импульсом, и является равным образом возможным искать даже другие фиксированные волновые формы (как, например, дуальный импульс, треугольная волна, конечная волна импульсного отклика, волновые формы коэффициентов фильтра и в=фиксированные волновые формы, которые изменяют форму адаптивно), и дают тот же самый эффект.
Дополнительно, хотя случай был описан с заранее заданным вариантом осуществления, где настоящее изобретение применяется к CELP, настоящее изобретение не ограничено этим, но является эффективным с другими кодеками.
Дополнительно, не только речевой сигнал, но также аудиосигнал может использоваться как сигнал согласно настоящему изобретению. Является также возможным применять конфигурацию, в которой настоящее изобретение применяется к остаточному сигналу предсказания LPC вместо входного сигнала.
Устройство кодирования и устройство декодирования согласно настоящему изобретению могут монтироваться на терминальном устройстве связи и устройстве базовой станции в системе мобильной связи, так что является возможным обеспечивать терминальное устройство связи, устройство базовой станции и систему мобильной связи, имеющие один и тот же функциональный эффект, как указано выше.
Хотя случай был описан с вышеописанным вариантом осуществления в качестве примера, где настоящее изобретение реализуется в аппаратном обеспечении, настоящее изобретение может быть реализовано в программном обеспечении. Например, посредством описания алгоритма согласно настоящему изобретению на языке программирования, сохранения этой программы в памяти и предписания секции обработки информации исполнять эту программу является возможным реализовывать ту же функцию как устройство кодирования согласно настоящему изобретению.
Дополнительно, каждый функциональный блок, примененный в описании каждого из вышеупомянутых вариантов осуществления, может обычно реализовываться как LSI, составленная интегральной схемой. Они могут быть отдельными чипами, или частично, или полностью содержащимися на единичном чипе.
Здесь используется "LSI", но это может также упоминаться как "IC", "системная LSI", "супер LSI" или "ультра LSI" в зависимости от отличающихся степеней интеграции.
Дополнительно, способ схемной интеграции не ограничен LSI, и вариант осуществления с использованием специализированных схем или процессоров общего назначения является также возможным. После производства LSI использование FPGA (программируемой пользователем вентильной матрицы) или переконфигурируемого процессора, где соединения и установки схемных ячеек в LSI могут переконфигурироваться, является также возможным.
Дополнительно, если технология интегральных схем выходит, чтобы заменять LSI как результат продвижения полупроводниковой технологии или производной другой технологии, является естественно также возможным выполнять интеграцию функциональных блоков с использованием этой технологии. Применение биотехнологии является также возможным.
Раскрытие японской патентной заявки номер 2007-053500, поданной 2 марта 2007, включая описание, чертежи и реферат, включается сюда по ссылке в своей полноте.
Промышленная применимость
Настоящее изобретение является подходящим для устройства кодирования, которое кодирует речевые сигналы и аудиосигналы, и устройства декодирования, которое декодирует эти закодированные сигналы.

Claims (3)

1. Устройство кодирования, которое моделирует и кодирует частотный спектр с помощью множества фиксированных волновых форм, при этом устройство содержит:
секцию квантования форм, которая осуществляет поиск и кодирует положения и полярности фиксированных волновых форм; и
секцию квантования усилений, которая кодирует усиления этих фиксированных волновых форм,
при этом секция квантования форм разделяет множество фиксированных волновых форм на множество групп и осуществляет поиск положений и полярностей фиксированных волновых форм в открытом контуре, и устанавливает амплитуду фиксированной волновой формы из группы, которая является целевой для осуществления по ней поиска, равной или меньшей, чем амплитуда фиксированной волновой формы, найденной ранее при поиске.
2. Устройство кодирования по п.1, в котором секция квантования форм осуществляет поиск фиксированных волновых форм путем оценки искажения кодирования посредством идеального усиления, вычисленного посредством вектора, полученного путем декодирования входного спектра и формы.
3. Способ кодирования на основе моделирования и кодирования частотного спектра с помощью множества фиксированных волновых форм, при этом способ содержит:
этап квантования форм, на котором осуществляют поиск и кодирование положений и полярностей фиксированных волновых форм; и этап квантования усилений, на котором кодируют усиления фиксированных волновых форм,
при этом на этапе квантования форм разделяют множество фиксированных волновых форм на множество групп и осуществляют поиск положений и полярностей фиксированных волновых форм в открытом контуре, и устанавливают амплитуду фиксированной волновой формы из группы, которая является целевой для осуществления по ней поиска, равной или меньшей, чем амплитуда фиксированной волновой формы, найденной ранее при поиске.
RU2009132937/08A 2007-03-02 2008-02-29 Устройство кодирования и способ кодирования RU2462770C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007053500 2007-03-02
JP2007-053500 2007-03-02

Publications (2)

Publication Number Publication Date
RU2009132937A RU2009132937A (ru) 2011-03-10
RU2462770C2 true RU2462770C2 (ru) 2012-09-27

Family

ID=39737976

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009132937/08A RU2462770C2 (ru) 2007-03-02 2008-02-29 Устройство кодирования и способ кодирования

Country Status (11)

Country Link
US (1) US8306813B2 (ru)
EP (1) EP2120234B1 (ru)
JP (1) JP5241701B2 (ru)
KR (1) KR101414341B1 (ru)
CN (2) CN101622665B (ru)
AU (1) AU2008222241B2 (ru)
BR (1) BRPI0808202A8 (ru)
MY (1) MY152167A (ru)
RU (1) RU2462770C2 (ru)
SG (1) SG179433A1 (ru)
WO (1) WO2008108078A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2776261C1 (ru) * 2012-11-15 2022-07-15 Нтт Докомо, Инк. Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2650492T3 (es) * 2008-07-10 2018-01-18 Voiceage Corporation Dispositivo y método de cuantificación de filtro LPC de múltiples referencias
EP2645367B1 (en) * 2009-02-16 2019-11-20 Electronics and Telecommunications Research Institute Encoding/decoding method for audio signals using adaptive sinusoidal coding and apparatus thereof
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
KR101424372B1 (ko) 2011-02-14 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 랩핑 변환을 이용한 정보 신호 표현
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
US9472199B2 (en) 2011-09-28 2016-10-18 Lg Electronics Inc. Voice signal encoding method, voice signal decoding method, and apparatus using same
KR102083450B1 (ko) 2012-12-05 2020-03-02 삼성전자주식회사 페이지 버퍼를 포함하는 불휘발성 메모리 장치 및 그것의 동작 방법
JP5817854B2 (ja) * 2013-02-22 2015-11-18 ヤマハ株式会社 音声合成装置およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1168154A (en) * 1966-03-05 1969-10-22 Philips Electronic Associated Improvements in and relating to Filters for Analog Signals
RU2155388C2 (ru) * 1994-10-31 2000-08-27 Самсунг Электроникс Ко., Лтд. Устройство записи цифрового сигнала
EP1065654A1 (en) * 1992-03-18 2001-01-03 Sony Corporation High efficiency encoding method
US6208962B1 (en) * 1997-04-09 2001-03-27 Nec Corporation Signal coding system
EP1684268A2 (en) * 1997-10-22 2006-07-26 Matsushita Electric Industrial Co., Ltd. Orthogonalization search for the CELP based speech coding

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738116B2 (ja) * 1986-07-30 1995-04-26 日本電気株式会社 マルチパルス符号化装置
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
JP3024455B2 (ja) 1992-09-29 2000-03-21 三菱電機株式会社 音声符号化装置及び音声復号化装置
JP3041325B1 (ja) * 1992-09-29 2000-05-15 三菱電機株式会社 音声符号化装置及び音声復号化装置
US5568588A (en) * 1994-04-29 1996-10-22 Audiocodes Ltd. Multi-pulse analysis speech processing System and method
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
JP2778567B2 (ja) * 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
JP3094908B2 (ja) * 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
CA2213909C (en) 1996-08-26 2002-01-22 Nec Corporation High quality speech coder at low bit rates
JP3360545B2 (ja) * 1996-08-26 2002-12-24 日本電気株式会社 音声符号化装置
JP3266178B2 (ja) * 1996-12-18 2002-03-18 日本電気株式会社 音声符号化装置
JP3147807B2 (ja) 1997-03-21 2001-03-19 日本電気株式会社 信号符号化装置
JP3185748B2 (ja) * 1997-04-09 2001-07-11 日本電気株式会社 信号符号化装置
JP3180762B2 (ja) * 1998-05-11 2001-06-25 日本電気株式会社 音声符号化装置及び音声復号化装置
US6973424B1 (en) * 1998-06-30 2005-12-06 Nec Corporation Voice coder
JP3319396B2 (ja) * 1998-07-13 2002-08-26 日本電気株式会社 音声符号化装置ならびに音声符号化復号化装置
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
JP2001075600A (ja) * 1999-09-07 2001-03-23 Mitsubishi Electric Corp 音声符号化装置および音声復号化装置
JP3594854B2 (ja) * 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
CA2327041A1 (en) * 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP3954050B2 (ja) * 2004-07-09 2007-08-08 三菱電機株式会社 音声符号化装置及び音声符号化方法
US20090055169A1 (en) * 2005-01-26 2009-02-26 Matsushita Electric Industrial Co., Ltd. Voice encoding device, and voice encoding method
JP4907522B2 (ja) * 2005-04-28 2012-03-28 パナソニック株式会社 音声符号化装置および音声符号化方法
JP4850827B2 (ja) * 2005-04-28 2012-01-11 パナソニック株式会社 音声符号化装置および音声符号化方法
JP2007053500A (ja) 2005-08-16 2007-03-01 Oki Electric Ind Co Ltd 信号発生回路
US8112286B2 (en) * 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8370138B2 (en) * 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1168154A (en) * 1966-03-05 1969-10-22 Philips Electronic Associated Improvements in and relating to Filters for Analog Signals
EP1065654A1 (en) * 1992-03-18 2001-01-03 Sony Corporation High efficiency encoding method
RU2155388C2 (ru) * 1994-10-31 2000-08-27 Самсунг Электроникс Ко., Лтд. Устройство записи цифрового сигнала
US6208962B1 (en) * 1997-04-09 2001-03-27 Nec Corporation Signal coding system
EP1684268A2 (en) * 1997-10-22 2006-07-26 Matsushita Electric Industrial Co., Ltd. Orthogonalization search for the CELP based speech coding
EP1746583A1 (en) * 1997-10-22 2007-01-24 Matsushita Electric Industrial Co., Ltd. Sound encoder and sound decoder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2776261C1 (ru) * 2012-11-15 2022-07-15 Нтт Докомо, Инк. Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио

Also Published As

Publication number Publication date
BRPI0808202A8 (pt) 2016-11-22
CN102682778B (zh) 2014-10-22
EP2120234B1 (en) 2016-01-06
JPWO2008108078A1 (ja) 2010-06-10
CN101622665A (zh) 2010-01-06
WO2008108078A1 (ja) 2008-09-12
US20100106496A1 (en) 2010-04-29
MY152167A (en) 2014-08-15
RU2009132937A (ru) 2011-03-10
AU2008222241B2 (en) 2012-11-29
US8306813B2 (en) 2012-11-06
KR20090117876A (ko) 2009-11-13
CN101622665B (zh) 2012-06-13
KR101414341B1 (ko) 2014-07-22
CN102682778A (zh) 2012-09-19
SG179433A1 (en) 2012-04-27
EP2120234A1 (en) 2009-11-18
EP2120234A4 (en) 2011-08-03
BRPI0808202A2 (pt) 2014-07-01
JP5241701B2 (ja) 2013-07-17
AU2008222241A1 (en) 2008-09-12

Similar Documents

Publication Publication Date Title
RU2462770C2 (ru) Устройство кодирования и способ кодирования
EP2209114B1 (en) Speech coding/decoding apparatus/method
RU2463674C2 (ru) Кодирующее устройство и способ кодирования
US20090018824A1 (en) Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
EP2254110B1 (en) Stereo signal encoding device, stereo signal decoding device and methods for them
US20110035214A1 (en) Encoding device and encoding method
US11114106B2 (en) Vector quantization of algebraic codebook with high-pass characteristic for polarity selection
EP2099025A1 (en) Audio encoding device and audio encoding method
US20100094623A1 (en) Encoding device and encoding method
JP5525540B2 (ja) 符号化装置および符号化方法

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20150206