RU2248619C2 - Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов - Google Patents

Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов Download PDF

Info

Publication number
RU2248619C2
RU2248619C2 RU2003104222/09A RU2003104222A RU2248619C2 RU 2248619 C2 RU2248619 C2 RU 2248619C2 RU 2003104222/09 A RU2003104222/09 A RU 2003104222/09A RU 2003104222 A RU2003104222 A RU 2003104222A RU 2248619 C2 RU2248619 C2 RU 2248619C2
Authority
RU
Russia
Prior art keywords
speech
output
speech signal
linear prediction
frame
Prior art date
Application number
RU2003104222/09A
Other languages
English (en)
Other versions
RU2003104222A (ru
Inventor
А.А. Рыболовлев (RU)
А.А. Рыболовлев
Г.В. Богачев (RU)
Г.В. Богачев
В.Г. Трубицын (RU)
В.Г. Трубицын
И.А. Азаров (RU)
И.А. Азаров
Original Assignee
Рыболовлев Александр Аркадьевич
Богачев Геннадий Васильевич
Трубицын Владимир Геннадьевич
Азаров Игорь Анатольевич
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Рыболовлев Александр Аркадьевич, Богачев Геннадий Васильевич, Трубицын Владимир Геннадьевич, Азаров Игорь Анатольевич filed Critical Рыболовлев Александр Аркадьевич
Priority to RU2003104222/09A priority Critical patent/RU2248619C2/ru
Publication of RU2003104222A publication Critical patent/RU2003104222A/ru
Application granted granted Critical
Publication of RU2248619C2 publication Critical patent/RU2248619C2/ru

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к электросвязи. Его использование для кодирования и декодирования речевого сигнала методом линейного предсказания при адаптивном распределении информационных ресурсов кодека обеспечивает достижение технического результата в виде повышения качества синтезируемого сигнала без увеличения скорости кодирования. Этот результат достигается за счёт использования акустико-фонетической классификации обрабатываемых кадров речевого сигнала на четыре непересекающихся класса – отсутствие речи, вокализованная речь, невокализованная речь и переход к вокализованной речи. Эта классификация выполняется одновременно с идентификацией фильтра кратковременного линейного предсказания, и по ее результатам информационные ресурсы адаптивно распределяются по кодируемым параметрам. Классификационное решение включают в структуру кодовой комбинации для передачи по каналу связи и используют для определения режимов векторных квантователя и деквантователя, обученных для каждого класса речевых кадров. 2 с. и 2 з.п. ф-лы, 8 ил.

Description

Область техники, к которой относится изобретение.
Изобретение относится к системе электросвязи и предназначено для кодирования и декодирования речевого сигнала методом линейного предсказания при адаптивном распределении информационных ресурсов кодека (количества бит, выделяемых для кодирования текущего кадра речевого сигнала) по кодируемым параметрам.
Уровень техники.
Метод линейного предсказания речи принадлежит к классу методов преобразования речевого сигнала, использующих модель дискретного речевого сигнала в виде отклика линейной дискретной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). Переменный характер состояния системы нацелен на повышение эффективности передачи речевого сигнала за счет доступной степени использования нестационарных свойств речи. Временной интервал постоянства параметров дискретной системы детерминирует длительность обрабатываемого кадра речи, выбирается в пределах интервала квазистационарности речевого сигнала (до 30 мс) и, как правило, является фиксированным. Анализатор речепреобразующего устройства выделяет из кадра речевого сигнала параметры состояния линейной системы и сигнала возбуждения, которые служат координатами вектора информационного обмена между кодером и декодером и позволяют синтезатору восстановить исходный сигнал с требуемой степенью верности.
Многовариантность определения, комбинирования и отображения параметров линейного предсказания и сигнала возбуждения является основной причиной разнообразия способов и устройств кодирования и декодирования речевого сигнала на основе метода линейного предсказания, доминирующего на современном этапе развития речепреобразующих устройств в диапазоне скоростей кодирования не более 16 кбит/с. Аналогом изобретения является способ преобразования речевого сигнала методом линейного предсказания с возбуждением от кода [Коротаев А.Г. Эффективный алгоритм кодирования речевого сигнала на скорости 4,8 кбит/с и ниже // Зарубежная электроника, 1996, №3, стр.52-68; Hayashi S., Kataoka A., Moriya T. 8 kbit/c short and medium delay speech codecs based on CELP coding // ETT, Vol.5, No.5, September-October 1994, pp. 49-56], заключающийся в идентификации синтезирующего фильтра кратковременного линейного предсказания с последующим выбором из фиксированных кодовых книг векторов стохастического и квазипериодического компонентов сигнала возбуждения и их масштабирующих коэффициентов, обеспечивающих синтез речевого кадра, максимально близкого к обрабатываемому по выбранной метрике. Выбор лучшего сигнала возбуждения осуществляется методом анализа через синтез. Информация о параметрах синтезирующего фильтра и сигнала возбуждения в виде двоичной кодовой комбинации передается по каналу связи. Декодирование сигнала заключается в формировании копии кадра цифрового речевого сигнала синтезирующим фильтром декодера, параметры и сигнал возбуждения которого определяются кодовой комбинацией, поступившей из канала связи. Недостатком способа является относительно низкое качество синтезированной речи, обусловленное, в числе прочих причин, невысокой степенью учета статистических характеристик кодируемых параметров. Известно устройство [Коротаев А.Г. Эффективный алгоритм кодирования речевого сигнала на скорости 4,8 кбит/с и ниже // Зарубежная электроника, 1996, №3, стр.52-68], реализующее этот способ.
Прототипом изобретения выбран способ преобразования речевого сигнала методом линейного предсказания с возбуждением от алгебраического кода и сопряженной структурой квантователя масштабирующих коэффициентов стохастического и квазипериодического компонентов сигнала возбуждения (CS - ACELP) [Kataoka A., Hayashi S., Moriya Т., Kurihara S., Mano К. Basic algoritm of conjugate-structure algebraic CELP (CS - ASELP) speech coder // NTT Review, Vol. 8, No. 4, July 1996, pp. 24-29; Kataoka A., Hayashi S., Moriya Т., Ikedo J. LSP and gain quantization for CS - ACELP speech coder // NTT Review, Vol. 8, No. 4, July 1996, pp. 30-35; Kitawaki N. An 8-kbit/s speech coding method (CS - ASELP) standardized by ITU // NTT Review, Vol. 8, No. 4, July 1996, pp. 16-23], заключающийся в том, что методом анализа через синтез определяется набор квантованных параметров линейного предсказания кадра речи, обеспечивающий синтез кадра речевого сигнала, минимально отличающегося от оригинального. В качестве настраиваемой модели используется цифровой полюсный фильтр десятого порядка, коэффициенты которого, получаемые в результате процедуры идентификации, пересчитываются в вектор линейных спектральных частот
Figure 00000002
, подвергаемый непосредственному векторному квантованию. Квантованный вектор линейных спектральных частот
Figure 00000003
формирует частотную характеристику синтезирующего фильтра кратковременного линейного предсказания, используемого в процедуре анализа через синтез.
Сигнал возбуждения
Figure 00000004
, подаваемый на этот фильтр, непосредственно не определяется, представляется в виде линейной комбинации масштабированных стохастического и квазипериодического компонентов алгебраического типа и формируется на основании перебора возможных комбинаций кодовых векторов, содержащихся в кодовой книге стохастического компонента сигнала возбуждения, кодовой книге квазипериодического компонента сигнала возбуждения и кодовой книге векторов масштабирующих компонентов, имеющей сопряженную структуру. Выбор комбинации кодовых векторов, формирующих лучшую реализацию сигнала возбуждения, производится по минимуму взвешенной среднеквадратической ошибки между оригинальным и синтезированным кадрами речевого сигнала.
Длительность обрабатываемого кадра речевого сигнала составляет 10 мс, при этом вектор линейных спектральных частот определяется один раз на длительности кадра, а вектор сигнала возбуждения - дважды (один раз на длительности подкадра, равной 5 мс). В результате кодирования формируется кодовая комбинация двоичного мультипликативного кода
Figure 00000005
элементы которой содержат информацию о квантованном векторе линейных спектральных частот
Figure 00000006
, выбранных кодовых векторах квазипериодического компонента сигнала возбуждения на каждом из двух подкадров
Figure 00000007
, стохастического компонента сигнала возбуждения на каждом из двух подкадров
Figure 00000008
и масштабирующих коэффициентов на каждом из двух подкадров
Figure 00000009
. Полученная кодовая комбинация имеет фиксированную структуру (для кодирования каждого информационного параметра выделяется постоянное количество бит), отображает обрабатываемый кадр речевого сигнала и поступает через канал связи (в неискаженном виде в случае идеального канала) к декодеру.
Декодирование заключается в формировании квантованных векторов
Figure 00000010
(один раз на длительности кадра) и
Figure 00000011
(два раза на длительности кадра) на основании полученной из канала связи информации с последующим синтезом кадра цифрового речевого сигнала полюсным фильтром, аналогичным используемому в процедуре анализа через синтез.
Недостатком данного способа является ограниченная степень учета характеристик текущего кадра речевого сигнала, проявляющаяся в фиксированном распределении информационных ресурсов кодека (количества бит, выделяемых для кодирования речевого кадра) по кодируемым параметрам в условиях инвариантности набора последних. Параметрическая степень адаптации кодирующей процедуры к характеристикам речи, используемая в рассматриваемом способе, ограничивает степень разрешения противоречия между нестационарным характером речевого сигнала и локально-стационарной моделью речеобразования, используемой в способе.
Прототипом изобретения выбрано устройство преобразования речевого сигнала методом линейного предсказания с возбуждением от алгебраического кода и сопряженной структурой квантователя масштабирующих коэффициентов компонентов сигнала возбуждения (CS - ACELP) [Kataoka А., Науаshi S., Moriya Т., Kurihara S., Mano K. Basic algoritm of conjugate-structure algebraic CELP (CS - ASELP) speech coder // NTT Review, Vol. 8, No. 4, July 1996, pp. 24-29; Kataoka A., Hayashi S., Moriya Т., Ikedo J. LSP and gain quantization for CS - ACELP speech coder // NTT Review, Vol. 8, No. 4, July 1996, pp. 30-35; Kitawaki N. An 8-kbit/s speech coding method (CS - ASELP) standardized by ITU // NTT Review, Vol. 8, No. 4, July 1996, pp. 16-23], изображенное на фиг.1 и реализующее способ, выбранный в качестве прототипа. Устройство состоит (фиг.1) из передающей части (кодера) и приемной части (декодера). Кодер прототипа содержит идентификатор фильтра кратковременного линейного предсказания (ИФКЛП) 1, фиксированный векторный квантователь параметров речевого сигнала (ФВК) 2 и устройство формирования кодовой комбинации (УФКК) 3, выход которого через канал связи соединен с декодером. Декодер прототипа содержит устройство разделения кодовой комбинации (УРКК) 4, фиксированный векторный деквантователь параметров речевого сигнала (ФВДК) 5 и фильтр синтеза кратковременного линейного предсказания (ФСКЛП) 6.
Структурная схема кодера прототипа изображена на фиг.2. Обрабатываемый кадр речевого сигнала
Figure 00000012
поступает на ИФКЛП 1, на выходе которого формируется вектор линейных спектральных частот
Figure 00000013
, поступающий на векторный квантователь линейных спектральных частот (ВКЛСЧ) 7. Результатом квантования является квантованный вектор линейных спектральных частот
Figure 00000014
, формирующий частотную характеристику фильтра синтеза кратковременного линейного предсказания (ФСКЛП) 11, идентичного блоку 6. Реализации квантованного сигнала возбуждения
Figure 00000015
соответствующего каждому подкадру речевого сигнала и поступающего на второй вход ФСКЛП 11, формируются процедурой перебора на выходе сумматора, подключенного на выход кодовой книги векторов масштабирующих коэффициентов стохастического и квазипериодического компонентов сигнала возбуждения (КК 3) 10, имеющей сопряженную структуру, и представляют собой линейные комбинации вида
Figure 00000016
где
Figure 00000017
- кодовый вектор кодовой книги стохастического компонента сигнала возбуждения (КК 1) 8, отображающий остаток кратковременного и долговременного линейного предсказания подкадра речевого сигнала и имеющий единичную дисперсию;
Figure 00000018
- масштабирующий коэффициент кодового вектора
Figure 00000019
;
Figure 00000020
- кодовый вектор кодовой книги квазипериодического компонента сигнала возбуждения (КК 2) 9, отображающий квазипериодический компонент остатка кратковременного линейного предсказания подкадра речевого сигнала и имеющий единичную дисперсию;
Figure 00000021
- масштабирующий коэффициент кодового вектора
Figure 00000022
.
Для выбора лучшей реализации сигнала возбуждения
Figure 00000023
в состав кодера прототипа включена система анализа через синтез, состоящая из ФСКЛП 11, сумматора 12, взвешивающего фильтра восприятия (ВФВ) 13 и определителя минимального искажения (ОМИ) 14. Перечисленные блоки системы анализа через синтез совместно с блоками 7, 8, 9 и 10 являются составными элементами ФВК 2. На выходе сумматора 12 формируется вектор разности оригинального и синтезированного подкадров речевого сигнала
Figure 00000024
(для первого подкадра) или
Figure 00000025
(для второго подкадра), который подвергается процедуре частотного взвешивания в ВФВ 13 с расчетом взвешенного вектора разности
Figure 00000026
, после чего в ОМИ 14 производится расчет взвешенной среднеквадратичной ошибки (ВСКО) между оригинальным речевым подкадром и подкадрами синтезированного речевого сигнала, полученными от каждой реализации сигнала возбуждения. По критерию минимума ВСКО формируется команда выбора лучших кодовых векторов (КВЛКВ), поступающая на блоки 8, 9 и 10. Информация о выбранных векторах кодовых книг
Figure 00000027
на обоих подкадрах совместно с информацией о векторе
Figure 00000028
Figure 00000029
поступает на УФКК 3, с выхода которого кодовая комбинация
Figure 00000030
поступает в канал связи.
Структурная схема декодера прототипа изображена на фиг.3. Кодовая комбинация
Figure 00000031
, поступающая из канала связи на вход декодера, в УРКК 4 разделяется на элементы
Figure 00000032
Figure 00000033
которые определяют векторы, формируемые один раз на длительности кадра векторным деквантователем линейных спектральных частот (ВДКЛСЧ) 15 и дважды на длительности кадра кодовой книгой квазипериодического компонента сигнала возбуждения (КК 2) 17, кодовой книгой стохастического компонента сигнала возбуждения (КК 1) 16 и кодовой книгой векторов масштабирующих коэффициентов стохастического и квазипериодического компонентов сигнала возбуждения (КК 3) 18. На входы ФСКЛП 6 поступают вектор линейных спектральных частот
Figure 00000034
, детерминирующий частотную характеристику фильтра, и вектор сигнала возбуждения
Figure 00000035
, обеспечивающие формирование подкадров кадра синтезированного речевого сигнала
Figure 00000036
идентичного (в случае идеального канала связи) кадру речевого сигнала на выходе ФСКЛП 11. Блоки 15, 16, 17 и 18 являются составными элементами ФВДК 5.
Недостатком устройства является неэффективное использование информационных ресурсов (а следовательно - пропускной способности канала связи) по причине невысокой степени учета статистических характеристик кодируемых параметров речи.
Сущность изобретения.
Предлагаемый способ преобразования речевого сигнала решает задачу повышения качества речевого сигнала, синтезируемого методом линейного предсказания, без увеличения скорости кодирования.
Указанный технический результат достигается тем, что известный способ преобразования речевого сигнала методом линейного предсказания с возбуждением от алгебраического кода и сопряженной структурой квантователя масштабирующих коэффициентов стохастического и квазипериодического компонентов сигнала возбуждения дополняется процедурой акустико-фонетической классификации обрабатываемых кадров речевого сигнала на четыре непересекающиеся класса (кадры отсутствия речи, кадры вокализованной речи, кадры невокализованной речи, переходные кадры к вокализованной речи), используемой в качестве управляющей процедуры адаптивного распределения информационных ресурсов. Такой подход повышает степень адаптации процедур кодирования и декодирования от параметрической до структурной и позволяет использовать различия в статистических характеристиках кодируемых параметров речевого сигнала в указанных классах речевых кадров, выделяя биты на кодирование параметров пропорционально их информативности в данном классе речевых кадров. Процедура акустико-фонетической классификации выполняется одновременно с процедурой идентификации настраиваемой модели (цифрового полюсного фильтра), что предотвращает нежелательное возрастание алгоритмической временной задержки на обработку речевого кадра, являющейся критическим параметром для осуществления телефонного обмена в режиме реального времени. Классификационное решение h (номер класса обрабатываемого речевого кадра) является дополнительным параметром информационного обмена между кодером и декодером, в результате чего кодовая комбинация двоичного мультипликативного кода имеет вид
Figure 00000037
без изменения ее разрядности (без изменения скорости кодирования речевого сигнала). Кодирование параметра h требует выделения двух бит кодовой комбинации, остальные информационные ресурсы адаптивно распределяются по кодируемым параметрам, что обуславливает переход от используемых фиксированных векторных квантования и деквантования кодируемых параметров речевого сигнала к классифицированным векторным квантованию и деквантованию [Спутниковое телевидение. Новые методы передачи. Под редакцией Харатишвили Н.Г. - М.: Радио и связь, 1993. - стр.175-199] с четырьмя режимами функционирования. Обучение квантователей и деквантователей для каждого класса речевых кадров производится по обучающим выборкам, сформированным на основе речевых кадров, принадлежащих к данному классу.
Предлагаемое устройство предназначено для осуществления предлагаемого способа в целом. Повышение качества речевого сигнала без увеличения скорости кодирования достигается тем, что известное устройство преобразования речевого сигнала методом линейного предсказания с возбуждением от алгебраического кода и сопряженной структурой квантователя масштабирующих коэффициентов стохастического и квазипериодического компонентов сигнала возбуждения дополняется акустико-фонетическим классификатором (АФК) 19 (фиг.4, 5), вместо ФВК 2 и ФВДК 5 используются классифицированный векторный квантователь (KBК) 21 и классифицированный векторный деквантователь (КВДК) 24. На вход АФК 19 поступает обрабатываемый кадр речевого сигнала
Figure 00000038
, с его выхода классификационное решение h (h=1,2,3,4), определяющее принадлежность обрабатываемого кадра к одному из четырех непересекающихся классов (кадрам отсутствия речи, кадрам вокализованной речи, кадрам невокализованной речи, переходным кадрам к вокализованной речи), поступает на устройство формирования кодовой комбинации (УФКК) 22 и на квантующие устройства КВК 21: векторный квантователь линейных спектральных частот (ВКЛСЧ) 26, кодовую книгу стохастического компонента сигнала возбуждения (КК 1) 27, кодовую книгу квазипериодического компонента сигнала возбуждения (КК 2) 28 и кодовую книгу векторов масштабирующих коэффициентов компонентов сигнала возбуждения (КК 3) 29. УФКК 22 отличается от УФКК 3 тем, что использует четыре варианта структуры формируемой кодовой комбинации
Figure 00000039
, при этом два бита во всех режимах выделяются на кодирование классификационного решения h, остальные биты без увеличения общей разрядности кодовой комбинации адаптивно распределяются по кодируемым параметрам речевого сигнала в зависимости от значения h.
Устройство разделения кодовой комбинации (УРКК) 23 (фиг.4, 6) отличается от УРКК 4 тем, что, в зависимости от классифицированного решения h, содержащегося в поступающей из канала связи кодовой комбинации, использует один из четырех вариантов разделения, отличающихся числом бит, выделенных на каждый из кодируемых параметров. С выхода УРКК 23 классификационное решение h поступает на управляющие входы элементов КВДК 24: векторный деквантователь линейных спектральных частот (ВДКЛСЧ) 34, кодовую книгу стохастического компонента сигнала возбуждения (КК 1) 35, кодовую книгу квазипериодического компонента сигнала возбуждения (КК 2) 36 и кодовую книгу векторов масштабирующих коэффициентов компонентов сигнала возбуждения (КК 3) 37.
Блоки 26, 27, 28, 29, 34, 35, 36, 37 отличаются от блоков 7, 8, 9, 10, 15, 16, 17 и 18 соответственно наличием четырех вариантов кодовых книг (четырех режимов работы), обученных на основе обучающих выборок, сформированных использованием кадров речевого сигнала, принадлежащих конкретному классу речевых кадров. Режим работы этих блоков определяется классификационным решением h.
Перечень фигур схем.
На фиг.1 представлена структурная схема устройства преобразования речевого сигнала на основе метода линейного предсказания с фиксированным распределением информационных ресурсов (прототип); на фиг.2 - структурная схема кодера речевого сигнала устройства прототипа; на фиг.3 - структурная схема декодера речевого сигнала устройства прототипа; на фиг.4 - структурная схема предлагаемого устройства преобразования речевого сигнала на основе метода линейного предсказания с адаптивным распределением информационных ресурсов, с помощью которого реализуется предлагаемый способ; на фиг.5 - структурная схема кодера речевого сигнала предлагаемого устройства; на фиг.6 - структурная схема декодера речевого сигнала предлагаемого устройства; на фиг.7 - структурная схема акустико-фонетического классификатора кодера речевого сигнала предлагаемого устройства, на фиг.8 - блок-схема алгоритма акустико-фонетической классификации кадров речевого сигнала.
Сведения, подтверждающие возможность осуществления изобретения.
Предлагаемый способ преобразования речевого сигнала осуществляют следующим образом. В процедуры кодирования и декодирования речевого сигнала вводят процедуру акустико-фонетической классификации обрабатываемого кадра речевого сигнала, принятое классификационное решение h используют в качестве управляющего параметра адаптивного распределения информационных ресурсов, определяющего варианты осуществления классифицированных векторных квантования и деквантования кодируемых параметров речевого кадра. Такой подход позволяет использовать отдельные варианты квантования и деквантования речевых кадров для каждого класса, характеризующиеся различным распределением информационных ресурсов по кодируемым параметрам, определяемым степенью значимости каждого из кодируемых параметров для качественного представления речевых кадров данного класса (обеспечивающим максимальное качество синтезируемых кадров данного класса). Дополнительные затраты двух бит кодовой комбинации компенсируются значительным увеличением качества квантованного представления каждого из четырех классов речевых кадров, в результате чего достигается повышение качества речевого сигнала, синтезируемого методом линейного предсказания без увеличения скорости кодирования.
Акустико-фонетическая классификация речевых кадров осуществляется на основе процедур анализа речи на акустическом и фонетическом уровнях. В качестве классификационного критерия принадлежности кадра речевого сигнала к классу кадров отсутствия речи используется энергия речевого кадра Еk. Для принятия решения о принадлежности кадра активного речевого сигнала к классу кадров невокализованной речи используется обобщенный критерий Jk, учитывающий энергию речевого кадра Еk и число переходов через нуль Zk. К классу переходных кадров относятся начальные кадры вокализованных сегментов речевого сигнала.
Предлагаемое устройство (фиг.4) состоит из передающей части (кодера) и приемной части (декодера). Кодер содержит акустико-фонетический классификатор (АФК) 19, идентификатор фильтра кратковременного линейного предсказания (ИФКЛП) 20, классифицированный векторный квантователь параметров речевого сигнала (KBК) 21 и устройство формирования кодовой комбинации (УФКК) 22, выход которого через канал связи соединен с декодером. Декодер предлагаемого устройства содержит устройство разделения кодовой комбинации (УРКК) 23, классифицированный векторный деквантователь параметров речевого сигнала (КВДК) 24 и фильтр синтеза кратковременного линейного предсказания (ФСКЛП) 25.
Структурная схема кодера изображена на фиг.5. Выход АФК 19 соединен с УФКК 22 и управляющими входами элементов КВК: векторного квантователя линейных спектральных частот (ВКЛСЧ) 26, кодовой книги стохастического компонента сигнала возбуждения (КК 1) 27, кодовой книги квазипериодического компонента сигнала возбуждения (КК 2) 28 и кодовой книги векторов масштабирующих коэффициентов стохастического и квазипериодического компонентов сигнала возбуждения (КК 3) 29. Блоки 26, 27, 28 и 29 имеют четыре варианта функционирования в зависимости от одного из четырех возможных значений сигнала на выходе АФК. Выход ИФКЛП 20 является входом ВКЛСЧ 26, выход которого соединен со входом фильтра синтеза кратковременного линейного предсказания (ФСКЛП) 30, идентичного блоку 25. Выходы КК 1 и КК 2 являются входами КК 3, выходы которого соединены с входами сумматора, формирующего сигнал возбуждения
Figure 00000040
. Выход сумматора соединен со вторым входом ФСКЛП 30. На входы сумматора 31 поступают сигнал со входа кодера и инвертированный сигнал с выхода ФСКЛП 30, выход сумматора соединен с входом взвешивающего фильтра восприятия (ВФВ) 32. Выход ВФВ 32 является входом определителя минимального искажения (ОМИ) 33, выход которого соединен с управляющими входами блоков 27, 28, 29. Вторые выходы блоков 26, 27, 28 и 29 являются входами УФКК 22. Выход УФКК 22 является выходом кодера предлагаемого устройства.
Структурная схема декодера изображена на фиг.6. Сигналы с выхода УРКК 23 поступают на управляющие и информационные входы элементов КВДК: векторного деквантователя линейных спектральных частот (ВДКЛСЧ) 34, кодовой книги стохастического компонента сигнала возбуждения (КК 1) 35, кодовой книги квазипериодического компонента сигнала возбуждения (КК 2) 36 и кодовой книги векторов масштабирующих коэффициентов стохастического и квазипериодического компонентов сигнала возбуждения (КК 3) 37. Блоки 34, 35, 36 и 37 имеют четыре варианта функционирования в зависимости от одного из четырех возможных значений сигнала h на выходе АФК. Выходы блоков 35 и 36 соединены с входами блока 37, выходы которого соединены с входами сумматора, формирующего сигнал возбуждения
Figure 00000041
. Выход сумматора соединен со входом ФСКЛП 25, на второй вход которого поступает сигнал с ВДКЛСЧ 34. Выход блока 25 является выходом декодера предлагаемого устройства.
Акустико-фонетический классификатор 19 содержит (фиг.7) определитель энергии (ОЭ) 38 и определитель числа переходов через нуль (ОЧПЧН) 39, на входы которых одновременно поступает обрабатываемый сигнал. Выходы блоков 38 и 39 соединены со входами определителя кадров невокализованной речи (ОКНР) 41, кроме того, выход ОЭ 38 является входом определителя кадров пауз (ОКП) 40. На вход определителя кадров вокализованной речи и переходных кадров (ОКВР и ПК) 42 поступают сигналы с двух выходов ОКНР 41 и с выхода ОКП 40. Входы формирователя классификационных решений (ФКР) 43 соединены с двумя выходами блока 42, выходами блоков 40 и 41. Выход ФКР 43 является выходом АФК.
Предлагаемое устройство выполняет покадровую обработку речевого сигнала. На вход кодера подается текущий кадр
Figure 00000042
речевого сигнала, представленный в формате линейной импульсно-кодовой модуляции. Результатом параметрического кодирования на основе метода линейного предсказания с адаптивным распределением информационных ресурсов является двоичная кодовая комбинация
Figure 00000043
, поступающая с выхода кодера в канал связи. На выходе декодера формируется кадр синтезированного речевого сигнала
Figure 00000044
, соответствующего исходному кадру
Figure 00000045
.
Предлагаемое устройство работает следующим образом. Обрабатываемый кадр речевого сигнала поступает одновременно на АКФ 19 и ИФКЛП 20, где производятся акустико-фонетическая классификация речевого кадра и идентификация фильтра кратковременного линейного предсказания соответственно. Алгоритм акустико-фонетической классификации кадров речевого сигнала представлен блок-схемой на фиг.8. Обрабатываемый кадр
Figure 00000046
речевого сигнала одновременно анализируется на величину энергии Еk и число переходов через нуль Zk. По величине энергии кадра принимается классификационное решение первого уровня "кадр отсутствия речи (кадр паузы, h=1) - кадр активной речи". В случае принятия решения о кадре отсутствия речи классификационная процедура завершается. В противном случае рассчитывается обобщенный критерий
Figure 00000047
, на основании которого принимается классификационное решение второго уровня "кадр невокализованной речи (h=3) - кадр вокализованной речи или переходной кадр". В случае принятия решения о кадре невокализованной речи классификационная процедура завершается. В противном случае на основании сравнения текущего решения с классификационным решением по предыдущему речевому кадру принимается классификационное решение третьего уровня "кадр вокализованной речи (h=2) - переходной кадр (h=4)". На этом процедура классификации завершается. Выделение переходных кадров, характеризующихся наиболее широким диапазоном изменения значений кодируемых параметров, в отдельный класс позволяет повысить точность их квантования, что оказывает значительное влияние на качество синтезируемой речи.
Классификационное решение h детерминирует режим функционирования УФКК 22 и текущее состояние ВКЛСЧ 26, блоков 27, 28 и 29, адаптируя, тем самым, распределение информационных ресурсов устройства под характеристики обрабатываемого кадра речевого сигнала. ВКЛСЧ 26 выполняет векторное квантование вектора линейных спектральных частот
Figure 00000048
, являющегося результатом процедуры идентификации в блоке 20, с выхода ВКЛСЧ 26 квантованный вектор
Figure 00000049
поступает на ФСКЛП 30, фиксируя его состояние на временной интервал, равный длительности обрабатываемого кадра. Перебор кодовых векторов, содержащихся в кодовых книгах 27, 28, 29, приводит к формированию множества возможных реализаций сигнала возбуждения
Figure 00000050
поочередно для обоих подкадров речевого сигнала. На выходе ФСКЛП 30 поочередно формируются множества реализации подкадров квантованного речевого кадра
Figure 00000051
. На выходе сумматора 31 формируется множество векторов
Figure 00000052
ошибок квантования подкадров, на выходе ВФВ 32 - множество векторов
Figure 00000053
взвешенных ошибок квантования подкадров, которое в ОМИ 33 пересчитывается во множество взвешенных среднеквадратических ошибок (ВСКО).
По минимальной из полученных ВСКО в ОМИ 33 принимается решение о лучшей комбинации кодовых векторов, которое в виде команды КВЛКВ поступает на блоки 27, 28, 29. С выхода этих блоков по окончании обработки каждого подкадра информация о лучших комбинациях кодовых векторов поступает на УФКК 22, где она объединяется с информацией о классификационном решении h и информацией о векторе
Figure 00000054
. На выходе УФКК 22 формируется кодовая комбинация
Figure 00000055
поступающая в канал связи, а из него - на вход УРКК 23. Классификационное решение h, выделенное в УРКК 23 из
Figure 00000056
, детерминирует режим разделения кодовой комбинации в УРКК 23 и состояние ВДКЛСЧ 34, блоков 35, 36 и 37, адаптируя, тем самым, распределение информационных ресурсов устройства под характеристики обрабатываемого кадра речевого сигнала.
Элемент
Figure 00000057
комбинации мультипликативного кода, содержащий информацию о квантованном векторе линейных спектральных частот, поступает на вход ВДКЛСЧ 34, на выходе которого формируется вектор
Figure 00000058
, идентичный вектору на выходе ВКЛСЧ 26. Элементы комбинации мультипликативного кода, содержащие информацию о лучших кодовых векторах первого подкадра
Figure 00000059
и второго подкадра
Figure 00000060
поступают на блоки 36, 35 и 37, в результате чего на выходе сумматора, включенного между блоками 37 и 25, формируется сигнал возбуждения, идентичный сигналу на входе ФСКЛП 30. ФСКЛП 25 идентичен ФСКЛП 30. На выходе ФСКЛП 25 формируется кадр
Figure 00000061
синтезированного речевого сигнала, идентичный кадру речевого сигнала на выходе ФСКЛП 30 и являющийся наиболее близким к обрабатываемому кадру
Figure 00000062
по критерию ВСКО.
Приведенные сведения показывают, что средства, воплощающие изобретения при их осуществлении, способны обеспечить более качественную передачу речи за счет адаптивного распределения информационных ресурсов устройства преобразования речевого сигнала, использующего метод линейного предсказания.

Claims (4)

1. Способ преобразования речевого сигнала методом линейного предсказания, заключающийся в том, что при кодировании идентифицируют фильтр кратковременного линейного предсказания, результат идентификации выражают вектором линейных спектральных частот, который непосредственно квантуют векторным квантователем, квантованным вектором линейных спектральных частот формируют частотную характеристику синтезирующего фильтра кратковременного линейного предсказания; сигнал возбуждения фильтра кратковременного линейного предсказания представляют линейной комбинацией масштабированных стохастического и квазипериодического компонентов, содержащихся в соответствующих кодовых книгах, и определяют процедурой анализа через синтез по критерию минимума среднеквадратической взвешенной ошибки между обрабатываемым кадром речевого сигнала и синтезированным кадром; для передачи по каналу связи используют комбинацию двоичного мультипликативного кода, содержащую информацию о квантованном векторе линейных спектральных частот, кодовых векторах компонентов сигнала возбуждения и их масштабирующих коэффициентов; при декодировании формируют кадр речевого сигнала синтезирующим фильтром кратковременного линейного предсказания, частотную характеристику и сигнал возбуждения которого формируют в соответствии с информацией, содержащейся в принятой из канала связи кодовой комбинации, отличающийся тем, что при кодировании используют акустико-фонетическую классификацию обрабатываемых кадров речевого сигнала на четыре непересекающихся класса, выполняемую одновременно с процедурой идентификации фильтра кратковременного линейного предсказания, классификационное решение включают в структуру кодовой комбинации, передаваемой по каналу связи, и используют для детерминирования режима функционирования классифицированных векторных квантователя и деквантователя, обученных для каждого класса речевых кадров по обучающим выборкам, сформированным на основе речевых кадров, принадлежащих к данному классу и осуществляющих процедуры классифицированного векторного соответственно квантования и деквантования в зависимости от результата акустико-фонетической классификации, чем обеспечивают адаптивное распределение информационных ресурсов.
2. Устройство преобразования речи методом линейного предсказания, содержащее в составе кодера идентификатор фильтра кратковременного линейного предсказания (ИФКЛП), на вход которого поступает кодируемый кадр речевого сигнала, а выход является входом векторного квантователя линейных спектральных частот (ВКЛСЧ), кодовые книги стохастического (КК 1) и квазипериодического (КК 2) компонентов сигнала возбуждения, выходы которых соединены с отдельными входами кодовой книги масштабирующих коэффициентов (КК 3), выходы которой после суммирования соединены со входом фильтра синтеза кратковременного линейного предсказания (ФСКЛП), второй вход которого соединен с выходом ВКЛСЧ, а выход соединен с инверсным входом сумматора, на прямой вход которого поступает кодируемый кадр речевого сигнала, а выход которого через последовательно соединенные взвешивающий фильтр восприятия (ВФВ) и определитель минимальной ошибки (ОМИ) соединен с управляющими входами КК 1, КК 2 и КК 3, устройство формирования кодовой комбинации (УФКК), входы которого соединены с дополнительными выходами ВКЛСЧ, КК 1, КК 2, КК 3, а в составе декодера - устройство разделения кодовой комбинации (УРКК), выходы которого являются входами векторного деквантователя линейных спектральных частот (ВДКЛСЧ), кодовых книг стохастического (КК 1) и квазипериодического (КК 2) компонентов сигнала возбуждения и кодовой книги масштабирующих коэффициентов (КК 3), входы которой соединены с выходами КК 1 и КК 2, а выходы после объединения являются входом фильтра синтеза кратковременного линейного предсказания (ФСКЛП), второй вход которого соединен с выходом ВДКЛСЧ, а на выходе формируется кадр синтезированного речевого сигнала, отличающееся тем, что содержит в составе кодера акустико-фонетический классификатор (АФК) обрабатываемых кадров речевого сигнала на четыре непересекающихся класса: кадры отсутствия речи, кадры вокализованной речи, кадры невокализованной речи, переходные кадры к вокализованной речи, на вход АФК поступает кодируемый кадр речевого сигнала, а его выход соединен с дополнительными входами ВКЛСЧ, кодовых книг стохастического (КК 1) и квазипериодического (КК 2) компонентов сигнала возбуждения и их масштабирующих коэффициентов (КК 3) и устройства формирования кодовой комбинации (УФКК).
3. Устройство по п. 2, отличающееся тем, что УФКК имеет дополнительный вход, соединенный с выходом АФК, а УРКК имеет дополнительный выход, соединенный с дополнительными входами ВДКЛСЧ, КК 1, КК 2 и КК 3, при этом УФКК и УРКК, управляемые классификационным решением АФК, имеют четыре режима формирования и разделения кодовой комбинации соответственно, различающиеся распределением количества бит, выделяемых для кодирования речевого кадра, по кодируемым параметрам с учетом двух бит на кодирование номера класса речевого кадра без изменения общей разрядности кодовой комбинации.
4. Устройство по п. 2, отличающееся тем, что ВКЛСЧ, кодовые книги стохастического (КК 1) и квазипериодического (КК 2) компонентов сигнала возбуждения и их масштабирующих коэффициентов (КК 3), содержащиеся в составе кодера, имеют дополнительные входы, соединенные с выходом АФК, и содержат четыре варианта кодовых книг, соответствующие четырем классам обрабатываемых кадров речевого сигнала и различающиеся количеством кодовых векторов при неизменности их суммарного количества, а ВДКЛСЧ, кодовые книги стохастического (КК 1) и квазипериодического (КК 2) компонентов сигнала возбуждения и их масштабирующих коэффициентов (КК 3), содержащиеся в составе декодера, имеют дополнительные входы, соединенные с дополнительным выходом УРКК, и содержат четыре варианта кодовых книг, аналогичных кодовым книгам, содержащимся в устройствах кодера.
RU2003104222/09A 2003-02-12 2003-02-12 Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов RU2248619C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2003104222/09A RU2248619C2 (ru) 2003-02-12 2003-02-12 Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2003104222/09A RU2248619C2 (ru) 2003-02-12 2003-02-12 Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов

Publications (2)

Publication Number Publication Date
RU2003104222A RU2003104222A (ru) 2004-08-27
RU2248619C2 true RU2248619C2 (ru) 2005-03-20

Family

ID=35454433

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2003104222/09A RU2248619C2 (ru) 2003-02-12 2003-02-12 Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов

Country Status (1)

Country Link
RU (1) RU2248619C2 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2469421C2 (ru) * 2007-10-12 2012-12-10 Панасоник Корпорэйшн Векторный квантователь, инверсный векторный квантователь и способы
RU2573278C2 (ru) * 2010-12-14 2016-01-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер и способ для кодирования с предсказанием, декодер и способ для декодирования, система и способ для кодирования с предсказанием и декодирования, и кодированный с предсказанием информационный сигнал
RU2637885C2 (ru) * 2013-09-26 2017-12-07 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство предсказания сигнала возбуждения верхней полосы

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
RU2459283C2 (ru) * 2007-03-02 2012-08-20 Панасоник Корпорэйшн Кодирующее устройство, декодирующее устройство и способ

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
. *
МИХАЙЛОВ В.Г., ЗЛАТОУСТОВА Л.В. Измерение параметров речи. – Москва, Радио и связь, 1987. – с. 113-135. *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2469421C2 (ru) * 2007-10-12 2012-12-10 Панасоник Корпорэйшн Векторный квантователь, инверсный векторный квантователь и способы
RU2573278C2 (ru) * 2010-12-14 2016-01-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер и способ для кодирования с предсказанием, декодер и способ для декодирования, система и способ для кодирования с предсказанием и декодирования, и кодированный с предсказанием информационный сигнал
RU2637885C2 (ru) * 2013-09-26 2017-12-07 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство предсказания сигнала возбуждения верхней полосы
US10339944B2 (en) 2013-09-26 2019-07-02 Huawei Technologies Co., Ltd. Method and apparatus for predicting high band excitation signal
US10607620B2 (en) 2013-09-26 2020-03-31 Huawei Technologies Co., Ltd. Method and apparatus for predicting high band excitation signal

Similar Documents

Publication Publication Date Title
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
US6594626B2 (en) Voice encoding and voice decoding using an adaptive codebook and an algebraic codebook
US8032369B2 (en) Arbitrary average data rates for variable rate coders
EP1755109B1 (en) Scalable encoding and decoding apparatuses and methods
EP1339040B1 (en) Vector quantizing device for lpc parameters
JP4213243B2 (ja) 音声符号化方法及び該方法を実施する装置
KR100487943B1 (ko) 음성 코딩
US8364472B2 (en) Voice encoding device and voice encoding method
WO2006001218A1 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
JP2006510063A (ja) サブサンプルされた励起波形コードブック
JPH11259100A (ja) 励起ベクトルの符号化方法
KR20010112480A (ko) 전환 스피치 프레임의 멀티펄스 보간 코딩
US6768978B2 (en) Speech coding/decoding method and apparatus
JPH1097295A (ja) 音響信号符号化方法及び復号化方法
JP3063668B2 (ja) 音声符号化装置及び復号装置
JP2006031016A (ja) 音声コーディング/デコーディング方法及びその装置
JPH09319398A (ja) 信号符号化装置
RU2248619C2 (ru) Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов
EP3899931B1 (en) Phase quantization in a speech encoder
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
JPH10207496A (ja) 音声符号化装置及び音声復号装置
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP3576485B2 (ja) 固定音源ベクトル生成装置及び音声符号化/復号化装置
Drygajilo Speech Coding Techniques and Standards
JP3824706B2 (ja) 音声符号化/復号化装置

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20050213