RU2631968C2 - Способ низкоскоростного кодирования и декодирования речевого сигнала - Google Patents
Способ низкоскоростного кодирования и декодирования речевого сигнала Download PDFInfo
- Publication number
- RU2631968C2 RU2631968C2 RU2015127496A RU2015127496A RU2631968C2 RU 2631968 C2 RU2631968 C2 RU 2631968C2 RU 2015127496 A RU2015127496 A RU 2015127496A RU 2015127496 A RU2015127496 A RU 2015127496A RU 2631968 C2 RU2631968 C2 RU 2631968C2
- Authority
- RU
- Russia
- Prior art keywords
- signal
- vector
- speech signal
- speech
- linear prediction
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000005284 excitation Effects 0.000 claims abstract description 44
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims abstract description 22
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 15
- 238000013139 quantization Methods 0.000 claims abstract description 7
- 230000001755 vocal effect Effects 0.000 claims abstract description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000010183 spectrum analysis Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000009472 formulation Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Изобретение относится к области цифровой связи, а именно к технике обработки речи на основе линейного предсказания, и может быть использовано в системах инфокоммуникаций для низкоскоростного кодирования речевых сигналов. Техническим результатом предлагаемого способа является повышение качества синтезированного речевого сигнала в низкоскоростных вокодеров с линейным предсказанием при ограничениях на скорость передачи данных. Технический результат достигается тем, что в вокодере на основе линейного предсказания осуществляется поиск вектора сигнала возбуждения на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности, статистически связанных с исходным вектором параметров, описывающих состояние голосового тракта. По каналу связи передают индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал на каждом квазистационарном сегменте анализа речевого сигнала. 4 ил.
Description
Изобретение относится к области цифровой связи, а именно к технике обработки речи на основе процедуры линейного предсказания и может быть использовано в системах инфокоммуникаций для низкоскоростного кодирования речевых сигналов.
При цифровой обработке речевых сигналов эффективное кодирование речи с целью ее дальнейшей передаче по цифровым каналам связи является одной из основополагающих задач. Ее решение позволяет увеличить пропускную способность линейных трактов и каналов передачи при заданных критериях качества связи. Одним из принципов построения систем обработки и передачи речи выступает повышение качественных показателей синтезированной речи при ограничениях на скорость передачи речевого сигнала.
Большинство известных способов кодирования речевых сигналов основано на методе линейного предсказания с моделью речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). При этом анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.
Известны способы обработки речевых сигналов в вокодерах с линейным предсказанием, основанные на анализе сигнала ошибки линейного предсказания (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 258-276; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С. 365-428; О.И. Шелухин, Н.Ф. Лукьянцев Цифровая обработка и передача речи. - М., Радио и связь, 2000. - С. 102-166).
В устройствах, реализующих данные способы, осуществляется анализ сигнала ошибки линейного предсказания с целью генерации сигналов возбуждения фильтра - синтезатора. Известно, что сигнал остатка предсказания является наилучшим сигналом возбуждения синтезирующего фильтра линейного предсказания. (Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. - М.: Радио и связь, 1984. - С. 172-182). При этом по каналу связи передается информация о коэффициентах формирующей модели и параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал.
Для эффективного представления сигнала возбуждения в таких устройствах используются различные способы снижения информативной избыточности данных последовательностей (патенты US №7289952 от 30.10.2007, US №7233896 от 10.07.2007, US №7133823 от 7.11.2006, US №5963897 от 5.10.1999, US №6757650 от 29.06.2004, RU №2163399 от 22.10.1997, RU №97117357 от 20.02.2001).
Недостатком данных способов является значительное расходование информационного ресурса на представление сигнала возбуждения при его передаче по каналу связи, и, следовательно, относительно высокая скорость передачи данных по каналам связи при эффективном кодировании речи.
Наиболее близким по технической сущности к заявленному изобретению является патент RU №2495504 от 10.10.2013 г., в котором для снижения скорости передачи в вокодерах с линейным предсказанием предлагается формирование сигнала возбуждения на приеме, для чего из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта. Также используются значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по которым при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения, и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.
Недостатком данного способа является невысокое качество синтезированного речевого сигнала, что объясняется отсутствием при восстановлении оригинального сигнала возбуждения и статистическим усреднением подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, при этом используются алгоритмы обучения нейросети и идентификации вектора сигнала возбуждения, имеющие достаточно высокую вычислительную сложность.
Задачей изобретения является разработка способа низкоскоростного кодирования и декодирования речевого сигнала, позволяющего повысить качество синтезированного речевого сигнала в низкоскоростном вокодере с линейным предсказанием при ограничениях на скорость передачи данных.
Эта задача решается тем, что в способе низкоскоростного кодирования и декодирования речевого сигнала формирование сигнала возбуждения реализуется путем использования параметров синтезирующего фильтра, отличающийся тем, что поиск вектора кандидата сигнала возбуждения осуществляют на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров описывающим состояние голосового тракта. По каналу связи передается индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».
Благодаря новой совокупности существенных признаков системы, обеспечивающих поиск вектора кандидата сигнала возбуждения на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров, описывающим состояние голосового тракта, далее передаче по каналу связи индекса вектора параметров голосового тракта, индекса вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта и соответствующего масштабирующего коэффициента сигнала возбуждения, по которым на приеме синтезируют речевой сигнал, достигается повышение качественных характеристик синтезированного речевого сигнала при выполнении ограничений на скорость передачи данных в канале связи.
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
Данный подход дает возможность улучшить качественные показатели синтезированной речи при ограничениях на скорость передачи по сравнению с используемым прототипом, что объясняется увеличением мощности подпространства представления векторов сигнала возбуждения, статистически связанных с вектором параметров голосового тракта.
Данные статистические зависимости объясняются тем, что в стандартах низкоскоростного кодирования речи используется ограниченный порядок анализирующего и синтезирующего фильтров, что определяется возможностью их физической реализации при необходимой и достаточной точности описания передаточной функции голосового тракта человека.
Сущность метода линейного предсказания заключается в том, что выборка речевого сигнала S(n) может быть предсказана линейной комбинацией предшествующих отсчетов этого сигнала:
где S'(n) - предсказанное значение речевого сигнала;
а i - весовой коэффициент или коэффициент линейного предсказания;
М - число коэффициентов или порядок линейного предсказания,
е(n) - ошибка предсказания.
Возникающая при этом ошибка предсказания находится по линейно-разностному уравнению (2), которое описывает функционирование фильтра анализа модели линейного предсказания:
Задача анализа речевого сигнала методом линейного предсказания заключается в его фильтрации линейной системой с передаточной характеристикой вида:
Обратная ей передаточная функция представляет собой фильтр синтеза и определяется соотношением
Теоретическим основополагающим базисом метода линейного предсказания является авторегрессионная модель, успешно применяемая для решения различных задач цифрового спектрального анализа и предполагающая в общем "идеальном" случае бесконечный порядок формирующей системы при возбуждении ее сигналом в виде дискретного белого гауссовского шума (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 216-224).
Ее идентификация связана с решением системы алгебраических матричных уравнений Юла-Уокера (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 224-227). В классической постановке задачи параметрического цифрового спектрального анализа возбуждение формирующего фильтра осуществляется сигналом u(n), представляющим собой реализации белого шума с математическим ожиданием равным нулю и единичной дисперсией.
Точность идентификации математической модели исследуемого процесса напрямую связана с выбором величины ее порядка M. В качестве критерия настройки модели в предположении о гауссовском законе распределения исходного процесса используется взвешенная среднеквадратическая ошибка e2(n).
где - вектор оригинального речевого сигнала, - вектор синтезированного речевого сигнала, N - количество отсчетов на сегменте анализа.
Применительно к задаче предсказания речи повышение порядка передаточных функций фильтров анализа и синтеза приводит к "обелению" сигнала остатка предсказания.
В классической постановке задачи параметрического цифрового спектрального анализа на основе авторегрессионной модели линейное разностное уравнение формирующего фильтра выглядит следующим образом (7):
где y(nT) - выходной сигнал, T - интервал дискретизации, {a m} - коэффициенты фильтра, M - порядок фильтра. Его амплитудно-частотная характеристика определяется в виде:
а спектральная плотность мощности:
где ω - круговая частота дискретного преобразования Фурье.
Повышение порядка модели в выражениях (1), (2), (3) и (4) приводит к получению более точных оценок относительно анализируемого сигнала . В идеале e2(n)→0 при М→∞.
Однако на практике при реализации линейного предсказания значение М всегда ограничено, что приводит к возникновению сигнала e(n), являющегося сигналом возбуждения фильтра синтеза модели линейного предсказания. Таким образом, сигнал e(n) уже не является реализациями белого шума с математическим ожиданием равным нулю и единичной дисперсией, а становится квазидетерминированным относительно множества {a m} и связан с ним соответствующими корреляционными зависимостями.
На фиг. 1 представлена формантная структура речевого сигнала и сигнала остатка линейного предсказания на сегменте предсказания, анализ которого позволяет утверждать о наличии взаимосвязи данных параметров.
На фиг. 2 показано, что при формировании ограниченных множеств параметров голосового тракта и сигналов возбуждения на основе остатка предсказания в виде кодовых книг данные зависимости вырождаются в соответствующие классы подпространств соответствий между собой и определяют элементы декомпозиции речевого сигнала.
Блок-схема алгоритма функционирования предложенной системы, реализующей способ низкоскоростного кодирования и декодирования речевого сигнала, представлена на фиг. 3.
На практике во многих стандартах низкоскоростного речевого кодирования на основе метода линейного предсказания используется векторное представление параметров, описывающих передаточную функцию голосового тракта и соответствующего им сигнала возбуждения , которые находятся с использованием процедуры анализа через синтез. Мощности пространств представлений параметров и в общем случае различны и определяются особенностями применения того или иного стандарта. Ограничение порядка фильтров анализа и синтеза и векторный характер пары параметров , найденной с использованием процедуры анализа через синтез, приводит к возникновению взаимозависимостей между значениями и , что дает возможность упростить задачу построения системы обработки речи данного класса.
Присутствие таких зависимостей между элементами декомпозиции речевого сигнала, описывающими передаточную функцию голосового тракта и соответствующего сигнала возбуждения, объясняется особенностями постановки и решения обратной задачи цифрового спектрального анализа при фиксированном порядке формирующего фильтра.
Учет данной зависимости при построении системы обработки речевого сигнала дает возможность существенно уменьшить мощность векторного подпространства представления сигналов возбуждения синтезирующего фильтра, связанного с вектором параметров голосового тракта.
Сущность предлагаемого способа заключается в следующем. При анализе сегмента речевого сигнала на передающей стороне вычисляются вектор параметров, описывающих передаточную функцию голосового тракта и вектор сигнала ошибки линейного предсказания. Данные вектора используют для обучения (построения) кодовой книги векторов параметров голосового тракта и, соответственно, связанных с каждым из векторов кодовой книги параметров голосового тракта подпространств малой размерности сигналов кодовой книги векторов сигналов возбуждения.
Процедуры выделения и анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - С. 425-446). Описание формирования и приема кадра передачи представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Создание кодовых книг для реализации процедуры векторного квантования параметров элементов декомпозиции речевого сигнала при линейном предсказании представлено в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Нахождение статистических взаимосвязей между различными множествами достаточно подробно представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985. - 487 С.). Анализ и синтез речевого сигнала на основе процедуры линейного предсказания подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи - М.: Связь, 1980 - С. 95-126).
Заявленное техническое решение поясняется чертежом (фиг. 4), на котором показана функциональная схема устройства, реализующего способ низкоскоростного кодирования и декодирования речевого сигнала посредством использования взаимозависимости элементов декомпозиции речевого сигнала при линейном предсказании речи.
Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены с достижением указанного в изобретении назначения.
Устройство, реализующее данный способ, состоит из блока анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания 1, который соединен с блоком идентификации подпространства векторов сигнала возбуждения 2 и со вторым входом блока формирования кадра передачи 3. Выход блока 2 соединен с первым входом блока 3. На вход блока приема кадра передачи 4 поступает сигнал с выхода блока 3. Сигнал с выхода блока 4 подается на блок формирования сигнала возбуждения 5. Данный блок соединен с блоком синтеза речевого сигнала 6. На другой вход блока 6 поступает сигнал от блока 4.
Процедура анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, выполняемая в блоке 1, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с. 425-446). Нахождение статистических взаимосвязей между различными множествами, применяемая в блоке 2, представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985 - 487 С.). Описание формирования и приема кадра передачи, выполняемые блоками 3 и 4 представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Механизм нахождения вектора сигнала возбуждения в блоке 5 представлен в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Синтез речевого сигнала, осуществляемый в блоке 6, подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 95-126).
Устройство, реализующее заявленный способ, работает следующим образом. Сегмент речевого сигнала поступает на блок 1, в котором происходит его анализ и формирование векторов сигналов ошибки линейного предсказания и коэффициентов линейного предсказания. Выделенные параметры с блока 1 поступают на блок 2, в котором осуществляется идентификация подпространства векторов сигнала возбуждения, а также на блок формирования кадра передачи 3. Параметры, характеризующие соответствующий кластер векторов коэффициентов линейного предсказания и сигнала возбуждения, объединяются с коэффициентом усиления в блоке формирования кадра передачи 3. Данный сигнал поступает на блок приема кадра передачи 4, в котором происходит выделение информационной составляющей, описывающей вектор коэффициентов линейного предсказания. Информация о номере необходимого кластера поступает на блок 5, который осуществляет идентификацию вектора сигнала возбуждения для синтезирующего фильтра приемной части вокодера с линейным предсказанием. В блоке синтеза речевого сигнала 6 происходит формирование речевого сигнала по данным о сигнале возбуждения, поступающим от блока 5, коэффициентам линейного предсказания и дополнительным параметрам, поступающим от блока 4, для формирования речевого сигнала.
К достоинствам способа следует отнести тот факт, что отказ от использования статистического усреднения подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта, до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, и переход к формированию подпространств векторов сигналов возбуждения малой мощности дает возможность повысить качественные показатели синтезированной речи при выполнении ограничений на скорость передачи в канале связи.
Для оценки достижения технического результата изобретения использовались методика и соответствующие тестовые фразы, представленные в (ГОСТ Р 51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы испытаний. - М.: Госстандарт России, 1997. - 230 с). Данные фразы в полной мере характеризуют русскую речь и полностью описывают ее статистические и параметрические особенности. Возраст дикторов также выбирался в соответствии с рекомендациями ГОСТ Р 51061-97. Проведенное тестирование показало, что применение предлагаемого технического решения для повышения качества синтезированной речи в вокодерах с линейным предсказанием позволяет улучшить субъективное качество восприятия синтезированной речи в среднем на 0,5 балла. При этом отмечалось улучшение частных показателей разборчивости, естественности ее звучания и узнаваемости говорящего. Также применение предлагаемого способа дает возможность перераспределить информационный ресурс, предоставляемый каналом связи, на формирование дополнительных сервисов абонентского обслуживания, без значительного ухудшения качественных показателей синтезированной речи.
Приведенные технические решения показывают, что изобретение при его осуществлении, способно обеспечить более качественную обработку речевого сигнала за счет учета объективно существующих взаимозависимостей элементов декомпозиции речевого сигнала при реализации вокодеров на основе линейного предсказания.
Claims (1)
- Способ низкоскоростного кодирования и декодирования речевого сигнала, в котором формирование сигнала возбуждения реализуют путем использования параметров синтезирующего фильтра, отличающийся тем, что поиск вектора кандидата сигнала возбуждения осуществляют на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров, описывающих состояние голосового тракта, причем по каналу связи передают индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности сигнала возбуждения, статистически связанный с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015127496A RU2631968C2 (ru) | 2015-07-08 | 2015-07-08 | Способ низкоскоростного кодирования и декодирования речевого сигнала |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015127496A RU2631968C2 (ru) | 2015-07-08 | 2015-07-08 | Способ низкоскоростного кодирования и декодирования речевого сигнала |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2015127496A RU2015127496A (ru) | 2017-01-13 |
RU2631968C2 true RU2631968C2 (ru) | 2017-09-29 |
Family
ID=58449248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2015127496A RU2631968C2 (ru) | 2015-07-08 | 2015-07-08 | Способ низкоскоростного кодирования и декодирования речевого сигнала |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2631968C2 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2801621C1 (ru) * | 2023-04-14 | 2023-08-11 | Общество с ограниченной ответственностью "Специальный Технологический Центр" (ООО "СТЦ") | Способ транскрибирования речи по цифровым сигналам с низкоскоростным кодированием |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
RU2163399C2 (ru) * | 1995-03-22 | 2001-02-20 | Телефонактиеболагет Лм Эрикссон | Речевой кодер с линейным предсказанием и использованием анализа через синтез |
US20010029448A1 (en) * | 1996-11-07 | 2001-10-11 | Matsushita Electric Industrial Co., Ltd. | Excitation vector generator, speech coder and speech decoder |
US20020123888A1 (en) * | 2000-09-15 | 2002-09-05 | Conexant Systems, Inc. | System for an adaptive excitation pattern for speech coding |
US20040024597A1 (en) * | 2002-07-30 | 2004-02-05 | Victor Adut | Regular-pulse excitation speech coder |
RU2495504C1 (ru) * | 2012-06-25 | 2013-10-10 | Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием |
-
2015
- 2015-07-08 RU RU2015127496A patent/RU2631968C2/ru not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2163399C2 (ru) * | 1995-03-22 | 2001-02-20 | Телефонактиеболагет Лм Эрикссон | Речевой кодер с линейным предсказанием и использованием анализа через синтез |
US20010029448A1 (en) * | 1996-11-07 | 2001-10-11 | Matsushita Electric Industrial Co., Ltd. | Excitation vector generator, speech coder and speech decoder |
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
US20020123888A1 (en) * | 2000-09-15 | 2002-09-05 | Conexant Systems, Inc. | System for an adaptive excitation pattern for speech coding |
US20040024597A1 (en) * | 2002-07-30 | 2004-02-05 | Victor Adut | Regular-pulse excitation speech coder |
RU2495504C1 (ru) * | 2012-06-25 | 2013-10-10 | Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2801621C1 (ru) * | 2023-04-14 | 2023-08-11 | Общество с ограниченной ответственностью "Специальный Технологический Центр" (ООО "СТЦ") | Способ транскрибирования речи по цифровым сигналам с низкоскоростным кодированием |
Also Published As
Publication number | Publication date |
---|---|
RU2015127496A (ru) | 2017-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Défossez et al. | High fidelity neural audio compression | |
Zhen et al. | Cascaded cross-module residual learning towards lightweight end-to-end speech coding | |
US20220223161A1 (en) | Audio Decoder, Apparatus for Determining a Set of Values Defining Characteristics of a Filter, Methods for Providing a Decoded Audio Representation, Methods for Determining a Set of Values Defining Characteristics of a Filter and Computer Program | |
JP6860901B2 (ja) | 学習装置、音声合成システムおよび音声合成方法 | |
CN113574597B (zh) | 用于使用声音质量的估计和控制的源分离的装置和方法 | |
AU2014295167A1 (en) | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment | |
JPWO2007088853A1 (ja) | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 | |
Mohammadiha et al. | Nonnegative HMM for babble noise derived from speech HMM: Application to speech enhancement | |
RU2744485C1 (ru) | Ослабление шума в декодере | |
US20050267739A1 (en) | Neuroevolution based artificial bandwidth expansion of telephone band speech | |
KR20240022588A (ko) | 신경망 및 벡터 양자화기를 사용하여 오디오 파형 압축 | |
Fejgin et al. | Source coding of audio signals with a generative model | |
Jiang et al. | Latent-domain predictive neural speech coding | |
EP3293735A1 (en) | Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream | |
RU2631968C2 (ru) | Способ низкоскоростного кодирования и декодирования речевого сигнала | |
RU2495504C1 (ru) | Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием | |
US20150149161A1 (en) | Method and Arrangement for Scalable Low-Complexity Coding/Decoding | |
Yao et al. | Variational speech waveform compression to catalyze semantic communications | |
Lee et al. | KLT-based adaptive entropy-constrained quantization with universal arithmetic coding | |
Bäckström et al. | PyAWNeS-Codec: Speech and audio codec for ad-hoc acoustic wireless sensor networks | |
CN102436822A (zh) | 信号控制装置及其方法 | |
Saveliev et al. | Algorithms for low bit-rate coding with adaptation to statistical characteristics of speech signal | |
US20230186926A1 (en) | Machine learning-based key generation for key-guided audio signal transformation | |
Kırbız et al. | Perceptual coding-based informed source separation | |
Mansali et al. | Speech Localization at Low Bitrates in Wireless Acoustics Sensor Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20171023 |