RU2631968C2 - Способ низкоскоростного кодирования и декодирования речевого сигнала - Google Patents

Способ низкоскоростного кодирования и декодирования речевого сигнала Download PDF

Info

Publication number
RU2631968C2
RU2631968C2 RU2015127496A RU2015127496A RU2631968C2 RU 2631968 C2 RU2631968 C2 RU 2631968C2 RU 2015127496 A RU2015127496 A RU 2015127496A RU 2015127496 A RU2015127496 A RU 2015127496A RU 2631968 C2 RU2631968 C2 RU 2631968C2
Authority
RU
Russia
Prior art keywords
signal
vector
speech signal
speech
linear prediction
Prior art date
Application number
RU2015127496A
Other languages
English (en)
Other versions
RU2015127496A (ru
Inventor
Андрей Алексеевич Афанасьев
Евгений Сергеевич Коробовский
Original Assignee
Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) filed Critical Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России)
Priority to RU2015127496A priority Critical patent/RU2631968C2/ru
Publication of RU2015127496A publication Critical patent/RU2015127496A/ru
Application granted granted Critical
Publication of RU2631968C2 publication Critical patent/RU2631968C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Изобретение относится к области цифровой связи, а именно к технике обработки речи на основе линейного предсказания, и может быть использовано в системах инфокоммуникаций для низкоскоростного кодирования речевых сигналов. Техническим результатом предлагаемого способа является повышение качества синтезированного речевого сигнала в низкоскоростных вокодеров с линейным предсказанием при ограничениях на скорость передачи данных. Технический результат достигается тем, что в вокодере на основе линейного предсказания осуществляется поиск вектора сигнала возбуждения на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности, статистически связанных с исходным вектором параметров, описывающих состояние голосового тракта. По каналу связи передают индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал на каждом квазистационарном сегменте анализа речевого сигнала. 4 ил.

Description

Изобретение относится к области цифровой связи, а именно к технике обработки речи на основе процедуры линейного предсказания и может быть использовано в системах инфокоммуникаций для низкоскоростного кодирования речевых сигналов.
При цифровой обработке речевых сигналов эффективное кодирование речи с целью ее дальнейшей передаче по цифровым каналам связи является одной из основополагающих задач. Ее решение позволяет увеличить пропускную способность линейных трактов и каналов передачи при заданных критериях качества связи. Одним из принципов построения систем обработки и передачи речи выступает повышение качественных показателей синтезированной речи при ограничениях на скорость передачи речевого сигнала.
Большинство известных способов кодирования речевых сигналов основано на методе линейного предсказания с моделью речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). При этом анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.
Известны способы обработки речевых сигналов в вокодерах с линейным предсказанием, основанные на анализе сигнала ошибки линейного предсказания (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 258-276; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С. 365-428; О.И. Шелухин, Н.Ф. Лукьянцев Цифровая обработка и передача речи. - М., Радио и связь, 2000. - С. 102-166).
В устройствах, реализующих данные способы, осуществляется анализ сигнала ошибки линейного предсказания с целью генерации сигналов возбуждения фильтра - синтезатора. Известно, что сигнал остатка предсказания является наилучшим сигналом возбуждения синтезирующего фильтра линейного предсказания. (Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. - М.: Радио и связь, 1984. - С. 172-182). При этом по каналу связи передается информация о коэффициентах формирующей модели и параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал.
Для эффективного представления сигнала возбуждения в таких устройствах используются различные способы снижения информативной избыточности данных последовательностей (патенты US №7289952 от 30.10.2007, US №7233896 от 10.07.2007, US №7133823 от 7.11.2006, US №5963897 от 5.10.1999, US №6757650 от 29.06.2004, RU №2163399 от 22.10.1997, RU №97117357 от 20.02.2001).
Недостатком данных способов является значительное расходование информационного ресурса на представление сигнала возбуждения при его передаче по каналу связи, и, следовательно, относительно высокая скорость передачи данных по каналам связи при эффективном кодировании речи.
Наиболее близким по технической сущности к заявленному изобретению является патент RU №2495504 от 10.10.2013 г., в котором для снижения скорости передачи в вокодерах с линейным предсказанием предлагается формирование сигнала возбуждения на приеме, для чего из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта. Также используются значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по которым при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения, и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.
Недостатком данного способа является невысокое качество синтезированного речевого сигнала, что объясняется отсутствием при восстановлении оригинального сигнала возбуждения и статистическим усреднением подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, при этом используются алгоритмы обучения нейросети и идентификации вектора сигнала возбуждения, имеющие достаточно высокую вычислительную сложность.
Задачей изобретения является разработка способа низкоскоростного кодирования и декодирования речевого сигнала, позволяющего повысить качество синтезированного речевого сигнала в низкоскоростном вокодере с линейным предсказанием при ограничениях на скорость передачи данных.
Эта задача решается тем, что в способе низкоскоростного кодирования и декодирования речевого сигнала формирование сигнала возбуждения реализуется путем использования параметров синтезирующего фильтра, отличающийся тем, что поиск вектора кандидата сигнала возбуждения осуществляют на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров описывающим состояние голосового тракта. По каналу связи передается индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».
Благодаря новой совокупности существенных признаков системы, обеспечивающих поиск вектора кандидата сигнала возбуждения на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров, описывающим состояние голосового тракта, далее передаче по каналу связи индекса вектора параметров голосового тракта, индекса вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта и соответствующего масштабирующего коэффициента сигнала возбуждения, по которым на приеме синтезируют речевой сигнал, достигается повышение качественных характеристик синтезированного речевого сигнала при выполнении ограничений на скорость передачи данных в канале связи.
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
Данный подход дает возможность улучшить качественные показатели синтезированной речи при ограничениях на скорость передачи по сравнению с используемым прототипом, что объясняется увеличением мощности подпространства представления векторов сигнала возбуждения, статистически связанных с вектором параметров голосового тракта.
Данные статистические зависимости объясняются тем, что в стандартах низкоскоростного кодирования речи используется ограниченный порядок анализирующего и синтезирующего фильтров, что определяется возможностью их физической реализации при необходимой и достаточной точности описания передаточной функции голосового тракта человека.
Сущность метода линейного предсказания заключается в том, что выборка речевого сигнала S(n) может быть предсказана линейной комбинацией предшествующих отсчетов этого сигнала:
Figure 00000001
где S'(n) - предсказанное значение речевого сигнала;
а i - весовой коэффициент или коэффициент линейного предсказания;
М - число коэффициентов или порядок линейного предсказания,
е(n) - ошибка предсказания.
Возникающая при этом ошибка предсказания находится по линейно-разностному уравнению (2), которое описывает функционирование фильтра анализа модели линейного предсказания:
Figure 00000002
Задача анализа речевого сигнала методом линейного предсказания заключается в его фильтрации линейной системой с передаточной характеристикой вида:
Figure 00000003
Обратная ей передаточная функция представляет собой фильтр синтеза и определяется соотношением
Figure 00000004
Теоретическим основополагающим базисом метода линейного предсказания является авторегрессионная модель, успешно применяемая для решения различных задач цифрового спектрального анализа и предполагающая в общем "идеальном" случае бесконечный порядок формирующей системы при возбуждении ее сигналом в виде дискретного белого гауссовского шума (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 216-224).
Ее идентификация связана с решением системы алгебраических матричных уравнений Юла-Уокера (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 224-227). В классической постановке задачи параметрического цифрового спектрального анализа возбуждение формирующего фильтра осуществляется сигналом u(n), представляющим собой реализации белого шума с математическим ожиданием равным нулю и единичной дисперсией.
Figure 00000005
Точность идентификации математической модели исследуемого процесса напрямую связана с выбором величины ее порядка M. В качестве критерия настройки модели в предположении о гауссовском законе распределения исходного процесса используется взвешенная среднеквадратическая ошибка e2(n).
Figure 00000006
где
Figure 00000007
- вектор оригинального речевого сигнала,
Figure 00000008
- вектор синтезированного речевого сигнала, N - количество отсчетов на сегменте анализа.
Применительно к задаче предсказания речи повышение порядка передаточных функций фильтров анализа и синтеза приводит к "обелению" сигнала остатка предсказания.
В классической постановке задачи параметрического цифрового спектрального анализа на основе авторегрессионной модели линейное разностное уравнение формирующего фильтра выглядит следующим образом (7):
Figure 00000009
где y(nT) - выходной сигнал, T - интервал дискретизации, {a m} - коэффициенты фильтра, M - порядок фильтра. Его амплитудно-частотная характеристика определяется в виде:
Figure 00000010
а спектральная плотность мощности:
Figure 00000011
где ω - круговая частота дискретного преобразования Фурье.
Повышение порядка модели в выражениях (1), (2), (3) и (4) приводит к получению более точных оценок относительно анализируемого сигнала
Figure 00000012
. В идеале e2(n)→0 при М→∞.
Однако на практике при реализации линейного предсказания значение М всегда ограничено, что приводит к возникновению сигнала e(n), являющегося сигналом возбуждения фильтра синтеза модели линейного предсказания. Таким образом, сигнал e(n) уже не является реализациями белого шума с математическим ожиданием равным нулю и единичной дисперсией, а становится квазидетерминированным относительно множества {a m} и связан с ним соответствующими корреляционными зависимостями.
На фиг. 1 представлена формантная структура речевого сигнала и сигнала остатка линейного предсказания на сегменте предсказания, анализ которого позволяет утверждать о наличии взаимосвязи данных параметров.
На фиг. 2 показано, что при формировании ограниченных множеств параметров голосового тракта
Figure 00000013
и сигналов возбуждения на основе остатка предсказания в виде кодовых книг данные зависимости вырождаются в соответствующие классы подпространств соответствий между собой и определяют элементы декомпозиции речевого сигнала.
Блок-схема алгоритма функционирования предложенной системы, реализующей способ низкоскоростного кодирования и декодирования речевого сигнала, представлена на фиг. 3.
На практике во многих стандартах низкоскоростного речевого кодирования на основе метода линейного предсказания используется векторное представление параметров, описывающих передаточную функцию голосового тракта
Figure 00000014
и соответствующего им сигнала возбуждения
Figure 00000015
, которые находятся с использованием процедуры анализа через синтез. Мощности пространств представлений параметров
Figure 00000016
и
Figure 00000017
в общем случае различны и определяются особенностями применения того или иного стандарта. Ограничение порядка фильтров анализа и синтеза и векторный характер пары параметров
Figure 00000018
, найденной с использованием процедуры анализа через синтез, приводит к возникновению взаимозависимостей между значениями
Figure 00000019
и
Figure 00000020
, что дает возможность упростить задачу построения системы обработки речи данного класса.
Присутствие таких зависимостей между элементами декомпозиции речевого сигнала, описывающими передаточную функцию голосового тракта и соответствующего сигнала возбуждения, объясняется особенностями постановки и решения обратной задачи цифрового спектрального анализа при фиксированном порядке формирующего фильтра.
Учет данной зависимости при построении системы обработки речевого сигнала дает возможность существенно уменьшить мощность векторного подпространства представления сигналов возбуждения синтезирующего фильтра, связанного с вектором параметров голосового тракта.
Сущность предлагаемого способа заключается в следующем. При анализе сегмента речевого сигнала на передающей стороне вычисляются вектор параметров, описывающих передаточную функцию голосового тракта и вектор сигнала ошибки линейного предсказания. Данные вектора используют для обучения (построения) кодовой книги векторов параметров голосового тракта и, соответственно, связанных с каждым из векторов кодовой книги параметров голосового тракта подпространств малой размерности сигналов кодовой книги векторов сигналов возбуждения.
Процедуры выделения и анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - С. 425-446). Описание формирования и приема кадра передачи представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Создание кодовых книг для реализации процедуры векторного квантования параметров элементов декомпозиции речевого сигнала при линейном предсказании представлено в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Нахождение статистических взаимосвязей между различными множествами достаточно подробно представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985. - 487 С.). Анализ и синтез речевого сигнала на основе процедуры линейного предсказания подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи - М.: Связь, 1980 - С. 95-126).
Заявленное техническое решение поясняется чертежом (фиг. 4), на котором показана функциональная схема устройства, реализующего способ низкоскоростного кодирования и декодирования речевого сигнала посредством использования взаимозависимости элементов декомпозиции речевого сигнала при линейном предсказании речи.
Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены с достижением указанного в изобретении назначения.
Устройство, реализующее данный способ, состоит из блока анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания 1, который соединен с блоком идентификации подпространства векторов сигнала возбуждения 2 и со вторым входом блока формирования кадра передачи 3. Выход блока 2 соединен с первым входом блока 3. На вход блока приема кадра передачи 4 поступает сигнал с выхода блока 3. Сигнал с выхода блока 4 подается на блок формирования сигнала возбуждения 5. Данный блок соединен с блоком синтеза речевого сигнала 6. На другой вход блока 6 поступает сигнал от блока 4.
Процедура анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, выполняемая в блоке 1, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с. 425-446). Нахождение статистических взаимосвязей между различными множествами, применяемая в блоке 2, представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985 - 487 С.). Описание формирования и приема кадра передачи, выполняемые блоками 3 и 4 представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Механизм нахождения вектора сигнала возбуждения в блоке 5 представлен в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Синтез речевого сигнала, осуществляемый в блоке 6, подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 95-126).
Устройство, реализующее заявленный способ, работает следующим образом. Сегмент речевого сигнала поступает на блок 1, в котором происходит его анализ и формирование векторов сигналов ошибки линейного предсказания и коэффициентов линейного предсказания. Выделенные параметры с блока 1 поступают на блок 2, в котором осуществляется идентификация подпространства векторов сигнала возбуждения, а также на блок формирования кадра передачи 3. Параметры, характеризующие соответствующий кластер векторов коэффициентов линейного предсказания и сигнала возбуждения, объединяются с коэффициентом усиления в блоке формирования кадра передачи 3. Данный сигнал поступает на блок приема кадра передачи 4, в котором происходит выделение информационной составляющей, описывающей вектор коэффициентов линейного предсказания. Информация о номере необходимого кластера поступает на блок 5, который осуществляет идентификацию вектора сигнала возбуждения для синтезирующего фильтра приемной части вокодера с линейным предсказанием. В блоке синтеза речевого сигнала 6 происходит формирование речевого сигнала по данным о сигнале возбуждения, поступающим от блока 5, коэффициентам линейного предсказания и дополнительным параметрам, поступающим от блока 4, для формирования речевого сигнала.
К достоинствам способа следует отнести тот факт, что отказ от использования статистического усреднения подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта, до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, и переход к формированию подпространств векторов сигналов возбуждения малой мощности дает возможность повысить качественные показатели синтезированной речи при выполнении ограничений на скорость передачи в канале связи.
Для оценки достижения технического результата изобретения использовались методика и соответствующие тестовые фразы, представленные в (ГОСТ Р 51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы испытаний. - М.: Госстандарт России, 1997. - 230 с). Данные фразы в полной мере характеризуют русскую речь и полностью описывают ее статистические и параметрические особенности. Возраст дикторов также выбирался в соответствии с рекомендациями ГОСТ Р 51061-97. Проведенное тестирование показало, что применение предлагаемого технического решения для повышения качества синтезированной речи в вокодерах с линейным предсказанием позволяет улучшить субъективное качество восприятия синтезированной речи в среднем на 0,5 балла. При этом отмечалось улучшение частных показателей разборчивости, естественности ее звучания и узнаваемости говорящего. Также применение предлагаемого способа дает возможность перераспределить информационный ресурс, предоставляемый каналом связи, на формирование дополнительных сервисов абонентского обслуживания, без значительного ухудшения качественных показателей синтезированной речи.
Приведенные технические решения показывают, что изобретение при его осуществлении, способно обеспечить более качественную обработку речевого сигнала за счет учета объективно существующих взаимозависимостей элементов декомпозиции речевого сигнала при реализации вокодеров на основе линейного предсказания.

Claims (1)

  1. Способ низкоскоростного кодирования и декодирования речевого сигнала, в котором формирование сигнала возбуждения реализуют путем использования параметров синтезирующего фильтра, отличающийся тем, что поиск вектора кандидата сигнала возбуждения осуществляют на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров, описывающих состояние голосового тракта, причем по каналу связи передают индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности сигнала возбуждения, статистически связанный с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал.
RU2015127496A 2015-07-08 2015-07-08 Способ низкоскоростного кодирования и декодирования речевого сигнала RU2631968C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015127496A RU2631968C2 (ru) 2015-07-08 2015-07-08 Способ низкоскоростного кодирования и декодирования речевого сигнала

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015127496A RU2631968C2 (ru) 2015-07-08 2015-07-08 Способ низкоскоростного кодирования и декодирования речевого сигнала

Publications (2)

Publication Number Publication Date
RU2015127496A RU2015127496A (ru) 2017-01-13
RU2631968C2 true RU2631968C2 (ru) 2017-09-29

Family

ID=58449248

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015127496A RU2631968C2 (ru) 2015-07-08 2015-07-08 Способ низкоскоростного кодирования и декодирования речевого сигнала

Country Status (1)

Country Link
RU (1) RU2631968C2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2801621C1 (ru) * 2023-04-14 2023-08-11 Общество с ограниченной ответственностью "Специальный Технологический Центр" (ООО "СТЦ") Способ транскрибирования речи по цифровым сигналам с низкоскоростным кодированием

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
RU2163399C2 (ru) * 1995-03-22 2001-02-20 Телефонактиеболагет Лм Эрикссон Речевой кодер с линейным предсказанием и использованием анализа через синтез
US20010029448A1 (en) * 1996-11-07 2001-10-11 Matsushita Electric Industrial Co., Ltd. Excitation vector generator, speech coder and speech decoder
US20020123888A1 (en) * 2000-09-15 2002-09-05 Conexant Systems, Inc. System for an adaptive excitation pattern for speech coding
US20040024597A1 (en) * 2002-07-30 2004-02-05 Victor Adut Regular-pulse excitation speech coder
RU2495504C1 (ru) * 2012-06-25 2013-10-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2163399C2 (ru) * 1995-03-22 2001-02-20 Телефонактиеболагет Лм Эрикссон Речевой кодер с линейным предсказанием и использованием анализа через синтез
US20010029448A1 (en) * 1996-11-07 2001-10-11 Matsushita Electric Industrial Co., Ltd. Excitation vector generator, speech coder and speech decoder
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
US20020123888A1 (en) * 2000-09-15 2002-09-05 Conexant Systems, Inc. System for an adaptive excitation pattern for speech coding
US20040024597A1 (en) * 2002-07-30 2004-02-05 Victor Adut Regular-pulse excitation speech coder
RU2495504C1 (ru) * 2012-06-25 2013-10-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2801621C1 (ru) * 2023-04-14 2023-08-11 Общество с ограниченной ответственностью "Специальный Технологический Центр" (ООО "СТЦ") Способ транскрибирования речи по цифровым сигналам с низкоскоростным кодированием

Also Published As

Publication number Publication date
RU2015127496A (ru) 2017-01-13

Similar Documents

Publication Publication Date Title
Défossez et al. High fidelity neural audio compression
Zhen et al. Cascaded cross-module residual learning towards lightweight end-to-end speech coding
US20220223161A1 (en) Audio Decoder, Apparatus for Determining a Set of Values Defining Characteristics of a Filter, Methods for Providing a Decoded Audio Representation, Methods for Determining a Set of Values Defining Characteristics of a Filter and Computer Program
JP6860901B2 (ja) 学習装置、音声合成システムおよび音声合成方法
CN113574597B (zh) 用于使用声音质量的估计和控制的源分离的装置和方法
AU2014295167A1 (en) In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
JPWO2007088853A1 (ja) 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
Mohammadiha et al. Nonnegative HMM for babble noise derived from speech HMM: Application to speech enhancement
RU2744485C1 (ru) Ослабление шума в декодере
US20050267739A1 (en) Neuroevolution based artificial bandwidth expansion of telephone band speech
KR20240022588A (ko) 신경망 및 벡터 양자화기를 사용하여 오디오 파형 압축
Fejgin et al. Source coding of audio signals with a generative model
Jiang et al. Latent-domain predictive neural speech coding
EP3293735A1 (en) Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
RU2631968C2 (ru) Способ низкоскоростного кодирования и декодирования речевого сигнала
RU2495504C1 (ru) Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием
US20150149161A1 (en) Method and Arrangement for Scalable Low-Complexity Coding/Decoding
Yao et al. Variational speech waveform compression to catalyze semantic communications
Lee et al. KLT-based adaptive entropy-constrained quantization with universal arithmetic coding
Bäckström et al. PyAWNeS-Codec: Speech and audio codec for ad-hoc acoustic wireless sensor networks
CN102436822A (zh) 信号控制装置及其方法
Saveliev et al. Algorithms for low bit-rate coding with adaptation to statistical characteristics of speech signal
US20230186926A1 (en) Machine learning-based key generation for key-guided audio signal transformation
Kırbız et al. Perceptual coding-based informed source separation
Mansali et al. Speech Localization at Low Bitrates in Wireless Acoustics Sensor Networks

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20171023