RU2631968C2

RU2631968C2 - Способ низкоскоростного кодирования и декодирования речевого сигнала

Info

Publication number: RU2631968C2
Application number: RU2015127496A
Authority: RU
Inventors: Андрей Алексеевич Афанасьев; Евгений Сергеевич Коробовский
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2017-09-29
Also published as: RU2015127496A

Abstract

Изобретение относится к области цифровой связи, а именно к технике обработки речи на основе линейного предсказания, и может быть использовано в системах инфокоммуникаций для низкоскоростного кодирования речевых сигналов. Техническим результатом предлагаемого способа является повышение качества синтезированного речевого сигнала в низкоскоростных вокодеров с линейным предсказанием при ограничениях на скорость передачи данных. Технический результат достигается тем, что в вокодере на основе линейного предсказания осуществляется поиск вектора сигнала возбуждения на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности, статистически связанных с исходным вектором параметров, описывающих состояние голосового тракта. По каналу связи передают индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал на каждом квазистационарном сегменте анализа речевого сигнала. 4 ил.

Description

Изобретение относится к области цифровой связи, а именно к технике обработки речи на основе процедуры линейного предсказания и может быть использовано в системах инфокоммуникаций для низкоскоростного кодирования речевых сигналов.

При цифровой обработке речевых сигналов эффективное кодирование речи с целью ее дальнейшей передаче по цифровым каналам связи является одной из основополагающих задач. Ее решение позволяет увеличить пропускную способность линейных трактов и каналов передачи при заданных критериях качества связи. Одним из принципов построения систем обработки и передачи речи выступает повышение качественных показателей синтезированной речи при ограничениях на скорость передачи речевого сигнала.

Большинство известных способов кодирования речевых сигналов основано на методе линейного предсказания с моделью речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). При этом анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.

Известны способы обработки речевых сигналов в вокодерах с линейным предсказанием, основанные на анализе сигнала ошибки линейного предсказания (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 258-276; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С. 365-428; О.И. Шелухин, Н.Ф. Лукьянцев Цифровая обработка и передача речи. - М., Радио и связь, 2000. - С. 102-166).

В устройствах, реализующих данные способы, осуществляется анализ сигнала ошибки линейного предсказания с целью генерации сигналов возбуждения фильтра - синтезатора. Известно, что сигнал остатка предсказания является наилучшим сигналом возбуждения синтезирующего фильтра линейного предсказания. (Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. - М.: Радио и связь, 1984. - С. 172-182). При этом по каналу связи передается информация о коэффициентах формирующей модели и параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал.

Для эффективного представления сигнала возбуждения в таких устройствах используются различные способы снижения информативной избыточности данных последовательностей (патенты US №7289952 от 30.10.2007, US №7233896 от 10.07.2007, US №7133823 от 7.11.2006, US №5963897 от 5.10.1999, US №6757650 от 29.06.2004, RU №2163399 от 22.10.1997, RU №97117357 от 20.02.2001).

Недостатком данных способов является значительное расходование информационного ресурса на представление сигнала возбуждения при его передаче по каналу связи, и, следовательно, относительно высокая скорость передачи данных по каналам связи при эффективном кодировании речи.

Наиболее близким по технической сущности к заявленному изобретению является патент RU №2495504 от 10.10.2013 г., в котором для снижения скорости передачи в вокодерах с линейным предсказанием предлагается формирование сигнала возбуждения на приеме, для чего из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта. Также используются значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по которым при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения, и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Недостатком данного способа является невысокое качество синтезированного речевого сигнала, что объясняется отсутствием при восстановлении оригинального сигнала возбуждения и статистическим усреднением подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, при этом используются алгоритмы обучения нейросети и идентификации вектора сигнала возбуждения, имеющие достаточно высокую вычислительную сложность.

Задачей изобретения является разработка способа низкоскоростного кодирования и декодирования речевого сигнала, позволяющего повысить качество синтезированного речевого сигнала в низкоскоростном вокодере с линейным предсказанием при ограничениях на скорость передачи данных.

Эта задача решается тем, что в способе низкоскоростного кодирования и декодирования речевого сигнала формирование сигнала возбуждения реализуется путем использования параметров синтезирующего фильтра, отличающийся тем, что поиск вектора кандидата сигнала возбуждения осуществляют на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров описывающим состояние голосового тракта. По каналу связи передается индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».

Благодаря новой совокупности существенных признаков системы, обеспечивающих поиск вектора кандидата сигнала возбуждения на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров, описывающим состояние голосового тракта, далее передаче по каналу связи индекса вектора параметров голосового тракта, индекса вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта и соответствующего масштабирующего коэффициента сигнала возбуждения, по которым на приеме синтезируют речевой сигнал, достигается повышение качественных характеристик синтезированного речевого сигнала при выполнении ограничений на скорость передачи данных в канале связи.

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Данный подход дает возможность улучшить качественные показатели синтезированной речи при ограничениях на скорость передачи по сравнению с используемым прототипом, что объясняется увеличением мощности подпространства представления векторов сигнала возбуждения, статистически связанных с вектором параметров голосового тракта.

Данные статистические зависимости объясняются тем, что в стандартах низкоскоростного кодирования речи используется ограниченный порядок анализирующего и синтезирующего фильтров, что определяется возможностью их физической реализации при необходимой и достаточной точности описания передаточной функции голосового тракта человека.

Сущность метода линейного предсказания заключается в том, что выборка речевого сигнала S(n) может быть предсказана линейной комбинацией предшествующих отсчетов этого сигнала:

где S'(n) - предсказанное значение речевого сигнала;

а _i - весовой коэффициент или коэффициент линейного предсказания;

М - число коэффициентов или порядок линейного предсказания,

е(n) - ошибка предсказания.

Возникающая при этом ошибка предсказания находится по линейно-разностному уравнению (2), которое описывает функционирование фильтра анализа модели линейного предсказания:

Задача анализа речевого сигнала методом линейного предсказания заключается в его фильтрации линейной системой с передаточной характеристикой вида:

Обратная ей передаточная функция представляет собой фильтр синтеза и определяется соотношением

Теоретическим основополагающим базисом метода линейного предсказания является авторегрессионная модель, успешно применяемая для решения различных задач цифрового спектрального анализа и предполагающая в общем "идеальном" случае бесконечный порядок формирующей системы при возбуждении ее сигналом в виде дискретного белого гауссовского шума (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 216-224).

Ее идентификация связана с решением системы алгебраических матричных уравнений Юла-Уокера (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 224-227). В классической постановке задачи параметрического цифрового спектрального анализа возбуждение формирующего фильтра осуществляется сигналом u(n), представляющим собой реализации белого шума с математическим ожиданием равным нулю и единичной дисперсией.

Точность идентификации математической модели исследуемого процесса напрямую связана с выбором величины ее порядка M. В качестве критерия настройки модели в предположении о гауссовском законе распределения исходного процесса используется взвешенная среднеквадратическая ошибка e²(n).

где

- вектор оригинального речевого сигнала,

- вектор синтезированного речевого сигнала, N - количество отсчетов на сегменте анализа.

Применительно к задаче предсказания речи повышение порядка передаточных функций фильтров анализа и синтеза приводит к "обелению" сигнала остатка предсказания.

В классической постановке задачи параметрического цифрового спектрального анализа на основе авторегрессионной модели линейное разностное уравнение формирующего фильтра выглядит следующим образом (7):

где y(nT) - выходной сигнал, T - интервал дискретизации, {a _m} - коэффициенты фильтра, M - порядок фильтра. Его амплитудно-частотная характеристика определяется в виде:

а спектральная плотность мощности:

где ω - круговая частота дискретного преобразования Фурье.

Повышение порядка модели в выражениях (1), (2), (3) и (4) приводит к получению более точных оценок относительно анализируемого сигнала

. В идеале e²(n)→0 при М→∞.

Однако на практике при реализации линейного предсказания значение М всегда ограничено, что приводит к возникновению сигнала e(n), являющегося сигналом возбуждения фильтра синтеза модели линейного предсказания. Таким образом, сигнал e(n) уже не является реализациями белого шума с математическим ожиданием равным нулю и единичной дисперсией, а становится квазидетерминированным относительно множества {a _m} и связан с ним соответствующими корреляционными зависимостями.

На фиг. 1 представлена формантная структура речевого сигнала и сигнала остатка линейного предсказания на сегменте предсказания, анализ которого позволяет утверждать о наличии взаимосвязи данных параметров.

На фиг. 2 показано, что при формировании ограниченных множеств параметров голосового тракта

и сигналов возбуждения на основе остатка предсказания в виде кодовых книг данные зависимости вырождаются в соответствующие классы подпространств соответствий между собой и определяют элементы декомпозиции речевого сигнала.

Блок-схема алгоритма функционирования предложенной системы, реализующей способ низкоскоростного кодирования и декодирования речевого сигнала, представлена на фиг. 3.

На практике во многих стандартах низкоскоростного речевого кодирования на основе метода линейного предсказания используется векторное представление параметров, описывающих передаточную функцию голосового тракта

и соответствующего им сигнала возбуждения

, которые находятся с использованием процедуры анализа через синтез. Мощности пространств представлений параметров

и

в общем случае различны и определяются особенностями применения того или иного стандарта. Ограничение порядка фильтров анализа и синтеза и векторный характер пары параметров

, найденной с использованием процедуры анализа через синтез, приводит к возникновению взаимозависимостей между значениями

и

, что дает возможность упростить задачу построения системы обработки речи данного класса.

Присутствие таких зависимостей между элементами декомпозиции речевого сигнала, описывающими передаточную функцию голосового тракта и соответствующего сигнала возбуждения, объясняется особенностями постановки и решения обратной задачи цифрового спектрального анализа при фиксированном порядке формирующего фильтра.

Учет данной зависимости при построении системы обработки речевого сигнала дает возможность существенно уменьшить мощность векторного подпространства представления сигналов возбуждения синтезирующего фильтра, связанного с вектором параметров голосового тракта.

Сущность предлагаемого способа заключается в следующем. При анализе сегмента речевого сигнала на передающей стороне вычисляются вектор параметров, описывающих передаточную функцию голосового тракта и вектор сигнала ошибки линейного предсказания. Данные вектора используют для обучения (построения) кодовой книги векторов параметров голосового тракта и, соответственно, связанных с каждым из векторов кодовой книги параметров голосового тракта подпространств малой размерности сигналов кодовой книги векторов сигналов возбуждения.

Процедуры выделения и анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - С. 425-446). Описание формирования и приема кадра передачи представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Создание кодовых книг для реализации процедуры векторного квантования параметров элементов декомпозиции речевого сигнала при линейном предсказании представлено в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Нахождение статистических взаимосвязей между различными множествами достаточно подробно представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985. - 487 С.). Анализ и синтез речевого сигнала на основе процедуры линейного предсказания подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи - М.: Связь, 1980 - С. 95-126).

Заявленное техническое решение поясняется чертежом (фиг. 4), на котором показана функциональная схема устройства, реализующего способ низкоскоростного кодирования и декодирования речевого сигнала посредством использования взаимозависимости элементов декомпозиции речевого сигнала при линейном предсказании речи.

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены с достижением указанного в изобретении назначения.

Устройство, реализующее данный способ, состоит из блока анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания 1, который соединен с блоком идентификации подпространства векторов сигнала возбуждения 2 и со вторым входом блока формирования кадра передачи 3. Выход блока 2 соединен с первым входом блока 3. На вход блока приема кадра передачи 4 поступает сигнал с выхода блока 3. Сигнал с выхода блока 4 подается на блок формирования сигнала возбуждения 5. Данный блок соединен с блоком синтеза речевого сигнала 6. На другой вход блока 6 поступает сигнал от блока 4.

Процедура анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, выполняемая в блоке 1, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с. 425-446). Нахождение статистических взаимосвязей между различными множествами, применяемая в блоке 2, представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985 - 487 С.). Описание формирования и приема кадра передачи, выполняемые блоками 3 и 4 представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Механизм нахождения вектора сигнала возбуждения в блоке 5 представлен в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Синтез речевого сигнала, осуществляемый в блоке 6, подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 95-126).

Устройство, реализующее заявленный способ, работает следующим образом. Сегмент речевого сигнала поступает на блок 1, в котором происходит его анализ и формирование векторов сигналов ошибки линейного предсказания и коэффициентов линейного предсказания. Выделенные параметры с блока 1 поступают на блок 2, в котором осуществляется идентификация подпространства векторов сигнала возбуждения, а также на блок формирования кадра передачи 3. Параметры, характеризующие соответствующий кластер векторов коэффициентов линейного предсказания и сигнала возбуждения, объединяются с коэффициентом усиления в блоке формирования кадра передачи 3. Данный сигнал поступает на блок приема кадра передачи 4, в котором происходит выделение информационной составляющей, описывающей вектор коэффициентов линейного предсказания. Информация о номере необходимого кластера поступает на блок 5, который осуществляет идентификацию вектора сигнала возбуждения для синтезирующего фильтра приемной части вокодера с линейным предсказанием. В блоке синтеза речевого сигнала 6 происходит формирование речевого сигнала по данным о сигнале возбуждения, поступающим от блока 5, коэффициентам линейного предсказания и дополнительным параметрам, поступающим от блока 4, для формирования речевого сигнала.

К достоинствам способа следует отнести тот факт, что отказ от использования статистического усреднения подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта, до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, и переход к формированию подпространств векторов сигналов возбуждения малой мощности дает возможность повысить качественные показатели синтезированной речи при выполнении ограничений на скорость передачи в канале связи.

Для оценки достижения технического результата изобретения использовались методика и соответствующие тестовые фразы, представленные в (ГОСТ Р 51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы испытаний. - М.: Госстандарт России, 1997. - 230 с). Данные фразы в полной мере характеризуют русскую речь и полностью описывают ее статистические и параметрические особенности. Возраст дикторов также выбирался в соответствии с рекомендациями ГОСТ Р 51061-97. Проведенное тестирование показало, что применение предлагаемого технического решения для повышения качества синтезированной речи в вокодерах с линейным предсказанием позволяет улучшить субъективное качество восприятия синтезированной речи в среднем на 0,5 балла. При этом отмечалось улучшение частных показателей разборчивости, естественности ее звучания и узнаваемости говорящего. Также применение предлагаемого способа дает возможность перераспределить информационный ресурс, предоставляемый каналом связи, на формирование дополнительных сервисов абонентского обслуживания, без значительного ухудшения качественных показателей синтезированной речи.

Приведенные технические решения показывают, что изобретение при его осуществлении, способно обеспечить более качественную обработку речевого сигнала за счет учета объективно существующих взаимозависимостей элементов декомпозиции речевого сигнала при реализации вокодеров на основе линейного предсказания.

Claims

Способ низкоскоростного кодирования и декодирования речевого сигнала, в котором формирование сигнала возбуждения реализуют путем использования параметров синтезирующего фильтра, отличающийся тем, что поиск вектора кандидата сигнала возбуждения осуществляют на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров, описывающих состояние голосового тракта, причем по каналу связи передают индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности сигнала возбуждения, статистически связанный с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал.