RU2121719C1

RU2121719C1 - Способ и устройство ослабления шума в речевом сигнале

Info

Publication number: RU2121719C1
Application number: RU96102854/09A
Authority: RU
Inventors: Чэн Джозеф (US); Чэн Джозеф; Нисигути Масаюки (JP); Нисигути Масаюки
Original assignee: Сони Корпорейшн
Priority date: 1995-02-17
Filing date: 1996-02-16
Publication date: 1998-11-10
Also published as: TR199600131A2; CN1141548A; AU695585B2; SG52257A1; CN1083183C; AU4444596A; US5752226A; JPH08221094A; EP0727768B1; ATE201276T1; CA2169422A1; DE69612770D1; DE69612770T2; JP3453898B2; KR960032293A; TW291556B; CA2169422C; BR9600762A; ES2158992T3; PL312846A1

Abstract

Способ и устройство ослабления шума в речевом сигнале, способные подавлять шум во входном сигнале и упрощающие процесс обработки. Устройство включает блок быстрого преобразования Фурье 3 для преобразования входного речевого сигнала в сигнал в частной области и блок вычисления величины И 7 для регулирования характеристик фильтров с целью фильтрации, используемой для устранения шума из входного речевого сигнала. Устройство также включает блок коррекции спектра 10 для ослабления входного речевого сигнала посредством фильтрации в соответствии с характеристиками фильтра, получаемыми с помощью блока вычисления значения Нп 7. Блок вычисления значения Нп 7 вычисляет значение Нп в соответствии с величиной, получаемой исходя покадрового максимального отношения "сигнал - шум" (SN) спектра входного сигнала, получаемого посредством блока быстрого преобразования Фурье 3, и приблизительной оценки уровня шума и управляет процессом устранения шума в блоке коррекции спектра 10 в соответствии со значением Нп. 2 с. и 9 з.п. ф-лы, 10 ил., 2 табл.

Description

Уровень техники
Данное изобретение относится к способу и устройству для устранения шума, содержащегося в речевом сигнале, и предназначено для подавления или ослабления содержащегося в речевом сигнале шума.

В области переносных телефонных аппаратов либо распознавания речи чувствуется потребность в подавлении шумов, таких как фоновый шум или шум от оборудования, содержащийся в принимаемом речевом сигнале, для выделения его речевых составляющих. Способ, использующий функцию условной вероятности для настройки коэффициента затухания, как способ выделения речевого сигнала, или ослабления шума, раскрыт в работе "R.J.Mc. Aulay и M.L.Maplass'Speech Enchancement Using a Soft Decision noise Supression Filter", опубликованной в IEEE Trans. Acoust., Speech Signal Processing, Vol. 28, pp. 137 to 145, April 1980.

При использовании вышеупомянутого способа шумоподавления части оказывается, что образуется неспонтанный звуковой тон или искаженный речевой сигнал из-за неподходящего подавляющего фильтра или функционирования, основного на неправильно зафиксированном отношении "сигнал - шум" (SNR). Для пользователя нежелательна необходимость регулирования SNR, как одного из параметров устройства шумоподавления, для оптимизации характеристик функционирования в процессе реальной эксплуатации. В добавок трудно с помощью известной техники повышения качества речевого сигнала исключить шумы, практически не генерируя искажения в речевом сигнале, чувствительном к значительному изменению SNR на коротком отрезке времени.

Такой способ повышения качества речевого сигнала или ослабления помех использует технику различения шумового интервала путем сравнения входной мощности или уровня сигнала с заранее установленным пороговым значением. Однако, если при использовании этого способа, препятствующего посредством порогового значения приему речевого сигнала, постоянная времени пороговой величины увеличилась, то изменяющийся уровень шума, не сможет быть отслежен, что время от времени будет приводить к ошибочному различению (шума).

Для преодоления этого недостатка авторы настоящего изобретения предложили в патентной заявке Японии Hei-6-99869 (1994) способ ослабления шума для уменьшения шума в речевом сигнале.

Согласно этому способу ослабления шума для речевого сигнала подавления шума достигается посредством адаптивного управления фильтром максимальной вероятности, сконструированном для вычисления речевой составляющей на основе SNR, получаемого из входного речевого сигнала, и вероятности присутствия речевого сигнала. В этом способе при расчете вероятности присутствия речевого сигнала используется сигнал, соответствующий спектру входного речевого сигнала, за вычетом спектра шума, полученного по оценке.

При использовании этого способа ослабления шума для речевого сигнала, поскольку фильтр максимальной вероятности настраивается как фильтр оптимального подавления в зависимости от SNR входного речевого сигнала, может быть достигнуто существенное ослабление шума для входного речевого сигнала.

Однако, поскольку для вычисления вероятности присутствия речевого сигнала требуются сложные и трудоемкие операции обработки, желательно такие операции по обработке упростить.

Кроме того, имеет место тенденция подавления согласных звуков во входном речевом сигнале, в частности, согласных звуков, присутствующих в фоновом шуме во входных речевых сигналах. Таким образом, желательно не производить подавление согласных составляющих.

Сущность изобретения
Таким образом целью настоящего изобретения является создание способа ослабления шума для входного речевого сигнала, в результате чего могут быть упрощены операции обработки для выполнения шумоподавления во входном речевом сигнале, а согласные составляющие могут быть защищены от подавления.

Согласно одному аспекту настоящего изобретения оно обеспечивает способ ослабления шума во входном речевом сигнале с целью шумоподавления, включающий шаги: обнаружения согласованной составляющей, содержащейся во входном речевом сигнале, и управляемого подавления степени затухания сигнала во время устранения шума из входного речевого сигнала в соответствии с результатами обнаружения согласной составляющей, полученными на шаге обнаружения согласной составляющей.

Согласно другому аспекту настоящего изобретения оно обеспечивает устройство для ослабления шума во входном речевом сигнале с целью шумоподавления, так что степень ослабления шума является переменной величиной, зависящей от управляющего сигнала; средство для обнаружения согласной составляющей, содержащейся во входном речевом сигнале, и средство для управляемого подавления степени ослабления шума в соответствии с результатами обнаружения согласной составляющей, полученными на шаге обнаружения согласной составляющей.

При использовании способа ослабления шума и устройства для его реализации согласно настоящему изобретению, поскольку во входном сигнале ищется согласная составляющая и, при обнаружении согласованного звука, шум из входного речевого сигнала устраняется таким образом, что при этом подавляется степень ослабления шума, то становится возможным устранить согласную составляющую во время шумоподавления и избежать искажения согласной составляющей. Кроме того, поскольку входной речевой сигнал преобразуется в сигналы в частотной области, так что только критичные спектральные компоненты, содержащиеся во входном речевом сигнале, могут быть взяты для выполнения обработки с целью шумоподавления, становится возможным уменьшить объем операций обработки.

При использовании способа ослабления шума и устройства для его реализации для речевых сигналов согласные звуки могут быть обнаружены с использованием, по меньшей мере, одного из обнаруженных значений изменения энергии на коротком интервале входного речевого сигнала, величины, показывающей распределение частотных составляющих во входном речевом сигнале, и количества переходов через нуль в указанном входном речевом сигнале. При обнаружении согласного звука шум из входного речевого сигнала устраняется таким образом, что подавляется степень ослабления шума, так что становится возможным устранить согласную составляющую во время шумоподавления и избежать искажения согласной составляющей, а также уменьшить объем операций по обработке, необходимых для шумоподавления.

Кроме того, при использовании способа ослабления шума и устройства для его реализации согласно настоящему изобретению, поскольку характеристики фильтра для фильтрации с целью удаления шума из входного речевого сигнала могут регулироваться с использованием первой и второй величин в соответствии с результатом обнаружения согласной составляющей, становится возможным убрать шум из входного речевого сигнала путем фильтрации в соответствии с максимальным значением SNR входного речевого сигнала, и в то же время становится возможным устранить согласную составляющую во время шумоподавления и избежать искажения согласной составляющей, а также уменьшить объем операций по обработке, необходимых для шумоподавления.

Краткое описание чертежей
Фиг. 1 - блок-схема варианта реализации устройства ослабления шума согласно настоящему изобретению.

Фиг. 2 - блок-схема, демонстрирующая реализацию способа ослабления шума для уменьшения шума в речевом сигнале согласно настоящему изобретению.

Фиг. 3 - конкретный пример распределения энергии E[k] и энергии затухания Edecay[k] для варианта реализации по фиг. 1.

Фиг. 4 - конкретные примеры распределения среднеквадратического значения RMS[R], величины оценки минимального значения уровня шума Min RMS[K] и максимального значения Max RMS[K] для варианта по фиг. 1.

фиг. 5 - конкретные примеры распределения относительной энергии brel[K], максимального SNR Max SNR[K] в Дб, максимального SNR Max SNR K и значения dBthrestel [K] как одной из пороговых величин для различения шума для варианта реализации, показанного на фиг. 1.

Фиг. 6 - график NR-level[K] в функции максимума SNR Max SNR [K] для варианта, показанного на фиг. 1.

Фиг. 7 - связь между NR[w,K] и максимальной степенью ослабления шума в Дб для варианта, показанного на фиг. 1.

Фиг. 8 - способ нахождения величины, характеризующей распределение частотных полос спектра входного сигнала для варианта, показанного на фиг. 1.

Фиг. 9 - блок-схема модифицированного варианта устройства ослабления шума для ослабления шума в речевом сигнале согласно настоящему изобретению.

Фиг. 10 - график, описывающий преимущество настоящего изобретения.

Подробное описание предпочтительных вариантов реализации
Обратимся к чертежам, со ссылкой на которые будут подробно объяснены способ и устройство для ослабления шума в речевом сигнале согласно настоящему изобретению.

На фиг. 1 показан вариант реализации устройства ослабления шума для уменьшения шума в речевом сигнале согласно настоящему изобретению.

Устройство ослабления шума для речевых сигналов включает блок коррекции спектра 10 в качестве блока для устранения шума из входного речевого сигнала, для подавления шума со степенью ослабления шума, зависящей от управляющего сигнала. Устройство ослабления шума для речевых сигналов также включает блок обнаружения согласных звуков 41, в качестве средства обнаружения согласных составляющих, для обнаружения согласной составляющей во входном речевом сигнале и блок расчета значения Hn 7 в качестве средства управления для подавления степени ослабления шума в соответствии с результатами обнаружения согласного звука, выполняемого средством обнаружения согласной составляющей.

Устройство ослабления шума для речевых сигналов, кроме того, включает блок быстрого преобразования Фурье 3 в качестве преобразователя для преобразования входного сигнала речевого в сигнал в частотной области.

Входной речевой сигнал y t, подаваемый на входной терминал для речевого сигнала 13 устройства ослабления шума, поступает в блок кадрирования 1. Кадрированный сигнал y - framej, K, выводимый блоком кадрирования 1, подается в блок взвешивания с помощью финитной функции 2, блок вычисления среднеквадратического значения (RMS) 21, находящийся внутри блока оценки шума 5, и в блок фильтрации 8.

Выход блока взвешивания с помощью финитной функции 2 подается в блок быстрого преобразования Фурье 3, выходной сигнал которого подается как в блок коррекции спектра 10, так и в блок расщепления полосы пропускания 4.

Выходной сигнал блока расщепления полосы пропускания 4 подается в блок коррекции спектра 10, блок оценки спектра шума 26, находящийся внутри блока оценки шума 5, блок вычисления значения Hn7 и в блок определения прохождения через нуль 42 и блок обнаружения тонального сигнала 43, находящийся в блоке обнаружения согласного звука 41. Выходной сигнал блока коррекции спектра 10 подается на выходной терминал речевого сигнала 14 через блок быстрого преобразования Фурье 11 и блок наложения и суммирования 12.

Выходной сигнал блока вычисления RMS 21 подается в блок вычисления относительной энергии, блок вычисления максимального значения RMS 23, блок вычисления оценки уровня шума 24, блок оценки спектра шума 26, блок обнаружения ближайшего речевого кадра 44 и блок обнаружения согласной составляющей 45, находящийся в блоке обнаружения согласного звука 41. Выходной сигнал блока вычисления максимального значения RMS 23 подается в блок вычисления оценки уровня шума 24 и в блок вычисления максимального значения SNR 25. Выходной сигнал блока вычисления относительной энергии 22 подается в блок оценки шума 26. Выходной сигнал блока вычисления оценки уровня шума 24 подается в блок фильтрации 8, блок вычисления максимального значения SNR 25, блок оценки спектра шума 26 и в блок вычисления значения NR 6. Выходной сигнал блока вычисления максимального значения SNR 25 подается в блок вычисления значения NR 6 и в блок оценки спектра шума 26, выходной сигнал которого подается в блок вычисления значения Hn 7.

Выходной сигнал блока вычисления значения NR 6 снова подается в блок вычисления значения NR 6, и одновременно подается в блок вычисления значения NR 2 46.

Выходной сигнал блока обнаружения переходов через нуль 42 подается в блок обнаружения ближайшего речевого кадра 44 и в блок обнаружения согласной составляющей 45. Выходной сигнал блока обнаружения тонального сигнала 43 подается в блок обнаружения согласной составляющей 45. Выходной сигнал блока определения согласной составляющей 45 подается в блок вычисления значения NR 2 46.

Выходной сигнал блока вычисления значения NR 2 46 подается в блок вычисления значения Hn 7.

Выходной сигнал блока вычисления значения Hn 7 подается в блок коррекции спектра 10 через блок фильтрации 8 и блок преобразования полосы частот 9.

Далее объясняется функционирование первого варианта устройства ослабления шума для речевых сигналов. В последующем описании номера шагов блок-схемы на фиг. 2, демонстрирующие работу различных блоков устройства ослабления шума, указаны в скобках.

На входной терминал речевого сигнала 13 подается входной речевой сигнал y{ t} , содержащий речевую составляющую и составляющую шума. Входной речевой сигнал y{ t} , представляющий собой отсчет цифрового сигнала, например, при частоте дискретизации FS, подается в блок кадрирования 1, где он расщепляется на множество кадров, каждый из которых имеет длину FL отсчетов. Расщепленный таким образом входной речевой сигнал y{t} подвергается затем покадровой обработке. Кадровый интервал, который представляет собой место, занимаемое кадром по оси времени, содержит FI отсчетов, так, что (K+1)-й кадр начинается после FI отсчетов от K-го кадра. Для примера частоты дискретизации и количества отсчетов; если взять частоту дискретизации FS 8 кГц, то кадровому интервалу FI из 80 отсчетов соответствует 10 мс, в то время как длина кадра FL из 160 отсчетов соответствует 20 мс.

Перед вычислением ортогонального преобразования с помощью блока быстрого преобразования Фурье 3 блок взвешивания с помощью финитной функции 2 умножает каждый кадрированный сигнал y-framej,K из блока кадрирования 1 на взвешивающую финитную функцию Winput. Как будет объяснено в последствии, при обратном быстром преобразовании Фурье (IFFI), выполняемом на конечном этапе процесса покадровой обработки сигнала, выходной сигнал умножается на взвешивающую финитную функцию Woutput. Взвешивающие финитные функции Winput и Woutput могут быть соответственно представлены следующими уравнениями (1) и (2):

Блок быстрого преобразования Фурье 3 выполняет затем операции быстрого преобразования Фурье по 256 точкам для получения амплитудных значений частотного спектра, которые затем расщепляются блоком расщепления полосы частот 4, например, на 18 полос. Как пример, частотные диапазоны этих полос показаны в таблице 1.

Значения амплитуд частотных полос, получившихся в результате расщепления частотного спектра, представляют собой амплитуды y[w,K] спектра входного сигнала, которые выводятся в соответствующие блоки, как было объяснено ранее.

Рассмотренные выше частотные диапазоны основаны на том факте, что, чем выше частота, тем меньшей становится разрешающая способность слухового восприятия человека. В качестве амплитуд соответствующих полос используются максимальные значения амплитуд FFT (быстрого преобразования Фурье) в подходящих частотных диапазонах.

В блоке оценки шума 5 из речевого сигнала выделяется шум кадрированного сигнала y-framej, K и выявляется кадр, предпочтительно являющийся шумом, в то время как приближенная оценка уровня шума и максимальное значение SNR подаются в блок вычисления значения NR 6. Оценка шумового интервала или обнаружение шумового кадра выполняется с помощью комбинации, например, из трех операций обнаружения. Теперь рассмотрим пример оценки шумового интервала.

Блок вычисления RMS 21 рассчитывает значения RMS сигналов на каждом кадре и выдает вычисленные значения RMS. Значение RMS k-го кадра, или RMS[K], вычисляется из следующего выражения (3):

В блоке вычисления относительной энергии 22 рассчитывается относительная энергия k-го кадра, соответствующая энергии затухания относительно предыдущего кадра, dBrel[K], и выводится результирующее значение. Относительная энергия в Дб, то есть dBrel[K], определяется из следующего уравнения (4):

в то время как значение энергии E[K] и значение энергии затухания Edecay[K] находятся из следующих уравнений (5) и (6):

Уравнение (5) может быть выражено из уравнения (3) как FL^*(RMS[K])². Конечно значение уравнения (5), полученное при вычислениях уравнения (3) с помощью блока вычисления RMS 21, может быть непосредственно подано в блок вычисления относительной энергии 21. В уравнении (6) время затухания устанавливается равным 0,65 сек.

На фиг. 3 показаны в качестве примеров значения энергии E[K] и энергии затухания Edecay[K].

Блок вычисления максимального значения RMS 23 определяет и выдает максимальное значение RMS, необходимое для оценки максимального значения отношения уровня сигнала к уровню шума, то есть максимального значения SNR. Это максимальное значение RMS Max RMS [K] может быть найдено из уравнения (7):
Max RMS[K] = max (4000, RMS[K], θ^* Mac RMS[K-1]+(1- θ)^* RMS[K], ...(7)
где θ - коэффициент затухания. Используется такое значение θ, при котором максимальное значение RMS затухает в 1/e раз за 3,2 секунды, то есть θ = 0.993769.

Блок вычисления оценки уровня шума 24 определяет и выводит минимальное значение RMS, подходящее для оценки уровня фонового шума. Эта величина оценки уровня шума min RMS[K] представляет собой минимальное из пяти локальных минимальных значений, предшествующих текущему моменту времени, то есть пять значений, удовлетворяющих выражение (8):
(RMS[K]<0,6^* Max RMS[K] и
RMS[K]<4000 и
RMS[K]<RMS[K+1] и
RMS[K]<[K-1] и
RMS[K]<[K-2] или
(RMS[K]<Min RMS) ...(8)
Величина оценки уровня шума min RMS[K] устанавливается таким образом, чтобы она была выше фонового шума, свободного от речевого сигнала. Степень превышения для высокого уровня шума - экспоненциальная, в то время как фиксированная степень превышения используется для низкого уровня шума для реализации большего превышения.

На фиг. 4 показаны примеры значений RMS[K] величины оценки уровня шума min RMS[K] и максимальные значения RMS max RMS[K].

Блок вычисления максимального значения SNR25 оценивает и вычисляет максимальное значение отношения "сигнал-шум" Max SNR[K], используя максимальное значение RMS и величину оценки уровня шума, с помощью следующего уравнения (9):

Используя максимальное значение SNR MaxSNR рассчитывается нормализованный параметр NR...level в диапазоне от 0 до 1, представляющий относительный уровень шума. Для NR-level используется следующая функция:

Поясним работу блока оценки спектра шума 26. Соответствующие значения, определяемые в блоке вычисления относительной энергии 22, блоке вычисления оценки уровня шума 24 и в блоке вычисления максимального значения SNR 25 используются для отделения речевого сигнала от фонового шума. Если следующие условия:
((RMS[K]<Noise RMSthres[K] или
(Dbrel[K]>dBthres[K] и
(RMS[K]<RMS[K-1]+200) ...(11)
где
Noise RMSthres[K] = 1.05 + 0.45^*NR-level[K]•Min RMS[K]
dBthres rel[K] = max (Max SNR[K] = 4.0, 0.9^*Max SNR[K],
выполняются, сигнал в k-м кадре классифицируется как фоновый шум. Классифицированная таким образом амплитуда фонового шума вычисляется и выводится в виде усредненной по времени приближенной оценки N[w,K] спектра шума.

На фиг. 5 представлены примеры значений относительной энергии в Дб, приведенные в уравнении (11), то есть dBrel[K], максимальное значение SNR[K] и dBthres rel, в качестве одного из пороговых значений для различения шума.

На фиг. 6 показан NR.level[K] как функция Max SNR[K] в уравнении (10).

Если k-й кадр классифицируется как фоновый шум или как шум, усредненная во времени оценка спектра шума N[w,K] обновляется с помощью амплитуды E[w,K] входного спектра сигнала текущего кадра согласно следующему уравнению (12):
N[w,K] = d^*max(N[w,K-1], y[w,K] + (1-d)^*min(N[w,K-1], y[w,K]) ...(12)
где
w - определяет номер полосы в расщеплении полос.

Если k-й кадр классифицируется как речевой сигнал, значение N[w,K-1] используется непосредственно для N[w,K].

Блок вычисления значения NR 6 вычисляет NR[w,K], представляющее собой значение, используемое для препятствования резкого изменения характеристики фильтра и выводит полученное значение NR[w,K]. Это NR[w,K] представляет собой значение, лежащее в диапазоне от 0 до 1, которое определяется уравнением (13):

В уравнении (13) adj[w,K] представляет собой параметр, используемый для расчета эффекта, поясняемого ниже, и определяется уравнением (14):

В уравнении (14) adj1[K] представляет собой величину, определяющую эффект подавления степени ослабления шума посредством фильтрации при высоком SNR с помощью фильтрации, описанной ниже, и определяется следующим уравнением (15):

В уравнении (14) adj2[K] представляет собой величину, определяющую эффект подавления степени ослабления шума в соответствии с максимально низким уровнем шума или максимально высоким уровнем шума, с помощью описанной выше операции фильтрации, и определяется следующим уравнением (16):

В приведенном выше уравнении (14) adj3[K] представляет собой величину, представляющую эффект подавления максимальной степени ослабления шума с 18 Дб до 15 Дб в диапазоне между 2375 и 4000 Гц и определяется следующим уравнением (17):

Между тем очевидно, что соотношение между вышеуказанными значениями NR[w, K] и максимальной степенью ослабления шума в Дб по существу линейное в зоне Дб, как показано на фиг. 7.

В блоке обнаружения согласного звука 41 на фиг. 1 согласные составляющие обнаруживаются на покадровой основе по амплитуде y спектра входного сигнала y [w, K] . В результате обнаружения согласного звука вычисляется значение CE[K] , определяющее эффект от согласного звука, и вычисленное таким образом значение CE[K] выводится из блока. Теперь на примере объясним процедуру обнаружения согласного звука.

В блоке переходов через нуль 42 в качестве переходов через нуль выявляются те фрагменты между смежными отсчетами y[w,K], где знак меняется с положительного на отрицательный либо наоборот, или определяются как переходы через нуль те фрагменты, где отсчет имеет значение 0 между двумя отсчетами, имеющими противоположные знаки (шаг S3). Количество фрагментов с переходом через нуль определяется от кадра к кадру и выводится в виде количества переходов через нуль ZC[K].

В блоке обнаружения тонального сигнала 43 определяется (шаг S2) и выводится тональный сигнал, то есть величина, определяющая распределение частотных составляющих y[w, K] , например, отношение среднего уровня t' спектра входного сигнала в диапазоне высоких частот к среднему уровню b' спектра входного сигнала в диапазоне низких частот, или t'/b' (= tone[K]). Значения t' и b' - это такие значения t и b, для которых функция ошибки ERR(fc, b, t), определяемая уравнением (18):

будет иметь минимальное значение. В вышеуказанном уравнении (18) NB устанавливает число полос, y max[w,K] устанавливает максимальное значение y[w, K] в полосе w, а fc устанавливает точку, отделяющую друг от друга диапазоны высоких и низких частот. На фиг. 8 среднее значение низкочастотной боковой полосы от частоты fc y[w,K] равно b, в то время как среднее значение высокочастотной боковой полосы от частоты fc y[w,K] равно a.

В блоке обнаружения ближайшего речевого кадра 44 на основе значения RMS и числа переходов через нуль обнаруживается кадр, ближайший к кадру, где обнаружен речевой звук (шаг S4). Номер этого кадра, как номер ближайшего речевого кадра spch-prox[K], формируется в качестве выходного сигнала в соответствии со следующим уравнением (19):

В блоке обнаружения согласной составляющей 45 согласные составляющие y[w, K] каждого кадра обнаруживаются на основе числа переходов через нуль, числа ближайших речевых кадров, тональных сигналов и значения RMS (шаг S5). Результаты обнаружения согласных звуков выводятся в виде значения CE[K], определяющего эффект согласного звука. Это значение CE[K] определяется следующим уравнением (20):

Символы C1, C2, C3 , с C4.1 по C4.7 определяются, как показано в таблице 2.

В приведенной выше таблице 2 величины CDS0, CDS1, CDS2, T, Zlow и Zhigh являются константами, определяющими чувствительность обнаружения согласных звуков. Например, CDS0 = CDS1 = CDS2 = 1.41, T = 20, Zlow = 20 и Zhigh = 75. Также полагаем, что E в уравнении (20) принимает значение от 0 до 1, например 0.7. Настройка характеристики фильтра выполняется таким образом, что чем ближе значение E к 0, тем достигается большая степень подавления обычного согласного звука, в то время как, чем ближе значение E к 1, тем ближе к минимальному значению степень подавления обычных согласных звуков.

В приведенной выше табл. 2 символ C1 устанавливает то обстоятельство, что уровень сигнала кадра больше, чем минимальный уровень шума. С другой стороны, символ C2 устанавливает то обстоятельство, что количество переходов через нуль вышеупомянутого кадра больше, чем заранее установленное количество переходов через нуль Zlow, здесь равное 20, а в то же время символ C3 устанавливает то обстоятельство, что вышеупомянутый кадр находится среди T кадров, отсчитанных от кадра, где был обнаружен речевой сигнал, здесь среди двадцати кадров.

C4.1 устанавливает тот факт, что уровень сигнала изменяется внутри вышеуказанного кадра, в то время как символ C4.2 устанавливает тот факт, что вышеуказанный кадр является кадром, который появляется после одного кадра с момента появления изменения в речевом сигнале и который претерпевает изменение в уровне сигнала. Символ C4.3 устанавливает то обстоятельство, что вышеуказанный кадр - это кадр, который появляется после двух кадров с момента появления изменения в речевом сигнале и который претерпевает изменение в уровне сигнала. Символ C4.4 устанавливает тот факт, что количество переходов через нуль в вышеуказанном кадре больше заранее установленного числа переходов через нуль Zhigh, здесь равное 75, в вышеуказанном кадре. Символ C4.5 устанавливает тот факт, что величина тонального сигнала внутри вышеуказанного фрейма изменилась, в то время как символ C4.6 устанавливает тот факт, что вышеуказанный кадр - это кадр, который появляется после одного кадра с момента появления изменения в речевом сигнале и который претерпевает изменения в величине тонального сигнала. Символ C4.7 устанавливает то обстоятельство, что вышеуказанный кадр - это кадр, который появляется после двух кадров с момента появления изменения в речевом сигнале и претерпевает изменения в величине тонального сигнала.

Согласно уравнению (20) параметры кадра, содержащего согласные составляющие, - это параметры, встречающиеся в символах с C1 по C3, когда tone[K] больше, чем 0,6 и параметры по меньшей мере одного из условий с C1 по C4.7.

Обратимся к фиг. 1, где блок вычисления значения NR2 46 вычисляет, исходя из вышеуказанных значений NR[w,K] и значения, определяющего эффект согласного звука CE[K], значение NR2[w,K] на основе уравнения (21):

и вводит значение NR2[w,K].

Блок вычисления значения Hn 7 представляет собой предварительный фильтр для ослабления составляющей шума в амплитуде y[w,K] расщепленного спектра входного сигнала, исходя из амплитуды y[w,K] расщепленного спектра входного сигнала, приближенной оценки усредненной по времени величины N[w,K] спектра шума и вышеуказанной величины NR2[w, K]. Значение y[w,K] преобразуется в соответствии с N[w,K] в характеристику фильтра Hn[w,K], которая и выводится. Значение Hn[w,K] вычисляется на основе следующего уравнения (22):

Значение H[w] [S/N= r] в приведенном выше уравнении (22) эквивалентно оптимальным характеристикам фильтра для подавления шума, если SNR зафиксировано на значении r, например 2.7, и находится с помощью следующего выражения (23):

Между тем эта величина может быть найдена заранее и оформлена в виде таблицы в соответствии со значениями y[w,K] N[w,K].

Кстати H[w, K] в уравнении (19) эквивалентно y[w,K] N[w,K], в то время как Gmin - это параметр, указывающий минимальное усиление H[w][S/N=r], значение которого положим равным, например - 18 Дб. С другой стороны P(Hi/yw)[S/N = r] и P(HO/yw)[S/N=r] - параметры, определяющие состояния амплитуд y[w,K] спектра каждого входного сигнала, в то время как P(HI/yw)[S/N= r] - параметр, определяющий состояние, при котором речевая составляющая и составляющая шума смешаны вместе в y[w,K], а P(H0/yw)[S/N=r] - параметр, определяющий, что в y[w,K] содержится только составляющая шума. Эти величины вычисляются согласно уравнению (24):

\
где
P(h1) = P(H0) = 0,5
Из уравнения (20) видно, что P(H1/yw)[S/N = r] и P(H0/yw)[S/N = r] являются функциями x[w,K], в то время как Io(2•r•x[w,K]) является функцией Бесселя и определяется в зависимости от значений r и [w,K]. Как P(H1), так и P(H0) фиксированы на уровне 0,5. Объем операций по обработке может быть уменьшен примерно до одной пятой от объема обработки при использовании известного способа посредством упрощения параметров, как было описано выше.

Блок фильтрации 8 выполняет фильтрацию для сглаживания Hn[w,K] как по частотной, так и по временной оси, так что в виде выходного сигнала формируется сглаженный сигнал t smocth[w,K]. Фильтрация вдоль частотной оси приводит к уменьшению эффективной длины импульсной характеристики сигнала Hn[w, K]. Это предотвращает наложение спектров, возникающее из-за циклической свертки, являющейся результатом реализации фильтра посредством мультиплицирования в частотной области. Фильтрация вдоль временной оси приводит к ограничению степени изменения характеристик фильтра при подавлении генерирования пиковых.

Сначала объясним, как происходит фильтрация по частотной оси. Медианная фильтрация выполняется на Hn[w,K] каждой полосы. Этот способ демонстрируется следующими выражениями (25) и (26):

Если в уравнениях (25) и (26) (w-1) или (w+1) отсутствуют, тогда соответственно H1[w,K]=Hn[w,K] и H2[w,K]=H1[w,K].

Если (w-1) или (w+1) не присутствуют, тогда H1[w,K] представляет собой Hn[w, K] без единственной или изолированной нулевой полосы на шаге 1, тогда как на шаге 2 2 H2[w,K] представляет собой H1[w,K] без единственной, изолированной или выступающей полосы. В этом случае Hn[w,K] преобразуется в H2[w,K].

Теперь поясним, как производится фильтрация вдоль временной оси. Для фильтрации вдоль временной оси принимается в расчет то обстоятельство, что входной сигнал содержит три составляющие, а именно речевой сигнал, фоновый шум и сигнал в переходном состоянии, представляющий переходное состояние нарастающей части речевого сигнала. Речевой сигнал Hspeech[w,K] сглаживается вдоль временной оси, как это показано в уравнении (27):

Фоновый шум сглаживается вдоль оси, как это показано в уравнении (28):

В приведенном выше уравнении (24) Min_H и Max_H могут быть найдены с помощью Min_ H = min(H2[w,K]), H2[w,K-1]) и Max_H = max(H2[w,K], H2[w,K-1]) соответственно.

Сигналы в переходном состоянии не сглаживаются в направлении вдоль временной оси.

Используя выше описанные сглаженные сигналы, с помощью уравнения (29) формируется сглаженный выходной сигнал Htsmooth:

В приведенном выше уравнении (29) α sp и α tr могут быть соответственно найдены из выражения (30):

где

и из выражения (31):

где

Затем в блоке преобразования полос 9 сглаживающий сигнал Ht smooth[w,K] для 18 полос из блока фильтрации 8 расширяется посредством интерполяции, например, до 128-полосного сигнала H₁₂₈[w, K] , который и выводится. Это преобразование выполняется, например, в два этапа, причем расширение с 18 до 64 полос и расширение с 64 до 128 полос выполняются путем фиксации нулевого порядка и путем интерполяции типа низкочастотного фильтра соответственно.

Блок коррекции спектра 10 затем умножает действительную и мнимую части коэффициентов быстрого преобразования Фурье, полученных с помощью быстрого преобразования Фурье кадрового сигнала y--framej,K, полученного с помощью блока FFT 3 с использованием вышеуказанного сигнала H₁₂₈[w,K] путем выполнения коррекции спектра, то есть ослабления составляющей шума, и результирующий сигнал выводится. В результате спектральные амплитуды корректируются, не изменяясь по фазе.

Затем блок обратного FFT-преобразования 11 выполняет обратное FFT-преобразование выходного сигнала блока коррекции спектра, 10, для того, чтобы вывести результирующий сигнал, подвергшийся обратному FFT.

Блок наложения и суммирования 12 накладывает и суммирует на покадровой основе лежащие на границах кадра части сигналов, подвергшихся обратному FFT. Результирующие выходные сигналы выводятся на выходной терминал речевого сигнала 14.

На фиг. 9 показан другой вариант реализации устройства ослабления шума для реализации способа ослабления шума для речевого сигнала согласно настоящему изобретению. Блоки и элементы, используемые вместе с устройством ослабления шума по фиг. 1, указаны под теми же номерами и для простоты описание их работы опущено.

Устройство ослабления шума для речевых сигналов включает блок коррекции спектра 10, в качестве блока ослабления шума, для устранения шума из входного речевого сигнала с целью шумоподавления, так что степень ослабления шума изменяется в зависимости от управляющего сигнала. Устройство ослабления шума речевых сигналов также включает вычислительный блок 32 для вычисления значения CE, значений adj 1, adj 2 и adj 3, в качестве средства обнаружения для обнаружения согласных составляющих, содержащихся во входном речевом сигнале, и блок вычисления значения Hn7, как средства управления для управления подавлением степени ослабления шума в зависимости от результатов обнаружения согласных звуков, выдаваемых средством обнаружения согласной составляющей.

Устройство ослабления шума для речевых сигналов, кроме того, включает средство быстрого преобразования Фурье 3 в качестве средства для преобразования входных речевых сигналов в сигналы в частотной области.

В блоке генерирования 35 характеристик фильтра шумоподавления, имеющем в своем составе блок вычисления Hn7 и вычислительный блок 32 для вычисления adj 1, adj 2 и adj 3, блок расщепления полосы частот 4 расщепляет значение амплитуды частотного спектра, например, на 18 полос и выводит по полосам амплитуды y[w, K] в вычислительный блок 31 для вычисления характеристик сигнала, в блок оценки спектра шума 26 и в блок расчета начальной характеристики фильтра 33.

Вычислительный блок 31 для расчета характеристик сигнала, исходя из значения y7.frame, K, поступающего из блока кадрирования 1, и значения y[w,K], поступающего из блока расщепления 4, вычисляет на покадровой основе значение уровня шума Min RMS[K], величину оценки уровня шума Min RMS[K] максимальное значение RMS Max RMS[K] , количество переходов через нуль ZC[K], величину тонального сигнала tone[K] и номера ближайших речевых кадров spch--prox[K], и подает эти значения в блок спектрального оценивания шума 26 и в блок вычисления adj1, adj2 и adj3 32.

Блок вычисления значения CE и значений adj2, adj2 и adj3 32 вычисляет значения adj1[K] , adj2[K] и adj3[K] на основе RMS[K], Min RMS[K] и Max RMS[K] , и в то же время при расчете значения CF[K] устанавливая эффект проявления согласно звука на основе значений ZC[K], tone[K], spch--prox[K] и Min RMS[K] и подает эти значения в блок расчета значений NR и NR2 36.

Блок расчета начальной характеристики фильтра 33 подает усредненное по времени значение шума N[w,K], выводимое из блока оценки спектра шума 26, и y[w, K] , выводимое из блока расщепления полосы частот 4, в блок табличной функции фильтрового подавления 34 для нахождения значения H[w,K], соответствующего y[w, K] и N[w,K], хранящегося в блоке табличной функции фильтрового подавления 34, для передачи найденного таким образом значения в блок вычисления значения Hn 7. В блоке табличной функции фильтрового подавления 34 хранится таблица значений H[w,K].

Выходные речевые сигналы, полученные устройством ослабления шума, показанном на фиг. 1 и 9, подаются в сему обработки сигнала, например, в какую-либо разновидность схем кодирования для портативных телефонных аппаратов либо в устройство для распознавания речи. Как вариант, подавление шума может быть произведено на декодированном выходном сигнале портативного телефонного аппарата.

Эффективность работы устройства ослабления шума для речевых сигналов согласно настоящему изобретению демонстрируется на фиг. 10, где по ординате и абсциссе отложены соответственно уровень RMS сигналов каждого кадра и кадровый номер каждого кадра. Кадр разбивается с интервалом 20 мс.

Голый речевой сигнал и сигнал, соответствующий этому речевому сигналу с наложенным на него шумом в автомобиле, или так называемым автомобильным шумом, представлены соответственно кривыми A и B на фиг. 10. Видно, что уровень RMS кривой A равен либо выше, чем уровень RMS кривой B для всех номеров кадров, то есть, сигнал, смешанный с шумом, как правило, имеет более высокую величину энергии.

Для кривых C и D в зоне a1 в районе фрейма под номером 15, зоне a2 в районе фрейма под номером 600, зоне a3 в районе фреймов под номерами с 60 по 65, зоне a4 в районе фреймов под номерами с 100 по 105, зоне a5 в районе фреймов под номером 110, зоне a6 в районе фреймов под номерами со 150 по 160 и зоне a7 в районе фреймов под номерами со 175 по 180 уровень RMS кривой C выше, чем уровень RMS кривой D. То есть, степень ослабления шума подавляется в сигналах номеров кадров, соответствующих зонам с a1 по a7.

При использовании способа ослабления помех для речевых сигналов согласно варианту реализации, показанному на фиг. 2, переходы речевых сигналов через нуль обнаруживаются после определения значения tone[K], представляющего собой число, определяющее распределение амплитуд сигнала в частотной области. Однако это не является обязательным согласно настоящему изобретению, поскольку значение tone[K] может быть определено и после обнаружения переходов через нуль либо значения tone[K] и переходы через нуль могут определяться одновременно.

Claims

1. Способ ослабления шума во входном речевом сигнале для шумоподавления, отличающийся тем, что включает обнаружение согласной составляющей, содержащейся во входном речевом сигнале, и подавление степени ослабления шума контролируемым образом во время устранения шума из входного речевого сигнала в соответствии с результатами обнаружения согласного звука на шаге обнаружения согласной составляющей.

2. Способ по п.1, отличающийся тем, что что включает шаг преобразования входного речевого сигнала в сигнал в частной области, где шаг подавления степени ослабления шума контролируемым образом представляет собой шаг регулирования характеристик фильтра как настройку на основе спектра входного сигнала, получаемого на шаге преобразования, в соответствии с результатами обнаружения согласного звука, осуществляемого на шаге обнаружения согласной составляющей.

3. Способ по п.1, отличающийся тем, что шаг обнаружения согласной составляющей представляет собой шаг обнаружения согласных звуков в окрестности составляющей речевого сигнала, обнаруженной во входном речевом сигнале, с использованием по меньшей мере одного из изменений энергии на коротком интервале входного речевого сигнала, величины, показывающей распределение частотных составляющих во входном речевом сигнале, и числа переходов через нуль во входном речевом сигнале.

4. Способ по п.3, отличающийся тем, что величину, показывающую распределение частотных составляющих во входном речевом сигнале, получают на основе отношения среднего уровня спектра входного речевого сигнала в высокочастотном диапазоне к среднему уровню спектра входного речевого сигнала в низкочастотном диапазоне.

5. Способ по п.2, отличающийся тем, что характеристики фильтра регулируют с помощью первой величины, определяемой на основе отношения спектра входного речевого сигнала, полученного на шаге преобразования, к оценке спектра шума, содержащемуся в спектре входного сигнала, и второй величины, определяемой на основе максимального значения отношения уровня сигнала спектра входного сигнала к оценке уровня шума, оценке спектра шума и фактора проявления согласного звука, определяемого в результате обнаружения согласного звука.

6. Устройство ослабления шума в речевом сигнале, включающее блок ослабления шума во входном речевом сигнале для подавления шума так, что степень подавления шума изменяется в зависимости от управляющего сигнала, отличающееся тем, что содержит средство для обнаружения согласной составляющей, содержащейся во входном речевом сигнале, и средство для подавления степени ослабления шума контролируемым образом в соответствии с результатами обнаружения согласного звука на шаге обнаружения согласной составляющей.

7. Устройство по п.6, отличающееся тем, что включает средство для преобразования входного речевого сигнала в сигнал в частотной области, причем средство обнаружения согласной составляющей выполнено с возможностью обнаруживать согласные звуки в спектре входного сигнала, получаемого с помощью средства преобразования.

8. Устройство по п.6, отличающееся тем, что средство управления выполнено с возможностью регулировать характеристики фильтра, определяющие степень ослабления шума в зависимости от результата обнаружения согласного звука.

9. Устройство по п.8, отличающееся тем, что характеристики фильтра регулируются с помощью первой величины, определяемой на основе отношения спектра входного речевого сигнала, полученного на шаге преобразования, к оценке спектра шума, содержащемуся в спектре входного сигнала, и второй величины, определяемой на основе максимального значения отношения уровня сигнала спектра входного сигнала к оценке уровня шума, оценке спектра шума и фактора проявления согласного звука, определяемого в результате обнаружения согласного звука.

10. Устройство по п.8, отличающееся тем, что средство обнаружения согласной составляющей выполнено с возможностью обнаруживать согласные звуки в окрестности составляющей речевого сигнала, обнаруженной во входном речевом сигнале, с использованием по меньшей мере одного из изменений энергии на коротком интервале входного речевого сигнала, величины, показывающей распределение частотных составляющих во входном речевом сигнале, и числа переходов через нуль в указанном входном речевом сигнале.

11. Устройство по п.10, отличающееся тем, что величина, показывающая распределение частотных составляющих во входном речевом сигнале, получается на основе среднего уровня спектра входного речевого сигнала в высокочастотном диапазоне и среднего уровня спектра входного речевого сигнала в низкочастотном диапазоне.