RU2127912C1

RU2127912C1 - Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков

Info

Publication number: RU2127912C1
Application number: RU95107694A
Authority: RU
Inventors: Карл Торбьерн Вигрен
Original assignee: Телефонактиеболагет Лм Эрикссон
Priority date: 1993-05-26
Filing date: 1994-05-11
Publication date: 1999-03-20
Also published as: TW324123B; CN1046366C; SE501305C2; KR100220377B1; FI950311A; SE9301798L; DE69421498D1; DK0653091T3; ES2141234T3; HK1013881A1; EP0653091A1; CN1110070A; DE69421498T2; KR950702732A; JPH07509792A; US5579432A; AU4811296A; AU670383B2; SE9301798D0; GR3032107T3

Abstract

Изобретение относится к распознаванию стационарных и нестационарных сигналов и может использоваться в системах подвижной радиосвязи для определения того, является ли сигнал, представляющий фоновые звуки, стационарным, а также для определения и кодирования/декодирования стационарных фоновых звуков. Технический результат - обнаружение и кодирование и/или декодирование стационарных фоновых звуков в кодере и/или декодере речевых сигналов, работающих на основе цифровых кадров. Устройство распознает стационарные и нестационарные сигналы. Вычисляется энергия Е(Тi) входного сигнала в нескольких окнах Тi. Эти значения энергии хранятся в буфере и по ним вычисляется контрольная переменная Vт, представляющая собой отношение максимального значения энергии, хранимого в буфере, к хранимому в нем минимальному значению. Контрольная переменная сравнивается с порогом γ стационарности, и если она превышает этот порог, то входной сигнал считается нестационарным. Указанный способ особенно целесообразно использовать для распознавания стационарных и нестационарных фоновых звуков в системе подвижной радиосвязи. 2 c. и 13 з. п. ф-лы, 4 ил.

Description

Данное изобретение относится к способу распознавания стационарных и нестационарных сигналов. Этот способ может использоваться, например, в системе подвижной радиосвязи для определения того, является ли сигнал, представляющий фоновые звуки, стационарным. Изобретение также относится к способу и устройству для определения и кодирования/декодирования стационарных фоновых звуков.

Многие современные речевые кодеры относятся к обширному классу речевых кодеров, известных как LPC (кодеры с линейным предсказанием). Примерами кодеров этого класса являются: кодер CELP 4,8 кбит/с министерства обороны США, кодер PRE-LTP европейской цифровой подвижной сотовой телефонной системы GSM, кодер VSELP соответствующей американской системы ADC, а также кодер VSELP гражданской цифровой сотовой системы PDC.

Все эти кодеры используют в процессе генерации сигнала концепцию фильтра-источника. Фильтр используется для моделирования кратковременного спектра воспроизводимого сигнала, а источник имеет отношение ко всем другим вариациям сигнала.

Общее свойство всех этих моделей состоит в том, что воспроизводимый сигнал представляется параметрами, определяющими выходной сигнал источника, а также параметрами фильтра, определяющими фильтр. Термин "линейное предсказание" относится к способу, обычно используемому для оценки параметров фильтра. Таким образом, воспроизводимый сигнал частично представляется группой параметров фильтра.

Доказано, что способ, использующий сочетание фильтра-источника в качестве сигнальной модели, дает сравнительно неплохие результаты при работе с речевыми сигналами. Однако в случае, если пользователь подвижного телефона молчит и входной сигнал включает в себя окружающие шумы, то известные в настоящее время кодеры оказываются в затруднительном положении ввиду их ориентации на речевые сигналы. Слушатель на другой стороне линии связи может быть обеспокоен тем, что не узнает привычных фоновых звуков, так как кодер их неправильно обработал.

Согласно патентной заявке Швеции N 9300290-5, используемой в качестве ссылки, эта проблема решается путем распознавания присутствия фоновых звуков в сигнале, полученном кодером, и модификации вычисления параметров фильтра в соответствии с так называемым антивихревым алгоритмом в случае, если фоновые звуки преобладают над сигналом.

Однако было обнаружено, что различные фоновые звуки имеют различный статистический характер. Фоновый звук одного типа, например шум автомобиля, может характеризоваться как стационарный. Звуки другого типа, например фоновые помехи типа невнятной речи, могут характеризоваться как нестационарные. Эксперименты показали, что вышеупомянутый антивихревой алгоритм дает хорошие результаты только для случая стационарных фоновых звуков. Поэтому желательно распознавать стационарные и нестационарные фоновые шумы с тем, чтобы сделать обход антивихревого алгоритма, если фоновый звук оказывается нестационарным.

Целью изобретения является создание способа распознавания стационарных и нестационарных сигналов, таких как сигналы, представляющие фоновые звуки в системе подвижной радиосвязи.

В соответствии с изобретением предложен способ, отличающийся тем, что:
(а) оценивают один из статических моментов сигнала в каждом из N временных подокон T_i , где N>2, временного окна T заранее определенной длительности,
(б) оценивают вариацию оценок, полученных при операции (а), как меру стационарности сигнала, и
(в) определяют, не превышает ли полученная при операции (б) оцененная вариация заранее определенного предела стационарности γ.
Другой целью изобретения является создание способа обнаружения и кодирования и/или декодирования стационарных фоновых звуков в кодере и/или декодере речевых сигналов, работающих на основе цифровых кадров и включающих источник сигнала, подключенный к фильтру, определяемому группой параметров фильтра для каждого кадра, для воспроизведения сигнала, подлежащего кодированию и/или декодированию.

В соответствии с изобретением такой способ включает следующие операции:
(а) определение того, представляет ли сигнал, поступающий на кодер/декодер, в основном речь или фоновые звуки,
(б) определение стационарности фонового звука в том случае, если сигнал, поступающий на кодер/декодер, представляет в основном фоновый звук, и
(в) если сигнал является стационарным, то ограничивают изменения во времени от одного кадра к другому по меньшей мере некоторых параметров фильтра в указанной группе параметров и/или область значений этих некоторых параметров фильтра.

Еще одной целью изобретения является создание устройства для кодирования и/или декодирования стационарных фоновых звуков в кодере и/или декодере речевых сигналов, работающих на основе цифровых кадров и включающих источник сигнала, подключенный к фильтру, определяемому группой параметров для каждого кадра, для воспроизведения сигнала, подлежащего кодированию и/или декодированию.

В соответствии с изобретением такое устройство содержит:
(а) средства определения того, представляет ли сигнал, поступающий на кодер/декодер, в основном речь или фоновые звуки,
(б) средства определения стационарности фонового звука в том случае, если сигнал, поступающий на кодер/декодер, представляет в основном фоновый звук, и
(в) средства ограничения изменений, во времени от одного кадра к другому по меньшей мере некоторых параметров фильтра в указанной группе параметров и/или ограничения области значений этих некоторых параметров фильтра.

Другие цели и преимущества изобретения станут более понятны из приведенного ниже описания со ссылками на прилагаемые чертежи, на которых
Фиг. 1 изображает блок-схему кодера речевых сигналов, снабженного средствами для осуществления способа в соответствии с изобретением,
Фиг. 2 изображает блок-схему декодера речевых сигналов, снабженного средствами для осуществления способа в соответствии с изобретением,
Фиг. 3 изображает блок-схему дискриминатора сигналов, который может быть использован в кодере речевых сигналов, показанном на фиг.1, и
Фиг. 4 изображает блок-схему предпочтительного дискриминатора сигналов, который может быть использован в кодере речевых сигналов, показанном на фиг. 1.

Несмотря на то, что данное изобретение в общем случае может быть использовано для распознавания стационарных и нестационарных сигналов, оно описано ниже применительно к определению стационарности сигналов, представляющих фоновые звуки в системах подвижной радиосвязи.

В соответствии с изображенным на фиг.1 кодером речевых сигналов, входной сигнал S(n) по входной шине 10 подается на устройство 12 оценки фильтра, в котором производится оценка параметров фильтра в соответствии со стандартными процедурами (алгоритм Левинсона-Дарбина, алгоритм Бурга, разложение Холецкого (Rabiner, Schafer: "Digital Processing of Speech Signals", Chapter 8, Prentice - Hall, 1978), алгоритм Шура (Strobach: "New Forms of Levinson and Shur Algorithm", IEEE SP Magazine, Jan. 1991, pp 12-36), алгоритм Ле Ру-Гегана, (Le Roux, Gueguen: "A Fixed Point Computation of Partial Correlation Coefficients", IEEE Transactions of Acoustics, Speech and Signal Processing, vol ASSP-26, N 3, pp 257-259, 1977), так называемый алгоритм FLAT, описанный в патенте США N 4544 919). Устройство 12 оценки фильтра выдает параметры фильтра для каждого кадра. Эти параметры фильтра подаются на анализатор 14 возбуждения, на который также поступает входной сигнал с шины 10. Анализатор 14 возбуждения определяет наилучший источник или параметры возбуждения в соответствии со стандартными процедурами. Примерами таких процедур могут служить: VSELP (Gerson, Jasiuk: "Vector Sum Excited Linear Prediction (VSELP)", in Atal et a1, eds, "Advances in Speech Coding", Kluwer Academic Publishers, 1991, pp 69-79), TBPE (Salami, "Binary Pulse Excitation: A Novel Approach to Low Complexity CELP Coding", pp 145-156 предыдущей ссылки), справочник стохастических кодов (Campbell et al: "The DoD4.8 KBPS Standard (Proposed Federal Standard 1016)", pp 121-134 предыдущей ссылки), ACELP (Adoul, Lamblin: "A Comparison of Some Algebraic Structures for CELP Coding of Speech", Proc. International Conference on Acoustics, Speech and Signal Processing 1987, pp 1953-1956). Эти параметры возбуждения, параметры фильтра, а также входной сигнал с шины 10 поступают на детектор 16 речевых сигналов. Этот детектор 16 определяет, содержит ли входной сигнал речь или фоновый шум. Возможно использовать, например, детектор голосовой активности, используемый в системе GSM (Voice Activity Detection, GSM- recommendation, 06.32, ETSI/PT 12). Приемлемый детектор описан в заявке на Европейский патент N 335 521 (BRITISH TELECOM PLC). Детектор 16 речевых сигналов формирует выходной сигнал S/B, указывающий на наличие или отсутствие речевого сигнала во входном сигнале кодера. Этот выходной сигнал вместе с параметрами фильтра подается на модификатор 18 параметров через дискриминатор 24 сигналов.

В соответствии с вышеупомянутой патентной заявкой Швеции модификатор 18 параметров модифицирует полученные параметры фильтра в случае, если во входном сигнале кодера отсутствует речевой сигнал. При наличии речевого сигнала параметры фильтра проходят через модификатор 18 параметров без изменения. Измененные или неизмененные параметры фильтра и параметры возбуждения направляются на канальный кодер 20, формирующий поток битов, поступающий в канал по шине 22.

Модификация параметров может быть выполнена при помощи модификатора 18 параметров несколькими способами.

Один из возможных вариантов модификации заключается в расширении полосы частот фильтра. Это означает, что полюса фильтра смещаются в направлении начала координат комплексной плоскости. Допустим, что исходный фильтр H(z)= 1/A(z) описывается выражением

При смещении полюсов с коэффициентом r, где 0≤r≤1, вариант с расширенной полосой пропускания определяется величиной A(z/r) или

Другим возможным вариантом модификации является низкочастотная фильтрация параметров фильтра во временном интервале. Это значит, что быстрые изменения параметров фильтра от кадра к кадру ослабляются низкочастотной фильтрацией по крайней мере некоторых параметров. Частным случаем этого варианта является усреднение значений параметров фильтра за несколько кадров, например за 4-5 кадра.

Модификатор 18 параметров может также использовать сочетание этих двух вариантов, например, выполнять расширение полосы пропускания с последующей низкочастотной фильтрацией. Возможно также сначала выполнить низкочастотную фильтрацию, а затем расширение полосы пропускания.

В вышеприведенном описании дискриминатор 24 сигналов не упоминался. Однако было установлено, что недостаточно только разделить сигналы на речевые и сигналы фоновых звуков ввиду того, что сигналы фоновых звуков могут не иметь одинакового статистического характера, как говорилось выше. Поэтому сигналы, представляющие фоновые звуки, разделяются на стационарные и нестационарные в дискриминаторе 24, который описан ниже при рассмотрении фиг.3 и фиг.4. Таким образом, выходной сигнал на шине 26 от дискриминатора 24 указывает на то, содержит ли подлежащий кодированию кадр стационарные фоновые шумы, и если содержит, то модификатор 18 параметров производит модификацию параметров, а если этот кадр содержит речевой сигнал/нестационарные фоновые звуки, то модификация не производится.

В приведенном выше описании предполагалось, что модификация параметров производится в кодере передатчика. Однако аналогичная процедура может быть также произведена в декодере приемника. Это иллюстрируется вариантом осуществления изобретения, представленным на фиг. 2.

На фиг.2 поток битов из канала поступает на входную шину 30. Этот поток битов декодируется канальным декодером 32.

Канальный декодер 32 выдает параметры фильтра и параметры возбуждения. В данном случае предполагается, что эти параметры не подвергались модификации в кодере передатчика. Параметры фильтра и параметры возбуждения подаются на детектор 34 речевых сигналов, анализирующий эти параметры с целью определения, содержит ли сигнал, воспроизводимый с помощью этих параметров, речевой сигнал. Выходной сигнал S/B детектора 34 речевых сигналов через дискриминатор 24' сигналов подается на модификатор 36 параметров, куда также поступают параметры фильтра.

В соответствии с вышеупомянутой патентной заявкой Швеции, если детектор 34 речевых сигналов определил, что в принятом сигнале отсутствует речевой сигнал, то модификатор 36 параметров выполняет модификацию, аналогичную модификации, выполняемой модификатором 18 параметров, показанным на фиг.1. При наличии речевого сигнала модификация не производится. Модифицированные или немодифицированные параметры фильтра и параметры возбуждения подаются на декодер 38 речевых сигналов, формирующий синтезированный выходной сигнал на шине 40. Декодер 38 речевых сигналов использует параметры возбуждения для генерации вышеупомянутых сигналов источника, а модифицированные или немодифицированные параметры фильтра - для определения фильтра в модели "источник-фильтр". Так же, как в кодере, показанном на фиг.1, дискриминатор 24' сигналов распознает стационарные и нестационарные фоновые звуки. Таким образом, модификатор 36 параметров будет работать только с кадрами, содержащими стационарные фоновые звуки. Однако в этом случае на дискриминатор 24' сигналов не будет подаваться сам речевой сигнал S(n), а подаются только параметры возбуждения, определяющие этот сигнал. Процесс распознавания в дальнейшем будет описан со ссылками на фиг.3 и 4.

На фиг.3 представлена блок-схема дискриминатора 24 сигналов, показанного на фиг. 1. На дискриминатор 24 поступает входной сигнал S(n) и выходной сигнал S/B от детектора 16 речевых сигналов. Сигнал S/B подается на переключатель SW. Если детектор 16 речевых сигналов определил, что сигнал S(n) содержит в основном речь, то переключатель SW устанавливается в верхнее положение и в этом случае сигнал S/B подается непосредственно на выход дискриминатора 24.

Если сигнал S(n) содержит в основном фоновые звуки, то переключатель SW находится в нижнем положении и оба сигнала S/B и S(n) подаются на вычислительные средства 50, которые оценивают энергию E(T_i) каждого кадра. Здесь T_i может обозначать длительность кадра 1. Однако в предпочтительном варианте осуществления изобретения интервал T_i содержит отсчеты двух последовательных кадров, и значение E(T_i) соответствует общей энергии этих кадров. В этом варианте следующее временное окно T_i+1 сдвигается на один речевой кадр так, что оно будет включать в себя один новый кадр и один кадр от предыдущего временного окна T_i. Таким образом, временные окна перекрываются на один кадр. Энергия может оцениваться в соответствии с формулой:

Энергетические оценки E(T_i) запоминаются в буфере 52. Этот буфер может, например, содержать 100-200 энергетических оценок от 100-200 кадров. При поступлении новой оценки в буфер 52, самая ранняя оценка стирается. Таким образом, буфер 52 содержит N последних энергетических оценок, где N - емкость буфера.

Затем энергетические оценки из буфера 52 подаются на вычислительные средства 54, которые вычисляют контрольную переменную V_t в соответствии с формулой:

где T представляет собой суммарное время всех (возможно перекрывающихся) временных окон T_i.

Величина T обычно имеет фиксированную длительность, например, равную 100-200 речевым кадрам или 2-4 секундам. Другими словами, величина V_T представляет собой максимальную энергетическую оценку за период времени T, деленную на минимальную энергетическую оценку за тот же период времени.

Эта контрольная переменная V_T представляет собой оценку изменения энергии в течение последних N кадров. Эта оценка в дальнейшем используется для определения стационарности сигнала. Если сигнал стационарный, то его энергия от кадра к кадру будет меняться очень мало, что означает, что значение контрольной переменной V_T будет близким к 1. При нестационарном сигнале изменение энергии от кадра к кадру будет значительным, что означает, что оценка будет значительно больше 1.

Контрольная переменная V_T подается на компаратор 56, где происходит ее сравнение с пределом γ стационарности. Если V_T превышает γ , то на выходной шине 26 появляется сигнал, указывающий на наличие нестационарного сигнала. Это значит, что параметры фильтра не должны модифицироваться. Было установлено, что приемлемые значения γ лежат в интервале 2-5, преимущественно в интервале 3-4.

Из вышеприведенного описания ясно, что для определения того, содержит ли кадр речь, необходимо только рассмотреть этот конкретный кадр, что осуществляется в детекторе 16 речевых сигналов. Однако если установлено, что кадр не содержит речи, то необходимо накапливать энергетические оценки кадров, окружающих этот кадр, для определения стационарности. Таким образом, потребуется буфер с N ячейками памяти, где N>2, обычно порядка 100-200. Этот буфер может также хранить номер кадра для каждой энергетической оценки.

После проверки контрольной переменной V_T и выработки компаратором 56 решения о стационарности в вычислительных средствах 50 формируется следующая энергетическая оценка, поступающая в буфер 52, после чего вычисляется новая контрольная переменная V_T и сравнивается со значением γ в компараторе 56. При этом временное окно T сдвигается во времени на один кадр вперед.

В вышеприведенном описании принималось, что когда детектор 16 речевых сигналов обнаруживает кадр, содержащий фоновые звуки, он продолжает распознавать фоновые звуки в последующих кадрах, чтобы накопить достаточное количество энергетических оценок в буфере 52 для формирования контрольной переменной V_T. Однако существуют ситуации, когда детектор 16 речевых сигналов может обнаружить несколько, кадров, содержащих фоновые звуки, а затем несколько кадров, содержащих речь, за которыми следуют кадры, содержащие новые фоновые звуки. По этой причине буфер 52 хранит энергетические значения в "эффективном времени", - это означает, что энергетические значения вычисляются и хранятся только для кадров, содержащих фоновые звуки. По этой же причине каждая энергетическая оценка может запоминаться с номером соответствующего кадра, так как это дает механизм определения того, что значение энергии слишком устарело и не является релевантным, если в течение длительного времени фоновые звуки отсутствовали.

Другая ситуация может иметь место в случае кратковременного появления фоновых звуков, что приводит к получению небольшого числа вычисленных энергетических значений, после чего фоновые шумы больше не появляются в течение длительного периода времени. В этом случае в буфере 52 может не оказаться достаточного количества энергетических оценок для правильного вычисления контрольной переменной в пределах приемлемого интервала времени. В таких случаях устанавливают предел времени, по истечении которого принимается решение, что эти кадры, содержащие фоновые звуки, должны восприниматься как речевые, ввиду отсутствия достаточного основания для принятия решения о стационарности.

Далее, в некоторых случаях, когда было определено, что какой-либо кадр содержит нестационарные фоновые звуки, имеет смысл понизить предел γ стационарности, например с 3,5 до 3,3 с тем, чтобы для более поздних кадров решение не изменялось взад - вперед от "стационарный" к "нестационарный". Таким образом, в случае обнаружения нестационарного кадра последующие кадры проще классифицировать так же, как нестационарные. Когда в конце концов обнаруживается стационарный кадр, предел "гамма" стационарности поднимается снова. Этот метод носит название "гистерезис".

Другим предпочтительным методом является "затягивание". Затягивание означает, что решение, принятое дискриминатором 24 сигналов, должно сохраняться по меньшей мере для нескольких кадров, например, для 5 кадров, чтобы стать окончательным. Предпочтительным может быть сочетание методов "гистерезиса" и "затягивания".

Из сказанного выше ясно, что вариант осуществления изобретения в соответствии с фиг.3 требует, чтобы буфер 52 имел соответствующую емкость, в типовом случае 100 - 200 ячеек памяти (200 - 400, если также запоминается номер кадра). Ввиду того, что этот буфер обычно размещается в процессоре сигналов, имеющем ограниченные ресурсы памяти, желательно уменьшить емкость буфера. На фиг. 4 представлен предпочтительный вариант выполнения дискриминатора 24 сигналов, в котором используется буферный контроллер 58, управляющий буфером 52'.

Задача буферного контроллера 58 заключается в управлении работой буфера 52' таким образом, чтобы не запоминать энергетические оценки E(T_i), которые не являются необходимыми. Этот прием основывается на том наблюдении, что только предельные (максимальные и минимальные) энергетические оценки являются существенными для расчета V_T. Таким образом, достаточно высокая степень приближения обеспечивается, если в буфер 52' занести только несколько оценок с большими значениями и несколько оценок с малыми значениями. Поэтому буфер 52' разделяется на два буфера БУФ.МАКС. и БУФ.МИН. Ввиду того, что по истечении некоторого времени старые энергетические оценки должны исчезнуть из буферов, необходимо также запоминать номера кадров соответствующих энергетических оценок в БУФ.МАКС. и в БУФ.МИН. Один из возможных алгоритмов хранения оценок в буфере 52, осуществляемый буферным контроллером 58, описывается подробно в программе на языке PASCAL, представленной в приложении.

Вариант выполнения изобретения, показанный на фиг.4, менее оптимален по сравнению с вариантом, представленном на фиг.3. Причина, например, в том, что энергетические оценки кадров, имеющие большие значения, не могут быть введены в буфер БУФ.МАКС., если в нем находятся энергетические оценки кадров, имеющие более высокие значения, но введенные туда ранее. В этом случае эта энергетическая оценка кадра теряется, несмотря на то, что она могла бы быть использована позже, когда предыдущие оценки с большим значением (но введенные ранее) будут выведены из буфера. Таким образом, практически вычисляется не V_T, a V'_T, определяемая следующим выражением:

Однако с практической точки зрения такой метод "достаточно хорош" и позволяет значительно сократить необходимый размер буфера от 100 - 200 запоминаемых энергетических оценок до приблизительно 10 оценок (5 для буфера БУФ.МАКС. и 5 для буфера БУФ. МИН.).

Как уже упоминалось при описании фиг.2, дискриминатор 24' сигналов не получает сигнала S(n). Однако ввиду того, что либо параметры фильтра, либо параметры возбуждения обычно содержат параметр, представляющий энергию кадра, энергетическая оценка может быть получена из этого параметра. Таким образом, в соответствии со стандартом США IS-54 энергия кадра представляется параметром возбуждения r(0). (Также можно использовать параметр r(0) в дискриминаторе 24 сигналов на фиг. 1 в качестве энергетической оценки). Другой метод может заключаться в том, чтобы установить дискриминатор 24' сигналов и модификатор 36 параметров вправо от декодера 38 речевых сигналов на фиг.2. В этом случае дискриминатор 24' сигналов имел бы доступ к сигналу 40, который представляет собой декодированный сигнал, т.е. аналогичный сигналу S(n) на фиг. 1. Однако этот метод потребовал бы установки другого декодера речевых сигналов после модификатора 36 параметров для воспроизведения модифицированного сигнала.

В приведенном выше описании дискриминатора 24, 24' сигналов предполагалось, что решения о стационарности основываются на вычислении энергии. Однако энергия является только одним из статистических моментов различных порядков, которые могут быть использованы для определения стационарности. Поэтому согласно изобретению можно использовать другие статистические моменты, а не момент второго порядка (соответствующий энергии или дисперсии сигнала). Также можно проверить несколько статистических моментов различных порядков для определения стационарности и принять окончательное решение о стационарности по результатам этих проверок.

Более того, определяемая контрольная переменная V_T является не единственной возможной контрольной переменной. Другая контрольная переменная могла бы, например, определяться следующим выражением:

где выражение <dE(T_i)/dt> представляет собой оценку скорости изменения энергии от кадра к кадру. Например, для вычисления оценок в формуле может быть применен фильтр Калмана в соответствии с линейной моделью. Однако контрольная переменная V_T в том виде, как она была определена в данном описании ранее, имеет то преимущество, что она не зависит от масштабного коэффициента, что делает дискриминатор сигналов нечувствительным к уровню фоновых звуков.

Claims

1. Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков при кодировании и/или декодировании речевых сигналов на основе цифровых кадров, включающий определение того, представляет собой входной сигнал в основном речь или фоновые звуки, фильтрацию этого сигнала и воспроизведение сигнала, подлежащего кодированию и/или декодированию, отличающийся тем, что (а) если сигнал представляет собой фоновые звуки, то определяют, являются ли это фоновый звук стационарным, и (б) если сигнал является стационарным, то ограничивают изменения во времени от кадра к кадру и/или область значений по меньшей мере некоторых параметров фильтрации.

2. Способ по п.1, отличающийся тем, что при определении стационарности (б₁) оценивают один из статистических моментов фоновых звуков в каждом из N временных подокон Ti, где N>2, временного окна Т заранее определенной длительности, (б₂) оценивают вариацию оценок, полученных при операции (б₁), как меру стационарности фоновых звуков, (б₃) определяют, превышает ли оцененная вариация, полученная при операции (б₂), заранее определенный предел стационарности γ.
3. Способ по п. 2, отличающийся тем, что при операции (б₁) производят оценку энергии Е (Ti) фоновых звуков в каждом временном подокне Ti.

4. Способ по п.3, отличающийся тем, что оцененную вариацию образуют в соответствии с формулой

5. Способ по п.3, отличающийся тем, что оцененную вариацию образуют в соответствии с формулой

где БУФ. МАКС. представляет собой буфер, содержащий только наибольшие последние оценки энергии, а БУФ.МИН.- буфер, содержащий только наименьшие последние оценки энергии.

6. Способ по п.4 или 5, отличающийся тем, что временные подокна Ti перекрывают друг друга и занимают, вместе взятые, временное окно Ti.

7. Способ по п. 6, отличающийся тем, что временные подокна Ti имеют одинаковую длительность.

8. Способ по п. 7, отличающийся тем, что каждое временное подокно Ti включает два последовательных речевых кадра.

9. Устройство для кодирования и/или декодирования стационарных фоновых звуков в кодере и/или декодере речевых сигналов на основе цифровых кадров, в котором воспроизводимый сигнал представляется параметрами, определяющими выходной сигнал источника, и рядом параметров фильтра для каждого кадра и которое включает детектор (34) речевых сигналов для определения того, представляет сигнал, подаваемый на кодер/декодер, в основном речь или фоновые звуки, отличающееся тем, что оно содержит (а) дискриминатор (24,24') сигналов для определения того, является ли фоновый звук стационарным, если сигнал, подаваемый на кодер/декодер, представляет в основном фоновый звук и (б) модификатор (18,36) параметров, соединенный с указанным дискриминатором сигналов для ограничения изменений во времени от кадра к кадру и/или области значений по меньшей мере некоторых параметров фильтра из указанной группы параметров фильтра, если сигнал, подаваемый на кодер/декодер, представляет стационарный фоновый звук.

10. Устройство по п.9, отличающееся тем, что указанный дискриминатор сигналов содержит (б¹) первые вычислительные средства (50) для оценки одного из статистических моментов фоновых звуков в каждом из N временных подокон Ti, где N>2, временного окна Т заранее заданной длительности, (б²) вторые вычислительные средства (54) для оценки вариации оценок как меры стационарности фоновых звуков и (б³) компаратор (56) для определения того, превышает ли оцененная вариация заранее заданный предел γ стационарности.

11. Устройство по п.10, отличающееся тем, что первые вычислительные средства (50) предназначены для оценки энергии Е (Tⁱ) фоновых звуков в каждом временном подокне Ti.

12. Устройство по п.11, отличающееся тем, что оцененная вариация образуется в соответствии с формулой

13. Устройство по п.11, отличающееся тем, что оно содержит средства (58) управления первым буфером БУФ.МАКС. и вторым буфером БУФ.МИН. для хранения в них только последних больших и малых оценок энергии соответственно.

14. Устройство по п.13, отличающееся тем, что каждый буфер БУФ.МАКС. и БУФ. МИН. , кроме оценок энергии, хранит метки идентификации временного подокна Ti, соответствующего каждой оценке энергии в каждом буфере.

15. Устройство по п.14, отличающееся тем, что оцененная вариация образуется в соответствии с формулой