RU2127912C1 - Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков - Google Patents

Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков Download PDF

Info

Publication number
RU2127912C1
RU2127912C1 RU95107694A RU95107694A RU2127912C1 RU 2127912 C1 RU2127912 C1 RU 2127912C1 RU 95107694 A RU95107694 A RU 95107694A RU 95107694 A RU95107694 A RU 95107694A RU 2127912 C1 RU2127912 C1 RU 2127912C1
Authority
RU
Russia
Prior art keywords
signal
stationary
background sounds
speech
frame
Prior art date
Application number
RU95107694A
Other languages
English (en)
Other versions
RU95107694A (ru
Inventor
Карл Торбьерн Вигрен
Original Assignee
Телефонактиеболагет Лм Эрикссон
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Телефонактиеболагет Лм Эрикссон filed Critical Телефонактиеболагет Лм Эрикссон
Publication of RU95107694A publication Critical patent/RU95107694A/ru
Application granted granted Critical
Publication of RU2127912C1 publication Critical patent/RU2127912C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Inspection Of Paper Currency And Valuable Securities (AREA)
  • Complex Calculations (AREA)
  • Circuits Of Receivers In General (AREA)
  • Transmission And Conversion Of Sensor Element Output (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

Изобретение относится к распознаванию стационарных и нестационарных сигналов и может использоваться в системах подвижной радиосвязи для определения того, является ли сигнал, представляющий фоновые звуки, стационарным, а также для определения и кодирования/декодирования стационарных фоновых звуков. Технический результат - обнаружение и кодирование и/или декодирование стационарных фоновых звуков в кодере и/или декодере речевых сигналов, работающих на основе цифровых кадров. Устройство распознает стационарные и нестационарные сигналы. Вычисляется энергия Е(Тi) входного сигнала в нескольких окнах Тi. Эти значения энергии хранятся в буфере и по ним вычисляется контрольная переменная Vт, представляющая собой отношение максимального значения энергии, хранимого в буфере, к хранимому в нем минимальному значению. Контрольная переменная сравнивается с порогом γ стационарности, и если она превышает этот порог, то входной сигнал считается нестационарным. Указанный способ особенно целесообразно использовать для распознавания стационарных и нестационарных фоновых звуков в системе подвижной радиосвязи. 2 c. и 13 з. п. ф-лы, 4 ил.

Description

Данное изобретение относится к способу распознавания стационарных и нестационарных сигналов. Этот способ может использоваться, например, в системе подвижной радиосвязи для определения того, является ли сигнал, представляющий фоновые звуки, стационарным. Изобретение также относится к способу и устройству для определения и кодирования/декодирования стационарных фоновых звуков.
Многие современные речевые кодеры относятся к обширному классу речевых кодеров, известных как LPC (кодеры с линейным предсказанием). Примерами кодеров этого класса являются: кодер CELP 4,8 кбит/с министерства обороны США, кодер PRE-LTP европейской цифровой подвижной сотовой телефонной системы GSM, кодер VSELP соответствующей американской системы ADC, а также кодер VSELP гражданской цифровой сотовой системы PDC.
Все эти кодеры используют в процессе генерации сигнала концепцию фильтра-источника. Фильтр используется для моделирования кратковременного спектра воспроизводимого сигнала, а источник имеет отношение ко всем другим вариациям сигнала.
Общее свойство всех этих моделей состоит в том, что воспроизводимый сигнал представляется параметрами, определяющими выходной сигнал источника, а также параметрами фильтра, определяющими фильтр. Термин "линейное предсказание" относится к способу, обычно используемому для оценки параметров фильтра. Таким образом, воспроизводимый сигнал частично представляется группой параметров фильтра.
Доказано, что способ, использующий сочетание фильтра-источника в качестве сигнальной модели, дает сравнительно неплохие результаты при работе с речевыми сигналами. Однако в случае, если пользователь подвижного телефона молчит и входной сигнал включает в себя окружающие шумы, то известные в настоящее время кодеры оказываются в затруднительном положении ввиду их ориентации на речевые сигналы. Слушатель на другой стороне линии связи может быть обеспокоен тем, что не узнает привычных фоновых звуков, так как кодер их неправильно обработал.
Согласно патентной заявке Швеции N 9300290-5, используемой в качестве ссылки, эта проблема решается путем распознавания присутствия фоновых звуков в сигнале, полученном кодером, и модификации вычисления параметров фильтра в соответствии с так называемым антивихревым алгоритмом в случае, если фоновые звуки преобладают над сигналом.
Однако было обнаружено, что различные фоновые звуки имеют различный статистический характер. Фоновый звук одного типа, например шум автомобиля, может характеризоваться как стационарный. Звуки другого типа, например фоновые помехи типа невнятной речи, могут характеризоваться как нестационарные. Эксперименты показали, что вышеупомянутый антивихревой алгоритм дает хорошие результаты только для случая стационарных фоновых звуков. Поэтому желательно распознавать стационарные и нестационарные фоновые шумы с тем, чтобы сделать обход антивихревого алгоритма, если фоновый звук оказывается нестационарным.
Целью изобретения является создание способа распознавания стационарных и нестационарных сигналов, таких как сигналы, представляющие фоновые звуки в системе подвижной радиосвязи.
В соответствии с изобретением предложен способ, отличающийся тем, что:
(а) оценивают один из статических моментов сигнала в каждом из N временных подокон Ti , где N>2, временного окна T заранее определенной длительности,
(б) оценивают вариацию оценок, полученных при операции (а), как меру стационарности сигнала, и
(в) определяют, не превышает ли полученная при операции (б) оцененная вариация заранее определенного предела стационарности γ.
Другой целью изобретения является создание способа обнаружения и кодирования и/или декодирования стационарных фоновых звуков в кодере и/или декодере речевых сигналов, работающих на основе цифровых кадров и включающих источник сигнала, подключенный к фильтру, определяемому группой параметров фильтра для каждого кадра, для воспроизведения сигнала, подлежащего кодированию и/или декодированию.
В соответствии с изобретением такой способ включает следующие операции:
(а) определение того, представляет ли сигнал, поступающий на кодер/декодер, в основном речь или фоновые звуки,
(б) определение стационарности фонового звука в том случае, если сигнал, поступающий на кодер/декодер, представляет в основном фоновый звук, и
(в) если сигнал является стационарным, то ограничивают изменения во времени от одного кадра к другому по меньшей мере некоторых параметров фильтра в указанной группе параметров и/или область значений этих некоторых параметров фильтра.
Еще одной целью изобретения является создание устройства для кодирования и/или декодирования стационарных фоновых звуков в кодере и/или декодере речевых сигналов, работающих на основе цифровых кадров и включающих источник сигнала, подключенный к фильтру, определяемому группой параметров для каждого кадра, для воспроизведения сигнала, подлежащего кодированию и/или декодированию.
В соответствии с изобретением такое устройство содержит:
(а) средства определения того, представляет ли сигнал, поступающий на кодер/декодер, в основном речь или фоновые звуки,
(б) средства определения стационарности фонового звука в том случае, если сигнал, поступающий на кодер/декодер, представляет в основном фоновый звук, и
(в) средства ограничения изменений, во времени от одного кадра к другому по меньшей мере некоторых параметров фильтра в указанной группе параметров и/или ограничения области значений этих некоторых параметров фильтра.
Другие цели и преимущества изобретения станут более понятны из приведенного ниже описания со ссылками на прилагаемые чертежи, на которых
Фиг. 1 изображает блок-схему кодера речевых сигналов, снабженного средствами для осуществления способа в соответствии с изобретением,
Фиг. 2 изображает блок-схему декодера речевых сигналов, снабженного средствами для осуществления способа в соответствии с изобретением,
Фиг. 3 изображает блок-схему дискриминатора сигналов, который может быть использован в кодере речевых сигналов, показанном на фиг.1, и
Фиг. 4 изображает блок-схему предпочтительного дискриминатора сигналов, который может быть использован в кодере речевых сигналов, показанном на фиг. 1.
Несмотря на то, что данное изобретение в общем случае может быть использовано для распознавания стационарных и нестационарных сигналов, оно описано ниже применительно к определению стационарности сигналов, представляющих фоновые звуки в системах подвижной радиосвязи.
В соответствии с изображенным на фиг.1 кодером речевых сигналов, входной сигнал S(n) по входной шине 10 подается на устройство 12 оценки фильтра, в котором производится оценка параметров фильтра в соответствии со стандартными процедурами (алгоритм Левинсона-Дарбина, алгоритм Бурга, разложение Холецкого (Rabiner, Schafer: "Digital Processing of Speech Signals", Chapter 8, Prentice - Hall, 1978), алгоритм Шура (Strobach: "New Forms of Levinson and Shur Algorithm", IEEE SP Magazine, Jan. 1991, pp 12-36), алгоритм Ле Ру-Гегана, (Le Roux, Gueguen: "A Fixed Point Computation of Partial Correlation Coefficients", IEEE Transactions of Acoustics, Speech and Signal Processing, vol ASSP-26, N 3, pp 257-259, 1977), так называемый алгоритм FLAT, описанный в патенте США N 4544 919). Устройство 12 оценки фильтра выдает параметры фильтра для каждого кадра. Эти параметры фильтра подаются на анализатор 14 возбуждения, на который также поступает входной сигнал с шины 10. Анализатор 14 возбуждения определяет наилучший источник или параметры возбуждения в соответствии со стандартными процедурами. Примерами таких процедур могут служить: VSELP (Gerson, Jasiuk: "Vector Sum Excited Linear Prediction (VSELP)", in Atal et a1, eds, "Advances in Speech Coding", Kluwer Academic Publishers, 1991, pp 69-79), TBPE (Salami, "Binary Pulse Excitation: A Novel Approach to Low Complexity CELP Coding", pp 145-156 предыдущей ссылки), справочник стохастических кодов (Campbell et al: "The DoD4.8 KBPS Standard (Proposed Federal Standard 1016)", pp 121-134 предыдущей ссылки), ACELP (Adoul, Lamblin: "A Comparison of Some Algebraic Structures for CELP Coding of Speech", Proc. International Conference on Acoustics, Speech and Signal Processing 1987, pp 1953-1956). Эти параметры возбуждения, параметры фильтра, а также входной сигнал с шины 10 поступают на детектор 16 речевых сигналов. Этот детектор 16 определяет, содержит ли входной сигнал речь или фоновый шум. Возможно использовать, например, детектор голосовой активности, используемый в системе GSM (Voice Activity Detection, GSM- recommendation, 06.32, ETSI/PT 12). Приемлемый детектор описан в заявке на Европейский патент N 335 521 (BRITISH TELECOM PLC). Детектор 16 речевых сигналов формирует выходной сигнал S/B, указывающий на наличие или отсутствие речевого сигнала во входном сигнале кодера. Этот выходной сигнал вместе с параметрами фильтра подается на модификатор 18 параметров через дискриминатор 24 сигналов.
В соответствии с вышеупомянутой патентной заявкой Швеции модификатор 18 параметров модифицирует полученные параметры фильтра в случае, если во входном сигнале кодера отсутствует речевой сигнал. При наличии речевого сигнала параметры фильтра проходят через модификатор 18 параметров без изменения. Измененные или неизмененные параметры фильтра и параметры возбуждения направляются на канальный кодер 20, формирующий поток битов, поступающий в канал по шине 22.
Модификация параметров может быть выполнена при помощи модификатора 18 параметров несколькими способами.
Один из возможных вариантов модификации заключается в расширении полосы частот фильтра. Это означает, что полюса фильтра смещаются в направлении начала координат комплексной плоскости. Допустим, что исходный фильтр H(z)= 1/A(z) описывается выражением
Figure 00000002

При смещении полюсов с коэффициентом r, где 0≤r≤1, вариант с расширенной полосой пропускания определяется величиной A(z/r) или
Figure 00000003

Другим возможным вариантом модификации является низкочастотная фильтрация параметров фильтра во временном интервале. Это значит, что быстрые изменения параметров фильтра от кадра к кадру ослабляются низкочастотной фильтрацией по крайней мере некоторых параметров. Частным случаем этого варианта является усреднение значений параметров фильтра за несколько кадров, например за 4-5 кадра.
Модификатор 18 параметров может также использовать сочетание этих двух вариантов, например, выполнять расширение полосы пропускания с последующей низкочастотной фильтрацией. Возможно также сначала выполнить низкочастотную фильтрацию, а затем расширение полосы пропускания.
В вышеприведенном описании дискриминатор 24 сигналов не упоминался. Однако было установлено, что недостаточно только разделить сигналы на речевые и сигналы фоновых звуков ввиду того, что сигналы фоновых звуков могут не иметь одинакового статистического характера, как говорилось выше. Поэтому сигналы, представляющие фоновые звуки, разделяются на стационарные и нестационарные в дискриминаторе 24, который описан ниже при рассмотрении фиг.3 и фиг.4. Таким образом, выходной сигнал на шине 26 от дискриминатора 24 указывает на то, содержит ли подлежащий кодированию кадр стационарные фоновые шумы, и если содержит, то модификатор 18 параметров производит модификацию параметров, а если этот кадр содержит речевой сигнал/нестационарные фоновые звуки, то модификация не производится.
В приведенном выше описании предполагалось, что модификация параметров производится в кодере передатчика. Однако аналогичная процедура может быть также произведена в декодере приемника. Это иллюстрируется вариантом осуществления изобретения, представленным на фиг. 2.
На фиг.2 поток битов из канала поступает на входную шину 30. Этот поток битов декодируется канальным декодером 32.
Канальный декодер 32 выдает параметры фильтра и параметры возбуждения. В данном случае предполагается, что эти параметры не подвергались модификации в кодере передатчика. Параметры фильтра и параметры возбуждения подаются на детектор 34 речевых сигналов, анализирующий эти параметры с целью определения, содержит ли сигнал, воспроизводимый с помощью этих параметров, речевой сигнал. Выходной сигнал S/B детектора 34 речевых сигналов через дискриминатор 24' сигналов подается на модификатор 36 параметров, куда также поступают параметры фильтра.
В соответствии с вышеупомянутой патентной заявкой Швеции, если детектор 34 речевых сигналов определил, что в принятом сигнале отсутствует речевой сигнал, то модификатор 36 параметров выполняет модификацию, аналогичную модификации, выполняемой модификатором 18 параметров, показанным на фиг.1. При наличии речевого сигнала модификация не производится. Модифицированные или немодифицированные параметры фильтра и параметры возбуждения подаются на декодер 38 речевых сигналов, формирующий синтезированный выходной сигнал на шине 40. Декодер 38 речевых сигналов использует параметры возбуждения для генерации вышеупомянутых сигналов источника, а модифицированные или немодифицированные параметры фильтра - для определения фильтра в модели "источник-фильтр". Так же, как в кодере, показанном на фиг.1, дискриминатор 24' сигналов распознает стационарные и нестационарные фоновые звуки. Таким образом, модификатор 36 параметров будет работать только с кадрами, содержащими стационарные фоновые звуки. Однако в этом случае на дискриминатор 24' сигналов не будет подаваться сам речевой сигнал S(n), а подаются только параметры возбуждения, определяющие этот сигнал. Процесс распознавания в дальнейшем будет описан со ссылками на фиг.3 и 4.
На фиг.3 представлена блок-схема дискриминатора 24 сигналов, показанного на фиг. 1. На дискриминатор 24 поступает входной сигнал S(n) и выходной сигнал S/B от детектора 16 речевых сигналов. Сигнал S/B подается на переключатель SW. Если детектор 16 речевых сигналов определил, что сигнал S(n) содержит в основном речь, то переключатель SW устанавливается в верхнее положение и в этом случае сигнал S/B подается непосредственно на выход дискриминатора 24.
Если сигнал S(n) содержит в основном фоновые звуки, то переключатель SW находится в нижнем положении и оба сигнала S/B и S(n) подаются на вычислительные средства 50, которые оценивают энергию E(Ti) каждого кадра. Здесь Ti может обозначать длительность кадра 1. Однако в предпочтительном варианте осуществления изобретения интервал Ti содержит отсчеты двух последовательных кадров, и значение E(Ti) соответствует общей энергии этих кадров. В этом варианте следующее временное окно Ti+1 сдвигается на один речевой кадр так, что оно будет включать в себя один новый кадр и один кадр от предыдущего временного окна Ti. Таким образом, временные окна перекрываются на один кадр. Энергия может оцениваться в соответствии с формулой:
Figure 00000004

Энергетические оценки E(Ti) запоминаются в буфере 52. Этот буфер может, например, содержать 100-200 энергетических оценок от 100-200 кадров. При поступлении новой оценки в буфер 52, самая ранняя оценка стирается. Таким образом, буфер 52 содержит N последних энергетических оценок, где N - емкость буфера.
Затем энергетические оценки из буфера 52 подаются на вычислительные средства 54, которые вычисляют контрольную переменную Vt в соответствии с формулой:
Figure 00000005

где T представляет собой суммарное время всех (возможно перекрывающихся) временных окон Ti.
Величина T обычно имеет фиксированную длительность, например, равную 100-200 речевым кадрам или 2-4 секундам. Другими словами, величина VT представляет собой максимальную энергетическую оценку за период времени T, деленную на минимальную энергетическую оценку за тот же период времени.
Эта контрольная переменная VT представляет собой оценку изменения энергии в течение последних N кадров. Эта оценка в дальнейшем используется для определения стационарности сигнала. Если сигнал стационарный, то его энергия от кадра к кадру будет меняться очень мало, что означает, что значение контрольной переменной VT будет близким к 1. При нестационарном сигнале изменение энергии от кадра к кадру будет значительным, что означает, что оценка будет значительно больше 1.
Контрольная переменная VT подается на компаратор 56, где происходит ее сравнение с пределом γ стационарности. Если VT превышает γ , то на выходной шине 26 появляется сигнал, указывающий на наличие нестационарного сигнала. Это значит, что параметры фильтра не должны модифицироваться. Было установлено, что приемлемые значения γ лежат в интервале 2-5, преимущественно в интервале 3-4.
Из вышеприведенного описания ясно, что для определения того, содержит ли кадр речь, необходимо только рассмотреть этот конкретный кадр, что осуществляется в детекторе 16 речевых сигналов. Однако если установлено, что кадр не содержит речи, то необходимо накапливать энергетические оценки кадров, окружающих этот кадр, для определения стационарности. Таким образом, потребуется буфер с N ячейками памяти, где N>2, обычно порядка 100-200. Этот буфер может также хранить номер кадра для каждой энергетической оценки.
После проверки контрольной переменной VT и выработки компаратором 56 решения о стационарности в вычислительных средствах 50 формируется следующая энергетическая оценка, поступающая в буфер 52, после чего вычисляется новая контрольная переменная VT и сравнивается со значением γ в компараторе 56. При этом временное окно T сдвигается во времени на один кадр вперед.
В вышеприведенном описании принималось, что когда детектор 16 речевых сигналов обнаруживает кадр, содержащий фоновые звуки, он продолжает распознавать фоновые звуки в последующих кадрах, чтобы накопить достаточное количество энергетических оценок в буфере 52 для формирования контрольной переменной VT. Однако существуют ситуации, когда детектор 16 речевых сигналов может обнаружить несколько, кадров, содержащих фоновые звуки, а затем несколько кадров, содержащих речь, за которыми следуют кадры, содержащие новые фоновые звуки. По этой причине буфер 52 хранит энергетические значения в "эффективном времени", - это означает, что энергетические значения вычисляются и хранятся только для кадров, содержащих фоновые звуки. По этой же причине каждая энергетическая оценка может запоминаться с номером соответствующего кадра, так как это дает механизм определения того, что значение энергии слишком устарело и не является релевантным, если в течение длительного времени фоновые звуки отсутствовали.
Другая ситуация может иметь место в случае кратковременного появления фоновых звуков, что приводит к получению небольшого числа вычисленных энергетических значений, после чего фоновые шумы больше не появляются в течение длительного периода времени. В этом случае в буфере 52 может не оказаться достаточного количества энергетических оценок для правильного вычисления контрольной переменной в пределах приемлемого интервала времени. В таких случаях устанавливают предел времени, по истечении которого принимается решение, что эти кадры, содержащие фоновые звуки, должны восприниматься как речевые, ввиду отсутствия достаточного основания для принятия решения о стационарности.
Далее, в некоторых случаях, когда было определено, что какой-либо кадр содержит нестационарные фоновые звуки, имеет смысл понизить предел γ стационарности, например с 3,5 до 3,3 с тем, чтобы для более поздних кадров решение не изменялось взад - вперед от "стационарный" к "нестационарный". Таким образом, в случае обнаружения нестационарного кадра последующие кадры проще классифицировать так же, как нестационарные. Когда в конце концов обнаруживается стационарный кадр, предел "гамма" стационарности поднимается снова. Этот метод носит название "гистерезис".
Другим предпочтительным методом является "затягивание". Затягивание означает, что решение, принятое дискриминатором 24 сигналов, должно сохраняться по меньшей мере для нескольких кадров, например, для 5 кадров, чтобы стать окончательным. Предпочтительным может быть сочетание методов "гистерезиса" и "затягивания".
Из сказанного выше ясно, что вариант осуществления изобретения в соответствии с фиг.3 требует, чтобы буфер 52 имел соответствующую емкость, в типовом случае 100 - 200 ячеек памяти (200 - 400, если также запоминается номер кадра). Ввиду того, что этот буфер обычно размещается в процессоре сигналов, имеющем ограниченные ресурсы памяти, желательно уменьшить емкость буфера. На фиг. 4 представлен предпочтительный вариант выполнения дискриминатора 24 сигналов, в котором используется буферный контроллер 58, управляющий буфером 52'.
Задача буферного контроллера 58 заключается в управлении работой буфера 52' таким образом, чтобы не запоминать энергетические оценки E(Ti), которые не являются необходимыми. Этот прием основывается на том наблюдении, что только предельные (максимальные и минимальные) энергетические оценки являются существенными для расчета VT. Таким образом, достаточно высокая степень приближения обеспечивается, если в буфер 52' занести только несколько оценок с большими значениями и несколько оценок с малыми значениями. Поэтому буфер 52' разделяется на два буфера БУФ.МАКС. и БУФ.МИН. Ввиду того, что по истечении некоторого времени старые энергетические оценки должны исчезнуть из буферов, необходимо также запоминать номера кадров соответствующих энергетических оценок в БУФ.МАКС. и в БУФ.МИН. Один из возможных алгоритмов хранения оценок в буфере 52, осуществляемый буферным контроллером 58, описывается подробно в программе на языке PASCAL, представленной в приложении.
Вариант выполнения изобретения, показанный на фиг.4, менее оптимален по сравнению с вариантом, представленном на фиг.3. Причина, например, в том, что энергетические оценки кадров, имеющие большие значения, не могут быть введены в буфер БУФ.МАКС., если в нем находятся энергетические оценки кадров, имеющие более высокие значения, но введенные туда ранее. В этом случае эта энергетическая оценка кадра теряется, несмотря на то, что она могла бы быть использована позже, когда предыдущие оценки с большим значением (но введенные ранее) будут выведены из буфера. Таким образом, практически вычисляется не VT, a V'T, определяемая следующим выражением:
Figure 00000006

Однако с практической точки зрения такой метод "достаточно хорош" и позволяет значительно сократить необходимый размер буфера от 100 - 200 запоминаемых энергетических оценок до приблизительно 10 оценок (5 для буфера БУФ.МАКС. и 5 для буфера БУФ. МИН.).
Как уже упоминалось при описании фиг.2, дискриминатор 24' сигналов не получает сигнала S(n). Однако ввиду того, что либо параметры фильтра, либо параметры возбуждения обычно содержат параметр, представляющий энергию кадра, энергетическая оценка может быть получена из этого параметра. Таким образом, в соответствии со стандартом США IS-54 энергия кадра представляется параметром возбуждения r(0). (Также можно использовать параметр r(0) в дискриминаторе 24 сигналов на фиг. 1 в качестве энергетической оценки). Другой метод может заключаться в том, чтобы установить дискриминатор 24' сигналов и модификатор 36 параметров вправо от декодера 38 речевых сигналов на фиг.2. В этом случае дискриминатор 24' сигналов имел бы доступ к сигналу 40, который представляет собой декодированный сигнал, т.е. аналогичный сигналу S(n) на фиг. 1. Однако этот метод потребовал бы установки другого декодера речевых сигналов после модификатора 36 параметров для воспроизведения модифицированного сигнала.
В приведенном выше описании дискриминатора 24, 24' сигналов предполагалось, что решения о стационарности основываются на вычислении энергии. Однако энергия является только одним из статистических моментов различных порядков, которые могут быть использованы для определения стационарности. Поэтому согласно изобретению можно использовать другие статистические моменты, а не момент второго порядка (соответствующий энергии или дисперсии сигнала). Также можно проверить несколько статистических моментов различных порядков для определения стационарности и принять окончательное решение о стационарности по результатам этих проверок.
Более того, определяемая контрольная переменная VT является не единственной возможной контрольной переменной. Другая контрольная переменная могла бы, например, определяться следующим выражением:
Figure 00000007

где выражение <dE(Ti)/dt> представляет собой оценку скорости изменения энергии от кадра к кадру. Например, для вычисления оценок в формуле может быть применен фильтр Калмана в соответствии с линейной моделью. Однако контрольная переменная VT в том виде, как она была определена в данном описании ранее, имеет то преимущество, что она не зависит от масштабного коэффициента, что делает дискриминатор сигналов нечувствительным к уровню фоновых звуков.

Claims (12)

1. Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков при кодировании и/или декодировании речевых сигналов на основе цифровых кадров, включающий определение того, представляет собой входной сигнал в основном речь или фоновые звуки, фильтрацию этого сигнала и воспроизведение сигнала, подлежащего кодированию и/или декодированию, отличающийся тем, что (а) если сигнал представляет собой фоновые звуки, то определяют, являются ли это фоновый звук стационарным, и (б) если сигнал является стационарным, то ограничивают изменения во времени от кадра к кадру и/или область значений по меньшей мере некоторых параметров фильтрации.
2. Способ по п.1, отличающийся тем, что при определении стационарности (б1) оценивают один из статистических моментов фоновых звуков в каждом из N временных подокон Ti, где N>2, временного окна Т заранее определенной длительности, (б2) оценивают вариацию оценок, полученных при операции (б1), как меру стационарности фоновых звуков, (б3) определяют, превышает ли оцененная вариация, полученная при операции (б2), заранее определенный предел стационарности γ.
3. Способ по п. 2, отличающийся тем, что при операции (б1) производят оценку энергии Е (Ti) фоновых звуков в каждом временном подокне Ti.
4. Способ по п.3, отличающийся тем, что оцененную вариацию образуют в соответствии с формулой
Figure 00000008

5. Способ по п.3, отличающийся тем, что оцененную вариацию образуют в соответствии с формулой
Figure 00000009

где БУФ. МАКС. представляет собой буфер, содержащий только наибольшие последние оценки энергии, а БУФ.МИН.- буфер, содержащий только наименьшие последние оценки энергии.
6. Способ по п.4 или 5, отличающийся тем, что временные подокна Ti перекрывают друг друга и занимают, вместе взятые, временное окно Ti.
7. Способ по п. 6, отличающийся тем, что временные подокна Ti имеют одинаковую длительность.
8. Способ по п. 7, отличающийся тем, что каждое временное подокно Ti включает два последовательных речевых кадра.
9. Устройство для кодирования и/или декодирования стационарных фоновых звуков в кодере и/или декодере речевых сигналов на основе цифровых кадров, в котором воспроизводимый сигнал представляется параметрами, определяющими выходной сигнал источника, и рядом параметров фильтра для каждого кадра и которое включает детектор (34) речевых сигналов для определения того, представляет сигнал, подаваемый на кодер/декодер, в основном речь или фоновые звуки, отличающееся тем, что оно содержит (а) дискриминатор (24,24') сигналов для определения того, является ли фоновый звук стационарным, если сигнал, подаваемый на кодер/декодер, представляет в основном фоновый звук и (б) модификатор (18,36) параметров, соединенный с указанным дискриминатором сигналов для ограничения изменений во времени от кадра к кадру и/или области значений по меньшей мере некоторых параметров фильтра из указанной группы параметров фильтра, если сигнал, подаваемый на кодер/декодер, представляет стационарный фоновый звук.
10. Устройство по п.9, отличающееся тем, что указанный дискриминатор сигналов содержит (б1) первые вычислительные средства (50) для оценки одного из статистических моментов фоновых звуков в каждом из N временных подокон Ti, где N>2, временного окна Т заранее заданной длительности, (б2) вторые вычислительные средства (54) для оценки вариации оценок как меры стационарности фоновых звуков и (б3) компаратор (56) для определения того, превышает ли оцененная вариация заранее заданный предел γ стационарности.
11. Устройство по п.10, отличающееся тем, что первые вычислительные средства (50) предназначены для оценки энергии Е (Ti) фоновых звуков в каждом временном подокне Ti.
12. Устройство по п.11, отличающееся тем, что оцененная вариация образуется в соответствии с формулой
Figure 00000010

13. Устройство по п.11, отличающееся тем, что оно содержит средства (58) управления первым буфером БУФ.МАКС. и вторым буфером БУФ.МИН. для хранения в них только последних больших и малых оценок энергии соответственно.
14. Устройство по п.13, отличающееся тем, что каждый буфер БУФ.МАКС. и БУФ. МИН. , кроме оценок энергии, хранит метки идентификации временного подокна Ti, соответствующего каждой оценке энергии в каждом буфере.
15. Устройство по п.14, отличающееся тем, что оцененная вариация образуется в соответствии с формулой
Figure 00000011
RU95107694A 1993-05-26 1994-05-11 Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков RU2127912C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9301798-6 1993-05-26
SE9301798A SE501305C2 (sv) 1993-05-26 1993-05-26 Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
PCT/SE1994/000443 WO1994028542A1 (en) 1993-05-26 1994-05-11 Discriminating between stationary and non-stationary signals

Publications (2)

Publication Number Publication Date
RU95107694A RU95107694A (ru) 1998-02-20
RU2127912C1 true RU2127912C1 (ru) 1999-03-20

Family

ID=20390059

Family Applications (1)

Application Number Title Priority Date Filing Date
RU95107694A RU2127912C1 (ru) 1993-05-26 1994-05-11 Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков

Country Status (19)

Country Link
US (1) US5579432A (ru)
EP (1) EP0653091B1 (ru)
JP (1) JPH07509792A (ru)
KR (1) KR100220377B1 (ru)
CN (2) CN1046366C (ru)
AU (2) AU670383B2 (ru)
CA (1) CA2139628A1 (ru)
DE (1) DE69421498T2 (ru)
DK (1) DK0653091T3 (ru)
ES (1) ES2141234T3 (ru)
FI (1) FI950311A0 (ru)
GR (1) GR3032107T3 (ru)
HK (1) HK1013881A1 (ru)
NZ (1) NZ266908A (ru)
RU (1) RU2127912C1 (ru)
SE (1) SE501305C2 (ru)
SG (1) SG46977A1 (ru)
TW (1) TW324123B (ru)
WO (1) WO1994028542A1 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2575680C2 (ru) * 2010-12-29 2016-02-20 Самсунг Электроникс Ко., Лтд. Устройство и способ для кодирования/декодирования для расширения диапазона высоких частот
RU2639694C1 (ru) * 2010-09-15 2017-12-21 Самсунг Электроникс Ко., Лтд. Устройство и способ для кодирования/декодирования для расширения диапазона высоких частот
RU2672133C1 (ru) * 2010-12-29 2018-11-12 Самсунг Электроникс Ко., Лтд. Устройство и способ для кодирования/декодирования для расширения диапазона высоких частот

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
AUPO170196A0 (en) * 1996-08-16 1996-09-12 University Of Alberta A finite-dimensional filter
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
DE10026872A1 (de) 2000-04-28 2001-10-31 Deutsche Telekom Ag Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)
EP1279164A1 (de) 2000-04-28 2003-01-29 Deutsche Telekom AG Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
JP3812887B2 (ja) * 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
PL2118889T3 (pl) 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
WO2008108719A1 (en) 2007-03-05 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for smoothing of stationary background noise
CN101308651B (zh) * 2007-05-17 2011-05-04 展讯通信(上海)有限公司 音频暂态信号的检测方法
CN101546556B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类***
US10218327B2 (en) * 2011-01-10 2019-02-26 Zhinian Jing Dynamic enhancement of audio (DAE) in headset systems
US10325588B2 (en) 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
GB2137791B (en) * 1982-11-19 1986-02-26 Secr Defence Noise compensating spectral distance processor
DE3370423D1 (en) * 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
KR0161258B1 (ko) * 1988-03-11 1999-03-20 프레드릭 제이 비스코 음성활동 검출 방법 및 장치
GB2239971B (en) * 1989-12-06 1993-09-29 Ca Nat Research Council System for separating speech from background noise
EP0538536A1 (en) * 1991-10-25 1993-04-28 International Business Machines Corporation Method for detecting voice presence on a communication line
SE470577B (sv) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2778834C1 (ru) * 2009-01-16 2022-08-25 Долби Интернешнл Аб Гармоническое преобразование, усовершенствованное перекрестным произведением
RU2639694C1 (ru) * 2010-09-15 2017-12-21 Самсунг Электроникс Ко., Лтд. Устройство и способ для кодирования/декодирования для расширения диапазона высоких частот
US10152983B2 (en) 2010-09-15 2018-12-11 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high frequency bandwidth extension
RU2575680C2 (ru) * 2010-12-29 2016-02-20 Самсунг Электроникс Ко., Лтд. Устройство и способ для кодирования/декодирования для расширения диапазона высоких частот
RU2672133C1 (ru) * 2010-12-29 2018-11-12 Самсунг Электроникс Ко., Лтд. Устройство и способ для кодирования/декодирования для расширения диапазона высоких частот
US10453466B2 (en) 2010-12-29 2019-10-22 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high frequency bandwidth extension
US10811022B2 (en) 2010-12-29 2020-10-20 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high frequency bandwidth extension

Also Published As

Publication number Publication date
TW324123B (en) 1998-01-01
CN1046366C (zh) 1999-11-10
SE501305C2 (sv) 1995-01-09
KR100220377B1 (ko) 1999-09-15
FI950311A (fi) 1995-01-24
SE9301798L (sv) 1994-11-27
DE69421498D1 (de) 1999-12-09
DK0653091T3 (da) 2000-01-03
ES2141234T3 (es) 2000-03-16
HK1013881A1 (en) 1999-09-10
EP0653091A1 (en) 1995-05-17
CN1110070A (zh) 1995-10-11
DE69421498T2 (de) 2000-07-13
KR950702732A (ko) 1995-07-29
JPH07509792A (ja) 1995-10-26
US5579432A (en) 1996-11-26
AU4811296A (en) 1996-05-23
AU670383B2 (en) 1996-07-11
SE9301798D0 (sv) 1993-05-26
GR3032107T3 (en) 2000-03-31
EP0653091B1 (en) 1999-11-03
NZ266908A (en) 1997-03-24
SG46977A1 (en) 1998-03-20
AU681551B2 (en) 1997-08-28
WO1994028542A1 (en) 1994-12-08
CN1218945A (zh) 1999-06-09
CA2139628A1 (en) 1994-12-08
AU6901694A (en) 1994-12-20
FI950311A0 (fi) 1995-01-24

Similar Documents

Publication Publication Date Title
EP0548054B1 (en) Voice activity detector
EP0677202B1 (en) Discriminating between stationary and non-stationary signals
RU2127912C1 (ru) Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков
KR100742443B1 (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
EP1159732B1 (en) Endpointing of speech in a noisy signal
US5276765A (en) Voice activity detection
EP2162881B1 (en) Voice activity detection with improved music detection
US5970441A (en) Detection of periodicity information from an audio signal
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
KR102012325B1 (ko) 오디오 신호의 배경 잡음 추정
CN107331386B (zh) 音频信号的端点检测方法、装置、处理***及计算机设备
KR100631608B1 (ko) 음성 판별 방법
US5632004A (en) Method and apparatus for encoding/decoding of background sounds
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
US6757651B2 (en) Speech detection system and method
NZ286953A (en) Speech encoder/decoder: discriminating between speech and background sound
JPH064099A (ja) 音声符号化装置