RU2440674C1

RU2440674C1 - Способ и средство для кодирования информации фонового шума

Info

Publication number: RU2440674C1
Application number: RU2010138565/08A
Authority: RU
Inventors: Штефан ШАНДЛЬ (AT); Штефан ШАНДЛЬ; Панджи СЕТИАВАН (DE); Панджи СЕТИАВАН; Эрве ТАДДЕЙ (DE); Эрве ТАДДЕЙ
Original assignee: Сименс Энтерпрайз Коммьюникейшнз Гмбх Унд Ко.Кг
Priority date: 2008-02-19
Filing date: 2009-02-02
Publication date: 2012-01-20
Also published as: EP2245620A1; JP5415460B2; KR20100123734A; WO2009103610A1; US8949121B2; DE102008009718A8; JP2011515705A; US20110004471A1; DE102008009718A1; KR101216496B1; EP2245620B1; CN101952887B; CN101952887A

Abstract

Изобретение относится к способу и средству для кодирования информации фонового шума при способе речевого кодирования. Соответствующий способ предусматривает такое выполнение кодера в речевом кодеке, что он спустя предварительно определенное время холостого хода (период ожидания) осуществляет повторное вычисление усредненной энергии и функции автокорреляции. При этом административные узлы в сети информируют кодер об установленном в сети передачи данных времени холостого хода. Технический результат - улучшение реализации прерывистой передачи в масштабируемых речевых кодеках. 2 н. и 7 з.п. ф-лы, 1 ил.

Description

Изобретение относится к способу и средству для кодирования информации фонового шума при способе речевого кодирования.

Для телефонных разговоров с самого начала развития телекоммуникации предусмотрено ограничение ширины полосы для аналоговой передачи речи. Передача речи осуществляется в ограниченном диапазоне частот от 300 Гц до 3400 Гц.

Такой ограниченный диапазон частот предусмотрен и при многих способах кодирования речевых сигналов для современной цифровой телекоммуникации. Перед процессом кодирования для этого осуществляется ограничение ширины полосы аналогового сигнала. Для кодирования и декодирования при этом используется кодек, который на основе описанного ограничения ширины полосы в частотном диапазоне между 300 Гц и 3400 Гц далее называется как узкополосный речевой кодек. Под понятием «кодек» при этом понимается как предписание кодирования для цифрового кодирования аудиосигналов, так и предписание декодирования для декодирования данных с целью восстановления аудиосигнала.

Узкополосный речевой кодек известен, например, из ITU-T-Рекомендации G.729. Посредством описанного там предписания кодирования предусматривается передача узкополосного речевого сигнала со скоростью передачи данных 8 кбит/с.

Кроме того, известны так называемые широкополосные речевые кодеки, которые для улучшения восприятия прослушивания предусматривают кодирование в расширенном частотном диапазоне. Подобный расширенный частотный диапазон лежит, например, между частотой 50 Гц и 7000 Гц. Широкополосный речевой кодек известен, например, из ITU-T-Рекомендации G.729.EV.

Обычно способы кодирования для широкополосных речевых кодеков выполняются масштабируемыми. Под масштабируемостью здесь понимается то, что передаваемые кодированные данные содержат различные ограниченные блоки, которые содержат узкополосную составляющую, широкополосную составляющую и/или полную ширину полосы кодированного речевого сигнала. Такое масштабируемое выполнение обеспечивает, с одной стороны, обратную совместимость на стороне приемника, а с другой стороны предоставляет простую возможность, в случае ограниченных пропускных способностей передачи данных в канале передачи, согласование на стороне передатчика и приемника скорости передачи данных и величины передаваемых кадров данных.

Для снижения скорости передачи данных посредством кодека обычно предусматривается сжатие передаваемых данных. Сжатие реализуется, например, посредством способа кодирования, при котором для кодирования речевых данных определяются параметры для сигнала возбуждения и параметры фильтра. Параметры фильтра, а также параметры, определяющие сигнал возбуждения, затем передаются в приемник. Там посредством кодека синтезируется синтезированный речевой сигнал, который в максимально возможной степени подобен первоначальному речевому сигналу в отношении субъективного слухового восприятия. С помощью этого способа, также называемого способом «анализа через синтез», передаются не сами определенные и оцифрованные выборки, а определенные параметры, которые обеспечивают возможность синтеза речевого сигнала на стороне приемника.

Дополнительную возможность для сокращения скорости передачи данных предоставляет способ прерывистой передачи, известный специалистам также как определяемый термином DTX. Основополагающей целью DTX является снижение скорости передачи данных в случае речевой паузы.

Для этого на стороне передатчика используется распознавание речевой паузы (детектирование речевой активности - VAD), при котором при снижении ниже определенного уровня сигнала принимается решение о речевой паузе.

Обычно приемник во время речевой паузы не ожидает полной тишины. Напротив, полная тишина на стороне приемника вызвала бы заблуждение или привела бы к предположению о разъединении соединения. По этой причине применяются способы для формирования так называемого комфортного шума.

В случае комфортного шума речь идет о шуме, который синтезируется для заполнения фазы тишины на стороне приемника. Комфортный шум служит субъективному впечатлению продолжающего существовать соединения, не требуя предусматриваемой для передачи речевых сигналов скорости передачи данных. Иными словами, для кодирования шума на стороне передатчика требуются меньшие затраты, чем для кодирования речевых данных. Для того чтобы еще реалистически воспринимать синтезирование комфортного шума на стороне приема, данные передаются с существенно более низкой скоростью передачи данных. При этом передаваемые данные специалистами обозначаются как SID (описание вставки паузы).

Современные масштабируемые способы кодирования для широкополосных речевых кодеков до сих пор не предусматривали никакого способа прерывистой передачи.

В уровне техники существует проблема с применением прерывистой передачи (DTX) в связи с генератором комфортного шума на стороне приемника (CNG - генератор комфортного шума).

Известные в настоящее время способы прерывистой передачи предусматривают передачу SID-кадров с актуализированными параметрами для характеристики фонового шума только в том случае, если со стороны кодера обнаруживаются существенные изменения в энергии фонового шума во время неактивного речевого периода (речевой паузы). Это касается как узкополосных (от 50 Гц до 4 кГц), так и широкополосных речевых кодеков, которые поддерживают способы для прерывистой передачи. Обычно для принятия решения о передаче SID-кадра с актуализированными параметрами используется специфицированное в декодере граничное значение энергии (пороговое значение энергии). Это приводит к тому, что при непревышении определенного граничного значения энергии не посылается никакой SID-кадр. Со стороны сети передачи данных между приемником и передатчиком подобное прерывание в передаче SID-кадров воспринимается как состояние покоя или «свободный (незанятый) канал». Для гарантирования поддержания соединения («действующего соединения») тогда требуется дополнительный обмен данными, чтобы показать, что соединение должно поддерживаться.

Известный дополнительно предусматриваемый обмен данными осуществляется в настоящее время таким образом, что административный узел в сетевом управлении сетью передачи данных запрашивает от передающего узла, т.е. передающего кодера, повторно передать последний переданный SID-кадр, если прошедшее время холостого хода («период ожидания») относительно последнего посланного SID-кадра рассматривается как слишком длинное для соответствующего соединения. Для такой повторной передачи параметры вновь передаваемого SID-кадра не актуализируются. Кодер, таким образом, не выполняет никаких дополнительных действий.

Задачей изобретения является предложить улучшенную реализацию прерывистой передачи в масштабируемых речевых кодеках.

Эта задача решается признаками независимых пунктов формулы изобретения.

Основная идея изобретения состоит в том, чтобы кодер речевого кодека выполнить таким образом, чтобы он спустя предварительно определенное время холостого хода («периода ожидания») предпринимал новое определение или вычисление параметров относительно фонового шума, в частности определенной энергии и функции автокорреляции. Упомянутое определение параметров фонового шума соответствует, иными словами, кодированию шумового сигнала. При этом административные узлы в сети информируют кодер о времени холостого хода, установленном в сети передачи данных. Кодер определяет, таким образом, время холостого хода, например, через запрос административных узлов в сети передачи данных. Такой запрос необходим лишь однократно, если определенное время холостого хода сохраняется на стороне кодера.

Установка временного интервала для передаваемых SID-кадров позволяет административным узлам в сети передачи данных вынуждать кодер к передаче актуализированного кадра. Это гарантирует как актуализацию для лучшего восстановления фонового шума в CNG, так и более надежное поддержание соединения.

Преимущество соответствующего изобретению способа состоит в том, что для принятия решения, нужно ли передавать актуализированные параметры фонового шума в форме актуализированного SID-кадра, не требуется никакого сравнения энергии сигнала фонового шума с граничным значением энергии. Таким образом, способ экономит вычислительные ресурсы по отношению к известным способам.

Другое преимущество состоит в том, что установленная временная длительность между двумя SID-кадрами согласуется с требованиями соответствующей сети передачи данных.

Предпочтительные дальнейшие развития и выполнения изобретения следуют из зависимых пунктов формулы изобретения.

Предпочтительное выполнение изобретения предусматривает SID-структуру (SID-структуру битового потока), при которой узкополосная составляющая информации фонового шума отделена от широкополосной составляющей информации фонового шума. Раздельная обработка узкополосной и широкополосной информации фонового шума в SID-кадре обеспечивает возможность раздельного кодирования узкополосной и широкополосной составляющих фонового шума и делает обработку прозрачной. Такое выполнение, кроме того, имеет преимущество, состоящее в том, что на стороне приемника можно определить, должен ли комфортный шум обрабатываться на основе широкополосной составляющей передаваемого SID-кадра или на основе узкополосной составляющей. Это особенно выгодно для акустического восприятия на стороне приемника в ситуации, в которой скорость передачи для кадров речевой информации была снижена, чтобы передавалась еще только узкополосная речевая информация. Если, в частности, как в современном уровне техники, узкополосная речевая информация синтезируется в соединении с широкополосным шумом, это для приемника является очень мешающим. Упомянутое уменьшение скорости передачи для кадров речевой информации может, например, обуславливаться высокой нагрузкой (перегрузкой) сети между передатчиком и приемником. Существенно меньшие SID-кадры не затрагиваются такими сетевыми перегрузками. Для них, таким образом, не существует обязательное требование для сокращения их скорости передачи данных или их содержимого.

Предпочтительное выполнение изобретения предусматривает, что для определения параметров фонового шума узкополосной первой составляющей фонового шума определяются энергия и функция автокорреляции фонового шума. В узкополосной составляющей необходимо усреднение по относительно длинному временному интервалу, на практике по временному интервалу порядка, например, 100 мс. Применяемые параметры вычисления согласно этой форме выполнения включают в себя при этом энергию (не логарифмическую энергию) и функцию автокорреляции.

В начале промежутка времени, который классифицируется как неактивный или как речевая пауза, согласно другому предпочтительному варианту осуществления изобретения, вводится дополнительный период затягивания. Вновь введенный период затягивания, далее DTX-период затягивания, служит, по сравнению с до сих пор известным VAD-периодом затягивания (детектирования речевой активности), дополнительной, до сих пор неизвестной цели. В то время как оба типа периода затягивания преследуют цель обозначить несколько кадров как активные речевые кадры и, тем самым, избежать ложной классификации в конце речевого сигнала, DTX-период затягивания имеет дополнительную цель собирать информацию о фоновом шуме.

Предпочтительное выполнение изобретения предусматривает, что широкополосная вторая составляющая ослабляется. Ослабление широкополосной составляющей играет роль при ослаблении всей составляющей энергии в широкополосной составляющей. Эта мера необходима ввиду того факта, что генератор для формирования (синтезирования) комфортного шума в декодере не в состоянии формировать те же шумовые свойства, что и у исходного фонового шума в кодере.

Предпочтительное выполнение изобретения предусматривает, что ко всему сигналу фонового шума, то есть комбинации из широкополосной и узкополосной составляющих, применяется далее подключенная фильтрация для снижения предыскажений (постфильтр снижения предыскажений). Постфильтр снижения предыскажений приводит к уменьшению предыскажения энергии и более высоких частотных компонентов. Так как усреднение определенным образом деформирует спектральную огибающую, это ослабление может предпочтительным образом способствовать тому, чтобы уменьшать помеховый эффект искаженного широкополосного шума на приемник пользователя.

Пример выполнения с дополнительными преимуществами и формами выполнения изобретения далее поясняется более подробно со ссылками на чертеж, где показано временное представление перехода от классифицированного как речь к классифицированному как фоновый шум входному сигналу в декодере.

Далее более подробно описываются технические предпосылки, лежащие в основе изобретения, сначала без ссылок на чертеж.

В уровне техники существуют проблемы с применением прерывистой передачи (DTX) в связи с генератором комфортного шума на стороне приемника (CNG - генератор комфортного шума). Во время операции DTX/CNG должны учитываться следующие соображения:

1. Со стороны CNG требуется надлежащая генерация фонового шума или комфортного шума, который слушателем на стороне приемника должен восприниматься как реалистический. В случае широкополосного речевого кодека, например, речевого кодека с шириной полосы от 50 Гц до 7 кГц генерация широкополосного шума рассматривается как ухудшение. Кроме того, характер или «окрашивание» фонового шума на стороне декодера и кодера не всегда является одинаковым, так что современные решения, которые предусматривают формирование среднего значения энергии и спектральной огибающей, обуславливают искажение первоначальной информации фонового шума.

2. DTX-способ передает только тогда актуализированные SID-кадры, когда со стороны кодера обнаруживаются значительные изменения в энергии фонового шума во время неактивного речевого периода (речевой паузы). Это касается как узкополосного (от 50 Гц до 4 кГц), так и широкополосного кодеков, которые поддерживают способ DTX/CNG. Обычно центральную роль при этом играет граничное значение энергии (пороговое значение энергии). Это приводит к тому, что при непревышении определенного граничного значения энергии не посылаются никакие SID-кадры. Однако со стороны сети передачи данных между приемником и передатчиком подобные перебои в передаче SID-кадров рассматриваются как состояние покоя или «незанятый канал». Для обеспечения поддержания соединения тогда требуется дополнительный обмен данными, чтобы показать, что соединение должно поддерживаться.

В настоящее время вышеназванные проблемы преодолеваются следующим образом:

Относительно 1: Информация, касающаяся широкополосной составляющей, кодируется в SID-кадре. При этом усредненная логарифмическая энергия и усредненная спектральная частота иммитанса (ISF) используются для описания широкополосного фонового шума, например, в речевых кодеках G.722.2 и AMR-WB. При этом не предусматривается раздельная обработка нижней части и верхней части широкополосного фонового шума. Узкополосный речевой кодек G.729 применяет усредненную логарифмическую энергию и усредненную функцию автокорреляции. Период усреднения для энергии и период усреднения для функции автокорреляции при этом не совпадают.

Относительно 2: Административные узлы в сетевом управлении требуют от передающего узла, то есть от передающего кодера, снова передать последние переданные SID-кадры, если «незанятый период» рассматривается как слишком длинный для соответствующего соединения. Поэтому снова переданный SID-кадр и содержащаяся в нем информация не актуализируется. Кодер, таким образом, не выполняет никаких дополнительных действий.

Соответствующий изобретению способ предусматривает, что кодер выполняется таким образом, что он спустя определенное заданное время осуществляет повторное вычисление усредненной энергии и функции автокорреляции. Административные узлы в сети информируют при этом кодер о необходимом времени незанятости (ожидания).

Далее описаны другие формы выполнения для генерации SID-кадра.

Формируется SID-структура (SID-структура битового потока), в которой узкополосная составляющая информации фонового шума отделена от широкополосной составляющей информации фонового шума. Раздельная обработка узкополосной и широкополосной информации фонового шума в SID-кадре обеспечивает возможность отдельного кодирования узкополосной и широкополосной составляющих фонового шума и делает обработку прозрачной.

В узкополосной составляющей необходимо усреднение по относительно длинному временному интервалу речевой паузы, на практике по временному интервалу порядка, например, 100 мс. При этом применяемые параметры вычисления включают в себя энергию (не логарифмическую энергию) и функцию автокорреляции. Функция автокорреляции используется для спектрального представления огибающей. Общий коэффициент усиления может при этом компенсироваться комбинацией всех методов усиления и усреднения. Значения для функции автокорреляции нормируются посредством суммирования или формирования среднего значения (равного взвешивания). Это касается всех SID-кадров. Относительно длинное усреднение узкополосной составляющей приводит к сглаживанию узкополосной энергии и спектральной огибающей, так что внезапное изменение энергии не оказывает заметного влияния на синтезирование комфортного шума в приемнике. Тот же самый период усреднения применяется как для энергии, так и для усреднения спектральных огибающих, после того как первый SID-кадр формируется после начала речевого сигнала. Эта мера обеспечивает более консистентную оценку узкополосного фонового шума во время перехода от периода речи к периоду речевой паузы.

Далее даются ссылки на чертеж. Чертеж изображает речевой сигнал, который в определенный момент времени t спадает ниже определенного уровня сигнала, порогового значения, показанного на чертеже пунктирной линией. Ордината представляет собой уровень или значение энергии сигнала. Здесь на стороне передатчика используется распознавание речевой паузы (VAD - детектирование речевой активности), которое при спадании ниже порогового значения принимает решение о речевой паузе. VAD-способ предусматривает известный период затягивания VAD-HO, в котором продолжают передаваться активные речевые кадры, и только обычно после двух длин кадра происходит смена на режим, который предусматривает генерирование SID-кадров.

Согласно описываемой здесь форме выполнения изобретения вводится дополнительный период затягивания DTX-HO. Новый период затягивания DTX-HO примыкает к известному до сих пор периоду затягивания VAD-HO, который применяется как «черный ящик». Во время этого периода затягивания DTX-HO обрабатываемый в кодере сигнал все еще классифицируется как речевой сигнал, в то время как параллельно этому начинается определение параметров фонового шума. Скорость передачи данных речевого кодирования уже снижена, так как в начале речевой паузы не требуется высококачественное кодирование. Затем для узкополосной составляющей используется часть периода затягивания для формирования среднего значения первого SID-кадра. Вышеприведенные выводы относятся преимущественно к последним кадрам («Кадры») внутри периода затягивания DTX-HO, VAD-HO. Информация первых кадров периодов затягивания, напротив, преимущественно не используется.

Вновь введенный период затягивания DTX-HO служит, по сравнению с известным периодом затягивания VAD-HO, мотивированным потребностями детектирования речевой активности, дополнительной, до сих пор не учитывавшейся цели. В то время как оба типа периодов затягивания DTX-HO, VAD-HO преследуют цель несколько кадров обозначать как активные речевые кадры и тем самым избегать ложной классификации в конце речевого сигнала, период затягивания прерывистой передачи DTX-HO имеет дополнительную цель - собирать информацию о фоновом шуме.

Относительно преследуемой цели, избегать ложной классификации в конце речевого сигнала, новый период затягивания DTX-HO предоставляет дополнительную страховку в том, что по истечении периода затягивания DTX-HO с определенностью будет иметь место фоновый шум, а не речевой сигнал на входе декодера. При до сих пор применявшемся известном периоде затягивания VAD-HO могло не исключаться то, что в случае приложенного сигнала речь шла исключительно только о фоновых шумах. На практике в течение этого известного периода затягивания VAD-HO могли еще иметься речевые составляющие. Новый же период затягивания DTX-HO служит исключительно только обучению фоновому шуму.

Относительно выбора временной длительности этих периодов затягивания DTX-HO, VAD-HO и, тем самым, выбора количества кадров «Кадры», предпочтительной установкой является, например, так осуществлять выбор, чтобы предусматривалась временная длительность двух кадров - см. пунктирную ось «Кадры» - для известного периода затягивания VAD-HO и временная длительность пяти кадров для нового периода затягивания DTX-HO.

В широкополосной составляющей выполняется ослабление энергии. Ослабление широкополосной составляющей играет роль при ослаблении всей составляющей энергии в широкополосной составляющей. Эта мера необходима на основе того факта, что генератор для формирования (синтезирования) комфортного шума в декодере не в состоянии формировать те же самые шумовые свойства, что и у исходного фонового шума в кодере.

К выдаваемому широкополосному сигналу, то есть комбинации из широкополосной и узкополосной составляющей, применяется последующая фильтрация снижения предыскажения (постфильтр снижения предыскажения). Эта фильтрация ослабляет главным образом высокие частотные компоненты. Постфильтр снижения предыскажения приводит к снижению предыскажения энергии и высоких частотных компонентов. Так как усреднение определенным образом деформирует спектральную огибающую, это ослабление может способствовать тому, чтобы снижать мешающий эффект искаженного широкополосного шума на приемник пользователя.

Claims

1. Способ генерации SID-кадров для прерывистой передачи параметров фонового шума по сети передачи данных, при котором предусмотрено периодическое определение параметров фонового шума и осуществляемые на основе определенных параметров фонового шума генерация и передача SID-кадров, причем период соответствует определенному периоду времени холостого хода сети передачи данных.

2. Способ по п.1, отличающийся тем, что определяются параметры фонового шума узкополосной первой составляющей и широкополосной второй составляющей, и что генерация SID-кадра осуществляется с отдельными диапазонами для первой и второй составляющей.

3. Способ по п.2, отличающийся тем, что для определения параметров фонового шума узкополосной первой составляющей фонового шума определяются энергия и функция автокорреляции фонового шума.

4. Способ по п.3, отличающийся тем, что параметры фонового шума узкополосной первой составляющей определяются на временном интервале 100 мс.

5. Способ по любому из пп.1-4, отличающийся тем, что при переходе от категоризированного как речь сигнала к категоризированному как фоновый шум сигналу предусмотрен дополнительный период затягивания, во время которого осуществляется определение параметров фонового шума.

6. Способ по п.5, отличающийся тем, что широкополосная вторая составляющая ослабляется.

7. Способ по любому из пп.1-4 и 6, отличающийся тем, что ко всему сигналу фонового шума применяется последующая фильтрация уменьшения предыскажений.

8. Кодек со средствами для осуществления способа по любому из пп.1-7.

9. Кодек по п.8, отличающийся реализацией по известному как таковой ITU-T стандарту G.729.1.