RU2668111C2 - Классификация и кодирование аудиосигналов - Google Patents

Классификация и кодирование аудиосигналов Download PDF

Info

Publication number
RU2668111C2
RU2668111C2 RU2016148874A RU2016148874A RU2668111C2 RU 2668111 C2 RU2668111 C2 RU 2668111C2 RU 2016148874 A RU2016148874 A RU 2016148874A RU 2016148874 A RU2016148874 A RU 2016148874A RU 2668111 C2 RU2668111 C2 RU 2668111C2
Authority
RU
Russia
Prior art keywords
stability
frame
decoding
decoding mode
value
Prior art date
Application number
RU2016148874A
Other languages
English (en)
Other versions
RU2016148874A (ru
RU2016148874A3 (ru
Inventor
Эрик НОРВЕЛЛ
Стефан БРУН
Original Assignee
Телефонактиеболагет Лм Эрикссон (Пабл)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Телефонактиеболагет Лм Эрикссон (Пабл) filed Critical Телефонактиеболагет Лм Эрикссон (Пабл)
Publication of RU2016148874A publication Critical patent/RU2016148874A/ru
Publication of RU2016148874A3 publication Critical patent/RU2016148874A3/ru
Application granted granted Critical
Publication of RU2668111C2 publication Critical patent/RU2668111C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к кодированию аудио, более конкретно к анализу и согласованию характеристик входных сигналов для кодирования. Технический результат – повышение качества восстановленного аудиосигнала. Вариант осуществления способа, который должен осуществляться посредством декодера, содержит для кадра m: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит выбор режима декодирования, из множества режимов декодирования, на основе значения D(m) стабильности и применение выбранного режима декодирования. 4 н. и 15 з.п. ф-лы, 19 ил.

Description

Область техники, к которой относится изобретение
Изобретение относится к кодированию аудио, а более конкретно, к анализу и согласованию характеристик входных сигналов для кодирования.
Уровень техники
Сети сотовой связи развиваются в направлении более высоких скоростей передачи данных, повышенной пропускной способности и улучшенного покрытия. В организации по стандартизации Партнерский проект третьего поколения (3GPP) разработаны, а также в данный момент разрабатываются несколько технологий.
LTE (стандарт долгосрочного развития) является примером стандартизированной технологии. В LTE, технология доступа на основе OFDM (мультиплексирования с ортогональным частотным разделением каналов) используется для нисходящей линии связи и FDMA с одной несущей (SC-FDMA) для восходящей линии связи. Выделение ресурсов для беспроводных терминалов, также известных как абонентские устройства (UE), как в нисходящей линии связи, так и в восходящей линии связи, в общем, выполняется адаптивно с использованием быстрой диспетчеризации с учетом мгновенного шаблона трафика и характеристик распространения радиосигнала каждого беспроводного терминала. Один тип данных по LTE представляют собой аудиоданные, например, для речевой связи или потокового аудио.
Чтобы повышать производительность кодирования речи и аудио с низкой скоростью передачи битов, общеизвестно использовать априорные знания относительно характеристик сигналов и использовать моделирование прохождения сигналов. Для более сложных сигналов, несколько моделей кодирования или режимов кодирования могут использоваться для различных частей сигнала. Эти режимы кодирования также могут заключать в себе различные стратегии обработки канальных ошибок и потерянных пакетов. Предпочтительно выбирать надлежащий режим кодирования в любой момент.
Сущность изобретения
Решение, описанное в данном документе, относится к стабильной адаптации с низкой сложностью для классификации или различения сигналов, которая может использоваться как для выбора способа кодирования, так и для выбора способа маскирования ошибок, которые в данном документе обобщены в качестве выбора режима кодирования. В случае маскирования ошибок, решение относится к декодеру.
Согласно первому аспекту, предусмотрен способ для декодирования аудиосигнала. Способ содержит, для кадра m: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит выбор режима декодирования, из множества режимов декодирования, на основе значения D(m) стабильности; и применение выбранного режима декодирования.
Согласно второму аспекту, предусмотрен декодер для декодирования аудиосигнала. Декодер выполнен с возможностью, для кадра m: определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Декодер дополнительно выполнен с возможностью выбирать режим декодирования, из множества режимов декодирования, на основе значения D(m) стабильности; и применять выбранный режим декодирования.
Согласно третьему аспекту, предусмотрен способ для кодирования аудиосигнала. Способ содержит, для кадра m: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит выбор режима кодирования, из множества режимов кодирования, на основе значения D(m) стабильности; и применение выбранного режима кодирования.
Согласно четвертому аспекту, предусмотрен кодер для кодирования аудиосигнала. Кодер выполнен с возможностью, для кадра m: определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Кодер дополнительно выполнен с возможностью выбирать режим кодирования, из множества режимов кодирования, на основе значения D(m) стабильности; и применять выбранный режим кодирования.
Согласно пятому аспекту, предусмотрен способ для классификации аудиосигналов. Способ содержит, для кадра m аудиосигнала: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит классификацию аудиосигнала на основе значения D(m) стабильности.
Согласно шестому аспекту, предусмотрен классификатор аудиосигналов. Классификатор аудиосигналов выполнен с возможностью, для кадра m аудиосигнала: определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала; и дополнительно классифицировать аудиосигнал на основе значения D(m) стабильности.
Согласно седьмому аспекту, предусмотрено хост-устройство, содержащее декодер согласно второму аспекту.
Согласно восьмому аспекту, предусмотрено хост-устройство, содержащее кодер согласно четвертому аспекту.
Согласно девятому аспекту, предусмотрено хост-устройство, содержащее классификатор сигналов согласно шестому аспекту.
Согласно десятому аспекту, предусмотрена компьютерная программа, которая содержит инструкции, которые при выполнении по меньшей мере на одном процессоре инструктируют по меньшей мере одному процессору осуществлять способ согласно первому, третьему и/или шестому аспекту.
Согласно одиннадцатому аспекту, предусмотрен несущий элемент, содержащий компьютерную программу девятого аспекта, при этом несущий элемент представляет собой одно из электронного сигнала, оптического сигнала, радиосигнала или машиночитаемого носителя хранения данных.
Краткое описание чертежей
Далее изобретение описывается, в качестве примера, со ссылкой на прилагаемые чертежи, на которых:
Фиг. 1 является принципиальной схемой, иллюстрирующей сотовую сеть, в которой могут применяться варианты осуществления, представленные в данном документе;
Фиг. 2a и 2b являются блок-схемами последовательности операций, иллюстрирующими способы, осуществляемые посредством декодера согласно иллюстративным вариантам осуществления.
Фиг. 3a является схематичным графиком, иллюстрирующим кривую преобразования из фильтрованного значения стабильности в параметр стабильности;
Фиг. 3b является схематичным графиком, иллюстрирующим кривую преобразования из фильтрованного значения стабильности в параметр стабильности, причем кривая преобразования получается из дискретных значений;
Фиг. 4 является схематичным графиком, иллюстрирующим спектральную огибающую сигналов принимаемых аудиокадров;
Фиг. 5a-b являются блок-схемами последовательности операций, иллюстрирующими способы, осуществляемые в хост-устройстве для выбора процедуры маскирования потерь пакетов;
Фиг. 6a-c являются принципиальными блок-схемами, иллюстрирующими различные реализации декодера согласно иллюстративным вариантам осуществления;
Фиг. 7a-c являются принципиальными блок-схемами, иллюстрирующими различные реализации кодера согласно иллюстративным вариантам осуществления;
Фиг. 8a-c являются принципиальными блок-схемами, иллюстрирующими различные реализации классификатора согласно иллюстративным вариантам осуществления;
Фиг. 9 является принципиальной схемой, показывающей некоторые компоненты беспроводного терминала;
Фиг. 10 является принципиальной схемой, показывающей некоторые компоненты узла транскодирования; и
Фиг. 11 показывает один пример компьютерного программного продукта, содержащего машиночитаемое средство.
Подробное описание изобретения
Далее настоящее изобретение подробнее описывается со ссылкой на прилагаемые чертежи, на которых показаны определенные варианты осуществления изобретения. Тем не менее, это изобретение может быть осуществлено во множестве различных форм и не должно рассматриваться как ограниченное примерными вариантами осуществления, изложенными в данном документе; наоборот, эти варианты осуществления предоставляются в качестве примера, так что это раскрытие сущности является полным и всеобъемлющим и полностью передает объем изобретения специалистам в данной области техники. Аналогичные номера ссылаются на аналогичные элементы во всем описании.
Фиг. 1 является принципиальной схемой, иллюстрирующей сотовую сеть 8, в которой могут применяться варианты осуществления, представленные в данном документе. Сотовая сеть 8 содержит базовую сеть 3 и одну или более базовых радиостанций 1, здесь в форме усовершенствованных узлов B, также известных как усовершенствованные узлы B или eNB. Базовая радиостанция 1 также может иметь форму узлов B, BTS (базовых приемо-передающих станций) и/или BSS (подсистем базовой станции) и т.д. Базовая радиостанция 1 предоставляет радиоподключения для множества беспроводных терминалов 2. Термин "беспроводной терминал" также известен как терминал мобильной связи, абонентское устройство (UE), мобильный терминал, пользовательский терминал, пользовательский агент, беспроводное устройство, межмашинные устройства и т.д. и, например, может представлять собой то, что сегодня общеизвестно в качестве мобильного телефона или планшетного компьютера/переносного компьютера с беспроводным подключением либо стационарно установленного терминала.
Сотовая сеть 8, например, может соответствовать любому или комбинации LTE (стандарта долгосрочного развития), W-CDMA (широкополосного мультиплексирования с кодовым разделением каналов), EDGE (развития стандарта GSM (глобальной системы мобильной связи) с увеличенной скоростью передачи данных), GPRS (общей службы пакетной радиопередачи), CDMA2000 (множественного доступа с кодовым разделением каналов 2000) либо любой другой текущей или будущей беспроводной сети, такой как усовершенствованный стандарт LTE, при условии, что принципы, описанные далее, являются применимыми.
Связь по восходящей линии 4a связи (UL) из беспроводного терминала 2 и связь по нисходящей линии 4b связи (DL) в беспроводной терминал 2 между беспроводным терминалом 2 и базовой радиостанцией 1 выполняется по беспроводному радиоинтерфейсу. Качество беспроводного радиоинтерфейса для каждого беспроводного терминала 2 может варьироваться во времени и в зависимости от позиции беспроводного терминала 2, вследствие таких эффектов, как затухание, многолучевое распространение, помехи и т.д.
Базовая радиостанция 1 также соединяется с базовой сетью 3 для подключения к центральным функциям и внешней сети 7, к примеру, к коммутируемой телефонной сети общего пользования (PSTN) и/или к Интернету.
Аудиоданные могут кодироваться и декодироваться, например, посредством беспроводного терминала 2 и узла 5 транскодирования, представляющего собой сетевой узел, размещаемый с возможностью осуществлять транскодирование аудио. Узел 5 транскодирования, например, может реализовываться в MGW (медиашлюзе), SBG (граничном сеансовом шлюзе)/BGF (функции граничного шлюза) или MRFP (процессоре функции мультимедийных ресурсов). Следовательно, как беспроводной терминал 2, так и узел 5 транскодирования представляют собой хост-устройства, которые содержат соответствующий аудио-кодер и декодер.
Использование набора способов восстановления после ошибок или маскирования ошибок и выбор соответствующей стратегии маскирования в зависимости от мгновенных характеристик сигналов во многих случаях позволяет повышать качество восстановленного аудиосигнала.
Чтобы выбирать наилучший режим кодирования/декодирования, кодер и/или декодер может пробовать все доступные режимы в анализе через синтез, также называемом методом с замкнутым контуром, либо он может основываться на классификаторе сигналов, который принимает решение относительно режима кодирования на основе анализа сигналов, также называемого решением с разомкнутым контуром. Типичные классы сигналов для речевых сигналов представляют собой вокализованную и невокализованную речевую активность. Для общих аудиосигналов обычная практика заключается в том, чтобы различать между речью, музыкой и потенциально фоновыми шумовыми сигналами. Аналогичная классификация может использоваться для управления способом восстановления после ошибок или маскирования ошибок.
Тем не менее, классификатор сигналов может заключать в себе анализ сигналов с высокими затратами с точки зрения вычислительной сложности и ресурсов запоминающего устройства. Нахождение подходящей классификации для всех сигналов также представляет собой сложную проблему.
Проблема вычислительной сложности может исключаться посредством использования способа классификации сигналов с использованием параметров кодека, которые уже доступны в способе кодирования или декодирования, в силу этого добавляя очень незначительную дополнительную вычислительную сложность. Способ классификации сигналов также может использовать различные параметры в зависимости от используемого режима кодирования, чтобы предоставлять надежный управляющий параметр в момент, когда изменяется режим кодирования. Это обеспечивает низкую сложность, стабильную адаптацию классификации сигналов, что может использоваться как для выбора способа кодирования, так и для выбора способа маскирования ошибок.
Варианты осуществления могут применяться в аудиокодеке, работающем в частотной области или области преобразования. В кодере, входные выборки
Figure 00000001
разделяются на временные сегменты или кадры фиксированной или варьирующейся длины. Чтобы обозначать выборки кадра
Figure 00000002
, записывается
Figure 00000003
. Обычно, используется фиксированная длина в 20 мс, с вариантом использования меньшей длины окна кодирования со взвешиванием или длины кадра, для быстрых временных изменений; например, в переходных звуках. Входные выборки преобразуются в частотную область посредством преобразования частоты. Множество аудиокодеков используют модифицированное дискретное косинусное преобразование (MDCT) вследствие его пригодности для кодирования. Также могут использоваться другие преобразования, такие как DCT (дискретное косинусное преобразование) или DFT (дискретное преобразование Фурье). Спектральные MDCT-коэффициенты кадра m находятся с использованием отношения:
Figure 00000004
,
где
Figure 00000005
представляет MDCT-коэффициент k в кадре m. Коэффициенты MDCT-спектра разделяются на группы или полосы частот. Эти полосы частот типично являются неравномерными по размеру, с использованием более узких полос частот для низких частот и более широкой полосы пропускания для верхних частот. Это предназначено для того, чтобы имитировать частотное разрешение слухового восприятия человека и релевантного проектирования для схемы кодирования с потерями. Коэффициенты полосы b частот в таком случае представляют собой вектор MDCT-коэффициентов:
Figure 00000006
где
Figure 00000007
и
Figure 00000008
обозначают начальный и конечный индексы полосы b частот. Значение энергии или среднеквадратическое (RMS) значение каждой полосы частот затем вычисляется следующим образом:
Figure 00000009
.
Энергии
Figure 00000010
полосы частот формируют приблизительную спектральную структуру или огибающую MDCT-спектра. Она квантуется с использованием подходящих технологий квантования, например, с использованием дифференциального кодирования в комбинации с энтропийным кодированием или векторным квантователем (VQ). Шаг квантования формирует индексы квантования, которые должны сохраняться или передаваться в декодер, а также воспроизводит соответствующие квантованные значения
Figure 00000011
огибающей. MDCT-спектр нормализуется с квантованными энергиями полосы частот, чтобы формировать нормализованный MDCT-спектр
Figure 00000012
:
Figure 00000013
.
Нормализованный MDCT-спектр дополнительно квантуется с использованием подходящих технологий квантования, таких как скалярные квантователи, в комбинации с технологиями дифференциального кодирования и энтропийного кодирования или векторного квантования. Типично, квантование заключает в себе формирование выделения
Figure 00000014
битов для каждой полосы b частот, которое используется для кодирования каждой полосы частот. Выделение битов может формироваться с включением перцепционной модели, которая назначает биты отдельным полосам частот на основе перцепционной важности.
Может быть желательным дополнительно направлять процессы кодера и декодера посредством адаптации к характеристикам сигналов. Если адаптация выполняется с использованием квантованных параметров, которые доступны как в кодере, так и в декодере, адаптация может синхронизироваться между кодером и декодером без передачи дополнительных параметров.
Решение, описанное в данном документе, в основном относится к адаптации процесса кодера и/или декодера к характеристикам сигнала, который должен быть кодирован или декодирован. Короче говоря, значение/параметр стабильности определяется для сигнала, и соответствующий режим кодирования и/или декодирования выбирается и применяется на основе определенного значения/параметра стабильности. При использовании в данном документе, "режим кодирования" может означать режим кодирования и/или режим декодирования. Как описано выше, режим кодирования может заключать в себе различные стратегии обработки канальных ошибок и потерянных пакетов. Дополнительно, при использовании в данном документе, выражение "режим декодирования" имеет намерение означать способ декодирования и/или способ для маскирования ошибок, который должен использоваться в ассоциации с декодированием и восстановлением аудиосигнала. Иными словами, при использовании в данном документе, различные режимы декодирования могут быть ассоциированы с идентичным способом декодирования, но с различными способами маскирования ошибок. Аналогично, различные режимы декодирования могут быть ассоциированы с идентичным способом маскирования ошибок, но с различными способами декодирования. Решение, описанное в данном документе, когда применяется в кодеке, относится к выбору способа кодирования и/или способа маскирования ошибок на основе нового показателя, связанного со стабильностью аудиосигнала.
Иллюстративные варианты осуществления
Ниже описываются иллюстративные варианты осуществления, связанные со способом для декодирования аудиосигнала, со ссылкой на фиг. 2a и 2b. Способ должен осуществляться посредством декодера, который может быть выполнен с возможностью совместимости с одним или более стандартов для декодирования аудио. Способ, проиллюстрированный на фиг. 2a, содержит определение 201 значения D(m) стабильности, в области преобразования, для кадра m аудиосигнала. Значение D(m) стабильности определяется на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. На основе значения D(m) стабильности, может выбираться 204 режим декодирования из множества режимов декодирования. Например, может выбираться способ декодирования и/или способ маскирования ошибок. Выбранный режим декодирования затем может применяться 205 для декодирования и/или восстановления по меньшей мере кадра m аудиосигнала.
Как проиллюстрировано на чертеже, способ дополнительно может содержать фильтрацию 202 нижних частот значения D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000015
стабильности. Фильтрованное значение
Figure 00000015
стабильности затем может преобразовываться 203 в скалярный диапазон [0,1] посредством использования, например, сигмоидальной функции, за счет этого достигая параметра S(m) стабильности. Выбор режима декодирования на основе D(m) затем должен быть реализован посредством выбора режима декодирования на основе параметра S(m) стабильности, который извлекается из D(m). Определение значения стабильности и извлечение параметра стабильности могут рассматриваться в качестве способа классификации сегмента аудиосигнала, при этом стабильность служит признаком определенного класса или типа сигналов.
В качестве примера, адаптация описанной процедуры декодирования может быть связана с выбором способа для маскирования ошибок из множества способов для маскирования ошибок на основе значения стабильности. Множество способов маскирования ошибок, содержащихся, например, в декодере, могут быть ассоциированы с одним способом декодирования или с различными способами декодирования. Как указано выше, термин "режим декодирования", используемый в данном документе, может означать способ декодирования и/или способ маскирования ошибок. На основе значения стабильности или параметра стабильности и возможно еще других критериев, может выбираться способ маскирования ошибок, который является самым подходящим для рассматриваемой части аудиосигнала. Значение и параметр стабильности могут служить признаком того, содержит рассматриваемый сегмент аудиосигнала речь или музыку, и/или, когда аудиосигнал содержит музыку: параметр стабильности может служить признаком различных типов музыки. По меньшей мере один из способов маскирования ошибок может быть более подходящим для речи, чем для музыки, и по меньшей мере еще один способ маскирования ошибок из множества способов маскирования ошибок может быть более подходящим для музыки, чем для речи. Затем, когда значение стабильности или параметр стабильности, возможно в комбинации с дополнительной детализацией, например, как проиллюстрировано ниже, указывают то, что рассматриваемая часть аудиосигнала содержит речь, может выбираться способ маскирования ошибок, который является более подходящим для речи, чем для музыки. Соответственно, когда значение или параметр стабильности указывает то, что рассматриваемая часть аудиосигнала содержит музыку, может выбираться способ маскирования ошибок, который является более подходящим для музыки, чем для речи.
Новизна способа для адаптации кодека, описанной в данном документе, заключается в том, чтобы использовать диапазон квантованной огибающей сегмента аудиосигнала (в области преобразования) для определения параметра стабильности. Разность D(m) между диапазоном огибающей в смежных кадрах может вычисляться следующим образом:
Figure 00000016
.
Полосы
Figure 00000017
частот обозначают диапазон полос частот, который используется для показателя разности огибающих. Он может представлять собой непрерывный диапазон полос частот, либо полосы частот могут быть непересекающимися, и в этом случае выражение
Figure 00000018
должно быть заменено корректным числом полос частот в диапазоне. Следует отметить, что при вычислении для самого первого кадра, значения
Figure 00000019
не существуют и в силу этого инициализируются, например, как значения огибающей, соответствующие пустому спектру.
Фильтрация нижних частот определенной разности D(m) выполняется для того, чтобы достигать более стабильного управляющего параметра. Одно решение состоит в том, чтобы использовать AR (авторегрессионный) фильтр первого порядка или коэффициент отсутствия последействия формы
Figure 00000020
,
где
Figure 00000021
является конфигурационным параметром AR-фильтра.
Чтобы упрощать использование фильтрованной разности или значения
Figure 00000022
стабильности, в кодеке/декодере, может быть желательным преобразовывать фильтрованную разность
Figure 00000022
в более подходящий диапазон использования. Здесь, сигмоидальная функция используется для того, чтобы преобразовывать значение
Figure 00000023
в диапазон [0,1], следующим образом
Figure 00000024
,
где
Figure 00000025
обозначает преобразованное значение стабильности. В иллюстративном варианте осуществления, константы
Figure 00000026
могут задаваться равными
Figure 00000027
,
Figure 00000028
и
Figure 00000029
, но b, c и d могут задаваться равными любому подходящему значению. Параметры сигмоидальной функции могут задаваться экспериментально таким образом, что она адаптирует наблюдаемый динамический диапазон входного параметра
Figure 00000023
к требуемому выходному решению
Figure 00000030
. Сигмоидальная функция предлагает хороший механизм для реализации порогового значения на основе мягких решений, поскольку могут управляться как точка перегиба, так и рабочий диапазон. Кривая преобразования показана на фиг 3a, где
Figure 00000022
находится на горизонтальной оси, а
Figure 00000031
находится на вертикальной оси. Поскольку показательная функция является вычислительно сложной, может быть желательным заменять функцию преобразования таблицей поиска. В этом случае, кривая преобразования должна быть дискретизирована в дискретных точках для пар
Figure 00000022
и
Figure 00000031
, как указано посредством окружностей на фиг. 3b. В дискретизированном случае, в предпочтительном аспекте,
Figure 00000022
и
Figure 00000031
могут обозначаться, например, как
Figure 00000032
и
Figure 00000033
, в этом случае подходящее значение
Figure 00000033
в таблице поиска находится посредством определения местоположения ближайшего значения,
Figure 00000032
, к
Figure 00000022
, например, посредством использования евклидова расстояния. Можно также отметить, что сигмоидальная функция может быть представлена только с одной половиной кривой перехода вследствие симметрии функции. Средняя точка Smid сигмоидальной функции задается как Smid=c/b+d. Посредством вычитания средней точки Smid следующим образом
Figure 00000034
,
можно получать соответствующий односторонний преобразованный параметр
Figure 00000035
стабильности с использованием квантования и поиска, как описано выше, и конечный параметр стабильности, извлекаемый в зависимости от позиции относительно средней точки следующим образом:
Figure 00000036
.
Дополнительно, может быть желательным применять логику хвостов сигнала или гистерезис к показателю стабильности огибающей. Также может быть желательным дополнять показатель с помощью детектора переходных частей. Пример детектора переходных частей с использованием логики хвостов сигнала подробнее указывается ниже.
Дополнительный вариант осуществления удовлетворяет потребность формировать показатель стабильности огибающей, который сам по себе является более стабильным и меньше подверженным статистическим флуктуациям. Как упомянуто выше, один вариант состоит в том, чтобы применять логику хвостов сигнала или гистерезис к показателю стабильности огибающей. Тем не менее, во многих случаях это может быть недостаточным, и с другой стороны, в некоторых случаях, достаточно только формировать дискретный вывод с ограниченным числом степеней стабильности. Для такого случая, обнаружено преимущество того, чтобы использовать сглаживающую функцию с использованием модели Маркова. Такая сглаживающая функция должна предоставлять более стабильные, т.е. менее флуктуирующие выходные значения, чем значения, которые могут достигаться с применением логики хвостов сигнала или гистерезиса к показателю стабильности огибающей. Например, возвращаясь к иллюстративным вариантам осуществления на фиг. 2a и/или 2b, выбор режима декодирования, например, способа декодирования и/или способа маскирования ошибок, на основе значения или параметра стабильности дополнительно может быть основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между различными свойствами сигнала в аудиосигнале. Различные состояния, например, могут представлять речь и музыку. Далее описывается подход использования модели Маркова для формирования дискретного вывода с ограниченным числом степеней стабильности.
Модель Маркова
Используемая модель Маркова содержит M состояний, при этом каждое состояние представляет определенную степень стабильности огибающей. В случае если M выбирается равным 2, одно состояние (состояние 0) может представлять сильно флуктуирующие спектральные огибающие, в то время как другое состояние (состояние 1) может представлять стабильные спектральные огибающие. Без концептуальной разности можно расширять эту модель на большее число состояний, например, для промежуточных степеней стабильности огибающей.
Эта модель состояния Маркова характеризуется посредством вероятностей перехода состояния, которые представляют вероятности того, чтобы переходить из каждого данного состояния в предыдущий момент времени в данное состояние в текущий момент времени. Например, моменты времени могут соответствовать индексам кадров m для текущего кадра и m-1 для ранее корректно принимаемого кадра. Следует отметить, что в случае потерь кадров вследствие ошибок при передаче, они могут представлять собой кадр, отличающийся от предыдущего кадра, который должен быть доступен без потерь кадров. Вероятности перехода состояния могут записываться в математическом выражении в качестве матрицы T переходов, в которой каждый элемент представляет вероятность
Figure 00000037
для перехода в состояние j при возникновении из состояния i. Для предпочтительной модели Маркова с 2 состояниями, матрица вероятностей перехода выглядит следующим образом
Figure 00000038
.
Можно отметить, что требуемый эффект сглаживания достигается посредством задания правдоподобий для пребывания в данном состоянии равными относительно большим значениям, в то время как правдоподобие (правдоподобия) для выхода из этого состояния получает небольшие значения.
Помимо этого, каждое состояние ассоциировано с вероятностью в данный момент времени. В момент предыдущего корректно принимаемого кадра m-1, вероятности состояний задаются посредством вектора:
Figure 00000039
.
Чтобы вычислять априорные правдоподобия для возникновения каждого состояния, вектор
Figure 00000040
вероятностей состояний умножается на матрицу вероятностей перехода:
Figure 00000041
.
Тем не менее, истинные вероятности состояний зависят не только от этих априорных правдоподобий, но также и от правдоподобий, ассоциированных с текущим наблюдением Pp(m) в момент m времени текущего кадра. Согласно вариантам осуществления, представленным в данном документе, значения измерения спектральной огибающей, которые должны быть сглажены, ассоциированы с такими правдоподобиями наблюдения. Поскольку состояние 0 представляет флуктуирующие спектральные огибающие, а состояние 1 представляет стабильные огибающие, низкое значение измерения стабильности
Figure 00000042
огибающей означает высокую вероятность для состояния 0 и низкую вероятность для состояния 1. С другой стороны, при измерении или наблюдении, стабильность
Figure 00000043
огибающей является большой, это ассоциировано с высокой вероятностью для состояния 1 и низкой вероятностью для состояния 0. Преобразование значений измерения стабильности огибающей в правдоподобия наблюдения состояний, которые оптимально подходят для предпочтительной обработки значений стабильности огибающей посредством вышеописанной сигмоидальной функции, является преобразованием "один к одному"
Figure 00000044
в вероятность наблюдения состояния для состояния 1 и преобразования "один к одному"
Figure 00000045
в вероятность наблюдения состояния для состояния 0. Иными словами, вывод преобразования сигмоидальной функции может быть вводом в сглаживающую функцию Маркова:
Figure 00000046
.
Следует отметить, что это преобразование сильно зависит от используемой сигмоидальной функции. Изменение этой функции может требовать введения функций повторного преобразования из
Figure 00000047
и
Figure 00000048
в соответствующие вероятности наблюдения состояний. Простое повторное преобразование, которое также может выполняться в дополнение к сигмоидальной функции, представляет собой применение аддитивного смещения и коэффициента масштабирования.
На следующем этапе обработки, вектор
Figure 00000049
вероятностей наблюдения состояний комбинируется с вектором
Figure 00000050
априорных вероятностей, который дает новый вектор
Figure 00000051
вероятностей состояний для кадра m. Эта комбинация выполняется посредством поэлементного умножения обоих векторов:
Figure 00000052
.
Поскольку вероятности этого вектора не обязательно суммируются в 1, вектор ренормализован, что, в свою очередь, дает в результате вектор вероятностей конечного состояния для кадра m:
Figure 00000053
.
На конечном этапе, наиболее вероятное состояние для кадра m возвращается посредством способа в качестве сглаженного и дискретизированного показателя стабильности огибающей. Это требует идентификации максимального элемента в векторе
Figure 00000054
вероятностей состояний:
Figure 00000055
.
Чтобы обеспечивать оптимальную работу описанного способа сглаживания на основе моделей Маркова для показателя стабильности огибающей, вероятности перехода состояния выбираются подходящим способом. Ниже показан пример матрицы вероятностей перехода, которая обнаружена как очень подходящая для задачи:
Figure 00000056
.
Из вероятностей в этой матрице вероятностей перехода можно видеть, что правдоподобие для пребывания в состоянии 0 является очень высоким в 0,999, тогда как правдоподобие для выхода из этого состояния является небольшим в 0,001. Следовательно, сглаживание показателя стабильности огибающей избирательно только для случая, когда значения измерения стабильности огибающей указывают низкую стабильность. Поскольку значения измерения стабильности, указывающие стабильную огибающую, являются относительно стабильными сами по себе, дополнительное сглаживание для них не считается необходимым. Соответственно, значения правдоподобия перехода для выхода из состояния 1 и для пребывания в состоянии 1 задаются одинаково равными 0,5.
Следует отметить, что увеличение разрешения сглаженного показателя стабильности огибающей может легко достигаться посредством увеличения числа M состояний.
Дополнительный вариант улучшения способа сглаживания показателя стабильности огибающей состоит в том, чтобы предусматривать дополнительные показатели, которые демонстрируют статистическую взаимосвязь со стабильностью огибающей. Такие дополнительные показатели могут использоваться аналогично ассоциированию наблюдений
Figure 00000057
показателя стабильности огибающей с вероятностями наблюдения состояний. В таком случае, вероятности наблюдения состояний вычисляются посредством поэлементного умножения соответствующих вероятностей наблюдения состояний различных используемых показателей.
Обнаружено, что показатель стабильности огибающей и, в частности, сглаженный показатель является особенно полезным для классификации речи/музыки. Согласно этому обнаружению, речь может хорошо быть ассоциирована с низкими показателями стабильности и, в частности, с состоянием 0 вышеописанной модели Маркова. Напротив, музыка может хорошо быть ассоциирована с высокими показателями стабильности и, в частности, с состоянием 1 модели Маркова.
Для ясности, в конкретном варианте осуществления, вышеописанная процедура сглаживания выполняется на следующих этапах в каждый момент m времени:
1. Ассоциирование текущего значения
Figure 00000058
измерения стабильности огибающей с вероятностями
Figure 00000059
наблюдения состояний.
2. Вычисление априорных вероятностей
Figure 00000060
, связанных с вероятностями
Figure 00000061
состояний в более ранний момент m-1 времени и связанных с вероятностями
Figure 00000062
перехода.
3. Умножение поэлементных априорных вероятностей
Figure 00000063
на вероятности
Figure 00000064
наблюдения состояний, включающее в себя ренормализацию, что дает в результате вектор
Figure 00000065
вероятностей состояний для текущего кадра m.
4. Идентификация состояния с наибольшей вероятностью в векторе
Figure 00000066
вероятностей состояний и возвращение его в качестве конечного сглаженного показателя
Figure 00000067
стабильности огибающей для текущего кадра m.
Фиг. 4 является схематичным графиком, иллюстрирующим спектральную огибающую 10 сигналов принимаемых аудиокадров, причем амплитуда каждой полосы частот представлена с помощью одного значения. Горизонтальная ось представляет частоту, а вертикальная ось представляет амплитуду, например, мощность и т.д. Чертеж иллюстрирует типичную компоновку увеличения полосы пропускания для верхних частот, но следует отметить, что может использоваться любой тип равномерной или неравномерной сегментации полос частот.
Обнаружение переходных частей
Как упомянуто выше, может быть желательным комбинировать значение стабильности или параметр стабильности с показателем переходного характера аудиосигнала. Чтобы достигать такого показателя, может использоваться детектор переходных частей. Например, можно определять то, какой тип заполнения шумом или управления ослаблением должен использоваться при декодировании аудиосигнала, на основе значения/параметра стабильности и показателя переходных частей. Примерный детектор переходных частей с использованием логики хвостов сигнала указывается ниже. Термин "хвост сигнала" обычно используется в обработке аудиосигналов и означает идею задержки решения в отношении того, чтобы исключать нестабильное поведение при переключении в переходный период, когда, в общем, считается безопасным задерживать решение.
Детектор переходных частей использует различный анализ в зависимости от режима кодирования. Он имеет счетчик
Figure 00000068
хвостов сигнала, чтобы обрабатывать логику хвостов сигнала, которая инициализируется равной нулю. Детектор переходных частей имеет заданное поведение для трех различных режимов:
- режим A: режим кодирования в полосе низких частот без значений огибающей
- режим B: нормальный режим кодирования со значениями огибающей
- режим C: переходный режим кодирования
Детектор переходных частей основывается на долговременной оценке энергии синтезирующего сигнала. Он обновляется по-разному в зависимости от режима кодирования.
Режим A
В режиме A, оценка
Figure 00000069
энергии кадра вычисляется следующим образом:
Figure 00000070
,
где
Figure 00000071
является наибольшим кодированным коэффициентом в синтезированной полосе низких частот режима A, и
Figure 00000072
являются синтезированными MDCT-коэффициентами кадра
Figure 00000073
. В кодере, они воспроизводятся с использованием способа локального синтеза, который может извлекаться в процессе кодирования, и они являются идентичными коэффициентам, полученным в процессе декодирования. Долговременная оценка
Figure 00000074
энергии обновляется с использованием фильтра нижних частот:
Figure 00000075
,
где
Figure 00000076
является коэффициентом фильтрации с примерным значением в 0,93. Если счетчик хвостов сигнала превышает единицу, он постепенно уменьшается.
Figure 00000077
Режим B
Долговременная оценка
Figure 00000078
энергии обновляется на основе квантованных значений огибающей:
Figure 00000079
,
где
Figure 00000080
является наибольшей полосой
Figure 00000081
частот, включенной в вычисление низкочастотной энергии. Долговременная оценка энергии обновляется идентично режиму A:
Figure 00000082
Снижение числа хвостов сигнала выполняется идентично режиму A.
Режим C
Режим C является переходным режимом, который кодирует спектр в четырех субкадрах (причем каждый субкадр соответствует 1 мс в LTE). Огибающая перемежается в шаблон, в котором часть порядка частоты сохраняется. Четыре энергии
Figure 00000083
субкадров вычисляются согласно следующему:
Figure 00000084
,
где
Figure 00000085
обозначает полосы b частот огибающей, которая представляет субкадр
Figure 00000086
, и
Figure 00000087
является размером этого набора. Следует отметить, что фактическая реализация должна зависеть от компоновки перемеженных субкадров в векторе огибающих.
Энергия
Figure 00000088
кадра формируется посредством суммирования энергий субкадров:
Figure 00000089
Тест переходных частей выполняется для кадров с высокой энергией посредством проверки следующего условия:
Figure 00000090
,
где
Figure 00000091
является пороговым значением энергии, и
Figure 00000092
является числом субкадров. Если вышеуказанное условие удовлетворяется, максимальная разность энергий субкадров находится следующим образом:
Figure 00000093
В завершение, если условие
Figure 00000094
является истинным, где
Figure 00000095
является пороговым значением принятия решения, которое зависит от реализации и настройки чувствительности, счетчик хвостов сигнала задается равным максимальному значению:
Figure 00000096
,
где
Figure 00000097
является конфигурируемым постоянным значением счетчика кадров. Теперь, если условие
Figure 00000098
является истинным, это означает то, что переходная часть обнаружена, и то, что счетчик хвостов сигнала еще не достиг нуля.
Решение
Figure 00000099
по хвосту сигнала переходной части может комбинироваться с показателем
Figure 00000100
стабильности огибающей таким образом, что модификации в зависимости от
Figure 00000101
применяются только тогда, когда
Figure 00000102
является истинным.
Конкретная проблема представляет собой вычисление показателя стабильности огибающей в случае аудиокодеков, которые не предоставляют представление спектральной огибающей в форме норм подполос частот (или коэффициентов масштабирования).
Далее описывается один вариант осуществления, разрешающий эту проблему и при этом получающий полезный показатель стабильности огибающей, который является согласованным с показателем стабильности огибающей, полученным на основе норм подполос частот или коэффициентов масштабирования, как описано выше.
Первый этап решения заключается в том, чтобы находить подходящее альтернативное представление спектральной огибающей данного кадра сигнала. Одно такое представление является представлением на основе линейных прогнозирующих коэффициентов (LPC, или коэффициентов кратковременного прогнозирования). Эти коэффициенты являются хорошим представлением спектральной огибающей, если LPC-порядок P выбран надлежащим образом, что, например, составляет 16 для широкополосных или сверхширокополосных сигналов. Представление LPC-параметров, которое является, в частности, подходящим для целей кодирования, квантования и интерполяции, представляет собой частоты спектральных линий (LSF) или связанные параметры, такие как, например, ISF (частоты спектральных иммитансов) или LSP (пары спектральных линий). Причина состоит в том, что эти параметры демонстрируют хорошую взаимосвязь со спектром огибающей соответствующего синтезирующего LPC-фильтра.
Показатель предшествующего уровня техники, оценивающий стабильность LSF-параметров текущего кадра по сравнению с LSF-параметрами предыдущего кадра, известен как показатель LSF-стабильности в кодеке ITU-T G.718. Этот показатель LSF-стабильности используется в контексте интерполяции LPC-параметров и в случае стираний кадров. Этот показатель задается следующим образом:
Figure 00000103
,
где P является порядком LPC-фильтра, a и b являются некоторыми подходящими константами. Помимо этого, показатель lsf_stab может быть ограничен интервалом от 0 до 1. Большое число, близкое к 1, означает то, что LSF-параметры являются очень стабильными, т.е. не сильно изменяющимися, тогда как низкое значение означает то, что параметры являются относительно нестабильными.
Одно обнаружение согласно вариантам осуществления, представленным в данном документе, состоит в том, что показатель LSF-стабильности также может использоваться в качестве конкретного полезного индикатора стабильности огибающей в качестве альтернативы сравнению текущих и более ранних спектральных огибающих в форме норм подполос частот (или коэффициентов масштабирования). С этой целью, согласно одному варианту осуществления, параметр lsf_stab вычисляется для текущего кадра (относительно более раннего кадра). Затем этот параметр повторно масштабируется посредством подходящего полиномиального преобразования, такого как:
Figure 00000104
,
где N является порядком полинома, и
Figure 00000105
являются коэффициентами полинома.
Повторное масштабирование, т.е. задание порядка и коэффициентов полинома выполняется таким образом, что преобразованные значения
Figure 00000106
ведут себя максимально возможно аналогично соответствующим значениям
Figure 00000107
стабильности огибающей, как описано выше. Обнаружено, что порядок полинома 1 является достаточным во многих случаях.
Классификация, фиг. 5a и 5b
Способ, описанный выше, может описываться как способ для классификации части аудиосигнала, и при этом соответствующий режим либо способ декодирования или кодирования может выбираться на основе результата классификации.
Фиг. 5a-b являются блок-схемами последовательности операций, иллюстрирующими способы, осуществляемые в аудиокодере хост-устройства, например, в качестве беспроводного терминала и/или узла транскодирования по фиг. 1, для помощи в выборе режима кодирования для аудио.
На этапе 501 получения параметров кодека, могут получаться параметры кодека. Параметры кодека являются параметрами, которые уже доступны в кодере или декодере хост-устройства.
На этапе 502 классификации, аудиосигнал классифицирован на основе параметров кодека. Классификация, например, может быть на голос или музыку. Необязательно, гистерезис используется на этом этапе, как подробнее пояснено выше, чтобы предотвращать перескок частот назад и вперед. Альтернативно или дополнительно, модель Маркова, к примеру, цепь Маркова, как подробнее пояснено выше, может использоваться для того, чтобы повышать стабильность классификации.
Например, классификация может быть основана на показателе стабильности огибающей спектральной информации аудиоданных, который затем вычисляется на этом этапе. Это вычисление, например, может быть основано на квантованном значении огибающей.
Необязательно, этот этап содержит преобразование показателя стабильности в предварительно заданный скалярный диапазон, как представлено посредством S(m) выше, необязательно с использованием таблицы поиска, чтобы уменьшать потребности в вычислениях.
Способ может повторяться для каждого принимаемого кадра аудиоданных.
Фиг 5b иллюстрирует способ для помощи в выборе режима кодирования и/или декодирования для аудио согласно одному варианту осуществления. Этот способ является аналогичным способу, проиллюстрированному на фиг. 5a, и описываются только новые или модифицированные этапы, относительно фиг. 5a.
На необязательном этапе 503 выбора режима кодирования, режим кодирования выбирается на основе классификации из этапа 502 классификации.
На необязательном этапе 504 кодирования, аудиоданные кодируются или декодируются на основе режима кодирования, выбранного на этапе 503 выбора режима кодирования.
Реализации
Способ и технологии, описанные выше, могут реализовываться в кодерах и/или декодерах, которые могут быть частью, например, устройств связи.
Декодер, фиг. 6a-6c
Иллюстративный вариант осуществления декодера обобщенно проиллюстрирован на фиг. 6a. Под декодером подразумевается декодер, выполненный с возможностью декодирования и возможно иного восстановления аудиосигналов. Декодер, возможно, дополнительно может быть выполнен с возможностью декодирования других типов сигналов. Декодер 600 выполнен с возможностью осуществлять по меньшей мере один из вариантов осуществления способа, описанных выше со ссылкой, например, на фиг. 2a и 2b. Декодер 600 ассоциирован с техническими признаками, целями и преимуществами, идентичными техническим признакам, целям и преимуществам вышеописанных вариантов осуществления способа. Декодер может быть выполнен с возможностью совместимости с одним или более стандартов для кодирования/декодирования аудио. Декодер описывается кратко во избежание необязательного повторения.
Декодер может реализовываться и/или описываться следующим образом.
Декодер 600 выполнен с возможностью декодирования аудиосигнала. Декодер 600 содержит схему 601 обработки или средство обработки и интерфейс 602 связи. Схема 601 обработки выполнена с возможностью инструктировать декодеру 600, в области преобразования, для кадра m: определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема 601 обработки дополнительно выполнена с возможностью инструктировать декодеру выбирать режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и применять выбранный режим декодирования.
Схема 601 обработки дополнительно может быть выполнена с возможностью инструктировать декодеру подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000015
стабильности; и преобразовывать фильтрованное значение
Figure 00000015
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого затем выбирается режим декодирования. Интерфейс 602 связи, который также может обозначаться, например, как интерфейс ввода-вывода, включает в себя интерфейс для отправки данных и приема данных из других объектов или модулей.
Схема 601 обработки, как проиллюстрировано на фиг. 6b, может содержать средство обработки, такое как процессор 603, например, CPU и запоминающее устройство 604 для сохранения или хранения инструкций. Запоминающее устройство в таком случае должно содержать инструкции, например, в форме компьютерной программы 605, которая при выполнении посредством средства 603 обработки инструктирует декодеру 600 выполнять операции, описанные выше.
Альтернативная реализация схемы 601 обработки показана на фиг 6c. Схема обработки здесь содержит блок 606 определения, выполненный с возможностью инструктировать декодеру 600: определять отношение, чтобы определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема обработки дополнительно содержит блок609 выбора, выполненный с возможностью инструктировать декодеру выбирать режим декодирования из множества режимов декодирования на основе значения D(m) стабильности. Схема обработки дополнительно содержит блок610 применения или блок декодирования, выполненный с возможностью инструктировать декодеру применять выбранный режим декодирования. Схема 601 обработки может содержать большее число блоков, к примеру, блок607 фильтрации, выполненный с возможностью инструктировать декодеру подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000015
стабильности. Схема обработки дополнительно может содержать блок608 преобразования, выполненный с возможностью инструктировать декодеру преобразовывать фильтрованное значение
Figure 00000015
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого затем выбирается режим декодирования. Эти необязательные блоки проиллюстрированы с пунктирным контуром на фиг. 6c.
Декодеры или кодеки, описанные выше, могут быть сконфигурированы для различных вариантов осуществления способа, описанных в данном документе, таких как использование модели Маркова и выбор между различными режимами декодирования, ассоциированными с маскированием ошибок.
Кодер 600 предположительно может содержать дополнительную функциональность для выполнения функций регулярного декодера.
Кодер, фиг. 7a-7c
Иллюстративный вариант осуществления кодера обобщенно проиллюстрирован на фиг. 7a. Под кодером подразумевается кодер, выполненный с возможностью кодирования аудиосигналов. Кодер, возможно, дополнительно может быть выполнен с возможностью кодирования других типов сигналов. Кодер 700 выполнен с возможностью осуществлять по меньшей мере один способ, соответствующий способам декодирования, описанным выше со ссылкой, например, на фиг. 2a и 2b. Иными словами, вместо выбора режима декодирования, в как указано на фиг. 2a и 2b, выбирается и применяется режим кодирования. Кодер 700 ассоциирован с техническими признаками, целями и преимуществами, идентичными техническим признакам, целям и преимуществам вышеописанных вариантов осуществления способа. Кодер может быть выполнен с возможностью совместимости с одним или более стандартов для кодирования/декодирования аудио. Кодер описывается кратко во избежание необязательного повторения.
Кодер может реализовываться и/или описываться следующим образом.
Кодер 700 выполнен с возможностью кодирования аудиосигнала. Кодер 700 содержит схему 701 обработки или средство обработки и интерфейс 702 связи. Схема 701 обработки выполнена с возможностью инструктировать кодеру 700, в области преобразования, для кадра m: определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема 701 обработки дополнительно выполнена с возможностью инструктировать кодеру выбирать режим кодирования из множества режимов кодирования на основе значения D(m) стабильности; и применять выбранный режим кодирования.
Схема 701 обработки дополнительно может быть выполнена с возможностью инструктировать кодеру подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000015
стабильности; и преобразовывать фильтрованное значение
Figure 00000015
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого затем выбирается режим кодирования. Интерфейс 702 связи, который также может обозначаться, например, как интерфейс ввода-вывода, включает в себя интерфейс для отправки данных и приема данных из других объектов или модулей.
Схема 701 обработки, как проиллюстрировано на фиг. 7b, может содержать средство обработки, такое как процессор 703, например, CPU и запоминающее устройство 704 для сохранения или хранения инструкций. Запоминающее устройство в таком случае должно содержать инструкции, например, в форме компьютерной программы 705, которая при выполнении посредством средства 703 обработки инструктирует кодеру 700 выполнять операции, описанные выше.
Альтернативная реализация схемы 701 обработки показана на фиг 7c. Схема обработки здесь содержит блок706 определения, выполненный с возможностью инструктировать кодеру 700: определять отношение, чтобы определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема обработки дополнительно содержит блок709 выбора, выполненный с возможностью инструктировать кодеру выбирать режим кодирования из множества режимов кодирования на основе значения D(m) стабильности. Схема обработки дополнительно содержит блок710 применения или модуль кодирования, выполненный с возможностью инструктировать кодеру применять выбранный режим кодирования. Схема 701 обработки может содержать большее число блоков, к примеру, блок707 фильтрации, выполненный с возможностью инструктировать кодеру подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000015
стабильности. Схема обработки дополнительно может содержать блок708 преобразования выполненный с возможностью инструктировать кодеру преобразовывать фильтрованное значение
Figure 00000015
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого затем выбирается режим декодирования. Эти необязательные блоки проиллюстрированы с пунктирным контуром на фиг. 7c.
Кодеры или кодеки, описанные выше, могут быть сконфигурированы для различных вариантов осуществления способа, описанных в данном документе, таких как использование модели Маркова.
Кодер 700 предположительно может содержать дополнительную функциональность для выполнения функций регулярного кодера.
Классификатор, фиг. 8a-8c
Иллюстративный вариант осуществления классификатора обобщенно проиллюстрирован на фиг. 8a. Под классификатором подразумевается классификатор, выполненный с возможностью классификации аудиосигналов, т.е. различения между различными типами или классами аудиосигналов. Классификатор 800 выполнен с возможностью осуществлять по меньшей мере один способ, соответствующий способам, описанным выше со ссылкой, например, на фиг. 5a и 5b. Классификатор 800 ассоциирован с техническими признаками, целями и преимуществами, идентичными техническим признакам, целям и преимуществам вышеописанных вариантов осуществления способа. Классификатор может быть выполнен с возможностью совместимости с одним или более стандартов для кодирования/декодирования аудио. Классификатор описывается кратко во избежание необязательного повторения.
Классификатор может реализовываться и/или описываться следующим образом.
Классификатор 800 выполнен с возможностью классификации аудиосигнала. Классификатор 800 содержит схему 801 обработки или средство обработки и интерфейс 802 связи. Схема 801 обработки выполнена с возможностью инструктировать классификатору 800, в области преобразования, для кадра m: определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема 801 обработки дополнительно выполнена с возможностью инструктировать классификатору классифицировать аудиосигнал на основе значения D(m) стабильности. Например, классификация может заключать в себе выбор класса аудиосигналов из множества возможных вариантов классов аудиосигналов. Схема 801 обработки дополнительно может быть выполнена с возможностью инструктировать классификатору указывать классификацию для использования, например, посредством декодера или кодера.
Схема 801 обработки дополнительно может быть выполнена с возможностью инструктировать классификатору подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000015
стабильности; и преобразовывать фильтрованное значение
Figure 00000015
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого может быть классифицирован аудиосигнал. Интерфейс 802 связи, который также может обозначаться, например, как интерфейс ввода-вывода, включает в себя интерфейс для отправки данных и приема данных из других объектов или модулей.
Схема 801 обработки, как проиллюстрировано на фиг. 8b, может содержать средство обработки, такое как процессор 803, например, CPU и запоминающее устройство 804 для сохранения или хранения инструкций. Запоминающее устройство в таком случае должно содержать инструкции, например, в форме компьютерной программы 805, которая при выполнении посредством средства 803 обработки инструктирует классификатору 800 выполнять операции, описанные выше.
Альтернативная реализация схемы 801 обработки показана на фиг 8c. Схема обработки здесь содержит блок 806 определения, выполненный с возможностью инструктировать классификатору 800: определять отношение, чтобы определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема обработки дополнительно содержит блок 809 классификации, выполненный с возможностью инструктировать классификатору классифицировать аудиосигнал. Схема обработки дополнительно может содержать блок 810 указания, выполненный с возможностью инструктировать классификатору указывать классификацию, например, кодеру или декодеру. Схема 801 обработки может содержать большее число блоков, к примеру, блок 807 фильтрации, выполненный с возможностью инструктировать классификатору подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000015
стабильности. Схема обработки дополнительно может содержать блок 808 преобразования, выполненный с возможностью инструктировать классификатору преобразовывать фильтрованное значение
Figure 00000015
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого может быть классифицирован аудиосигнал. Эти необязательные блоки проиллюстрированы с пунктирным контуром на фиг. 8c.
Классификаторы, описанные выше, могут быть сконфигурированы для различных вариантов осуществления способа, описанных в данном документе, таких как использование модели Маркова.
Классификатор 800 предположительно может содержать дополнительную функциональность для выполнения функций регулярного классификатора.
Фиг. 9 является принципиальной схемой, показывающей некоторые компоненты беспроводного терминала 2 по фиг. 1. Процессор 70 предоставляется с использованием любой комбинации одного или более из подходящего центрального процессора (CPU), многопроцессорной системы, микроконтроллера, процессора цифровых сигналов (DSP), специализированной интегральной схемы и т.д., допускающих выполнение программных инструкций 76, сохраненных в запоминающем устройстве 74, которое в силу этого может представлять собой компьютерный программный продукт. Процессор 70 может выполнять программные инструкции 76, чтобы выполнять любой один или более вариантов осуществления способов, описанных со ссылкой на фиг. 5a-b выше.
Запоминающее устройство 74 может представлять собой любую комбинацию оперативного запоминающего устройства (RAM) и постоянного запоминающего устройства (ROM). Запоминающее устройство 74 также содержит постоянное хранилище, которое, например, может представлять собой любое одно или комбинацию магнитного запоминающего устройства, оптического запоминающего устройства, полупроводникового запоминающего устройства или даже удаленно смонтированного запоминающего устройства.
Запоминающее устройство 73 данных также предусмотрено для считывания и/или сохранения данных во время выполнения программных инструкций в процессоре 70. Запоминающее устройство 73 данных может представлять собой любую комбинацию оперативного запоминающего устройства (RAM) и постоянного запоминающего устройства (ROM).
Беспроводной терминал 2 дополнительно содержит интерфейс 72 ввода-вывода для обмена данными с другими внешними объектами. Интерфейс 72 ввода-вывода также включает в себя пользовательский интерфейс, содержащий микрофон, динамик, дисплей и т.д. Необязательно, внешний микрофон и/или динамик/наушник могут подключаться к беспроводному терминалу.
Беспроводной терминал 2 также содержит одно или более приемо-передающих устройств 71, содержащих аналоговые и цифровые компоненты и подходящее число антенн 75 для беспроводной связи с беспроводными терминалами, как показано на фиг. 1.
Беспроводной терминал 2 содержит аудиокодер и аудиодекодер. Они могут реализовываться в программных инструкциях 76, выполняемых посредством процессора 70 или с использованием отдельных аппаратных средств (не показаны).
Другие компоненты беспроводного терминала 2 опускаются, чтобы не затруднять понимание принципов, представленных в данном документе.
Фиг. 10 является принципиальной схемой, показывающей некоторые компоненты узла 5 транскодирования по фиг. 1. Процессор 80 предоставляется с использованием любой комбинации одного или более из подходящего центрального процессора (CPU), многопроцессорной системы, микроконтроллера, процессора цифровых сигналов (DSP), специализированной интегральной схемы и т.д., допускающих выполнение программных инструкций 66, сохраненных в запоминающем устройстве 84, которое в силу этого может представлять собой компьютерный программный продукт. Процессор 80 может быть выполнен с возможностью осуществлять программные инструкции 86, чтобы выполнять любой один или более вариантов осуществления способов, описанных со ссылкой на фиг. 5a-b выше.
Запоминающее устройство 84 может представлять собой любую комбинацию оперативного запоминающего устройства (RAM) и постоянного запоминающего устройства (ROM). Запоминающее устройство 84 также содержит постоянное хранилище, которое, например, может представлять собой любое одно или комбинацию магнитного запоминающего устройства, оптического запоминающего устройства, полупроводникового запоминающего устройства или даже удаленно смонтированного запоминающего устройства.
Запоминающее устройство 83 данных также предусмотрено для считывания и/или сохранения данных во время выполнения программных инструкций в процессоре 80. Запоминающее устройство 83 данных может представлять собой любую комбинацию оперативного запоминающего устройства (RAM) и постоянного запоминающего устройства (ROM).
Узел 5 транскодирования дополнительно содержит интерфейс 82 ввода-вывода для обмена данными с другими внешними объектами, такими как беспроводной терминал по фиг. 1, через базовую радиостанцию 1.
Узел 5 транскодирования содержит аудиокодер и аудиодекодер. Они могут реализовываться в программных инструкциях 86, выполняемых посредством процессора 80 или с использованием отдельных аппаратных средств (не показаны).
Другие компоненты узла 5 транскодирования опускаются, чтобы не затруднять понимание принципов, представленных в данном документе.
Фиг. 11 показывает один пример компьютерного программного продукта 90, содержащего машиночитаемое средство. На этом машиночитаемом средстве может сохраняться компьютерная программа 91, причем эта компьютерная программа может инструктировать процессору осуществлять способ согласно вариантам осуществления, описанным в данном документе. В этом примере, компьютерный программный продукт представляет собой оптический диск, такой как CD (компакт-диск) или DVD (универсальный цифровой диск) или Blu-Ray-диск. Как пояснено выше, компьютерный программный продукт также может быть осуществлен в памяти устройства, к примеру, как компьютерный программный продукт 74 по фиг. 7 или компьютерный программный продукт 84 по фиг. 8. Хотя компьютерная программа 91 здесь схематично показана в качестве дорожки на проиллюстрированном оптическом диске, компьютерная программа может сохраняться любым способом, который является подходящим для компьютерного программного продукта, к примеру, на съемном полупроводниковом запоминающем устройстве (например, на карте памяти по стандарту универсальной последовательной шины (USB)).
Далее приводится набор перечислимых вариантов осуществления для того, чтобы дополнительно примерно иллюстрировать некоторые аспекты идей изобретения, представленных в данном документе.
1. Способ для помощи в выборе режима кодирования или декодирования для аудио, при этом способ осуществляется в аудиокодере или декодере и содержит этапы:
- получения (501) параметров кодека; и
- классификации (502) аудиосигнала на основе параметров кодека.
2. Способ согласно варианту 1 осуществления, дополнительно содержащий этапы:
- выбора (503) режима кодирования на основе классификации.
3. Способ согласно варианту 2 осуществления, дополнительно содержащий этап:
- кодирования или декодирования (504) аудиоданных на основе режима кодирования выбраны на этапе выбора.
4. Способ согласно любому из предыдущих вариантов осуществления, в котором этап классификации (502) аудиосигнала содержит использование гистерезиса.
5. Способ согласно любому из предыдущих вариантов осуществления, в котором этап классификации (502) аудиосигнала содержит использование цепи Маркова.
6. Способ согласно любому из предыдущих вариантов осуществления, в котором этап классификации (502) содержит вычисление показателя стабильности огибающей спектральной информации аудиоданных.
7. Способ согласно варианту 6 осуществления, в котором на этапе классификации, вычисление показателя стабильности огибающей основано на квантованном значении огибающей.
8. Способ согласно варианту 6 или 7 осуществления, в котором этап классификации содержит преобразование показателя стабильности в предварительно заданный скалярный диапазон.
9. Способ согласно варианту 8 осуществления, в котором этап классификации содержит преобразование показателя стабильности в предварительно заданный скалярный диапазон с использованием таблицы поиска.
10. Способ согласно любому из предыдущих вариантов осуществления, в котором показатель стабильности огибающей основан на сравнении характеристик огибающей в кадре m и предшествующем кадре m-1.
11. Хост-устройство (2, 5) для помощи в выборе режима кодирования для аудио, причем хост-устройство содержит:
- процессор (70, 80); и
- запоминающее устройство (74, 84) (76, 86), сохраняющее инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5):
- получать параметры кодека; и
- классифицировать аудиосигнал на основе параметров кодека.
12. Хост-устройство (2, 5) согласно варианту 11 осуществления, дополнительно содержащее инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) выбирать режим кодирования на основе классификации.
13. Хост-устройство (2, 5) согласно варианту 12 осуществления, дополнительно содержащее инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) кодировать аудиоданные на основе выбранного режима кодирования.
14. Хост-устройство (2, 5) согласно любому из вариантов 11-13 осуществления, в котором инструкции для того, чтобы классифицировать аудиосигнал, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) использовать гистерезис.
15. Хост-устройство (2, 5) согласно любому из вариантов 11-14 осуществления, в котором инструкции для того, чтобы классифицировать аудиосигнал, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) использовать цепь Маркова.
16. Хост-устройство (2, 5) согласно любому из вариантов 11-15 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) вычислять показатель стабильности огибающей спектральной информации аудиоданных.
17. Хост-устройство (2, 5) согласно варианту 16 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) вычислять показатель стабильности огибающей на основе квантованного значения огибающей.
18. Хост-устройство (2, 5) согласно варианту 16 или 17 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) преобразовывать показатель стабильности в предварительно заданный скалярный диапазон.
19. Хост-устройство (2, 5) согласно варианту 18 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) преобразовывать показатель стабильности в предварительно заданный скалярный диапазон с использованием таблицы поиска.
20. Хост-устройство (2, 5) согласно любому из вариантов 11-19 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) вычислять показатель стабильности огибающей на основе сравнения характеристик огибающей в кадре m и предшествующем кадре m-1.
21. Компьютерная программа (66, 91) для помощи в выборе режима кодирования для аудио, причем компьютерная программа содержит компьютерный программный код, который, когда запущен на хост-устройстве (2, 5), инструктирует хост-устройству (2, 5):
- получать параметры кодека; и
- классифицировать аудиосигнал на основе параметров кодека.
22. Компьютерный программный продукт (74, 84, 90), содержащий компьютерную программу согласно варианту 21 осуществления и машиночитаемое средство, на котором сохраняется компьютерная программа.
Изобретение в основном описано выше в отношении нескольких вариантов осуществления. Тем не менее, специалисты в данной области техники должны принимать во внимание, что варианты осуществления, отличные от вариантов осуществления, раскрытых выше, являются в равной степени возможными в пределах объема изобретения.
Заключительные замечания
Этапы, функции, процедуры, модули, блоки и/или части, описанные в данном документе, могут реализовываться в аппаратных средствах с использованием любой традиционной технологии, такой как технология изготовления дискретных схем или интегральных схем, включающих в себя как электронную схему общего назначения, так и специализированную схему.
Конкретные примеры включают в себя один или более надлежащим образом сконфигурированных процессоров цифровых сигналов и других известных электронных схем, например, дискретных логических элементов, соединенных с возможностью осуществлять специализированную функцию, или специализированных интегральных схем (ASIC).
Альтернативно по меньшей мере некоторые этапы, функции, процедуры, модули, блоки и/или части, описанные выше, могут реализовываться в программном обеспечении, таком как компьютерная программа, для выполнения посредством подходящей схемы обработки, включающей в себя один или более модулей обработки. Программное обеспечение может переноситься посредством несущего элемента, такого как электронный сигнал, оптический сигнал, радиосигнал или машиночитаемый носитель хранения данных до и/или во время использования компьютерной программы в сетевых узлах. Сетевой узел и сервер индексации, описанные выше, могут реализовываться в так называемом облачном решении, что означает то, что реализация может быть распределена, и сетевой узел и сервер индексации, следовательно, могут представлять собой так называемые виртуальные узлы или виртуальные машины.
Блок-схема или блок-схемы последовательности операций способа, представленные в данном документе, могут рассматриваться в качестве компьютерной блок-схемы или блок-схем последовательности операций способа при выполнении посредством одного или более процессоров. Соответствующий аппарат может задаваться как группа функциональных модулей, причем каждый этап, выполняемый посредством процессора, соответствует функциональному модулю. В этом случае, функциональные модули реализуются как компьютерная программа, запущенная на процессоре.
Примеры схемы обработки включают в себя, но не только, один или более микропроцессоров, один или более процессоров цифровых сигналов (DSP), один или более центральных процессоров (CPU) и/или любую подходящую программируемую логическую схему, такую как одна или более программируемых пользователем вентильных матриц (FPGA) или один или более программируемых логических контроллеров (PLC). Иными словами, блоки или модули в компоновках в различных узлах, описанных выше, могут реализовываться посредством комбинации аналоговых и цифровых схем и/или одного или более процессоров, сконфигурированных с программным обеспечением и/или микропрограммным обеспечением, например, сохраненным в запоминающем устройстве. Один или более этих процессоров, а также другие цифровые аппаратные средства могут быть включены в одну специализированную интегральную схему (ASIC), либо несколько процессоров и различные цифровые аппаратные средства могут быть распределены по нескольким отдельным компонентам, в отдельном корпусе либо собранным во внутрикристальную систему (SoC).
Также следует понимать, что может быть возможным многократно использовать общие характеристики обработки любого традиционного устройства или модуля, в котором реализуется предложенная технология. Также может быть возможным многократно использовать существующее программное обеспечение, например, посредством перепрограммирования существующего программного обеспечения или посредством добавления новых программных компонентов.
Вышеописанные варианты осуществления приведены просто в качестве примеров, и следует понимать, что предлагаемая технология не ограничена ими. Специалисты в данной области техники должны понимать, что различные модификации, комбинации и изменения могут быть выполнены в вариантах осуществления без отступления от настоящего объема. В частности, решения по различным частям в различных вариантах осуществления могут быть комбинированы в другие конфигурации, если технически осуществимо.
При использовании слова "содержать" или "содержащий", оно должно интерпретироваться как неограничивающее, т.е. означающее "состоять по меньшей мере из".
Следует также отметить, что в некоторых альтернативных реализациях, функции, указанные на блоках, могут выполняться не в порядке, указанном на блок-схемах последовательности операций способа. Например, два блока, показанные друг за другом, фактически могут выполняться практически одновременно, или блоки иногда могут выполняться в обратном порядке, в зависимости от включенной функциональности/этапов. Кроме того, функциональность данного блока блок-схем последовательности операций способа и/или принципиальных схем может разделяться на несколько блоков, и/или функциональность двух или более блоков блок-схем последовательности операций способа и/или принципиальных схем может быть по меньшей мере частично интегрирована. В завершение, другие блоки могут быть добавлены/вставлены между блоками, которые проиллюстрированы, и/или блоки/операции могут опускаться без отступления от объема идей изобретения.
Следует понимать, что выбор взаимодействующих блоков, а также именование блоков в этом раскрытии сущности служит только для примерной иллюстрации, и узлы, подходящие для того, чтобы осуществлять любые из способов, описанных выше, могут быть сконфигурированы множеством альтернативных вариантов, чтобы иметь возможность выполнять предлагаемые операции процедуры.
Также следует отметить, что блоки, описанные в этом раскрытии сущности, должны рассматриваться в качестве логических объектов и не обязательно в качестве отдельных физических объектов.

Claims (37)

1. Способ для декодирования аудиосигнала, при этом способ содержит этапы, на которых:
для кадра m:
- определяют (201) значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирают (204) режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и
- применяют (205) выбранный режим декодирования.
2. Способ по п. 1, дополнительно содержащий этапы, на которых:
- подвергают (202) фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000108
стабильности;
- преобразуют (203) фильтрованное значение
Figure 00000109
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима декодирования основан на параметре S(m) стабильности.
3. Способ по п. 1 или 2, в котором выбор режима декодирования содержит этап, на котором определяют - содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.
4. Способ по любому из предшествующих пунктов, в котором по меньшей мере один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и по меньшей мере один режим декодирования является более подходящим для музыки, чем для речи.
5. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.
6. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между различными свойствами сигнала в аудиосигнале.
7. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
8. Способ по любому из пп. 1-4, в котором выбор режима декодирования дополнительно основан на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
9. Способ по любому из предшествующих пунктов, в котором значение D(m) стабильности определяется следующим образом:
Figure 00000110
,
где bi обозначает полосу спектра в кадре m и E(m, b) обозначает показатель энергии для полосы b частот в кадре m.
10. Декодер для декодирования аудиосигнала, причем декодер выполнен с возможностью:
для кадра m:
- определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирать режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и в
- применять выбранный режим декодирования.
11. Декодер по п. 10, дополнительно выполненный с возможностью:
- подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000108
стабильности; и в
- преобразовывать (203) фильтрованное значение
Figure 00000109
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима декодирования основан на параметре S(m) стабильности.
12. Декодер по п. 10 или 11, в котором выбор режима декодирования выполнен с возможностью содержать определение того, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.
13. Декодер по любому из пп. 10-12, в котором по меньшей мере один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и по меньшей мере один режим декодирования является более подходящим для музыки, чем для речи.
14. Декодер по любому из пп. 10-13, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.
15. Декодер по любому из пп. 10-14, в котором выбор режима декодирования выполнен с возможностью быть основанным на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
16. Декодер по любому из пп. 10-13, выполненный с возможностью дополнительно основывать выбор режима декодирования на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
17. Декодер по любому из пп. 10-16, выполненный с возможностью определять значение D(m) стабильности следующим образом:
Figure 00000111
,
где bi обозначает полосу спектра в кадре m и E(m,b) обозначает показатель энергии для полосы b частот в кадре m.
18. Хост-устройство, содержащее декодер по любому из пп. 10-17.
19. Машиночитаемый носитель хранения данных, содержащий инструкции, которые при выполнении по меньшей мере на одном процессоре инструктируют по меньшей мере одному процессору осуществлять способ по любому из пп. 1-9.
RU2016148874A 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов RU2668111C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461993639P 2014-05-15 2014-05-15
US61/993,639 2014-05-15
PCT/SE2015/050531 WO2015174912A1 (en) 2014-05-15 2015-05-12 Audio signal classification and coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2018132859A Division RU2765985C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов

Publications (3)

Publication Number Publication Date
RU2016148874A RU2016148874A (ru) 2018-06-18
RU2016148874A3 RU2016148874A3 (ru) 2018-06-18
RU2668111C2 true RU2668111C2 (ru) 2018-09-26

Family

ID=53276234

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2016148874A RU2668111C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов
RU2018132859A RU2765985C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов

Family Applications After (1)

Application Number Title Priority Date Filing Date
RU2018132859A RU2765985C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов

Country Status (8)

Country Link
US (4) US9666210B2 (ru)
EP (1) EP3143620A1 (ru)
KR (2) KR20160146910A (ru)
CN (2) CN111192595B (ru)
AR (1) AR105147A1 (ru)
MX (2) MX368572B (ru)
RU (2) RU2668111C2 (ru)
WO (1) WO2015174912A1 (ru)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
WO2015174912A1 (en) * 2014-05-15 2015-11-19 Telefonaktiebolaget L M Ericsson (Publ) Audio signal classification and coding
PL3163571T3 (pl) * 2014-07-28 2020-05-18 Nippon Telegraph And Telephone Corporation Kodowanie sygnału dźwiękowego
EP3230980B1 (en) * 2014-12-09 2018-11-28 Dolby International AB Mdct-domain error concealment
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
CN107731223B (zh) * 2017-11-22 2022-07-26 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
CN108123786B (zh) * 2017-12-18 2020-11-06 中国电子科技集团公司第五十四研究所 基于交织多址的tdcs多址接入方法
BR112021012753A2 (pt) * 2019-01-13 2021-09-08 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
CN112634920B (zh) * 2020-12-18 2024-01-02 平安科技(深圳)有限公司 基于域分离的语音转换模型的训练方法及装置
WO2024126467A1 (en) * 2022-12-13 2024-06-20 Telefonaktiebolaget Lm Ericsson (Publ) Improved transitions in a multi-mode audio decoder

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080312914A1 (en) * 2007-06-13 2008-12-18 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
WO2009055192A1 (en) * 2007-10-25 2009-04-30 Motorola, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US7596491B1 (en) * 2005-04-19 2009-09-29 Texas Instruments Incorporated Layered CELP system and method
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
EP2407964A2 (en) * 2009-03-13 2012-01-18 Panasonic Corporation Speech encoding device, speech decoding device, speech encoding method, and speech decoding method
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
RU2507609C2 (ru) * 2008-07-11 2014-02-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и дискриминатор для классификации различных сегментов сигнала

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6256487B1 (en) * 1998-09-01 2001-07-03 Telefonaktiebolaget Lm Ericsson (Publ) Multiple mode transmitter using multiple speech/channel coding modes wherein the coding mode is conveyed to the receiver with the transmitted signal
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
WO2005086138A1 (ja) * 2004-03-05 2005-09-15 Matsushita Electric Industrial Co., Ltd. エラー隠蔽装置およびエラー隠蔽方法
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
CN101617360B (zh) * 2006-09-29 2012-08-22 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
CN101661749A (zh) * 2009-09-23 2010-03-03 清华大学 一种语音和音乐双模切换编/解码的方法
WO2011042464A1 (en) * 2009-10-08 2011-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
AR085218A1 (es) * 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio
WO2015174912A1 (en) * 2014-05-15 2015-11-19 Telefonaktiebolaget L M Ericsson (Publ) Audio signal classification and coding

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7596491B1 (en) * 2005-04-19 2009-09-29 Texas Instruments Incorporated Layered CELP system and method
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
US20080312914A1 (en) * 2007-06-13 2008-12-18 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
RU2470384C1 (ru) * 2007-06-13 2012-12-20 Квэлкомм Инкорпорейтед Кодирование сигнала с использованием кодирования с регуляризацией основных тонов и без регуляризации основных тонов
WO2009055192A1 (en) * 2007-10-25 2009-04-30 Motorola, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
RU2507609C2 (ru) * 2008-07-11 2014-02-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и дискриминатор для классификации различных сегментов сигнала
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US20130110507A1 (en) * 2008-09-15 2013-05-02 Huawei Technologies Co., Ltd. Adding Second Enhancement Layer to CELP Based Core Layer
EP2407964A2 (en) * 2009-03-13 2012-01-18 Panasonic Corporation Speech encoding device, speech decoding device, speech encoding method, and speech decoding method

Also Published As

Publication number Publication date
US20180047404A1 (en) 2018-02-15
US20190057708A1 (en) 2019-02-21
CN106415717B (zh) 2020-03-13
CN106415717A (zh) 2017-02-15
WO2015174912A1 (en) 2015-11-19
US9837095B2 (en) 2017-12-05
MX2019011956A (es) 2019-10-30
KR20160146910A (ko) 2016-12-21
US20160260444A1 (en) 2016-09-08
CN111192595B (zh) 2023-09-22
RU2765985C2 (ru) 2022-02-07
RU2018132859A3 (ru) 2021-09-09
MX368572B (es) 2019-10-08
RU2018132859A (ru) 2018-12-06
US10121486B2 (en) 2018-11-06
EP3143620A1 (en) 2017-03-22
US9666210B2 (en) 2017-05-30
KR20180095123A (ko) 2018-08-24
RU2016148874A (ru) 2018-06-18
US20170221497A1 (en) 2017-08-03
US10297264B2 (en) 2019-05-21
CN111192595A (zh) 2020-05-22
RU2016148874A3 (ru) 2018-06-18
AR105147A1 (es) 2017-09-13

Similar Documents

Publication Publication Date Title
RU2668111C2 (ru) Классификация и кодирование аудиосигналов
US11729079B2 (en) Selecting a packet loss concealment procedure
US9082416B2 (en) Estimating a pitch lag
US10553227B2 (en) Audio coding method and apparatus
US8990094B2 (en) Coding and decoding a transient frame