RU2018132859A - Классификация и кодирование аудиосигналов - Google Patents

Классификация и кодирование аудиосигналов Download PDF

Info

Publication number
RU2018132859A
RU2018132859A RU2018132859A RU2018132859A RU2018132859A RU 2018132859 A RU2018132859 A RU 2018132859A RU 2018132859 A RU2018132859 A RU 2018132859A RU 2018132859 A RU2018132859 A RU 2018132859A RU 2018132859 A RU2018132859 A RU 2018132859A
Authority
RU
Russia
Prior art keywords
decoding mode
stability
decoding
frame
paragraphs
Prior art date
Application number
RU2018132859A
Other languages
English (en)
Other versions
RU2018132859A3 (ru
RU2765985C2 (ru
Inventor
Эрик НОРВЕЛЛ
Стефан БРУН
Original Assignee
Телефонактиеболагет Лм Эрикссон (Пабл)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Телефонактиеболагет Лм Эрикссон (Пабл) filed Critical Телефонактиеболагет Лм Эрикссон (Пабл)
Publication of RU2018132859A publication Critical patent/RU2018132859A/ru
Publication of RU2018132859A3 publication Critical patent/RU2018132859A3/ru
Application granted granted Critical
Publication of RU2765985C2 publication Critical patent/RU2765985C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Claims (35)

1. Способ для декодирования аудиосигнала, при этом способ содержит этапы, на которых:
- определяют (201) значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирают (204) режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и
- применяют (205) выбранный режим декодирования.
2. Способ по п. 1, дополнительно содержащий этапы, на которых:
- подвергают (202) фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000001
стабильности;
- преобразуют (203) фильтрованное значение
Figure 00000002
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима декодирования основан на параметре S(m) стабильности.
3. Способ по п. 1 или 2, в котором выбор режима декодирования содержит этап, на котором определяют то, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.
4. Способ по любому из предшествующих пунктов, в котором, по меньшей мере, один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и, по меньшей мере, один режим декодирования является более подходящим для музыки, чем для речи.
5. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.
6. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между различными свойствами сигнала в аудиосигнале.
7. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
8. Способ по любому из пп. 1-4, в котором выбор режима декодирования дополнительно основан на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
9. Способ по любому из предшествующих пунктов, в котором значение D(m) стабильности определяется следующим образом:
Figure 00000003
,
где bi обозначает полосу спектра в кадре m, и E(m,b) обозначает показатель энергии для полосы b частот в кадре m.
10. Декодер для декодирования аудиосигнала, причем декодер выполнен с возможностью:
- определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирать режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и
- применять выбранный режим декодирования.
11. Декодер по п. 10, дополнительно выполненный с возможностью:
- подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000001
стабильности; и
- преобразовывать (203) фильтрованное значение
Figure 00000002
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима декодирования основан на параметре S(m) стабильности.
12. Декодер по п. 10 или 11, в котором выбор режима декодирования выполнен с возможностью содержать определение того, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.
13. Декодер по любому из пп. 10-12, в котором, по меньшей мере, один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и, по меньшей мере, один режим декодирования является более подходящим для музыки, чем для речи.
14. Декодер по любому из пп. 10-13, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.
15. Декодер по любому из пп. 10-14, в котором выбор режима декодирования выполнен с возможностью быть основанным на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
16. Декодер по любому из пп. 10-13, выполненный с возможностью дополнительно основывать выбор режима декодирования на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
17. Декодер по любому из пп. 10-16, выполненный с возможностью определять значение D(m) стабильности следующим образом:
Figure 00000004
,
где bi обозначает полосу спектра в кадре m, и E(m,b) обозначает показатель энергии для полосы b частот в кадре m.
18. Хост-устройство, содержащее декодер по любому из пп. 10-17.
19. Машиночитаемый носитель хранения данных, содержащий инструкции, которые при выполнении, по меньшей мере, на одном процессоре инструктируют, по меньшей мере, одному процессору осуществлять способ по любому из пп. 1-9.
RU2018132859A 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов RU2765985C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201461993639P 2014-05-15 2014-05-15
US61/993,639 2014-05-15

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2016148874A Division RU2668111C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов

Publications (3)

Publication Number Publication Date
RU2018132859A true RU2018132859A (ru) 2018-12-06
RU2018132859A3 RU2018132859A3 (ru) 2021-09-09
RU2765985C2 RU2765985C2 (ru) 2022-02-07

Family

ID=53276234

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2018132859A RU2765985C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов
RU2016148874A RU2668111C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов

Family Applications After (1)

Application Number Title Priority Date Filing Date
RU2016148874A RU2668111C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов

Country Status (8)

Country Link
US (4) US9666210B2 (ru)
EP (1) EP3143620A1 (ru)
KR (2) KR20160146910A (ru)
CN (2) CN106415717B (ru)
AR (1) AR105147A1 (ru)
MX (2) MX368572B (ru)
RU (2) RU2765985C2 (ru)
WO (1) WO2015174912A1 (ru)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101291193B1 (ko) 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
KR20160146910A (ko) * 2014-05-15 2016-12-21 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 신호 분류 및 코딩
WO2016017238A1 (ja) * 2014-07-28 2016-02-04 日本電信電話株式会社 符号化方法、装置、プログラム及び記録媒体
CN112967727A (zh) * 2014-12-09 2021-06-15 杜比国际公司 Mdct域错误掩盖
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
CN107731223B (zh) * 2017-11-22 2022-07-26 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
CN108123786B (zh) * 2017-12-18 2020-11-06 中国电子科技集团公司第五十四研究所 基于交织多址的tdcs多址接入方法
CN113348507A (zh) * 2019-01-13 2021-09-03 华为技术有限公司 高分辨率音频编解码
CN112634920B (zh) * 2020-12-18 2024-01-02 平安科技(深圳)有限公司 基于域分离的语音转换模型的训练方法及装置
WO2024126467A1 (en) * 2022-12-13 2024-06-20 Telefonaktiebolaget Lm Ericsson (Publ) Improved transitions in a multi-mode audio decoder

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6256487B1 (en) 1998-09-01 2001-07-03 Telefonaktiebolaget Lm Ericsson (Publ) Multiple mode transmitter using multiple speech/channel coding modes wherein the coding mode is conveyed to the receiver with the transmitted signal
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
EP1722359B1 (en) 2004-03-05 2011-09-07 Panasonic Corporation Error conceal device and error conceal method
US7596491B1 (en) * 2005-04-19 2009-09-29 Texas Instruments Incorporated Layered CELP system and method
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
EP2575129A1 (en) * 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
AU2009267507B2 (en) * 2008-07-11 2012-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and discriminator for classifying different segments of a signal
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US20110320193A1 (en) * 2009-03-13 2011-12-29 Panasonic Corporation Speech encoding device, speech decoding device, speech encoding method, and speech decoding method
CN101661749A (zh) * 2009-09-23 2010-03-03 清华大学 一种语音和音乐双模切换编/解码的方法
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
CN103620672B (zh) * 2011-02-14 2016-04-27 弗劳恩霍夫应用研究促进协会 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
KR20160146910A (ko) * 2014-05-15 2016-12-21 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 신호 분류 및 코딩

Also Published As

Publication number Publication date
RU2018132859A3 (ru) 2021-09-09
US20160260444A1 (en) 2016-09-08
RU2668111C2 (ru) 2018-09-26
US10297264B2 (en) 2019-05-21
RU2765985C2 (ru) 2022-02-07
RU2016148874A3 (ru) 2018-06-18
US20190057708A1 (en) 2019-02-21
RU2016148874A (ru) 2018-06-18
KR20160146910A (ko) 2016-12-21
MX2019011956A (es) 2019-10-30
US20180047404A1 (en) 2018-02-15
US10121486B2 (en) 2018-11-06
KR20180095123A (ko) 2018-08-24
US20170221497A1 (en) 2017-08-03
AR105147A1 (es) 2017-09-13
US9666210B2 (en) 2017-05-30
WO2015174912A1 (en) 2015-11-19
US9837095B2 (en) 2017-12-05
CN106415717B (zh) 2020-03-13
CN111192595B (zh) 2023-09-22
EP3143620A1 (en) 2017-03-22
MX368572B (es) 2019-10-08
CN111192595A (zh) 2020-05-22
CN106415717A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
RU2018132859A (ru) Классификация и кодирование аудиосигналов
ES2909183T3 (es) Procedimientos y aparatos de clasificación de señales de audio
RU2019137625A (ru) Способ и устройство для предоставления компенсационных смещений для набора восстановленных выборок изображения
RU2017103905A (ru) Улучшение классификации между кодированием во временной области и кодированием в частотной области
RU2637885C2 (ru) Способ и устройство предсказания сигнала возбуждения верхней полосы
RU2012115551A (ru) Кодирующее устройство, декодирующее устройство и способ
ES2689072T3 (es) Codificación de una señal de audio
JP6616470B2 (ja) 符号化方法、復号化方法、符号化装置及び復号化装置
DE602005006551D1 (de) Kodierungs-, dekodierungsvorrichtung und methode dafür
JP2005242363A5 (ru)
RU2015136540A (ru) Усовершенствованная коррекция потери кадров во время декодирования сигналов
JP2016505873A (ja) オーディオ信号符号化及び復号化方法並びにオーディオ信号符号化及び復号化装置
RU2017108839A (ru) Концепция переключения частот дискретизации в устройствах обработки аудиосигналов
RU2017143404A (ru) Устройство кодирования, способ кодирования, устройство декодирования, способ декодирования и программа
RU2015136789A (ru) Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
RU2016136008A (ru) Улучшенное расширение диапазона частот в декодере звукового сигнала
ES2807241T3 (es) Método de codificación, codificador, programa y medio de grabación
JP2017509915A5 (ja) オーディオ周波数信号の周波数帯域を拡張する方法及び装置
JP6439804B2 (ja) 損失フレームを処理するための方法および装置
ES2703565T3 (es) Aparato, método, programa y soporte de registro de análisis predictivo lineal
CA2935084C (en) Signal processing method and device
CA2912477C (en) Signal encoding and decoding methods and devices
RU2016146916A (ru) Усовершенствованная коррекция потери кадров с помощью речевой информации
CN104301064B (zh) 处理丢失帧的方法和解码器
US9330670B2 (en) Computing device and signal enhancement method