TWI602172B - 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 - Google Patents

使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 Download PDF

Info

Publication number
TWI602172B
TWI602172B TW104126580A TW104126580A TWI602172B TW I602172 B TWI602172 B TW I602172B TW 104126580 A TW104126580 A TW 104126580A TW 104126580 A TW104126580 A TW 104126580A TW I602172 B TWI602172 B TW I602172B
Authority
TW
Taiwan
Prior art keywords
frame
encoder
decoder
parameters
concealment
Prior art date
Application number
TW104126580A
Other languages
English (en)
Other versions
TW201610985A (zh
Inventor
傑瑞米 列康提
班傑明 休伯特
麥可 史納貝
馬汀 迪茲
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201610985A publication Critical patent/TW201610985A/zh
Application granted granted Critical
Publication of TWI602172B publication Critical patent/TWI602172B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 發明領域
本發明係關於一種使用編碼器及解碼器之音訊編解碼器,其中有缺陷的(例如丟失、損壞或延遲)音訊訊框藉由使用錯誤隱蔽機制至少部分地重構。本發明藉由在位元流內提供選擇之錯誤隱蔽輔助參數而改進習知錯誤隱蔽機制,該等錯誤隱蔽輔助參數加強解碼器側之隱蔽。
發明背景
在VoIP系統中,封包以不同等待時間或甚至以調換之時間次序到達接收器。由於預期每一封包在一確定之週期性時間點在語音/音訊解碼器處解碼,故若可能,所謂的去抖動緩衝器需要移除時間抖動及恢復封包之間的正確次序。
去抖動緩衝器之可用性使得能夠使用頻道感知寫碼,其中當前訊框之部分冗餘複本經寫碼於編碼器內之 未來訊框的主複本之上。若當前訊框丟失或太遲到達接收器,則當前訊框之到達後一訊框內的部分冗餘複本可用於合成丟失之訊框。若特定訊框之部分冗餘複本需要完全傳輸,則可在編碼器處動態地控制主訊框與其部分冗餘複本之間的延遲(或訊框數目)(亦即,所謂的FEC偏移)以及決策,視實際可用系統延遲及訊框錯誤率(FER)(亦即,當前頻道狀況)而定。
雖然本技術需要減小主訊框的總尺寸以保持位元速率恆定,但相比於中等FER及較高FER處之基於非頻道感知/冗餘的方法考慮到較好品質。
諸如網際網路之網路除發送資料之外亦用於VolP通信,諸如會議。因此,將多個語音或音樂編碼成數位資料,該資料配置於封包中,且該等封包經由網路傳輸至接收端。VolP要求本過程即時發生。
允許即時使用之協定的不足之處在於該等協定不可靠,因為該等協定允許封包丟失,而不擷取該等封包。當此發生時,封包攜載之語音或音訊片段不經重構,且接收端聽到語音或音樂中之惱人間隙。此等間隙視為降低之服務品質。
為隱蔽封包已丟失之事實,已設計冗餘方案。編碼及傳輸重複原始資料之態樣的冗餘封包。若封包丟失,則封包之資料自其相應冗餘封包恢復及/或重構,該冗餘封包希望不會丟失。接收端處之抖動緩衝器收集主封包及冗餘封包且將其饋送至播放封包之解碼器。
界定用於RTP之第一媒體特定錯誤校正方案為RFC 2198[1]中指定之音訊冗餘寫碼。此經設計用於語音電話會議。每一封包含有較深度壓縮格式之音訊資料的原始訊框及先前訊框的冗餘複本兩者。
基於封包之訊務可經受較高丟包率、抖動及重定序。前向錯誤校正(FEC)為一種處理丟失封包問題的技術。大體而言,FEC包含傳輸冗餘資訊連同寫碼語音。解碼器嘗試使用冗餘資訊來重構丟失封包。媒體獨立FEC技術基於音訊流內之位元添加冗餘資訊(獨立於語音流之特性的較高位準知識)。另一方面,媒體相依FEC技術基於語音流的特性添加冗餘資訊。
授予專利US 6,757,654[2]描述一種用於寫碼語音資料之改進FEC技術。US 6,757,654揭示:「[本技術由以下部分構成]編碼器模組使用主合成模型主要編碼輸入語音信號來產生主編碼資料,且使用冗餘合成模型冗餘編碼輸入語音信號來產生冗餘編碼資料。封包化器將主編碼資料及冗餘編碼資料組合成一系列封包且經由基於封包的網路(諸如網際網路協定(IP)網路)傳輸該等封包。解碼模組使用主合成模型主要解碼封包且使用冗餘合成模型冗餘解碼封包。該技術在解碼期間及之後提供主合成模型與冗餘合成模型之間的互動來改進經合成之輸出語音信號的品質。舉例而言,該「互動」可採用使用另一模型在一個模型中更新狀態之形式。
此外,本技術利用主訊框及冗餘訊框之FEC交錯 耦合(亦即,用於訊框n之主資料與用於訊框n-1之冗餘資料的耦合)以在編碼器模組及解碼器模組處提供預見性處理。該預見性處理補充關於語音信號之可用資訊,且因此改進輸出合成語音的品質。
兩個模型寫碼語音信號之互動協作極大擴展迄今為止由習知系統涵蓋之冗餘寫碼的用途。」
會議論文[3]提出用於網際網路電話之聯合播出緩衝器及前向錯誤校正(FEC)調整方案,該方案合併端對端延遲對感知音訊品質之影響。會議論文[3]表示感知音訊品質隨端對端延遲及語音信號之失真兩者變化。開發出最佳化此品質量度的聯合率/錯誤/播出延遲控制演算法。
如[3]中所述,大部分音訊會議工具使用媒體特定FEC。信號處理FEC的原理為將使用不同品質寫碼器編碼之音訊的每一片段以多個封包傳輸。當封包丟失時,含有相同片段(可能經不同編碼)之另一封包可能夠覆蓋損失。
所有現有技術均基於冗餘,此意謂用後一訊框發送當前訊框的實際低位元速率版本。雖然冗餘音訊編碼可提供準確的修復(若冗餘複本等同於主訊框),但更有可能將使用較低位元速率,且因而將獲得較低品質。在高級語音及音訊寫碼之情況下,資料速率對於每一訊框而言變得更大,且傳輸訊框的實際低位元速率版本導致相對不佳品質。
因此,期望改進現有錯誤隱蔽機制。
發明概要
本發明的實施例藉由提供以下各者來創建一種改進的解決方案:至少具有獨立請求項1之特徵的編碼器、至少具有獨立請求項22之特徵的解碼器、如請求項42之系統、至少包含獨立請求項43之特徵的用於編碼之方法、至少包含獨立請求項44之特徵的用於解碼之方法、如請求項45之電腦程式、至少具有請求項46之特徵的編碼器、至少具有請求項55之特徵的解碼器、如獨立請求項62至64中任一項之裝置、至少具有獨立請求項65之特徵的切換式寫碼器或解碼器、至少具有獨立請求項66之特徵的變換域寫碼器或解碼器及如獨立請求項68之方法或電腦程式。
根據請求項1,提議提供一種用於寫碼類語音內容及/或通用音訊內容的編碼器,其中該編碼器經組態以在至少一些訊框中將參數嵌入位元流中,該等參數在原始訊框丟失、損壞或延遲的情況下加強隱蔽。即使標準隱蔽機制可用於丟失之訊框,但嵌入訊框中之參數將用於加強此隱蔽。因此,本發明提出不具有僅為主訊框之低位元速率版本的部分複本,而是傳輸僅將加強隱蔽之一些經選擇之參數。因此,解碼器可不同於如先前技術中提出之解碼器而運作。
已發現提供加強錯誤隱蔽之一些經選擇參數(例如,該等參數界定丟失之訊框的特性,該訊框將另外需要基於已丟失、損壞或延遲之有缺陷訊框之前的先前訊框加以估計)帶來(有缺陷的訊框之)良好錯誤隱蔽,同時保持所需的低位元速率。
換言之,傳輸加強隱蔽之參數使得有可能基於關於先前解碼之訊框的資訊重構有缺陷的訊框,其中隱蔽訊框之大部分資訊係源自在有缺陷的訊框之前(或之後)的一或多個訊框,但其中通常需要自前一或後一正確編碼之訊框導出的有缺陷的訊框之大部分相關特性中之一或多者(或錯誤隱蔽之最重要之參數中的一或多者)由加強隱蔽之參數以比較準確的方式表示。
換言之,加強錯誤隱蔽之嵌入參數較佳地不足以用於重構有缺陷的訊框,因為該等參數不包含所有要求類型之資訊,但支援錯誤隱蔽,因為最重要類型之資訊由該等參數提供,而用於隱蔽之其它類型之資訊必須自解碼器側處之先前解碼之訊框導出。
因此,實現錯誤隱蔽品質與位元速率之間的良好平衡。
在一實施例中,編碼器可經組態以創建主訊框及所謂的「部分複本」,其中該「部分複本」並非主訊框的低位元速率版本,但其中「部分複本」含有參數(例如在考慮中之訊框有缺陷之情況下隱蔽所必需之一些最相關參數)。換言之,如本文所使用,「部分複本」並非(原始)音訊內容的低位元速率表示,該音訊內容作為冗餘資訊嵌入位元流且可稍後用於全面合成輸出信號。取而代之,本發明概念為嵌入一些參數資料,亦即,若該參數資料可用則加強解碼器側處之隱蔽的前述參數。當使用此資訊時,解碼器必須處於隱蔽模式。因此,解碼器將解碼(歸因於去抖動 緩衝器延遲而可能可用的)有缺陷的(亦即丟失、損壞或延遲)的訊框的「部分複本」,且使用該等解碼參數來輔助解碼器側處之隱蔽例程。因此,當與藉由(例如以減少之位元速率)冗餘編碼整個主訊框之內容來編碼冗餘複本所需之大小相比時,編碼包含僅一或多個參數之部分複本可能需要的大小可減小,而通常亦可能使用相同位元速率或較高位元速率編碼部分複本。然而,本發明概念(亦即,藉由錯誤隱蔽輔助參數加強隱蔽)相比於習知解碼各別主訊框之低位元速率版本提供較好品質。
在一實施例中,該編碼器可經組態以延遲參數一段時間且將該等參數嵌入封包中,該封包經編碼且稍後適時發送。換言之,該編碼器首先發送第一封包中之主訊框。在一定時間延遲之情況下,編碼器隨後以另一封包發送「部分複本」,該封包比第一封包更遲發送。因此,編碼器仍量化該等參數,但將其添加至後一封包中之位元流。因此,即使當主訊框不可用或有缺陷,例如丟失、損壞或延遲時,其內容仍可在解碼器側處藉助於稍後發送且因而在解碼器處可用之參數以隱蔽的方式恰當地經重構(或至少近似,而無嚴重假影)。
在一實施例中,該編碼器可經組態以減小主訊框位元速率,其中主訊框位元速率減少與部分複本訊框寫碼機制一起判定主訊框與部分複本訊框之間的位元速率配置包括於恆定總位元速率內。因此,編碼器在發送主訊框及部分複本訊框時提供恆定總位元速率,而同時提供具有低 感知影響的良好音訊品質。
在一實施例中,編碼器可經組態以創建具有類語音內容類型及通用音訊內容類型中之一者的主訊框,以及具有類語音內容類型及通用音訊內容類型中之另一者的部分複本。因此,編碼器為通用的,由於其可處理單獨或彼此結合的不同類型之音訊內容。因此,此舉在編碼器適於組合(例如)ACELP主訊框與TCX部分冗餘複本時特別有用,或反之亦然。
在一實施例中,編碼器可為使用TCX寫碼方案之編解碼器的一部分。根據本實施例,編碼器較佳地使用TCX寫碼以有效編碼通用音訊內容、音樂、背景雜訊或類似者。編碼器可能可靠地判定及傳輸TCX特定參數,當部分冗餘訊框可(例如)不包括任何經編碼譜值且因而本身可能不足以重構有缺陷的訊框時,該等參數可用於解碼器側處之TCX隱蔽。
在一實施例中,編碼器可經組態以偵測訊框是否含有嘈雜的或類雜訊音訊信號或訊框是否含有具有在一段時間內平穩的銳譜線之雜訊底限,且基於該偵測將參數嵌入TCX訊框中。因此,可能已在編碼器側處做出關於電流信號特性之決策,以使得用於彼等信號之特定參數經編碼且發送至解碼器以加強隱蔽。
在一實施例中,參數可包含ISF或LSF參數,特定言之經預測性寫碼之ISF或LSF參數。ISF及LSF參數表示用於LPC參數之量化及寫碼。在TCX寫碼方案中,LPC用於 表示掩蔽臨限。此為重要參數且極其有助於在訊框丟失的情況下使其在解碼器側正確可用。尤其,若ISF/LSF經預測性地寫碼,則隱蔽品質將藉由使該資訊在隱蔽期間可用而改進,因為解碼器側上之預測器狀態將保持正確,亦即與編碼器同步,且此將導致不可用的主訊框之快速恢復。
在一實施例中,參數可包含信號分類參數。信號分類用於傳訊內容類型:無聲、無聲過渡、有聲過渡、有聲及起始。通常,此類型分類用於語音寫碼及指示頻調/預測分量是否存在於信號中或頻調/預測分量是否變化。在隱蔽期間使該資訊在解碼器側上可用可幫助判定信號之可預測性,且因此可幫助調整LPC參數之振幅淡出速度、內插速度。
在一實施例中,參數可包含TCX全域增益或TCX全域位準。全域增益可經傳輸以易於在隱蔽訊框為可用的情況下將隱蔽訊框之能量設定為正確(編碼器判定位準)。
在一實施例中,參數可包含視窗資訊及譜峰位置中之至少一者。使該資訊已在編碼器側處可用有利於選擇性地將彼等參數傳輸至解碼器以用於隱蔽。
在一實施例中,編碼器可為切換式編解碼器的一部分,其中該切換式編解碼器由至少兩個核心寫碼方案組成,其中第一核心寫碼方案使用ACELP,且第二核心寫碼方案使用TCX。舉例而言,編碼器使用用於寫碼類語音音訊內容之ACELP及用於寫碼通用音訊內容之TCX。因此,使用用於編碼音訊內容之數個寫碼方案使得編碼器為通用 的。此外,編碼器藉由將信號特定寫碼方案用於每一信號而提供良好結果。
在一實施例中,編碼器可經組態以在ACELP訊框之後存在第一TCX訊框時,在切換之後不將「部分複本」放置於TCX訊框之上。舉例而言,在該種情況下可選擇性忽略提供加強隱蔽的參數。若第一TCX訊框丟失,則不可能以TCX模式隱蔽。因此,將改為使用ACELP隱蔽。在此情況下,僅TCX部分複本將不足以全面合成訊框,解碼器需要處於隱蔽模式且可由部分複本支援。因此,由於隱蔽需要前一訊框以用於外插信號內容,故在此情況下較佳使用ACELP隱蔽(由於先前訊框為ACELP),該ACELP隱蔽使得TCX部分複本不太有用。由於編碼器經組態以偵測切換及選擇性(亦即視切換操作而定)提供某一類型的部分複本,故解碼器側處之隱蔽將提供良好結果。
在一實施例中,編碼器可經組態以在編碼前分析信號且禁用部分複本(例如不提供任何參數),或基於經分析信號提供減少之部分複本(例如提供比正常情況少的參數)。舉例而言,若信號可在無解碼器內之額外部分複本資訊的幫助下十分令人滿意地隱蔽,而乾淨頻道效能因減少之主訊框而不佳,則部分複本可禁用,或編碼器內可使用特定減少之部分複本。因此,編碼器適於選擇性提供部分複本,亦即僅在解碼器側處需要隱蔽參數來重構不可用之主訊框的音訊內容之情況下提供部分複本。此外,可最佳化主訊框傳輸之帶寬使用。
在一實施例中,編碼器可經組態以在多個部分複本模式之間選擇,該等模式使用不同量之資訊及/或不同參數集,其中部分複本模式之選擇基於參數(例如,描述待編碼信號的參數)。因此,編碼器可選擇性選擇某一部分複本模式以提供部分複本,該部分複本非常適合隱蔽解碼器側處之某一不可用主訊框。多個部分複本模式之間的選擇基於不同參數,諸如當前及/或先前訊框之信號特性,包括音調穩定性、LTP音調、LTP增益、信號之時間趨勢、後兩個訊框的模式及訊框級。
在一實施例中,多個部分複本模式中之至少一者可為頻域隱蔽模式。此模式可由編碼器選擇性選擇以提供包含某些參數之部分複本,該等參數非常適合在解碼器側處提供含有頻域信號之不可用主訊框的良好隱蔽結果。
在一實施例中,多個部分複本模式中之至少兩者可為不同時域隱蔽模式。舉例而言,在各別時域信號包含至少某一特性之情況下,可選擇第一部分複本模式。或者,在時域信號不包含該某一特性,或時域信號包含不同信號特性之情況下,選擇第二部分複本模式。因此,編碼器提供包含於部分複本中之參數的信號特定選擇。
在一實施例中,在訊框含有暫態或訊框之全域增益比先前訊框之全域增益低(例如,至少低預定量)之情況下,可選擇至少兩個時域隱蔽模式中之一者。因此,編碼器選擇性地選擇提供參數的模式,該等參數在解碼器側處使用以加強有缺陷或不可用之主訊框的隱蔽,即使該有缺 陷或不可用之主訊框的信號特性在一定程度上背離先前訊框的信號特性。
在一實施例中,編碼器可經組態以在存在LTP資料之情況下發送LTP滯後(作為用於加強隱蔽之參數)。因此,編碼器選擇性地提供在解碼器側處用於長期預測解碼之參數。
在一實施例中,編碼器可經組態以發送分類器資訊(作為用於加強隱蔽之參數)。信號分類用於傳訊內容類型:無聲、無聲過渡、有聲過渡、有聲及起始。通常,此類型分類用於語音寫碼及指示頻調/預測分量是否存在於信號中或頻調/預測分量是否變化。在隱蔽期間使該資訊在解碼器側上可用(由編碼器發送)可幫助判定信號的可預測性,且因此其可幫助調整LPC參數的振幅淡出速度及/或內插速度,且其可控制有聲或無聲激勵信號之高通或低通濾波的可能使用(例如,用於去噪)。
在一實施例中,編碼器可經組態以發送LPC參數、LTP增益、雜訊位準及脈衝位置中之至少一者(作為用於加強隱蔽之參數)。因此,編碼器傳輸某些參數,該等參數非常適合在解碼器側處隱蔽有缺陷或不可用之主訊框的內容(亦即,以加強隱蔽)。
另一實施例提供一種用於解碼類語音內容及/或通用音訊內容之解碼器,其中該解碼器經組態以使用稍後適時發送的參數以在原始訊框丟失、損壞或延遲的情況下加強隱蔽。因此,在接收器(或解碼器)處,稍後適時發送之 參數可用於在解碼器側處加強錯誤隱蔽,且因此在原始訊框有缺陷(例如丟失、損壞或延遲)之情況下重新建立信號(例如,避免嚴重偽影的隱蔽信號)。因此,本發明概念可藉由使用加強隱蔽之參數同時有效使用給定帶寬來可靠地重構不可用音訊內容。
舉例而言,由音訊解碼器發送(及評估)以加強隱蔽之參數可包含解碼器之隱蔽單元隱蔽有缺陷訊框所需之最重要的資訊類型中之一或多者。然而,通常選擇參數,以使得僅參數不足以執行完全錯誤隱蔽。確切而言,為了實際進行錯誤隱蔽,解碼器之隱蔽單元通常(例如)基於先前(或隨後)解碼之訊框獲得額外信息類型。因此,稍後適時發送之參數僅加強隱蔽,但其並不構成完全隱蔽資訊。
因此,使用稍後適時發送之參數允許僅以很少位元速率工作而使關於最重要之隱蔽參數之精確資訊在音訊解碼器處可用,而提供隱蔽訊框所必需之額外信息由音訊解碼器自身(例如)使用外插或內插法基於一或多個先前(或隨後)解碼之訊框產生。
在一實施例中,解碼器可經組態以接收主訊框及「部分複本」,其中「部分複本」並非主訊框的低位元速率版本,但其中「部分複本」含有加強隱蔽之參數。由於「部分複本」含有此等參數,故相比於用於傳輸主訊框之低位元速率版本的帶寬,用於傳輸此等參數的帶寬甚至更低。
在一實施例中,參數包含於部分複本中,且解碼器經組態以在當前丟失之訊框的部分複本可用之情況下自 去抖動緩衝器接收該部分複本。去抖動緩衝器進一步改進本發明概念,由於其能夠提供抖動延遲,其中可緩衝一定數量之訊框。因此,以錯誤時間次序到達解碼器之訊框(亦即,已在第二訊框之前於編碼器側發送之第一訊框比第二訊框更晚到達解碼器側,即使預期第一訊框比第二訊框更早到達解碼器側)可以正確時間次序緩衝及提供。此情形在訊框延遲的情況下特別有用。
在一實施例中,解碼器可經組態以接收具有類語音內容類型及通用音訊內容類型中之一者的主訊框,以及具有類語音內容類型及通用音訊內容類型中之另一者的部分複本。因此,解碼器為通用的,由於其可處理單獨或彼此結合的不同類型之音訊內容。因此,此情形在解碼器適於擷取(例如)在ACELP主訊框之上傳輸之TCX部分冗餘複本時特別有用,或反之亦然。
在一實施例中,解碼器可為使用TCX編解碼方案之編解碼器的一部分。根據本實施例,解碼器較佳地使用TCX解碼以有效解碼通用音訊內容、音樂、背景雜訊或類似者。解碼器可自部分複本擷取TCX特定參數(用以加強隱蔽)以用於加強TCX隱蔽。
在一實施例中,參數可包含ISF或LSF參數,特定言之經預測性寫碼之ISF或LSF參數。ISF及LSF參數表示用於LPC參數之量化及寫碼。在TCX寫碼方案中,LPC用於表示掩蔽臨限。此為重要參數且極其有助於在訊框丟失的情況下使其在解碼器側正確可用。尤其在ISF/LSF經預測性 地寫碼之情況下,隱蔽品質將藉由使該資訊在隱蔽期間可用而改進,因為解碼器側上之預測器狀態將保持正確,亦即與編碼器同步,且此將導致不可用主訊框之快速恢復。
在一實施例中,參數可包含信號分類參數。信號分類用於傳訊內容類型:無聲、無聲過渡、有聲過渡、有聲及起始。通常,此類型分類用於語音寫碼及指示頻調/預測分量是否存在於信號中或頻調/預測分量是否變化。在隱蔽期間使該資訊在解碼器側上可用可幫助判定信號之可預測性,且因此可幫助調整LPC參數之振幅淡出速度、內插速度。
在一實施例中,參數可包含TCX全域增益或TCX全域位準。全域增益可經傳輸以易於在隱蔽訊框可用的情況下將隱蔽訊框之能量設定為正確(經編碼器判定)位準。
在一實施例中,參數可包含視窗資訊及譜峰位置中之至少一者。使該資訊在解碼器側處可用有利於選擇性地加強隱蔽。
在一實施例中,解碼器可為切換式編解碼器的一部分,其中該切換式編解碼器由至少兩個核心寫碼方案組成,其中第一核心寫碼方案使用ACELP,且第二核心寫碼方案使用TCX。舉例而言,解碼器使用用於解碼類語音音訊內容之ACELP解碼方案及用於解碼通用音訊內容之TCX解碼方案。因此,使用用於解碼不同音訊內容之數個解碼方案使得解碼器為通用的。
在一實施例中,解碼器可經組態以在切換之後, 在ACELP訊框之後的第一TCX訊框不可用於解碼器的情況下使用ACELP隱蔽。若第一TCX訊框有缺陷,亦即丟失、損壞或延遲,則在TCX模式下不可能隱蔽。因此,將改為使用ACELP隱蔽。在此情況下,僅TCX部分複本將不足以全面合成訊框,解碼器需要處於隱蔽模式且可由部分複本支援。由於隱蔽需要前一訊框用於外插信號內容,故在此情況下較佳使用ACELP隱蔽(由於先前訊框為ACELP),該ACELP隱蔽使得TCX部分複本不太有用。
在一實施例中,解碼器可經組態以在解碼器處可用之複數個模式中的多個部分複本模式或隱蔽模式之間選擇,該等模式使用不同量之資訊及/或不同參數集。在一實施例中,在解碼器未得到各別模式的情況下,亦即在無法判定或另外自部分複本擷取該隱蔽模式的情況下,解碼器選擇隱蔽模式。否則,隱蔽模式由可用的部分複本指定,其中隨後做出決策的是編碼器。因此,解碼器使用直接來自編碼器側處發送之位元流的經分別寫碼之不同量之資訊及/或不同參數集。因此,解碼器可基於部分複本模式應用非常適合之隱蔽模式,其中在一種模式下存在較多支援(加強)資訊(亦即,參數)且在另一模式下存在較少該支援資訊。換言之,在CA模式中,編碼器決定合適隱蔽模式且因此準備部分複本。若部分複本可用於解碼器且其應用於加強隱蔽,則解碼器必須堅持由編碼器做出之決策,否則無法恰當地利用部分複本內之資訊。若部分複本不可用或若因其他原因不及/或不應使用部分複本,則僅解碼器自身決 定隱蔽模式。
在一實施例中,多個部分複本模式中之至少一者可為頻域隱蔽模式。該模式可由解碼器選擇性地選擇以使用包含某些參數之部分複本,該等參數非常適合提供含有頻域信號之不可用主訊框的良好隱蔽結果。
在一實施例中,多個部分複本模式中之至少兩者可為不同時域隱蔽模式。舉例而言,第一部分複本含有包含至少某一特性之各別時域信號的參數,而第二部分複本含有包含不同信號特性之各別時域信號的參數。此等兩種時域模式中之一者可由解碼器選擇性地選擇以使用包含某些參數之部分複本,該等參數非常適合提供含有時域信號之不可用主訊框的良好隱蔽結果。
在一實施例中,解碼器可經組態以在LTP資料存在於相應主訊框之情況下接收LTP滯後。因此,解碼器經啟用以藉由長期預測解碼來重構不可用主訊框的內容,從而使用已在部分複本中接收之LTP參數。
在一實施例中,解碼器可經組態以接收分類器資訊。信號分類用於傳訊內容類型:無聲、無聲過渡、有聲過渡、有聲及起始。通常,此類型分類用於語音寫碼及指示頻調/預測分量是否存在於信號中或頻調/預測分量是否變化。在隱蔽期間使該資訊在解碼器側上可用可幫助判定信號的可預測性,且因此其可幫助調節LPC參數的振幅淡出速度及/或內插速度,且其可控制有聲或無聲激勵信號之高通或低通濾波的可能使用(例如,用於去噪)。
在一實施例中,解碼器可經組態以接收LPC參數、LTP增益、雜訊位準及脈衝位置中之至少一者(作為用於加強隱蔽之參數)。因此,解碼器經啟用以藉由使用已在部分複本中接收之此等參數中的至少一者來重構不可用主訊框的內容。
在一實施例中,解碼器可經組態以視隱蔽模式而定以兩種不同因子減少音調增益及編碼增益。此舉用以每當原始信號為更暫態時避免具有長平穩信號。
在一實施例中,減少音調增益及寫碼增益之第一因子為0.4,且第二因子為0.7。此等兩個因子特別有效,以每當原始信號為更暫態時避免具有長平穩信號。
在一實施例中,解碼器可經組態以在前一主訊框丟失之情況下不考慮自部分複本解碼之音調,且其中解碼器經組態以固定(亦即)調整該音調為預測音調以用於後續丟失之主訊框,而非使用傳輸之音調。因此,若先前訊框丟失,則不應考慮自部分複本解碼之音調,因為位元流中發送之音調基於地面實況在編碼器側上計算出,而若先前訊框丟失,則先前丟失及隱蔽合成的合成可能的確不同於編碼器之地面實況。故一般而言,在多個訊框丟失的情況下最好不冒險依賴編碼器/解碼器之同步性,且最好將音調固定為預測音調用於後續丟失之訊框,而非使用傳輸之音調。
另一實施例創建一種用於編碼類語音內容及/或通用音訊內容之方法,該方法包含以下步驟:在至少一些 訊框中將參數嵌入位元流中,該等參數在原始訊框丟失、損壞或延遲的情況下加強隱蔽。即使標準隱蔽機制可用於有缺陷的(亦即,丟失、損壞或延遲)之訊框,但嵌入訊框中之參數由本發明方法使用,以加強此隱蔽(且位元流參數可替換習知在解碼器側處導出之參數)。因此,本發明提出不具有僅為主訊框之低位元速率版本的部分複本,但傳輸將加強隱蔽之參數(但該等參數通常並不構成完全錯誤隱蔽資訊)。因此,相比於現有技術,解碼器可在某種程度上經修改。
另一實施例創建一種用於解碼類語音內容及/或通用音訊內容之方法,該方法包含以下步驟:使用稍後適時發送的參數在原始訊框丟失、損壞或延遲的情況下加強隱蔽。因此,在接收器處,稍後適時發送之參數可用於加強解碼器側處之錯誤隱蔽,且因此在原始訊框為有缺陷的(亦即丟失、損壞或延遲)的情況下重新建立信號。因此,藉由使用本發明方法,有缺陷的、損壞的或不可用的音訊內容可藉由使用參數代替整個冗餘寫碼訊框可靠地(至少部分)經重構。
另一實施例創建一種用於寫碼音訊內容之編碼器,其中該編碼器經組態以提供當前訊框的主編碼表示及至少一個錯誤隱蔽參數的編碼表示以加強當前訊框之解碼器側錯誤隱蔽,其中該編碼器經組態以基於(或取決於)表示包含於當前訊框中之音訊內容之信號特性的一或多個參數來選擇至少一個隱蔽參數。舉例而言且因此並非限制,表 示信號特性之參數可選自至少當前訊框及先前訊框之信號特性,包括音調穩定性、LTP音調、LTP增益、信號之時間趨勢、後兩個訊框的模式及訊框級。基於此等信號特性參數,編碼器選擇性地選擇一或多個隱蔽參數,該一或多個隱蔽參數非常適合解碼器側處之錯誤隱蔽。此等錯誤隱蔽參數分別經編碼,亦即分別自待傳輸之信號的主編碼表示經編碼。因此,即使彼信號之主編碼表示丟失、損壞或延遲,解碼器亦可藉由使用錯誤隱蔽自此等錯誤隱蔽參數重構信號。因此,至少在一些訊框(或封包)中,錯誤隱蔽參數(亦表示為冗餘寫碼參數)嵌入位元流中且傳輸至解碼器側。因此,並非必需提供整個信號之「部分複本」,該「部分複本」通常以較低位元速率編碼且因此可包含較低品質。因此,本發明提供一種藉由選擇之錯誤隱蔽參數來隱蔽有缺陷(例如丟失、損壞或延遲)之訊框的改進概念,該等參數已在編碼器側處(例如,根據信號特性)加以選擇且嵌入位元流中。因此,本發明保持在給定帶寬內,而同時保持所傳輸信號的良好品質,即使本信號之一部分(例如,訊框)藉由解碼器側處之隱蔽而重構。
在一實施例中,解碼器側錯誤隱蔽為基於外插法之錯誤隱蔽。因此,隱蔽例程可使用外插法,以估計或預測未來信號特性,該等特性可進一步幫助及輔助有缺陷的主訊框的隱蔽。
在一實施例中,編碼器可經組態以將當前訊框之至少一個錯誤隱蔽參數的編碼表示與未來訊框的主編碼表 示組合成傳送封包,以使得當前訊框之至少一個錯誤隱蔽參數的編碼表示相對於當前訊框的主編碼表示以一時間延遲發送。換言之,編碼器首先以第一封包發送主訊框(亦即,訊框的主編碼表示)。在某一時間延遲之情況下,編碼器隨後以另一封包發送「部分複本」(亦即,至少一個錯誤隱蔽參數的編碼表示),該封包比第一封包更晚發送。因此,編碼器仍量化該等參數,但將其添加至後一封包中之位元流。因此,本發明特別適用於基於封包之網路,諸如網際網路語音通信協定(VoIP)、長期演進語音通信(VoLTE)或類似者。雖然訊框之主編碼表示可能已傳輸至解碼器側,但其相應錯誤隱蔽參數將以後續傳送封包中之一者發送。因此,若含有主編碼表示之封包丟失、損壞或延遲,但含有錯誤隱蔽參數之封包則可恰當地到達解碼器側,由於其已經稍後適時發送。此外,藉由將此等錯誤隱蔽參數與另一訊框之主編碼表示組合成一個封包,可有效利用帶寬。
在一實施例中,編碼器可經組態以在用於提供錯誤隱蔽參數的編碼表示的至少兩個模式之間選擇性地選擇。因此,編碼器為通用的,由於其提供了用於處理可具有不同信號特性之不同信號的不同模式,其中不同錯誤隱蔽參數集可以不同模式提供。由於此等兩種模式用於提供至少一個錯誤隱蔽參數的編碼表示,故此等至少兩個模式亦被稱作部分複本模式。
在一實施例中,編碼器對提供至少一個錯誤隱蔽 參數之編碼表示之模式的選擇可基於一或多個參數,該一或多個參數包含訊框級、LTP音調、LTP增益及用於提供一或多個先前訊框之至少一個錯誤隱蔽參數之編碼表示的模式中的至少一者。此等參數非常適合用於決定用於解碼器側處之錯誤隱蔽的模式。
在一實施例中,用於提供至少一個錯誤隱蔽參數之編碼表示之模式中的至少一者可為時域隱蔽模式,以使得至少一個錯誤隱蔽參數之編碼表示包含TCX LTP滯後及分類器資訊中之一或多者。舉例而言,在存在包含至少某一特性之時域信號之情況下可選擇第一模式,其為時域隱蔽模式。否則,在時域信號不包含此某一特性,或在時域信號包含不同信號特性之情況下選擇第二模式。因此,編碼器提供錯誤隱蔽參數的信號特定選擇。
在一實施例中,用於提供至少一個錯誤隱蔽參數之編碼表示之模式中的至少一者可為時域隱蔽模式,在包含於當前訊框中之音訊內容含有暫態或在包含於當前訊框中之音訊內容的全域增益比前一訊框的全域增益低之情況下選擇該時域隱蔽模式。因此,編碼器選擇性選擇用於提供錯誤隱蔽參數的模式,該等參數在解碼器側處使用以隱蔽不可用主編碼表示,即使該不可用之主訊框的信號特性在一定程度上背離前一訊框的信號特性。
在一實施例中,用於提供至少一個錯誤隱蔽參數之編碼表示之模式中的至少一者可為頻域隱蔽模式,以使得至少一個錯誤隱蔽參數之編碼表示包含LSF參數、TCX 全域增益及分類器資訊中之一或多者。此模式可由編碼器選擇性地選擇以提供至少一個錯誤隱蔽參數的編碼表示,該參數非常適合用於在解碼器側處提供含有頻域信號之不可用主編碼表示的良好隱蔽結果。
在一實施例中,編碼器可使用至少一TCX寫碼方案。根據本實施例,編碼器較佳地使用TCX寫碼以有效地編碼通用音訊內容、音樂、背景雜訊或類似者。因此,編碼器可以可靠地判定及傳輸TCX特定參數,該等參數可用於解碼器側處之TCX隱蔽。
一實施例創建一種用於解碼音訊內容之解碼器,其中該解碼器經組態以接收當前訊框之主編碼表示及/或至少一個錯誤隱蔽參數之編碼表示以加強當前訊框的解碼器側錯誤隱蔽,其中該解碼器經組態以使用錯誤隱蔽藉由在當前訊框之主編碼表示丟失、損壞或延遲的情況下使用至少一個錯誤隱蔽參數而至少部分地重構當前訊框的音訊內容。大體而言,該解碼器能夠接收位元流,該位元流可為在編碼器決定不發送特定過去的訊框之任何側資料的情況下不具有任何側資料(亦即,至少一個錯誤隱蔽參數)的單一主訊框(亦即,當前訊框的主編碼表示),或為主訊框(亦即,當前訊框的主編碼表示)及至少一或多個錯誤隱蔽參數。因此,解碼器可使用此等一或多個錯誤隱蔽參數藉由使用錯誤隱蔽至少部分地重構信號,即使彼信號之主編碼表示有缺陷,例如丟失、損壞或延遲。因此,至少在一些訊框中,將錯誤隱蔽參數(冗餘寫碼參數)嵌入位元流中且傳 輸至解碼器側。因此,並非必需提供整個信號之部分複本,該部分複本通常以較低位元速率編碼且因此可包含較低品質。因此,本發明提供一種藉由使用選擇之錯誤隱蔽參數來隱蔽有缺陷(例如丟失、損壞或延遲)之訊框的改進概念,當使用基於一或多個先前解碼之訊框獲得之資訊的隱蔽使用接收之錯誤隱蔽參數「導引」(例如,加強或改進)時,該等參數在編碼器側已經選擇、嵌入位元流中且傳輸至解碼器側。因此,本發明概念(藉由使用不要求將所有錯誤隱蔽資訊自編碼器傳輸至解碼器的基於外插法之錯誤隱蔽)保持於給定帶寬內,而同時(藉由使用錯誤隱蔽參數加強錯誤隱蔽)保持解碼信號的良好品質,即使該信號藉由解碼器側處之隱蔽重構。
在一實施例中,解碼器側錯誤隱蔽為基於外插法之錯誤隱蔽。因此,解碼器側處提供之隱蔽例程可使用外插法以估計或預測未來信號特性,該等特性可進一步幫助及輔助有缺陷的主訊框的隱蔽。
在一實施例中,該解碼器可經組態以自封包擷取當前訊框的錯誤隱蔽參數,該封包自含有當前訊框之主編碼表示的封包分離。因此,藉由使兩個獨立封包可用,解碼器可在含有當前訊框之主編碼表示的封包丟失、損壞或延遲的情況下使用包含於此等獨立封包中之一者中的錯誤隱蔽參數。
在一實施例中,該解碼器可經組態以在至少兩個錯誤隱蔽模式之間選擇性地選擇,該等模式使用一或多個 錯誤隱蔽參數之不同編碼表示以使用基於外插法之錯誤隱蔽至少部分地重構音訊內容。在解碼器未得到各別模式之情況下,亦即,在解碼器無法判定或另外自部分複本(亦即,自至少一個錯誤隱蔽參數的編碼表示)擷取各別模式之情況下,該解碼器選擇至少兩個錯誤隱蔽模式中之一者。否則,隱蔽模式由可用的部分複本,亦即由至少一個錯誤隱蔽參數的編碼表示指定。在此情況下,編碼器已做出選擇,而解碼器使用至少兩個模式中之經選擇的模式。換言之,在CA模式中,編碼器決定合適隱蔽模式且因此準備部分複本。若部分複本可用於解碼器且其應用於加強隱蔽,則解碼器必須堅持編碼器做出之決策,否則無法恰當地利用部分複本內之資訊。若部分複本不可用或若因其他原因不及/或不應使用部分複本,則僅解碼器自身決定隱蔽模式。因此,解碼器提供一或多個錯誤隱蔽參數之信號特定解碼及加強型錯誤隱蔽。
在一實施例中,使用一或多個錯誤隱蔽參數之不同編碼表示之錯誤隱蔽模式中的至少一者可為時域隱蔽模式,其中至少一個錯誤隱蔽參數之編碼表示包含TCX LTP滯後及分類器資訊中之至少一者。舉例而言,在存在包含至少某一特性之時域信號之情況下可選擇第一模式,其為時域隱蔽模式。另外,在時域信號不包含此某一特性,或在時域信號包含不同信號特性之情況下選擇第二模式。因此,當解碼器可遵循該編碼器之選擇時,編碼器可提供錯誤隱蔽參數的信號特定選擇。
在一實施例中,至少兩個錯誤隱蔽模式中之使用一或多個錯誤隱蔽參數之不同編碼表示的至少一者可為頻域隱蔽模式,其中至少一個錯誤隱蔽參數之編碼表示包含LSF參數、TCX全域增益及分類器資訊中的一或多者。該模式可由解碼器選擇性地選擇以提供含有頻域信號之不可用主編碼表示的良好隱蔽結果。
在一實施例中,解碼器可使用至少一TCX寫碼方案。根據本實施例,解碼器較佳地使用TCX解碼以有效地解碼通用音訊內容、音樂、背景雜訊或類似者。因此,解碼器可在主編碼表示已丟失、損壞或延遲的情況下使用TCX特定錯誤隱蔽參數以用於重構TCX信號。
一實施例創建一種用於錯誤隱蔽之裝置,該裝置經組態以執行標準隱蔽機制用於丟失訊框及使用可傳輸參數來加強隱蔽。因此,本發明藉由使用某些參數改進標準隱蔽機制。
一實施例創建一種用於錯誤隱蔽之裝置,該裝置經組態以不具有僅為主訊框之低位元速率版本的部分複本,而具有由多個密鑰參數構成之部分複本以加強隱蔽。因此,可有效利用帶寬容量。
一實施例創建一種用於錯誤隱蔽之裝置,該裝置具有包含去抖動緩衝器之接收器,該去抖動緩衝器用於在當前丟失訊框之部分冗餘複本可用於任何未來訊框的情況下提供該部分冗餘複本,其中該裝置經組態以讀取部分冗餘資訊位元流及更新相應參數。因此,若當前訊框丟失、 損壞或延遲,則本發明裝置可使用稍後適時發送(亦即,以未來訊框發送)之部分冗餘複本,以重構該訊框。
一實施例創建切換式寫碼器或解碼器,其中存在兩個或兩個以上核心寫碼方案,然而例如一個方案使用用於寫碼類語音內容之ACELP且第二方案使用用於寫碼通用音訊內容之TCX,其中使用部分冗餘複本寫碼處理ACELP訊框,且使用不同方法處理TCX訊框,其中靠近核心寫碼器開關之訊框中可能出現兩種特殊情況,亦即:上方具有自未來TCX訊框產生之部分複本的ACELP主訊框或上方具有自未來ACELP訊框產生之部分複本的TCX主訊框,其中對於此等情況,核心寫碼器皆可經組態以創建另一寫碼器類型之主訊框以及部分複本,而不違反訊框之所需總尺寸,以確保恆定位元速率,或其中ACELP訊框之後的第一TCX訊框,其中若此訊框丟失且因此不可用於解碼器,則提出之技術將使用已傳送至另一訊框之上的部分複本資訊TCX隱藏訊框,其中隱蔽需要前一訊框外插信號內容,使用ACELP隱蔽(由於先前訊框為ACELP),且其中已決定在編碼器中,在切換之後,或當存在信號可調適部分複本選擇時,當信號在編碼前經分析以判定部分複本之使用是否有利時,不將部分複本放置於TCX訊框之上,其中若信號可在沒有解碼器內之額外部分複本資訊的幫助下十分令人滿意地隱蔽,而乾淨頻道效能因減少之主訊框而不佳,則部分複本經禁用,或編碼器內使用特定減少之部分複本。因此,本發明寫碼器或解碼器為通用的,由於其提供不同 寫碼方案的組合。
一實施例創建一種變換域寫碼器或解碼器,其中當在至少一些冗餘中,冗餘寫碼參數嵌入位元流中且傳輸至解碼器側時,使用編碼/解碼方案,或其中冗餘資訊延遲一段時間且嵌入經編碼及稍後適時發送之封包,以使得在解碼器已使未來訊框可用,且原始訊框丟失、損壞或延遲更多的情況下,可使用該資訊。因此,藉由提供位元流中之冗餘寫碼參數,可有效地使用給定帶寬。
如前所述,該變換域寫碼器或解碼器可使用包含ISF/LSF參數之冗餘資訊,ISF/LSF參數表示用於LPC參數的量化及寫碼。在TCX中,LPC用於表示掩蔽臨限。此為基本參數且極其有助於在訊框丟失的情況下使其在解碼器側正確可用。尤其,若ISF/LSF經預測性地寫碼,則隱蔽品質將藉由使該資訊在隱蔽期間可用而大幅改進,因為解碼器側上之預測器狀態將保持正確(與編碼器同步),且此將在丟失之後產生極快速恢復;信號分類:信號分類用於傳訊內容類型:無聲、無聲過渡、有聲過渡、有聲及起始。通常,此類型分類用於語音寫碼及指示頻調/預測分量是否存在於信號中或頻調/預測分量是否變化。在隱蔽期間使該資訊在解碼器側上可用可幫助判定信號之可預測性,且因此可幫助調節LPC參數之振幅淡出速度、內插速度;TCX全域增益/位準:全域增益可經傳輸以易於在隱蔽訊框為可用的情況下將隱蔽訊框之能量設定為正確(經編碼器判定的位準);視窗資訊類重疊長度或譜峰位置以幫助頻調隱蔽。
術語「冗餘」、「冗餘複本」、「部分冗餘複本」及含有術語「冗餘」之表達的其他組合可以提供「部分」資訊之意義使用。部分資訊不含有主編碼訊框(亦即,經編碼音訊信號)之冗餘及可能低位元速率表示。替代地,部分資訊可含有或包含參數,特定言之隱蔽輔助參數,該等參數加強在解碼器側處可用的隱蔽機制,以在該主編碼訊框有缺陷(例如丟失、損壞或延遲)的情況下隱蔽相應主訊框,亦即主經編碼音訊資料。換言之,術語「冗餘」及「部分」及其衍生物(諸如「冗餘複本」及「部分複本」)在本文件中內可互換地使用,由於該等術語表示可含有或包含前述參數的資訊。
1‧‧‧編碼器
2、35‧‧‧音訊內容
3‧‧‧經編碼音訊內容
4、4a、4b、4c、15‧‧‧主訊框
5‧‧‧位元流
6‧‧‧參數
7‧‧‧訊框
8a、8b、87‧‧‧部分複本
9、9a、9b‧‧‧封包
10‧‧‧核心寫碼器
11‧‧‧ACELP處理器
12‧‧‧TCX處理器
13‧‧‧ACELP寫碼內容
14‧‧‧TCX寫碼內容
16‧‧‧冗餘訊框
17‧‧‧第一分支
18‧‧‧第二分支
20、30、40、50、60、70、80‧‧‧分支
21‧‧‧部分冗餘訊框提供器
22‧‧‧隱蔽參數擷取單元
23‧‧‧模式選擇器
24‧‧‧模式選擇參數
25‧‧‧模式選擇資訊
26‧‧‧位元速率控制器
31‧‧‧解碼器
34‧‧‧解碼單元
36‧‧‧隱蔽單元
71、95‧‧‧去抖動緩衝器
81‧‧‧預處理階段
82‧‧‧冗餘訊框組態模組
83‧‧‧主訊框寫碼模組
84‧‧‧冗餘訊框寫碼模組
85‧‧‧位元封裝器模組
86‧‧‧主訊框位元流
90‧‧‧接收器
91‧‧‧當前訊框
92‧‧‧當前丟失封包
93、94‧‧‧未來訊框
96‧‧‧主訊框解碼
97‧‧‧部分訊框解碼
98‧‧‧位元流剖析器模組
99‧‧‧部分冗餘複本
隨後將參考隨附圖式具體描述本發明的實施例,在該等圖式中:圖1展示本發明編碼器之示意圖,圖2展示本發明編碼器之一實施例的示意圖,圖3展示本發明編碼器之一實施例的示意圖,圖4展示本發明編碼器之一實施例的示意圖,圖5展示本發明解碼器之實施例的示意圖,圖6展示一實施例的示意圖,展示頻道感知模式之部分冗餘的概念,圖7展示一實施例的示意圖,展示頻道感知模式之部分冗餘的概念,圖8展示一實施例的示意圖,展示頻道感知編碼器框 架,圖9展示一實施例的示意圖,展示頻道感知解碼器框架,圖10展示表示寬頻ITU-T P.800 ACR MOS測試結果的圖表,及圖11展示表示超寬頻ITU-T P.800 DCR MOS測試結果的圖表。
較佳實施例之詳細說明
圖1展示本發明編碼器1。編碼器1經組態以編碼音訊內容2。特定言之,編碼器1經組態以編碼類語音內容及/或通用音訊內容。在至少一訊框4中,將各別經編碼音訊內容3嵌入位元流5中。
編碼器1經進一步組態以至少在一些訊框7中將參數6嵌入位元流5中,此等參數6用於在原始訊框4丟失、損壞或延遲的情況下加強隱蔽。
將位元流5發送至包含解碼器之接收器。
如圖2中所示,編碼器1經組態以創建主訊框4b及部分複本8b。然而,部分複本8b並非僅為主訊框4b的低位元速率版本。替代地,部分複本8b含有加強解碼器側處之隱蔽的參數6,而另一方面並不包括用於重構有缺陷(例如丟失、損壞或延遲)之主訊框之音訊內容的完全資訊。換言之,部分複本包括一或多個參數以加強解碼器側錯誤隱蔽,但並非需要所有資訊用於錯誤隱蔽。
編碼器1經組態以將參數6延遲一段時間及將參數6嵌入封包9中,該封包9經編碼且比包含主訊框4b之封包在時間上更晚發送。
編碼器1可創建一或多個主訊框4b、4c及一或多個部分複本8a、8b。舉例而言,音訊內容2之至少某一部分經編碼及嵌入主訊框4b中。在某些信號特性之情況下,音訊內容2之相同部分由編碼器1分析。基於以上,編碼器1判定加強解碼器側上之隱蔽之一或多個參數6的選擇。此等參數6嵌入相應「部分複本」8b中。
換言之,主訊框4b含有至少一部分音訊內容2的編碼表示。相應部分複本8b含有一或多個參數6,該一或多個參數6由解碼器側處之錯誤隱蔽使用以在主訊框4b丟失、損壞或延遲的情況下重構音訊內容2的編碼表示。
主複本4b連同部分複本8a一起經封裝至傳送封包9中,其中部分複本8a為已編碼於先前適時發送之主訊框4a中之音訊內容的部分複本。因此,編碼器1延遲參數6一段時間。如圖2中另外可見,部分複本8a之後的部分複本8b(屬於主訊框4b)將連同主訊框4c一起封裝在後一傳送封包。主訊框4c與4b之間亦可存在一或多個其他主訊框。
重要特徵在於,本文所述之概念使用編碼/解碼方案,其中至少在一些訊框8a、8b中,將冗餘寫碼參數6嵌入位元流5中且傳輸至解碼器側。冗餘資訊(參數6)經延遲一段時間,且嵌入經編碼及稍後適時發送之封包9中,以使得在解碼器已使未來訊框4b、8a可用,但原始訊框4a丟失、 損壞或延遲更多的情況下,可使用資訊。
位元流5可(例如)包含恆定總位元速率。編碼器1可經組態以相比於恆定總位元速率減小主訊框位元速率,亦即編碼主訊框4b、4c所需的位元速率。用於主訊框4b、4c之位元速率減少與部分冗餘訊框寫碼機制一起判定主訊框4b、4c與冗餘訊框(部分複本)8a、8b之間的位元速率配置包括在位元流5的恆定總位元速率內。因此,編碼器1經組態以提供包含主訊框4b及部分複本8a之封包9,其中該尺寸(亦即,封包9的位元速率)處於或低於恆定總位元速率。
換言之,主訊框位元速率減少與部分冗餘訊框寫碼機制一起判定主訊框4b、4c與冗餘訊框8a、8b之間的位元速率配置包括在恆定總位元速率內。不提高保持部分複本參數8a之訊框4b(除主訊框以外)的整體位元速率。
TCX寫碼方案
根據實施例,編碼器1為使用TCX寫碼方案之編解碼器的一部分。本發明編碼器1使用TCX較佳地用於寫碼通用音訊內容。在TCX的情況下,部分複本8a、8b用於藉由傳輸一些輔助參數6來加強解碼器側處之錯誤隱蔽的訊框丟失演算法。
在使用變換域編解碼器時,可在以下情況下選擇將冗餘資訊8a、8b嵌入TCX訊框4b、4c:
˙訊框含有實際上嘈雜之音訊信號。此情形可由低自動相關量測或由為無聲或無聲過渡之訊框分類器輸出指示,無聲或無聲過渡分類指示低預測增益。
˙訊框含有具有銳譜線之雜訊底限,該等銳譜線在較長時間段內為平穩的。此情形可由波峰偵測演算法偵測,該演算法正搜索TCX頻譜(功率譜或實頻譜)中之局部最大值且比較該結果與先前訊框之波峰偵測的結果。若波峰未移動,則很可能存在平穩頻調,在藉由用相位外插器(稱為頻調隱蔽)對頻譜進行後處理而隱蔽雜訊譜之後,可容易地隱蔽平穩頻調。
˙若存在LTP資訊且滯後在實際及過去訊框之上為穩定的,則頻調隱蔽[6]應適用於解碼器。
冗餘資訊(參數6)可為:
˙ISF/LSF參數:
ISF/LSF參數表示用於LPC參數之量化及寫碼。在TCX中,LPC用於表示掩蔽臨限。此為重要參數且極其有助於在訊框丟失的情況下使其在解碼器側正確可用。尤其,若ISF/LSF經預測性地寫碼,則隱蔽品質將藉由使該資訊在隱蔽期間可用而大幅改善,因為解碼器側上之預測器狀態將保持正確(與編碼器同步),且此將在丟失之後產生極快速恢復。
˙信號分類:
信號分類用於傳訊內容類型:無聲、無聲過渡、有聲過渡、有聲及起始。通常,此類型分類用於語音寫碼及指示頻調/預測分量是否存在於信號中或頻調/預測分量是否變化。在隱蔽期間使該資訊在解碼器側上可用可幫助判定信號之可預測性,且因此可幫助調整LPC參數之振幅淡出 速度、內插速度。
˙TCX全域增益/位準:
全域增益可經傳輸以易於在隱蔽訊框可用的情況下將隱蔽訊框之能量設定為正確(經編碼器判定之)位準。
˙視窗資訊類重疊長度。
˙譜峰位置幫助頻調隱蔽。
存在的特殊情況為在用於頻域部分複本之編碼器1處,檢查信號2是否含有起始。若實際訊框4c的增益(可經量化)超過前一訊框4b的增益某一因子(例如,1.6)倍,且實際訊框4c與先前訊框4b之間的相關性較低,則僅傳輸有限(經削減的)增益。此情形避免在隱蔽之情況下得到前回波假影。在起始的情況下,先前訊框4b實際上與實際訊框4c不相關。因此,若基於先前訊框4b頻譜區間完成隱蔽,則不能依賴實際訊框4c上計算出之增益。
切換式編解碼器方案(TCX-ACELP)
在另一實施例中,編碼器1為切換式編解碼器的一部分,其中切換式編解碼器由至少兩個核心寫碼方案組成。第一核心寫碼方案使用ACELP,且第二核心寫碼方案使用TCX。參考圖3,編碼器1包含可在ACELP核心寫碼方案與TCX核心寫碼方案之間切換的核心寫碼器10。
編碼器進一步包含用於處理ACELP寫碼內容13之ACELP處理器11及用於處理TCX寫碼內容14之TCX處理器12。ACELP處理器11為使用習知部分複本方法之常用處理器,其中主訊框15經主寫碼,且冗餘訊框16經冗餘寫碼。 冗餘訊框16為其相應主訊框15的低位元速率版本。
TCX處理器12處理根據本發明概念編碼之訊框。在第一分支17中,編碼內容3以主訊框4b、4c形式提供。在第二分支18中,加強隱蔽之參數6以如圖2中所示之「部分複本」8a、8b之形式提供。將ACELP內容15、16及TCX內容17、18兩者封裝至傳送封包9序列中,如前所述,且以位元流5發送至解碼器側。
仍參考圖3,但換言之,本發明概念之使用以及基於先前技術部分冗餘複本之方法在切換式編碼系統中描述。此系統由兩個(或兩個以上)核心寫碼方案組成,而一種方案使用用於寫碼類語音內容之ACELP,且第二方案使用用於寫碼通用音訊內容之TCX。
假定使用傳統部分冗餘複本寫碼處理ACELP訊框15、16,且使用本發明方法處理TCX訊框4b、4c、8a、8b,將出現兩種主要情況,其中不需要特殊操作,且使用底層核心寫碼器10之部分複本方法處理訊框4b、4c、8a、8b、15、16:
˙上方具有自未來ACELP訊框產生之部分複本16的ACELP主訊框15
˙上方具有自未來TCX訊框4b產生之部分複本8b的TCX主訊框4c
然而,在靠近核心寫碼器開關之訊框中,可能出現兩個特殊情況,亦即:
˙上方具有自未來TCX訊框產生之部分複本8的 ACELP主訊框15
˙上方具有自未來ACELP訊框產生之部分複本16的TCX主訊框4
對於此等情況,核心寫碼器皆需經組態以創建另一寫碼器類型之主訊框4、15以及部分複本8、16,而不違反訊框之所需總尺寸,以確保恆定位元速率。
因此,編碼器1經組態以創建具有類語音內容類型(ACELP)及通用音訊內容類型(TCX)中之一者的主訊框4、15,以及具有類語音內容類型及通用音訊內容類型中之另一者的部分複本8、16。
然而,當部分複本8、16之較複雜選擇為合適時,存在更特殊情況,例如:
ACELP訊框15之後的第一TCX訊框4:
若此訊框4丟失且因此不可用於解碼器,則本發明技術將使用已傳送至另一(希望未丟失)訊框之上的部分複本資訊(參數6)來TCX隱蔽訊框4。但由於隱蔽需要前一訊框以外插信號內容,故在此情況下較佳使用ACELP隱蔽(由於先前訊框為ACELP),該ACELP隱蔽使得TCX部分複本不必要。因此,已決定在編碼器1中,在切換之後不將部分複本8放置在TCX訊框4上方。
因此,編碼器1經組態以在ACELP訊框15之後存在第一TCX訊框4時,在切換之後,不將部分複本8放置於TCX訊框4之上。
信號可調適之部分複本選擇:
信號(音訊內容)2可在編碼之前經分析以判定(使用參數6)之本發明部分複本的使用是否有利。舉例而言,若信號2可在沒有解碼器內之額外部分複本資訊(亦即參數6)的幫助下十分令人滿意地隱蔽,而乾淨頻道效能因減少之主訊框4而不佳,則可(例如)禁用本發明部分複本之使用(亦即,將參數6嵌入位元流5中),或在編碼器1內可使用特定減少之部分複本8。
因此,編碼器1經組態以在編碼前分析信號2且禁用部分複本之使用或基於分析之信號2提供減少之部分複本。
大體而言,編碼器1經組態以提供以部分複本模式建構之部分冗餘複本8。在一實施例中,編碼器1經組態以在多個部分複本模式之間選擇,該等模式使用不同量之資訊及/或不同參數集,其中部分複本模式之選擇基於不同參數。
用於TCX訊框之部分冗餘訊框的建構
在TCX部分冗餘訊框類型的情況下,由一些輔助參數6組成之部分複本8用於加強訊框丟失隱蔽演算法。在一實施例中,存在三個可用的不同部分複本模式,其為RF_TCXFD、RF_TCXTD1及RF_TCX_TD2。類似於解碼器側上之PLC模式決策,用於TCX之部分複本模式的選擇基於各種參數,諸如後兩個訊框之模式、訊框級、LTP音調及增益。用於模式之選擇的參數可等同於或不同於用於加強隱蔽之參數,該等參數包含於「部分複本」中。
a)頻域隱蔽(RF_TCXFD)部分冗餘訊框類型
根據實施例,多個部分複本模式中之至少一者為頻域(「FD」)隱蔽模式,在下文中描述該模式之實例。
29個位元用於RF_TCXFD部分複本模式。
˙13個位元用於LSF量化器(例如用於寫碼LPC參數),該LSF量化器與用於常規低速率TCX寫碼之量化器相同。
˙全域TCX增益使用7個位元經量化。
˙分類器資訊(例如,有聲、無聲等)在2個位元上經寫碼。
b)時域隱蔽(RF_TCXTD1及RF_TCXTD2)部分冗餘訊框類型
根據實施例,多個部分複本模式中之至少兩者為不同時域(「TD」)隱蔽模式,在下文中描述該等模式之實例。在訊框4c含有暫態或在訊框4c之全域增益比先前訊框4b之全域增益低(得多)之情況下選擇第一時域隱蔽模式(亦即,部分複本模式RF_TCXTD1)。否則,選擇第二時域隱蔽模式,亦即RF_TCXTD2。
將總共18個位元之側資料用於兩種模式。
˙9個位元用於傳訊TCX LTP(長期預測)滯後
˙2個位元用於傳訊分類器資訊(例如,有聲、無聲等)
時域隱蔽
視實施而定,編解碼器可僅為變換域編解碼器或使用[4]或[5]中描述之時域隱蔽的切換編解碼器(變換域/時 域)。類似於本文中描述之解碼器側上之封包丟失隱蔽模式決策,根據本發明之部分複本模式的選擇基於如上所述之不同參數,例如,後兩種訊框之模式、訊框級、LTP音調及增益。
在選擇時域模式的情況下,可傳輸後續參數6。
˙在存在LTP資料的情況下,傳輸LTP滯後, ˙分類器資訊經傳訊(無聲、無聲過渡、有聲、有聲過渡、起始......):信號分類用於傳訊內容類型:無聲、無聲過渡、有聲過渡、有聲及起始。通常,此類型分類用於語音寫碼及指示頻調/預測分量是否存在於信號中或頻調/預測分量是否變化。在隱蔽期間使該資訊在解碼器側上可用可幫助判定信號的可預測性,且因此其可幫助調整LPC參數的振幅淡出速度及/或內插速度,且其可控制有聲或無聲激勵信號之高通或低通濾波的可能使用(例如,用於去噪)。
視情況,亦可傳輸後續參數6中之至少一者:˙描述在帶寬擴展用於常規寫碼的情況下全頻譜範圍的LPC參數,˙LTP增益,˙雜訊位準,及˙脈衝位置
發送之大部分參數6直接自變換域中寫碼之實際訊框4導出,故不導致額外複雜性。但若複雜性不成問題,則編碼器1處之隱蔽模擬可經添加以優化可發送之變量6。
如上所述,亦可使用用於提供部分複本8的多個 模式。此情形允許發送不同量之資訊或不同參數集。舉例而言,存在用於時域(TD)之兩種模式。在訊框4c含有暫態或在訊框4c的全域增益比先前訊框4b的全域增益低得多之情況下可選擇部分複本模式TD1。否則,選擇TD2。接著,在解碼器處,音調增益及寫碼增益將以兩個不同因子(相應地,0.4及0.7)減少,以每當原始信號2為更暫態時避開具有長平穩信號。
多個訊框丟失
存在另一特殊情況,亦即,多個訊框丟失之情況。若先前訊框4a丟失,則不應考慮自部分複本8b解碼之音調,因為以位元流5發送之音調基於地面實況在編碼器側上計算出,但若先前訊框4a丟失,則先前丟失及隱蔽合成的合成實際上可能不同於編碼器之地面實況。故一般而言,在多個訊框丟失的情況下最好不冒險依賴編碼器/解碼器之同步性,且最好將音調固定為預測音調以用於後續丟失之訊框,而非使用傳輸之音調。
在下文中參考圖4中示出之實施例將概括編碼器1之本發明概念。
編碼器1接收含有音訊內容2之輸入信號。音訊內容2可為類語音內容及/或通用音訊內容,諸如音樂、背景雜訊或類似者。
編碼器1包含核心寫碼器10。核心寫碼器10可使用用於編碼類語音內容之核心寫碼方案(諸如,ACELP),或用於編碼通用音訊內容之核心寫碼方案(諸如,TCX)。核 心寫碼器10亦可形成切換式編解碼器的一部分,亦即,核心寫碼器10可在類語音內容核心寫碼方案與通用音訊內容核心寫碼方案之間切換。詳言之,核心寫碼器10可在ACELP與TCX之間切換。
如分支20中所指示,核心寫碼器10創建包含音訊內容2之編碼表示的主訊框4。
編碼器1可進一步包含部分冗餘訊框提供器21。如分支30中所指示,核心寫碼器10可為部分冗餘訊框提供器21提供一或多個參數6。此等參數6為加強解碼器側處之隱蔽的參數。
另外或替代地,編碼器1可包含隱蔽參數擷取單元22。隱蔽參數擷取單元22直接自音訊信號(亦即自內容2)擷取隱蔽參數6,如分支40中所指示。隱蔽參數擷取單元22為部分冗餘訊框提供器21提供擷取之參數6。
編碼器1進一步包含模式選擇器23。模式選擇器23選擇性地選擇隱蔽模式,該模式亦稱為部分冗餘複本模式。視部分冗餘複本模式而定,模式選擇器23判定哪些參數6適合於解碼器側之錯誤隱蔽。
因此,核心寫碼器10分析信號(亦即音訊內容2),且基於分析之信號特性判定提供至模式選擇器23之某些參數24。此等參數24亦被稱作模式選擇參數24。舉例而言,模式選擇參數可為訊框級、後兩個訊框之模式、LTP音調及LTP增益中之至少一者。核心寫碼器10為模式選擇器23提供此等模式選擇參數24。
基於模式選擇參數24,模式選擇器23選擇部分冗餘複本模式。模式選擇器23可在三個不同部分冗餘複本模式之間選擇性地選擇。詳言之,模式選擇器23可在頻域部分冗餘複本模式與兩種不同時域部分冗餘複本模式(例如,如上文所描述之TD1及TD2)之間選擇性地選擇。
如分支50中所指示,將模式選擇資訊25(亦即,關於所選擇的部分冗餘複本模式之資訊)提供至部分冗餘訊框提供器21。基於模式選擇資訊25,部分冗餘訊框提供器21選擇性地選擇將在解碼器側處用於錯誤隱蔽之參數6。因此,部分冗餘訊框提供器21創建及提供含有該等錯誤隱蔽參數6之編碼表示的部分冗餘訊框8。
換言之,部分冗餘訊框提供器21提供信號特定之部分冗餘複本。此等部分冗餘複本以部分冗餘訊框8提供,其中每一部分冗餘訊框8含有至少一個錯誤隱蔽參數6。
如分支20及60中所指示,編碼器1將主訊框4及部分冗餘訊框8組合成傳出之位元流5。至於基於封包之網路,主訊框4及部分冗餘訊框8一起封裝至傳送封包中,該封包以位元流發送至解碼器側。然而,應注意,當前音訊訊框之主訊框4c與先前訊框(亦即,已在先前適時發送之訊框)之部分冗餘訊框8b(含有僅用於加強隱蔽之參數6)一起封裝至封包9中。
位元流5包含恆定總位元速率。為了確保位元流5處於或低於恆定總位元速率,編碼器1控制含有主訊框及部分冗餘訊框8之組合之傳送封包的位元速率。另外或替代地, 編碼器1可包含具有該功能之位元速率控制器26。
換言之,編碼器1經組態以組合當前訊框之至少一個隱蔽參數6的編碼表示8與未來訊框(亦即,將比當前訊框在時間上稍晚發送之訊框)的主編碼表示4。因此,當前訊框之至少一個錯誤隱蔽參數6的編碼表示8相對於該當前訊框的主編碼表示4以一時間延遲發送。
換言之,且仍參考圖4,在第一步驟中,內容2a經編碼且作為主訊框4a提供。其相應之一或多個錯誤隱蔽參數6a經選擇且作為部分冗餘訊框8a提供。接著,在第二步驟中,後續內容2b經編碼且作為(後續)主訊框4b提供,且其一或多個錯誤隱蔽參數6b經選擇且作為(後續)部分冗餘訊框8b提供。現在,編碼器1將(當前內容之)部分冗餘訊框8a與(後續內容之)主訊框4b組合至共同傳送封包9b中。因此,若含有含有主訊框4a之前一封包9a丟失、損壞或延遲,則其部分冗餘訊框8a可在解碼器側處使用以隱蔽最初包含於(有缺陷的)主訊框4a中之編碼表示中的音訊內容,該部分冗餘訊框在上述後續傳送封包9b(含有部分冗餘訊框8a及主訊框4b)內稍後適時發送。
解碼器之描述
根據實施例,本發明使用封包切換網路或基於封包之網路。在此情況下,訊框以傳送封包9a、9b發送,如圖5中所示。傳送封包9a含有主訊框4b及部分複本8a。傳送封包9b含有主訊框4c及部分複本8b。
換言之,部分複本8a為當前訊框之至少一個錯誤 隱蔽參數6的編碼表示。至少一個錯誤隱蔽參數6已由編碼器1選擇性地選擇,如先前參考圖1至圖4所述。至少一個錯誤隱蔽參數6加強解碼器31處之隱蔽,如下將更詳細地描述。
在解碼器31處,可能存在分別關於傳輸訊框4、8或傳送封包9a、9b的兩種不同情況。
主編碼表示的標準解碼
在由分支70所指示之第一情況下,經傳輸傳送封包9a、9b以正確次序(亦即,以與其在編碼器側處發送相同的次序)接收。
解碼器31包含用於解碼包含於訊框中之傳輸之經編碼音訊內容2的解碼單元34。詳言之,解碼單元34經組態以解碼某些訊框之經傳輸主編碼表示4b、4c。視各別訊框之編碼方案而定,解碼器31可使用相同方案解碼,亦即用於通用音訊內容之TCX解碼方案或用於類語音內容之ACELP解碼方案。因此,解碼器31輸出經分別解碼之音訊內容35。
使用至少一個錯誤隱蔽參數之編碼表示的經加強錯誤隱蔽
在訊框之主編碼表示4為有缺陷的(亦即,在主編碼表示4丟失、損壞或延遲(例如,因傳送封包9a比解碼器之緩衝長度丟失、損壞或延遲更久))之情況下可能出現第二情況,如分支80中所指示。音訊內容隨後將必須由錯誤隱蔽至少部分地重構。
因此,解碼器31包含隱蔽單元36。隱蔽單元36可使用基於習知隱蔽機制的隱蔽機制,然而,其中該隱蔽由自編碼器1接收之一或多個錯誤隱蔽參數6加強(或支援)。根據本發明的實施例,隱蔽單元36使用基於外插法之隱蔽機制,如專利申請案[4]及[5]中所描述,該等申請案以引用之方式併入本文中。
使用該基於外插法之錯誤隱蔽機制,以在訊框之主編碼表示4有缺陷(亦即,丟失、損壞或延遲)的情況下重構音訊內容,該音訊內容可用於該主編碼表示4。本發明概念使用至少一個錯誤隱蔽參數6加強此等習知錯誤隱蔽機制。
將參考圖5中所示之實施例更詳細闡述此情形。解碼器31通常接收傳送封包9a及傳送封包9b。傳送封包9a含有當前訊框的主編碼表示4b及前一訊框(未展示)之至少一個錯誤隱蔽參數6的編碼表示8a。傳送封包9b含有當前訊框之至少一個錯誤隱蔽參數6的編碼表示8b以加強當前訊框之解碼器側之基於外插法的錯誤隱蔽。傳送封包9b進一步含有後續訊框(亦即,當前訊框之後(直接或其間具有一或多個訊框)的訊框)的主編碼表示4c。
換言之,用於重構當前訊框之有缺陷的音訊內容之至少一個錯誤隱蔽參數6的編碼表示8b包含於傳送封包9b中,而該當前訊框的主編碼表示4b包含於傳送封包9a中。
若解碼器31偵測到(例如)當前訊框的主編碼表 示4b有缺陷(亦即,丟失、損壞或延遲),則使用上述可用的錯誤隱蔽機制重構有缺陷的音訊內容。根據本發明,在錯誤隱蔽期間使用至少一個錯誤隱蔽參數6加強可用的錯誤隱蔽機制。
出於此原因,解碼器31自包含於傳送封包9b中之編碼表示8b擷取至少一個錯誤隱蔽參數6。基於已擷取之至少一個參數6,解碼器31在至少兩個隱蔽模式之間選擇性地選擇,以至少部分地重構有缺陷的音訊內容(在此意義上,提供隱蔽之音訊內容,預期該內容在某種程度上類似於丟失之主編碼表示的音訊內容)。詳言之,解碼器31可在頻域隱蔽模式與至少一個時域隱蔽模式之間選擇。
頻域隱蔽(RF_TCXFD)部分冗餘訊框類型
在頻域隱蔽模式的情況下,至少一個錯誤隱蔽參數6的編碼表示8b包含ISF/LSF參數、TCX全域增益、TCX全域位準、信號分類器資訊、類視窗資訊重疊長度及譜峰位置中之一或多者以有助於頻調隱蔽。
各別擷取之一或多個參數6經饋送至錯誤隱蔽單元36,該錯誤隱蔽單元36使用至少一個參數6加強基於外插法之錯誤隱蔽,以至少部分地重構有缺陷的音訊內容。因此,解碼器31輸出隱蔽之音訊內容35。
下文描述使用頻域隱蔽之實例之本發明的實施例,其中29個位元用於RF_TCXFD部分複本模式(亦即,29個位元包括於錯誤隱蔽參數6之編碼表示中且由隱蔽單 元36使用)。
˙13個位元用於LSF量化器,該LSF量化器與用於常規低速率TCX寫碼之量化器相同。
˙使用7個位元量化全域TCX增益。
˙分類器資訊在2個位元上經寫碼。
時域隱蔽(RF_TCXTD1及RF_TCXTD2)部分冗餘訊框類型
在時域隱蔽模式的情況下,解碼器31可在至少兩個不同時域隱蔽模式之間選擇性地選擇,以至少部分地重構有缺陷的音訊內容。
舉例而言,在訊框含有暫態或在訊框之全域增益比先前訊框之全域增益低得多之情況下可選擇第一模式RF_TCXTD1。否則,選擇第二模式RF_TCXTD2。
在時域隱蔽模式的情況下,至少一個錯誤隱蔽參數6的編碼表示8b包含LSF參數、TCX LTP滯後、分類器資訊、LPC參數、LTP增益、雜訊位準及脈衝位置中之一或多者。各別擷取之一或多個參數6經饋送至錯誤隱蔽單元36,該錯誤隱蔽單元36使用至少一個參數6加強基於外插法之錯誤隱蔽,以至少部分地重構(或近似)有缺陷的音訊內容。因此,解碼器31輸出隱蔽之音訊內容35。
下文描述使用時域隱蔽之實例之本發明的實施例,其中總共18個位元之側資料(亦即,參數6)用於兩種模式。
˙9個位元用於傳訊TCX LTP滯後
˙2個位元用於傳訊分類器資訊
解碼器31可為使用TCX解碼方案解碼及/或隱蔽TCX訊框之編解碼器的一部分,如上文所描述。解碼器31亦可為使用ACELP寫碼方案解碼及/或隱蔽ACELP訊框之編解碼器的一部分。在ACELP寫碼方案的情況下,至少一個錯誤隱蔽參數6的編碼表示8b可包含可調適碼簿參數及固定碼簿參數中之一或兩者。
根據本發明,在解碼器31中,識別當前訊框4b之至少一個錯誤隱蔽參數6之編碼表示的類型,且基於是否編碼僅一或多個可調適碼簿參數(例如,ACELP)、僅一或多個固定碼簿參數(例如,ACELP),或一或多個可調適碼簿參數及一或多個固定碼簿參數、TCX錯誤隱蔽參數6或雜訊激發線性預測參數來執行解碼及錯誤隱蔽。若當前訊框4b或先前訊框4a由各別訊框之至少一個錯誤隱蔽參數6的編碼表示隱蔽,則首先獲得當前訊框4b之至少一個錯誤隱蔽參數6(諸如,LSP參數、可調適碼簿的增益、固定碼簿之增益或BWE增益),且接著與來自當前訊框4b之先前訊框或來自當前訊框4b之未來訊框的解碼參數、分類資訊或頻譜傾斜結合進行處理,以重構輸出信號35,如上文所描述。最後,基於隱蔽方案(例如,時域隱蔽或頻域隱蔽)重構訊框。TCX部分資訊經解碼,但與ACELP部分複本模式相比,解碼器31以隱蔽模式運行。與上述習知基於外插法之隱蔽的不同之處在於:源自位元流5之至少一個錯誤隱蔽參數6經 直接使用且不由該習知隱蔽導出。
第一EVS實施例
以下描述段落提供本發明概念相對於使用所謂的EVS(加強型語音服務)編解碼器之編碼器1與解碼器31之間的協作互動的概述。
EVS實施例簡介
EVS(加強型語音服務)以13.2kbps提供基於部分冗餘之錯誤穩健頻道感知模式以用於寬頻音訊帶寬及超寬頻音訊帶寬兩者。視訊框之臨界性而定,針對特定訊框動態地啟用或禁用部分冗餘,而保持13.2kbps之固定位元預算。
頻道感知寫碼原理
在VoIP系統中,封包到達解碼器,其到達時間具有隨機抖動。封包亦可無序地到達解碼器。由於解碼器預期每20毫秒饋入語音封包以輸出週期性區塊中之語音樣本,需要去抖動緩衝器[6]來吸收封包到達時間中的抖動。去抖動緩衝器之尺寸越大,去抖動緩衝器吸收到達時間中之抖動的能力越好,且因此丟棄之遲到封包越少。語音通信亦為延遲臨界系統,且因此保持端對端延遲儘可能低以使得可持續雙向會話變得至關重要。
可調適去抖動緩衝器的設計反映上述取捨。當嘗試將封包丟失降至最低時,解碼器中之抖動緩衝器管理演算法亦保持對由於緩衝導致的封包遞送中之延遲的追蹤。抖動緩衝器管理演算法適當地調整去抖動緩衝器的深度, 以達成延遲與晚期丟失之間的取捨。
參考圖6,EVS頻道感知模式使用當前訊框4a連同未來訊框4b的部分冗餘複本8a以用於錯誤隱蔽。部分冗餘技術傳輸當前訊框4a連同未來訊框4b之部分複本8a,以希望在當前訊框4a丟失(或由於網路損耗或遲到)的情況下,未來訊框4b之部分複本8a可自抖動緩衝器擷取以改進丟失後之恢復。
訊框之主複本4a的傳輸時間與(揹負至未來訊框4b上之)該訊框之冗餘複本8a的傳輸時間之間的時間單位差稱為FEC偏移。若在任何給定時間,抖動緩衝器的深度至少等於FEC偏移,則很有可能在當前時間個例處,未來訊框可用於去抖動緩衝器。FEC偏移為編碼器處之可視網路狀況而動態調整之可組態參數。
圖6中展示FEC偏移等於[7]之EVS的部分冗餘的概念。
冗餘複本8a僅為僅包括參數子集之部分複本,該等參數對解碼或遏制錯誤傳播最為關鍵。
EVS頻道感知模式傳輸作為編解碼器有效負載的一部分之帶內冗餘,與(例如藉由將多個封包包括於單一RTP有效負載中)傳輸傳送層處之冗餘相反。包括帶內冗餘使允許冗餘之傳輸受頻道控制(例如,對抗網路擁塞)或源控制。在後一情況下,編碼器可使用輸入源信號的性性來判定哪些訊框對解碼器處之高品質重構最為關鍵且僅為彼等訊框選擇性地傳輸冗餘。帶內冗餘之另一優勢在於源控制 可用於判定哪些輸入訊框可以降低之訊框率經最佳寫碼,以在不更改總封包尺寸的情況下容納冗餘附接。以此方式,頻道感知模式包括恆定位元速率頻道(13.2kbps)中之冗餘。
用於主冗餘訊框寫碼及部分冗餘訊框寫碼的位元速率配置
主訊框位元速率降低
主訊框之可壓縮性的量測用於判定哪些訊框可以減少之訊框率經最佳寫碼。對於TCX訊框,9.6kpbs設定適用於WB以及SWB。對於ACELP,以下皆適用。首先檢查來自信號分類演算法之寫碼模式決策。分類以用於無聲寫碼(UC)或有聲寫碼(VC)之語音訊框適合於壓縮。對於通用寫碼(GC)模式,訊框內之相鄰子訊框之間的相關性(音調滯後)用於判定可壓縮性。頻道感知模式中之上頻帶信號的主訊框寫碼(亦即,SWB中為6.4至14.4kHz,且WB中為6.4至8kHz)使用時域帶寬擴展(TBE)。對於頻道感知模式中之SWB TBE,非頻道感知模式框架之按比例縮小版本用於獲得用於主訊框的位元減少。在頻道感知模式中使用8位元向量量化進行LSF量化,而基於21位元純量量化之方法用於非頻道感知模式。頻道感知模式中之SWB TBE主訊框增益參數類似於非頻道感知模式之參數以13.2kbps編碼,亦即,用於增益參數之8個位元。頻道感知模式中之WB TBE使用與非頻道感知模式之9.6kbps WB TBE中所使用的相似之編碼,亦即,用於LSF之2個位元及用於增益參數之4個位元。
部分冗餘訊框寫碼
部分冗餘訊框之尺寸為可變的且視輸入信號之特性而定。又,臨界性量測為重要度量。當訊框丟失將對接收器之語音品質產生嚴重影響時,訊框被視為保護臨界。臨界性亦視先前訊框丟失與否而定。舉例而言,若先前訊框亦丟失,則訊框由非臨界變成臨界。自主複本寫碼計算出之參數(諸如,寫碼器類型分類資訊、子訊框音調滯後、因子M等)用於量測訊框的臨界性。判定特定訊框是否為臨界之臨限為編碼器處之可視網路狀況而動態調整之可組態參數。舉例而言,在高FER條件下,可能需要調整臨限以將較多訊框分類為臨界。上頻帶信號之部分訊框寫碼依賴於增益參數的粗略編碼及來自主訊框之LSF參數的內插/外插。在第(n-FEC偏移)個訊框之主訊框編碼期間估計之TBE增益參數在第n個訊框期間作為部分複本資訊重新傳輸。視部分訊框編碼模式(亦即,通用或有聲或無聲)而定,增益訊框之重新傳輸使用不同量化解析及增益平滑。
以下部分描述不同部分冗餘訊框類型及其組成。
用於通用及有聲寫碼模式之部分冗餘訊框的建構
在訊框之冗餘版本的寫碼中,基於可調適碼簿能量及固定碼簿能量判定因子M。
在此等式中,E(ACB)表示可調適碼簿能量,且E(FCB)表示固定碼簿能量。M之低值指示當前訊框中之大 部分資訊由固定碼簿作用承載。在此類情況下,僅使用一或多個固定之碼簿參數(FCB脈波及增益)建構部分冗餘複本(RF_NOPRED)。M之高值表明當前訊框中之大部分資訊由可調適之碼簿量值承載。在此情況下,僅使用一或多個可調適碼簿參數(音調滯後及增益)建構部分冗餘複本(RF_ALLPRED)。若M得到中間值,則選擇混合寫碼模式,其中寫碼一或多個可調適碼簿參數及一或多個固定碼簿參數(RF_GENPRED)。在通用及有聲寫碼模式下,TBE增益訊框值通常較低且展現較少差異。因此,使用具有增益平滑之粗略TBE增益訊框量化。
用於無聲寫碼模式之部分冗餘訊框的建構
低位元速率雜訊激發線性預測寫碼方案用於建構無聲訊框類型之部分冗餘複本(RF_NELP)。在無聲寫碼模式中,TBE增益訊框具有更寬動態範圍。為保存該動態範圍,無聲寫碼模式之TBE增益訊框量化使用與主訊框中使用之訊框量化相似的量化範圍。
用於TCX訊框之部分冗餘訊框的建構
在TCX部分冗餘訊框類型的情況下,由一些輔助參數組成之部分複本用於加強訊框丟失隱蔽演算法。存在三個可用的不同部分複本模式,其為RF_TCXFD、RF_TCXTD1及RF_TCX_TD2。類似於解碼器側上之PLC模式決策,用於TCX之部分複本模式的選擇基於各種參數,諸如後兩個訊框之模式、訊框級、LTP音調及增益。
頻域隱蔽(RF_TCXFD)部分冗餘訊框類型
29個位元用於RF_TCXFD部分複本模式。
˙13個位元用於LSF量化器,該LSF量化器與用於常規低速率TCX寫碼之量化器相同。
˙使用7個位元量化全域TCX增益。
˙分類器資訊在2個位元上經寫碼。
時域隱蔽(RF_TCXTD1及RF_TCXTD2)部分冗餘訊框類型
在訊框含有暫態或在訊框之全域增益比先前訊框之全域增益低得多之情況下選擇部分複本模式RF_TCXTD1。否則,選擇RF_TCXTD2。
總共18個位元之側資料用於兩種模式。
˙9個位元用於傳訊TCX LTP滯後
˙2個位元用於傳訊分類器資訊
RF_NO_DATA部分冗餘訊框類型
此用於傳訊其中不發送部分冗餘複本且所有位元用於主訊框寫碼的組態。
主訊框位元速率降低與部分冗餘訊框寫碼機制一起判定主訊框與冗餘訊框之間的位元速率配置包括在13.2kbps有效負載內。
解碼
在接收器處,若當前丟失之訊框的部分冗餘複本可用於任何未來訊框,則去抖動緩衝器提供該部分冗餘複本。若存在,部分冗餘資訊用於合成丟失訊框。在解碼時,識別部分冗餘訊框類型,且基於是否寫碼僅一或多個可調 適碼簿參數、僅一或多個固定碼簿參數,或一或多個可調適碼簿參數及一或多個固定碼簿參數、TCX訊框丟失隱蔽輔助參數或雜訊激發線性預測參數來進行解碼。若當前訊框或先前訊框為部分冗餘訊框,則首先獲得當前訊框的解碼參數(諸如LSP參數、可調適碼簿增益、固定碼簿增益或BWE增益),且接著根據來自當前訊框之先前訊框或當前訊框之未來訊框的解碼參數、分類資訊或頻譜傾斜對其進行後處理。經後處理之參數用於重構輸出信號。最後,基於寫碼方案重構訊框。TCX部分資訊經解碼,但與ACELP部分複本模式相比,解碼器以隱蔽模式運行。與常規隱蔽的不同之處僅在於:源自位元流之參數經直接使用且不由隱蔽導出。
頻道感知模式編碼器可組態參數
頻道感知模式編碼器可使用以下可組態參數來調適其追蹤接收器處所見之頻道特性的操作。此等參數可在接收器計算且經由接收器觸發回饋機制傳達至編碼器。
最佳部分冗餘偏移(o):訊框(n)之主複本之傳輸時間與(揹負至未來訊框(n+X)上之)彼訊框之冗餘複本的傳輸時間之間的時間單位差被稱為FEC偏移X。最佳FEC偏移為接收器處存在訊框丟失時最大化部分冗餘複本之可用性機率的值。
訊框抹除率指示符(p)具有以下值:用於FER比率之LO(低)<5%或用於FER之HI(高)>5%。該參數控制用於判定特定訊框是否為臨界的臨限。臨界性臨限之此調整用於 控制部分複本傳輸之頻率。相比於LO設定,HI設定調整臨界性臨限以將更多訊框分類作為傳輸臨界。
應注意,該等編碼器可組態參數為可選,其中默認設定成p=HIo=3。
第二EVS實施例
以下描述段落描述用於封包切換網路(諸如,網際網路語音通信協定(VoIP)、長期演進語音通信(VoLTE)或WiFi語音通信(VoWiFi))之本發明概念的例示性實施例。
描述最新標準化3GPP EVS語音編解碼器的高度錯誤恢復模式。與AMR-WB編解碼器及其他會話式編解碼器相比,EVS頻道感知模式為經由封包切換網路(諸如,網際網路語音通信協定(VoIP)及長期演進語音通信(VoLTE))之語音通信提供大幅改進之錯誤恢復。使用帶內前向錯誤校正形式達成錯誤恢復。源控制寫碼技術用於識別用於位元速率降低之候選語音訊框,從而留下備用位元以用於傳輸先前訊框的部分複本,以便保持恆定位元速率。在原始主訊框丟失或由於遲到而被丟棄的情況下,獨立部分複本用於改進錯誤穩定性。提供ITU-TP.800平均意見得分(MOS)測試之主觀評價結果,展示頻道減損下之改進品質以及對乾淨頻道效能之可忽略的影響。
引言
在封包切換網路中,封包可經受變化排程及選路條件,此導致時變端對端延遲。延遲抖動並非經受大部分習知語音解碼器及語音後處理演算法,該等演算法通常期 望以固定時間間隔接收封包。因此,去抖動緩衝器(亦被稱作抖動緩衝器管理(JBM)[8]、[13])通常在接收終端中用以移除抖動且以正確順序次序將封包遞送至解碼器。
去抖動緩衝器越長,其移除抖動之能力越好,且在不丟棄由於遲到(或緩衝器下溢)之封包的情況下可耐受抖動的可能性越大。然而,端對端延遲為會話語音網路中之呼叫品質的關鍵判定因子,且JBM在不添加過多緩衝延遲的情況下吸收抖動的能力為重要要求。因此,JBM延遲與接收器處之抖動誘導的封包丟失之間存在取捨。JBM設計已演進到提供遞增之效能位準,同時保持最低平均延遲[8]。除延遲抖動以外,封包切換網路之另一主要特性為存在比在電路切換網路上更常見之多個連續封包丟失(錯誤叢發)。該等叢發可起因於不同網路層處之封包捆綁、排程器行為、不良射頻覆蓋度或甚至緩慢調適之JBM。然而,去抖動緩衝器(用於VoIP之基本組件)可用於改進之下溢防止及更複雜之封包損失隱蔽[8]。一種此類技術藉由傳輸編碼之資訊使用前向錯誤校正,該資訊在原始資訊在接收器處丟失時冗餘使用。
EVS編解碼器中之頻道感知模式
EVS頻道感知模式引入一種用於以恆定位元速率流將帶內冗餘作為編解碼器有效負載的一部分傳輸的新穎技術,且以13.2kbps經實施用於寬頻(WB)及超寬頻(SWB)。此技術與先前編解碼器形成對比,對於此技術,冗餘通常於後期藉由界定傳輸傳送層處之冗餘的機制而添 加。舉例而言,AMR-WB RTP有效負載格式允許捆綁多個語音訊框以將冗餘包括至單一RTP有效負載[9]中。替代地,含有單一語音訊框之RTP封包可僅在稍後重新傳輸。
圖7描繪EVS頻道感知模式中之部分冗餘的概念。該構思為編碼及傳輸與第N個訊框相關聯之部分冗餘複本8a,連同第(N+K)個訊框的主編碼4b。判定主訊框4與部分訊框8之間的分離之偏移參數K亦連同部分複本8一起傳輸。在封包切換網路中,若第N個訊框4a封包丟失,則檢驗去抖動緩衝器71之未來封包之可用性。若可用,則傳輸之偏移參數用於識別部分複本擷取之合適未來封包及丟失訊框之合成。偏移3用作實例來展示圖7中之程序。偏移參數可為固定值或可基於網絡狀況在編碼器處經組態。包括EVS頻道感知模式中之帶內冗餘允許冗餘傳輸經頻道控制(例如,對抗網路擁塞)或源控制。在後一情況下,編碼器可使用輸入源信號的性性來判定訊框,該等訊框對高品質重構最為關鍵且僅為彼等訊框選擇性地傳輸冗餘。此外,編碼器亦可識別可以降低之位元速率經最佳寫碼之訊框,以容納冗餘附接,同時保持位元流處於恆定13.2kbps速率。此等新技術大幅改進降低的頻道條件下的效能,同時保持乾淨的頻道品質。
頻道感知編碼
圖8展示頻道感知編碼器1之高位準描述。在16kHz(WB)或32kHz(SWB)下取樣之輸入音訊2分成20毫秒之訊框。「預處理」階段81用於再取樣輸入訊框為12.8kHz, 且執行步驟,諸如語音活性偵測(VAD)及信號分類[16]。基於某些分析參數(例如,標準化相關性、VAD、訊框類型及音調滯後),「冗餘訊框(RF)組態」模組82判定:1. 當前訊框4b之可壓縮性,亦即,若當前訊框4b可允許具有極少感知影響之位元速率降低,以使得能夠包括與先前訊框4a相關聯之部分複本8a,及2. RF訊框類型分類,其控制經由在未來訊框4c中傳輸之部分複本8b如實地重構當前訊框4b所需之位元的數目。圖8中,以2個訊框之訊框抹除隱蔽(FEC)偏移傳輸部分複本8b連同未來主複本4c。
強有聲及無聲訊框適合於攜載對主訊框品質有可忽略的感知影響之先前訊框的部分複本。若允許當前訊框攜載部分複本,則藉由將位元流中之RfFlag設定為1或者0來傳訊。若RfFlag設定為1,則可用於編碼當前主訊框之位元數目Bprimary藉由補償隨附部分複本使用完之位元數目BRF以13.2kbps之恆定總位元速率加以判定,亦即Bprimary=264-BRF。位元數目BRF可在5位元至72位元範圍內,視訊框臨界性及RF訊框類型而定(第3.2部分)。
主訊框寫碼
圖8中展示之「主訊框寫碼」模組83使用ACELP寫碼技術[21]、[23]編碼低頻帶核心高達6.4kHz,而使用時域帶寬擴展(TBE)技術[17]編碼超出6.4kHz且高達奈奎斯頻率之上頻帶。上頻帶經參數化成LSP及增益參數以捕獲每一子訊框之時間演進以及整個訊框上之時間演進兩者[17]。 「主訊框寫碼」模組83亦使用基於MDCT之經變換寫碼激勵(TCX)寫碼技術[11]及智能填縫(IGF)寫碼技術[18]來更有效地編碼背景雜訊訊框及混合/音樂內容。基於SNR之開放迴路分類器[22]用於決定是選擇ACELP/TBE技術還是TCX/IGF技術來編碼主訊框。
Dietz等人[16]給出關於EVS主模式之不同進展的概述,該等進展進一步改進ACELP技術之超出3GPP AMR-WB寫碼效率[21]的寫碼效率。EVS頻道感知模式利用主訊框編碼之此等ACELP及TCX核心進展。另外,由於部分複本在訊框間使用變化之位元數目,故主訊框編碼亦需要相應地適應可調適位元配置。
冗餘訊框寫碼
「冗餘訊框(RF)寫碼」模組84僅對為保護臨界之彼等參數進行緻密再編碼。臨界參數集基於訊框之信號特性加以識別且以低得多的位元速率(例如低於3.6kbps)再編碼。「位元封裝器」模組85將主訊框位元流86及部分複本87連同某些RF參數(諸如,RF訊框類型及FEC偏移(參見表1)配置於位元流中之固定位置。
當訊框丟失將對接收器處之語音品質產生嚴重影響時,彼訊框被視為保護臨界。判定特定訊框是否為臨界之臨限為編碼器處之可視網路狀況而動態調整之可組態參數。舉例而言,在高FER條件下,可能需要調整臨限以將較多訊框分類為臨界。臨界性亦可視自先前訊框之丟失快速恢復的能力而定。舉例而言,若當前訊框極大程度上取決於前一訊框之合成,則可將當前訊框自非臨界再分類成臨界,以在先前訊框將在解碼器處丟失的情況下遏止錯誤傳播。
a)ACELP部分訊框編碼
對於ACELP訊框,視訊框之信號特性而定,部分複本編碼使用四個RF訊框類型(亦即,RF_NOPRED、RF_ALLPRED、RF_GENPRED及RF_NELP)中之一者。由諸如訊框類型、音調滯後及因子τ之主訊框寫碼計算而得的參數可用於判定RF訊框類型及臨界性,其中
EACB表示可調適碼簿(ACB)能量,且EFCB表示固定碼簿(FCB)能量。τ之低值(例如,0.15及以下)表明當前訊框中之大部分資訊由FCB作用承載。在此等情況下,RF_NOPRED部分複本編碼僅使用一或多個FCB參數(例如,FCB脈波及增益)。另一方面,τ之高值(例如,0.35及以上)表明當前訊框中之大部分資訊由ACB作用承載。在此等情況下, RF_ALLPRED部分複本編碼僅使用一或多個ACB參數(例如,音調滯後及增益)。若τ在[0.15,0.35]之範圍內,則混合寫碼模式RF_GENPRED使用ACB參數及FCB參數兩者來進行部分複本編碼。對於無聲訊框,低位元速率雜訊激發線性預測(NELP)[16]用於編碼RF_NELP部分複本。上頻帶部分複本寫碼依賴於增益參數的粗略編碼及來自先前訊框之LSF參數的外插[11]。
b)TCX部分訊框編碼
為了得到有用之TCX部分複本,許多位元將必須用於寫碼MDCT頻譜資料,此舉大幅減少主訊框之可用位元數目且因此降低乾淨頻道品質。出於此原因,用於TCX主訊框之位元的數目保持儘可能大,而部分複本承載控制參數集,從而使得高度導引之TCX隱蔽成為可能。
TCX部分複本編碼使用三個RF訊框類型(亦即,RF_TCXFD、RF_TCXTD1及RF_TCXTD2)中之一者。雖然RF_TCXFD承載用於加強頻域隱蔽之控制參數,但RF_TCXTD1及RF_TCXTD2用於時域隱蔽[20]。TCX RF訊框類型之選擇基於當前訊框及先前訊框之信號特性,包括音調穩定性、LTP增益及信號之時間趨勢。諸如信號分類、LSP、TCX增益及音調滯後之某些臨界參數編碼於TCX部分複本中。
在背景雜訊中或在失效語音訊框中,非導引之訊框抹除隱蔽足以將由於丟失之訊框導致的感知假影降至最低。RF_NO_DATA經傳訊,指示背景雜訊期間位元流中不 存在部分複本。另外,在此寫碼類型切換情況下,由於缺乏外插資料,自ACELP訊框切換之後的第一TCX訊框亦使用RF_NODATA。
頻道感知解碼
圖9表示頻道感知解碼器31之高位準描述。在接收器90處,若當前訊框91未丟失,則JBM 95為「主訊框解碼」96提供封包且忽略存在於封包中之任何RF(冗餘訊框)資訊。若當前訊框丟失,且未來訊框94可用於去抖動緩衝器,則JBM 95為「部分訊框解碼」97提供封包。若未來訊框93不可用於去抖動緩衝器,則執行非導引之抹除隱蔽[20]。
與JBM介接
如前所述,若第N個訊框在播出時間不可用(丟失或延遲),則檢查JBM之未來第(N+K)個訊框之可用性,該訊框含有當前訊框之部分冗餘,其中K{2,3,5,7}。訊框的部分複本通常在主訊框之後到達。JBM延遲調適機制用於提高未來訊框中之部分複本之可用性的可能性,尤其對於較高FEC偏移5及7。EVS JBM符合3GPP TS 26.114[10]規定之延遲抖動需求以用於包括頻道感知模式的所有EVS模式。
除上述功能之外,EVS JBM[13]計算頻道錯誤率及最佳FEC偏移K,該最佳FEC偏移K基於頻道統計最大化部分冗餘複本的可用性。計算出之最佳FEC偏移及頻道錯誤率可經由接收器回饋機制(例如,經由編解碼器模式請求 (CMR)[9])傳輸回編碼器來調適FEC偏移及傳輸部分冗餘以改進終端使用者體驗的比率。
ACELP及TCX部分訊框解碼
圖9中之「位元流剖析器」模組98擷取RF訊框類型資訊且將部分複本資訊傳遞到「部分訊框解碼」模組97。視RF訊框類型而定,若當前訊框對應於ACELP部分複本,則RF參數(例如LSP、ACB及/或FCB增益及上頻帶增益)經解碼用於ACELP合成。ACELP部分複本合成按照與主訊框解碼96相似的步驟,不同之處在於外插缺失之參數(例如,僅在替代子訊框中傳輸某些增益及音調滯後)。
此外,若先前訊框使用部分複本進行合成,則後處理在當前訊框中進行以用於LSP及時間增益之平滑演進。基於訊框類型(例如,有聲或無聲)及先前訊框中估計之頻譜傾斜控制後處理。若當前訊框對應於TCX部分複本,則RF參數用於執行高度導引之隱蔽。
主觀品質測試
EVS頻道感知模式之大量測試由主觀ITU-T P.800平均意見得分(MOS)測試進行,該等測試由32個自發聽眾在獨立測試實驗室中進行。分別使用絕對種類定級(ACR)及降級種類定級(DCR)測試方法[24]針對WB及SWB兩者進行該等測試。由於頻道感知模式經特定設計以改進VoLTE網路之效能,故評估該等網路之效能對建立潛在利益至關重要。因此,使用模擬之編解碼器輸出進行測試,其中封包延遲及丟失之類VoLTE圖案在***去抖動緩衝器 之前應用於接收之RTP封包。四個此等圖案或延遲丟失設定檔自韓國及美國之VoLTE網路中收集之RTP封包到達時間的現實呼叫記錄導出。
所得設定檔在不同頻道錯誤條件下高度模擬VoLTE網路特性。在導出設定檔時,考慮諸如抖動、抖動之時間演進及錯誤突發性的特性。此等四個設定檔在圖10中識別為設定檔7、設定檔8、設定檔9及設定檔10,且在解碼器處分別對應於近似3%、6%、8%及10%之訊框抹除率(FER)。此等四個相同設定檔亦由3GPP選擇用於在頻道減損下EVS頻道感知模式之自身特性化測試的彼主體。
除VoLTE設定檔之外,在此考慮之所有編解碼器在無錯誤條件下測試且亦用於包括於3GPP MTSI規格[10]中之在解碼器處產生近似6%訊框抹除率的HSPA設定檔。在所有實驗中,EVS條件使用參考EVS去抖動緩衝器[13]。AMR-WB條件使用固定延遲緩衝器將延遲丟失設定檔轉化為封包丟失設定檔,以使得丟棄經歷大於固定臨限之延遲的封包,如EVS效能要求規格[14]中所描述。
WB情況之ACR得分在圖10中展示。對於以無錯誤(「乾淨」)設定檔開始的每一設定檔,圖表比較(由左至右)AMR-WB、EVS AMR-WB IO模式、EVS基線WB及EVS WB頻道感知(「RF」)。AMR-WB及EVS AMR-WB IO條件使用15.85kbps之較高位元速率,而兩個EVS條件皆使用相同13.2kbps之速率。該等結果展示在所有訊框抹除條件下,相比於非頻道感知模式,頻道感知模式提供統計學上顯著 之改進,同時甚至在無錯誤條件下保持等效品質。值得注意的是,頻道感知模式品質大幅降低,甚至降至設定檔10之FER的10%。與AMR-WB及AMR-WB-IO條件相比,品質益處以該等FER比率甚至更顯著,且有可能在高丟失週期下恢復可理解性,該高丟失可能在切換、不佳無線電條件、單元場景之邊緣或甚至在最佳成就網路[8]上期間遭遇。
頻道感知模式之效能優勢在超寬頻模式下同樣有力,其結果在圖11中展示。如同WB,頻道感知模式在無錯誤條件下不降低效能,但在有損設定檔中之每一者下具有統計學上顯著之效能,其中改進程度隨錯誤率升高而增加。圖11亦展示與在最大速率23.85kb/s下之AMR-WB-IO相比,EVS SWB頻道感知模式在13.2kb/s下的實質改進。
結論
新3GPP EVS編解碼器之頻道感知寫碼模式基於AMR及AMR-WB在類似於現有部署服務之最常用位元速率的能力操作點處為使用者及網路業者提供VoLTE之高度錯誤恢復寫碼模式。該模式給予編解碼器即使在網路擁塞、不良射頻覆蓋度、切換或儘力頻道期間可出現的高FER存在下維持高品質WB及SWB會話式語音服務的能力。即使在高丟失下具有平穩品質降級,對品質之影響在低丟失或甚至無丟失條件下為可忽略的。頻道感知模式提供之此錯誤穩定性進一步允許緩解某些系統位準態樣,諸如再傳輸頻率及減輕排程器延遲。此舉進而具有潛在益處,諸如,行動手機中之增加的網路容量、減少的傳訊費用及節能。因 此,使用頻道感知模式可在不影響容量的情況下有利於大部分網路,以保證高品質通信。
總而言之,本發明利用寫碼器瞭解頻道品質之事實,以在不正確條件下改進語音/音訊品質。與現有技術之頻道感知寫碼對照,該構思為不具有僅為主編碼訊框之低位元速率版本的部分複本,但該部分複本由將大幅加強隱蔽之多個關鍵參數構成。因此,解碼器需要區分其中隱蔽了所有參數之常規隱蔽模式與其中部分複本參數可用的訊框丟失模式。在隱蔽需要在部分隱蔽與完全隱蔽之間切換的情況下需特別注意突發訊框丟失。
雖然已就若干實施例對本發明進行描述,但存在屬於本發明之範疇的更改、置換及等效物。亦應注意,存在實施本發明之方法及組成的許多替代方式。因此,意欲將以下所附申請專利範圍解釋為包括如屬於本發明之真實精神及範疇的所有此等更改、置換及等效物。
儘管已在裝置之上下文中描述一些態樣,但顯而易見,此等態樣亦表示對應方法之描述,其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述之態樣亦表示對應區塊或項或對應裝置之特徵的描述。可由(或使用)硬體裝置(例如,微處理器、可程式化電腦或電路)執行方法步驟中之一些或全部。在一些實施例中,可由此裝置執行最重要之方法步驟中的某一者或多者。
本發明之經編碼音訊信號可儲存於數位儲存媒 體上或可在諸如無線傳輸媒體或有線傳輸媒體之傳輸媒體(諸如網際網路)上傳輸。
視某些實施要求而定,本發明之實施例可以硬體或軟體實施。實施可使用數位儲存媒體來執行,該媒體例如軟性磁碟、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,該媒體上儲存有電子可讀控制信號,該等電子可讀控制信號與可程式化電腦系統協作(或能夠與其協作),使得執行各別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等控制信號能夠與可程式化電腦系統協作,使得執行本文中所描述之方法中的一者。
通常,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品在電腦上運行時,程式碼可操作以用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上之用於執行本文中所描述之方法中的一者的電腦程式。
因此,換言之,本發明方法之實施例為具有當電腦程式在電腦上運行時用於執行本文中所描述之方法中之一者的程式碼之電腦程式。
因此,本發明方法之另一實施例為資料載體(或數位儲存媒體,或電腦可讀媒體),該資料載體包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。 資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非暫時性的。
因此,本發明方法之另一實施例為資料流或信號序列,其表示用於執行本文中所描述之方法中之一者的電腦程式。資料流或信號序列可(例如)經組態以經由資料通信連接(例如,經由網際網路)而傳送。
另一實施例包含經組態或經調適以執行本文中所描述之方法中之一者的處理構件,例如,電腦或可程式化邏輯器件。
另一實施例包含電腦,該電腦其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。
根據本發明之另一實施例包含經組態以(例如,電子地或光學地)傳送用於執行本文中所描述之方法中之一者的電腦程式至接收器的裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件或類似者。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可程式化邏輯器件(例如,場可程式化閘陣列)可用以執行本文中所描述之方法的功能性中之一些或所有。在一些實施例中,場可程式化閘陣列可與微處理器協作,以便執行本文中所描述之方法中之一者。通常,該等方法較佳地由任一硬體裝置執行。
本文中所描述之裝置可使用硬體裝置或使用電腦或使用硬體裝置與電腦之組合來實施。
本文中所描述之方法可使用硬體裝置或使用電 腦或使用硬體裝置與電腦的組合來執行。
上文所描述之實施例僅說明本發明之原理。應理解,熟習此項技術者將顯而易見對本文中所描述之配置及細節的修改及變化。因此,其僅意欲由接下來之申請專利範圍之範疇限制,而非由藉助於本文中實施例之描述及解釋所呈現的特定細節限制。
參考資料
[1]RTP Payload for Redundant Audio Data", Internet Engineering Task Force, RFC 2198, September 1997
[2]US 6,757,654 - "Forward error correction in speech coding", Westerlund, M. and al., 29 June 2004
[3]"Adaptive joint playout buffer and FEC adjustment for Internet telephony" C. Boutremans,J .-Y. Le Boudec, INFOCOM 2003. Twenty-Second Annual Joint Conference of the IEEE Computer and Communications . IEEE Societies; 04/2003
[4]Patent application: AUDIO DECODER AND METHOD FOR PROVIDING A DECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT BASED ON A TIME DOMAIN EXCITATION SIGNAL
[5]Patent application: AUDIO DECODER AND METHOD FOR PROVIDING A DECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT MODIFYING A TIME DOMAIN EXCITATION SIGNAL
[6]3GPP TS 26.448: "Codec for Enhanced Voice Services (EVS); Jitter Buffer Management".
[7]3GPP TS 26.442: "Codec for Enhanced Voice Services (EVS); ANSI C code (fixed-point)".
[8]D. J. Sinder, I. Varga, V. Krishnan, V. Rajendran and S. Villette, “Recent Speech Coding Technologies and Standards,” in Speech and Audio Processing for Coding, Enhancement and Recognition, T. Ogunfunmi, R. Togneri, M. Narasimha, Eds., Springer, 2014.
[9]J. Sjoberg, M. Westerlund, A. Lakaniemi and Q. Xie, “RTP Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs,” April 2007. [Online]. Available: http://tools.ietf.org/html/rfc4867.
[10] 3GPP TS 26.114, “Multimedia Telephony Service for IMS,” V12.7.0, September 2014.
[11] 3GPP TS 26.445: “EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12),” 2014.
[12] 3GPP, TS 26.447, “Codec for Enhanced Voice Services (EVS); Error Concealment of Lost Packets (Release 12),” 2014.
[13] 3GPP TS 26.448: “EVS Codec Jitter Buffer Management (Release 12),” 2014.
[14] 3GPP Tdoc S4-130522, “EVS Permanent Document (EVS-3): EVS performance requirements,” Version 1.4.
[15] S. Bruhn, et al., “Standardization of the new EVS Codec,” submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.
[16] M. Dietz, et al., “Overview of the EVS codec architecture,” submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.
[17] V. Atti, et al., “Super-wideband bandwidth extension for speech in the 3GPP EVS codec,” submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.
[18] G. Fuchs, et al., “Low delay LPC and MDCT-based Audio Coding in EVS,” submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.
[19] S. Disch et al., “Temporal tile shaping for spectral gap filling within TCX in EVS Codec,” submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.
[20] J. Lecomte et al., “Packet Loss Concealment Technology Advances in EVS,” submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.
[21] B. Bessette, et al, “The adaptive multi-rate wideband speech codec (AMR-WB),” IEEE Trans. on Speech and Audio Processing, vol. 10, no. 8, pp. 620-636, November 2002.
[22] E. Ravelli, et al., “Open loop switching decision based on evaluation of coding distortions for audio codecs,” submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.
[23] M. Jelínek, T. Vaillancourt, and Jon Gibbs, “G.718: A New Embedded Speech and Audio Coding Standard with High Resilience to Error-Prone Transmission Channels,” IEEE Communications Magazine, vol. 47, no. 10, pp. 117-123, October 2009.
[24] ITU-T P.800, “Methods for Subjective Determination of Transmission Quality,” International Telecommunication Union (ITU), Series P., August 1996.
1‧‧‧編碼器
2‧‧‧內容
3‧‧‧經編碼內容
4‧‧‧主訊框
5‧‧‧位元流
6‧‧‧參數
7‧‧‧訊框

Claims (52)

  1. 一種用於寫碼類語音內容及/或通用音訊內容之編碼器,其中該編碼器經組配以在至少一些訊框中將參數嵌入一位元串流中,該等參數在一原始訊框丟失、損壞或延遲的情況下提供一導引式隱蔽;其中該編碼器經組配以形成一主訊框及一部分複本,其中該部分複本並非該主訊框之一低位元速率版本,但其中該部分複本含有該等參數,及其中該部分複本係於頻帶內作為編解碼器酬載之一部分來傳送;其中該編碼器經組配以在多個部分複本模式之間選擇,該等模式使用不同量之資訊及/或不同參數集,其中該部分複本模式之選擇是基於參數的;及其中該等多個部分複本模式中之至少一者為一頻域隱蔽模式,及其中該等多個部分複本模式中之至少兩者為不同時域隱蔽模式。
  2. 如請求項1之編碼器,其中該編碼器經組配以使該等參數延遲一段時間及將該等參數嵌入一封包中,該封包經編碼且稍後適時發送。
  3. 如請求項1之編碼器,其中該編碼器經組配以減小主訊框位元速率,其中該主訊框位元速率減小與一部分複本訊框寫碼機制一起決定該等主訊框與該等部分複本訊框之間要包括在一恆定總位元速率內的一位元速率配 置。
  4. 如請求項1之編碼器,其中該編碼器經組配以形成具有該類語音內容類型及該通用音訊內容類型中之一者的一主訊框連同具有該類語音內容類型及該通用音訊內容類型中之另一者的一部分複本。
  5. 如請求項1之編碼器,其中該編碼器為使用一轉換編碼激勵(Transform Coded Excitation,TCX)寫碼方案之一編解碼器的一部分。
  6. 如請求項5之編碼器,其中該編碼器經組配以偵測該訊框是否含有一嘈雜音訊信號或該訊框是否含有具有在一段時間內平穩的銳譜線之一雜訊底限,且基於偵測結果將該等參數嵌入一TCX訊框中。
  7. 如請求項5之編碼器,其中該等參數包含導抗頻譜頻率(Immittance Spectral Frequency,ISF)或線頻譜頻率(Line Spectral Frequency,LSF)參數,特別是經預測性寫碼之ISF或LSF參數。
  8. 如請求項5之編碼器,其中該等參數包含信號分類參數。
  9. 如請求項5之編碼器,其中該等參數包含一TCX全域增益或一TCX全域位準。
  10. 如請求項5之編碼器,其中該等參數包含一視窗資訊及一譜峰位置中之至少一者。
  11. 如請求項1之編碼器,其中該編碼器為一切換式編解碼器的一部分,其中該切換式編解碼器由至少兩個核心寫碼方案所構成,其中一第一核心寫碼方案使用代數碼激勵 線性預測(Algebraic Code Excited Linear Prediction,ACELP),且一第二核心寫碼方案使用TCX。
  12. 如請求項11之編碼器,其中該編碼器經組配以在一ACELP訊框之後存在一第一TCX訊框時,在一切換之後不將一部分複本放置於一TCX訊框之上。
  13. 如請求項5之編碼器,其中該編碼器經組配以在編碼前分析該信號且基於該經分析信號禁用該部分複本或提供一減小之部分複本。
  14. 如請求項1之編碼器,其中若一訊框含有一暫態或若該訊框之一全域增益比一先前訊框之一全域增益低,則選擇該至少兩個時域隱蔽模式中之一者。
  15. 如請求項1之編碼器,其中該編碼器經組配以在存在長期預測(Long Term Prediction,LTP)資料之情況下發送一LTP滯後。
  16. 如請求項1之編碼器,其中該編碼器經組配以發送一分類器資訊。
  17. 如請求項1之編碼器,其中該編碼器經組配以發送線性預測編碼(Linear Prediction Coding,LPC)參數、LTP增益、雜訊位準及脈衝位置中之至少一者。
  18. 一種用於解碼類語音內容及/或通用音訊內容之解碼器,其中該解碼器經組配以使用稍後適時在位元串流中發送之參數在原始訊框丟失、損壞或延遲的情況下提供一導引式隱蔽; 其中該解碼器經組配以接收一主訊框及一部分複本,其中該部分複本並非該主訊框之一低位元速率版本,但其中該部分複本含有該等參數,且其中該部分複本係於頻帶內作為編解碼器酬載之一部分來傳送;其中該解碼器經組配以在多個部分複本模式之間選擇,該等模式使用不同量之資訊及/或不同參數集;及其中該等多個部分複本模式中之至少一者為一頻域隱蔽模式,且該等多個部分複本模式中之至少兩者為不同時域隱蔽模式。
  19. 如請求項18之解碼器,其中該解碼器經組配以直接使用可從該位元串流得到之該等參數以用於該導引式隱蔽。
  20. 如請求項18之解碼器,其中該等參數包含於一部分複本中,且其中該解碼器經組配以在一當前丟失之訊框的該部分複本可用之情況下自一去抖動緩衝器接收該部分複本。
  21. 如請求項18之解碼器,其中該解碼器經組配以接收具有該類語音內容類型及該通用音訊內容類型中之一者的一主訊框連同具有該類語音內容類型及該通用音訊內容類型中之另一者的一部分複本。
  22. 如請求項18之解碼器,其中該解碼器為使用一TCX編解碼器方案之一編解碼器的一部分。
  23. 如請求項22之解碼器,其中該等參數包含ISF或LSF參數,特別是經預測性寫碼之ISF或LSF參數。
  24. 如請求項22之解碼器,其中該等參數包含信號分類參 數。
  25. 如請求項22之解碼器,其中該等參數包含一TCX全域增益或一TCX全域位準。
  26. 如請求項22之解碼器,其中該等參數包含一視窗資訊及一譜峰位置中之至少一者。
  27. 如請求項18之解碼器,其中該解碼器為一切換式編解碼器的一部分,其中該切換式編解碼器由至少兩個核心寫碼方案所構成,其中一第一核心寫碼方案使用ACELP,且一第二核心寫碼方案使用TCX。
  28. 如請求項27之解碼器,其中該解碼器經組配以在一切換之後,在一ACELP訊框之後的一第一TCX訊框不可用於該解碼器的情況下使用ACELP隱蔽。
  29. 如請求項18之解碼器,其中該解碼器經組配以在存在LTP資料之情況下接收一LTP滯後。
  30. 如請求項18之解碼器,其中該解碼器經組配以接收一分類器資訊。
  31. 如請求項18之解碼器,其中該解碼器經組配以接收LPC參數、LTP增益、雜訊位準及脈衝位置中之至少一者。
  32. 如請求項18之解碼器,其中該解碼器經組配以視一隱蔽模式而定以兩種不同因子減少一音調增益及一寫碼增益。
  33. 如請求項32之解碼器,其中一第一因子為0.4,且一第二因子為0.7。
  34. 如請求項19之解碼器,其中該解碼器經組配以在先前主 訊框丟失之情況下不考慮自該部分複本解碼之一音調,且其中該解碼器經組配以將該音調固定於一預測音調用於後續丟失的主訊框,而非使用所傳輸之該音調。
  35. 一種用於編碼及解碼類語音內容及/或通用音訊內容之系統,其包含如請求項1至17中任一項之編碼器及如請求項18至34中任一項之解碼器。
  36. 一種用於編碼類語音內容及/或通用音訊內容之方法,該方法包含以下步驟:在至少一些訊框中將參數嵌入一位元串流中,該等參數在一原始訊框丟失、損壞或延遲的情況下提供一導引式隱蔽;形成一主訊框及一部分複本,其中該部分複本並非該主訊框之一低位元速率版本,但其中該部分複本含有該等參數;及於頻帶內將該部分複本作為編解碼器酬載之一部分予以傳送;及在多個部分複本模式之間選擇,該等模式使用不同量之資訊及/或不同參數集;其中該等多個部分複本模式中之至少一者為一頻域隱蔽模式,及該等多個部分複本模式中之至少兩者為不同時域隱蔽模式。
  37. 一種用於解碼類語音內容及/或通用音訊內容之方法,該方法包含以下步驟:使用稍後適時於位元串流中發送之參數在一原始訊框丟失、損壞或延遲的情況下提供一導引式隱蔽; 接收一主訊框及一部分複本,其中該部分複本並非該主訊框之一低位元速率版本,但其中該部分複本含有該等參數;及該部分複本係於頻帶內作為編解碼器酬載之一部分來傳送;及在多個部分複本模式之間選擇,該等模式使用不同量之資訊及/或不同參數集;其中該等多個部分複本模式中之至少一者為一頻域隱蔽模式,及該等多個部分複本模式中之至少兩者為不同時域隱蔽模式。
  38. 一種用於在電腦或信號處理器上執行時實施如請求項36或37中任一項之方法的電腦程式。
  39. 一種用於寫碼音訊內容之編碼器,其中該編碼器經組配以:提供一當前訊框之一主編碼表示及至少一個錯誤隱蔽參數之一編碼表示以提供該當前訊框的一解碼器側導引式錯誤隱蔽,其中該至少一個錯誤隱蔽參數之該編碼表示係於頻帶內作為編解碼器酬載之一部分來傳送;其中該編碼器經組配以基於表示包含於該當前訊框中之音訊內容之一信號特性的一或多個參數來選擇該至少一個錯誤隱蔽參數;其中該編碼器經組配以在提供該至少一個錯誤隱蔽參數之一編碼表示的至少兩個模式之間選擇性地選擇; 其中用於提供該至少一個錯誤隱蔽參數之一編碼表示之該等模式中的至少一者為一時域隱蔽模式,以使得該至少一個錯誤隱蔽參數之該編碼表示包含一TCXLTP滯後及一分類器資訊中之一或多者;及其中用於提供該至少一個錯誤隱蔽參數之一編碼表示之該等模式中的至少一者為一頻域隱蔽模式,以使得該至少一個錯誤隱蔽參數之該編碼表示包含一LSF參數、一TCX全域增益及一分類器資訊中之一或多者。
  40. 如請求項39之編碼器,其中該解碼器側錯誤隱蔽為一基於外插法之錯誤隱蔽。
  41. 如請求項39之編碼器,其中該編碼器經組配以將該當前訊框之該至少一個錯誤隱蔽參數的該編碼表示及一未來訊框的一主編碼表示組合成一傳送封包,以使得該當前訊框之該至少一個錯誤隱蔽參數的該編碼表示相對於該當前訊框之該主編碼表示以一時間延遲發送。
  42. 如請求項39之編碼器,其中該選擇用於提供該至少一個錯誤隱蔽參數之一編碼表示的一模式是基於包含一訊框級別、一LTP音調、一LTP增益及用於提供一或多個先前訊框之該至少一個錯誤隱蔽參數之一編碼表示的一模式中的至少一者的參數。
  43. 如請求項39之編碼器,其中該編碼器使用至少一TCX寫碼方案。
  44. 一種用於寫碼音訊內容之編碼器,其中該編碼器經組配以: 提供一當前訊框之一主編碼表示及至少一個錯誤隱蔽參數之一編碼表示以提供該當前訊框的一解碼器側導引式錯誤隱蔽,其中該至少一個錯誤隱蔽參數之該編碼表示係於頻帶內作為編解碼器酬載之一部分來傳送;其中該編碼器經組配以基於表示包含於該當前訊框中之音訊內容之一信號特性的一或多個參數來選擇該至少一個錯誤隱蔽參數;其中該編碼器經組配以在提供該至少一個錯誤隱蔽參數之一編碼表示的至少兩個模式之間選擇性地選擇;其中用於提供該至少一個錯誤隱蔽參數之一編碼表示之該等模式中的至少一者為一時域隱蔽模式,在包含於該當前訊框中之該音訊內容含有一暫態或在包含於該當前訊框中之該音訊內容的全域增益比先前訊框的全域增益低之情況下,該時域隱蔽模式即被選擇;及其中用於提供該至少一個錯誤隱蔽參數之一編碼表示之該等模式中的至少一者為一頻域隱蔽模式,以使得該至少一個錯誤隱蔽參數之該編碼表示包含一LSF參數、一TCX全域增益及一分類器資訊中之一或多者。
  45. 如請求項44之編碼器,其中該解碼器側錯誤隱蔽為一基於外插法之錯誤隱蔽。
  46. 如請求項44之編碼器,其中該編碼器經組配以將該當前訊框之該至少一個錯誤隱蔽參數的該編碼表示及一未 來訊框的一主編碼表示組合成一傳送封包,以使得該當前訊框之該至少一個錯誤隱蔽參數的該編碼表示相對於該當前訊框之該主編碼表示以一時間延遲發送。
  47. 如請求項44之編碼器,其中該選擇用於提供該至少一個錯誤隱蔽參數之一編碼表示的一模式是基於包含一訊框級別、一LTP音調、一LTP增益及用於提供一或多個先前訊框之該至少一個錯誤隱蔽參數之一編碼表示的一模式中的至少一者的參數。
  48. 如請求項44之編碼器,其中該編碼器使用至少一TCX寫碼方案。
  49. 一種用於解碼音訊內容之解碼器,其中該解碼器經組配以:接收一當前訊框之一主編碼表示及/或至少一個錯誤隱蔽參數之一編碼表示以提供該當前訊框的一解碼器側導引式錯誤隱蔽,其中該至少一個錯誤隱蔽參數之該編碼表示係於頻帶內作為編解碼器酬載之一部分來傳送,其中該解碼器經組配以在該當前訊框之該主編碼表示丟失、損壞或延遲的情況下,使用導引式錯誤隱蔽以藉由使用該至少一個錯誤隱蔽參數至少部分地重構該當前訊框的音訊內容;其中該解碼器經組配以在至少兩個錯誤隱蔽模式之間選擇性地選擇,該等模式使用一或多個錯誤隱蔽參數之不同編碼表示以使用該導引式錯誤隱蔽至少部分 地重構該音訊內容;其中使用一或多個錯誤隱蔽參數之不同編碼表示之該等至少兩個錯誤隱蔽模式中的至少一者為一時域隱蔽模式,其中該至少一個錯誤隱蔽參數之該編碼表示包含一TCX LTP滯後及一分類器資訊中的至少一者;及其中使用一或多個錯誤隱蔽參數之不同編碼表示之該等至少兩個錯誤隱蔽模式中的至少一者為一頻域隱蔽模式,其中該至少一個錯誤隱蔽參數的該編碼表示包含一LSF參數、一TCX全域增益及一分類器資訊中的一或多者。
  50. 如請求項49之解碼器,其中該解碼器側導引式錯誤隱蔽為一基於外插法之錯誤隱蔽。
  51. 如請求項49之解碼器,其中該解碼器經組配以自一封包擷取一當前訊框的該錯誤隱蔽參數,該封包與含有該當前訊框之該主編碼表示的一封包分隔開。
  52. 如請求項49之解碼器,其中該解碼器使用至少一TCX寫碼方案。
TW104126580A 2014-08-27 2015-08-14 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 TWI602172B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP14182553 2014-08-27
EP15164126 2015-04-17

Publications (2)

Publication Number Publication Date
TW201610985A TW201610985A (zh) 2016-03-16
TWI602172B true TWI602172B (zh) 2017-10-11

Family

ID=53887141

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104126580A TWI602172B (zh) 2014-08-27 2015-08-14 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法

Country Status (18)

Country Link
US (3) US10878830B2 (zh)
EP (3) EP3618066B1 (zh)
JP (3) JP6533285B2 (zh)
KR (1) KR102016542B1 (zh)
CN (2) CN112786060B (zh)
AU (1) AU2015308980B2 (zh)
BR (1) BR112017003887B1 (zh)
CA (3) CA2958932C (zh)
ES (3) ES2839509T3 (zh)
HK (1) HK1244349A1 (zh)
MX (1) MX2017002427A (zh)
MY (1) MY192253A (zh)
PL (2) PL3618066T3 (zh)
RU (1) RU2701707C2 (zh)
SG (1) SG11201701517XA (zh)
TW (1) TWI602172B (zh)
WO (1) WO2016030327A2 (zh)
ZA (1) ZA201701930B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI751584B (zh) * 2019-06-17 2022-01-01 弗勞恩霍夫爾協會 具有信號相依數和精度控制之音訊編碼器、音訊解碼器及相關方法與電腦程式

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3140831T3 (en) * 2014-05-08 2018-10-15 Ericsson Telefon Ab L M Audio signal discriminator and codes
WO2016017238A1 (ja) * 2014-07-28 2016-02-04 日本電信電話株式会社 符号化方法、装置、プログラム及び記録媒体
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
US20170187635A1 (en) * 2015-12-28 2017-06-29 Qualcomm Incorporated System and method of jitter buffer management
JP6718516B2 (ja) 2016-03-07 2020-07-08 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ
US10517021B2 (en) 2016-06-30 2019-12-24 Evolve Cellular Inc. Long term evolution-primary WiFi (LTE-PW)
US9967306B1 (en) * 2016-09-08 2018-05-08 Sprint Spectrum L.P. Prioritized transmission of redundancy data for packetized voice communication
US10439641B2 (en) * 2017-06-02 2019-10-08 Nxp B.V. Error estimation in signal communications
KR102051891B1 (ko) * 2017-08-10 2019-12-04 한양대학교 산학협력단 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치
FR3071997A1 (fr) * 2017-10-02 2019-04-05 Orange Signalisation d’une requete d’adaptation d’une session de communication en voixsur ip
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
US10652121B2 (en) * 2018-02-26 2020-05-12 Genband Us Llc Toggling enhanced mode for a codec
US10475456B1 (en) * 2018-06-04 2019-11-12 Qualcomm Incorporated Smart coding mode switching in audio rate adaptation
US10990812B2 (en) * 2018-06-20 2021-04-27 Agora Lab, Inc. Video tagging for video communications
CN110503969B (zh) * 2018-11-23 2021-10-26 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
MX2021007109A (es) * 2018-12-20 2021-08-11 Ericsson Telefon Ab L M Metodo y aparato para controlar el ocultamiento de perdida de tramas de audio multicanal.
US10803876B2 (en) 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
US10784988B2 (en) * 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
BR112021013720A2 (pt) * 2019-01-13 2021-09-21 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
WO2020164753A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
CN110275828B (zh) * 2019-06-06 2022-11-22 江西理工大学 一种计算机软件优化测试数据有效载荷的方法
CN110266625B (zh) * 2019-06-25 2022-01-04 西安空间无线电技术研究所 一种基于帧同步码隐含于信息码的qpsk调制的动态门限判决的解调方法及***
US11501787B2 (en) * 2019-08-22 2022-11-15 Google Llc Self-supervised audio representation learning for mobile devices
WO2021200151A1 (ja) * 2020-03-30 2021-10-07 ソニーグループ株式会社 送信装置、送信方法、受信装置、及び受信方法
CN111554322A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
CN111554309A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
CN112634868B (zh) * 2020-12-21 2024-04-05 北京声智科技有限公司 一种语音信号处理方法、装置、介质和设备
CN113035208B (zh) * 2021-03-04 2023-03-28 北京百瑞互联技术有限公司 一种音频解码器的分级错误隐藏方法、装置及存储介质
CN112802485B (zh) * 2021-04-12 2021-07-02 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
KR20230023306A (ko) * 2021-08-10 2023-02-17 삼성전자주식회사 컨텐츠 데이터를 기록하는 전자 장치 및 그 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007073604A1 (en) * 2005-12-28 2007-07-05 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US20130144632A1 (en) * 2011-10-21 2013-06-06 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
TW201413707A (zh) * 2012-06-08 2014-04-01 Samsung Electronics Co Ltd 訊框錯誤隱藏方法以及音訊解碼方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5091945A (en) * 1989-09-28 1992-02-25 At&T Bell Laboratories Source dependent channel coding with error protection
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US7209900B2 (en) * 1999-08-27 2007-04-24 Charles Eric Hunter Music distribution systems
GB2358558B (en) * 2000-01-18 2003-10-15 Mitel Corp Packet loss compensation method using injection of spectrally shaped noise
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US7013267B1 (en) * 2001-07-30 2006-03-14 Cisco Technology, Inc. Method and apparatus for reconstructing voice information
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
KR100617165B1 (ko) * 2004-11-19 2006-08-31 엘지전자 주식회사 워터마크 삽입/검출 기능을 갖는 오디오 부호화/복호화장치 및 방법
US20070174054A1 (en) * 2006-01-25 2007-07-26 Mediatek Inc. Communication apparatus with signal mode and voice mode
CN101046964B (zh) * 2007-04-13 2011-09-14 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN101437009B (zh) * 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其***
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
MX2012004116A (es) * 2009-10-08 2012-05-22 Fraunhofer Ges Forschung Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion.
RU2591011C2 (ru) * 2009-10-20 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров)
CN102648493B (zh) * 2009-11-24 2016-01-20 Lg电子株式会社 音频信号处理方法和设备
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
JP5749462B2 (ja) * 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
MX2013009304A (es) * 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
US9047863B2 (en) * 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
CN104885149B (zh) 2012-09-24 2017-11-17 三星电子株式会社 用于隐藏帧错误的方法和设备以及用于对音频进行解码的方法和设备
AU2014205389A1 (en) * 2013-01-11 2015-06-04 Db Networks, Inc. Systems and methods for detecting and mitigating threats to a structured data storage system
EP2965315B1 (en) * 2013-03-04 2019-04-24 Voiceage Evs Llc Device and method for reducing quantization noise in a time-domain decoder
RU2639952C2 (ru) * 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007073604A1 (en) * 2005-12-28 2007-07-05 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US20130144632A1 (en) * 2011-10-21 2013-06-06 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
TW201337912A (zh) * 2011-10-21 2013-09-16 Samsung Electronics Co Ltd 訊框錯誤修補方法與裝置、音訊解碼方法與裝置
TW201413707A (zh) * 2012-06-08 2014-04-01 Samsung Electronics Co Ltd 訊框錯誤隱藏方法以及音訊解碼方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI751584B (zh) * 2019-06-17 2022-01-01 弗勞恩霍夫爾協會 具有信號相依數和精度控制之音訊編碼器、音訊解碼器及相關方法與電腦程式

Also Published As

Publication number Publication date
JP6827997B2 (ja) 2021-02-10
CN112786060B (zh) 2023-11-03
AU2015308980B2 (en) 2017-12-14
KR102016542B1 (ko) 2019-10-21
CN107077851A (zh) 2017-08-18
RU2017109774A3 (zh) 2018-09-27
CA3051511A1 (en) 2016-03-03
JP6533285B2 (ja) 2019-06-19
JP2017529565A (ja) 2017-10-05
US20240005935A1 (en) 2024-01-04
RU2701707C2 (ru) 2019-09-30
WO2016030327A2 (en) 2016-03-03
PL3220389T3 (pl) 2021-04-06
ES2826374T3 (es) 2021-05-18
US11735196B2 (en) 2023-08-22
EP3220389B1 (en) 2020-09-30
EP3618066A1 (en) 2020-03-04
ES2839509T3 (es) 2021-07-05
HK1244349A1 (zh) 2018-08-03
CA3008321C (en) 2020-06-30
PL3618066T3 (pl) 2022-10-31
CA2958932C (en) 2020-03-10
MX2017002427A (es) 2017-05-15
ZA201701930B (en) 2018-05-30
MY192253A (en) 2022-08-11
CA3008321A1 (en) 2016-03-03
BR112017003887A2 (pt) 2018-01-23
EP3220389A1 (en) 2017-09-20
ES2924351T3 (es) 2022-10-06
US20210104251A1 (en) 2021-04-08
JP2019049743A (ja) 2019-03-28
CA2958932A1 (en) 2016-03-03
BR112017003887B1 (pt) 2023-11-28
US20170169833A1 (en) 2017-06-15
KR20170047297A (ko) 2017-05-04
CN107077851B (zh) 2021-02-02
TW201610985A (zh) 2016-03-16
RU2017109774A (ru) 2018-09-27
EP3186806A2 (en) 2017-07-05
JP7245856B2 (ja) 2023-03-24
JP2021101235A (ja) 2021-07-08
CN112786060A (zh) 2021-05-11
EP3618066B1 (en) 2022-06-22
AU2015308980A1 (en) 2017-03-16
CA3051511C (en) 2022-07-12
WO2016030327A3 (en) 2016-05-12
EP3186806B1 (en) 2020-08-12
SG11201701517XA (en) 2017-03-30
US10878830B2 (en) 2020-12-29

Similar Documents

Publication Publication Date Title
US11735196B2 (en) Encoder, decoder and method for encoding and decoding audio content using parameters for enhancing a concealment
CA2984573C (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
CA2984050C (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US7668712B2 (en) Audio encoding and decoding with intra frames and adaptive forward error correction
Atti et al. Improved error resilience for VOLTE and VOIP with 3GPP EVS channel aware coding
KR20120019503A (ko) 소거된 스피치 프레임을 복원하는 시스템 및 방법
Sinder et al. Recent speech coding technologies and standards