CN108074579A - 用于确定编码模式的方法以及音频编码方法 - Google Patents
用于确定编码模式的方法以及音频编码方法 Download PDFInfo
- Publication number
- CN108074579A CN108074579A CN201711424971.9A CN201711424971A CN108074579A CN 108074579 A CN108074579 A CN 108074579A CN 201711424971 A CN201711424971 A CN 201711424971A CN 108074579 A CN108074579 A CN 108074579A
- Authority
- CN
- China
- Prior art keywords
- present frame
- classification
- coding mode
- coding
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012937 correction Methods 0.000 claims abstract description 18
- 206010019133 Hangover Diseases 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 230000005236 sound signal Effects 0.000 abstract description 64
- 230000005284 excitation Effects 0.000 description 62
- 230000003595 spectral effect Effects 0.000 description 42
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000002156 mixing Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
提供了一种用于确定编码模式的方法以及音频编码方法。一种确定编码模式的方法包括:根据音频信号的特性,将包括第一编码模式和第二编码模式的多个编码模式中的一个编码模式确定为初始编码模式;如果在对初始编码模式的确定中存在错误,则通过将初始编码模式校正为第三编码模式来产生经过校正的编码模式。
Description
本申请是向中国知识产权局提交的申请日为2013年11月13日的标题为“用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备”的第201380070268.6号申请的分案申请。
技术领域
与示例性实施例一致的设备和方法涉及音频编码和音频解码,更具体地讲,涉及一种通过确定适合于音频信号的特性的编码模式并防止频繁的编码模式切换来确定用于提高重构的音频信号的质量的编码模式的方法和设备,一种用于对音频信号进行编码的方法和设备以及一种用于对音频信号进行解码的方法和设备。
背景技术
广为人知的是,在频域对音乐信号进行编码是有效率的并且在时域对语音信号进行编码是有效率的。因此,已提出了用于确定混合有音乐信号和语音信号的音频信号的类别并确定与所确定的类别相应的编码模式的各种技术。
然而,由于频率编码模式切换,不仅发生延迟,还使解码的声音质量降低。此外,由于不存在用于校正最初确定的编码模式(即,类别)的技术,因此,如果在确定编码模式期间发生错误,则重构的音频信号的质量降低。
发明内容
技术问题
一个或更多个示例性实施例的多个方面提供了一种用于通过确定适合于音频信号的特性的编码模式来确定用于提高重构的音频信号的质量的编码模式的方法和设备,一种用于对音频信号进行编码的方法和设备以及一种用于对音频信号进行解码的方法和设备。
一个或更多个示例性实施例的多个方面提供了一种用于确定适合于音频信号的特性的编码模式并减少由于频繁的编码模式切换而引起的时延的方法和设备,一种用于对音频信号进行编码的方法和设备以及一种用于对音频信号进行解码的方法和设备。
解决方案
根据一个或更多个示例性实施例的一方面,一种确定编码模式的方法,所述方法包括:根据音频信号的特性,将包括第一编码模式和第二编码模式的多个编码模式之中的一个编码模式确定为初始编码模式;如果在对初始编码模式的确定中存在错误,则通过将初始编码模式校正为第三编码模式来产生经过校正的编码模式。
根据一个或更多个示例性实施例的一方面,一种对音频信号进行编码的方法,所述方法包括:根据音频信号的特性,将包括第一编码模式和第二编码模式的多个编码模式之中的一个编码模式确定为初始编码模式;如果在对初始编码模式的确定中存在错误,则通过将初始编码模式校正为第三编码模式来产生经过校正的编码模式;基于初始编码模式或经过校正的编码模式对音频信号执行不同的编码处理。
根据一个或更多个示例性实施例的一方面,一种对音频信号进行解码的方法,所述方法包括:对包括初始编码模式和第三编码模式之一的比特流进行解析,并基于初始编码模式或第三编码模式对所述比特流执行不同的解码处理,其中,所述初始编码模式是通过根据音频信号的特性在包括第一编码模式和第二编码模式的多个编码模式之中确定一个编码模式而获得的,所述第三编码模式是在对初始编码模式的确定中存在错误的情况下从初始编码模式进行校正而得到的。
有益效果
根据示例性实施例,通过基于对初始编码模式的校正以及与拖尾长度相应的帧的编码模式来确定当前帧的最终编码模式,可在防止多个帧之间的频繁的编码模式切换的同时选择出适应于音频信号的特性的编码模式。
附图说明
图1是示出根据示例性实施例的音频编码设备的配置的框图;
图2是示出根据另一示例性实施例的音频编码设备的配置的框图;
图3是示出根据示例性实施例的编码模式确定单元的配置的框图;
图4是示出根据示例性实施例的初始编码模式确定单元的配置的框图;
图5是示出根据示例性实施例的特征参数提取单元的配置的框图;
图6是示出根据示例性实施例的线性预测域编码和谱域之间的自适应切换方法的示图;
图7是示出根据示例性实施例的编码模式校正单元的操作的示图;
图8是示出根据示例性实施例的音频解码设备的配置的框图;
图9是示出根据另一示例性实施例的音频解码设备的配置的框图。
具体实施方式
现在将详细描述实施例,其示例在附图中被示出,其中,相同的标号始终是指相同的元件。在这一点上,本实施例可具有不同的形式并且不应该被解释为受限于在此阐述的描述。因此,通过参照附图,在下面实施例仅被描述用于解释本说明书的多个方面。
诸如“连接的”和“链接的”的术语可被用于指示直接连接或链接的状态,但应理解,另一组件可被置于其间。
诸如“第一”和“第二”的术语可被用于描述各种组件,但所述组件不应受限于所述术语。所述术语可仅被用于使一个组件与另一组件区分开。
在示例性实施例中描述的单元被独立示出以指示不同的特性功能,并且它不意味着每个单元由一个单独的硬件组件或软件组件形成。为了便于解释而示出每个单元,并且多个单元可形成一个单元,一个单元可被划分为多个单元。
图1是示出根据示例性实施例的音频编码设备100的配置的框图。
图1中示出的音频编码设备100可包括编码模式确定单元110、切换单元120、谱域编码单元130、线性预测域编码单元140和比特流产生单元150。线性预测域编码单元140可包括时域激励编码单元141和频域激励编码单元143,其中,线性预测域编码单元140可被实现为时域激励编码单元141和频域激励编码单元143中的至少一个。除非必须被实现为单独的硬件,否则上述组件可被集成为至少一个模块并且可被实现为至少一个处理器(未示出)。这里,术语音频信号可指音乐信号、语音信号或它们的混合信号。
参照图1,编码模式确定单元110可分析音频信号的特性以确定音频信 号的类别,并根据分类的结果来确定编码模式。对编码模式的确定可以以超帧、帧或频段为单位来执行。可选择地,对编码模式的确定可以以多个超帧组、多个帧组或多个频段组为单位来执行。这里,编码模式的示例可包括谱域和时域或线性预测域,但不限于此。如果处理器的性能和处理速度足够并且由于编码模式切换引起的时延可被解决,则编码模式可被细分,并且编码方案也可根据编码模式被细分。根据示例性实施例,编码模式确定单元110可将音频信号的初始编码模式确定为谱域编码模式和时域编码模式之一。根据另一示例性实施例,编码模式确定单元110可将音频信号的初始编码模式确定为谱域编码模式、时域激励编码模式和频域激励编码模式之一。如果谱域编码模式被确定为初始编码模式,则编码模式确定单元110可将初始编码模式校正为谱域编码模式和频域激励编码模式之一。如果时域编码模式(即,时域激励编码模式)被确定为初始编码模式,则编码模式确定单元110可将初始编码模式校正为时域激励编码模式和频域激励编码模式之一。如果时域激励编码模式被确定为初始编码模式,则对最终编码模式的确定可被选择性地执行。换句话说,初始编码模式(即,时域激励编码模式)可被保持。编码模式确定单元110可确定与拖尾长度(hangoverlength)相应的多个帧的编码模式,并可为当前帧确定最终编码模式。根据示例性实施例,如果当前帧的初始编码模式或经过校正的编码模式与多个先前帧(例如,7个先前帧)的编码模式相同,则相应的初始编码模式或经过校正的编码模式可被确定为当前帧的最终编码模式。同时,如果当前帧的初始编码模式或经过校正的编码模式与多个先前帧(例如,7个先前帧)的编码模式不相同,则编码模式确定单元110可将恰在当前帧之前的帧的编码模式确定为当前帧的最终编码模式。
如上所述,通过基于对初始编码模式的校正以及与拖尾长度相应的帧的编码模式来确定当前帧的最终编码模式,可在防止帧之间的频繁的编码模式切换的同时选择出适应于音频信号的特性的编码模式。
一般来说,时域编码(即,时域激励编码)对于语音信号会是有效率的,谱域编码对于音乐信号会是有效率的,并且频域激励编码对于言语(vocal)信号和/或谐波信号会是有效率的。
根据由编码模式确定单元110确定的编码模式,切换单元120可向谱域编码单元130或线性预测域编码单元140提供音频信号。如果线性预测域编 码单元140被实现为时域激励编码单元141,则切换单元120可包括总共两个分支。如果线性预测域编码单元140被实现为时域激励编码单元141和频域激励编码单元143,则切换单元120可具有总共3个分支。
谱域编码单元130可在谱域对音频信号进行编码。谱域可指频域或变换域。适合于谱域编码单元130的编码方法的示例可包括高级音频编码(AAC)或包括改进离散余弦变换(MDCT)和阶乘脉冲编码(FPC)的组合,但不限于此。详细地讲,其它量化技术和熵编码技术可用来代替FPC。在谱域编码单元130中对音乐信号进行编码会是有效率的。
线性预测域编码单元140可在线性预测域对音频信号进行编码。线性预测域可指激励域或时域。线性预测域编码单元140可被实现为时域激励编码单元141,或者可被实现为包括时域激励编码单元141和频域激励编码单元143。适合于时域激励编码单元141的编码方法的示例可包括码激励线性预测(CELP)或代数CELP(ACELP),但不限于此。适合于频域激励编码单元143的编码方法的示例可包括通用信号编码(GSC)或变换码激励(TCX),但不限于此。在时域激励编码单元141中对语音信号进行编码会是有效率的,而在频域激励编码单元143中对言语信号和/或谐波信号进行编码会是有效率的。
比特流产生单元150可产生比特流来包括由编码模式确定单元110提供的编码模式、由谱域编码单元130提供的编码结果以及由线性预测域编码单元140提供的编码结果。
图2是示出根据另一示例性实施例的音频编码设备200的配置的框图。
图2中示出的音频编码设备200可包括公共预处理模块205、编码模式确定单元210、切换单元220、谱域编码单元230、线性预测域编码单元240和比特流产生单元250。这里,线性预测域编码单元240可包括时域激励编码单元241和频域激励编码单元243,线性预测域编码单元240可被实现为时域激励编码单元或频域激励编码单元243。与图1中示出的音频编码设备100相比,音频编码设备200还可包括公共预处理模块205,因此,与音频编码设备100的组件相同的组件的描述将被省略。
参照图2,公共预处理模块205可执行联合立体声处理、环绕处理和/或带宽扩展处理。联合立体声处理、环绕处理和带宽扩展处理可与由特定标准(例如,MPEG标准)采用的那些处理相同,但不限于此。公共预处理模块205的输出可以是在单声道、立体声声道或多声道中。根据由公共预处理模块205输出的信号的声道的数量,切换单元220可包括至少一个开关。例如,如果公共预处理模块205输出两个或更多个声道(即,立体声声道或多声道)的信号,则与各个声道相应的开关可被布置。例如,立体声信号的第一声道可以是语音声道,立体声信号的第二声道可以是音乐声道。在这种情况下,音频信号可被同时提供给两个开关。由公共预处理模块205产生的附加信息可被提供给比特流产生单元250并被包括在比特流中。所述附加信息对于在解码端执行联合立体声处理、环绕处理和/或带宽扩展处理是必要的,并且可包括空间参数、包络信息、能量信息等。然而,基于所应用的处理技术,可存在各种附加信息。
根据示例性实施例,在公共预处理模块205,可基于编码域而不同地执行带宽扩展处理。核心频段中的音频信号可通过使用时域激励编码模式或频域激励编码模式来处理,而带宽扩展频段中的音频信号可在时域中被处理。时域中的带宽扩展处理可包括多个模式(包括浊音模式或清音模式)。可选择地,核心频段中的音频信号可通过使用谱域编码模式来处理,而带宽扩展频段中的音频信号可在频域中被处理。频域中的带宽扩展处理可包括多个模式(包括瞬变模式、一般模式或谐波模式)。为了在不同域中执行带宽扩展处理,由编码模式确定单元110确定的编码模式可作为信令信息被提供给公共预处理模块205。根据示例性实施例,核心频段的最后部分和带宽扩展频段的开始部分可能在一定程度上彼此重叠。重叠部分的位置和尺寸可被预先设置。
图3是示出根据示例性实施例的编码模式确定单元300的配置的框图。
图3中示出的编码模式确定单元300可包括初始编码模式确定单元310和编码模式校正单元330。
参照图3,初始编码模式确定单元310可通过使用从音频信号提取出的特征参数来确定音频信号是音乐信号还是语音信号。如果音频信号被确定为语音信号,则线性预测域编码会是合适的。同时,如果音频信号被确定为音乐信号,则谱域编码会是适合的。初始编码模式确定单元310可通过使用从音频信号提取出的特征参数来确定音频信号的类别,其中,音频信号的类别指示是谱域编码、时域激励编码还是频域激励编码适合于该音频信号。可基于音频信号的类别来确定相应编码模式。如果(图1的)切换单元(120)具有两个分支,则编码模式可以以1比特来表示。如果(图1的)切换单元(120) 具有三个分支,则编码模式可以以2比特来表示。初始编码模式确定单元310可通过使用现有技术中已知的各种技术中的任意技术来确定音频信号是音乐信号还是语音信号。其示例可包括USAC标准的编码器部分中公开的FD/LPD分类或ACELP/TCX分类以及AMR标准中使用的ACELP/TCX分类,但不限于此。换句话说,可通过使用除在此描述的根据实施例的方法以外的各种任意方法来确定初始编码模式。
编码模式校正单元330可通过使用校正参数对由初始编码模式确定单元310确定的初始编码模式进行校正来确定经过校正的编码模式。根据示例性实施例,如果谱域编码模式被确定为初始编码模式,则基于校正参数,初始编码模式可被校正为频域激励编码模式。如果时域编码模式被确定为初始编码模式,则基于校正参数,初始编码模式可被校正为频域激励编码模式。换句话说,通过使用校正参数,确定在对初始编码模式的确定中是否存在错误。如果确定在对初始编码模式的确定中不存在错误,则初始编码模式可被保持。相反,如果确定在对初始编码模式的确定中存在错误,则初始编码模式可被校正。可获得从谱域编码模式到频域激励编码模式以及从时域激励编码模式到频域激励编码模式的对初始编码模式的校正。
同时,初始编码模式或经过校正的编码模式可以是用于当前帧的临时编码模式,其中,可将用于当前帧的临时编码模式与用于预设拖尾长度内的先前帧的编码模式进行比较,并可确定用于当前帧的最终编码模式。
图4是示出根据示例性实施例的初始编码模式确定单元400的配置的框图。
图4中示出的初始编码模式确定单元400可包括特征参数提取单元410和确定单元430。
参照图4,特征参数提取单元410可从音频信号提取用于确定编码模式的所必要的特征参数。提取的特征参数的示例包括音高(pitch)参数、浊音参数、相关度参数和线性预测误差之中的至少一个或两个,但不限于此。以下将给出对各个参数的详细描述。
首先,第一特征参数F1与音高参数有关,其中,可通过使用在当前帧和至少一个先前帧中检测到的N个音高值来确定音高的表现。为了防止效果随机偏离或防止错误的音高值,可去除与所述N个音高值的平均值明显不同的M个音高值。这里,N和M可以是预先经由实验或仿真而被获取的值。此外,N可被预先设置,并且将被移除的音高值与所述N个音高值之间的平均值之间的差可预先经由实验或仿真而被确定。通过使用关于(N-M)个音高值的均值mp’和方差σp’,第一特征参数F1可如下面的等式1中所示被表达。
[等式1]
第二特征参数F2也与音高参数有关,并可指示在当前帧中检测到的音高值的可靠性。通过使用在当前帧的两个子帧SF1和SF2中分别检测到的音高值的方差σSF1和σSF2,第二特征参数F2可如下面的等式2中所示被表达。
[等式2]
这里,cov(SF1,SF2)表示子帧SF1和子帧SF2之间的协方差。换句话说,第二特征参数F2将两个子帧之间的相关度指示为音高距离。根据示例性实施例,当前帧可包括两个或更多个子帧,等式2可基于子帧的数量而被修改。
基于浊音参数Voicing和相关度参数Corr,第三特征参数F3可如下面的等式3中所示被表达。
[等式3]
这里,浊音参数Voicing与声音的言语特征相关,并且可通过现有技术中已知的各种方法中的任意方法来获取,而相关度参数Corr可通过对针对每个频段的帧之间的相关度求和来获取。
第四特征参数F4与线性预测误差ELPC相关并可如下面的等式4中所示被表达。
[等式4]
这里,M(ELPC)表示N个线性预测误差的平均值。
确定单元430可通过使用由特征参数提取单元410提供的至少一个特征参数来确定音频信号的类别,并可基于所确定的类别来确定初始编码模式。 确定单元430可采用软判决机制,其中,在软判决机制中,可根据每个特征参数形成至少一个混合。根据示例性实施例,可通过基于混合(mixture)概率使用高斯混合模型(GMM)来确定音频信号的类别。关于一个混合的概率f(x)可根据下面的等式5来计算。
[等式5]
x=(x1,...,xN)
m=(Cx1C,...,CxNC)
这里,x表示特征参数的输入矢量,m表示混合,c表示协方差矩阵。
确定单元430可通过使用下面的等式6来计算音乐概率Pm和语音概率Ps。
[等式6]
这里,可通过将与适合用于音乐确定的特征参数相关的M个混合的概率Pi相加来计算音乐概率Pm,而可通过将与适合用于语音确定的特征参数相关的S个混合的概率Pi相加来计算语音概率Ps。
同时,为了提高精确度,可根据下面的等式7来计算音乐概率Pm和语音概率Ps。
[等式7]
这里,表示每个混合的误差概率。可通过使用每个混合对包括纯净语音信号和纯净音乐信号的训练数据进行分类并对错误分类的数量进行计数来获取所述误差概率。
接下来,可根据下面的等式8,针对与恒定拖尾长度相同数量的多个帧,计算所有帧仅包括音乐信号的音乐概率PM和所有帧仅包括语音信号的语音概率PS。拖尾长度可被设置为8,但不限于此。八个帧可包括当前帧和7个先前帧。
[等式8]
接下来,可通过使用利用等式5或等式6获取的音乐概率Pm或语音概率Ps来计算多个状况(condition)集合{}和{}。下面将参照图6给出其详细描述。这里,可按照每个状况对于音乐具有值1并且对于语音具有值0的方式进行设置。
参照图6,在操作610和操作620,可从通过使用音乐概率Pm和语音概率Ps计算出的多个状况集合{}和{}来获取音乐状况之和M以及语音状况之和S。换句话说,音乐状况之和M以及语音状况之和S可如下面的等式9中所示来表达。
[等式9]
在操作630,将音乐状况之和M与指定的阈值Tm进行比较。如果音乐状况之和M大于所述阈值Tm,则当前帧的编码模式被切换为音乐模式(即,谱域编码模式)。如果音乐状况之和M小于或等于阈值Tm,则当前帧的编码模式不被改变。
在操作640,将语音状况之和S与指定阈值Ts进行比较。如果语音状况之和S大于阈值Ts,则当前帧的编码模式被切换为语音模式(即,线性预测域编码模式)。如果语音状况之和S小于或等于阈值Ts,则当前帧的编码模式不被改变。
阈值Tm和阈值Ts可被设置为预先经由实验或仿真而获取的值。
图5是示出根据示例性实施例的特征参数提取单元500的配置的框图。
图5中示出的初始编码模式确定单元500可包括变换单元510、频谱参数提取单元520、时间参数提取单元530和确定单元540。
在图5中,变换单元510可将原始音频信号从时域变换到频域。这里, 变换单元510可应用各种任意变换技术以将音频信号从时域表示为谱域。所述技术的实例可包括快速傅里叶变换(FFT)、离散余弦变换(DCT)或改进离散余弦变换(MDCT),但不限于此。
频谱参数提取单元520可从由变换单元510提供的频域音频信号提取至少一个频谱参数。频谱参数可被归类为短期特征参数和长期特征参数。可从当前帧获取短期特征参数,而可从包括当前帧和至少一个先前帧的多个帧获取长期特征参数。
时间参数提取单元530可从时域音频信号提取至少一个时间参数。时间参数也可被归类为短期特征参数和长期特征参数。可从当前帧获取短期特征参数,而可从包括当前帧和至少一个先前帧的多个帧获取长期特征参数。
(图4的)确定单元(430)可通过使用由频谱参数提取单元520提供的频谱参数以及由时间参数提取单元530提供的时间参数来确定音频信号的类别,并可基于所确定的类别来确定初始编码模式。(图4的)确定单元(430)可采用软判决机制。
图7是示出根据示例性实施例的编码模式校正单元310的操作的示图。
参照图7,在操作700,由初始编码模式确定单元310确定的初始编码模式被接收,并且可确定编码模式是时域模式(即,时域激励模式)还是谱域模式。
在操作701,如果在操作700确定初始编码模式是谱域模式(stateTS==1),则可检查指示频域激励编码是否更加合适的索引stateTTSS。可通过使用不同频段的音调来获取指示频域激励编码(例如,GSC)是否更加合适的索引stateTTSS。下面将给出其详细描述。
低频段信号的音调可被获取为具有包括最小值的多个较小值的多个频谱系数之和与具有针对给定频段的最大值的频谱系数之间的比率。如果给定频段是0~1kHz、1~2kHz和2~4kHz,则各个频段的音高t01、t12和t24以及低频段信号(即,核心频段)的音调tL可如下面的等式10中所示被表达。
[等式10]
tL=max(t01,t12,t24)
同时,线性预测误差可通过使用线性预测编码(LPC)滤波器来获取并可被用于去除强音调分量。换句话说针对强音调分量,谱域编码模式比频域激励编码模式更加有效。
用于通过使用如上所述获取的音调和线性预测误差切换到频域激励编码模式的前置条件condfront可如下面的等式11中所示被表达。
[等式11]
condfront=t12>t12front且t24>t24front且tL>tLfront且err>errfrord
这里,t12front、t24front、tLfront和errfront是阈值,并可具有预先经由实验或仿真而获取的值。
同时,用于通过使用如上所述获取的音调和线性预测误差来完成频域激励编码模式的后置条件condback可如下面的等式12中所示被表达。
[等式12]
condback=t12<t12back且t24<t24back且tL<tLback
这里,t12back、t24back、tLback是阈值并可具有预先经由实验或仿真而获取的值。
换句话说,可通过确定等式11中所示的前置条件是否被满足或是等式12中所示的后置条件是否被满足来确定索引stateTTSS是否为1,其中,索引stateTTSS指示频域激励编码(例如,GSC)是否比谱域编码更加合适。这里,对等式12中示出的后置条件的确定可以是可选的。
在操作702,如果索引stateTTSS是1,则频域激励编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的谱域编码模式被校正为作为最终编码模式的频域激励编码模式。
在操作705,如果在操作701确定索引stateTTSS是0,则可检查用于确定 音频信号是否包括强语音特性的索引stateSS。如果在对谱域编码模式的确定中存在错误,则频域激励编码模式会比谱域编码模式更加有效。可通过使用浊音参数和相关度参数之间的差vc来获取用于确定音频信号是否包括强语音特性的索引stateSS。
用于通过使用浊音参数和相关度参数之间的差vc来切换到强语音模式的前置条件condfront可如下面的等式13中所示被表达。
[等式13]
condfront=vc>vcfront
这里,vcfront是阈值并可具有预先经由实验或仿真而获取的值。
同时,用于通过使用浊音参数和相关度参数之间的差vc来结束强语音模式的后置条件condback可如下面的等式14中所示被表达。
[等式14]
condback=vc<vcback
这里,vcback是阈值并可具有预先经由实验或仿真而获取的值。
换句话说,在操作705,可通过确定等式13中示出的前置条件是否被满足或是等式14中示出的后置条件是否未被满足来确定索引stateSS是否为1,其中,索引stateSS指示频域激励编码(例如,GSC)是否比谱域编码更加合适。这里,对等式14中示出的对后置条件的确定可以是可选的。
在操作706,如果在操作705确定索引stateSS为0(即,音频信号不包括强语音特性),则谱域编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的谱域编码模式被保持为最终编码模式。
在操作707,如果在操作705确定索引stateSS为1(即,音频信号包括强语音特性),则频域激励编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的谱域编码模式被校正为作为最终编码模式的频域激励编码模式。
通过执行操作700、701和705,对作为初始编码模式的谱域编码模式的确定中的错误可被校正。详细地讲,作为初始编码模式的谱域编码模式可被保持作为最终编码模式,或可被切换为频域激励编码模式作为最终编码模式。
同时,如果在操作700确定初始编码模式是线性预测域编码模式(stateTS==0),则用于确定音频信号是否包括强音乐特性的索引stateSM可被检查。如果在对线性预测域编码模式(即,时域激励编码模式)的确定中存在错误, 则频域激励编码模式可能比时域激励编码模式更加有效。可通过使用从1减去浊音参数和相关度参数之间的差vc而获取的值1-vc来获取用于确定音频信号是否包括强音乐特性的stateSM。
用于通过使用通过从1减去浊音参数和相关度参数之间的差vc而获取的值1-vc而切换到强音乐模式的前置条件condfront可如下面的等式15中所示被表达。
[等式15]
condfront=1-vc>vcmfront
这里,vcmfront是阈值并可具有预先经由实验或仿真而获取的值。
同时,用于通过使用通过从1减去浊音参数和相关度参数之间的差vc而获取的值1-vc而结束强音乐模式的后置条件condback可如下面的等式16中所示被表达。
[等式16]
condbock=1-vc<vcmback
这里,vcmback是阈值并可具有预先经由实验或仿真而获取的值。
换句话说,在操作709,可通过确定等式15中示出的前置条件是否被满足或是等式16中示出的后置条件是否未被满足来确定索引stateSM是否为1,其中,索引stateSM指示频域激励编码(例如,GSC)是否比时域激励编码更适合。这里,对等式16中示出的后置条件的确定可以是可选的。
在操作710,如果在操作709确定索引stateSM为0(即,音频信号不包括强音乐特性),则时域激励编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的线性预测域编码模式被切换为作为最终编码模式的时域激励编码模式。根据示例性实施例,如果线性预测域编码模式与时域激励编码模式对应,则可考虑初始编码模式保持不变。
在操作707,如果在操作709确定索引stateSM为1(即,音频信号包括强音乐特性),则频域激励编码模式可被确定为最终编码模式。在这种情况下,作为初始编码模式的线性预测域编码模式被校正为作为最终编码模式的频域激励编码模式。
通过执行操作700和709,对初始编码模式的确定中的错误可被校正。详细地讲,作为初始编码模式的线性预测域编码模式(例如,时域激励编码模式)可被保持作为最终编码模式,或者可被切换为频域激励编码模式作为 最终编码模式。
根据示例性实施例,用于确定音频信号是否包括强音乐特性以校正对线性预测域编码模式的确定中的错误的操作709可以是可选的。
根据另一示例性实施例,执行用于确定音频信号是否包括强语音特性的操作705以及用于确定频域激励编码模式是否适合的操作701的顺序可被颠倒。换句话说,在操作700之后,可首先执行操作705,然后可执行操作701。在这种情况下,用于进行确定的参数可按照必要的需求而被改变。
图8是示出根据示例性实施例的音频解码设备800的配置的框图。
图8中示出的音频解码设备800可包括比特流解析单元810、谱域解码单元820、线性预测域解码单元830和切换单元840。线性预测域解码单元830可包括时域激励解码单元831和频域激励解码单元833,其中,线性预测域解码单元830可被实现为时域激励解码单元831和频域激励解码单元833中的至少一个。除非必须被实现为单独的硬件,否则上述组件可被集成为至少一个模块,并可被实现为至少一个处理器(未示出)。
参照图8,比特流解析单元810可对接收到的比特流进行解析并对关于编码模式和编码数据的信息进行分离。编码模式可与通过根据音频信号的特性在包括第一编码模式和第二编码模式的多个编码模式之中确定一个编码模式而获取的初始编码模式相应,或者可与在对初始编码模式的确定中存在错误的情况下从初始编码模式校正得到的第三编码模式相应。
谱域解码单元820可对来自分离的编码数据的在谱域中被编码的数据进行解码。
线性预测域解码单元830可对来自分离的编码数据的在线性预测域中被编码的数据进行解码。如果线性预测域解码单元830包括时域激励解码单元831和频域激励解码单元833,则线性预测域解码单元830可针对分离的编码数据执行时域激励解码或频域激励解码。
切换单元840可对由谱域解码单元820重构的信号或由线性预测域解码单元830重构的信号进行切换,并可提供切换的信号作为最终重构的信号。
图9是示出根据另一示例性实施例的音频解码设备900的配置的框图。
音频解码设备900可包括比特流解析单元910、谱域解码单元920、线性预测域解码单元930、切换单元940和公共后处理模块950。线性预测域解码单元930可包括时域激励解码单元931和频域激励解码单元933,其中,线 性预测域解码单元930可被实现为时域激励解码单元931和频域激励解码单元933中的至少一个。除非必须被实现为单独的硬件,否则上述组件可被集成为至少一个模块,并可被实现为至少一个处理器(未示出)。与图8中示出的音频解码设备800相比,音频解码设备900还可包括公共后处理模块950,因此,将省略对与音频解码设备800的组件相同的组件的描述。
参照图9,公共后处理模块950可执行与(图2的)公共预处理模块(205)相应的联合立体声处理、环绕处理和/或带宽扩展处理。
根据示例性实施例的方法可被编写为计算机可执行程序并可被实现在通用数字计算机中,其中,所述通用数字计算机通过使用非暂时性计算机可读记录介质来执行程序。此外,可在实施例中使用的数据结构、程序指令或数据文件可以以各种方式被记录在非暂时性计算机可读记录介质中。非暂时性计算机可读记录介质是可存储其后可由计算机***读出的数据的任意数据存储装置。非暂时性计算机可读记录介质的示例包括:磁介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如CD ROM盘和DVD)、磁光介质(诸如光盘)以及专门配置为存储和执行程序指令的硬件装置(诸如ROM、RAM、闪存等)。此外,非暂时性计算机可读记录介质可以是用于传输指定程序指令、数据结构等的信号的传输介质。程序指令的示例可不仅包括由编译器产生的机器语言代码,还可包括可由计算机使用解释器等执行的高级语言代码。
尽管在上面已具体显示和描述了示例性实施例,但是本领域的普通技术人员将理解,在不脱离权利要求所限定的本发明构思的精神和范围的情况下,可以对其进行形式和细节上的各种改变。示例性实施例应被认为仅是描述性的意义而不是为了限制的目的。因此,本发明构思的范围不是由示例性实施例的详细描述来限定,而是由权利要求来限定,并且所述范围内的所有差异将被解释为包括在本发明构思中。
Claims (11)
1.一种确定编码模式的方法,所述方法包括:
基于信号特性,在包括音乐类别和语音类别的多个类别之中确定当前帧的类别;
从包括当前帧的多个帧获得特征参数;
基于所述特征参数来产生至少一个条件;
基于所述至少一个条件,确定在所确定的当前帧的类别上是否发生错误;
当确定在所确定的当前帧的类别上发生错误时,校正所确定的当前帧的类别。
2.如权利要求1所述的方法,其中,确定在所确定的当前帧的类别上是否发生错误的步骤还基于拖尾参数来进行。
3.如权利要求1所述的方法,其中,校正步骤包括:
当在所确定的当前帧的类别上发生错误并且所确定的当前帧的类别是音乐类别时,将所确定的当前帧的类别校正为语音类别;
当在所确定的当前帧的类别上发生错误并且所确定的当前帧的类别是语音类别时,将所确定的当前帧的类别校正为音乐类别。
4.如权利要求1所述的方法,其中,所述特征参数包括音调和线性预测误差。
5.如权利要求4所述的方法,其中,所述特征参数还包括浊音参数与相关度参数之间的差。
6.一种音频编码方法,包括:
基于信号特性,在包括音乐类别和语音类别的多个类别之中确定当前帧的类别;
从包括当前帧的多个帧获得特征参数;
基于所述特征参数来产生至少一个条件;
基于所述至少一个条件,确定在所确定的当前帧的类别上是否发生错误;
当确定在所确定的当前帧的类别上发生错误时,校正所确定的当前帧的类别;
基于所确定的当前帧的类别或校正后的当前帧的类别,对当前帧执行不同的编码处理。
7.如权利要求6所述的方法,其中,确定在所确定的当前帧的类别上是否发生错误的步骤还基于拖尾参数来进行。
8.如权利要求6所述的方法,其中,校正步骤包括:
当在所确定的当前帧的类别上发生错误并且所确定的当前帧的类别是音乐类别时,将所确定的当前帧的类别校正为语音类别;
当在所确定的当前帧的类别上发生错误并且所确定的当前帧的类别是语音类别时,将所确定的当前帧的类别校正为音乐类别。
9.如权利要求6所述的方法,其中,所述特征参数包括音调和线性预测误差。
10.如权利要求9所述的方法,其中,所述特征参数还包括浊音参数与相关度参数之间的差。
11.一种其上记录有用于实现权利要求1或6的方法的计算机程序的非暂时性计算机可读记录介质。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261725694P | 2012-11-13 | 2012-11-13 | |
US61/725,694 | 2012-11-13 | ||
PCT/KR2013/010310 WO2014077591A1 (ko) | 2012-11-13 | 2013-11-13 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
CN201380070268.6A CN104919524B (zh) | 2012-11-13 | 2013-11-13 | 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380070268.6A Division CN104919524B (zh) | 2012-11-13 | 2013-11-13 | 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108074579A true CN108074579A (zh) | 2018-05-25 |
CN108074579B CN108074579B (zh) | 2022-06-24 |
Family
ID=50731440
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711424971.9A Active CN108074579B (zh) | 2012-11-13 | 2013-11-13 | 用于确定编码模式的方法以及音频编码方法 |
CN201711421463.5A Active CN107958670B (zh) | 2012-11-13 | 2013-11-13 | 用于确定编码模式的设备以及音频编码设备 |
CN201380070268.6A Active CN104919524B (zh) | 2012-11-13 | 2013-11-13 | 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711421463.5A Active CN107958670B (zh) | 2012-11-13 | 2013-11-13 | 用于确定编码模式的设备以及音频编码设备 |
CN201380070268.6A Active CN104919524B (zh) | 2012-11-13 | 2013-11-13 | 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备 |
Country Status (18)
Country | Link |
---|---|
US (3) | US20140188465A1 (zh) |
EP (3) | EP4407616A2 (zh) |
JP (2) | JP6170172B2 (zh) |
KR (3) | KR102561265B1 (zh) |
CN (3) | CN108074579B (zh) |
AU (2) | AU2013345615B2 (zh) |
BR (1) | BR112015010954B1 (zh) |
CA (1) | CA2891413C (zh) |
ES (1) | ES2900594T3 (zh) |
MX (2) | MX361866B (zh) |
MY (1) | MY188080A (zh) |
PH (1) | PH12015501114A1 (zh) |
PL (1) | PL2922052T3 (zh) |
RU (3) | RU2656681C1 (zh) |
SG (2) | SG11201503788UA (zh) |
TW (2) | TWI648730B (zh) |
WO (1) | WO2014077591A1 (zh) |
ZA (1) | ZA201504289B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102354331B1 (ko) | 2014-02-24 | 2022-01-21 | 삼성전자주식회사 | 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치 |
US9886963B2 (en) * | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN114898761A (zh) * | 2017-08-10 | 2022-08-12 | 华为技术有限公司 | 立体声信号编解码方法及装置 |
US10325588B2 (en) | 2017-09-28 | 2019-06-18 | International Business Machines Corporation | Acoustic feature extractor selected according to status flag of frame of acoustic signal |
US11032580B2 (en) | 2017-12-18 | 2021-06-08 | Dish Network L.L.C. | Systems and methods for facilitating a personalized viewing experience |
US10365885B1 (en) * | 2018-02-21 | 2019-07-30 | Sling Media Pvt. Ltd. | Systems and methods for composition of audio content from multi-object audio |
CN111081264B (zh) * | 2019-12-06 | 2022-03-29 | 北京明略软件***有限公司 | 一种语音信号处理方法、装置、设备及存储介质 |
EP4362366A1 (en) * | 2021-09-24 | 2024-05-01 | Samsung Electronics Co., Ltd. | Electronic device for data packet transmission or reception, and operation method thereof |
Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2102080A1 (en) * | 1992-12-14 | 1994-06-15 | Willem Bastiaan Kleijn | Time Shifting for Generalized Analysis-by-Synthesis Coding |
US20030101050A1 (en) * | 2001-11-29 | 2003-05-29 | Microsoft Corporation | Real-time speech and music classifier |
US20050096898A1 (en) * | 2003-10-29 | 2005-05-05 | Manoj Singhal | Classification of speech and music using sub-band energy |
US20050256723A1 (en) * | 2004-05-14 | 2005-11-17 | Mansour Mohamed F | Efficient filter bank computation for audio coding |
CN101025918A (zh) * | 2007-01-19 | 2007-08-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
KR20070094689A (ko) * | 2006-03-18 | 2007-09-21 | 삼성전자주식회사 | 모폴로지 기반의 음성 신호 코덱 방법 및 장치 |
CN101197135A (zh) * | 2006-12-05 | 2008-06-11 | 华为技术有限公司 | 声音信号分类方法和装置 |
CN101203907A (zh) * | 2005-06-23 | 2008-06-18 | 松下电器产业株式会社 | 音频编码装置、音频解码装置以及音频编码信息传输装置 |
US20080147414A1 (en) * | 2006-12-14 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus |
CN101236742A (zh) * | 2008-03-03 | 2008-08-06 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
CN101256772A (zh) * | 2007-03-02 | 2008-09-03 | 华为技术有限公司 | 确定非噪声音频信号归属类别的方法和装置 |
CN101310470A (zh) * | 2005-11-14 | 2008-11-19 | 艾比奎蒂数字公司 | 用于am带内同频无线电接收机的码元跟踪 |
CN101393741A (zh) * | 2007-09-19 | 2009-03-25 | 中兴通讯股份有限公司 | 一种宽带音频编解码器中的音频信号分类装置及分类方法 |
CN101523486A (zh) * | 2006-10-10 | 2009-09-02 | 高通股份有限公司 | 用于编码和解码音频信号的方法和设备 |
CN101577117A (zh) * | 2009-03-12 | 2009-11-11 | 北京中星微电子有限公司 | 伴奏音乐提取方法及装置 |
CN101611441A (zh) * | 2007-02-13 | 2009-12-23 | 诺基亚公司 | 音频信号编码 |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
CN101790887A (zh) * | 2007-08-31 | 2010-07-28 | 三星电子株式会社 | 用于对媒体信号编码/解码的方法和设备 |
CN101847412A (zh) * | 2009-03-27 | 2010-09-29 | 华为技术有限公司 | 音频信号的分类方法及装置 |
US20110016077A1 (en) * | 2008-03-26 | 2011-01-20 | Nokia Corporation | Audio signal classifier |
CN102113051A (zh) * | 2008-07-11 | 2011-06-29 | 弗朗霍夫应用科学研究促进协会 | 具有级联开关的低比特率音频编码/解码方案 |
CN102341851A (zh) * | 2009-03-06 | 2012-02-01 | 株式会社Ntt都科摩 | 声音信号编码方法、声音信号解码方法、编码装置、解码装置、声音信号处理***、声音信号编码程序以及声音信号解码程序 |
JP2012042534A (ja) * | 2010-08-13 | 2012-03-01 | Ntt Docomo Inc | オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム |
CN102385863A (zh) * | 2011-10-10 | 2012-03-21 | 杭州米加科技有限公司 | 一种基于语音音乐分类的声音编码方法 |
CN102446504A (zh) * | 2010-10-08 | 2012-05-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
CN102460570A (zh) * | 2009-01-28 | 2012-05-16 | 三星电子株式会社 | 用于对音频信号进行编码和解码的方法及设备 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2247741T3 (es) * | 1998-01-22 | 2006-03-01 | Deutsche Telekom Ag | Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6704711B2 (en) * | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
ES2297083T3 (es) * | 2002-09-04 | 2008-05-01 | Microsoft Corporation | Codificacion entropica por adaptacion de la codificacion entre modos por longitud de ejecucion y por nivel. |
AU2003278013A1 (en) * | 2002-10-11 | 2004-05-04 | Voiceage Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
CA2566368A1 (en) | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
US7558809B2 (en) * | 2006-01-06 | 2009-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Task specific audio classification for identifying video highlights |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
KR20080075050A (ko) * | 2007-02-10 | 2008-08-14 | 삼성전자주식회사 | 오류 프레임의 파라미터 갱신 방법 및 장치 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8990073B2 (en) * | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
CN101399039B (zh) * | 2007-09-30 | 2011-05-11 | 华为技术有限公司 | 一种确定非噪声音频信号类别的方法及装置 |
BRPI0910285B1 (pt) | 2008-03-03 | 2020-05-12 | Lg Electronics Inc. | Métodos e aparelhos para processamento de sinal de áudio. |
US8392179B2 (en) * | 2008-03-14 | 2013-03-05 | Dolby Laboratories Licensing Corporation | Multimode coding of speech-like and non-speech-like signals |
AU2009267507B2 (en) * | 2008-07-11 | 2012-08-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and discriminator for classifying different segments of a signal |
CN101350199A (zh) * | 2008-07-29 | 2009-01-21 | 北京中星微电子有限公司 | 音频编码器及音频编码方法 |
RU2520402C2 (ru) * | 2008-10-08 | 2014-06-27 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Переключаемая аудио кодирующая/декодирующая схема с мультиразрешением |
CN101751920A (zh) * | 2008-12-19 | 2010-06-23 | 数维科技(北京)有限公司 | 基于再次分类的音频分类装置及其实现方法 |
US20100253797A1 (en) * | 2009-04-01 | 2010-10-07 | Samsung Electronics Co., Ltd. | Smart flash viewer |
KR20100115215A (ko) * | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 가변 비트율 오디오 부호화 및 복호화 장치 및 방법 |
KR20110022252A (ko) * | 2009-08-27 | 2011-03-07 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
KR101508819B1 (ko) * | 2009-10-20 | 2015-04-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩 |
CN102237085B (zh) * | 2010-04-26 | 2013-08-14 | 华为技术有限公司 | 音频信号的分类方法及装置 |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
WO2014010175A1 (ja) * | 2012-07-09 | 2014-01-16 | パナソニック株式会社 | 符号化装置及び符号化方法 |
-
2013
- 2013-11-13 SG SG11201503788UA patent/SG11201503788UA/en unknown
- 2013-11-13 MX MX2017009362A patent/MX361866B/es unknown
- 2013-11-13 CN CN201711424971.9A patent/CN108074579B/zh active Active
- 2013-11-13 KR KR1020227032281A patent/KR102561265B1/ko active IP Right Grant
- 2013-11-13 AU AU2013345615A patent/AU2013345615B2/en active Active
- 2013-11-13 EP EP24182511.6A patent/EP4407616A2/en active Pending
- 2013-11-13 MY MYPI2015701531A patent/MY188080A/en unknown
- 2013-11-13 WO PCT/KR2013/010310 patent/WO2014077591A1/ko active Application Filing
- 2013-11-13 PL PL13854639T patent/PL2922052T3/pl unknown
- 2013-11-13 RU RU2017129727A patent/RU2656681C1/ru active
- 2013-11-13 KR KR1020157012623A patent/KR102331279B1/ko active IP Right Grant
- 2013-11-13 SG SG10201706626XA patent/SG10201706626XA/en unknown
- 2013-11-13 BR BR112015010954-3A patent/BR112015010954B1/pt active IP Right Grant
- 2013-11-13 MX MX2015006028A patent/MX349196B/es active IP Right Grant
- 2013-11-13 TW TW106140629A patent/TWI648730B/zh active
- 2013-11-13 EP EP13854639.5A patent/EP2922052B1/en active Active
- 2013-11-13 CN CN201711421463.5A patent/CN107958670B/zh active Active
- 2013-11-13 CA CA2891413A patent/CA2891413C/en active Active
- 2013-11-13 JP JP2015542948A patent/JP6170172B2/ja active Active
- 2013-11-13 TW TW102141400A patent/TWI612518B/zh active
- 2013-11-13 US US14/079,090 patent/US20140188465A1/en not_active Abandoned
- 2013-11-13 RU RU2015122128A patent/RU2630889C2/ru active
- 2013-11-13 ES ES13854639T patent/ES2900594T3/es active Active
- 2013-11-13 CN CN201380070268.6A patent/CN104919524B/zh active Active
- 2013-11-13 KR KR1020217038093A patent/KR102446441B1/ko active IP Right Grant
- 2013-11-13 EP EP21192621.7A patent/EP3933836B1/en active Active
-
2015
- 2015-05-13 PH PH12015501114A patent/PH12015501114A1/en unknown
- 2015-06-12 ZA ZA2015/04289A patent/ZA201504289B/en unknown
-
2017
- 2017-06-29 JP JP2017127285A patent/JP6530449B2/ja active Active
- 2017-07-20 AU AU2017206243A patent/AU2017206243B2/en active Active
-
2018
- 2018-04-18 RU RU2018114257A patent/RU2680352C1/ru active
- 2018-07-18 US US16/039,110 patent/US10468046B2/en active Active
-
2019
- 2019-10-04 US US16/593,041 patent/US11004458B2/en active Active
Patent Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2102080A1 (en) * | 1992-12-14 | 1994-06-15 | Willem Bastiaan Kleijn | Time Shifting for Generalized Analysis-by-Synthesis Coding |
US20030101050A1 (en) * | 2001-11-29 | 2003-05-29 | Microsoft Corporation | Real-time speech and music classifier |
US20050096898A1 (en) * | 2003-10-29 | 2005-05-05 | Manoj Singhal | Classification of speech and music using sub-band energy |
US20050256723A1 (en) * | 2004-05-14 | 2005-11-17 | Mansour Mohamed F | Efficient filter bank computation for audio coding |
CN101203907A (zh) * | 2005-06-23 | 2008-06-18 | 松下电器产业株式会社 | 音频编码装置、音频解码装置以及音频编码信息传输装置 |
CN101310470A (zh) * | 2005-11-14 | 2008-11-19 | 艾比奎蒂数字公司 | 用于am带内同频无线电接收机的码元跟踪 |
KR20070094689A (ko) * | 2006-03-18 | 2007-09-21 | 삼성전자주식회사 | 모폴로지 기반의 음성 신호 코덱 방법 및 장치 |
CN101523486A (zh) * | 2006-10-10 | 2009-09-02 | 高通股份有限公司 | 用于编码和解码音频信号的方法和设备 |
CN101197135A (zh) * | 2006-12-05 | 2008-06-11 | 华为技术有限公司 | 声音信号分类方法和装置 |
US20080147414A1 (en) * | 2006-12-14 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus |
CN101025918A (zh) * | 2007-01-19 | 2007-08-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
CN101611441A (zh) * | 2007-02-13 | 2009-12-23 | 诺基亚公司 | 音频信号编码 |
CN101256772A (zh) * | 2007-03-02 | 2008-09-03 | 华为技术有限公司 | 确定非噪声音频信号归属类别的方法和装置 |
CN101790887A (zh) * | 2007-08-31 | 2010-07-28 | 三星电子株式会社 | 用于对媒体信号编码/解码的方法和设备 |
CN101393741A (zh) * | 2007-09-19 | 2009-03-25 | 中兴通讯股份有限公司 | 一种宽带音频编解码器中的音频信号分类装置及分类方法 |
CN101236742A (zh) * | 2008-03-03 | 2008-08-06 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
US20110016077A1 (en) * | 2008-03-26 | 2011-01-20 | Nokia Corporation | Audio signal classifier |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
CN102113051A (zh) * | 2008-07-11 | 2011-06-29 | 弗朗霍夫应用科学研究促进协会 | 具有级联开关的低比特率音频编码/解码方案 |
CN102460570A (zh) * | 2009-01-28 | 2012-05-16 | 三星电子株式会社 | 用于对音频信号进行编码和解码的方法及设备 |
CN102341851A (zh) * | 2009-03-06 | 2012-02-01 | 株式会社Ntt都科摩 | 声音信号编码方法、声音信号解码方法、编码装置、解码装置、声音信号处理***、声音信号编码程序以及声音信号解码程序 |
CN101577117A (zh) * | 2009-03-12 | 2009-11-11 | 北京中星微电子有限公司 | 伴奏音乐提取方法及装置 |
CN101847412A (zh) * | 2009-03-27 | 2010-09-29 | 华为技术有限公司 | 音频信号的分类方法及装置 |
JP2012042534A (ja) * | 2010-08-13 | 2012-03-01 | Ntt Docomo Inc | オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム |
CN102446504A (zh) * | 2010-10-08 | 2012-05-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
CN102385863A (zh) * | 2011-10-10 | 2012-03-21 | 杭州米加科技有限公司 | 一种基于语音音乐分类的声音编码方法 |
Non-Patent Citations (2)
Title |
---|
中国人工智能学会: "《中国人工智能进展》", 31 December 2007, 北京邮电大学出版社 * |
孟永辉 等: "一种新颖的语言/音乐分割与分类方法", 《计算机工程与科学》 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104919524B (zh) | 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备 | |
RU2389085C2 (ru) | Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx | |
CN103493129B (zh) | 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法 | |
MX2011000362A (es) | Esquema de codificacion/decodificacion de audio a baja velocidad binaria y conmutadores en cascada. | |
CN107112022A (zh) | 用于数据包丢失隐藏的方法和装置以及采用该方法的解码方法和装置 | |
TW201521016A (zh) | 用以使用基於時域激勵信號之錯誤隱藏提供解碼音訊資訊之音訊解碼器及方法 | |
CN101609681B (zh) | 编码方法、编码器、解码方法及解码器 | |
KR100300964B1 (ko) | 음성 코딩/디코딩 장치 및 그 방법 | |
KR20100006491A (ko) | 무성음 부호화 및 복호화 방법 및 장치 | |
JPH0291699A (ja) | 音声符号化復号化方式 | |
JP2002244700A (ja) | 音声符号化装置、音声符号化方法および記憶素子 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |