CN104040621B - 用于音频数据的冗余发射的位分配的***、方法和设备 - Google Patents
用于音频数据的冗余发射的位分配的***、方法和设备 Download PDFInfo
- Publication number
- CN104040621B CN104040621B CN201280066664.7A CN201280066664A CN104040621B CN 104040621 B CN104040621 B CN 104040621B CN 201280066664 A CN201280066664 A CN 201280066664A CN 104040621 B CN104040621 B CN 104040621B
- Authority
- CN
- China
- Prior art keywords
- frame
- value
- candidate
- calculating
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 197
- 230000005540 biological transmission Effects 0.000 title description 17
- 230000005236 sound signal Effects 0.000 claims abstract description 72
- 238000005259 measurement Methods 0.000 claims description 63
- 238000009826 distribution Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 4
- 108091006146 Channels Proteins 0.000 description 62
- 238000004891 communication Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 30
- 238000003860 storage Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 17
- 230000003044 adaptive effect Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 15
- 239000013598 vector Substances 0.000 description 14
- 230000008859 change Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 8
- 230000009467 reduction Effects 0.000 description 8
- 238000003491 array Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000009434 installation Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000001747 exhibiting effect Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 238000011268 retreatment Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000001052 transient effect Effects 0.000 description 5
- 101000666657 Homo sapiens Rho-related GTP-binding protein RhoQ Proteins 0.000 description 4
- 102100038339 Rho-related GTP-binding protein RhoQ Human genes 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000006735 deficit Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000005086 pumping Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 102000003729 Neprilysin Human genes 0.000 description 3
- 108090000028 Neprilysin Proteins 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000593 degrading effect Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 101150080339 BTS1 gene Proteins 0.000 description 2
- 101000658138 Homo sapiens Thymosin beta-10 Proteins 0.000 description 2
- 101000702105 Rattus norvegicus Sproutin Proteins 0.000 description 2
- 102100034998 Thymosin beta-10 Human genes 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102100022005 B-lymphocyte antigen CD20 Human genes 0.000 description 1
- 101150079307 BSC3 gene Proteins 0.000 description 1
- 208000033962 Fontaine progeroid syndrome Diseases 0.000 description 1
- 101000897405 Homo sapiens B-lymphocyte antigen CD20 Proteins 0.000 description 1
- 102000003814 Interleukin-10 Human genes 0.000 description 1
- 108090000174 Interleukin-10 Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005621 ferroelectricity Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000000246 remedial effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0001—Systems modifying transmission characteristics according to link quality, e.g. power backoff
- H04L1/0009—Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the channel coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0001—Systems modifying transmission characteristics according to link quality, e.g. power backoff
- H04L1/0014—Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the source coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/004—Arrangements for detecting or preventing errors in the information received by using forward error control
- H04L1/0056—Systems characterized by the type of code used
- H04L1/007—Unequal error protection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/08—Arrangements for detecting or preventing errors in the information received by repeating transmission, e.g. Verdan system
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Radio Relay Systems (AREA)
- Time-Division Multiplex Systems (AREA)
- Mobile Radio Communication Systems (AREA)
- Traffic Control Systems (AREA)
- Telephone Function (AREA)
Abstract
本发明描述用于音频信号的帧的初始位分配的基于压缩性的重新分配。还描述了关键帧的基于冗余的重新发射的应用(例如,用于话音编解码器操作的固定位速率模式)。
Description
根据35U.S.C.§119主张优先权
本专利申请案主张2012年1月12日申请的标题为“用于冗余发射的位分配的***、方法、设备及计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLEMEDIA FOR BIT ALLOCATION FOR REDUNDANT TRANSMISSION)”的第61/586,007号临时申请案的优先权,且所述申请案已让与其受让人。本专利申请案还主张2012年1月17日申请的标题为“用于关键性阈值控制的***、方法、设备及计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FOR CRITICALITY THRESHOLD CONTROL)”的第61/587,507号临时申请案的优先权,且所述申请案已让与其受让人。本专利申请案还主张2012年5月1日申请的标题为“用于冗余发射的位分配的***、方法、设备及计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FOR BIT ALLOCATION FORREDUNDANT TRANSMISSION)”的第61/641,093号临时申请案的优先权,且所述申请案已让与其受让人。
技术领域
本发明涉及音频通信。
背景技术
已通过电路交换网络执行数字音频电信。电路交换网络是在呼叫的持续时间内在两个终端之间建立物理路径的网络。在电路交换应用中,发射终端经由物理路径将含有音频(例如,语音)信息的包序列发送到接收终端。接收终端使用包中含有的音频信息(例如,语音信息)合成对应音频信号(例如,话音信号)。
已开始通过包交换网络执行数字音频电信。包交换网络是基于目的地地址经由网络投送包的网络。借助于包交换通信,路由器个别地确定每一包的路径,沿着任何可用路径向下发送所述包以到达其目的地。结果,包可不同时或按相同次序到达于接收终端处。去抖动缓冲器可用于接收终端中以重新按次序安置包且按连续顺序方式播放所述包。
在一些场合,在从发射终端到接收终端的运输中包丢失了。丢失的包可使合成音频信号的质量降级。因而,可通过提供***及方法来处理帧内(例如,话音帧内)的信息的丢失而实现益处。
发明内容
一种根据一般配置处理音频信号的方法包含计算在所述音频信号中在所述音频信号的第一帧(例如,关键帧)之后的所述音频信号的第二帧的决策量度的至少一个值。此方法还包含基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选。在此方法中,所述计算的至少一个值是基于所述第二帧的压缩性的测量,且所述选定的重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。还揭示了具有有形特征的计算机可读存储媒体(例如,非暂时性媒体),所述有形特征致使读取所述特征的机器执行此方法。
一种用于根据另一一般配置处理音频信号的设备包含用于计算在所述音频信号中在所述音频信号的第一帧(例如,关键帧)之后的所述音频信号的第二帧的决策量度的至少一个值的装置。此设备还包含用于基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选的装置。在此设备中,所述计算的至少一个值是基于所述第二帧的压缩性的测量,且所述选定的重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
一种用于根据另一一般配置处理音频信号的设备包含经配置以计算在所述音频信号中在所述音频信号的第一帧(例如,关键帧)之后的所述音频信号的第二帧的决策量度的至少一个值的计算器。此设备还包含经配置以基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选的选择器。在此设备中,所述计算的至少一个值是基于所述第二帧的压缩性的测量,且所述选定的重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
附图说明
图1A是说明经由网络NW10通信的发射终端102及接收终端104的实例的框图。
图1B展示音频编码器AE10的实施方案AE20的框图。
图2展示可经由网络NW20彼此通信的不同终端装置的实例。
图3展示帧编码器FE10的基本实施方案FE20的框图。
图4是说明发射终端102的实施方案112及接收终端104的实施方案114的实例的框图。
图5A展示根据一般配置的方法M100的流程图。
图5B展示方法M100的实施方案M200的流程图。
图5C展示方法M200的实施方案M210的流程图。
图6A展示音频信号的帧序列的实例。
图6B展示决策量度D的值的范围与多个重新分配候选之间的对应。
图6C展示方法M200的实施方案M220的流程图。
图7A展示方法M100的实施方案M300的流程图。
图7B展示用于方法M300的实施方案M310的流程图。
图8A展示用于方法M100的实施方案M400的流程图。
图8B展示用于方法M400的实施方案M410的流程图。
图9A展示用于方法M400的实施方案M420的流程图。
图9B展示用于方法M400的实施方案M430的流程图。
图10A展示用于方法M400的实施方案M500的流程图。
图10B展示用于方法M500的实施方案M510的流程图。
图11A展示用于方法M500的实施方案M520的流程图。
图11B展示用于方法M500的实施方案M530的流程图。
图12展示用于方法M500的实施方案M540的流程图。
图13A展示方法M100的实施方案M110的流程图。
图13B展示用于方法M110的实施方案M120的流程图。
图13C展示用于方法M120的实施方案M130的流程图。
图14A及14B展示信道状态信息与如本文中所描述的其它***参数之间的关系的实例。
图15A展示方法M120的实施方案M140的流程图。
图15B展示用于方法M130及M140的实施方案M150的流程图。
图16A展示用于方法M100的实施方案M600的流程图。
图16B展示用于方法M600的实施方案M610的流程图。
图16C展示用于方法M600的实施方案M620的流程图。
图17A展示用于方法M600的实施方案M630的流程图。
图17B展示用于方法M600的实施方案M640的流程图。
图17C展示用于方法M600的实施方案M650的流程图。
图18A展示用于方法M400及M610的实施方案M660的流程图。
图18B展示用于方法M400及M620的实施方案M670的流程图。
图18C展示用于方法M600的实施方案M700的流程图。
图19A展示用于方法M660及M700的实施方案M710的流程图。
图19B展示用于方法M670及M700的实施方案M720的流程图。
图20A是IPv4包的图。
图20B是IPv6包的图。
图20C展示通信装置D10的框图。
图21展示载运关键帧的冗余副本及后续帧的副本的RTP包的有效负载的实例。
图22是音频解码器AD10的实施方案AD20的框图。
图23A展示根据一般配置的设备MF100的框图。
图23B展示设备MF100的实施方案MF300的框图。
图23C展示设备MF100的实施方案MF500的框图。
图24A展示设备MF100的实施方案MF140的框图。
图24B展示设备MF140的实施方案MF150的框图。
图25A展示根据一般配置的设备A100的框图。
图25B展示设备A100的实施方案A300的框图。
图25C展示设备A100的实施方案A500的框图。
图25D展示无线装置1102的框图。
图26展示手持机H100的前视图、后视图及侧视图。
具体实施方式
可需要改进固定位速率方案对发射期间的信息丢失的强健性。如本文中所描述的***、方法及设备可适用于音频信号的关键帧的自适应冗余编码。此自适应编码可包含测试多个共享速率(例如,共享位分配)及帧偏移。此自适应编码还可包含确定帧是关键帧。
除非其上下文明确地限制,否则术语“信号”在本文中用以指示其通常意义中的任一者,包含如电线、总线或其它发射媒体上表达的存储器位置(或存储器位置的集合)的状态。除非其上下文明确地限制,否则本文中使用术语“产生”来指示其通常意义中的任一者,例如运算或以另外方式产生。除非其上下文明确地限制,否则术语“计算”在本文中用以指示其通常意义中的任一者,例如运算、评估、平滑及/或从多个值中进行选择。除非其上下文明确地限制,否则使用术语“获得”来指示其通常意义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件阵列)。除非其上下文明确地限制,否则术语“选择”用以指示其通常意义中的任一者,例如识别、指示、应用及/或使用两者或两者以上的集合中的至少一者且不到全部。除非其上下文明确地限制,否则术语“确定”用以指示其通常意义中的任一者,例如决定、建立、推断、计算、选择及/或评估。在术语“包含”用于本描述及权利要求书中的情况下,其不排除其它元件或操作。术语“基于”(如“A基于B”中)用以指示其通常意义中的任一者,包含状况(i)“从……导出”(例如,“B是A的前驱”),(ii)“至少基于”(例如,“A至少基于B”)及在特定上下文中适当的情况下(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其通常意义中的任一者,包含“至少响应于”。
除非另外指出,否则术语“系列”用以指示两个或两个以上项的序列。术语“对数”用以指示以10为底的对数,但将此运算扩展到其它基底在本发明的范围内。术语“频率分量”用以指示信号的频率或频带的集合当中的一者,例如信号(例如,如由快速傅立叶变换或MDCT产生)或信号的子带(例如,巴克刻度或梅尔刻度子带)的频域表示的样本。
除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考如由其特定上下文指示的方法、设备及/或***来使用。通常且可互换地使用术语“方法”、“过程”、“程序”及“技术”,除非由特定上下文另外指出。具有多个子任务的“任务”也是一种方法。通常且可互换地使用术语“设备”及“装置”,除非由特定上下文另外指出。术语“元件”及“模块”通常用以指示较大配置的一部分。除非其上下文明确地限制,否则术语“***”在本文中用以指示其通常意义中的任一者,包含“为共同目的互动的元件群组”。术语“多个”意谓“两个或两个以上”。参考文件的一部分的任何并入也应理解为并入有在所述部分内参考的术语或变量的定义,其中所述定义出现在文件别处,以及并入的部分中所参考的任何图。
术语“译码器”、“编解码器”及“译码***”可互换地用以表示包含经配置以接收及编码音频信号的帧(可能在例如感知加权及/或其它滤波操作等一或多个预处理操作之后)的至少一个编码器及经配置以产生帧的经解码的表示的对应解码器的***。此编码器及解码器通常部署于通信链路的相反终端处。为了支持全双工通信,编码器及解码器两者的例子通常部署于此链路的每一端处。
除非另外指出,否则术语“声码器”、“音频译码器”及“话音译码器”指示音频编码器及对应音频解码器的组合。除非另外指出,术语“译码”指示经由编解码器传送音频信号,包含编码及后续解码。除非另外指出,术语“发射”指示传播(例如,信号)到发射信道中。
如本文中所描述的译码方案可适用于对任何音频信号(例如,包含非话音音频)译码。或者,可需要仅针对话音使用此译码方案。在此状况下,译码方案可与分类方案一起使用以确定音频信号的每一帧的内容的类型且选择合适的译码方案。
如本文中所描述的译码方案可用作主编解码器或用作多层或多级编解码器中的层或级。在一个此实例中,此译码方案用以对音频信号的频率内容的一部分(例如,低频带或高频带)译码,且另一译码方案用以对信号的频率内容的另一部分译码。在另一此实例中,此译码方案用以对为另一译码层的例如线性预测译码(LPC)分析操作的残余部分等残余部分(即,原始信号与经编码的信号之间的误差)的音频信号译码。
本文中所描述的方法、***及设备可经配置以将音频信号处理为一系列区段。典型的区段长度的范围是从约5或10毫秒到约40或50毫秒,且区段可为重叠的(例如,其中邻近区段重叠25%或50%)或不重叠的。在一个特定实例中,将音频信号划分成各自具有10毫秒长度的一系列不重叠区段或“帧”。在另一特定实例中,每一帧具有20毫秒的长度。音频信号的取样速率的实例包含(而不限于)8、12、16、32、44.1、48及192千赫。
音频电信应用可实施于包交换网络中。举例来说,音频电信应用可实施于基于因特网协议的语音(VoIP)网络中。包可包含经编码的音频信号的一或多个帧,且具有音频(例如,语音)信息的包可在网络上从第一装置发射到第二装置。然而,一些包可在包的发射期间丢失。举例来说,多个包的丢失(有时被称作突发包丢失)可为接收装置处的感知的话音质量的降级的原因。
为了减轻由VoIP网络中的包丢失引起的感知的话音质量的降级,存在两种类型的解决方案。第一解决方案是基于接收者的包丢失隐藏(PLC)方法。PLC方法可用以掩饰VoIP通信中的包丢失的效果。举例来说,PLC方法可经实施以创建替换包来代替在发射期间丢失的包。此PLC方法可试图创建与丢失的包尽可能类似的包。为了创建替换包,基于接收者的PLC方法可不需要来自发送者的任何额外资源或帮助。然而,在重要话音帧丢失时,PLC方法掩饰包丢失的效果可能不起作用。
第二解决方案是基于发送者的抗包丢失方法。此方法包含前向纠错(FEC)方法,其可包含用每一包发送某一额外数据。额外数据可用以恢复由发射期间的数据丢失引起的误差。举例来说,FEC方案可发射冗余音频帧。换句话说,由发送者发射音频帧的一个以上副本(通常是两个)。这些两个帧可被称作主副本及冗余副本。
尽管基于发送者的抗包丢失方案可改进解码的话音的感知质量,但这些方案还可增加话音的发射期间使用的带宽。传统FEC方案还可增加端对端延迟,这对于实时对话来说可能是不可忍受的。举例来说,常规基于发送者的方案在两个不同的时间周期发送相同话音帧两次。此方法可至少使数据速率增倍。一些常规方案可针对冗余副本使用低位速率编解码器以便减少数据速率。然而,使用低位速率编解码器可增加编码器处的复杂性。另外,一些常规方案可针对帧的主副本及帧的冗余副本两者使用相同低位速率编解码器。尽管此方法可减少编码器处的复杂性以及减少数据速率,但基线话音质量(即,在未丢失帧时的话音质量)可极大地降低。此外,常规基于发送者的方案在至少一个帧间隔的额外延迟的假设下操作。
如本文中所描述的***、方法及设备可经实施以提供源受控(及可能信道受控)FEC方案以便获得话音质量、延迟及数据速率之间的最优折衷。FEC方案可经配置以使得不引入额外延迟。可实现在中等数据速率下的话音质量的高质量改进。如本文中所描述的FEC方案也可以任何目标数据速率操作。在一个实例中,FEC方案及目标数据速率可基于发射信道的条件以及外部控制自适应地调整。提出的FEC方案还可以与旧式通信装置(例如,旧式手持机)相容的方式实施。
对于用于音频(例如,语音)通信的一些编解码器,编码每一帧的位的总数是预定常数。此些编解码器的实例包含自适应多速率(AMR)话音编解码器(例如,如3GPP技术规范(TS)26.071版本10.0.0中所描述,其在2011年4月5日可从欧洲电信标准协会(ETSI),www-dot-etsi-dot-org,索菲亚安提波利斯,FR得到)及AMR宽带话音编解码器(例如,如ITU-T推荐G.722.2,2003年7月国际电信联盟,www-dot-itu-dot-int及/或可从ETSI得到的3GPP技术规范26.190 v10.0.0(2011年3月)中所描述),其中位的数目是由针对帧所选择的译码模式确定的。在此些状况下,发射过去帧的冗余副本可需要可用于对当前帧中的信号信息译码的位的数目的对应减少。此减少可对经解码的话音的感知质量具有负面影响。
可需要实施灵活方法,其中仅针对关键帧发射冗余副本。“关键帧”是预期丢失对经解码的信号的感知质量具有显著影响的帧。此外,可需要仅在捎带目前帧上的冗余副本的影响预期为最小的情况下发射此冗余副本。对于固定位速率***,可需要确定待用于对当前帧译码的位的数目,以使得用于对当前帧译码的位的数目及用于对过去帧的冗余副本(例如,部分副本)译码的位的数目的总数满足目标固定位速率T。
图1A是说明经由网络NW10经由发射信道TC10通信的发射终端102及接收终端104的实例的框图。终端102及104中的每一者可经实施以执行如本文中所描述的方法及/或包含如本文中所描述的设备。发射及接收终端102、104可为能够支持语音通信的任何装置,包含电话(例如,智能手机)、计算机、音频广播及接收设备、视频会议设备或其类似者。发射及接收终端102、104可经实施(例如)具有无线多址技术,例如码分多址(CDMA)能力。CDMA是基于扩频通信的调制及多址方案。
发射终端102包含音频编码器AE10,且接收终端104包含音频解码器AD10。音频编码器AE10可用以通过根据人类话音产生的模型提取参数的值来压缩来自第一用户接口UI10(例如,麦克风及音频前端)的音频信息(例如,话音)。信道编码器CE10将参数值组装成包,且发射器TX10经由网络NW10(其可包含例如因特网或公司内部网等基于包的网络)经由发射信道TC10发射包含这些参数值的包。发射信道TC10可为有线及/或无线发射信道,且可被视为延伸到网络NW10的入口点(例如,基站控制器),延伸到网络NW10内的另一实体(例如,信道质量分析器)及/或延伸到接收终端104的接收器RX10,这取决于如何及在何处确定信道的质量。
接收终端104的接收器RX10用以经由发射信道从网络NW10接收包。信道解码器CD10对包解码以获得参数值,且音频解码器AD10使用来自包的参数值合成音频信息。将合成的音频(例如,话音)提供到接收终端104上的第二用户接口UI20(例如,音频输出级及扬声器)。尽管未图示,但各种信号处理功能可在信道编码器CE10及信道解码器CD10中执行(例如,包含循环冗余检查(CRC)功能的交错的卷积译码)且在发射器TX10及接收器RX10中执行(例如,数字调制及对应解调、扩频处理、模/数及数/模转换)。
图2展示包含经由无线电上行链路及下行链路发射信道与移动台通信的基站收发台BTS1到BTS3的网络NW10的实施方案NW20的实例。网络NW20还包含连接到公用交换电话网络PSTN及因特网INT的核心网络CNW1及也连接到因特网INT的核心网络CNW2。网络NW20还包含将收发台与核心网络介接的基站控制器BSC1到BSC3。网络NW20可经实施以提供终端装置之间的包交换通信。核心网络CNW1还可提供终端装置MS1与MS2之间经由基站收发台BTS1、BTS2及/或在此终端装置与PSTN上的终端装置之间的电路交换通信。
图2还展示可经由网络NW20(例如,经由包交换通信链路)彼此通信的不同终端装置的实例:移动台MS1到MS3;基于IP的语音(VoIP)电话VP;及计算机CP,其经配置以执行电信程序(例如,来自微软Skype部门,LU的Skype软件)。终端装置MS1到MS3、VP及CP中的任一者可经实施以包含发射终端102的例子及接收终端104的例子。移动装置MS1到MS3经由无线无线电上行链路及下行链路发射信道与网络通信。终端VP及CP经由有线发射信道(例如,以太网电缆)及/或无线发射信道(例如,IEEE 802.11或“WiFi”链路)。网络NW20还可包含中间实体,例如网关及/或TRAU(变码器及速率适配器单元)。
通信的每一方可发射以及接收,且每一终端可包含音频编码器AE10及解码器AD10的例子。音频编码器及解码器可为单独装置或集成到被称作“语音译码器”或“声码器”的单个装置。如图1A中所示,终端102、104被描述成在网络NW10的一个终端处具有音频编码器AE10且在另一终端处具有音频解码器AD10。
在发射终端102的至少一个配置中,音频信号(例如,话音)可按帧从第一用户接口UI10输入到音频编码器AE10,其中每一帧进一步分割成子帧。可使用此任意帧边界,其中执行某一块处理。然而,如果实施连续处理而不是块处理,那么此将音频样本分割成帧(及子帧)可省略。在所描述的实例中,取决于特定应用及总设计约束,横跨网络NW10发射的每一包可包含一或多个帧。
音频编码器AE10可为可变速率或单个固定速率编码器。可变速率编码器可逐帧地在多个编码器模式(例如,不同固定速率)之间动态地切换,这取决于音频内容(例如,取决于是否存在话音及/或存在何种类型的话音)。音频解码器AD10还可以对应方式逐帧地在对应解码器模式之间动态地切换。可针对每一帧选择特定模式以达成可用的最低位速率,同时维持接收终端104处的可接受的信号再生质量。
音频编码器AE10通常将输入信号处理为一系列时间上不重叠的区段或“帧”,其中针对每一帧计算新编码的帧。帧周期通常是信号可预期为局部平稳的周期;常见实例包含20毫秒(等效于在16kHz的取样速率处的320个样本、在12.8kHz的取样速率处的256个样本或在8kHz的取样速率处的160个样本)及10毫秒。还有可能实施音频编码器AE10以将输入信号处理为一系列重叠帧。
图1B展示包含帧编码器FE10的音频编码器AE10的实施方案AE20的框图。帧编码器FE10经配置以对输入信号的核心音频帧CF的序列中的每一者编码以产生经编码的音频帧EF的序列中的对应者。音频编码器AE10还可经实施以执行额外任务,例如将输入信号划分成帧及选择用于帧编码器FE10的译码模式。选择译码模式(例如,速率控制)可包含执行语音活动检测(VAD)及/或以其它方式分类帧的音频内容。在此实例中,音频编码器AE20还包含语音活动检测器VAD10,其经配置以处理核心音频帧CF以产生语音活动检测信号VS(例如,如ETSI处可得到的3GPP TS 26.104 v10.0.0(2011年3月)中所描述)。
帧编码器FE10通常根据源滤波器模型实施,所述源滤波器模型将输入音频信号的每一帧编码为(A)描述滤波器的参数集及(B)将用于解码器处以导出所描述的滤波器以产生音频帧的合成再生的激励信号。话音信号的频谱包络的特征通常是表示声道(例如,喉咙及嘴)的谐振且被称作共振峰的峰值。大多数话音译码器将至少此粗频谱结构编码为参数集,例如滤波器系数。剩余残余信号可模型化为驱动滤波器产生话音信号且特征通常是其强度及音调的源(例如,如由声带所产生)。
图3展示帧编码器FE10的基本实施方案FE20的框图,所述帧编码器包含预处理模块PP10、线性预测译码(LPC)分析模块LA10、开环音调搜索模块OL10、自适应码薄(ACB)搜索模块AS10、固定码薄(FCB)搜索模块FS10及增益向量量化(VQ)模块GV10。举例来说,可如3GPP TS 26.190 v10.0.0的章节5.1中所描述般实施预处理模块PP10。在一个此实例中,预处理模块PP10经实施以执行核心音频帧的向下取样(例如,从16kHz到12.8kHz)、向下取样的帧的高通滤波(例如,具有50Hz的截止频率)及经滤波的帧的预加重(例如,使用一阶高通滤波器)。
线性预测译码(LPC)分析模块LA10将每一核心音频帧的频谱包络编码为线性预测(LP)系数的集合(例如,全极滤波器的系数1/A(z))。在一个实例中,LPC分析模块LA10经配置以计算十六个LP滤波器系数的集合以表征每一20毫秒帧的共振峰结构。举例来说,可如3GPP TS 26.190 v10.0.0的章节5.2中所描述般实施分析模块LA10。
分析模块LA10可经配置以直接分析每一帧的样本,或首先可根据开窗函数(例如,汉明窗)加权样本。还可在大于帧的窗(例如,30-msec窗)内执行分析。此窗可为对称的(例如5-20-5,使得其包含紧接在20毫秒帧之前及之后的5毫秒)或非对称的(例如10-20,使得其包含前一帧的最后10毫秒)。LPC分析模块通常经配置以使用莱文逊-德宾递归或勒鲁-盖冈算法计算LP滤波器系数。尽管LPC编码良好地适合于话音,但其还可用以对通用音频信号(例如,包含非话音,例如音乐)编码。在另一实施方案中,分析模块可经配置以计算每一帧的倒频谱系数的集合而不是LP滤波器系数的集合。
线性预测滤波器系数通常难以有效地量化且通常映射成另一表示(例如线频谱对(LSP)或线频谱频率(LSF),或导抗频谱对(ISP)或导抗频谱频率(ISF))以用于量化及/或熵编码。在一个实例中,分析模块LA10将LP滤波器系数的集合变换成ISF的集合。LP滤波器系数的其它一对一表示包含部分相关系数及对数面积比。通常,LP滤波器系数的集合与LSF、LSP、ISF或ISP的对应集合之间的变换是可逆的,但实施例还包含变换在无错误的情况下不可逆的分析模块LA10的实施方案。
分析模块LA10经配置以量化ISF(或LSF或其它系数表示)的集合,且帧编码器FE20经配置以将此量化的结果输出为LPC索引XL。此量化器通常包含向量量化器,其将输入向量编码为到表或码薄中的对应向量入口的索引。
帧编码器FE20还包含可选开环音调搜索模块OL10,其可用以简化音调分析且减少自适应码薄搜索模块AS10中的闭环音调搜索的范围。模块OL10可经实施以经由基于未量化的LP滤波器系数的加权滤波器对输入信号滤波,以2为因子抽取加权信号,且每帧产生音调估计一次或两次(取决于当前速率)。举例来说,可如3GPP TS 26.190 v10.0.0的章节5.4中所描述般实施模块OL10。
自适应码薄(ACB)搜索模块AS10经配置以搜索自适应码薄(基于过去激励及还被称作“音调码薄”)以产生音调滤波器的延迟及增益。模块AS10可经实施以对目标信号(如例如通过经由加权合成滤波器基于量化及未量化的LP滤波器系数对LP残余部分滤波而获得)在子帧的基础上执行开环音调估计周围的闭环音调搜索,且接着通过在指示的分数音调滞后处内插过去激励并计算ACB增益计算自适应码向量。模块AS10还可经实施以使用LP残余部分扩展过去激励缓冲器以简化闭环音调搜索(对于小于64个样本的子帧大小的延迟尤其如此)。模块AS10可经实施以产生ACB增益(例如,对于每一子帧),及指示第一子帧的音调延迟(或第一及第三子帧的音调延迟,取决于当前速率)及其它子帧的相对音调延迟的量化的索引。举例来说,可如3GPP TS 26.190 v10.0.0的章节5.7中所描述般实施模块AS10。
固定码薄(FCB)搜索模块FS10经配置以产生指示固定码薄(也被称作“创新码薄”、“创新的码薄”、“随机码薄”或“代数码薄”)的向量的索引,所述固定码薄表示不由自适应码向量模型化的激励的部分。模块FS10可经实施以产生码薄索引作为含有再生FCB向量(例如,表示脉冲位置及符号)所需要的所有信息的码字,使得不需要码薄。举例来说,可如3GPPTS 26.190 v10.0.0的章节5.8中所描述般实施模块FS10。
增益向量量化模块GV10经配置以量化可包含每一子帧的增益的FCB及ACB增益。举例来说,可如3GPP TS 26.190 v10.0.0的章节5.9中所描述般实施模块GV10。
作为基于码薄的方法的替代,基于变换的方法可用以对LPC残余信号编码。举例来说,修改的离散余弦变换(MDCT)可用以将残余部分编码成包含MDCT系数的集合的参数,如在卡利俄佩超宽带编解码器(高通公司,圣地亚哥,CA)及AMR-WB+编解码器的TCX选项中。在另一实例中,基于变换的方法用以对音频信号编码而不执行LPC分析。
图5A展示包含任务T200及T300的根据一般配置的音频信号处理的方法M100的流程图。任务T200计算在音频信号中在音频信号的第一帧(例如,关键帧)之后的音频信号的第二帧(“后续帧”或“载波帧”)的决策量度的至少一个值。基于决策量度的至少一个计算的值,任务T300从多个重新分配候选当中选择一个候选,其中选定重新分配候选指示将后续帧的初始位分配T重新分配成第一部分及第二部分。在典型应用中,初始位分配T的第一部分接着用以载运后续帧的副本,且初始位分配的第二部分用以载运关键帧的冗余副本。
可需要减少载波帧也将是关键帧(即,对在其之后的另一帧是关键的)的可能性。通常,此可能性对于紧接在关键帧之后的帧来说是最高的,且接着对于后续帧来说快速地降低。对于浊音话音,典型的情况是通话突峰中的开始帧是关键的,且紧接在其之后的帧也是关键的(例如,涵盖开始帧丢失的状况)。然而,通话突峰中的另一帧也有可能是关键的(例如,对于音调滞后漂移的状况)。
帧偏移k可用以指示关键帧与载波帧之间的距离。在一个此实例中,帧偏移k的值是关键帧n与载波帧(n+k)之间的帧数的差(例如,比***帧的数目大一)。图6A展示k的值是三的典型实例。在另一实例中,k的值是四。其它可能值包含一、二、三、五及大于五的整数。
方法M100可经实施使得偏移k固定(例如,在***实施方案期间或在呼叫建立期间)。k的值可根据原始时域信号中的帧的长度(例如,以毫秒为单位)及最大容许延迟来选择。举例来说,k的值可由最大容许值约束(例如,限制帧延迟)。对于最大容许延迟来说可需要具有80或100毫秒的值。在此状况下,对于使用20毫秒帧的方案,k可具有4或5的最大值,或对于使用10毫秒帧的方案,k可具有8、9或10的最大值。
偏移k的值还可在呼叫期间根据信道条件来选择及/或更新(例如,如由来自接收器的反馈所指示)。举例来说,在造成连续帧的频繁丢失(例如,归因于长消退)的环境下可需要使用k的较高值。
接收终端104还可将信道状态信息120反馈到发射终端102。在一个此实例中,接收终端104经配置以从发射终端102收集关于载运包的发射信道的质量的信息。接收终端104可使用收集的信息来估计信道的质量。接着可将收集的信息及/或信道质量估计作为信道状态信息反馈到发射终端102。
图4是说明经由网络NW10经由发射信道TC10及RC10通信的发射终端102的实施方案112及接收终端104的实施方案114的实例的框图。在此实例中,接收终端114包含可将收集的信息及/或质量估计(例如,来自音频解码器AD10)组装成包以供经由发射器TX10的例子TX20及发射信道RC10发射回到发射终端112的信道编码器CE10的例子CE20,其中包是由接收器RX10的例子RX20接收的及由信道解码器CD10的例子CD20拆装的,且将信息及/或估计提供到音频编码器AE10。发射终端112(例如,音频编码器AE10)可使用此信道状态信息来调适与如本文中所描述的基于发送者的抗包丢失方案相关联的一或多个功能(例如,偏移及/或关键性阈值)。
偏移k指示帧的主副本的发射时间与帧的冗余副本的发射时间之间的间隔的长度。通常,包交换网络中的包丢失是突发的,且突发长度可在不同网络条件下不同。因此,使用动态调整的偏移可导致较佳误差防护性能。最优偏移可使用由接收器发送的信道状态信息来估计。举例来说,可基于信道条件自适应地调整偏移值(例如,在运行时间)。或者,偏移值可为预定的。
在一个实例中,任务T200计算基于来自帧的信息的开环决策量度D。图5B展示包含量度计算任务T200的此实施方案T210的方法M100的实施方案M200的流程图。任务T210可经实施以将开环量度D计算为例如后续帧的压缩性的测量。此测量可计算为后续帧的子帧彼此间的相关(例如,所有可能滞后值及所有对(或所有邻近对)子帧上的最大相关,或作为每一对(或每一邻近对)子帧的所有可能滞后值上的最大相关的平均值)。此测量可被视为帧的压缩性的静态测量。量度D的一个此实例是长度S的两个子帧vi与vj之间的滞后p处的相关的测量Rijp,其可使用表达式来计算,例如:
在一个此实例中,分别将20毫秒帧划分成长度53、53及54个样本的三个子帧。在另一此实例中,将20毫秒帧划分成4个5毫秒子帧。可选择量度D以使得例如D的高值指示可压缩帧,且D的低值指示抵抗压缩的帧。
任务T300基于所述决策量度的所述至少一个计算的值从多个重新分配候选当中选择一个候选。图5C展示用于方法M200的实施方案M210的流程图。方法M210包含任务T300的实施方案作为包含比较任务T310且经配置以依次通过阈值V1到VM的集合的环。任务T310比较D的值与阈值的集合中的当前阈值。在此非限制性实例中,排序阈值的集合以使得Vq≤Vq+1,其中所有整数q是从1到(M-1),且环经配置以在值VM处开始。在一个实例中,M的值是3,但其它可能值包含2、4、5及大于5的整数。
以重新分配索引m的值1开始,图5C中所示的环选择值m,其中D的值不小于(或者,大于)阈值Vm。在典型应用中,根据如由索引m的选定值指示的重新分配候选将后续帧的副本及关键帧的冗余副本编码成初始位分配T。
重新分配候选中的每一者指示至少后续帧与关键帧当中的初始位分配的分布。举例来说,每一分布Nm可指示将初始位分配T拆分成Nm位到关键帧的分配及(T-Nm)位到后续帧的分配。在其它状况下,分布有可能指示T位的总分配的部分的分配以还对另一帧及/或其它信息编码。
图6B展示如由阈值V1到VM定义的决策量度D的值的范围及这些范围中的每一者与第一(载波)部分与第二(冗余)部分当中的初始位分配T的多个分布中的不同者之间的对应。在此实例中,分布中的每一者由数目N1到NM定义,其可指示第二部分中的位的数目或待编码成第二部分的帧的位速率(此实例还包含如下文所论述的退却分布N0)。可选择量度D以使得例如D的高值指示可压缩帧,且D的低值指示抵抗压缩的帧。在此状况下,对于指示可压缩帧的D的值(即,D的高值),低速率(即,小冗余部分)可为足够的。对于指示抵抗压缩的帧的D的值(即,在此实例中,D的低值),可需要较高速率(即,较大冗余部分)。在方法M210的非限制性实例中,排序重新分配候选的集合以使得Np≤Np+1,其中所有整数p是从1到(M-1)。
明确要注意对于大多数关键帧来说,方法M210中的环可迭代少于M次。举例来说,可需要实施方法M200(例如,选择适当决策量度及阈值的集合)以使得对于大多数关键帧,对于方法来说将不一定要在识别令人满意的重新分配候选之前执行集合中的每一阈值。
如果任务T310对于集合中的所有阈值来说是失败的,那么方法M210可确定无法发射关键帧的冗余副本。或者,方法M210可经实施以包含如图6B中所示的退却状况。图6C展示具有包含选择任务T300的替代实施方案T320的环的方法M200的实施方案M220的流程图,所述方法经配置以重新分配索引m的值M开始。方法M220还可经实施以包含如图6B中所示的退却状况。
将理解图5C及6C中所说明的特定环结构及量度D的值的范围与初始位分配的重新分配之间的特定对应仅为实例,且可使用任何适当选择环及决策量度阈值V1到VM的有序集合的元素与冗余部分重新分配N1到NM的有序集合的对应元素之间的任何适当对应。还要注意,如上文所描述的决策量度D的开环实例仅为实例,且将决策量度与重新分配组合的揭示的原理可适用于任何决策量度(例如,开环或闭环),其测量减少载波帧的位速率以适应关键帧的冗余副本的感知质量影响。
可需要实施方法M100来基于来自在关键帧之后的一或多个帧的信息选择帧(n+k)(例如,选择偏移k的值)。在此状况下,可需要选择帧(n+k)以最小化在信道中关键帧未丢失的状况下的感知质量影响。举例来说,可需要选择最可压缩后续帧作为帧(n+k),其经受最大延迟约束K。图7A展示包含量度计算任务T200的实施方案T220的方法M100的实施方案M300的流程图。任务T220计算在音频信号中在关键帧之后的多个帧中的每一者的决策量度的至少一个值。方法M300还包含任务T300的实施方案T350,其从多个重新分配候选当中选择一个候选及从多个后续帧当中选择一个帧(例如,通过选择偏移k的对应值)。
图7B展示用于方法M300的实施方案M310的流程图。方法M310包含任务T220的实施方案作为包含计算任务T230的环。任务T230计算由偏移k的当前值指示的帧的如本文中所描述的决策量度D的值。方法M310还包含任务T350的实施方案作为包含比较任务T330且经配置以按相反次序依次通过阈值V1到VM的集合的环。在此非限制性实例中,排序阈值的集合以使得Vq≤Vq+1,其中所有整数q是从1到(M-1),包含任务T230的环经配置以在值k=1处开始,且包含任务T330的环经配置以在值VM处开始。如果任务T330对于集合中的所有阈值来说是失败的,那么方法M310可确定对于偏移k来说无法发射关键帧的冗余副本。如果任务T330对于集合中的所有阈值且对于所有值k来说是失败的,那么方法M310可确定无法发射关键帧的冗余副本。或者,方法M310可经实施以包含偏移k的默认值(例如,3或4)作为退却。
明确要注意对于大多数关键帧来说,任务T330可比较决策量度的值与少于K个帧中的每一者的阈值的集合中的M个值。举例来说,可需要实施方法M300(例如,选择适当决策量度及阈值的集合)以使得对于大多数关键帧,对于方法来说将不一定要在识别令人满意的帧及重新分配候选之前执行K个后续帧中的每一者。还有可能实施方法M300(例如,M310)以使得M等于1(例如,仅一个阈值),且K大于1(例如,多个可能的偏移)。
预期阈值及M个重新分配候选的相同集合将用于多个(K个)后续帧中的所有帧,但还有可能针对不同后续帧使用阈值及/或重新分配候选的不同集合(例如,根据话音模式及/或后续帧的其它特性),且在此状况下,对于重新分配候选的每一集合来说有可能具有不同相应数目个元素M。
在另一实例中,任务T200经实施以计算闭环决策量度的值的集合。在此实例中,每一计算的值是基于压缩性的动态测量,例如基于来自后续帧的相应经编码的版本的信息的测量。图8A展示包含量度计算任务T200的此实施方案T250的方法M100的实施方案M400的流程图。任务T250可经实施以基于例如感知质量的测量计算决策量度。对于每一重新分配候选,此量度可计算为载波帧的感知质量的相关联的改变(例如,降低)的测量。举例来说,此量度可计算为(A)如使用整个初始位分配T编码的载波帧的感知质量的测量与(B)如仅使用初始位分配的载波部分编码的载波帧的感知质量的测量之间的差(例如,绝对差)或比率。
图8B展示用于方法M400的实施方案M410的流程图。方法M410包含任务T250的实施方案作为具有计算子任务T260且经配置以依次通过重新分配索引1到M的集合的环。任务T260计算帧(n+k)的决策量度的值Dm及由当前索引值指示的重新分配候选。在此实例中,Dm=|Q(T)-Q(T-Nm)|,其中Q(x)是如使用x个位编码的帧(n+k)的感知质量的测量。测量Dm的此实例还可被视为帧(n+k)的分布Nm的质量成本,且还可使用其它此些质量成本(例如,相对于如使用T个位编码的帧(n+k)的质量)。
压缩性测量Q(x)可以是全参考量度、无参考量度或缩减参考量度。测量Q(x)的实例包含感知加权失真测量(例如,增强型经修改的巴克频谱距离或EMBSD;测量规格化块或MNB算法,如例如ITU-T推荐P.861中所描述);对原始及经解码的信号的话音辨识器的字错误率输出(例如,施加隐藏马尔科夫模型);及E模型的版本(例如,如ITU-T推荐G.107及G.108中所描述),其产生可映射到估计的平均意见得分(MOS)的R值。可用于Q(x)的量度的其它实例(例如,客观量度)包含信噪比(SNR)、感知加权SNR(例如,使用帧(n+k)的LP系数加权)、分段SNR、感知加权分段SNR、倒频谱距离及巴克频谱距离。可用于Q(x)的客观量度的其它实例包含感知话音质量测量(PSQM)(例如,如ITU-T推荐P.861中所描述)、如由此测量产生的噪声干扰估计器及如例如ITU-T推荐P.861及P.862中所描述的其它量度(例如,PSQM及PSQM+;话音质量的感知评估,PESQ)。在另一实例中,将决策量度Dm计算为SNR或感知加权SNR,其中信号数量是基于如从使用T个位编码的版本解码的帧(n+k)的能量,且噪声数量是基于信号数量与如从使用(T-Nm)个位编码的版本解码的帧(n+k)之间的差的能量。
方法M410还包含任务T300的实施方案作为具有比较子任务T340且经配置以依次通过决策量度值D1到DM的计算的集合的环。任务T340比较阈值Z与决策量度值的集合中的当前值。在此非限制性实例中,排序决策量度值的集合以使得Dp≤Dp+1,其中所有整数p是从1到(M-1)。在一个实例中,M的值是3,但其它可能值包含2、4、5及大于5的整数。
以重新分配索引m的值1开始,包含任务T340的环选择第一值m,其中Dm的值不大于(或者,小于)阈值Z。方法M400可经实施以通过根据重新分配候选Nm对帧(n+k)的副本及关键帧的冗余副本编码来应用此选择。如果任务T340对于集合中的所有阈值来说是失败的,那么方法M410可确定无法发射关键帧的冗余副本。或者,方法M410可经实施以包含退却状况(例如,默认重新分配)。
明确要注意,对于大多数关键帧来说,任务T340可比较决策量度的不到所有M个值与阈值Z。举例来说,可需要实施方法M400(例如,选择适当决策量度、阈值及重新分配候选的集合)以使得对于大多数关键帧,对于方法来说将不一定要在识别所述帧的令人满意的重新分配之前测试M个值中的每一者。
图9A展示方法M400的替代实施方案M420的流程图,其中单个环包含任务T260及T340两者。图9B展示用于方法M400的实施方案M430的流程图,所述方法具有经配置以重新分配索引m的值M开始的替代环结构。方法M420及M430还可经实施以包含退却状况(例如,默认重新分配)。将理解,图8B、9A及9B中所说明的特定环结构仅为实例,且任何适当选择环可用以实施方法M400。
以本文中参考方法M300所论述的类似方式,可需要实施方法M400基于来自在关键帧之后的一或多个帧的信息选择偏移k的值。在此状况下,可需要确定偏移k的适当值以最小化在信道中关键帧未丢失的状况下的感知质量影响。举例来说,可需要选择k的值以满足质量改变阈值Z,其经受最大延迟约束K。
图10A展示包含量度计算任务T250的实施方案T270的方法M400的此实施方案M500的流程图。任务T270计算在音频信号中在关键帧之后的多个帧中的每一者的决策量度的值的集合。方法M500还包含任务T350的例子,其从多个重新分配候选当中选择一个候选及从多个后续帧当中选择一个帧(例如,通过选择偏移k的对应值)。
图10B展示用于方法M500的实施方案M510的流程图。方法M510包含任务T270的实施方案作为包含计算任务T260的例子T280。此环计算由偏移k的当前值指示的帧的如本文中所描述的决策量度的值D1到DM的集合。此环还用如本文中所描述的比较任务T340的例子实施任务T350。在此非限制性实例中,环经配置以用值1初始化偏移索引k及重新分配索引m两者。
预期相同阈值Z及M个重新分配候选的相同集合将用于多个(K个)后续帧中的所有帧,但还有可能针对不同后续帧使用不同阈值Z及/或重新分配候选的不同集合(例如,根据话音模式及/或后续帧的其它特性),且在此状况下,对于重新分配候选的每一集合来说有可能具有不同相应数目个元素M。
明确要注意对于大多数关键帧来说,任务T340可比较决策量度的每一值Dm与少于K个后续帧中的每一者的阈值Z。举例来说,可需要实施方法M500(例如,选择适当决策量度、阈值及重新分配候选的集合)以使得对于大多数关键帧,对于方法来说将不一定要在识别后续帧及所述帧的令人满意的重新分配之前执行K个后续帧中的每一者。
方法M510可经实施以使得如果任务T340对于帧(n+k)的所有重新分配候选来说是失败的,那么使用T个位对帧编码。如果任务T340对于所有候选帧上的所有重新分配候选来说是失败的,那么方法M510可确定无法发射关键帧的冗余副本。或者,方法M510可经实施以包含偏移k的默认值(例如,3或4)及重新分配索引m作为退却。图11A、11B及12分别展示具有替代环结构的方法M500的类似实施方案M520、M530及M540的流程图。在另一非限制性替代例中,方法M510的环结构经重新配置以使得内环迭代k(例如,帧)的值,且外环迭代m(例如,重新分配候选)的值。
可响应于帧n是关键帧的确定而执行方法M100。举例来说,可需要针对经识别为关键(即,对包丢失条件下的经解码的信号的质量来说是重要的)的音频信号的每一帧执行方法M100的例子。图13A展示包含识别关键帧的任务T100的方法M100的实施方案M110的流程图。
任务T100可经实施以通过计算帧的关键性测量的值及比较计算的值与阈值来指示信号的帧是关键的。此关键性测量可基于帧内的信息,且还可基于来自邻近于及/或在输入信号中的帧之后的一或多个帧的信息。任务T100可经实施以在计算的值超过(或者,不小于)阈值时指示帧是关键的,所述阈值可基于针对帧选择的译码模式。任务T100可经实施以执行音频信号的每一帧或仅某些帧(例如,经识别为浊音或瞬态或开始的帧;最初经指派至少最小位速率的帧;等)。
任务T100可经实施以基于范围是从帧的一般特征到特定丢失影响评估的一或多个准则来计算关键性测量。此测量可基于帧内的信息,且还可基于来自邻近于及/或在输入信号中的帧之后的一或多个帧的信息。
关键帧可为在丢失时可导致显著质量降级的帧。不同关键帧可具有不同程度的关键度。举例来说,对于两个关键帧n1及n2,如果帧(n1+1)(即,在帧n1旁边的帧)非常可能从帧n1预测,且帧(n2+1)(即,在帧n2旁边的帧)并不完全取决于帧n2,那么帧n1可比帧n2更关键,因为丢失帧n1可导致一个以上帧的质量降级。
任务T100可经实施以基于帧n的译码类型的指示(即,用以对帧编码的译码过程)及可能邻近于及/或在帧n之后的一或多个帧中的每一者的译码类型的指示计算关键性测量。此译码类型的实例可包含对激励线性预测(CELP)、噪声激励线性预测(NELP)、原型波形内插(PWI)或原型音调周期(PPP)等译码。在此准则下,例如关键CELP帧可被视为比关键NELP帧更关键。
另外或替代性地,任务T100可经实施以基于帧n的话音模式(即,帧的话音内容的分类)及可能邻近于及/或在帧n之后的一或多个帧中的每一者的话音模式计算关键性测量。话音模式的实例可包含浊音、非浊音、寂静及瞬态。“浊音”的分类可进一步划分成开始及平稳。瞬态的分类可进一步划分成接通瞬态及关断瞬态。在此准则下,例如,语音开始帧(通话突峰中的初始帧)可比平稳浊音帧更关键,因为通话突峰中的后续帧的编码可严重依赖于开始帧中的信息。在一个实例中,任务T100经实施以响应于帧n是话音开始帧且后续帧(例如,帧(n+1)、(n+2)或(n+3))是平稳浊音帧的指示计算关键性测量以指示高度的依赖性。
另外或替代性地,任务T100可经配置以基于帧n(及可能邻近于及/或在帧n之后的一或多个帧中的每一者)的一或多个其它性质计算关键性测量。举例来说,如果帧n的一些重要参数的值与前一帧的对应值显著不同(例如,大于某一预定阈值),那么帧n可为关键帧,因为其可不容易从在其前面的帧预测,且帧n的丢失可不利地影响到相比前一帧更类似于帧n的后续帧。
此性质的一个实例是自适应码薄(ACB)增益。帧n的低ACB增益值可指示帧与在其前面的帧显著不同,而在帧n之后的帧(例如,帧(n+1)、(n+2)或(n+3))的高ACB增益值可指示帧非常取决于帧n。在一个实例中,任务T100使用来自帧n的信息(例如,激励信号)产生用于后续帧的自适应码向量,且计算后续帧的经编码的版本的ACB增益值。在此实例中,任务T100经实施以基于至少计算的ACB增益值计算关键性测量。
此性质的另一实例是感知加权SNR(信噪比),其在此状况下可表达为:
其中L是以样本为单位的帧长度,c是通过用感知加权滤波器W(z)对帧n的经解码的版本滤波而获得的感知加权信号,且e是感知加权误差。举例来说,误差e可计算为(A)帧n的经W(z)滤波的经解码的版本与(B)帧n的经W(z)滤波的误差隐藏版本(即,假设帧在解码器处不可用)之间的差。可根据帧误差隐藏算法基于来自先前帧的信息计算误差隐藏版本。举例来说,可根据3GPP TS 26.091,v.10.0.0(2011年4月,可从ETSI得到的“丢失帧的误差隐藏(Error concealment of lost frames)”)中所描述的程序来计算误差隐藏版本。在一个实例中,W(z)=A(z/γ)H(z),其中
a1到ap是帧n的LPC滤波器系数,γ=0.92且H(z)=1/(1-0.68z-1)。在替代实例中,通过将滤波器W(z)应用于经解码的版本与误差隐藏版本之间的差来计算误差e。
另外或替代性地,任务T100可经配置以将关键性测量计算为帧n的丢失对一或多个后续帧的译码质量的影响的估计。举例来说,关键性测量可基于来自在帧n之后的一或多个帧中的每一者的经编码的版本的信息(例如,帧n及/或后续帧中的一或多者的自适应码薄增益)。另外或替代性地,此测量可基于在帧n之后的一或多个帧中的每一者的经解码的版本的信息(例如,经解码的版本的感知加权SNR),其中在不使用帧n的信息的情况下对后续帧编码。
关于帧n的帧(n+q)的此测量的一个实例可表达为:
其中L是以样本为单位的帧长度,c是通过用感知加权滤波器W(z)对帧(n+q)的经解码的版本滤波而获得的感知加权信号,且e是感知加权误差。举例来说,误差e在此状况下可计算为(A)在无帧n丢失的情况下的帧(n+q)的经W(z)滤波的经解码的版本与(B)假设为帧n的误差隐藏版本的帧(n+q)的经W(z)滤波的经解码的版本之间的差。如上文所描述,滤波器W(z)可使用帧(n+q)的LPC滤波器系数来计算。在替代实例中,通过将滤波器W(z)应用于帧(n+q)的正常解码的版本与解码假设丢失的版本之间的差来计算误差e。
任务T100可经实施以仅将活动话音帧指示为关键帧。或者,任务T100可经实施以将非话音帧视为潜在的关键帧。通常,在双向对话中,每一方会说一段时间,其中通信***发射所述方的话音(例如,不到一半时间),且在其它时间暂停,其中通信***发射寂静或背景噪声。在寂静(或背景噪声)周期期间不频繁的发射或不连续的发射(DTX)对所述对话的感知质量具有极小的影响,但提供减少小区内/小区间干扰(因此潜在地增加***容量)及节约用于对话的移动单元的电池电力的益处。
通过使用语音活动检测(VAD)的话音编码器来实现典型DTX方案。使用VAD,编码器可区别活动话音与背景噪声。在一个此实例中,音频编码器AE10(例如,AE20)经实施以用供发射的目标位速率包对每一活动话音区段(通常长20毫秒)编码,且用大小相对较小的包表示关键背景噪声区段(还是长20毫秒)。此小包可为指示寂静的寂静描述符(SID)。关键背景噪声区段可为紧接在通话突峰之后的背景噪声区段,或特性显著不同于其先前噪声区段的背景噪声区段。其它类型的背景噪声区段(或非关键背景噪声区段)可用零位来表示,或是空白的或不发射或被抑制不让发射。在输出包的此模式(即,活动区段,接着是关键背景噪声区段,接着是非关键背景噪声区段)完全取决于话音编码器或源的输入时,此DTX方案被称作源受控DTX方案。
可需要执行终端A(例如,发射用户设备或UE,例如终端102)与终端B(例如,接收UE,例如终端104)之间经由一或多个包交换网络的实时语音通信。例如AMR及AMR-WB等先前解决方案通过减少位速率而适用于坏信道条件(也被称作“速率调适”)。对于用于VoIP(基于因特网协议的语音)中的下一代编解码器,位速率的减少可并不帮助显著减少网络中的阻塞(例如,归因于RTP开销,其中RTP是如例如RFC 3550标准64(2003年7月),因特网工程任务组(IETF)中所描述的实时传送协议)。如本文中所揭示的方法可将较大强健性给予声码器及/或解决归因于信道损伤的编解码器性能问题。
从发射终端A到接收终端B的通信信道的质量可由网络中的实体(例如,由上行链路无线电信道的网络端处的基站收发台,由核心网络中的流通量分析器等)及/或由接收终端B(例如,通过分析包丢失率)来估计。可需要使用带内消息传递经由控制信号(例如,使用如例如RFC 1889(1996年1月,IETF)中所描述的RTP控制协议(RTCP)来控制包)及/或经由另一服务质量(QoS)反馈机构将此信息传递回到发射UE。发射终端A可经实施以通过切换到最优以达成受损信道下的良好性能的操作模式(即,“信道感知”模式)来应用此信息。而且,如果可预期坏信道条件(例如,非管理型网络),那么发射UE可经配置以在呼叫建立时间选择操作的信道感知模式。
声码器可经实施以响应于坏信道条件的指示(即,包误差、高抖动等)切换到“信道损伤强健模式”。在“信道损伤强健模式”中,话音编解码器可选择部分或完全重新发射输入信号的某些关键帧。举例来说,在“信道损伤强健模式”中操作的话音译码器可经配置以在帧的关键性超过某一预定阈值的情况下发射帧的冗余副本。特定帧的关键性可依据所述帧的丢失对如编码器处估计的经解码的话音的感知影响来确定。信道感知编解码器可经配置以响应于信道状态的指示在信道损伤强健模式与正常操作模式(即,其中不发送冗余副本)之间切换。
如本文中所揭示的***、方法及设备可经实施以依据信道质量估计设定关键性阈值。对于极好的信道,关键性阈值可设定为极高。随着信道质量降级,关键性阈值可降低以使得更多的帧被视为关键的。
图13B展示用于包含任务T50的方法M110的实施方案M120的流程图。任务T50计算关键性阈值。任务T50可经实施以基于关于发射信道的状态的信息计算关键性阈值。此信息可包含以下测量中的一或多者,所述测量可针对一系列时间间隔中的每一者而更新:包丢失率、包丢失分数、预期的包的数目、每秒的丢失率、接收的包计数、丢失估计有效性(例如,基于例如所述间隔内所预期的包的数目等样本大小的测量的权重测量)、显而易见的吞吐量及抖动。
任务T50还可经配置以基于关于发射信道的状态的信息计算一个以上阈值。在此状况下,决策任务T100可经配置以使用来自帧(及/或一或多个邻近帧)的信息来选择适当计算的阈值。举例来说,可需要使用一个关键性阈值来确定经确定含有话音的帧的关键性,且使用另一关键性阈值来确定经确定含有噪声的帧的关键性。在另一实例中,不同阈值用于跳变(例如,开始)及平稳话音帧及/或用于浊音话音及非浊音话音帧。对于使用一个以上关键性阈值的状况,任务T100可经配置以从两个或两个以上关键性测量当中选择对应于待用于帧n的阈值的关键性测量。
任务T50用以计算阈值的信息可包含以下测量中的一或多者,所述测量可针对一系列时间间隔中的每一者而更新:包丢失率、包丢失分数、预期的包的数目、每秒的丢失率、接收的包计数、丢失估计有效性(例如,基于例如所述间隔内所预期的包的数目等样本大小的测量的权重测量)、显而易见的吞吐量及抖动。如上文所注明,接收器可经配置以使用带内消息传递经由控制信号(RTCP消息传递是一个此控制发信方法的实例)及/或经由另一服务质量(QoS)反馈机构将此信息传递回到发射UE。可经由RTCP(如例如IETF规范RFC 3550中所定义的实时传送控制协议)消息传递提供的信息的实例包含发射的八位字节计数、发射的包计数、预期的包计数、丢失的包的数目及/或分数、抖动(例如,延迟的变化)及往返延迟。图13C展示包含接收信道状态信息(例如,如上文所描述)的任务T25的方法M120的实施方案M130的流程图。
图14A及14B展示信道状态信息、基于所述信息的关键性阈值与帧将被指示为关键的所得可能性之间的关系的实例。在图14B的实例中,信道的报告的质量低于图14A中的信道的报告的质量。结果,图14B中的关键性阈值的选择性低于图14A中的关键性阈值,且帧将被指示为关键的所得可能性较高。如果信道的报告的质量变得太低,那么帧将被指示为关键的所得可能性可变得太高。
可需要限制可被指示为关键的帧的数目或比例。举例来说,可需要平衡改进坏信道条件下的性能与保持原本话音译码质量及/或制止归因于可归因于过度包含关键性确定而触发的重新发射的容量损失。
限制重新发射频率的一个方法是实施方法M120以使得阈值经受低上限值(即,低边界值或底限值),其设定可重新发射多少帧的界限。举例来说,方法M120可经实施以对计算的阈值强加最小值。图15A展示用于包含任务T75的方法M120的此实施方案M140的流程图。任务T75比较由任务T50产生的计算的候选阈值与边界值(例如,低上限值)。基于比较的结果,任务T75从(A)计算的候选阈值及(B)边界值当中选择一个,使得任务T75产生选定值作为计算的阈值。举例来说,任务T75可经实施以选择计算的候选值(在其大于(或者,不小于)边界值的情况下),否则就选择边界值。以此方式,任务T75可经配置以使计算的阈值裁剪到上限值。任务T75还可经配置使得在比较失败(例如,当出现裁剪时)时,任务T75向另一模块指示此条件(例如,用于记录条件,向基站报告条件,及/或执行另一补救动作)。
当然,还有可能替代地实施任务T100,使得关键性测量的计算的值与关键性成反比。在此状况下,任务T100可经配置以在关键性测量低于(或未能超过)计算的阈值时指示帧是关键的,且任务T75可经配置以比较(及可能裁剪)计算的阈值与高上限值(即,高边界值或顶值)。图15B展示用于包含任务T25及T75的方法M130及M140的实施方案M150的流程图。明确要注意任务T100,可能还有如本文中所描述的任务T25、T50及T75中的一或多者(例如,T50+T100、T50+T75+T100、T25+T50+T100及T25+T50+T75+T100中的任一者)可包含于本文中描述的方法M100的其它实施方案中的任一者中(例如,如在任务T200之前执行的任务)。
图16A展示用于包含任务T400的方法M100的实施方案M600的流程图。任务T400根据任务T300中选择的重新分配候选产生关键帧的冗余副本。冗余副本通常具有少于经编码的信号中的关键帧的主副本(即,如正常编码的关键帧的副本)的位,且可由解码器使用以执行前向纠错(FEC)操作以校正由主副本的部分或全部丢失导致的误差。任务T400可经实施以在选择任务T300之前或响应于由任务T300选择重新分配候选产生冗余副本(例如,作为到任务T200的实施方案中的决策量度计算的输入参数,如任务T250)。
如上文所注明,选定重新分配候选可将对冗余副本的重新分配指示为位的数目或位速率。图16B展示用于包含任务T400的实施方案T410的方法M600的实施方案M610的流程图。任务T410产生具有如由选定重新分配候选指示的AR个位(例如,Nm个位)的长度的关键帧的冗余副本。图16C展示用于包含任务T400的实施方案T420的方法M600的实施方案M620的流程图。任务T420产生以速率rR编码的关键帧的冗余副本,如由选定重新分配候选指示。
通常,对于冗余副本来说需要提供可用于对后续帧解码的良好参考(例如,良好自适应码薄)。关键帧的冗余副本可包含关键帧的主副本的所有参数中的一些。任务T400可经实施以产生冗余副本作为主副本的缩减版本。举例来说,主副本可为包含例如频率包络信息(例如,LPC或MDCT系数)及/或时间包络信息(例如,CELP编解码器的固定码薄索引、固定码薄增益、自适应码薄增益、音调滞后及/或音调增益;PWI或PPP编解码器的原型参数及/或音调信息)等分量的关键帧的经编码的版本。任务T400可经实施以产生冗余副本以包含一或多个此些分量中的每一者的部分或全部的副本。举例来说,任务T400可经实施以产生冗余副本以包含识别经量化的LPC滤波器参数及/或经量化的时间包络(例如,激励信号)参数的一或多个码薄索引。
在此些状况下,任务T400可经实施以使用(例如,复制及/或精简)已经计算的关键帧的主副本的分量组装冗余副本。任务T400可经实施以使得满足位约束的方式(例如,如任务T410)或遵照与速率约束相关联的结构(例如,如任务T420)产生冗余副本。此结构可包含例如上文所提及的参数(即,LPC滤波器信息、音调延迟、固定/自适应码薄索引/增益等)等多个参数中的每一者的帧或帧的一或多个子帧中的每一者的特定数目个位。
另外或替代性地,任务T400可经实施以通过使用不同于用以产生关键帧的主副本的方法的译码方法对关键帧编码来产生冗余副本的部分或全部。在此状况下,此不同译码方法通常将具有低于用以产生关键帧的主副本的方法的速率(例如,使用低层次LPC分析,使用窄带编解码器而不是宽带编解码器等)。此不同译码方法可为不同位速率及/或不同译码方案(例如,用于主副本的CELP及用于冗余副本的PPP或PWI)。图17A展示用于包含任务T400的实施方案T430的方法M600的实施方案M630的流程图。任务T430致使编码器产生关键帧的冗余副本。在一个实例中,任务T430经实施以将关键帧及指示的分配Nm(例如,作为位的数目或作为位速率)提供给编码器。
图17B展示用于包含任务T400的实施方案T440的方法M600的实施方案M640的流程图。任务T440产生帧(n+k)的副本及关键帧n的冗余副本。任务T400可包含根据选定重新分配候选将后续帧的初始位分配T重新分配成第一部分及第二部分,及产生帧(n+k)的副本及冗余副本以适应相应的部分(例如,分别为(T-Nm)及Nm个位)。
图17C展示用于包含任务T400的实施方案T450的方法M600的实施方案M650的流程图。任务T450将帧(n+k)的副本编码成第一部分且将关键帧n的冗余副本编码成第二部分。
在一个实例中,初始位分配T的值是253,其对应于例如12.65kbps(每秒千比特)的位速率及20毫秒的帧长度。在另一实例中,T的值是192,其对应于例如9.6kbps的位速率及20毫秒的帧长度。
从T个位的分配的分布的集合当中选择一者可实施为选定后续帧的位速率的改变,及选择低位速率方案对关键帧的冗余副本编码。举例来说,将T个位的分配分布为大小为Nm个位的部分以载运关键帧的冗余副本及大小为(T-Nm)个位的部分以载运后续帧的副本(其中T=253及Nm=61)可通过使后续帧的位速率改变开始位速率12.65kbps改变为减少的位速率9.6kbps,根据现有9.6-kbps方案对后续帧编码及使用3.05-kbps方案对关键帧的冗余副本编码来实施(例如,在AMR编解码器内)。
可需要实施用于冗余编码若干此些低位速率方案,每一方案对应于分布的集合当中的不同者。其它开始位速率的实例包含8.85、8.55、6.6、6.2、4、2.7及2kbps,其分别对应于(例如,在20毫秒的帧长度内)177、171、132、124、80、54及40的T的值。其它开始位速率的其它实例包含23.85、23.05、19.85、18.25、15.85、14.25及12.65kbps,其分别对应于(例如,在20毫秒的帧长度内)477、461、397、365、317、285及253的T的值。可根据如例如本文中所参考的AMR-WB编解码器的版本10中所描述的此速率对帧编码(例如,使用CELP译码模型)。
本文中所描述的原理可适用于其中每一帧接收相同初始位分配T的单个固定位速率方案。这些原理还可适用于可变位速率方案(例如,多模式或多个固定位速率方案),其中T个位的总帧分配可从一个帧改变到另一帧。举例来说,可用于对帧(n+k)编码的位T的数目可根据帧是否含有话音或噪声或根据帧是否含有浊音话音或非浊音话音等而变化。
方法M300及M500可经实施以包含使用T个位对多个后续帧(例如,非载波帧)中的至少一者编码。此些方法甚至可包含使用T个位对多个后续帧中的非载波帧中的每一者编码。然而,对于音频信号来说还有可能包含两个邻近关键帧,或以其它方式彼此靠近的两个关键帧,使得关于一个关键帧的K个后续帧的集合与关于另一关键帧的K个后续帧的集合重叠(即,与其具有至少一个共同帧)。在此状况下,可选择共同后续帧中的每一者载运一个关键帧的冗余副本,且可选择共同后续帧中的另一者载运另一关键帧的冗余副本,使得使用不到T个位对这些两个后续帧中的每一者编码。还有可能选定后续帧自身可为关键帧。在一些状况下,例如可预期关于关键帧的K个后续帧的集合可包含约百分之二十时间的至少另一关键帧。
任务T400可经实施以在选择任务T300之前或响应于由任务T300选择重新分配候选产生帧(n+k)的副本(例如,作为到任务T250中的决策量度计算的输入参数)。图18A展示用于包含任务TA10及TB10的方法M610的实施方案M660的流程图。任务TA10接收初始位分配T作为分派给帧(n+k)的位的数目A0的指示。任务TB10将帧(n+k)的副本编码成A1个位(例如,(T-Nm)个位),其中A1小于A0。方法M660还包含经布置以从在任务TB10中编码为输入参数的帧(n+k)的副本接收信息的任务T250的例子。举例来说,任务T250可经实施以使用帧(n+k)的副本计算如本文中所描述的质量改变决策量度的一或多个值。
图18B展示用于包含任务TA20及TB20的方法M620的实施方案M670的流程图。任务TA20接收初始位分配T作为帧(n+k)的速率选择r0的指示。任务TB20根据低于r0的速率r1对帧(n+k)的副本编码。方法M670还包含经布置以从在任务TB20中编码为输入参数的帧(n+k)的副本接收信息的任务T250的例子。举例来说,任务T250可经实施以使用帧(n+k)的副本计算如本文中所描述的质量改变决策量度的一或多个值。
图18C展示用于包含任务T500的方法M600的实施方案M700的流程图。任务T500产生含有如由任务T400产生的后续帧(n+k)的副本及关键帧n的冗余副本的包。图19A展示用于方法M610及M700的实施方案M710的流程图。图19B展示用于方法M620及M700的实施方案M720的流程图。对于包来说可需要包含指示其载运关键帧的冗余副本,指示偏移k的值及/或指示重新分配的位Nm的数目的信息。或者,此信息可由解码器从经编码的信号中的其它信息导出。
包可包含一或多个帧。可需要将包长度限于20毫秒(例如,减少滞后)。图20A展示使用包含因特网协议版本4(IPv4)、用户数据报协议(UDP)及RTP的用于VoIP通信的典型协议堆栈编码的包的开销的实例。图20B展示IP版本6(IPv6)包的类似实例。有效负载大小的实例包含用于G.711编解码器的160个字节、用于G.729编解码器的20个字节及用于G.723.1编解码器的24个字节。如本文中所描述,可供用于冗余编码的位重新分配的方法使用的其它编解码器包含,但不限于,G.726、G.728、G.729A、AMR、AMR-WB、AMR-WB+(例如,如2011年3月的3GPP TS 26.290 v10.0.0中所描述)、VMR-WB(3GPP2C.S0052-0,服务选项62及63)、增强型可变速率编解码器(EVRC,如2007年2月的标题为“用于宽带扩频数字***的增强型可变速率编解码器,话音服务选项3、68及70(Enhanced Variable Rate Codec,SpeechService Options 3,68,and 70for Wideband Spread Spectrum Digital Systems)”的第三代合作伙伴计划2(3GPP2)文件C.S0014-C,v1.0(可在www-dot-3gpp-dot-org在线得到)中所描述)、可选择模式声码器话音编解码器(如2004年1月的标题为“用于宽带扩频通信***的可选择模式声码器(SMV)服务选项(Selectable Mode Vocoder(SMV)Service Optionfor Wideband Spread Spectrum Communication Systems)”3GPP2文件C.S0030-0,v3.0(可在www-dot-3gpp-dot-org在线得到)中所描述),及增强型语音服务编解码器(EVS,例如,如可从ETSI得到的3GPP TR 22.813 v10.0.0(2010年3月)中所描述)。
图21展示载运关键帧的冗余副本及在关键帧之后的帧的副本的RTP包的有效负载的实例。在AMR-WB 8.85kbps模式处对冗余副本(位r(0)到r(176))编码,如对应帧类型指示符FT中的一者的值所指示,且在AMR-WB 6.6kbps模式处对后续帧的副本(位p(0)到p(131))编码,如由对应帧类型指示符FT的值零指示。在此实例中,编解码器模式请求指示符CMR请求接收终端处的编码器采用8.85kbps模式,且有效负载以三个填充位P结束以填满最后八位字节。在其它实例中,有效负载可含有两个以上经编码的帧,及/或冗余副本的位可在包中的后续帧的副本的位之前(其中副本的对应目录表项的次序相应地交换)。
可需要使用标头压缩:例如,将RTP标头从12个字节向下压缩到4个字节。RTP标头包含可用以计算发射时间的时间戳及可用以正确地呈现不按次序接收的包及/或检测包丢失的序列号。强健标头压缩(ROHC;如IETF RFC 3095、RFC 3843及/或RFC 4815中所描述)可用以支持更大压缩速率(例如,将一或多个及可能所有包标头向下压缩到一到四个字节)。
图22是音频解码器AD10的实施方案AD20的框图。音频解码器AD20可实施为声码器的部分,单独实体或横跨接收终端104内的一或多个实体分布。音频解码器AD20还可实施为VoIP客户端的部分。
音频解码器AD20在下文将关于其功能性进行描述。音频解码器AD20可实施为硬件、固件、软件或其任何组合,且其实施的方式可取决于特定应用及强加于整个***上的设计约束。通过实例,音频解码器AD20可经实施具有微处理器、数字信号处理器(DSP)、可编程逻辑、专用硬件或任何其它基于硬件及/或软件的处理实体。
在此实例中,音频解码器AD20包含去抖动缓冲器DB10(也被称作“抖动缓冲器”)。去抖动缓冲器DB10可为减少或消除由包到达时间的变化(归因于例如网络阻塞、时序漂移及/或路由改变)引起的抖动的硬件装置或软件过程。去抖动缓冲器DB10可按包接收音频帧。去抖动缓冲器DB10可经实施以延迟新到达的包以使得先前到达的包的帧可按正确次序(例如,如由包的时间戳所指示)连续地提供到帧解码器FD20,导致没有音频失真的干净连接。去抖动缓冲器DB10可为固定或自适应的。固定去抖动缓冲器可将固定延迟引入到包。另一方面,自适应去抖动缓冲器可适合于网络延迟的改变。去抖动缓冲器DB10可按适当次序将经编码的音频帧(例如,包含索引XL、XF、XG及XP)提供到帧解码器FD20。
如果不由去抖动缓冲器接收帧的副本,那么可在不使用FEC的情况下导致帧丢失。当使用FEC且当前待播放的帧的副本丢失时,去抖动缓冲器DB10可确定缓冲器中是否存在帧的冗余副本。如果当前帧的冗余副本可用,那么可将冗余副本提供到帧解码器FD20以用于解码,从而产生音频样本。
另外,可修改去抖动缓冲器DB10以不同地处理主帧(即,原始关键帧)及冗余帧(即,原始关键帧的一些或全部的副本)。缓冲器DB10可不同地处理这些两个帧以使得与实施如本文中所描述的FEC操作相关联的平均延迟不大于未实施FEC操作时的平均延迟。举例来说,缓冲器DB10可经实施以检测传入的包含有冗余副本(例如,包含有两个帧)且响应于此检测起始冗余副本的解码。
可将从去抖动缓冲器DB10释放的音频帧提供到帧解码器FD20以产生经解码的核心音频帧DF(例如,合成的话音)。一般来说,帧解码器FD20可经实施以执行此项技术中已知的将话音解码成合成的话音的任何方法。在图22的实例中,帧解码器FD20使用对应于上文参看图3所描述的编码方法的CELP解码方法。在此实例中,固定码向量产生器VG10对FCB索引XF及增益索引XG的对应部分解码以产生每一子帧的固定码向量,反量化器IA10及向量产生器A50对ACB索引XP及增益索引XG的对应部分解码以产生每一子帧的自适应码向量,且加法器AD10组合对应码向量以产生激励信号且更新存储器ME10(例如,如3GPP TS 26.190v10.0.0的章节6.1的步骤1-8中所描述)。反量化器IL10及反变换模块IM10对LPC索引XL解码以产生LP滤波器系数向量,由合成滤波器SF10将所述LP滤波器系数向量应用于激励以产生合成的信号(例如,如3GPP TS 26.190 v10.0.0的章节6.1的初始段落及步骤4中所描述)。将原始合成的信号提供到后滤波器PF10,其可经实施以执行例如高通滤波、升频及内插(例如,如3GPP TS 26.190 v10.0.0的章节6.2中所描述)等操作以产生经解码的核心音频帧DF。或者且没有限制,帧解码器FD20可使用NELP或PPP全帧解码方法。
可将包含主副本的参数值中的一些(即,部分集合)的帧的冗余副本从去抖动缓冲器DB10传递到部分帧解码模块。举例来说,帧解码器FD20可经实施以在冗余副本可用之前产生对应于关键帧的帧(例如,根据如上文所参考的3GPP TS 26.091,v.10.0.0中所描述的误差隐藏程序)。在此状况下,帧解码器FD20可包含经配置以在对载波帧(n+k)解码之前更新存储器ME10(例如,根据来自冗余副本的固定及自适应码薄索引及增益)。
在一个配置中,将后续帧(n+k)的副本及关键帧n的冗余副本分组成RTP包且发射到接收终端104。在另一配置中,尽管可同时产生后续帧的副本及关键帧的冗余副本,但将其打包成不同对应RTP包,且发射到接收终端。使用哪一格式的决策可基于两个终端的能力。如果例如在每一终端中支持两个格式,那么可使用支持较低数据速率的格式。
在接收器侧处,话音帧可存储于可以是自适应的去抖动缓冲器DB10中。如先前所提及,可设计去抖动缓冲器DB10以使得话音帧的平均延迟不大于无FEC技术的情况下的平均延迟。可按适当次序将帧从去抖动缓冲器DB10发送到帧解码器(例如,解码器FD20)。如果冗余副本是主副本的参数的部分集合,那么可使用部分帧解码模块。
如本文中所描述的源受控(及可能信道受控)FEC方案可减少包丢失的数目及丢失的突发性而只有极少或没有数据速率的增加。关键帧识别可帮助确保话音感知质量与数据速率之间的良好折衷。此FEC方案可经实施以有效地使用可用带宽且与旧式通信装置向后相容。
音频解码器AE10可经实施以包含动态速率控制模块。此模块可实施两个步骤以接近预定目标速率。在第一步骤中,确定两个邻近操作点。选择可为数据速率的这些两个邻近操作点以使得目标数据速率的值在两个操作点的值之间。可基于容量需求外部地指定目标数据速率。或者,可基于例如信道状态信息内部地指定目标数据速率。此速率控制可经实施以允许如本文中描述的FEC方案以任何指定的数据速率进行,使得操作者可基于容量需求决定数据速率。
图23A展示根据一般配置的设备MF100的框图。设备MF100包含用于基于来自在音频信号中在音频信号的关键帧之后的音频信号的帧(“后续帧”或“载波帧”)的信息计算决策量度的至少一个值的装置F200(例如,如本文中参考任务T200所描述)。设备MF100还包含用于从多个重新分配候选当中选择一个候选的装置F300,其中选定重新分配候选指示将后续帧的初始位分配T重新分配成第一部分及第二部分(例如,如本文中参考任务T300所描述)。
图23B展示设备MF100的实施方案MF300的框图。设备MF300包含用于计算多个帧中的每一者的决策量度的至少一个值的装置F200的实施方案F220(例如,如本文中参考任务T220所描述)。设备MF300还包含用于从多个重新分配候选当中选择一个候选及从多个帧当中选择一个帧(例如,通过选择偏移k的对应值,如本文中参考任务T350所描述)的装置F300的实施方案F350。
图23C展示设备MF100的实施方案MF500的框图。设备MF500包含用于计算决策量度的值的多个集合的装置F200的实施方案F270(例如,如本文中参考任务T270所描述)。设备MF500还包含装置F350的例子。
图24A展示设备MF100的实施方案MF140的框图。设备MF140包含用于计算关键性阈值的装置F50(例如,如本文中参考任务T50所描述)、用于比较计算的关键性阈值与上限值的装置F75(例如,如本文中参考任务T75所描述)及用于确定帧n是关键的装置F100(例如,如本文中参考任务T100所描述)。
图24B展示设备MF140的实施方案MF150的框图。设备MF140包含用于接收信道状态信息的装置F25(例如,如本文中参考任务T25所描述)。如本文中所描述,可指示用于发射终端102与接收终端104之间的发射的信道的质量的信道状态信息可在接收终端104处进行收集及估计且被发射回到发射终端102。
图25A展示包含计算器200及选择器300的根据一般配置的设备A100的框图。计算器200经配置以基于来自在音频信号中在音频信号的第一帧之后的音频信号的帧的信息计算决策量度的至少一个值的(例如,如本文中参考任务T200所描述)。选择器300经配置以基于决策量度的至少一个计算的值(例如,如本文中参考任务300所描述)从多个重新分配候选当中选择一个候选,其中选定重新分配候选指示将后续帧的初始位分配T重新分配成第一部分及第二部分。设备A100还可经实施以包含经配置以产生第一帧的冗余副本的帧编码器(例如,帧编码器FE20)、经配置以产生含有后续帧的副本及冗余副本的包的包组装器(例如,如本文中参考任务T500所描述)及/或经配置以确定第一帧是关键帧的关键帧指示器(例如,如本文中参考任务T100所描述)。
图25B展示设备A100的实施方案A300的框图。设备A300包含经配置以计算多个帧中的每一者的决策量度的至少一个值的计算器200的实施方案220(例如,如本文中参考任务T220所描述)。设备A300还包含经配置以从多个重新分配候选当中选择一个候选及从多个帧当中选择一个帧(例如,通过选择偏移k的对应值,如本文中参考任务T350所描述)的选择器300的实施方案350。
图25C展示设备A100的实施方案A500的框图。设备A500包含经配置以计算决策量度的值的多个集合的计算器200的实施方案270(例如,如本文中参考任务T270所描述)。设备A500还包含选择器350的例子。
图20C展示包含体现设备A100(或MF100)的元件的芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组)的通信装置D10的框图。芯片/芯片组CS10可包含一或多个处理器,其可经配置以执行设备A100或MF100的软件及/或固件部分(例如,作为指令)。可将发射终端102实现为装置D10的实施方案。
芯片/芯片组CS10包含:接收器(例如,RX10),其经配置以接收射频(RF)通信信号及解码及再生RF信号内编码的音频信号;及发射器(例如,TX10),其经配置以发射描述经编码的音频信号(例如,如由任务T500所产生)的RF通信信号。此装置可经配置以经由本文中所参考的编解码器中的任何一者或多者无线地发射及接收语音通信数据。
装置D10经配置以经由天线C30接收及发射RF通信信号。装置D10还可在到天线C30的路径中包含双工器及一或多个功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入及经由显示器C20显示信息。在此实例中,装置D10还包含一或多个天线C40以支持全球定位***(GPS)位置服务及/或与例如无线(例如,BluetoothTM)头戴式耳机等外部装置的短程通信。在另一实例中,此通信装置自身是BluetoothTM头戴式耳机且缺少小键盘C10、显示器C20及天线C30。
通信装置D10可体现于多种通信装置中,包含智能手机及膝上型及平板电脑。图26展示一个此实例的前视图、后视图及侧视图:具有布置于正面上的两个语音麦克风MV10-1及MV10-3的手持机H100(例如,智能手机)、布置于后面上的语音麦克风MV10-2、位于正面的上角的另一麦克风ME10(例如,用于增强型方向选择性及/或俘获到活动噪声消除操作的输入在用户耳朵处的声音误差),及位于背面上的另一麦克风MR10(例如,用于增强型方向选择性及/或俘获背景噪声参考)。扬声器LS10布置于误差麦克风ME10附近的正面的顶部中心中,且还提供两个其它扬声器LS20L、LS20R(例如,用于扬声器电话应用)。此手持机的麦克风之间的最大距离通常约为10或12厘米。
图25D展示可经实施以执行如本文中所描述的方法(例如,方法M100、M200、M300、M400、M500、M600及M700中的任何一或多者)的无线装置1102的框图。可将发射终端102实现为无线装置1102的实施方案。无线装置1102可为远程站、存取终端、手持机、个人数字助理(PDA)、蜂窝式电话等。
无线装置1102包含控制装置的操作的处理器1104。处理器1104还可被称作中央处理单元(CPU)。可包含只读存储器(ROM)及随机存取存储器(RAM)两者的存储器1106将指令及数据提供到处理器1104。存储器1106的一部分还可包含非易失性随机存取存储器(NVRAM)。处理器1104通常基于存储于存储器1106内的程序指令执行逻辑及算术运算。存储器1106中的指令可以是可执行的以实施如本文中所描述的一或多个方法。
无线装置1102包含外壳1108,所述外壳可包含发射器1110及接收器1112以允许在无线装置1102与远程位置之间发射及接收数据。发射器1110及接收器1112可组合到收发器1114中。天线1116可附接到外壳1108且电耦合到收发器1114。无线装置1102还可包含(未图示)多个发射器、多个接收器、多个收发器及/或多个天线。
在此实例中,无线装置1102还包含信号检测器1118,其可用以检测及量化由收发器1114接收的信号的电平。信号检测器1118可检测此些信号,如总能量、导频能量/伪噪声(PN)芯片、功率频谱密度及其它信号。无线装置1102还包含用于处理信号的数字信号处理器(DSP)1120。
无线装置1102的各种组件由总线***1122耦合在一起,除了数据总线之外,所述总线***还可包含功率总线、控制信号总线及状态信号总线。为了清楚起见,各种总线在图25D中说明为总线***1122。
本文中所揭示的方法及设备通常可应用于各种收发及/或音频感测应用中,尤其是此些应用的移动或其它便携式例子。举例来说,本文中所揭示的配置的范围包含驻存在经配置以使用码分多址(CDMA)空中接口的无线电话通信***中的通信装置。然而,所属领域的技术人员将理解,具有本文中所描述的特征的方法及设备可驻存在采用所属领域的技术人员所已知的广泛范围的技术的任何各种通信***中,例如经由有线及/或无线(例如,CDMA、TDMA、FDMA及/或TD-SCDMA)发射信道基于IP的语音(“VoIP”)的***。
明确预期且特此揭示本文中所揭示的通信装置可适用于包交换(例如,经布置以根据例如VoIP等协议载运音频发射的有线及/或无线网络)及/或电路交换的网络中。还明确预期及特此揭示本文中所揭示的通信装置可适用于窄带译码***(例如,对约4或5千赫的音频频率范围编码的***)及/或适用于宽带译码***(例如,对大于5千赫的音频频率编码的***),包含全带宽带译码***及分带宽带译码***。
所描述的配置的呈现经提供以使所属领域的技术人员能够制作或使用本文中所揭示的方法及其它结构。本文中所示及描述的流程图、框图及其它结构仅为实例,且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是应符合与在本文中(包括在所申请的附加权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将了解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中所参考的数据、指令、命令、信息、信号、位及符号。
用于如本文中所揭示的配置的实施方案的重要设计要求可包含最小化处理延迟及/或计算复杂性(通常以每秒百万指令或MIPS来测量),尤其是对于计算密集型应用,例如压缩的音频或视听信息(例如,根据例如本文中所识别的实例中的一者等压缩格式编码的文件或流)的回放或用于宽带通信的应用(例如,在高于8千赫(例如,12、16、32、44.1、48或192kHz)的取样速率处的语音通信)。
如本文中所揭示的设备(例如,设备A100、A300、A500、MF100、MF140、MF150、MF300、MF500)可实施于硬件与软件及/或与固件的任何组合中,其被视为适合于所意欲的应用。举例来说,此设备的元件可被制造为驻存在(例如)相同芯片上或芯片组中的两个或两个以上芯片之间的电子及/光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一或多个此类阵列。这些元件中的任何两者或两者以上乃至全部可实施于相同阵列内。所述一或多个阵列可实施于一或多个芯片内(例如,包括两个或两个以上芯片的芯片组内)。
本文中所揭示的设备的各种实施方案(例如,设备A100、A300、A500、MF100、MF140、MF150、MF300、MF500)的一或多个元件可全部或部分实施为一或多个指令集,所述指令经布置以在逻辑元件的一或多个固定或可编程阵列上执行,所述逻辑元件例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)及ASIC(专用集成电路)。如本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器,其也被称作“处理器”),且这些元件中的任何两者或两者以上或甚至全部可实施于相同的所述一或多个计算机内。
如本文中所揭示的处理器或用于处理的其它装置可制造为驻存在例如相同芯片上或芯片组中的两个或两个以上芯片当中的一或多个电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一或多个此类阵列。所述一或多个阵列可实施于一或多个芯片内(例如,包括两个或两个以上芯片的芯片组内)。此些阵列的实例包含逻辑元件的固定或可编程阵列,所述逻辑元件例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP及ASIC。如本文中所揭示的处理器或用于处理的其它装置还可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器)或其它处理器。对于如本文中所描述的处理器来说有可能用以执行任务或执行不与方法M100的实施方案的程序直接相关的其它指令集,例如关于嵌入有处理器的装置或***(例如,音频感测装置)的另一操作的任务。对于如本文中所揭示的方法的部分来说还有可能由音频感测装置的处理器执行,且对于方法的另一部分来说有可能在一或多个其它处理器的控制下执行。
所属领域的技术人员将了解,在本文中结合揭示内容而描述的各种说明性模块、逻辑块、电路及测试以及结合本文中所揭示的配置描述的其它操作可实施为电子硬件、计算机软件,或两者的组合。此些模块、逻辑块、电路及操作可用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的任何组合来实施或执行。举例来说,此配置可至少部分实施为硬连线电路、被制造成专用集成电路的电路配置或被加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,此代码为可由例如通用处理器或其它数字信号处理单元等逻辑元件的阵列执行的指令。通用处理器可为微处理器,但在替代例中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器与DSP核心的联合,或任何其它此配置。软件模块可驻存在非暂时性存储媒体中,例如RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM等非易失性RAM(NVRAM)、可抹除可编程ROM(EPROM)、电可抹除可编程ROM(EEPROM)、寄存器、硬盘、可装卸磁盘或CD-ROM;或在现有技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器以使得处理器可从存储媒体读取信息,及将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻存在ASIC中。ASIC可驻存在用户终端中。在替代例中,处理器及存储媒体可作为离散组件驻存在用户终端中。
应注意本文中所揭示的各种方法(例如,方法M100、M200、M300、M400、M500、M600及M700中的任一者的实施方案)可由例如处理器等逻辑元件的阵列执行,且如本文中所描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指包含呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应了解,多个模块或***可组合为一个模块或***,且一个模块或***可被分离成多个模块或***以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关的任务的代码段。术语“软件”应理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一或多个指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中或由包含在载波中的计算机数据信号经由发射媒体或通信链路发射。
本文中所揭示的方法、方案及技术的实施方案还可有形地体现为(例如,在如本文中所列出的一或多个计算机可读存储媒体的有形计算机可读特征中)可由包含逻辑元件(例如,处理器、微处理器、微控制器或其它有限状态机)的阵列的机器执行的一或多个指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可装卸及不可装卸存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可抹除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘或可用以存储所要信息的任何其它媒体、光纤媒体、射频(RF)链路或可用以载运所要信息且可存取的任何其它媒体。计算机数据信号可包括可经由发射媒体(例如电子网络通道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或企业内部网络等计算机网络来下载。在任何情况下,本发明的范围不应被解释为受此些实施例限制。
本文中所描述的方法的任务中的每一者可直接以硬件体现,以由处理器执行的软件模块体现或以两者的组合体现。在如本文中所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行方法的各种任务的一者或一者以上或甚至全部。所述任务中的一者或一者以上(可能所有)还可实施为在计算机程序产品(例如,一或多个数据存储媒体,例如磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中体现的代码(例如,一或多个指令集),所述计算机程序产品可由包括逻辑元件的阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取及/或执行。如本文中所揭示的方法的实施方案的任务还可由一个以上此阵列或机器执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置内执行,所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换及/或包交换网络通信(例如,使用一或多个协议(例如VoIP))。举例来说,此装置可包含经配置以接收及/或发射经编码的帧的RF电路。
明确地揭示,本文中所描述的各种方法可由例如手持机、头戴式耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文中所描述的各种设备可连同此类装置一起包括。典型的实时(例如,在线)应用是使用此类移动装置进行的电话对话。
在一或多个示范性实施例中,可以硬件、软件、固件或其任一组合来实施本文中所描述的操作。如果实施于软件中,则此些操作可在计算机可读媒体上存储为一或多个指令或代码或经由计算机可读媒体加以发射。术语“计算机可读媒体”包含计算机可读存储媒体及通信(例如,发射)媒体两者。通过实例,且并不限制,计算机可读存储媒体可包括存储元件的阵列,例如半导体存储器(其可包含而不限于动态或静态RAM、ROM、EEPROM及/或快闪RAM)或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光学磁盘存储装置;及/或磁盘存储装置或其它磁性存储装置。此存储媒体可以可由计算机存取的指令或数据结构的形式存储信息。通信媒体可包括可用以载运呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何媒体,包含促进计算机程序从一处到另一处的传送的任何媒体。同样,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源发射软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光DiscTM(蓝光光盘关联、环球影城,CA),其中磁盘通常磁性地复制数据,而光盘使用激光光学地复制数据。上文的组合也应包括在计算机可读媒体的范围内。
如本文中所描述的声音信号处理设备可并入到例如通信装置等电子装置中,所述电子装置接受话音输入以便控制某些操作,或可以其它方式受益于所要噪声与背景噪声的分离。许多应用可受益于增强或分离清晰的所要声音与源自多个方向的背景声音。此些应用可包括电子或计算装置中的人机接口,其并入有例如语音辨识及检测、话音增强及分离、语音激活式控制等能力。可需要实施此声音信号处理设备以适用于仅提供有限处理能力的装置。
本文中所描述的模块、元件及装置的各种实施方案的元件可被制造为驻存在(例如)相同芯片上或芯片组中的两个或两个以上芯片之间的电子及/光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)的阵列。本文中所描述的设备的各种实施方案的一或多个元件还可全部地或部分地实施为经布置以在一或多个固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行的一或多个指令集。
有可能使如本文中所描述的设备的实施方案的一或多个元件用于执行并非与所述设备的操作直接相关的任务或其它指令集,例如与嵌入有所述设备的装置或***的另一操作相关的任务。还有可能使此设备的实施方案的一或多个元件具有共同结构(例如,用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子及/或光学装置的布置)。
Claims (36)
1.一种处理音频信号的方法,所述方法包括:
计算在所述音频信号中在所述音频信号的第一帧之后的所述音频信号的第二帧的决策量度的至少一个值;及
基于所述决策量度的所述至少一个计算的值从多个冗余重新分配候选当中选择一个冗余重新分配候选,
其中所述计算的至少一个值是基于所述第二帧的位速率压缩性的测量,且
其中所述选定的冗余重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
2.根据权利要求1所述的方法,其中所述方法包含确定所述第一帧是所述音频信号的关键帧。
3.根据权利要求2所述的方法,其中所述确定所述第一帧是关键帧是基于来自在所述音频信号中在所述第一帧之后的所述音频信号的帧的经编码的版本的信息。
4.根据权利要求3所述的方法,其中所述经编码的版本是所述第二帧的经编码的版本。
5.根据权利要求2所述的方法,其中所述确定包含比较关键性测量与关键性阈值。
6.根据权利要求5所述的方法,其中所述确定包含基于关于发射信道的状态的信息计算所述关键性阈值。
7.根据权利要求6所述的方法,其中所述计算所述关键性阈值包含:
比较基于关于所述发射信道的所述状态的所述信息的计算的值与边界值;及
响应于与所述边界值的所述比较的结果,选择所述边界值作为所述关键性阈值。
8.根据权利要求1所述的方法,其中位速率压缩性的所述测量指示所述第二帧的子帧之间的相关。
9.根据权利要求1所述的方法,其中所述从所述多个冗余重新分配候选当中选择一个冗余重新分配候选包含比较所述决策量度的计算的值与有序的多个决策阈值中的每一者,且
其中所述有序的多个决策阈值中的每一者对应于所述多个冗余重新分配候选当中的不同冗余重新分配候选。
10.根据权利要求1所述的方法,其中所述方法包括计算所述决策量度的多个值,每一值对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同帧,且
其中所述决策量度的所述多个值中的每一者是基于所述对应帧的位速率压缩性的测量,且
其中所述方法包括基于所述决策量度的所述多个值中的至少一些从所述不同帧当中选择所述第二帧。
11.根据权利要求1所述的方法,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的集合,且其中计算的值的所述集合中的每一者对应于所述多个冗余重新分配候选中的不同冗余重新分配候选。
12.根据权利要求11所述的方法,其中计算的值的所述集合中的每一者是基于与所述多个冗余重新分配候选中的对应冗余重新分配候选相关联的感知质量的测量。
13.根据权利要求11所述的方法,其中位速率压缩性的所述测量是基于来自所述第二帧的经编码的版本的信息。
14.根据权利要求11所述的方法,其中所述至少一个计算的值是基于用于不同编码速率的所述第二帧的感知质量的测量之间的关系。
15.根据权利要求11所述的方法,其中所述至少一个计算的值是基于(A)用于所述初始位分配的所述第二帧的位速率压缩性的测量与(B)用于所述多个冗余重新分配候选中的所述对应冗余重新分配候选的所述第二帧的位速率压缩性的测量之间的关系。
16.根据权利要求1所述的方法,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的多个集合,所述多个集合中的每一者对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同帧,且其中在每一集合内,每一值对应于所述多个冗余重新分配候选中的不同冗余重新分配候选。
17.根据权利要求16所述的方法,其中在每一集合内,每一值是基于与所述多个冗余重新分配候选中的对应冗余重新分配候选相关联的感知质量的测量。
18.根据权利要求16所述的方法,其中在每一集合内,每一值是基于来自对应帧的经编码的版本的信息。
19.根据权利要求16所述的方法,其中所述方法包括基于所述多个集合中的至少一些的计算的值从所述不同帧当中选择所述第二帧。
20.根据权利要求1所述的方法,其中所述方法包括响应于所述从所述多个冗余重新分配候选当中选择一个冗余重新分配候选,产生包含所述第一帧的冗余副本及所述第二帧的副本的包,
其中将所述第二帧的所述副本编码成所述第一部分,且
其中将所述冗余副本编码成所述第二部分。
21.一种用于处理音频信号的设备,所述设备包括:
用于计算在所述音频信号中在所述音频信号的第一帧之后的所述音频信号的第二帧的决策量度的至少一个值的装置;及
用于基于所述决策量度的所述至少一个计算的值从多个冗余重新分配候选当中选择一个冗余重新分配候选的装置,
其中所述计算的至少一个值是基于所述第二帧的位速率压缩性的测量,且
其中所述选定的冗余重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
22.根据权利要求21所述的设备,其中所述设备包含用于确定所述第一帧是所述音频信号的关键帧的装置。
23.根据权利要求22所述的设备,其中所述确定所述第一帧是关键帧是基于来自在所述音频信号中在所述第一帧之后的所述音频信号的帧的经编码的版本的信息。
24.根据权利要求21所述的设备,其中位速率压缩性的所述测量指示所述第二帧的子帧当中的相关。
25.根据权利要求21所述的设备,其中所述用于计算所述决策量度的至少一个值的装置经配置以计算所述决策量度的多个值,每一值对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同帧,且
其中所述决策量度的所述多个值中的每一者是基于所述对应帧的位速率压缩性的测量,且
其中所述设备包括用于基于所述决策量度的所述多个值中的至少一些从所述不同帧当中选择所述第二帧的装置。
26.根据权利要求21所述的设备,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的集合,且其中计算的值的所述集合中的每一者对应于所述多个冗余重新分配候选中的不同冗余重新分配候选,以及
其中计算的值的所述集合中的每一者是基于与所述多个冗余重新分配候选中的对应冗余重新分配候选相关联的感知质量的测量。
27.根据权利要求21所述的设备,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的集合,且其中计算的值的所述集合中的每一者对应于所述多个冗余重新分配候选中的不同冗余重新分配候选,且
其中所述至少一个计算的值是基于用于不同编码速率的所述第二帧的感知质量的测量之间的关系。
28.根据权利要求21所述的设备,其中所述设备包括用于响应于所述从所述多个冗余重新分配候选当中选择一个冗余重新分配候选产生包含所述第一帧的冗余副本及所述第二帧的副本的包的装置,
其中将所述第二帧的所述副本编码成所述第一部分,且
其中将所述冗余副本编码成所述第二部分。
29.一种用于处理音频信号的设备,所述设备包括:
经配置以计算在所述音频信号中在所述音频信号的第一帧之后的所述音频信号的第二帧的决策量度的至少一个值的计算器;及
经配置以基于所述决策量度的所述至少一个计算的值从多个冗余重新分配候选当中选择一个冗余重新分配候选的选择器,
其中所述计算的至少一个值是基于所述第二帧的位速率压缩性的测量,且
其中所述选定的冗余重新分配候选指示将所述第二帧的初始位分配重新分配成第一部分及第二部分。
30.根据权利要求29所述的设备,其中所述设备包含经配置以确定所述第一帧是所述音频信号的关键帧的关键帧指示器。
31.根据权利要求30所述的设备,其中所述确定所述第一帧是关键帧是基于来自在所述音频信号中在所述第一帧之后的所述音频信号的帧的经编码的版本的信息。
32.根据权利要求29所述的设备,其中位速率压缩性的所述测量指示所述第二帧的子帧当中的相关。
33.根据权利要求29所述的设备,其中所述计算器经配置以计算所述决策量度的多个值,每一值对应于在所述音频信号中在所述第一帧之后的所述音频信号的不同帧,且
其中所述决策量度的所述多个值中的每一者是基于所述对应帧的位速率压缩性的测量,且
其中所述选择器经配置以基于所述决策量度的所述多个值中的至少一些从所述不同帧当中选择所述第二帧。
34.根据权利要求29所述的设备,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的集合,且其中计算的值的所述集合中的每一者对应于所述多个冗余重新分配候选中的不同冗余重新分配候选;以及
其中计算的值的所述集合中的每一者是基于与所述多个冗余重新分配候选中的对应冗余重新分配候选相关联的感知质量的测量。
35.根据权利要求29所述的设备,其中所述决策量度的所述计算的至少一个值包含所述决策量度的计算的值的集合,且其中计算的值的所述集合中的每一者对应于所述多个冗余重新分配候选中的不同冗余重新分配候选;且
其中所述至少一个计算的值是基于用于不同编码速率的所述第二帧的感知质量的测量之间的关系。
36.根据权利要求29所述的设备,其中所述设备包括经配置以响应于所述从所述多个冗余重新分配候选当中选择一个冗余重新分配候选产生包含所述第一帧的冗余副本及所述第二帧的副本的包的包组装器,
其中将所述第二帧的所述副本编码成所述第一部分,且
其中将所述冗余副本编码成所述第二部分。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261586007P | 2012-01-12 | 2012-01-12 | |
US61/586,007 | 2012-01-12 | ||
US201261587507P | 2012-01-17 | 2012-01-17 | |
US61/587,507 | 2012-01-17 | ||
US201261641093P | 2012-05-01 | 2012-05-01 | |
US61/641,093 | 2012-05-01 | ||
US13/719,701 | 2012-12-19 | ||
US13/719,701 US9053702B2 (en) | 2012-01-12 | 2012-12-19 | Systems, methods, apparatus, and computer-readable media for bit allocation for redundant transmission |
PCT/US2012/071015 WO2013106187A1 (en) | 2012-01-12 | 2012-12-20 | System, methods, apparatus, and computer-readable media for bit allocation for redundant transmission of audio data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104040621A CN104040621A (zh) | 2014-09-10 |
CN104040621B true CN104040621B (zh) | 2017-06-30 |
Family
ID=48780607
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280066721.1A Active CN104040622B (zh) | 2012-01-12 | 2012-12-19 | 用于关键性阈值控制的***、方法、设备和计算机可读媒体 |
CN201280066664.7A Active CN104040621B (zh) | 2012-01-12 | 2012-12-20 | 用于音频数据的冗余发射的位分配的***、方法和设备 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280066721.1A Active CN104040622B (zh) | 2012-01-12 | 2012-12-19 | 用于关键性阈值控制的***、方法、设备和计算机可读媒体 |
Country Status (13)
Country | Link |
---|---|
US (2) | US9047863B2 (zh) |
EP (2) | EP2812895B1 (zh) |
JP (3) | JP2015510313A (zh) |
KR (2) | KR101570631B1 (zh) |
CN (2) | CN104040622B (zh) |
BR (2) | BR112014017120B1 (zh) |
DK (2) | DK2812895T3 (zh) |
ES (2) | ES2653949T3 (zh) |
HU (2) | HUE037362T2 (zh) |
IN (1) | IN2014CN04644A (zh) |
SI (1) | SI2803065T1 (zh) |
TW (1) | TWI499247B (zh) |
WO (2) | WO2013106181A1 (zh) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9047863B2 (en) | 2012-01-12 | 2015-06-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for criticality threshold control |
US9860296B2 (en) | 2012-03-23 | 2018-01-02 | Avaya Inc. | System and method for end-to-end call quality indication |
US9356917B2 (en) | 2012-03-23 | 2016-05-31 | Avaya Inc. | System and method for end-to-end encryption and security indication at an endpoint |
US9178778B2 (en) | 2012-03-23 | 2015-11-03 | Avaya Inc. | System and method for end-to-end RTCP |
CN102771062B (zh) * | 2012-04-11 | 2014-12-03 | 华为技术有限公司 | 一种传输模式配置方法和装置 |
CN104782124B (zh) * | 2012-12-17 | 2018-09-07 | 英特尔公司 | 利用编码器硬件对视频内容进行预处理 |
TWI528777B (zh) * | 2012-12-28 | 2016-04-01 | 鴻海精密工業股份有限公司 | 音量調節方法與系統 |
US9831898B2 (en) * | 2013-03-13 | 2017-11-28 | Analog Devices Global | Radio frequency transmitter noise cancellation |
FR3007230B1 (fr) * | 2013-06-17 | 2015-07-31 | Sdmo Ind | Procede de communication dans un reseau interconnectant au moins deux groupes electrogenes, et dispositif d’interfacage correspondant. |
US10614816B2 (en) | 2013-10-11 | 2020-04-07 | Qualcomm Incorporated | Systems and methods of communicating redundant frame information |
NO2780522T3 (zh) * | 2014-05-15 | 2018-06-09 | ||
GB2527365B (en) | 2014-06-20 | 2018-09-12 | Starleaf Ltd | A telecommunication end-point device data transmission controller |
US9984699B2 (en) | 2014-06-26 | 2018-05-29 | Qualcomm Incorporated | High-band signal coding using mismatched frequency ranges |
US9680507B2 (en) * | 2014-07-22 | 2017-06-13 | Qualcomm Incorporated | Offset selection for error correction data |
US9712287B2 (en) * | 2014-07-31 | 2017-07-18 | Qualcomm Incorporated | System and method of redundancy based packet transmission error recovery |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
EP3269061B1 (en) * | 2015-03-12 | 2019-05-08 | Telefonaktiebolaget LM Ericsson (publ) | Rate control in circuit switched systems |
US9948578B2 (en) * | 2015-04-14 | 2018-04-17 | Qualcomm Incorporated | De-jitter buffer update |
US20160323425A1 (en) * | 2015-04-29 | 2016-11-03 | Qualcomm Incorporated | Enhanced voice services (evs) in 3gpp2 network |
IL239333B (en) * | 2015-06-10 | 2020-06-30 | Elta Systems Ltd | A system for creating, transmitting and receiving additional signals and the useful methods by the way |
KR102420450B1 (ko) | 2015-09-23 | 2022-07-14 | 삼성전자주식회사 | 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체 |
US10504525B2 (en) * | 2015-10-10 | 2019-12-10 | Dolby Laboratories Licensing Corporation | Adaptive forward error correction redundant payload generation |
US10049681B2 (en) * | 2015-10-29 | 2018-08-14 | Qualcomm Incorporated | Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet |
US10049682B2 (en) * | 2015-10-29 | 2018-08-14 | Qualcomm Incorporated | Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet |
MX2018010754A (es) | 2016-03-07 | 2019-01-14 | Fraunhofer Ges Forschung | Unidad de ocultamiento de error, decodificador de audio y método relacionado y programa de computadora que desaparece una trama de audio ocultada de acuerdo con factores de amortiguamiento diferentes para bandas de frecuencia diferentes. |
KR102192999B1 (ko) | 2016-03-07 | 2020-12-18 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성을 사용하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램 |
CN107528668B (zh) * | 2016-06-21 | 2021-09-24 | 中兴通讯股份有限公司 | 一种数据传输方法及设备 |
CN107845385B (zh) | 2016-09-19 | 2021-07-13 | 南宁富桂精密工业有限公司 | 信息隐藏的编解码方法及*** |
KR102214440B1 (ko) * | 2016-10-07 | 2021-02-09 | 삼성전자주식회사 | 통화 기능을 수행하는 단말 장치 및 방법 |
KR102302912B1 (ko) | 2017-03-23 | 2021-09-16 | 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 | 데이터를 전송하는 방법, 단말 기기 및 네트워크 기기 |
US10574830B2 (en) * | 2017-06-05 | 2020-02-25 | Qualcomm Incoporated | Methods for increasing VoIP network coverage |
US10645228B2 (en) * | 2017-06-26 | 2020-05-05 | Apple Inc. | Adaptability in EVS codec to improve power efficiency |
CN109286952B (zh) * | 2017-07-19 | 2022-08-02 | 中兴通讯股份有限公司 | 数据传输方法、装置及存储介质 |
CN108764469A (zh) * | 2018-05-17 | 2018-11-06 | 普强信息技术(北京)有限公司 | 一种降低神经网络所需功耗的方法和设备 |
US11456007B2 (en) | 2019-01-11 | 2022-09-27 | Samsung Electronics Co., Ltd | End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization |
EP4035289A1 (en) * | 2019-09-25 | 2022-08-03 | Mixhalo Corp. | Multi-stride packet payload mapping for robust transmission of data |
CN110890945B (zh) * | 2019-11-20 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 数据传输方法、装置、终端及存储介质 |
CN112820306B (zh) * | 2020-02-20 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 语音传输方法、***、装置、计算机可读存储介质和设备 |
CN112767955B (zh) * | 2020-07-22 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 音频编码方法及装置、存储介质、电子设备 |
JP2024022698A (ja) * | 2020-10-30 | 2024-02-21 | 株式会社Preferred Networks | 通信装置及び通信方法 |
US20230073839A1 (en) * | 2021-09-09 | 2023-03-09 | Toyota Motor North America, Inc. | Hardware timer data expiration |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US5828676A (en) * | 1994-04-08 | 1998-10-27 | Echelon Corporation | Method and apparatus for robust communication based upon angular modulation |
EP1441532A2 (en) * | 2002-12-20 | 2004-07-28 | Oplayo Oy | Buffering arrangement |
CN101379551A (zh) * | 2005-12-28 | 2009-03-04 | 沃伊斯亚吉公司 | 在语音编解码器中用于有效帧擦除隐蔽的方法和装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW271524B (zh) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
JP3254126B2 (ja) * | 1996-02-13 | 2002-02-04 | 株式会社日立国際電気 | 可変レート符号化方式 |
FI116181B (fi) * | 1997-02-07 | 2005-09-30 | Nokia Corp | Virheenkorjausta ja virheentunnistusta hyödyntävä informaationkoodausm enetelmä ja laitteet |
US6405338B1 (en) | 1998-02-11 | 2002-06-11 | Lucent Technologies Inc. | Unequal error protection for perceptual audio coders |
US6445686B1 (en) * | 1998-09-03 | 2002-09-03 | Lucent Technologies Inc. | Method and apparatus for improving the quality of speech signals transmitted over wireless communication facilities |
US20010041981A1 (en) * | 2000-02-22 | 2001-11-15 | Erik Ekudden | Partial redundancy encoding of speech |
JP2002314597A (ja) * | 2001-04-09 | 2002-10-25 | Mitsubishi Electric Corp | 音声パケット通信装置 |
JP4022427B2 (ja) * | 2002-04-19 | 2007-12-19 | 独立行政法人科学技術振興機構 | エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置 |
CA2523343A1 (en) * | 2003-04-21 | 2004-11-04 | Rgb Networks, Inc. | Time-multiplexed multi-program encryption system |
US7546508B2 (en) | 2003-12-19 | 2009-06-09 | Nokia Corporation | Codec-assisted capacity enhancement of wireless VoIP |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
ATE352138T1 (de) | 2004-05-28 | 2007-02-15 | Cit Alcatel | Anpassungsverfahren für ein mehrraten-sprach- codec |
US7944470B2 (en) | 2005-03-04 | 2011-05-17 | Armida Technologies Corporation | Wireless integrated security controller |
WO2007045273A1 (en) | 2005-10-17 | 2007-04-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for estimating speech quality |
US20080077410A1 (en) | 2006-09-26 | 2008-03-27 | Nokia Corporation | System and method for providing redundancy management |
TWI382657B (zh) | 2007-03-01 | 2013-01-11 | Princeton Technology Corp | 音訊處理系統 |
CN101072083A (zh) * | 2007-06-04 | 2007-11-14 | 深圳市融合视讯科技有限公司 | 一种优化网络数据传输冗余纠错率的方法 |
US8352252B2 (en) | 2009-06-04 | 2013-01-08 | Qualcomm Incorporated | Systems and methods for preventing the loss of information within a speech frame |
EP2346028A1 (en) | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
US9047863B2 (en) | 2012-01-12 | 2015-06-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for criticality threshold control |
-
2012
- 2012-12-18 US US13/718,797 patent/US9047863B2/en active Active
- 2012-12-19 EP EP12813204.0A patent/EP2812895B1/en active Active
- 2012-12-19 BR BR112014017120-3A patent/BR112014017120B1/pt active IP Right Grant
- 2012-12-19 KR KR1020147022449A patent/KR101570631B1/ko active IP Right Grant
- 2012-12-19 ES ES12813204.0T patent/ES2653949T3/es active Active
- 2012-12-19 IN IN4644CHN2014 patent/IN2014CN04644A/en unknown
- 2012-12-19 CN CN201280066721.1A patent/CN104040622B/zh active Active
- 2012-12-19 WO PCT/US2012/070721 patent/WO2013106181A1/en active Application Filing
- 2012-12-19 JP JP2014552202A patent/JP2015510313A/ja not_active Ceased
- 2012-12-19 US US13/719,701 patent/US9053702B2/en active Active
- 2012-12-19 HU HUE12813204A patent/HUE037362T2/hu unknown
- 2012-12-19 DK DK12813204.0T patent/DK2812895T3/en active
- 2012-12-20 JP JP2014552204A patent/JP5996670B2/ja active Active
- 2012-12-20 EP EP12813673.6A patent/EP2803065B1/en active Active
- 2012-12-20 WO PCT/US2012/071015 patent/WO2013106187A1/en active Application Filing
- 2012-12-20 CN CN201280066664.7A patent/CN104040621B/zh active Active
- 2012-12-20 HU HUE12813673A patent/HUE032016T2/en unknown
- 2012-12-20 BR BR112014017119-0A patent/BR112014017119B1/pt active IP Right Grant
- 2012-12-20 ES ES12813673.6T patent/ES2621417T3/es active Active
- 2012-12-20 SI SI201230851A patent/SI2803065T1/sl unknown
- 2012-12-20 TW TW101148840A patent/TWI499247B/zh active
- 2012-12-20 DK DK12813673.6T patent/DK2803065T3/en active
- 2012-12-20 KR KR1020147022450A patent/KR101585367B1/ko active IP Right Grant
-
2016
- 2016-04-27 JP JP2016089359A patent/JP6151405B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5828676A (en) * | 1994-04-08 | 1998-10-27 | Echelon Corporation | Method and apparatus for robust communication based upon angular modulation |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
EP1441532A2 (en) * | 2002-12-20 | 2004-07-28 | Oplayo Oy | Buffering arrangement |
CN101379551A (zh) * | 2005-12-28 | 2009-03-04 | 沃伊斯亚吉公司 | 在语音编解码器中用于有效帧擦除隐蔽的方法和装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104040621B (zh) | 用于音频数据的冗余发射的位分配的***、方法和设备 | |
JP6546897B2 (ja) | マルチレート・スピーチ/オーディオ・コーデックのためのフレーム損失隠匿について符号化を実行する方法 | |
KR101076251B1 (ko) | 활성 프레임의 광대역 인코딩 및 디코딩을 위한 시스템, 방법 및 장치 | |
US20090168673A1 (en) | Method and apparatus for detecting and suppressing echo in packet networks | |
KR20130116917A (ko) | 신호 분류 방법 및 장치, 및 인코딩/디코딩 방법 및 장치 | |
US10199050B2 (en) | Signal codec device and method in communication system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |