CN116137151A - 低码率网络连接中提供高质量音频通信的***和方法 - Google Patents

低码率网络连接中提供高质量音频通信的***和方法 Download PDF

Info

Publication number
CN116137151A
CN116137151A CN202210666398.7A CN202210666398A CN116137151A CN 116137151 A CN116137151 A CN 116137151A CN 202210666398 A CN202210666398 A CN 202210666398A CN 116137151 A CN116137151 A CN 116137151A
Authority
CN
China
Prior art keywords
audio
audio data
frame
features
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210666398.7A
Other languages
English (en)
Inventor
冯建元
赵云
赵晓涵
赵林生
袁方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dayin Network Technology Shanghai Co ltd
Original Assignee
Dayin Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dayin Network Technology Shanghai Co ltd filed Critical Dayin Network Technology Shanghai Co ltd
Publication of CN116137151A publication Critical patent/CN116137151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种新型的在实时通信中低码率网络连接下提供高质量音频的***和方法。该***包括配备了改进的编码器和改进的解码器的实时通信软件应用程序。编码器将对应于超宽带模式和宽带模式的两个频率范围的音频数据划分为低频子带和高频子带音频数据。从低频子带和高频子带音频数据中提取音频特征。将音频特征进行量化和打包。解码器根据超宽带模式和宽带模式下的压缩音频特征对音频数据进行重构以便在接收设备上播放。

Description

低码率网络连接中提供高质量音频通信的***和方法
相关申请的交叉引用
本申请要求申请日为2021年11月17日,申请号为17,528/217的美国在先申请的优先权。
技术领域
本发明整体涉及具有音频数据捕获和远程回放功能的实时通信领域,具体而言,本发明涉及在低码率网络连接中提供高质量音频播放的实时通信***。更具体而言,本发明涉及一种配备编解码器的实时通信软件应用程序,该编解码器包含低码率音频编码器和高质量解码器。
背景技术
在实时通信(RTC)中,网络带宽(也称为码率或比特率)通常是有限的。RTC的音频信号在发送端由发送端电子设备(如智能手机、平板电脑、笔记本计算机或台式计算机)编码,并在接收端被接收端解码。相较于码率较高时而言,当码率较低时,RTC的音频信号需要将数据包打包成较小的数据包,以便于在互联网上传输。因此,音频编解码器用于在将音频数据包压缩得尽可能小,同时尽量保证解码后的音频质量。
基于深度学习的音频编解码器通常会导致该运行深度学习的计算机上计算成本过高。高计算成本使得编解码器在智能手机和笔记本电脑等便携式设备上并不适用。当需要在同一台计算机上同时解码多个音频信号的时候尤其如此,例如多用户的在线会议等。如果音频数据包无法被及时解码,接收设备上就会出现播放不连续的情况,从而导致收听体验明显降低。
因此,在RTC通信中需要一种新型的低码率音频编解码器并配备高质量的解码器,可以在弱网络情况下实现节省网络带宽成本和保持RTC体验质量的目的。网络带宽可能是随着时间而变化的。例如,当网络信号较弱或当共享同一网络的设备过多时,可用网络带宽可能会下降到非常低的水平或范围。在这种情况下,会增加音频丢包率,从而导致音频信号不连续。原因是网络带宽不佳,导致一些音频数据包(本发明中也称为音频信号)被丢弃或封堵。因此,在网络带宽有限的情况下,只有低码率的音频编解码器才能在接收端提供连续的音频流播放。
发明内容
总体而言,本发明基于各个实施方案提供了一种计算机运行方法,用于在实时通信中通过低码率网络连接提供高质量音频进行播放。该方法由实时通信软件应用程序运行,包括:在发送设备上接收音频输入数据流;在发送设备上抑制音频输入数据流中的噪声,生成干净的音频输入数据;在发送设备上将干净的音频输入数据拆分为一个音频数据帧集合;在发送设备上将所述音频数据帧集合内的每一帧标准化,生成标准化音频数据帧集合,其中该帧的音频数据按照宽带模式和超宽带模式对应的两个频率范围进行重采样,从而形成低频子带音频数据和高频子带音频数据;在发送设备上从标准化音频数据帧集合中的每一帧中提取一个音频特征集,从而组成一组音频特征集;在发送设备上将标准化音频数据帧集合内的每个帧的音频特征集量化为压缩的音频特征集;在发送设备上将一组压缩的音频特征集打包成一个音频数据包;从发送设备上将音频数据包发送到接收设备;在接收设备上以超宽带模式接收该音频数据包;在接收设备上从音频数据包中获取标准化音频数据帧集合内的每一帧的音频特征集;在超宽带模式的低频子带和高频子带内,在接收设备上根据数据帧所对应的音频特征集,为每帧的音频数据样本确定下一个样本的线性预测值;在接收设备上使用深度学习方法从低频子带样本的声学特征矢量中提取用于残差信号预测的上下文矢量;确定接收设备上低频子带中样本的第一残差预测值;在接收设备上将线性预测值与第一残差预测值结合,为低频子带中的样本生成子带音频信号;在接收设备上对子带音频信号进行去加重处理从而形成去加重的低频子带音频信号;在接收设备上确定高频子带中样本的第二残差预测值;结合线性预测值和第二残差预测值,在接收设备上为高频子带中的样本生成子带音频信号;在接收设备上将去加重的低频子带音频信号和高频子带中样本的子带音频信号合并,从而形成合并的音频样本;然后将合并的音频样本转换为音频数据,以便在接收设备上播放。
在超宽带模式下从标准化音频数据的帧集合内的每个帧提取一个音频特征集,包括:使用高通滤波器对低频子带音频数据进行预加重处理,从而形成预加重的低频子带音频数据;对预加重的低频子带音频数据运行巴克频率倒谱系数(Bark-Frequency CepstrumCoefficients,简称BFCC)计算以提取音频的BFCC特征,并对预加重的低频子带音频数据进行音高预测处理以提取音频的音高特征,包括基音周期和基音相关性等信息;根据高频子带音频数据计算音频线性预测编码(Linear Prediction Coding,简称LPC)系数;将LPC系数转换为线谱频率(LPF)系数;确定低频子带数据和高频子带音频数据之间的能量和之比,其中能量和之比、LPF系数、音频的音高特征和音频的BFCC特征构成音频特征集的一部分。
在宽带模式下从标准化音频数据的帧集合中的每一帧提取一个音频特征集,包括:使用高通滤波器对每一帧的标准化音频数据进行预加重处理,从而形成预加重的标准化音频数据;对预加重的标准化音频数据运行巴克频率倒谱系数(Bark-FrequencyCepstrum Coefficients,简称BFCC)计算以提取音频的BFCC特征,并对预加重的标准化音频数据进行音高预测处理以提取包含基音周期和基音相关性等信息的音频音高特征,其中音频音高特征和音频BFCC特征构成音频特征集的一部分。
在接收设备上从音频数据包中获取标准化音频数据帧集合内的每个帧的音频特征集,包括:对压缩的音频特征集进行逆量化处理以获得音频特征集;根据LPF系数确定高频子带的LPC(Linear Prediction Coding)系数;根据BFCC系数确定低频子带的LPC系数。
在一种实施方案中,所述逆量化处理采用的是逆差分矢量量化(DVQ)方法、逆残差矢量量化(RVQ)方法或逆插值法。
量化音频特征集的方法包括:使用残差矢量量化(RVQ)方法或差分矢量量化(DVQ)方法压缩该组帧集合内的每个I帧(关键帧)的音频特征集,其中该帧集合中至少有一个I帧;使用插值法对该组帧集合内每个非I帧的音频特征集进行压缩。
在一种实施方案中,所述的两个频率范围分别为0至16kHz和16kHz至32kHz,且抑制噪声采用的是基于机器学习的方法。
此外,根据本发明还提供了一种计算机运行方法,用于在实时通信中通过低码率网络连接提供高质量音频进行播放。该方法通过实时通信软件应用程序进行,包括:在发送设备上接收音频输入数据流;在发送设备上抑制音频输入数据流中的噪声,生成干净的音频输入数据;在发送设备上将干净的音频输入数据拆分为一个音频数据帧集合;将该帧集合内的每一帧进行标准化处理,从而在发送设备上生成标准化音频数据帧集合,其中该帧的音频数据按照宽带模式和超宽带模式对应的两个频率范围进行重采样,从而形成低频子带音频数据和高频子带音频数据;从标准化音频数据帧集合中的每一帧提取一个音频特征集,从而在发送设备上形成一组音频特征集;在发送设备上将标准化音频数据帧集合内的每个帧的音频特征集量化为压缩的音频特征集;在发送设备上将一组压缩的音频特征集打包成一个音频数据包;从发送设备上将音频数据包发送到接收设备;在接收设备上以宽带模式接收音频数据包;通过在接收设备上执行逆量化处理来获取帧集合内的每个帧的音频特征集,其中所述音频特征集包括接收设备上的巴克频率倒谱(Bark-Frequency CepstrumCoefficients,简称BFCC)系数集合;在接收设备上根据所述的BFCC系数集合确定线性预测编码(LPC)系数集合;在接收设备上根据音频特征集为帧集合内的每帧音频数据的每个样本确定下一个样本的线性预测值;在接收设备上使用深度学习方法从样本的声学特征矢量中提取用于残差信号预测的上下文矢量;基于上下文矢量和深度学习网络、线性预测值、最终输出信号值和最终预测残差信号确定样本的残差信号预测值;结合线性预测值和残差信号预测值生成该样本的音频信号;为该样本的音频信号进行去加重处理以生成去加重的音频信号,用于在接收设备上播放。
在超宽带模式下为标准化音频数据帧集合内的每个帧提取一个音频特征集,包括:使用高通滤波器对低频子带音频数据进行预加重处理,从而形成预加重的低频子带音频数据;对预加重的低频子带音频数据运行巴克频率倒谱系数(BFCC)计算以提取音频BFCC特征,并对预加重的低频子带音频数据执行音高预测处理以提取音频音高特征,所述音频音高特征包括基音周期和基音相关性等信息;根据高频子带音频数据计算音频线性预测编码(LPC)系数;将LPC系数转换为线谱频率(LPF)系数;确定低频子带数据和高频子带音频数据之间的能量和之比,其中能量和之比、LPF系数、音频音高特征和音频BFCC特征构成音频特征集的一部分。
在宽带模式下为标准化音频数据的帧集合中的每一帧提取一个音频特征集,包括:使用高通滤波器对每一帧的标准化音频数据进行预加重处理,从而形成预加重的标准化音频数据;对预加重的标准化音频数据运行巴克频率倒谱系数(Bark-FrequencyCepstrum Coefficients,简称BFCC)计算以提取音频的BFCC特征,并对预加重的标准化音频数据进行音高预测处理以提取包含基音周期和基音相关性等信息的音频音高特征,其中音频音高特征和音频BFCC特征构成音频特征集的一部分。
在一种实施方案中,逆量化过程采用的是逆差分矢量量化(DVQ)方法、逆残差矢量量化(RVQ)方法或逆插值法。
量化音频特征集的方法包括:使用残差矢量量化(RVQ)方法或差分矢量量化(DVQ)方法对该帧集合内的每个I帧的音频特征集进行压缩,其中所述帧集合中至少有一个I帧;使用插值法对帧集合内每个非I帧的音频特征集进行压缩。
在一种实施方案中,所述的两个频率范围分别为0至16kHz和16kHz至32kHz,且抑制噪声采用的是基于机器学习的方法。
附图说明
本专利或申请文件包含至少一个彩色附图。专利局将根据需求并在支付相关费用的情况下,提供带有彩色附图的本专利或专利申请公开的副本。
在权利要求书中将会特别指出本发明的技术特征,同时也可通过参考以下说明书及作为说明书一部分的说明书附图,来更好地理解本发明本身以及本发明的构成和使用方法。本发明的全部附图也是构成本发明的一部分内容,其中相同的附图标记表示相同的部件:
图1是根据本发明所绘制的实时通信***的示意框图。
图2是根据本发明所绘制的安装了改进的实时通信应用程序的实时通信设备的示意框图。
图3是根据本发明所绘制的在低码率网络连接时改进的实时通信应用程序向远程收听方提供高质量音频这一过程的流程图。
图4A是根据本发明所绘制的改进的实时通信应用程序中的改进的编码器提取超宽带音频特征这一过程的流程图。
图4B是根据本发明所绘制的的改进的实时通信应用程序中改进的编码器提取宽带音频特征这一过程的流程图。
图5是根据本发明所绘制的改进的实时通信应用程序中改进的编码器压缩音频特征这一过程的流程图。
图6是根据本发明所绘制的改进的实时通信应用程序中改进的解码器对接收到的超宽带数据包进行解码并获取音频数据以用于播放这一过程的流程图。
图7是根据本发明所绘制的改进的实时通信应用程序中改进的解码器对接收到宽带数据包进行解码并获取音频数据以用于播放这一过程的流程图。
图8是根据本发明所绘制的改进的实时通信应用程序中改进的解码器对一个帧的超宽带压缩的音频特征集进行去量化和解码这一过程的流程图。
本领域的普通技术人员应当理解,为了简单明了地展示以上附图,附图中的各个部件并不一定是按比例绘制,其中一些部件的尺寸可能相对于其他部件进行了放大,以便帮助理解本发明。此外,本发明描述或说明的某些元件、零件、组件、模块、步骤、操作、事件和/或过程的特定顺序在实际应用中也可以进行变化。本领域普通技术人员应当理解,为简单明了地阐述,在现有可行的实施方案中众所周知且易于理解的有用和/或必需的元件可能在本发明中并未进行描述,以便能清晰地呈现本发明的各种实施方案。
具体实施方式
图1是一个实时通信(RTC)***的示意框图,其整体以100表示。RTC***包括一组电子通信设备,如102和104所示,其通过网络(如互联网)122进行相互通信。在一种实施方案中,网络通信协议采用的是传输控制协议(TCP)和互联网协议(IP)(统称为TCP/IP)。设备102-104在本发明中也被称为参与设备。设备102-104通过无线或有线网络(如Wi-Fi网络和以太网网络)连接到互联网122。
通信设备102-104中的每一个设备都可以是能够通过网络连接访问互联网122的笔记本电脑、平板电脑、智能手机或其他类型的便携式设备。在图2中将以设备102为例对设备102-104做进一步说明。
图2是一个无线通信设备102的示意框图。设备102包括处理器202、适配处理器202且具有一定容量的存储器204、适配处理器202的一个或多个用户输入接口206(如触摸板、键盘、鼠标等)、适配处理器202的语音输入接口208(如麦克风)、适配处理器202的语音输出接口210(如扬声器)、适配处理器202的视频输入接口212(如相机),适配处理器202的视频输出接口214(如显示屏),以及适配处理器202的网络接口216(如Wi Fi网络接口)以用于连接至互联网122。设备102还包括在处理器202上运行的操作***220(如
Figure BDA0003691759310000071
等)。在设备102上加载并运行一个或多个计算机软件应用程序222-224。计算机软件应用程序222-224使用一种或多种计算机软件编程语言(如C、C++、C#、Java等)编译而成。
在一种实施方案中,计算机软件应用程序222为一种实时通信软件应用程序。例如,两人或多人可使用应用程序222通过互联网122进行在线会议。这种实时通信涉及音频和/或视频通信。
回到图1中,RTC设备102-104可用于参与RTC会话。RTC设备222-224中的每一个设备都运行了改进的RTC应用软件222,其包括基于机器学习的噪声抑制模块112、编码器114和解码器116。设备102的语音输入接口208捕获音频数据132并将其发送到RTC会话的其他参与设备,如设备104。对于特定的音频数据132而言,设备102是发送设备,即发送端;设备104是接收设备,即接收端。而对于由设备104捕获并发送到设备102的音频数据而言,则设备104是发送端,而设备102是接收端。编码器114和解码器116在本发明中也统称为编解码器。
首先使用基于机器学习的降噪模块112对音频数据132进行处理,然后通过新型编码器114对处理后的音频数据进行编码。再将编码后的音频数据发送至设备104。新型解码器116对接收到的音频数据进行处理,然后解码后的音频数据134在设备104中的语音输出接口210上进行播放。
当设备102-104之间的网络连接由于各种原因(如网络拥塞或数据包丢失等)变慢并且为低带宽(也就是低码率)传输时,编码器114将以低码率音频编解码器运行,而解码器116将以高质量解码器运行,从而减少对网络带宽的需求和要求,同时保持收听方接收到的音频数据134的质量。图3进一步说明了在弱网络情况下改进的RTC应用程序222提供高质量音频通信的过程。
图3展示了改进的RTC应用程序222在网络连接为低码率时使用新型低码率音频编码器114和新型高质量解码器116提供高质量音频这一过程的流程图,其过程整体以300表示。在302处,RTC应用程序222接收音频数据132流。在304处,RTC应用程序222中基于机器学习的噪声抑制模块112对音频数据132进行处理以抑制和减少噪声。
当音频数据中存在噪声时,传统的基于神经网络生成的声码器的性能会降低。尤其是过渡噪声会明显降低合成语音的清晰度。因此,最好是能在编码阶段之前就减少甚至消除音频数据中的噪声。基于统计方法的传统噪声抑制(NS)算法只有在具有稳定的背景噪声时才有效。改进的RTC应用程序222配备了基于机器学习的噪声抑制(ML-NS)模块112以减少音频数据132中的噪声。ML-NS模块使用循环神经网络(RNN)和/或卷积神经网络(CNN)算法等方法来减少音频数据132中的噪声。
步骤304的输出在本发明中也被称为干净的音频数据。在不执行步骤304的情况下,音频数据132在本发明中也被称为干净的音频数据。在306处,改进的编码器114将干净的音频数据划分成一个音频数据帧集合。例如,集合中每一帧的长度可以为5毫秒(ms)或10毫秒。
在308处,改进的编码器114将数据帧集合内的每个帧进行标准化处理。每帧中的音频数据是脉冲编码调制(Pulse-code Modulation,简称PCM)数据。改进的编码器114和解码器116以两种模式运行:宽带模式和超宽带模式。在一种实施方案中,在308处,干净的音频数据被重新采样为16kHz和32kHz,分别用于宽带模式和超宽带模式。其码率分别为2.1kbps和3.5kbps。因此在308处,改进的编码器114将每帧的标准化PCM数据分解成两个子带的音频数据。在一种实施方案中,音频数据中的较低频的子带(在本发明中也称为低频子带)包含采样率从0kHz到16kHz的音频数据,而较高频的子带(在本发明中也称为高频子带)包含采样率从16kHz到32kHz的音频数据。因此,如果分为两个子带,则每个帧包含分解的低频子带音频数据和分解的高频子带音频数据。在运行步骤308之后,每个帧在本发明中也被称为分解帧或音频数据的分解帧。在一种实施方案中,采用的是正交镜像滤波器(QMF)进行分解处理。QMF滤波器还可避免频谱混叠。
在310处,改进的编码器114为音频数据的每一帧提取一个音频特征集。在超宽带模式下,特征集包括18个巴克频率倒谱系数(BFCC)、基音周期、低频子带的基音相关性、高频子带的线谱频率(LSF),以及每帧的低频子带音频数据和高频子带音频数据之间的能量总和的比率。在宽带模式下,该特征集包括18个BFCC、基音周期和基音相关性。特征矢量以更小的数据量保留了原始波形信息。执行矢量量化方法还可以进一步减小特征矢量的数据量。本发明将原始PCM数据压缩超过95%,而仅损失一小部分音频质量。
图4A进一步说明了在310处在超宽带模式下的音频特征提取过程。图4A的流程图展示了超宽带模式下编码器114提取音频数据中每一帧的音频特征的过程,该过程整体以400表示。在404处,改进的编码器114使用高通滤波器(如无限脉冲响应(IIR)滤波器)对PCM数据进行预加重处理,从而形成预加重的低频子带音频数据。在406处,改进的编码器114对预加重的低频子带音频数据执行BFCC运算。此外,在406处,改进的编码器114从低频子带音频数据中提取基音周期和基音相关性等音高特征。由于LPC系数α可以根据BFCC进行预测,因此只有BFCC、基音周期和基音相关性这几项在特征矢量中予以明确表示。LPC是指线性预测编码。
在步骤408、410和412处,针对音频数据的每一帧,改进的编码器114对较高频率的子带音频数据进行操作。在408处,编码器114使用诸如Burgs算法来计算LPC系数(如α_h)。在410处,编码器114将LPC系数转换为线谱频率(LSF)。在412处,改进的编码器114确定每帧的低频子带音频数据和高频子带音频数据之间的能量总和的比率。在一种实施方案中,特征集包括了两个子带的能量比。因此,每帧的音频特征矢量包括BFCC、音高、LSF和两个子带之间的能量比。步骤402-406在本发明中被统称为提取音频数据的低频子带中的一帧的一个音频特征集,而步骤408-412在本发明中被统称为提取音频数据的高频子带中的一帧的一个音频特征集。音频特征包括能量和之比和线谱频率(LSF),其在本发明中分别被称为音频能量特征和音频LPC特征。
图4B进一步说明了在宽带模式下310处的音频特征提取过程。在422处,改进的编码器114使用高通滤波器(如无限脉冲响应(IIR)滤波器)对PCM数据进行预加重处理,从而形成预加重的音频数据。在424处,改进的编码器114对预加重的音频数据执行BFCC以及包含基音周期和基音相关性计算的音高预测操作。
回到图3,在312处,改进的编码器114使用信号压缩法(如矢量量化和帧相关方法)对每帧提取的音频特征集进行压缩。在一种实施方案中,信号压缩法采用的是差分矢量量化(DVQ)方法。或者也可以采用残差矢量量化(RVQ)方法作为信号压缩的方法。在进一步的实施方案中,压缩操作采用了适当的插值策略。图5对压缩过程做了进一步说明。
图5展示了改进的编码器114对帧集合的一组音频特征集进行压缩这一过程的流程图,其过程整体以500表示。在502处,改进的编码器114使用例如残差矢量量化(RVQ)等方法对帧集合内的每个关键帧的音频特征集进行压缩。在一种实施方案中,在每个数据包中,至少有一个帧是用RVQ方法编码的。这样的帧在本发明中被称为关键帧(I-frame)。其他帧在本发明中被称为非I帧、非关键帧或其他帧。在504处,改进的编码器114使用例如插值等方法来压缩帧集合内的每个非I帧的音频特征集。
相邻音频帧的声学特征具有很强的局部相关性。例如,一个音素的发音通常跨越几个帧。因此,可以通过插值法从其相邻帧的特征矢量中获取非I帧的特征矢量。使用插值法(如差分矢量量化(DVQ)或多项式插值法)可实现该操作。例如,一个数据包中有4帧(即同一个数据包中有4帧音频数据的4个音频特征集),只有第2帧和第4帧进行了RVQ量化操作。第1帧是使用之前数据包的第2帧和第4帧***的,第3帧是采用DVQ方法使用第2帧和第4帧***的。编码插值参数比RVQ方法所需的数据位更少。但是插值法可能不如RVQ方法准确。
回头来看图3,在314处,改进的编码器114将帧集合的一组压缩的音频特征集打包成音频数据包。在一种实施方案中,每个数据包包含对应于4帧音频数据的4个压缩的音频特征集。下表展示了一个数据包示例:
含位域分配的40毫秒(4帧)数据包示例
Figure BDA0003691759310000111
/>
在该示例中,40ms数据包的数据有效载荷的总比特数为140,相当于宽带和超宽带模式下的码率分别为2.1kbps和3.5kbps。在316处,RTC应用程序222通过互联网122将数据包发送至设备104。例如,可以使用UDP协议来实现传输。在设备104上运行的RTC应用程序222接收数据包并对其进行处理。
图6展示了改进的解码器116在超宽带模式下对接收的数据包进行解码并获得音频数据以在接收设备116上播放这一过程的流程图,其过程整体以600表示。在602处,改进的解码器116在316处接收由发送设备102发送的音频数据包。接收到数据包后,在604处,改进的解码器116从数据包中获取每帧的音频特征集。当子带为0kHz–16kHz和16kHz–32kHz时,高频子带的采样频率范围为16kHz–32kHz,低频子带的采样频率范围为除此之外的其他频段。在高频子带中,可直接从数据包中获取LPC系数和能量特征(如低频和高频子带之间的能量和之比)。
图8进一步说明了获取每个帧的音频特征集的过程。图8展示了改进的解码器116在超宽带模式下对数据帧的压缩后的音频特征集进行去量化这一过程的流程图。在802处,改进的解码器116通过执行步骤312的逆向操作,即去量化过程,从而从数据包中获取数据帧的音频特征,如BFCC、基音周期和相关性、LSF和能量比率等特征信息。在804处,改进的解码器116确定帧中音频数据的高频子带的LPC系数。在806处,改进的解码器116根据BFCC特征确定低频子带的LPC系数。在本发明的叙述中,在802处获取的音频特征也被称为音频特征的第一子集;在804处获取的音频特征也被称为音频特征的第二子集;在806处获取的音频特征也被称为音频特征的第三子集。
每个子带的总语音信号被分解为线性和非线性部分。在一种实施方案中,采用LPC模型确定线性预测值,该LPC模型以LPC系数作为音频特征输入,采用自回归的方式生成该值。在时间t上的每个子带的总语音信号可以表示为:
Figure BDA0003691759310000121
其中k是LPC模型的阶数,αi是第i个LPC系数,st-i是之前第i个样本,et是残差信号。LPC系数通过最小化激励et进行优化。如下所示,第一项代表LPC预测值:
Figure BDA0003691759310000122
上述等式用于在606处预测每个子带中的LPC预测值。而神经网络模型只能在612处和614处为低频子带预测非线性残差信号。通过这种方式,可以显著降低计算复杂度,同时实现高质量的语音生成。
再来看图6,在606处,在每个子带内,基于音频特征为每帧音频数据的每个样本确定下一个样本的线性预测值。例如,音频样本可以是PCM样本。在一种实施方案中,在606处确定每个音频数据样本的线性预测值。在612处,改进的解码器116从声学特征矢量中提取用于614处残差信号预测的上下文矢量。
将音频特征BFCC、基音周期和相关性作为输入,针对每一帧执行步骤612。由于基音周期是残差预测的一个重要特征,先把基音周期组合起来,然后映射到更大的特征空间以丰富其表现形式。然后再将音高特征与其他声学特征连接起来并输入到1D卷积层中。卷积层在时间维度有更大的感知阈。之后,CNN层的输出通过全连接层的方式连接,再以全连接层作为输出层,得到最终的上下文矢量cf(本发明中也称为cl,f)。上下文矢量cf是残差预测网络的一个输入,并在第f帧的数据生成过程中保持不变。
在614处,改进的解码器116确定预测误差(在本发明中也称为残差信号预测值)。换言之,在614处,改进的解码器116进行残差信号预测。残差信号et通过神经网络(也称为残差预测网络)算法进行建模和预测。输入特征包括条件网络输出矢量cf,、当前LPC预测信号pt以及非线性残差信号et和全信号st的最终预测。为丰富信号的嵌入,首先将信号转换为mu-law域,然后使用共享嵌入矩阵映射到高维矢量。连接的特征被输入RNN层,随后接着的是一个全连接层。此后,采用softmax激活法来计算et的概率分布,把信号的取值范围限制在非对称量化脉冲编码调制(PCM)域中,如μ-law或A-law域。使用抽样策略而不是选用具有最大概率的值来选择et的最终值。
在616处,改进的解码器116将线性预测值和非线性预测误差进行组合以生成每个样本的子带音频信号。生成的子带音频信号(st)是pt和et的总和。由于在编码过程中加重了低频子带信号,因此需要对输出信号st进行去加重处理以获得原始信号。因此,在618处,改进的解码器116对生成的低频子带信号进行去加重处理以还原成无加重的低频子带音频信号。例如,如果在编码时使用高通滤波器对PCM样本进行了加重处理,则对输出信号使用低通滤波器来进行去加重处理,其在本发明中也被称为去加重。
在622处,对于较高频率的子带信号,使用以下等式预测残差信号:
Figure BDA0003691759310000141
其中eh,t和el,t是高频段和低频段在时间t上的残差信号。Eh和El分别是当前帧在高频段和低频段上的能量。
在624处,改进的解码器116将线性预测值和残差预测值进行组合以生成用于高频子带中的每个样本的子带音频信号。在632处,改进的解码器116将在618处生成的去加重的低频子带音频信号和在624处生成的高频子带的子带音频信号进行合并,使用逆正交镜像滤波器(Quadrature Mirror Filter,简称QMF)生成音频数据。针对高频子带音频数据中每帧的音频特征集执行步骤622-624。例如,如果在编码时使用高通滤波器对PCM样本进行了加重处理,则对输出信号使用低通滤波器进行去加重处理,在本发明中也被称为去加重。所生成的音频数据在本发明中也被称为去加重音频数据或样本,如32kHz的波形信号。如果合并的音频样本与正确的播放格式不匹配,例如如果合并的音频样本的格式是8位μ律,则需要将其转换为16位线性PCM格式以在设备104上播放。在这种情况下,在634处,改进的解码器116将合并的音频样本转换为音频数据134以供设备104播放。
图7展示了改进的解码器116在宽带模式下对接收的数据包进行解码这一过程的流程图,其整体过程以700表示。在702处,改进的解码器116接收由发送端设备102在316处发送的音频数据包。在704处,改进的解码器116执行步骤312的逆向过程,即的逆矢量量化过程来获取音频特征,如宽带音频数据的BFCC、基音周期和基音相关矢量等特征。在706处,改进的解码器116根据BFCC特征确定LPC系数。然后改进的解码器116以自回归的方式对信号进行重构。在708处,改进的解码器116使用LPC系数和之前的16个输出信号计算当前样本的预测值。在一种实施方案中,该预测值采用的是线性预测值。在710处,使用BFCC和音高特征提取上下文矢量。在712处,非线性残差信号预测根据上下文矢量、当前线性预测值、最终输出信号值和最终预测残差信号等信息进行。在714处,通过对线性和非线性残差预测值求和来确定当前信号。在716处,因为之前相应的原始信号在404处做了加重处理,因此此处对输出信号进行去加重处理。
根据以上描述,本发明显然可以存在许多其他的修改和变化。因此,请注意在所附权利要求的范围内,本发明可以采用不同于以上具体描述的方式来实施。例如,残差预测网络可以采用一些不同的设计来实现。首先,RNN具有很多变体,例如GRU、LSTM、SRU单元等。其次,直接预测st而不是预测残差信号et,这也是一种替代方案。第三,批量采样使得在单个时间步长中可预测多个样本。这种方法通常以降低音频质量为代价来提高解码效率。残差信号el,t是使用上述网络进行预测的,其中下标l表示低频子带(h表示高频子带),t是时间步长。因此全信号s′l,t就是LPC预测pl,t和残差信号el,t之和。然后再将该值输入LPC模块来对pl,t+1进行预测。
关于本发明的上述描述是为了更好地说明和解释,而并非有排他性意图或将本发明限定在上述的特定形式。以上的描述是为了更好地解释本发明的原理和这些原理的实际应用,以使本领域的相关技术人员能够最好地利用本发明在所预期的合适用途中实现各种实施方案和进行各种修改。应该认识到的是,本发明中“一”或“一个”等词同时包括单数和复数形式。同时,在适当的情况下,本发明所提到的多个元素的情况也应包括其单数形式。
本发明内容的范围并不仅限于以上说明书的内容,而是由权利要求书来确定保护范围。此外,尽管提出的权利要求可能范围较窄,但是应该认识到,本发明所提供的范围比权利要求所提出的范围要宽泛得多。我们将在要求本申请优先权的一个或多个申请中提出范围更大的权利要求。在以上说明书和附图中公开的部分内容如果没有包含在权利要求书的范围之内,则所述这些发明内容并不对外公开,并且我们保留今后针对上述发明内容提出一项或多项专利申请的权利。

Claims (15)

1.一种计算机运行方法,用于在实时通信的低码率网络连接中提供高质量音频播放,所述方法由实时通信软件应用程序运行,包括:
1)在发送设备上接收音频输入数据流;
2)在所述发送设备上抑制所述音频输入数据流中的噪声,生成干净的音频输入数据;
3)在所述发送设备上将所述干净的音频输入数据拆分为一个音频数据帧集合;
4)在所述发送设备上将所述帧集合内的每一帧标准化,生成标准化音频数据帧集合,其中所述帧的音频数据按照宽带模式和超宽带模式对应的两个频率范围进行重采样,从而形成低频子带音频数据和高频子带音频数据;
5)在所述发送设备上从所述标准化音频数据帧集合中的每一帧中提取一个音频特征集,从而形成一组音频特征集;
6)在所述发送设备上将所述标准化音频数据帧集合内的每个帧的所述音频特征集量化为压缩的音频特征集;
7)在所述发送设备上将所述压缩的音频特征集打包成一个音频数据包;
8)从所述发送设备上将所述音频数据包发送到接收设备;
9)在所述接收设备上以所述超宽带模式接收所述音频数据包;
10)从所述接收设备上的所述音频数据包中获取所述标准化音频数据帧集合内每一帧的所述音频特征集;
11)在所述接收设备上,在所述超宽带模式中的低频子带和高频子带内,根据所述数据帧所对应的所述音频特征集为每帧的音频数据样本确定下一个样本的线性预测值;
12)在所述接收设备上,从所述低频子带中的样本的声学特征矢量中提取用于残差信号预测的上下文矢量;
13)在所述接收设备上,使用深度学习方法为所述低频子带中的所述样本确定第一残差信号预测值;
14)在所述接收设备上将所述线性预测值与所述第一残差预测值结合,为所述低频子带中的所述样本生成子带音频信号;
15)在所述接收设备上对所述子带音频信号进行去加重处理,形成去加重的低频子带音频信号;
16)在所述接收设备上,确定所述高频子带中样本的第二残差预测值;
17)在接收设备上,结合所述线性预测值和所述第二残差预测值,为所述高频子带中的所述样本生成子带音频信号;
18)在所述接收设备上,将所述去加重的低频子带音频信号和所述高频子带中所述样本的子带音频信号合并,形成合并的音频样本;以及
19)将所述合并的音频样本转换为音频数据,用于在所述接收设备上播放。
2.根据权利要求1所述的方法,其中,在所述超宽带模式下,为所述标准化音频数据帧集合内的每个帧提取一个音频特征集包括:
1)使用高通滤波器对所述低频子带音频数据进行预加重处理,形成预加重的低频子带音频数据;
2)对所述预加重的低频子带音频数据执行巴克频率倒谱系数运算以提取音频的巴克频率倒谱系数特征,并对所述预加重的低频子带音频数据进行音高预测处理以提取音频音高特征,其包括基音周期和基音相关性等信息;
3)根据所述高频子带音频数据计算音频线性预测编码系数;
4)将所述线性预测编码系数转换为线谱频率系数;以及
5)确定所述低频子带音频数据和所述高频子带音频数据之间的能量和之比,其中能量和之比、线谱频率系数、音频音高特征和音频巴克频率倒谱系数特征构成所述音频特征集的一部分。
3.根据权利要求1所述的方法,其中,在所述宽带模式下,为所述标准化音频数据帧集合中的每一帧提取一个音频特征集包括:
1)使用高通滤波器对每一帧的所述标准化音频数据进行预加重处理,形成预加重的标准化音频数据;以及
2)对所述预加重的标准化音频数据执行巴克频率倒谱系数运算以提取音频的巴克频率倒谱系数特征,并对所述预加重的标准化音频数据进行音高预测处理以提取包含基音周期和基音相关性等信息的音频音高特征,其中所述音频音高特征和所述音频的巴克频率倒谱系数特征构成所述音频特征集的一部分。
4.根据权利要求1所述的方法,其中,在所述接收设备上,所述音频数据包中获取所述标准化音频数据帧集合内的每个帧的所述音频特征集包括:
1)对所述压缩的音频特征集执行逆量化过程以获得所述音频特征集;
2)根据线谱频率系数确定所述高频子带的线性预测编码系数;以及
3)根据巴克频率倒谱系数确定所述低频子带的线性预测编码系数。
5.根据权利要求4所述的方法,其中所述逆量化过程使用逆差分矢量量化方法、逆残差矢量量化方法或逆插值法。
6.根据权利要求1所述的方法,其中量化所述音频特征集的方法包括:
1)使用残差矢量量化方法或差分矢量量化方法压缩所述帧集合内的每个I帧的所述音频特征集,其中所述帧集合中至少有一个I帧;以及
2)使用插值法对所述帧集合内每个非I帧的所述音频特征集进行压缩。
7.根据权利要求1所述的方法,其中所述两个频率范围分别为0至16kHz和16kHz至32kHz。
8.根据权利要求1所述的方法,其中所述噪声通过基于机器学习的方法进行抑制。
9.一种计算机运行方法,用于在实时通信的低码率网络连接中提供高质量音频进行播放,所述方法由实时通信软件应用程序运行,包括:
1)在发送设备上接收音频输入数据流;
2)在所述发送设备上抑制所述音频输入数据流中的噪声,生成干净的音频输入数据;
3)在所述发送设备上将所述干净的音频输入数据拆分为一个音频数据帧集合;
4)在所述发送设备上将所述帧集合内的每一帧标准化,生成标准化音频数据帧集合,其中所述帧的音频数据按照宽带模式和超宽带模式对应的两个频率范围进行重采样,从而形成低频子带音频数据和高频子带音频数据;
5)在所述发送设备上,从所述标准化音频数据帧集合中的每一帧提取一个音频特征,从而组成一组音频特征集;
6)在所述发送设备上将所述标准化音频数据帧集合内的每个帧的所述音频特征集量化为压缩的音频特征集;
7)在所述发送设备上将所述压缩的音频特征集打包成一个音频数据包;
8)从所述发送设备上将所述音频数据包发送到接收设备;
9)在所述接收设备上以所述宽带模式接收所述音频数据包;
10)通过在所述接收设备上执行逆量化过程来获取所述帧集合内的每个帧的所述音频特征集,其中所述音频特征集中包括一个巴克频率倒谱系数集合;
11)在所述接收设备上,根据所述巴克频率倒谱系数集合确定一个线性预测编码系数集合;
12)在接收设备上,根据所述音频特征集为所述帧集合内的每帧音频数据的每个样本确定下一个样本的线性预测值;
13)在所述接收设备上,使用深度学习方法从所述样本的声学特征矢量中提取用于残差信号预测的上下文矢量;
14)基于所述上下文矢量和深度学习网络、所述线性预测值、最终输出信号值和最终预测残差信号确定所述样本的残差信号预测值;
15)结合所述线性预测值和所述残差信号预测值生成所述样本的音频信号;以及
16)为所述样本的音频信号进行去加重处理以生成去加重的音频信号,用于在所述接收设备上播放。
10.根据权利要求9所述的方法,其中,在所述超宽带模式下,从所述标准化音频数据帧集合中的每一帧中提取一个音频特征集包括:
1)使用高通滤波器对所低频子带音频数据进行预加重处理,从而形成预加重的低频子带音频数据;
2)对所述预加重的低频子带音频数据运行巴克频率倒谱系数计算以提取音频巴克频率倒谱系数特征,并对所述预加重的低频子带音频数据执行音高预测处理以提取音频音高特征,其中所述音频音高特征包括基音周期和基音相关性等信息;
3)根据所述高频子带音频数据计算音频线性预测编码系数;
4)将所述线性预测编码系数转换为线谱频率系数;以及
5)确定所述低频子带音频数据和所述高频子带音频数据之间的能量和之比,其中所述能量和之比、所述线谱频率系数、所述音频音高特征和所述音频巴克频率倒谱系数特征构成所述音频特征集的一部分。
11.根据权利要求9所述的方法,其中,在所述宽带模式下,从所述标准化音频数据帧集合中的每一帧中提取一个音频特征集包括:
1)使用高通滤波器对每一帧的所述标准化音频数据进行预加重处理,从而形成预加重的标准化音频数据;以及
2)对所述预加重的标准化音频数据运行巴克频率倒谱系数计算以提取音频的巴克频率倒谱系数特征,并对所述预加重的标准化音频数据进行音高预测处理以提取包含基音周期和基音相关性等信息的音频音高特征,其中所述音频音高特征和所述音频巴克频率倒谱系数特征构成所述音频特征集的一部分。
12.根据权利要求9所述的方法,其中所述逆量化过程采用的是逆差分矢量量化方法、逆残差矢量量化方法或逆插值法。
13.根据权利要求9所述的方法,其中量化所述音频特征集的方法包括:
1)使用残差矢量量化方法或差分矢量量化方法对所述帧集合内的每个I帧的所述音频特征集进行压缩,其中所述帧集合中至少有一个I帧;以及
2)使用插值法对所述帧集合内每个非I帧的所述音频特征集进行压缩。
14.根据权利要求9所述的方法,其中所述的两个频率范围分别为0至16kHz和16kHz至32kHz。
15.根据权利要求9所述的方法,其中抑制噪声采用的是基于机器学习的方法。
CN202210666398.7A 2021-11-17 2022-06-13 低码率网络连接中提供高质量音频通信的***和方法 Pending CN116137151A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/528,217 US20230154474A1 (en) 2021-11-17 2021-11-17 System and method for providing high quality audio communication over low bit rate connection
US17/528,217 2021-11-17

Publications (1)

Publication Number Publication Date
CN116137151A true CN116137151A (zh) 2023-05-19

Family

ID=86323940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210666398.7A Pending CN116137151A (zh) 2021-11-17 2022-06-13 低码率网络连接中提供高质量音频通信的***和方法

Country Status (2)

Country Link
US (1) US20230154474A1 (zh)
CN (1) CN116137151A (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
TWI708243B (zh) * 2018-03-19 2020-10-21 中央研究院 於分散式語音辨識中基於小波轉換之語音特徵壓縮及重建系統與方法
US10990812B2 (en) * 2018-06-20 2021-04-27 Agora Lab, Inc. Video tagging for video communications
US11437050B2 (en) * 2019-09-09 2022-09-06 Qualcomm Incorporated Artificial intelligence based audio coding
GB2590509B (en) * 2019-12-20 2022-06-15 Sonantic Ltd A text-to-speech synthesis method and system, and a method of training a text-to-speech synthesis system

Also Published As

Publication number Publication date
US20230154474A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
US11978460B2 (en) Truncateable predictive coding
US7848921B2 (en) Low-frequency-band component and high-frequency-band audio encoding/decoding apparatus, and communication apparatus thereof
US8560307B2 (en) Systems, methods, and apparatus for context suppression using receivers
WO2021147237A1 (zh) 语音信号处理方法、装置、电子设备及存储介质
CN103187065B (zh) 音频数据的处理方法、装置和***
US8831932B2 (en) Scalable audio in a multi-point environment
JP2010170142A (ja) ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置
EP2402939A1 (en) Full-band scalable audio codec
JP2001202097A (ja) 符号化二進オーディオ処理方法
WO2012081166A1 (ja) 符号化装置、復号装置およびそれらの方法
JPWO2006046547A1 (ja) 音声符号化装置および音声符号化方法
CN113470667A (zh) 语音信号的编解码方法、装置、电子设备及存储介质
US6052659A (en) Nonlinear filter for noise suppression in linear prediction speech processing devices
WO2007140724A1 (fr) procédé et appareil pour transmettre et recevoir un bruit de fond et système de compression de silence
WO2023197809A1 (zh) 一种高频音频信号的编解码方法和相关装置
US9984698B2 (en) Optimized partial mixing of audio streams encoded by sub-band encoding
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
US7346503B2 (en) Transmitter and receiver for speech coding and decoding by using additional bit allocation method
CN116137151A (zh) 低码率网络连接中提供高质量音频通信的***和方法
Hiwasaki et al. A wideband speech and audio coding candidate for ITU-T G. 711WBE standardization
Ghous et al. TMS320C6713 DSK Implementation of G. 711 Coded VoIP Signal
Kim et al. An embedded variable bit-rate audio coder for ubiquitous speech communications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination