CN117423348A - 基于深度学习和矢量预测的语音压缩方法及*** - Google Patents

基于深度学习和矢量预测的语音压缩方法及*** Download PDF

Info

Publication number
CN117423348A
CN117423348A CN202311743425.7A CN202311743425A CN117423348A CN 117423348 A CN117423348 A CN 117423348A CN 202311743425 A CN202311743425 A CN 202311743425A CN 117423348 A CN117423348 A CN 117423348A
Authority
CN
China
Prior art keywords
vector
prediction
difference
voice
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311743425.7A
Other languages
English (en)
Other versions
CN117423348B (zh
Inventor
李晔
于兴业
吝灵霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202311743425.7A priority Critical patent/CN117423348B/zh
Publication of CN117423348A publication Critical patent/CN117423348A/zh
Application granted granted Critical
Publication of CN117423348B publication Critical patent/CN117423348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开提供了基于深度学习和矢量预测的语音压缩方法及***,涉及语音信号处理技术领域,包括:获取低速率下的多帧语音信号,并预处理为语音序列;将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,本公开提高了语音压缩编码合成的质量。

Description

基于深度学习和矢量预测的语音压缩方法及***
技术领域
本公开涉及语音信号处理技术领域,具体涉及基于深度学习和矢量预测的语音压缩方法及***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
低速率语音编码技术在卫星通信、短波通信、水声通信以及保密通信等领域中有着广泛的应用需求,比如,极端恶劣的山区通信环境中,超短波电台要保障全天候24小时通信,语音编码的编码速率往往要低于600bps。当语音的编码速率降低时,语音合成质量会受到影响,因此声学特征的提取和比特分配变得尤为重要。尤其是基于深度学习的超低速率语音压缩编码技术,这一类语音压缩编码技术也称之为神经声码器。
目前神经声码器的基本步骤包括:在编码端对输入信号样本点进行声学特征提取;在量化端对提取的特征进行量化,并打包成二进制字节进行传输;然后在解量化端对接收到的数据包进行解包,并根据码本还原声学特征,最后在解码端对提取的声学特征进行合成,还原输入语音信号。其神经声码器的量化方式主要采用标量量化或者残差矢量量化,但是上述方案仍然存在以下弊端:
1)在面临数据较大的场景时,标量量化将每个维度独立量化为一个标量,容易导致信息丢失,且标量量化对噪声信号非常敏感。
2)残差矢量量化相对于标量量化来说,虽然在一定程度上减少了量化损失,但使用多个量化器额外增加了计算和存储的开销。
然而,上述两种方式每个量化都是独立的,不依赖于其他量化结果,换句话来说,上述两种方式并不依赖于编码器或者解码器的过去状态或将来状态,使得数据之间的相关性无法得到利用。
发明内容
本公开为了解决上述问题,提出了基于深度学习和矢量预测的语音压缩方法及***,在深度学习的基础上,通过引入预测矢量量化,对输入矢量与预测矢量的差值进行矢量量化,以此来提高语音编码质量。
根据一些实施例,本公开采用如下技术方案:
基于深度学习和矢量预测的语音压缩方法,包括:
获取低速率下的多帧语音信号,并预处理为语音序列;
将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;
对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。
根据一些实施例,本公开采用如下技术方案:
基于深度学习和矢量预测的语音压缩***,包括:
数据获取模块,用于获取低速率下的多帧语音信号,并预处理为语音序列;
预测模块,用于将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;
矢量量化模块,用于对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量;
语音合成模块,用于对所述重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。
与现有技术相比,本公开的有益效果为:
本公开的提供了基于深度学习和矢量预测的语音压缩方法,将预测矢量量化技术引入到深度学习的低速率神经声码器中,利用预测器来减少量化损失,并提高矢量之间时间相关性,通过训练一个预测器,将过去的重建矢量作为输入来预测下一帧矢量,将预测矢量与输入矢量的差值输入码本进行量化,得到量化索引进行传输。在解码端接收量化索引,通过量化索引获得量化矢量,然后将量化矢量与预测器输出相加,得到输入矢量的重构矢量。该方法通过预测器利用数据的时间相关性,减少了量化误差,提高了语音的编码合成质量。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例的基于预测矢量量化的语音合成方法流程图;
图2为本公开实施例的预测矢量量化的流程图;
图3为本公开实施例的神经声码器编、解码结构示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本公开的一种实施例中提供了基于深度学习和矢量预测的语音压缩方法,包括:
步骤一:获取低速率下的多帧语音信号,并预处理为语音序列;
步骤二:将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;
步骤三:对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量;
步骤四:对所述重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。
作为一种实施例,本公开的基于深度学习和矢量预测的语音压缩方法,采用基于预测矢量量化的高质量低速率神经声码器技术,在低速率下进一步提高合成语音质量,首先通过第一深度网络对输入语音信号进行特征提取,根据预测矢量量化对参数进行量化编码,对编码后的索引打包成二进制字节流进行传输,在解码端对传输的字节进行解包,解码器器根据索引得到码本的量化矢量,使用深度网络合成语音,最后通过判别器来对合成语音进行真伪鉴别,以此来进一步提高合成语音质量。具体实施过程如下:
(1)输入语音信号为8KHz采样的语音,其实语音序列可以由表示,/>为语音通道数,/>为语音的总样本点,其中d为语音的持续时间,/>为语音的采样率。
(2)第一深度网络的编码器Enc由具有通道和的内核大小的一维卷积以及V个卷积块组成。每个卷积块由单个残差单元组成,残差单元由内核大小为 3和1的跳跃连接卷积组成,然后是一个由跨步卷积组成的下采样层,内核大小为是步幅 S 的两倍。残差单元由跳过连接卷积组成。每当下采样时,通道数都会加倍。卷积块后跟两层LSTM,用来更好地捕捉序列数据中的长期依赖关系。最后为内核大小为 K和/>输出通道的一维卷积层。其中每个卷积前都有一个Snake激活函数,定义为:/>,其中α是控制信号周期分量的频率的可训练参数,α越大,频率越高。经过编码后的语音信号/>。其中/>=32,V=4,S={1,4,5,8},K=7,/>=512。
(3)如图2所示,预测矢量量化过程为:在量化端,设计码本大小为N,即码本包含N个码字,其中每个码字代表每一块信号(矢量)映射为适合在信道中传输的索引,解码端根据此索引还原出重构块信号(矢量)。帧长为L,帧率为M,每个码本可以编码比特。
对于码本初始化,基于K-Means算法进行聚类,首先获取编码后的帧率,簇设置为N,从/>中随机选择N个样本作为初始的均值。计算每个样本到每个均值的距离,将每个样本分配给距离最近的均值,形成簇,计算每个簇的新均值,然后更新均值,得到初始化的码本/>
首先,获取编码后的帧率,量化器对输入矢量/>与预测矢量的差值/>进行量化,此差值矢量为/>,该量化器通过欧氏距离在码本中找到与输入差值矢量/>最匹配的差值量化矢量/>,其中Q代表量化器。把/>的索引/>传送到解码端。预测矢量/>由以往的重构矢量/>预测得到。(重构矢量/>)预测矢量预测器具有以下形式:/>。其中N=256,L=20ms,M=50。
其中,预测器由4层时序卷积网络块构成,时序卷积网络块首先经过通道数为512的一维卷积,随后经过内核为3的扩张卷积,扩张大小为D,最后经过通道数为512的一维卷积,为了减少信息丢失,在第一层和最后一层加入跳过链接。其中,4层时序卷积网络块D分别为{1,2,5,8}。
(4)将量化后的语音打包成二进制字节流进行传输,传输到第二深度网络进行解码;
(5)对传输的二进制字节进行解包,根据接收到的残差索引,在码本中找到相应的差值量化矢量,然后与预测矢量相加,得到重构矢量。
在解码端,对传输的二进制字节进行解包,解码器根据接收到的索引,在码书中找到相应的差值量化矢量/>,然后将/>与预测器输出/>相加,得到输入矢量/>的重构矢量/>:/>
(6)将解量化后的语音特征输入到与编码器结构相同但对称倒置的解码器中,首先通过内核大小为K的一维卷积,然后通过两层LSTM以及V个卷积块,最后通过内核为K的一维卷积。最后得到重建语音。参数同(2)一致。
(7)通过引入多尺度STFT鉴别器(MS-STFT)和多周期判别器(MPD)来判断生成语音的真/假来进一步提高合成语音质量。MS-STFT鉴别器由对多尺度复值STFT进行操作的相同结构化网络组成,其中实部和虚部连接。每个子网络由一个二维卷积层组成(使用具有32个通道的内核大小3 x 8),然后是二维卷积,在时间维度上按D的扩张率增加,在频率轴上步幅为 2。内核大小为3 x 3和步幅 (1, 1) 的最终二维卷积提供了最终预测。使用5个不同的尺度,STFT窗口长度为(2048, 1024, 512, 256, 128)。MPD 是子鉴别器的混合,每个子鉴别器只接受输入语音的等间距样本;空间作为周期p给出。子鉴别器旨在通过查看输入音频的不同部分来捕获彼此不同的隐式结构。将周期p设置为 [2, 3, 5, 7, 11] 以避免尽可能重叠。首先将长度为T的 1D 原始音频重塑为高度 T /p和宽度p的2D数据,然后将2D卷积应用于重塑的数据。在MPD的每个卷积层中,将宽度轴上的核大小限制为1,以独立处理周期样本。
本公开改进在于,通过将预测器引入到神经声码器的量化阶段,来解决量化误差较大,计算复杂,且无法利用时间相关性的问题。在量化阶段,使用K-Means算法初始化码本,将过去的重建矢量作为输入到预测器来预测下一帧矢量,将预测矢量与输入矢量的差值输入码本进行量化,得到量化索引进行传输。在解码端接收量化索引,通过量化索引获得量化矢量,然后将量化矢量与预测器输出相加,得到输入矢量的重构矢量。另外,在解码后引入STFT判别器和多周期判别器来提高语音合成质量。
实施例2
本公开的一种实施例中提供了基于深度学习和矢量预测的语音压缩***,包括:
数据获取模块,用于获取低速率下的多帧语音信号,并预处理为语音序列;
预测模块,用于将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;
矢量量化模块,用于对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量;
语音合成模块,用于对所述重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。
通过训练一个预测器,将过去的重建矢量作为输入来预测下一帧矢量,将预测矢量与输入矢量的差值输入码本进行量化,得到量化索引进行传输。在解码端接收量化索引,通过量化索引获得量化矢量,然后将量化矢量与预测器输出相加,得到输入矢量的重构矢量。该方法通过预测器利用数据的时间相关性,减少了量化误差,提高了语音的合成质量。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.基于深度学习和矢量预测的语音压缩方法,其特征在于,包括:
获取低速率下的多帧语音信号,并预处理为语音序列;
将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;
对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。
2.如权利要求1所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,所述第一深度网络由一维卷积和多个卷积块组成,每个卷积块由单个残差单元组成,残差单元由内核大小为 3和1的跳跃连接卷积组成,然后是一个由跨步卷积组成的下采样层,内核大小为是步幅 S 的两倍,残差单元由跳过连接卷积组成。
3.如权利要求2所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,每当下采样时,通道数都会加倍,所述卷积块后接两层LSTM,捕捉语音序列数据中的长期依赖关系。
4.如权利要求1所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,设计码本大小为N,帧长为L,帧率为M,每个码本可以编码比特,对码本进行初始化,使用K-Means算法对N个簇进行聚类得到初始化的码本/>
5.如权利要求1所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,
对原声学特征与预测矢量作差,对原声学特征与预测矢量/>的差值/>进行量化,差值信号为/>,通过欧氏距离在码本中找到与输入差值矢量/>最匹配的量化矢量/>,其中Q代表量化器。
6.如权利要求5所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,
将量化后的矢量打包成二进制字节流进行传输,传输到第二深度网络进行解码,对传输的二进制字节进行解包,根据接收到的残差索引,在码本中找到相应的差值量化矢量,然后与预测矢量相加,得到重构矢量。
7.如权利要求6所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,将重构矢量输入到与第一深度网络结构相同但是对称倒置的第二深度网络中,首先通过内核大小为K的一维卷积,然后通过两层LSTM以及多个卷积块,最后通过内核为K的一维卷积,输出得到合成语音。
8.如权利要求1所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,通过引入多尺度STFT鉴别器和多周期判别器判断生成语音的真伪,STFT鉴别器由对多尺度复值STFT进行操作的相同结构化网络组成,其中实部和虚部连接,每个子网络由一个二维卷积层组成。
9.如权利要求8所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,多周期判别器是子鉴别器的混合,每个子鉴别器只接受输入语音序列的等间距样本,在通过查看输入语音序列的不同部分来捕获彼此不同的隐式结构。
10.基于深度学习和矢量预测的语音压缩***,其特征在于,包括:
数据获取模块,用于获取低速率下的多帧语音信号,并预处理为语音序列;
预测模块,用于将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;
矢量量化模块,用于对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量;
语音合成模块,用于对所述重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。
CN202311743425.7A 2023-12-19 2023-12-19 基于深度学习和矢量预测的语音压缩方法及*** Active CN117423348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311743425.7A CN117423348B (zh) 2023-12-19 2023-12-19 基于深度学习和矢量预测的语音压缩方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311743425.7A CN117423348B (zh) 2023-12-19 2023-12-19 基于深度学习和矢量预测的语音压缩方法及***

Publications (2)

Publication Number Publication Date
CN117423348A true CN117423348A (zh) 2024-01-19
CN117423348B CN117423348B (zh) 2024-04-02

Family

ID=89530574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311743425.7A Active CN117423348B (zh) 2023-12-19 2023-12-19 基于深度学习和矢量预测的语音压缩方法及***

Country Status (1)

Country Link
CN (1) CN117423348B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기
CN1420487A (zh) * 2002-12-19 2003-05-28 北京工业大学 1kb/s线谱频率参数的一步插值预测矢量量化方法
EP1930881A2 (en) * 1998-08-24 2008-06-11 Mindspeed Technologies, Inc. Speech decoder employing noise compensation
CN103050122A (zh) * 2012-12-18 2013-04-17 北京航空航天大学 一种基于melp的多帧联合量化低速率语音编解码方法
CN103325375A (zh) * 2013-06-05 2013-09-25 上海交通大学 一种极低码率语音编解码设备及编解码方法
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化***及方法
US20190371349A1 (en) * 2018-06-01 2019-12-05 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN116153320A (zh) * 2023-02-27 2023-05-23 上海交通大学 语音信号联合降噪压缩方法和***
CN116504254A (zh) * 2023-04-18 2023-07-28 平安科技(深圳)有限公司 音频编解码方法、装置、存储介质及计算机设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1930881A2 (en) * 1998-08-24 2008-06-11 Mindspeed Technologies, Inc. Speech decoder employing noise compensation
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기
CN1420487A (zh) * 2002-12-19 2003-05-28 北京工业大学 1kb/s线谱频率参数的一步插值预测矢量量化方法
CN103050122A (zh) * 2012-12-18 2013-04-17 北京航空航天大学 一种基于melp的多帧联合量化低速率语音编解码方法
CN103325375A (zh) * 2013-06-05 2013-09-25 上海交通大学 一种极低码率语音编解码设备及编解码方法
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化***及方法
US20190371349A1 (en) * 2018-06-01 2019-12-05 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN116153320A (zh) * 2023-02-27 2023-05-23 上海交通大学 语音信号联合降噪压缩方法和***
CN116504254A (zh) * 2023-04-18 2023-07-28 平安科技(深圳)有限公司 音频编解码方法、装置、存储介质及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEXANDRE DÉFOSSEZ ET AL: "High Fidelity Neural Audio Compression", ARXIV, 24 October 2022 (2022-10-24), pages 1 - 19 *
刘继新: "基于矢量量化技术的音频信息隐藏算法的研究", 中国博士学位论文全文数据库信息科技辑, 15 April 2011 (2011-04-15) *

Also Published As

Publication number Publication date
CN117423348B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
US7729905B2 (en) Speech coding apparatus and speech decoding apparatus each having a scalable configuration
TWI405187B (zh) 可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體
CN112767954B (zh) 音频编解码方法、装置、介质及电子设备
US8392176B2 (en) Processing of excitation in audio coding and decoding
CN103280221B (zh) 一种基于基追踪的音频无损压缩编码、解码方法及***
EP2254110B1 (en) Stereo signal encoding device, stereo signal decoding device and methods for them
KR20050087956A (ko) 무손실 오디오 부호화/복호화 방법 및 장치
WO2014051964A1 (en) Apparatus and method for audio frame loss recovery
US8027242B2 (en) Signal coding and decoding based on spectral dynamics
CN100585700C (zh) 语音编码装置及其方法
CN117423348B (zh) 基于深度学习和矢量预测的语音压缩方法及***
US20120123788A1 (en) Coding method, decoding method, and device and program using the methods
EP1121686A1 (en) Speech parameter compression
CN112669857B (zh) 一种语音处理的方法、装置及设备
CN102801427B (zh) 源信号变速率格矢量量化的编解码方法和***
CN118016080B (zh) 一种音频处理方法、音频处理器及相关装置
CN118335092A (zh) 基于多尺度残差注意力的语音压缩方法及***
CN114913862A (zh) 基于禁忌转移矩阵的声码器参数误码掩盖方法及***
US8949117B2 (en) Encoding device, decoding device and methods therefor
JPH08179800A (ja) 音声符号化装置
CN117831548A (zh) 音频编解码***的训练方法、编码方法、解码方法、装置
TW202427458A (zh) 用於音訊編碼/解碼的錯誤恢復工具
US5835037A (en) Method and apparatus for modeling discrete data sequences by multiple vector representation
CN118136030A (zh) 音频处理方法、装置、存储介质和电子设备
JPH09120300A (ja) ベクトル量子化装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240428

Address after: No.19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Patentee after: SHANDONG COMPUTER SCIENCE CENTER(NATIONAL SUPERCOMPUTER CENTER IN JINAN)

Country or region after: China

Patentee after: Qilu University of Technology (Shandong Academy of Sciences)

Address before: No.19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Patentee before: SHANDONG COMPUTER SCIENCE CENTER(NATIONAL SUPERCOMPUTER CENTER IN JINAN)

Country or region before: China

TR01 Transfer of patent right