CN114582361A - 基于生成对抗网络的高解析度音频编解码方法及*** - Google Patents
基于生成对抗网络的高解析度音频编解码方法及*** Download PDFInfo
- Publication number
- CN114582361A CN114582361A CN202210463201.XA CN202210463201A CN114582361A CN 114582361 A CN114582361 A CN 114582361A CN 202210463201 A CN202210463201 A CN 202210463201A CN 114582361 A CN114582361 A CN 114582361A
- Authority
- CN
- China
- Prior art keywords
- frequency
- low
- frequency band
- frequency spectrum
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000001228 spectrum Methods 0.000 claims abstract description 190
- 238000005070 sampling Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 9
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 9
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims description 77
- 238000012549 training Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 8
- 238000010191 image analysis Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 101150036464 aptx gene Proteins 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种基于生成对抗网络的高解析度音频编解码方法及***,属于音频编解码技术领域,该方法包括:通过正交镜像分析滤波器对编码音频进行滤波,得到低频带音频数据和高频带音频数据;对低频带音频数据进行标准LC3编码,得到低频带码流,获取低频谱包络;根据低频谱包络和高频带音频数据对应的频域谱系数,得到高频带码流;音频接收端对低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;利用预训练的生成网络,对高频带码流进行处理,得到解码后的高频带数据;通过正交镜像合成滤波器对低频带数据和高频带数据进行合成,得到解码结果。本申请实现以两倍的标准采样率实现高解析度音频编解码。
Description
技术领域
本申请涉及音频编解码技术领域,尤其涉及一种基于生成对抗网络的高解析度音频编解码方法及***。
背景技术
目前主流的蓝牙音频编码器如下:SBC:A2DP协议强制要求,使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;AAC-LC: 音质较好且应用较为广泛,很多主流的手机都支持,但与SBC相比,内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限,而且,其专利费较高;aptX系列:音质较好,但码率很高,aptX需要码率384kbps,而aptX-HD的码率为576kbps,且为高通独有的技术,较为封闭;LDAC: 音质较好,但码率也很高,分别是330kbps,660kbps和990kbps,由于蓝牙设备所处的无线环境特别复杂,稳定支持如此高的码率有一定的困难,且为索尼独有的技术,也很封闭;LHDC:音质较好,但码率也很高,典型的包括400kbps,600kbp和900kbps,如此高的码率,对于蓝牙的基带/射频设计提出了很高的要求。
基于上述原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3,主要面向低功耗蓝牙,也可以用于经典蓝牙,其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
对于LC3音频编解码器,其定位为低复杂度,只支持8kHz ~ 48kHz的采样率,而无法达到高解析度音频(High Resolution Audio)的采样率要求。现有技术中,提高采样率的方法需要的算力高,功耗大,无法在LC3低功耗蓝牙设备中进行应用。
发明内容
针对现有技术中,进行高解析度音频编解码时,需要的算力较高,功耗大,而LC3低功耗蓝牙设备对功耗有着较高的要求,而无法直接应用LC3低功耗蓝牙领域的问题,本申请提出一种基于生成对抗网络的高解析度音频编解码方法及***。
第一方面,本申请提供一种基于生成对抗网络的高解析度音频编码方法,包括:在音频发射端通过正交镜像分析滤波器对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流;音频接收端接收低频带码流和高频带码流,并对低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据;通过正交镜像合成滤波器对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
可选的,根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流,包括:获取高频带数据的频域谱系数,并根据频域谱系数计算得到高频带音频数据对应的高频谱包络;根据高频谱包络与低频谱包络进行计算,得到高频低频谱包络比,并对高频低频谱包络比进行量化和标准LC3编码流程,得到高频带码流。
可选的,利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据,包括:利用预训练的生成网络对低频谱系数进行处理,得到对应的高频谱系数;利用高频低频谱包络比对高频谱系数进行修正,得到修正高频谱系数;对修正高频谱系数进行低延迟改进型离散余弦逆变换,得到高频带数据。
可选的,对生成网络的预训练过程包括:通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;对低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;对高频带信号进行低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;利用低频谱包络、高频谱包络对预测高频谱系数进行调整,得到更新预测高频谱系数;利用判别网络对原始高频谱系数和更新预测高频谱系数进行比较,并根据比较的结果对生成网络进行优化,得到预训练的生成网络。
第二方面,本申请提供一种基于生成对抗网络的高解析度音频编码***,包括:正交镜像分析滤波器,其在音频发射端对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;低频带编码模块,其对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;高频带编码模块,其根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流;低频带解码模块,其在音频接收端,对接收到的低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;高频带处理模块,其利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据;正交镜像合成滤波器,其对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
第三方面,本申请提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令***作以执行方案一中的基于生成对抗网络的高解析度音频编码方法。
第三方面,本申请提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中处理器操作计算机指令以执行方案一中的基于生成对抗网络的高解析度音频编码方法。
本申请的有益效果是:本申请在编码端,使用标准采样率对音频数据中的低频带音频数据进行编码,对高频带音频数据只采用谱包络和相应的参数得到高频带音频数据的编码结果,从而实现以两倍的标准采样率对该音频数据进行编码;在解码端,对低频带码流进行标准解码,对高频带码流通过生成对抗网络得到相应的解码结果,降低算力和功耗,高频带码流只需要传输极少量的高频低频谱包络比参数,节省了带宽和算力消耗,适用于LC3低功耗蓝牙设备,从而在LC3低功耗蓝牙中实现高解析度音频编解码,避免在现有技术中为了传输高解析度音频需要很高的码率,譬如LDAC的990kbps,在LE Audio中很容易造成音频卡顿的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请基于生成对抗网络的高解析度音频编码方法的一个实施方式的流程示意图;
图2是高频带码流处理的流程示意图;
图3是本申请高频带码流处理过程的一个实例的示意图;
图4是本申请生成网络训练过程的一个示意图;
图5是本申请基于生成对抗网络的高解析度音频编码***的一个实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的产品或设备不必限于清楚地列出的哪些单元,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它单元。
目前主流的蓝牙音频编码器如下:SBC:A2DP协议强制要求,使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;AAC-LC: 音质较好且应用较为广泛,很多主流的手机都支持,但与SBC相比,内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限,而且,其专利费较高;aptX系列:音质较好,但码率很高,aptX需要码率384kbps,而aptX-HD的码率为576kbps,且为高通独有的技术,较为封闭;LDAC: 音质较好,但码率也很高,分别是330kbps,660kbps和990kbps,由于蓝牙设备所处的无线环境特别复杂,稳定支持如此高的码率有一定的困难,且为索尼独有的技术,也很封闭;LHDC:音质较好,但码率也很高,典型的包括400kbps,600kbp和900kbps,如此高的码率,对于蓝牙的基带/射频设计提出了很高的要求。
基于上述原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3,主要面向低功耗蓝牙,也可以用于经典蓝牙,其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
对于LC3音频编解码器,其定位为低复杂度,只支持8kHz ~ 48kHz的采样率,而无法达到高解析度音频(High Resolution Audio)的采样率要求。现有技术中,提高采样率的方法需要的算力高,功耗大,无法在LC3低功耗蓝牙设备中进行应用。
针对上述问题本申请提出一种基于生成对抗网络的高解析度音频编码方法及***,该方法包括在音频发射端通过正交镜像分析滤波器对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流;音频接收端接收低频带码流和高频带码流,并对低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据;通过正交镜像合成滤波器对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
本申请在编码端,使用标准采样率对音频数据中的低频带音频数据进行编码,对高频带音频数据只采用谱包络和相应的参数得到高频带音频数据的编码结果,从而实现以两倍的标准采样率对该音频数据进行编码;在解码端,对低频带码流进行标准解码,对高频带码流通过生成对抗网络得到相应的解码结果,降低算力和功耗,高频带码流只需要传输极少量的高频低频谱包络比参数,节省了带宽和算力消耗,适用于LC3低功耗蓝牙设备,从而在LC3低功耗蓝牙中实现高解析度音频编解码,避免在现有技术中为了传输高解析度音频需要很高的码率(譬如LDAC的990kbps),在LE Audio中很容易造成音频卡顿的问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请基于生成对抗网络的高解析度音频编码方法的一个实施方式的流程示意图。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S101,在音频发射端通过正交镜像分析滤波器对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据。
在该实施方式中,在对音频数据进行编码时,通过正交镜像分析滤波器对音频数据进行滤波,分别得到低频带音频数据和高频带音频数据。然后分别对低频带音频数据和高频带音频数据进行相应的处理。
具体的,当输入的音频信号的有效带宽为32KHz,通过正交镜像滤波器后,得到频带为0-16KHz的低频带音频数据和16-32KHz的高频带音频数据,然后对两者分别进行后续的处理。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S102,对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络。
在该实施方式中,对低频带音频数据使用LC3编码器中的标准采样率进行标准LC3编码过程,得到低频带音频数据对应的低频带码流。其中,LC3编码器支持的采样率范围为8-48KHz,具体的标准采样率要根据实际的编码要求进行合适的设置。例如,采样率要求围为64KHz时,LC3编解码器无法满足该采样率要求,此时标准采样率为编解码要求采样率的一半,即对低频带音频数据使用32KHz的采样率进行标准LC3编码过程。在对低频带音频数据的编码过程中,同时得到低频带音频数据对应的低频谱包络。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S103,根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流。
在该实施方式中,对得到的高频带音频数据不再进行标准的编码流程,而是通过低频带音频数据编码时得到的低频谱包络以及对高频带音频数据分析后得到的高频谱系数,进行高频参数提取,进行对高频带音频数据的编码,得到相应的高频带码流。
可选的,根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流,包括:获取高频带音频数据的频域谱系数,并根据频域谱系数计算得到高频带音频数据对应的高频谱包络;根据高频谱包络与低频谱包络进行计算,得到高频低频谱包络比,并对高频低频谱包络比进行量化和标准LC3编码流程,得到高频带码流。
在该可选实施例中,在对高频带音频数据进行处理时,获取高频带数据的频域谱系数,然后利用该频域谱系数得到高频带音频数据对应的高频谱包络。通过高频谱包络与低频谱包络计算得到的高频低频谱包络比,进行对高频带音频数据的编码过程,得到高频带音频数据对应的高频带码流。
具体的,图2示出了高频带码流处理的流程示意图。
如图2所示,在图2所示的实例中,对高频带音频数据,例如上述实例中的带宽为16-32KHz的音频数据进行LC3编码器中的低延迟改进型离散余弦变换处理,得到高频带音频数据对应的频域谱系数。具体的处理过程表示如下:
在确定高频带音频数据的频域谱系数之后,进行高频谱包络的计算,计算过程如下:
计算得到高频带音频数据的高频谱包络之后,利用得到的低频谱包络进行高频低频谱包络比的计算,具体如下:
之后,使用与标准LC3编码中谱系数量化的方法对高频低频谱包络比进行量化,然后依次进行算术编码,码流封装等过程,最终得到高频带音频数据对应的高频带码流。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S104,音频接收端接收低频带码流和高频带码流,并对低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据。
在该实施方式中,在完成发射端的编码过程之后,将编码得到的低频带码流和高频带码流在接收端进行相应的解码等处理。首先对经过标准LC3编码得到的低频带码流进行标准LC3解码流程,得到解码后的低频带数据,同时在解码流程中得到低频谱系数。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S105,利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据。
在该实施方式中,利用预训练的生成网络对高频带码流进行处理,根据低频带码流解码过程得到的低频谱系数,最终得到高频带码流对应的解码结果,得到解码后的高频带数据。
可选的,利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据,包括:利用预训练的生成网络对低频谱系数进行处理,得到对应的高频谱系数;利用高频低频谱包络比对高频谱系数进行修正,得到修正高频谱系数;对修正高频谱系数进行低延迟改进型离散余弦逆变换,得到高频带数据。
在该可选实施例中,在对高频带码流的解码过程中,不再进行标准的解码过程,而是利用预训练的生成网络,根据低频带码流解码时获得的低频谱系数直接生成相应的高频谱系数。然后对高频带码流的解析过程,得到相应的高频低频谱包络比。利用高频低频谱包络比对生成网络生成的高频谱系数进行修正,最后对修正高频谱系数进行离散余弦逆变换,得到解码后的高频带数据。
具体的,图3示出了本申请高频带码流处理过程的一个实例的示意图。
在图3所示的实例中,在低频带码流进行标准LC3解码输出低频谱系数,,将低频谱系数输入生成网络,输出高频谱系数。对高频带码流进行码流解析 、算术解码和反量化方法同标准的LC3解码,详略,反量化输出高频低频谱包络比;
然后使用高频低频谱包络比修正高频谱系数,得到修正高频谱系数,表示如下:
最后对修正高频谱系数进行低延迟离散余弦逆变换,输出高频带码流对应的解码后的高频带数据。
可选的,生成网络的预训练过程包括:通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;对低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;对高频带信号进行低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;利用低频谱包络、高频谱包络对预测高频谱系数进行调整,得到更新预测高频谱系数;利用判别网络对原始高频谱系数和更新预测高频谱系数进行比较,并根据比较的结果对生成网络进行优化,得到预训练的生成网络。
具体的,图4示出了本申请生成网络训练过程的一个示意图。
在图4所示的实例中,对生成网络进行训练时,对输入的音频进行正交镜像分析滤波器(QMF)的滤波,分别得到低频带信号和高频带信号。对低频带信号进行低延迟改进型离散余弦变换(LD-MDCT),一方面得到低频谱包络,同时将低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数。对于高频带信号,也是对其进行低延迟改进型离散余弦变换(LD-MDCT),得到高频谱包络和原始高频谱系数。利用得到的高频谱包络和低频谱包络对生成网络的预测高频谱系数进行调整,得到更新预测高频谱系数。最后在判别网络中,对生成网络的生成结果进行判断,将更新预测高频谱系数与高频带信号的原始高频谱系数进行比较,根据比较结果对生成网络进行优化,直到判别网络的判别结果为“真”,表示生成网络生成的高频谱系数与原始高频谱系数之间的差异很小,两者可认为一致时,完成生成网络的训练。
本发明使用的生成网络可以基于自编码器,也可以基于其他神经网络模型,本申请并不限制,此为较成熟的技术,结构简述如下:包括编码器和解码器,编码器包含多个卷积层,用于对低频谱系数进行降维,提取低频MDCT谱系数特征,解码器包括对应数量的反卷积层,对低频MDCT谱系数特征进行升维,使得生成网络输出的高频谱系数具有与输入的低频谱系数相同的维度。上述的卷积层包括卷积、批标准化和激活函数,反卷积层结构类似。
本发明使用的判别网络可以基于深度神经网络也可以基于其他神经网络模型,本申请不进行限制,结构简述如下:以输入音频采样率32kHz、帧长配置10ms为例,输入层640个节点,第一隐藏层960个节点、第二隐藏层960个节点、输出层1个节点,输入层和隐藏激活函数为tanh,输出层激活函数为sigmoid。
生成对抗网络是一种无监督学习方法,其通过让两个神经网络相互博弈的方式进行学习。GAN主要由一个生成网络(Generator Network)和一个判别网络(DiscriminatorNetwork)组成,生成网络主要用于生成样本,其输入可以为噪声数据,输出则是生成的目标样本;判别网络主要用于区分其输入样本是生成网络生成的目标样本还是真实样本中的存在的。两个神经网络在训练时进行博弈,即生成网络的输出结果需要尽量模仿训练集中的真实样本,而判别网络则需要尽可能地分辨其所输入样本,两个网络在训练过程中不断调整参数、相互对抗,最终达到均衡,使得生成网络生成的“假数据”样本接近真实数据,以至于判别网络无法判断生成网络的输出结果是否为真实样本。
其训练过程简述如下:先固定生成网络(Generator,简称G)不变,当判别网络(Discriminator,简称D)输入为真数据时,使用‘真’去监督并更新判别网络G参数,当判别网络输入为假数据时,用‘假’去监督并更新判别网络参数,以此找出当前最优的判别网络;然后固定判别网络D不变,用‘真’去监督并更新生成网络的参数,找出当前最优的生成网络。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S106,通过正交镜像合成滤波器对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
在该实施方式中,在分别得到解码后的低频带数据和解码后的高频带数据后,通过正交镜像合成滤波器对两者进行合成,最终得到编码音频对应的最终解码结果。其中,通过只对编码音频的低频带数据使用标准采样率进行标准LC3编码和解码,而对编码音频中的高频带数据在编码时进行改频参数提取,得到相应的编码结果;在解码时依赖生成网络生成相应的解码结果,并最终将高频带和低频带的数据进行合成,从而实现以两倍的标准采样率对该编码音频尽心编码和解码。已知LC3编解码器的标准采样率范围为8-48KHz,因此最终的采样率范围可达到16-96KHz。从而实现以较高的采样率完成高解析度音频编解码。
本申请在编码端,使用标准采样率对音频数据中的低频带音频数据进行编码,对高频带音频数据只采用谱包络和相应的参数得到高频带音频数据的编码结果,从而实现以两倍的标准采样率对该音频数据进行编码;在解码端,对低频带码流进行标准解码,对高频带码流通过生成对抗网络得到相应的解码结果,降低算力和功耗,高频带码流只需要传输极少量的高频低频谱包络比参数,节省了带宽和算力消耗,适用于LC3低功耗蓝牙设备,从而在LC3低功耗蓝牙中实现高解析度音频编解码,避免在现有技术中为了传输高解析度音频需要很高的码率(譬如LDAC的990kbps),在LE Audio中很容易造成音频卡顿的问题。基于本发明方法,只需要少量的码流信息即可传输高频信息,节省了传输带宽,即确保了高解析度音质又避免了音频卡顿;本发明既可以应用于目前LC3不支持的采样率以支持高音质,如64kHz或以上,也可以用于目前LC3支持的采样率以降低码率,比如说将标准LC3规范支持的48kHz采样率分为高频和低频,分别编码传输再解码合成,从而以更低的码率实现相当的音质;本发明以蓝牙领域举例,其他领域也可以使用。
图5示出了本申请基于生成对抗网络的高解析度音频编码***的一个实施方式。
在图5所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码***包括正交镜像分析滤波器501,其在音频发射端对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;低频带编码模块502,其对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;高频带编码模块503,其根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流;低频带解码模块504,其在音频接收端,对接收到的低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;高频带处理模块505,其利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据;正交镜像合成滤波器506,其对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
可选的,在高频带编码模块503中,获取高频带数据的频域谱系数,并根据频域谱系数计算得到高频带音频数据对应的高频谱包络;根据高频谱包络与低频谱包络进行计算,得到高频低频谱包络比,并对高频低频谱包络比进行量化和标准LC3编码流程,得到高频带码流。
可选的,在高频带处理模块505中,利用预训练的生成网络对低频谱系数进行处理,得到对应的高频谱系数;利用高频低频谱包络比对高频谱系数进行修正,得到修正高频谱系数;对修正高频谱系数进行低延迟改进型离散余弦逆变换,得到高频带数据。
可选的,对生成网络的预训练过程包括:通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;对低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;对高频带信号进行低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;利用低频谱包络、高频谱包络对预测高频谱系数进行调整,得到更新预测高频谱系数;利用判别网络对原始高频谱系数和更新预测高频谱系数进行比较,并根据比较的结果对生成网络进行优化,得到预训练的生成网络。
本申请在编码端,使用标准采样率对音频数据中的低频带音频数据进行编码,对高频带音频数据只采用谱包络和相应的参数得到高频带音频数据的编码结果,从而实现以两倍的标准采样率对该音频数据进行编码;在解码端,对低频带码流进行标准解码,对高频带码流通过生成对抗网络得到相应的解码结果,降低算力和功耗,高频带码流只需要传输极少量的高频低频谱包络比参数,节省了带宽和算力消耗,适用于LC3低功耗蓝牙设备,从而在LC3低功耗蓝牙中实现高解析度音频编解码,避免在现有技术中为了传输高解析度音频需要很高的码率(譬如LDAC的990kbps),在LE Audio中很容易造成音频卡顿的问题。
在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令***作以执行任一实施例描述的基于生成对抗网络的高解析度音频编码方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的基于生成对抗网络的高解析度音频编码方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于生成对抗网络的高解析度音频编解码方法,其特征在于,包括:
在音频发射端通过正交镜像分析滤波器对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;
对所述低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;
根据所述低频谱包络和所述高频带音频数据对应的频域谱系数,利用所述标准采样率对所述高频带音频数据进行编码,得到高频带码流;
音频接收端接收所述低频带码流和所述高频带码流,并对所述低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;
利用预训练的生成网络,根据所述低频谱系数生成高频谱系数,同时对所述高频带码流解码得到高频低频谱包络比,利用所述高频低频谱包络比修正所述高频谱系数并执行逆变换得到高频带数据;
通过正交镜像合成滤波器对解码后的低频带数据和解码后的高频带数据进行合成,得到所述编码音频对应的解码结果。
2.根据权利要求1所述的基于生成对抗网络的高解析度音频编解码方法,其特征在于,所述根据所述低频谱包络和所述高频带音频数据对应的频域谱系数,利用所述标准采样率对所述高频带音频数据进行编码,得到高频带码流,包括:
获取所述高频带数据的频域谱系数,并根据所述频域谱系数计算得到所述高频带音频数据对应的高频谱包络;
根据所述高频谱包络与所述低频谱包络进行计算,得到高频低频谱包络比,并对所述高频低频谱包络比进行量化和标准LC3编码流程,得到所述高频带码流。
3.根据权利要求1所述的基于生成对抗网络的高解析度音频编解码方法,其特征在于,所述利用预训练的生成网络,根据所述低频谱系数生成高频谱系数,同时对所述高频带码流解码得到高频低频谱包络比,利用所述高频低频谱包络比修正所述高频谱系数并执行逆变换得到高频带数据,包括:
利用预训练的所述生成网络对所述低频谱系数进行处理,得到对应的高频谱系数;
利用所述高频低频谱包络比对所述高频谱系数进行修正,得到修正高频谱系数;
对所述修正高频谱系数进行低延迟改进型离散余弦逆变换,得到所述高频带数据。
4.根据权利要求1所述的基于生成对抗网络的高解析度音频编解码方法,其特征在于,对所述生成网络的预训练过程包括:
通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;
对所述低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将所述低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;
对所述高频带信号进行所述低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;
利用所述低频谱包络、所述高频谱包络对所述预测高频谱系数进行调整,得到更新预测高频谱系数;
利用判别网络对所述原始高频谱系数和所述更新预测高频谱系数进行比较,并根据比较的结果对所述生成网络进行优化,得到预训练的所述生成网络。
5.一种基于生成对抗网络的高解析度音频编解码***,其特征在于,包括:
正交镜像分析滤波器,其在音频发射端对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;
低频带编码模块,其对所述低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;
高频带编码模块,其根据所述低频谱包络和所述高频带音频数据对应的频域谱系数,利用所述标准采样率对所述高频带音频数据进行编码,得到高频带码流;
低频带解码模块,其在音频接收端,对接收到的所述低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;
高频带处理模块,其利用预训练的生成网络,根据所述低频谱系数生成高频谱系数,同时对所述高频带码流解码得到高频低频谱包络比,利用所述高频低频谱包络比修正所述高频谱系数并执行逆变换得到高频带数据;
正交镜像合成滤波器,其对解码后的低频带数据和解码后的高频带数据进行合成,得到所述编码音频对应的解码结果。
6.根据权利要求5所述的基于生成对抗网络的高解析度音频编解码***,其特征在于,在所述高频带编码模块中,获取所述高频带数据的频域谱系数,并根据所述频域谱系数计算得到所述高频带音频数据对应的高频谱包络;根据所述高频谱包络与所述低频谱包络进行计算,得到高频低频谱包络比,并对所述高频低频谱包络比进行量化和标准LC3编码流程,得到所述高频带码流。
7.根据权利要求5所述的基于生成对抗网络的高解析度音频编解码***,其特征在于,在所述高频带处理模块中,利用预训练的所述生成网络对所述低频谱系数进行处理,得到对应的高频谱系数;利用所述高频低频谱包络比对所述高频谱系数进行修正,得到修正高频谱系数;对所述修正高频谱系数进行低延迟改进型离散余弦逆变换,得到所述高频带数据。
8.根据权利要求5所述的基于生成对抗网络的高解析度音频编解码***,其特征在于,所述生成网络的预训练过程包括:
通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;
对所述低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将所述低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;
对所述高频带信号进行所述低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;
利用所述低频谱包络、所述高频谱包络对所述预测高频谱系数进行调整,得到更新预测高频谱系数;
利用判别网络对所述原始高频谱系数和所述更新预测高频谱系数进行比较,并根据比较的结果对所述生成网络进行优化,得到预训练的所述生成网络。
9.一种计算机可读存储介质,其存储有计算机指令,其中计算机指令***作以执行权利要求1-4中任一项所述的基于生成对抗网络的高解析度音频编解码方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中:所述处理器操作计算机指令以执行权利要求1-4中任一项所述的基于生成对抗网络的高解析度音频编解码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210463201.XA CN114582361B (zh) | 2022-04-29 | 2022-04-29 | 基于生成对抗网络的高解析度音频编解码方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210463201.XA CN114582361B (zh) | 2022-04-29 | 2022-04-29 | 基于生成对抗网络的高解析度音频编解码方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114582361A true CN114582361A (zh) | 2022-06-03 |
CN114582361B CN114582361B (zh) | 2022-07-08 |
Family
ID=81784117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210463201.XA Active CN114582361B (zh) | 2022-04-29 | 2022-04-29 | 基于生成对抗网络的高解析度音频编解码方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582361B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863940A (zh) * | 2022-07-05 | 2022-08-05 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升音质的方法、装置及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140759A (zh) * | 2006-09-08 | 2008-03-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及*** |
CN103971693A (zh) * | 2013-01-29 | 2014-08-06 | 华为技术有限公司 | 高频带信号的预测方法、编/解码设备 |
AU2014283196A1 (en) * | 2013-06-21 | 2016-02-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an adaptive spectral shape of comfort noise |
CN107945811A (zh) * | 2017-10-23 | 2018-04-20 | 北京大学 | 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法 |
CN111429926A (zh) * | 2020-03-24 | 2020-07-17 | 北京百瑞互联技术有限公司 | 一种优化音频编码速度的方法和装置 |
CN111768793A (zh) * | 2020-07-11 | 2020-10-13 | 北京百瑞互联技术有限公司 | 一种lc3音频编码器编码优化方法、***、存储介质 |
CN112309408A (zh) * | 2020-11-10 | 2021-02-02 | 北京百瑞互联技术有限公司 | 一种扩展lc3音频编解码带宽的方法、装置及存储介质 |
US20210065723A1 (en) * | 2013-07-22 | 2021-03-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
CN112767954A (zh) * | 2020-06-24 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 音频编解码方法、装置、介质及电子设备 |
US20210166705A1 (en) * | 2017-06-27 | 2021-06-03 | Industry-University Cooperation Foundation Hanyang University | Generative adversarial network-based speech bandwidth extender and extension method |
-
2022
- 2022-04-29 CN CN202210463201.XA patent/CN114582361B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140759A (zh) * | 2006-09-08 | 2008-03-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及*** |
CN103971693A (zh) * | 2013-01-29 | 2014-08-06 | 华为技术有限公司 | 高频带信号的预测方法、编/解码设备 |
AU2014283196A1 (en) * | 2013-06-21 | 2016-02-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an adaptive spectral shape of comfort noise |
US20210065723A1 (en) * | 2013-07-22 | 2021-03-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
US20210166705A1 (en) * | 2017-06-27 | 2021-06-03 | Industry-University Cooperation Foundation Hanyang University | Generative adversarial network-based speech bandwidth extender and extension method |
CN107945811A (zh) * | 2017-10-23 | 2018-04-20 | 北京大学 | 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法 |
CN111429926A (zh) * | 2020-03-24 | 2020-07-17 | 北京百瑞互联技术有限公司 | 一种优化音频编码速度的方法和装置 |
CN112767954A (zh) * | 2020-06-24 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 音频编解码方法、装置、介质及电子设备 |
CN111768793A (zh) * | 2020-07-11 | 2020-10-13 | 北京百瑞互联技术有限公司 | 一种lc3音频编码器编码优化方法、***、存储介质 |
CN112309408A (zh) * | 2020-11-10 | 2021-02-02 | 北京百瑞互联技术有限公司 | 一种扩展lc3音频编解码带宽的方法、装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
YANG XIANG,ET AL.: "A Parallel-Data-Free Speech Enhancement Method Using Multi-Objective Learning Cycle-Consistent Generative Adversarial Network", 《 IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
姜林: "基于非线性映射模型的音频带宽扩展编码研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
郭庆巍: "高保真低速率音频编码关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863940A (zh) * | 2022-07-05 | 2022-08-05 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升音质的方法、装置及介质 |
CN114863940B (zh) * | 2022-07-05 | 2022-09-30 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升音质的方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114582361B (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8554550B2 (en) | Systems, methods, and apparatus for context processing using multi resolution analysis | |
CN101044553B (zh) | 可扩展编码装置、可扩展解码装置及其方法 | |
EP1879179A1 (en) | Method and device for coding audio data based on vector quantisation | |
MXPA06010825A (es) | Codificacion de senales de audio. | |
TWI332193B (en) | Method and apparatus of processing time-varying signals coding and decoding and computer program product | |
CN101006495A (zh) | 语音编码装置、语音解码装置、通信装置以及语音编码方法 | |
ES2687249T3 (es) | Decisión no sonora/sonora para el procesamiento de la voz | |
CN107112027B (zh) | 增益形状电路的按比例缩放 | |
ES2287150T3 (es) | Metodo y sistema para estimacion artificial de una señal de banda alta en un codificador-decodificador de voz. | |
EP2831875B1 (en) | Bandwidth extension of harmonic audio signal | |
WO2011127832A1 (en) | Time/frequency two dimension post-processing | |
CN107787510A (zh) | 高频带信号产生 | |
TR201901357T4 (tr) | Yüksek bant uyarı sinyali üretimi. | |
CN107743644A (zh) | 高频带信号产生 | |
WO2015154397A1 (zh) | 一种噪声信号的处理和生成方法、编解码器和编解码*** | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
CN113470667A (zh) | 语音信号的编解码方法、装置、电子设备及存储介质 | |
CA3181066A1 (en) | Method, apparatus, and system for processing audio data | |
EP2309498B1 (en) | A communication device with reduced noise speech coding | |
CN111986685B (zh) | 一种实现高采样率的音频编解码方法及*** | |
CN114582361B (zh) | 基于生成对抗网络的高解析度音频编解码方法及*** | |
KR101872138B1 (ko) | 디바이스에서 코딩 기술들을 스위칭하는 장치 및 방법들 | |
US20050192800A1 (en) | Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure | |
CN114863942B (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
JP2018511086A (ja) | オーディオ信号を符号化するためのオーディオエンコーダー及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085 Patentee after: Beijing Bairui Internet Technology Co.,Ltd. Address before: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085 Patentee before: BARROT WIRELESS Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |