CN114582361A - 基于生成对抗网络的高解析度音频编解码方法及*** - Google Patents

基于生成对抗网络的高解析度音频编解码方法及*** Download PDF

Info

Publication number
CN114582361A
CN114582361A CN202210463201.XA CN202210463201A CN114582361A CN 114582361 A CN114582361 A CN 114582361A CN 202210463201 A CN202210463201 A CN 202210463201A CN 114582361 A CN114582361 A CN 114582361A
Authority
CN
China
Prior art keywords
frequency
low
frequency band
frequency spectrum
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210463201.XA
Other languages
English (en)
Other versions
CN114582361B (zh
Inventor
***
朱勇
王尧
叶东翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barrot Wireless Co Ltd
Original Assignee
Barrot Wireless Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barrot Wireless Co Ltd filed Critical Barrot Wireless Co Ltd
Priority to CN202210463201.XA priority Critical patent/CN114582361B/zh
Publication of CN114582361A publication Critical patent/CN114582361A/zh
Application granted granted Critical
Publication of CN114582361B publication Critical patent/CN114582361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种基于生成对抗网络的高解析度音频编解码方法及***,属于音频编解码技术领域,该方法包括:通过正交镜像分析滤波器对编码音频进行滤波,得到低频带音频数据和高频带音频数据;对低频带音频数据进行标准LC3编码,得到低频带码流,获取低频谱包络;根据低频谱包络和高频带音频数据对应的频域谱系数,得到高频带码流;音频接收端对低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;利用预训练的生成网络,对高频带码流进行处理,得到解码后的高频带数据;通过正交镜像合成滤波器对低频带数据和高频带数据进行合成,得到解码结果。本申请实现以两倍的标准采样率实现高解析度音频编解码。

Description

基于生成对抗网络的高解析度音频编解码方法及***
技术领域
本申请涉及音频编解码技术领域,尤其涉及一种基于生成对抗网络的高解析度音频编解码方法及***。
背景技术
目前主流的蓝牙音频编码器如下:SBC:A2DP协议强制要求,使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;AAC-LC: 音质较好且应用较为广泛,很多主流的手机都支持,但与SBC相比,内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限,而且,其专利费较高;aptX系列:音质较好,但码率很高,aptX需要码率384kbps,而aptX-HD的码率为576kbps,且为高通独有的技术,较为封闭;LDAC: 音质较好,但码率也很高,分别是330kbps,660kbps和990kbps,由于蓝牙设备所处的无线环境特别复杂,稳定支持如此高的码率有一定的困难,且为索尼独有的技术,也很封闭;LHDC:音质较好,但码率也很高,典型的包括400kbps,600kbp和900kbps,如此高的码率,对于蓝牙的基带/射频设计提出了很高的要求。
基于上述原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3,主要面向低功耗蓝牙,也可以用于经典蓝牙,其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
对于LC3音频编解码器,其定位为低复杂度,只支持8kHz ~ 48kHz的采样率,而无法达到高解析度音频(High Resolution Audio)的采样率要求。现有技术中,提高采样率的方法需要的算力高,功耗大,无法在LC3低功耗蓝牙设备中进行应用。
发明内容
针对现有技术中,进行高解析度音频编解码时,需要的算力较高,功耗大,而LC3低功耗蓝牙设备对功耗有着较高的要求,而无法直接应用LC3低功耗蓝牙领域的问题,本申请提出一种基于生成对抗网络的高解析度音频编解码方法及***。
第一方面,本申请提供一种基于生成对抗网络的高解析度音频编码方法,包括:在音频发射端通过正交镜像分析滤波器对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流;音频接收端接收低频带码流和高频带码流,并对低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据;通过正交镜像合成滤波器对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
可选的,根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流,包括:获取高频带数据的频域谱系数,并根据频域谱系数计算得到高频带音频数据对应的高频谱包络;根据高频谱包络与低频谱包络进行计算,得到高频低频谱包络比,并对高频低频谱包络比进行量化和标准LC3编码流程,得到高频带码流。
可选的,利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据,包括:利用预训练的生成网络对低频谱系数进行处理,得到对应的高频谱系数;利用高频低频谱包络比对高频谱系数进行修正,得到修正高频谱系数;对修正高频谱系数进行低延迟改进型离散余弦逆变换,得到高频带数据。
可选的,对生成网络的预训练过程包括:通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;对低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;对高频带信号进行低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;利用低频谱包络、高频谱包络对预测高频谱系数进行调整,得到更新预测高频谱系数;利用判别网络对原始高频谱系数和更新预测高频谱系数进行比较,并根据比较的结果对生成网络进行优化,得到预训练的生成网络。
第二方面,本申请提供一种基于生成对抗网络的高解析度音频编码***,包括:正交镜像分析滤波器,其在音频发射端对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;低频带编码模块,其对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;高频带编码模块,其根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流;低频带解码模块,其在音频接收端,对接收到的低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;高频带处理模块,其利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据;正交镜像合成滤波器,其对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
第三方面,本申请提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令***作以执行方案一中的基于生成对抗网络的高解析度音频编码方法。
第三方面,本申请提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中处理器操作计算机指令以执行方案一中的基于生成对抗网络的高解析度音频编码方法。
本申请的有益效果是:本申请在编码端,使用标准采样率对音频数据中的低频带音频数据进行编码,对高频带音频数据只采用谱包络和相应的参数得到高频带音频数据的编码结果,从而实现以两倍的标准采样率对该音频数据进行编码;在解码端,对低频带码流进行标准解码,对高频带码流通过生成对抗网络得到相应的解码结果,降低算力和功耗,高频带码流只需要传输极少量的高频低频谱包络比参数,节省了带宽和算力消耗,适用于LC3低功耗蓝牙设备,从而在LC3低功耗蓝牙中实现高解析度音频编解码,避免在现有技术中为了传输高解析度音频需要很高的码率,譬如LDAC的990kbps,在LE Audio中很容易造成音频卡顿的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请基于生成对抗网络的高解析度音频编码方法的一个实施方式的流程示意图;
图2是高频带码流处理的流程示意图;
图3是本申请高频带码流处理过程的一个实例的示意图;
图4是本申请生成网络训练过程的一个示意图;
图5是本申请基于生成对抗网络的高解析度音频编码***的一个实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的产品或设备不必限于清楚地列出的哪些单元,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它单元。
目前主流的蓝牙音频编码器如下:SBC:A2DP协议强制要求,使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;AAC-LC: 音质较好且应用较为广泛,很多主流的手机都支持,但与SBC相比,内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限,而且,其专利费较高;aptX系列:音质较好,但码率很高,aptX需要码率384kbps,而aptX-HD的码率为576kbps,且为高通独有的技术,较为封闭;LDAC: 音质较好,但码率也很高,分别是330kbps,660kbps和990kbps,由于蓝牙设备所处的无线环境特别复杂,稳定支持如此高的码率有一定的困难,且为索尼独有的技术,也很封闭;LHDC:音质较好,但码率也很高,典型的包括400kbps,600kbp和900kbps,如此高的码率,对于蓝牙的基带/射频设计提出了很高的要求。
基于上述原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3,主要面向低功耗蓝牙,也可以用于经典蓝牙,其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
对于LC3音频编解码器,其定位为低复杂度,只支持8kHz ~ 48kHz的采样率,而无法达到高解析度音频(High Resolution Audio)的采样率要求。现有技术中,提高采样率的方法需要的算力高,功耗大,无法在LC3低功耗蓝牙设备中进行应用。
针对上述问题本申请提出一种基于生成对抗网络的高解析度音频编码方法及***,该方法包括在音频发射端通过正交镜像分析滤波器对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流;音频接收端接收低频带码流和高频带码流,并对低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据;通过正交镜像合成滤波器对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
本申请在编码端,使用标准采样率对音频数据中的低频带音频数据进行编码,对高频带音频数据只采用谱包络和相应的参数得到高频带音频数据的编码结果,从而实现以两倍的标准采样率对该音频数据进行编码;在解码端,对低频带码流进行标准解码,对高频带码流通过生成对抗网络得到相应的解码结果,降低算力和功耗,高频带码流只需要传输极少量的高频低频谱包络比参数,节省了带宽和算力消耗,适用于LC3低功耗蓝牙设备,从而在LC3低功耗蓝牙中实现高解析度音频编解码,避免在现有技术中为了传输高解析度音频需要很高的码率(譬如LDAC的990kbps),在LE Audio中很容易造成音频卡顿的问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请基于生成对抗网络的高解析度音频编码方法的一个实施方式的流程示意图。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S101,在音频发射端通过正交镜像分析滤波器对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据。
在该实施方式中,在对音频数据进行编码时,通过正交镜像分析滤波器对音频数据进行滤波,分别得到低频带音频数据和高频带音频数据。然后分别对低频带音频数据和高频带音频数据进行相应的处理。
具体的,当输入的音频信号的有效带宽为32KHz,通过正交镜像滤波器后,得到频带为0-16KHz的低频带音频数据和16-32KHz的高频带音频数据,然后对两者分别进行后续的处理。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S102,对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络。
在该实施方式中,对低频带音频数据使用LC3编码器中的标准采样率进行标准LC3编码过程,得到低频带音频数据对应的低频带码流。其中,LC3编码器支持的采样率范围为8-48KHz,具体的标准采样率要根据实际的编码要求进行合适的设置。例如,采样率要求围为64KHz时,LC3编解码器无法满足该采样率要求,此时标准采样率为编解码要求采样率的一半,即对低频带音频数据使用32KHz的采样率进行标准LC3编码过程。在对低频带音频数据的编码过程中,同时得到低频带音频数据对应的低频谱包络。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S103,根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流。
在该实施方式中,对得到的高频带音频数据不再进行标准的编码流程,而是通过低频带音频数据编码时得到的低频谱包络以及对高频带音频数据分析后得到的高频谱系数,进行高频参数提取,进行对高频带音频数据的编码,得到相应的高频带码流。
可选的,根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流,包括:获取高频带音频数据的频域谱系数,并根据频域谱系数计算得到高频带音频数据对应的高频谱包络;根据高频谱包络与低频谱包络进行计算,得到高频低频谱包络比,并对高频低频谱包络比进行量化和标准LC3编码流程,得到高频带码流。
在该可选实施例中,在对高频带音频数据进行处理时,获取高频带数据的频域谱系数,然后利用该频域谱系数得到高频带音频数据对应的高频谱包络。通过高频谱包络与低频谱包络计算得到的高频低频谱包络比,进行对高频带音频数据的编码过程,得到高频带音频数据对应的高频带码流。
具体的,图2示出了高频带码流处理的流程示意图。
如图2所示,在图2所示的实例中,对高频带音频数据,例如上述实例中的带宽为16-32KHz的音频数据进行LC3编码器中的低延迟改进型离散余弦变换处理,得到高频带音频数据对应的频域谱系数。具体的处理过程表示如下:
Figure DEST_PATH_IMAGE001
Figure 687558DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE003
是输入的时域音频pcm信号,X(k)是经过离散余弦变换的频域谱系数。
在确定高频带音频数据的频域谱系数之后,进行高频谱包络的计算,计算过程如下:
Figure 484000DEST_PATH_IMAGE004
其中
Figure DEST_PATH_IMAGE005
为LC3标准中的表格,用于将MDCT谱系数划分为不同的频带,X(k)表示上述得到的频域谱系数。
计算得到高频带音频数据的高频谱包络之后,利用得到的低频谱包络进行高频低频谱包络比的计算,具体如下:
将低频谱包络记为
Figure 539681DEST_PATH_IMAGE006
,将高频谱包为
Figure DEST_PATH_IMAGE007
,则高频低频谱包络比为:
Figure 356327DEST_PATH_IMAGE008
之后,使用与标准LC3编码中谱系数量化的方法对高频低频谱包络比进行量化,然后依次进行算术编码,码流封装等过程,最终得到高频带音频数据对应的高频带码流。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S104,音频接收端接收低频带码流和高频带码流,并对低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据。
在该实施方式中,在完成发射端的编码过程之后,将编码得到的低频带码流和高频带码流在接收端进行相应的解码等处理。首先对经过标准LC3编码得到的低频带码流进行标准LC3解码流程,得到解码后的低频带数据,同时在解码流程中得到低频谱系数。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S105,利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据。
在该实施方式中,利用预训练的生成网络对高频带码流进行处理,根据低频带码流解码过程得到的低频谱系数,最终得到高频带码流对应的解码结果,得到解码后的高频带数据。
可选的,利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据,包括:利用预训练的生成网络对低频谱系数进行处理,得到对应的高频谱系数;利用高频低频谱包络比对高频谱系数进行修正,得到修正高频谱系数;对修正高频谱系数进行低延迟改进型离散余弦逆变换,得到高频带数据。
在该可选实施例中,在对高频带码流的解码过程中,不再进行标准的解码过程,而是利用预训练的生成网络,根据低频带码流解码时获得的低频谱系数直接生成相应的高频谱系数。然后对高频带码流的解析过程,得到相应的高频低频谱包络比。利用高频低频谱包络比对生成网络生成的高频谱系数进行修正,最后对修正高频谱系数进行离散余弦逆变换,得到解码后的高频带数据。
具体的,图3示出了本申请高频带码流处理过程的一个实例的示意图。
在图3所示的实例中,在低频带码流进行标准LC3解码输出低频谱系数
Figure 155656DEST_PATH_IMAGE009
,
Figure 741358DEST_PATH_IMAGE010
,将低频谱系数输入生成网络,输出高频谱系数
Figure 233519DEST_PATH_IMAGE011
。对高频带码流进行码流解析 、算术解码和反量化方法同标准的LC3解码,详略,反量化输出高频低频谱包络比;
Figure 475144DEST_PATH_IMAGE012
然后使用高频低频谱包络比修正高频谱系数,得到修正高频谱系数,表示如下:
Figure 812585DEST_PATH_IMAGE013
最后对修正高频谱系数进行低延迟离散余弦逆变换,输出高频带码流对应的解码后的高频带数据。
Figure 515443DEST_PATH_IMAGE014
可选的,生成网络的预训练过程包括:通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;对低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;对高频带信号进行低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;利用低频谱包络、高频谱包络对预测高频谱系数进行调整,得到更新预测高频谱系数;利用判别网络对原始高频谱系数和更新预测高频谱系数进行比较,并根据比较的结果对生成网络进行优化,得到预训练的生成网络。
具体的,图4示出了本申请生成网络训练过程的一个示意图。
在图4所示的实例中,对生成网络进行训练时,对输入的音频进行正交镜像分析滤波器(QMF)的滤波,分别得到低频带信号和高频带信号。对低频带信号进行低延迟改进型离散余弦变换(LD-MDCT),一方面得到低频谱包络,同时将低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数。对于高频带信号,也是对其进行低延迟改进型离散余弦变换(LD-MDCT),得到高频谱包络和原始高频谱系数。利用得到的高频谱包络和低频谱包络对生成网络的预测高频谱系数进行调整,得到更新预测高频谱系数。最后在判别网络中,对生成网络的生成结果进行判断,将更新预测高频谱系数与高频带信号的原始高频谱系数进行比较,根据比较结果对生成网络进行优化,直到判别网络的判别结果为“真”,表示生成网络生成的高频谱系数与原始高频谱系数之间的差异很小,两者可认为一致时,完成生成网络的训练。
本发明使用的生成网络可以基于自编码器,也可以基于其他神经网络模型,本申请并不限制,此为较成熟的技术,结构简述如下:包括编码器和解码器,编码器包含多个卷积层,用于对低频谱系数进行降维,提取低频MDCT谱系数特征,解码器包括对应数量的反卷积层,对低频MDCT谱系数特征进行升维,使得生成网络输出的高频谱系数具有与输入的低频谱系数相同的维度。上述的卷积层包括卷积、批标准化和激活函数,反卷积层结构类似。
本发明使用的判别网络可以基于深度神经网络也可以基于其他神经网络模型,本申请不进行限制,结构简述如下:以输入音频采样率32kHz、帧长配置10ms为例,输入层640个节点,第一隐藏层960个节点、第二隐藏层960个节点、输出层1个节点,输入层和隐藏激活函数为tanh,输出层激活函数为sigmoid。
生成对抗网络是一种无监督学习方法,其通过让两个神经网络相互博弈的方式进行学习。GAN主要由一个生成网络(Generator Network)和一个判别网络(DiscriminatorNetwork)组成,生成网络主要用于生成样本,其输入可以为噪声数据,输出则是生成的目标样本;判别网络主要用于区分其输入样本是生成网络生成的目标样本还是真实样本中的存在的。两个神经网络在训练时进行博弈,即生成网络的输出结果需要尽量模仿训练集中的真实样本,而判别网络则需要尽可能地分辨其所输入样本,两个网络在训练过程中不断调整参数、相互对抗,最终达到均衡,使得生成网络生成的“假数据”样本接近真实数据,以至于判别网络无法判断生成网络的输出结果是否为真实样本。
其训练过程简述如下:先固定生成网络(Generator,简称G)不变,当判别网络(Discriminator,简称D)输入为真数据时,使用‘真’去监督并更新判别网络G参数,当判别网络输入为假数据时,用‘假’去监督并更新判别网络参数,以此找出当前最优的判别网络;然后固定判别网络D不变,用‘真’去监督并更新生成网络的参数,找出当前最优的生成网络。
在图1所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码方法包括过程S106,通过正交镜像合成滤波器对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
在该实施方式中,在分别得到解码后的低频带数据和解码后的高频带数据后,通过正交镜像合成滤波器对两者进行合成,最终得到编码音频对应的最终解码结果。其中,通过只对编码音频的低频带数据使用标准采样率进行标准LC3编码和解码,而对编码音频中的高频带数据在编码时进行改频参数提取,得到相应的编码结果;在解码时依赖生成网络生成相应的解码结果,并最终将高频带和低频带的数据进行合成,从而实现以两倍的标准采样率对该编码音频尽心编码和解码。已知LC3编解码器的标准采样率范围为8-48KHz,因此最终的采样率范围可达到16-96KHz。从而实现以较高的采样率完成高解析度音频编解码。
本申请在编码端,使用标准采样率对音频数据中的低频带音频数据进行编码,对高频带音频数据只采用谱包络和相应的参数得到高频带音频数据的编码结果,从而实现以两倍的标准采样率对该音频数据进行编码;在解码端,对低频带码流进行标准解码,对高频带码流通过生成对抗网络得到相应的解码结果,降低算力和功耗,高频带码流只需要传输极少量的高频低频谱包络比参数,节省了带宽和算力消耗,适用于LC3低功耗蓝牙设备,从而在LC3低功耗蓝牙中实现高解析度音频编解码,避免在现有技术中为了传输高解析度音频需要很高的码率(譬如LDAC的990kbps),在LE Audio中很容易造成音频卡顿的问题。基于本发明方法,只需要少量的码流信息即可传输高频信息,节省了传输带宽,即确保了高解析度音质又避免了音频卡顿;本发明既可以应用于目前LC3不支持的采样率以支持高音质,如64kHz或以上,也可以用于目前LC3支持的采样率以降低码率,比如说将标准LC3规范支持的48kHz采样率分为高频和低频,分别编码传输再解码合成,从而以更低的码率实现相当的音质;本发明以蓝牙领域举例,其他领域也可以使用。
图5示出了本申请基于生成对抗网络的高解析度音频编码***的一个实施方式。
在图5所示的实施方式中,本申请的基于生成对抗网络的高解析度音频编码***包括正交镜像分析滤波器501,其在音频发射端对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;低频带编码模块502,其对低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;高频带编码模块503,其根据低频谱包络和高频带音频数据对应的频域谱系数,利用标准采样率对高频带音频数据进行编码,得到高频带码流;低频带解码模块504,其在音频接收端,对接收到的低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;高频带处理模块505,其利用预训练的生成网络,根据低频谱系数生成高频谱系数,同时对高频带码流解码得到高频低频谱包络比,利用高频低频谱包络比修正高频谱系数并执行逆变换得到高频带数据;正交镜像合成滤波器506,其对解码后的低频带数据和解码后的高频带数据进行合成,得到编码音频对应的解码结果。
可选的,在高频带编码模块503中,获取高频带数据的频域谱系数,并根据频域谱系数计算得到高频带音频数据对应的高频谱包络;根据高频谱包络与低频谱包络进行计算,得到高频低频谱包络比,并对高频低频谱包络比进行量化和标准LC3编码流程,得到高频带码流。
可选的,在高频带处理模块505中,利用预训练的生成网络对低频谱系数进行处理,得到对应的高频谱系数;利用高频低频谱包络比对高频谱系数进行修正,得到修正高频谱系数;对修正高频谱系数进行低延迟改进型离散余弦逆变换,得到高频带数据。
可选的,对生成网络的预训练过程包括:通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;对低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;对高频带信号进行低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;利用低频谱包络、高频谱包络对预测高频谱系数进行调整,得到更新预测高频谱系数;利用判别网络对原始高频谱系数和更新预测高频谱系数进行比较,并根据比较的结果对生成网络进行优化,得到预训练的生成网络。
本申请在编码端,使用标准采样率对音频数据中的低频带音频数据进行编码,对高频带音频数据只采用谱包络和相应的参数得到高频带音频数据的编码结果,从而实现以两倍的标准采样率对该音频数据进行编码;在解码端,对低频带码流进行标准解码,对高频带码流通过生成对抗网络得到相应的解码结果,降低算力和功耗,高频带码流只需要传输极少量的高频低频谱包络比参数,节省了带宽和算力消耗,适用于LC3低功耗蓝牙设备,从而在LC3低功耗蓝牙中实现高解析度音频编解码,避免在现有技术中为了传输高解析度音频需要很高的码率(譬如LDAC的990kbps),在LE Audio中很容易造成音频卡顿的问题。
在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令***作以执行任一实施例描述的基于生成对抗网络的高解析度音频编码方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的基于生成对抗网络的高解析度音频编码方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于生成对抗网络的高解析度音频编解码方法,其特征在于,包括:
在音频发射端通过正交镜像分析滤波器对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;
对所述低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;
根据所述低频谱包络和所述高频带音频数据对应的频域谱系数,利用所述标准采样率对所述高频带音频数据进行编码,得到高频带码流;
音频接收端接收所述低频带码流和所述高频带码流,并对所述低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;
利用预训练的生成网络,根据所述低频谱系数生成高频谱系数,同时对所述高频带码流解码得到高频低频谱包络比,利用所述高频低频谱包络比修正所述高频谱系数并执行逆变换得到高频带数据;
通过正交镜像合成滤波器对解码后的低频带数据和解码后的高频带数据进行合成,得到所述编码音频对应的解码结果。
2.根据权利要求1所述的基于生成对抗网络的高解析度音频编解码方法,其特征在于,所述根据所述低频谱包络和所述高频带音频数据对应的频域谱系数,利用所述标准采样率对所述高频带音频数据进行编码,得到高频带码流,包括:
获取所述高频带数据的频域谱系数,并根据所述频域谱系数计算得到所述高频带音频数据对应的高频谱包络;
根据所述高频谱包络与所述低频谱包络进行计算,得到高频低频谱包络比,并对所述高频低频谱包络比进行量化和标准LC3编码流程,得到所述高频带码流。
3.根据权利要求1所述的基于生成对抗网络的高解析度音频编解码方法,其特征在于,所述利用预训练的生成网络,根据所述低频谱系数生成高频谱系数,同时对所述高频带码流解码得到高频低频谱包络比,利用所述高频低频谱包络比修正所述高频谱系数并执行逆变换得到高频带数据,包括:
利用预训练的所述生成网络对所述低频谱系数进行处理,得到对应的高频谱系数;
利用所述高频低频谱包络比对所述高频谱系数进行修正,得到修正高频谱系数;
对所述修正高频谱系数进行低延迟改进型离散余弦逆变换,得到所述高频带数据。
4.根据权利要求1所述的基于生成对抗网络的高解析度音频编解码方法,其特征在于,对所述生成网络的预训练过程包括:
通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;
对所述低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将所述低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;
对所述高频带信号进行所述低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;
利用所述低频谱包络、所述高频谱包络对所述预测高频谱系数进行调整,得到更新预测高频谱系数;
利用判别网络对所述原始高频谱系数和所述更新预测高频谱系数进行比较,并根据比较的结果对所述生成网络进行优化,得到预训练的所述生成网络。
5.一种基于生成对抗网络的高解析度音频编解码***,其特征在于,包括:
正交镜像分析滤波器,其在音频发射端对输入的编码音频进行滤波,得到低频带音频数据和高频带音频数据;
低频带编码模块,其对所述低频带音频数据使用标准采样率进行标准LC3编码,得到低频带码流,并同时获取低频谱包络;
高频带编码模块,其根据所述低频谱包络和所述高频带音频数据对应的频域谱系数,利用所述标准采样率对所述高频带音频数据进行编码,得到高频带码流;
低频带解码模块,其在音频接收端,对接收到的所述低频带码流进行标准LC3解码流程,获取低频谱系数,并得到解码后的低频带数据;
高频带处理模块,其利用预训练的生成网络,根据所述低频谱系数生成高频谱系数,同时对所述高频带码流解码得到高频低频谱包络比,利用所述高频低频谱包络比修正所述高频谱系数并执行逆变换得到高频带数据;
正交镜像合成滤波器,其对解码后的低频带数据和解码后的高频带数据进行合成,得到所述编码音频对应的解码结果。
6.根据权利要求5所述的基于生成对抗网络的高解析度音频编解码***,其特征在于,在所述高频带编码模块中,获取所述高频带数据的频域谱系数,并根据所述频域谱系数计算得到所述高频带音频数据对应的高频谱包络;根据所述高频谱包络与所述低频谱包络进行计算,得到高频低频谱包络比,并对所述高频低频谱包络比进行量化和标准LC3编码流程,得到所述高频带码流。
7.根据权利要求5所述的基于生成对抗网络的高解析度音频编解码***,其特征在于,在所述高频带处理模块中,利用预训练的所述生成网络对所述低频谱系数进行处理,得到对应的高频谱系数;利用所述高频低频谱包络比对所述高频谱系数进行修正,得到修正高频谱系数;对所述修正高频谱系数进行低延迟改进型离散余弦逆变换,得到所述高频带数据。
8.根据权利要求5所述的基于生成对抗网络的高解析度音频编解码***,其特征在于,所述生成网络的预训练过程包括:
通过正交镜像分析滤波器对输入音频信号进行滤波,得到低频带信号和高频带信号;
对所述低频带信号进行低延迟改进型离散余弦变换,得到低频谱包络,并将所述低延迟改进型离散余弦变换的结果输入到生成网络中,得到预测高频谱系数;
对所述高频带信号进行所述低延迟改进型离散余弦变换,得到高频谱包络和原始高频谱系数;
利用所述低频谱包络、所述高频谱包络对所述预测高频谱系数进行调整,得到更新预测高频谱系数;
利用判别网络对所述原始高频谱系数和所述更新预测高频谱系数进行比较,并根据比较的结果对所述生成网络进行优化,得到预训练的所述生成网络。
9.一种计算机可读存储介质,其存储有计算机指令,其中计算机指令***作以执行权利要求1-4中任一项所述的基于生成对抗网络的高解析度音频编解码方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中:所述处理器操作计算机指令以执行权利要求1-4中任一项所述的基于生成对抗网络的高解析度音频编解码方法。
CN202210463201.XA 2022-04-29 2022-04-29 基于生成对抗网络的高解析度音频编解码方法及*** Active CN114582361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210463201.XA CN114582361B (zh) 2022-04-29 2022-04-29 基于生成对抗网络的高解析度音频编解码方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210463201.XA CN114582361B (zh) 2022-04-29 2022-04-29 基于生成对抗网络的高解析度音频编解码方法及***

Publications (2)

Publication Number Publication Date
CN114582361A true CN114582361A (zh) 2022-06-03
CN114582361B CN114582361B (zh) 2022-07-08

Family

ID=81784117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210463201.XA Active CN114582361B (zh) 2022-04-29 2022-04-29 基于生成对抗网络的高解析度音频编解码方法及***

Country Status (1)

Country Link
CN (1) CN114582361B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863940A (zh) * 2022-07-05 2022-08-05 北京百瑞互联技术有限公司 音质转换的模型训练方法、提升音质的方法、装置及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及***
CN103971693A (zh) * 2013-01-29 2014-08-06 华为技术有限公司 高频带信号的预测方法、编/解码设备
AU2014283196A1 (en) * 2013-06-21 2016-02-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an adaptive spectral shape of comfort noise
CN107945811A (zh) * 2017-10-23 2018-04-20 北京大学 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
CN111429926A (zh) * 2020-03-24 2020-07-17 北京百瑞互联技术有限公司 一种优化音频编码速度的方法和装置
CN111768793A (zh) * 2020-07-11 2020-10-13 北京百瑞互联技术有限公司 一种lc3音频编码器编码优化方法、***、存储介质
CN112309408A (zh) * 2020-11-10 2021-02-02 北京百瑞互联技术有限公司 一种扩展lc3音频编解码带宽的方法、装置及存储介质
US20210065723A1 (en) * 2013-07-22 2021-03-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
CN112767954A (zh) * 2020-06-24 2021-05-07 腾讯科技(深圳)有限公司 音频编解码方法、装置、介质及电子设备
US20210166705A1 (en) * 2017-06-27 2021-06-03 Industry-University Cooperation Foundation Hanyang University Generative adversarial network-based speech bandwidth extender and extension method

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及***
CN103971693A (zh) * 2013-01-29 2014-08-06 华为技术有限公司 高频带信号的预测方法、编/解码设备
AU2014283196A1 (en) * 2013-06-21 2016-02-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an adaptive spectral shape of comfort noise
US20210065723A1 (en) * 2013-07-22 2021-03-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
US20210166705A1 (en) * 2017-06-27 2021-06-03 Industry-University Cooperation Foundation Hanyang University Generative adversarial network-based speech bandwidth extender and extension method
CN107945811A (zh) * 2017-10-23 2018-04-20 北京大学 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
CN111429926A (zh) * 2020-03-24 2020-07-17 北京百瑞互联技术有限公司 一种优化音频编码速度的方法和装置
CN112767954A (zh) * 2020-06-24 2021-05-07 腾讯科技(深圳)有限公司 音频编解码方法、装置、介质及电子设备
CN111768793A (zh) * 2020-07-11 2020-10-13 北京百瑞互联技术有限公司 一种lc3音频编码器编码优化方法、***、存储介质
CN112309408A (zh) * 2020-11-10 2021-02-02 北京百瑞互联技术有限公司 一种扩展lc3音频编解码带宽的方法、装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG XIANG,ET AL.: "A Parallel-Data-Free Speech Enhancement Method Using Multi-Objective Learning Cycle-Consistent Generative Adversarial Network", 《 IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
姜林: "基于非线性映射模型的音频带宽扩展编码研究", 《中国博士学位论文全文数据库 信息科技辑》 *
郭庆巍: "高保真低速率音频编码关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863940A (zh) * 2022-07-05 2022-08-05 北京百瑞互联技术有限公司 音质转换的模型训练方法、提升音质的方法、装置及介质
CN114863940B (zh) * 2022-07-05 2022-09-30 北京百瑞互联技术有限公司 音质转换的模型训练方法、提升音质的方法、装置及介质

Also Published As

Publication number Publication date
CN114582361B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
US8554550B2 (en) Systems, methods, and apparatus for context processing using multi resolution analysis
CN101044553B (zh) 可扩展编码装置、可扩展解码装置及其方法
EP1879179A1 (en) Method and device for coding audio data based on vector quantisation
MXPA06010825A (es) Codificacion de senales de audio.
TWI332193B (en) Method and apparatus of processing time-varying signals coding and decoding and computer program product
CN101006495A (zh) 语音编码装置、语音解码装置、通信装置以及语音编码方法
ES2687249T3 (es) Decisión no sonora/sonora para el procesamiento de la voz
CN107112027B (zh) 增益形状电路的按比例缩放
ES2287150T3 (es) Metodo y sistema para estimacion artificial de una señal de banda alta en un codificador-decodificador de voz.
EP2831875B1 (en) Bandwidth extension of harmonic audio signal
WO2011127832A1 (en) Time/frequency two dimension post-processing
CN107787510A (zh) 高频带信号产生
TR201901357T4 (tr) Yüksek bant uyarı sinyali üretimi.
CN107743644A (zh) 高频带信号产生
WO2015154397A1 (zh) 一种噪声信号的处理和生成方法、编解码器和编解码***
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
CN113470667A (zh) 语音信号的编解码方法、装置、电子设备及存储介质
CA3181066A1 (en) Method, apparatus, and system for processing audio data
EP2309498B1 (en) A communication device with reduced noise speech coding
CN111986685B (zh) 一种实现高采样率的音频编解码方法及***
CN114582361B (zh) 基于生成对抗网络的高解析度音频编解码方法及***
KR101872138B1 (ko) 디바이스에서 코딩 기술들을 스위칭하는 장치 및 방법들
US20050192800A1 (en) Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure
CN114863942B (zh) 音质转换的模型训练方法、提升语音音质的方法及装置
JP2018511086A (ja) オーディオ信号を符号化するためのオーディオエンコーダー及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee after: Beijing Bairui Internet Technology Co.,Ltd.

Address before: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee before: BARROT WIRELESS Co.,Ltd.

CP01 Change in the name or title of a patent holder