CN115512711A - 语音编码、语音解码方法、装置、计算机设备和存储介质 - Google Patents

语音编码、语音解码方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115512711A
CN115512711A CN202110693160.9A CN202110693160A CN115512711A CN 115512711 A CN115512711 A CN 115512711A CN 202110693160 A CN202110693160 A CN 202110693160A CN 115512711 A CN115512711 A CN 115512711A
Authority
CN
China
Prior art keywords
frequency band
target
voice
frequency
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110693160.9A
Other languages
English (en)
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110693160.9A priority Critical patent/CN115512711A/zh
Priority to EP22827252.2A priority patent/EP4362013A1/en
Priority to PCT/CN2022/093329 priority patent/WO2022267754A1/zh
Publication of CN115512711A publication Critical patent/CN115512711A/zh
Priority to US18/124,496 priority patent/US20230238009A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请涉及一种语音编码、语音解码方法、装置、计算机设备和存储介质。所述方法包括:基于待处理语音信号对应的初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息,对初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,基于第一频段和压缩频段对应的目标特征信息得到待处理语音信号对应的压缩语音信号,通过语音编码模块对压缩语音信号进行编码处理,得到编码语音数据。压缩语音信号的采样率小于或等于语音编码模块对应的支持采样率,并小于待处理语音信号对应的采样率,语音信号的采集不会受制于语音编码器所支持的采样率。

Description

语音编码、语音解码方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音编码、语音解码方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了语音编解码技术。语音编解码技术可以应用于语音存储和语音传输。
传统技术中,语音采集设备需要和语音编码器配套使用,语音采集设备的采样率需要在语音编码器所支持的采样率范围内,这样,语音采集设备采集到的语音信号才可以通过语音编码器进行编码处理,从而进行存储或传输。此外,语音信号的播放也依赖于语音解码器,语音编码器只能对采样率在自身所支持的采样率范围内的语音信号进行解码处理后播放,因此只能播放采样率在语音编码器所支持的采样率范围内语音信号。
然而,传统方法中,语音信号的采集会受制于现有的语音编码器所支持的采样率,语音信号的播放也会受制于现有的语音解码器所支持的采样率,局限性较大。
发明内容
基于此,有必要针对上述技术问题,提供一种语音编码、语音解码方法、装置、计算机设备和存储介质,语音信号的采集和播放不会受制于语音编码器所支持的采样率。
一种语音编码方法,所述方法包括:
获取待处理语音信号对应的初始频带特征信息;
基于所述初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息;
对所述初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,所述第一频段的频率小于所述第二频段的频率,所述第二频段的频率区间大于所述压缩频段的频率区间;
基于所述第一频段对应的目标特征信息和所述压缩频段对应的目标特征信息得到中间频带特征信息,基于所述中间频带特征信息得到所述待处理语音信号对应的压缩语音信号;
通过语音编码模块对所述压缩语音信号进行编码处理,得到所述待处理语音信号对应的编码语音数据,所述压缩语音信号对应的目标采样率小于或等于所述语音编码模块对应的支持采样率,所述目标采样率小于所述待处理语音信号对应的采样率。
一种语音编码装置,所述装置包括:
频带特征信息获取模块,用于获取待处理语音信号对应的初始频带特征信息;
第一目标特征信息确定模块,用于基于所述初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息;
第二目标特征信息确定模块,用于对所述初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,所述第一频段的频率小于所述第二频段的频率,所述第二频段的频率区间大于所述压缩频段的频率区间;
压缩语音信号生成模块,用于基于所述第一频段对应的目标特征信息和所述压缩频段对应的目标特征信息得到中间频带特征信息,基于所述中间频带特征信息得到所述待处理语音信号对应的压缩语音信号;
语音信号编码模块,用于通过语音编码模块对所述压缩语音信号进行编码处理,得到所述待处理语音信号对应的编码语音数据,所述压缩语音信号对应的目标采样率小于或等于所述语音编码模块对应的支持采样率,所述目标采样率小于所述待处理语音信号对应的采样率。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理语音信号对应的初始频带特征信息;
基于所述初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息;
对所述初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,所述第一频段的频率小于所述第二频段的频率,所述第二频段的频率区间大于所述压缩频段的频率区间;
基于所述第一频段对应的目标特征信息和所述压缩频段对应的目标特征信息得到中间频带特征信息,基于所述中间频带特征信息得到所述待处理语音信号对应的压缩语音信号;
通过语音编码模块对所述压缩语音信号进行编码处理,得到所述待处理语音信号对应的编码语音数据,所述压缩语音信号对应的目标采样率小于或等于所述语音编码模块对应的支持采样率,所述目标采样率小于所述待处理语音信号对应的采样率。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理语音信号对应的初始频带特征信息;
基于所述初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息;
对所述初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,所述第一频段的频率小于所述第二频段的频率,所述第二频段的频率区间大于所述压缩频段的频率区间;
基于所述第一频段对应的目标特征信息和所述压缩频段对应的目标特征信息得到中间频带特征信息,基于所述中间频带特征信息得到所述待处理语音信号对应的压缩语音信号;
通过语音编码模块对所述压缩语音信号进行编码处理,得到所述待处理语音信号对应的编码语音数据,所述压缩语音信号对应的目标采样率小于或等于所述语音编码模块对应的支持采样率,所述目标采样率小于所述待处理语音信号对应的采样率。
上述语音编码方法、装置、计算机设备和存储介质,通过获取待处理语音信号对应的初始频带特征信息,基于初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息,对初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,第一频段的频率小于第二频段的频率,第二频段的频率区间大于压缩频段的频率区间,基于第一频段对应的目标特征信息和压缩频段对应的目标特征信息得到中间频带特征信息,基于中间频带特征信息得到待处理语音信号对应的压缩语音信号,通过语音编码模块对压缩语音信号进行编码处理,得到待处理语音信号对应的编码语音数据,压缩语音信号对应的目标采样率小于或等于语音编码模块对应的支持采样率,目标采样率小于待处理语音信号对应的采样率。这样,在语音编码前,可以将任意采样率的待处理语音信号通过频带特征信息的压缩,将待处理语音信号的采样率降低到语音编码器所支持的采样率,得到低采样率的压缩语音信号。因为压缩语音信号的采样率小于或等于语音编码器所支持的采样率,所以通过语音编码器可以顺利对压缩语音信号进行编码处理。
一种语音解码方法,所述方法包括:
获取编码语音数据,所述编码语音数据是对待处理语音信号进行语音压缩处理得到的;
通过语音解码模块对所述编码语音数据进行解码处理得到解码语音信号,所述解码语音信号对应的目标采样率小于或等于所述语音解码模块对应的支持采样率;
生成所述解码语音信号对应的目标频带特征信息,基于所述目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息;
对所述目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;所述第一频段的频率小于所述压缩频段的频率,所述压缩频段的频率区间小于所述第二频段的频率区间;
基于所述第一频段对应的扩展特征信息和所述第二频段对应的扩展特征信息得到扩展频带特征信息,基于所述扩展频带特征信息得到所述待处理语音信号对应的目标语音信号,所述目标语音信号的采样率大于所述目标采样率;
播放所述目标语音信号。
一种语音解码装置,所述装置包括:
语音数据获取模块,用于获取编码语音数据,所述编码语音数据是对待处理语音信号进行语音压缩处理得到的;
语音信号解码模块,用于通过语音解码模块对所述编码语音数据进行解码处理得到解码语音信号,所述解码语音信号对应的目标采样率小于或等于所述语音解码模块对应的支持采样率;
第一扩展特征信息确定模块,用于生成所述解码语音信号对应的目标频带特征信息,基于所述目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息;
第二扩展特征信息确定模块,用于对所述目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;所述第一频段的频率小于所述压缩频段的频率,所述压缩频段的频率区间小于所述第二频段的频率区间;
目标语音信号确定模块,用于基于所述第一频段对应的扩展特征信息和所述第二频段对应的扩展特征信息得到扩展频带特征信息,基于所述扩展频带特征信息得到所述待处理语音信号对应的目标语音信号,所述目标语音信号的采样率大于所述目标采样率;
语音信号播放模块,用于播放所述目标语音信号。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取编码语音数据,所述编码语音数据是对待处理语音信号进行语音压缩处理得到的;
通过语音解码模块对所述编码语音数据进行解码处理得到解码语音信号,所述解码语音信号对应的目标采样率小于或等于所述语音解码模块对应的支持采样率;
生成所述解码语音信号对应的目标频带特征信息,基于所述目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息;
对所述目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;所述第一频段的频率小于所述压缩频段的频率,所述压缩频段的频率区间小于所述第二频段的频率区间;
基于所述第一频段对应的扩展特征信息和所述第二频段对应的扩展特征信息得到扩展频带特征信息,基于所述扩展频带特征信息得到所述待处理语音信号对应的目标语音信号,所述目标语音信号的采样率大于所述目标采样率;
播放所述目标语音信号。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取编码语音数据,所述编码语音数据是对待处理语音信号进行语音压缩处理得到的;
通过语音解码模块对所述编码语音数据进行解码处理得到解码语音信号,所述解码语音信号对应的目标采样率小于或等于所述语音解码模块对应的支持采样率;
生成所述解码语音信号对应的目标频带特征信息,基于所述目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息;
对所述目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;所述第一频段的频率小于所述压缩频段的频率,所述压缩频段的频率区间小于所述第二频段的频率区间;
基于所述第一频段对应的扩展特征信息和所述第二频段对应的扩展特征信息得到扩展频带特征信息,基于所述扩展频带特征信息得到所述待处理语音信号对应的目标语音信号,所述目标语音信号的采样率大于所述目标采样率;
播放所述目标语音信号。
上述语音解码方法、装置、计算机设备和存储介质,通过获取编码语音数据,编码语音数据是对待处理语音信号进行语音压缩处理得到的,通过语音解码模块对编码语音数据进行解码处理得到解码语音信号,解码语音信号对应的目标采样率小于或等于语音解码模块对应的支持采样率,生成解码语音信号对应的目标频带特征信息,基于目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息,对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;第一频段的频率小于压缩频段的频率,压缩频段的频率区间小于第二频段的频率区间,基于第一频段对应的扩展特征信息和第二频段对应的扩展特征信息得到扩展频带特征信息,基于扩展频带特征信息得到待处理语音信号对应的目标语音信号,目标语音信号的采样率大于目标采样率,播放目标语音信号。这样,在获取到经过语音压缩处理得到的编码语音数据后,可以对编码语音数据进行解码处理得到解码语音信号,通过频带特征信息的扩展,可以将解码语音信号的采样率升高,得到目标语音信号,并进行播放。语音信号的播放并不会受制于语音解码器所支持的采样率,在语音播放时,也可以播放信息更丰富的高采样率语音信号。
附图说明
图1为一个实施例中语音编码、语音解码方法的应用环境图;
图2为一个实施例中语音编码方法的流程示意图;
图3为一个实施例中对初始特征信息进行特征压缩得到目标特征信息的流程示意图;
图4为一个实施例中初始子频段和目标子频段的映射关系的示意图;
图5为一个实施例中语音解码方法的流程示意图;
图6A为一个实施例中语音编码和解码方法的流程示意图;
图6B为一个实施例中压缩前后频域信号的示意图;
图6C为一个实施例中压缩前后语音信号的示意图;
图6D为一个实施例中扩展前后频域信号的示意图;
图6E为一个实施例中待处理语音信号和目标语音信号的示意图;
图7A为一个实施例中语音编码装置的结构框图;
图7B为另一个实施例中语音编码装置的结构框图;
图8为一个实施例中语音解码装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音编码、语音解码方法,可以应用于如图1所示的应用环境中。其中,语音发送端102通过网络与语音接收端104进行通信。语音发送端102和语音接收端104可以是终端,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
具体地,语音发送端获取待处理语音信号对应的初始频带特征信息,语音发送端可以基于初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息,对初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息。其中,第一频段的频率小于第二频段的频率,第二频段的频率区间大于压缩频段的频率区间。语音发送端基于第一频段对应的目标特征信息和压缩频段对应的目标特征信息得到中间频带特征信息,基于中间频带特征信息得到待处理语音信号对应的压缩语音信号,通过语音编码模块对压缩语音信号进行编码处理,得到待处理语音信号对应的编码语音数据。其中,压缩语音信号对应的目标采样率小于或等于语音编码模块对应的支持采样率,目标采样率小于待处理语音信号对应的采样率。语音发送端可以将编码语音数据发送至语音接收端,以使语音接收端对编码语音数据进行语音还原处理,得到待处理语音信号对应的目标语音信号,并播放目标语音信号。语音发送端也可以将编码语音数据存储在本地,在需要播放的时候,语音发送端对编码语音数据进行语音还原处理,得到待处理语音信号对应的目标语音信号,并播放目标语音信号。
语音接收端获取编码语音数据,通过语音解码模块对编码语音数据进行解码处理得到解码语音信号,其中,编码语音数据可以是语音发送端发送的,也可以是语音接收端在本地对待处理语音信号进行语音压缩处理得到的。语音接收端生成解码语音信号对应的目标频带特征信息,基于解码语音信号对应的目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息,对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息。其中,第一频段的频率小于压缩频段的频率,压缩频段的频率区间小于第二频段的频率区间。语音接收端基于第一频段对应的扩展特征信息和第二频段对应的扩展特征信息得到扩展频带特征信息,基于扩展频带特征信息得到待处理语音信号对应的目标语音信号,目标语音信号的采样率大于解码语音信号对应的目标采样率。最终,语音接收端播放目标语音信号。
可以理解,在编码语音数据的发送过程中,编码语音数据可以途经服务器。服务器可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。语音接收端和语音发送端可以互相转换,也就是,语音接收端也可以作为语音发送端,语音发送端也可以作为语音接收端。
在一个实施例中,如图2所示,提供了一种语音编码方法,以该方法应用于终端为例进行说明,终端可以是图1中的语音发送端,也可以是语音接收端,包括以下步骤:
步骤S202,获取待处理语音信号对应的初始频带特征信息。
其中,待处理语音信号是指终端上的语音采集设备采集的语音信号,是待进行播放的语音信号。待处理语音信号可以是语音采集设备实时采集的语音信号,终端可以实时对最新采集到的语音信号进行频带压缩、编码处理,得到编码语音数据。待处理语音信号也可以是语音采集设备历史采集的语音信号,语音发送端可以从数据库中获取历史时间采集的语音信号作为待处理语音信号,对待处理语音信号进行频带压缩、编码处理,得到编码语音数据。终端可以将编码语音数据进行存储,在需要播放时,对编码语音数据进行解码播放。若终端为语音发送端,终端也可以将编码后的语音信号发送至语音接收端,由语音接收端对编码语音数据进行解码播放。将处理后的语音信号发送至语音接收端。待处理语音信号是时域信号,可以反映语音信号随着时间的变化情况。
频带压缩可以在保持语音内容可懂的情况下,降低语音信号的采样率。频带压缩是指将大频带的语音信号压缩为小频带的语音信号,其中,小频带的语音信号和大频带的语音信号之间具有相同的低频信息。
初始频带特征信息是指待处理语音信号在频域上的特征信息。语音信号在频域上的特征信息包括一个频率带宽(即频带)内多个频点的幅值和相位。一个频点表示一个具体的频率。根据香农定理可知,语音信号的采样率和频带是两倍的关系,例如,若语音信号的采样率为48khz,则该语音信号的频带为24khz,具体为0-24khz;若语音信号的采样率为16khz,则该语音信号的频带为8khz,具体为0-8khz。
具体地,终端可以将本地的语音采集设备采集到的语音信号作为待处理语音信号,在本地提取待处理语音信号的频域特征作为待处理语音信号对应的初始频带特征信息。其中,终端可以采用时域-频域转换算法将时域信号转换为频域信号,从而提取待处理语音信号的频域特征,例如,自定义的时域-频域转换算法、拉普拉斯变换算法、Z变换算法、傅里叶变换算法等。
步骤S204,基于初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息。
其中,频段是由一个频带中的部分频率组成的频率区间。一个频带可以由至少一个频段组成。待处理语音信号对应的初始频带包括第一频段和第二频段,第一频段的频率小于第二频段的频率。终端可以将初始频带特征信息划分为第一频段对应的初始特征信息和第二频段对应的初始特征信息。也就是,可以将初始频带特征信息划分为低频段对应的初始特征信息和高频段对应的初始特征信息。低频段对应的初始特征信息主要决定语音的内容信息,例如,具体的语义内容“几点钟下班”,高频段对应的初始特征信息主要决定语音的质感,例如,沙哑低沉的声音。
初始特征信息是指频带压缩前各个频率对应的特征信息,目标特征信息是指频带压缩后各个频率对应的特征信息。
具体地,若待处理语音信号的采样率高于语音编码器所支持的采样率,那么是无法直接通过语音编码器对待处理语音信号进行编码处理,因此,需要对待处理语音信号进行频带压缩,来降低待处理语音信号的采样率。在进行频带压缩时,除了需要降低待处理语音信号的采样率,同时还需要保障语义内容是保持不变、自然可懂的。由于语音的语义内容取决于语音信号中的低频信息,因此,终端可以将初始频带特征信息划分为第一频段对应的初始特征信息和第二频段对应的初始特征信息。第一频段对应的初始特征信息为待处理语音信号中的低频信息,第二频段对应的初始特征信息为待处理语音信号中的高频信息。为了保障语音的可懂性、可读性,在进行频带压缩时,终端可以保持低频信息不变,对高频信息进行压缩。因此,终端可以基于初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息,将初始频带特征信息中第一频段对应的初始特征信息作为中间频带特征信息中第一频段对应的目标特征信息。也就是,频带压缩前后,低频信息保持不变,低频信息是一致的。
在一个实施例中,终端可以基于预设频率将初始频带划分为第一频段和第二频段。预设频率可以是基于专家知识设置的,例如,将预设频率设置为6khz。若语音信号的采样率为48khz,那么该语音信号对应的初始频带为0-24khz,第一频段为0-6khz,第二频段为6-24khz。
步骤S206,对初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,第一频段的频率小于第二频段的频率,第二频段的频率区间大于压缩频段的频率区间。
其中,特征压缩是为了将大频段对应的特征信息压缩到小频段对应的特征信息中,提炼浓缩特征信息。第二频段代表大频段,压缩频段代表小频段,即第二频段的频率区间大于压缩频段的频率区间,也就是,第二频段的长度大于压缩频段的长度。可以理解,考虑到第一频段和压缩频段的无缝衔接,第二频段中的最小频率可以和压缩频段中的最小频率相同,此时,第二频段中的最大频率显然大于压缩频段中的最大频率。例如,若第一频段为0-6khz,第二频段为6-24khz,那么压缩频段可以为6-8khz、6-16khz等。特征压缩也可以认为是将高频段对应的特征信息压缩到低频段对应的特征信息中。
具体地,在进行频带压缩时,终端主要是对语音信号中的高频信息进行压缩。终端可以对初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息。
在一个实施例中,初始频带特征信息包括多个初始语音频点对应的幅值和相位。在进行特征压缩时,终端可以对初始频带特征信息中第二频段对应的初始语音频点的幅值和相位均进行压缩得到压缩频段对应的目标语音频点的幅值和相位,基于目标语音频点的幅值和相位得到压缩频段对应的目标特征信息。对幅值或相位进行压缩可以是计算第二频段对应的初始语音频点的幅值或相位的平均值作为压缩频段对应的目标语音频点的幅值或相位,也可以是计算第二频段对应的初始语音频点的幅值或相位的加权平均值作为压缩频段对应的目标语音频点的幅值或相位,或者其他压缩方法。对幅值或相位进行压缩除了整体压缩,还可以进一步分段压缩。
进一步的,为了减小目标特征信息和初始特征信息的差异,终端可以只是对初始频带特征信息中第二频段对应的初始语音频点的幅值进行压缩得到压缩频段对应的目标语音频点的幅值,在第二频段对应的初始语音频点中,查找与压缩频段对应的目标语音频点频率一致的初始语音频点作为中间语音频点,将中间语音频点对应的相位作为目标语音频点的相位,基于目标语音频点的幅值和相位得到压缩频段对应的目标特征信息。例如,若第二频段为6-24khz,压缩频段为6-8khz,那么,可以将第二频段中6-8khz对应的初始语音频点的相位作为压缩频段中6-8khz对应的各个目标语音频点的相位。
步骤S208,基于第一频段对应的目标特征信息和压缩频段对应的目标特征信息得到中间频带特征信息,基于中间频带特征信息得到待处理语音信号对应的压缩语音信号。
其中,中间频带特征信息是指对初始频带特征信息进行频带压缩后得到的特征信息。压缩语音信号是指对待处理语音信号进行频带压缩后得到的语音信号。频带压缩可以在保持语音内容可懂的情况下,降低语音信号的采样率。可以理解,待处理语音信号的采样率大于压缩语音信号对应的采样率。
具体地,终端基于第一频段对应的目标特征信息和压缩频段对应的目标特征信息可以得到中间频带特征信息。中间频带特征信息是频域信号,在得到中间频带特征信息后,终端可以将频域信号转换为时域信号,从而得到压缩语音信号。其中,终端可以采用频域-时域转换算法将频域信号转换为时域信号,例如,自定义的频域-时域转换算法、拉普拉斯逆变换算法、逆Z变换算法、傅里叶反变换算法等。
举例说明,待处理语音信号的采样率为48khz,初始频带为0-24khz。终端可以从初始频带特征信息中获取0-6khz对应的初始特征信息,将0-6khz对应的初始特征信息直接作为0-6khz对应的目标特征信息。终端可以从初始频带特征信息中获取6-24khz对应的初始特征信息,将6-24khz对应的初始特征信息压缩为6-8khz对应的目标特征信息。终端基于0-8khz对应的目标特征信息可以生成压缩语音信号,压缩语音信号对应的目标采样率为16khz。
可以理解,若待处理语音信号的采样率可以高于语音编码器所支持的采样率,那么终端对待处理语音信号进行频带压缩可以是将高采样率的待处理语音信号压缩为语音编码器所支持的采样率,从而使得语音编码器可以成功对待处理语音信号进行编码处理。当然,若待处理语音信号的采样率也可以等于或小于语音编码器所支持的采样率,那么终端对待处理语音信号进行频带压缩可以是将正常采样率的待处理语音信号压缩为更低采样率的语音信号,从而减少语音编码器进行编码处理时的计算量,减少数据传输量,最终可以将语音信号快速通过网络传输到语音接收端。
在一个实施例中,中间频带特征信息对应的频带和初始频带特征信息对应的频带可以相同,也可以不同。当中间频带特征信息对应的频带和初始频带特征信息对应的频带相同时,在中间频带特征信息中,第一频段和压缩频段存在具体的特征信息,大于压缩频段的各个频率对应的特征信息为零。例如,初始频带特征信息包括0-24khz上多个频点的幅值和相位,中间频带特征信息包括0-24khz上多个频点的幅值和相位,第一频段为0-6khz,第二频段为8-24khz,压缩频段为6-8khz。在初始频带特征信息中,0-24khz上各个频点存在对应的幅值和相位。在中间频带特征信息中,0-8khz上各个频点存在对应的幅值和相位,8-24khz上各个频点存在对应的幅值和相位均为零。若中间频带特征信息对应的频带和初始频带特征信息对应的频带相同,终端需要先对中间频带特征信息转换为时域信号,再对时域信号进行降采样处理,得到压缩语音信号。
当中间频带特征信息对应的频带和初始频带特征信息对应的频带不同时,中间频带特征信息对应的频带由第一频段和压缩频段组成,初始频带特征信息对应的频带由第一频段和第二频段组成。例如,初始频带特征信息包括0-24khz上多个频点的幅值和相位,中间频带特征信息包括0-8khz上多个频点的幅值和相位,第一频段为0-6khz,第二频段为8-24khz,压缩频段为6-8khz。在初始频带特征信息中,0-24khz上各个频点存在对应的幅值和相位。在中间频带特征信息中,0-8khz上各个频点存在对应的幅值和相位。若中间频带特征信息对应的频带和初始频带特征信息对应的频带不同,终端可以直接将中间频带特征信息转换为时域信号,即可得到压缩语音信号。
步骤S210,通过语音编码模块对压缩语音信号进行编码处理,得到待处理语音信号对应的编码语音数据,压缩语音信号对应的目标采样率小于或等于语音编码模块对应的支持采样率,目标采样率小于待处理语音信号对应的采样率。
其中,语音编码模块是用于对语音信号进行编码处理的模块。语音编码模块可以是硬件,也可以是软件。语音编码模块对应的支持采样率是指语音编码模块支持的最大采样率,也就是采样率上限。可以理解,若语音编码模块对应的支持采样率为16khz,那么语音编码模块可以对采样率小于或等于16khz的语音信号进行编码处理。
具体地,通过对待处理语音信号进行频带压缩,终端可以将待处理语音信号压缩为压缩语音信号,使得压缩语音信号的采样率达到语音编码模块的采样率要求。语音编码模块支持处理采样率小于或等于采样率上限的语音信号。终端可以通过语音编码模块对压缩语音信号进行编码处理,得到待处理语音信号对应的编码语音数据。编码语音数据为码流数据。若编码语音数据只是存储在本地,无需进行网络传输,那么终端可以通过语音编码模块对压缩语音信号进行语音编码,得到编码语音数据。若编码语音数据需要进一步传输到语音接收端,那么终端可以通过语音编码模块对压缩语音信号进行语音编码,得到第一语音数据,对第一语音数据进行信道编码,得到编码语音数据。
举例说明,在语音聊天场景下,好友之间可以在终端的即时通信应用上进行语音聊天。用户可以在即时通信应用中的会话界面上给好友发送语音消息。当好友A向好友B发送语音消息时,好友A对应的终端为语音发送端,好友B对应的终端为语音接收端。语音发送端可以获取好友A作用于会话界面上语音采集控件的触发操作来采集语音信号,通过麦克风采集好友A的语音信号得到待处理语音信号。当采用优质麦克风采集语音消息时,待处理语音信号对应的初始采样率可以为48khz,待处理语音信号音质较好,具有超宽的频带,具体为0-24khz。语音发送端对待处理语音信号进行傅里叶变换处理,得到待处理语音信号对应的初始频带特征信息,初始频带特征信息包括0-24khz范围内的频域信息。语音发送端将0-24khz的频域信息经过非线性频带压缩后,将0-24khz的频域信息集中到0-8khz上,具体可以将初始频带特征信息中0-6khz对应的初始特征信息保持不变,将6-24khz对应的初始特征信息压缩到6-8khz上。语音发送端基于非线性频带压缩后得到的0-8khz的频域信息生成压缩语音信号,压缩语音信号对应的目标采样率为16khz。然后,语音发送端可以通过常规支持16khz的语音编码器对压缩语音信号进行编码处理,得到编码语音数据,将编码语音数据发送至语音接收端。编码语音数据对应的采样率和目标采样率一致。语音接收端接收到编码语音数据后,可以经过解码处理、非线性频带扩展处理得到目标语音信号,目标语音信号的采样率和初始采样率一致。语音接收端可以获取好友B作用于会话界面上语音消息的触发操作来播放语音信号,通过扬声器播放高采样率的目标语音信号。
在录音场景下,当终端获取到用户触发的录音录制操作时,终端可以通过麦克风采集用户的语音信号得到待处理语音信号。终端对待处理语音信号进行傅里叶变换处理,得到待处理语音信号对应的初始频带特征信息,初始频带特征信息包括0-24khz范围内的频域信息。终端将0-24khz的频域信息经过非线性频带压缩后,将0-24khz的频域信息集中到0-8khz上,具体可以将初始频带特征信息中0-6khz对应的初始特征信息保持不变,将6-24khz对应的初始特征信息压缩到6-8khz上。终端基于非线性频带压缩后得到的0-8khz的频域信息生成压缩语音信号,压缩语音信号对应的目标采样率为16khz。然后,终端可以通过常规支持16khz的语音编码器对压缩语音信号进行编码处理,得到编码语音数据,并将编码语音数据进行存储。当终端获取到用户触发的录音播放操作时,终端可以对编码语音数据进行语音还原处理,得到目标语音信号,并播放目标语音信号。
在一个实施例中,编码语音数据可以携带压缩标识信息,压缩标识信息用于标识第二频段和压缩频段之间的频段映射信息。那么,终端在进行语音还原处理时,可以基于压缩标识信息对编码语音数据进行语音还原处理,得到目标语音信号。
在一个实施例中,压缩频段中的最大频率可以是基于终端上的语音编码模块对应的支持采样率确定的。例如,语音编码模块对应的支持采样率为16khz,当语音信号的采样率为16khz时,对应的频带为0-8khz,那么压缩频段中的频率最大值可以为8khz。当然,压缩频段中的频率最大值也可以小于8khz。即使压缩频段中的频率最大值小于8khz,支持采样率为16khz的语音编码模块也可以编码对应的压缩语音信号。压缩频段中的最大频率也可以是默认频率,默认频率可以是基于现有的各种语音编码模块对应的支持采样率确定的。例如,在已知的各种语音编码模块对应的支持采样率中,最小值为16khz,那么可以设置默认频率为8khz。
上述语音编码方法中,通过获取待处理语音信号对应的初始频带特征信息,基于初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息,对初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,第一频段的频率小于第二频段的频率,第二频段的频率区间大于压缩频段的频率区间,基于第一频段对应的目标特征信息和压缩频段对应的目标特征信息得到中间频带特征信息,基于中间频带特征信息得到待处理语音信号对应的压缩语音信号,通过语音编码模块对压缩语音信号进行编码处理,得到待处理语音信号对应的编码语音数据,压缩语音信号对应的目标采样率小于或等于语音编码模块对应的支持采样率。这样,在语音编码前,可以将任意采样率的待处理语音信号通过频带特征信息的压缩,将待处理语音信号的采样率降低到语音编码器所支持的采样率,目标采样率小于待处理语音信号对应的采样率,得到低采样率的压缩语音信号。因为压缩语音信号的采样率小于或等于语音编码器所支持的采样率,所以通过语音编码器可以顺利对压缩语音信号进行编码处理,最终可以将编码处理得到的编码语音数据传输到语音接收端。
在一个实施例中,获取待处理语音信号对应的初始频带特征信息,包括:
获取语音采集设备采集的待处理语音信号;对待处理语音信号进行傅里叶变换处理,得到初始频带特征信息,初始频带特征信息包括多个初始语音频点对应的初始幅值和初始相位。
其中,语音采集设备是指用于采集语音的设备,例如,麦克风。傅里叶变换处理是指对待处理语音信号进行傅里叶变换,将时域信号转换为频域信号,频域信号可以反映待处理语音信号在频域上的特征信息。初始频带特征信息即为频域信号。初始语音频点是指待处理语音信号对应的初始频带特征信息中的频点。
具体地,终端可以获取语音采集设备采集的待处理语音信号,对待处理语音信号进行傅里叶变换处理,将时域信号转换为频域信号,提取待处理语音信号在频域上的特征信息,得到初始频带特征信息。初始频带特征信息是由多个初始语音频点分别对应的初始幅值和初始相位组成。其中,频点的相位决定语音的平滑度,低频率频点的幅值决定语音的具体语义内容,高频率频点的幅值决定语音的质感。所有初始语音频点组成的频率范围为待处理语音信号对应的初始频带。
在一个实施例中,待处理语音信号经过快速傅里叶变换可以得到N个初始语音频点,通常N取2的整数次幂,N个初始语音频点是均匀分布的。例如,若N为1024,待处理语音信号对应的初始频带为24khz,那么初始语音频点的分辨率为24k/1024=23.4375,也就是,每隔23.4375kz存在一个初始语音频点。可以理解,为了保障较高的分辨率,不同采样率的语音信号经过快速傅里叶变换可以得到不同数目的语音频点。采样率越高的语音信号,经过快速傅里叶变换得到的初始语音频点数目越多。
本实施例中,通过对待处理语音信号进行傅里叶变换处理,能够快速得到待处理语音信号对应的初始频带特征信息。
在一个实施例中,如图3所示,对初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,包括:
步骤S302,对第二频段进行频段划分,得到至少两个按序排列的初始子频段。
步骤S304,对压缩频段进行频段划分,得到至少两个按序排列的目标子频段。
其中,频段划分是指对一个频段进行切分,将一个频段切分为多个子频段。终端对第二频段或压缩频段进行频段划分可以是线性划分,也可以是非线性划分。以第二频段为例,终端可以对第二频段进行线性的频段划分,即平均地切分第二频段。例如,第二频段为6-24khz,可以将第二频段平均地划分为三个等大的初始子频段,分别为6-12khz、12-18khz、18-24khz。终端也可以对第二频段进行非线性的频段划分,即不是平均地切分第二频段。例如,第二频段为6-24khz,可以将第二频段非线性地划分为五个初始子频段,分别为6-8khz、8-10khz、10-12khz、12-18khz、18-24khz。
具体地,终端可以对第二频段进行频段划分,得到至少两个按序排列的初始子频段,对压缩频段进行频段划分,得到至少两个按序排列的目标子频段。初始子频段的数量和目标子频段的数量可以相同也可以不同。当初始子频段的数量和目标子频段的数量相同时,初始子频段和目标子频段一一对应。当初始子频段的数量和目标子频段的数量不同时,可以是多个初始子频段对应一个目标子频段,一个初始子频段对应多个目标子频段。
步骤S306,基于初始子频段和目标子频段的子频段排序,确定各个初始子片段分别对应的目标子频段。
具体地,终端可以基于初始子频段和目标子频段的子频段排序,确定各个初始子片段分别对应的目标子频段。当初始子频段的数量和目标子频段的数量相同时,终端可以将排序一致的初始子频段和目标子频段建立关联关系。参考图4,按序排列的初始子频段为6-8khz、8-10khz、10-12khz、12-18khz、18-24khz,按序排列的目标子频段为6-6.4khz、6.4-6.8khz、6.8-7.2khz、7.2-7.6khz、7.6-8khz,那么,6-8khz与6-6.4khz对应,8-10khz与6.4-6.8khz对应,10-12khz与6.8-7.2khz对应,12-18khz与7.2-7.6khz对应,18-24khz与7.6-8khz对应。当初始子频段的数量和目标子频段的数量不同时,终端可以将排序靠前的初始子频段和目标子频段建立一一对应的关联关系,将排序靠后的初始子频段和目标子频段建立一一对应的关联关系,将排序居中的初始子频段和目标子频段建立一对多或多对一的关联关系,例如,当排序居中的初始子频段的数量大于目标子频段的数量,则建立多对一的关联关系。
步骤S308,将当前目标子频段对应的当前初始子频段的初始特征信息作为第一中间特征信息,从初始频带特征信息中,获取与当前目标子频段的频段信息一致的子频段对应的初始特征信息作为第二中间特征信息,基于第一中间特征信息和第二中间特征信息得到当前目标子频段对应的目标特征信息。
具体地,一个频段对应的特征信息包括至少一个频点对应的幅值和相位。在进行特征压缩时,终端可以只是对幅值进行压缩,而相位沿用原有相位。当前目标子频段是指当前生成目标特征信息的目标子频段。在生成当前目标子频段对应的目标特征信息时,终端可以将当前目标子频段对应的当前初始子频段的初始特征信息作为第一中间特征信息,第一中间特征信息用于确定当前目标子频段对应的目标特征信息中频点的幅值。终端可以从初始频带特征信息中,获取与当前目标子频段的频段信息一致的子频段对应的初始特征信息作为第二中间特征信息,第二中间特征信息用于确定当前目标子频段对应的目标特征信息中频点的相位。因此,终端可以基于第一中间特征信息和第二中间特征信息得到当前目标子频段对应的目标特征信息。
举例说明,初始频带特征信息包括0-24khz对应的初始特征信息。当前目标子频段为6-6.4khz,当前目标子频段对应的初始子频段为6-8khz。终端可以基于初始频带特征信息中6-8khz对应的初始特征信息和6-6.4khz对应的初始特征信息得到6-6.4khz对应的目标特征信息。
步骤S310,基于各个目标子频段对应的目标特征信息得到压缩频段对应的目标特征信息。
具体地,在得到各个目标子频段对应的目标特征信息后,终端可以基于各个目标子频段对应的目标特征信息得到压缩频段对应的目标特征信息,由各个目标子频段对应的目标特征信息组成压缩频段对应的目标特征信息。
本实施例中,通过对第二频段和压缩频段进一步细分来进行特征压缩,能够提高特征压缩的可靠性,降低第二频段对应的初始特征信息和压缩频段对应的目标特征信息之间的差异。这样,后续在频带扩展时还原出与待处理语音信号相似度比较高的目标语音信号。
在一个实施例中,第一中间特征信息和第二中间特征信息均包括多个初始语音频点对应的初始幅值和初始相位。基于第一中间特征信息和第二中间特征信息得到当前目标子频段对应的目标特征信息,包括:
基于第一中间特征信息中各个初始语音频点对应的初始幅值的统计值,得到当前目标子频段对应的各个目标语音频点的目标幅值;基于第二中间特征信息中各个初始语音频点对应的初始相位,得到当前目标子频段对应的各个目标语音频点的目标相位;基于当前目标子频段对应的各个目标语音频点的目标幅值和目标相位得到当前目标子频段对应的目标特征信息。
具体地,针对频点的幅值,终端可以对第一中间特征信息中各个初始语音频点对应的初始幅值进行统计,将计算得到的统计值作为当前目标子频段对应的各个目标语音频点的目标幅值。针对频点的相位,终端可以基于第二中间特征信息中各个初始语音频点对应的初始相位,得到当前目标子频段对应的各个目标语音频点的目标相位。终端可以从第二中间特征信息中获取与目标语音频点的频率一致的初始语音频点的初始相位作为目标语音频点的目标相位,也就是,目标语音频点对应的目标相位沿用原相位。其中,统计值可以是算术平均值、加权平均值等。
例如,终端可以计算第一中间特征信息中各个初始语音频点对应的初始幅值的算术平均值,将计算得到的算术平均值作为当前目标子频段对应的各个目标语音频点的目标幅值。
终端也可以计算第一中间特征信息中各个初始语音频点对应的初始幅值的加权平均值,将计算得到的加权平均值作为当前目标子频段对应的各个目标语音频点的目标幅值。例如,通常来说,中心频点的重要性较高,终端可以对一个频段的中心频点的初始幅值赋予较高的权重,对该频段中其他频点的初始幅值赋予较低的权重,然后对各个频段的初始幅值进行加权平均得到加权平均值。
终端也可以进一步对当前目标子频段对应的初始子频段和当前目标子频段进行细分,得到该初始子频段对应的至少两个按序排列的第一频段和当前目标子频段对应的至少两个按序排列的第二频段。终端可以按照第一频段和第二频段的排序,将第一频段和第二频段建立关联关系,将当前第一频段中各个初始语音频点对应的初始幅值的统计值作为当前第一频段对应的第二频段中各个目标语音频点的目标幅值。例如,当前目标子频段为6-6.4khz,当前目标子频段对应的初始子频段为6-8khz。将该初始子频段和当前目标子频段进行等分,得到两个第一频段(6-7khz和7-8khz)和两个第二频段(6-6.2khz和6.2khz-6.4khz)。6-7khz和6-6.2khz对应,7-8khz和6.2khz-6.4khz对应。计算6-7khz中各个初始语音频点对应的初始幅值的算术平均值作为6-6.2khz中各个目标语音频点对应的目标幅值。计算7-8khz中各个初始语音频点对应的初始幅值的算术平均值作为6.2khz-6.4khz中各个目标语音频点对应的目标幅值。
在一个实施例中,若初始频带特征信息对应的频带等于中间频带特征信息对应的频带,那么初始频带特征信息对应的初始语音频点的数目等于中间频带特征信息对应的目标语音频点的数目。例如,初始频带特征信息和中间频带特征信息对应的频带均为24khz,在初始频带特征信息和中间频带特征信息中,0-6khz对应的语音频点的幅值和相位相同。在中间频带特征信息中,6-8khz对应的目标语音频点的目标幅值是基于初始频带特征信息中6-24khz对应的初始语音频点的初始幅值计算得到,6-8khz对应的目标语音频点的目标相位是沿用初始频带特征信息中6-8khz对应的初始语音频点的初始相位。在中间频带特征信息中,8-24khz对应的目标语音频点的目标幅值和目标相位为零。
若初始频带特征信息对应的频带大于中间频带特征信息对应的频带,那么初始频带特征信息对应的初始语音频点的数目大于中间频带特征信息对应的目标语音频点的数目。进一步的,初始语音频点和目标语音频点的数量比值可以与初始频带特征信息和目标频带特征信息的频带宽度比值一样,以便频点之间幅值和相位的转换。例如,若初始频带特征信息对应的频带为24khz,中间频带特征信息对应的频带为12khz,那么初始频带特征信息对应的初始语音频点的数目可以是1024,中间频带特征信息对应的目标语音频点的数目可以是512。在初始频带特征信息和中间频带特征信息中,0-6khz对应的语音频点的幅值和相位相同。在中间频带特征信息中,6-12khz对应的目标语音频点的目标幅值是基于初始频带特征信息中6-24khz对应的初始语音频点的初始幅值计算得到,6-12khz对应的目标语音频点的目标相位是沿用初始频带特征信息中6-12khz对应的初始语音频点的初始相位。
本实施例中,在压缩频段对应的目标特征信息中,目标语音频点的幅值为对应的初始语音频点的幅值的统计值,目标语音频点的相位沿用原相位,能够进一步降低第二频段对应的初始特征信息和压缩频段对应的目标特征信息之间的差异。
在一个实施例中,基于第一频段对应的目标特征信息和压缩频段对应的目标特征信息得到中间频带特征信息,基于中间频带特征信息得到待处理语音信号对应的压缩语音信号,包括:
基于压缩频段和第二频段的频率差异确定第三频段,将第三频段对应的目标特征信息设置为无效信息;基于第一频段对应的目标特征信息、压缩频段对应的目标特征信息和第三频段对应的目标特征信息得到中间频带特征信息;对中间频段特征信息进行傅里叶反变换处理,得到中间语音信号,中间语音信号对应的采样率和待处理语音信号对应的采样率一致;基于支持采样率对中间语音信号进行降采样处理,得到压缩语音信号。
其中,第三频段是由压缩频段的频率最大值到第二频段的频率最大值之间的频率组成的频段。傅里叶反变换处理是对中间频段特征信息进行傅里叶反变换,将频域信号转换为时域信号。中间语音信号和压缩语音信号都是时域信号。
降采样处理是指在时域上,对语音信号进行滤波、抽样。例如,若信号的采样率为48khz,那么是表示一秒采集48k个点,若信号的采样率为16khz,那么是表示一秒采集16k个点。
具体地,为了提高频域信号和时域信号的转换速度,在进行频带压缩时,终端可以保持语音频点的数量不变,对部分语音频点的幅值和相位进行更改,从而得到中间频带特征信息。进而,终端可以快速对中间频段特征信息进行傅里叶反变换处理,得到中间语音信号,中间语音信号对应的采样率和待处理语音信号对应的采样率一致。然后,终端再对中间语音信号进行降采样处理,将中间语音信号的采样率降低到语音编码器对应的支持采样率或以下,得到压缩语音信号。其中,在中间频带特征信息中,第一频段对应的目标特征信息沿用初始频带特征信息中第一频段对应的初始特征信息,压缩频段对应的目标特征信息基于初始频带特征信息中第二频段对应的初始特征信息得到,第三频段对应的目标特征信息设置为无效信息,即第三频段对应的目标特征信息清零。
本实施例中,在处理频域信号时,保持频带不变,将频域信号转换为时域信号后,再通过降采样处理降低信号的采样率,能够减少频域信号处理的复杂度。
在一个实施例中,通过语音编码模块对压缩语音信号进行编码处理,得到待处理语音信号对应的编码语音数据,包括:
通过语音编码模块对压缩语音信号进行语音编码,得到第一语音数据;对第一语音数据进行信道编码,得到编码语音数据。
其中,语音编码用于压缩语音信号的数据率,去除信号中的冗余度。语音编码就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并进行数字传输。语音编码也可以称为信源编码。需要注意的是,语音编码并不会改变语音信号的采样率。编码得到的码流数据通过解码处理是可以完整还原出编码前的语音信号。而频带压缩是会改变语音信号的采样率,频带压缩后的语音信号经过频带扩展是无法一模一样还原出频带压缩前的语音信号,但是频带压缩前后的语音信号所传递的语义内容是相同的,并不影响听者理解。终端可以采用波形编码、参量编码(音源编码)和混合编码等语音编码方式对压缩语音信号进行语音编码。
信道编码用于提高数据传输的稳定性。由于移动通信、网络传输存在干扰和衰落,在语音信号传输过程中有可能出现差错,因此需要对数字信号采用纠、检错技术,即纠、检错编码技术,以增强数据在信道中传输时抵御各种干扰的能力,提高语音传输的可靠性。对要在信道中传送的数字信号进行的纠、检错编码就是信道编码。终端可以采用卷积码、Turbo编码等信道编码方式对第一语音数据进行信道编码。
具体地,在进行编码处理时,终端可以通过语音编码模块对压缩语音信号进行语音编码,得到第一语音数据,再对第一语音数据进行信道编码,得到编码语音数据。可以理解,语音编码模块可以只集成有语音编码算法,那么终端可以通过语音编码模块对压缩语音信号进行语音编码,再通过其他模块、软件程序对第一语音数据进行信道编码。语音编码模块也可以同时集成有语音编码算法和信道编码算法,终端通过语音编码模块对压缩语音信号进行语音编码得到第一语音数据,通过语音编码模块对第一语音数据进行信道编码得到编码语音数据。
本实施例中,对压缩语音信号进行语音编码、信道编码可以减少语音信号的数据量,并保障语音信号传输的稳定性。
在一个实施例中,所述方法还包括:
将编码语音数据发送至语音接收端,以使语音接收端对编码语音数据进行语音还原处理,得到待处理语音信号对应的目标语音信号,并播放目标语音信号。
其中,语音接收端是指用于接收语音信号、播放语音信号的设备。语音还原处理用于将编码语音数据还原为可播放的语音信号,例如,将解码得到的低采样率的语音信号还原为高采样率的语音信号,将数据量小的码流数据解码为数据量大的语音信号。
具体地,若终端作为语音发送端,语音发送端可以将编码语音数据发送至语音接收端。语音接收端接收到编码语音数据后,可以对编码语音数据进行语音还原处理,得到待处理语音信号对应的目标语音信号,从而对目标语音信号进行播放。
在进行语音还原处理时,语音接收端可以只是对编码语音数据进行解码处理,得到压缩语音信号,将压缩语音信号作为目标语音信号,播放压缩语音信号。此时,虽然压缩语音信号的采样率比原始采集的待处理语音信号的采样率低,但是压缩语音信号和待处理语音信号所反映的语义内容是一致的,压缩语音信号也是可以被听者听懂的。
当然,为了进一步提高语音信号的播放清晰度和可懂度,在进行语音还原处理时,语音接收端可以对编码语音数据进行解码处理,得到压缩语音信号,将低采样率的压缩语音信号还原为高采样率的语音信号,将还原得到的语音信号作为目标语音信号。此时,目标语音信号是指对待处理语音信号对应的压缩语音信号进行频带扩展得到的语音信号,目标语音信号的采样率和待处理语音信号的采样率一致。可以理解,在进行频带压缩时,信息有一定的损失,因此频带扩展还原出的目标语音信号和原始的待处理语音信号并不是完全一致的,但是目标语音信号和待处理语音信号所反映的语义内容是一致的。并且,相比于压缩语音信号,目标语音信号具备更宽的频带,包含的信息更丰富,音质更好,声音清晰可懂。
本实施例中,编码语音数据可以应用于语音通讯、语音传输。将高采样率的语音信号压缩为低采样率的语音信号,再进行传输,可以降低语音传输成本。
在一个实施例中,将编码语音数据发送至语音接收端,以使语音接收端对编码语音数据进行语音还原处理,得到待处理语音信号对应的目标语音信号,并播放目标语音信号,包括:
基于第二频段和压缩频段得到待处理语音信号对应的压缩标识信息;将编码语音数据和压缩标识信息发送至语音接收端,以使语音接收端对编码语音数据进行解码处理得到压缩语音信号,基于压缩标识信息对压缩语音信号进行频带扩展,得到目标语音信号,并播放目标语音信号。
其中,压缩标识信息用于标识第二频段和压缩频段之间的频段映射信息。频段映射信息包括第二频段和压缩频段的大小、第二频段和压缩频段的子频段之间的映射关系(对应关系、关联关系)。频带扩展可以在保持语音内容可懂的情况下,提高语音信号的采样率。频带扩展是指将小频带的语音信号扩展为大频带的语音信号,其中,小频带的语音信号和大频带的语音信号之间具有相同的低频信息。
具体地,语音接收端接收到编码语音数据后,可以默认编码语音数据经过了频带压缩,自动对编码语音数据进行解码处理得到压缩语音信号,对压缩语音信号进行频带扩展,得到目标语音信号。但是考虑到兼容传统语音处理方法以及特征压缩时频段映射信息的多样性,语音发送端在将编码语音数据发送至语音接收端时,可以同步将压缩标识信息发送至语音接收端,以便语音接收端快速识别该编码语音数据是否经过频带压缩,以及进行频带压缩时的频段映射信息,从而决定对编码语音数据是直接解码播放,还是解码后需要经过对应的频段扩展才进行播放。可以理解,为了节省语音发送端的计算资源,针对采样率原本就小于或等于语音编码器的语音信号,语音发送端可以选择采用传统语音处理方法直接编码处理后发送至语音接收端。
若语音发送端对待处理语音信号进行了频带压缩,语音发送端可以基于第二频段和压缩频段生成待处理语音信号对应的压缩标识信息,将编码语音数据和压缩标识信息发送至语音接收端,以便语音接收端基于压缩标识信息对应的频段映射信息对压缩语音信号进行频带扩展,得到目标语音信号。压缩语音信号是语音接收端对编码语音数据进行解码处理得到的。
此外,若语音发送端和语音接收端之间约定了默认的频段映射信息,在基于第二频段和压缩频段生成待处理语音信号对应的压缩标识信息时,语音发送端就可以直接获取预先约定的特殊标识作为压缩标识信息,特殊标识用于标识压缩语音信号是基于默认的频段映射信息进行频带压缩得到的。语音接收端接收到编码语音数据和压缩标识信息后,可以对编码语音数据进行解码处理得到压缩语音信号,基于默认的频段映射信息对压缩语音信号进行频带扩展,得到目标语音信号。若语音发送端和语音接收端之间存储有多种频段映射信息,语音发送端和语音接收端之间可以约定各种频段映射信息分别对应的预设标识。不同的频段映射信息可以是第二频段和压缩频段的大小不同,子频段的划分方法不同等。在基于第二频段和压缩频段生成待处理语音信号对应的压缩标识信息时,语音发送端可以基于第二频段和压缩频段在进行特征压缩时所使用的频段映射信息获取对应的预设标识作为压缩标识信息。语音接收端接收到编码语音数据和压缩标识信息后,可以基于该压缩标识信息对应的频段映射信息对解码得到的压缩语音信号进行频带扩展,得到目标语音信号。当然,压缩标识信息也可以直接包括具体的频段映射信息。
可以理解,对压缩语音信号进行频带扩展的具体过程可以参照后续语音解码方法中各个相关实施例所述的方法,例如步骤S506至步骤S510所述的方法。
在一个实施例中,针对不同的应用程序可以设计专用的频段映射信息。例如,针对音质要求高的应用程序(例如唱歌应用程序)可以设计在特征压缩时采用数量较多的子频段,从而最大限度地保留原始语音信号的整体频域特征、频点幅值的整体变化趋势。针对音质要求低的应用程序(例如即时通信应用程序)可以设计在特征压缩时采用数量较少的子频段,从而在保障语义可懂的情况下加快压缩速度。因此,压缩标识信息也可以是应用程序标识。语音接收端接收到编码语音数据和压缩标识信息后,可以基于应用程序标识对应的频段映射信息对解码得到的压缩语音信号进行对应的频带扩展,得到目标语音信号。
本实施例中,将编码语音数据和压缩标识信息发送至语音接收端,可以使语音接收端比较准确地对解码得到的压缩语音信号进行频带扩展,得到还原度高的目标语音信号。
在一个实施例中,如图5所示,提供了一种语音解码方法,以该方法应用于图1中的终端为例进行说明,终端可以是图1中的语音发送端,也可以是语音接收端,包括以下步骤:
步骤S502,获取编码语音数据,编码语音数据是对待处理语音信号进行语音压缩处理得到的。
其中,语音压缩处理用于将待处理语音信号压缩为可以传输的码流数据,例如,将高采样率的语音信号压缩为低采样率的语音信号,再将低采样率的语音信号编码为码流数据,或者将数据量大的语音信号编码为数据量小的码流数据。
具体地,终端获取编码语音数据,其中,编码语音数据可以是终端对待处理语音信号进行编码处理得到的,也可以是终端接收语音发送端发送的。若终端为语音接收端,编码语音数据可以是语音发送端对待处理语音信号进行编码处理得到的,也可以是语音发送端对待处理语音信号进行频带压缩得到压缩语音信号,对压缩语音信号进行编码处理得到的。
步骤S504,通过语音解码模块对编码语音数据进行解码处理得到解码语音信号,解码语音信号对应的目标采样率小于或等于语音解码模块对应的支持采样率。
其中,语音解码模块是用于对语音信号进行解码处理的模块。语音解码模块可以是硬件,也可以是软件。语音编码模块和语音解码模块可以集成在一个模块上。语音解码模块对应的支持采样率是指语音解码模块支持的最大采样率,也就是采样率上限。可以理解,若语音解码模块对应的支持采样率为16khz,那么语音解码模块可以对采样率小于或等于16khz的语音信号进行解码处理。
具体地,终端获取到编码语音数据后,可以通过语音解码模块对编码语音数据进行解码处理得到解码语音信号,还原出编码前的语音信号。语音解码模块支持处理采样率小于或等于采样率上限的语音信号。解码语音信号为时域信号。
在一个实施例中,通过语音解码模块对编码语音数据进行解码处理得到解码语音信号,包括:
对编码语音数据进行信道解码,得到第二语音数据;通过语音解码模块对第二语音数据进行语音解码,得到解码语音信号。
具体地,信道解码可以认为是信道编码的逆过程。语音解码可以认为是语音编码的逆过程。终端在对编码语音数据进行解码处理时,先对编码语音数据进行信道解码,得到第二语音数据,再通过语音解码模块对第二语音数据进行语音解码,得到解码语音信号。可以理解,语音解码模块可以只集成有语音解码算法,那么终端可以通过其他模块、软件程序对编码语音数据进行信道解码,再通过语音解码模块对第二语音数据进行语音解码。语音解码模块也可以同时集成有语音解码算法和信道解码算法,那么终端可以通过语音解码模块对编码语音数据进行信道解码得到第二语音数据,通过语音解码模块对第二语音数据进行语音解码得到解码语音信号。
可以理解,若编码语音数据是在终端本地生成的,终端对编码语音数据进行解码处理也可以是对编码语音数据进行语音解码得到解码语音信号。
步骤S506,生成解码语音信号对应的目标频带特征信息,基于目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息。
其中,解码语音信号对应的目标频带包括第一频段和压缩频段,第一频段的频率小于压缩频段的频率。终端可以将目标频带特征信息划分为第一频段对应的目标特征信息和压缩频段对应的目标特征信息。也就是,可以将目标频带特征信息划分为低频段对应的目标特征信息和高频段对应的目标特征信息。目标特征信息是指频带扩展前各个频率对应的特征信息,扩展特征信息是指频带扩展后各个频率对应的特征信息。
具体地,终端可以提取解码语音信号的频域特征,将时域信号转换为频域信号,得到解码语音信号对应的目标频带特征信息。可以理解,若待处理语音信号的采样率高于语音编码模块对应的支持采样率,那么终端或语音发送端是对待处理语音信号进行了频带压缩来降低待处理语音信号的采样率,此时终端就需要对解码语音信号进行频带扩展,从而还原出高采样率的待处理语音信号,此时,解码语音信号为压缩语音信号。若待处理语音信号没有经过频带压缩,终端也可以对解码语音信号进行频带扩展,提高解码语音信号的采样率和丰富频域信息。
在进行频带扩展时,为了保障语义内容是保持不变、自然可懂的,终端可以保持低频信息不变,对高频信息进行扩展。因此,终端可以基于目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息,将目标频带特征信息中第一频段对应的初始特征信息作为扩展频带特征信息中第一频段对应的扩展特征信息。也就是,频带扩展前后,低频信息保持不变,低频信息是一致的。同理,终端可以基于预设频率将目标频带划分为第一频段和压缩频段。
步骤S508,对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;第一频段的频率小于压缩频段的频率,压缩频段的频率区间小于第二频段的频率区间。
其中,特征扩展是为了将小频段对应的特征信息扩展到大频段对应的特征信息中,丰富特征信息。压缩频段代表小频段,第二频段代表大频段,即压缩频段的频率区间小于第二频段的频率区间,也就是,压缩频段的长度小于第二频段的长度。
具体地,在进行频带扩展时,终端主要是对语音信号中的高频信息进行扩展。终端可以对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息。
在一个实施例中,目标频带特征信息包括多个目标语音频点对应的幅值和相位。在进行特征扩展时,终端可以对目标频带特征信息中压缩频段对应的目标语音频点的幅值进行复制得到第二频段对应的初始语音频点的幅值,对目标频带特征信息中压缩频段对应的目标语音频点的相位进行复制或随机赋值得到第二频段对应的初始语音频点的相位,从而得到第二频段对应的扩展特征信息。对幅值进行复制除了整体复制,还可以进一步分段复制。
步骤S510,基于第一频段对应的扩展特征信息和第二频段对应的扩展特征信息得到扩展频带特征信息,基于扩展频带特征信息得到待处理语音信号对应的目标语音信号,目标语音信号的采样率大于目标采样率。
其中,扩展频带特征信息是指对目标频带特征信息进行扩展后得到的特征信息。目标语音信号是指解码语音信号进行频带扩展后得到的语音信号。频带扩展可以在保持语音内容可懂的情况下,提高语音信号的采样率。可以理解,目标语音信号的采样率大于解码语音信号对应的采样率。
具体地,终端基于第一频段对应的扩展特征信息和第二频段对应的扩展特征信息得到扩展频带特征信息。扩展频带特征信息是频域信号,在得到扩展频带特征信息后,终端可以将频域信号转换为时域信号,从而得到目标语音信号。例如,终端对扩展频带特征信息进行傅里叶反变换处理,得到目标语音信号。
举例说明,解码语音信号的采样率为16khz,目标频带为0-8khz。终端可以从目标频带特征信息中获取0-6khz对应的目标特征信息,将0-6khz对应的目标特征信息直接作为0-6khz对应的扩展特征信息。终端可以从目标频带特征信息中获取6-8khz对应的目标特征信息,将6-8khz对应的目标特征信息扩展为6-24khz对应的扩展特征信息。终端基于0-24khz对应的扩展特征信息可以生成目标语音信号,目标语音信号对应的采样率为48khz。
步骤S512,播放目标语音信号。
具体地,在得到目标语音信号后,终端可以通过扬声器播放目标语音信号。
上述语音解码方法中,通过获取编码语音数据,编码语音数据是对待处理语音信号进行语音压缩处理得到的,通过语音解码模块对编码语音数据进行解码处理得到解码语音信号,解码语音信号对应的目标采样率小于或等于语音解码模块对应的支持采样率,生成解码语音信号对应的目标频带特征信息,基于目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息,对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;第一频段的频率小于压缩频段的频率,压缩频段的频率区间小于第二频段的频率区间,基于第一频段对应的扩展特征信息和第二频段对应的扩展特征信息得到扩展频带特征信息,基于扩展频带特征信息得到待处理语音信号对应的目标语音信号,目标语音信号的采样率大于目标采样率,播放目标语音信号。这样,终端获取到经过语音压缩处理得到的编码语音数据后,可以对编码语音数据进行解码处理得到解码语音信号,通过频带特征信息的扩展,可以将解码语音信号的采样率升高,得到目标语音信号,并进行播放。语音信号的播放并不会受制于语音解码器所支持的采样率,在语音播放时,也可以播放信息更丰富的高采样率语音信号。
在一个实施例中,对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息,包括:
获取频段映射信息,频段映射信息用于确定压缩频段对应的至少两个目标子频段和第二频段对应的至少两个初始子频段之间的映射关系;基于频段映射信息对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息。
其中,频段映射信息用于确定压缩频段对应的至少两个目标子频段和第二频段对应的至少两个初始子频段之间的映射关系。在进行特征压缩时,终端或语音发送端是基于该映射关系对初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息。那么,在进行特征扩展时,终端基于该映射关系对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,才能最大限度还原出第二频段对应的初始特征信息,得到第二频段对应的扩展特征信息。
具体地,终端可以获取频段映射信息,基于频段映射信息对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息。语音接收端和语音发送端可以预先约定默认的频段映射信息。语音发送端基于默认的频段映射信息进行特征压缩,语音接收端基于默认的频段映射信息进行特征扩展。语音接收端和语音发送端也可以预先约定多种候选的频段映射信息。语音发送端从中选择一种频段映射信息进行特征压缩,并生成压缩标识信息发送至语音接收端,从而语音接收端可以基于压缩标识信息确定对应的频段映射信息,进而基于该频段映射信息进行特征扩展。
本实施例中,基于频段映射信息对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息,能够得到比较准确的扩展特征信息,有助于得到还原度较高的目标语音信号。
在一个实施例中,编码语音数据携带压缩标识信息,获取频段映射信息,包括:
基于压缩标识信息获取频段映射信息。
具体地,终端在进行频带压缩时,可以基于特征压缩时所采用的频段映射信息生成压缩标识信息,将压缩语音信号对应的编码语音数据和对应的压缩标识信息进行关联,从而后续在进行频带扩展时,终端可以基于编码语音数据携带的压缩标识信息获取相应的频段映射信息,基于频段映射信息对解码得到的解码语音信号进行频带扩展。例如,语音发送端在进行频带压缩时,可以基于特征压缩时所采用的频段映射信息生成压缩标识信息,后续语音发送端将编码语音数据和压缩标识信息一并发送至语音接收端。语音接收端就可以基于压缩标识信息获取频段映射信息对解码得到的解码语音信号进行频带扩展。
在一个实施例中,基于频段映射信息对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息,包括:
将当前初始子频段对应的当前目标子频段的目标特征信息作为第三中间特征信息,从目标频带特征信息中,获取与当前初始子频段的频段信息一致的子频段对应的目标特征信息作为第四中间特征信息,基于第三中间特征信息和第四中间特征信息得到当前初始子频段对应的扩展特征信息;基于各个初始子频段对应的扩展特征信息得到第二频段对应的扩展特征信息。
具体地,终端基于频段映射信息就可以确定压缩频段对应的至少两个目标子频段和第二频段对应的至少两个初始子频段之间的映射关系,从而基于各个目标子频段对应的目标特征信息进行特征扩展可以得到各个目标子频段分别对应的初始子频段的扩展特征信息,最终得到第二频段对应的扩展特征信息。当前初始子频段是指当前生成扩展特征信息的初始子频段。在生成当前初始子频段对应的扩展特征信息时,终端可以将当前初始子频段对应的当前目标子频段的目标特征信息作为第三中间特征信息,第三中间特征信息用于确定当前初始子频段对应的扩展特征信息中频点的幅值,终端可以从目标频带特征信息中,获取与当前初始子频段的频段信息一致的子频段对应的目标特征信息作为第四中间特征信息,第四中间特征信息用于确定当前初始子频段对应的扩展特征信息中频点的相位。因此,终端可以基于第三中间特征信息和第四中间特征信息得到当前初始子频段对应的扩展特征信息。在得到各个初始子频段对应的扩展特征信息后,终端可以基于各个初始子频段对应的扩展特征信息得到第二频段对应的扩展特征信息,由各个初始子频段对应的扩展特征信息组成第二频段对应的扩展特征信息。
举例说明,目标频带特征信息包括0-8khz对应的目标特征信息。当前初始子频段为6-8khz,当前初始子频段对应的目标子频段为6-6.4khz。终端可以基于目标频带特征信息中6-6.4khz对应的目标特征信息和6-8khz对应的目标特征信息得到6-8khz对应的扩展特征信息。
本实施例中,通过对压缩频段和第二频段进一步细分来进行特征扩展,能够提高特征扩展的可靠性,降低第二频段对应的扩展特征信息和第二频段对应的初始特征信息之间的差异。这样,最终能够还原出与待处理语音信号相似度比较高的目标语音信号。
在一个实施例中,第三中间特征信息和第四中间特征信息均包括多个目标语音频点对应的目标幅值和目标相位。基于第三中间特征信息和第四中间特征信息得到当前初始子频段对应的扩展特征信息,包括:
基于第三中间特征信息中各个目标语音频点对应的目标幅值,得到当前初始子频段对应的各个初始语音频点的参考幅值;当第四中间特征信息为空时,对当前初始子频段对应的各个初始语音频点的相位增加随机扰动值,得到当前初始子频段对应的各个初始语音频点的参考相位;当第四中间频带特征子信息不为空时,基于第四中间频带特征子信息中各个目标语音频点对应的目标相位得到当前初始子频段对应的各个初始语音频点的参考相位;基于当前初始子频段对应的各个初始语音频点的参考幅值和参考相位得到当前初始子频段对应的扩展特征信息。
具体地,针对频点的幅值,终端可以将第三中间特征信息中各个目标语音频点对应的目标幅值作为当前初始子频段对应的各个初始语音频点的参考幅值。针对频点的相位,若第四中间特征信息为空,终端对当前目标子频段对应的各个目标语音频点的目标相位加上随机扰动值,得到当前初始子频段对应的各个初始语音频点的参考相位。可以理解,若第四中间特征信息为空,说明在目标频带特征信息中当前初始子频段是不存在的,这部分是没有能量的,其相位也是没有的,但是从频域信号转为时域信号需要频点具备幅值和相位,幅值可以通过复制得到,相位则可以加上随机扰动值得到。并且,人耳对高频相位不敏感,对高频部分的相位随机赋值影响不大。若第四中间特征信息不为空,终端可以从第四中间特征信息中获取与初始语音频点的频率一致的目标语音频点的目标相位作为初始语音频点的参考相位,也就是,初始语音频点对应的参考相位可以沿用原相位。其中,随机扰动值为随机的相位值。可以理解,参考相位的数值需要在相位的取值范围内。
举例说明,目标频带特征信息包括0-8khz对应的目标特征信息,扩展频带特征信息包括0-24khz对应的扩展特征信息。若当前初始子频段为6-8khz,当前初始子频段对应的目标子频段为6-6.4khz,则终端可以将6-6.4khz对应的各个目标语音频点的目标幅值作为6-8khz对应的各个初始语音频点的参考幅值,将6-6.4khz对应的各个目标语音频点的目标相位作为6-8khz对应的各个初始语音频点的参考相位。若当前初始子频段为8-10khz,当前初始子频段对应的目标子频段为6.4-6.8khz,则终端可以将6.4-6.8对应的各个目标语音频点的目标幅值作为8-10khz对应的各个初始语音频点的参考幅值,将6.4-6.8对应的各个目标语音频点的目标相位加上随机扰动值作为8-10khz对应的各个初始语音频点的参考相位。
可以理解,扩展频带特征信息中初始语音频点的数量可以等于初始频带特征信息中初始语音频点的数量。扩展频带特征信息中第二频段对应的初始语音频点的数量大于目标频带特征信息中压缩频段对应的目标语音频点的数量,并且,初始语音频点和目标语音频点的数量比值为扩展频带特征信息与目标频带特征信息的频带比值。
本实施例中,在第二频段对应的扩展特征信息中,初始语音频点的幅值为对应的目标语音频点的幅值,初始语音频点的相位沿用原相位或为随机值,能够降低第二频段对应的扩展特征信息和第二频段对应的初始特征信息之间的差异。
本申请还提供一种应用场景,该应用场景应用上述的语音编码、语音解码方法。具体地,该语音编码、语音解码方法在该应用场景的应用如下:
语音信号的编解码在现代通讯***中占有重要的地位。语音信号的编解码可以有效降低语音信号传输的带宽,对于节省语音信息存储传输成本,保障通信网络传输过程中的语音信息完整性方面起了决定性作用。
语音的清晰度与语谱频带有直接关系,传统固定电话是窄带语音,其采样率为8khz,音质较差,声音比较模糊,可懂度较低;而目前的VoIP(Voice over InternetProtocol,基于IP的语音传输)电话通常是宽带语音,其采样率为16khz,音质较好,声音清晰可懂;而更好的音质体验是超宽带甚至全带语音,其采样率可以达到48khz,声音的保真度更高。不同采样率下采用的语音编码器是不一样的或者是同一个编码器的不同模式,其对应的语音编码码流大小也是不同的。传统的语音编码器只支持处理特定采样率的语音信号,例如AMR-NB(Adaptive Multi Rate-Narrow Band Speech Codec,自适应多速率窄带语音编码)编码器就只支持8khz及以下的输入信号,AMR-WB(Adaptive Multi-Rate-WidebandSpeech Codec,自适应多速率宽带语音编码)编码器只支持16khz及以下的输入信号。
此外,一般情况下采样率越高需要消耗的语音编码码流带宽越大。如果要更优质的语音体验,则需要提升语音频带,例如采样率从8khz提升到16khz甚至48khz等,但现有方案必须修改替换现有客户端、后台传输***的语音编解码器,同时语音传输带宽增加,势必造成运营成本增加。可以理解,现有方案中端到端的语音采样率受制于语音编码器的设置,无法突破语音频带得到更好的音质体验,如果要提升音质体验,必须修改语音编解码器参数或替换其它更高采样率支持的语音编解码器。这势必带来***的升级、运营成本的增加,以及较大的开发工作量和开发周期。
但是,采用本申请的语音编码、语音解码方法,在无需改变现有通话***的语音编解码和信号传输***的前提下,可以升级现有通话***的语音采样率,实现超越现有语音频带的通话体验,有效提升语音清晰度和可懂度,并且运营成本基本不受影响。
参考图6A,语音发送端采集高质量的语音信号,对语音信号进行非线性频带压缩处理,将原来高采样率的语音信号通过非线性频带压缩处理压缩成通话***的语音编码器支持的低采样率的语音信号。语音发送端再对压缩后的语音信号进行语音编码、信道编码,最终通过网络传送到语音接收端。
1、非线性频带压缩处理
鉴于人耳对低频信号敏感,而对高频不敏感的特性,语音发送端可以把高频部分的信号进行频带压缩,例如,全带48khz信号(即采样率为48khz,频带范围在24khz以内)经过非线性频带压缩后,把所有频带信息都集中到16khz信号范围(即采样率为16khz,频带范围在8khz以内),而高于16khz采样范围的高频信号则抑制为零,然后经过降采样到16khz信号。经过非线性频带压缩处理得到的低采样率信号就可以使用常规的16khz的语音编码器进行编码得到码流数据。
以全带48khz信号为例,非线性频带压缩的实质是对语谱(即频谱)6khz以下的信号不做修改,仅对6khz~24khz的语谱信号进行压缩。若是将全带48khz信号压缩到16khz信号,在进行频带压缩时,频段映射信息可以如图6B所示。压缩前,语音信号的频带为0-24khz,第一频段为0-6khz,第二频段为6-24khz。第二频段可以进一步细分为6-8khz、8-10khz、10-12khz、12-18khz、18-24khz,共5个子频段。压缩后,语音信号的频带可以仍然为0-24khz,第一频段为0-6khz,压缩频段为6-8khz,第三频段为8-24khz。压缩频段可以进一步细分为6-6.4khz、6.4-6.8khz、6.8-7.2khz、7.2-7.6khz、7.6-8khz,共5个子频段。6-8khz与6-6.4khz对应,8-10khz与6.4-6.8khz对应,10-12khz与6.8-7.2khz对应,12-18khz与7.2-7.6khz对应,18-24khz与7.6-8khz对应。
首先对高采样率的语音信号进行快速傅里叶变换后得到各个频点的幅值及相位。第一频段的信息保持不变。将图6B左边各子频段中频点的幅值的统计值作为右边对应子频段中频点的幅值,右边子频段中频点的相位则可以沿用原有相位值。例如左边6khz-8khz中各频点幅值相加后求平均值,该平均值作为右边6khz-6.4khz中各频点的幅值,而右边6khz-6.4khz中各频点的相位值为原来的相位值。第三频段的信息清零。右边0-24khz的频域信号经过反傅里叶变换和降采样处理得到压缩后的语音信号。参考图6C,(a)为压缩前的语音信号,(b)为压缩后的语音信号。图6C中上半部分为时域信号,下半部分为频域信号。
可以理解,经过非线性频带压缩后的低采样率语音信号虽然清晰度不如原始高采样率语音信号,但声音信号自然可懂,不会有可感知的杂音和不适感,所以即使语音接收端为现网设备,在没有经过改造情况下也不妨碍通话体验。因此,本申请的方法具有较好的兼容性。
参考图6A,语音接收端接收到码流数据后,对码流数据进行信道解码、语音解码后,再通过非线性频带扩展处理,将低采样率的语音信号还原为高采样率的语音信号,最终对高采样率的语音信号进行播放。
2、非线性频带扩展处理
参考图6D,与非线性频带压缩处理相反,非线性频带扩展处理是将压缩后的6khz-8khz信号重新扩展到6khz-24khz的语谱信号,即傅里叶变换后,扩展前子频段中频点的幅值将作为扩展后对应子频段中频点的幅值,而相位则沿用原相位或将扩展前子频段中频点的相位值加随机扰动值。经过扩展后的频谱信号经过反傅里叶变换后可以得到高采样率的语音信号,虽然不是完美还原,但从听感上比较接近原始的高采样语音信号,主观体验上有显著提升。参考图6E,(a)为原始高采样率语音信号的频谱(即待处理语音信号对应的频谱信息),(b)为扩展后高采样语音信号的频谱(即目标语音信号对应的频谱信息)。
本实施例中,可以基于现有通话***基础上做少量改造就可以达成音质提升的效果,而且不对通话成本造成影响,通过本申请的语音编码、语音解码方法可以使原有的语音编解码器实现超频带编解码效果,实现超越现有语音频带的通话体验,有效提升语音清晰度和可懂度。
可以理解,本申请的语音编码、语音解码方法除了应用于语音通话,也可以应用于语音类的内容存储,例如视频里面的语音,还有语音消息等涉及语音编解码应用的场景。
应该理解的是,虽然图2、图3、图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图3、图5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7A所示,提供了一种语音编码装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:频带特征信息获取模块702、第一目标特征信息确定模块704、第二目标特征信息确定模块706、压缩语音信号生成模块708和语音信号编码模块710,其中:
频带特征信息获取模块702,用于获取待处理语音信号对应的初始频带特征信息。
第一目标特征信息确定模块704,用于基于初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息。
第二目标特征信息确定模块706,用于对初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,第一频段的频率小于第二频段的频率,第二频段的频率区间大于压缩频段的频率区间。
压缩语音信号生成模块708,用于基于第一频段对应的目标特征信息和压缩频段对应的目标特征信息得到中间频带特征信息,基于中间频带特征信息得到待处理语音信号对应的压缩语音信号。
语音信号编码模块710,用于通过语音编码模块对压缩语音信号进行编码处理,得到待处理语音信号对应的编码语音数据,压缩语音信号对应的目标采样率小于或等于语音编码模块对应的支持采样率,目标采样率小于待处理语音信号对应的采样率。
在一个实施例中,频带特征信息获取模块还用于获取语音采集设备采集的待处理语音信号,对待处理语音信号进行傅里叶变换处理,得到初始频带特征信息,初始频带特征信息包括多个初始语音频点对应的初始幅值和初始相位。
在一个实施例中,第二目标特征信息确定模块包括:
频段划分单元,用于对所述第二频段进行频段划分,得到至少两个按序排列的初始子频段;对所述压缩频段进行频段划分,得到至少两个按序排列的目标子频段。
频段关联单元,用于基于初始子频段和目标子频段的子频段排序,确定各个初始子片段分别对应的目标子频段;
信息转换单元,用于将当前目标子频段对应的当前初始子频段的初始特征信息作为第一中间特征信息,从初始频带特征信息中,获取与当前目标子频段的频段信息一致的子频段对应的初始特征信息作为第二中间特征信息,基于第一中间特征信息和第二中间特征信息得到当前目标子频段对应的目标特征信息;
信息确定单元,用于基于各个目标子频段对应的目标特征信息得到压缩频段对应的目标特征信息。
在一个实施例中,第一中间特征信息和第二中间特征信息均包括多个初始语音频点对应的初始幅值和初始相位。信息转换单元还用于基于第一中间特征信息中各个初始语音频点对应的初始幅值的统计值,得到当前目标子频段对应的各个目标语音频点的目标幅值,基于第二中间特征信息中各个初始语音频点对应的初始相位,得到当前目标子频段对应的各个目标语音频点的目标相位,基于当前目标子频段对应的各个目标语音频点的目标幅值和目标相位得到当前目标子频段对应的目标特征信息。
在一个实施例中,压缩语音信号生成模块还用于基于压缩频段和第二频段的频率差异确定第三频段,将第三频段对应的目标特征信息设置为无效信息,基于第一频段对应的目标特征信息、压缩频段对应的目标特征信息和第三频段对应的目标特征信息得到中间频带特征信息,对中间频段特征信息进行傅里叶反变换处理,得到中间语音信号,中间语音信号对应的采样率和待处理语音信号对应的采样率一致,基于支持采样率对中间语音信号进行降采样处理,得到压缩语音信号。
在一个实施例中,语音信号编码模块还用于通过语音编码模块对压缩语音信号进行语音编码,得到第一语音数据,对第一语音数据进行信道编码,得到编码语音数据。
在一个实施例中,如图7B所示,语音编码装置还包括:
语音数据发送模块712,用于将编码语音数据发送至语音接收端,以使语音接收端对编码语音数据进行语音还原处理,得到待处理语音信号对应的目标语音信号。
在一个实施例中,语音数据发送模块还用于基于第二频段和压缩频段得到待处理语音信号对应的压缩标识信息,将编码语音数据和压缩标识信息发送至语音接收端,以使语音接收端对编码语音数据进行解码处理得到压缩语音信号,基于压缩标识信息对压缩语音信号进行频带扩展,得到目标语音信号。
在一个实施例中,如图8所示,提供了一种语音解码装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:语音数据获取模块802、语音信号解码模块804、第一扩展特征信息确定模块806、第二扩展特征信息确定模块808、目标语音信号确定模块810和语音信号播放模块812,其中:
语音数据获取模块802,用于获取编码语音数据,编码语音数据是对待处理语音信号进行语音压缩处理得到的。
语音信号解码模块804,用于通过语音解码模块对编码语音数据进行解码处理得到解码语音信号,解码语音信号对应的目标采样率小于或等于语音解码模块对应的支持采样率。
第一扩展特征信息确定模块806,用于生成解码语音信号对应的目标频带特征信息,基于目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息。
第二扩展特征信息确定模块808,用于对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;第一频段的频率小于压缩频段的频率,压缩频段的频率区间小于第二频段的频率区间。
目标语音信号确定模块810,用于基于第一频段对应的扩展特征信息和第二频段对应的扩展特征信息得到扩展频带特征信息,基于扩展频带特征信息得到待处理语音信号对应的目标语音信号,目标语音信号的采样率大于目标采样率。
语音信号播放模块812,用于播放目标语音信号。
在一个实施例中,语音信号解码模块还用于对编码语音数据进行信道解码,得到第二语音数据,通过语音解码模块对第二语音数据进行语音解码,得到解码语音信号。
在一个实施例中,第二扩展特征信息确定模块包括:
映射信息获取单元,用于获取频段映射信息,频段映射信息用于确定压缩频段对应的至少两个目标子频段和第二频段对应的至少两个初始子频段之间的映射关系;
特征扩展单元,用于基于频段映射信息对目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息。
在一个实施例中,编码语音数据携带压缩标识信息,映射信息获取单元还用于基于压缩标识信息获取频段映射信息。
在一个实施例中,特征扩展单元还用于将当前初始子频段对应的当前目标子频段的目标特征信息作为第三中间特征信息,从目标频带特征信息中,获取与当前初始子频段的频段信息一致的子频段对应的目标特征信息作为第四中间特征信息,基于第三中间特征信息和第四中间特征信息得到当前初始子频段对应的扩展特征信息,基于各个初始子频段对应的扩展特征信息得到第二频段对应的扩展特征信息。
在一个实施例中,第三中间特征信息和第四中间特征信息均包括多个目标语音频点对应的目标幅值和目标相位,特征扩展单元还用于基于第三中间特征信息中各个目标语音频点对应的目标幅值,得到当前初始子频段对应的各个初始语音频点的参考幅值,当第四中间特征信息为空时,对当前初始子频段对应的各个初始语音频点的相位增加随机扰动值,得到当前初始子频段对应的各个初始语音频点的参考相位,当第四中间频带特征子信息不为空时,基于第四中间频带特征子信息中各个目标语音频点对应的目标相位得到当前初始子频段对应的各个初始语音频点的参考相位,基于当前初始子频段对应的各个初始语音频点的参考幅值和参考相位得到当前初始子频段对应的扩展特征信息。
关于语音编码、语音解码装置的具体限定可以参见上文中对于语音编码、语音解码方法的限定,在此不再赘述。上述语音编码、语音解码装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音解码方法,该计算机程序被处理器执行时以实现一种语音编码方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (18)

1.一种语音编码方法,其特征在于,所述方法包括:
获取待处理语音信号对应的初始频带特征信息;
基于所述初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息;
对所述初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,所述第一频段的频率小于所述第二频段的频率,所述第二频段的频率区间大于所述压缩频段的频率区间;
基于所述第一频段对应的目标特征信息和所述压缩频段对应的目标特征信息得到中间频带特征信息,基于所述中间频带特征信息得到所述待处理语音信号对应的压缩语音信号;
通过语音编码模块对所述压缩语音信号进行编码处理,得到所述待处理语音信号对应的编码语音数据,所述压缩语音信号对应的目标采样率小于或等于所述语音编码模块对应的支持采样率,所述目标采样率小于所述待处理语音信号对应的采样率。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理语音信号对应的初始频带特征信息,包括:
获取语音采集设备采集的待处理语音信号;
对所述待处理语音信号进行傅里叶变换处理,得到所述初始频带特征信息,所述初始频带特征信息包括多个初始语音频点对应的初始幅值和初始相位。
3.根据权利要求1所述的方法,其特征在于,所述对所述初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,包括:
对所述第二频段进行频段划分,得到至少两个按序排列的初始子频段;
对所述压缩频段进行频段划分,得到至少两个按序排列的目标子频段;
基于初始子频段和目标子频段的子频段排序,确定各个初始子片段分别对应的目标子频段;
将当前目标子频段对应的当前初始子频段的初始特征信息作为第一中间特征信息,从初始频带特征信息中,获取与当前目标子频段的频段信息一致的子频段对应的初始特征信息作为第二中间特征信息,基于所述第一中间特征信息和所述第二中间特征信息得到所述当前目标子频段对应的目标特征信息;
基于各个目标子频段对应的目标特征信息得到所述压缩频段对应的目标特征信息。
4.根据权利要求3所述的方法,其特征在于,所述第一中间特征信息和所述第二中间特征信息均包括多个初始语音频点对应的初始幅值和初始相位;
所述基于所述第一中间特征信息和所述第二中间特征信息得到所述当前目标子频段对应的目标特征信息,包括:
基于所述第一中间特征信息中各个初始语音频点对应的初始幅值的统计值,得到所述当前目标子频段对应的各个目标语音频点的目标幅值;
基于所述第二中间特征信息中各个初始语音频点对应的初始相位,得到所述当前目标子频段对应的各个目标语音频点的目标相位;
基于所述当前目标子频段对应的各个目标语音频点的目标幅值和目标相位得到所述当前目标子频段对应的目标特征信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一频段对应的目标特征信息和所述压缩频段对应的目标特征信息得到中间频带特征信息,基于所述中间频带特征信息得到所述待处理语音信号对应的压缩语音信号,包括:
基于所述压缩频段和所述第二频段的频率差异确定第三频段,将所述第三频段对应的目标特征信息设置为无效信息;
基于所述第一频段对应的目标特征信息、所述压缩频段对应的目标特征信息和所述第三频段对应的目标特征信息得到中间频带特征信息;
对所述中间频段特征信息进行傅里叶反变换处理,得到中间语音信号,所述中间语音信号对应的采样率和所述待处理语音信号对应的采样率一致;
基于所述支持采样率对所述中间语音信号进行降采样处理,得到所述压缩语音信号。
6.根据权利要求1所述的方法,其特征在于,所述通过语音编码模块对所述压缩语音信号进行编码处理,得到所述待处理语音信号对应的编码语音数据,包括:
通过所述语音编码模块对所述压缩语音信号进行语音编码,得到第一语音数据;
对所述第一语音数据进行信道编码,得到所述编码语音数据。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述方法还包括:
将所述编码语音数据发送至语音接收端,以使所述语音接收端对所述编码语音数据进行语音还原处理,得到所述待处理语音信号对应的目标语音信号,并播放所述目标语音信号。
8.根据权利要求7所述的方法,其特征在于,所述将所述编码语音数据发送至语音接收端,以使所述语音接收端对所述编码语音数据进行语音还原处理,得到所述待处理语音信号对应的目标语音信号,并播放所述目标语音信号,包括:
基于所述第二频段和所述压缩频段得到所述待处理语音信号对应的压缩标识信息;
将所述编码语音数据和所述压缩标识信息发送至所述语音接收端,以使所述语音接收端对所述编码语音数据进行解码处理得到压缩语音信号,基于所述压缩标识信息对所述压缩语音信号进行频带扩展,得到所述目标语音信号,并播放所述目标语音信号。
9.一种语音解码方法,其特征在于,所述方法包括:
获取编码语音数据,所述编码语音数据是对待处理语音信号进行语音压缩处理得到的;
通过语音解码模块对所述编码语音数据进行解码处理得到解码语音信号,所述解码语音信号对应的目标采样率小于或等于所述语音解码模块对应的支持采样率;
生成所述解码语音信号对应的目标频带特征信息,基于所述目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息;
对所述目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;所述第一频段的频率小于所述压缩频段的频率,所述压缩频段的频率区间小于所述第二频段的频率区间;
基于所述第一频段对应的扩展特征信息和所述第二频段对应的扩展特征信息得到扩展频带特征信息,基于所述扩展频带特征信息得到所述待处理语音信号对应的目标语音信号,所述目标语音信号的采样率大于所述目标采样率;
播放所述目标语音信号。
10.根据权利要求9所述的方法,其特征在于,所述通过语音解码模块对所述编码语音数据进行解码处理得到解码语音信号,包括:
对所述编码语音数据进行信道解码,得到第二语音数据;
通过所述语音解码模块对所述第二语音数据进行语音解码,得到所述解码语音信号。
11.根据权利要求9所述的方法,其特征在于,所述对所述目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息,包括:
获取频段映射信息,所述频段映射信息用于确定所述压缩频段对应的至少两个目标子频段和所述第二频段对应的至少两个初始子频段之间的映射关系;
基于所述频段映射信息对所述目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到所述第二频段对应的扩展特征信息。
12.根据权利要求11所述的方法,其特征在于,所述编码语音数据携带压缩标识信息,所述获取频段映射信息,包括:
基于所述压缩标识信息获取所述频段映射信息。
13.根据权利要求11所述的方法,其特征在于,所述基于所述频段映射信息对所述目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到所述第二频段对应的扩展特征信息,包括:
将当前初始子频段对应的当前目标子频段的目标特征信息作为第三中间特征信息,从目标频带特征信息中,获取与当前初始子频段的频段信息一致的子频段对应的目标特征信息作为第四中间特征信息,基于所述第三中间特征信息和所述第四中间特征信息得到所述当前初始子频段对应的扩展特征信息;
基于各个初始子频段对应的扩展特征信息得到所述第二频段对应的扩展特征信息。
14.根据权利要求13所述的方法,其特征在于,所述第三中间特征信息和所述第四中间特征信息均包括多个目标语音频点对应的目标幅值和目标相位;
所述基于所述第三中间特征信息和所述第四中间特征信息得到所述当前初始子频段对应的扩展特征信息,包括:
基于所述第三中间特征信息中各个目标语音频点对应的目标幅值,得到所述当前初始子频段对应的各个初始语音频点的参考幅值;
当所述第四中间特征信息为空时,对所述当前初始子频段对应的各个初始语音频点的相位增加随机扰动值,得到所述当前初始子频段对应的各个初始语音频点的参考相位;
当所述第四中间频带特征子信息不为空时,基于所述第四中间频带特征子信息中各个目标语音频点对应的目标相位得到所述当前初始子频段对应的各个初始语音频点的参考相位;
基于所述当前初始子频段对应的各个初始语音频点的参考幅值和参考相位得到所述当前初始子频段对应的扩展特征信息。
15.一种语音编码装置,其特征在于,所述装置包括:
频带特征信息获取模块,用于获取待处理语音信号对应的初始频带特征信息;
第一目标特征信息确定模块,用于基于所述初始频带特征信息中第一频段对应的初始特征信息得到第一频段对应的目标特征信息;
第二目标特征信息确定模块,用于对所述初始频带特征信息中第二频段对应的初始特征信息进行特征压缩,得到压缩频段对应的目标特征信息,所述第一频段的频率小于所述第二频段的频率,所述第二频段的频率区间大于所述压缩频段的频率区间;
压缩语音信号生成模块,用于基于所述第一频段对应的目标特征信息和所述压缩频段对应的目标特征信息得到中间频带特征信息,基于所述中间频带特征信息得到所述待处理语音信号对应的压缩语音信号;
语音信号编码模块,用于通过语音编码模块对所述压缩语音信号进行编码处理,得到所述待处理语音信号对应的编码语音数据,所述压缩语音信号对应的目标采样率小于或等于所述语音编码模块对应的支持采样率,所述目标采样率小于所述待处理语音信号对应的采样率。
16.一种语音解码装置,其特征在于,所述装置包括:
语音数据获取模块,用于获取编码语音数据,所述编码语音数据是对待处理语音信号进行语音压缩处理得到的;
语音信号解码模块,用于通过语音解码模块对所述编码语音数据进行解码处理得到解码语音信号,所述解码语音信号对应的目标采样率小于或等于所述语音解码模块对应的支持采样率;
第一扩展特征信息确定模块,用于生成所述解码语音信号对应的目标频带特征信息,基于所述目标频带特征信息中第一频段对应的目标特征信息得到第一频段对应的扩展特征信息;
第二扩展特征信息确定模块,用于对所述目标频带特征信息中压缩频段对应的目标特征信息进行特征扩展,得到第二频段对应的扩展特征信息;所述第一频段的频率小于所述压缩频段的频率,所述压缩频段的频率区间小于所述第二频段的频率区间;
目标语音信号确定模块,用于基于所述第一频段对应的扩展特征信息和所述第二频段对应的扩展特征信息得到扩展频带特征信息,基于所述扩展频带特征信息得到所述待处理语音信号对应的目标语音信号,所述目标语音信号的采样率大于所述目标采样率;
语音信号播放模块,用于播放所述目标语音信号。
17.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8或9至14中任一项所述的方法的步骤。
18.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8或9至14中任一项所述的方法的步骤。
CN202110693160.9A 2021-06-22 2021-06-22 语音编码、语音解码方法、装置、计算机设备和存储介质 Pending CN115512711A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110693160.9A CN115512711A (zh) 2021-06-22 2021-06-22 语音编码、语音解码方法、装置、计算机设备和存储介质
EP22827252.2A EP4362013A1 (en) 2021-06-22 2022-05-17 Speech coding method and apparatus, speech decoding method and apparatus, computer device, and storage medium
PCT/CN2022/093329 WO2022267754A1 (zh) 2021-06-22 2022-05-17 语音编码、语音解码方法、装置、计算机设备和存储介质
US18/124,496 US20230238009A1 (en) 2021-06-22 2023-03-21 Speech coding method and apparatus, speech decoding method and apparatus, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110693160.9A CN115512711A (zh) 2021-06-22 2021-06-22 语音编码、语音解码方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115512711A true CN115512711A (zh) 2022-12-23

Family

ID=84499351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110693160.9A Pending CN115512711A (zh) 2021-06-22 2021-06-22 语音编码、语音解码方法、装置、计算机设备和存储介质

Country Status (4)

Country Link
US (1) US20230238009A1 (zh)
EP (1) EP4362013A1 (zh)
CN (1) CN115512711A (zh)
WO (1) WO2022267754A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN100539437C (zh) * 2005-07-29 2009-09-09 上海杰得微电子有限公司 一种音频编解码器的实现方法
CN101604527A (zh) * 2009-04-22 2009-12-16 网经科技(苏州)有限公司 VoIP环境下基于G.711编码隐藏传送宽频语音的方法
CN102522092B (zh) * 2011-12-16 2013-06-19 大连理工大学 一种基于g.711.1的语音带宽扩展的装置和方法
GB201210373D0 (en) * 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
RU2678657C1 (ru) * 2012-11-05 2019-01-30 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Устройство кодирования речи-аудио, устройство декодирования речи-аудио, способ кодирования речи-аудио и способ декодирования речи-аудио
MY191093A (en) * 2016-02-17 2022-05-30 Fraunhofer Ges Forschung Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
EP3382702A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
CN111402908A (zh) * 2020-03-30 2020-07-10 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2022267754A1 (zh) 2022-12-29
EP4362013A1 (en) 2024-05-01
US20230238009A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
US8560307B2 (en) Systems, methods, and apparatus for context suppression using receivers
JP6462653B2 (ja) オーディオ・データを処理するための方法、装置、及びシステム
US7986797B2 (en) Signal processing system, signal processing apparatus and method, recording medium, and program
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
CN113539281A (zh) 音频信号编码方法和装置
CN113808596A (zh) 一种音频编码方法和音频编码装置
CN115512711A (zh) 语音编码、语音解码方法、装置、计算机设备和存储介质
CN113808597A (zh) 一种音频编码方法和音频编码装置
WO2022258036A1 (zh) 编解码方法、装置、设备、存储介质及计算机程序
CN116110424A (zh) 一种语音带宽扩展方法及相关装置
CN116978389A (zh) 音频解码方法、音频编码方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40079096

Country of ref document: HK