CN111862995A - 一种码率确定模型训练方法、码率确定方法及装置 - Google Patents
一种码率确定模型训练方法、码率确定方法及装置 Download PDFInfo
- Publication number
- CN111862995A CN111862995A CN202010575623.7A CN202010575623A CN111862995A CN 111862995 A CN111862995 A CN 111862995A CN 202010575623 A CN202010575623 A CN 202010575623A CN 111862995 A CN111862995 A CN 111862995A
- Authority
- CN
- China
- Prior art keywords
- code rate
- audio signal
- audio
- encoded
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 title claims abstract description 39
- 230000005236 sound signal Effects 0.000 claims abstract description 371
- 230000005540 biological transmission Effects 0.000 description 35
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本公开关于一种码率确定模型训练方法、码率确定方法及装置,该方法包括:获取音频样本数据集合;获取每个音频信号的特征信息和音频信号对应的目标编码码率;将获取的所述特征信息输入待训练的码率确定模型中,得到待训练的码率确定模型输出的编码码率;根据待训练的码率确定模型输出的编码码率和所述目标编码码率,获取待训练的码率确定模型的损失值;根据损失值调整待训练的码率确定模型的模型参数,直至损失值低于预设阈值时,将待训练的码率确定模型作为训练好的码率确定模型。这样,后续步骤中,在对待编码音频信号进行编码时,通过该码率确定模型可以得到合适大小的编码码率,并能够保证编码后的音频信号的音频质量。
Description
技术领域
本申请涉及音视频技术领域,特别是涉及一种码率确定模型训练方法、码率确定方法及装置。
背景技术
随着移动互联网的发展,在终端上使用音频成为了越来越多用户的需求,为了节省传输资源和存储资源,音频信号在传输及存储中需要被编码。音频编码技术可以分为无损编码,即终端可以通过解码器完美恢复原始音频信号;另一种编码方式为有损编码,即终端通过解码器解码后的音频信号被不同程度的压缩。
相关技术中,在对音频信号进行编码时,通常会指定一个码率,编码器可以按照指定码率进行编码,为了保证编码后的音频信号的质量,通常会指定一个高码率来对音频信号进行编码。
这样,在传输编码后的音频信号时,会需要较高的传输带宽;并且,在存储编码后的音频信号时,会需要较大的存储空间,进而导致了传输资源和存储资源的浪费。
发明内容
为了解决相关技术中存在的因音频信号的编码码率高,而导致传输以及存储编码后的音频信号时,造成传输资源及存储资源浪费的技术问题,本公开提供了一种码率确定模型训练方法、码率确定方法及装置,本公开的技术方案如下:
根据本公开实施例的第一方面,提供了一种码率确定模型训练方法,所述方法包括:
获取音频样本数据集合,所述音频样本数据集合中包括不同类型的音频信号;
获取每个所述音频信号的特征信息和所述音频信号对应的目标编码码率,所述特征信息与所述音频信号的类型相关联,所述目标编码码率为所述音频信号满足目标音频质量时的最低编码码率;
将获取的所述特征信息输入待训练的码率确定模型中,得到所述待训练的码率确定模型输出的编码码率;
根据所述待训练的码率确定模型输出的编码码率和所述目标编码码率,获取所述待训练的码率确定模型的损失值;
根据所述损失值调整所述待训练的码率确定模型的模型参数,直至所述损失值低于预设阈值时,将所述待训练的码率确定模型作为训练好的码率确定模型。
可选的,获取所述音频信号对应的目标编码码率,包括:
根据预设码率对所述音频信号进行编码以得到编码后的音频信号;
根据所述音频信号和所述编码后的音频信号,计算所述编码后的音频信号的质量损失值;
当所述质量损失值小于质量损失阈值,且所述质量损失值为最小的质量损失值时,将所述预设码率确定为所述音频信号对应的目标编码码率。
可选的,所述当所述质量损失值小于质量损失阈值,且所述质量损失值为最小的质量损失值时,将所述预设码率确定为所述音频信号对应的目标编码码率,包括:
当所述质量损失值小于质量损失阈值时,减小所述预设码率,并根据减小后的预设码率对所述音频信号进行编码以得到编码后的音频信号,直到所述音频质量损失值大于所述质量损失阈值;
将前一个减小后的预设码率作为目标编码码率。
可选的,所述获取每个所述音频信号的特征信息,包括:
获取每个所述音频信号在时频域的振幅信息和相位信息,根据所述振幅信息和/或相位信息确定所述音频信号的特征信息。
可选的,所述获取每个所述音频信号的特征信息和所述音频信号对应的目标编码码率,包括:
获取每个所述音频信号的每一帧信号的特征信息和所述音频信号的每一帧信号对应的目标编码码率;
或,获取每个所述音频信号中的每一帧信号的特征信息,将各帧信号的特征信息的平均值作为所述音频信号的特征信息,且获取与所述音频信号的特征信息对应的目标编码码率。
根据本公开实施例的第二方面,提供了一种码率确定方法,所述方法包括:
获取待编码音频信号的特征信息;
将所述待编码音频信号的特征信息输入第一方面所述的码率确定模型,得到所述待编码音频信号对应的编码码率,以按照所述待编码音频信号对应的编码码率对所述待编码音频信号进行编码。
可选的,所述获取待编码音频信号的特征信息,包括:
获取所述待编码音频信号在时频域的振幅信息和相位信息,根据所述振幅信息和/或相位信息确定所述待编码音频信号的特征信息。
可选的,所述获取待编码音频信号的特征信息,包括:
获取待编码音频信号的每一帧信号的特征信息;
或,获取待编码音频信息中的每一帧信号的特征信息,将各帧信号的特征信号的平均值作为所述待编码音频信号的特征信息。
根据本公开实施例的第三方面,提供了一种码率确定模型训练装置,所述装置包括:
音频信号获取模块,被配置为执行获取音频样本数据集合,所述音频样本数据集合中包括不同类型的音频信号;
信息及码率获取模块,被配置为执行获取每个所述音频信号的特征信息和所述音频信号对应的目标编码码率,所述特征信息与所述音频信号的类型相关联,所述目标编码码率为所述音频信号满足目标音频质量时的最低编码码率;
编码码率获取模块,被配置为执行将获取的所述特征信息输入待训练的码率确定模型中,得到所述待训练的码率确定模型输出的编码码率;
损失值获取模块,被配置为执行根据所述待训练的码率确定模型输出的编码码率和所述目标编码码率,获取所述待训练的码率确定模型的损失值;
模型参数调整模块,被配置为执行根据所述损失值调整所述待训练的码率确定模型的模型参数,直至所述损失值低于预设阈值时,将所述待训练的码率确定模型作为训练好的码率确定模型。
可选的,所述信息及码率获取模块,包括:
音频信号编码单元,被配置为执行根据预设码率对所述音频信号进行编码以得到编码后的音频信号;
质量损失值计算单元,被配置为执行根据所述音频信号和所述编码后的音频信号,计算所述编码后的音频信号的质量损失值;
目标编码码率确定单元,被配置为执行当所述质量损失值小于质量损失阈值,且所述质量损失值为最小的质量损失值时,将所述预设码率确定为所述音频信号对应的目标编码码率。
可选的,所述目标编码码率确定单元,具体被配置为执行:
当所述质量损失值小于质量损失阈值时,减小所述预设码率,并根据减小后的预设码率对所述音频信号进行编码以得到编码后的音频信号,直到所述音频质量损失值大于所述质量损失阈值;
将前一个减小后的预设码率作为目标编码码率。
可选的,所述信息及码率获取模块,具体被配置为执行:
获取每个所述音频信号在时频域的振幅信息和相位信息,根据所述振幅信息和/或相位信息确定所述音频信号的特征信息。
可选的,所述信息及码率获取模块,具体被配置为执行:
获取每个所述音频信号的每一帧信号的特征信息和所述音频信号的每一帧信号对应的目标编码码率;
或,获取每个所述音频信号中的每一帧信号的特征信息,将各帧信号的特征信息的平均值作为所述音频信号的特征信息,且获取与所述音频信号的特征信息对应的目标编码码率。
根据本公开实施例的第四方面,提供了一种码率确定装置,所述装置包括:
特征信息获取模块,被配置为执行获取待编码音频信号的特征信息;
编码码率确定模块,被配置为执行将所述待编码音频信号的特征信息输入第三方面所述的码率确定模型,得到所述待编码音频信号对应的编码码率,以按照所述待编码音频信号对应的编码码率对所述待编码音频信号进行编码。
可选的,所述特征信息获取模块,具体被配置为执行:
获取所述待编码音频信号在时频域的振幅信息和相位信息,根据所述振幅信息和/或相位信息确定所述待编码音频信号的特征信息。
可选的,所述特征信息获取模块,具体被配置为执行:
获取待编码音频信号的每一帧信号的特征信息;
或,获取待编码音频信息中的每一帧信号的特征信息,将各帧信号的特征信号的平均值作为所述待编码音频信号的特征信息。
根据本公开实施例的第五方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现第一方面所述的码率确定模型训练方法。
根据本公开实施例的第六方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第二方面所述的码率确定方法。
根据本公开实施例的第七方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如第一方面所述的码率确定模型训练方法。
根据本公开实施例的第八方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第二方面所述的码率确定方法。
根据本公开实施例的第九方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现第一方面所述的码率确定模型训练方法。
根据本公开实施例的第十方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现第二方面所述的码率确定方法。
可见,通过本公开实施例提供的技术方案,码率确定模型的目标输出是目标编码码率,该目标编码码率为音频信号满足目标音频质量时的最低编码码率,这样,后续步骤中,在对待编码音频数据进行编码时,通过该码率确定模型可以得到合适大小的编码码率,并能够保证编码后的音频数据的音频质量。而不像相关技术那样,确定一个较高的编码码率,从而可以节省编码后的音频数据传输时的传输带宽,以及编码后的音频数据存储时的存储空间。
附图说明
图1是根据一示例性实施例示出的码率确定模型训练方法的流程图;
图2是根据一示例性实施例示出的码率确定模型训练过程的示意图
图3是根据一示例性实施例示出的获取音频信号对应的目标编码码率的流程图;
图4是根据一示例性实施例示出的获取音频信号对应的目标编码码率的过程的示意图;
图5是根据一示例性实施例示出的码率确定方法的流程图;
图6是根据一示例性实施例示出的码率确定模型训练装置的框图;
图7是根据一示例性实施例示出的码率确定装置的框图;
图8是根据一示例性实施例示出的一种电子设备的框图;
图9是根据一示例性实施例示出的另一种电子设备的框图;
图10是根据一示例性实施例示出的一种码率确定模型训练装置或者码率确定装置的框图;
图11是根据一示例性实施例示出的另一种码率确定模型训练装置或者码率确定装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了解决相关技术中存在的因音频信号的编码码率高,而导致传输以及存储编码后的音频信号时,造成传输资源及存储资源浪费的技术问题,本公开提供了一种码率确定模型训练方法、码率确定方法及装置。
第一方面,将对本公开实施例提供的一种码率确定模型训练方法进行详细介绍。
如图1所示,本公开实施例提供的一种码率确定模型训练方法,可以包括如下步骤:
在步骤S11中,获取音频样本数据集合。
其中,音频样本数据集合中包括不同类型的音频信号。
具体的,在对码率确定模型进行训练时,需要采集大量的样本数据,即需要采集音频样本数据集合。并且,音频样本数据集合中可以包括不同类型的音频信号。
举例而言,音频样本数据集合中可以包括语音信号,音乐信号以及背景环境音信号等这些不同类型的音频信号,本公开实施例对音频样本数据集合中所包括的音频信号的类型不做具体限定。
在步骤S12中,获取每个音频信号的特征信息和音频信号对应的目标编码码率。
其中,音频信号的特征信息与音频信号的类型相关联,目标编码码率为音频信号满足目标音频质量时的最低编码码率。
具体的,在获取到音频样本数据集合后,可以获取音频样本数据集合中每个音频信号的特征信息和目标编码码率。
音频信号的特征信息与音频信号的类型相关联,对于不同类型的音频信号,其特征信息通常也不同。具体的,当音频信号的类型为语音信号时,音频信号的特征信息为语音信号的特征信息;当音频信号的类型为音乐信号时,音频信号的特征信息为音乐信号的特征信息;同样的,当音频信号的类型为背景环境音信号时,音频信号的特征信息为背景环境音信号的特征信息。其中,音频信号的特征信息可以是音频信号在时频域的振幅信息、相位信息等,本公开实施例对音频信号的特征信息不做具体限定。
并且,为了保证编码后的音频信号在满足指定的音频质量的情况下,能够尽量地节省编码后的音频信号传输时的传输带宽,以及编码后的音频信号存储时的存储空间,需要目标编码码率为音频信号满足目标音频质量时的最低编码码率。其中,目标音频质量可以为指定的音频质量,该指定的音频质量可以根据实际情况进行确定,例如,对于类型为背景环境音的音频信号而言,指定的音频质量可以较低;对于类型为音乐信号的音频信号而言,指定的音频质量可以较高。本公开实施例对目标音频质量的大小不做具体限定。
为了方案描述清楚,将在下面实施例对获取每个音频信号的特征信息和音频信号对应的目标编码码率的具体实施方式进行详细阐述。
在步骤S13中,将获取的特征信息输入待训练的码率确定模型中,得到待训练的码率确定模型输出的编码码率。
在获取到音频信号的特征信息和音频信号对应的目标编码码率之后,可以对码率确定模型进行训练。具体的,可以将获取到的音频信号的特征信息输入到待训练的码率确定模型,从待训练的码率确定模型中输出音频信号的编码码率。
在步骤S14中,根据待训练的码率确定模型输出的编码码率和目标编码码率,获取待训练的码率确定模型的损失值。
具体的,由于码率确定模型的目标输出为目标编码码率,因此,在得到待训练的码率确定模型输出的编码码率后,可以根据待训练的码率确定模型输出的编码码率和目标编码码率,来计算待训练的码率确定模型的损失值。
可以理解的是,待训练的码率确定模型的损失值可以用于表征从待训练的码率确定模型输出的编码码率与目标编码码率之间差值的大小。如果待训练的码率确定模型的损失值较大,那么,从待训练的码率确定模型输出的编码码率与目标编码码率之间差值较大;如果待训练的码率确定模型的损失值较小,那么,从待训练的码率确定模型输出的编码码率与目标编码码率之间差值较小。
在步骤S15中,根据损失值调整待训练的码率确定模型的模型参数,直至损失值低于预设阈值时,将待训练的码率确定模型作为训练好的码率确定模型。
具体的,如果待训练的码率确定模型的损失值较大,说明从待训练的码率确定模型输出的编码码率与目标编码码率之间差值较大,为了使得从待训练的码率确定模型输出的编码码率接近目标编码码率,可以调整待训练的码率确定模型的模型参数。
并且,在调整待训练的码率确定模型的模型参数后,可以再次将音频信号的特征信息输入到待训练的码率确定模型中,再次得到从待训练的码率确定模型输出的编码码率,并根据再次得到的从待训练的码率确定模型输出的编码码率和目标编码码率,计算待训练的码率确定模型的损失值。直至损失值小于预设阈值时,说明从待训练的码率确定模型输出的编码码率接近目标编码码率,此时,可以将待训练的码率确定模型作为训练好的码率确定模型。
需要说明的是,预设阈值可以根据实际情况进行确定,本公开实施例对预设阈值的大小不做具体限定。
可见,通过本公开实施例提供的技术方案,码率确定模型的目标输出是目标编码码率,该目标编码码率为音频信号满足目标音频质量时的最低编码码率,这样,后续步骤中,在对待编码音频数据进行编码时,通过该码率确定模型可以得到合适大小的编码码率,并能够保证编码后的音频数据的音频质量。而不像相关技术那样,确定一个较高的编码码率,从而可以节省编码后的音频数据传输时的传输带宽,以及编码后的音频数据存储时的存储空间。
并且,为了更加直观清楚地了解码率确定模型的训练过程,下面将结合具体实例对码率确定模型训练的过程进行阐述,如图2所示。
在训练码率确定模型时,获取音频信号;提取音频信号的特征,并基于综合分析估计音频信号的编码码率,即获取音频信号对应的目标编码码率,其中,该目标编码码率即为码率确定模型的目标输出。
然后基于所提取的特征和音频信号的编码码率对神经网络即待训练的码率确定模型进行训练。在训练神经网络的过程中,不断优化神经网络的参数,在神经网络的损失值小于预设阈值时,得到神经网络最优参数,此时,将训练好的神经网络确定为训练好的码率确定模型。
为了方案描述清楚,下面将对获取音频信号对应的目标编码码率的具体实施方式进行详细阐述。
在一种实施方式中,获取音频信号对应的目标编码码率,如图3所示,可以包括如下步骤:
在步骤S31中,根据预设码率对音频信号进行编码以得到编码后的音频信号。
具体的,在确定音频信号的目标编码码率时,可以按照预先确定的预设码率对音频信号进行编码,得到编码后的音频信号。其中,预设码率的数量可以有多个,具体的,这多个预设码率可以是预先确定的数值较大的初始编码码率,以及降低该初始编码码率所得的的编码码率。
需要说明的是,预设码率的大小可以根据实际情况进行设定,本公开实施例对预设码率的大小不做具体限定。
在步骤S32中,根据音频信号和编码后的音频信号,计算编码后的音频信号的质量损失值。
具体的,在得到编码后的音频信号后,可以得到编码后的音频信号的音频质量,并可以根据编码后的音频信号的音频质量和编码前的音频信号的信号质量,来确定编码后的音频信号的质量损失值。该质量损失值可以用于衡量编码后的音频信号与编码前的音频信号相比,音频质量的损失程度。
其中,计算编码后的音频信号的质量损失值的过程可以为:利用音频质量测评方法对编码后的音频信号的音频质量与编码前的音频信号的音频质量进行质量损失测评,得到编码后的音频信号的质量损失值。
并且,音频质量测评方法可以包括客观评测方法和主观评测方法。举例而言,客观评测方法可以为PEAQ(Perceptual Evaluationof Audio Quality,音频质量感知评估)等;主观评测方法可以为MUSHRA(Multi-Stimulus Test with Hidden Reference andAnchor,多激励隐藏参考基准测试方法)等。本公开实施例对音频质量测评方法不做具体限定。例如,PEAQ对编码后的音频信号的音频质量与编码前的音频信号的音频质量进行质量损失测评,所得的编码后的音频信号的质量损失值可以为0.1。
在步骤S33中,当质量损失值小于质量损失阈值,且质量损失值为最小的质量损失值时,将预设码率确定为音频信号对应的目标编码码率。
其中,质量损失阈值的大小可以为未编码的音频信号的音频质量与目标音频质量之间的差值。
具体的,如果利用一个预设码率对音频信号进行编码后,所得的编码后的音频信号的质量损失值小于质量损失阈值,且质量损失值为最小的质量损失值时,说明利用该预设码率对音频信号进行编码后,所得的编码后的音频信号的音频质量能够满足目标音频质量,且编码后的音频信号的音频质量刚好满足目标音频质量,也就是说,该预设码率为满足目标音频质量时的最低编码码率。因此,可以将该预设码率确定为音频信号对应的目标编码码率。
作为本公开实施例的一种实现方式,当质量损失值小于质量损失阈值,且质量损失值为最小的质量损失值时,将预设码率确定为音频信号对应的目标编码码率,可以包括如下步骤:
当质量损失值小于质量损失阈值时,减小预设码率,并根据减小后的预设码率对音频信号进行编码以得到编码后的音频信号,直到音频质量损失值大于所述质量损失阈值;
将前一个减小后的预设码率作为目标编码码率。
具体的,在确定音频信号的目标编码码率时,首先可以按照一个较大的预设码率即初始编码码率对音频信号进行编码。该初始编码码率可以为一个能够最大程度保证编码后的音频信号的音频质量的编码码率。
并且,在按照初始编码码率对音频信号进行编码后,可以将编码后的音频信号的质量损失值与质量损失阈值进行比对,如果编码后的音频信号的质量损失值小于质量损失阈值,说明编码后的音频信号的质量损失值较小,在满足目标音频质量的情况下,可以继续降低预设码率。并按照降低后的预设码率对音频信号再次编码,并将再次编码后的音频信号的质量损失值与质量损失阈值进行比对,如果再次编码后的音频信号的质量损失值仍小于质量损失阈值,则继续降低预设码率,直至编码后的音频信号的质量损失值大于质量损失阈值时,说明前一个减小后的预设码率为编码后的音频信号满足目标音频质量时的最低编码码率,因此,可以将前一个减小后的预设码率作为目标编码码率。
可见,通过本实现方式确定的目标编码码率为编码后的音频信号满足目标音频质量时的最低编码码率。
并且,为了更加直观清楚地了解获取音频信号的目标编码码率的过程,下面将结合具体实例对获取音频信号的目标编码码率的过程进行阐述,如图4所示。
第一,音频编码器按照初始码率对音频信号进行编码,并对编码后的音频信号进行质量损伤测评。
第二,判断质量损伤值是否高于阈值。如果判断结果为否,即质量损伤值低于阈值,则更新码率,即降低初始码率。
第三,音频编码器按照更新后的码率对音频信号进行编码,再次得到编码后的音频,并对编码后的音频信号进行质量损伤测评。
第四,再次判断质量损伤值是否高于阈值。如果判断结果为否,即质量损伤值低于阈值,则更新码率,即降低初始码率,音频编码器按照更新后的码率对音频信号进行编码。直至判断结果为是,即判断出质量损伤值高于阈值时,输出上一个满足阈值的码率,即输出损伤值低于阈值对应的码率,所输出的码率即为目标编码码率。
为了方案描述清楚,下面将对获取每个音频信号的特征信息的具体实施方式进行详细阐述。
在一种实施方式中,获取每个音频信号的特征信息,可以包括如下步骤:
获取每个音频信号在时频域的振幅信息和相位信息,根据振幅信息和/或相位信息确定音频信号的特征信息。
具体的,可以利用时频转换方法如短时傅里叶变换,将音频信号转换至时频域,得到复数信号S(n,k)。
S(n,k)=A(n,k)*eiθ(n,k)
其中,A(n,k)为振幅信息,θ(n,k)为相位信息。
并且,作为本公开实施例的一种实现方式,在得到振幅信息和相位信息后,可以直接将振幅信息作为音频信号的特征信息;或者,可以将相位信息作为音频信号的特征信息;或者,还可以将振幅信息和相位信息均作为音频信号的特征信息,这都是合理的。
作为本公开实施例的另一种实现方式,在得到振幅信息和相位信息后,可以通过对振幅信息和/或相位信息进行预设处理,得到音频信号的其他特征信息。其中,其他特征信息可以包括:MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数);梅尔频谱melspectrogram;谱对比度spectral contrast等,本公开实施例对其他音频特征不做具体限定。此时,可以将振幅信息、相位信息以及其他特征信息中的任一种或者多种作为音频信号的特征信息,这都是合理的。
可见,通过本实施方式提供的技术方案,可以准确地出音频信号的特征信息。
为了方案描述清楚,下面将对获取每个音频信号的特征信息和音频信号对应的目标编码码率的具体实施方式进行详细阐述。
在一种实施方式中,获取每个音频信号的特征信息和音频信号对应的目标编码码率,可以包括如下步骤:
获取每个音频信号的每一帧信号的特征信息和音频信号的每一帧信号对应的目标编码码率。
在该实施方式中,在训练码率确定模型时,可以获取每个音频信号的每一帧信号的特征信息和对应的编码码率,也就是说,训练码率确定模型的训练数据较多,因此,训练所得的编码码率确定模型的准确度较高。
可见,通过本实施方式得技术方案,训练所得的编码码率确定模型的准确度较高。
在另一种实施方式中,获取每个音频信号的特征信息和音频信号对应的目标编码码率,可以包括如下步骤:
获取每个音频信号中的每一帧信号的特征信息,将各帧信号的特征信息的平均值作为音频信号的特征信息,且获取与音频信号的特征信息对应的目标编码码率。
在实际应用中,为了降低训练码率确定模型过程的计算量,可以对音频信号的特征信息进行降维。
举例而言,如果一个音频信号为连续30帧的音频信号,可以将该30帧的音频信号的特征信息取平均值,得到一帧长度的特征信息,并将这一帧长度的特征信息确定为音频信号的特征信息,此时,目标编码码率为该音频信号的特征信息对应的编码码率。
可见,通过本实施方式得技术方案,可以降低训练码率确定模型过程的计算量。
第二方面,将对本公开实施例提供的码率确定方法进行详细介绍。
如图5所示,本公开实施例提供的码率确定方法可以包括如下步骤:
在步骤S51中,获取待编码音频信号的特征信息。
具体的,在对音频信号进行传输或存储时,为了降低传输带宽或存储空间,需要对音频信号进行编码,这些待进行编码的音频信号可以称为待编码音频信号。
为了准确地得到待编码音频信号对应的编码码率,需要获取待编码音频信号的特征信息,以在后续步骤中,可以将待编码音频信号的特征信息输入第一方面所述的码率确定模型中,得到待编码音频信号对应的编码码率。
在一种实施方式中,获取待编码音频信号的特征信息,可以包括如下步骤:
获取待编码音频信号在时频域的振幅信息和相位信息,根据振幅信息和/或相位信息确定待编码音频信号的特征信息。
具体的,可以利用时频转换方法如短时傅里叶变换,将待编码音频信号转换至时频域,得到复数信号S(n,k)。
S(n,k)=A(n,k)*eiθ(n,k)
其中,A(n,k)为振幅信息,θ(n,k)为相位信息。
并且,作为本公开实施例的一种实现方式,在得到振幅信息和相位信息后,可以直接将振幅信息作为待编码音频信号的特征信息;或者,可以将相位信息作为待编码音频信号的特征信息;或者,还可以将振幅信息和相位信息均作为待编码音频信号的特征信息,这都是合理的。
作为本公开实施例的另一种实现方式,在得到振幅信息和相位信息后,可以通过对振幅信息和/或相位信息进行预设处理,得到待编码音频信号的其他特征信息。其中,其他特征信息可以包括:MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数);梅尔频谱melspectrogram;谱对比度spectral contrast等,本公开实施例对其他音频特征不做具体限定。此时,可以将振幅信息、相位信息以及其他特征信息中的任一种或者多种作为待编码音频信号的特征信息,这都是合理的。
在步骤S52中,将待编码音频信号的特征信息输入第一方面所述的码率确定模型,得到待编码音频信号对应的编码码率,以按照待编码音频信号对应的编码码率对所述待编码音频信号进行编码。
在得到待编码音频信号的特征信息之后,可以将待编码音频信号的特征信息输入到第一方面训练所得到的码率确定模型中,得到待编码音频信号对应的编码码率。通过码率确定模型所得到的待编码音频信号对应的编码码率大小合适,且能够保证编码后的音频信号的音频质量,因此,通过待编码音频信号对应的编码码率对待编码音频信号进行编码,在保证音频质量的情况下,最大程度的优化编码码率,从而可以节省编码后的音频信号传输时的传输带宽,以及编码后的音频信号存储时的存储空间。
本公开实施例提供的技术方案,获取待编码音频信号的特征信息;将待编码音频信号的特征信息输入第一方面所述的码率确定模型,得到待编码音频信号对应的编码码率,以通过待编码音频信号对应的编码码率对待编码音频信号进行编码。由于通过码率确定模型所得到的待编码音频信号对应的编码码率大小合适,且能够保证编码后的音频信号的音频质量,因此,可以节省编码后的音频信号传输时的传输带宽,以及编码后的音频信号存储时的存储空间。
并且,在一种实施方式中,获取待编码音频信号的特征信息,可以包括如下步骤:
获取待编码音频信号的每一帧信号的特征信息。
在该实施方式中,可以获取待编码音频信号的每一帧信号的特征信息,这样,后续步骤中,通过将待编码音频信号的每一帧信号的特征信息输入到码率确定模型中,所得到的待编码音频信号对应的编码码率的准确度相对高一些。
在另一种实施方式中,获取待编码音频信号的特征信息,可以包括如下步骤:
获取待编码音频信息中的每一帧信号的特征信息,将各帧信号的特征信号的平均值作为待编码音频信号的特征信息。
在实际应用中,为了降低获取待编码音频信号的特征信息的工作量,可以对待编码音频信号的特征信息进行降维。
举例而言,如果一个待编码音频信号为连续30帧的音频信号,可以将该30帧的待编码音频信号的特征信息取平均值,得到一帧长度的特征信息,并将这一帧长度的特征信息确定为待编码音频信号的特征信息,这样,后续步骤中,通过将待编码音频信号的特征信息输入到码率确定模型中,也可以得到待编码音频信号对应的编码码率。
根据本公开实施例的第三方面,提供了一种码率确定模型训练装置,如图6所示,所述装置包括:
音频信号获取模块610,被配置为执行获取音频样本数据集合,所述音频样本数据集合中包括不同类型的音频信号;
信息及码率获取模块620,被配置为执行获取每个所述音频信号的特征信息和所述音频信号对应的目标编码码率,所述特征信息与所述音频信号的类型相关联,所述目标编码码率为所述音频信号满足目标音频质量时的最低编码码率;
编码码率获取模块630,被配置为执行将获取的所述特征信息输入待训练的码率确定模型中,得到所述待训练的码率确定模型输出的编码码率;
损失值获取模块640,被配置为执行根据所述待训练的码率确定模型输出的编码码率和所述目标编码码率,获取所述待训练的码率确定模型的损失值;
模型参数调整模块650,被配置为执行根据所述损失值调整所述待训练的码率确定模型的模型参数,直至所述损失值低于预设阈值时,将所述待训练的码率确定模型作为训练好的码率确定模型。
可见,通过本公开实施例提供的技术方案,码率确定模型的目标输出是目标编码码率,该目标编码码率为音频信号满足目标音频质量时的最低编码码率,这样,后续步骤中,在对待编码音频数据进行编码时,通过该码率确定模型可以得到合适大小的编码码率,并能够保证编码后的音频数据的音频质量。而不像相关技术那样,确定一个较高的编码码率,从而可以节省编码后的音频数据传输时的传输带宽,以及编码后的音频数据存储时的存储空间。
可选的,所述信息及码率获取模块,包括:
音频信号编码单元,被配置为执行根据预设码率对所述音频信号进行编码以得到编码后的音频信号;
质量损失值计算单元,被配置为执行根据所述音频信号和所述编码后的音频信号,计算所述编码后的音频信号的质量损失值;
目标编码码率确定单元,被配置为执行当所述质量损失值小于质量损失阈值,且所述质量损失值为最小的质量损失值时,将所述预设码率确定为所述音频信号对应的目标编码码率。
可选的,所述目标编码码率确定单元,具体被配置为执行:
当所述质量损失值小于质量损失阈值时,减小所述预设码率,并根据减小后的预设码率对所述音频信号进行编码以得到编码后的音频信号,直到所述音频质量损失值大于所述质量损失阈值;
将前一个减小后的预设码率作为目标编码码率。
可选的,所述信息及码率获取模块,具体被配置为执行:
获取每个所述音频信号在时频域的振幅信息和相位信息,根据所述振幅信息和/或相位信息确定所述音频信号的特征信息。
可选的,所述信息及码率获取模块,具体被配置为执行:
获取每个所述音频信号的每一帧信号的特征信息和所述音频信号的每一帧信号对应的目标编码码率;
或,获取每个所述音频信号中的每一帧信号的特征信息,将各帧信号的特征信息的平均值作为所述音频信号的特征信息,且获取与所述音频信号的特征信息对应的目标编码码率。
根据本公开实施例的第四方面,提供了一种码率确定装置,如图7所示,所述装置包括:
特征信息获取模块710,被配置为执行获取待编码音频信号的特征信息;
编码码率确定模块720,被配置为执行将所述待编码音频信号的特征信息输入第三方面所述的码率确定模型,得到所述待编码音频信号对应的编码码率,以按照所述待编码音频信号对应的编码码率对所述待编码音频信号进行编码。
本公开实施例提供的技术方案,获取待编码音频信号的特征信息;将待编码音频信号的特征信息输入第一方面所述的码率确定模型,得到待编码音频信号对应的编码码率,以通过待编码音频信号对应的编码码率对待编码音频信号进行编码。由于通过码率确定模型所得到的待编码音频信号对应的编码码率大小合适,且能够保证编码后的音频信号的音频质量,因此,可以节省编码后的音频信号传输时的传输带宽,以及编码后的音频信号存储时的存储空间。
可选的,所述特征信息获取模块,具体被配置为执行:
获取所述待编码音频信号在时频域的振幅信息和相位信息,根据所述振幅信息和/或相位信息确定所述待编码音频信号的特征信息。
可选的,所述特征信息获取模块,具体被配置为执行:
获取待编码音频信号的每一帧信号的特征信息;
或,获取待编码音频信息中的每一帧信号的特征信息,将各帧信号的特征信号的平均值作为所述待编码音频信号的特征信息。
根据本公开实施例的第五方面,提供了一种电子设备,如图8所示,包括:
处理器810;
用于存储所述处理器可执行指令的存储器820;
其中,所述处理器被配置为执行所述指令,以实现第一方面所述的码率确定模型训练方法。
可见,通过本公开实施例提供的技术方案,码率确定模型的目标输出是目标编码码率,该目标编码码率为音频信号满足目标音频质量时的最低编码码率,这样,后续步骤中,在对待编码音频数据进行编码时,通过该码率确定模型可以得到合适大小的编码码率,并能够保证编码后的音频数据的音频质量。而不像相关技术那样,确定一个较高的编码码率,从而可以节省编码后的音频数据传输时的传输带宽,以及编码后的音频数据存储时的存储空间。
根据本公开实施例的第六方面,提供了一种电子设备,如图9所示,包括:
处理器910;
用于存储所述处理器可执行指令的存储器920;
其中,所述处理器被配置为执行所述指令,以实现如第二方面所述的码率确定方法。
本公开实施例提供的技术方案,获取待编码音频信号的特征信息;将待编码音频信号的特征信息输入第一方面所述的码率确定模型,得到待编码音频信号对应的编码码率,以通过待编码音频信号对应的编码码率对待编码音频信号进行编码。由于通过码率确定模型所得到的待编码音频信号对应的编码码率大小合适,且能够保证编码后的音频信号的音频质量,因此,可以节省编码后的音频信号传输时的传输带宽,以及编码后的音频信号存储时的存储空间。
图10是根据一示例性实施例示出的一种用于训练编码码率确定模型的装置,或者,确定编码码率的装置1000的框图。例如,装置1000可以被提供为一服务器。参照图10,装置1000包括处理组件1022,其进一步包括一个或多个处理器,以及由存储器1032所代表的存储器资源,用于存储可由处理组件1022的执行的指令,例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1022被配置为执行指令,以执行第一方面所述的码率确定模型训练方法,或者,第二方面所述的码率确定方法。
装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理,一个有线或无线网络接口1050被配置为将装置1000连接到网络,和一个输入输出(I/O)接口1058。装置1000可以操作基于存储在存储器1032的操作***,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
可见,通过本公开实施例提供的技术方案,码率确定模型的目标输出是目标编码码率,该目标编码码率为音频信号满足目标音频质量时的最低编码码率,这样,后续步骤中,在对待编码音频数据进行编码时,通过该码率确定模型可以得到合适大小的编码码率,并能够保证编码后的音频数据的音频质量。而不像相关技术那样,确定一个较高的编码码率,从而可以节省编码后的音频数据传输时的传输带宽,以及编码后的音频数据存储时的存储空间。
图11是根据一示例性实施例示出的一种用于训练编码码率确定模型的装置,或者,确定编码码率的装置1100的框图。例如,装置1100可以是移动电话,计算机,数字广播电子设备,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图11,装置1100可以包括以下一个或多个组件:处理组件1102,存储器1104,电力组件1106,多媒体组件1108,音频组件1110,输入/输出(I/O)的接口1112,传感器组件1114,以及通信组件1116。
处理组件1102通常控制装置1100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。
存储器1104被配置为存储各种类型的数据以支持在设备1100的操作。这些数据的示例包括用于在装置1100上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1107为装置1100的各种组件提供电力。电源组件1107可以包括电源管理***,一个或多个电源,及其他与为装置1100生成、管理和分配电力相关联的组件。
多媒体组件1108包括在所述装置1100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括一个前置摄像头和/或后置摄像头。当设备1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括一个麦克风(MIC),当装置1100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件1116发送。在一些实施例中,音频组件1110还包括一个扬声器,用于输出音频信号。
I/O接口1112为处理组件1102和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1114包括一个或多个传感器,用于为装置1100提供各个方面的状态评估。例如,传感器组件1114可以检测到设备1100的打开/关闭状态,组件的相对定位,例如所述组件为装置1100的显示器和小键盘,传感器组件1114还可以检测装置1100或装置1100一个组件的位置改变,用户与装置1100接触的存在或不存在,装置1100方位或加速/减速和装置1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1116被配置为便于装置1100和其他设备之间有线或无线方式的通信。装置1100可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1116还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行第一方面所述的码率确定模型训练方法,或者,第二方面所述的码率确定方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1104,上述指令可由装置1100的处理器1120执行以完成上述方法。可选地,例如,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性非临时性计算机可读存储介质计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
可见,通过本公开实施例提供的技术方案,码率确定模型的目标输出是目标编码码率,该目标编码码率为音频信号满足目标音频质量时的最低编码码率,这样,后续步骤中,在对待编码音频数据进行编码时,通过该码率确定模型可以得到合适大小的编码码率,并能够保证编码后的音频数据的音频质量。而不像相关技术那样,确定一个较高的编码码率,从而可以节省编码后的音频数据传输时的传输带宽,以及编码后的音频数据存储时的存储空间。
根据本公开实施例的第七方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如第一方面所述的码率确定模型训练方法。
可见,通过本公开实施例提供的技术方案,码率确定模型的目标输出是目标编码码率,该目标编码码率为音频信号满足目标音频质量时的最低编码码率,这样,后续步骤中,在对待编码音频数据进行编码时,通过该码率确定模型可以得到合适大小的编码码率,并能够保证编码后的音频数据的音频质量。而不像相关技术那样,确定一个较高的编码码率,从而可以节省编码后的音频数据传输时的传输带宽,以及编码后的音频数据存储时的存储空间。
根据本公开实施例的第八方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第二方面所述的码率确定方法。
本公开实施例提供的技术方案,获取待编码音频信号的特征信息;将待编码音频信号的特征信息输入第一方面所述的码率确定模型,得到待编码音频信号对应的编码码率,以通过待编码音频信号对应的编码码率对待编码音频信号进行编码。由于通过码率确定模型所得到的待编码音频信号对应的编码码率大小合适,且能够保证编码后的音频信号的音频质量,因此,可以节省编码后的音频信号传输时的传输带宽,以及编码后的音频信号存储时的存储空间。
根据本公开实施例的第九方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现第一方面所述的码率确定模型训练方法。
可见,通过本公开实施例提供的技术方案,码率确定模型的目标输出是目标编码码率,该目标编码码率为音频信号满足目标音频质量时的最低编码码率,这样,后续步骤中,在对待编码音频数据进行编码时,通过该码率确定模型可以得到合适大小的编码码率,并能够保证编码后的音频数据的音频质量。而不像相关技术那样,确定一个较高的编码码率,从而可以节省编码后的音频数据传输时的传输带宽,以及编码后的音频数据存储时的存储空间。
根据本公开实施例的第十方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现第二方面所述的码率确定方法。
本公开实施例提供的技术方案,获取待编码音频信号的特征信息;将待编码音频信号的特征信息输入第一方面所述的码率确定模型,得到待编码音频信号对应的编码码率,以通过待编码音频信号对应的编码码率对待编码音频信号进行编码。由于通过码率确定模型所得到的待编码音频信号对应的编码码率大小合适,且能够保证编码后的音频信号的音频质量,因此,可以节省编码后的音频信号传输时的传输带宽,以及编码后的音频信号存储时的存储空间。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种码率确定模型训练方法,其特征在于,所述方法包括:
获取音频样本数据集合,所述音频样本数据集合中包括不同类型的音频信号;
获取每个所述音频信号的特征信息和所述音频信号对应的目标编码码率,所述特征信息与所述音频信号的类型相关联,所述目标编码码率为所述音频信号满足目标音频质量时的最低编码码率;
将获取的所述特征信息输入待训练的码率确定模型中,得到所述待训练的码率确定模型输出的编码码率;
根据所述待训练的码率确定模型输出的编码码率和所述目标编码码率,获取所述待训练的码率确定模型的损失值;
根据所述损失值调整所述待训练的码率确定模型的模型参数,直至所述损失值低于预设阈值时,将所述待训练的码率确定模型作为训练好的码率确定模型。
2.根据权利要求1所述的方法,其特征在于,获取所述音频信号对应的目标编码码率,包括:
根据预设码率对所述音频信号进行编码以得到编码后的音频信号;
根据所述音频信号和所述编码后的音频信号,计算所述编码后的音频信号的质量损失值;
当所述质量损失值小于质量损失阈值,且所述质量损失值为最小的质量损失值时,将所述预设码率确定为所述音频信号对应的目标编码码率。
3.根据权利要求2所述的方法,其特征在于,所述当所述质量损失值小于质量损失阈值,且所述质量损失值为最小的质量损失值时,将所述预设码率确定为所述音频信号对应的目标编码码率,包括:
当所述质量损失值小于质量损失阈值时,减小所述预设码率,并根据减小后的预设码率对所述音频信号进行编码以得到编码后的音频信号,直到所述音频质量损失值大于所述质量损失阈值;
将前一个减小后的预设码率作为目标编码码率。
4.一种码率确定方法,其特征在于,所述方法包括:
获取待编码音频信号的特征信息;
将所述待编码音频信号的特征信息输入权利要求1至3任一项所述的码率确定模型,得到所述待编码音频信号对应的编码码率,以按照所述待编码音频信号对应的编码码率对所述待编码音频信号进行编码。
5.一种码率确定模型训练装置,其特征在于,所述装置包括:
音频信号获取模块,被配置为执行获取音频样本数据集合,所述音频样本数据集合中包括不同类型的音频信号;
信息及码率获取模块,被配置为执行获取每个所述音频信号的特征信息和所述音频信号对应的目标编码码率,所述特征信息与所述音频信号的类型相关联,所述目标编码码率为所述音频信号满足目标音频质量时的最低编码码率;
编码码率获取模块,被配置为执行将获取的所述特征信息输入待训练的码率确定模型中,得到所述待训练的码率确定模型输出的编码码率;
损失值获取模块,被配置为执行根据所述待训练的码率确定模型输出的编码码率和所述目标编码码率,获取所述待训练的码率确定模型的损失值;
模型参数调整模块,被配置为执行根据所述损失值调整所述待训练的码率确定模型的模型参数,直至所述损失值低于预设阈值时,将所述待训练的码率确定模型作为训练好的码率确定模型。
6.一种码率确定装置,其特征在于,所述装置包括:
特征信息获取模块,被配置为执行获取待编码音频信号的特征信息;
编码码率确定模块,被配置为执行将所述待编码音频信号的特征信息输入权利要求5所述的码率确定模型,得到所述待编码音频信号对应的编码码率,以按照所述待编码音频信号对应的编码码率对所述待编码音频信号进行编码。
7.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至3任一项所述的码率确定模型训练方法。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求4所述的码率确定方法。
9.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至3任一项所述的码率确定模型训练方法。
10.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求4所述的码率确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010575623.7A CN111862995A (zh) | 2020-06-22 | 2020-06-22 | 一种码率确定模型训练方法、码率确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010575623.7A CN111862995A (zh) | 2020-06-22 | 2020-06-22 | 一种码率确定模型训练方法、码率确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111862995A true CN111862995A (zh) | 2020-10-30 |
Family
ID=72988049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010575623.7A Pending CN111862995A (zh) | 2020-06-22 | 2020-06-22 | 一种码率确定模型训练方法、码率确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111862995A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767956A (zh) * | 2021-04-09 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
CN113194320A (zh) * | 2021-04-30 | 2021-07-30 | 北京达佳互联信息技术有限公司 | 参数预测模型的训练方法及装置和参数预测方法及装置 |
CN115334349A (zh) * | 2022-07-15 | 2022-11-11 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
WO2023077707A1 (zh) * | 2021-11-02 | 2023-05-11 | 深圳市中兴微电子技术有限公司 | 视频编码方法、模型训练方法、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160297A (ja) * | 1993-12-10 | 1995-06-23 | Nec Corp | 音声パラメータ符号化方式 |
WO1997031367A1 (en) * | 1996-02-26 | 1997-08-28 | At & T Corp. | Multi-stage speech coder with transform coding of prediction residual signals with quantization by auditory models |
US6839674B1 (en) * | 1998-01-12 | 2005-01-04 | Stmicroelectronics Asia Pacific Pte Limited | Method and apparatus for spectral exponent reshaping in a transform coder for high quality audio |
JP2007017659A (ja) * | 2005-07-07 | 2007-01-25 | Fujitsu Ltd | オーディオ符号化方法及び装置 |
US20110125506A1 (en) * | 2009-11-26 | 2011-05-26 | Research In Motion Limited | Rate-distortion optimization for advanced audio coding |
US20140249806A1 (en) * | 2011-10-28 | 2014-09-04 | Panasonic Corporation | Audio encoding apparatus, audio decoding apparatus, audio encoding method, and audio decoding method |
US20170104552A1 (en) * | 2015-10-10 | 2017-04-13 | Dolby Laboratories Licensing Corporation | Near Optimal Forward Error Correction System and Method |
CN110300315A (zh) * | 2019-07-24 | 2019-10-01 | 北京达佳互联信息技术有限公司 | 一种视频码率确定方法、装置、电子设备及存储介质 |
CN110992963A (zh) * | 2019-12-10 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 网络通话方法、装置、计算机设备及存储介质 |
-
2020
- 2020-06-22 CN CN202010575623.7A patent/CN111862995A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160297A (ja) * | 1993-12-10 | 1995-06-23 | Nec Corp | 音声パラメータ符号化方式 |
WO1997031367A1 (en) * | 1996-02-26 | 1997-08-28 | At & T Corp. | Multi-stage speech coder with transform coding of prediction residual signals with quantization by auditory models |
US6839674B1 (en) * | 1998-01-12 | 2005-01-04 | Stmicroelectronics Asia Pacific Pte Limited | Method and apparatus for spectral exponent reshaping in a transform coder for high quality audio |
JP2007017659A (ja) * | 2005-07-07 | 2007-01-25 | Fujitsu Ltd | オーディオ符号化方法及び装置 |
US20110125506A1 (en) * | 2009-11-26 | 2011-05-26 | Research In Motion Limited | Rate-distortion optimization for advanced audio coding |
US20140249806A1 (en) * | 2011-10-28 | 2014-09-04 | Panasonic Corporation | Audio encoding apparatus, audio decoding apparatus, audio encoding method, and audio decoding method |
US20170104552A1 (en) * | 2015-10-10 | 2017-04-13 | Dolby Laboratories Licensing Corporation | Near Optimal Forward Error Correction System and Method |
CN110300315A (zh) * | 2019-07-24 | 2019-10-01 | 北京达佳互联信息技术有限公司 | 一种视频码率确定方法、装置、电子设备及存储介质 |
CN110992963A (zh) * | 2019-12-10 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 网络通话方法、装置、计算机设备及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767956A (zh) * | 2021-04-09 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
CN112767956B (zh) * | 2021-04-09 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
WO2022213787A1 (zh) * | 2021-04-09 | 2022-10-13 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品 |
CN113194320A (zh) * | 2021-04-30 | 2021-07-30 | 北京达佳互联信息技术有限公司 | 参数预测模型的训练方法及装置和参数预测方法及装置 |
CN113194320B (zh) * | 2021-04-30 | 2022-11-22 | 北京达佳互联信息技术有限公司 | 参数预测模型的训练方法及装置和参数预测方法及装置 |
WO2023077707A1 (zh) * | 2021-11-02 | 2023-05-11 | 深圳市中兴微电子技术有限公司 | 视频编码方法、模型训练方法、设备和存储介质 |
CN115334349A (zh) * | 2022-07-15 | 2022-11-11 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN115334349B (zh) * | 2022-07-15 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109801644B (zh) | 混合声音信号的分离方法、装置、电子设备和可读介质 | |
CN111862995A (zh) | 一种码率确定模型训练方法、码率确定方法及装置 | |
CN110827253A (zh) | 一种目标检测模型的训练方法、装置及电子设备 | |
CN108346425B (zh) | 一种语音活动检测的方法和装置、语音识别的方法和装置 | |
CN113362812B (zh) | 一种语音识别方法、装置和电子设备 | |
CN110650370B (zh) | 一种视频编码参数确定方法、装置、电子设备及存储介质 | |
CN110853664B (zh) | 评估语音增强算法性能的方法及装置、电子设备 | |
CN111583944A (zh) | 变声方法及装置 | |
CN109360197B (zh) | 图像的处理方法、装置、电子设备及存储介质 | |
CN108364635B (zh) | 一种语音识别的方法和装置 | |
CN111210844B (zh) | 语音情感识别模型的确定方法、装置、设备及存储介质 | |
CN110890083A (zh) | 音频数据的处理方法、装置、电子设备及存储介质 | |
CN110033784B (zh) | 一种音频质量的检测方法、装置、电子设备及存储介质 | |
CN105721656B (zh) | 背景噪声生成方法及装置 | |
CN113707134B (zh) | 一种模型训练方法、装置和用于模型训练的装置 | |
CN110415702A (zh) | 训练方法和装置、转换方法和装置 | |
CN110931028B (zh) | 一种语音处理方法、装置和电子设备 | |
CN110930978A (zh) | 一种语种识别方法、装置和用于语种识别的装置 | |
CN113362813A (zh) | 一种语音识别方法、装置和电子设备 | |
CN107437412B (zh) | 一种声学模型处理方法、语音合成方法、装置及相关设备 | |
CN116741191A (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN115052150A (zh) | 视频编码方法、装置、电子设备和存储介质 | |
CN109102813B (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
CN109754816B (zh) | 一种语音数据处理的方法及装置 | |
CN111209429B (zh) | 用于度量语音数据库覆盖性的无监督模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |