CN117975981A - 一种变声处理方法、装置、设备及存储介质 - Google Patents
一种变声处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117975981A CN117975981A CN202410112573.7A CN202410112573A CN117975981A CN 117975981 A CN117975981 A CN 117975981A CN 202410112573 A CN202410112573 A CN 202410112573A CN 117975981 A CN117975981 A CN 117975981A
- Authority
- CN
- China
- Prior art keywords
- value
- frequency
- tone
- sound
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000003672 processing method Methods 0.000 title abstract description 10
- 230000005236 sound signal Effects 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims description 63
- 230000003247 decreasing effect Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012986 modification Methods 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 22
- 230000008859 change Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102000008736 Snapin Human genes 0.000 description 1
- 108050000529 Snapin Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提供了一种变声处理方法、装置、设备及存储介质,所述方法包括:响应调制输入指令,获取音频信号的音调和音高数值;所述音调经由所述音频信号的不同频段决定;根据所述音高数值调制所述音频信号的频段,得到目标音频。通过音调调整方式改为使用音高数值调制人声的频段,不会改变原有频段的能量,能够避免声音质量损失过大的问题,以及利用声音本身的音调和音高进行调制,不会改变原有语音信号的语义,同时还可以避免语义模糊的问题,适用于***对声音的音调改变过大的情况,能够扩大***的应用范围。
Description
技术领域
本发明涉及信号处理技术领域,特别是涉及一种变声处理方法、一种变声处理装置、相应的一种电子设备以及相应的一种计算机可读存储介质。
背景技术
在游戏中,***通常可以用于改变玩家的声音使其听起来像一个不同的人或角色,通常可以被用于在线游戏中以增强玩家体验,或者在多人游戏中隐藏玩家的真实身份。
变声处理,主要可以通过对声音进行加工和过滤改变声音的音调、音色和音量等方面实现,一些***还可以添加特定的音效和声音效果,以使得声音更加逼真和真实。然而,相关的***仅能进行例如改变音调和音色等的简单处理方式,导致***的应用范围受到一定限制,不利于***对声音的音调改变过大的情况。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种变声处理方法、一种变声处理装置、相应的一种电子设备以及相应的一种计算机可读存储介质。
本发明实施例公开了一种变声处理方法,所述方法包括:
响应调制输入指令,获取音频信号的音调和音高数值;所述音调基于所述音频信号的不同频段确定;
根据所述音高数值调制所述音频信号的频段,得到目标音频。
本发明实施例还公开了一种变声处理装置,所述装置包括:
音调信息获取模块,用于响应调制输入指令,获取音频信号的音调和音高数值;所述音调基于所述音频信号的不同频段确定;
音频处理模块,用于根据所述音高数值调制所述音频信号的频段,得到目标音频。
本发明实施例还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现任一项所述变声处理方法。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现任一项所述变声处理方法。
本发明实施例包括以下优点:
在本发明实施例中,通过利用音频信号本身自带的音调和音高数值作为调制输入,使用音高数值对相应音频信号的频段进行调制,从而得到目标音频,本发明实施例通过音调调整方式改为使用音高数值调制某个声音的频段,不会改变原有频段的能量,能够避免声音质量损失过大的问题,以及利用声音本身的音调和音高进行调制,不会改变原有语音信号的语义,同时还可以避免语义模糊的问题,适用于***对声音的音调改变过大的情况,能够扩大***的应用范围。
附图说明
图1是本发明的一种变声处理方法实施例的步骤流程图;
图2是本发明的另一种变声处理方法实施例的步骤流程图;
图3是本发明的一种变声处理装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
为便于本领域技术人员理解本发明,下面对本发明下述各实施例中涉及的术语或名词做出解释:
Aubio:是一个用于标记音乐和声音的库,主要用于监听音频信号以及尝试检测事件,以当鼓被敲打时,音符的频率是多少或者何时是节奏旋律的速度为例,该库所实现的功能可以包括在每个攻击之前分段声音文件、执行音高检测、敲打节拍并从实时音频生成midi流。
Librosa:是一个用于音乐和音频分析的Python包,主要可以提供创建音乐信息检索***所需的构建块。
Melodyne:是一款音频编辑软件,可用于访问录音和样本中的所有音乐细节—逐个音符,主要是通过对录音和样本的复杂分析实现,其可以识别和理解其中的音乐关系,例如单个音符及其特征、音阶、键和和弦、时间、速度、音色等,可以通过对Melodyne的使用,直观地编辑所有这些内容,包括有人声以及每种类型的乐器,例如复调乐器(如钢琴和吉他等)。
Autotune:是一款多平台的修正人声或者独奏乐器声调的插件,具有声音修正功能,能够有效地提升音乐作品的音质效果。
Kilohearts:用于提供多种与所有主要DAW(Digital Audio Workstation,数字音频工作站,是音乐制作和音频处理领域中常用的软件工具)兼容的音频插件,基于这些插件的设计语言可以为理解声音设计的构建块提供基础。
Snapheap:是一个模块化的Snapin主机,允许构建多达七个串行或并行效果链,并允许使用Kilohearts强大的模块化调制***调制每个参数。
Wwise:是一种互动音频设计与开发工具,可以提供一整套互动音频开发流程所需的工具和功能,包括动态混音、空间音频、音乐合成、稳定性、性能等特性。
MOS:Mean Opinion Score,是一种通过人类听评者对声音质量的各个方面进行评分并取平均值的方法。
DAW:Digital Audio Workstation,数字音频工作站,是一种用于音乐制作、声音设计和音频处理的计算机软件,主要可以提供一个集成的环境,用于记录、编辑、混音和母带处理音频文件,常见的DAW可以包括Ableton Live、FL Studio、Logic Pro X、Pro Tools等。
在游戏中,***通常可以用于改变玩家的声音使其听起来像一个不同的人或角色,通常可以被用于在线游戏中以增强玩家体验,或者在多人游戏中隐藏玩家的真实身份。即***可增加玩家的乐趣和互动性,是一种常见的游戏工具。
在变声处理的相关技术中,***通常会对声音进行数字信号处理,以改变声音的音调、音色和语速等方面,一些常用的***处理方法可以包括,作为一种示例,***可以进行提高或者降低音调的处理,例如将音调提高或者降低几个半音,从而使声音听起来更高或者更低;作为另一种示例,***可以进行调整音色的处理,例如通过调整声音的频率响应曲线,改变声音的音色,使其听起来更清晰或者更模糊;作为又一种示例,***可以进行改变语速的处理,例如通过改变语音信号的采样率或者时间尺度,从而改变声音的语速,使其听起来更快或者更慢;此外,***还可以通过添加混响、回声、失真等特效,以改变声音原本所具有的声音特性。上述方法的综合运用可以实现各种各样的变声效果,从而使得声音听起来像不同的人或者角色。
然而,相关的***只能够进行例如改变音调和音色等的简单处理方式,而不能实现例如语音合成和自然语言处理等的高级处理,导致***的应用范围受到一定限制,不利于***对声音的音调改变过大的情况。当***对声音的音调改变过大时,将会出现以下情况,作为一种示例,***在处理声音时可能会使其信号质量下降,从而导致声音的失真或者损失过大,使得声音变得难以理解和分辨,导致声音质量损失过大;作为另一种示例,***改变了声音的音调和音色,从而使得原本的语音信号产生了一些失真,这种失真会导致语言的语义变得模糊,从而影响语音的可懂性;作为又一种示例,传统的***有时很难模拟人类语音的真实感觉,即使使用高级的算法和模型也很难达到理想的效果,这使得音调调整的结果难以让人接受,难以模拟人类语言;此外,一些***的效果并不完美,可能会导致变调后的声音与原始声音非常相似,意味着即使使用***也无法完全隐藏原始声音的特征,如果被仔细听者可能还是可以轻易地辨认出其来源。
本发明实施例通过使用声音本身自带的音调和音高,作为调制输入,使用音高数值对相应音频信号的频段进行调制处理,实现对音频信号的变声处理,得到目标音频。其不仅可以通过音调调整方式改为使用音高数值调制相应音频信号的频段,使得不会改变原有频段的能量,能够避免声音质量损失过大的问题,还可以利用声音本身的音调和音高进行调制,使得不会改变原有语音信号的语义,同时还可以避免语义模糊的问题,适用于***对声音的音调改变过大的情况,能够扩大***的应用范围。此外,利用声音本身的音调和音高进行调制,使得模拟的人类语音具有更加真实的效果,可以使得变声后的声音更加生动有趣。进一步地,通过在不损失原有频段能量的前提下,通过识别音调得到的调制值具有忽上忽下的波动特性,使得变声后的声音具有更加丰富的音调波动特性,且只需要对音调进行识别和测量,然后使用频率移位器进行加倍处理即可,不需要更加复杂的技术和资源支持。
参照图1,示出了本发明的一种变声处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,响应调制输入指令,获取音频信号的音调和音高数值;
音频信号,可以为任何动物通过话筒或者录音设备实时输入/录制声音的音频信号,也可以从现有音频文件中的特定物种部分提取得到。示例性地,在游戏中,所获取的音频信号可以为玩家的音频信号,即人声音频信号,此时可以经由玩家通过话筒或者录音设备实时输入/录制声音得到,或者可以从现有音频中对人声部分进行提取得到,对此,本发明实施例不加以限制。
具体的,假设音频信号的获取是通过录制的方式实现的,在进行声音的录制时需要注意录制环境的噪声和混响对音频质量的影响,同时避免所录制得到的声音中混入其他非所需声音的声音内容,防止变声处理后产生未达到期望的声音效果。以录制人声为例,为了提高人声音区采集的准确度,在使用移动终端设备的麦克风进行人声录制的情况下,如果采集到其他非人声的声音,由于非人声的音调游离在人声本身的音调范围之外,容易被检测以及容易被算法过滤;如果人声所带的混响过于明显,可能会影响到音调波动的读取,在进行实际的人声采集过程中,建议采用靠近麦克风或使用其他外界的便携麦克风设备进行人声录制。
音调和音高均属于声音特征,其中,音调可以是指声音频率的高低,主要用于决定声音的高低,音调数值可以用于表征音调的具体高低程度;音高指各种不同高低的声音,即音的高度,与声音的振动频率有关,频率越高,音调越高,反之,频率越低,音调越低,但音高也将会受到声音波形的影响,音高数值可以用于表征音高的具体高度程度。即音调和音高为用于描述声音频率高低的不同特征。
在本发明实施例中,可以通过利用音频信号本身自带的音调和音高数值作为调制输入,在基于声音本身自带的音调和音高不损失原有频段能量的情况下,使用音高数值对某个声音的频段进行调制,从而得到目标音频。
在实际应用中,声音调制的过程可以经由调制输入进行触发,具体可以表现为对调制输入指令的响应,该调制输入指令可以用于指示将音频信号的音调和音高作为调制输入,并进行后续的调制操作。
示例性地,声音调制以人声调制为例,人声调制可以与游戏引擎进行结合,具体可以表现为在游戏引擎内使用开源的人声音高识别模型如Audio和Librosa,读取实时捕获的玩家麦克风输入语音的音高数值,并基于音高数值输出相应的调制值,从而基于所输出的调制值驱动音频中间件Wwise内的移频器插件工作,以达到实时移频的效果,从而实现对音频信号音调的改变。即位于游戏引擎内的人声音高识别模型可以对调制输入指令进行响应,从而对人声音频信号的音调和音高数值进行获取,以便基于所获取的音调和音高数值进行后续的人声调制过程。
步骤102,根据音高数值调制音频信号的频段,得到目标音频。
在声音频率范围内,不同频率的声音会呈现出不同的音调,一般来说,频率越高,音调也就越高,而不同频率可以用于对频段进行划分,即音调可以经由音频信号的不同频段决定。
在本发明的一种实施例中,可以采用音高数值调制频段的方式对音调调整方式进行替换,使得在只需要对音调进行识别和测量的基础上,利用音高数值对频段进行调制即可,不需要复杂的技术和资源支持。
具体的,基于音高数值对频段进行的调制,表现为使用音高数值作为原始变量源,驱动移频器的参数变化实现,具体可以通过使用频率移位器进行加倍处理,将输入信号的频率向上或向下移动一个固定的频率值,从而实现对音频信号音调的改变。
需要说明的是,基于音高数值对频段进行的调制与直接进行的音高数值调节并不相同,调制的方法通常是使用一个变量控制某个效果器的设置参数,变量的来源可以使用外部源生成的数值,也可以使用内部实时读取到的数值,在获得数值之后可以通过简单的公式运算得出处理后的数值,即调制值,使其符合设置参数的最大范围及最小范围,而所符合设置参数的最大范围及最小范围得到的音频信号即为目标音频。在本发明实施例中,即通过使用音高值作为原始变量源,对移频器的参数变化进行驱动。
在本发明的一种优选实施例中,在通过移频器的调制处理生成新的具有音调波动特性的声音,即目标音频之后,可以将该目标音频输出为音频文件,或者通过对该目标音频进行实时处理以实现声音合成,本发明实施例对此不加以限制。
在本发明实施例中,通过利用音频信号本身自带的音调和音高数值作为调制输入,使用音高数值对相应音频信号的频段进行调制,从而得到目标音频,本发明实施例通过音调调整方式改为使用音高数值调制某个声音的频段,不会改变原有频段的能量,能够避免声音质量损失过大的问题,以及利用声音本身的音调和音高进行调制,不会改变原有语音信号的语义,同时还可以避免语义模糊的问题,适用于***对声音的音调改变过大的情况,能够扩大***的应用范围。
参照图2,示出了本发明的另一种变声处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201,对音频信号进行音调识别,得到音频信号的音调和音高数值;
在本发明的一种实施例中,可以通过话筒或者录音设备实时输入/录制特定声音得到音频信号,或者从现有的音频文件中提取特定的声音部分以得到音频信号。
音调和音高均属于能够用于描述声音频率高低的声音特征,在语言的语音表达中,音高和音调的上下波动更丰富,且音调的波动与语言本身的情感色彩相关,为了对音频信号进行变声处理,此时可以对音频信号进行音调识别,以得到音频信号的音调和音高数值。
在实际应用中,音调识别可以使用一些开源库,如Aubio和Librosa,也可以使用商业软件,如Melodyne和Autotune实现。在进行音调识别时,需要注意将人声与背景音乐、噪声等进行区分,例如通过使用AI音频分离工具等音频处理软件或者手动分离实现,以确保对人声音频信号识别的准确性。
示例性地,以Kilohearts中的Snapheap对人声的识别和处理为例,其可以通过采用Pitch Tracker音高***实现,具体可以表现为跟踪所输入音频信号,即人声音频信号的音高,并基于该音高生成调制信号;在音高***中,可以经由键盘图形结果的形式进行呈现,图表中的垂直滑块可以允许设置范围和中心频率,且低灵敏度可提供更稳定的结果,较高的值允许更快地更改输出,以得到人声音频信号的音调和音高值。
步骤202,将音频信号的音调和音高数值作为调制输入;
具体的,对音频信号所进行的变声处理,具体可以表现为声音调制,具体可以将所识别得到的音调和音高数值作为调制输入,以将音调和音高数值作为调制输入所需的参数,便于后续对音频信号的频段进行调制处理,从而实现对音频信号音调的改变。
在具体实现中,对于音调和音高数值作为调制输入的操作,可以经由对调制输入指令的响应触发实现,即可以预先对调制输入指令进行生成,以用于指示将音频信号的音调和音高作为调制输入,以及指示进行后续的调制操作。示例性地,声音调制以人声调制为例,人声调制可以与游戏引擎进行结合,位于游戏引擎内的人声音高识别模型,例如Audio和Librosa可以对调制输入指令进行响应,从而对人声音频信号的音调和音高数值进行获取,以便基于所获取的音调和音高数值进行后续的人声调制过程。
步骤203,基于音高数值和音调数值对音频信号的频率大小进行调整,得到调制值;
对调制输入指令进行响应,在对音频信号的音调和音高数值进行获取之后,可以根据音高数值调制音频信号的频段,从而得到目标音频。
调制处理声音的原理,主要是通过对输入信号进行变换以改变其频率和振幅等特性,进而达到调制效果。
音调的高低和波动是人声的特征之一,通过对其进行调制处理可以使得变声后的声音更加生动有趣。这种波动特性是由于在发音过程中,声带的振动频率的变化所引起的;当发出不同的音调时,声带的振动频率也会相应地变化,因此音调将会产生上下波动的特征。
调制器在识别音调时,可以根据输入的音频信号中的音调信息,将其转换为相应的调制值。在调制处理过程中,调制器可以根据输入信号的音调和音高值,对声音的频率和振幅进行相应的调整,并将其转换为忽上忽下的波动特性。
在发声器官能够发出的声音频率范围内,不同频率的声音会呈现出不同的音调,一般来说,频率越高,音调也就越高,而不同频率可以用于对频段进行划分,即音调可以经由音频信号的不同频段决定。
在本发明的一种实施例中,在对声音的频率和振幅进行相应调整的过程中,具体可以表现为将音调的音调数值和音高数值变换为频率数值实现。
具体的,调制器通常采用非线性处理方式,将输入信号的某些特征映射到输出信号的另一些特征上,从而实现声音的调制处理。在本发明实施例中,音调数值可以用于表征音调的波动特征,音高数值可以用于表征音高的波动特征,在进行特征映射时,所表现的是将音调和音高的特征映射到频率的增减数值上,主要可以表现为将音调的波动特征和音高的波动特征映射为频率的增减数值,频率的增减数值可以用于指示频率大小的调整,即可以将该频率的增减数值作为后续移频器所使用到的移频值。
在本发明的一种优选实施例中,除了基于音调和音高对频率进行调整以外,还可以对振幅进行调整,对于振幅的增减数值的获取方式,可以通过将音调和音高的特征映射到振幅的增减数值实现。
在具体实现中,调整策略具体可以表现为如果输入的音调和音高数值高,则调制器可以提高声音的频率和振幅,使其听起来更加明亮、尖锐;如果输入的音调和音高数值低,则调制器可以压低声音的频率和振幅,使其听起来更加低沉、柔和。对应于前述调整策略的映射过程,示例性地,以人声为例,假设人声的基础音调为C,人声音调提升高于C为正值,人声音调降低低于C为负值,此时可以分别将正、负音调映射为正、负数值,并以此对应移频值的增、减,从而基于该正值和负值实现相应调整策略的映射。
需要说明的是,调制器所进行的对声音的频率和振幅的相应调整,即可以表现为对增减数值的映射,可以通过使用数字信号处理软件、编程语言或者专业音频处理器件实现,对于具体的数字信号处理软件、编程语言以及专业音频处理器件,本发明实施例不加以限制。
步骤204,基于调制值驱动预设移频器插件进行频率移位器处理,得到目标音频;
所得到的调制值可以包括频率的增减数值,此时可以基于该频率得到增减数值进行频率移位器处理,具体可以将前述增减数值作为移频值输入至移频器中,使得能够将音调的波动率成功映射至移频器上,从而基于调制值驱动预设移频器插件进行频率移位器处理,得到目标音频。
具体的,频率移位器处理,主要可以表现为使用频率移位器对声音进行处理,将声音的波动特性加倍赋予到声音本身,从而达到改变声音音调的效果,需要说明的是,频率移位器处理可以使用数字信号处理软件、编程语言或专业音频处理器件实现。
在本技术领域中,频率移位器(Frequency shifter)是一种音频信号处理器,其可以改变音频信号中每个频率的相对位置,从而改变音频信号中各频率的相对位置。主要通常可以将输入信号的频率向上或向下移动一个固定的频率值,从而实现对音频信号音调的改变。
在本发明的一种实施例中,可以通过驱动预设移频器插件,基于频率的增减数值对音频信号中各频率的相对位置进行改变,从而得到目标音频。所使用的移频器与传统的音调变换器(pitch shifter)不同,频率移位器只改变音频信号中各频率的相对位置,而不改变音频信号的时长或音高,这意味着频率移位器可以使得演奏的乐器声音听起来更加神奇和异域,同时又不会使演奏的音符出现半音不准确的情况。示例性地,所使用的预设移频器插件可以为音频中间件Wwise内的移频器插件,其主要是用于改变音频频率的插件,在音频处理中有着广泛的应用,所使用的预设移频器插件也可以是其他插件,本发明实施例对此不加以限制。
具体的,对音频信号中各频率的相对位置所进行的改变,可以表现为在频率的增减数值为正值时,可以对音频信号中各频率的相对位置按照预设第一方向进行以频率的增减数值为单位的移动;和/或,在频率的增减数值为负值时,可以对音频信号中各频率的相对位置按照预设第二方向进行以频率的增减数值为单位的移动。其中,移频器可以将输入信号的频率向上或向下移动一个固定的频率值,示例性地,可以设定当增减数值为正值时对应控制的预设第一方向为向上,设定当增减数值为负值时对应控制的预设第二方向为向下,本发明实施例对此不加以限制。
在具体实现中,具体可以使用移频器进行加倍处理,主要可以表现为驱动预设移频器插件,将频率的增减数值进行预设倍数的放大,得到数值放大后的增减数值,然后基于数值放大后的增减数值进行频率移位器处理,得到目标音频。
示例性地,可以将基准值上下浮动的音调变化值记为正值和负值,并将变化范围通过公式变换为符合移频器设置参数的范围。在一种示例中,建议为+200~200之间,如范围过大可能导致移频后效果失真,则在进行加倍处理时,可以表现为音调的波动变化范围为+20~-20(单位为半音),则移频器在放大10倍后的移频范围可以为+200~200(单位为Hz)。即移频器本身可以改变声音频段的坐标,如需隐蔽声音特征,可先调频,后加入调制值,如调制值的范围是-200~+200,则调制值为0时声音不发生改变,选择隐蔽声音特征时将则默认移频值设置为-200,调制值范围不变的情况下,调频结果为-400~0,可以保证声音信号都被进行了移频处理。
步骤205,将目标音频输出为音频文件或者实时处理目标音频进行声音合成。
在通过移频器的调制处理生成新的具有音调波动特性的声音,即目标音频之后,可以将该目标音频输出为音频文件。
以及,频率移位器主要可以应用在音乐制作领域,特别是在现代电子音乐中经常使用,其可为音乐制作人员提供一种简便的方式来制作出各种独特的音效和声音,且还可以被用于语音合成和音效设计等领域,那么除了在对目标音频直接输出为音频文件以外,还可以通过对该目标音频进行实时处理以实现声音合成。
对于语音合成和自然语言处理,作为一种示例,一种应用方式可以表现为在DAW音频工作站内进行预渲染,然后将渲染后的音频文件应用于游戏中;作为另一种示例,另一种应用方式是进行实时的运算和渲染处理,此方式对终端设备的算力和性能有一定要求。在实际应用中,可以根据实际情况选择实际应用方式,但需要限制所使用的为同一种调制方案。
需要说明的是,在实际应用中,还可以对生成的新声音进行评估和优化,以确保生成的声音质量和效果符合实际需求,例如可以使用声音主观评价指标来评估新声音的质量,也可以对不同参数组合进行调节和优化,以达到最好的效果,对于具体的评估优化方式,本发明实施例不加以限制。
在本发明实施例中,通过使用声音本身自带的音调和音高,作为调制输入,使用音高数值对音频信号的频段进行调制处理,实现对音频信号的变声处理,得到目标音频。其不仅可以通过音调调整方式改为使用音高数值调制相应音频信号的频段,使得不会改变原有频段的能量,能够避免声音质量损失过大的问题,还可以利用声音本身的音调和音高进行调制,使得不会改变原有语音信号的语义,同时还可以避免语义模糊的问题,适用于***对声音的音调改变过大的情况,能够扩大***的应用范围。此外,利用声音本身的音调和音高进行调制,使得模拟的语音具有更加真实的效果,可以使得变声后的声音更加生动有趣。进一步地,通过在不损失原有频段能量的前提下,通过识别音调得到的调制值具有忽上忽下的波动特性,使得变声后的声音具有更加丰富的音调波动特性,且只需要对音调进行识别和测量,然后使用频率移位器进行加倍处理即可,不需要更加复杂的技术和资源支持。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的一种变声处理装置实施例的结构框图,具体可以包括如下模块:
音调信息获取模块301,用于响应调制输入指令,获取音频信号的音调和音高数值;所述音调基于所述音频信号的不同频段确定;
音频处理模块302,用于根据所述音高数值调制所述音频信号的频段,得到目标音频。
在本发明的一种实施例中,在所述响应调制输入指令之前,本发明实施例提供的装置还可以包括如下模块:
调制输入指令生成模块,用于对所述音频信号进行音调识别,得到所述音频信号的音调和音高数值;将所述音频信号的音调和音高数值作为调制输入,生成调制输入指令。
在本发明的一种实施例中,所述音频信号的频段经由频率大小进行划分;音频处理模块302可以包括如下子模块:
调制处理子模块,用于获取所述音调的音调数值,基于所述音高数值和所述音调数值对所述音频信号的频率大小进行调整,得到调制值;
频率移位子模块,用于基于所述调制值驱动预设移频器插件进行频率移位器处理,得到目标音频。
在本发明的一种实施例中,所述音调数值用于表征所述音调的波动特征,所述音高数值用于表征所述音高的波动特征;调制处理子模块可以包括如下单元:
将所述音调的波动特征和所述音高的波动特征映射为所述频率的增减数值,所述频率的增减数值用于指示所述频率大小的调整。
在本发明的一种实施例中,所述调制值包括所述频率的增减数值;频率移位子模块可以包括如下子模块:
频率移位单元,用于驱动预设移频器插件,基于所述频率的增减数值对所述音频信号中各频率的相对位置进行改变,得到目标音频。具体表现为驱动预设移频器插件,将所述频率的增减数值进行预设倍数的放大,得到数值放大后的增减数值,基于所述数值放大后的增减数值进行频率移位器处理,得到目标音频。
在本发明的一种实施例中,频率移位单元可以包括如下子单元:
频率移位子单元,用于在所述频率的增减数值为正值时,对所述音频信号中各频率的相对位置按照预设第一方向进行以所述频率的增减数值为单位的移动;和/或,在所述频率的增减数值为负值时,对所述音频信号中各频率的相对位置按照预设第二方向进行以所述频率的增减数值为单位的移动。
在本发明实施例中,本发明实施例提供的变声处理装置通过利用音频信号本身自带的音调和音高数值作为调制输入,使用音高数值对相应音频信号的频段进行调制,从而得到目标音频,本发明实施例通过音调调整方式改为使用音高数值调制相应音频信号的频段,不会改变原有频段的能量,能够避免声音质量损失过大的问题,以及利用声音本身的音调和音高进行调制,不会改变原有语音信号的语义,同时还可以避免语义模糊的问题,适用于***对声音的音调改变过大的情况,能够扩大***的应用范围。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述变声处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述变声处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种变声处理方法、一种变声处理装置、相应的一种电子设备以及相应的一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种变声处理方法,其特征在于,所述方法包括:
响应调制输入指令,获取音频信号的音调和音高数值;所述音调基于所述音频信号的不同频段确定;
根据所述音高数值调制所述音频信号的频段,得到目标音频。
2.根据权利要求1所述的方法,其特征在于,在所述响应调制输入指令之前,还包括:
对所述音频信号进行音调识别,得到所述音频信号的音调和音高数值;
将所述音频信号的音调和音高数值作为调制输入,生成调制输入指令。
3.根据权利要求1所述的方法,其特征在于,所述音频信号的频段经由频率大小进行划分;所述根据所述音高数值调制所述音频信号的频段,得到目标音频,包括:
获取所述音调的音调数值,基于所述音高数值和所述音调数值对所述音频信号的频率大小进行调整,得到调制值;
基于所述调制值驱动预设移频器插件进行频率移位器处理,得到目标音频。
4.根据权利要求3所述的方法,其特征在于,所述音调数值用于表征所述音调的波动特征,所述音高数值用于表征所述音高的波动特征;
所述基于所述音高数值和所述音调数值对所述音频信号的频率大小进行调整,得到调制值,包括:
将所述音调的波动特征和所述音高的波动特征映射为所述频率的增减数值,所述频率的增减数值用于指示所述频率大小的调整。
5.根据权利要求3所述的方法,其特征在于,所述调制值包括所述频率的增减数值;所述基于所述调制值驱动预设移频器插件进行频率移位器处理,得到目标音频,包括:
驱动预设移频器插件,基于所述频率的增减数值对所述音频信号中各频率的相对位置进行改变,得到目标音频。
6.根据权利要求5所述的方法,其特征在于,所述基于所述频率的增减数值对所述音频信号中各频率的相对位置进行改变,包括:
若所述频率的增减数值为正值,则对所述音频信号中各频率的相对位置按照预设第一方向进行以所述频率的增减数值为单位的移动;
和/或,若所述频率的增减数值为负值,则对所述音频信号中各频率的相对位置按照预设第二方向进行以所述频率的增减数值为单位的移动。
7.根据权利要求3或5所述的方法,其特征在于,所述基于所述调制值驱动预设移频器插件进行频率移位器处理,得到目标音频,包括:
驱动预设移频器插件,将所述频率的增减数值进行预设倍数的放大,得到数值放大后的增减数值;
基于所述数值放大后的增减数值进行频率移位器处理,得到目标音频。
8.一种变声处理装置,其特征在于,所述装置包括:
音调信息获取模块,用于响应调制输入指令,获取音频信号的音调和音高数值;所述音调基于所述音频信号的不同频段确定;
音频处理模块,用于根据所述音高数值调制所述音频信号的频段,得到目标音频。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述变声处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述变声处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410112573.7A CN117975981A (zh) | 2024-01-26 | 2024-01-26 | 一种变声处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410112573.7A CN117975981A (zh) | 2024-01-26 | 2024-01-26 | 一种变声处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117975981A true CN117975981A (zh) | 2024-05-03 |
Family
ID=90852788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410112573.7A Pending CN117975981A (zh) | 2024-01-26 | 2024-01-26 | 一种变声处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117975981A (zh) |
-
2024
- 2024-01-26 CN CN202410112573.7A patent/CN117975981A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7243052B2 (ja) | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム | |
Corey | Audio production and critical listening: Technical ear training | |
Cipriani et al. | Electronic music and sound design | |
US20210366454A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
Creasey | Audio Processes: Musical Analysis, Modification, Synthesis, and Control | |
d'Escrivan | Music technology | |
US11875777B2 (en) | Information processing method, estimation model construction method, information processing device, and estimation model constructing device | |
JP2003308067A (ja) | ディジタル楽譜の音符とその楽譜のリアリゼーションとの間のリンクを生成する方法 | |
US20210350783A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
US20230186782A1 (en) | Electronic device, method and computer program | |
JP6657713B2 (ja) | 音響処理装置および音響処理方法 | |
Jensen | The timbre model | |
CN110956870A (zh) | 一种视唱练耳教学方法及装置 | |
CN117975981A (zh) | 一种变声处理方法、装置、设备及存储介质 | |
CN112289289A (zh) | 一种可编辑的普遍音色合成分析***及方法 | |
Canfer | Music Technology in Live Performance: Tools, Techniques, and Interaction | |
Palamara et al. | A dynamic representation solution for machine learning-aided performance technology | |
CN113851098B (zh) | 一种旋律的风格转换方法、装置、终端设备及存储介质 | |
Holfelt et al. | Extraction, mapping, and evaluation of expressive acoustic features for adaptive digital audio effects | |
US20210383816A1 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
WO2024048492A1 (ja) | 楽器識別方法、楽器識別装置、および、楽器識別プログラム | |
CN116805480A (zh) | 音响设备及该音响设备的参数输出方法 | |
Williams | Towards a timbre morpher | |
Mohr | Music analysis/synthesis by optimized multiple wavetable interpolation | |
CN116959503A (zh) | 滑音音频的模拟方法、装置和存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |