CN112289289A - 一种可编辑的普遍音色合成分析***及方法 - Google Patents

一种可编辑的普遍音色合成分析***及方法 Download PDF

Info

Publication number
CN112289289A
CN112289289A CN202011304700.1A CN202011304700A CN112289289A CN 112289289 A CN112289289 A CN 112289289A CN 202011304700 A CN202011304700 A CN 202011304700A CN 112289289 A CN112289289 A CN 112289289A
Authority
CN
China
Prior art keywords
tone
timbre
harmonic
frequency
universal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011304700.1A
Other languages
English (en)
Inventor
赵利胜
赵子瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011304700.1A priority Critical patent/CN112289289A/zh
Publication of CN112289289A publication Critical patent/CN112289289A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明提供一种可编辑的普遍音色合成分析***及方法,所述的合成分析方法用于编辑合成所有普遍或任意的声音,既可以模拟所有传统乐器的标准音高的音符对应的音色,做到实时模拟,不需要预先存储声音样本,又可以合成自然界或想象中任意已知和未知的声音,此外还能够将上述多种多级的音色进行混合编辑以产生新的音源。首先分析样本中的谐波组成部分,保持输入声音源音色的乐感,再通过分析不和谐波的组成部分,实现对于杂音的模拟合成,能够实现是对于普遍音色的合成,实现音色的再现。所述的合成分析***共有四个组成部分:音频数据采集单元、数据处理及分析单元、电子信号合成单元、用户交互输入单元。

Description

一种可编辑的普遍音色合成分析***及方法
技术领域
本发明涉及音频处理技术领域,尤其涉及一种可编辑的普遍音色合成分析***及方法。
背景技术
从物理学上声音可以解释为物体振动产生的声波,是通过介质(空气或固体、液体)传播并能够被人或动物听觉器官所感知的波动现象,而音色泛指声音除了频率、响度以外的所有特征的集合。作为波的一种,音色可以被分解为不同频率不同强度正弦波的叠加,因此,波形是“音色”这个抽象物质的直观表现,不同的音色都可以通过波形进行识别。
古今中外,人们根据自己的研究和喜爱,创造了多种多样的声学乐器来展现声音和旋律的优美,声学乐器演奏的每一音从数学的角度简单地说都是由许多不同频率、响度、相位的正弦波组成的, 因而形成了不同种类的音色效果,但声学乐器依赖于物体的物理振动,受到乐器自身物理属性以及人为因素的限制,对音色效果的展现存在一定的局限性。随着音乐艺术和科学技术相结合,电子音乐应运而生,在经历了具体音乐、磁带音乐和计算机音乐之后,电子音乐跨越了模拟技术到数字技术的演进,经过了半个多世纪的发展后,已经由最初实验性质的专业探索领域逐步扩大到广泛的社会应用领域。电子琴的出现是音乐电声发展的里程碑,然而,电子琴使用固化的音色采样,这意味着多数电子琴之所以可以产生不同音色的声音,主要是在出厂时,其内部已经预储存了多种乐器的声音,弹奏时只需要将其播放出来。如今几乎任何一种乐器,都有能用来替代它的基于采样的合成器产品,但这些产品存在的前提都是采样。这固然直接简便,但是预存储数据类型的产品受到很多因素制约。首先其需要大量储存空间来储存声音样本,其次只能产生预存储的音色,导致其音色库单一不变,缺乏音色多样性。
除预存储数据这一痛点外,现有对于音色的合成技术主要集中在单纯谐波分析上,合成的都只是传统乐器的音色,即模仿声学乐器相对简单的谐波分布。此外,对于谐波的模拟合成还有另外一种多级音色的合成方法,如专利CN107195289 B(授权公告号),采取在频域上的谐波(倍频)分析,提取合成不同音色,提出了模拟乐器同一音高的音符在不同弹奏条件下产生的不同音色效果,进而模拟乐器的真实音色,仅仅能够解决由于不同乐器类型、乐器生产厂家、乐器型号、乐器个体、弹奏者/物、弹奏手法的差异而形成的同一音高的音色分级的合成和编辑问题。这种单纯频域上的倍频分析只能获取音频样本的部分特征。虽然倍频是波动方程唯一的解,但现实中的琴弦/空气柱振动不同于理想模型,在振动发生的初始阶段会有不和谐波产生,而这些不和谐波使得音色嘈杂(例如小号、萨克斯的声音)。对于音色清澈的声音(例如钢琴,或敲玻璃杯的声音),单纯倍频分析可以达到较好的模拟效果,但是对于音色较嘈杂的声音,单纯倍频的模拟就达不到较好的效果,导致合成出的音色失真。
众所周知,声音广泛地存在于自然界中,人或其他生物通过声带振动发出的声音、风雨雷电等自然现象产生的声音、各种材质的物体由于主动和被动振动产生的声音等等,形成了大自然普遍、任意和随性的全音域普遍音色。而传统乐器展现的音色仅仅是谐波,或许实现对于谐波的单纯模拟抑或分级模拟,可以解决这样一个问题,即人们不用花费几十万甚至上百万元的钱去买一个心仪的顶级乐器就能获得它的音色,就可以随时随地演奏中意的音色而不用考虑外界条件的限制。然而随着电子乐器的发展,对音源品质和音色多样化、新奇化的要求越来越高,人们并不仅仅满足能够达到和声学乐器一样的效果,对于自然界***的声音,或是臆想出来的声音、自然界并不存在的声音等全音域普遍音色等,提出了更多现实的模拟和创作需求。
目前为止,现有技术中未见既能对所有普遍或任意的声音进行全音域音色模拟重现(不限于传统乐器的所有音高的音符对应的音色,且可以实时模拟,不需要预存储声音样本),又能够将上述多种多级的全音域普遍音色进行混合编辑以产生新的音源的***和方法。
发明内容
针对现有技术的不足,本发明所要解决的技术问题是提供一种可编辑的普遍音色合成分析***和方法。具体地,本发明提供一种既能对所有普遍或任意的声音进行全音域音色模拟重现(不限于传统乐器的所有音高的音符对应的音色,且可以实时模拟,不需要预先存储声音样本),又能够将上述多种多级的普遍音色进行混合编辑以产生新的音源的分析***和方法。
本发明提出的可编辑的普遍音色合成分析***和方法通过谐波分析保持输入声音源音色的乐感,同时通过不和谐波的分析实现对于杂音的模拟合成,能够实现是对于普遍音色的合成,实现音色的再现,***合成的音色与源音色或设定的音色的频域特征信息完全一致,时域波形完全重合,能够真实重现想要模拟的音色的全部特征。
本发明提出的可编辑的普遍音色合成分析***和方法除了对钢琴、弦乐等声音清澈的传统物理乐器发出的声音有较好的模拟效果之外,对于吹管乐器、铜管乐器等音色较杂的声音的音色合成也能达到较好的模拟效果,因此无论对于清澈还是嘈杂,或是其他各类的声音都能达到较好的模拟效果,可以适用于通常难以模拟的小号/萨克斯/笛子等吹管/铜管乐器。
本发明提出的可编辑的普遍音色合成分析***和方法能够模拟任意声音,自然界或想象中任意已知和未知的声音,都可以进行真实的模拟和合成,而不仅仅局限于传统物理乐器发出的声音,打破了计算机环境下声学乐器的音色编辑中,必须根据真实乐器固有的音响、音域为参照标准的约束。除了乐器之外,还可以适用于其他声音音色的模拟(例如人声,动物声,环境音等),除了模拟各种现实中的声音,还可以制作自然界没有的电子音色,极大地丰富了音乐的色彩和创作的灵感。
本发明提出的可编辑的普遍音色合成分析***和方法通过电子信号合成实现对于音色的模拟,可以进行实时模拟,不需要预先储存相关音色的声音样本进行播放。
本发明提出的可编辑的普遍音色合成分析***和方法不仅能够模拟单一声音的音色,也能够将多种不同类型的源音色进行混合编辑以产生新的音源,可以编辑合成未曾出现过的音色的声音,例如两种或几种音色的混合。音色的平衡可以摆脱现实环境中实际响度的约束,人为地加以控制,任何乐器音色之间的平衡都是允许的,以求得不同音色的良好的结合,实现不同音色的互换。
本发明提出的可编辑的普遍音色合成分析***和方法可以提供多样化的声音输入以及多样的音色输出。训练使用的音频样本不需要为同种乐器产生的声音,不需要训练样本有相同的频率,训练参数可以使用预设参数,也可以根据情况由使用者自行调节,如没有输入声音,也可以自行设定输入参数,合成任意音色,有足够的自由度。
本发明提出的可编辑的普遍音色合成分析***和方法也不需要过多样本,有较快的训练速度。
本发明所述的源音色是指输入的训练样本的音色。如有多个训练样本,则源音色指多个样本的音色特征组合。
本发明所述的基音是指每个训练样本的基准频率,在下文中以
Figure 344708DEST_PATH_IMAGE001
表示。声音样本由多个频率不同的波组成,通常来说,样本的基准频率是指组成部分中,振幅最大的波的频率。
本发明所述的倍频是指基准频率的整数倍频率,在下文中以
Figure 793007DEST_PATH_IMAGE002
表示,
Figure 369481DEST_PATH_IMAGE003
表示振幅从大到小的序号(例:
Figure 295849DEST_PATH_IMAGE004
表示振幅最大的倍频,
Figure 844642DEST_PATH_IMAGE005
表示振幅第二大的倍频,依此类推)。
本发明所述的非倍频是指基准频率的非整数倍频率,在下文中以
Figure 463842DEST_PATH_IMAGE006
表示,
Figure 262034DEST_PATH_IMAGE003
表示振幅从大到小的序号(例:
Figure 992093DEST_PATH_IMAGE007
表示振幅最大的非倍频,
Figure 192130DEST_PATH_IMAGE008
表示振幅第二大的非倍频,依此类推)。
本发明所述的谐波是指倍频的所对应的波。
本发明所述的不和谐波是指非倍频的所对应的波。
本发明所采集的音频数据,是样本声波在不同时间点,垂直方向上的位移。样本数据量由采样频率,样本持续时间组成。本发明输出拟合的音频和采集的音频数据相同,都是样本声波在不同时间点,垂直方向上的位移。
本发明所述的自回归模型,指的是使用声波数据的自我回归,其数学表达式为:
Figure 716652DEST_PATH_IMAGE009
其中
Figure 2140DEST_PATH_IMAGE010
表示第
Figure 473572DEST_PATH_IMAGE011
个音频数据,
Figure 528116DEST_PATH_IMAGE012
表示自回归模型的阶数,
Figure 489119DEST_PATH_IMAGE013
为模型参数,需要使用样本数据拟合,
Figure 527482DEST_PATH_IMAGE014
为模型残差。本发明中假设
Figure 333764DEST_PATH_IMAGE014
互相独立,并服从相同的均值为零的正态分布。
本发明所述的尤尔一沃克方程,指的是对于以上自回归模型中求解模型参数
Figure 508393DEST_PATH_IMAGE013
的方法。方程表达式为:
Figure 374718DEST_PATH_IMAGE015
其中,
Figure 838061DEST_PATH_IMAGE016
Figure 450963DEST_PATH_IMAGE017
,
Figure 745678DEST_PATH_IMAGE018
为数据点中延迟为
Figure 48484DEST_PATH_IMAGE003
的两个数据点的乘积的均值。
本发明所述的交叉验证,适用于多个模型的选择。具体在本发明中应用于选择自回归模型阶数
Figure 530281DEST_PATH_IMAGE012
,将由一份数据集(训练集)中得到的模型(包括具体参数)应用于另一份数据集(验证集),得到验证集中的残差
Figure 147207DEST_PATH_IMAGE014
。自回归模型阶数
Figure 30849DEST_PATH_IMAGE012
则为最小
Figure 770135DEST_PATH_IMAGE019
所对应模型的阶数。
本发明所述的能量谱密度(Power Spectrum Density, PSD),表示了波的组成部分中,能量在不同频率的波中的分布情况,可以通过自回归模型得到。具体表达式为:
Figure 739228DEST_PATH_IMAGE020
其中
Figure 894266DEST_PATH_IMAGE021
为频率为
Figure 163573DEST_PATH_IMAGE022
的波的能量,
Figure 808181DEST_PATH_IMAGE023
为残差的方差,
Figure 467833DEST_PATH_IMAGE024
为求得的模型参数。
本发明所述的调和回归模型,指的是使用声波数据和时间数据的三角函数回归,其数学表达式为:
Figure 223299DEST_PATH_IMAGE025
其中
Figure 81534DEST_PATH_IMAGE026
表示第
Figure 897043DEST_PATH_IMAGE011
个音频数据,
Figure 43990DEST_PATH_IMAGE027
表示第
Figure 603148DEST_PATH_IMAGE011
个时间点,
Figure 581468DEST_PATH_IMAGE028
表示第
Figure 505562DEST_PATH_IMAGE011
个频率,
Figure 936543DEST_PATH_IMAGE029
,
Figure 299391DEST_PATH_IMAGE030
为模型参数,需要使用样本数据拟合,
Figure 335480DEST_PATH_IMAGE014
为模型残差。本发明中假设
Figure 218424DEST_PATH_IMAGE014
互相独立,并服从相同的均值为零的正态分布。
本发明采用如下的技术方案:
一种可编辑的普遍音色合成分析***及方法,用于编辑合成所有普遍或任意的声音,既可以模拟所有传统乐器的所有音高的音符对应的音色,做到实时模拟,不需要预先存储声音样本,又可以合成自然界或想象中任意已知和未知的声音,此外还能够将上述多种多级的音色进行混合编辑以产生新的音源。
所述的可编辑的普遍音色合成分析***共有四个组成部分:音频数据采集单元、数据处理及分析单元、电子信号合成单元、用户交互输入单元。其中,所述的音频数据采集单元用于采集声音训练样本;所述的数据处理及分析单元用于分析训练样本特征,匹配模型;所述的电子信号合成单元用于模拟音频电子信号,输出拟合后的音频数据;所述的用户交互输入单元适用于用户人工调整模型参数,用户也可使用自带的标准设定。
本发明所述可编辑的普遍音色合成分析***的组成图如图1所示,其信息流向由图1中箭头所示。所述的电子信号合成单元中数据处理流程图如图2所示。所述的用户交互输入单元在其他三个单元的使用中均有使用,因此单列在外,其具体使用时机贯穿在前三个单元之中。
所述的音频数据采集单元用于采集声音训练样本,由用户输入音频样本采集数量
Figure 402281DEST_PATH_IMAGE031
。数据采集器将收集
Figure 303241DEST_PATH_IMAGE031
个音频信号(
Figure 928257DEST_PATH_IMAGE031
种相同/不同频率的声音,每种频率的声音分为两份样本)。采集信号时,可以允许使用者输入音频信号的基音的频率
Figure 256470DEST_PATH_IMAGE001
。如没有输入或是输入数值与信号不匹配,则在之后的数据分析中自行寻找。
进一步地,采集信号后,取中段部分作为原始输入数据(1/4至1/2段,和1/2至3/4段)进行分析处理。取其中
Figure 662044DEST_PATH_IMAGE031
个1/4至1/2段的音频信号作为一份数据集(数据集1),其他信号作为另一份数据集(数据集2)。
所述的数据处理及分析单元用于分析训练样本特征,匹配模型。在数据集1中,对于
Figure 569957DEST_PATH_IMAGE031
段信号分别做自回归模型分析。模型参数使用尤尔一沃克方程进行计算。通过在数据集1中得到的模型在数据集2上的另一半音频样本中,进行交叉验证,得到具体模型阶数
Figure 111797DEST_PATH_IMAGE012
,最小取值范围为0,最大取值范围为样本中数据点个数。
进一步地,对于
Figure 610911DEST_PATH_IMAGE031
个自回归模型,计算噪音方差,并计算能量谱密度。
进一步地,通过能量谱密度,寻找音频信号的基准频率
Figure 503781DEST_PATH_IMAGE001
(最高的波峰所对应的频率)。如果寻找到的基准频率与用户输入不符合,则报错,并让使用者决定是否重新采集音频数据或是继续分析。
进一步地,寻找能量显著的谐波。基于各个信号的基准频率
Figure 746543DEST_PATH_IMAGE001
,判断其谐波能量是否显著。判断其是否显著的标准是在能量谱密度上,是否在谐波频率上有波峰,允许误差为[-20Hz,20Hz]。如果谐波能量不显著,则不认为是这一音色的谐音组成部分。如果显著,则记录谐音与基准频率
Figure 346152DEST_PATH_IMAGE001
的倍数关系。谐音频率的取值范围为2倍基准频率至32倍基准频率。
进一步地,对于
Figure 16168DEST_PATH_IMAGE031
个模型的
Figure 396333DEST_PATH_IMAGE031
种谐音集合,判断各集合中的前四个基准频率倍数
Figure 177207DEST_PATH_IMAGE032
是否一致。如不一致,则报告输入音频数据可能不是同种音色,并让用户决定是否重新采集音频数据或是继续分析。如继续分析,可让使用者选择是否输入各个样本数据的权重,默认权重为
Figure 896902DEST_PATH_IMAGE033
进一步地,将能量显著的谐波滤去,得到嗓音样本。将两份数据集原始数据中的基音及谐音过滤,得到数据集3以及数据集4。滤波方法为:使用各样本中的基音和各样本中前四个显著的倍频作为频率参数,进行调和回归分析,得到的残差(噪音)即为过滤后的数据集。
进一步地,重复前述步骤,得到
Figure 737819DEST_PATH_IMAGE031
份残差的能量谱密度。这里分为两种情况,输入音频数据是同种音色和输入音频数据不是同种音色。
如果输入音频数据是同种音色,对于
Figure 605281DEST_PATH_IMAGE031
份噪音的能量谱密度,取各自的基准频率
Figure 189846DEST_PATH_IMAGE034
作为坐标原点,对于横轴频率取自然对数
Figure 764047DEST_PATH_IMAGE035
。将8种变形过后的能量谱密度进行平均,并寻找能量密度最大的前五个频率,作为不和谐音的组成部分
Figure 41444DEST_PATH_IMAGE036
。记录非倍频
Figure 867973DEST_PATH_IMAGE036
与基准频率
Figure 459492DEST_PATH_IMAGE034
的倍数关系
Figure 684937DEST_PATH_IMAGE037
进一步地,如果输入音频数据是同种音色,使用各样本中的基音,谐音
Figure 136165DEST_PATH_IMAGE038
和不和谐音
Figure 712640DEST_PATH_IMAGE039
作为频率参数,对数据集1种任一样本进行调和回归分析,得到对应基音,谐音
Figure 842270DEST_PATH_IMAGE038
和不和谐音
Figure 922222DEST_PATH_IMAGE039
的回归参数(正弦波振幅
Figure 648081DEST_PATH_IMAGE040
,余弦波振幅
Figure 711852DEST_PATH_IMAGE041
,截距
Figure 645173DEST_PATH_IMAGE042
).
如果输入音频数据是不同种音色,对于
Figure 969844DEST_PATH_IMAGE031
份噪音的能量谱密度,寻找能量密度最大的前五个频率
Figure 402355DEST_PATH_IMAGE036
,作为不和谐音的组成部分。记录N份能量谱密度中各自不和谐音与基准频率的倍数关系
Figure 687843DEST_PATH_IMAGE037
进一步地,如果输入音频数据是不同种音色,使用各样本中的基音,谐音
Figure 956013DEST_PATH_IMAGE038
和不和谐音
Figure 544645DEST_PATH_IMAGE039
作为频率参数,对数据集1种各自样本进行调和回归分析,得到对应基音,谐音
Figure 771227DEST_PATH_IMAGE038
和不和谐音
Figure 481694DEST_PATH_IMAGE039
的回归参数(正弦波振幅
Figure 553555DEST_PATH_IMAGE040
,余弦波振幅
Figure 993764DEST_PATH_IMAGE041
,截距
Figure 63351DEST_PATH_IMAGE042
)。
进一步地,对于
Figure 323431DEST_PATH_IMAGE031
组回归参数及频率参数,进行加权平均并组合。权重由使用者决定,没有用户输入时使用默认权重.组合后基音的正弦/余弦波振幅以及截距为各个模型基音的正弦/余弦波振幅乘以权重后相加,其他频率的正弦/余弦波振幅为各个模型振幅参数乘以权重。组合后的结果为:基音
Figure 198983DEST_PATH_IMAGE034
,倍频倍数
Figure 228119DEST_PATH_IMAGE043
,非倍频倍数
Figure 468608DEST_PATH_IMAGE044
,截距
Figure 215984DEST_PATH_IMAGE042
,正弦波振幅
Figure 895227DEST_PATH_IMAGE045
,余弦波振幅
Figure 778869DEST_PATH_IMAGE046
所述的电子信号合成单元用于模拟音频电子信号,输出拟合后的音频数据。通过前述的数据处理及分析单元,得到了对于输入的音频信号总体音色特征。音色特征的具体表现为:倍频和非倍频相对于基准频率的倍数,截距,以及基音,谐音和不和谐音的振幅。
进一步地,使用者输入想要输出的音频的频率,持续时间
Figure 455838DEST_PATH_IMAGE047
以及不和谐波的衰减速率
Figure 690511DEST_PATH_IMAGE048
。将输入的频率作为基音
Figure 642286DEST_PATH_IMAGE034
,通过倍频倍数
Figure 646014DEST_PATH_IMAGE049
计算倍频
Figure 228305DEST_PATH_IMAGE050
,通过非倍频倍数
Figure 950274DEST_PATH_IMAGE051
计算非倍频
Figure 705740DEST_PATH_IMAGE052
进一步地,通过音色特征中各个正弦/余弦波组成部分的叠加,模拟电子波形信号,输出音频信号。输出频率为48kHz。如果输入音色为同种音色,则输出数据为:
Figure 767237DEST_PATH_IMAGE053
如果输入音色为不同音色,则输出数据为:
Figure 848325DEST_PATH_IMAGE054
本发明所述可编辑的普遍音色合成分析***通过先分析样本中的谐波组成部分,保持输入声音源音色的乐感,再通过分析不和谐波的组成部分,实现对于杂音的模拟合成,能够实现是对于普遍音色的合成,实现音色的再现。
本发明所述可编辑的普遍音色合成分析***的自回归模型分析以及调和回归分析,如使用傅里叶频域分析,也可以得到谐波和不和谐波的频率分布,但傅里叶频域分析中的非倍频的振幅取决于傅里叶变化中的数据点间隔大小,会导致不准确的不和谐波特征提取。
本发明所述可编辑的普遍音色合成分析***的统计模型采取线性模型,若采取非线性模型,理论上可以更好地抓取振动发生的初始阶段的非倍频振幅的指数衰减,但也有可能导致过度拟合,并且还要解决初始阶段中,回归分析的残差异方差的问题,实现较为困难。
本发明的有益效果是:
本发明提出的可编辑的普遍音色合成分析***最根本的目的就是提供更加广泛的音色和提供更加强大的编辑制作和控制功能,利用这些功能,使用者可以获取随心所欲的音色,或将音色修改的更个性化,还可以创造自己独有的音色,因而赋予了电子音色创造的无限性和声音调制的无穷变化性。其主要特征可以归纳为音色演奏的拓展性、音色编辑的自由性、声音的动态变化性和音色听感的机械性。
1、本发明提出的可编辑的普遍音色合成分析***和方法通过谐波分析保持输入声音源音色的乐感,同时通过不和谐波的分析实现对于杂音的模拟合成,能够实现是对于普遍音色的合成,实现音色的再现,***合成的音色与源音色或设定的音色的频域特征信息完全一致,时域波形完全重合,能够真实重现想要模拟的音色的全部特征。
2、本发明提出的可编辑的普遍音色合成分析***和方法除了对钢琴、弦乐等声音清澈的传统物理乐器发出的声音有较好的模拟效果之外,对于吹管乐器、铜管乐器等音色较杂的声音的音色合成也能达到较好的模拟效果,因此无论对于清澈还是嘈杂,或是其他各类的声音都能达到较好的模拟效果,可以适用于通常难以模拟的小号/萨克斯/笛子等吹管/铜管乐器。
3、本发明提出的可编辑的普遍音色合成分析***和方法能够模拟任意声音,自然界或想象中任意已知和未知的声音,都可以进行真实的模拟,而不仅仅局限于传统物理乐器发出的声音,打破了计算机环境下声学乐器的音色编辑中,必须根据真实乐器固有的音响、音域为参照标准的约束。除了乐器之外,还可以适用于其他声音音色的模拟(例如人声,动物声,环境音等),除了模拟各种现实中的声音,还可以制作自然界没有的电子音色,极大地丰富了音乐的色彩和创作的灵感。
4、本发明提出的可编辑的普遍音色合成分析***和方法通过电子信号合成实现对于音色的模拟,可以进行实时模拟,不需要预先储存相关音色的声音样本进行播放。
5、本发明提出的可编辑的普遍音色合成分析***和方法不仅能够模拟单一声音的音色,也能够将多种不同类型的源音色进行混合编辑以产生新的音源,可以编辑合成未曾出现过的音色的声音,例如两种或几种音色的混合。音色的平衡可以摆脱现实环境中实际响度的约束,人为地加以控制,任何乐器音色之间的平衡都是允许的,以求得不同音色的良好的结合,实现不同音色的互换。
6、本发明提出的可编辑的普遍音色合成分析***和方法可以提供多样化的声音输入以及多样的音色输出。训练使用的音频样本不需要为同种乐器产生的声音,不需要训练样本有相同的频率,训练参数可以使用预设参数,也可以根据情况由使用者自行调节,如没有输入声音,也可以自行设定输入参数,合成任意音色,有足够的自由度。
7、本发明提出的可编辑的普遍音色合成分析***和方法也不需要过多样本,有较快的训练速度。
附图说明
图1简述了本发明的整体组成架构和单元部分,其中箭头代表了信息处理方向。
图2简述了本发明中“数据处理及分析单元”的工作流程,其中箭头代表了信息处理方向。
图3至图8为本发明的应用实例。
图3为一段样本音频数据。音频由钢琴a键发声,基准频率为220Hz。图中所示样本为2.5s
Figure 794940DEST_PATH_IMAGE055
3.0s的音频数据,采样频率为48KHz。
图4为拟合自回归模型后得到的能量谱密度。根据交叉分析,模型阶数选择为
Figure 291781DEST_PATH_IMAGE056
。图中横轴所示频率为实际频率除以样本数据点数量。
图5为样本能量谱密度中,基音及前四个显著的倍频对应的能量谱密度波峰。对应频率为220Hz,440Hz,660Hz,880Hz,1100Hz。
图6为样本音频数据中滤去基音及前四个显著的倍频,所得到的残差拟合自回归模型后得到的能量谱密度。
图7为仅包含谐波的拟合结果。
图8为包含谐波以及不和谐波的拟合结果。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合具体的实施例详细说明本发明。但是需要认识到,本发明不局限于所说明的实施例,并且在不脱离基本原理的前提下,本发明的各种修改是可能的。这些等价形式同样落于本申请所附权利要求书所限定的范围。
本实施例所述的可编辑的普遍音色合成分析***共有四个组成部分:音频数据采集单元、数据处理及分析单元、电子信号合成单元、用户交互输入单元。其中用户交互输入单元在前三个单元中均有具体体现,因此实际操作过程中体现为如下三个大的步骤:
步骤一:声音数据采集单元
1.1由用户输入音频样本采集数量
Figure 4522DEST_PATH_IMAGE031
,标准预设值为8。数据采集器将收集
Figure 256512DEST_PATH_IMAGE031
个音频信号(
Figure 687493DEST_PATH_IMAGE031
种相同/不同频率的声音,每种频率的声音分为两份样本)。采样频率为48kHz,音频信号需要至少持续2s。采集信号时,可以允许使用者输入音频信号的基音的频率
Figure 988024DEST_PATH_IMAGE001
。如没有输入或是输入数值与信号不匹配,则在之后的数据分析中自行寻找。
1.2采集信号后,取中段部分作为原始输入数据(1/4至1/2段,和1/2至3/4段)进行分析处理。取其中
Figure 820851DEST_PATH_IMAGE031
个1/4至1/2段的音频信号作为一份数据集(数据集1),其他信号作为另一份数据集(数据集2)。
步骤二:数据处理及分析单元
2.1在数据集1中,对于
Figure 978163DEST_PATH_IMAGE031
段信号分别做自回归模型分析。模型参数使用尤尔一沃克方程进行计算。通过在数据集1中得到的模型在数据集2上的另一半音频样本中,进行交叉验证,得到具体模型阶数
Figure 99703DEST_PATH_IMAGE012
,最小取值范围为0,最大取值范围为样本中数据点个数。
Figure 735083DEST_PATH_IMAGE057
2.2对于
Figure 422417DEST_PATH_IMAGE031
个自回归模型,计算噪音方差
Figure 16209DEST_PATH_IMAGE023
,并计算能量谱密度。
Figure 156203DEST_PATH_IMAGE058
2.3通过能量谱密度,寻找音频信号的基准频率
Figure 860854DEST_PATH_IMAGE001
(最高的波峰所对应的频率)。如果寻找到的基准频率与用户输入不符合,则报错,并让使用者决定是否重新采集音频数据或是继续分析。
2.4基于各个信号的基准频率
Figure 605956DEST_PATH_IMAGE001
,判断其谐波能量是否显著。判断其是否显著的标准是在能量谱密度上,是否在谐波频率上有波峰,允许误差为[-20Hz,20Hz]。如果谐波能量不显著,则不认为是这一音色的谐音组成部分。如果显著,则记录谐音与基准频率
Figure 105071DEST_PATH_IMAGE001
的倍数关系。谐音频率的取值范围为2倍基准频率至32倍基准频率。
2.5对于
Figure 732361DEST_PATH_IMAGE031
个模型的
Figure 975124DEST_PATH_IMAGE031
种谐音集合,判断各集合中的前四个基准频率倍数
Figure 840311DEST_PATH_IMAGE032
是否一致。如不一致,则报告输入音频数据可能不是同种音色,并让用户决定是否重新采集音频数据或是继续分析。如继续分析,可让使用者选择是否输入各个样本数据的权重,默认权重为
Figure 510327DEST_PATH_IMAGE033
2.6将两份数据集原始数据中的基音及谐音过滤,得到数据集3以及数据集4。滤波方法为:使用各样本中的基音和各样本中前四个显著的倍频
Figure 890493DEST_PATH_IMAGE059
作为频率参数,进行调和回归分析(
Figure 874629DEST_PATH_IMAGE060
,
Figure 382272DEST_PATH_IMAGE061
),得到的残差(噪音)
Figure 488769DEST_PATH_IMAGE062
即为过滤后的数据集。
Figure 90651DEST_PATH_IMAGE063
2.7重复步骤2.1及2.2,得到
Figure 878479DEST_PATH_IMAGE031
份残差的能量谱密度。如果输入音频数据是同种音色,进行步骤2.8
Figure 249417DEST_PATH_IMAGE055
2.9。如果输入音频数据不是同种音色,进行步骤2.10
Figure 261236DEST_PATH_IMAGE055
2.12。
2.8对于
Figure 350414DEST_PATH_IMAGE031
份噪音的能量谱密度,取各自的基准频率
Figure 738670DEST_PATH_IMAGE034
作为坐标原点,对于横轴频率取自然对数
Figure 167378DEST_PATH_IMAGE035
。将8种变形过后的能量谱密度进行平均,并寻找能量密度最大的前五个频率,作为不和谐音的组成部分
Figure 350097DEST_PATH_IMAGE036
。记录非倍频
Figure 926572DEST_PATH_IMAGE036
与基准频率
Figure 118519DEST_PATH_IMAGE034
的倍数关系
Figure 401733DEST_PATH_IMAGE037
2.9使用各样本中的基音,谐音
Figure 817671DEST_PATH_IMAGE038
和不和谐音
Figure 819125DEST_PATH_IMAGE039
作为频率参数,对数据集1种任一样本进行调和回归分析,得到对应基音,谐音
Figure 549183DEST_PATH_IMAGE038
和不和谐音
Figure 749221DEST_PATH_IMAGE039
的回归参数(正弦波振幅
Figure 742584DEST_PATH_IMAGE040
,余弦波振幅
Figure 28072DEST_PATH_IMAGE041
,截距
Figure 561822DEST_PATH_IMAGE042
).
Figure 819628DEST_PATH_IMAGE064
2.10对于
Figure 517981DEST_PATH_IMAGE031
份噪音的能量谱密度,寻找能量密度最大的前五个频率
Figure 556344DEST_PATH_IMAGE036
,作为不和谐音的组成部分。记录N份能量谱密度中各自不和谐音与基准频率的倍数关系
Figure 831468DEST_PATH_IMAGE037
2.11使用各样本中的基音,谐音
Figure 740518DEST_PATH_IMAGE038
和不和谐音
Figure 872422DEST_PATH_IMAGE039
作为频率参数,对数据集1种各自样本进行调和回归分析,得到对应基音,谐音
Figure 132502DEST_PATH_IMAGE038
和不和谐音
Figure 211316DEST_PATH_IMAGE039
的回归参数(正弦波振幅
Figure 240452DEST_PATH_IMAGE040
,余弦波振幅
Figure 277678DEST_PATH_IMAGE041
,截距
Figure 290634DEST_PATH_IMAGE042
)。
Figure 907560DEST_PATH_IMAGE065
2.12将对于
Figure 791202DEST_PATH_IMAGE031
组回归参数及频率参数,进行加权平均并组合。权重由2.5决定,2.5没有用户输入时使用默认权重.组合后基音的正弦/余弦波振幅以及截距为各个模型基音的正弦/余弦波振幅乘以权重后相加,其他频率的正弦/余弦波振幅为各个模型振幅参数乘以权重。组合后的结果为:基音
Figure 264909DEST_PATH_IMAGE034
,倍频倍数
Figure 234002DEST_PATH_IMAGE043
,非倍频倍数
Figure 451357DEST_PATH_IMAGE044
,截距
Figure 189506DEST_PATH_IMAGE042
,正弦波振幅
Figure 37376DEST_PATH_IMAGE045
,余弦波振幅
Figure 493765DEST_PATH_IMAGE046
步骤三:电子信号合成单元
3.1 由数据处理及分析器中,得到了对于输入的音频信号总体音色特征。音色特征的具体表现为:倍频和非倍频相对于基准频率的倍数,截距,以及基音,谐音和不和谐音的振幅。
3.2使用者输入想要输出的音频的频率,持续时间
Figure 514811DEST_PATH_IMAGE047
以及不和谐波的衰减速率
Figure 373045DEST_PATH_IMAGE048
。将输入的频率作为基音
Figure 391817DEST_PATH_IMAGE034
,通过倍频倍数
Figure 72852DEST_PATH_IMAGE049
计算倍频
Figure 897589DEST_PATH_IMAGE050
,通过非倍频倍数
Figure 610330DEST_PATH_IMAGE051
计算非倍频
Figure 800003DEST_PATH_IMAGE052
3.3通过音色特征中各个正弦/余弦波组成部分的叠加,模拟电子波形信号,输出音频信号。输出频率为48kHz。如果输入音色为同种音色,则输出数据为:
Figure 230984DEST_PATH_IMAGE066
如果输入音色为不同音色,则输出数据为:
Figure 593832DEST_PATH_IMAGE067
实施例所述的可编辑的普遍音色合成分析***使用范例及结果:
附图中图3至图8中为本发明的一个应用实例,附图对应详细说明可见附图说明。本实例中采用的样本为钢琴音a,钢琴音较清澈,因其杂波不多,其波形图更适合于展示。图5充分表现了运用自回归模型以及计算能量谱密度,可以清晰直观得到显著的谐波能量。
从图4及图6的比对中可以看到,在模拟音色信号中仅仅包含谐波是远远不够的,谐波在整个音频中只占有一部分的能量。本实例中截取的样本片段为2.5s至3.0s,在物体振动发声时不和谐波的衰减速率要远远大于谐波衰减速率,可经过长时间后样本中不和谐波依然保有大量能量,所以想要真实还原音色必须要考虑不和谐波。
从图7所示的仅包含谐波的模拟结果,可以很直观地看出,若没有额外的参数调整,拟合的结果会仅仅包含水平的波封,而包含不和谐波的音色拟合,如图8所示,可以得到随时间变化的波封,在听觉中会产生不一样的效果,更贴近于实际音色。

Claims (31)

1.一种可编辑的普遍音色合成分析***及方法,其特征在于,所述的合成分析方法用于编辑合成所有普遍或任意的声音,既可以模拟所有传统乐器的标准音高的音符对应的音色,做到实时模拟,不需要预先存储声音样本,又可以合成自然界或想象中任意已知和未知的声音,此外还能够将上述多种多级的音色进行混合编辑以产生新的音源,所述的合成分析***共有四个组成部分:音频数据采集单元、数据处理及分析单元、电子信号合成单元、用户交互输入单元,
其中:
所述的音频数据采集单元用于采集声音训练样本;
所述的数据处理及分析单元用于分析训练样本特征,匹配模型;
所述的电子信号合成单元用于模拟音频电子信号,输出拟合后的音频数据;
所述的用户交互输入单元适用于用户人工调整模型参数,用户也可使用自带的标准设定。
2.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,通过谐波分析保持输入声音源音色的乐感,同时通过不和谐波的分析实现对于杂音的模拟合成,能够实现对于普遍音色的合成,实现音色的再现,***合成的音色与源音色或设定的音色的频域特征信息完全一致,时域波形完全重合,能够真实重现想要模拟的音色的全部特征。
3.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,本发明除了对钢琴、弦乐等声音清澈的传统物理乐器发出的声音有较好的模拟效果之外,对于吹管乐器、铜管乐器等音色较杂的声音的音色合成也能达到较好的模拟效果,因此无论对于清澈还是嘈杂,或是其他各类的声音都能达到较好的模拟效果,可以适用于通常难以模拟的小号/萨克斯/笛子等吹管/铜管乐器。
4.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,本发明能够模拟任意声音,自然界或想象中任意已知和未知的声音,都可以进行真实的模拟和合成,而不仅仅局限于传统物理乐器发出的声音,打破了计算机环境下声学乐器的音色编辑中,必须根据真实乐器固有的音响、音域为参照标准的约束,除了乐器之外,还可以适用于其他声音音色的模拟(例如人声,动物声,环境音等),除了模拟各种现实中的声音,还可以制作自然界没有的电子音色,极大地丰富了音乐的色彩和创作的灵感。
5.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,本发明通过电子信号合成实现对于音色的模拟,可以进行实时模拟,不需要预先储存相关音色的声音样本进行播放。
6.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,本发明不仅能够模拟单一声音的音色,还能够将多种不同类型的源音色进行混合编辑以产生新的音源,可以编辑合成未曾出现过的音色的声音,例如两种或几种音色的混合,音色的平衡可以摆脱现实环境中实际响度的约束,人为地加以控制,任何乐器音色之间的平衡都是允许的,以求得不同音色的良好的结合,实现不同音色的互换。
7.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,本发明可以提供多样化的声音输入以及多样的音色输出,训练使用的音频样本不需要为同种乐器产生的声音,不需要训练样本有相同的频率,训练参数可以使用预设参数,也可以根据情况由使用者自行调节,如没有输入声音,也可以自行设定输入参数,合成任意音色,有足够的自由度。
8.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,本发明不需要过多样本,有较快的训练速度。
9.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,本发明在对不同音色的模拟合成过程中,主要通过对声音样本的谐波(倍频)以及不和谐波(非倍频)进行统计分析,应用自回归模型、交叉验证以及调和回归分析,自回归模型参数使用尤尔—沃克方程进行计算。
10.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,训练样本的特征通过样本能量谱密度得到,即通过能量谱密度得到基准频率以及谐波频率分布,模拟结果通过对谐波和不和谐波的线性叠加组成。
11.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,计算不和谐波的频率分布时,通过对于能量谱密度的对数变换及加权平均实现。
12.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,通过调和回归分析得到谐波/不和谐波的振幅。
13.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,通过调整音色拟合中不和谐波的指数衰减,模拟自然琴弦振动中的不和谐波衰减。
14.如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法,其特征在于,所述的自回归模型,指的是使用声波数据的自我回归,其数学表达式为:
Figure 466028DEST_PATH_IMAGE001
其中
Figure 259672DEST_PATH_IMAGE002
表示第
Figure 895053DEST_PATH_IMAGE003
个音频数据,
Figure 444370DEST_PATH_IMAGE004
表示自回归模型的阶数,
Figure 772583DEST_PATH_IMAGE005
为模型参数,需要使用样本数据拟合,
Figure 787944DEST_PATH_IMAGE006
为模型残差,本发明中假设
Figure 227015DEST_PATH_IMAGE006
互相独立,并服从相同的均值为零的正态分布。
15.如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法,其特征在于,所述的尤尔一沃克方程,指的是对于自回归模型中求解模型参数
Figure 768855DEST_PATH_IMAGE005
的方法,方程表达式为:
Figure 127024DEST_PATH_IMAGE007
其中,
Figure 754315DEST_PATH_IMAGE008
Figure 872443DEST_PATH_IMAGE009
,
Figure 3210DEST_PATH_IMAGE010
为数据点中延迟为
Figure 673226DEST_PATH_IMAGE011
的两个数据点的乘积的均值。
16.如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法,其特征在于,所述的交叉验证适用于多个模型的选择,具体在本发明中应用于选择自回归模型阶数
Figure 646867DEST_PATH_IMAGE004
,将由一份数据集(训练集)中得到的模型(包括具体参数)应用于另一份数据集(验证集),得到验证集中的残差
Figure 427742DEST_PATH_IMAGE006
,自回归模型阶数
Figure 819540DEST_PATH_IMAGE004
则为最小
Figure 660457DEST_PATH_IMAGE012
所对应模型的阶数。
17. 如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法,其特征在于,所述的能量谱密度(Power Spectrum Density, PSD),表示了波的组成部分中,能量在不同频率的波中的分布情况,可以通过自回归模型得到,
具体表达式为:
Figure 996760DEST_PATH_IMAGE013
其中
Figure 705959DEST_PATH_IMAGE014
为频率为
Figure 811318DEST_PATH_IMAGE015
的波的能量,
Figure 698503DEST_PATH_IMAGE016
为残差的方差,
Figure 522102DEST_PATH_IMAGE017
为求得的模型参数。
18.如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法,其特征在于,所述的调和回归模型,指的是使用声波数据和时间数据的三角函数回归,其数学表达式为:
Figure 362141DEST_PATH_IMAGE018
其中
Figure 587586DEST_PATH_IMAGE019
表示第
Figure 645671DEST_PATH_IMAGE003
个音频数据,
Figure 956567DEST_PATH_IMAGE020
表示第
Figure 882935DEST_PATH_IMAGE003
个时间点,
Figure 821941DEST_PATH_IMAGE021
表示第
Figure 175562DEST_PATH_IMAGE003
个频率,
Figure 973754DEST_PATH_IMAGE022
,
Figure 579178DEST_PATH_IMAGE023
为模型参数,需要使用样本数据拟合,
Figure 248057DEST_PATH_IMAGE006
为模型残差,本发明中假设
Figure 162792DEST_PATH_IMAGE006
互相独立,并服从相同的均值为零的正态分布。
19.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,所述的合成分析方法用于编辑合成所有普遍或任意的声音,还能够将上述多种多级的音色进行混合编辑以产生新的音源,包括如下步骤:
(1)通过音频数据采集单元采集声音训练样本;
(2)通过数据处理及分析单元分析训练样本特征,匹配模型;
具体可分解为:
·样本自回归模型分析和计算能量谱密度
·寻找基音,寻找能量显著的谐波
·将能量显著的谐波滤去,得到嗓音样本
·嗓音样本自回归模型分析和计算能量谱密度
·寻找能量不显著的不和谐波
·对于所有谐波/不和谐波,调和回归分析
·加权平均调和回归分析结果
(3)通过电子信号合成单元用于模拟音频电子信号,输出拟合后的音频数据;
(4)此外,用户交互输入单元贯穿于上述三个单元之中,适用于用户人工调整模型参数,用户也可使用自带的标准设定参数。
20.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,所述的音频数据采集单元采集信号时,可以允许使用者输入音频信号的基音的频率
Figure 182701DEST_PATH_IMAGE024
,如没有输入或是输入数值与信号不匹配,则在之后的数据分析中自行寻找,音频信号需要至少持续2s。
21.如权利要求20所述的可编辑的普遍音色合成分析***及方法,其特征在于,所述的音频数据采集单元采集信号后,取中段部分作为原始输入数据(1/4至1/2段,和1/2至3/4段)进行分析处理,取其中
Figure 450871DEST_PATH_IMAGE025
个1/4至1/2段的音频信号作为一份数据集1,其他信号作为另一份数据集2。
22.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法,其特征在于,所述的数据处理及分析单元中,在数据集1中,对于
Figure 115202DEST_PATH_IMAGE025
段信号分别做自回归模型分析,模型参数使用尤尔一沃克方程进行计算,通过在数据集1中得到的模型在数据集2上的另一半音频样本中,进行交叉验证,得到具体模型阶数
Figure 76205DEST_PATH_IMAGE004
,最小取值范围为0,最大取值范围为样本中数据点个数。
Figure 317830DEST_PATH_IMAGE001
23. 如权利要求9-13所述的可编辑的普遍音色合成分析***及方法,其特征在于,对于
Figure 514325DEST_PATH_IMAGE025
个自回归模型,计算噪音方差
Figure 423375DEST_PATH_IMAGE016
,并计算能量谱密度,
Figure 24121DEST_PATH_IMAGE013
通过能量谱密度,寻找音频信号的基准频率
Figure 159567DEST_PATH_IMAGE024
(最高的波峰所对应的频率),如果寻找到的基准频率与用户输入不符合,则报错,并让使用者决定是否重新采集音频数据或是继续分析。
24.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法,其特征在于,基于各个信号的基准频率
Figure 503961DEST_PATH_IMAGE024
,判断其谐波能量是否显著时,判断标准是在能量谱密度上,是否在谐波频率上有波峰,允许误差为[-20Hz,20Hz],如果谐波能量不显著,则不认为是这一音色的谐音组成部分;如果显著,则记录谐音与基准频率
Figure 660660DEST_PATH_IMAGE024
的倍数关系,谐音频率的取值范围为2倍基准频率至32倍基准频率。
25.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法,其特征在于,对于
Figure 697886DEST_PATH_IMAGE025
个模型的
Figure 320629DEST_PATH_IMAGE025
种谐音集合,判断各集合中的前四个基准频率倍数
Figure 468713DEST_PATH_IMAGE026
是否一致,如不一致,则报告输入音频数据可能不是同种音色,并让用户决定是否重新采集音频数据或是继续分析;如继续分析,可让使用者选择是否输入各个样本数据的权重,默认权重为
Figure 86776DEST_PATH_IMAGE027
26.如权利要求12所述的可编辑的普遍音色合成分析***及方法,其特征在于,将数据集原始数据中的基音及谐音过滤的方法为:使用各样本中的基音和各样本中前四个显著的倍频
Figure 685117DEST_PATH_IMAGE028
作为频率参数,进行调和回归分析(
Figure 388631DEST_PATH_IMAGE029
,
Figure 74827DEST_PATH_IMAGE030
),得到的残差(噪音)
Figure 953921DEST_PATH_IMAGE031
即为过滤后的数据集。
Figure 67371DEST_PATH_IMAGE032
27.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法,其特征在于,如果输入音频数据是同种音色,进行以下步骤:
(1)对于
Figure 258181DEST_PATH_IMAGE025
份噪音的能量谱密度,取各自的基准频率
Figure 138281DEST_PATH_IMAGE033
作为坐标原点,对于横轴频率取自然对数
Figure 996515DEST_PATH_IMAGE034
,将8种变形过后的能量谱密度进行平均,并寻找能量密度最大的前五个频率,作为不和谐音的组成部分
Figure 687391DEST_PATH_IMAGE035
,记录非倍频
Figure 631076DEST_PATH_IMAGE035
与基准频率
Figure 659075DEST_PATH_IMAGE033
的倍数关系
Figure 496450DEST_PATH_IMAGE036
(2)使用各样本中的基音,谐音
Figure 217281DEST_PATH_IMAGE037
和不和谐音
Figure 523629DEST_PATH_IMAGE038
作为频率参数,对数据集1种任一样本进行调和回归分析,得到对应基音,谐音
Figure 355319DEST_PATH_IMAGE037
和不和谐音
Figure 922566DEST_PATH_IMAGE038
的回归参数(正弦波振幅
Figure 941862DEST_PATH_IMAGE039
,余弦波振幅
Figure 594560DEST_PATH_IMAGE040
,截距
Figure 229941DEST_PATH_IMAGE041
)。
Figure 527061DEST_PATH_IMAGE042
28.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法,其特征在于,如果输入音频数据是不同种音色,进行以下步骤:
(1)对于
Figure 855275DEST_PATH_IMAGE025
份噪音的能量谱密度,寻找能量密度最大的前五个频率
Figure 729690DEST_PATH_IMAGE035
,作为不和谐音的组成部分,记录N份能量谱密度中各自不和谐音与基准频率的倍数关系
Figure 293395DEST_PATH_IMAGE036
(2)使用各样本中的基音,谐音
Figure 835235DEST_PATH_IMAGE037
和不和谐音
Figure 68770DEST_PATH_IMAGE038
作为频率参数,对数据集1种各自样本进行调和回归分析,得到对应基音,谐音
Figure 571427DEST_PATH_IMAGE037
和不和谐音
Figure 283031DEST_PATH_IMAGE038
的回归参数(正弦波振幅
Figure 679377DEST_PATH_IMAGE039
,余弦波振幅
Figure 474027DEST_PATH_IMAGE040
,截距
Figure 323034DEST_PATH_IMAGE041
),
Figure 979274DEST_PATH_IMAGE042
(3)将对于
Figure 495706DEST_PATH_IMAGE025
组回归参数及频率参数,进行加权平均并组合;
组合后基音的正弦/余弦波振幅以及截距为各个模型基音的正弦/余弦波振幅乘以权重后相加,其他频率的正弦/余弦波振幅为各个模型振幅参数乘以权重,组合后的结果为:基音
Figure 71044DEST_PATH_IMAGE033
,倍频倍数
Figure 531981DEST_PATH_IMAGE043
,非倍频倍数
Figure 116546DEST_PATH_IMAGE044
,截距
Figure 221906DEST_PATH_IMAGE041
,正弦波振幅
Figure 109090DEST_PATH_IMAGE045
,余弦波振幅
Figure 667111DEST_PATH_IMAGE046
29.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,由数据处理及分析单元中,可以得到对于输入的音频信号总体音色特征,音色特征的具体表现为:倍频和非倍频相对于基准频率的倍数,截距,以及基音,谐音和不和谐音的振幅。
30.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,电子信号合成单元中,使用者输入的要素为:拟输出的音频的频率、持续时间
Figure 182930DEST_PATH_IMAGE047
以及不和谐波的衰减速率
Figure 142796DEST_PATH_IMAGE048
,将输入的频率作为基音
Figure 325515DEST_PATH_IMAGE033
,通过倍频倍数
Figure 777356DEST_PATH_IMAGE049
计算倍频
Figure 438145DEST_PATH_IMAGE050
,通过非倍频倍数
Figure 642730DEST_PATH_IMAGE051
计算非倍频
Figure 996351DEST_PATH_IMAGE052
31.如权利要求1所述的可编辑的普遍音色合成分析***及方法,其特征在于,电子信号合成单元中,通过音色特征中各个正弦/余弦波组成部分的叠加,模拟电子波形信号,输出音频信号,
如果输入音色为同种音色,则输出数据为:
Figure 794543DEST_PATH_IMAGE053
如果输入音色为不同音色,则输出数据为:
Figure 134388DEST_PATH_IMAGE054
CN202011304700.1A 2020-11-19 2020-11-19 一种可编辑的普遍音色合成分析***及方法 Pending CN112289289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011304700.1A CN112289289A (zh) 2020-11-19 2020-11-19 一种可编辑的普遍音色合成分析***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011304700.1A CN112289289A (zh) 2020-11-19 2020-11-19 一种可编辑的普遍音色合成分析***及方法

Publications (1)

Publication Number Publication Date
CN112289289A true CN112289289A (zh) 2021-01-29

Family

ID=74399215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011304700.1A Pending CN112289289A (zh) 2020-11-19 2020-11-19 一种可编辑的普遍音色合成分析***及方法

Country Status (1)

Country Link
CN (1) CN112289289A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257223A (zh) * 2021-05-25 2021-08-13 北京百度网讯科技有限公司 语音播放***、语音播放音色配置方法及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257223A (zh) * 2021-05-25 2021-08-13 北京百度网讯科技有限公司 语音播放***、语音播放音色配置方法及相关装置

Similar Documents

Publication Publication Date Title
Fineberg Guide to the basic concepts and techniques of spectral music
EP0858650B1 (en) Control structure for sound synthesis
EA002990B1 (ru) Способ модификации гармонического содержания сигнала сложной формы
CN107195289B (zh) 一种可编辑的多级音色合成***及方法
Schneider Sound, pitch, and scale: From" tone measurements" to sonological analysis in ethnomusicology
WO2020162392A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
Holm Virtual violin in the digital domain: physical modeling and model-based sound synthesis of violin and its interactive application in virtual environment
Gibiat et al. Period doubling occurences in wind instruments musical performance
Schneider Perception of timbre and sound color
Jensen The timbre model
WO2020158891A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
RU2411593C2 (ru) Устройство для преобразования частотного спектра в частоты природной гармоники
CN112289289A (zh) 一种可编辑的普遍音色合成分析***及方法
Fritz et al. Perceptual studies of violin body damping and vibrato
US8378200B1 (en) Source-dependent acoustic, musical and/or other instrument processing and feedback system
Dubnov Polyspectral analysis of musical timbre
Bertsch Variabilities in trumpet sounds
Beauchamp Perceptually correlated parameters of musical instrument tones
CN203165441U (zh) 交响乐器
Moorer How does a computer make music?
Trail et al. Direct and surrogate sensing for the Gyil african xylophone.
CN103943098A (zh) 多米索交响乐器
Linz Atom music: an investigation into the atomic world through sound synthesis
SHI Extending the Sound of the Guzheng
Olney Computational Thinking through Modular Sound Synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210129