CN112289289A

CN112289289A - 一种可编辑的普遍音色合成分析***及方法

Info

Publication number: CN112289289A
Application number: CN202011304700.1A
Authority: CN
Inventors: 赵利胜; 赵子瑜
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-01-29

Abstract

本发明提供一种可编辑的普遍音色合成分析***及方法，所述的合成分析方法用于编辑合成所有普遍或任意的声音，既可以模拟所有传统乐器的标准音高的音符对应的音色，做到实时模拟，不需要预先存储声音样本，又可以合成自然界或想象中任意已知和未知的声音，此外还能够将上述多种多级的音色进行混合编辑以产生新的音源。首先分析样本中的谐波组成部分，保持输入声音源音色的乐感，再通过分析不和谐波的组成部分，实现对于杂音的模拟合成，能够实现是对于普遍音色的合成，实现音色的再现。所述的合成分析***共有四个组成部分：音频数据采集单元、数据处理及分析单元、电子信号合成单元、用户交互输入单元。

Description

一种可编辑的普遍音色合成分析***及方法

技术领域

本发明涉及音频处理技术领域，尤其涉及一种可编辑的普遍音色合成分析***及方法。

背景技术

从物理学上声音可以解释为物体振动产生的声波，是通过介质（空气或固体、液体）传播并能够被人或动物听觉器官所感知的波动现象，而音色泛指声音除了频率、响度以外的所有特征的集合。作为波的一种，音色可以被分解为不同频率不同强度正弦波的叠加，因此，波形是“音色”这个抽象物质的直观表现，不同的音色都可以通过波形进行识别。

古今中外，人们根据自己的研究和喜爱，创造了多种多样的声学乐器来展现声音和旋律的优美，声学乐器演奏的每一音从数学的角度简单地说都是由许多不同频率、响度、相位的正弦波组成的, 因而形成了不同种类的音色效果，但声学乐器依赖于物体的物理振动，受到乐器自身物理属性以及人为因素的限制，对音色效果的展现存在一定的局限性。随着音乐艺术和科学技术相结合，电子音乐应运而生，在经历了具体音乐、磁带音乐和计算机音乐之后，电子音乐跨越了模拟技术到数字技术的演进，经过了半个多世纪的发展后，已经由最初实验性质的专业探索领域逐步扩大到广泛的社会应用领域。电子琴的出现是音乐电声发展的里程碑，然而，电子琴使用固化的音色采样，这意味着多数电子琴之所以可以产生不同音色的声音，主要是在出厂时，其内部已经预储存了多种乐器的声音，弹奏时只需要将其播放出来。如今几乎任何一种乐器，都有能用来替代它的基于采样的合成器产品，但这些产品存在的前提都是采样。这固然直接简便，但是预存储数据类型的产品受到很多因素制约。首先其需要大量储存空间来储存声音样本，其次只能产生预存储的音色，导致其音色库单一不变，缺乏音色多样性。

除预存储数据这一痛点外，现有对于音色的合成技术主要集中在单纯谐波分析上，合成的都只是传统乐器的音色，即模仿声学乐器相对简单的谐波分布。此外，对于谐波的模拟合成还有另外一种多级音色的合成方法，如专利CN107195289 B（授权公告号），采取在频域上的谐波（倍频）分析，提取合成不同音色，提出了模拟乐器同一音高的音符在不同弹奏条件下产生的不同音色效果，进而模拟乐器的真实音色，仅仅能够解决由于不同乐器类型、乐器生产厂家、乐器型号、乐器个体、弹奏者/物、弹奏手法的差异而形成的同一音高的音色分级的合成和编辑问题。这种单纯频域上的倍频分析只能获取音频样本的部分特征。虽然倍频是波动方程唯一的解，但现实中的琴弦/空气柱振动不同于理想模型，在振动发生的初始阶段会有不和谐波产生，而这些不和谐波使得音色嘈杂（例如小号、萨克斯的声音）。对于音色清澈的声音（例如钢琴，或敲玻璃杯的声音），单纯倍频分析可以达到较好的模拟效果，但是对于音色较嘈杂的声音，单纯倍频的模拟就达不到较好的效果，导致合成出的音色失真。

众所周知，声音广泛地存在于自然界中，人或其他生物通过声带振动发出的声音、风雨雷电等自然现象产生的声音、各种材质的物体由于主动和被动振动产生的声音等等，形成了大自然普遍、任意和随性的全音域普遍音色。而传统乐器展现的音色仅仅是谐波，或许实现对于谐波的单纯模拟抑或分级模拟，可以解决这样一个问题，即人们不用花费几十万甚至上百万元的钱去买一个心仪的顶级乐器就能获得它的音色，就可以随时随地演奏中意的音色而不用考虑外界条件的限制。然而随着电子乐器的发展，对音源品质和音色多样化、新奇化的要求越来越高，人们并不仅仅满足能够达到和声学乐器一样的效果，对于自然界***的声音，或是臆想出来的声音、自然界并不存在的声音等全音域普遍音色等，提出了更多现实的模拟和创作需求。

目前为止，现有技术中未见既能对所有普遍或任意的声音进行全音域音色模拟重现（不限于传统乐器的所有音高的音符对应的音色，且可以实时模拟，不需要预存储声音样本），又能够将上述多种多级的全音域普遍音色进行混合编辑以产生新的音源的***和方法。

发明内容

针对现有技术的不足，本发明所要解决的技术问题是提供一种可编辑的普遍音色合成分析***和方法。具体地，本发明提供一种既能对所有普遍或任意的声音进行全音域音色模拟重现（不限于传统乐器的所有音高的音符对应的音色，且可以实时模拟，不需要预先存储声音样本），又能够将上述多种多级的普遍音色进行混合编辑以产生新的音源的分析***和方法。

本发明提出的可编辑的普遍音色合成分析***和方法通过谐波分析保持输入声音源音色的乐感，同时通过不和谐波的分析实现对于杂音的模拟合成，能够实现是对于普遍音色的合成，实现音色的再现，***合成的音色与源音色或设定的音色的频域特征信息完全一致，时域波形完全重合，能够真实重现想要模拟的音色的全部特征。

本发明提出的可编辑的普遍音色合成分析***和方法除了对钢琴、弦乐等声音清澈的传统物理乐器发出的声音有较好的模拟效果之外，对于吹管乐器、铜管乐器等音色较杂的声音的音色合成也能达到较好的模拟效果，因此无论对于清澈还是嘈杂，或是其他各类的声音都能达到较好的模拟效果，可以适用于通常难以模拟的小号/萨克斯/笛子等吹管/铜管乐器。

本发明提出的可编辑的普遍音色合成分析***和方法能够模拟任意声音，自然界或想象中任意已知和未知的声音，都可以进行真实的模拟和合成，而不仅仅局限于传统物理乐器发出的声音，打破了计算机环境下声学乐器的音色编辑中，必须根据真实乐器固有的音响、音域为参照标准的约束。除了乐器之外，还可以适用于其他声音音色的模拟（例如人声，动物声，环境音等），除了模拟各种现实中的声音，还可以制作自然界没有的电子音色，极大地丰富了音乐的色彩和创作的灵感。

本发明提出的可编辑的普遍音色合成分析***和方法通过电子信号合成实现对于音色的模拟，可以进行实时模拟，不需要预先储存相关音色的声音样本进行播放。

本发明提出的可编辑的普遍音色合成分析***和方法不仅能够模拟单一声音的音色，也能够将多种不同类型的源音色进行混合编辑以产生新的音源，可以编辑合成未曾出现过的音色的声音，例如两种或几种音色的混合。音色的平衡可以摆脱现实环境中实际响度的约束，人为地加以控制，任何乐器音色之间的平衡都是允许的，以求得不同音色的良好的结合，实现不同音色的互换。

本发明提出的可编辑的普遍音色合成分析***和方法可以提供多样化的声音输入以及多样的音色输出。训练使用的音频样本不需要为同种乐器产生的声音，不需要训练样本有相同的频率，训练参数可以使用预设参数，也可以根据情况由使用者自行调节，如没有输入声音，也可以自行设定输入参数，合成任意音色，有足够的自由度。

本发明提出的可编辑的普遍音色合成分析***和方法也不需要过多样本，有较快的训练速度。

本发明所述的源音色是指输入的训练样本的音色。如有多个训练样本，则源音色指多个样本的音色特征组合。

本发明所述的基音是指每个训练样本的基准频率，在下文中以

表示。声音样本由多个频率不同的波组成，通常来说，样本的基准频率是指组成部分中，振幅最大的波的频率。

本发明所述的倍频是指基准频率的整数倍频率，在下文中以

表示,

表示振幅从大到小的序号（例：

表示振幅最大的倍频，

表示振幅第二大的倍频，依此类推）。

本发明所述的非倍频是指基准频率的非整数倍频率，在下文中以

表示，

表示振幅从大到小的序号（例：

表示振幅最大的非倍频，

表示振幅第二大的非倍频，依此类推）。

本发明所述的谐波是指倍频的所对应的波。

本发明所述的不和谐波是指非倍频的所对应的波。

本发明所采集的音频数据，是样本声波在不同时间点，垂直方向上的位移。样本数据量由采样频率，样本持续时间组成。本发明输出拟合的音频和采集的音频数据相同，都是样本声波在不同时间点，垂直方向上的位移。

本发明所述的自回归模型，指的是使用声波数据的自我回归，其数学表达式为：

其中

表示第

个音频数据，

表示自回归模型的阶数，

为模型参数，需要使用样本数据拟合,

为模型残差。本发明中假设

互相独立，并服从相同的均值为零的正态分布。

本发明所述的尤尔一沃克方程，指的是对于以上自回归模型中求解模型参数

的方法。方程表达式为：

其中，

,

为数据点中延迟为

的两个数据点的乘积的均值。

本发明所述的交叉验证，适用于多个模型的选择。具体在本发明中应用于选择自回归模型阶数

，将由一份数据集（训练集）中得到的模型（包括具体参数）应用于另一份数据集（验证集），得到验证集中的残差

。自回归模型阶数

则为最小

所对应模型的阶数。

本发明所述的能量谱密度(Power Spectrum Density, PSD)，表示了波的组成部分中，能量在不同频率的波中的分布情况，可以通过自回归模型得到。具体表达式为：

其中

为频率为

的波的能量，

为残差的方差，

为求得的模型参数。

本发明所述的调和回归模型，指的是使用声波数据和时间数据的三角函数回归，其数学表达式为：

其中

表示第

个音频数据，

表示第

个时间点，

表示第

个频率,

,

为模型参数,需要使用样本数据拟合，

为模型残差。本发明中假设

互相独立，并服从相同的均值为零的正态分布。

本发明采用如下的技术方案：

一种可编辑的普遍音色合成分析***及方法，用于编辑合成所有普遍或任意的声音，既可以模拟所有传统乐器的所有音高的音符对应的音色，做到实时模拟，不需要预先存储声音样本，又可以合成自然界或想象中任意已知和未知的声音，此外还能够将上述多种多级的音色进行混合编辑以产生新的音源。

所述的可编辑的普遍音色合成分析***共有四个组成部分：音频数据采集单元、数据处理及分析单元、电子信号合成单元、用户交互输入单元。其中，所述的音频数据采集单元用于采集声音训练样本；所述的数据处理及分析单元用于分析训练样本特征，匹配模型；所述的电子信号合成单元用于模拟音频电子信号，输出拟合后的音频数据；所述的用户交互输入单元适用于用户人工调整模型参数，用户也可使用自带的标准设定。

本发明所述可编辑的普遍音色合成分析***的组成图如图1所示，其信息流向由图1中箭头所示。所述的电子信号合成单元中数据处理流程图如图2所示。所述的用户交互输入单元在其他三个单元的使用中均有使用，因此单列在外，其具体使用时机贯穿在前三个单元之中。

所述的音频数据采集单元用于采集声音训练样本，由用户输入音频样本采集数量

。数据采集器将收集

个音频信号（

种相同/不同频率的声音，每种频率的声音分为两份样本）。采集信号时，可以允许使用者输入音频信号的基音的频率

。如没有输入或是输入数值与信号不匹配，则在之后的数据分析中自行寻找。

进一步地，采集信号后，取中段部分作为原始输入数据（1/4至1/2段，和1/2至3/4段）进行分析处理。取其中

个1/4至1/2段的音频信号作为一份数据集（数据集1），其他信号作为另一份数据集（数据集2）。

所述的数据处理及分析单元用于分析训练样本特征，匹配模型。在数据集1中，对于

段信号分别做自回归模型分析。模型参数使用尤尔一沃克方程进行计算。通过在数据集1中得到的模型在数据集2上的另一半音频样本中，进行交叉验证，得到具体模型阶数

，最小取值范围为0，最大取值范围为样本中数据点个数。

进一步地，对于

个自回归模型，计算噪音方差，并计算能量谱密度。

进一步地，通过能量谱密度，寻找音频信号的基准频率

（最高的波峰所对应的频率）。如果寻找到的基准频率与用户输入不符合，则报错，并让使用者决定是否重新采集音频数据或是继续分析。

进一步地，寻找能量显著的谐波。基于各个信号的基准频率

，判断其谐波能量是否显著。判断其是否显著的标准是在能量谱密度上，是否在谐波频率上有波峰，允许误差为[-20Hz，20Hz]。如果谐波能量不显著，则不认为是这一音色的谐音组成部分。如果显著，则记录谐音与基准频率

的倍数关系。谐音频率的取值范围为2倍基准频率至32倍基准频率。

进一步地，对于

个模型的

种谐音集合，判断各集合中的前四个基准频率倍数

是否一致。如不一致，则报告输入音频数据可能不是同种音色，并让用户决定是否重新采集音频数据或是继续分析。如继续分析，可让使用者选择是否输入各个样本数据的权重，默认权重为

。

进一步地，将能量显著的谐波滤去，得到嗓音样本。将两份数据集原始数据中的基音及谐音过滤，得到数据集3以及数据集4。滤波方法为：使用各样本中的基音和各样本中前四个显著的倍频作为频率参数，进行调和回归分析，得到的残差（噪音）即为过滤后的数据集。

进一步地，重复前述步骤，得到

份残差的能量谱密度。这里分为两种情况，输入音频数据是同种音色和输入音频数据不是同种音色。

如果输入音频数据是同种音色，对于

份噪音的能量谱密度，取各自的基准频率

作为坐标原点，对于横轴频率取自然对数

。将8种变形过后的能量谱密度进行平均，并寻找能量密度最大的前五个频率，作为不和谐音的组成部分

。记录非倍频

与基准频率

的倍数关系

。

进一步地，如果输入音频数据是同种音色，使用各样本中的基音，谐音

和不和谐音

作为频率参数，对数据集1种任一样本进行调和回归分析，得到对应基音，谐音

和不和谐音

的回归参数（正弦波振幅

，余弦波振幅

,截距

）.

如果输入音频数据是不同种音色，对于

份噪音的能量谱密度，寻找能量密度最大的前五个频率

，作为不和谐音的组成部分。记录N份能量谱密度中各自不和谐音与基准频率的倍数关系

。

进一步地，如果输入音频数据是不同种音色，使用各样本中的基音，谐音

和不和谐音

作为频率参数，对数据集1种各自样本进行调和回归分析，得到对应基音，谐音

和不和谐音

的回归参数（正弦波振幅

，余弦波振幅

,截距

）。

进一步地，对于

组回归参数及频率参数，进行加权平均并组合。权重由使用者决定，没有用户输入时使用默认权重.组合后基音的正弦/余弦波振幅以及截距为各个模型基音的正弦/余弦波振幅乘以权重后相加，其他频率的正弦/余弦波振幅为各个模型振幅参数乘以权重。组合后的结果为：基音

，倍频倍数

，非倍频倍数

,截距

，正弦波振幅

，余弦波振幅

。

所述的电子信号合成单元用于模拟音频电子信号，输出拟合后的音频数据。通过前述的数据处理及分析单元，得到了对于输入的音频信号总体音色特征。音色特征的具体表现为：倍频和非倍频相对于基准频率的倍数，截距，以及基音，谐音和不和谐音的振幅。

进一步地，使用者输入想要输出的音频的频率，持续时间

以及不和谐波的衰减速率

。将输入的频率作为基音

，通过倍频倍数

计算倍频

，通过非倍频倍数

计算非倍频

。

进一步地，通过音色特征中各个正弦/余弦波组成部分的叠加，模拟电子波形信号，输出音频信号。输出频率为48kHz。如果输入音色为同种音色，则输出数据为：

如果输入音色为不同音色，则输出数据为：

本发明所述可编辑的普遍音色合成分析***通过先分析样本中的谐波组成部分，保持输入声音源音色的乐感，再通过分析不和谐波的组成部分，实现对于杂音的模拟合成，能够实现是对于普遍音色的合成，实现音色的再现。

本发明所述可编辑的普遍音色合成分析***的自回归模型分析以及调和回归分析，如使用傅里叶频域分析，也可以得到谐波和不和谐波的频率分布，但傅里叶频域分析中的非倍频的振幅取决于傅里叶变化中的数据点间隔大小，会导致不准确的不和谐波特征提取。

本发明所述可编辑的普遍音色合成分析***的统计模型采取线性模型，若采取非线性模型，理论上可以更好地抓取振动发生的初始阶段的非倍频振幅的指数衰减，但也有可能导致过度拟合，并且还要解决初始阶段中，回归分析的残差异方差的问题，实现较为困难。

本发明的有益效果是：

本发明提出的可编辑的普遍音色合成分析***最根本的目的就是提供更加广泛的音色和提供更加强大的编辑制作和控制功能，利用这些功能，使用者可以获取随心所欲的音色，或将音色修改的更个性化，还可以创造自己独有的音色，因而赋予了电子音色创造的无限性和声音调制的无穷变化性。其主要特征可以归纳为音色演奏的拓展性、音色编辑的自由性、声音的动态变化性和音色听感的机械性。

1、本发明提出的可编辑的普遍音色合成分析***和方法通过谐波分析保持输入声音源音色的乐感，同时通过不和谐波的分析实现对于杂音的模拟合成，能够实现是对于普遍音色的合成，实现音色的再现，***合成的音色与源音色或设定的音色的频域特征信息完全一致，时域波形完全重合，能够真实重现想要模拟的音色的全部特征。

2、本发明提出的可编辑的普遍音色合成分析***和方法除了对钢琴、弦乐等声音清澈的传统物理乐器发出的声音有较好的模拟效果之外，对于吹管乐器、铜管乐器等音色较杂的声音的音色合成也能达到较好的模拟效果，因此无论对于清澈还是嘈杂，或是其他各类的声音都能达到较好的模拟效果，可以适用于通常难以模拟的小号/萨克斯/笛子等吹管/铜管乐器。

3、本发明提出的可编辑的普遍音色合成分析***和方法能够模拟任意声音，自然界或想象中任意已知和未知的声音，都可以进行真实的模拟，而不仅仅局限于传统物理乐器发出的声音，打破了计算机环境下声学乐器的音色编辑中，必须根据真实乐器固有的音响、音域为参照标准的约束。除了乐器之外，还可以适用于其他声音音色的模拟（例如人声，动物声，环境音等），除了模拟各种现实中的声音，还可以制作自然界没有的电子音色，极大地丰富了音乐的色彩和创作的灵感。

4、本发明提出的可编辑的普遍音色合成分析***和方法通过电子信号合成实现对于音色的模拟，可以进行实时模拟，不需要预先储存相关音色的声音样本进行播放。

5、本发明提出的可编辑的普遍音色合成分析***和方法不仅能够模拟单一声音的音色，也能够将多种不同类型的源音色进行混合编辑以产生新的音源，可以编辑合成未曾出现过的音色的声音，例如两种或几种音色的混合。音色的平衡可以摆脱现实环境中实际响度的约束，人为地加以控制，任何乐器音色之间的平衡都是允许的，以求得不同音色的良好的结合，实现不同音色的互换。

6、本发明提出的可编辑的普遍音色合成分析***和方法可以提供多样化的声音输入以及多样的音色输出。训练使用的音频样本不需要为同种乐器产生的声音，不需要训练样本有相同的频率，训练参数可以使用预设参数，也可以根据情况由使用者自行调节，如没有输入声音，也可以自行设定输入参数，合成任意音色，有足够的自由度。

7、本发明提出的可编辑的普遍音色合成分析***和方法也不需要过多样本，有较快的训练速度。

附图说明

图1简述了本发明的整体组成架构和单元部分，其中箭头代表了信息处理方向。

图2简述了本发明中“数据处理及分析单元”的工作流程，其中箭头代表了信息处理方向。

图3至图8为本发明的应用实例。

图3为一段样本音频数据。音频由钢琴a键发声，基准频率为220Hz。图中所示样本为2.5s

3.0s的音频数据，采样频率为48KHz。

图4为拟合自回归模型后得到的能量谱密度。根据交叉分析，模型阶数选择为

。图中横轴所示频率为实际频率除以样本数据点数量。

图5为样本能量谱密度中，基音及前四个显著的倍频对应的能量谱密度波峰。对应频率为220Hz，440Hz，660Hz，880Hz，1100Hz。

图6为样本音频数据中滤去基音及前四个显著的倍频，所得到的残差拟合自回归模型后得到的能量谱密度。

图7为仅包含谐波的拟合结果。

图8为包含谐波以及不和谐波的拟合结果。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合具体的实施例详细说明本发明。但是需要认识到，本发明不局限于所说明的实施例，并且在不脱离基本原理的前提下，本发明的各种修改是可能的。这些等价形式同样落于本申请所附权利要求书所限定的范围。

本实施例所述的可编辑的普遍音色合成分析***共有四个组成部分：音频数据采集单元、数据处理及分析单元、电子信号合成单元、用户交互输入单元。其中用户交互输入单元在前三个单元中均有具体体现，因此实际操作过程中体现为如下三个大的步骤：

步骤一：声音数据采集单元

1.1由用户输入音频样本采集数量

，标准预设值为8。数据采集器将收集

个音频信号（

种相同/不同频率的声音，每种频率的声音分为两份样本）。采样频率为48kHz，音频信号需要至少持续2s。采集信号时，可以允许使用者输入音频信号的基音的频率

1.2采集信号后，取中段部分作为原始输入数据（1/4至1/2段，和1/2至3/4段）进行分析处理。取其中

步骤二：数据处理及分析单元

2.1在数据集1中，对于

，最小取值范围为0，最大取值范围为样本中数据点个数。

2.2对于

个自回归模型，计算噪音方差

，并计算能量谱密度。

2.3通过能量谱密度，寻找音频信号的基准频率

2.4基于各个信号的基准频率

2.5对于

个模型的

种谐音集合，判断各集合中的前四个基准频率倍数

。

2.6将两份数据集原始数据中的基音及谐音过滤，得到数据集3以及数据集4。滤波方法为：使用各样本中的基音和各样本中前四个显著的倍频

作为频率参数，进行调和回归分析（

,

），得到的残差（噪音）

即为过滤后的数据集。

2.7重复步骤2.1及2.2，得到

份残差的能量谱密度。如果输入音频数据是同种音色，进行步骤2.8

2.9。如果输入音频数据不是同种音色，进行步骤2.10

2.12。

2.8对于

份噪音的能量谱密度，取各自的基准频率

作为坐标原点，对于横轴频率取自然对数

。记录非倍频

与基准频率

的倍数关系

。

2.9使用各样本中的基音，谐音

和不和谐音

和不和谐音

的回归参数（正弦波振幅

，余弦波振幅

,截距

）.

2.10对于

份噪音的能量谱密度，寻找能量密度最大的前五个频率

。

2.11使用各样本中的基音，谐音

和不和谐音

和不和谐音

的回归参数（正弦波振幅

，余弦波振幅

,截距

）。

2.12将对于

组回归参数及频率参数，进行加权平均并组合。权重由2.5决定，2.5没有用户输入时使用默认权重.组合后基音的正弦/余弦波振幅以及截距为各个模型基音的正弦/余弦波振幅乘以权重后相加，其他频率的正弦/余弦波振幅为各个模型振幅参数乘以权重。组合后的结果为：基音

，倍频倍数

，非倍频倍数

,截距

，正弦波振幅

，余弦波振幅

。

步骤三：电子信号合成单元

3.1 由数据处理及分析器中，得到了对于输入的音频信号总体音色特征。音色特征的具体表现为：倍频和非倍频相对于基准频率的倍数，截距，以及基音，谐音和不和谐音的振幅。

3.2使用者输入想要输出的音频的频率，持续时间

以及不和谐波的衰减速率

。将输入的频率作为基音

，通过倍频倍数

计算倍频

，通过非倍频倍数

计算非倍频

。

3.3通过音色特征中各个正弦/余弦波组成部分的叠加，模拟电子波形信号，输出音频信号。输出频率为48kHz。如果输入音色为同种音色，则输出数据为：

如果输入音色为不同音色，则输出数据为：

实施例所述的可编辑的普遍音色合成分析***使用范例及结果：

附图中图3至图8中为本发明的一个应用实例，附图对应详细说明可见附图说明。本实例中采用的样本为钢琴音a，钢琴音较清澈，因其杂波不多，其波形图更适合于展示。图5充分表现了运用自回归模型以及计算能量谱密度，可以清晰直观得到显著的谐波能量。

从图4及图6的比对中可以看到，在模拟音色信号中仅仅包含谐波是远远不够的，谐波在整个音频中只占有一部分的能量。本实例中截取的样本片段为2.5s至3.0s，在物体振动发声时不和谐波的衰减速率要远远大于谐波衰减速率，可经过长时间后样本中不和谐波依然保有大量能量，所以想要真实还原音色必须要考虑不和谐波。

从图7所示的仅包含谐波的模拟结果，可以很直观地看出，若没有额外的参数调整，拟合的结果会仅仅包含水平的波封，而包含不和谐波的音色拟合，如图8所示，可以得到随时间变化的波封，在听觉中会产生不一样的效果，更贴近于实际音色。

Claims

1.一种可编辑的普遍音色合成分析***及方法，其特征在于，所述的合成分析方法用于编辑合成所有普遍或任意的声音，既可以模拟所有传统乐器的标准音高的音符对应的音色，做到实时模拟，不需要预先存储声音样本，又可以合成自然界或想象中任意已知和未知的声音，此外还能够将上述多种多级的音色进行混合编辑以产生新的音源，所述的合成分析***共有四个组成部分：音频数据采集单元、数据处理及分析单元、电子信号合成单元、用户交互输入单元，

其中：

所述的音频数据采集单元用于采集声音训练样本；

所述的数据处理及分析单元用于分析训练样本特征，匹配模型；

所述的电子信号合成单元用于模拟音频电子信号，输出拟合后的音频数据；

所述的用户交互输入单元适用于用户人工调整模型参数，用户也可使用自带的标准设定。

2.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，通过谐波分析保持输入声音源音色的乐感，同时通过不和谐波的分析实现对于杂音的模拟合成，能够实现对于普遍音色的合成，实现音色的再现，***合成的音色与源音色或设定的音色的频域特征信息完全一致，时域波形完全重合，能够真实重现想要模拟的音色的全部特征。

3.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，本发明除了对钢琴、弦乐等声音清澈的传统物理乐器发出的声音有较好的模拟效果之外，对于吹管乐器、铜管乐器等音色较杂的声音的音色合成也能达到较好的模拟效果，因此无论对于清澈还是嘈杂，或是其他各类的声音都能达到较好的模拟效果，可以适用于通常难以模拟的小号/萨克斯/笛子等吹管/铜管乐器。

4.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，本发明能够模拟任意声音，自然界或想象中任意已知和未知的声音，都可以进行真实的模拟和合成，而不仅仅局限于传统物理乐器发出的声音，打破了计算机环境下声学乐器的音色编辑中，必须根据真实乐器固有的音响、音域为参照标准的约束，除了乐器之外，还可以适用于其他声音音色的模拟（例如人声，动物声，环境音等），除了模拟各种现实中的声音，还可以制作自然界没有的电子音色，极大地丰富了音乐的色彩和创作的灵感。

5.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，本发明通过电子信号合成实现对于音色的模拟，可以进行实时模拟，不需要预先储存相关音色的声音样本进行播放。

6.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，本发明不仅能够模拟单一声音的音色，还能够将多种不同类型的源音色进行混合编辑以产生新的音源，可以编辑合成未曾出现过的音色的声音，例如两种或几种音色的混合，音色的平衡可以摆脱现实环境中实际响度的约束，人为地加以控制，任何乐器音色之间的平衡都是允许的，以求得不同音色的良好的结合，实现不同音色的互换。

7.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，本发明可以提供多样化的声音输入以及多样的音色输出，训练使用的音频样本不需要为同种乐器产生的声音，不需要训练样本有相同的频率，训练参数可以使用预设参数，也可以根据情况由使用者自行调节，如没有输入声音，也可以自行设定输入参数，合成任意音色，有足够的自由度。

8.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，本发明不需要过多样本，有较快的训练速度。

9.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，本发明在对不同音色的模拟合成过程中，主要通过对声音样本的谐波（倍频）以及不和谐波（非倍频）进行统计分析，应用自回归模型、交叉验证以及调和回归分析，自回归模型参数使用尤尔—沃克方程进行计算。

10.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，训练样本的特征通过样本能量谱密度得到，即通过能量谱密度得到基准频率以及谐波频率分布，模拟结果通过对谐波和不和谐波的线性叠加组成。

11.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，计算不和谐波的频率分布时，通过对于能量谱密度的对数变换及加权平均实现。

12.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，通过调和回归分析得到谐波/不和谐波的振幅。

13.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，通过调整音色拟合中不和谐波的指数衰减，模拟自然琴弦振动中的不和谐波衰减。

14.如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法，其特征在于，所述的自回归模型，指的是使用声波数据的自我回归，其数学表达式为：

其中

表示第

个音频数据，

表示自回归模型的阶数，

为模型参数，需要使用样本数据拟合,

为模型残差，本发明中假设

互相独立，并服从相同的均值为零的正态分布。

15.如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法，其特征在于，所述的尤尔一沃克方程，指的是对于自回归模型中求解模型参数

的方法，方程表达式为：

其中，

,

为数据点中延迟为

的两个数据点的乘积的均值。

16.如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法，其特征在于，所述的交叉验证适用于多个模型的选择，具体在本发明中应用于选择自回归模型阶数

，自回归模型阶数

则为最小

所对应模型的阶数。

17. 如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法，其特征在于，所述的能量谱密度(Power Spectrum Density, PSD)，表示了波的组成部分中，能量在不同频率的波中的分布情况，可以通过自回归模型得到，

具体表达式为：

其中

为频率为

的波的能量，

为残差的方差，

为求得的模型参数。

18.如权利要求9-13任一项所述的可编辑的普遍音色合成分析***及方法，其特征在于，所述的调和回归模型，指的是使用声波数据和时间数据的三角函数回归，其数学表达式为：

其中

表示第

个音频数据，

表示第

个时间点，

表示第

个频率,

,

为模型参数,需要使用样本数据拟合，

为模型残差，本发明中假设

互相独立，并服从相同的均值为零的正态分布。

19.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，所述的合成分析方法用于编辑合成所有普遍或任意的声音，还能够将上述多种多级的音色进行混合编辑以产生新的音源，包括如下步骤：

（1）通过音频数据采集单元采集声音训练样本；

（2）通过数据处理及分析单元分析训练样本特征，匹配模型；

具体可分解为：

·样本自回归模型分析和计算能量谱密度

·寻找基音，寻找能量显著的谐波

·将能量显著的谐波滤去，得到嗓音样本

·嗓音样本自回归模型分析和计算能量谱密度

·寻找能量不显著的不和谐波

·对于所有谐波/不和谐波，调和回归分析

·加权平均调和回归分析结果

（3）通过电子信号合成单元用于模拟音频电子信号，输出拟合后的音频数据；

（4）此外，用户交互输入单元贯穿于上述三个单元之中，适用于用户人工调整模型参数，用户也可使用自带的标准设定参数。

20.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，所述的音频数据采集单元采集信号时，可以允许使用者输入音频信号的基音的频率

，如没有输入或是输入数值与信号不匹配，则在之后的数据分析中自行寻找，音频信号需要至少持续2s。

21.如权利要求20所述的可编辑的普遍音色合成分析***及方法，其特征在于，所述的音频数据采集单元采集信号后，取中段部分作为原始输入数据（1/4至1/2段，和1/2至3/4段）进行分析处理，取其中

个1/4至1/2段的音频信号作为一份数据集1，其他信号作为另一份数据集2。

22.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法，其特征在于，所述的数据处理及分析单元中，在数据集1中，对于

段信号分别做自回归模型分析，模型参数使用尤尔一沃克方程进行计算，通过在数据集1中得到的模型在数据集2上的另一半音频样本中，进行交叉验证，得到具体模型阶数

，最小取值范围为0，最大取值范围为样本中数据点个数。

23. 如权利要求9-13所述的可编辑的普遍音色合成分析***及方法，其特征在于，对于

个自回归模型，计算噪音方差

，并计算能量谱密度，

通过能量谱密度，寻找音频信号的基准频率

（最高的波峰所对应的频率），如果寻找到的基准频率与用户输入不符合，则报错，并让使用者决定是否重新采集音频数据或是继续分析。

24.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法，其特征在于，基于各个信号的基准频率

，判断其谐波能量是否显著时，判断标准是在能量谱密度上，是否在谐波频率上有波峰，允许误差为[-20Hz，20Hz]，如果谐波能量不显著，则不认为是这一音色的谐音组成部分；如果显著，则记录谐音与基准频率

的倍数关系，谐音频率的取值范围为2倍基准频率至32倍基准频率。

25.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法，其特征在于，对于

个模型的

种谐音集合，判断各集合中的前四个基准频率倍数

是否一致，如不一致，则报告输入音频数据可能不是同种音色，并让用户决定是否重新采集音频数据或是继续分析；如继续分析，可让使用者选择是否输入各个样本数据的权重，默认权重为

。

26.如权利要求12所述的可编辑的普遍音色合成分析***及方法，其特征在于，将数据集原始数据中的基音及谐音过滤的方法为：使用各样本中的基音和各样本中前四个显著的倍频

作为频率参数，进行调和回归分析（

,

），得到的残差（噪音）

即为过滤后的数据集。

27.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法，其特征在于，如果输入音频数据是同种音色，进行以下步骤：

（1）对于

份噪音的能量谱密度，取各自的基准频率

作为坐标原点，对于横轴频率取自然对数

，将8种变形过后的能量谱密度进行平均，并寻找能量密度最大的前五个频率，作为不和谐音的组成部分

，记录非倍频

与基准频率

的倍数关系

；

（2）使用各样本中的基音，谐音

和不和谐音

和不和谐音

的回归参数（正弦波振幅

，余弦波振幅

,截距

）。

28.如权利要求9-13所述的可编辑的普遍音色合成分析***及方法，其特征在于，如果输入音频数据是不同种音色，进行以下步骤：

（1）对于

份噪音的能量谱密度，寻找能量密度最大的前五个频率

，作为不和谐音的组成部分，记录N份能量谱密度中各自不和谐音与基准频率的倍数关系

；

（2）使用各样本中的基音，谐音

和不和谐音

和不和谐音

的回归参数（正弦波振幅

，余弦波振幅

,截距

），

（3）将对于

组回归参数及频率参数，进行加权平均并组合；

组合后基音的正弦/余弦波振幅以及截距为各个模型基音的正弦/余弦波振幅乘以权重后相加，其他频率的正弦/余弦波振幅为各个模型振幅参数乘以权重，组合后的结果为：基音

，倍频倍数

，非倍频倍数

,截距

，正弦波振幅

，余弦波振幅

。

29.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，由数据处理及分析单元中，可以得到对于输入的音频信号总体音色特征，音色特征的具体表现为：倍频和非倍频相对于基准频率的倍数，截距，以及基音，谐音和不和谐音的振幅。

30.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，电子信号合成单元中，使用者输入的要素为：拟输出的音频的频率、持续时间

以及不和谐波的衰减速率

，将输入的频率作为基音

，通过倍频倍数

计算倍频

，通过非倍频倍数

计算非倍频

。

31.如权利要求1所述的可编辑的普遍音色合成分析***及方法，其特征在于，电子信号合成单元中，通过音色特征中各个正弦/余弦波组成部分的叠加，模拟电子波形信号，输出音频信号，

如果输入音色为同种音色，则输出数据为：

如果输入音色为不同音色，则输出数据为：

。