CN111739492B - 一种基于音高轮廓曲线的音乐旋律生成方法 - Google Patents
一种基于音高轮廓曲线的音乐旋律生成方法 Download PDFInfo
- Publication number
- CN111739492B CN111739492B CN202010559217.1A CN202010559217A CN111739492B CN 111739492 B CN111739492 B CN 111739492B CN 202010559217 A CN202010559217 A CN 202010559217A CN 111739492 B CN111739492 B CN 111739492B
- Authority
- CN
- China
- Prior art keywords
- long
- melody
- length
- term structure
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000007774 longterm Effects 0.000 claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000011295 pitch Substances 0.000 claims description 39
- 230000015654 memory Effects 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 12
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/111—Automatic composing, i.e. using predefined musical rules
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明涉及音乐生成技术领域,具体为一种基于音高轮廓曲线的音乐旋律生成方法,包括如下步骤:步骤一、在频域提取音高轮廓曲线的长期结构信息,这些长期结构信息包含了音高轮廓曲线的频域序列中的低频部分,反映了旋律的长期走向规律;步骤二、利用具有标签控制的神经网络进行长期结构信息的拟合,生成标签对应的长期结构信息;步骤三、利用音乐数据的长期结构信息与旋律长度信息训练另一神经网络,使其具有依据长期结构信息推测旋律长度信息的能力。本发明利用音高轮廓曲线的频域特性生成长期结构可控的音乐旋律,能够实现比长短时网络生成的音乐更接近与真实的音乐分布。
Description
技术领域
本发明涉及音乐生成技术领域,具体为一种基于音高轮廓曲线的音乐旋律生成方法。
背景技术
音乐生成一直是人们在计算机艺术领域不断探索的方向。在计算机发展早期,人们便开始使用传统算法实现音乐生成。近年来,利用深度神经网络进行音乐生成的尝试越来越多,例如长短时记忆网络、对抗生成网络、卷积神经网络以及改进的变分自编码器等等。利用这些网络生成的短时音乐的性能相当优秀,然而对于长时音乐生成研究稍显不足。如何使得生成的长时音乐的旋律拥有合理的乐句排布,且不同章节间存在满意的顺序与稳定的过渡,目前仍然没有很好的解决方法。鉴于此,我们提出一种基于音高轮廓曲线的音乐旋律生成方法。
发明内容
为了弥补以上不足,本发明提供了一种基于音高轮廓曲线的音乐旋律生成方法。
本发明的技术方案是:
一种基于音高轮廓曲线的音乐旋律生成方法,包括如下步骤:
步骤一、在频域提取音高轮廓曲线的长期结构信息,这些长期结构信息包含了音高轮廓曲线的频域序列中的低频部分,反映了旋律的长期走向规律;
步骤二、利用具有标签控制的神经网络进行长期结构信息的拟合,生成标签对应的长期结构信息;
步骤三、利用音乐数据的长期结构信息与旋律长度信息训练另一神经网络,使其具有依据长期结构信息推测旋律长度信息的能力;
步骤四、利用训练的神经网络确定生成的目标旋律长度,在频域内对长期结构进行扩展以获得粗糙的旋律曲线;
步骤五、利用从音乐数据集中采集的词汇表,对得到的粗糙旋律曲线进行逐步的词汇匹配替换,最终得到细节优化的音乐。
作为本发明优选的技术方案,步骤二中长期结构拟合网络的具体步骤如下:
首先,确定一个合适的长度实现长期结构的压缩,经过合理的选择,最终将压缩后的长期结构统一为300位的长度;
然后,将所有旋律的音高的平均值调整为C3,即60,删除频域序列的直流分量后,频域序列只有旋律长期特征的信息,实现了与旋律调性的分离;
之后,将频域序列数据进行实轴与虚轴的分离,并重组成长度为600的序列;
最后,利用标签信息描述旋律的长期结构的高低变化,并与相应的长期结构一起送入拟合网络。
作为本发明优选的技术方案,步骤二中长期结构拟合网络的过程中使用嵌入层网络实现生成长期结构的走向控制。
作为本发明优选的技术方案,步骤四中旋律长度确定网络的具体步骤如下:
首先,使用长短时记忆网络生成乐曲旋律频域序列;
然后,设计一个协助记忆低频的模块作为长短时记忆网络停止的标志,并可作为其它频段的参考标志,在此基础上,可将协助记忆低频模块单独分离成为一个独立的网络模块,并利用这个网络从频域序列的低频部分推测出乐曲旋律可能的长度;
之后,对训练网络的乐曲旋律长度确定一个范围,并使用这个长度范围规范神经网络输出的范围;
最后,利用tanh激活函数将这个长度范围均匀变换至(-1,1)的输出范围。
作为本发明优选的技术方案,长短时记忆网络训练使用的数据格式为时间步长十六分之一音符长度,C3映射60音高编码音高轮廓曲线,长短时记忆网络使用RMSProp作为优化器,生成的乐曲旋律长度为500。
作为本发明优选的技术方案,步骤五中词汇匹配的具体步骤如下:
首先,统计乐曲库中所有乐曲旋律的调性,并将旋律统一调整为C大调;
然后,将这些乐曲旋律按照词汇长度,剪切出语料库;
最后,使用语料库与利用神经网络生成的粗糙旋律进行逐段匹配,匹配的标准是均方误差的最小化。
作为本发明优选的技术方案,包括如下参数设定:
标签长度设置为10;
噪音输入长度为100;
输出的频域信息长度为600;
频域强度缩放因子设置为0.2;
长期结构拟合网络使用Adam优化器进行参数优化,Adam优化器的学习速率设置为1×e-4。
作为本发明优选的技术方案,还包括如下参数设定:
长度确定网络使用参数设置为1×e-4的Adam优化器进行参数优化;
词汇匹配的长度设置为8,采用分类标签快速检索;
乐曲旋律长度范围规定在300位到3000位之间,对应的旋律时长范围是40秒到7分钟。
与现有技术相比,本发明的有益效果是:
本发明利用音高轮廓曲线的频域特性生成长期结构可控的音乐旋律,能够实现比长短时网络生成的音乐更接近与真实的音乐分布。
附图说明
图1为本发明操作流程的基本框架图;
图2为本发明中长期结构拟合网络的结构示意图;
图3为本发明中长度确定网络的结构示意图;
图4为本发明中词汇匹配的步骤示意图;
图5为本发明中对比实验使用的长短时记忆网络结构图;
图6为本发明中节奏转移矩阵的计算方法示意图;
图7为本发明生成的音乐旋律长期结构与对应的标签。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
一种基于音高轮廓曲线的音乐旋律生成方法,包括如下步骤:
步骤一、在频域提取音高轮廓曲线的长期结构信息,这些长期结构信息包含了音高轮廓曲线的频域序列中的低频部分,反映了旋律的长期走向规律;
步骤二、利用具有标签控制的神经网络进行长期结构信息的拟合,生成标签对应的长期结构信息;
步骤三、利用音乐数据的长期结构信息与旋律长度信息训练另一神经网络,使其具有依据长期结构信息推测旋律长度信息的能力;
步骤四、利用训练的神经网络确定生成的目标旋律长度,在频域内对长期结构进行扩展以获得粗糙的旋律曲线;
步骤五、利用从音乐数据集中采集的词汇表,对得到的粗糙旋律曲线进行逐步的词汇匹配替换,最终得到细节优化的音乐。
在具体操作过程中,如图1所示,首先得到关于音乐数据的数据集,处理数据集中的音乐,得到压缩后的长期结构、长期结构标签与音乐长度集,使用长期结构与长期结构标签训练长期结构拟合网络;处理数据集中的音乐,得到压缩后的长期结构、长期结构标签与音乐长度集后使用长期结构与音乐长度集训练定长网络;从数据集中获得旋律基本词汇。
在具体的操作过程中,如图2所示,步骤二中长期结构拟合网络的具体步骤如下:
首先,确定一个合适的长度实现长期结构的压缩,经过合理的选择,最终将压缩后的长期结构统一为300位的长度;
然后,将所有旋律的音高的平均值调整为C3,即60,删除频域序列的直流分量后,频域序列只有旋律长期特征的信息,实现了与旋律调性的分离;
之后,将频域序列数据进行实轴与虚轴的分离,并重组成长度为600的序列;
最后,利用标签信息描述旋律的长期结构的高低变化,并与相应的长期结构一起送入拟合网络。
值得说明的是,上述最后一个步骤中将旋律均匀地分为十个区域,并将每个区域音高的均值与全曲音高的均值进行比对,将高于音高均值的区域标记为1,低于音高均值的区域标记为0,最终得到10位长度标签。
需要说明的是,如图2所示,步骤二中利用全连接层进行长期结构的拟合,在此之前,需要输入长度序列为600的噪音,同时使用嵌入层网络实现生成长期结构的走向控制。嵌入层网络是一种特殊的神经网络层结构,这种神经网络层会根据反向传播的权重更新信息,自动更新适应本身的神经元连接权重。可以在一定程度上对输入的标签信息在高维空间中进行编码与映射,使得网络的其他部分能够更好地理解并执行标签中包含的信息。
在具体的操作过程中,如图3所示,步骤四中旋律长度确定网络的具体步骤如下:
首先,使用长短时记忆网络生成乐曲旋律频域序列;
然后,设计一个协助记忆低频的模块作为长短时记忆网络停止的标志,并可作为其它频段的参考标志,在此基础上,可将协助记忆低频模块单独分离成为一个独立的网络模块,并利用这个网络从频域序列的低频部分推测出乐曲旋律可能的长度;
之后,对训练网络的乐曲旋律长度确定一个范围,并使用这个长度范围规范神经网络输出的范围;
最后,利用tanh激活函数将这个长度范围均匀变换至(-1,1)的输出范围。
需要说明的是,长短时记忆网络训练使用的数据格式为时间步长十六分之一音符长度,C3映射60音高编码音高轮廓曲线,长短时记忆网络使用RMSProp作为优化器,生成的乐曲旋律长度为500。
在具体的操作过程中,如图4所示,步骤五中词汇匹配的具体步骤如下:
首先,统计乐曲库中所有乐曲旋律的调性,并将旋律统一调整为C大调;
然后,将这些乐曲旋律按照词汇长度,剪切出语料库;
最后,使用语料库与利用神经网络生成的粗糙旋律进行逐段匹配,匹配的标准是均方误差的最小化。
值得说明的是,本发明的上述操作步骤中包括如下参数设定:
标签长度设置为10;
噪音输入长度为100;
输出的频域信息长度为600;
频域强度缩放因子设置为0.2;
长期结构拟合网络使用Adam优化器进行参数优化,Adam优化器的学习速率设置为1×e-4。
值得说明的是,本发明的上述操作步骤中还包括如下参数设定:
长度确定网络使用参数设置为1×e-4的Adam优化器进行参数优化;
词汇匹配的长度设置为8,采用分类标签快速检索;
另外,如图7所给出乐曲库中旋律长度分布的规律图,从图中可以看到,乐曲旋律长度有着明显的分布规律,本发明将乐曲旋律长度范围规定在300位到3000位之间,对应的旋律时长范围是40秒到7分钟。
利用本文所提的网络共生成120首旋律,用于通过下文所描述的对比实验进行性能评估。考虑到网络之间的优化程度,这里选择如图5所示的三层结构的长短时记忆网络生成的音乐进行对比实验。考虑到长短时记忆网络的训练时间问题,这里将原始乐曲库进行缩减后用于长短时记忆网络参数的训练。同样地,利用训练过的长短时记忆网络生成120首旋律进行性能的对比。统计旋律内部变化的关系有很多种方法,但是本质上都是描述旋律变化的规律。本文参考了马尔科夫链的思想,设计了如图6所示的节奏与音高转移规律的统计方法。考虑到实际的乐曲旋律的分布状态,将节奏变化的转移矩阵大小设置为16,对应着十六分之一音符到全音符的长度。仿照上述概念,也可以给出音高变化的转移矩阵的计算方法,并将音高变化转移矩阵的大小设置为12,对应着一个半音的音高变化至一个八度的音高变化。
利用上面所述的性能统计方法,下面的表格给出了本发明方法、长短时记忆网络方法,在节奏转移矩阵、音高变化转移矩阵方面与真值之间的均方误差。
通过对比结果,我们可以看到;本发明提出的方法生成的音乐比长短时网络生成的音乐更接近与真实的音乐分布。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (8)
1.一种基于音高轮廓曲线的音乐旋律生成方法,其特征在于:包括如下步骤:
步骤一、在频域提取音高轮廓曲线的长期结构信息,这些长期结构信息包含了音高轮廓曲线的频域序列中的低频部分,反映了旋律的长期走向规律;
步骤二、利用具有标签控制的神经网络进行长期结构信息的拟合,生成标签对应的长期结构信息;
步骤三、利用音乐数据的长期结构信息与旋律长度信息训练另一神经网络,使其具有依据长期结构信息推测旋律长度信息的能力;
步骤四、利用训练的神经网络确定生成的目标旋律长度,在频域内对长期结构进行扩展以获得粗糙的旋律曲线;
步骤五、利用从音乐数据集中采集的词汇表,对得到的粗糙旋律曲线进行逐步的词汇匹配替换,最终得到细节优化的音乐。
2.如权利要求1所述的基于音高轮廓曲线的音乐旋律生成方法,其特征在于:步骤二中长期结构拟合网络的具体步骤如下:
首先,确定一个合适的长度实现长期结构的压缩,经过合理的选择,最终将压缩后的长期结构统一为300位的长度;
然后,将所有旋律的音高的平均值调整为C3,即60,删除频域序列的直流分量后,频域序列只有旋律长期特征的信息,实现了与旋律调性的分离;
之后,将频域序列数据进行实轴与虚轴的分离,并重组成长度为600的序列;
最后,利用标签信息描述旋律的长期结构的高低变化,并与相应的长期结构一起送入拟合网络。
3.如权利要求1所述的基于音高轮廓曲线的音乐旋律生成方法,其特征在于:步骤二中长期结构拟合网络的过程中使用嵌入层网络实现生成长期结构的走向控制。
4.如权利要求1所述的基于音高轮廓曲线的音乐旋律生成方法,其特征在于:步骤四中旋律长度确定网络的具体步骤如下:
首先,使用长短时记忆网络生成乐曲旋律频域序列;
然后,设计一个协助记忆低频的模块作为长短时记忆网络停止的标志,并可作为其它频段的参考标志,在此基础上,可将协助记忆低频模块单独分离成为一个独立的网络模块,并利用这个网络从频域序列的低频部分推测出乐曲旋律可能的长度;
之后,对训练网络的乐曲旋律长度确定一个范围,并使用这个长度范围规范神经网络输出的范围;
最后,利用tanh激活函数将这个长度范围均匀变换至(-1,1)的输出范围。
5.如权利要求4所述的基于音高轮廓曲线的音乐旋律生成方法,其特征在于:长短时记忆网络训练使用的数据格式为时间步长十六分之一音符长度,C3映射60音高编码音高轮廓曲线,长短时记忆网络使用RMSProp作为优化器,生成的乐曲旋律长度为500。
6.如权利要求1所述的基于音高轮廓曲线的音乐旋律生成方法,其特征在于:步骤五中词汇匹配的具体步骤如下:
首先,统计乐曲库中所有乐曲旋律的调性,并将旋律统一调整为C大调;
然后,将这些乐曲旋律按照词汇长度,剪切出语料库;
最后,使用语料库与利用神经网络生成的粗糙旋律进行逐段匹配,匹配的标准是均方误差的最小化。
7.如权利要求1所述的基于音高轮廓曲线的音乐旋律生成方法,其特征在于:包括如下参数设定:
标签长度设置为10;
噪音输入长度为100;
输出的频域信息长度为600;
频域强度缩放因子设置为0.2;
长期结构拟合网络使用Adam优化器进行参数优化,Adam优化器的学习速率设置为1×e-4。
8.如权利要求1所述的基于音高轮廓曲线的音乐旋律生成方法,其特征在于:还包括如下参数设定:
长度确定网络使用参数设置为1×e-4的Adam优化器进行参数优化;
词汇匹配的长度设置为8,采用分类标签快速检索;
乐曲旋律长度范围规定在300位到3000位之间,对应的旋律时长范围是40秒到7分钟。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010559217.1A CN111739492B (zh) | 2020-06-18 | 2020-06-18 | 一种基于音高轮廓曲线的音乐旋律生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010559217.1A CN111739492B (zh) | 2020-06-18 | 2020-06-18 | 一种基于音高轮廓曲线的音乐旋律生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739492A CN111739492A (zh) | 2020-10-02 |
CN111739492B true CN111739492B (zh) | 2023-07-11 |
Family
ID=72649711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010559217.1A Active CN111739492B (zh) | 2020-06-18 | 2020-06-18 | 一种基于音高轮廓曲线的音乐旋律生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739492B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489606B (zh) * | 2020-11-26 | 2022-09-27 | 北京有竹居网络技术有限公司 | 旋律生成方法、装置、可读介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002287757A (ja) * | 2001-03-23 | 2002-10-04 | Yamaha Corp | 音データ転送方法、音データ転送装置およびプログラム |
CN1737798A (zh) * | 2005-09-08 | 2006-02-22 | 上海交通大学 | 基于特征音符的音乐旋律分段自动标注方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
KR20170128073A (ko) * | 2017-02-23 | 2017-11-22 | 반병현 | 심층 강화 학습을 이용한 음악 작곡 방법 |
WO2018065029A1 (en) * | 2016-10-03 | 2018-04-12 | Telefonaktiebolaget Lm Ericsson (Publ) | User authentication by subvocalization of melody singing |
WO2018155800A1 (en) * | 2017-02-24 | 2018-08-30 | Samsung Electronics Co., Ltd. | Mobile device and method for executing music-related application |
CN110263728A (zh) * | 2019-06-24 | 2019-09-20 | 南京邮电大学 | 基于改进的伪三维残差神经网络的异常行为检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5293460B2 (ja) * | 2009-07-02 | 2013-09-18 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
-
2020
- 2020-06-18 CN CN202010559217.1A patent/CN111739492B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002287757A (ja) * | 2001-03-23 | 2002-10-04 | Yamaha Corp | 音データ転送方法、音データ転送装置およびプログラム |
CN1737798A (zh) * | 2005-09-08 | 2006-02-22 | 上海交通大学 | 基于特征音符的音乐旋律分段自动标注方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
WO2018065029A1 (en) * | 2016-10-03 | 2018-04-12 | Telefonaktiebolaget Lm Ericsson (Publ) | User authentication by subvocalization of melody singing |
KR20170128073A (ko) * | 2017-02-23 | 2017-11-22 | 반병현 | 심층 강화 학습을 이용한 음악 작곡 방법 |
WO2018155800A1 (en) * | 2017-02-24 | 2018-08-30 | Samsung Electronics Co., Ltd. | Mobile device and method for executing music-related application |
CN110263728A (zh) * | 2019-06-24 | 2019-09-20 | 南京邮电大学 | 基于改进的伪三维残差神经网络的异常行为检测方法 |
Non-Patent Citations (3)
Title |
---|
Melody Extraction From Polyphonic Music Signals Using Pitch Contour Characteristics;Justin Salamon 等;IEEE Transactions on Audio, Speech, and Language Processing;第1759-1760页 * |
基于哼唱的音乐检索***的研究与实现;李扬;中国优秀硕士学位论文全文数据库;第19-40页 * |
基于外轮廓模糊处理的多尺度目标检测;程艳云;南京邮电大学学报;第38卷(第2期);第78-80页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111739492A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364894B (zh) | 一种基于元学习的对抗网络的零样本图像分类方法 | |
CN104854654B (zh) | 用于使用搜索查询信息的言语识别处理的方法和*** | |
CN104347067A (zh) | 一种音频信号分类方法和装置 | |
CN110287325A (zh) | 一种基于智能语音分析的电网客服业务推荐方法及装置 | |
CN110310666B (zh) | 一种基于se卷积网络的乐器识别方法及*** | |
CN109857457B (zh) | 一种在双曲空间中学习源代码中的函数层次嵌入表示方法 | |
CN109727590A (zh) | 基于循环神经网络的音乐生成方法及装置 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
JP2009508156A (ja) | 音楽分析 | |
CN102822889B (zh) | 用于tts级联成本的预先保存的数据压缩 | |
CN109801645B (zh) | 一种乐音识别方法 | |
Jacob | Modelling speech emotion recognition using logistic regression and decision trees | |
TW201417092A (zh) | 引導式語者調適語音合成的系統與方法及電腦程式產品 | |
CN111414513B (zh) | 音乐流派的分类方法、装置及存储介质 | |
CN102496363A (zh) | 一种用于汉语语音合成的音调修正方法 | |
CN111382260A (zh) | 一种检索文本纠错方法、装置和存储介质 | |
CN113948066B (zh) | 一种实时转译文本的纠错方法、***、存储介质和装置 | |
CN111739492B (zh) | 一种基于音高轮廓曲线的音乐旋律生成方法 | |
CN114676687A (zh) | 基于增强语义句法信息的方面级情感分类方法 | |
CN112037764A (zh) | 一种音乐结构的确定方法、装置、设备及介质 | |
Cho | Improved techniques for automatic chord recognition from music audio signals | |
Marxer et al. | Unsupervised incremental online learning and prediction of musical audio signals | |
CN111178051A (zh) | 建筑信息模型自适应的中文分词方法及装置 | |
CN110675879B (zh) | 基于大数据的音频评估方法、***、设备及存储介质 | |
CN110032642B (zh) | 基于词嵌入的流形主题模型的建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |