CN110377785B - 一种基于深度学习的徐州梆子作曲方法 - Google Patents
一种基于深度学习的徐州梆子作曲方法 Download PDFInfo
- Publication number
- CN110377785B CN110377785B CN201910540526.1A CN201910540526A CN110377785B CN 110377785 B CN110377785 B CN 110377785B CN 201910540526 A CN201910540526 A CN 201910540526A CN 110377785 B CN110377785 B CN 110377785B
- Authority
- CN
- China
- Prior art keywords
- music
- xuzhou
- binding
- banked
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种基于深度学习的徐州梆子作曲方法,首先通过稀疏成分分离提取徐州梆子乐曲中的梆子敲击部分以分离其他乐曲和梆子部分;然后,通过深度学习训练得出乐曲的特征;最后,利用递归神经网络进行训练和预测乐曲,再和生成的梆子相结合得到新的徐州梆子乐曲。采用本发明能够自动生成新的徐州梆子乐曲,对徐州梆子乐曲的保护和传承有重大意义。
Description
技术领域
本发明涉及人工智能领域,涉及到自动作曲方法,特别涉及到一种基于深度学习的徐州梆子作曲方法。
背景技术
人工智能作曲作为一个新兴的研究方向,其主要目的是应用计算机来模仿人们对音乐的认知,进行辅助创作和设计。探索人工智能的徐州梆子作曲问题一方面可以了解徐州梆子在音乐创作过程中的特点;另一方面,通过算法作曲得到的徐州梆子音乐是对现有音乐的有益补充。目前还没有徐州梆子自动算法作曲方面的研究。本发明首先将徐州梆子中的梆子和其他部分相分离,提出基于变分式自动编码和递归神经网络的乐曲生成方法,然后和梆子部分相结合,生成新的徐州梆子音乐。填补了技术上空白,提供一种切实可行徐州梆子乐曲自动生成方法。
发明内容
发明目的:本发明提出了一种可批量且自动生成的基于深度学习的徐州梆子作曲方法。
技术方案:本发明所述的一种基于深度学习的徐州梆子作曲方法,包括以下骤:
(1)通过稀疏成分分离将徐州梆子乐曲分离成含梆子敲击部分的徐州梆子和不含梆子敲击部分的其他乐曲;
(2)对徐州梆子乐曲和其他类型的乐曲进行分类,得出徐州梆子乐曲的特征;
(3)利用步骤(2)得到的特征,通过递归神经网络进行训练和预测其他徐州梆子乐曲;
(4)利用步骤(1)中分离得到的梆子敲击部分乐曲训练字典,根据梆子乐曲重拍,确定稀疏系数,生成梆子敲击部分;
(5)由步骤(3)得到的徐州梆子乐曲和生成的梆子敲击部分相结合得到新的徐州梆子乐曲。
所述步骤(1)包括以下步骤:
(11)构建徐州梆子乐曲训练集,将每个乐曲分割为单位音乐序列,取单位时长3秒;
(12)分别构造梆子和其他乐曲的字典,利用稀疏分解,同时求得这两部分的稀疏系数,实现两部分的分离:
Y=D1θ1+D2θ2
其中,D1D2分别是梆子字典和其他乐曲字典,θ1θ2是这两部分的稀疏系数。
所述步骤(2)包括以下步骤:
(21)应用变分式自动编码算法将徐州梆子和其它乐曲分为两类;
(22)将软阈值法分类前的数据作为徐州梆子和其他乐曲的特征。
所述步骤(4)包括以下步骤:
(41)随机选择一个其他类型乐曲的特征数据,利用LSTM预测输出得到新的特征数据,经过变分式自动编码解码过程生成单位乐曲序列,依次拼接得到新的乐曲;
(42)在重拍中加入生成的梆子,得到新的徐州梆子乐曲。
有益效果:与现有技术相比,本发明的有益效果:1、本发明应用变分式自动编码算法区分徐州梆子与其他乐曲特征;2、利用递归深度学习模型训练和预测其他乐曲,与传统机器学习相比,该模型能够自动提取乐曲特征,避免手动提取特征的麻烦;3、利用卷积神经网络的自主学习能力,通过输入训练数据自动更新网络参数。
附图说明
图1为本发明的体流程图;
图2是本发明中的深度学习徐州梆子作曲框图。
具体实施方式
下面结合附图对本发明做进一步说明,图1为本发明的流程图,包括以下步骤:
1、提取徐州梆子乐曲中的梆子敲击部分以分离其他乐曲和梆子部分。
(1)选择一批徐州梆子和其他音频乐曲用于构建训练集。将每个乐曲分割为单位音乐序列,取单位时长3秒。
(2)分别构造梆子和其他乐曲的字典,利用稀疏分解,同时求得这两部分的稀疏系数,实现两部分的分离。
Y=D1θ1+D2θ2 (1)
其中,D1D2分别是梆子字典和其他乐曲字典,θ1θ2是这两部分的稀疏系数。
2、通过深度学习训练得出乐曲的特征,如图2所示。
(1)应用变分式自动编码算法将徐州梆子和其它乐曲分为两类。
VAE的目标是构建一个从隐变量生成目标数据的模型,它的两个encoder一个用来计算均值,一个用来计算方差。
简单的通过tanh函数得到其输出:
(2)将软阈值法分类前的数据作为徐州梆子和其他乐曲的特征。
3、利用递归神经网络进行训练和预测乐曲,再和生成的梆子相结合得到新的徐州梆子乐曲。
(1)利用梆子乐曲特征训练长短期记忆网络(LSTM)模型;
将该模型的目标函数设定为tanh函数,具体地:
a、决定从“细胞状态”中提取乐曲特征
ft=σ(Wf·[ht-1,xt]+bf) (3)
b、决定将上层细胞提取的乐曲特征放到“新细胞状态”中
it=σ(Wi·[ht-1,xt]+bi) (4)
c、更新“细胞状态”
d、基于“细胞状态”得到输出,
ot=σ(Wo·[ht-1,xt]+bo) (7)
ht=ot*tanh(Ct) (8)
上述式子中,ot为输出门,it为输入门,Ct为记忆单元。
4、由第3步得到的模型再和生成的梆子相结合得到新的徐州梆子乐曲
(1)随机选择一个单位乐曲序列的特征数据,利用LSTM预测输出得到新的特征数据,经过变分式自动编码解码过程生成单位乐曲序列,依次拼接得到新的乐曲;
(2)在重拍中加入生成的梆子,得到新的徐州梆子乐曲。
Claims (3)
1.一种基于深度学习的徐州梆子作曲方法,其特征在于,包括以下步骤:
(1)通过稀疏成分分离将徐州梆子乐曲分离成含梆子敲击部分的徐州梆子和不含梆子敲击部分的其他乐曲;
(2)对徐州梆子乐曲和其他类型的乐曲进行分类,得出徐州梆子乐曲的特征;
(3)利用步骤(2)得到的特征,通过递归神经网络进行训练和预测其他徐州梆子乐曲;
(4)利用步骤(1)中分离得到的梆子敲击部分乐曲训练字典,根据梆子乐曲重拍,确定稀疏系数,生成梆子敲击部分;
(5)由步骤(3)得到的徐州梆子乐曲和生成的梆子敲击部分相结合得到新的徐州梆子乐曲;
所述步骤(3)实现过程如下:利用梆子乐曲特征训练递归神经网络模型;
将该模型的目标函数设定为tanh函数,具体地:
从“细胞状态”中提取乐曲特征:
ft=σ(Wf·[ht-1,xt]+bf)(3)
将上层细胞提取的乐曲特征放到“新细胞状态”中:
it=σ(Wi·[ht-1,xt]+bi)(4)
更新“细胞状态”:
基于“细胞状态”得到输出:
ot=σ(Wo·[ht-1,xt]+bo)(7)
ht=ot*tanh(Ct)(8)
上述式子中,ot为输出门,it为输入门,Ct为记忆单元;
所述步骤(4)包括以下步骤:
(41)随机选择一个其他类型乐曲的特征数据,利用LSTM预测输出得到新的特征数据,经过变分式自动编码解码过程生成单位乐曲序列,依次拼接得到新的乐曲;
(42)在重拍中加入生成的梆子,得到新的徐州梆子乐曲。
2.根据权利要求1所述的一种基于深度学习的徐州梆子作曲方法,其特征在于,所述步骤(1)包括以下步骤:
(11)构建徐州梆子乐曲训练集,将每个乐曲分割为单位音乐序列,取单位时长3秒;
(12)分别构造梆子和其他乐曲的字典,利用稀疏分解,同时求得这两部分的稀疏系数,实现两部分的分离:
Y=D1θ1+D2θ2
其中,D1D2分别是梆子字典和其他乐曲字典,θ1θ2是这两部分的稀疏系数。
3.根据权利要求1所述的一种基于深度学习的徐州梆子作曲方法,其特征在于,所述步骤(2)包括以下步骤:
(21)应用变分式自动编码算法将徐州梆子和其它乐曲分为两类;
(22)将软阈值法分类前的数据作为徐州梆子和其他乐曲的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540526.1A CN110377785B (zh) | 2019-06-21 | 2019-06-21 | 一种基于深度学习的徐州梆子作曲方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540526.1A CN110377785B (zh) | 2019-06-21 | 2019-06-21 | 一种基于深度学习的徐州梆子作曲方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377785A CN110377785A (zh) | 2019-10-25 |
CN110377785B true CN110377785B (zh) | 2023-10-03 |
Family
ID=68249185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910540526.1A Active CN110377785B (zh) | 2019-06-21 | 2019-06-21 | 一种基于深度学习的徐州梆子作曲方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377785B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295717A (zh) * | 2016-08-30 | 2017-01-04 | 南京理工大学 | 一种基于稀疏表示和机器学习的西洋乐器分类方法 |
CN106652984A (zh) * | 2016-10-11 | 2017-05-10 | 张文铂 | 一种使用计算机自动创作歌曲的方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109886388A (zh) * | 2019-01-09 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种基于变分自编码器的训练样本数据扩充方法和装置 |
CN110164412A (zh) * | 2019-04-26 | 2019-08-23 | 吉林大学珠海学院 | 一种基于lstm的音乐自动合成方法及*** |
-
2019
- 2019-06-21 CN CN201910540526.1A patent/CN110377785B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295717A (zh) * | 2016-08-30 | 2017-01-04 | 南京理工大学 | 一种基于稀疏表示和机器学习的西洋乐器分类方法 |
CN106652984A (zh) * | 2016-10-11 | 2017-05-10 | 张文铂 | 一种使用计算机自动创作歌曲的方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109886388A (zh) * | 2019-01-09 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种基于变分自编码器的训练样本数据扩充方法和装置 |
CN110164412A (zh) * | 2019-04-26 | 2019-08-23 | 吉林大学珠海学院 | 一种基于lstm的音乐自动合成方法及*** |
Non-Patent Citations (1)
Title |
---|
A Classifying Variational Autoencoder with Application to Polyphonic Music Generation;Jay A. Hennig等;《http://arxiv.org/pdf/1711.07050.pdf》;20171119;第1-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110377785A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784130B (zh) | 孪生网络模型训练、度量方法、装置、介质和设备 | |
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
CN109086817B (zh) | 一种基于深度信念网络的高压断路器故障诊断方法 | |
CN109599091B (zh) | 基于STARWGAN-GP和x向量的多对多说话人转换方法 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及*** | |
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN110135386B (zh) | 一种基于深度学习的人体动作识别方法和*** | |
CN110853604A (zh) | 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法 | |
CN109670036A (zh) | 一种新闻评论自动生成方法及其装置 | |
CN107293291A (zh) | 一种基于自适应学习率的端到端的语音识别方法 | |
CN107993636B (zh) | 基于递归神经网络的乐谱建模与生成方法 | |
CN111753207B (zh) | 一种基于评论的神经图协同过滤方法 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
Wu et al. | Increasing compactness of deep learning based speech enhancement models with parameter pruning and quantization techniques | |
CN110334243A (zh) | 基于多层时序池化的音频表示学习方法 | |
CN108304376A (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN113192471A (zh) | 一种基于神经网络的乐曲主旋律音轨识别方法 | |
CN110600046A (zh) | 基于改进的STARGAN和x向量的多对多说话人转换方法 | |
Sagi et al. | A biologically motivated solution to the cocktail party problem | |
CN110377785B (zh) | 一种基于深度学习的徐州梆子作曲方法 | |
CN117496944A (zh) | 一种多情感多说话人语音合成方法和*** | |
CN111402919B (zh) | 一种基于多尺度多视图的戏曲唱腔风格识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |