CN110222226A - 基于神经网络的以词生成节奏的方法、装置及存储介质 - Google Patents

基于神经网络的以词生成节奏的方法、装置及存储介质 Download PDF

Info

Publication number
CN110222226A
CN110222226A CN201910307611.3A CN201910307611A CN110222226A CN 110222226 A CN110222226 A CN 110222226A CN 201910307611 A CN201910307611 A CN 201910307611A CN 110222226 A CN110222226 A CN 110222226A
Authority
CN
China
Prior art keywords
lyrics
rhythm
neural network
time
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910307611.3A
Other languages
English (en)
Other versions
CN110222226B (zh
Inventor
曹靖康
王义文
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910307611.3A priority Critical patent/CN110222226B/zh
Priority to PCT/CN2019/102189 priority patent/WO2020211237A1/zh
Publication of CN110222226A publication Critical patent/CN110222226A/zh
Application granted granted Critical
Publication of CN110222226B publication Critical patent/CN110222226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B20/00Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
    • Y02B20/40Control techniques providing energy savings, e.g. smart controller or presence detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Auxiliary Devices For Music (AREA)
  • Machine Translation (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明涉及人工智能技术领域,公开了一种基于神经网络的以词生成节奏方法,该方法包括:将给定音乐的歌词按照预设的歌词编码规则转换为向量集合;向预先构建的神经网络模型中输入给定音乐的歌词的向量集合,得到所述歌词的时间序列分布;利用所述时间序列分布,对所述歌词进行连接时序分类,得到目标节奏。本发明还提出一种基于神经网络的以词生成节奏装置以及一种计算机可读存储介质。本发明将深度学习网络应用到音乐节奏的生成并可以得到可靠结果使其生成的音乐更加符合原有音乐的规范。

Description

基于神经网络的以词生成节奏的方法、装置及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于神经网络的以词生成 节奏方法、装置及计算机可读存储介质。
背景技术
音乐节奏是音乐自动生成算法中重要的一环,音乐节奏能够规范歌词的 分布,同时能够约束音高、旋律等,是连接歌词和音乐的桥梁。传统的语音 识别和音乐模型的构建,都是采用状态建模,一个音素或者一个字被人为的 分成多个没有物理意义的状态,然后采用离散或者连续高斯模型描述每个状 态的输出分布。这种建模方式需要预先对连续序列中间的建模单元的边界进 行切分,并且输入输出分布边缘对齐,计算速度慢。
人们对于将深度神经网络与各个领域相结合做出了很多努力,在音乐生 成方面,概率生成算法、马尔科夫链能够较准确的生成原有的音乐节奏,但 生成的音乐节奏的旋律过于简单;长短期记忆网络(Long Short-Term Memory, LSTM)的结构模型过于复杂,模型的训练时间长;而循环神经网络(Recurrent Neural Network,RNN)在处理距离较远的序列时,很有可能会出现梯度消失 的问题。因此,如何将深度学习网络应用到音乐节奏的生成并得到可靠结果 使其生成的音乐更加符合原有音乐的规范,且使***具备稳定的鲁棒性,是 一个亟需解决的问题。
发明内容
本发明提供一种基于神经网络的以词生成节奏方法、装置及计算机可读 存储介质,其主要目的在于提供一种将深度学习网络应用到音乐节奏的生成 的技术方案。
为实现上述目的,本发明提供的一种基于神经网络的以词生成节奏方法, 包括:
将给定音乐的歌词按照预设的歌词编码规则转换为向量集合,其中,所 述预设的歌词编码规则包括:规定歌词中的单个字符为1,单个标点符号为0, 字符之间用0填充;
预先构建神经网络模型,其中,预先构建的所述神经网络模型包含三层 时空卷积网络以及一层双向门控循环单元;
向所述三层时空卷积网络中输入给定音乐的歌词的向量集合,提取出特 征向量;
利用所述双向门控循环单元对所述特征向量进行聚合操作,得到时间步 长;及
对每一个时间步长进行线性变换,得到时间序列分布;
利用所述时间序列分布,对所述歌词进行连接时序分类,得到目标节奏。
可选地,所述时空卷积网络的每一层的计算方式为:
其中,y表示某一层的输出,σ表示激活函数,i,j,k表示样本上对应位 置的坐标,表示每一层输入到对应于上述(i,j,k)处与对应卷积核尺寸 大小相等的局部区域,表示卷积核的权重矩阵,b表示对应卷积核的偏置值。
可选地,所述利用所述时间序列分布,对所述歌词进行连接时序分类, 得到目标节奏,包括:
在给定音乐的歌词V的基础上加上空白标签得到字符串
定义函数B:其中,V*执行下述操作获得:1)合并连续的 相同符号;2)去掉空白字符;
对于一个字符串序列y∈V*,定义:
其中,V*的所有元素被称为路径,V*是所有路径的集合,p(y|z)代表目标 歌词集合V对应路径的概率之和,z为所述三层时空卷积网络输出的特征向 量,T为所有时间步长个数,p(ut,…,uT|z)为所有时间步长个数T的时间序 列分布,s.t.|u|=T是一个条件函数,表述需要满足u是在所有时间步长T 之中这个条件,B-1(y)s.t.|u|=T表示长度为T且示经过函数B变换结果为字符串 y的集合;
根据输入的特征向量z,计算最大概率和,得到输入序列对应的目标歌词 序列h(x),即为目标歌词在给定音乐下生成的节奏:
可选地,所述双向门控循环单元采用如下公式得到时间步长:
rt=σ(Wr·[ht-1,z]);
ut=σ(Wu·[ht-1,z]);
其中:ut和rt分别为更新门和重置门,[]表示两个向量相连接,*表示矩阵 元素相乘,σ为sigmoid函数,z={z1,…,zt}为所述三层时空卷积网络输 出的特征向量,Wr和Wu分别为重置门和更新门的权重,表示t时刻的候选 状态,表示的权值,ht为t时刻的输出状态,
双向门控循环单元两个方向的映射分别为:
由此得到t时刻的时间步长为:
可选地,所述时间序列分布的计算公式为:
p(ut,…,uT|z)=∏1≤t≤Tp(ut|z),
其中,t为时间步长,p(ut|z)=softmax(mlp(ht;Wmlp)),所述softmax是 一种归一化指数函数,mlp是含有权重Wmlp的前馈神经网络,z为三层时空卷 积网络输出的特征向量,T为所有时间步长个数。
此外,为实现上述目的,本发明还提供一种基于神经网络的以词生成节 奏装置,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理 器上运行的以词生成节奏程序,所述以词生成节奏程序被所述处理器执行时 实现一种基于神经网络的以词生成节奏的方法,所述方法包括:
将给定音乐的歌词按照预设的歌词编码规则转换为向量集合,其中,所 述预设的歌词编码规则包括:规定歌词中的单个字符为1,单个标点符号为0, 字符之间用0填充;
预先构建神经网络模型,其中,预先构建的所述神经网络模型包含三层 时空卷积网络以及一层双向门控循环单元;
向所述三层时空卷积网络中输入给定音乐的歌词的向量集合,提取出特 征向量;
利用所述双向门控循环单元对上所述特征向量进行聚合操作,得到时间 步长;及
对每一个时间步长进行线性变换,得到时间序列分布;
利用所述时间序列分布,对所述歌词进行连接时序分类,得到目标节奏。
可选地,所述时空卷积网络的每一层的计算方式为:
其中,y表示某一层的输出,σ表示激活函数,i,j,k表示样本上对应位 置的坐标,表示每一层输入到对应于上述(i,j,k)处与对应卷积核尺寸 大小相等的局部区域,表示卷积核的权重矩阵,b表示对应卷积核的偏置值。
可选地,所述利用所述时间序列分布,对所述歌词进行连接时序分类, 得到目标节奏,包括:
在给定音乐的歌词V的基础上加上空白标签得到字符串
定义函数B:其中,V*执行下述操作获得1)合并连续的相 同符号;2)去掉空白字符;
对于一个字符串序列y∈V*,定义:
其中,V*的所有元素被称为路径,V*是所有路径的集合,p(y|z)代表目标 歌词集合V对应路径的概率之和,z为所述三层时空卷积网络输出的特征向 量,T为所有时间步长个数,p(ut,…,uT|z)为所有时间步长个数T的时间序 列分布,s.t.|u|=T是一个条件函数,表述需要满足u是在所有时间步长T 之中这个条件,B-1(y)s.t.|u|=T表示长度为T且示经过函数B变换结果为字符串 y的集合;
根据输入的特征向量z,计算最大概率和,得到输入序列对应的目标歌词 序列h(x),即为目标歌词在给定音乐下生成的节奏:
可选地,所述双向门控循环单元采用如下公式得到时间步长:
rt=σ(Wr·[ht-1,z]);
ut=σ(Wu·[ht-1,z]);
其中:ut和rt分别为更新门和重置门,[]表示两个向量相连接,*表示矩阵 元素相乘,σ为sigmoid函数,z={z1,…,zt}为所述三层时空卷积网络输 出的特征向量,Wr和Wu分别为重置门和更新门的权重,表示t时刻的候选 状态,表示的权值,ht为t时刻的输出状态,
双向门控循环单元两个方向的映射分别为:
由此得到t时刻的时间步长为:
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述 计算机可读存储介质上存储有以词生成节奏程序,所述的以词生成节奏程序 可被一个或者多个处理器执行,以实现如上所述的基于神经网络的以词生成 节奏方法的步骤。
本发明提出的基于神经网络的以词生成节奏方法、装置及计算机可读存 储介质,将给定音乐的歌词按照预设的歌词编码规则转换为向量集合;向预 先构建的神经网络模型中输入给定音乐的歌词的向量集合,得到所述歌词的 时间序列分布;利用所述时间序列分布,对所述歌词进行连接时序分类,得 到目标节奏。因此,本发明将深度学习网络应用到音乐节奏的生成并可以得 到可靠结果使其生成的音乐更加符合原有音乐的规范。
附图说明
图1为本发明一实施例提供的基于神经网络的以词生成节奏方法的流程 示意图;
图2为本发明一实施例提供的基于神经网络的以词生成节奏方法中所述 的双向门控循环单元的示意图;
图3为本发明一实施例提供的基于神经网络的以词生成节奏方法中数据 流的示意图;
图4为本发明一实施例提供的基于神经网络的以词生成节奏装置的内部 结构示意图;
图5为本发明一实施例提供的基于神经网络的以词生成节奏装置中以词 生成节奏程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限 定本发明。
本发明提供一种基于神经网络的以词生成节奏方法。参照图1所示,为 本发明一实施例提供的基于神经网络的以词生成节奏方法的流程示意图。该 方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,所述基于神经网络的以词生成节奏方法包括:
S10、将给定音乐的歌词按照预设的歌词编码规则转换为向量集合。
本发明较佳实施例中,所述预设的歌词编码规则包括:规定歌词中的单 个字符为1,单个标点符号为0,字符之间用0填充。
本发明较佳实施例中,生成的向量形式为xi=[time,1,1,channel]。其中,“time”为歌词出现在音乐中的时间的BCD码(Binary-Coded Decimal,亦称 二进码十进数或二-十进制代码),“1”引申指的是图像的高和宽,在音乐中一 个字符相当于一个像素,所以设置宽高均为1,“channel”为上述的歌词编码, 如上所述单个字符的channel值为1,单个标点符号的channel值为0等。于 是,给定音乐中的歌词可以转换为向量集合为X={x1,…xi,…xt}。
S20、向预先构建的神经网络模型中输入给定音乐的歌词的向量集合,得 到所述歌词的时间序列分布。
本发明所述预先构建的神经网络模型包含三层时空卷积网络 (Spatio Temporalconvolutional neural networks,STCNNs)以及一层双向门控 循环单元(Bi-GRU,Bidirectional Gated Recurrent Unit)。
卷积神经网络(Convolutional Neural Networks,CNNs)是一种前馈神经 网络,其可以在图像空间上进行卷积堆叠操作,有助于提高计算机视觉任务 的性能。而所述时空卷积网络STCNNs可以通过在时间和空间维度上进行卷 积运算从而可以对音视频数据进行处理。
本发明所述时空卷积网络STCNNs的每一层从输入到输出的计算方式为:
其中,y表示某一层的输出,σ表示激活函数,i,j,k表示样本上对应位 置的坐标,表示每一层输入到对应于上述(i,j,k)处与对应卷积核尺寸 大小相等的局部区域,表示卷积核的权重矩阵,b表示对应卷积核的偏置值。
本发明较佳实施例中,三层的STCNNs卷积核形状为四 个维度分别是时间、高、宽和特征数。
在经过训练后,向所述三层时空卷积网络中输入给定音乐的歌词的向量 集合X后可以提取出特征向量z。
进一步地,本发明利用Bi-GRU进一步对STCNNs提取到的特征向量z 进行进一步聚合,得到时间步长。
本发明较佳实施例在STCNNs后连接一层双向门控循环单元(Bi-GRU)。 GRU是一种循环神经网络(RNN)的一种变体,GRU的重复单元模型如下, 它有两个门,分别为更新门ut和重置门rt。更新门用于控制前一时刻的状态信 息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带 入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小 说明忽略得越多。而Bi-GRU主要特点是增加了对未来的学习能力,克服了仅 能处理历史信息的缺陷。Bi-GRU将一个普通GRU拆成两个方向,一个按照 序列顺序向前,一个逆时序反向,但是两个GRU连接同一个输入层和输出层, 结构如图2所示。本发明较佳实施例中,所述Bi-GRU的神经元数为256个。
本发明所述Bi-GRU采用如下公式得到时间步长:
rt=σ(Wr·[ht-1,z]);
ut=σ(Wu·[ht-1,z]);
其中:ut和rt分别为更新门和重置门,[]表示两个向量相连接,*表示矩阵 元素相乘,σ为sigmoid函数,z={z1,…,zt}为Bi-GRU的输入即STCNNs 的输出特征,Wr和Wu分别为重置门和更新门的权重,表示t时刻的候选状 态,表示的权值,ht为t时刻的输出状态。
Bi-GRU两个方向的映射分别为:
由此得到t时刻的时间步长为:
进一步地,本发明对每一个时间步长ht进行线性变换,得到时间序列分 布。
为了参数化序列分布,本发明对于对每一个时间步t,使得p(ut|Z)= softmax(mlp(ht;Wmlp)),其中softmax是一种归一化指数函数,mlp是含有 权重Wmlp的前馈神经网络,然后定义时间序列分布:
p(ut,…,uT|z)=∏1≤t≤Tp(ut|z),
在该模型中z为GRU的输入,即STCNNs的输出。即在输入为z时,将 t时刻的输出状态进行反向传输,得到对每个t时刻状态的分类。最终根据定 义得到所有时间步长个数T(即为z的向量长度)的时间序列分布p。
S30、利用所述时间序列分布,对所述歌词进行连接时序分类 (Connectionisttemporal classification,CTC),得到目标节奏。
所述CTC是为RNN专门设计的顶层(top layer),用于序列学习所用, 它可以消除输入与目标输出对齐的步骤。
本发明较佳实施例中,对所述歌词进行CTC的主要流程如下:
1)在给定音乐的歌词V的基础上加上空白标签得到字符串
2)定义函数B:其中,V*执行下述操作获得1)合并连续的 相同符号;2)去掉空白字符;
对于一个字符串序列y∈V*,定义:
其中,V*的所有元素被称为路径,V*是所有路径的集合,p(y|z)代表目标 歌词集合V对应路径的概率之和,z为所述三层时空卷积网络输出的特征向 量,T为所有时间步长个数,p(ut,…,uT|z)为所有时间步长个数T的时间序 列分布,s.t.|u|=T是一个条件函数,表述需要满足u是在所有时间步长T 之中这个条件,B-1(y)s.t.|u|=T表示长度为T且示经过函数B变换结果为字符串 y的集合;
3)根据输入的特征向量z,计算最大概率和,得到输入序列对应的目标 歌词序列h(x),即为目标歌词在给定音乐下生成的节奏:
综上所述,参阅图3所示,本发明的数据流如下:对于一段音乐,本发 明较佳实施例将音乐中的歌词转换为向量,并将其传输到该构建的神经网络 中得到时间序列,其中,本发明所述神经网络包括三层时空卷积网络以及一 层双向门控循环单元;将得到的时间序列输入到连接时序分类当中,同时输 入目标歌词,最终得到对应的目标歌词的序列则为这段音乐对应的目标歌词 的节奏。
本发明还提供一种基于神经网络的以词生成节奏装置。参照图4所示, 为本发明一实施例提供的基于神经网络的以词生成节奏装置的内部结构示意 图。
在本实施例中,基于神经网络的以词生成节奏装置1可以是PC(PersonalComputer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设 备。该基于神经网络的以词生成节奏装置1至少包括存储器11、处理器12, 通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质 包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁 性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于神经网络的 以词生成节奏装置1的内部存储单元,例如该基于神经网络的以词生成节奏 装置1的硬盘。存储器11在另一些实施例中也可以是基于神经网络的以词生 成节奏装置1的外部存储设备,例如基于神经网络的以词生成节奏装置1上 配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包 括以词生成节奏装置1的内部存储单元也包括外部存储设备。存储器11不仅 可以用于存储安装于基于神经网络的以词生成节奏装置1的应用软件及各类 数据,例如以词生成节奏程序01的代码等,还可以用于暂时地存储已经输出 或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器 11中存储的程序代码或处理数据,例如执行所述以词生成节奏程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口), 通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器 (Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标 准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显 示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏 或显示单元,用于显示在基于神经网络的以词生成节奏装置1中处理的信息 以及用于显示可视化的用户界面。
图4仅示出了具有组件11-14以及以词生成节奏程序01的基于神经网络 的以词生成节奏装置1,本领域技术人员可以理解的是,图4示出的结构并不 构成对基于神经网络的以词生成节奏装置1的限定,可以包括比图示更少或 者更多的部件,或者组合某些部件,或者不同的部件布置。
在图4所示的装置1实施例中,存储器11中存储有以词生成节奏程序01; 处理器12执行存储器11中存储的以词生成节奏程序01时实现如下步骤:
步骤一、将给定音乐的歌词按照预设的歌词编码规则转换为向量集合。
本发明较佳实施例中,所述预设的歌词编码规则包括:规定歌词中的单 个字符为1,单个标点符号为0,字符之间用0填充。
本发明较佳实施例中,生成的向量形式为xi=[time,1,1,channel]。其中,“time”为歌词出现在音乐中的时间的BCD码(Binary-Coded Decimal,亦称 二进码十进数或二-十进制代码),“1”引申指的是图像的高和宽,在音乐中一 个字符相当于一个像素,所以设置宽高均为1,“channel”为上述的歌词编码, 如上所述单个字符的channel值为1,单个标点符号的channel值为0等。于 是,给定音乐中的歌词可以转换为向量集合为X={x1,…xi,…xt}。
步骤二、向预先构建的神经网络模型中输入给定音乐的歌词的向量集合, 得到所述歌词的时间序列分布。
本发明所述预先构建的神经网络模型包含三层时空卷积网络 (SpatioTemporalconvolutional neural networks,STCNNs)以及一层双向门控 循环单元(Bi-GRU,Bidirectional Gated Recurrent Unit)。
卷积神经网络(Convolutional Neural Networks,CNNs)是一种前馈神经 网络,其可以在图像空间上进行卷积堆叠操作,有助于提高计算机视觉任务 的性能。而所述时空卷积网络STCNNs可以通过在时间和空间维度上进行卷 积运算从而可以对音视频数据进行处理。
本发明所述时空卷积网络STCNNs的每一层从输入到输出的计算方式为:
其中,y表示某一层的输出,σ表示激活函数,i,j,k表示样本上对应位 置的坐标,表示每一层输入到对应于上述(i,j,k)处与对应卷积核尺寸 大小相等的局部区域,表示卷积核的权重矩阵,b表示对应卷积核的偏置值。
本发明较佳实施例中,三层的STCNNs卷积核形状为四 个维度分别是时间、高、宽和特征数。
在经过训练后,向所述三层时空卷积网络中输入给定音乐的歌词的向量 集合X后可以提取出特征向量z。
进一步地,本发明利用Bi-GRU进一步对STCNNs提取到的特征向量z 进行进一步聚合,得到时间步长。
本发明较佳实施例在STCNNs后连接一层双向门控循环单元(Bi-GRU)。 GRU是一种循环神经网络(RNN)的一种变体,GRU的重复单元模型如下, 它有两个门,分别为更新门ut和重置门rt。更新门用于控制前一时刻的状态信 息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带 入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小 说明忽略得越多。而Bi-GRU主要特点是增加了对未来的学习能力,克服了仅 能处理历史信息的缺陷。Bi-GRU将一个普通GRU拆成两个方向,一个按照 序列顺序向前,一个逆时序反向,但是两个GRU连接同一个输入层和输出层, 结构如图2所示。本发明较佳实施例中,所述Bi-GRU的神经元数为256个。
本发明所述Bi-GRU采用如下公式得到时间步长:
rt=σ(Wr·[ht-1,z]);
ut=σ(Wu·[ht-1,z]);
其中:ut和rt分别为更新门和重置门,[]表示两个向量相连接,*表示矩阵 元素相乘,σ为sigmoid函数,z={z1,…,zt}为Bi-GRU的输入即STCNNs 的输出特征,Wr和Wu分别为重置门和更新门的权重,表示t时刻的候选状 态,表示的权值,ht为t时刻的输出状态。
Bi-GRU两个方向的映射分别为:
由此得到t时刻的时间步长为:
进一步地,本发明对每一个时间步长ht进行线性变换,得到时间序列分 布。
为了参数化序列分布,本发明对于对每一个时间步t,使得p(ut|z)= softmax(mlp(ht;Wmlp)),其中softmax是一种归一化指数函数,mlp是含有 权重Wmlp的前馈神经网络,然后定义时间序列分布:
p(ut,…,uT|z)=∏1≤t≤Tp(ut|z),
在该模型中z为GRU的输入,即STCNNs的输出。即在输入为z时,将 t时刻的输出状态进行反向传输,得到对每个t时刻状态的分类。最终根据定 义得到所有时间步长个数T(即为z的向量长度)的时间序列分布p。
步骤三、利用所述时间序列分布,对所述歌词进行连接时序分类 (Connectionisttemporal classification,CTC),得到目标节奏。
所述CTC是为RNN专门设计的顶层(top layer),用于序列学习所用, 它可以消除输入与目标输出对齐的步骤。
本发明较佳实施例中,对所述歌词进行CTC的主要流程如下:
1)在给定音乐的歌词V的基础上加上空白标签得到字符串
2)定义函数B:其中,V*执行下述操作获得1)合并连续的 相同符号;2)去掉空白字符;
对于一个字符串序列y∈V*,定义:
其中,V*的所有元素被称为路径,V*是所有路径的集合,p(y|z)代表目标 歌词集合V对应路径的概率之和,z为所述三层时空卷积网络输出的特征向 量,T为所有时间步长个数,p(ut,…,uT|z)为所有时间步长个数T的时间序 列分布,s.t.|u|=T是一个条件函数,表述需要满足u是在所有时间步长T 之中这个条件,B-1(y)s.t.|u|=T表示长度为T且示经过函数B变换结果为字符串 y的集合;
3)根据输入的特征向量z,计算最大概率和,得到输入序列对应的目标 歌词序列h(x),即为目标歌词在给定音乐下生成的节奏:
可选地,在其他实施例中,所述的以词生成节奏程序还可以被分割为一 个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个 处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是 指能够完成特定功能的一系列计算机程序指令段,用于描述以词生成节奏程 序在基于神经网络的以词生成节奏装置中的执行过程。
例如,参照图5所示,为本发明基于神经网络的以词生成节奏装置一实 施例中的以词生成节奏程序的程序模块示意图,该实施例中,以词生成节奏 程序01可以被分割为歌词转换模块10、模型计算模块20、节奏生成模块30, 示例性地:
歌词转换模块10用于:将给定音乐的歌词按照预设的规则转换为向量集 合。
可选地,所述预设的歌词编码规则,包括:规定歌词中的单个字符为1, 单个标点符号为0,字符之间用0填充。
模型计算模块20用于:向预先构建的神经网络模型中输入给定音乐的歌 词的向量集合,得到所述歌词的时间序列分布。
可选地,所述预先构建的神经网络模型包含三层时空卷积网络 (SpatioTemporal convolutional neural networks,STCNNs)以及一层双向门控 循环单元(Bi-GRU,Bidirectional Gated Recurrent Unit)。
可选地,所述向预先构建的神经网络模型中输入给定音乐的歌词的向量 集合X,得到所述歌词的时间序列分布,包括:
向所述三层时空卷积网络中输入给定音乐的歌词的向量集合X,提取出 特征向量z;
利用所述双向门控循环单元对上述提取到的特征向量z进行聚合操作, 得到时间步长;
对每一个时间步长ht进行线性变换,得到时间序列分布。
可选地,所述双向门控循环单元采用如下公式得到时间步长:
rt=σ(Wr·[ht-1,z]);
ut=σ(Wu·[ht-1,z]);
其中:ut和rt分别为更新门和重置门,[]表示两个向量相连接,*表示矩阵 元素相乘,σ为sigmoid函数,z={z1,…,zt}为Bi-GRU的输入即STCNNs 的输出特征,Wr和Wu分别为重置门和更新门的权重,表示t时刻的候选状 态,表示的权值,ht为t时刻的输出状态。
双向门控循环单元两个方向的映射分别为:
由此得到t时刻的时间步长为:
可选地,所述时间序列分布的计算公式为:
p(ut,…,uT|z)=∏1≤t≤Tp(ut|z),
其中,t为时间步,p(ut|z)=softmax(mlp(ht;Wmlp)),所述softmax是 一种归一化指数函数,mlp是含有权重Wmlp的前馈神经网络,z为三层时空卷 积网络的输出,T为所有时间步长个数。
节奏生成模块30用于:利用所述时间序列分布,对所述歌词进行连接时 序分类(Connectionist temporal classification,CTC),得到目标节奏。
可选地,所述对所述歌词进行连接时序分类包括:
在给定音乐的歌词V的基础上加上空白标签得到字符串
定义函数B:其中,V*执行下述操作获得1)合并连续的相 同符号;2)去掉空白字符;
对于一个字符串序列y∈V*,定义:
其中,V*的所有元素被称为路径,V*是所有路径的集合,p(y|z)代表目标 歌词集合V对应路径的概率之和,z为所述三层时空卷积网络输出的特征向 量,T为所有时间步长个数,p(ut,…,uT|z)为所有时间步长个数T的时间序 列分布,s.t.|u|=T是一个条件函数,表述需要满足u是在所有时间步长T 之中这个条件,B-1(y)s.t.|u|=T表示长度为T且示经过函数B变换结果为字符串 y的集合;
根据输入的特征向量z,计算最大概率和,得到输入序列对应的目标歌词 序列h(x),即为目标歌词在给定音乐下生成的节奏:
上述歌词转换模块10、模型计算模块20、节奏生成模块30等程序模块 被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读 存储介质上存储有以词生成节奏程序,所述的以词生成节奏程序可被一个或 多个处理器执行,以实现如下操作:
将给定音乐的歌词按照预设的规则转换为向量集合;
向预先构建的神经网络模型中输入给定音乐的歌词的向量集合,得到所 述歌词的时间序列分布;
利用所述时间序列分布,对所述歌词进行连接时序分类,得到目标节奏。
本发明计算机可读存储介质具体实施方式与上述基于神经网络的以词生 成节奏装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的 优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他 性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括 那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、 装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括 一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法 中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、 磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机, 服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是 利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于神经网络的以词生成节奏方法,其特征在于,所述方法包括:
将给定音乐的歌词按照预设的歌词编码规则转换为向量集合,其中,所述预设的歌词编码规则包括:规定歌词中的单个字符为1,单个标点符号为0,字符之间用0填充;
预先构建神经网络模型,其中,预先构建的所述神经网络模型包含三层时空卷积网络以及一层双向门控循环单元;
向所述三层时空卷积网络中输入给定音乐的歌词的向量集合,提取出特征向量;
利用所述双向门控循环单元对所述特征向量进行聚合操作,得到时间步长;及
对每一个时间步长进行线性变换,得到时间序列分布;
利用所述时间序列分布,对所述歌词进行连接时序分类,得到目标节奏。
2.如权利要求1所述的基于神经网络的以词生成节奏方法,其特征在于,所述时空卷积网络的每一层的计算方式为:
其中,y表示某一层的输出,σ表示激活函数,i,j,k表示样本上对应位置的坐标,表示每一层输入到对应于上述(i,j,k)处与对应卷积核尺寸大小相等的局部区域,表示卷积核的权重矩阵,b表示对应卷积核的偏置值。
3.如权利要求1所述的基于神经网络的以词生成节奏方法,其特征在于,所述利用所述时间序列分布,对所述歌词进行连接时序分类,得到目标节奏,包括:
在给定音乐的歌词V的基础上加上空白标签得到字符串
定义函数B:其中,V*执行下述操作获得1)合并连续的相同符号;2)去掉空白字符;
对于一个字符串序列y∈V*,定义:
其中,V*的所有元素被称为路径,V*是所有路径的集合,p(y|z)代表目标歌词集合V对应路径的概率之和,z为所述三层时空卷积网络输出的特征向量,T为所有时间步长个数,p(ut,…,uT|z)为所有时间步长个数T的时间序列分布,s.t.|u|=T是一个条件函数,表述需要满足u是在所有时间步长T之中这个条件,B-1(y)s.t.|u|=T表示长度为T且示经过函数B变换结果为字符串y的集合;
根据输入的特征向量z,计算最大概率和,得到输入序列对应的目标歌词序列h(x),即为目标歌词在给定音乐下生成的节奏:
4.如权利要求1所述的基于神经网络的以词生成节奏方法,其特征在于,所述双向门控循环单元采用如下公式得到时间步长:
rt=σ(Wr·[ht-1,z]);
ut=σ(Wu·[ht-1,z]);
其中:ut和rt分别为更新门和重置门,[]表示两个向量相连接,*表示矩阵元素相乘,σ为sigmoid函数,z={z1,…,zt}为所述三层时空卷积网络输出的特征向量,Wr和Wu分别为重置门和更新门的权重,表示t时刻的候选状态,表示的权值,ht为t时刻的输出状态,
双向门控循环单元两个方向的映射分别为:
由此得到t时刻的时间步长为:
5.如权利要求1至4中的任意一项所述的基于神经网络的以词生成节奏方法,其特征在于,所述时间序列分布的计算公式为:
p(ut,…,uT|z)=Π1≤t≤Tp(ut|z),
其中,t为时间步长,p(ut|z)=softmax(mlp(ht;Wmlp)),所述softmax是一种归一化指数函数,mlp是含有权重Wmlp的前馈神经网络,z为三层时空卷积网络输出的特征向量,T为所有时间步长个数。
6.一种基于神经网络的以词生成节奏装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的以词生成节奏程序,所述以词生成节奏程序被所述处理器执行时实现一种基于神经网络的以词生成节奏的方法,所述方法包括:
将给定音乐的歌词按照预设的歌词编码规则转换为向量集合,其中,所述预设的歌词编码规则包括:规定歌词中的单个字符为1,单个标点符号为0,字符之间用0填充;
预先构建神经网络模型,其中,预先构建的所述神经网络模型包含三层时空卷积网络以及一层双向门控循环单元;
向所述三层时空卷积网络中输入给定音乐的歌词的向量集合,提取出特征向量;
利用所述双向门控循环单元对所述特征向量进行聚合操作,得到时间步长;及
对每一个时间步长进行线性变换,得到时间序列分布;
利用所述时间序列分布,对所述歌词进行连接时序分类,得到目标节奏。
7.如权利要求6所述的基于神经网络的以词生成节奏装置,其特征在于,所述时空卷积网络的每一层的计算方式为:
其中,y表示某一层的输出,σ表示激活函数,i,j,k表示样本上对应位置的坐标,表示每一层输入到对应于上述(i,j,k)处与对应卷积核尺寸大小相等的局部区域,表示卷积核的权重矩阵,b表示对应卷积核的偏置值。
8.如权利要求6所述的基于神经网络的以词生成节奏装置,其特征在于,所述利用所述时间序列分布,对所述歌词进行连接时序分类,得到目标节奏,包括:
在给定音乐的歌词V的基础上加上空白标签得到字符串
定义函数B:其中,V*执行下述操作获得1)合并连续的相同符号;2)去掉空白字符;
对于一个字符串序列y∈V*,定义:
其中,V*的所有元素被称为路径,V*是所有路径的集合,p(y|z)代表目标歌词集合V对应路径的概率之和,z为所述三层时空卷积网络输出的特征向量,T为所有时间步长个数,p(ut,…,uT|z)为所有时间步长个数T的时间序列分布,s.t.|u|=T是一个条件函数,表述需要满足u是在所有时间步长T之中这个条件,B-1(y)s.t.|u|=T表示长度为T且示经过函数B变换结果为字符串y的集合;
根据输入的特征向量z,计算最大概率和,得到输入序列对应的目标歌词序列h(x),即为目标歌词在给定音乐下生成的节奏:
9.如权利要求6所述的基于神经网络的以词生成节奏装置,其特征在于,所述双向门控循环单元采用如下公式得到时间步长:
rt=σ(Wr·[ht-1,z]);
ut=σ(Wu·[ht-1,z]);
其中:ut和rt分别为更新门和重置门,[]表示两个向量相连接,*表示矩阵元素相乘,σ为sigmoid函数,z={z1,…,zt}为所述三层时空卷积网络输出的特征向量,Wr和Wu分别为重置门和更新门的权重,表示t时刻的候选状态,表示的权值,ht为t时刻的输出状态,
双向门控循环单元两个方向的映射分别为:
由此得到t时刻的时间步长为:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有以词生成节奏程序,所述的以词生成节奏程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的基于神经网络的以词生成节奏方法的步骤。
CN201910307611.3A 2019-04-17 2019-04-17 基于神经网络的以词生成节奏的方法、装置及存储介质 Active CN110222226B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910307611.3A CN110222226B (zh) 2019-04-17 2019-04-17 基于神经网络的以词生成节奏的方法、装置及存储介质
PCT/CN2019/102189 WO2020211237A1 (zh) 2019-04-17 2019-08-23 基于神经网络的以词生成节奏的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910307611.3A CN110222226B (zh) 2019-04-17 2019-04-17 基于神经网络的以词生成节奏的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110222226A true CN110222226A (zh) 2019-09-10
CN110222226B CN110222226B (zh) 2024-03-12

Family

ID=67822589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910307611.3A Active CN110222226B (zh) 2019-04-17 2019-04-17 基于神经网络的以词生成节奏的方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN110222226B (zh)
WO (1) WO2020211237A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853604A (zh) * 2019-10-30 2020-02-28 西安交通大学 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066457B (zh) * 2021-03-17 2023-11-03 平安科技(深圳)有限公司 梵叹音乐生成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
US20180364967A1 (en) * 2017-06-16 2018-12-20 Krotos Ltd Method of generating an audio signal
CN109166564A (zh) * 2018-07-19 2019-01-08 平安科技(深圳)有限公司 为歌词文本生成乐曲的方法、装置及计算机可读存储介质
CN109346045A (zh) * 2018-10-26 2019-02-15 平安科技(深圳)有限公司 基于长短时神经网络的多声部音乐生成方法及装置
CN109471951A (zh) * 2018-09-19 2019-03-15 平安科技(深圳)有限公司 基于神经网络的歌词生成方法、装置、设备和存储介质
KR101934057B1 (ko) * 2017-09-08 2019-04-08 한성대학교 산학협력단 계층적 인공 신경망을 이용한 자동 작곡 방법 및 그 기록 매체

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626328B2 (en) * 2011-01-24 2014-01-07 International Business Machines Corporation Discrete sampling based nonlinear control system
CN108509534B (zh) * 2018-03-15 2022-03-25 华南理工大学 基于深度学习的个性化音乐推荐***及其实现方法
CN109637509B (zh) * 2018-11-12 2023-10-03 平安科技(深圳)有限公司 一种音乐自动生成方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180364967A1 (en) * 2017-06-16 2018-12-20 Krotos Ltd Method of generating an audio signal
KR101934057B1 (ko) * 2017-09-08 2019-04-08 한성대학교 산학협력단 계층적 인공 신경망을 이용한 자동 작곡 방법 및 그 기록 매체
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN109166564A (zh) * 2018-07-19 2019-01-08 平安科技(深圳)有限公司 为歌词文本生成乐曲的方法、装置及计算机可读存储介质
CN109471951A (zh) * 2018-09-19 2019-03-15 平安科技(深圳)有限公司 基于神经网络的歌词生成方法、装置、设备和存储介质
CN109346045A (zh) * 2018-10-26 2019-02-15 平安科技(深圳)有限公司 基于长短时神经网络的多声部音乐生成方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853604A (zh) * 2019-10-30 2020-02-28 西安交通大学 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法

Also Published As

Publication number Publication date
WO2020211237A1 (zh) 2020-10-22
CN110222226B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
Sun et al. What and how: generalized lifelong spectral clustering via dual memory
Bhardwaj et al. Deep Learning Essentials: Your hands-on guide to the fundamentals of deep learning and neural network modeling
CN111797893B (zh) 一种神经网络的训练方法、图像分类***及相关设备
Lu et al. Brain intelligence: go beyond artificial intelligence
Yi et al. ASSD: Attentive single shot multibox detector
KR102434726B1 (ko) 처리방법 및 장치
WO2022022173A1 (zh) 药物分子属性确定方法、装置及存储介质
US11977851B2 (en) Information processing method and apparatus, and storage medium
WO2021159714A1 (zh) 一种数据处理方法及相关设备
CN111753081A (zh) 基于深度skip-gram网络的文本分类的***和方法
CN110110122A (zh) 基于多层语义深度哈希算法的图像-文本跨模态检索
CN108334499A (zh) 一种文本标签标注设备、方法和计算设备
CN109313721A (zh) 训练机器学习模型
CN108959482A (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN114092707A (zh) 一种图像文本视觉问答方法、***及存储介质
US20210216874A1 (en) Radioactive data generation
CN108073851B (zh) 一种抓取手势识别的方法、装置及电子设备
CN108804423A (zh) 医疗文本特征提取与自动匹配方法和***
Panda et al. FALCON: Feature driven selective classification for energy-efficient image recognition
CN110489765A (zh) 机器翻译方法、装置及计算机可读存储介质
CN110442711A (zh) 文本智能化清洗方法、装置及计算机可读存储介质
US20210256045A1 (en) Method for generating question answering robot and computer device
CN112000778A (zh) 一种基于语义识别的自然语言处理方法、装置和***
CN110222226A (zh) 基于神经网络的以词生成节奏的方法、装置及存储介质
Xiang et al. Spiking siamfc++: Deep spiking neural network for object tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant