CN108648767A - 一种流行歌曲情感综合与分类方法 - Google Patents

一种流行歌曲情感综合与分类方法 Download PDF

Info

Publication number
CN108648767A
CN108648767A CN201810305399.2A CN201810305399A CN108648767A CN 108648767 A CN108648767 A CN 108648767A CN 201810305399 A CN201810305399 A CN 201810305399A CN 108648767 A CN108648767 A CN 108648767A
Authority
CN
China
Prior art keywords
song
emotion
music
refrain
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810305399.2A
Other languages
English (en)
Other versions
CN108648767B (zh
Inventor
孙书韬
王永滨
曹轶臻
王�琦
赵庄言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201810305399.2A priority Critical patent/CN108648767B/zh
Publication of CN108648767A publication Critical patent/CN108648767A/zh
Application granted granted Critical
Publication of CN108648767B publication Critical patent/CN108648767B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种流行歌曲情感综合与分类方法涉及音频信息处理领域。首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次,采用一种柔性分段方法将一首歌曲分为N个片段,对每一个片段预测其愉悦度与激烈度;依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签。其优点在于采用柔性分割技术进行V/A情感演化特征提取,分别进行处理,使对不同结构流行歌曲情感分类器的训练更有针对性;采用流行歌曲结构及情感演化特征进行进行歌曲情感分类,与单纯的基于整首歌的统计特性进行综合的方法,更能反映人类对音乐的情感认知过程和特点。

Description

一种流行歌曲情感综合与分类方法
技术领域
本发明涉及音频信息处理领域的一种面向全曲的自动流行音乐情感分类方法.
背景技术
当前针对歌曲情感分类的方法的研究对象多为处理歌曲中的一个片段,一个基本的思路是将片段划分为定长的帧,对帧直接进行情感分类然后统计歌曲片段中占主导地位的情感类型做为歌曲片段的情感类型标签。也有采用帧袋[2]的方式建模,再基于帧袋进行整段歌曲进行分类的,但这些方法没有考虑在欣赏歌曲时人类情感响应的内在特点。实际上,人们对整首歌曲的情感感知受到情感表现在歌曲不同位置出现的影响,也受到情感表现发展过程的影响,传统的帧袋特征忽略了这些因素。人们还提出了采用副歌为代表段进行歌曲情感分类的方案[3],但没有给出根据不同段落进行情感综合的方法。本发明基于歌曲结构规律表现和听众音乐情感识别过程的观察和分析,设计一种二阶段情感综合与分类方法来判别整首歌曲的情感标签。
本发明的歌曲情感综合方法设计主要依据如下观察:一、歌曲情感表现在一定时间段内是稳定的;二、歌曲的不同段落对歌曲整体的情感表达贡献度是不同的,其情感演化对整首音乐的情感认知是有影响的;三、大部分歌曲的结构是遵从一定规律,也就是前奏、尾奏、副歌、主歌等的出现在歌曲的相对位置上遵从一定的规律,尽管可能有例外和不是十分严格。
发明内容
本发明给出一种对流行音乐进行自动歌曲情感综合与分类的技术方案。歌曲情感综合与分类分两阶段,首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次采用一种柔性分段方法将一首歌曲分为N个片段(N的大小与歌曲副歌出现的次数相关),对每一个片段预测其愉悦度与激烈度;其次,依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签。
本发明将歌曲音乐情感综合分为两个阶段。第一为对一首歌的音乐片段的激烈度和愉悦度预测,形成歌曲情感演化序列。
歌曲的情感演化序列是建立在歌曲分段的基础上的。为了完成对一首音乐进行分段,本发明首先需要进行流行歌曲结构分析,并对一首流行歌曲按副歌出现情况进行分类。
流行歌曲的典型结构为前奏、主歌1、副歌、主歌2、副歌、主歌3、副歌、尾奏。不是所有的流行歌曲都严格遵从这一格式,一些歌曲有一定的变化,在主副歌之间可以有桥段等。
本发明采用副歌识别算法进行副歌识别,副歌识别后,一首歌曲将呈现其它段,副歌,其它段,副歌交替出现的模式,其中其它段包括前奏,主歌,桥段或其组合。本发明根据副歌出现的重复模式将流行歌曲分为k类,分为无副歌结构,2次副歌出现,3次副歌出现,...,k次副歌出现结构,一般取k不大于5。如果歌曲模式识别器识别出副歌出现次数大于5,令k=5,将其归为与k=5的歌曲一类,并在后续处理中略掉第六次副歌出现及其后面的音乐内容。为了便于处理,本发明略掉最后一次副歌出现后面的歌曲内容。
在流行音乐歌曲模式检测完成后,如果检测到副歌,会得到各段副歌的起止时间。然后本发明采用一种柔性分段策略对歌曲进行分段,将一首完整的歌曲分为N个片段。为了使一个歌曲片段内的情感表现大体稳定,每个片段的时长应不大于10s。为了对片段在歌曲中的位置有较好的区分度,N要足够大并与歌曲的副歌出现特点有关。
便于处理,本发明设计的柔性分段方案如下:
第一类为无重复副歌结构。对于无重复副歌结构,将歌曲等分为N=N1=40个片段。本发明假定流行歌曲的长度一般不大于400s.如果大于400s,将进行离散采样,等间距取出N1个10s的片段。对于歌曲长度L<400s的歌曲,片段长度Lc=L/N。
第二类为二次重复结构。对于二次重复结构OCOC(C代表副歌片段,O代表其他类别片段),本发明将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N2=4M个片段,其中M为正整数,建议取10。
第三类为三次重复结构。对于三次重复结构OCOCOC,本发明将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N3=6M个片段,其中M为正整数,建议取7。
第四类为四次重复结构,第五类为5次及以上重复结构。对于4次重复结构OCOCOCOC,和5以上次重复结构,分段方法与前面的重复结构类似,相应分为N=N4=8M和N=N5=10M段,M分别建议取5和4。
为了识别音乐片段的的情感,本发明基于音乐有序片段的情感数据集训练音乐片段情感预测器。音乐片段情感的预测中采用Thayer的Valence-Arousal(V-A)模型[1]来表示情感,分为愉悦度(valence)和激烈度(arousal)两个维度。愉悦度表示情感的正面和负面属性,激烈度指示情感的强烈程度(intensity)。音乐情感表示为激烈度和愉悦度指数<v,a>,v,a的取值范围为[-1,+1]之间的实数。面向音乐片段的情感预测模型是由具有稳定情感表达的音乐片段经训练所得,本发明称之为V/A预测器,是由音乐片段声学特征到V/A值的一个映射,其一般表示如式1,2,具体根据实施时选择的分类器而有所不同。
V=fV(x1,x2,…,xi,…,xn) (1)
A=fA(x1,x2,…,xi,…,xn) (2)
其中xi(i=1,...,n)为音乐片段的第i个声学特征值,n为进行V/A值预测式选取的音乐声学特征数量。
对于一首完整的流行歌曲,为了识别整首歌曲的情感分类,需要根据整首音乐情感表现进行综合分类。为了准确综合一首歌曲的情感,本发明首先识别歌曲的不同结构模式,为不同结构的歌曲训练不同的情感分类器进行歌曲情感综合与分类。本发明认为,结构相似的歌曲,其相对位置相同的歌曲片段在歌曲情感表现中充当的角色有一定的相似性。对于每一首歌曲,经过分片情感预测,会得到N个激烈度指数和N个愉悦度指数,这两组指数可以组合成一个序列E=<a1,v1,a2,v2,...,aN,vN>作为情感综合的输入特征。在情感综合阶段,本发明采用这个序列来预测一首歌曲的情感标签,此特征不但反映了整首歌曲的情感统计特性,还反映了歌曲情感表现的时序特性及不同音乐片段的情感表现。
为了完成整首歌情感综合,本发明需要训练用于歌曲情感综合的分类器。其输入为某一类结构歌曲情感演化序列E,输出为歌曲情感标签。歌曲情感综合分类器将针对不同副歌出现模式的歌曲分别训练,得到5个歌曲情感综合分类器,与前述歌曲模式归类相对应。歌曲情感演化序列E的获取依赖于前述歌曲模式识别与歌曲分段以及A/V预测器。歌曲情感综合的分类器fj,的一般形式如式3,具体函数形式根据实施选择的分类器有所不同。
fj为第j类结构对应的情感综合分类函数。Lj为采用fj所得的分类标签,Nj含义为五种结构歌曲进行分片的对应片数,fj的输入为对应结构歌曲的情感演化序列。
本发明所提出的方法的***框架如附图1,主要包括V/A预测器训练模块、情感分类器训练模块和歌曲情感综合分类模块。歌曲情感情感综合分类模块分两个阶段实现,第一阶段进行歌曲模式识别分割与情感演化序列生成,第二阶段采用分类器进行整首歌曲的情感综合与分类。
本发明给出了一种考虑音乐不同位置与段落的情感表现对整首歌曲情感标签影响的情感综合方法。其优点在于(1)采用预分类流行音乐副歌出现模式的方法,依据结构特征对流行歌曲进行预归类,采用柔性分割技术进行V/A情感演化特征提取,分别进行处理,使对不同结构流行歌曲情感分类器的训练更有针对性;(2)采用流行歌曲结构及情感演化特征进行进行歌曲情感分类,与单纯的基于整首歌的统计特性进行综合的方法,更能反映人类对音乐的情感认知过程和特点。
附图说明
图1一种流行音乐情感综合与分类方法***架构图
图2副歌检测步骤
图3音调特征矩阵示例(450节拍,12个音调)
图4一个基于音调特征的自相似矩阵的示例
图5一种流行音乐情感综合与分类方法实施例***架构图
具体实施方式:
V/A预测器训练模块完成流行歌曲V/A预测器的训练,主要包括音乐片段特征提取和训练两个子模块。特征提取子模块负责提取片段的音色、音调、节拍等声学特征。然后与对应的A/V标注值一起输入A/V预测器训练模块进行训练。
情感分类器训练模块包括特征提取、歌曲模式识别、歌曲分割、V/A预测器、情感分类器训练子模块。特征提取子模块负责歌曲声学特征提取,歌曲模式识别模块识别出流行歌曲模式和各段的分割位置,歌曲分割模块根据歌曲模式、各段分割位置和歌曲长度,完成柔性分割,形成不长于10s的歌曲片段,经V/A预测器产生情感演化系列,与歌曲情感标签一起输入情感分类器训练子模块进行情感分类器训练。
歌曲情感综合分类模块主要包括特征提取、歌曲模式识别、歌曲分割、V/A预测、情感分类几个子模块。由V/A预测器产生的情感演化序列进入情感分类器后,情感分类器根据歌曲模式识别的结果选择对应的预测模型进行一首歌曲的情感综合与分类,输出最有可能的情感标签或情感排序结果。
为了实施本发明,需要一定数量的已标注的流行音乐素材,包括流行音乐片段V/A值标注和整首流行音乐情感标签标注。V/A值标注采用区间的数值,如愉悦度V取[-1,+1]之间的实数,-1代表极端负面情绪,+1代表极端正面情绪;活动度取[-1,+1]之间的数值,-1代表非常平缓,+1代表活动度非常激烈。情感标签通常分为激昂、高兴、愉快、轻松、平静、悲伤、愤怒、宣泄、紧张、无聊等,情感标签不限于上述几种,与应用相关。
本发明实施例中可以但不限于提取如表1的音乐声学特征用于训练V/A预测器。V/A预测器在本实施例中采用多元线性回归预测。输入数据为流行音乐片段的声学特征和标注V/A值,输出为预测器参数。本实施例的V/A预测器可以分别训练愉悦度V与激烈度A的回归预测器。以愉悦度V回归预测器为例,其预测函数如公式4,其损失函数J如公式5。
V=hθ(x0,x2,...,xn)=θTx=θ0x01x12x2+…+θnxn (4)
其中hθ为愉悦度回归预测函数,θ=(θ0,...,θn)为模型参数,x=(x0,...,xn),x0=1,x1,...,xn为提取的音乐声学特征值。
其中m为训练用例数量,v(i)为第i个训练用例的愉悦度V标注值,x(i)为第i个训练用例的声学特征向量。训练V预测器采用梯度下降的法进行。
A值预测器的模型与训练方案与V值预测器类似。
本发明实施的另一个步骤是进行流行歌曲模式检测。本发明流行歌曲模式的识别的实施例采用基于自相似矩阵的副歌检测方法。具体步骤如图2.
本发明实施首先采用已有算法检测音乐信号中的节奏点的时间序列。在提取到音乐的节奏时间序列之后,依据提取到的节奏时间点进行分帧并加窗,然后提取歌曲每一帧的音调(Chroma)特征,Chroma特征是一个12维向量p=(p1,...,p12),对应12个音高类别C,C#,D,D#,E,F,F#,G,G#,A,A#,B,将一个节拍内所有帧的Chroma特征值进行平均,作为这一个节拍的的Chroma特征。一首歌曲Chroma特征矩阵示例如图3所示。
进行特征提取之后,使用如下的公式来计算每个节拍的音调特征向量与其他节拍的音调特征向量之间的距离:
其中,S是自相似矩阵,S(i,j)是矩阵S的元素,d是距离函数,本实施例采用欧氏距离,pi和pj分别是第i和第j个节拍的音调特征向量,m是音乐节拍数。图4是一个自相似矩阵的示例。从自相似矩阵中可以看到其中含有一些与主对角线平行的线段,这些线段表示了歌曲的重复段落。
计算出新的自相似矩阵S之后,本发明实施例通过检测自相似矩阵S中的对角线条纹来检测歌曲中的重复片段。在具体实施中,根据已有研究成果,一般取距离最短的2%的点为1,其它点为0进行二值化,所得的二值化后的相似矩阵基本包含了原始相似矩阵的片段相似信息。然后在二值化距离矩阵上进行副歌检测。由于噪声的影响,二值矩阵中,数值为1的点较为分散,因此需要将二值矩阵B沿对角线方向进行增强。在对角线方向上,如果两个值为1的点之间的时间距离<=1秒,将其间的点置1.另一个处理是对于那些时间长度<=2秒的条纹,直接将其置为0,因为过短的重复条纹是副歌的可能不大。
经过这样处理后,会有一些条纹其代表的音乐片段有重叠,对于这样的条纹要进行合并,合并的准则为如果两个条纹代表的音乐片段有80%以上的重合,就进行合并,用一条合并后的新条纹代表,这样又可以进一步减少候选条纹数量。然后挑出最长的30条条纹进行后续处理。
剩余的线段代表重复的歌曲片段,如果根据检测到的片段得到A片段与B片段重复,B片段与C片段重复,则可以说A,B,C片段重复了三次。本发明选择重复次数最大并且长度大于10秒的音乐片段为副歌。这样一首歌曲就会被分为其它段与副歌交替出现的形式,可以对其进行模式归类。
采用上述的音乐模式判别器和V/A预测器,可以对标注了情感类别的音乐进行音乐模式判别和情感演化序列E的提取。得到情感演化序列后,就可以进行情感分类器的训练。
本发明实施例选用支持向量机(SVM)分类器,对一种模式歌曲情感分类器的训练输入为其情感演化序列和情感标签,输出为SVM模型参数。
训练得到的SVM分类模型就可以用于进行新歌曲的情感分类了。
附表1可选的音乐声学特征
[1]R.E.Thayer,The Biopsychology of Mood and Arousal.Oxford,U.K.:Oxford Univ.Press,1989.
[2]J.-C.Wang,H.-S.Lee,H.-M.Wang,and S.-K.Jeng,“Learning thesimilarity of audio music in bag-of-frames representation from tagged musicdata,”in Proc.Int.Society for Music Information Retrieval Conference,2011,pp.85–90.
[3]Chia-Hung Yeh,Yu-Dun Lin,Ming-Sui Lee2and Wen-Yu Tseng,PopularMusic Analysis:Chorus and Emotion Detection,Proceedings of the Second APSIPAAnnual Summit and Conference,pages 907–910,Biopolis,Singapore,14-17December2010

Claims (5)

1.一种流行歌曲情感综合与分类方法,其特征在于分两阶段,首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次采用一种柔性分段方法将一首歌曲分为N个片段,对每一个片段预测其愉悦度与激烈度;其次,依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签。
2.根据权利要求1所述的方法,其特征在于,对一首歌的音乐片段的激烈度和愉悦度预测,形成歌曲情感演化序列。
采用副歌识别算法进行副歌识别,副歌识别后,一首歌曲将呈现其它段,副歌,其它段,副歌交替出现的模式,其中其它段包括前奏,主歌,桥段或其组合。根据副歌出现的重复模式将流行歌曲分为k类,分为无副歌结构,2次副歌出现,3次副歌出现,...,k次副歌出现结构,取k不大于5.如果歌曲模式识别器识别出副歌出现次数大于5,令k=5,将其归为与k=5的歌曲一类,并在后续处理中略掉第六次副歌出现及其后面的音乐内容。在流行音乐歌曲模式检测完成后,如果检测到副歌,会得到各段副歌的起止时间。然后采用一种柔性分段策略对歌曲进行分段,将一首完整的歌曲分为N个片段。每个片段的时长应不大于10s。设计的柔性分段方案如下:
第一类为无重复副歌结构。对于无重复副歌结构,将歌曲等分为N=N1=40个片段。假定流行歌曲的长度一般不大于400s.如果大于400s,将进行离散采样,等间距取出N1个10s的片段。对于歌曲长度L<400s的歌曲,片段长度Lc=L/N。
第二类为二次重复结构。对于二次重复结构OCOC,其中C代表副歌片段,O代表其他类别片段,将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N2=4M个片段,其中M为正整数,建议取10。
第三类为三次重复结构。对于三次重复结构OCOCOC,将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N3=6M个片段,其中M为正整数,建议取7。
第四类为四次重复结构,第五类为5次及以上重复结构。对于4次重复结构 OCOCOCOC,和5以上次重复结构,分段方法与前面的重复结构类似,相应分为N=N4=8M和N=N5=10M段,M分别建议取5和4。
3.根据权利要求1所述的方法,其特征在于,基于音乐有序片段的情感数据集训练音乐片段情感预测器。音乐片段情感的预测中采用Thayer的Valence-Arousal(V-A)模型来表示情感,分为愉悦度(valence)和激烈度(arousal)两个维度。愉悦度表示情感的正面和负面属性,激烈度指示情感的强烈程度(intensity)。音乐情感表示为激烈度和愉悦度指数<v,a>,v,a的取值范围为[-1,+1]之间的实数。面向音乐片段的情感预测模型是由具有稳定情感表达的音乐片段经训练所得,称之为V/A预测器,是由音乐片段声学特征到V/A值的一个映射,其一般表示如式1,2,具体根据实施时选择的分类器而有所不同。
V=fV(x1,x2,…,xi,…,xn) (1)
A=fA(x1,x2,…,xi,…,xn) (2)
其中xi(i=1,...,n)为音乐片段的第i个声学特征值,n为进行V/A值预测式选取的音乐声学特征数量。
对于每一首歌曲,经过分片情感预测,会得到N个激烈度指数和N个愉悦度指数,这两组指数可以组合成一个序列E=<a1,v1,a2,v2,...,aN,vN>作为情感综合的输入特征。在情感综合阶段,采用这个序列来预测一首歌曲的情感标签,
训练用于歌曲情感综合的分类器,其输入为某一类结构歌曲情感演化序列E,输出为歌曲情感标签。歌曲情感综合分类器将针对不同副歌出现模式的歌曲分别训练,得到5个歌曲情感综合分类器,与前述歌曲模式归类相对应。歌曲情感演化序列E的获取依赖于前述歌曲模式识别与歌曲分段以及A/V预测器。歌曲情感综合的分类器fj,的形式如式3。
fj为第j类结构对应的情感综合分类函数。Lj为采用fj所得的分类标签,Nj含义为五种结构歌曲进行分片的对应片数,fj的输入为对应结构歌曲的情感演化序列。
4.根据权利要求1所述的方法,其特征在于,V/A预测器采用多元线性回归预测。输入数据为流行音乐片段的声学特征和标注V/A值,输出为预测器参数。V/A预测器分别训练愉悦度V与激烈度A的回归预测器。以愉悦度V回归预测器为例,其预测函数如公式4,其损失函数J如公式5。
V=hθ(x0,x2,...,xn)=θTx=θ0x01x12x2+…+θnxn (4)
其中hθ为愉悦度回归预测函数,θ=(θ0,...,θn)为模型参数,x=(x0,...,xn),x0=1,x1,...,xn为提取的音乐声学特征值。
其中m为训练用例数量,v(i)为第i个训练用例的愉悦度V标注值,x(i)为第i个训练用例的声学特征向量。训练V预测器采用梯度下降的法进行。
5.根据权利要求1所述的方法,其特征在于,首先采用已有算法检测音乐信号中的节奏点的时间序列。在提取到音乐的节奏时间序列之后,依据提取到的节奏时间点进行分帧并加窗,然后提取歌曲每一帧的音调Chroma特征,进行特征提取之后,使用如下的公式来计算每个节拍的音调特征向量与其他节拍的音调特征向量之间的距离:
其中,S是自相似矩阵,S(i,j)是矩阵S的元素,d是距离函数,采用欧氏距离,pi和pj分别是第i和第j个节拍的音调特征向量,m是音乐节拍数。
计算出新的自相似矩阵S之后,通过检测自相似矩阵S中的对角线条纹来检测歌曲中的重复片段。取距离最短的2%的点为1,其它点为0进行二值化,得到二值化后的相似矩阵然后在二值化距离矩阵上进行副歌检测。将二值矩阵B沿对角线方向进行增强。在对角线方向上,如果两个值为1的点之间的时间距离<=1秒,将其间的点置1.另一个处理是对于那些时间长度<=2秒的条纹,直接将其置为0。
经过这样处理后,会有一些条纹其代表的音乐片段有重叠,对于这样的条纹要进行合并,合并的准则为如果两个条纹代表的音乐片段有80%以上的重合,就进行合并,用一条合并后的新条纹代表,这样又可以进一步减少候选条纹数量。然后挑出最长的30条条纹进行后续处理。
剩余的线段代表重复的歌曲片段,如果根据检测到的片段得到A片段与B片段重复,B片段与C片段重复,则可以说A,B,C片段重复了三次。选择重复次数最大并且长度大于10秒的音乐片段为副歌。这样一首歌曲就会被分为其它段与副歌交替出现的形式,然后对其进行模式归类。
采用上述的音乐模式判别器和V/A预测器,对标注了情感类别的音乐进行音乐模式判别和情感演化序列E的提取。得到情感演化序列后,进行情感分类器的训练。
选用支持向量机(SVM)分类器,对一种模式歌曲情感分类器的训练输入为其情感演化序列和情感标签,输出为SVM模型参数。
训练得到的SVM分类模型用于进行新歌曲的情感分类。
CN201810305399.2A 2018-04-08 2018-04-08 一种流行歌曲情感综合与分类方法 Expired - Fee Related CN108648767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810305399.2A CN108648767B (zh) 2018-04-08 2018-04-08 一种流行歌曲情感综合与分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810305399.2A CN108648767B (zh) 2018-04-08 2018-04-08 一种流行歌曲情感综合与分类方法

Publications (2)

Publication Number Publication Date
CN108648767A true CN108648767A (zh) 2018-10-12
CN108648767B CN108648767B (zh) 2021-11-05

Family

ID=63745734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810305399.2A Expired - Fee Related CN108648767B (zh) 2018-04-08 2018-04-08 一种流行歌曲情感综合与分类方法

Country Status (1)

Country Link
CN (1) CN108648767B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299312A (zh) * 2018-10-18 2019-02-01 湖南城市学院 基于大数据的音乐节奏分析方法
CN109829067A (zh) * 2019-03-05 2019-05-31 北京达佳互联信息技术有限公司 音频数据处理方法、装置、电子设备及存储介质
CN110134823A (zh) * 2019-04-08 2019-08-16 华南理工大学 基于归一化音符显马尔可夫模型的midi音乐流派分类方法
CN110377786A (zh) * 2019-07-24 2019-10-25 中国传媒大学 音乐情感分类方法
CN110808065A (zh) * 2019-10-28 2020-02-18 北京达佳互联信息技术有限公司 副歌检测方法、装置、电子设备及存储介质
CN111462774A (zh) * 2020-03-19 2020-07-28 河海大学 一种基于深度学习的音乐情感可信分类方法
CN111583890A (zh) * 2019-02-15 2020-08-25 阿里巴巴集团控股有限公司 音频分类方法和装置
CN111601433A (zh) * 2020-05-08 2020-08-28 中国传媒大学 舞台灯光效果控制策略的预测方法及装置
GB2583455A (en) * 2019-04-03 2020-11-04 Mashtraxx Ltd Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
GB2584598A (en) * 2019-04-03 2020-12-16 Mashtraxx Ltd Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
CN112614511A (zh) * 2020-12-10 2021-04-06 央视国际网络无锡有限公司 一种歌曲情感检测的方法
CN112989105A (zh) * 2019-12-16 2021-06-18 黑盒子科技(北京)有限公司 一种音乐结构的分析方法及***
CN113129871A (zh) * 2021-03-26 2021-07-16 广东工业大学 基于音频信号及歌词的音乐情绪识别方法及***
US11068782B2 (en) 2019-04-03 2021-07-20 Mashtraxx Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
CN114446323A (zh) * 2022-01-25 2022-05-06 电子科技大学 一种动态多维度的音乐情感分析方法及***
US11544565B2 (en) 2020-10-02 2023-01-03 Emotional Perception AI Limited Processing system for generating a playlist from candidate files and method for generating a playlist

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080019031A (ko) * 2005-06-01 2008-02-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 장치
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
KR20120021174A (ko) * 2010-08-31 2012-03-08 한국전자통신연구원 감정 모델을 이용한 음악 검색 장치 및 방법
CN102930865A (zh) * 2012-09-21 2013-02-13 重庆大学 一种波形音乐粗情感软切割分类方法
CN105931625A (zh) * 2016-04-22 2016-09-07 成都涂鸦科技有限公司 基于文字输入的说唱音乐自动生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080019031A (ko) * 2005-06-01 2008-02-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 장치
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
KR20120021174A (ko) * 2010-08-31 2012-03-08 한국전자통신연구원 감정 모델을 이용한 음악 검색 장치 및 방법
CN102930865A (zh) * 2012-09-21 2013-02-13 重庆大学 一种波形音乐粗情感软切割分类方法
CN102930865B (zh) * 2012-09-21 2014-04-09 重庆大学 一种波形音乐粗情感软切割分类方法
CN105931625A (zh) * 2016-04-22 2016-09-07 成都涂鸦科技有限公司 基于文字输入的说唱音乐自动生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙向琨: "音乐内容和歌词相结合的歌曲情感分类方法研究", 《硕士学位论文》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299312A (zh) * 2018-10-18 2019-02-01 湖南城市学院 基于大数据的音乐节奏分析方法
CN109299312B (zh) * 2018-10-18 2021-11-30 湖南城市学院 基于大数据的音乐节奏分析方法
CN111583890A (zh) * 2019-02-15 2020-08-25 阿里巴巴集团控股有限公司 音频分类方法和装置
CN109829067A (zh) * 2019-03-05 2019-05-31 北京达佳互联信息技术有限公司 音频数据处理方法、装置、电子设备及存储介质
US11494652B2 (en) 2019-04-03 2022-11-08 Emotional Perception AI Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
US11068782B2 (en) 2019-04-03 2021-07-20 Mashtraxx Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
GB2584598B (en) * 2019-04-03 2024-02-14 Emotional Perception Ai Ltd Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
US11645532B2 (en) 2019-04-03 2023-05-09 Emotional Perception AI Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
GB2583455A (en) * 2019-04-03 2020-11-04 Mashtraxx Ltd Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
GB2584598A (en) * 2019-04-03 2020-12-16 Mashtraxx Ltd Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
US11080601B2 (en) 2019-04-03 2021-08-03 Mashtraxx Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
CN110134823B (zh) * 2019-04-08 2021-10-22 华南理工大学 基于归一化音符显马尔可夫模型的midi音乐流派分类方法
CN110134823A (zh) * 2019-04-08 2019-08-16 华南理工大学 基于归一化音符显马尔可夫模型的midi音乐流派分类方法
CN110377786A (zh) * 2019-07-24 2019-10-25 中国传媒大学 音乐情感分类方法
CN110808065A (zh) * 2019-10-28 2020-02-18 北京达佳互联信息技术有限公司 副歌检测方法、装置、电子设备及存储介质
CN112989105A (zh) * 2019-12-16 2021-06-18 黑盒子科技(北京)有限公司 一种音乐结构的分析方法及***
CN112989105B (zh) * 2019-12-16 2024-04-26 黑盒子科技(北京)有限公司 一种音乐结构的分析方法及***
CN111462774A (zh) * 2020-03-19 2020-07-28 河海大学 一种基于深度学习的音乐情感可信分类方法
CN111601433A (zh) * 2020-05-08 2020-08-28 中国传媒大学 舞台灯光效果控制策略的预测方法及装置
US11977845B2 (en) 2020-10-02 2024-05-07 Emotional Perception AI Limited System and method for evaluating semantic closeness of data files
US11544565B2 (en) 2020-10-02 2023-01-03 Emotional Perception AI Limited Processing system for generating a playlist from candidate files and method for generating a playlist
CN112614511A (zh) * 2020-12-10 2021-04-06 央视国际网络无锡有限公司 一种歌曲情感检测的方法
CN113129871A (zh) * 2021-03-26 2021-07-16 广东工业大学 基于音频信号及歌词的音乐情绪识别方法及***
CN114446323A (zh) * 2022-01-25 2022-05-06 电子科技大学 一种动态多维度的音乐情感分析方法及***

Also Published As

Publication number Publication date
CN108648767B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN108648767A (zh) 一种流行歌曲情感综合与分类方法
Kong et al. High-resolution piano transcription with pedals by regressing onset and offset times
Cramer et al. Look, listen, and learn more: Design choices for deep audio embeddings
Lee et al. Multi-level and multi-scale feature aggregation using pretrained convolutional neural networks for music auto-tagging
Vogl et al. Drum Transcription via Joint Beat and Drum Modeling Using Convolutional Recurrent Neural Networks.
Gururani et al. An attention mechanism for musical instrument recognition
Oikarinen et al. Deep convolutional network for animal sound classification and source attribution using dual audio recordings
de Benito-Gorron et al. Exploring convolutional, recurrent, and hybrid deep neural networks for speech and music detection in a large audio dataset
US20200075019A1 (en) System and method for neural network orchestration
Parekh et al. Weakly supervised representation learning for audio-visual scene analysis
US20200066278A1 (en) System and method for neural network orchestration
Hou et al. Transfer learning for improving singing-voice detection in polyphonic instrumental music
Morfi et al. Data-efficient weakly supervised learning for low-resource audio event detection using deep learning
Hernandez-Olivan et al. Music boundary detection using convolutional neural networks: A comparative analysis of combined input features
Jeong et al. Audio tagging system using densely connected convolutional networks.
Jallet et al. Acoustic scene classification using convolutional recurrent neural networks
Mounika et al. Music genre classification using deep learning
Kalinli et al. Saliency-driven unstructured acoustic scene classification using latent perceptual indexing
Foucard et al. Multi-scale temporal fusion by boosting for music classification.
Pons Puig Deep neural networks for music and audio tagging
Cumming et al. Using corpus studies to find the origins of the madrigal
CN115130650A (zh) 一种模型训练方法及相关装置
Zhang et al. An improved system for dcase 2019 challenge task 4
O’Brien Musical Structure Segmentation with Convolutional Neural Networks
Singh et al. Deep multi-view features from raw audio for acoustic scene classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211105