CN111681674A - 一种基于朴素贝叶斯模型的乐器种类识别方法和*** - Google Patents

一种基于朴素贝叶斯模型的乐器种类识别方法和*** Download PDF

Info

Publication number
CN111681674A
CN111681674A CN202010483915.8A CN202010483915A CN111681674A CN 111681674 A CN111681674 A CN 111681674A CN 202010483915 A CN202010483915 A CN 202010483915A CN 111681674 A CN111681674 A CN 111681674A
Authority
CN
China
Prior art keywords
music
naive bayes
bayes model
instrument
musical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010483915.8A
Other languages
English (en)
Other versions
CN111681674B (zh
Inventor
丁戌倩
梁循
武文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN202010483915.8A priority Critical patent/CN111681674B/zh
Publication of CN111681674A publication Critical patent/CN111681674A/zh
Application granted granted Critical
Publication of CN111681674B publication Critical patent/CN111681674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及一种基于朴素贝叶斯模型的乐器种类识别方法和***,包括以下步骤:S1将待识别的乐曲分为若干音频帧;S2提取音频帧中的时域信息、频域信息与倒频域信息以及梅尔频率倒谱系数,形成与音频帧对应的特征向量;S3将若干个乐器对应的音频特征向量和所有的音频帧对应的特征向量输入至朴素贝叶斯模型,根据乐器出现在乐曲中的概率对乐器进行识别。其通过这种数据化的音乐特征提取的方式,实现人工智能对乐器的种类、音色、技法的识别,帮助精细化区分其同质化和异质化乐器之间的关系,尤其是同质性乐器种类的音响细分、音色相似度、技术重合度的人工分离和精准辨别。

Description

一种基于朴素贝叶斯模型的乐器种类识别方法和***
技术领域
本发明是关于一种基于朴素贝叶斯模型的乐器种类识别方法和***,属于乐器识别技术领域。
背景技术
近年来,随着互联网时代的快速发展,音乐的应用越来越多的影响着人们的日常生活,数字音乐在娱乐领域也呈现***式的增长,人们的生活中并不缺少音乐,音乐社区逐渐普及、P2P的传播方式也逐渐盛行开来,如何帮助人们找到自己需要的音乐则是音乐识别技术未来发展的重要方向。随着音乐识别技术的发展,从歌名、歌手等文本方面进行音乐识别已经广泛普及,到了九十年代发展到基于旋律和节奏等乐理特征的识别,这种基于乐理特征的识别技术出现后就直接成为了应用极为广泛的技术,并且推动了音乐识别技术的发展。1980-1996年,基于音乐识别的专利申请开始起步,但总量不多,从1998年开始至2008年,音乐识别技术的专利数量开始增加,也是音乐识别技术的快速发展阶段,其中包括基于文本属性、旋律节奏属性的情感识别和音乐风格识别。
目前,对乐曲中使用的乐器进行识别的***还不多见。这是因为,对于数据集规模比较大的曲库,相较于文本属性特征或是旋律节奏识别,识别乐曲所使用的乐器存在较大难度,虽然某些乐器之间,从波形图来分析具有很大的区别度,但仅单独从音调、尖声和响度等特征,对乐曲中乐器进行识别是远远不够的,因此有必要对更精准,更具有表征性的音频特征分析,才能实现区别不同乐器弹奏的不同声音。音色是声音质量的属性,而非声音的响度和强度,能区分不同乐器演奏同一乐符在听觉上的不同。例如,人的听觉***可以区分出4410Hz的小提琴和双簧管,原因在于它们的高频泛音成分不相同,高频成分的幅度也不相同,而这种不同就是音色。故区分乐曲中不同乐器的关键点就是对乐器的音色进行区分,但如何以特征值的方式对乐曲进行表征是本领域亟待解决的问题。
发明内容
针对上述现有技术的不足,本发明的目的是提供了一种基于朴素贝叶斯模型的乐器种类识别方法和***,其通过这种数据化的音乐特征提取的方式,实现人工智能对乐器的种类、音色、技法的识别,帮助精细化区分其同质化和异质化乐器之间的关系,尤其是同质性乐器种类的音响细分、音色相似度、技术重合度的人工分离和精准辨别。
为实现上述目的,本发明提供了一种基于朴素贝叶斯模型的乐器种类识别方法,包括以下步骤:S1将待识别的乐曲分为若干音频帧;S2提取音频帧中的时域信息、频域信息与倒频域信息以及梅尔频率倒谱系数,形成与音频帧对应的特征向量;S3将已有的若干个乐器对应的音频特征向量和所有的音频帧对应的特征向量输入至朴素贝叶斯模型,根据乐器出现在乐曲中的概率对乐器进行识别。
进一步,若乐器出现在乐曲中的概率超过阈值,则判断乐器出现在乐曲中,若乐器出现在乐曲中的概率未超过阈值,则判断乐器没有出现在乐曲中。
进一步,乐曲中使用的乐器包括主要乐器和次要乐器,通过朴素贝叶斯方法模型获得各乐器出现在乐曲中的概率区分主要乐器和次要乐器。
进一步,出现在乐曲中的概率最高的乐器为主要乐器,其他出现在乐曲中的乐器为次要乐器。
进一步,朴素贝叶斯模型的输出公式为:
Figure BDA0002518253570000021
其中,Xi代表一首乐曲X的某一帧,一共有z帧;yj代表某一种乐器,一共有n种乐器。
进一步,S3的具体操作过程为:S3.1将若干个乐器对应的音频特征向量和音频帧对应的特征向量输入至经过预训练的朴素贝叶斯模型;S3.2采用朴素贝叶斯模型的输出公式计算P(y1|Xi),P(y2|Xi),…,P(yn|Xi);S3.3通过公式
Figure BDA0002518253570000022
得到乐器yj出现在乐曲X中的概率。
进一步,经过预训练的朴素贝叶斯模型的预训练过程为:向原始朴素贝叶斯模型输入演奏乐器类型已知的乐曲,乐曲根据朴素贝叶斯模型的输出公式获得某一乐器出现在乐曲中的概率,判断概率是否超过阈值,将判断结果与实际演奏乐曲的类型进行比较,若结果相同,则输入朴素贝叶斯模型为最终输出模型;若结果不相同,则调整朴素贝叶斯模型的输出公式,直至结果相同为止。
进一步,频域信息通过将对每一音频帧做傅里叶变换获得,倒频域信息通过将频域信息构成的频域图进行旋转,并用灰度图表示频域图的幅度获得;时域信息通过将频域图按照时间维度堆叠获得。
进一步,对若干音频帧加上汉明Hanmming窗以防止频率泄漏。
本发明还公开了一种基于朴素贝叶斯模型的乐器种类识别***,包括:预处理模块,用于将待识别的乐曲分为若干音频帧;特征提取模块,用于提取音频帧中的时域信息、频域信息与倒频域信息以及梅尔频率倒谱系数,形成与音频帧对应的特征向量;识别模块,用于将若干个乐器对应的音频特征向量和所有的音频帧对应的特征向量输入至朴素贝叶斯模型,根据乐器出现在乐曲中的概率对乐器进行识别。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明通过这种数据化的音乐特征提取的方式,实现人工智能对乐器的种类、音色、技法的识别,帮助精细化区分其同质化和异质化乐器之间的关系,尤其是同质性乐器种类的音响细分、音色相似度、技术重合度的人工分离和精准辨别。
2、本发明中对音乐特征的提取、提取的特征相量的方式,可以减少乐曲中乐器识别的时间消耗,且不会影响乐器识别的精度和准确性。
3、本发明中方法能够广泛地应用在音乐欣赏、音乐分类和音乐推荐等多个领域,由于乐曲中使用的乐器在很大程度上影响着乐曲的风格,因此本发明在音乐信息检索中也会发挥一定作用。
4、本发明采用朴素贝叶斯分类模型对乐曲进行训练,采用概率的方式表征乐曲中可能对应的乐器,使人工智能模型学习可以应用于音乐中的关键元素以及常见的音乐结构与规则识别,为人工智能更好的应用于音乐领域,如修音、作曲等方面提供了参考和借鉴。
附图说明
图1是本发明一实施例中基于朴素贝叶斯模型的乐器种类识别方法的流程图;
图2是本发明一实施例中对于乐曲进行预处理过程的流程图;
图3是本发明一实施例中音频帧音色特征提取过程的流程图;
图4是本发明一实施例中音频帧梅尔倒谱系数特征特征提取过程的流程图;
图5是本发明一实施例中朴素贝叶斯分类模型识别过程的流程图;
图6是本发明一实施例中朴素贝叶斯分类模型训练过程的流程图。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方向,通过具体实施例对本发明进行详细的描绘。然而应当理解,具体实施方式的提供仅为了更好地理解本发明,它们不应该理解成对本发明的限制。在本发明的描述中,需要理解的是,所用到的术语仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。
本发明是通过提取乐曲的音色特征和梅尔倒谱系数(MFCC)特征融合形成乐曲的特征向量,将特征向量作为输入,使用朴素贝叶斯模型识别演奏乐曲的乐器,演奏乐曲的乐器包括起主导作用的主要乐器以及和主导乐器配合的几种次要乐器,例如一首乐曲是钢琴主旋律,即钢琴为主要乐器,该乐曲还包括小提琴、长笛等乐曲的伴奏,即小提琴、长笛等乐曲为次要乐器。本发明中的技术方案还可以用于区分次要乐器中各乐器的重要程度。
实施例一
一种基于朴素贝叶斯模型的乐器种类识别方法,如图1所示,包括以下步骤:
S1将待识别的乐曲分为若干音频帧,确定音频帧的帧数。如图2所示,将原始数据集中的每首乐曲都划分为多个音频帧。紧接着对音频帧加上汉明Hanmming窗以防止频率泄漏,作用是为了使帧和帧之间变得平滑,消除吉布斯效应。为了既保存时域信息同时也保存频域信息,需要对经过分帧和加窗后的音频帧进行短时傅里叶变换,以获得声谱图。
短时傅里叶变换生成声谱图的过程为:
对乐曲的长信号进行分帧,加窗口;对每一帧音频帧做傅里叶变换;此时的音频帧为短时信号,即为短时傅里叶变换。将频谱图旋转;将频谱图幅度用灰度图来表示;将傅里叶变换获得的频域图按照时间维度堆叠最后就会得到声谱图。频域信息通过将对每一音频帧做傅里叶变换获得,倒频域信息通过将频域信息构成的频域图进行旋转,并用灰度图表示频域图的幅度获得;时域信息通过将频域图按照时间维度堆叠获得。
S2提取音频帧中的时域信息、频域信息与倒频域信息以及梅尔频率倒谱系数,形成与音频帧对应的特征向量。
如图3所示,基于MPEG-7(Multimedia Content Description Interface)标准,从时域(音色的时间域)、频域(音色波形的频率)与倒频域(反向的音色波形频率)三个层面对乐器音色进行特征性捕捉,对原始数据集中每首乐曲的每一帧这三个层面的音色特征元素进行精细提取与存储。
如图4所示,提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的过程为:
2.1预加重
如果数据在低频的强度大于高频,就会不利于处理,因此需要滤去数据中的低频成分,使高频特性更加突现。
2.2分帧
分帧就是将N个采样点集合成一个观测单位。设定每帧涵盖的时间是25ms,因为采样率是16000,所以得到每帧的样本点个数是400。另外,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域。设定的重叠区域是15ms,所以就是每隔10ms取一帧。
2.3对每一帧加窗
由于转换时会将帧内信号当作周期信号处理,所以在帧的两个端点处会发生突变,转换出来的频谱与原信号频谱差别很大。所以要对每一帧加窗,使帧内信号作傅里叶变换时的两个端点处不会发生突变。
2.4对每一帧补零
由于要对每一帧信号进行傅里叶变换,而傅里叶变换要求输入数据长度为一定值,现在一帧为400个采样点,所以补零至最接近的512位。
2.5各帧信号的傅里叶变换
对分帧加窗后的各帧信号进行512点的傅里叶变换得到各帧的频谱。并对语音信号的频谱取绝对值或平方得到语音信号的功率谱。
2.6梅尔滤波
40个三角滤波器在梅尔谱上均匀分布,每两个滤波器间有50%的重叠部分。所以要先把实际频率转换成梅尔频率,实际频率最小为0Hz,最大为16000/2=8000Hz。转换成梅尔频率后,计算这40个三角滤波器的梅尔频率分布,然后把梅尔频率转换成实际频率。
2.7取对数
三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
2.8离散余弦变换(DCT变换)
对对数能量梅尔谱进行DCT变换,取前13维输出,得到梅尔倒谱。
2.9归一化
对所有的梅尔倒谱归一化。先求出所有倒谱向量的均值向量,再用每一个倒谱向量减去均值向量,得到梅尔频率倒谱系数输出特征向量。
S3将已有的若干个乐器对应的音频特征向量和所有的音频帧对应的特征向量输入至朴素贝叶斯模型,根据乐器出现在乐曲中的概率对乐器进行识别。
如图5所示,步骤S3的具体操作过程为:
S3.1将若干个乐器集合C={y1,y2,…,yj,…,yn}对应的特征向量,j∈n;和音频帧对应的特征向量输入至经过预训练的朴素贝叶斯模型;
S3.2采用朴素贝叶斯模型的输出公式计算P(y1|Xi),P(y2|Xi),…,P(yn|Xi);
S3.3通过公式
Figure BDA0002518253570000051
得到乐器yj出现在乐曲X中的概率。
其中,朴素贝叶斯模型的输出公式为:
Figure BDA0002518253570000052
其中,Xi代表一首乐曲X的某一帧,一共有z帧;yj代表某一种乐器,一共有n种乐器。
由上述过程可以求出每个乐器出现在乐曲X中的概率,由于没有出现在乐曲中乐器的概率不一定完全是零,所以需要给概率设置一个阈值,若乐器出现在乐曲中的概率超过阈值,则判断乐器出现在乐曲中,若乐器出现在乐曲中的概率未超过阈值,则判断乐器没有出现在乐曲中。需要说明的是,阈值的取值需要根据具体的音乐或者普遍标准而定,取值的原则是既要保证去除没有出现在乐曲中的乐器,也要保证出现时间比较短的次要乐器不被去除,可以在对模型进行预训练时对阈值进行调整。
乐曲中使用的乐器包括主要乐器和次要乐器,通过朴素贝叶斯方法模型获得各乐器出现在乐曲中的概率区分主要乐器和次要乐器。出现在乐曲中的概率最高的乐器为主要乐器,其他出现在乐曲中的乐器为次要乐器。通常情况下,乐曲的主要乐器只有一种,但也不排除有一些乐曲是由多种乐器主导演奏的,每个乐器出现的概率相差不多。此处多种只两种或两种以上。所以对于几种乐器出现在乐曲中的概率相差不多的情况需要根据乐曲的风格判断主要乐器和次要乐器,不可一概而论。
如图6所示,经过预训练的朴素贝叶斯模型的预训练过程为:向原始朴素贝叶斯模型输入演奏乐器类型已知的乐曲,乐曲根据朴素贝叶斯模型的输出公式获得某一乐器出现在乐曲中的概率,判断概率是否超过阈值,将判断结果与实际演奏乐曲的类型进行比较,若结果相同,则输入朴素贝叶斯模型为最终输出模型;若结果不相同,则调整朴素贝叶斯模型的输出公式,直至结果相同为止。
通过以上步骤就可以在训练得到朴素贝叶斯模型的基础上,对我们需要识别的乐曲所使用的乐器进行分类,同时因为得到的输出结果是每首乐曲使用每个乐器的概率值,还可以根据需要对结果排序,区分出一首乐曲的主要乐器和次要乐器。
实施例二
基于相同的发明构思,本实施例还公开了一种基于朴素贝叶斯模型的乐器种类识别***,包括:
预处理模块,用于将待识别的乐曲分为若干音频帧;
特征提取模块,用于提取音频帧中的时域信息、频域信息与倒频域信息以及梅尔频率倒谱系数,形成与音频帧对应的特征向量;
识别模块,用于将若干个乐器对应的音频特征向量和所有的音频帧对应的特征向量输入至朴素贝叶斯模型,根据乐器出现在乐曲中的概率对乐器进行识别。
上述内容仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于朴素贝叶斯模型的乐器种类识别方法,其特征在于,包括以下步骤:
S1将待识别的乐曲分为若干音频帧;
S2提取所述音频帧中的时域信息、频域信息与倒频域信息以及梅尔频率倒谱系数,形成与所述音频帧对应的特征向量;
S3将已有的若干个乐器对应的音频特征向量和所有的所述音频帧对应的特征向量输入至朴素贝叶斯模型,根据所述乐器出现在所述乐曲中的概率对所述乐器进行识别。
2.如权利要求1所述的基于朴素贝叶斯模型的乐器种类识别方法,其特征在于,若所述乐器出现在所述乐曲中的概率超过阈值,则判断所述乐器出现在所述乐曲中,若所述乐器出现在所述乐曲中的概率未超过阈值,则判断所述乐器没有出现在所述乐曲中。
3.如权利要求2所述的基于朴素贝叶斯模型的乐器种类识别方法,其特征在于,所述乐曲中使用的乐器包括主要乐器和次要乐器,通过所述朴素贝叶斯方法模型获得各所述乐器出现在所述乐曲中的概率区分主要乐器和次要乐器。
4.如权利要求3所述的基于朴素贝叶斯模型的乐器种类识别方法,其特征在于,出现在所述乐曲中的概率最高的乐器为主要乐器,其他出现在所述乐曲中的乐器为次要乐器。
5.如权利要求1-4任一项所述的基于朴素贝叶斯模型的乐器种类识别方法,其特征在于,所述朴素贝叶斯模型的输出公式为:
Figure FDA0002518253560000011
其中,Xi代表一首乐曲X的某一帧,一共有z帧;yj代表某一种乐器,一共有n种乐器。
6.如权利要求5所述的基于朴素贝叶斯模型的乐器种类识别方法,其特征在于,所述S3的具体操作过程为:
S3.1将若干个乐器对应的音频特征向量和所述音频帧对应的特征向量输入至经过预训练的朴素贝叶斯模型;
S3.2采用朴素贝叶斯模型的输出公式计算P(y1|Xi),P(y2|Xi),…,P(yn|Xi);
S3.3通过公式
Figure FDA0002518253560000012
得到乐器yj出现在乐曲X中的概率。
7.如权利要求6所述的基于朴素贝叶斯模型的乐器种类识别方法,其特征在于,所述经过预训练的朴素贝叶斯模型的预训练过程为:
向原始朴素贝叶斯模型输入演奏乐器类型已知的乐曲,所述乐曲根据朴素贝叶斯模型的输出公式获得某一乐器出现在所述乐曲中的概率,判断所述概率是否超过阈值,将判断结果与实际演奏所述乐曲的类型进行比较,若结果相同,则输入所述朴素贝叶斯模型为最终输出模型;若结果不相同,则调整朴素贝叶斯模型的输出公式,直至结果相同为止。
8.如权利要求1-4任一项所述的基于朴素贝叶斯模型的乐器种类识别方法,其特征在于,所述频域信息通过将对每一所述音频帧做傅里叶变换获得,所述倒频域信息通过将所述频域信息构成的频域图进行旋转,并用灰度图表示所述频域图的幅度获得;所述时域信息通过将所述频域图按照时间维度堆叠获得。
9.如权利要求1-4任一项所述的基于朴素贝叶斯模型的乐器种类识别方法,其特征在于,对若干所述音频帧加上汉明Hanmming窗以防止频率泄漏。
10.一种基于朴素贝叶斯模型的乐器种类识别***,其特征在于,包括:
预处理模块,用于将待识别的乐曲分为若干音频帧;
特征提取模块,用于提取所述音频帧中的时域信息、频域信息与倒频域信息以及梅尔频率倒谱系数,形成与所述音频帧对应的特征向量;
识别模块,用于将若干个乐器对应的音频特征向量和所有的所述音频帧对应的特征向量输入至朴素贝叶斯模型,根据所述乐器出现在所述乐曲中的概率对所述乐器进行识别。
CN202010483915.8A 2020-06-01 2020-06-01 一种基于朴素贝叶斯模型的乐器种类识别方法和*** Active CN111681674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010483915.8A CN111681674B (zh) 2020-06-01 2020-06-01 一种基于朴素贝叶斯模型的乐器种类识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010483915.8A CN111681674B (zh) 2020-06-01 2020-06-01 一种基于朴素贝叶斯模型的乐器种类识别方法和***

Publications (2)

Publication Number Publication Date
CN111681674A true CN111681674A (zh) 2020-09-18
CN111681674B CN111681674B (zh) 2024-03-08

Family

ID=72453206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010483915.8A Active CN111681674B (zh) 2020-06-01 2020-06-01 一种基于朴素贝叶斯模型的乐器种类识别方法和***

Country Status (1)

Country Link
CN (1) CN111681674B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421589A (zh) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质
CN116798388A (zh) * 2023-07-24 2023-09-22 东莞市星辰互动电子科技有限公司 基于aigc音乐内容生成的音乐公仔乐团

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法
US20080314231A1 (en) * 2007-06-20 2008-12-25 Mixed In Key, Llc System and method for predicting musical keys from an audio source representing a musical composition
CN101546556A (zh) * 2008-03-28 2009-09-30 展讯通信(上海)有限公司 用于音频内容识别的分类***
CN103761965A (zh) * 2014-01-09 2014-04-30 太原科技大学 一种乐器信号的分类方法
CN105719661A (zh) * 2016-01-29 2016-06-29 西安交通大学 一种弦乐器演奏音质自动判别方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN108962279A (zh) * 2018-07-05 2018-12-07 平安科技(深圳)有限公司 音频数据的乐器识别方法及装置、电子设备、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法
US20080314231A1 (en) * 2007-06-20 2008-12-25 Mixed In Key, Llc System and method for predicting musical keys from an audio source representing a musical composition
CN101546556A (zh) * 2008-03-28 2009-09-30 展讯通信(上海)有限公司 用于音频内容识别的分类***
CN103761965A (zh) * 2014-01-09 2014-04-30 太原科技大学 一种乐器信号的分类方法
CN105719661A (zh) * 2016-01-29 2016-06-29 西安交通大学 一种弦乐器演奏音质自动判别方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN108962279A (zh) * 2018-07-05 2018-12-07 平安科技(深圳)有限公司 音频数据的乐器识别方法及装置、电子设备、存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421589A (zh) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质
CN113421589B (zh) * 2021-06-30 2024-03-01 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质
CN116798388A (zh) * 2023-07-24 2023-09-22 东莞市星辰互动电子科技有限公司 基于aigc音乐内容生成的音乐公仔乐团

Also Published As

Publication number Publication date
CN111681674B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
Gerhard Audio signal classification: History and current techniques
US20100332222A1 (en) Intelligent classification method of vocal signal
Lehner et al. Online, loudness-invariant vocal detection in mixed music signals
Lu Indexing and retrieval of audio: A survey
Zlatintsi et al. Multiscale fractal analysis of musical instrument signals with application to recognition
Hu et al. Separation of singing voice using nonnegative matrix partial co-factorization for singer identification
Park Towards automatic musical instrument timbre recognition
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
CN111128236B (zh) 一种基于辅助分类深度神经网络的主乐器识别方法
Yu et al. Predominant instrument recognition based on deep neural network with auxiliary classification
Toghiani-Rizi et al. Musical instrument recognition using their distinctive characteristics in artificial neural networks
CN116665669A (zh) 一种基于人工智能的语音交互方法及***
CN111681674B (zh) 一种基于朴素贝叶斯模型的乐器种类识别方法和***
Mousavi et al. Persian classical music instrument recognition (PCMIR) using a novel Persian music database
CN117012230A (zh) 歌唱发音咬字评价模型
Banchhor et al. Musical instrument recognition using spectrogram and autocorrelation
Tyburek et al. Comparison of the efficiency of time and frequency domain descriptors for the classification of selected wind instruments
Kitahara et al. Instrogram: A new musical instrument recognition technique without using onset detection nor f0 estimation
Waghmare et al. Raga identification techniques for classifying indian classical music: A survey
Barthet et al. Speech/music discrimination in audio podcast using structural segmentation and timbre recognition
CN114678039A (zh) 一种基于深度学习的歌唱评价方法
Ashraf et al. Integration of speech/music discrimination and mood classification with audio feature extraction
Kumari et al. CLASSIFICATION OF NORTH INDIAN MUSICAL INSTRUMENTS USING SPECTRAL FEATURES.
Kamarudin et al. Analysis on Mel frequency cepstral coefficients and linear predictive cepstral coefficients as feature extraction on automatic accents identification
Liang et al. [Retracted] Extraction of Music Main Melody and Multi‐Pitch Estimation Method Based on Support Vector Machine in Big Data Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant