CN111145726A - 基于深度学习的声场景分类方法、***、装置及存储介质 - Google Patents

基于深度学习的声场景分类方法、***、装置及存储介质 Download PDF

Info

Publication number
CN111145726A
CN111145726A CN201911057702.2A CN201911057702A CN111145726A CN 111145726 A CN111145726 A CN 111145726A CN 201911057702 A CN201911057702 A CN 201911057702A CN 111145726 A CN111145726 A CN 111145726A
Authority
CN
China
Prior art keywords
audio
mel
spectrum
channel
harmonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911057702.2A
Other languages
English (en)
Other versions
CN111145726B (zh
Inventor
李浩然
黄裕磊
赵力
张玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Lizhi Psychological Big Data Industry Research Institute Co Ltd
Original Assignee
Nanjing Lizhi Psychological Big Data Industry Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Lizhi Psychological Big Data Industry Research Institute Co Ltd filed Critical Nanjing Lizhi Psychological Big Data Industry Research Institute Co Ltd
Priority to CN201911057702.2A priority Critical patent/CN111145726B/zh
Publication of CN111145726A publication Critical patent/CN111145726A/zh
Application granted granted Critical
Publication of CN111145726B publication Critical patent/CN111145726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种基于深度学习的声场景分类方法、***、装置及存储介质,通过将语谱图分类引入声场景分类问题中,构建完整的声场景分类模型,利用深度学习的方法,提升场景分类的性能,具有良好的应用前景。

Description

基于深度学习的声场景分类方法、***、装置及存储介质
技术领域
本申请涉及语音识别技术领域,尤其涉及一种基于深度学习的声 场景分类方法、***、装置及存储介质。
背景技术
声场景分类作为语音识别的核心技术,其算法处于信号处理的前 端,能够识别出人工智能产品使用者当前的声场景,自适应地调用相 应的处理程序,实现针对不同场景声信号的个性化处理。本质上讲, 声场景分类属于环境声识别问题,主要包括两个方面:特征提取和分 类。特征提取是对声信号进行维数约减,提取出能代表原始信号的数 据;而分类是指通过一定方法编码声特征,并与模板数据库进行比对 以确定声信号所属类别。
由IEEE音频和声学信号处理(AASP)主办的DCASE是ASC研究 的重要任务之一。在DCASE中取得最高排名者所使用的方法一直在逐 年变化。DCASE2016中使用传统的机器学习方法i-Vector和NMF(非 负矩阵分解)获得了最好成绩。在DCASE 2017中,大多数顶尖团队 是使用卷积神经网络(CNN)的方法。在DCASE2018中,数据数量与 DCASE 2017相比有所增加。
发明内容
为了解决上述技术问题,本申请实施例提供一种基于深度学习的 声场景分类方法、***、装置及存储介质。
本申请实施例第一方面提供了一种基于深度学习的声场景分类 方法,可包括:
采用双声道麦克风录制获取原始音频,对所述原始音频降频采样 处理后进行分帧加窗预处理;
提取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔谱图、 单声道音频的梅尔图谱,并与谐波源分离音频的梅尔图谱进行融合, 形成三通道的图谱,并进行预处理;
引入批量归一化层代替Dropout层,构建VGG16卷积网络模型;
对模型训练多个完整的声场景分类模型,将该多个模型的输出结 果进行集成,得到最终的分类结果。
进一步地,所述采用双声道麦克风录制获取原始音频,对所述原 始音频降频采样处理后进行分帧加窗预处理包括:
获取原始音频数据;
对所述原始音频数据的采样率进行向下降低采样率处理;
对降频采样得到的数据进行分帧加窗预处理。
进一步地,所述提取双声道音频的梅尔图谱、谐波打击源分离音 频的梅尔谱图、单声道音频的梅尔图谱,并与谐波源分离音频的梅尔 图谱进行融合,形成三通道的图谱,并进行预处理包括:
利用Mel滤波器组获得梅尔频谱图,分别提取双声道音频的梅尔 图谱、谐波打击源分离音频的梅尔谱图、单声道音频的梅尔图谱,并 与HPSS音频的梅尔图谱进行融合,形成三通道的图谱。
提取双声道音频的梅尔图谱过程中,采用HTK方法,将梅尔谱图 转换为对数刻度后进行归一化处理得到双声道音频的梅尔图谱;
提取谐波打击源分离音频的梅尔谱图过程中,将原始音频分离为 谐波打击源(HPSS)音频,并对分离后的谐波音频和打击源音频分别求 取梅尔图谱;
所述预处理包括:
不划分预处理:对特征谱不进行切割划分;
不重叠划分处理:对频谱以预设周期进行周期性划分,获取特征 谱图;
重叠划分处理:对频谱以预设周期以及重叠率进行周期性划分, 获取特征谱图;
三种梅尔图谱通过三种预处理获取9组不同的谱图,作为本步骤 的输出数据。
进一步地,所述对模型训练多个完整的声场景分类模型,将该多 个模型的输出结果进行集成,得到最终的分类结果包括:
将9组不同的谱图作为卷积神经网络的输入数据,进入全连接层 进行分类,训练9个完整的声场景分类模型;训练过程中批量大小根 据预处理的类型进行预设;采用随机森林作为高层学习器,使用 Stacking集成学习方法进行学习。
本申请实施例第二方面提供了一种基于深度学习的声场景分类 ***,包括:
音频数据获取单元,用于采用双声道麦克风录制获取原始音频, 对所述原始音频降频采样处理后进行预处理;
图谱数据预处理单元,用于从梅尔频谱图中提取双声道音频的梅 尔图谱、谐波打击源分离音频的梅尔谱图、单声道音频的梅尔图谱, 并与谐波源分离音频的梅尔图谱进行融合,形成三通道的图谱后进行 预处理;
模型构建单元,用于构建VGG16卷积网络模型,其中引入批量归 一化层代替Dropout层;
训练模型单元,用于对模型训练多个完整的声场景分类模型,将 该多个模型的输出结果进行集成,得到最终的分类结果。
进一步地,所述音频数据获取单元包括:
降采样处理单元,用于获取原始音频数据并对所述原始音频数据 的采样率进行向下降低采样率处理;
分帧加窗处理单元,用于对降频采样得到的数据进行先分帧后加 窗预处理。
进一步地,所述图谱数据预处理单元包括:
图谱分离单元,用于利用Mel滤波器组获得梅尔频谱图,分别提 取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔谱图、单声道 音频的梅尔图谱,并与HPSS音频的梅尔图谱进行融合,形成三通道 的图谱;
预处理单元,分别对三种图谱进行三种处理形成九组不同的谱图 数据,作为模型建立的输入数据;
其中,所述图谱分离单元提取双声道音频的梅尔图谱过程中,采 用HTK方法,将梅尔谱图转换为对数刻度后进行归一化处理得到双声 道音频的梅尔图谱;
所述图谱分离单元提取谐波打击源分离音频的梅尔谱图过程中, 将原始音频分离为谐波打击源(HPSS)音频,并对分离后的谐波音频和 打击源音频分别求取梅尔图谱;
所述预处理单元中的处理形式包括:
不划分预处理单元,用于对特征谱不进行切割划分;
不重叠划分处理单元,用于对频谱以预设周期进行周期性划分, 获取特征谱图;
重叠划分处理单元,用于对频谱以预设周期以及重叠率进行周期 性划分,获取特征谱图。
进一步地,所述训练模型单元包括:
将9组不同的谱图作为卷积神经网络的输入数据,进入全连接层 进行分类,训练9个完整的声场景分类模型;训练过程中批量大小根 据预处理的类型进行预设;采用随机森林作为高层学习器,使用 Stacking集成学习方法进行学习。
第三方面,本申请实施例提供了一种分类装置,包括存储器和处 理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述 存储器上的计算机可执行指令时实现第一方面的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上 存储有计算机程序,该计算机程序被处理器执行时,实现上述第一方 面的方法。
在本申请实施例中,通过将语谱图分类引入声场景分类问题中, 构建完整的声场景分类模型,利用深度学习的方法,提升场景分类的 性能,具有良好的应用前景。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图获得其他的附图。
图1是本申请的方法步骤示意图。
图2是图1的流程示意图;
图3是本申请实施例提供的一种分类***的示意框图;
图4是本申请实施例提供的一种分类装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实 施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技 术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属 于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包 括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组 件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元 素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述 特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附 权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则 单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的 术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及 所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果” 可以依据上下文被解释为“当...时”或“一旦”或“响应于确定” 或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所 描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到 [所描述条件或事件]”。
参见图1,是本申请实施例提供的一种基于深度学习的声场景分 类方法的示意流程图,如图所示该方法可包括:
101:采用双声道麦克风录制获取原始音频,对所述原始音频降 频采样处理后进行分帧加窗预处理。
可以理解的是,根据奈奎斯特采样定理,用2倍于一个正弦波的 频率进行采样能完全真实地还原该波形。例如用44.1kHz的采样频率 进行采样,则可以还原为最高22.05kHz的频率(这个数值略高于人 耳的听力极限)。44.1kHz的还原频率足以真实还原出世界上所有人 能分辨的声音。
作为构建模型的初始阶段所采集的数据都是去作为训练模型的 数据使用,在这种目的下,需要选择合适的数据库来进行音频的数据 获取。
在本实施例中,数据库由来自所有六个城市的音频录音组成,并 且被分区以使得训练集包含针对每个城市和每个类别大约70%的比 例,并且测试集包含来自其余位置的记录。总共有8640条音频数据, 训练集中包含6122段音频,测试集中包含2518段音频。
数据集总共有10个标签,分别是:机场、室内购物中心、地铁 站、步行街、公共广场、街道、电车、公共汽车、地铁、城市公园, 每段音频的长度均为10s。所有的音频采样率为48kHz,通过降采样 到44.1kHz。
一般情况下,音频数据在初始阶段都会通过预处理的手段使得数 据更加标准化,以便于后续模型的训练。
作为一个具体的实施例,对降采样后的音频进行分帧、加窗预处 理。
分帧处理中,音频帧总长L为441000,帧长I为2048(46ms), 帧重叠率p为50%(23ms),获最大帧数H为430:
Figure BDA0002255911760000081
Figure BDA0002255911760000082
增加的窗函数为hamming窗W(n,α),其的计算公式如下, W(n,α)=(1-α)-αcos(2πn/(n-1)),0≤n≤N-1,其中,α取值0.46,N为n的 取值范围,表示Hamming窗的长度。
102:提取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔 谱图、单声道音频的梅尔图谱,并与谐波源分离音频的梅尔图谱进行 融合,形成三通道的图谱,并进行预处理。
具体的,本步骤中,利用Mel滤波器组获得梅尔频谱图,分别提 取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔谱图、单声道 音频的梅尔图谱,并与HPSS音频的梅尔图谱进行融合,形成三通道 的图谱。
本步骤中,提取双声道音频的梅尔图谱过程中,采用HTK方法, 将梅尔谱图转换为对数刻度后进行归一化处理得到双声道音频的梅 尔图谱;提取谐波打击源分离音频的梅尔谱图过程中,将原始音频分 离为谐波打击源(HPSS)音频,并对分离后的谐波音频和打击源音频分 别求取梅尔图谱。
作为一个具体的实施例,通过应用Mel滤波器组获得梅尔频谱图 时,带通滤波器的数量是128,并且使用HTK方法。在HTK方法中, 通过使用以下等式,将Hz转换为mel尺度:
Figure BDA0002255911760000091
frequencies表示频率。再将梅 尔谱图转换为对数刻度,并通过减去平均值除以标准偏差进行归一化 处理,从而可以计算得到梅尔图谱。最终,一段音频生成(430,128,2) 形状的数据。(本实施例中,(430,128,2)代表数据有三个维度,例如 一个长方体。可以理解为一共有430帧,将128个滤波器作用到一帧 上,就生成了128维的向量(表示梅尔功率),因为使用了双声道数 据,所以最后一个维度为2。下面两个同理。)
同样可以将原始音频分离为谐波打击源(HPSS)音频,并对分离后 的谐波(H)音频和打击源音频(P)分别求取梅尔图谱。同样,最终,一 段音频生成(430,128,2)形状的数据。
除了HPSS之外,本步骤添加了单声道音频的梅尔谱图,并求得 3通道(430,128,3)的数据。
双声道音频特征和HPSS音频特征通过z-score进行归一化,融 合特征谱图使用min-max归一化方式。
在获得本步骤中所要的三种图谱之后,对于以上三类特征谱图分 别采用不划分、不重叠划分、重叠划分三种策略进行特征图预处理;
第一种是对特征谱不进行切割划分。第二种是非重叠切割划分, 将频谱图每1秒划分一次,最终可以从一个音频片段获得十张大小为 (430,128,channel)的特征谱图。第三种策略是重叠切割划分,每2 秒划分一次,50%的重叠率,最终可以从一个音频片段获得九张大小 为(86,128,channel)的特征谱图。
对于三类梅尔谱图,分别采样三种预处理的方式后,可以一生成 9组不同的谱图,并将它们作为卷积神经网络的输入。
103:引入批量归一化层代替Dropout层,构建VGG16卷积网络 模型。
具体地,搭建加入BN层的VGG16卷积网络中,采用卷积神经网 络来提取语谱图特征,并将结果送至全连接层进行分类,使用的神经 网络模型是改进后的VGG16模型。
改进点在于使用批量归一化层(BN)代替Dropout层。将求取的 多个通道的梅尔谱图组合在一起并将它们输入到一个Conv模型中。
104:对模型训练多个完整的声场景分类模型,将该多个模型的 输出结果进行集成,得到最终的分类结果。
具体地,训练9个完整的声场景分类模型。分别使用上述九种谱 图作为卷积神经网络的输入,并训练出9个网络模型。
作为一个具体的实施例,在试验过程中,具体的参数设置如下:
网络的优化器采用基于Nesterov动量法随机梯度下降(SGD)。
学习率,衰减和动量分别为0.01,0.0001和0.9。
训练过程中批量大小根据分割方法的不同而不同:
采用非重叠划分和重叠划分时,批量大小为128;
不划分时,批量大小为32。
本实施例中,利用大约三个小时来训练NVIDIA Tesla K40的网 络并训练一个网络,将15%的训练数据用于验证,以便平等地选择 每个场景。
在得到输出结果后,将9个模型的输出结果进行集成,得到最终 的分类结果。将多个分类的结果进行集成以降低分类误差。在方法中, 本发明使用了Stacking的集成学习方法。Stacking的思想是通过高层 学习器学习得到基机器学习分类器的输出与真实标签的关系。本方法 中采用随机森林作为高层学习器用于学习,其中决策树的数量设置为 1000。
综上所述,本发明的一种基于深度学习的声场景分类方法,通过 将语谱图分类引入声场景分类问题中,构建完整的声场景分类模型, 利用深度学习的方法,提升场景分类的性能,具有良好的应用前景。
本申请实施例还提供一种基于深度学习的声场景分类***,该系 统用于执行前述任一项上述分类方法。具体地,参见图3,图3是本 申请实施例提供的一种定位装置的示意框图。本实施例的装置包括: 音频数据获取单元310、图谱数据预处理单元320、模型构建单元330、 训练模型单元340。
音频数据获取单元310,用于采用双声道麦克风录制获取原始音 频,对所述原始音频降频采样处理后进行预处理。
图谱数据预处理单元320,用于从梅尔频谱图中提取双声道音频 的梅尔图谱、谐波打击源分离音频的梅尔谱图、单声道音频的梅尔图 谱,并与谐波源分离音频的梅尔图谱进行融合,形成三通道的图谱后 进行预处理。
模型构建单元330,用于构建VGG16卷积网络模型,其中引入批 量归一化层代替Dropout层。
训练模型单元340,用于对模型训练多个完整的声场景分类模型, 将该多个模型的输出结果进行集成,得到最终的分类结果。
上述音频数据获取单元310包括:
降采样处理单元311,用于获取原始音频数据并对所述原始音频 数据的采样率进行向下降低采样率处理。
作为一个具体的实施例,本单元中所有的音频采样率为48kHz, 通过降采样到44.1kHz。音频数据获取单元310所针对的数据库由来 自所有六个城市的音频录音组成,并且被分区以使得训练集包含针对 每个城市和每个类别大约70%的比例,并且测试集包含来自其余位 置的记录。总共有8640条音频数据,训练集中包含6122段音频,测 试集中包含2518段音频。数据集总共有10个标签,分别是:
机场、室内购物中心、地铁站、步行街、公共广场、街道、电 车、公共汽车、地铁、城市公园,每段音频的长度均为10s。
分帧加窗处理单元312,用于对降频采样得到的数据进行先分帧 后加窗预处理。
具体地包括:分帧单元3121,决定切分语音的帧数。本实施例 中,分帧处理中帧长I为2048(46ms),帧间重叠率p为50%(23ms), 获最大帧数H为430,
Figure BDA0002255911760000131
加窗单元3122,按上述方法加窗后,每一帧的起始段和末尾端 会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。加 窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表 现出周期函数的特征。在语音信号处理中一般加汉明窗。
本实施例中,增加的窗函数为hamming窗W(n,α),其的计算公式 如下,W(n,α)=(1-α)-αcos(2πn/(n-1)),0≤n≤N-1。其中,α取值0.46,N 为n的取值范围,表示Hamming窗的长度。
上述图谱数据预处理单元320包括:
图谱分离单元321,用于利用Mel滤波器组获得梅尔频谱图,分 别提取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔谱图、单 声道音频的梅尔图谱,并与HPSS音频的梅尔图谱进行融合,形成三 通道的图谱。
本实施例中,提取双声道音频的梅尔图谱过程中,采用HTK方法, 将梅尔谱图转换为对数刻度后进行归一化处理得到双声道音频的梅 尔图谱。提取谐波打击源分离音频的梅尔谱图过程中,将原始音频分 离为谐波打击源(HPSS)音频,并对分离后的谐波音频和打击源音频分 别求取梅尔图谱。
整个获取的过程通过应用Mel滤波器组获得梅尔频谱图。带通滤 波器的数量是128,并且使用HTK方法。在HTK方法中,通过使用以 下等式,将Hz转换为mel尺度:
Figure BDA0002255911760000141
然后再将梅尔谱图转换为对数刻度,并通过减去平均值除以标准偏差 进行归一化处理。
由于数据库是采用双声道麦克风录制,因此,可以使用双声道(左 和右)的音频数据。利用上面公式,可以计算得到梅尔图谱。最终, 一段音频生成(430,128,2)形状的数据。
同样可以将原始音频分离为谐波打击源(HPSS)音频,并对分离后 的谐波(H)音频和打击源音频(P)分别求取梅尔图谱。同样,最终,一 段音频生成(430,128,2)形状的数据。
除了HPSS之外,本发明添加了单声道音频的梅尔谱图,并求得 3通道(430,128,3)的数据。
双声道音频特征和HPSS音频特征通过z分数进行归一化,但是 融合特征谱图使用min-max归一化。
预处理单元322,分别对三种图谱进行三种处理形成九组不同的 谱图数据,作为模型建立的输入数据;
预处理单元322中的处理形式包括:
不划分预处理单元,用于对特征谱不进行切割划分。
不重叠划分处理单元,用于对频谱以预设周期进行周期性划分, 获取特征谱图:将频谱图每1秒划分一次,最终可以从一个音频片段 获得十张大小为(430,128,channel)的特征谱图。
重叠划分处理单元,用于对频谱以预设周期以及重叠率进行周期 性划分,获取特征谱图:每2秒划分一次,50%的重叠率,最终可以 从一个音频片段获得九张大小为(86,128,channel)的特征谱图。
上述模型构建单元330包括:采用卷积神经网络来提取语谱图特 征,并将结果送至全连接层进行分类,使用的神经网络模型是改进后 的VGG16模型。改进点在于使用批量归一化层(BN)代替Dropout层。 将求取的多个通道的梅尔谱图组合在一起并将它们输入到一个Conv 模型中。本发明还考虑在CNN中使用递归神经网络(RNN),但从初步 探究结果判断它不适合声学场景分类。在音乐和对话中,时间序列 数据是一个重要的角色,但在声学场景中可以推断空间信息(声音的 回声等)更重要。
上述训练模型单元340包括:将9组不同的谱图作为卷积神经 网络的输入数据,进入全连接层进行分类,训练9个完整的声场景分 类模型;训练过程中批量大小根据预处理的类型进行预设;采用随机 森林作为高层学习器,使用Stacking集成学习方法进行学习。
图4是本申请实施例提供的一种识别设备的结构示意图。该对象 检测设备4000包括处理器41,还可以包括输入装置42、输出装置 43和存储器44。该输入装置42、输出装置43、存储器44和处理器 41之间通过总线相互连接。
存储器包括但不限于是随机存储记忆体(random access memory, RAM)、只读存储器(read only memory,ROM)、可擦除可编程只读 存储器(erasable programmable readonly memory,EPROM)、或便携 式只读存储器(compact disc read至only memory,CD至ROM),该 存储器用于相关指令及数据。
输入装置用于输入数据和/或信号,以及输出装置用于输出数据 和/或信号。输出装置和输入装置可以是独立的器件,也可以是一个 整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央 处理器(central processing unit,CPU),在处理器是一个CPU的情况 下,该CPU可以是单核CPU,也可以是多核CPU。处理器还可以包 括一个或多个专用处理器,专用处理器可以包括GPU、FPGA等,用 于进行加速处理。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行上述方法实 施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
可以理解的是,图4仅仅示出了对象检测设备的简化设计。在实际应用中,动作识别装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、 控制器、存储器等,而所有可以实现本申请实施例的动作识别装置都在本申请的保护范围之 内。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁, 上述描述的***、装置和单元的具体工作过程,可以参考前述方法实 施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、 装置和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅 为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多 个单元或组件可以结合或者可以集成到另一个***,或一些特征可以 忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或 通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接, 可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一 个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选 择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者 其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机 程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。 在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照 本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算 机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计 算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该 计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有 线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)) 或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、 服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能 够存取的任何可用介质或者是包含一个或多个可用介质集成的服务 器、数据中心等数据存储设备。该可用介质可以是只读存储器(read 至only memory,ROM),或随机存储存储器(random access memory, RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质, 例如,数字通用光盘(digital versatiledisc,DVD)、或者半导体介质, 例如,固态硬盘(solid state disk,SSD)等。
以上详细描述了本发明的优选实施方式,但是本发明并不限于上 述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发 明的技术方案进行多种等同变换(如数量、形状、位置等),这些等 同变换均属于本发明的保护。

Claims (10)

1.一种基于深度学习的声场景分类方法,其特征在于,包括:
采用双声道麦克风录制获取原始音频,对所述原始音频降频采样处理后进行分帧加窗预处理;
提取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔谱图、单声道音频的梅尔图谱,并与谐波源分离音频的梅尔图谱进行融合,形成三通道的图谱,并进行预处理;
引入批量归一化层代替Dropout层,构建VGG16卷积网络模型;
对模型训练多个完整的声场景分类模型,将该多个模型的输出结果进行集成,得到最终的分类结果。
2.根据权利要求1所述的基于深度学习的声场景分类方法,其特征在于,
所述采用双声道麦克风录制获取原始音频,对所述原始音频降频采样处理后进行分帧加窗预处理包括:
获取原始音频数据;
对所述原始音频数据的采样率进行向下降低采样率处理;
对降频采样得到的数据进行分帧加窗预处理。
3.根据权利要求2所述的基于深度学习的声场景分类方法,其特征在于,
所述提取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔谱图、单声道音频的梅尔图谱,并与谐波源分离音频的梅尔图谱进行融合,形成三通道的图谱,并进行预处理包括:
利用Mel滤波器组获得梅尔频谱图,分别提取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔谱图、单声道音频的梅尔图谱,并与HPSS音频的梅尔图谱进行融合,形成三通道的图谱。
提取双声道音频的梅尔图谱过程中,采用HTK方法,将梅尔谱图转换为对数刻度后进行归一化处理得到双声道音频的梅尔图谱;
提取谐波打击源分离音频的梅尔谱图过程中,将原始音频分离为谐波打击源(HPSS)音频,并对分离后的谐波音频和打击源音频分别求取梅尔图谱;
所述预处理包括:
不划分预处理:对特征谱不进行切割划分;
不重叠划分处理:对频谱以预设周期进行周期性划分,获取特征谱图;
重叠划分处理:对频谱以预设周期以及重叠率进行周期性划分,获取特征谱图;
三种梅尔图谱通过三种预处理获取9组不同的谱图,作为本步骤的输出数据。
4.根据权利要求3所述的基于深度学习的声场景分类方法,其特征在于,
所述对模型训练多个完整的声场景分类模型,将该多个模型的输出结果进行集成,得到最终的分类结果包括:
将9组不同的谱图作为卷积神经网络的输入数据,进入全连接层进行分类,训练9个完整的声场景分类模型;训练过程中批量大小根据预处理的类型进行预设;采用随机森林作为高层学习器,使用Stacking集成学习方法进行学习。
5.一种基于深度学习的声场景分类***,其特征在于,包括:
音频数据获取单元,用于采用双声道麦克风录制获取原始音频,对所述原始音频降频采样处理后进行预处理;
图谱数据预处理单元,用于从梅尔频谱图中提取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔谱图、单声道音频的梅尔图谱,并与谐波源分离音频的梅尔图谱进行融合,形成三通道的图谱后进行预处理;
模型构建单元,用于构建VGG16卷积网络模型,其中引入批量归一化层代替Dropout层;
训练模型单元,用于对模型训练多个完整的声场景分类模型,将该多个模型的输出结果进行集成,得到最终的分类结果。
6.根据权利要求5所述的基于深度学习的声场景分类***,其特征在于,
所述音频数据获取单元包括:
降采样处理单元,用于获取原始音频数据并对所述原始音频数据的采样率进行向下降低采样率处理;
分帧加窗处理单元,用于对降频采样得到的数据进行先分帧后加窗预处理。
7.根据权利要求6所述的基于深度学习的声场景分类***,其特征在于,
所述图谱数据预处理单元包括:
图谱分离单元,用于利用Mel滤波器组获得梅尔频谱图,分别提取双声道音频的梅尔图谱、谐波打击源分离音频的梅尔谱图、单声道音频的梅尔图谱,并与HPSS音频的梅尔图谱进行融合,形成三通道的图谱;
预处理单元,分别对三种图谱进行三种处理形成九组不同的谱图数据,作为模型建立的输入数据;
其中,所述图谱分离单元提取双声道音频的梅尔图谱过程中,采用HTK方法,将梅尔谱图转换为对数刻度后进行归一化处理得到双声道音频的梅尔图谱;
所述图谱分离单元提取谐波打击源分离音频的梅尔谱图过程中,将原始音频分离为谐波打击源(HPSS)音频,并对分离后的谐波音频和打击源音频分别求取梅尔图谱;
所述预处理单元中的处理形式包括:
不划分预处理单元,用于对特征谱不进行切割划分;
不重叠划分处理单元,用于对频谱以预设周期进行周期性划分,获取特征谱图;
重叠划分处理单元,用于对频谱以预设周期以及重叠率进行周期性划分,获取特征谱图。
8.根据权利要求7所述的基于深度学习的声场景分类***,其特征在于,
所述训练模型单元包括:
将9组不同的谱图作为卷积神经网络的输入数据,进入全连接层进行分类,训练9个完整的声场景分类模型;训练过程中批量大小根据预处理的类型进行预设;采用随机森林作为高层学习器,使用Stacking集成学习方法进行学习。
9.一种分类装置,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1-4任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述权利要求1-4任意一项所述的方法。
CN201911057702.2A 2019-10-31 2019-10-31 基于深度学习的声场景分类方法、***、装置及存储介质 Active CN111145726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911057702.2A CN111145726B (zh) 2019-10-31 2019-10-31 基于深度学习的声场景分类方法、***、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911057702.2A CN111145726B (zh) 2019-10-31 2019-10-31 基于深度学习的声场景分类方法、***、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111145726A true CN111145726A (zh) 2020-05-12
CN111145726B CN111145726B (zh) 2022-09-23

Family

ID=70516952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911057702.2A Active CN111145726B (zh) 2019-10-31 2019-10-31 基于深度学习的声场景分类方法、***、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111145726B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808604A (zh) * 2021-09-16 2021-12-17 江南大学 基于伽马通频谱分离的声场景分类方法
CN115602165A (zh) * 2022-09-07 2023-01-13 杭州优航信息技术有限公司(Cn) 基于金融***的数字员工智能***
CN117853035A (zh) * 2023-12-15 2024-04-09 百鸟数据科技(北京)有限责任公司 一种用于生态保护管理的智慧湿地***管理平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680517A (zh) * 2013-11-20 2014-03-26 华为技术有限公司 一种音频信号的处理方法、装置及设备
US20160078879A1 (en) * 2013-03-26 2016-03-17 Dolby Laboratories Licensing Corporation Apparatuses and Methods for Audio Classifying and Processing
CN110046655A (zh) * 2019-03-26 2019-07-23 天津大学 一种基于集成学习的音频场景识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078879A1 (en) * 2013-03-26 2016-03-17 Dolby Laboratories Licensing Corporation Apparatuses and Methods for Audio Classifying and Processing
CN103680517A (zh) * 2013-11-20 2014-03-26 华为技术有限公司 一种音频信号的处理方法、装置及设备
CN110046655A (zh) * 2019-03-26 2019-07-23 天津大学 一种基于集成学习的音频场景识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOONCHANG HAN等: "Convolutional neural networks with binaural representations and background subtraction for acoustic scene classification", 《DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2017》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808604A (zh) * 2021-09-16 2021-12-17 江南大学 基于伽马通频谱分离的声场景分类方法
CN113808604B (zh) * 2021-09-16 2023-11-14 江南大学 基于伽马通频谱分离的声场景分类方法
CN115602165A (zh) * 2022-09-07 2023-01-13 杭州优航信息技术有限公司(Cn) 基于金融***的数字员工智能***
CN117853035A (zh) * 2023-12-15 2024-04-09 百鸟数据科技(北京)有限责任公司 一种用于生态保护管理的智慧湿地***管理平台

Also Published As

Publication number Publication date
CN111145726B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
Sailor et al. Unsupervised Filterbank Learning Using Convolutional Restricted Boltzmann Machine for Environmental Sound Classification.
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN102509547B (zh) 基于矢量量化的声纹识别方法及***
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN111145726B (zh) 基于深度学习的声场景分类方法、***、装置及存储介质
CN110970036B (zh) 声纹识别方法及装置、计算机存储介质、电子设备
CN108399923A (zh) 多人发言中发言人识别方法以及装置
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及***
CN110931023A (zh) 性别识别方法、***、移动终端及存储介质
Kharamat et al. Durian ripeness classification from the knocking sounds using convolutional neural network
Ghosal et al. Automatic male-female voice discrimination
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
CN115168563B (zh) 一种基于意图识别的机场服务引导方法、***及装置
CN113327631B (zh) 一种情感识别模型的训练方法、情感识别方法及装置
Raju et al. AUTOMATIC SPEECH RECOGNITION SYSTEM USING MFCC-BASED LPC APPROACH WITH BACK PROPAGATED ARTIFICIAL NEURAL NETWORKS.
Mini et al. Feature vector selection of fusion of MFCC and SMRT coefficients for SVM classifier based speech recognition system
CN114420099A (zh) 一种多声源融合场景的人声检测方法及装置
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
Estrebou et al. Voice recognition based on probabilistic SOM
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
CN106971725B (zh) 一种具有优先级的声纹识方法和***
Majidnezhad A HTK-based method for detecting vocal fold pathology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant