CN105513610A

CN105513610A - 一种声音分析方法及装置

Info

Publication number: CN105513610A
Application number: CN201510819750.6A
Authority: CN
Inventors: 丛韫; 杜状状; 高冲红; 童茜雯; 郑义; 仲倩
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-04-20

Abstract

本发明实施例公开了一种声音分析方法及装置，涉及声音识别技术领域，能够以较低的成本提高音频文件的来源设备识别的准确率。本发明的方法包括：将采集的声音信号，通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件；从对应不同的压缩算法的音频文件中提取无声段，并根据所提取的无声段得到语音特征信号；利用所述语音特征信号作为训练数据训练BP神经网络，并通过完成训练的BP神经网络分析测试信号，识别生成所述测试信号的录音设备本发明适用于识别音频文件的来源设备。

Description

一种声音分析方法及装置

技术领域

本发明涉及声音识别技术领域，尤其涉及一种声音分析方法及装置。

背景技术

随着各类电子设备的普及，录音设备已广泛应用至领域。尤其是在司法、执法的实践中，音频文件的采集成为调查取证的一种重要手段。但是，又由于音频文件的易伪造，案件场景还原能力低等问题，使得音频文件在很多时候只能作为参考。

音频文件由何种设备录制在一定程度上反映了录音场合和情景，对于判断音频文件是否可以作为有效证据十分重要。但是，目前针对音频文件进行录音设备的有效判别，主要还是通过办案人员的经验进行判定，准确率难以保证，而专业的声纹分析设备的成本又很高昂，进行声音鉴定分析的费用居高不下。由此可见，目前对于音频文件的来源设备的识别，难度高且准确率较低，并且专业的声纹分析鉴定的成本很高，难以在基层执法、司法方面大量普及。

发明内容

本发明的实施例提供一种声音分析方法及装置，能够以较低的成本提高音频文件的来源设备识别的准确率。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种声音分析方法，包括：

将采集的声音信号，通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件；

从对应不同的压缩算法的音频文件中提取无声段，并根据所提取的无声段得到语音特征信号；

利用所述语音特征信号作为训练数据训练BP(BackPropagation，多层前馈)神经网络，并通过完成训练的BP神经网络分析测试信号，识别生成所述测试信号的录音设备。

第二方面，本发明的实施例提供一种声音分析装置，包括：相互之间通过总线连接的***主控模块、语音录放模块、TFT触摸屏模块、压缩算法实现模块、存储模块和上位机模块；

所述语音录放模块，用于播放声音信号；

所述压缩算法实现模块，用于通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件；

所述存储模块，用于存储所述对应不同的压缩算法的音频文件；

所述上位机模块，用于从对应不同的压缩算法的音频文件中提取无声段，并根据所提取的无声段得到语音特征信号；并利用所述语音特征信号作为训练数据训练BP神经网络，并通过完成训练的BP神经网络分析测试信号，识别生成所述测试信号的录音设备。

本发明实施例提供的声音分析方法及装置，针对采用不同的压缩算法以相同采样率和比特率根据所采集的声音信号，提取录音无声段并分别对其求改进的MFCC参数，将不同波特率的音频文件输入Matlab中得到对应的MFCC特征参数，再利用MFCC特征参数对BP神经网络进行训练,用训练好的BP神经网络分类语音特征信号，根据分类结果识别录音设备，由于STM32以及Matlab等本发明所用的设备成本低廉，因此实现了以较低的成本提高音频文件的来源设备识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的声音分析方法的流程图；

图2为执行本发明实施例提供的声音分析方法的具体装置示意图；

图3为本发明实施例提供的无声段提取方案的流程示意图；

图4为本发明实施例提供的改进MFCC参数提取方案的流程示意图；

图5为本发明实施例提供的基于BP神经网络的语音特征信号分类算法的流程示意图；

图6为本发明实施例提供的录音设备识别方案的流程示意图；

图7为本发明实施例提供的声音分析装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明实施例提供一种声音分析方法，如图1所示，包括：

101，将采集的声音信号，通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件。

在本实施例中，声音分析方法的具体执行流程可以基于如图2所示架构的装置，具体选取STM32增强型系列F103VET6作为***主控解决方案；存储模块包括CH376U盘存储电路、SD卡存储模块；压缩算法实现模块包括MP3、AMR、AAC、WMA四种音频压缩算法模块。协调语音录放模块、存储模块、TFT(ThinFilmTransistor，是薄膜晶体管)触摸屏模块、压缩算法实现模块、串口等其他接口工作。语音录放模块包括ISD4004模块、LM386功放电路、滤波偏置模块。

当装置上电后，可录取一段语音，按停止键结束录音，并经过不同的四种压缩算法，然后将所录的相同采样率和比特率的四段语音存到U盘或SD卡中。其中，SD卡采用的microSD卡，采用SDIO(SecureDigitalInputandOutputCard，安全数字输入输出卡)方式与STM32主控模块相连，最大支持8GSD卡；U盘存储模块是以CH376T为核心，采用USBA型接口连接U盘，最大支持8GU盘。电源具体是5V电源适配器，3.3V电压由AMS1117芯片提供。

102，从对应不同的压缩算法的音频文件中提取无声段，并根据所提取的无声段得到语音特征信号。

具体可以在上位机上实现，首先提取无声段，无声段的提取流程如图3所示。

在本实施例中，所述压缩算法包括4中不同的压缩算法，包括MP3、AMR、WMA和AAC。所述根据所提取的无声段得到语音特征信号，具体包括：通过如图4所示的求取改进MFCC(MelFrequencyCepstrumCoefficient,Mel频率倒谱系数)参数的流程，及针对每段无声段，采用倒谱系数法提取500组24维语音特征信号。

103，利用所述语音特征信号作为训练数据训练BP神经网络，并通过完成训练的BP神经网络分析测试信号，识别生成所述测试信号的录音设备。

在本实施例中，所述BP神经网络的结构包括：输入层设置24个节点，隐含层设置25个节点，输出层设置4个节点。

例如：如图5所示的。通过开发工具MATLAB2014a构建BP神经网络，从而通过编程提取无声段，在语音无声段中提取特征参数，避免了话音信号的干扰，最后确定了录音设备识别***的识别模型BP神经网络。

具体的，BP神经网络构建根据***输入输出数据特点确定BP神经网络的结构，由于语音特征输入信号有24维，待分类的语音信号共有四类，所以BP神经网络的结构为24-25-4即输入层有24个节点，隐含层有25个节点，输出层有4个节点。

在训练阶段，BP神经网络训练用训练数据训练BP神经网络，比如：共有2000组语音特征信号，从中随机选择1500组数据作为训练数据训练网络，500组数据作为测试数据测试网络分类能力。

在训练完毕后的测试阶段，BP神经网络分类用训练好的神经网络对测试数据所属语音类别进行分类。从而实现如图6所示的总体流程，即针对采集到的声音信号，获得不同音频格式的四段语音，然后在上位机处理完毕后，输入一段语音能识别出其音频格式从而确定由哪种录音设备所录。

本发明实施例提供的声音分析方法，针对采用不同的压缩算法以相同采样率和比特率根据所采集的声音信号，提取录音无声段并分别对其求改进的MFCC参数，将不同波特率的音频文件输入Matlab中得到对应的MFCC特征参数，再利用MFCC特征参数对BP神经网络进行训练,用训练好的BP神经网络分类语音特征信号，根据分类结果识别录音设备，由于STM32以及Matlab等本发明所用的设备成本低廉，因此实现了以较低的成本提高音频文件的来源设备识别的准确率。

进一步的，本发明实施例提供一种声音分析装置，如图7所示，包括：相互之间通过总线连接的***主控模块、语音录放模块、TFT触摸屏模块、压缩算法实现模块、存储模块和上位机模块。

所述语音录放模块，用于播放声音信号。

所述压缩算法实现模块，用于通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件。

所述存储模块，用于存储所述对应不同的压缩算法的音频文件。

所述上位机模块，用于从对应不同的压缩算法的音频文件中提取无声段，并根据所提取的无声段得到语音特征信号。并利用所述语音特征信号作为训练数据训练BP神经网络，并通过完成训练的BP神经网络分析测试信号，识别生成所述测试信号的录音设备。

具体的，所述***主控模块为STM32增强型F103VET6芯片，该芯片是一款32位增强型MCU，采用ARM公司的cortex-M3内核，拥有512KFlash、64KRAM、3个SPI口、一个SDIO口、5个USART、最高达72M的主频。所述语音录放模块为ISD4004，通过LM386集成音频功放电路执行音频放大，录音时间设定为8-16分钟，由于要对语音信号进行采集合成，多次采集量化会造成一定的量化误差，采用ISD4004进行录音，通过多电平直接模拟量存储技术，每个采样值直接存贮在片内闪烁存贮器中，因此能够非常真实、自然地再现语音。其中，音频放大选择LM386集成音频功放电路，稳压选择AMS1117-3.3。所述上位机模块具体通过MATLAB2014a从对应不同的压缩算法的音频文件中提取无声段，并根据所提取的无声段得到语音特征信号，并利用所述语音特征信号作为训练数据训练BP神经网络，并通过完成训练的BP神经网络分析测试信号，识别生成所述测试信号的录音设备。

本发明实施例提供的声音分析装置，针对采用不同的压缩算法以相同采样率和比特率根据所采集的声音信号，提取录音无声段并分别对其求改进的MFCC参数，将不同波特率的音频文件输入Matlab中得到对应的MFCC特征参数，再利用MFCC特征参数对BP神经网络进行训练,用训练好的BP神经网络分类语音特征信号，根据分类结果识别录音设备，由于STM32以及Matlab等本发明所用的设备成本低廉，因此实现了以较低的成本提高音频文件的来源设备识别的准确率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种声音分析方法，其特征在于，包括：

利用所述语音特征信号作为训练数据训练BP神经网络，并通过完成训练的BP神经网络分析测试信号，识别生成所述测试信号的录音设备。

2.根据权利要求1所述的方法，其特征在于，所述压缩算法包括4中不同的压缩算法，包括MP3、AMR、WMA和AAC；

所述根据所提取的无声段得到语音特征信号，包括：针对每段无声段，采用倒谱系数法提取500组24维语音特征信号。

3.根据权利要求2所述的方法，其特征在于，所述BP神经网络的结构包括：输入层设置24个节点，隐含层设置25个节点，输出层设置4个节点。

4.一种声音分析装置，其特征在于，包括：相互之间通过总线连接的***主控模块、语音录放模块、TFT触摸屏模块、压缩算法实现模块、存储模块和上位机模块；

所述语音录放模块，用于播放声音信号；

5.根据权利要求4所述的方法，其特征在于，所述***主控模块为STM32增强型F103VET6芯片；

所述语音录放模块为ISD4004，通过LM386集成音频功放电路执行音频放大；

所述上位机模块具体通过MATLAB2014a从对应不同的压缩算法的音频文件中提取无声段，并根据所提取的无声段得到语音特征信号，并利用所述语音特征信号作为训练数据训练BP神经网络，并通过完成训练的BP神经网络分析测试信号，识别生成所述测试信号的录音设备。