CN105513610A - 一种声音分析方法及装置 - Google Patents

一种声音分析方法及装置 Download PDF

Info

Publication number
CN105513610A
CN105513610A CN201510819750.6A CN201510819750A CN105513610A CN 105513610 A CN105513610 A CN 105513610A CN 201510819750 A CN201510819750 A CN 201510819750A CN 105513610 A CN105513610 A CN 105513610A
Authority
CN
China
Prior art keywords
neural network
signal
different compression
training
phonetic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510819750.6A
Other languages
English (en)
Inventor
丛韫
杜状状
高冲红
童茜雯
郑义
仲倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201510819750.6A priority Critical patent/CN105513610A/zh
Publication of CN105513610A publication Critical patent/CN105513610A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明实施例公开了一种声音分析方法及装置,涉及声音识别技术领域,能够以较低的成本提高音频文件的来源设备识别的准确率。本发明的方法包括:将采集的声音信号,通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件;从对应不同的压缩算法的音频文件中提取无声段,并根据所提取的无声段得到语音特征信号;利用所述语音特征信号作为训练数据训练BP神经网络,并通过完成训练的BP神经网络分析测试信号,识别生成所述测试信号的录音设备本发明适用于识别音频文件的来源设备。

Description

一种声音分析方法及装置
技术领域
本发明涉及声音识别技术领域,尤其涉及一种声音分析方法及装置。
背景技术
随着各类电子设备的普及,录音设备已广泛应用至领域。尤其是在司法、执法的实践中,音频文件的采集成为调查取证的一种重要手段。但是,又由于音频文件的易伪造,案件场景还原能力低等问题,使得音频文件在很多时候只能作为参考。
音频文件由何种设备录制在一定程度上反映了录音场合和情景,对于判断音频文件是否可以作为有效证据十分重要。但是,目前针对音频文件进行录音设备的有效判别,主要还是通过办案人员的经验进行判定,准确率难以保证,而专业的声纹分析设备的成本又很高昂,进行声音鉴定分析的费用居高不下。由此可见,目前对于音频文件的来源设备的识别,难度高且准确率较低,并且专业的声纹分析鉴定的成本很高,难以在基层执法、司法方面大量普及。
发明内容
本发明的实施例提供一种声音分析方法及装置,能够以较低的成本提高音频文件的来源设备识别的准确率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供一种声音分析方法,包括:
将采集的声音信号,通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件;
从对应不同的压缩算法的音频文件中提取无声段,并根据所提取的无声段得到语音特征信号;
利用所述语音特征信号作为训练数据训练BP(BackPropagation,多层前馈)神经网络,并通过完成训练的BP神经网络分析测试信号,识别生成所述测试信号的录音设备。
第二方面,本发明的实施例提供一种声音分析装置,包括:相互之间通过总线连接的***主控模块、语音录放模块、TFT触摸屏模块、压缩算法实现模块、存储模块和上位机模块;
所述语音录放模块,用于播放声音信号;
所述压缩算法实现模块,用于通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件;
所述存储模块,用于存储所述对应不同的压缩算法的音频文件;
所述上位机模块,用于从对应不同的压缩算法的音频文件中提取无声段,并根据所提取的无声段得到语音特征信号;并利用所述语音特征信号作为训练数据训练BP神经网络,并通过完成训练的BP神经网络分析测试信号,识别生成所述测试信号的录音设备。
本发明实施例提供的声音分析方法及装置,针对采用不同的压缩算法以相同采样率和比特率根据所采集的声音信号,提取录音无声段并分别对其求改进的MFCC参数,将不同波特率的音频文件输入Matlab中得到对应的MFCC特征参数,再利用MFCC特征参数对BP神经网络进行训练,用训练好的BP神经网络分类语音特征信号,根据分类结果识别录音设备,由于STM32以及Matlab等本发明所用的设备成本低廉,因此实现了以较低的成本提高音频文件的来源设备识别的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的声音分析方法的流程图;
图2为执行本发明实施例提供的声音分析方法的具体装置示意图;
图3为本发明实施例提供的无声段提取方案的流程示意图;
图4为本发明实施例提供的改进MFCC参数提取方案的流程示意图;
图5为本发明实施例提供的基于BP神经网络的语音特征信号分类算法的流程示意图;
图6为本发明实施例提供的录音设备识别方案的流程示意图;
图7为本发明实施例提供的声音分析装置的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明实施例提供一种声音分析方法,如图1所示,包括:
101,将采集的声音信号,通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件。
在本实施例中,声音分析方法的具体执行流程可以基于如图2所示架构的装置,具体选取STM32增强型系列F103VET6作为***主控解决方案;存储模块包括CH376U盘存储电路、SD卡存储模块;压缩算法实现模块包括MP3、AMR、AAC、WMA四种音频压缩算法模块。协调语音录放模块、存储模块、TFT(ThinFilmTransistor,是薄膜晶体管)触摸屏模块、压缩算法实现模块、串口等其他接口工作。语音录放模块包括ISD4004模块、LM386功放电路、滤波偏置模块。
当装置上电后,可录取一段语音,按停止键结束录音,并经过不同的四种压缩算法,然后将所录的相同采样率和比特率的四段语音存到U盘或SD卡中。其中,SD卡采用的microSD卡,采用SDIO(SecureDigitalInputandOutputCard,安全数字输入输出卡)方式与STM32主控模块相连,最大支持8GSD卡;U盘存储模块是以CH376T为核心,采用USBA型接口连接U盘,最大支持8GU盘。电源具体是5V电源适配器,3.3V电压由AMS1117芯片提供。
102,从对应不同的压缩算法的音频文件中提取无声段,并根据所提取的无声段得到语音特征信号。
具体可以在上位机上实现,首先提取无声段,无声段的提取流程如图3所示。
在本实施例中,所述压缩算法包括4中不同的压缩算法,包括MP3、AMR、WMA和AAC。所述根据所提取的无声段得到语音特征信号,具体包括:通过如图4所示的求取改进MFCC(MelFrequencyCepstrumCoefficient,Mel频率倒谱系数)参数的流程,及针对每段无声段,采用倒谱系数法提取500组24维语音特征信号。
103,利用所述语音特征信号作为训练数据训练BP神经网络,并通过完成训练的BP神经网络分析测试信号,识别生成所述测试信号的录音设备。
在本实施例中,所述BP神经网络的结构包括:输入层设置24个节点,隐含层设置25个节点,输出层设置4个节点。
例如:如图5所示的。通过开发工具MATLAB2014a构建BP神经网络,从而通过编程提取无声段,在语音无声段中提取特征参数,避免了话音信号的干扰,最后确定了录音设备识别***的识别模型BP神经网络。
具体的,BP神经网络构建根据***输入输出数据特点确定BP神经网络的结构,由于语音特征输入信号有24维,待分类的语音信号共有四类,所以BP神经网络的结构为24-25-4即输入层有24个节点,隐含层有25个节点,输出层有4个节点。
在训练阶段,BP神经网络训练用训练数据训练BP神经网络,比如:共有2000组语音特征信号,从中随机选择1500组数据作为训练数据训练网络,500组数据作为测试数据测试网络分类能力。
在训练完毕后的测试阶段,BP神经网络分类用训练好的神经网络对测试数据所属语音类别进行分类。从而实现如图6所示的总体流程,即针对采集到的声音信号,获得不同音频格式的四段语音,然后在上位机处理完毕后,输入一段语音能识别出其音频格式从而确定由哪种录音设备所录。
本发明实施例提供的声音分析方法,针对采用不同的压缩算法以相同采样率和比特率根据所采集的声音信号,提取录音无声段并分别对其求改进的MFCC参数,将不同波特率的音频文件输入Matlab中得到对应的MFCC特征参数,再利用MFCC特征参数对BP神经网络进行训练,用训练好的BP神经网络分类语音特征信号,根据分类结果识别录音设备,由于STM32以及Matlab等本发明所用的设备成本低廉,因此实现了以较低的成本提高音频文件的来源设备识别的准确率。
进一步的,本发明实施例提供一种声音分析装置,如图7所示,包括:相互之间通过总线连接的***主控模块、语音录放模块、TFT触摸屏模块、压缩算法实现模块、存储模块和上位机模块。
所述语音录放模块,用于播放声音信号。
所述压缩算法实现模块,用于通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件。
所述存储模块,用于存储所述对应不同的压缩算法的音频文件。
所述上位机模块,用于从对应不同的压缩算法的音频文件中提取无声段,并根据所提取的无声段得到语音特征信号。并利用所述语音特征信号作为训练数据训练BP神经网络,并通过完成训练的BP神经网络分析测试信号,识别生成所述测试信号的录音设备。
具体的,所述***主控模块为STM32增强型F103VET6芯片,该芯片是一款32位增强型MCU,采用ARM公司的cortex-M3内核,拥有512KFlash、64KRAM、3个SPI口、一个SDIO口、5个USART、最高达72M的主频。所述语音录放模块为ISD4004,通过LM386集成音频功放电路执行音频放大,录音时间设定为8-16分钟,由于要对语音信号进行采集合成,多次采集量化会造成一定的量化误差,采用ISD4004进行录音,通过多电平直接模拟量存储技术,每个采样值直接存贮在片内闪烁存贮器中,因此能够非常真实、自然地再现语音。其中,音频放大选择LM386集成音频功放电路,稳压选择AMS1117-3.3。所述上位机模块具体通过MATLAB2014a从对应不同的压缩算法的音频文件中提取无声段,并根据所提取的无声段得到语音特征信号,并利用所述语音特征信号作为训练数据训练BP神经网络,并通过完成训练的BP神经网络分析测试信号,识别生成所述测试信号的录音设备。
本发明实施例提供的声音分析装置,针对采用不同的压缩算法以相同采样率和比特率根据所采集的声音信号,提取录音无声段并分别对其求改进的MFCC参数,将不同波特率的音频文件输入Matlab中得到对应的MFCC特征参数,再利用MFCC特征参数对BP神经网络进行训练,用训练好的BP神经网络分类语音特征信号,根据分类结果识别录音设备,由于STM32以及Matlab等本发明所用的设备成本低廉,因此实现了以较低的成本提高音频文件的来源设备识别的准确率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种声音分析方法,其特征在于,包括:
将采集的声音信号,通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件;
从对应不同的压缩算法的音频文件中提取无声段,并根据所提取的无声段得到语音特征信号;
利用所述语音特征信号作为训练数据训练BP神经网络,并通过完成训练的BP神经网络分析测试信号,识别生成所述测试信号的录音设备。
2.根据权利要求1所述的方法,其特征在于,所述压缩算法包括4中不同的压缩算法,包括MP3、AMR、WMA和AAC;
所述根据所提取的无声段得到语音特征信号,包括:针对每段无声段,采用倒谱系数法提取500组24维语音特征信号。
3.根据权利要求2所述的方法,其特征在于,所述BP神经网络的结构包括:输入层设置24个节点,隐含层设置25个节点,输出层设置4个节点。
4.一种声音分析装置,其特征在于,包括:相互之间通过总线连接的***主控模块、语音录放模块、TFT触摸屏模块、压缩算法实现模块、存储模块和上位机模块;
所述语音录放模块,用于播放声音信号;
所述压缩算法实现模块,用于通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件;
所述存储模块,用于存储所述对应不同的压缩算法的音频文件;
所述上位机模块,用于从对应不同的压缩算法的音频文件中提取无声段,并根据所提取的无声段得到语音特征信号;并利用所述语音特征信号作为训练数据训练BP神经网络,并通过完成训练的BP神经网络分析测试信号,识别生成所述测试信号的录音设备。
5.根据权利要求4所述的方法,其特征在于,所述***主控模块为STM32增强型F103VET6芯片;
所述语音录放模块为ISD4004,通过LM386集成音频功放电路执行音频放大;
所述上位机模块具体通过MATLAB2014a从对应不同的压缩算法的音频文件中提取无声段,并根据所提取的无声段得到语音特征信号,并利用所述语音特征信号作为训练数据训练BP神经网络,并通过完成训练的BP神经网络分析测试信号,识别生成所述测试信号的录音设备。
CN201510819750.6A 2015-11-23 2015-11-23 一种声音分析方法及装置 Pending CN105513610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510819750.6A CN105513610A (zh) 2015-11-23 2015-11-23 一种声音分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510819750.6A CN105513610A (zh) 2015-11-23 2015-11-23 一种声音分析方法及装置

Publications (1)

Publication Number Publication Date
CN105513610A true CN105513610A (zh) 2016-04-20

Family

ID=55721536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510819750.6A Pending CN105513610A (zh) 2015-11-23 2015-11-23 一种声音分析方法及装置

Country Status (1)

Country Link
CN (1) CN105513610A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106231357A (zh) * 2016-08-31 2016-12-14 浙江华治数聚科技股份有限公司 一种电视广播媒体音视频数据碎片时间的预测方法
CN106331741A (zh) * 2016-08-31 2017-01-11 浙江华治数聚科技股份有限公司 一种电视广播媒体音视频数据的压缩方法
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN107516527A (zh) * 2016-06-17 2017-12-26 中兴通讯股份有限公司 一种语音编解码方法和终端
CN110728991A (zh) * 2019-09-06 2020-01-24 南京工程学院 一种改进的录音设备识别算法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325382A (zh) * 2013-06-07 2013-09-25 大连民族学院 一种自动识别中国少数民族传统乐器音频数据的方法
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
CN103426438A (zh) * 2012-05-25 2013-12-04 洪荣昭 婴儿哭声分析方法及***
US20140019390A1 (en) * 2012-07-13 2014-01-16 Umami, Co. Apparatus and method for audio fingerprinting
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
CN103426438A (zh) * 2012-05-25 2013-12-04 洪荣昭 婴儿哭声分析方法及***
US20140019390A1 (en) * 2012-07-13 2014-01-16 Umami, Co. Apparatus and method for audio fingerprinting
CN103325382A (zh) * 2013-06-07 2013-09-25 大连民族学院 一种自动识别中国少数民族传统乐器音频数据的方法
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贺前华等: "基于改进PNCC特征和两步区分性训练的录音设备识别方法", 《电子学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516527A (zh) * 2016-06-17 2017-12-26 中兴通讯股份有限公司 一种语音编解码方法和终端
CN106231357A (zh) * 2016-08-31 2016-12-14 浙江华治数聚科技股份有限公司 一种电视广播媒体音视频数据碎片时间的预测方法
CN106331741A (zh) * 2016-08-31 2017-01-11 浙江华治数聚科技股份有限公司 一种电视广播媒体音视频数据的压缩方法
CN106331741B (zh) * 2016-08-31 2019-03-08 徐州视达坦诚文化发展有限公司 一种电视广播媒体音视频数据的压缩方法
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN110728991A (zh) * 2019-09-06 2020-01-24 南京工程学院 一种改进的录音设备识别算法
CN110728991B (zh) * 2019-09-06 2022-03-01 南京工程学院 一种改进的录音设备识别算法

Similar Documents

Publication Publication Date Title
CN105513610A (zh) 一种声音分析方法及装置
US10522136B2 (en) Method and device for training acoustic model, computer device and storage medium
CN103035247B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN107393554B (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN106887225A (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN103500579B (zh) 语音识别方法、装置及***
CN101923857A (zh) 一种人机交互的可扩展语音识别方法
CN110189757A (zh) 一种大熊猫个体识别方法、设备及计算机可读存储介质
CN102799899A (zh) 基于svm和gmm的特定音频事件分层泛化识别方法
CN107591167B (zh) 一种实现车载多媒体音频兼容性自动检测的方法及***
CN114927125A (zh) 音频分类方法、装置、终端设备及存储介质
CN106528715A (zh) 一种音频内容校核方法及装置
CN105161096A (zh) 基于垃圾模型的语音识别处理方法及装置
CN111462760B (zh) 声纹识别***、方法、装置及电子设备
JP2005321530A (ja) 発話識別装置および発話識別方法
KR101382356B1 (ko) 오디오파일의 위변조 검출장치
CN116013371A (zh) 一种神经退行性疾病监测方法、***、装置及存储介质
Fersini et al. Audio-based emotion recognition in judicial domain: A multilayer support vector machines approach
Cairns et al. Detection of hypernasal speech using a nonlinear operator
JPH11231897A (ja) 音声認識装置及び方法
Selvaperumal et al. Speech to text synthesis from video automated subtitling using Levinson Durbin method of linear predictive coding
Li et al. Fdn: Finite difference network with hierarchical convolutional features for text-independent speaker verification
Li et al. Grammar-based semi-supervised incremental learning in automatic speech recognition and labeling
Raji et al. Robat-e-Beheshti: a Persian wake word detection dataset for robotic purposes
Fathan et al. An Ensemble Approach for the Diagnosis of COVID-19 from Speech and Cough Sounds

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160420

RJ01 Rejection of invention patent application after publication