CN109285539B - 一种基于神经网络的声音识别方法 - Google Patents
一种基于神经网络的声音识别方法 Download PDFInfo
- Publication number
- CN109285539B CN109285539B CN201811430315.4A CN201811430315A CN109285539B CN 109285539 B CN109285539 B CN 109285539B CN 201811430315 A CN201811430315 A CN 201811430315A CN 109285539 B CN109285539 B CN 109285539B
- Authority
- CN
- China
- Prior art keywords
- sound
- neural network
- frequency spectrum
- voice
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 53
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 abstract description 5
- 210000004556 brain Anatomy 0.000 abstract description 4
- 238000001914 filtration Methods 0.000 abstract 1
- 238000003780 insertion Methods 0.000 abstract 1
- 230000037431 insertion Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于神经网络的声音识别方法,该方法包括以下步骤:首先使用通常声音采样方式对声音进行功率谱变换,***、采样等滤波算法后得到标准格式的声音样本;根据声音识别指令,确定待识别的目标声音特征;针对预先获得的查找表集合中每个查找表,将目标声音采样的每个采样点与该查找表的每个表项进行匹配,查找表集合包含多个具有不同内容的参考声音对应的查找表,每个查找表基于神经网络结构建立,每个查找表中的表项为神经网络结构的神经元;根据匹配结果,确定目标声音。应用本发明实施例所提供的技术方案,基于神经网络结构进行声音识别,模拟了人脑的学习能力,使得声音识别更加准确。
Description
技术领域
本发明涉及声音识别技术,特别是涉及一种基于神经网络的声音识别方法。
背景技术
随着计算机应用技术的快速发展,语音或者其他类型声音识别技术的应用越来越广泛,对声音识别的需求也越来越多。比如在语音控中,或者在特定场景声音事件触发中,都需要进行声音识别。
随着对人脑结构和神经网络的研究,现已经了解并逐渐探索出人脑对信息的处理及工作方式。但基于神经网络结构如何进行声音的准确识别,是目前本领域技术人员亟需解决的技术问题。
发明内容
本发明的目的是提供一种基于神经网络的声音识别方法,以基于神经网络结构对声音进行准确识别。
为解决上述技术问题,本发明提供如下技术方案:一种基于神经网络的声音识别方法,包括:
对样本声音、待识别声音进行预处理,得到样本声音频率谱、待识别声音频谱;
若声音指令为学习指令,则将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表;
若声音指令为识别指令,则将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音。
所述预处理包括:
对样本声音、待识别声音进行插值、抽取采样得到定长的声音片段;
再经过短时傅里叶变换,得到样本声音频率谱、待识别声音频谱。
所述短时傅里叶变换为:
其中,短时傅里叶变换是窗口选语音信号的标准傅里叶变换,n是窗口长度,ω是角频率,x(m)是时间点为m的声音信号序列,ω(n-m)表示窗函数,当n取值不同时,窗口w(n-m)沿着x(m)序列滑动,对声音信号进行截取,经过傅里叶变换将声音信号从时域变成频域,得到声音信号频率谱;经过变换后得到的声音频率谱的每个采样点与神经网络节点一一对应。
所述将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表,包括:
如果该样本声音频率谱为首次学习,则将其数据在L0层对应的神经网络节点的表项中创建表项记录;
如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录。
所述表项记录包括:索引值index、指令opcode、频率谱数据值pvalue、学习次数study_num、时间戳timestamp、有效位valid;
所述索引值index表示样本声音频率谱的样本点编号、指令opcode表示当前频率谱数据是样本声音还是待识别声音、频率谱数据值pvalue为按照短时傅里叶变换后的数据值、学习次数study_num表示当前频率谱数据被声音神经网络记录的次数、时间戳timestamp表示最后一次记录该当前频率谱数据的时间、有效位valid表示当前频谱的数据值是否已经学习过。
所述如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录;包括:
根据有效位valid是否有效,若有效,则在Li层的神经网络节点表项中,将频率谱数据值pvalue的值进行累加,学习次数study_num的值加1;
否则,在Li+1层对应的神经网络节点的表项中创建表项记录,包括vaild值置1,将指令中的pvalue值写入表项中的频率谱数据值pvalue中,学习次数study_num置1。
所述将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音,包括:
逐层深度的遍历声音神经网络查找表的所有节点,若有效位valid有效,则将待识别声音频谱的数据值与该节点对应的频率谱数据值pvalue进行比较,确定误差最小的节点的索引值index和该节点所在的深度deep;根据索引值index输出原样本声音。所述深度deep为该节点所在层的层号。
学习或识别过程中,若当前索引值index对应的时间戳timestamp在预设时间范围内没有变化,则删除该当前索引值index对应的表项内容。
本发明具有以下有益效果及优点:
1.本发明可以模糊声音长度进行比较匹配,在预处理算法中实现。
2.本发明可以任意配置神经网络节点矩阵的长度(对应频率谱采样数)与深度(对应学习深度)及每个节点表项的地址深度(对应可以学习的声音含义数)。
3.本发明有模拟人脑对记忆行为的模拟,可以根据表项中是timestamp时间戳进行缓慢遗忘。
4.本发明也可单独运用于集成电路,使用FPGA或设计成专用ASIC芯片。
5.本发明可以接入在多种***总线,实现多种***的硬件异构加速处理。
附图说明
图1为本发明的一种基于神经网络的声音识别方法流程图;
图2为本发明预处理中将音频采样信号从波形图转换为频率谱图;
图3为本发明中一种声音处理指令数据结构示意图;
图4为神经网络节点深度迭代示意图;
图5为神经网络节点表项矩阵图;
图6为本发明每个神经网络节点表项数据结构示意图;
图7为本发明实施实例中样本学习流程图;
图8为本发明实施实例中样本查找流程图;
图9为本发明中一种声音识别***结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
如图1所示,为本发明实施例所提供的一种基于神经网络结构的声音识别方法的实施流程图,具体实施流程如下:
S110:根据声音识别指令,确定待识别的目标图像。在本发明实施例中,控制单元可以通过前端接口单元接收声音学习或者识别指令,如图2所示。图像识别指令中可以携带待识别的目标声音样本。根据声音识别指令,可以确定待识别的目标声音。
如图3所示,opcode代表操作指令,可以指示该学习或者识别指令;index代表索引,在学习指令时指定要写入表项的地址;deep代表查找的深度,在识别指令时返回查找到的深度,pvalue为频率谱信号值。
在接收到声音识别指令时,可以通过计算单元先对声音识别指令中的目标声音样本进行预处理,以达到加速及更加准确识别的目的。比如,可以对有限个时间识别样本进行***样本或抽取样本的操作,使目标样本与本发明的查找表矩阵L0一层深度的节点数相匹配。同时使用短时傅里叶变换算法,将声音样本变换至频率谱,使声音特征区分更加明显,如图2所示。
本发明实施例所基于的神经网络结构如图4所示,为矩阵结构,矩阵的二维坐标系分别为Sn×Ln,其中每一个节点为一个神经元。在图4中,如果目标声音能量谱频率分辨率为64大小,则其每一个频率坐标可以对应[S0]至[S63]相应位置的神经元。
如图5所示,如果声音能量频率谱分辨率为64大小,则可以在L0层每一个频率坐标可以对应[S0]至[S63]相应位置的神经元,每一个神经元节点建立一张深度为N的查找表项,每一张表项如图6所示,矩阵深度Ln可以灵活配置,深度越深,代表可以容纳学习的次数越多,识别越准确。
S120:若判断声音处理指令opcode为学习指令,将目标所携带的数据按照索引index位置,将表项valid位设置成有效;将指令中pvalue的值与表项中pvalue的值进行迭代累加;同时可以向相邻两个神经网络节点的值进行有权值的迭代累加,如图3所示;并向表项内的学习次数study_num值+1;同时刷新timestamp,如图6流程所示。
S130:在步骤S120执行后,读取深度一层的神经网络节点表项,判断其表项valid值,识别该神经节点表项是否学习过,若该节点学习过,则重复执行S120步骤,直至迭代至空白节点表项,学习流程如图7所示。
S140:完成一次一个声音频率点的神经网络节点深度学习过程。
S150:若判断声音处理指令opcode为识别指令,需要对表项所有地址的表项依次读取进行比较;每次判断valid位是否有效,有效代表该表项有过学习记录;将声音频率谱样本与L0层的表项的所有地址的表项比较匹配一遍,记录下匹配最为接近的地址index值。
S160:使用S150匹配得到的地址index值向L1层(深度+1)的神经网络节点表项进行查找比较直至比较匹配至最深的未学习记录的深度值,整个识别查找过程如图8所示。
S140:完成一次一个声音频率点的神经网络节点深度匹配查找过程。
如图9所示,为本发明实施实例所提供的一种软硬件***装置结构示意图;前端接口可以解析上层指令,与其交互的可以是通用x86架构下的PCI-E(PCI Express,新一代总线接口),还可以是ARM架构下AXI(Advanced extensible Interface,一种总线协议)等接口。
显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (5)
1.一种基于神经网络的声音识别方法,其特征在于,包括:
S1、对样本声音、待识别声音进行预处理,得到样本声音频率谱、待识别声音频谱;
S2、若声音指令为学习指令,则将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表;包括:
S21、如果该样本声音频率谱为首次学习,则将其数据在L0层对应的神经网络节点的表项中创建表项记录;
所述表项记录包括:索引值index、指令opcode、频率谱数据值pvalue、学习次数study_num、时间戳timestamp、有效位valid;所述索引值index表示样本声音频率谱的样本点编号、指令opcode表示当前频率谱数据是样本声音还是待识别声音、频率谱数据值pvalue为按照短时傅里叶变换后的数据值、学习次数study_num表示当前频率谱数据被声音神经网络记录的次数、时间戳timestamp表示最后一次记录该当前频率谱数据的时间、有效位valid表示当前频谱的数据值是否已经学习过;
S22、如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录;包括:
根据有效位valid是否有效,若有效,则在Li层的神经网络节点表项中,将频率谱数据值pvalue的值进行累加,学习次数study_num的值加1;
否则,在Li+1层对应的神经网络节点的表项中创建表项记录,包括vaild值置1,将指令中的pvalue值写入表项中的频率谱数据值pvalue中,学习次数study_num置1;
S3、若声音指令为识别指令,则将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音。
2.根据权利要求1所述的一种基于神经网络的声音识别方法,其特征在于所述预处理包括:
对样本声音、待识别声音进行插值、抽取采样得到定长的声音片段;
再经过短时傅里叶变换,得到样本声音频率谱、待识别声音频谱。
4.按照权利要求1所述一种基于神经网络的声音识别方法,其特征在于所述将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音,包括:
逐层深度的遍历声音神经网络查找表的所有节点,若有效位valid有效,则将待识别声音频谱的数据值与该节点对应的频率谱数据值pvalue进行比较,确定误差最小的节点的索引值index和该节点所在的深度deep;根据索引值index输出原样本声音。
5.按照权利要求1或4所述一种基于神经网络的声音识别方法,其特征在于:学习或识别过程中,若当前索引值index对应的时间戳timestamp在预设时间范围内没有更改,则删除该当前索引值index对应的表项内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811430315.4A CN109285539B (zh) | 2018-11-28 | 2018-11-28 | 一种基于神经网络的声音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811430315.4A CN109285539B (zh) | 2018-11-28 | 2018-11-28 | 一种基于神经网络的声音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109285539A CN109285539A (zh) | 2019-01-29 |
CN109285539B true CN109285539B (zh) | 2022-07-05 |
Family
ID=65173729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811430315.4A Active CN109285539B (zh) | 2018-11-28 | 2018-11-28 | 一种基于神经网络的声音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109285539B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110324702B (zh) * | 2019-07-04 | 2022-06-07 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844695A (ja) * | 1994-08-02 | 1996-02-16 | Hitachi Zosen Corp | 音源の識別方法 |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其*** |
CN106529609A (zh) * | 2016-12-08 | 2017-03-22 | 郑州云海信息技术有限公司 | 一种基于神经网络结构的图像识别方法及装置 |
KR101720514B1 (ko) * | 2016-02-26 | 2017-04-11 | 서강대학교산학협력단 | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070299671A1 (en) * | 2004-03-31 | 2007-12-27 | Ruchika Kapur | Method and apparatus for analysing sound- converting sound into information |
-
2018
- 2018-11-28 CN CN201811430315.4A patent/CN109285539B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844695A (ja) * | 1994-08-02 | 1996-02-16 | Hitachi Zosen Corp | 音源の識別方法 |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其*** |
KR101720514B1 (ko) * | 2016-02-26 | 2017-04-11 | 서강대학교산학협력단 | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 |
CN106529609A (zh) * | 2016-12-08 | 2017-03-22 | 郑州云海信息技术有限公司 | 一种基于神经网络结构的图像识别方法及装置 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109285539A (zh) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021189642A1 (zh) | 信号处理方法、装置、计算机设备及存储介质 | |
CN105183720A (zh) | 基于rnn模型的机器翻译方法和装置 | |
CN111193834B (zh) | 基于用户声音特征分析的人机交互方法、装置和电子设备 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN111508480B (zh) | 音频识别模型的训练方法、音频识别方法、装置及设备 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
US11810546B2 (en) | Sample generation method and apparatus | |
CN108847252B (zh) | 基于声信号语谱图纹理分布的声特征提取方法 | |
CN108922543A (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN112397093B (zh) | 一种语音检测方法与装置 | |
CN109785846A (zh) | 单声道的语音数据的角色识别方法及装置 | |
CN110619264A (zh) | 基于UNet++的微地震有效信号识别方法及装置 | |
CN109285539B (zh) | 一种基于神经网络的声音识别方法 | |
CN113327628A (zh) | 音频处理方法、装置、可读介质和电子设备 | |
CN107894837A (zh) | 动态情感分析模型样本处理方法及装置 | |
CN107564546A (zh) | 一种基于位置信息的语音端点检测方法 | |
CN116451081A (zh) | 数据漂移的检测方法、装置、终端及存储介质 | |
Park et al. | Pretrained network-based sound event recognition for audio surveillance applications | |
CN114783423A (zh) | 基于语速调整的语音切分方法、装置、计算机设备及介质 | |
CN113362853B (zh) | 一种基于lstm网络emd端点效应抑制方法 | |
CN116153326A (zh) | 语音分离方法、装置、电子设备及可读存储介质 | |
CN114218428A (zh) | 音频数据聚类方法、装置、设备及存储介质 | |
CN112818846A (zh) | 视频帧的特征提取方法、装置及电子设备 | |
CN115910042B (zh) | 识别格式化音频文件的信息种类的方法和装置 | |
Cochran et al. | Deepdream Applied To an Instrument Recognition Cnn |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |