CN113053410B - 声音识别方法、装置、计算机设备和存储介质 - Google Patents

声音识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113053410B
CN113053410B CN202110220835.8A CN202110220835A CN113053410B CN 113053410 B CN113053410 B CN 113053410B CN 202110220835 A CN202110220835 A CN 202110220835A CN 113053410 B CN113053410 B CN 113053410B
Authority
CN
China
Prior art keywords
layer
data
voice recognition
recognition model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110220835.8A
Other languages
English (en)
Other versions
CN113053410A (zh
Inventor
王琛
刘荔
席子昂
贺琼澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Gridsum Technology Co Ltd
Original Assignee
Tsinghua University
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Gridsum Technology Co Ltd filed Critical Tsinghua University
Priority to CN202110220835.8A priority Critical patent/CN113053410B/zh
Publication of CN113053410A publication Critical patent/CN113053410A/zh
Application granted granted Critical
Publication of CN113053410B publication Critical patent/CN113053410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种声音识别方法、装置、计算机设备和存储介质,该方法包括:获取待识别的声音信号的频谱特征数据;将频谱特征数据输入至预先训练的声音识别模型,由声音识别模型识别声音信号的类别,其中,声音识别模型用于对频谱特征数据提取序列特征,并基于提取的序列特征进行类别识别,且声音识别模型由标注有声音类别的声音样本训练得到。该方法将频谱特征数据作为输入特征,融合了多个深度学习神经网络结构,加强了模型在时间序列上的特征提取能力,提高了对声音分类效率。

Description

声音识别方法、装置、计算机设备和存储介质
技术领域
本发明涉及深度学习技术领域,特别涉及一种声音识别方法、装置、计算机设备和存储介质。
背景技术
在某些传染性疾病中,咳嗽不仅能够有效提醒观察对象是否可能被感染,也有助于对病情发展做出有效判断。目前,声音的录制技术已经较为成熟,但录音内容仍然需要依靠人力来分析,从中选择出咳嗽出现的片段,工作量非常大。若能采用计算机辅助识别咳嗽信号,对于医生对病人的临床诊断与治疗都具有重要意义。
目前,咳嗽声音识别方法主要包括动态时间规整(DTW)、聚类、隐马尔科夫过程(HMM)以及各种算法的组合和改进。经过人工提取声音信号特征后,利用算法模型进行信号的分类和识别,常用的声音信号特征向量包括功率谱密度(PSD)、梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)等。
近年来,随着深度神经网络(DNN)的深入研究与广泛应用,逐渐有人将之应用到咳嗽识别,基于卷积神经网络(CNN)或递归神经网络(RNN)或组合方法设计出高效的模型结构,大大提升了咳嗽识别的准确度。
但是,录音中可能存在噪音大、咳嗽不明显、录音距离变化不定、不同人咳嗽特点不同等问题,给咳嗽识别模型带来了极大的技术挑战。比如,近距离的咳嗽与远距离的咳嗽得到的频谱会明显不同,进行特征计算时很容易产生错误;一段音频咳嗽出现时间位点不同也会导致特征向量产生较大差异;更有甚者,当声音中有尖锐噪音或者金属撞击声等,声音差别区分度不高,利用以梅尔倒谱系数(MFCC)为代表的传统特征向量分类精度不高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种声音识别方法,该方法可以提高对声音分类的效率。
本发明的第二个目的在于提出一种声音识别装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达到上述目的,本发明第一方面实施例提出了一种声音识别方法,包括:
获取待识别的声音信号的频谱特征数据;
将所述频谱特征数据输入至预先训练的声音识别模型,由所述声音识别模型识别所述声音信号的类别,其中,所述声音识别模型用于对频谱特征数据提取序列特征,并基于提取的序列特征进行类别识别,且所述声音识别模型由标注有声音类别的声音样本训练得到。
本发明实施例的声音识别方法,包括声音特征提取和声音识别,使用了一种高效的声音预处理方法,使用诸如短时傅里叶变换的频域转换方式对声音进行处理,得到声音信号的频谱特征数据,反应声音频率在时间维度上的变化规律。加入经过设计的CNN与RNN结构来进一步提取特征,主要包括多层卷积、门控循环单元(GRU)、TimeDistributed层、全连接网络等,引入了全局最大与全局平均的表示方法来提取特征,提高了模型的分类效率。
为达到上述目的,本发明第二方面实施例提出了一种声音识别装置,包括:
获取模块,用于获取待识别的声音信号的频谱特征数据;
识别模块,用于将所述频谱特征数据输入至预先训练的声音识别模型,由所述声音识别模型识别所述声音信号的类别,其中,所述声音识别模型用于对频谱特征数据提取序列特征,并基于提取的序列特征进行类别识别,且所述声音识别模型由标注有声音类别的声音样本训练得到。
本发明实施例的声音识别装置,包括声音特征提取和声音识别,使用了一种高效的声音预处理方法,使用短时傅里叶变换对声音进行处理,得到声音信号的频谱特征数据,反应声音频率在时间维度上的变化规律。加入经过设计的CNN与RNN结构来进一步提取特征,主要包括多层卷积、门控循环单元(GRU)、TimeDistributed层、全连接网络等,引入了全局最大与全局平均的表示方法来提取特征,提高了模型的分类效率。
为达到上述目的,本发明第三方面实施例提出一种计算机设备,包括:至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行如上所述的方法。
为达到上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的声音识别方法流程图;
图2为根据本发明一个实施例的音频频谱特征图;
图3为根据本发明一个实施例的声音识别模型结构示意图;
图4为根据本发明一个实施例的声音识别装置结构示意图;
图5为根据本发明一个实施例的计算机设备一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的声音识别方法、装置、计算机设备和存储介质。
首先将参照附图描述根据本发明实施例提出的声音识别方法。
图1为根据本发明一个实施例的声音识别方法流程图。
如图1所示,该声音识别方法包括以下步骤:
步骤S1,获取待识别的声音信号的频谱特征数据。
具体地,作为一种频谱特征数据的获取方法,可以通过傅里叶变换对待识别的声音信号进行特征提取,得到待识别的声音信号的频谱特征数据。
进一步地,通过傅里叶变换对待识别的声音信号进行特征提取之前,可以对待识别的声音信号进行预处理,通过傅里叶变换对预处理后的待识别的声音信号进行特征提取,进而得到待识别的声音信号的频谱特征数据。
进一步地,对待识别的声音信号进行预处理包括:通过音频切割方法对待识别音频进行切割得到多个音频片段;对音频片段的采样率进行统一。
对待识别的声音信号切割读取,可采用ffmpeg、pydub等方法将待识别的声音信号切割为1秒的片段或读取1秒时长的音频数据。统一音频采样率,统一转化所有音频的采样率为44100Hz,保证后续得到的频谱特征数据维度统一,便于进行后续特征提取与计算。
具体地,利用傅里叶变换的方法(可选方式包括傅里叶变换、短时傅里叶变换等多种频域转换方法)将待识别的声音信号转化为频谱特征数据,将得到的二维数组数据作为频谱特征数据,存储或作为模型输入。二维数组可视化对应的频谱图如图2所示,表示音频在不同时段上的频率变化情况。
可以理解的是,本发明的实施例使用了经过傅里叶变化的频谱特征作为输入特征,经过试验,其相比于梅尔倒谱系数(MFCC)等能提高分类效率。
步骤S2,将频谱特征数据输入至预先训练的声音识别模型,由声音识别模型识别声音信号的类别,其中,声音识别模型用于对频谱特征数据提取序列特征,并基于提取的序列特征进行类别识别,且声音识别模型由标注有声音类别的声音样本训练得到。
可以理解的是,通过声音识别模型识别声音信号的类别或所属某类别的概率。
进一步地,声音识别模型包括第一卷积层、序列特征提取层、序列特征强化层、全局最大与全局平均池化层、以及全连接层,并且,声音识别模型通过以下方式对待识别的声音信号进行识别:
第一卷积层对频谱特征数据进行卷积;
序列特征提取层从第一卷积层输出的卷积后结果中提取时序特征数据;
全局最大与全局平均池化层从时序特征数据中提取多个时刻的最大数据和平均数据,并拼接为特征向量;
全连接层基于拼接后的特征向量输出声音类别。
可以理解的是,声音识别模型的输入数据可以采用前述经过傅里叶变换后得到的频谱特征数据,数据维度为549*101,模型的数据输入维度为(B,549,101),B代表batch尺度,即每次输入的样本数目。
第一卷积层对频谱特征数据进行卷积,具体地,第一卷积层主要包括conv1d卷积层、batch normalization层(批量归一化层)、激活函数层与最大池化层。
进一步地,在本发明的一个实施例中,序列特征提取层包括至少一个时序特征提取层,并且,每个时序特征提取层后连接一个参数归一化层。
进一步地,在本发明的一个实施例中,时序特征提取层为门控循环单元GRU层,且时序特征提取层的数量为两个;参数归一化层为batch normalization层。
具体地,采用两个时序特征提取层,每个时序特征提取层后连接一个参数归一化层。作为一种具体的实施方式,时序特征提取层使用门控循环单元GRU层,可以更好地提取时间序列特征,每个门控循环单元(GRU)层后均再接一层batch normalization层。
进一步地,在本发明的一个实施例中,时序特征强化层可以为TimeDistributed层(时间分布层)。使用TimeDistributed层对输入特征向量进行处理,能够在时间维度上共享权重,将特征提取应用到每个时间片。
全局最大与全局平均池化层对前述得到的时序特征数据进行全局最大与全局平均池化处理,反应了待识别的声音信号中最大与平均的特征,将两个特征拼接成特征向量用于后续分类。通过引入全局最大与全局平均池化层,可以有效将诸波形比较尖锐的声音(如咳嗽、喷嚏等)与波形不尖锐的声音(谈话、脚步等声音)区分开。
以咳嗽声音为例,咳嗽声在较短的时刻具有较大的峰值,但是持续的时间较短,不会在很多个时刻都有较大的平均数据。而大声谈话有较大的峰值,而且会在很多时刻都出现较大的平均值,所以通过将最大数据和平均数据拼接为特征向量,能够有效区分咳嗽声和谈话声。
全连接层用于完成待识别的声音信号的分类,具体地,作为一种具体的实施方式,在识别某种类别的声音时,全连接层输出神经元个数为1,经过sigmoid激活层,输出待识别的声音信号对应的概率,如果是对咳嗽进行识别,则大于或等于0.5可以代表为咳嗽,小于0.5代表为非咳嗽。
进一步地,在上述实施例的基础上,声音识别模型还包括:
第二卷积层,用于对由序列特征提取层输出的时序特征数据进行卷积。
进一步地,全局最大与全局平均池化层从时序特征数据中提取多个时刻的最大数据和平均数据,包括:
全局最大与全局平均池化层从经过第二卷积层卷积后的时序特征数据中提取多个时刻的最大数据和平均数据。
具体地,第二卷积层主要包括conv1d卷积层、batch normalization层、激活函数层与最大池化层。可以理解的是,第二卷积层可以再次提取特征,另外还可以降低数据的维度,从而减少计算量。
进一步地,通过标注有声音类别的声音样本对声音识别模型进行训练,其中,声音样本以及所对应的声音类别包括以下至少之一:咳嗽、喷嚏、谈话等。声音样本可以来源于网络公开数据或自行采集数据。
如图3所示,本发明的实施例设计独特的声音识别模型融合了多个深度学习神经网络结构,再通过精心组合,尤其是TimeDistributed层、全局池化层的引入,加强了模型在时间序列上的特征提取能力,提高了对声音的分类效率。
根据本发明实施例提出的声音识别方法,包括声音特征提取和声音识别,使用了一种高效的声音预处理方法,使用短时傅里叶变换对声音进行处理,得到声音信号的频谱特征数据,反应声音频率在时间维度上的变化规律。加入经过设计的CNN与RNN结构来进一步提取特征,主要包括多层卷积、门控循环单元(GRU)、TimeDistributed层、全连接网络等,引入了全局最大与全局平均的表示方法来提取特征,提高了模型的分类效率。
其次参照附图描述根据本发明实施例提出的声音识别装置。
图4为根据本发明一个实施例的声音识别装置结构示意图。
如图4所示,该声音识别装置包括:获取模块401和识别模块402。
获取模块401,用于获取待识别的声音信号的频谱特征数据。
识别模块402,用于将频谱特征数据输入至预先训练的声音识别模型,由声音识别模型识别声音信号的类别,其中,声音识别模型用于对频谱特征数据提取序列特征,并基于提取的序列特征进行类别识别,且声音识别模型由标注有声音类别的声音样本训练得到。
进一步地,在本发明的一个实施例中,声音识别模型包括第一卷积层、序列特征提取层、序列特征强化层、全局最大与全局平均池化层、以及全连接层,并且,声音识别模型通过以下方式对待识别的声音信号进行识别:
第一卷积层对频谱特征数据进行卷积;
序列特征提取层从第一卷积层输出的卷积后结果中提取时序特征数据;
全局最大与全局平均池化层从时序特征数据中提取多个时刻的最大数据和平均数据,并拼接为特征向量;
全连接层基于拼接后的特征向量输出声音类别。
进一步地,在本发明的一个实施例中,序列特征提取层包括至少一个时序特征提取层,并且,每个时序特征提取层后连接一个参数归一化层。
进一步地,在本发明的一个实施例中,时序特征提取层为门控循环单元GRU层,且时序特征提取层的数量为两个;参数归一化层为batch normalization层。
进一步地,在本发明的一个实施例中,声音识别模型还包括:
第二卷积层,用于对由序列特征提取层输出的时序特征数据进行卷积;
并且,全局最大与全局平均池化层从时序特征数据中提取多个时刻的最大数据和平均数据,包括:
全局最大与全局平均池化层从经过第二卷积层卷积后的时序特征数据中提取多个时刻的最大数据和平均数据。
进一步地,在本发明的一个实施例中,时序特征强化层为TimeDistributed层。
进一步地,在本发明的一个实施例中,声音样本以及所对应的声音类别包括以下至少之一:咳嗽、谈话。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的声音识别装置,包括声音特征提取和声音识别,使用了一种高效的声音预处理方法,使用短时傅里叶变换对声音进行处理,得到声音信号的频谱特征数据,反应声音频率在时间维度上的变化规律。加入经过设计的CNN与RNN结构来进一步提取特征,主要包括多层卷积、门控循环单元(GRU)、TimeDistributed层、全连接网络等,引入了全局最大与全局平均的表示方法来提取特征,提高了模型的分类效率。
图5为本发明计算机设备一个实施例的结构示意图,上述计算机设备包括:至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,上述处理器执行上述计算机程序时,可以实现本发明实施例提供的声音识别方法。
图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的声音识别方法。
本发明实施例还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时可以实现本发明实施例提供的声音识别方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种声音识别方法,其特征在于,包括:
获取待识别的声音信号的频谱特征数据;
将所述频谱特征数据输入至预先训练的声音识别模型,由所述声音识别模型识别所述声音信号的类别,其中,所述声音识别模型用于对频谱特征数据提取序列特征,所述声音识别模型包括第一卷积层、序列特征提取层、序列特征强化层、全局最大与全局平均池化层、以及全连接层,并且,所述声音识别模型通过以下方式对待识别的声音信号进行识别:所述第一卷积层对所述频谱特征数据进行卷积;所述序列特征提取层从所述第一卷积层输出的卷积后结果中提取时序特征数据;所述全局最大与全局平均池化层从所述时序特征数据中提取多个时刻的最大数据和平均数据,并拼接为特征向量;所述全连接层基于拼接后的特征向量输出声音类别,且所述声音识别模型由标注有声音类别的声音样本训练得到。
2.根据权利要求1所述的方法,其特征在于,所述序列特征提取层包括至少一个时序特征提取层,并且,每个时序特征提取层后连接一个参数归一化层。
3.根据权利要求2所述的方法,其特征在于,所述时序特征提取层为门控循环单元GRU层,且所述时序特征提取层的数量为两个;所述参数归一化层为batch normalization层。
4.根据权利要求1所述的识别方法,其特征在于,所述声音识别模型还包括:
第二卷积层,用于对由所述序列特征提取层输出的时序特征数据进行卷积;
并且,所述全局最大与全局平均池化层从所述时序特征数据中提取多个时刻的最大数据和平均数据,包括:
所述全局最大与全局平均池化层从经过所述第二卷积层卷积后的时序特征数据中提取多个时刻的最大数据和平均数据。
5.根据权利要求1所述的识别方法,其特征在于,所述时序特征强化层为TimeDistributed层。
6.根据权利要求1所述的识别方法,其特征在于,所述声音样本以及所对应的声音类别包括以下至少之一:咳嗽、谈话。
7.一种声音识别装置,其特征在于,包括:
获取模块,用于获取待识别的声音信号的频谱特征数据;
识别模块,用于将所述频谱特征数据输入至预先训练的声音识别模型,由所述声音识别模型识别所述声音信号的类别,其中,所述声音识别模型用于对频谱特征数据提取序列特征,所述声音识别模型包括第一卷积层、序列特征提取层、序列特征强化层、全局最大与全局平均池化层、以及全连接层,并且,所述声音识别模型通过以下方式对待识别的声音信号进行识别:所述第一卷积层对所述频谱特征数据进行卷积;所述序列特征提取层从所述第一卷积层输出的卷积后结果中提取时序特征数据;所述全局最大与全局平均池化层从所述时序特征数据中提取多个时刻的最大数据和平均数据,并拼接为特征向量;所述全连接层基于拼接后的特征向量输出声音类别,且所述声音识别模型由标注有声音类别的声音样本训练得到。
8.一种计算机设备,包括:至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行如权利要求1至6任一项所述的方法。
9.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
CN202110220835.8A 2021-02-26 2021-02-26 声音识别方法、装置、计算机设备和存储介质 Active CN113053410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110220835.8A CN113053410B (zh) 2021-02-26 2021-02-26 声音识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110220835.8A CN113053410B (zh) 2021-02-26 2021-02-26 声音识别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113053410A CN113053410A (zh) 2021-06-29
CN113053410B true CN113053410B (zh) 2021-10-01

Family

ID=76509275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110220835.8A Active CN113053410B (zh) 2021-02-26 2021-02-26 声音识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113053410B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408664B (zh) * 2021-07-20 2024-04-16 北京百度网讯科技有限公司 训练方法、分类方法、装置、电子设备以及存储介质
CN113689843B (zh) * 2021-07-22 2022-07-22 北京百度网讯科技有限公司 声码器的选择及模型训练方法、装置、设备和存储介质
CN116129914A (zh) * 2023-04-04 2023-05-16 中国林业科学研究院资源信息研究所 声音识别模型的训练方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148400A (zh) * 2018-07-18 2019-08-20 腾讯科技(深圳)有限公司 发音类型的识别方法、模型的训练方法、装置及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886533B2 (en) * 2011-10-25 2014-11-11 At&T Intellectual Property I, L.P. System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
JP2018028882A (ja) * 2016-08-21 2018-02-22 光俊 秋谷 咳嗽情報解析システム
US11810435B2 (en) * 2018-02-28 2023-11-07 Robert Bosch Gmbh System and method for audio event detection in surveillance systems
CN108877783B (zh) * 2018-07-05 2021-08-31 腾讯音乐娱乐科技(深圳)有限公司 确定音频数据的音频类型的方法和装置
WO2020153736A1 (en) * 2019-01-23 2020-07-30 Samsung Electronics Co., Ltd. Method and device for speech recognition
CN110334243A (zh) * 2019-07-11 2019-10-15 哈尔滨工业大学 基于多层时序池化的音频表示学习方法
CN111933188B (zh) * 2020-09-14 2021-02-05 电子科技大学 一种基于卷积神经网络的声音事件检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148400A (zh) * 2018-07-18 2019-08-20 腾讯科技(深圳)有限公司 发音类型的识别方法、模型的训练方法、装置及设备

Also Published As

Publication number Publication date
CN113053410A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
US10699699B2 (en) Constructing speech decoding network for numeric speech recognition
CN113053410B (zh) 声音识别方法、装置、计算机设备和存储介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN110826466B (zh) 基于lstm音像融合的情感识别方法、装置及存储介质
Zeng et al. Effective combination of DenseNet and BiLSTM for keyword spotting
CN107731233B (zh) 一种基于rnn的声纹识别方法
CN111276131B (zh) 一种基于深度神经网络的多类声学特征整合方法和***
US10593333B2 (en) Method and device for processing voice message, terminal and storage medium
CN111402891B (zh) 语音识别方法、装置、设备和存储介质
CN101930735A (zh) 语音情感识别设备和进行语音情感识别的方法
CN111798840A (zh) 语音关键词识别方法和装置
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
Liu et al. Simple pooling front-ends for efficient audio classification
Bhangale et al. Speech emotion recognition using the novel PEmoNet (Parallel Emotion Network)
Sen et al. A convolutional neural network based approach to recognize bangla spoken digits from speech signal
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
CN110782916B (zh) 一种多模态的投诉识别方法、装置和***
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
CN117037796A (zh) 基于多元特征的aigc语音欺诈风控方法、介质及设备
JP2022534003A (ja) 音声処理方法、音声処理装置およびヒューマンコンピュータインタラクションシステム
Gupta et al. Speech Recognition Using Correlation Technique
Ali et al. Fake audio detection using hierarchical representations learning and spectrogram features
CN113035230B (zh) 认证模型的训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant