CN104538033A - 基于嵌入式gpu***的并行化语音识别***及方法 - Google Patents

基于嵌入式gpu***的并行化语音识别***及方法 Download PDF

Info

Publication number
CN104538033A
CN104538033A CN201410837018.7A CN201410837018A CN104538033A CN 104538033 A CN104538033 A CN 104538033A CN 201410837018 A CN201410837018 A CN 201410837018A CN 104538033 A CN104538033 A CN 104538033A
Authority
CN
China
Prior art keywords
parallelization
module
voice
embedded gpu
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410837018.7A
Other languages
English (en)
Inventor
刘镇
吕超
孟腾腾
范远超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201410837018.7A priority Critical patent/CN104538033A/zh
Publication of CN104538033A publication Critical patent/CN104538033A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公布了一种基于GPU***的并行化语音识别***及方法,该***包括嵌入式GPU***、语音输入模块和显示输出模块;其中,嵌入式GPU***由预处理模块、并行化特征提取模块和并行化特征匹配模块组成。语音输入模块输出信号进入嵌入式GPU***,在嵌入式GPU***内顺序通过预处理模块、并行化特征提取模块和并行化特征匹配模块,输入至显示输出模块显示;语音库的信号模板进入并行化特征匹配模块。本发明对部分模块进行了并行化改进,能够处理大数据量的音频识别。同时利用并行化方法优化语音信号处理等过程,提高语音识别***效率,保证语音识别功能实时性,增强语音识别***的健壮性和稳定性。本发明还公布了一种基于GPU***的并行化语音识别***的方法。

Description

基于嵌入式GPU***的并行化语音识别***及方法
技术领域
本发明涉及一种语音识别***及方法,尤其涉及一种基于嵌入式GPU***的并行化语音识别***及方法,属于语音识别领域。
背景技术
随着人工智能,智能终端等技术与设备的发展,语音识别被越来越广泛地应用,传统的语音识别方法通常是利用DSP等硬件装置或者结合人工神经网络算法等方式,将音频整个送入识别引擎作处理,这样做的好处是保留了语义的连贯性,可以最大限度地确保识别结果的准确率,但这种语音识别方法的缺点也显而易见:一方面是硬件成本高,***结构复杂;另一方面是识别时间过长,难以处理大数据量的音频文件,所以需要做并行化处理以缩短其识别时间。
而现有的并行化技术目前还只停留在以数据为驱动的宏观层面上,即由多路引擎组成集群,在同一个时间段可以在不同的机器上处理多个文件,一定程度上减小了处理器的压力。但随之而来的问题是:切分后的音频数据在网络中传输所带来的时间开销大,不能达到实时性要求、算法复杂,缺乏合理有效地并行调度控制以及部署集群来做语音识别成本过大,难以民用化。
发明内容
本发明在于提供一种基于嵌入式GPU***的并行化语音识别***及方法,以解决现有语音识别方法并行化程度低、时间开销大以及成本高的技术问题。
本发明的目的通过以下技术方案予以实现:基于嵌入式GPU***的并行化语音识别***,包括嵌入式GPU***1、语音输入模块2和显示输出模块3;其中嵌入式GPU***1由预处理模块1-1、并行化特征提取模块1-2、并行化特征匹配模块1-3和语音库1-4组成;语音输入模块2的输出信号进入嵌入式GPU***1,在嵌入式GPU***1内顺序通过预处理模块1-1、并行化特征提取模块1-2和并行化特征匹配模块1-3,信号在嵌入式GPU***1内处理后输出进入显示输出模块3进行输出显示;语音库1-4的输入信号进入并行化特征匹配模块1-3。
基于嵌入式GPU***的并行化语音识别***的方法,包括下列步骤:
1、语音输入模块2采集语音信号,并将数字化的信号送入基于CUDA平台架构的嵌入式GPU***1;
2、信号进入嵌入式GPU***1的预处理模块1-1,利用CUDA架构在预处理模块1-1中进行以下预处理步骤:
(a)通过并行化的一阶数字预加重滤波程序滤除输入语音信号的低频干扰,提升对语音识别有用的高频部分;
(b)利用并行化的方法给输入语音信号加窗分帧,使得语音信号更易于处理;
(c)采用双门限比较法进行端点检测,将输入语音信号切分为若干片段,减少计算量,提高***的识别率;
3、利用CUDA架构,在并行化特征提取模块1-2中对切分后的每个语音片段并行化地进行特征提取;
4、利用CUDA架构,在并行化特征匹配模块1-3中将分段特征提取后的信号特征值与语音库1-4中的语音模板进行并行化的特征匹配;
5、整合各片段的匹配识别结果,得出完整的语音识别信息,送入显示输出模块3显示结果。
其中,所述步骤2(a)中一阶数字预加重滤波程序由一阶高通滤波器实现,其传递函数为:H(z)=1-az-1
其中,所述步骤2(b)中对语音信号的分帧加窗是由可移动的有限长度窗口进行加权的方法来实现的,即Sw(n)=S(n)*w(n),其中S(n)为加窗前的函数,Sw(n)为加窗后的函数,w(n)即为所加的窗函数。
其中,所述步骤2(c)中端点检测是通过将语音信号的短时能量和短时过零率作为特征参数,同时采用双门限判定法来检测语音,根据语音间短暂停顿切分语音信号实现。
其中,所述步骤3中提取各段语音信号的特征值,是通过对切分后的每个语音片段并行化进行特征提取来实现,提取的特征值参数为该片段的Mel频率倒谱系数MFCC和片段索引数组。特征值参数中的索引数组是指本语音片段中每帧的特征向量的一维量化值组成的一维数组;该一维量化值是采用自相似加权距离法对音频特征数据进行降维处理产生的;对于第i帧n维特征向量Xi,对应的一维量化值pi
p i = Σ j = - R R c j · d ( X i , X i - j ) ( R > 0 , Σ j = - R R c j = 1 )
其中,d(Xi,Xi-j)表示两个特征向量间的距离,R为计算范围,cj为加权系数,其值可采用如下方式确定:
c j = R - | j | Σ i = - R R ( R - | i | ) ( - R ≤ j ≤ R )
进一步的,所述步骤3中每个语音片段分割后相互独立,对每一语音片段进行特征值提取计算的过程是并行化的;在CUDA平台架构下,为每个语音片段分配一个线程(Thread),N个语音片段使用N个线程并行执行特征值计算,以加快处理速度,提高***效率。
其中,所述步骤4中将分段特征提取后的信号特征值与已有语音库1-4中的模板进行并行化特征匹配,是利用各片段的索引数组来计算该音频片段与各模板的相似度,如果相似度小于所设定的阈值,则本次匹配失败,接着进行下一个索引数组与模板的相似度计算;否则,继续利用该语音片段的MFCC特征值来计算与当前模板的相似度,如果MFCC特征值相似度大于设定阈值,则该片段与模板匹配成功;按此方法通过并行化的片段匹配,最终识别完整的语音内容。
进一步的,所述步骤4语音片段的特征值匹配的具体实现是通过基于CUDA平台的并行化音频检索方法。根据每次输入GPU的语音片段数自适应的设置相应GPU执行配置,多个线程(Thread)组成一个线程块(Block),若干个线程块组成一个线程格(Grid);将语音库中的众多模板分给各线程块去处理,即:线程格内的每个线程块处理不同的模板,而每个线程块内的所有线程处理同一个模板;每个语音片段分别与一个线程块中的每个线程(同一个模板)进行并行匹配计算;这样每个CUDA线程都相互独立地执行各自的匹配运算。
与现有技术相比,本发明的有益效果是:(1)使用嵌入式GPU***,进行了部分模块的并行化改进。由于GPU浮点运算能力强、内存宽带大和成本低,以及基于CUDA通用并行化计算架构,可以充分发挥GPU的计算能力,能够处理大数据量的音频识别;(2)利用并行化方法对语音信号处理、匹配识别等过程进行优化,同时改进算法程序,以加快语音识别速度,从而提高语音识别***的效率,保证语音识别功能的实时性,增强语音识别***的健壮性和稳定性。
附图说明
图1为本发明的一种基于嵌入式GPU***的并行化语音识别***及方法模块图;
图2为本发明的一种基于嵌入式GPU***的并行化语音识别***及方法的实施流程图;
图3为本发明中语音片段与语音库模板匹配计算流程图;
图4为本发明中基于CUDA平台的并行化特征匹配方法中对GPU资源配置划分示意图。
具体实施方式
下面结合附图对本发明的内容作进一步的详细介绍。
如图1所示,一种基于嵌入式GPU***的并行化语音识别***,包括嵌入式GPU***1、语音输入模块2和显示输出模块3;其中嵌入式GPU***1由预处理模块1-1、并行化特征提取模块1-2、并行化特征匹配模块1-3和语音库1-4组成;语音输入模块2的输出信号进入嵌入式GPU***1,在嵌入式GPU***1内顺序通过预处理模块1-1、并行化特征提取模块1-2和并行化特征匹配模块1-3,信号在嵌入式GPU***1内处理后输出进入显示输出模块3进行输出显示;语音库1-4的输入信号进入并行化特征匹配模块1-3。
如图2所示,基于嵌入式GPU***的并行化语音识别方法,具体包括下列步骤:
1、语音输入模块2采集语音信号,并将数字化的信号送入基于CUDA平台架构的嵌入式GPU***1;
2、信号进入嵌入式GPU***1的预处理模块1-1,利用CUDA架构在预处理模块1-1中进行以下预处理步骤:
(a)利用并行化的Matlab_CUDA程序设计一阶高通数字滤波器进行预加重,该滤波器的传递函数为H(z)=1-az-1,用此滤波器来滤除低频干扰,提升对语音识别有用的高频部分,假设S(n)是预加重前的语音信号,那么经过预加重滤波器后得到的信号为:
S ~ ( n ) = S ( n ) - a · S ( n - 1 )
(b)利用并行化的Matlab_CUDA程序给语音信号加窗分帧:由于语音信号只在较短的时间内呈现平稳性,因此将语音信号划分为若干个短时段,即一帧;同时为避免丢失语音信号的动态信息,相邻帧之间要有一段重叠区域,重叠区域取帧长的1/3,以增加每帧左端和右端的连续性;分帧使用可移动的有限长度窗口进行加权的方法来实现,就是用一定的窗函数W(n)与相乘,从而得到加窗语音信号Sw,本方法在语音信号中加上汉明窗,汉明窗的窗函数如下所示:
(c)利用双门限比较法进行端点检测,减少计算量,提高***的识别率;在开始进行端点检测之前,首先为短时平均能量和过零率确定两个门限,其中一个是低门限,对信号的变化比较敏感,很容易就会被超过;另一个是高门限,信号必须达到一定的强度,该门限才有可能被超过;低门限被超过,也有可能是短时噪声引起的,而高门限被超过则被认为是由语音引起的。整个语音信号的端点检测可以分为四个阶段:静音段、过渡段、语音段、结束;在静音段,如果能量或过零率超越了低门限,就应该标记为起始点,进入过渡段,由于参数的数值比较小,不能确定是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态;而如果在过渡段两个参数中的任一个超过了高门限,就可以确定进入语音段;当两个参数值降到低门限以下,而且总的时间长度小于设定的最短时间门限,则认为这是一段噪音,继续扫描后续的语音数据,否则就标记为结束端点。
根据人说话时每句之间都会有短暂的停顿,端点检测到每一句话时都将标记一个起始端点和结束端点,所以利用端点检测可以将一段语音切分为N个语音片段,分别标记为S1,S2,……,SN
3、利用CUDA架构,在并行化特征提取模块4中对每个语音片段Sn并行化地进行特征提取,计算各段语音信号特征值。为了加快匹配速度、减少计算量,提取的特征值参数除了该片段的Mel频率倒谱系数MFCC,还有该片段索引数组。特征值参数中的索引数组是指本语音片段中每帧的特征向量的一维量化值组成的一维数组;该一维量化值是采用自相似加权距离法对音频特征数据进行降维处理产生的;对于第i帧n维特征向量Xi,对应的一维量化值pi
p i = Σ j = - R R c j · d ( X i , X i - j ) ( R > 0 , Σ j = - R R c j = 1 )
其中,d(Xi,Xi-j)表示两个特征向量间的距离,R为计算范围,cj为加权系数,其值可采用如下方式确定:
c j = R - | j | Σ i - - R R ( R - | i | ) ( - R ≤ j ≤ R )
每个语音片段分割后相互独立,对每一语音片段进行特征值提取计算的过程是并行化的;在CUDA平台架构下,为每个语音片段分配一个线程(Thread),N个语音片段使用N个线程并行执行特征值计算;特征提取的加速可以使用CUDA提供的CUBLAS库和CUFFT库实现,以加快处理速度,提高***效率。
4、如图3,利用CUDA架构,在并行化特征匹配模块1-3中将分段特征提取后的信号特征值与已有语音库1-4中的模板进行并行化的特征匹配;具体的说是,为了减小MFCC匹配的运算量,提高识别效率,在匹配过程中,先利用各片段的索引数组来计算该音频片段与各模板的相似度,如果相似度小于所设定的阈值T1,则本次匹配失败,直接进行下一个索引数组与该模板的相似度计算;否则,继续利用该语音片段的MFCC特征值来计算与当前模板的相似度,如果MFCC特征值相似度大于设定阈值T2,则该片段与模板匹配成功;按此方法通过并行化的片段匹配,最终识别完整的语音内容。
该音频检索方法充分利用GPU强大的并行计算能力,对语音特征匹配过程中密集型的数据计算进行加速。在CUDA平台下将语音特征值匹配分为在CPU上执行的Host端和在GPU上执行的Device端两部分。其中,Host端完成特征数据读取、GPU资源分配、参数传递和接收返回结果等功能;Device端主要完成特征值的并行计算匹配等功能;最后,Host端保存来自Device端的计算结果并将其写回到指定位置。根据GPU硬件性能,假设每个设备即一个线程格(Grid)最多可分为M个线程块(block),每个线程块最多可分成N个线程(Thread)。
具体地,基于并行化特征值匹配的音频检索详细步骤如下:
(a)将特征匹配所需的如下数据加载至GPU显存中:
①将语音库1-4中存放的m(m<M)个模板特征值(MFCC特征矩阵和索引数组)传输至GPU中;
②将n(n<N)个音频片段组合为一个较大的音频片段块之后再将其传输到GPU上,如此可以提高并行化程度,减少Device端与Host端的交互次数,减小传输带宽的压力,提高匹配效率;
③每个线程根据其线程号在结果空间中分配相应的位置,包括片段索引数组匹配结果和MFCC特征矩阵匹配结果。
(b)如图4,根据每次输入GPU的语音片段数量自适应的进行GPU资源配置划分。在每次执行并行计算的线程格(Grid)中分配m个线程块(Block),每个线程块中分配n个线程(Thread)。其中,一个线程块中的所有线程执行同一种音频模板与n个输入音频片段的匹配,不同的线程块使用不同的模板进行计算;为了充分利用GPU资源,优化资源配置,将每个模板特征值存入对应线程块(Block)的共享存储器(Share Memory)中,而将参与本次并行计算的语音片段块存入常量存储器(Constant Memory)中;
(c)基于CUDA架构中的并行函数在GPU上执行特征匹配的计算过程如下:
片段索引数组是一个一维数组,对该数组的匹配实际上是一个滑动的过程,每个线程只需完成其中某一模板的匹配。片段索引数组匹配由一个简单的kernel函数完成,该函数的功能是实现两个数组对应位置的元素相减,然后将计算结果返回Host端由CPU判断选择后续的执行任务;
MFCC特征矩阵匹配过程中利用一个线程块负责计算两个矩阵的相似度。由于语音片段长度和MFCC特征维度相对固定,将这两个值设置为可以配置的参数。MFCC特征矩阵匹配过程由两个kernel函数完成:
①kernel_1函数的一个线程块负责计算两个矩阵对应列向量间的余弦距离;线程块的数量与矩阵的列数相同,而矩阵的列数由语音片段的长度决定,即线程块的个数等于语音片段的个数;线程块内的线程数与向量的维度相等;为了便于规约求和,线程块的大小一般取2x(x为正整数,且2x≥语音片段的个数)。
②kernel_1计算结果是一个向量,用多个结果向量作为列组成一个新的矩阵,kernel_2负责计算矩阵内各列元素的均值;kernel_2函数的线程块数量等于矩阵的列数,即MFCC特征矩阵匹配的次数;线程块内的线程数与矩阵行数相等,矩阵行数表示语音片段的个数;为了便于规约求和,线程块的大小一般取2x(x为正整数,且2x≥特征矩阵匹配的次数)。
(d)将Device端的并行计算结果返回给Host端由CPU继续执行语音识别的后续过程。
5、整合各段的匹配识别结果,得出完整的语音识别信息,送入显示输出模块3显示结果。
除上述实施例外,本发明还可以有其他实施方式,凡采用等同替换或等效变换形成的技术方案,均落在本发明权利要求的保护范围内。

Claims (10)

1.基于嵌入式GPU***的并行化语音识别***,其特征在于,包括嵌入式GPU***(1)、语音输入模块(2)和显示输出模块(3);其中嵌入式GPU***(1)由预处理模块(1-1)、并行化特征提取模块(1-2)、并行化特征匹配模块(1-3)和语音库(1-4)组成;语音输入模块(2)的输出信号进入嵌入式GPU***(1),在嵌入式GPU***(1)内顺序通过预处理模块(1-1)、并行化特征提取模块(1-2)和并行化特征匹配模块(1-3),信号在嵌入式GPU***(1)内处理后输出进入显示输出模块(3)进行输出显示;语音库(1-4)的参考信号进入并行化特征匹配模块(1-3)。
2.基于嵌入式GPU***的并行化语音识别***的方法,其特征在于,包括下列步骤:
(1)语音输入模块(2)采集语音信号,并将数字化的信号送入基于CUDA平台架构的嵌入式GPU***(1);
(2)信号进入嵌入式GPU***(1)的预处理模块(1-1),利用CUDA架构在预处理模块(1-1)中进行以下预处理步骤:
(a)通过并行化的一阶数字预加重滤波程序滤除输入语音信号的低频干扰,提升对语音识别有用的高频部分;
(b)利用并行化的方法给输入语音信号加窗分帧,使得语音信号更易于处理;
(c)采用双门限比较法进行端点检测,将输入语音信号切分为若干片段,减少计算量,提高***的识别率;
(3)利用CUDA架构,在并行化特征提取模块(1-2)中对切分后的每个语音片段并行化地进行特征提取;
(4)利用CUDA架构,在并行化特征匹配模块(1-3)中将分段特征提取后的信号特征值与语音库(1-4)中的语音模板进行并行化的特征匹配;
(5)整合各片段的匹配识别结果,得出完整的语音识别信息,送入显示输出模块(3)显示结果。
3.根据权利要求2所述的基于嵌入式GPU***的并行化语音识别***及方法,其特征在于,所述步骤(a)中一阶数字预加重滤波程序由一阶高通滤波器实现,其传递函数为:H(z)=1-az-1
4.根据权利要求2所述的基于嵌入式GPU***的并行化语音识别***及方法,其特征在于,所述步骤(b)中对语音信号的加窗分帧是由可移动的有限长度窗口进行加权的方法来实 现的,即Sw(n)=S(n)*w(n),其中S(n)为加窗前的函数,Sw(n)为加窗后的函数,w(n)即为所加的窗函数。
5.根据权利要求2所述的基于嵌入式GPU***的并行化语音识别***及方法,其特征在于,所述步骤(c)中端点检测是通过将语音信号的短时能量和短时过零率作为特征参数,同时采用双门限判定法来检测语音,根据语音间短暂停顿切分语音信号实现。
6.根据权利要求2所述的一种基于嵌入式GPU***的并行化语音识别***及方法,其特征在于,所述步骤(3)对切分后的每个语音片段并行化进行特征提取,提取的特征值参数为该片段的Mel频率倒谱系数MFCC和片段索引数组。
7.根据权利要求2或6所述的基于嵌入式GPU***的并行化语音识别***及方法,其特征在于,所述步骤(3)中,特征值参数中的索引数组是指本语音片段中每帧的特征向量的一维量化值组成的一维数组;该一维量化值是采用自相似加权距离法对音频特征数据进行降维处理产生的;对于第i帧n维特征向量Xi,对应的一维量化值pi
其中,d(Xi,Xi-j)表示两个特征向量间的距离,R为计算范围,cj为加权系数,其值可采用下列公式确定:
8.根据权利要求2或7所述的基于嵌入式GPU***的并行化语音识别***及方法,其特征在于,所述并行化特征提取模块(1-2)对每一语音片段进行特征值提取计算的过程是并行化的;在CUDA平台架构下,为每个语音片段分配一个线程,并行执行特征值计算,以加快处理速度,提高***效率。
9.根据权利要求2所述的基于嵌入式GPU***的并行化语音识别***及方法,其特征在于,所述步骤(4)中,分段特征提取后的信号特征值与已有语音库(1-4)中的模板进行并行化特征匹配过程:首先利用各片段的索引数组来计算该音频片段与各模板的相似度,如果相似度小于所设定的阈值,则本次匹配失败,接着进行下一个索引数组与模板的相似度计算;否则,继续利用该语音片段的MFCC特征值来计算与当前模板的相似度,如果MFCC特征值相似度大于设定阈值,则该片段与模板匹配成功;按此方法通过并行化的片段匹配,最终识别完整的语音内容。
10.根据权利要求2或9所述的基于嵌入式GPU***的并行化语音识别***及方法,其特征在于,所述并行化特征匹配模块(1-3)语音片段的特征值匹配是通过基于CUDA平台的并行化音频检索方法实现的;根据每次输入GPU的语音片段数自适应的设置相应GPU执行配置,多个线程组成一个线程块,若干个线程块组成一个线程格;将语音库中的众多模板分给各线程块去处理,即:线程格内的每个线程块处理不同的模板,而每个线程块内的所有线程处理同一个模板;每个语音片段分别与一个线程块中同一模板的每个线程进行并行匹配计算;这样每个CUDA线程都相互独立地执行各自的匹配运算。
CN201410837018.7A 2014-12-29 2014-12-29 基于嵌入式gpu***的并行化语音识别***及方法 Pending CN104538033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410837018.7A CN104538033A (zh) 2014-12-29 2014-12-29 基于嵌入式gpu***的并行化语音识别***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410837018.7A CN104538033A (zh) 2014-12-29 2014-12-29 基于嵌入式gpu***的并行化语音识别***及方法

Publications (1)

Publication Number Publication Date
CN104538033A true CN104538033A (zh) 2015-04-22

Family

ID=52853549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410837018.7A Pending CN104538033A (zh) 2014-12-29 2014-12-29 基于嵌入式gpu***的并行化语音识别***及方法

Country Status (1)

Country Link
CN (1) CN104538033A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209786A (zh) * 2016-06-27 2016-12-07 四川阿泰因机器人智能装备有限公司 一种大数据并行化声纹认证方法
CN107437414A (zh) * 2017-07-17 2017-12-05 镇江市高等专科学校 基于嵌入式gpu***的并行化游客识别方法
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107767873A (zh) * 2017-10-20 2018-03-06 广东电网有限责任公司惠州供电局 一种快速准确的离线语音识别装置及方法
CN108417208A (zh) * 2018-03-26 2018-08-17 宇龙计算机通信科技(深圳)有限公司 一种语音输入方法和装置
CN108877777A (zh) * 2018-08-01 2018-11-23 云知声(上海)智能科技有限公司 一种语音识别方法及***
CN108989947A (zh) * 2018-08-02 2018-12-11 广东工业大学 一种移动声源的获取方法及***
CN109240486A (zh) * 2018-07-05 2019-01-18 腾讯科技(深圳)有限公司 一种弹出消息处理方法、装置、设备及存储介质
CN109360551A (zh) * 2018-10-25 2019-02-19 珠海格力电器股份有限公司 一种语音识别方法及装置
CN111225235A (zh) * 2020-01-16 2020-06-02 北京合众美华教育投资有限公司 一种网络教学视频的播放方法
CN112257467A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种面向gpu设备的神经机器翻译***解码加速方法
CN112802457A (zh) * 2021-04-14 2021-05-14 北京世纪好未来教育科技有限公司 语音识别的方法、装置、设备和存储介质
CN112818703A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 基于多线程通信的多语种共识翻译***与方法
CN113450770A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 基于显卡资源的语音特征提取方法、装置、设备及介质
CN116961012A (zh) * 2023-09-21 2023-10-27 国网吉林省电力有限公司松原供电公司 基于最短路径搜索越限设备可控负荷开关识别方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627251A (zh) * 2003-12-09 2005-06-15 微软公司 使用图形处理单元加速并优化机器学习技术的处理
JP2009086202A (ja) * 2007-09-28 2009-04-23 Kddi Corp 音声認識における音響尤度並列計算装置及びそのプログラム
CN103680496A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 基于深层神经网络的声学模型训练方法、主机和***
CN104035751A (zh) * 2014-06-20 2014-09-10 深圳市腾讯计算机***有限公司 基于多图形处理器的数据并行处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627251A (zh) * 2003-12-09 2005-06-15 微软公司 使用图形处理单元加速并优化机器学习技术的处理
JP2009086202A (ja) * 2007-09-28 2009-04-23 Kddi Corp 音声認識における音響尤度並列計算装置及びそのプログラム
CN103680496A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 基于深层神经网络的声学模型训练方法、主机和***
CN104035751A (zh) * 2014-06-20 2014-09-10 深圳市腾讯计算机***有限公司 基于多图形处理器的数据并行处理方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HAOFENG KOU等: ""Parallelized Feature Extraction and Acoustic Model Training"", 《PROCEEDINGS OF THE 19TH INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING》 *
杜艳斌: ""基于GPU的快速音频检索算法研究与实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王硕 等: ""并行化语音识别***的研究与设计"", 《计算机工程与应用》 *
蔡莲红 等: "《现代汉语音典》", 31 July 2014, 清华大学出版社 *
韩纪庆 等: "《音频信息检索理论与技术》", 28 February 2011, 科学出版社 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209786A (zh) * 2016-06-27 2016-12-07 四川阿泰因机器人智能装备有限公司 一种大数据并行化声纹认证方法
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107610708B (zh) * 2017-06-09 2018-06-19 平安科技(深圳)有限公司 识别声纹的方法及设备
WO2018223727A1 (zh) * 2017-06-09 2018-12-13 平安科技(深圳)有限公司 识别声纹的方法、装置、设备及介质
CN107437414A (zh) * 2017-07-17 2017-12-05 镇江市高等专科学校 基于嵌入式gpu***的并行化游客识别方法
CN107767873A (zh) * 2017-10-20 2018-03-06 广东电网有限责任公司惠州供电局 一种快速准确的离线语音识别装置及方法
CN108417208B (zh) * 2018-03-26 2020-09-11 宇龙计算机通信科技(深圳)有限公司 一种语音输入方法和装置
CN108417208A (zh) * 2018-03-26 2018-08-17 宇龙计算机通信科技(深圳)有限公司 一种语音输入方法和装置
CN109240486B (zh) * 2018-07-05 2020-09-25 腾讯科技(深圳)有限公司 一种弹出消息处理方法、装置、设备及存储介质
CN109240486A (zh) * 2018-07-05 2019-01-18 腾讯科技(深圳)有限公司 一种弹出消息处理方法、装置、设备及存储介质
CN108877777A (zh) * 2018-08-01 2018-11-23 云知声(上海)智能科技有限公司 一种语音识别方法及***
CN108989947A (zh) * 2018-08-02 2018-12-11 广东工业大学 一种移动声源的获取方法及***
CN109360551A (zh) * 2018-10-25 2019-02-19 珠海格力电器股份有限公司 一种语音识别方法及装置
CN111225235A (zh) * 2020-01-16 2020-06-02 北京合众美华教育投资有限公司 一种网络教学视频的播放方法
CN111225235B (zh) * 2020-01-16 2020-12-04 北京合众美华教育投资有限公司 一种网络教学视频的播放方法
CN112257467A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种面向gpu设备的神经机器翻译***解码加速方法
CN112257467B (zh) * 2020-11-03 2023-06-30 沈阳雅译网络技术有限公司 一种面向gpu设备的神经机器翻译***解码加速方法
CN112818703A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 基于多线程通信的多语种共识翻译***与方法
CN112818703B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于多线程通信的多语种共识翻译***与方法
CN112802457A (zh) * 2021-04-14 2021-05-14 北京世纪好未来教育科技有限公司 语音识别的方法、装置、设备和存储介质
CN113450770A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 基于显卡资源的语音特征提取方法、装置、设备及介质
CN113450770B (zh) * 2021-06-25 2024-03-05 平安科技(深圳)有限公司 基于显卡资源的语音特征提取方法、装置、设备及介质
CN116961012A (zh) * 2023-09-21 2023-10-27 国网吉林省电力有限公司松原供电公司 基于最短路径搜索越限设备可控负荷开关识别方法及***
CN116961012B (zh) * 2023-09-21 2024-01-16 国网吉林省电力有限公司松原供电公司 基于最短路径搜索越限设备可控负荷开关识别方法及***

Similar Documents

Publication Publication Date Title
CN104538033A (zh) 基于嵌入式gpu***的并行化语音识别***及方法
Jung et al. Aasist: Audio anti-spoofing using integrated spectro-temporal graph attention networks
CN105788603B (zh) 一种基于经验模态分解的音频识别方法及***
Jothimani et al. MFF-SAug: Multi feature fusion with spectrogram augmentation of speech emotion recognition using convolution neural network
Cakir et al. Multi-label vs. combined single-label sound event detection with deep neural networks
CN109308912B (zh) 音乐风格识别方法、装置、计算机设备及存储介质
CN107293307A (zh) 音频检测方法及装置
CN111444382B (zh) 一种音频处理方法、装置、计算机设备以及存储介质
CN106294618A (zh) 搜索方法及装置
CN114863937B (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
Meyer et al. Efficient convolutional neural network for audio event detection
US11741948B2 (en) Dilated convolutions and gating for efficient keyword spotting
CN110334243A (zh) 基于多层时序池化的音频表示学习方法
CN112401902A (zh) 基于神经网络时频分析相结合的心电身份识别方法及***
CN113111786A (zh) 基于小样本训练图卷积网络的水下目标识别方法
US20220399007A1 (en) System and method for robust wakeword detection in presence of noise in new unseen environments without additional data
Liu et al. Surrey system for dcase 2022 task 5: Few-shot bioacoustic event detection with segment-level metric learning
CN104952446A (zh) 基于语音交互的数字楼盘展示***
Naranjo-Alcazar et al. On the performance of residual block design alternatives in convolutional neural networks for end-to-end audio classification
Tang et al. Transound: Hyper-head attention transformer for birds sound recognition
CN101594527A (zh) 从音频视频流中高精度检测模板的两阶段方法
CN112259123B (zh) 一种鼓点检测方法、装置及电子设备
Fan et al. Spatial reconstructed local attention Res2Net with F0 subband for fake speech detection
CN113299298A (zh) 残差单元及网络及目标识别方法及***及装置及介质
CN107437414A (zh) 基于嵌入式gpu***的并行化游客识别方法

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150422