CN112786021B - 一种基于分层量化的轻量级神经网络语音关键词识别方法 - Google Patents

一种基于分层量化的轻量级神经网络语音关键词识别方法 Download PDF

Info

Publication number
CN112786021B
CN112786021B CN202110101761.6A CN202110101761A CN112786021B CN 112786021 B CN112786021 B CN 112786021B CN 202110101761 A CN202110101761 A CN 202110101761A CN 112786021 B CN112786021 B CN 112786021B
Authority
CN
China
Prior art keywords
neural network
quantization
voice
layered
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110101761.6A
Other languages
English (en)
Other versions
CN112786021A (zh
Inventor
陆生礼
胡忠元
庞伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110101761.6A priority Critical patent/CN112786021B/zh
Publication of CN112786021A publication Critical patent/CN112786021A/zh
Application granted granted Critical
Publication of CN112786021B publication Critical patent/CN112786021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于分层量化的轻量级神经网络语音关键词识别方法,属于计算、推理、计数的技术领域。该***包括:语音采集模块、特征提取模块、轻量级神网络加速器以及分层8bits量化模块等。轻量级神经网络采用深度可分离卷积神经网络和注意力机制Squeeze‑and‑Excitation,通过将传统卷积替换成深度可分离卷积,降低神经网络的参数量和计算量,通过引入注意力机制,标注卷积过程中不同通道上特征的重要程度,提高模型的识别准确率,通过对神经网络的权重值量化和激活值分层8bits量化,进一步降低模型的计算复杂度和神经网络的参数量,通过设计支持通道分离卷积和传统卷积的加速器,满足对数据带宽的不同需求,从而加速前向推理计算的过程。

Description

一种基于分层量化的轻量级神经网络语音关键词识别方法
技术领域
本发明涉及一种基于分层8bits量化轻量级神经网络的语音关键词识别方法及***技术,属于计算、推理、技术的技术领域。
背景技术
随着越来越多的智能语音助手出现在我们的生活中,我们会愈发地感受到,人们与智能终端的交互方式,正从触控模式慢慢转入到语音交互的模式上。同时,随着设备计算能力的发展、语音关键词识别技术的积累和语音数据的丰富,智能音响、车载语音交互等行业呈现出快速发展的状态,人机交互的频率越来越高,语音关键词识别相关的应用已经开始实实在在地在我们日常生活中普及开来,语音关键词识别***拥有很多应用场景,如智能音响、车载交互等。
目前语音关键词识别主要通过云端和终端两种方式部署。通过云端方式识别,由于云端的资源充足,可以部署大型的神经网络进行语音识别,识别率非常高,但是在云端进行语音识别就需要将语音数据上传到云端,存在着数据泄露、数据传输延迟及成本高等问题。由于离线识别能够保障数据的安全性和实时性,所以在终端部署语音识别能够避免云端部署存在的问题,但是在终端部署高准确率的识别***也面临着资源有限的问题。另外,语音关键词识别的精度、功耗及速度之间的平衡关系因不同的场景而变化。
发明内容
技术问题:本发明的发明目的是针对上述背景技术的不足,提出了一种基于分层量化的轻量级神经网络语音关键词识别方法,充分利用深度可分离卷积所带来的参数量和计算量大量减少的优势和注意力机制标注卷积过程中不同通道上特征的重要程度,进而提高模型识别的准确度和速度。通过分层8bits量化操作,将浮点运算转变成定点运算,减低了计算的复杂度与能耗,解决了现有语音关键词识别***在移动终端和嵌入式设备中部署的技术问题。
技术方案:本发明的一种基于分层量化的轻量级神经网络语音关键词识别方法采用主要步骤如下:
步骤1.获取关键词语音音频数据集并对关键词语音音频数据进行增强;
步骤2.对所述增强的关键词语音音频数据通过特征提取模块提取音频信号中的声学特征;
步骤3.将所述音频信号中的声学特征组成特征向量送入到轻量级神经网络模型中进行训练,根据训练结果保存神经网络各层的权重参数,通过分层8bits量化将权重参数量化成8位并保存。
步骤4.设计支持通道分离卷积和传统卷积的神经网络加速器,加载所述量化后的8位权重到神经网络加速器中,加速前向推理计算过程,根据神经网络加速器的输出得到不同关键词的概率值;
步骤5.将所述不同关键词概率值中的最大值和预设阈值进行比较,大于阈值则根据预测结果判别输入的语音关键词,小于阈值则表示输入的语音中没有关键词。
所述语音增强包括添加噪声信号、对关键词信号随机左移或右移,增强***的鲁棒性。
所述特征提取模块包括预加重、分帧加窗、快速傅里叶变换、梅尔滤波器处理和离散余弦变换;预加重对高频信号进行补偿;语音信号具有短时不变性,分帧加窗对所述增强的关键词语音音频数据进行分帧处理并补偿帧的起始端和终止段的连续性;快速傅里叶变换对分帧加窗后的帧信号进行快速傅里叶变化得到各帧的频谱,并且继续对频谱信号取模平方得到各帧的功率谱;梅尔滤波器处理将功率谱信号通过一组梅尔滤波器组,得到梅尔频谱;离散余弦变换对梅尔频谱先做取对数操作,再经过傅里叶逆变换组成声学特征。
所述基于分层8bits量化的轻量级神经网络模型结构主要包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation全局信息嵌入和自适应重新校正注意力机制Squeeze-and-Excitation和分层8bits量化。
所述轻量级神经网络模型的第一层为卷积层,对输入的声学特征作特征提取,主要的参数包括:卷积核尺寸、卷积步长以及输出特征通道;所述的卷积核尺寸为3*3,输出特征通道数为64,卷积核步长为2;通过设置卷积核步长为2,在不使用池化操作下实现下采样功能。
所述注意力机制Squeeze-and-Excitation,主要用在深度可分离卷积网络中的逐通道卷积中,首先是全局信息嵌入Squeeze操作,在空间维度上进行特征压缩,将每一个二维的特征通道通过全局平均池化变成一个实数,该实数某种程度上具有全局感受野;其次是自适应重新校正Excitation操作,为每个通道生成权重参数,通过逐通道乘法方式加权到输入特征上,完成在通道维度上对输入特征的重标定。
所述分层8bits量化根据每一层权重参数的分布决定对该层量化的整数位宽;对于各层网络输出的激活值,根据推理结果的准确率调整激活值的量化位宽,不同层之间的量化位宽可能不一样,第2层采用3位整数位,而第3层中采用4位整数位,以此降低量化带来的精度损失。
所述神经网络加速器主要包括顶层控制单元、可配置数据流PE阵列、功能单元及量化单元;所述顶层控制单元根据配置信息,配置数据流和控制计算过程;所述可配置数据流PE阵列采用可配置片上网络结构,以支持深度可分离卷积、传统卷积及全连接等网络结构;所述功能单元及量化单元,实现池化、激活、批量归一化及分层8bits量化操作,通过神经网络加速器加速前向推理计算过程,完成基于分层8bits量化轻量级神经网络的语音关键词识别。
有益效果:本发明采用上述技术方案,具有以下效果:
(1)本发明提出了一种基于分层量化的轻量级神经网络语音关键词识别方法,通过创新性的将深度可分离卷积神经网络与注意力机制进行结合,不仅提高了关键词识别的准确率,还有效降低了模型的计算量和参数量。
(2)本发明提出了一种基于分层量化的轻量级神经网络语音关键词识别方法,通过分层8bits量化,不同层之间采用不同数据结构的量化方式,有效地在保证了准确率的同时降低了模型的推理复杂度。
附图说明
图1是本发明的关键词识别***框图。
图2是本发明的关键词识别流程图。
图3是本发明的关键词神经网络结构图。
图4是本发明的分层8bits量化。
图5是本发明的神经网络加速器。
具体实施方式
为更加清楚地阐述本发明的发明目的、技术方案和技术效果,以下将结合附图及具体实施例,对本发明的技术方案进行详细说明。
本发明提供一种基于分层量化的轻量级神经网络语音关键词识别方法,识别流程如图2所示,识别方法包括如下五个步骤:
步骤一、数据增强。确定关键词,如“启动”、“刹车”等。制作语音关键词数据集,每个关键词录制1000个左右,同时负样本关键词语音数量需要是关键词数量的10倍左右,负样本的词汇尽可能多样。对所录制的语音关键词随机添加背景噪声,同时对添加后的语音数据随机左移或者右移100ms。对于属于关键词的正样本标注标签为1,对非关键词负样本标注标签为0。
步骤二、语音特征提取。由于声音在传播过程中,高频部分会有损失,利用预加重对高频信号进行补偿;语音信号具有短时不变性,因此以帧长40ms,帧移20ms的语音帧为单位进行提取,在提取出的语音上进行加窗,补偿帧的起始端和终止段的连续性,以防频谱泄露。快速傅里叶变换对加窗分帧后的帧信号进行快速傅里叶变化得到各帧的频谱,从而能够更好的观察到语音的特征,并且继续对频谱信号取模平方得到各帧的功率谱;由于人耳对声音的感知服从梅尔频率的变化,即人耳对声音感知的结果是相差两倍,那么在梅尔频率上表现的也是相差两倍,因此使用梅尔频率滤波器组对每一帧语音信号进行特征提取;离散余弦变换对梅尔频谱先做取对数操作,再经过傅里叶逆变换组成声学特征,将此作为网络的输入。
步骤三、模型模型训练。如图3所示,轻量级神经网络模块结构主要包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation(SE)。轻量级网络模型的第一层为卷积层,对输入的声学特征作特征提取,主要的参数包括:卷积核尺寸、卷积步长以及输出特征通道;所述的卷积核尺寸为3*3,输出特征通道数为64,卷积核步长为2。通过设置卷积核步长为2,在不使用池化操作下实现下采样功能。第二层起使用深度可分离卷积网络提取特征,通过将普通卷积分成逐通道卷积和点卷积两个操作,所述逐通道卷积使用卷积核尺寸为3*3,卷积步长为1,在通道上进行逐通道卷积计算,同时将注意力机制Squeeze-and-Excitation(SE)用在逐通道卷积输出特征上,首先是Squeeze操作,在空间维度上进行特征压缩,使用全局平均池化将输出特征通道上的数据取平均,再接两层全连接层,其次是Excitation操作,为每个通道生成权重参数;通过乘法,逐通道加权到先前的特征上,完成在通道维度上对原始特征的重标定,将所述逐通道卷积计算结果通过点卷积操作完成特征合并,所述点卷积使用卷积核尺寸为1*1,卷积步长为1。将所述网络输出结果与一个全连接层相连,输出最终的结果,全连接的神经元数与关键次数相关,在使用5个关键词时,对应的神经元数为7个,包含了5个关键词、1个静音和1个非关键词。通过SoftMax算法将所述7个神经元输出结果转换成和为1的概率值。
步骤四、权重量化。如图4所示,将训练好的权重参数保存,分层统计每一层的参数分布,找出每一层权重绝对值的最大值,根据最大值判断每层权重参数整数位宽,如果超出作饱和截断处理。以此位宽作为整数部分的位长N,小数位长为(7-N),将该层参数乘以2N并做四舍五入,之后再将四舍五入的结果除以2N,以此结果保存为新的权重,用新的权重完成推理运算,每一层的权重都完成了量化,接着需要量化每一层的计算结果,通过对数据完成推理运算,根据推理运算结果的准确率来设置不同层的量化格式。
步骤五、加速器推理计算。如图5所示,4片PE阵列大小均为2*6簇,每个PE簇有3*4个PE单元,卷积核大小为3*3,卷积核步长为1,输入特征图大小为49*40,单批次输入通道为32的通道分离卷积为例,外部控制处理器首先将本层输入特征值大小、通道数、是否padding以及卷积计算方式(全连接、通道分离卷积以及传统卷积)等相关参数和片上网络数据流配置信息通过配置总线写入加速器相关寄存器,其次,控制DMA将输入特征值和权重值分别写入到相应的输入缓冲子区和PE单元内的权重缓冲区,其中1-8通道的输入特征值及其相应的权重写入PE阵列slice1,9-16通道写入slice2,以此类推。在计算开始前,需要将输入缓冲区存储的每行输入特征值读取一部分写入到PE单元的输入寄存器栈,每个PE的输入寄存器栈存储3*8个输入特征值,其中3表示同一行的的输入特征值,8代表8个通道,权重缓冲区同样缓存3*8个权重,其中,3表示一行权重数,8表示与输入特征值相对应的8个通道。在计算的过程中,PE先读取1通道的第一个输入特征值和第一个权重值相乘并将结果存入部分和寄存器栈,再读取2通道计算,直至8通道,然后再读取1通道的第二输入特征值和第二个权重值相乘并累加1通道之前的部分和,再读取的2通道的第二个数,直至8通道,以此类推,直至计算完所有通道的所有数,之后将PE阵列中同一列的3个PE计算的相同通道的部分和累加,得到8个通道的输出特征值,然后更新输入寄存器栈,重复上述计算,直至完成本层计算。将得到的输出特征写入功能单元,完成池化、Relu等操作,并产生中断给外部控制器,让其将计算结果写回外部存储器。
综上所述,本发明提出一种基于分层量化的轻量级神经网络语音关键词识别方法,通过将深度可分离卷积神经网络与注意力机制进行结合,不仅提高了关键词识别的准确率,还有限降低了模型的计算量和参数量。通过分层8bits量化,不同层之间采用不同数据结构的量化方式,有效在保证了准确率的同时降低了模型的推理复杂度。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想在技术方案基础上所做的任何改动均落入本发明保护范围之内。

Claims (6)

1.一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于,该识别方法包括以下步骤:
步骤 1.获取关键词语音音频数据集并对关键词语音音频数据进行增强;
步骤2.对增强的关键词语音音频数据通过特征提取模块提取音频信号中的声学特征;
步骤3.将所述音频信号中的声学特征组成特征向量送入到轻量级神经网络模型中进行训练,根据训练结果保存神经网络各层的权重参数,通过分层8bits量化将权重参数量化成8位并保存;
所述分层8bits量化根据每一层权重参数的分布决定对该层量化的整数位宽;对于各层网络输出的激活值,根据推理结果的准确率调整激活值的量化位宽,不同层之间的量化位宽不一样,第2层采用3位整数位,而第3层中采用4位整数位,以此降低量化带来的精度损失;
将训练好的权重参数保存,分层统计每一层的参数分布,找出每一层权重绝对值的最大值,根据最大值判断每层权重参数整数位宽,超出作饱和截断处理;以此位宽作为整数部分的位长N,小数位长为7-N,将该层参数乘以2N并做四舍五入,之后再将四舍五入的结果除以2N,以此结果保存为新的权重,用新的权重完成推理运算,每一层的权重都完成了量化,接着需要量化每一层的计算结果,通过对数据完成推理运算,根据推理运算结果的准确率来设置不同层的量化格式;
步骤4.设计支持通道分离卷积和传统卷积的神经网络加速器,加载量化后的8位权重到神经网络加速器中,加速前向推理计算过程,根据神经网络加速器的输出得到不同关键词的概率值;
步骤5.将所述不同关键词概率值中的最大值和预设阈值进行比较,大于阈值则根据预测结果判别输入的语音关键词,小于阈值则表示输入的语音中没有关键词;
所述基于分层量化的轻量级神经网络,其模型结构包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation全局信息嵌入和自适应重新校正注意力机制Squeeze-and-Excitation和分层8bits量化。
2.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:语音增强包括添加噪声信号、对关键词信号随机左移或右移,增强***的鲁棒性。
3.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述特征提取模块包括预加重、分帧加窗、快速傅里叶变换、梅尔滤波器处理和离散余弦变换;预加重对高频信号进行补偿;语音信号具有短时不变性,分帧加窗对所述增强的关键词语音音频数据进行分帧处理并补偿帧的起始端和终止段的连续性;快速傅里叶变换对分帧加窗后的帧信号进行快速傅里叶变化得到各帧的频谱,并且继续对频谱信号取模平方得到各帧的功率谱;梅尔滤波器处理将功率谱信号通过一组梅尔滤波器组,得到梅尔频谱;离散余弦变换对梅尔频谱先做取对数操作,再经过傅里叶逆变换组成声学特征。
4.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述轻量级神经网络模型的第一层为卷积层,对输入的声学特征作特征提取,参数包括:卷积核尺寸、卷积步长以及输出特征通道;所述的卷积核尺寸为3*3,输出特征通道数为64,卷积核步长为2;通过设置卷积核步长为2,在不使用池化操作下实现下采样功能。
5.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述注意力机制Squeeze-and-Excitation,用在深度可分离卷积网络中的逐通道卷积中,首先是全局信息嵌入Squeeze操作,在空间维度上进行特征压缩,将每一个二维的特征通道通过全局平均池化变成一个实数,该实数具有全局感受野;其次是自适应重新校正Excitation操作,为每个通道生成权重参数,通过逐通道乘法方式加权到输入特征上,完成在通道维度上对输入特征的重标定。
6.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述神经网络加速器包括顶层控制单元、可配置数据流PE阵列、功能单元及量化单元;所述顶层控制单元根据配置信息,配置数据流和控制计算过程;所述可配置数据流PE阵列采用可配置片上网络结构,以支持深度可分离卷积、传统卷积及全连接网络结构;所述功能单元及量化单元,实现池化、激活、批量归一化及分层8bits量化操作,通过神经网络加速器加速前向推理计算过程,完成基于分层化轻量级神经网络的语音关键词识别。
CN202110101761.6A 2021-01-26 2021-01-26 一种基于分层量化的轻量级神经网络语音关键词识别方法 Active CN112786021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110101761.6A CN112786021B (zh) 2021-01-26 2021-01-26 一种基于分层量化的轻量级神经网络语音关键词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110101761.6A CN112786021B (zh) 2021-01-26 2021-01-26 一种基于分层量化的轻量级神经网络语音关键词识别方法

Publications (2)

Publication Number Publication Date
CN112786021A CN112786021A (zh) 2021-05-11
CN112786021B true CN112786021B (zh) 2024-05-14

Family

ID=75757678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110101761.6A Active CN112786021B (zh) 2021-01-26 2021-01-26 一种基于分层量化的轻量级神经网络语音关键词识别方法

Country Status (1)

Country Link
CN (1) CN112786021B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409773B (zh) * 2021-08-18 2022-01-18 中科南京智能技术研究院 一种二值化神经网络语音唤醒方法及***
CN113823292B (zh) * 2021-08-19 2023-07-21 华南理工大学 基于通道注意力深度可分卷积网络的小样本话者辨认方法
CN114495971A (zh) * 2022-02-25 2022-05-13 四川天中星航空科技有限公司 一种采用嵌入式硬件运行神经网络的语音增强方法
CN117238298B (zh) * 2023-11-13 2024-02-06 四川师范大学 一种基于声音事件的动物识别与定位方法及***
CN117292694B (zh) * 2023-11-22 2024-02-27 中国科学院自动化研究所 基于时不变编码的少令牌神经语音编解码方法和***
CN118116372B (zh) * 2024-04-28 2024-07-09 福州大学 面向语音关键词识别的二值化深度神经网络硬件加速***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390383A (zh) * 2019-06-25 2019-10-29 东南大学 一种基于幂指数量化的深度神经网络硬件加速器
KR20190130443A (ko) * 2018-05-14 2019-11-22 삼성전자주식회사 뉴럴 네트워크의 양자화 방법 및 장치
CN110580919A (zh) * 2019-08-19 2019-12-17 东南大学 多噪声场景下语音特征提取方法及可重构语音特征提取装置
CN111191774A (zh) * 2018-11-14 2020-05-22 上海富瀚微电子股份有限公司 面向精简卷积神经网络的低代价加速器架构及其处理方法
CN111276125A (zh) * 2020-02-11 2020-06-12 华南师范大学 一种面向边缘计算的轻量级语音关键词识别方法
CN111583940A (zh) * 2020-04-20 2020-08-25 东南大学 极低功耗关键词唤醒神经网络电路
CN112233675A (zh) * 2020-10-22 2021-01-15 中科院微电子研究所南京智能技术研究院 一种基于分离卷积神经网络的语音唤醒方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936913B2 (en) * 2018-03-20 2021-03-02 The Regents Of The University Of Michigan Automatic filter pruning technique for convolutional neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190130443A (ko) * 2018-05-14 2019-11-22 삼성전자주식회사 뉴럴 네트워크의 양자화 방법 및 장치
CN111191774A (zh) * 2018-11-14 2020-05-22 上海富瀚微电子股份有限公司 面向精简卷积神经网络的低代价加速器架构及其处理方法
CN110390383A (zh) * 2019-06-25 2019-10-29 东南大学 一种基于幂指数量化的深度神经网络硬件加速器
CN110580919A (zh) * 2019-08-19 2019-12-17 东南大学 多噪声场景下语音特征提取方法及可重构语音特征提取装置
CN111276125A (zh) * 2020-02-11 2020-06-12 华南师范大学 一种面向边缘计算的轻量级语音关键词识别方法
CN111583940A (zh) * 2020-04-20 2020-08-25 东南大学 极低功耗关键词唤醒神经网络电路
CN112233675A (zh) * 2020-10-22 2021-01-15 中科院微电子研究所南京智能技术研究院 一种基于分离卷积神经网络的语音唤醒方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DOREFA-NET: TRAINING LOW BITWIDTH CONVOLUTIONAL NEURAL NETWORKS WITH LOW BITWIDTH GRADIENTS;Shuchang Zhou 等;arXiv:1606.06160v3;第1-13页 *
Lightweight Network Research Based on Deep Learning: A Review;Yahui Li 等;37th Chinese Control Conference;第9021-9026页 *

Also Published As

Publication number Publication date
CN112786021A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112786021B (zh) 一种基于分层量化的轻量级神经网络语音关键词识别方法
He et al. Asymptotic soft filter pruning for deep convolutional neural networks
CN107340993B (zh) 运算装置和方法
CN110718211B (zh) 一种基于混合压缩卷积神经网络的关键词识别***
CN108735202A (zh) 用于小占用资源关键词检索的卷积递归神经网络
US20210287074A1 (en) Neural network weight encoding
CN111814448B (zh) 预训练语言模型量化方法和装置
CN111798828B (zh) 合成音频检测方法、***、移动终端及存储介质
CN110070867B (zh) 语音指令识别方法、计算机装置及计算机可读存储介质
CN117059103A (zh) 基于低秩矩阵近似的语音识别微调任务的加速方法
CN111326168A (zh) 语音分离方法、装置、电子设备和存储介质
CN110110852B (zh) 一种深度学***台的方法
CN113222102A (zh) 用于神经网络模型量化的优化方法
CN116013293A (zh) 一种基于混合精度量化神经网络的语音唤醒方法及***
CN110188877A (zh) 一种神经网络压缩方法与装置
CN117574970A (zh) 用于大规模语言模型的推理加速方法、***、终端及介质
CN112561050A (zh) 一种神经网络模型训练方法及装置
CN116227563A (zh) 一种基于数据量化的卷积神经网络压缩与加速方法
CN116597814A (zh) 一种基于时域二值神经网络的语音唤醒方法及***
CN110378466A (zh) 基于神经网络差分的量化方法及***
CN112735469B (zh) 低内存语音关键词检测方法、***、介质、设备及终端
CN113327589B (zh) 一种基于姿态传感器的语音活动检测方法
CN113935456A (zh) 脉冲神经网络层内数据处理方法及设备、处理芯片
CN114822509A (zh) 语音识别方法、装置、计算机设备及存储介质
CN109886394B (zh) 嵌入式设备中三值神经网络权值处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant