CN113327589A - 一种基于姿态传感器的语音活动检测方法 - Google Patents

一种基于姿态传感器的语音活动检测方法 Download PDF

Info

Publication number
CN113327589A
CN113327589A CN202110646290.7A CN202110646290A CN113327589A CN 113327589 A CN113327589 A CN 113327589A CN 202110646290 A CN202110646290 A CN 202110646290A CN 113327589 A CN113327589 A CN 113327589A
Authority
CN
China
Prior art keywords
data
characteristic data
neural network
attitude
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110646290.7A
Other languages
English (en)
Other versions
CN113327589B (zh
Inventor
王蒙
胡奎
姜黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ccvui Intelligent Technology Co ltd
Original Assignee
Hangzhou Ccvui Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ccvui Intelligent Technology Co ltd filed Critical Hangzhou Ccvui Intelligent Technology Co ltd
Priority to CN202110646290.7A priority Critical patent/CN113327589B/zh
Publication of CN113327589A publication Critical patent/CN113327589A/zh
Application granted granted Critical
Publication of CN113327589B publication Critical patent/CN113327589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的一种基于姿态传感器的语音活动检测方法,涉及人机交互技术领域。本发明通过将姿态特征数据与声音特征数据进行特征拼接,得到混合特征数据;通过混合特征数据对神经网络模型进行训练,能实现在不同姿态下对语音活动进行准确检测,解决了用户姿态会影响语音活动检测准确度的问题;通过量化压缩方法中的三值量化方法对训练完成的神经网络量进行量化压缩,将32bit浮点型权值量化为2bit定点型权值,进一步减少其占用内存大小的同时还极大地减小了对于计算空间和时间的消耗;使用循环神经网络模型来构建前后帧的数据联系,以提高模型效果;且循环神经网络模型参数量较少,进一步减少其占用内存大小。

Description

一种基于姿态传感器的语音活动检测方法
技术领域
本发明涉及人机交互技术领域,尤其涉及一种基于姿态传感器的语音活动检测方法。
背景技术
语音活动检测(Voice Activity Detection,VAD)是一个从含有噪声的语音信号中检测出语音信号段和非语音信号段的经典问题,它在各个语音信号处理***中已经成为一个不可或缺的重要组成成分,例如,语音编码(Speech Coding),语音增强(SpeechEnhancement),语音识别(Automatic Speech Recognition)等,随着数码设备的不断发展,语音活动检测也更多地在数码设备上进行运用。
嵌入式耳机作为当下的热门产品,其技术也在不断革新。嵌入式耳机通常与智能设备相连,不仅具备音频播放功能,还能通过采集人的声音、人的姿态信息等与智能设备进行互动,相比传统耳机,嵌入式耳机具备更加智能、功能更加丰富的特点,迅速收到人们的追捧。
嵌入式耳机作为与智能设备的互动设备,对于其数据采集能力有较高要求,例如:通过嵌入式耳机对智能手机进行声音控制时,需要采集到清晰的人声,虽然智能手机通常会对采集到的音频数据进行降噪、分离等操作,但是嵌入式耳机若不能保证提供的音频数据的清晰准确,即使智能手机所搭载的音频处理软件再强大也无济于事。
嵌入式耳机的工作环境复杂多样,使用者的各种姿态会影响其对声音的采集和识别,这些姿态变化会造成采集音频数据质量的降低,故需进行相关措施对其进行改善。
为此,申请号为CN201911174434.2的发明申请公开了一种基于传声器技术的耳机佩戴者语音活动检测***,包括:传声器阵列、第一估计模块、第二估计模块和联合控制模块;传声器阵列,用于接收声音信号;第一估计模块,用于根据声源的来波方向,确定佩戴者的第一语音存在概率;第二估计模块,用于根据声源的直达混响比,确定佩戴者的第二语音存在概率;联合控制模块,用于根据第一语音存在概率和第二语音存在概率,确定第三语音存在概率,对佩戴者进行语音活动检测。使用传声器阵列技术,检测耳机佩戴者语音活动。即便在低信噪比、高混响情况及多说话人干扰等复杂声学场景下,也能实现佩戴者语音活动检测,为后续的语音增强及语音识别技术提供重要依据。
但是该发明申请未就使用者的姿态造成的音频数据采集变化进行处理,故我们有必要提出一种用于消除使用者姿态带来影响的语音活动检测方法来解决上述问题。
发明内容
为解决上述技术问题,本发明一种基于姿态传感器的语音活动检测方法,运用于具备姿态传感器的音频采集装置中,通过构建兼顾姿态特征数据与声音特征数据的混合特征数据进行神经网络量化训练,并得到神经网络模型最优解,所述神经网络模型用于语音活动检测,所述混合特征数据经过如下步骤进行构建:
通过姿态传感器采集音频采集装置的姿态变化并记录作为姿态特征数据;
通过音频采集装置采集外部声音变化并作为声音特征数据;
分别对姿态特征数据与声音特征数据进行数据预处理操作;
对预处理后的姿态特征数据与声音特征数据进行特征拼接,得到混合特征数据;
将混合特征数据作为神经网络量化训练数据,用于后续的模型训练。
作为更加具体的解决方案,所述声音特征数据为MFCC特征数据,并通过如下步骤进行MFCC声音特征数据提取和声音特征数据预处理操作:
通过高通滤波器对声音特征数据进行预加重;
通过分帧函数对预加重数据进行分帧操作;
将每一分帧带入窗函数进行加窗操作;
对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱;
对能量谱行离散余弦变换得到MFCC系数;
对梅尔频谱图提取一阶差分参数;
将MFCC系数和一阶差分参数进行拼接,得到MFCC特征数据。
作为更加具体的解决方案,对姿态特征数据预处理操作是将时域姿态特征数据转换成频域姿态特征数据的操作,所述姿态姿态特征数据为包括X轴、Y轴和Z轴的姿态特征数据,通过如下步骤进行姿态特征数据预处理操作:
对姿态特征数据进行分帧操作,姿态特征数据的每一分帧与声音特征数据的每一分帧进行一一对应;
通过姿态特征数据计算每一分帧的位移量,计算公式为:
s(n)=f(n)-f(n-1);n∈(0,512];
as(n)=s(n)-s(n-1);n∈(0,512];
其中,s(n)表示第n分帧的速度,as(n)表示第n分帧的加速度,f(n)表示第n分帧的数据位置标签;
将计算获得速度以及加速度分别进行对数变换;
将速度和加速度拼接在一起,得到姿态特征数据。
作为更加具体的解决方案,并通过如下步骤对预处理后的姿态特征数据与声音特征数据进行特征拼接:
将收集到的声音特征数据与姿态特征数据按照实时相应的位置进行一一标点;
对姿态传感器的姿态特征数据进行声音特征数据起始位置和结束位置的信息标注;
按照信噪比要求将随机噪声数据以随机SNR的方式与标注后的声音特征数据进行数据混合,并确保混合后数据与声音特征数据起始位置和结束位置一一对应;
将混合后数据与标点后的姿态特征数据进行对标,并由此得到一条特征拼接后的训练数据;
对所有姿态特征数据与声音特征数据均进行特征拼接,并得到特征拼接后的训练数据集。
作为更加具体的解决方案,所述神经网络模型为循环神经网络模型,所述循环神经网络模型采集相邻帧的信息,并根据相邻帧的信息对当前帧语音活动检测的权重矩阵进行调整。
作为更加具体的解决方案,对训练完成的神经网络量进行量化压缩,通过量化压缩将32bit浮点型权值量化为2bit定点型权值;量化压缩步骤如下:
从原矩阵中计算得出阈值Δ和缩放因子α
将原权重转变为三值权重
将输入X与α相乘作为新的输入然后与三值权重进行加法计算代替原本的乘法计算进行正向传播。
使用SGD算法反向传播进行迭代训练。
作为更加具体的解决方案,将原权重矩阵W通过三值权重Wt与比例系数α相乘近似表示,所述三值权重Wt表示为:
Figure BDA0003109838440000041
其中:阈值Δ从原权重矩阵W中产生,所述阈值Δ为:
Figure BDA0003109838440000042
其中:i表示权重项对应序列数,n表示权重项总序列数;
缩放因子α为:
Figure BDA0003109838440000043
其中:IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素。
作为更加具体的解决方案,所述加窗操作通过汉明窗函数进行,所述汉明窗函数为:
Figure BDA0003109838440000044
其中,(N、n、a的意义)
所述预加重的加重因子为0.97,所述梅尔滤波器的梅尔滤波函数为:
Figure BDA0003109838440000045
其中,f表示需要进行滤波的原函数。
作为更加具体的解决方案,通过训练好的神经网络模型来进行语音活动检测;所述神经网络模型为深度神经网络模型,所述深度神经网络模型对需进行语音活动检测的音频信号进行逐帧特征数据处理,并且将深度神经网络模型的计算结果通过softmax函数来计算语音/非语音的后验概率;后验概率值介于0至1之间,超过判定阈值即可认定为是语音,未超过判定阈值则认定为非语音。
与相关技术相比较,本发明提供的一种基于姿态传感器的语音活动检测方法具有如下有益效果:
1、本发明通过将姿态特征数据与声音特征数据进行特征拼接,得到混合特征数据;通过混合特征数据对神经网络模型进行训练,能实现在不同姿态下对语音活动进行准确检测,解决了用户姿态会影响语音活动检测准确度的问题;
2、本发明通过量化压缩方法中的三值量化方法对训练完成的神经网络量进行量化压缩,将32bit浮点型权值量化为2bit定点型权值,进一步减少其占用内存大小的同时还极大地减小了对于计算空间和时间的消耗;
3、本发明考虑到了相邻帧的信息对当前帧VAD的判决的影响,使用循环神经网络模型来构建前后帧的数据联系,以提高模型效果;且循环神经网络模型参数量较少,进一步减少其占用内存大小。
附图说明
图1为本发明提供的一种基于姿态传感器的语音活动检测方法的较佳实施例***示意图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
如图1所示,本发明一种基于姿态传感器的语音活动检测方法,运用于具备姿态传感器的音频采集装置中。
具体的,传统的语音活动检测方法很难适应耳机等设备的使用场景,究其原因,由于使用者的姿态不同而导致语音活动检测的场景在不断变化,从而导致了语音活动检测的准确性难以得到保证,由于使用者姿态导致的影响很难通过单纯的算法改进来实现。
本实施例提出一种通过姿态传感器和音频采集装置相结合的方式来达到消除姿态影响,增加***鲁棒性的目的,姿态传感器通常采用三轴及以上的传感器,并音频采集装置一并安装,通过姿态传感器能实时采集音频采集装置的姿态信息,将采集到的姿态信息与声音信息进行特征提取,通过构建兼顾姿态特征数据与声音特征数据的混合特征数据进行神经网络量化训练,并得到神经网络模型最优解,通过此方法训练得到的神经网络模型能结合姿态信息对声音信息进行实时的语音活动检测,从而达到提高语音活动检测精准性和鲁棒性的目的。
具体的,所述神经网络模型用于语音活动检测,所述混合特征数据经过如下步骤进行构建:
通过姿态传感器采集音频采集装置的姿态变化并记录作为姿态特征数据;
通过音频采集装置采集外部声音变化并作为声音特征数据;
分别对姿态特征数据与声音特征数据进行数据预处理操作;
对预处理后的姿态特征数据与声音特征数据进行特征拼接,得到混合特征数据;
将混合特征数据作为神经网络量化训练数据,用于后续的模型训练。
需要说明的是:混合特征数据能兼顾声音特征和姿态特征,用于后续的模型训练能增强模型对不同姿态下语音活动检测的适应性和鲁棒性。
作为更加具体的解决方案,所述声音特征数据为MFCC特征数据,并通过如下步骤进行MFCC声音特征数据提取和声音特征数据预处理操作:
通过高通滤波器对声音特征数据进行预加重;
通过分帧函数对预加重数据进行分帧操作;
将每一分帧带入窗函数进行加窗操作;
对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱;
对能量谱行离散余弦变换得到MFCC系数;
对梅尔频谱图提取一阶差分参数;
将MFCC系数和一阶差分参数进行拼接,得到MFCC特征数据。
需要说明的是:在语音活动检测时,本实施例采用梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。MFCC根据人耳听觉机理对不同频率的声波有不同的听觉敏感度来设置的。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
作为更加具体的解决方案,对姿态特征数据预处理操作是将时域姿态特征数据转换成频域姿态特征数据的操作,所述姿态姿态特征数据为包括X轴、Y轴和Z轴的姿态特征数据,通过如下步骤进行姿态特征数据预处理操作:
对姿态特征数据进行分帧操作,姿态特征数据的每一分帧与声音特征数据的每一分帧进行一一对应;
通过姿态特征数据计算每一分帧的位移量,计算公式为:
s(n)=f(n)-f(n-1);n∈(0,512];
as(n)=s(n)-s(n-1);n∈(0,512];
其中,s(n)表示第n分帧的速度,as(n)表示第n分帧的加速度,f(n)表示第n分帧的数据位置标签;
将计算获得速度以及加速度分别进行对数变换;
将速度和加速度拼接在一起,得到姿态特征数据。
作为更加具体的解决方案,并通过如下步骤对预处理后的姿态特征数据与声音特征数据进行特征拼接:
将收集到的声音特征数据与姿态特征数据按照实时相应的位置进行一一标点;
对姿态传感器的姿态特征数据进行声音特征数据起始位置和结束位置的信息标注;
按照信噪比要求将随机噪声数据以随机SNR的方式与标注后的声音特征数据进行数据混合,并确保混合后数据与声音特征数据起始位置和结束位置一一对应;
将混合后数据与标点后的姿态特征数据进行对标,并由此得到一条特征拼接后的训练数据;
对所有姿态特征数据与声音特征数据均进行特征拼接,并得到特征拼接后的训练数据集。
需要说明的是:将姿态特征数据和声音特征数据进行标点和标注是保证其严格实时对应的前提,只有这一步处理正确才能得到良好效果的训练效果。
作为更加具体的解决方案,所述神经网络模型为循环神经网络模型,所述循环神经网络模型采集相邻帧的信息,并根据相邻帧的信息对当前帧语音活动检测的权重矩阵进行调整。
作为更加具体的解决方案,对训练完成的神经网络量进行量化压缩,通过量化压缩将32bit浮点型权值量化为2bit定点型权值;量化压缩步骤如下:
从原矩阵中计算得出阈值Δ和缩放因子α
将原权重转变为三值权重
将输入X与α相乘作为新的输入然后与三值权重进行加法计算代替原本的乘法计算进行正向传播。
使用SGD算法反向传播进行迭代训练。
需要说明的是:人工神经网络让计算机在处理语音识别任务的性能到达了一个前所未有的高度。但由于模型的高复杂度带来了高额的存储空间、计算资源消耗,使其很难落实到各个硬件平台。
为了解决这些问题,压缩模型以最大限度地减小模型对于计算空间和时间的消耗。目前主流的网络,如VGG16,参数量1亿3千多万之多,占用500多MB空间,需要进行300多亿次浮点运算才能完成一次识别任务。
在人工神经网络中,存在着大量冗余节点,仅仅只有少部分(5-10%)权值参与着主要的计算,也就是说,仅仅训练小部分的权值参数就可以达到和原来网络相近的性能。故我们需要对训练好的神经网络模型进行压缩,针对神经网络模型的压缩包括张量分解,模型剪枝和模型量化。
张量分解是将网络权值当满秩矩阵,用多个低秩矩阵来逼近该矩阵,该方法适合模型压缩,但是实现并不容易,涉及计算成本高昂的分解操作,且需要大量的重新训练来达到收敛。
模型剪枝是将权重矩阵中相对不重要的权值剔除,然后再重新精修(finetune)网络进行微调。但是模型剪枝会导致网络连接不规整,需要通过稀疏表达来减少内存占用,进而导致在前向传播时,需要大量条件判断和额外空间来标明0或非0参数位置,因此不适合并行计算,非结构化的稀疏性需要使用专门的软件计算库或者硬件。
故我们通过模型量化方向进行量化压缩,一般来讲,神经网络模型的权值都是通过32bit长度的浮点数表示。很多时侯不需要这么高的精度,可以通过量化,用如用8bit来表示。通过牺牲精度来降低每个权值所需要的空间。SGD所需要的精度仅为6-8bit,合理的量化可保证精度的情况下减小模型的存储体积。根据量化方法不同,可分为二值量化,三值量化和多值量化。本实施例选用三值量化,与二值量化相比,三值量化在1和-1两种值的基础上再加入0值进行构成三值网络,且不增加计算量。
而使用SGD算法反向传播进行迭代训练,是利用计算出的梯度来调整神经网络的权重。该SGD算法是梯度下降的一种形式,随着SGD算法调整这些权重,神经网络将产生更理想的输出。神经网络的整体误差应随着训练而下降。
作为更加具体的解决方案,将原权重矩阵W通过三值权重Wt与比例系数α相乘近似表示,所述三值权重Wt表示为:
Figure BDA0003109838440000091
其中:阈值Δ从原权重矩阵W中产生,所述阈值Δ为:
Figure BDA0003109838440000092
其中:i表示权重项对应序列数,n表示权重项总序列数;
缩放因子α为:
Figure BDA0003109838440000093
其中:IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素。
作为更加具体的解决方案,所述加窗操作通过汉明窗函数进行,所述汉明窗函数为:
Figure BDA0003109838440000094
其中,(N、n、a的意义)
所述预加重的加重因子为0.97,所述梅尔滤波器的梅尔滤波函数为:
Figure BDA0003109838440000095
其中,f表示需要进行滤波的原函数。
作为更加具体的解决方案,通过训练好的神经网络模型来进行语音活动检测;所述神经网络模型为深度神经网络模型,所述深度神经网络模型对需进行语音活动检测的音频信号进行逐帧特征数据处理,并且将深度神经网络模型的计算结果通过softmax函数来计算语音/非语音的后验概率;后验概率值介于0至1之间,超过判定阈值即可认定为是语音,未超过判定阈值则认定为非语音。
需要说明的是,通过混合特征数据训练得到的神经网络模型能很好的适应各种姿态下的语音活动检测,而softmax函数主要是用于将模型的计算结果进行归一化,softmax函数能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。通过softmax函数能对语音/非语音进行准确分类。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于姿态传感器的语音活动检测方法,运用于具备姿态传感器的音频采集装置中,其特征在于,通过构建兼顾姿态特征数据与声音特征数据的混合特征数据进行神经网络量化训练,并得到神经网络模型最优解,所述神经网络模型用于语音活动检测,所述混合特征数据经过如下步骤进行构建:
通过姿态传感器采集音频采集装置的姿态变化并记录作为姿态特征数据;
通过音频采集装置采集外部声音变化并作为声音特征数据;
分别对姿态特征数据与声音特征数据进行数据预处理操作;
对预处理后的姿态特征数据与声音特征数据进行特征拼接,得到混合特征数据;
将混合特征数据作为神经网络量化训练数据,用于后续的模型训练。
2.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法,其特征在于,所述声音特征数据为MFCC特征数据,并通过如下步骤进行MFCC声音特征数据提取和声音特征数据预处理操作:
通过高通滤波器对声音特征数据进行预加重;
通过分帧函数对预加重数据进行分帧操作;
将每一分帧带入窗函数进行加窗操作;
对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱;
对能量谱行离散余弦变换得到MFCC系数;
对梅尔频谱图提取一阶差分参数;
将MFCC系数和一阶差分参数进行拼接,得到MFCC特征数据。
3.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法,其特征在于,对姿态特征数据预处理操作是将时域姿态特征数据转换成频域姿态特征数据的操作,所述姿态姿态特征数据为包括X轴、Y轴和Z轴的姿态特征数据,通过如下步骤进行姿态特征数据预处理操作:
对姿态特征数据进行分帧操作,姿态特征数据的每一分帧与声音特征数据的每一分帧进行一一对应;
通过姿态特征数据计算每一分帧的位移量,计算公式为:
s(n)=f(n)-f(n-1);n∈(0,512];
as(n)=s(n)-s(n-1);n∈(0,512];
其中,s(n)表示第n分帧的速度,as(n)表示第n分帧的加速度,f(n)表示第n分帧的数据位置标签;
将计算获得速度以及加速度分别进行对数变换;
将速度和加速度拼接在一起,得到姿态特征数据。
4.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法,其特征在于,并通过如下步骤对预处理后的姿态特征数据与声音特征数据进行特征拼接:
将收集到的声音特征数据与姿态特征数据按照实时相应的位置进行一一标点;
对姿态传感器的姿态特征数据进行声音特征数据起始位置和结束位置的信息标注;
按照信噪比要求将随机噪声数据以随机SNR的方式与标注后的声音特征数据进行数据混合,并确保混合后数据与声音特征数据起始位置和结束位置一一对应;
将混合后数据与标点后的姿态特征数据进行对标,并由此得到一条特征拼接后的训练数据;
对所有姿态特征数据与声音特征数据均进行特征拼接,并得到特征拼接后的训练数据集。
5.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法,其特征在于,所述神经网络模型为循环神经网络模型,所述循环神经网络模型采集相邻帧的信息,并根据相邻帧的信息对当前帧语音活动检测的权重矩阵进行调整。
6.根据权利要求1所述的一种基于姿态传感器的语音活动检测方法,其特征在于,对训练完成的神经网络量进行量化压缩,通过量化压缩将32bit浮点型权值量化为2bit定点型权值;量化压缩步骤如下:
从原矩阵中计算得出阈值Δ和缩放因子α
将原权重转变为三值权重;
将输入X与α相乘作为新的输入然后与三值权重进行加法计算代替原本的乘法计算进行正向传播;
使用SGD算法反向传播进行迭代训练。
7.根据权利要求7所述的一种基于姿态传感器的语音活动检测方法,其特征在于,将原权重矩阵W通过三值权重Wt与比例系数α相乘近似表示,所述三值权重Wt表示为:
Figure FDA0003109838430000031
其中:阈值Δ从原权重矩阵W中产生,所述阈值Δ为:
Figure FDA0003109838430000032
其中:i表示权重项对应序列数,n表示权重项总序列数;
缩放因子α为:
Figure FDA0003109838430000033
其中:IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素。
8.根据权利要求2所述的一种基于姿态传感器的语音活动检测方法,其特征在于,所述加窗操作通过汉明窗函数进行,所述汉明窗函数为:
Figure FDA0003109838430000034
其中,n表示被截取信号;a0表示汉明窗常数,值为25/46;N-1表示汉明窗的截取窗口长度;
所述预加重的加重因子为0.97,所述梅尔滤波器的梅尔滤波函数为:
Figure FDA0003109838430000035
其中,f表示需要进行滤波的原函数。
9.根据权利要求2所述的一种基于姿态传感器的语音活动检测方法,其特征在于,通过训练好的神经网络模型来进行语音活动检测;所述神经网络模型为深度神经网络模型,所述深度神经网络模型对需进行语音活动检测的音频信号进行逐帧特征数据处理,并且将深度神经网络模型的计算结果通过softmax函数来计算语音/非语音的后验概率;后验概率值介于0至1之间,超过判定阈值即可认定为是语音,未超过判定阈值则认定为非语音。
CN202110646290.7A 2021-06-10 2021-06-10 一种基于姿态传感器的语音活动检测方法 Active CN113327589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110646290.7A CN113327589B (zh) 2021-06-10 2021-06-10 一种基于姿态传感器的语音活动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110646290.7A CN113327589B (zh) 2021-06-10 2021-06-10 一种基于姿态传感器的语音活动检测方法

Publications (2)

Publication Number Publication Date
CN113327589A true CN113327589A (zh) 2021-08-31
CN113327589B CN113327589B (zh) 2023-04-25

Family

ID=77420338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110646290.7A Active CN113327589B (zh) 2021-06-10 2021-06-10 一种基于姿态传感器的语音活动检测方法

Country Status (1)

Country Link
CN (1) CN113327589B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818773A (zh) * 2022-03-12 2022-07-29 西北工业大学 用于改善混响抑制鲁棒性的低秩矩阵稀疏性补偿方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708857A (zh) * 2011-03-02 2012-10-03 微软公司 基于运动的语音活动检测
CN106531186A (zh) * 2016-10-28 2017-03-22 中国科学院计算技术研究所 融合加速度和音频信息的脚步检测方法
CN109872728A (zh) * 2019-02-27 2019-06-11 南京邮电大学 基于核典型相关分析的语音和姿态双模态情感识别方法
US10692485B1 (en) * 2016-12-23 2020-06-23 Amazon Technologies, Inc. Non-speech input to speech processing system
CN111798875A (zh) * 2020-07-21 2020-10-20 杭州芯声智能科技有限公司 一种基于三值量化压缩的vad实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708857A (zh) * 2011-03-02 2012-10-03 微软公司 基于运动的语音活动检测
CN106531186A (zh) * 2016-10-28 2017-03-22 中国科学院计算技术研究所 融合加速度和音频信息的脚步检测方法
US10692485B1 (en) * 2016-12-23 2020-06-23 Amazon Technologies, Inc. Non-speech input to speech processing system
CN109872728A (zh) * 2019-02-27 2019-06-11 南京邮电大学 基于核典型相关分析的语音和姿态双模态情感识别方法
CN111798875A (zh) * 2020-07-21 2020-10-20 杭州芯声智能科技有限公司 一种基于三值量化压缩的vad实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KALIN STEFANOV等: "Spatial Bias in Vision-Based Voice Activity Detection", 《2020 25TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818773A (zh) * 2022-03-12 2022-07-29 西北工业大学 用于改善混响抑制鲁棒性的低秩矩阵稀疏性补偿方法
CN114818773B (zh) * 2022-03-12 2024-04-16 西北工业大学 用于改善混响抑制鲁棒性的低秩矩阵稀疏性补偿方法

Also Published As

Publication number Publication date
CN113327589B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、***及装置
Bhat et al. A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone
CN111833896B (zh) 融合反馈信号的语音增强方法、***、装置和存储介质
CN106486131B (zh) 一种语音去噪的方法及装置
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及***
CN113889138B (zh) 一种基于双麦克风阵列的目标语音提取方法
Wang et al. Deep learning assisted time-frequency processing for speech enhancement on drones
WO2019232833A1 (zh) 语音区分方法、装置、计算机设备及存储介质
CN111027675B (zh) 一种多媒体播放设置自动调节方法及***
CN111798875A (zh) 一种基于三值量化压缩的vad实现方法
CN113327589B (zh) 一种基于姿态传感器的语音活动检测方法
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
CN110197657B (zh) 一种基于余弦相似度的动态音声特征提取方法
CN112397090A (zh) 一种基于fpga的实时声音分类方法及***
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
CN114566179A (zh) 一种时延可控的语音降噪方法
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
CN114464188A (zh) 一种基于分布式边缘计算的声纹唤醒算法
Skariah et al. Review of speech enhancement methods using generative adversarial networks
CN112992157A (zh) 一种基于残差和批量归一化的神经网络带噪声纹识别方法
Pan et al. Application of hidden Markov models in speech command recognition
Srinivasarao An efficient recurrent Rats function network (Rrfn) based speech enhancement through noise reduction
Chen et al. Analysis of Embedded AI Speech Recognition Technology Based on MFCC

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant