CN108198547B - 语音端点检测方法、装置、计算机设备和存储介质 - Google Patents

语音端点检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108198547B
CN108198547B CN201810048223.3A CN201810048223A CN108198547B CN 108198547 B CN108198547 B CN 108198547B CN 201810048223 A CN201810048223 A CN 201810048223A CN 108198547 B CN108198547 B CN 108198547B
Authority
CN
China
Prior art keywords
voice
noise
feature vector
acoustic
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810048223.3A
Other languages
English (en)
Other versions
CN108198547A (zh
Inventor
黄石磊
刘轶
王昕�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Raisound Technology Co ltd
Original Assignee
Shenzhen Raisound Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Raisound Technology Co ltd filed Critical Shenzhen Raisound Technology Co ltd
Priority to CN201810048223.3A priority Critical patent/CN108198547B/zh
Publication of CN108198547A publication Critical patent/CN108198547A/zh
Application granted granted Critical
Publication of CN108198547B publication Critical patent/CN108198547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及一种语音端点检测方法、装置、计算机设备和存储介质。该方法包括:获取带噪语音信号,提取所述带噪语音信号对应的声学特征和频谱特征;对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。采用本方法能够有效提高语音端点检测的准确性。

Description

语音端点检测方法、装置、计算机设备和存储介质
技术领域
本申请涉及信号处理技术领域,特别是涉及一种语言端点检测方法、装置、计算机设备和存储介质。
背景技术
随着语音技术的不断发展,语音端点检测技术在语音识别技术中占有十分重要的地位。语音端点检测是从一段连续的噪声语音中检测出语音部分的起始点和终止点,从而能够有效地识别出语音。
传统的语音端点检测方式有两种,一种是根据语音和噪声信号的时域和频域的特征不同,提取每一段信号的特征,将每一段信号的特征与设定的阈值进行比较,从而进行语音端点检测。但这种方式仅适用于平稳噪声条件下检测,噪声鲁棒性差,很难区分纯净语音和噪声,导致语音端点检测的准确性较低。。另一种则是基于神经网络的方式,通过利用训练模型对语音信号进行端点检测。然而大多模型的输入向量只含有带噪语音的特征,使得噪声鲁棒性差,从而导致语音端点检测的准确性较低。因此,如何有效提高语音端点检测的准确性成为目前需要解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效提高语音端点检测的准确性的语音端点检测方法、装置、计算机设备和存储介质。
一种语音端点检测方法,包括:
获取带噪语音信号,提取所述带噪语音信号对应的声学特征和频谱特征;
对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;
获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;
对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;
根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。
在其中一个实施例中,在所述提取所述带噪语音信号对应的声学特征和频谱特征之前,还包括:
将所述带噪语音信号转换为带噪语音频谱;
对所述带噪语音频谱进行时域分析和/或频域分析和/或变换域分析,得到所述带噪语音信号对应的声学特征。
在其中一个实施例中,在所述提取所述带噪语音信号对应的声学特征和频谱特征之前,还包括:
将所述带噪语音信号转换为带噪语音频谱,根据所述带噪语音频谱计算带噪语音幅度谱;
根据所述带噪语音幅度谱对所述带噪语音频谱进行动态噪声估计,得到噪声幅度谱;
根据所述带噪语音幅度谱和所述噪声幅度谱估计纯净语音信号的语音幅度谱;
利用所述带噪语音幅度谱、所述噪声幅度谱和所述语音幅度谱生成所述带噪语音信号对应的频谱特征。
在其中一个实施例中,所述对所述声学特征和频谱特征进行转换包括:
提取所述声学特征和所述频谱特征中当前帧的前后预设数量帧;
通过利用当前帧的前后预设数量帧计算当前帧对应的均值矢量和/或方差矢量;
对计算当前帧对应的均值矢量和/或方差矢量后的声学特征和频谱特征进行对数域转换,得到转换后的声学特征向量和频谱特征向量。
在其中一个实施例中,所述获取分类器的步骤之前还包括:
获取添加语音类别标签的带噪语音数据,通过对所述带噪语音数据进行训练,得到初始分类器;
获取第一验证集,所述第一验证集中包括多个第一语音数据;
将多个第一语音数据输入至分类器,得到所述多个第一语音数据对应的类别概率;
对多个第一语音数据对应的类别概率进行筛选,对选出的第一语音数据添加类别标签,得到添加类别标签的验证集;
利用所述添加类别标签的验证集和所述训练集进行训练,得到验证分类器;
获取第二验证集,所述第二验证集中包括多个第二语音数据;
将多个第二语音数据输入至验证分类器,得到所述多个第二语音数据对应的类别概率;
当多个第二语音数据对应的类别概率达到预设概率值时,得到所需的分类器。
在其中一个实施例中,所述利用所述分类器对所述声学特征向量和频谱特征向量进行分类的步骤包括:
将所述声学特征向量和频谱特征向量作为分类器的输入,得到所述声学特征向量和频谱特征向量对应的决策值;
当所述决策值为第一阈值时,对所述声学特征向量或频谱特征向量添加语音标签;
当所述决策值为第二阈值时,对所述声学特征向量或频谱特征向量添加非语音标签。
一种语音端点检测装置,包括:
提取模块,用于获取带噪语音信号,提取所述带噪语音信号对应的声学特征和频谱特征;
转换模块,用于对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;
分类模块,用于获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;
解析模块,用于对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。
在其中一个实施例中,所述转换模块还用于提取所述声学特征和所述频谱特征中当前帧的前后预设数量帧;通过利用当前帧的前后预设数量帧计算当前帧对应的均值矢量和/或方差矢量;对计算当前帧对应的均值矢量和/或方差矢量后的声学特征和频谱特征进行对数域转换,得到转换后的声学特征向量和频谱特征向量。
一种计算机设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取带噪语音信号,提取所述带噪语音信号对应的声学特征和频谱特征;
对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;
获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;
对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;
根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
获取带噪语音信号,提取所述带噪语音信号对应的声学特征和频谱特征;
对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;
获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;
对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;
根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。
上述语音端点检测方法、装置、计算机设备和存储介质,获取带噪语音信号,提取带噪语音信号对应的声学特征和频谱特征;通过对声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量。获取分类器,通过将声学特征向量和频谱特征向量输入至分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量,由此能够有效地对声学特征向量和频谱特征向量进行分类,从而能够有效识别出语音和非语音。对添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;语音信号的时序确定语音信号对应的起始点和终止点,由此能够准确地识别带噪语音信号的起始点和终止点,从而能够有效提高语音端点检测的准确性。
附图说明
图1为一个实施例中语音端点检测方法的流程图;
图2为一个实施例中语音端点检测装置的的内部结构图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定申请。可以理解,本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
在一个实施例中,如图1所示,提供了一种语音端点检测方法,以该方法应用于终端为例进行说明,包括以下步骤:
步骤102,获取带噪语音信号,提取带噪语音信号对应的声学特征和频谱特征。
通常而言,实际采集到的语音信号通常含有一定强度的噪音,当这些噪音强度较大时,会对语音应用的效果产生明显的影响,比如语音识别效率低,端点检测准确性下降等。
终端可以获取用户通过语音输入装置输入的语音。其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑等终端,终端还包括语音输入装置,例如,可以是麦克风等具有录入语音功能的装置。终端获取到的用户输入的语音通常为含有噪声的带噪语音信号,带噪语音信号可以是用户输入的通话语音、录音音频、语音指令等带噪语音信号。终端获取带噪语音信号后,提取出带噪语音信号对应的声学特征和频谱特征。其中,声学特征可以包括带噪语音信号的清音、浊音,元音、辅音等特征信息。频谱特征可以包括带噪语音信号的振动频率、震动幅度以及带噪语音信号的响度、音色等特征信息。
具体地,终端获取带噪语音信号后,对带噪语音信号进行加窗分帧。例如,可以采用汉宁窗将带噪语音信号分为多个帧长为10-30ms(毫秒)的帧,帧移可以取10ms,从而可以将带噪语音信号分为多帧带噪语音信号。终端对对带噪语音信号进行加窗分帧后,对加窗分帧后的带噪语音信号进行快速傅里叶转换,由此得到带噪语音信号的频谱。终端则可以根据带噪语音的频谱提取出带噪语音信号对应的声学特征和频谱特征。
步骤104,对声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量。
终端提取出带噪语音信号对应的声学特征和频谱特征后,对提取出的带噪语音信号对应的声学特征和频谱特征进行转换,将声学特征转换为对应的声学特征向量,将频谱特征转换为对应的频谱特征向量。
步骤106,获取分类器,将声学特征向量和频谱特征向量输入至分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量。
终端获取分类器,分类器为在进行语音端点检测之前训练好的分类器,分类器可以通过向声学特征向量和频谱特征向量添加语音标签和非语音标签,将输入的声学特征向量和频谱特征向量分为语音类的声学特征向量和频谱特征向量和非语音类的声学特征向量和频谱特征向量。终端通过将带噪语音对应的声学特征向量和频谱特征向量输入至分类器,利用分类器对输入的声学特征向量和频谱特征向量进行分类。当输入的声学特征向量或频谱特征向量为语音类别时,为声学特征向量或频谱特征向量添加语音标签;当输入的声学特征向量或频谱特征向量为非语音类别时,为声学特征向量或频谱特征向量添加非语音标签,由此能够准确识别出语音和非语音。终端利用分类器对声学特征向量和频谱特征向量后,就可以得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量。
进一步地,终端将声学特征向量和频谱特征向量作为分类器的输入,还可以得到声学特征向量和频谱特征向量对应的决策值。终端可以根据得到的决策值对声学特征向量和频谱特征向量添加语音标签或非语音标签。从而实现对声学特征向量和频谱特征向量进行准确分类。
步骤108,对添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到添加语音标签后的语音信号。
步骤110,根据语音信号的语音标签和时序确定语音信号对应的起始点和终止点。
终端对声学特征向量和频谱特征向量进行分类后,需要对添加了语音标签的声学特征向量和添加了语音标签的频谱特征向量进行解析。具体地,终端将添加了语音标签的声学特征向量和添加了语音标签的频谱特征向量进行解析,得到添加了语音标签的声学特征和频谱特征对应的频谱。终端根据带噪语音信号的时序将添加了语音标签的声学特征和频谱特征对应的频谱转换为对应的语音信号,由此能够解析得到对应的语音信号。
带噪语音信号具有时序,添加了语音标签后的语音信号的时序仍然与带噪语音信号的时序相对应。终端将添加了语音标签的声学特征向量和添加了语音标签的频谱特征向量解析为对应的添加了语音标签的语音信号,终端由此能够根据语音信号的语音标签和时序确定带噪语音信号对应的起始点和终止点。
例如,终端通过分类器对输入的声学特征向量和频谱特征向量进行分类后,得到的决策值可以是一个0到1之间的值。当得到的决策值为1时,终端对声学特征向量或频谱特征向量添加语音标签。当得到的决策值为0时,终端对声学特征向量或频谱特征向量添加非语音标签。由此能够准确地对声学特征向量和频谱特征向量进行准确分类。终端将添加了语音标签的声学特征向量和添加了语音标签的频谱特征向量进行解析后,就可以得到添加了语音标签后的语音信号。根据添加了语音标签后的语音信号的时序,当第一次出现添加了语音标签的语音帧则为带噪语音信号的起始点,当最后一次出现语音标签对应的语音帧则为带噪语音信号的终止点。进一步地,还可以根据决策值0到1的跳转来确定语音信号的起始点,根据决策值1到0的跳转来确定语音信号的终止点。由此可以准确地确定带噪语音信号对应的起始点和终止点。
本实施例中,终端获取带噪语音信号后,提取带噪语音信号对应的声学特征和频谱特征,通过对声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量。通过将声学特征向量和频谱特征向量输入至分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量,由此能够有效地对声学特征向量和频谱特征向量进行分类,从而能够有效识别出语音和非语音。终端通过对添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号。终端根据语音信号的时序确定语音信号对应的起始点和终止点,由此能够准确地识别带噪语音信号的起始点和终止点,从而能够有效提高语音端点检测的准确性。
在一个实施例中,在提取带噪语音信号对应的声学特征和频谱特征之前,还包括:将带噪语音信号转换为带噪语音频谱;对带噪语音频谱进行时域分析和/或频域分析和/或变换域分析,得到带噪语音信号对应的声学特征。
在语音学中,语音特征可以分为元音、辅音、清音、浊音以及静音等声学特征。终端获取带噪语音信号后,对带噪语音信号进行加窗分帧。例如,可以采用汉宁窗将带噪语音信号分为多个帧长为10-30ms(毫秒)的帧,帧移可以取10ms。从而可以将带噪语音信号分为多帧带噪语音信号。终端对对带噪语音信号进行加窗分帧后,对加窗分帧后的带噪语音信号进行快速傅里叶转换,由此得到带噪语音信号的频谱。
进一步地,终端可以对带噪语音频谱进行时域分析和/或频域分析和/或变换域分析,从而能够得到带噪语音信号对应的声学特征。
例如,终端可以采用MFCC(Mel-Frequency Cepstrum Coefficients,梅尔频率倒谱系数)方式提取出带噪语音信号对应的声学特征。终端对带噪语音信号进行加窗分帧后,将带噪语音信号转换为带噪语音信号的频谱。终端将带噪语音信号的频谱变换为带噪语音倒谱,终端根据带噪语音倒谱进行倒谱分析,将带噪语音倒谱进行离散余弦变换,得到每一帧的声学特征,从而能够得到带噪语音有效的声学特征。
在一个实施例中,在提取带噪语音信号对应的声学特征和频谱特征之前,还包括:将带噪语音信号转换为带噪语音频谱,根据带噪语音频谱计算带噪语音幅度谱;根据带噪语音幅度谱对带噪语音频谱进行动态噪声估计,得到噪声幅度谱;根据带噪语音幅度谱和噪声幅度谱估计纯净语音信号的语音幅度谱;利用带噪语音幅度谱、噪声幅度谱和语音幅度谱生成带噪语音信号对应的频谱特征。
终端获取带噪语音信号后,对带噪语音信号进行加窗分帧。例如,可以采用汉宁窗将带噪语音信号分为多个帧长为10-30ms(毫秒)的帧,帧移可以取10ms。从而可以将带噪语音信号分为多帧带噪语音信号。终端对对带噪语音信号进行加窗分帧后,对加窗分帧后的带噪语音信号进行快速傅里叶转换,由此得到带噪语音信号的频谱。其中,带噪语音信号的频谱可以为经过快速傅里叶转换之后的带噪语音的能量幅度谱。
进一步地,终端利用带噪语音频谱可以计算出带噪语音幅度谱和带噪语音相位谱。终端根据带噪语音幅度谱和带噪语音相位谱对带噪语音频谱进行动态噪声估计。具体地,终端可以利用改进最小受控递归平均算法对带噪语音频谱进行动态噪声估计,从而可以得到噪声幅度谱。终端根据带噪语音幅度谱、带噪语音相位谱和噪声幅度谱估计出语音信号的语音幅度谱。例如,终端可以利用对数幅度谱最小均方差估计法,估计出语音信号的语音幅度谱。
终端利用估计出的带噪语音幅度谱、噪声幅度谱和纯净语音信号的语音幅度谱生成带噪语音信号对应的频谱特征,由此终端就可以有效地提取出带噪语音信号对应的频谱特征。
在一个实施例中,对声学特征和频谱特征进行转换包括:提取声学特征和频谱特征中当前帧的前后预设数量帧;通过利用当前帧的前后预设数量帧计算当前帧对应的均值矢量和/或方差矢量;对计算当前帧对应的均值矢量和/或方差矢量后的声学特征和频谱特征进行对数域转换,得到转换后的声学特征向量和频谱特征向量。
终端获取带噪语音信号后,对带噪语音信号进行加窗分帧。从而可以将带噪语音信号分为多帧带噪语音信号。终端对对带噪语音信号进行加窗分帧后,对加窗分帧后的带噪语音信号进行快速傅里叶转换,由此得到带噪语音信号的频谱。终端就可以根据带噪语音的频谱提取出带噪语音信号对应的声学特征和频谱特征。
终端提取出带噪语音信号对应的声学特征和频谱特征后,将声学特征和频谱特征转换为声学特征向量和频谱特征向量。终端提取声学特征向量和频谱特征向量中当前帧的前后预设数量帧。终端通过利用当前帧的前后预设数量帧计算出当前帧对应的均值矢量或方差矢量,从而可以对声学特征和频谱特征进行平滑处理,得到平滑后的声学特征向量和频谱特征向量。
例如,终端可以获取声学特征或频谱特征当前帧的前推和后续各五帧,总共11帧带噪语音频谱。通过计算这11帧的平均值,可以得到当前帧的均值矢量。具体地,终端可以获取滤波器组,其中,滤波器的形状为三角形,三角窗口表示滤波窗口。每个滤波器具有三角形滤波器的特性,在带噪语音频谱范围内,这些滤波器可以是等带宽的。终端可以利用滤波器组计算当前帧的均值矢量,由此可以对带噪语音频谱进行平滑处理,得到平滑后的声学特征向量和频谱特征向量。
终端对带噪语音频谱进行平滑处理后,对平滑后的声学特征向量和平滑后的频谱特征向量计算对数域,得到转换后的声学特征向量和频谱特征向量。具体地,终端可以计算每个滤波器输出的声学特征和频谱特征的对数能量,由此可以得到声学特征向量的对数域和频谱特征向量的对数域,从而能够有效地得到转换后的声学特征向量和频谱特征向量。
在一个实施例中,获取分类器的步骤之前还包括:获取添加语音类别标签的带噪语音数据,通过对带噪语音数据进行训练,得到初始分类器;获取第一验证集,第一验证集中包括多个第一语音数据;将多个第一语音数据输入至分类器,得到多个第一语音数据对应的类别概率;对多个第一语音数据对应的类别概率进行筛选,对选出的第一语音数据添加类别标签,得到添加类别标签的验证集;利用添加类别标签的验证集和训练集进行训练,得到验证分类器;获取第二验证集,第二验证集中包括多个第二语音数据;将多个第二语音数据输入至验证分类器,得到多个第二语音数据对应的类别概率;当多个第二语音数据对应的类别概率达到预设概率值时,得到所需的分类器。
在获取分类器之前,需要利用大量带噪语音数据训练出分类器,这些大量带噪语音数据可以是终端从数据库中获取的带噪语音数据,也可以是终端从互联网中获取的带噪语音数据。在训练分类器时,首先通过人工对带噪语音数据进行标注,利用人工标注后的带噪语音数据进行训练得到分类器。
具体地,终端提取带噪语音数据对应的声学特征和频谱特征后,对声学特征和频谱特征进行转换,转换为对应的声学特征向量和频谱特征向量。工作人员可以根据类别对照表对声学特征向量和频谱特征向量进行标注,对每一帧带噪语音信号添加语音标签或非语音标签。终端获取工作人员根据类别对照表对带噪语音数据进行标注后的带噪语音数据。
终端将添加标签后的声学特征向量和频谱特征向量组合起来输入至LSTM(Bidirectional Long Short-term Memory,双向长短期记忆神经网络)的输入层,LSTM神经网络中的非线性隐藏层可以从输入的向量中学习到新的特征,通过激活函数计算出输入向量的所属类别。具体地,每个LSTM单元中有三个门,分别为遗忘门、候选门和输出门。具体的计算公式可以为:
Figure BDA0001551568260000111
其中,σ表示激活函数,
Figure BDA0001551568260000112
表示遗忘门权重矩阵,
Figure BDA0001551568260000113
是遗忘门输入层与隐层之间的权重矩阵,bf表示遗忘门的偏置,遗忘门是通过将前一隐层的输出ht-1与当前的输入xt进行了线性组合,然后利用激活函数将其输出值压缩到0到1之间。当输出值越靠近1,则表明记忆体保留的信息越多;反之,越靠近0,则表明记忆体保留的信息越少。
侯选门计算当前输入的单元状态,具体公式可以为:
Figure BDA0001551568260000114
其中,Ci表示当前输入的单元状态,通过tanh激活函数可以把输出值规整到-1和1之间。
输出门可以控制用于下一层网络更新的记忆信息的数量,公式可以表示为:
Figure BDA0001551568260000115
其中,Ot表示用于下一层网络更新的记忆信息的数量。
通过LSTM单元可以计算得到最后的输出,公式可以表示为:
ht=Ot×tanh(Ct)
由正向和反向计算得到最后的声学特征向量或频谱特征向量,公式可以表示为:
Figure BDA0001551568260000121
其中
Figure BDA0001551568260000122
为正向的输出向量,
Figure BDA0001551568260000123
为反向的输出向量,hi为最后的标注了类别标签的多个声学特征向量或频谱特征向量。
进一步地,LSTM中的输出层可以根据预设的决策函数计算出输出单元Ci的值。其中,输出单元Ci的值可以为0至1之间的值,1代表语音类,0代表非语音类。
终端利用标注了语音类别标签的多个声学特征向量和频谱特征向量计算出每个声学特征和频谱特征属于类别对照表中语音类别和非语音类别的概率,提取声学特征向量和频谱特征向量在类别对照表中的概率值最大的类别,对声学特征向量或频谱特征向量添加与概率值最大的类别对应的语音类别标签。
终端利用添加了语音类别标签的带噪语音数据进行训练,得到初始分类器;终端获取第一验证集,第一验证集中包括多个第一语音数据。终端将多个第一语音数据输入至分类器,得到多个第一语音数据对应的类别概率后,对多个第一语音数据对应的类别概率进行筛选。工作人员利用终端对选出的第一语音数据添加语音类别标签,终端获取添加语音类别标签后的第一语音数据,利用添加语音类别标签后的第一语音数据生成添加语音类别标签的验证集。终端利用添加类别语音标签的验证集和带噪语音数据再进行训练,得到验证分类器。终端获取第二验证集,第二验证集中包括多个第二语音数据;将多个第二语音数据输入至验证分类器,得到多个第二语音数据对应的类别概率。终端筛选出类别概率在预设范围的第二语言数据,并将筛选出的第二语音数据再进行标注,将标注后的第二语音数据和添加标签后的带噪语音数据重新进行训练得到新的分类器。一直持续训练,直到所有验证集中预设数量的声学特征向量或频谱特征向量的概率值在预设概率范围值之间时,停止训练,就可以得到所需的分类器。由此可以得到准确率较高的分类器,从而实现对声学特征向量和频谱特征向量进行准确分类,进而能够准确地识别出语音和非语音。
在一个实施例中,利用分类器对声学特征向量和频谱特征向量进行分类的步骤包括:将声学特征向量和频谱特征向量作为分类器的输入,得到声学特征向量和频谱特征向量对应的决策值;当决策值为第一阈值时,对声学特征向量或频谱特征向量添加语音标签;当决策值为第二阈值时,对声学特征向量或频谱特征向量添加非语音标签。
终端获取带噪语音信号后,提取带噪语音信号对应的声学特征和频谱特征。终端对声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量。终端获取分类器后,将声学特征向量和频谱特征向量输入至分类器。分类器对输入的声学特征向量和频谱特征向量进行分类后,可以得到声学特征向量和频谱特征向量对应的决策值。当得到的决策值为预设的第一阈值时,终端对声学特征向量或频谱特征向量添加语音标签。其中,第一阈值可以是一个范围值。当得到的决策值为预设的第二阈值时,终端对声学特征向量或频谱特征向量添加非语音标签。通过利用分类器对声学特征向量和频谱特征向量进行准确分类,从而能够准确地识别出带噪语音信号中语音信号和非语音信号。
例如,得到的决策值可以是一个0到1之间的值。预设的第一阈值可以是1,预设的第二阈值可以是0。当得到的决策值为1时,终端对声学特征向量或频谱特征向量添加语音标签。当得到的决策值为0时,终端对声学特征向量或频谱特征向量添加非语音标签。由此能够准确地对声学特征向量和频谱特征向量进行准确分类。
在一个实施例中,如图2所示,提供了一种语音端点检测装置,包括提取模块202、转换模块204、分类模块206和解析模块208,其中:
提取模块202,用于获取带噪语音信号,提取带噪语音信号对应的声学特征和频谱特征。
转换模块204,用于对声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量。
分类模块206,用于获取分类器,将声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量。
解析模块208,用于对添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;根据语音信号的时序确定语音信号对应的起始点和终止点。
在一个实施例中,提取模块202还用于将所述带噪语音信号转换为带噪语音频谱;对所述带噪语音频谱进行时域分析和/或频域分析和/或变换域分析,得到所述带噪语音信号对应的声学特征。
在一个实施例中,提取模块202还用于将带噪语音信号转换为带噪语音频谱,根据带噪语音频谱计算带噪语音幅度谱;根据带噪语音幅度谱对带噪语音频谱进行动态噪声估计,得到噪声幅度谱;根据带噪语音幅度谱和噪声幅度谱估计纯净语音信号的语音幅度谱;利用带噪语音幅度谱、噪声幅度谱和语音幅度谱生成带噪语音信号对应的频谱特征。
在一个实施例中,转换模块204还用于提取所述声学特征和所述频谱特征中当前帧的前后预设数量帧;通过利用当前帧的前后预设数量帧计算当前帧对应的均值矢量和/或方差矢量;对计算当前帧对应的均值矢量和/或方差矢量后的声学特征和频谱特征进行对数域转换,得到转换后的声学特征向量和频谱特征向量。
在一个实施例中,该装置还包括训练模块,用于获取添加语音类别标签的带噪语音数据,通过对带噪语音数据进行训练,得到初始分类器;获取第一验证集,第一验证集中包括多个第一语音数据;将多个第一语音数据输入至初始分类器,得到多个第一语音数据对应的类别概率;对多个第一语音数据对应的类别概率进行筛选,对选出的第一语音数据添加类别标签,得到添加类别标签的验证集;利用添加类别标签的验证集和添加语音类别标签的带噪语音数据进行训练,得到验证分类器;获取第二验证集,第二验证集中包括多个第二语音数据;将多个第二语音数据输入至验证分类器,得到多个第二语音数据对应的类别概率;当多个第二语音数据对应的类别概率达到预设概率值时,得到所需的分类器。
在一个实施例中,分类模块206还用于将声学特征向量和频谱特征向量作为分类器的输入,得到声学特征向量和频谱特征向量对应的决策值;当决策值为第一阈值时,对声学特征向量或频谱特征向量添加语音标签;当决策值为第二阈值时,对声学特征向量或频谱特征向量添加非语音标签。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。例如,该计算机设备可以是终端,终端可以但不限于是各种是智能手机、平板电脑、笔记本电脑、个人计算机和便携式可穿戴设备等具有输入语音的功能的设备。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和语音输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音端点检测方法。该计算机设备的语音输入装置可以包括麦克风,还可以包括外接的耳机等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取带噪语音信号,提取带噪语音信号对应的声学特征和频谱特征;对声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;获取分类器,将声学特征向量和频谱特征向量输入至分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;对添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;根据语音信号的时序确定语音信号对应的起始点和终止点。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将所述带噪语音信号转换为带噪语音频谱;对所述带噪语音频谱进行时域分析和/或频域分析和/或变换域分析,得到所述带噪语音信号对应的声学特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将带噪语音信号转换为带噪语音频谱,根据带噪语音频谱计算带噪语音幅度谱;根据带噪语音幅度谱对带噪语音频谱进行动态噪声估计,得到噪声幅度谱;根据带噪语音幅度谱和噪声幅度谱估计纯净语音信号的语音幅度谱;利用带噪语音幅度谱、噪声幅度谱和语音幅度谱生成带噪语音信号对应的频谱特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取所述声学特征和所述频谱特征中当前帧的前后预设数量帧;通过利用当前帧的前后预设数量帧计算当前帧对应的均值矢量和/或方差矢量;对计算当前帧对应的均值矢量和/或方差矢量后的声学特征和频谱特征进行对数域转换,得到转换后的声学特征向量和频谱特征向量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取添加语音类别标签的带噪语音数据,通过对带噪语音数据进行训练,得到初始分类器;获取第一验证集,第一验证集中包括多个第一语音数据;将多个第一语音数据输入至分类器,得到多个第一语音数据对应的类别概率;对多个第一语音数据对应的类别概率进行筛选,对选出的第一语音数据添加类别标签,得到添加类别标签的验证集;利用添加类别标签的验证集和训练集进行训练,得到验证分类器;获取第二验证集,第二验证集中包括多个第二语音数据;将多个第二语音数据输入至验证分类器,得到多个第二语音数据对应的类别概率;当多个第二语音数据对应的类别概率达到预设概率值时,得到所需的分类器。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将声学特征向量和频谱特征向量作为分类器的输入,得到声学特征向量和频谱特征向量对应的决策值;当决策值为第一阈值时,对声学特征向量或频谱特征向量添加语音标签;当决策值为第二阈值时,对声学特征向量或频谱特征向量添加非语音标签。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取带噪语音信号,提取带噪语音信号对应的声学特征和频谱特征;对声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;获取分类器,将声学特征向量和频谱特征向量输入至分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;对添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;根据语音信号的时序确定语音信号对应的起始点和终止点。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将所述带噪语音信号转换为带噪语音频谱;对所述带噪语音频谱进行时域分析和/或频域分析和/或变换域分析,得到所述带噪语音信号对应的声学特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将带噪语音信号转换为带噪语音频谱,根据带噪语音频谱计算带噪语音幅度谱;根据带噪语音幅度谱对带噪语音频谱进行动态噪声估计,得到噪声幅度谱;根据带噪语音幅度谱和噪声幅度谱估计纯净语音信号的语音幅度谱;利用带噪语音幅度谱、噪声幅度谱和语音幅度谱生成带噪语音信号对应的频谱特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取所述声学特征和所述频谱特征中当前帧的前后预设数量帧;通过利用当前帧的前后预设数量帧计算当前帧对应的均值矢量和/或方差矢量;对计算当前帧对应的均值矢量和/或方差矢量后的声学特征和频谱特征进行对数域转换,得到转换后的声学特征向量和频谱特征向量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取添加语音类别标签的带噪语音数据,通过对带噪语音数据进行训练,得到初始分类器;获取第一验证集,第一验证集中包括多个第一语音数据;将多个第一语音数据输入至分类器,得到多个第一语音数据对应的类别概率;对多个第一语音数据对应的类别概率进行筛选,对选出的第一语音数据添加类别标签,得到添加类别标签的验证集;利用添加类别标签的验证集和训练集进行训练,得到验证分类器;获取第二验证集,第二验证集中包括多个第二语音数据;将多个第二语音数据输入至验证分类器,得到多个第二语音数据对应的类别概率;当多个第二语音数据对应的类别概率达到预设概率值时,得到所需的分类器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将声学特征向量和频谱特征向量作为分类器的输入,得到声学特征向量和频谱特征向量对应的决策值;当决策值为第一阈值时,对声学特征向量或频谱特征向量添加语音标签;当决策值为第二阈值时,对声学特征向量或频谱特征向量添加非语音标签。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语音端点检测方法,包括:
获取带噪语音信号,提取所述带噪语音信号对应的声学特征;
提取所述带噪语音信号的带噪语音幅度谱、噪声幅度谱和语音幅度谱;
根据所述带噪语音幅度谱、所述噪声幅度谱和所述语音幅度谱生成所述带噪语音信号对应的频谱特征;
对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;
获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;
对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;
根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。
2.根据权利要求1所述的方法,其特征在于,在所述提取所述带噪语音信号对应的声学特征和频谱特征之前,还包括:
将所述带噪语音信号转换为带噪语音频谱;
对所述带噪语音频谱进行时域分析和/或频域分析和/或变换域分析,得到所述带噪语音信号对应的声学特征。
3.根据权利要求1所述的方法,其特征在于,所述提取所述带噪语音信号的带噪语音幅度谱、噪声幅度谱和语音幅度谱,包括:
将所述带噪语音信号转换为带噪语音频谱,根据所述带噪语音频谱计算带噪语音幅度谱;
根据所述带噪语音幅度谱对所述带噪语音频谱进行动态噪声估计,得到噪声幅度谱;
根据所述带噪语音幅度谱和所述噪声幅度谱估计纯净语音信号的语音幅度谱。
4.根据权利要求1所述的方法,其特征在于,所述对所述声学特征和频谱特征进行转换包括:
提取所述声学特征和所述频谱特征中当前帧的前后预设数量帧;
通过利用当前帧的前后预设数量帧计算当前帧对应的均值矢量和/或方差矢量;
对计算当前帧对应的均值矢量和/或方差矢量后的声学特征和频谱特征进行对数域转换,得到转换后的声学特征向量和频谱特征向量。
5.根据权利要求1所述的方法,其特征在于,所述获取分类器的步骤之前还包括:
获取添加语音类别标签的带噪语音数据,通过对所述带噪语音数据进行训练,得到初始分类器;
获取第一验证集,所述第一验证集中包括多个第一语音数据;
将多个第一语音数据输入至所述初始分类器,得到所述多个第一语音数据对应的类别概率;
对多个第一语音数据对应的类别概率进行筛选,对选出的第一语音数据添加类别标签,得到添加类别标签的验证集;
利用所述添加类别标签的验证集和所述添加语音类别标签的带噪语音数据进行训练,得到验证分类器;
获取第二验证集,所述第二验证集中包括多个第二语音数据;
将多个第二语音数据输入至验证分类器,得到所述多个第二语音数据对应的类别概率;
当多个第二语音数据对应的类别概率达到预设概率值时,得到所需的分类器。
6.根据权利要求1至5任一项所述的方法,其特征在于,利用所述分类器对所述声学特征向量和频谱特征向量进行分类的步骤包括:
将所述声学特征向量和频谱特征向量作为分类器的输入,得到所述声学特征向量和频谱特征向量对应的决策值;
当所述决策值为第一阈值时,对所述声学特征向量或频谱特征向量添加语音标签;
当所述决策值为第二阈值时,对所述声学特征向量或频谱特征向量添加非语音标签。
7.一种语音端点检测装置,包括:
提取模块,用于获取带噪语音信号,提取所述带噪语音信号对应的声学特征;提取所述带噪语音信号的带噪语音幅度谱、噪声幅度谱和语音幅度谱;根据所述带噪语音幅度谱、所述噪声幅度谱和所述语音幅度谱生成所述带噪语音信号对应的频谱特征;
转换模块,用于对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;
分类模块,用于获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;
解析模块,用于对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。
8.根据权利要求7所述的装置,其特征在于,所述转换模块还用于提取所述声学特征和所述频谱特征中当前帧的前后预设数量帧;通过利用当前帧对应的前后预设数量帧计算当前帧的均值矢量和/或方差矢量;对计算当前帧对应的均值矢量和/或方差矢量后的声学特征和频谱特征进行对数域转换,得到转换后的声学特征向量和频谱特征向量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN201810048223.3A 2018-01-18 2018-01-18 语音端点检测方法、装置、计算机设备和存储介质 Active CN108198547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810048223.3A CN108198547B (zh) 2018-01-18 2018-01-18 语音端点检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810048223.3A CN108198547B (zh) 2018-01-18 2018-01-18 语音端点检测方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108198547A CN108198547A (zh) 2018-06-22
CN108198547B true CN108198547B (zh) 2020-10-23

Family

ID=62589616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810048223.3A Active CN108198547B (zh) 2018-01-18 2018-01-18 语音端点检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108198547B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922556B (zh) * 2018-07-16 2019-08-27 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN110752973B (zh) * 2018-07-24 2020-12-25 Tcl科技集团股份有限公司 一种终端设备的控制方法、装置和终端设备
CN109036471B (zh) * 2018-08-20 2020-06-30 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110265032A (zh) * 2019-06-05 2019-09-20 平安科技(深圳)有限公司 会议数据分析处理方法、装置、计算机设备和存储介质
CN110322872A (zh) * 2019-06-05 2019-10-11 平安科技(深圳)有限公司 会议语音数据处理方法、装置、计算机设备和存储介质
CN110428853A (zh) * 2019-08-30 2019-11-08 北京太极华保科技股份有限公司 语音活性检测方法、语音活性检测装置以及电子设备
CN110808061B (zh) * 2019-11-11 2022-03-15 广州国音智能科技有限公司 语音分离方法、装置、移动终端及计算机可读存储介质
CN110910906A (zh) * 2019-11-12 2020-03-24 国网山东省电力公司临沂供电公司 基于电力内网的音频端点检测及降噪方法
CN111179972A (zh) * 2019-12-12 2020-05-19 中山大学 一种基于深度学习的人声检测算法
CN111192600A (zh) * 2019-12-27 2020-05-22 北京网众共创科技有限公司 声音数据的处理方法及装置、存储介质和电子装置
CN111626061A (zh) * 2020-05-27 2020-09-04 深圳前海微众银行股份有限公司 会议记录生成方法、装置、设备及可读存储介质
CN111916060B (zh) * 2020-08-12 2022-03-01 四川长虹电器股份有限公司 一种基于谱减的深度学习语音端点检测方法和***
CN112652324A (zh) * 2020-12-28 2021-04-13 深圳万兴软件有限公司 语音增强优化方法及语音增强优化***、可读存储介质
CN113327626B (zh) * 2021-06-23 2023-09-08 深圳市北科瑞声科技股份有限公司 语音降噪方法、装置、设备及存储介质
CN113744725A (zh) * 2021-08-19 2021-12-03 清华大学苏州汽车研究院(相城) 一种语音端点检测模型的训练方法及语音降噪方法
CN114974258B (zh) * 2022-07-27 2022-12-16 深圳市北科瑞声科技股份有限公司 基于语音处理的说话人分离方法、装置、设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
KR100745976B1 (ko) * 2005-01-12 2007-08-06 삼성전자주식회사 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别***的端点检测方法
CN101599269B (zh) * 2009-07-02 2011-07-20 中国农业大学 语音端点检测方法及装置
CN103489454B (zh) * 2013-09-22 2016-01-20 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103730124A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于似然比测试的噪声鲁棒性端点检测方法
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN104021789A (zh) * 2014-06-25 2014-09-03 厦门大学 一种利用短时时频值的自适应端点检测方法
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
CN105118502B (zh) * 2015-07-14 2017-05-10 百度在线网络技术(北京)有限公司 语音识别***的端点检测方法及***
CN107393526B (zh) * 2017-07-19 2024-01-02 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN108198547A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
CN108877775B (zh) 语音数据处理方法、装置、计算机设备及存储介质
US9792897B1 (en) Phoneme-expert assisted speech recognition and re-synthesis
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Deshwal et al. Feature extraction methods in language identification: a survey
WO2020029404A1 (zh) 语音处理方法及装置、计算机装置及可读存储介质
Ali et al. Automatic speech recognition technique for Bangla words
Vestman et al. Speaker recognition from whispered speech: A tutorial survey and an application of time-varying linear prediction
Hibare et al. Feature extraction techniques in speech processing: a survey
CN111145782B (zh) 重叠语音识别方法、装置、计算机设备和存储介质
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
Yusnita et al. Malaysian English accents identification using LPC and formant analysis
Ananthi et al. SVM and HMM modeling techniques for speech recognition using LPCC and MFCC features
CN108091340B (zh) 声纹识别方法、声纹识别***和计算机可读存储介质
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Zou et al. Improved voice activity detection based on support vector machine with high separable speech feature vectors
Nidhyananthan et al. Language and text-independent speaker identification system using GMM
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
Priyadarshani et al. Dynamic time warping based speech recognition for isolated Sinhala words
Nivetha A survey on speech feature extraction and classification techniques
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Islam et al. A Novel Approach for Text-Independent Speaker Identification Using Artificial Neural Network
Daqrouq et al. Arabic vowels recognition based on wavelet average framing linear prediction coding and neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant