CN109147798B - 语音识别方法、装置、电子设备及可读存储介质 - Google Patents

语音识别方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN109147798B
CN109147798B CN201810842328.6A CN201810842328A CN109147798B CN 109147798 B CN109147798 B CN 109147798B CN 201810842328 A CN201810842328 A CN 201810842328A CN 109147798 B CN109147798 B CN 109147798B
Authority
CN
China
Prior art keywords
voice
frame
characteristic
feature
center vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810842328.6A
Other languages
English (en)
Other versions
CN109147798A (zh
Inventor
辛颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201810842328.6A priority Critical patent/CN109147798B/zh
Publication of CN109147798A publication Critical patent/CN109147798A/zh
Priority to PCT/CN2019/098023 priority patent/WO2020020375A1/zh
Application granted granted Critical
Publication of CN109147798B publication Critical patent/CN109147798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种语音识别方法、装置、电子设备及可读存储介质,所述方法包括:获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;对于各语音帧,生成所述语音帧的特征向量;对所述各语音帧的特征向量进行聚类,生成特征中心向量;根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。解决了现有技术中去噪导致的识别较慢、无法去掉所有噪声导致语音识别准确度较低的问题,能够直接提取特征,并将噪声弱化,提高了识别的速度和准确度。

Description

语音识别方法、装置、电子设备及可读存储介质
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、电子设备及可读存储介质。
背景技术
随着语音识别技术的迅速发展,语音作为身份识别的有效手段逐渐成熟。
现有技术中,专利申请CN107610707A提出了一种声纹识别方法、装置、电子设备及可读存储介质:首先,通过预处理对语音数据进行去噪,得到有效语音数据;然后,从有效语音数据中提取MFCC(Mel-frequency cepstral coefficients,梅尔频率倒谱系数)声学特征,得到MFCC维度及语音分帧数的特征矩阵;最后,根据特征矩阵从预设特征矩阵集中确定语音数据的说话人。
然而,去噪处理运算复杂度较大,导致语音识别速度较慢,且去噪处理具有针对性,无法保证去掉所有噪声,导致语音识别准确率较低。
发明内容
本发明提供一种语音识别方法、装置、电子设备及可读存储介质,以解决现有技术语音识别的上述问题。
根据本发明的第一方面,提供了一种语音识别方法,所述方法包括:
获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;
对于各语音帧,生成所述语音帧的特征向量;
对所述各语音帧的特征向量进行聚类,生成特征中心向量;
根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。
根据本发明的第二方面,提供了一种语音识别装置,所述装置包括:
语音帧划分模块,用于获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;
特征向量生成模块,用于对于各语音帧,生成所述语音帧的特征向量;
特征中心向量生成模块,用于对所述各语音帧的特征向量进行聚类,生成特征中心向量;
目标语音特征中心向量生成模块,用于根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。
根据本发明的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现前述语音识别方法。
根据本发明的第四方面,提供了一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述语音识别方法。
本发明实施例提供了一种语音识别方法、装置、电子设备及可读存储介质,所述方法包括:获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;对于各语音帧,生成所述语音帧的特征向量;对所述各语音帧的特征向量进行聚类,生成特征中心向量;根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。解决了现有技术中去噪导致的识别较慢、无法去掉所有噪声导致语音识别准确度较低的问题,能够直接提取特征,并将噪声弱化,提高了识别的速度和准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的***架构下的一种语音识别方法具体步骤流程图;
图2是本发明实施例提供的***架构下的另一种语音识别方法具体步骤流程图;
图3是本发明实施例提供的一种语音识别装置的结构图;
图4是本发明实施例提供的另一种语音识别装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参照图1,其示出了一种语音识别方法的步骤流程图,包括:
步骤101,获取目标人物对应的语音文件按照预设帧长划分的多个语音帧。
其中,目标人物为需要识别身份的人物。
语音文件可以实时录入,也可以为预先录入。
预设帧长可以根据实际应用场景和经验值设定,本发明实施例对其不加以限制。依据语音短时平稳的特性,帧长通常设置为10毫秒至32毫秒。本发明优选30毫秒。
具体地,本发明实施例通过窗函数实现分帧。其中,窗函数包括但不限于:矩形窗、三角窗、汉明窗、汉宁窗。本发明实施例优选汉明窗。可以理解,帧长为窗函数的宽度。
在实际应用中,为了防止频谱泄露,在分帧时连续两帧通常重叠一部分。根据经验值,重叠部分的长度为帧长的50%至80%。本发明实施例优选50%。从而每次窗函数向前移动时,仅移动帧长的50%的长度。
可以理解,对于各语音帧,有的语音帧只包括噪声,即噪声帧,有的语音帧包括噪声和语音帧。
步骤102,对于各语音帧,生成所述语音帧的特征向量。
其中,特征向量代表了语音的能量特征。具体地,特征向量可以基于梅尔频谱和/或离散余弦系数和/或梅尔频率倒谱系数生成。
其中,梅尔频谱通过对语音帧的功率谱进行对数域转换得到。可以理解,功率谱是频率与功率的关系,功率为声音的能量表述。
离散余弦系数和梅尔频率倒谱系数通过对梅尔频谱进行离散余弦变换得到。
本发明实施例直接从语音帧中提取特征信息,生成特征向量。
在本发明实施例中,各语音帧的特征向量由该语音帧的梅尔频谱、离散余弦系数以及梅尔频谱倒谱系数组成。其中,梅尔频谱为人声的梅尔域能量,用于区别人声和噪声;离散余弦系数和梅尔频谱倒谱系数可以区分人声的特征。
步骤103,对所述各语音帧的特征向量进行聚类,生成特征中心向量。
本发明实施例可以将各语音帧的特征向量作为初始值进行聚类,从而将各语音帧的噪声特征或语音特征聚类得到该语音帧的噪声特征中心向量或语音特征中心向量。聚类算法可以采用k-means、fuzzy-c-means、EM等算法。本发明实施例对聚类算法不加以限制。
其中,k-means算法以空间中k个点为中心进行聚类,对最靠近该k个点的对象进行归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最优的聚类结果。
fuzzy-c-means算法通过优化目标函数得到每个样本点对所有聚类中心的隶属度,从而决定样本点的类属以达到自动对样本数据进行聚类的目的。
EM算法在概率模型中寻找参数最大似然估计或最大后验估计。
步骤104,根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。
其中,在一个实施例中,参考噪声帧为多个语音帧中的纯噪声帧或噪声功率超过一定阈值的语音帧。
具体地,将参考噪声帧的特征中心向量与其他特征中心向量进行对比,从而确定差距较大的特征中心向量包含语音信息,并将包含语音信息的特征中心向量拼接生成目标语音特征中心向量。
在实际应用中,可以将目标人物的目标语音特征中心向量与确定身份的参考人物的目标语音特征中心向量,进行对比,确定目标人物是否是参考人物。若两个目标语音特征中心向量接近,则代表目标人物是参考人物;否则,目标人物不是参考人物。
在实际应用中,可以将大量参考人物的目标语音特征中心向量保存至数据库中,从而可以从判断该目标人物是否为该数据库中人物。可以理解,在极限情况下,当该数据库中保存了所有人物的目标语音特征中心向量时,即可以确认任何一个人的身份信息。
综上所述,本发明实施例提供了一种语音别方法,所述方法包括:获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;对于各语音帧,生成所述语音帧的特征向量;对所述各语音帧的特征向量进行聚类,生成特征中心向量;根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。解决了现有技术中去噪导致的识别较慢、无法去掉所有噪声导致语音识别准确度较低的问题,能够直接提取特征,并将噪声弱化,提高了识别的速度和准确度。
实施例二
本申请实施例从***架构的层级对可选地语音识别方法进行了描述。
参照图2,其示出了另一种语音识别方法的具体步骤流程图。
步骤201,获取目标人物对应的语音文件按照预设帧长划分的多个语音帧。
该步骤可以参照步骤101的详细说明,在此不再赘述。
步骤202,对于各语音帧,确定所述语音帧的梅尔频谱。
其中,梅尔频谱可以区分语音帧和噪声帧。
可选地,在本发明的另一种实施例中,上述步骤202包括子步骤2021:
子步骤2021,确定所述语音帧的功率谱。
具体地,功率谱可以基于频谱进行计算。
可选地,在本发明的另一种实施例中,上述子步骤2021包括子步骤20211至20212:
子步骤20211,对所述语音帧分别进行傅里叶变换,得到所述语音帧的频谱。
具体地,对于第i帧语音帧的第n个离散信号xi(n),频谱Fi(k)的计算公式如下:
Figure BDA0001745842540000061
其中,k=0、1、…、N-1,N为傅里叶变换的点数,可以根据实际应用场景设定;在实际应用中,通常取256。
子步骤20212,计算所述语音帧的频谱的平方得到所述语音帧的功率谱。
具体地,对于第i帧语音帧的第n个离散信号xi(n),功率谱Pi(k)的计算公式如下:
Pi(k)=|Fi(k)|2 (2)
子步骤2022,根据所述语音帧的功率谱,计算所述语音帧的梅尔频谱。
其中,梅尔频谱通过梅尔频率滤波器对功率谱进行滤波得到。
可选地,在本发明的另一种实施例中,上述子步骤2022包括子步骤20221:
子步骤20221,通过预设三角带通滤波器对所述语音帧的功率谱进行滤波,得到所述语音帧的梅尔频谱。
在本发明实施例中,梅尔频率滤波器采用一组三角带通滤波器实现,从而可以符合人耳的掩蔽效应,使得加强低频分量,屏蔽噪声影响。在本发明实施例中,优选24个三角带通滤波器。
其中,三角带通滤波器H(k)的表示如下公式:
Figure BDA0001745842540000071
其中,f(l)、f(l-1)、f(l+1)分别为第l、l-1、l+1个三角带通滤波器的中心频率。
具体地,梅尔频谱Mi(k)的计算公式如下:
Mi(k)=H(k)·Pi(k)=H(k)·|Fi(k)|2 (3)
可选地,在本发明的另一种实施例中,在上述子步骤2022之后包括还包括子步骤2023:
子步骤2023,根据所述语音帧的功率谱,计算所述语音帧的离散余弦系数及梅尔频率倒谱系数。
其中,离散余弦系数和梅尔频率倒谱系数可以通过对对数域功率谱进行离散余弦变换得到。
可选地,在本发明的另一种实施例中,上述子步骤20231至20232:
子步骤20231,对所述语音帧的梅尔频谱转换至对数域,得到所述语音帧的对数域功率谱。
具体地,对语音帧的梅尔频谱取对数得到对数域功率谱,从而可以尽可能的符合人耳的听觉特性,即:对数式感知。
可选地,在本发明的另一种实施例中,上述子步骤20231包括子步骤202311至202316:
子步骤202311,对于所述语音帧的功率谱上的每个功率点,获取所述功率点的频率和功率。
本发明实施例通过对功率谱上的每个功率点进行转换,实现整个功率谱的对数域转换。
子步骤202312,将所述功率点对应的频率除以预设第一转换参数,得到第一中间值。
具体地,第一中间值MV1的计算公式如下:
MV1=k/P1 (4)
其中,P1为第一转换参数,在本发明实施例中,优选700;k为功率点对应的频率。
子步骤202313,将所述第一中间值加上预设第二转换参数,得到第二中间值。
具体地,第二中间值MV2的计算公式如下:
MV2=P2+MV1=P2+k/P1 (5)
其中,P2为第二转换参数,在本发明实施例中,优选1。
子步骤202314,对所述第二中间值取对数,得到第三中间值。
具体地,第三中间值MV3的计算公式如下:
MV3=log(MV2)=log(P2+k/P1) (6)
子步骤202315,计算所述第三中间值与预设第三转换参数的乘积,得到对数转换值。
M(k)=P3·MV3=P3·log(P2+k/P1) (7)
其中,P3为第三转换参数,在本发明实施例中优选2595。
可以理解,P1、P2、P3均可以根据实际应用场景进行适当调整,本发明实施例对其不加以限制。
子步骤202316,对于所述语音帧,各功率点的对数转换值和所述功率组成对数功率谱。
根据子步骤202312至202315的计算,将频率k转换为M(k),从而M(k)和频率k对应的功率组成对数域功率谱。
子步骤20232,对所述语音帧的对数域功率谱进行离散余弦变换,得到所述语音帧的离散余弦系数和梅尔频率倒谱系数,所述梅尔频率倒谱系数从所述离散余弦系数中确定。
具体地,离散余弦系数可以为离散余弦变换之后的第一个系数,梅尔频率倒谱系数可以为离散余弦变换之后的其他系数。
步骤203,根据所述语音帧的梅尔频谱生成所述语音帧的特征向量。
在实际应用中,可以单独将梅尔频谱作为特征向量,也可以对梅尔频谱进行线性或非线性转换得到特征向量。
可选地,针对子步骤2023,上述步骤203包括子步骤2031:
子步骤2031,将所述语音帧的梅尔频谱、离散余弦系数及梅尔频率倒谱系数拼接成为所述语音帧的特征向量。可以理解,本发明实施例对梅尔频谱、离散余弦系数及梅尔频率倒谱系数的拼接顺序不加以限制。例如,可以将离散余弦系数拼接在梅尔频谱之后,再拼接上梅尔频率倒谱系数,也可以将梅尔频谱拼接在离散余弦系数之后,再拼接上梅尔频谱倒谱系数。
当然,三者均拼接起来得到的特征向量携带的信息更多,更容易帮助区别噪声和语音。
步骤204,对所述各语音帧的特征向量进行聚类,生成特征中心向量。
该步骤可以参照步骤103的详细说明,在此不再赘述。
步骤205,从所述各语音帧的特征中心向量中确定参考噪声帧的特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧。
其中,参考噪声帧通常为语音帧中的第一帧,若第一帧语音存在语音信息或噪声功率小于预设阈值,则选取其他帧,并确定其不包含语音信息或噪声功能大于或等于预设阈值时,作为参考噪声帧。
步骤206,计算所述参考噪声帧对应的特征中心向量与每个语音帧的特征中心向量的距离。
此外,在实际应用中,为了进一步提高识别速度,可以从各语音帧中首先选取特征语音帧,然后计算参考噪声帧对应的特征中心向量与每个特征语音帧的特征中心向量的距离。
特征语音帧可以随机选取,例如可以采用种子随机方法随机选取。在实际应用中,若陷入局部最优,则重新选择一次语音帧。从而可以避免特征语音帧的随机性差,导致局部最优无解。在本发明实施例中优选10个随机语音帧。
在本发明实施例中,参考噪声帧用于与各语音帧进行比较,并剔除纯噪声帧,仅保留含有语音信息的语音帧。
可以理解,距离可以采用欧氏距离也可以采用其他方式计算,本发明实施例对其不加以限制。
步骤207,若所述距离大于或等于预设第二距离阈值,则将所述语音帧的特征中心向量拼接至目标语音特征中心向量中,所述目标语音特征中心向量用于确定所述目标人物的身份信息。
其中,第二距离阈值可以根据实际应用场景设定,本发明实施例对其不加以限制。
具体地,若距离大于或等于第二距离阈值,则表明语音帧不仅包括噪声信息还包括语音信息,从而拼接至目标语音特征中心向量中;若距离小于第二距离阈值,则表明语音帧仅包括噪声信息,从而不拼接至目标语音特征中心向量中。
本发明实施例可以将包含语音信息的语音帧的特征中心向量拼接成为目标语音特征中心向量。
可选地,在本发明的另一种实施例中,根据所述目标语音特征中心向量确定所述目标人物的身份信息的步骤,包括子步骤A1至A4:
子步骤A1,获取参考语音特征中心向量,所述参考语音特征中心向量对应预设参考人物。
其中,预设参考人物为预先确定了语音特征中心向量的人物。在实际应用中,可以通过步骤201至204获取确定身份的人物的目标语音特征中心向量,并保存至数据库中。从而可以将待确认身份的人物的目标语音特征中心向量与其进行对比,以确认身份信息。
子步骤A2,计算所述参考语音特征中心向量与所述目标语音特征中心向量的距离。
例如,可以通过欧氏距离计算两个向量的距离,具体公式如下:
Figure BDA0001745842540000101
其中,A(j)和B(j)分别为两个向量A和B的第j个分量,J为向量的大小。
可以理解,在实际应用中,还可以采用其他计算距离的公式,本发明实施例对其不加以限制。
子步骤A3,若所述距离小于预设第一距离阈值,则所述目标人物为所述参考人物。
其中,第一距离阈值可以根据实际应用场景设定,本发明实施例对其不加以限制。
可以理解,距离小于第一距离阈值,则代表目标人物的语音特征与参考人物的语音特征近似,从而可以确认为同一人。
子步骤A4,若所述距离大于或等于预设第一距离阈值,则所述目标人物不为所述参考人物。
可以理解,距离大于等于距离阈值,则代表目标人物的语音特征与参考人物的语音特征相差较大,从而可以确认为非同一人。
综上所述,本发明实施例提供了一种语音识别方法,所述方法包括:获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;对于各语音帧,生成所述语音帧的特征向量;对所述各语音帧的特征向量进行聚类,生成特征中心向量;根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。解决了现有技术中去噪导致的识别较慢、无法去掉所有噪声导致语音识别准确度较低的问题,能够直接提取特征,并将噪声弱化,提高了识别的速度和准确度。
实施例三
参照图3,其示出了一种语音识别装置的结构图,具体如下。
语音帧划分模块301,用于获取目标人物对应的语音文件按照预设帧长划分的多个语音帧。
特征向量生成模块302,用于对于各语音帧,生成所述语音帧的特征向量。
特征中心向量生成模块303,用于对所述各语音帧的特征向量进行聚类,生成特征中心向量。
目标语音特征中心向量生成模块304,用于根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。
综上所述,本发明实施例提供了一种语音识别装置,所述装置包括:语音帧划分模块,用于获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;特征向量生成模块,用于对于各语音帧,生成所述语音帧的特征向量;特征中心向量生成模块,用于对所述各语音帧的特征向量进行聚类,生成特征中心向量;目标语音特征中心向量生成模块,用于根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。解决了现有技术中去噪导致的识别较慢、无法去掉所有噪声导致语音识别准确度较低的问题,能够直接提取特征,并将噪声弱化,提高了识别的速度和准确度。
实施例四
参照图4,其示出了另一种语音识别装置的结构图,具体如下。
语音帧划分模块401,用于获取目标人物对应的语音文件按照预设帧长划分的多个语音帧。
特征向量生成模块402,用于对于各语音帧,生成所述语音帧的特征向量。可选地,在本发明实施例中,上述特征向量生成模块402包括:
梅尔频谱确定子模块4021,用于对于各语音帧,确定所述语音帧的梅尔频谱。
特征向量生成子模块4022,用于根据所述语音帧的梅尔频谱生成所述语音帧的特征向量。
特征中心向量生成模块403,用于对所述各语音帧的特征向量进行聚类,生成特征中心向量。
目标语音特征中心向量生成模块404,用于根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息;可选地,在本发明实施例中,上述目标语音特征中心向量生成模块404包括:
噪声特征中心向量确定子模块4041,用于从所述各语音帧的特征中心向量中确定参考噪声帧的特征中心向量。
第一距离计算子模块4042,用于计算所述参考噪声帧对应的特征中心向量与每个语音帧的特征中心向量的距离。
目标语音特征中心向量生成子模块4043,用于若所述距离大于或等于预设第二距离阈值,则将所述语音帧的特征中心向量拼接至目标语音特征中心向量中。可选地,在本发明的另一种实施例中,上述梅尔频谱确定子模块4021包括:
功率谱确定单元,确定所述语音帧的功率谱。
梅尔频谱计算单元,用于根据所述语音帧的功率谱,计算所述语音帧的梅尔频谱。
梅尔频谱系数计算单元,用于根据所述语音帧的功率谱,计算所述语音帧的离散余弦系数及梅尔频率倒谱系数。
可选地,在本发明的另一种实施例中,上述功率谱确定单元包括:
频谱计算子单元,用于对所述语音帧分别进行傅里叶变换,得到所述语音帧的频谱。
功率谱计算子单元,用于计算所述语音帧的频谱的平方得到所述语音帧的功率谱。
可选地,在本发明的另一种实施例中,上述梅尔频谱计算单元,包括:
梅尔频谱计算子单元,用于通过预设三角带通滤波器对所述语音帧的功率谱进行滤波,得到所述语音帧的梅尔频谱。
可选地,在本发明的另一种实施例中,上述梅尔频谱系数计算单元,包括:
对数域转换子单元,用于对所述语音帧的梅尔频谱转换至对数域,得到所述语音帧的对数域功率谱。
梅尔频谱系数计算子单元,用于对所述语音帧的对数域功率谱进行离散余弦变换,得到所述语音帧的离散余弦系数和梅尔频率倒谱系数,所述梅尔频率倒谱系数从所述离散余弦系数中确定。
可选地,在本发明的另一种实施例中,上述特征向量生成子模块4022,包括:
特征向量拼接单元,用于将所述语音帧的梅尔频谱、离散余弦系数及梅尔频率倒谱系数拼接成为所述语音帧的特征向量。
可选地,在本发明的另一种实施例中,上述装置还包括:
参考语音特征中心向量获取模块,用于获取参考语音特征中心向量,所述参考语音特征中心向量对应预设参考人物。
第二距离计算模块,用于计算所述参考语音特征中心向量与所述目标语音特征中心向量的距离。
第一身份确认模块,用于若所述距离小于预设第一距离阈值,则所述目标人物为所述参考人物。
第二身份确认模块,用于若所述距离大于或等于预设第一距离阈值,则所述目标人物不为所述参考人物。
可选地,在本发明的另一种实施例中,上述对数域转换子单元,用于包括:
功率点获取子单元,用于对于所述语音帧的功率谱上的每个功率点,获取所述功率点的频率和功率。
第一中间值计算子单元,用于将所述功率点对应的频率除以预设第一转换参数,得到第一中间值。
第二中间值计算子单元,用于将所述第一中间值加上预设第二转换参数,得到第二中间值。
第三中间值计算子单元,用于对所述第二中间值取对数,得到第三中间值。
对数转换值计算子单元,用于计算所述第三中间值与预设第三转换参数的乘积,得到对数转换值。
对数域功率谱生成子单元,用于对于所述语音帧,各功率点的对数转换值和所述功率组成对数功率谱。
综上所述,本发明实施例提供了一种语音识别装置,所述装置包括:语音帧划分模块,用于获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;特征向量生成模块,用于对于各语音帧,生成所述语音帧的特征向量;特征中心向量生成模块,用于对所述各语音帧的特征向量进行聚类,生成特征中心向量;目标语音特征中心向量生成模块,用于根据参考噪声帧的特征中心向量,从所述特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于所述目标人物的身份信息。解决了现有技术中去噪导致的识别较慢、无法去掉所有噪声导致语音识别准确度较低的问题,能够直接提取特征,并将噪声弱化,提高了识别的速度和准确度。
本发明实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述实施例的语音识别方法。
本发明实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的语音识别方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的语音识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种语音识别方法,其特征在于,所述方法包括:
获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;
对于各语音帧,生成所述语音帧的特征向量;
对所述各语音帧的特征向量进行聚类,生成特征中心向量;
根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息;
其中,所述参考噪声帧为多个语音帧中的纯噪声帧或噪声功率超过一定阈值的语音帧;
其中,根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量的步骤,包括:
从所述各语音帧的特征中心向量中确定参考噪声帧的特征中心向量;
计算所述参考噪声帧对应的特征中心向量与每个语音帧的特征中心向量的距离,包括:从各语音帧中选取特征语音帧,计算参考噪声帧对应的特征中心向量与每个特征语音帧的特征中心向量的距离;
若所述距离大于或等于预设第二距离阈值,则将特征语音帧的特征中心向量拼接至目标语音特征中心向量中。
2.根据权利要求1所述的方法,其特征在于,还包括,根据所述目标语音特征中心向量确定所述目标人物的身份信息,所述根据所述目标语音特征中心向量确定所述目标人物的身份信息的步骤,包括:
获取参考语音特征中心向量,所述参考语音特征中心向量对应预设参考人物;
计算所述参考语音特征中心向量与所述目标语音特征中心向量的距离;
若所述距离小于预设第一距离阈值,则所述目标人物为所述参考人物;
若所述距离大于或等于预设第一距离阈值,则所述目标人物不为所述参考人物。
3.根据权利要求1所述的方法,其特征在于,所述生成所述语音帧的特征向量的步骤,包括:
确定所述语音帧的梅尔频谱;
根据所述语音帧的梅尔频谱生成所述语音帧的特征向量。
4.根据权利要求3所述的方法,其特征在于,所述确定所述语音帧的梅尔频谱的步骤,包括:
确定所述语音帧的功率谱;
根据所述语音帧的功率谱,计算所述语音帧的梅尔频谱。
5.根据权利要求4所述的方法,其特征在于,在根据所述语音帧的功率谱,计算所述语音帧的梅尔频谱的步骤之后,还包括:
根据所述语音帧的功率谱,计算所述语音帧的离散余弦系数及梅尔频率倒谱系数;
所述根据所述语音帧的梅尔频谱生成所述语音帧的特征向量的步骤,包括:
将所述语音帧的梅尔频谱、离散余弦系数及梅尔频率倒谱系数拼接成为所述语音帧的特征向量。
6.根据权利要求4所述的方法,其特征在于,所述确定所述语音帧的功率谱的步骤,包括:
对所述语音帧分别进行傅里叶变换,得到所述语音帧的频谱;
计算所述语音帧的频谱的平方得到所述语音帧的功率谱。
7.根据权利要求5所述的方法,其特征在于,所述根据所述语音帧的功率谱,计算所述语音帧的梅尔频谱的步骤,包括:
通过预设三角带通滤波器对所述语音帧的功率谱进行滤波,得到所述语音帧的梅尔频谱;
则,所述根据所述语音帧的功率谱,计算所述语音帧的离散余弦系数及梅尔频率倒谱系数的步骤,包括:
对所述语音帧的梅尔频谱转换至对数域,得到所述语音帧的对数域功率谱;
对所述语音帧的对数域功率谱进行离散余弦变换,得到所述语音帧的离散余弦系数和梅尔频率倒谱系数,所述梅尔频率倒谱系数从所述离散余弦系数中确定。
8.根据权利要求7所述的方法,其特征在于,所述对所述语音帧的梅尔频谱转换至对数域,得到所述语音帧的对数域功率谱的步骤,包括:
对于所述语音帧的功率谱上的每个功率点,获取所述功率点的频率和功率;
将所述功率点对应的频率除以预设第一转换参数,得到第一中间值;
将所述第一中间值加上预设第二转换参数,得到第二中间值;
对所述第二中间值取对数,得到第三中间值;
计算所述第三中间值与预设第三转换参数的乘积,得到对数转换值;
对于所述语音帧,各功率点的对数转换值和所述功率组成对数功率谱。
9.一种语音识别装置,其特征在于,所述装置包括:
语音帧划分模块,用于获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;
特征向量生成模块,用于对于各语音帧,生成所述语音帧的特征向量;
特征中心向量生成模块,用于对所述各语音帧的特征向量进行聚类,生成特征中心向量;
目标语音特征中心向量生成模块,用于根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息;
其中,所述参考噪声帧为多个语音帧中的纯噪声帧或噪声功率超过一定阈值的语音帧;
其中,所述目标语音特征中心向量生成模块包括:
噪声特征中心向量确定子模块,用于从所述各语音帧的特征中心向量中确定参考噪声帧的特征中心向量;
第一距离计算子模块,用于计算所述参考噪声帧对应的特征中心向量与每个语音帧的特征中心向量的距离,包括:从各语音帧中选取特征语音帧,计算参考噪声帧对应的特征中心向量与每个特征语音帧的特征中心向量的距离;
目标语音特征中心向量生成子模块,用于若所述距离大于或等于预设第二距离阈值,则将特征语音帧的特征中心向量拼接至目标语音特征中心向量中。
10.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中一个或多个所述的语音识别方法。
11.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-8中一个或多个所述的语音识别方法。
CN201810842328.6A 2018-07-27 2018-07-27 语音识别方法、装置、电子设备及可读存储介质 Active CN109147798B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810842328.6A CN109147798B (zh) 2018-07-27 2018-07-27 语音识别方法、装置、电子设备及可读存储介质
PCT/CN2019/098023 WO2020020375A1 (zh) 2018-07-27 2019-07-26 语音处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810842328.6A CN109147798B (zh) 2018-07-27 2018-07-27 语音识别方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN109147798A CN109147798A (zh) 2019-01-04
CN109147798B true CN109147798B (zh) 2023-06-09

Family

ID=64798325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810842328.6A Active CN109147798B (zh) 2018-07-27 2018-07-27 语音识别方法、装置、电子设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN109147798B (zh)
WO (1) WO2020020375A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147798B (zh) * 2018-07-27 2023-06-09 北京三快在线科技有限公司 语音识别方法、装置、电子设备及可读存储介质
CN111128131B (zh) * 2019-12-17 2022-07-01 北京声智科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN111754982A (zh) * 2020-06-19 2020-10-09 平安科技(深圳)有限公司 语音通话的噪声消除方法、装置、电子设备及存储介质
CN112967730B (zh) * 2021-01-29 2024-07-02 北京达佳互联信息技术有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN113707182B (zh) * 2021-09-17 2024-06-25 北京声智科技有限公司 声纹识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485781A (zh) * 2016-09-30 2017-03-08 广州博进信息技术有限公司 基于实时视频流的三维场景构建方法及其***
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
KR20180046062A (ko) * 2016-10-27 2018-05-08 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
CN108281146A (zh) * 2017-12-29 2018-07-13 青岛真时科技有限公司 一种短语音说话人识别方法和装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100878A (ja) * 1984-10-23 1986-05-19 Nec Corp パタン認識装置
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
JPH1091186A (ja) * 1997-10-28 1998-04-10 Matsushita Electric Ind Co Ltd 音声認識方法
DE60231617D1 (de) * 2001-06-19 2009-04-30 Speech Sentinel Ltd Sprecherverifikation
CN1540623A (zh) * 2003-11-04 2004-10-27 清华大学 一种门限自适应的语音检测***
RU2385272C1 (ru) * 2009-04-30 2010-03-27 Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" Система голосовой идентификации диктора
CN102024455B (zh) * 2009-09-10 2014-09-17 索尼株式会社 说话人识别***及其方法
CN102201236B (zh) * 2011-04-06 2012-12-19 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN102509547B (zh) * 2011-12-29 2013-06-19 辽宁工业大学 基于矢量量化的声纹识别方法及***
CN102723081B (zh) * 2012-05-30 2014-05-21 无锡百互科技有限公司 语音信号处理方法、语音和声纹识别方法及其装置
US9368116B2 (en) * 2012-09-07 2016-06-14 Verint Systems Ltd. Speaker separation in diarization
US9892731B2 (en) * 2015-09-28 2018-02-13 Trausti Thor Kristjansson Methods for speech enhancement and speech recognition using neural networks
CN106971714A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种应用于机器人的语音去噪识别方法及装置
CN106531195B (zh) * 2016-11-08 2019-09-27 北京理工大学 一种对话冲突检测方法及装置
CN108257606A (zh) * 2018-01-15 2018-07-06 江南大学 一种基于自适应并行模型组合的鲁棒语音身份识别方法
CN109147798B (zh) * 2018-07-27 2023-06-09 北京三快在线科技有限公司 语音识别方法、装置、电子设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485781A (zh) * 2016-09-30 2017-03-08 广州博进信息技术有限公司 基于实时视频流的三维场景构建方法及其***
KR20180046062A (ko) * 2016-10-27 2018-05-08 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN108281146A (zh) * 2017-12-29 2018-07-13 青岛真时科技有限公司 一种短语音说话人识别方法和装置

Also Published As

Publication number Publication date
CN109147798A (zh) 2019-01-04
WO2020020375A1 (zh) 2020-01-30

Similar Documents

Publication Publication Date Title
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
KR102635469B1 (ko) 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치
EP2695160B1 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
CN111816218A (zh) 语音端点检测方法、装置、设备及存储介质
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN109036460A (zh) 基于多模型神经网络的语音处理方法和装置
CN110942766A (zh) 音频事件检测方法、***、移动终端及存储介质
CN108847253B (zh) 车辆型号识别方法、装置、计算机设备及存储介质
CN113205803B (zh) 一种具有自适应降噪能力的语音识别方法及装置
CN113646833A (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN112530410A (zh) 一种命令词识别方法及设备
CN110136726A (zh) 一种语音性别的估计方法、装置、***及存储介质
CN112466276A (zh) 一种语音合成***训练方法、装置以及可读存储介质
CN111968651A (zh) 一种基于wt的声纹识别方法及***
JP7184236B2 (ja) 声紋を認識する方法、装置、設備、および記憶媒体
CN110875037A (zh) 语音数据处理方法、装置及电子设备
CN111341327A (zh) 一种基于粒子群算法的说话人语音识别方法、装置和设备
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质
Uhle et al. Speech enhancement of movie sound
TWI749547B (zh) 應用深度學習的語音增強系統
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Ghiurcau et al. About classifying sounds in protected environments
CN113380244A (zh) 一种设备播放音量的智能调节方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant