CN110706710A - 一种语音识别方法、装置、电子设备及存储介质 - Google Patents

一种语音识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110706710A
CN110706710A CN201810663096.8A CN201810663096A CN110706710A CN 110706710 A CN110706710 A CN 110706710A CN 201810663096 A CN201810663096 A CN 201810663096A CN 110706710 A CN110706710 A CN 110706710A
Authority
CN
China
Prior art keywords
recognition
voice
neural network
speaker
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810663096.8A
Other languages
English (en)
Inventor
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Potevio Information Technology Co Ltd
Putian Information Technology Co Ltd
Original Assignee
Putian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Putian Information Technology Co Ltd filed Critical Putian Information Technology Co Ltd
Priority to CN201810663096.8A priority Critical patent/CN110706710A/zh
Publication of CN110706710A publication Critical patent/CN110706710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种语音识别方法、装置、电子设备及存储介质,所述方法包括:获取待识别语音数据;根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。本发明实施例提高了神经网络识别模型对待识别语音进行识别时的准确率。

Description

一种语音识别方法、装置、电子设备及存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
在现阶段的语音识别模型中,是将音频文件整体作为输入,然后经卷积神经网络(Convolutional Neural Network,CNN)层提取音频特征,然后通过双向长短时记忆(bidirectional long short-term memory,BLSTM)和前瞻CNN层进行学习,通过全连接层进行降维,最后用连接时间分类(Connectionist temporal classification,CTC)层解码,得到最终的识别文字。
但是,现阶段的语音识别模型的泛化能力依赖于语音语料库中足够多的说话人,通常语音语料库时长在10000小时以上才能保证足够的泛化能力,否则会降低对语音进行文字识别时的准确率。
综上所述,现有技术中在通过语音识别模型对语音进行文字识别时,存在语音识别准确率较低的问题。
发明内容
本发明实施例提供一种语音识别方法、装置、电子设备及存储介质,以解决现有技术中在通过语音识别模型对语音进行文字识别时,语音识别准确率较低的问题。
针对上述问题,第一方面,本发明实施例提供一种语音识别方法,所述方法包括:
获取待识别语音数据;
根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,
所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。
第二方面,本发明实施例还提供一种语音识别装置,所述装置包括:
获取模块,用于获取待识别语音数据;
识别模块,用于根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,
所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的语音识别方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的语音识别方法的步骤。
本发明实施例提供的语音识别方法、装置、电子设备及存储介质,通过获取待识别语音数据,并根据对预设语音预料库中语音的说话人的识别率小于或等于预设阈值的神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字,由于神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,降低了神经网络识别模型所受到的说话人口音等相关因素的影响,从而提高了神经网络识别模型对待识别语音进行识别时的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1表示本发明实施例中语音识别方法的步骤流程图;
图2表示本发明实施例中建立并训练得到神经网络识别模型的步骤流程图;
图3表示本发明实施例中神经网络训练模型的模块框图;
图4表示本发明实施例中语音识别装置的模块框图;
图5表示本发明实施例中电子设备的模块框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例中语音识别方法的步骤流程图,该方法包括如下步骤:
步骤101:获取待识别语音数据。
在本步骤中,具体的,待识别语音数据可以为音频文件。
例如,该待识别语音数据可以为WAV格式的原始音频文件。当然,在此需要说明的是,在此并不具体限定该待识别语音数据。
步骤102:根据预先训练得到的神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字。
在本步骤中,具体的,预先训练得到的神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。这样使得神经网络识别模型对语音的识别不会受到说话人的口音等相关因素的影响,即使得神经网络识别模型具有与说话人不相关的特性,从而保证了神经网络识别模型对语音的识别准确率。
此外,具体的,预设阈值的设定可以根据实际需求进行设定,例如该预设阈值可以设置为0。当然,在此并不具体限定该预设阈值的数值。
另外,具体的,本步骤根据神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字,此时由于神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,即降低了神经网络识别模型受到说话人口音等相关因素的影响,从而提高了通过该神经网络识别模型对待识别语音数据进行识别时的准确率,保证了所得到的与待识别语音数据对应的识别文字的准确度。
这样,本实施例通过根据对预设语音预料库中语音的说话人的识别率小于或等于预设阈值的神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字,由于神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,降低了神经网络识别模型所受到的说话人口音等相关因素的影响,从而提高了神经网络识别模型对待识别语音进行识别时的准确率。
此外,进一步地,在根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别之前,还需要建立并训练得到所述神经网络识别模型。
其中,如图2所示,建立并训练得到所述神经网络识别模型,包括如下步骤:
步骤201:建立神经网络训练模型,其中神经网络训练模型包括特征学习单元以及分别与特征学习单元连接的语音识别单元和说话人识别单元。
在本步骤中,具体的,在建立并训练得到神经网络识别模型时,可以先建立神经网络训练模型。
具体的,如图3所示,神经网络训练模型可以包括特征学习单元31以及分别与特征学习单元31连接的语音识别单元32和说话人识别单元33。
其中,特征学习单元31用于对输入的语音进行特征提取和学习,语音识别单元32用于对预设语音语料库中的语音进行识别,说话人识别单元33用于对预设语音语料库中语音的说话人进行识别。
此外,具体的,所述特征学习单元31包括相连接的第一卷积神经网络(简称CNN)层和双向长短时记忆(简称BLSTM)层;所述语音识别单元32包括依次相连接的前馈CNN层、全连接层和连接时间分类(简称CTC)层,其中所述BLSTM层连接所述前馈CNN层;所述说话人识别单元33包括依次相连接的第二CNN层、全连接层和Softmax层,其中所述BLSTM层连接所述第二CNN层。
步骤202:将预设语音语料库中的语音作为训练数据输入至特征学习单元,分别由语音识别单元对语音进行识别,得到语音识别结果,由说话人识别单元对语音的说话人进行识别,得到说话人识别结果。
在本步骤中,具体的,预设语音语料库中的语音设置有说话人的标记标签以及语音对应的识别文字的标记标签,即预设语音语料库中的语音所对应的识别文字以及语音的说话人是预先得知且记录的,该记录即分别为识别文字的标记标签和语音的说话人的标记标签。
其中,在建立神经网络训练模型之后,可以将预设语音语料库中的语音作为训练数据输入至所述特征学习单元,分别由与特征学习单元连接的所述语音识别单元对所述语音进行识别,得到所述语音识别单元输出的语音识别结果,由与特征学习单元连接的所述说话人识别单元对所述语音的说话人进行识别,得到所述说话人识别单元输出的说话人识别结果。
具体的,在将预设语音语料库中的语音作为训练数据输入至所述特征学习单元之后,由特征学习单元对该语音进行特征提取和学习,并将学习后得到的向量分别输入至语音识别单元和说话人识别单元,从而使得分别由语音识别单元根据该向量对语音进行识别,由说话人识别单元根据该向量对语音的说话人进行识别。
此外,具体的,特征学习单元包括相连接的第一CNN层和BLSTM层,其中第一CNN层可以对语音进行特征提取,并将提取到的特征输入到BLSTM层进行学习,BLSTM层对提取到的特征进行学习,并得到学习后的向量,此时学习后的向量已经结合了特征的前后音素信息,从而使得对语音的识别结果更加准确。
另外,具体的,语音识别单元包括依次相连接的前馈CNN层、全连接层和CTC层,且BLSTM层连接前馈CNN层。其中,由于前馈CNN层的输入为BLSTM层中对应层的输出与后两步输出的结合,使得前馈CNN层能够进一步结合音素间的联系,进而进一步提高语音的识别准确率;此外,全连接层用于对前馈CNN层输入的向量进行降维处理;另外,全连接层的输出为CTC层的输入,由CTC层对全连接层的输出进行解码,从而得到语音识别结果,即得到语音对应的识别文字。
另外,具体的,说话人识别单元包括依次相连接的第二CNN层、全连接层和Softmax层,其中BLSTM层连接第二CNN层。其中,第二CNN层接收BLSTM层学习后得到的向量,并将该向量输入至第二CNN层,以使第二CNN层进一步提取特征,从而方便对语音的说话人的识别。此外,经过第二CNN层提取特征后,将进一步提取特征后的向量输入至全连接层进行降维处理,以方便Softmax进行处理。具体的,全连接层为矩阵,且矩阵的维度等于第二CNN层输出向量的维度与预设语音语料库中语音的说话人的标记标签数量的乘积。另外,全连接层将降维处理后的向量输入至Softmax层进行说话人判别处理。具体的,Softmax层的作用是将全连接层的数值输出转换为归一化的概率形式的数值,以方便通过Softmax层的输出计算说话人识别单元的损失函数。当然,在此可以选取概率最高的说话人作为说话人识别结果。
步骤203:根据语音识别结果和说话人识别结果,得到神经网络训练模型的损失函数。
在本步骤中,具体的,在得到语音识别结果和说话人识别结果之后,可以根据语音识别结果和说话人识别结果,得到神经网络训练模型的损失函数。
其中,在根据语音识别结果和说话人识别结果,得到神经网络训练模型的损失函数时,可以根据所述语音识别结果,得到所述语音识别单元的损失函数;根据所述说话人识别结果,得到所述说话人识别单元的损失函数;计算所述语音识别单元的损失函数与所述说话人识别单元的损失函数的和值,并将所述和值确定为所述神经网络训练模型的损失函数。
这样,通过将语音识别单元的损失函数与所述说话人识别单元的损失函数的和值确定为所述神经网络训练模型的损失函数,使得在根据神经网络训练模型的损失函数对神经网络训练模型进行优化时,使得神经网络训练模型同时具有较高的语音识别率和较低的说话人识别率,即使得神经网络训练模型能够具有说话人无关的特性,进而提高神经网络训练模型在预设语音预料库中的语音时长较少时的语音识别率。
其中,语音识别单元的损失函数为CTC损失函数。该CTC损失函数用于计算语音识别结果与语音标记标签之间的差别,即该CTC损失函数越小,语音识别结果越准确。
其中,在根据所述说话人识别结果,得到所述说话人识别单元的损失函数时,可以根据所述说话人识别结果,通过下述公式,计算得到所述说话人识别单元的损失函数:
L=y1 log y2+(1-y1)log(1-y2);其中,
L表示所述说话人识别单元的损失函数,y1表示所述预设语音语料库中语音的说话人的标记标签,y2表示预设语音语料库中语音的说话人的识别结果。
具体的,说话人识别单元的损失函数为交叉熵损失函数,当神经网络训练模型准确识别说话人时,该说话人识别单元的损失函数的值较大,从而对网络神经训练模型有一个惩罚作用,进而使得在下一轮迭代时,网络神经训练模型偏向于提取不包含说话人相关信息的特征。
这样,使得神经网络训练模型在经过多轮训练后,能够在具有较高语音识别准确性的同时,具有说话人无关的特性,从而使得神经网络训练模型在预设语音预料库中的语音时长较少时仍然具备较高的泛化能力。
步骤204:根据损失函数,对神经网络训练模型进行优化训练,得到优化训练后的神经网络训练模型,其中优化训练后的神经网络训练模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值。
在本步骤中,具体的,在得到神经网络训练模型的损失函数之后,可以根据损失函数,对神经网络训练模型进行优化训练,得到优化训练后的神经网络训练模型,其中优化训练后的神经网络训练模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值。
当然,在此需要说明的是,经过优化训练后的神经网络训练模型对预设语音语料库中语音的识别率高于预设识别率。
这样,通过根据神经网络训练模型的损失函数,对神经网络训练模型进行反复优化训练,使得经过优化训练的神经网络训练模型不仅具有较高的语音识别率,还具有较低的说话人识别率,进而保证了根据神经网络训练模型得到的神经网络识别模型对语音的识别率。
步骤205:将优化训练后的神经网络训练模型中的特征学习单元和语音识别单元建立为模型,并将模型确定为神经网络识别模型。
在本步骤中,具体的,可以将优化训练后的神经网络训练模型中的特征学习单元和语音识别单元建立为模型,并将模型确定为神经网络识别模型。
这样,由于优化训练后的神经网络训练模型同时具有较高的语音识别率和较低的说话人识别率,从而使得由神经网络训练模型中的特征学习单元和语音识别单元建立得到的模型同样具有较高的语音识别率和较低的说话人识别率,进而保证了神经网络识别模型对语音的识别率。
这样,本实施例通过根据对预设语音预料库中语音的说话人的识别率小于或等于预设阈值的神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字,由于神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,降低了神经网络识别模型所受到的说话人口音等相关因素的影响,从而提高了神经网络识别模型对待识别语音进行识别时的准确率。
此外,如图4所示,为本发明实施例中语音识别装置,所述装置包括:
获取模块401,用于获取待识别语音数据;
识别模块402,用于根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,
所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。
本发明实施例提供的语音识别装置,通过获取模块401获取待识别语音数据,通过识别模块402根据预先训练得到的神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字,其中,神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,预设语音语料库用于训练得到神经网络识别模型,由于神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,降低了神经网络识别模型所受到的说话人口音等相关因素的影响,从而提高了神经网络识别模型对待识别语音进行识别时的准确率。
可选地,所述装置还包括:
模型训练模块,用于建立并训练得到所述神经网络识别模型;其中,
所述模型训练模块包括:
建立单元,用于建立神经网络训练模型,其中所述神经网络训练模型包括特征学习单元以及分别与所述特征学习单元连接的语音识别单元和说话人识别单元;
第一获取单元,用于将预设语音语料库中的语音作为训练数据输入至所述特征学习单元,分别由所述语音识别单元对所述语音进行识别,得到语音识别结果,由所述说话人识别单元对所述语音的说话人进行识别,得到说话人识别结果;
第二获取单元,用于根据所述语音识别结果和所述说话人识别结果,得到所述神经网络训练模型的损失函数;
第三获取单元,用于根据所述损失函数,对所述神经网络训练模型进行优化训练,得到优化训练后的神经网络训练模型,其中所述优化训练后的神经网络训练模型对所述预设语音语料库中语音的说话人的识别率小于或等于预设阈值;
确定单元,用于将优化训练后的神经网络训练模型中的特征学习单元和语音识别单元建立为模型,并将所述模型确定为神经网络识别模型。
可选地,所述特征学习单元包括相连接的第一卷积神经网络CNN层和双向长短时记忆BLSTM层;
所述语音识别单元包括依次相连接的前馈CNN层、全连接层和连接时间分类CTC层,其中所述BLSTM层连接所述前馈CNN层;
所述说话人识别单元包括依次相连接的第二CNN层、全连接层和Softmax层,其中所述BLSTM层连接所述第二CNN层。
可选地,所述第二获取单元包括:
第一获取子单元,用于根据所述语音识别结果,得到所述语音识别单元的损失函数;
第二获取子单元,用于根据所述说话人识别结果,得到所述说话人识别单元的损失函数;
计算子单元,用于计算所述语音识别单元的损失函数与所述说话人识别单元的损失函数的和值,并将所述和值确定为所述神经网络训练模型的损失函数。
可选地,所述语音识别单元的损失函数为CTC损失函数。
可选地,所述第二获取子单元用于,根据所述说话人识别结果,通过下述公式,计算得到所述说话人识别单元的损失函数;
L=y1 log y2+(1-y1)log(1-y2);其中,
L表示所述说话人识别单元的损失函数,y1表示所述预设语音语料库中语音的说话人的标记标签,y2表示预设语音语料库中语音的说话人的识别结果。
本发明实施例提供的语音识别装置,通过根据对预设语音预料库中语音的说话人的识别率小于或等于预设阈值的神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字,由于神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,降低了神经网络识别模型所受到的说话人口音等相关因素的影响,从而提高了神经网络识别模型对待识别语音进行识别时的准确率。
在此需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块,并能达到相同的技术效果,在此不在进行赘述。
在本发明的又一实施例中,提供了一种电子设备,如图5所示,所述电子设备包括存储器(memory)501、处理器(processor)502以及存储在存储器501上并可在处理器502上运行的计算机程序。其中,所述存储器501、处理器502通过总线503完成相互间的通信。所述处理器502用于调用所述存储器501中的程序指令,以执行如下方法:获取待识别语音数据;根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。
本发明实施例提供的电子设备,可执行语音识别方法中的具体步骤,并能够达到相同的技术效果,在此不再对此进行具体介绍。
此外,上述的存储器501中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的又一实施例中,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以执行如下方法:获取待识别语音数据;根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。
本发明实施例提供的非暂态计算机可读存储介质,可执行语音识别方法中的具体步骤,并能够达到相同的技术效果,在此不再对此进行具体介绍。
在本发明的又一实施例中,提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时以执行如下方法:获取待识别语音数据;根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。
本发明实施例提供的计算机程序产品,可执行语音识别方法中的具体步骤,并能够达到相同的技术效果,在此不再对此进行具体介绍。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音数据;
根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,
所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。
2.根据权利要求1所述的方法,其特征在于,所述根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别之前,所述方法还包括:
建立并训练得到所述神经网络识别模型;其中,
所述建立并训练得到所述神经网络识别模型,包括:
建立神经网络训练模型,其中所述神经网络训练模型包括特征学习单元以及分别与所述特征学习单元连接的语音识别单元和说话人识别单元;
将预设语音语料库中的语音作为训练数据输入至所述特征学习单元,分别由所述语音识别单元对所述语音进行识别,得到语音识别结果,由所述说话人识别单元对所述语音的说话人进行识别,得到说话人识别结果;
根据所述语音识别结果和所述说话人识别结果,得到所述神经网络训练模型的损失函数;
根据所述损失函数,对所述神经网络训练模型进行优化训练,得到优化训练后的神经网络训练模型,其中所述优化训练后的神经网络训练模型对所述预设语音语料库中语音的说话人的识别率小于或等于预设阈值;
将优化训练后的神经网络训练模型中的特征学习单元和语音识别单元建立为模型,并将所述模型确定为神经网络识别模型。
3.根据权利要求2所述的方法,其特征在于,所述特征学习单元包括相连接的第一卷积神经网络CNN层和双向长短时记忆BLSTM层;
所述语音识别单元包括依次相连接的前馈CNN层、全连接层和连接时间分类CTC层,其中所述BLSTM层连接所述前馈CNN层;
所述说话人识别单元包括依次相连接的第二CNN层、全连接层和Softmax层,其中所述BLSTM层连接所述第二CNN层。
4.根据权利要求2所述的方法,其特征在于,所述根据所述语音识别结果和所述说话人识别结果,得到所述神经网络训练模型的损失函数,包括:
根据所述语音识别结果,得到所述语音识别单元的损失函数;
根据所述说话人识别结果,得到所述说话人识别单元的损失函数;
计算所述语音识别单元的损失函数与所述说话人识别单元的损失函数的和值,并将所述和值确定为所述神经网络训练模型的损失函数。
5.根据权利要求4所述的方法,其特征在于,所述语音识别单元的损失函数为CTC损失函数。
6.根据权利要求4所述的方法,其特征在于,所述根据所述说话人识别结果,得到所述说话人识别单元的损失函数,包括:
根据所述说话人识别结果,通过下述公式,计算得到所述说话人识别单元的损失函数;
L=y1logy2+(1-y1)log(1-y2);其中,
L表示所述说话人识别单元的损失函数,y1表示所述预设语音语料库中语音的说话人的标记标签,y2表示预设语音语料库中语音的说话人的识别结果。
7.一种语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别语音数据;
识别模块,用于根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,
所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的语音识别方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的语音识别方法的步骤。
CN201810663096.8A 2018-06-25 2018-06-25 一种语音识别方法、装置、电子设备及存储介质 Pending CN110706710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810663096.8A CN110706710A (zh) 2018-06-25 2018-06-25 一种语音识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810663096.8A CN110706710A (zh) 2018-06-25 2018-06-25 一种语音识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110706710A true CN110706710A (zh) 2020-01-17

Family

ID=69192641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810663096.8A Pending CN110706710A (zh) 2018-06-25 2018-06-25 一种语音识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110706710A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354345A (zh) * 2020-03-11 2020-06-30 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN111540367A (zh) * 2020-04-17 2020-08-14 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
CN111599351A (zh) * 2020-04-30 2020-08-28 厦门快商通科技股份有限公司 一种语音识别方法和装置以及设备
WO2021212985A1 (zh) * 2020-04-21 2021-10-28 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241092A (ja) * 1995-03-03 1996-09-17 Nippon Telegr & Teleph Corp <Ntt> 音響モデルの話者適応化方法とその装置
CN1441947A (zh) * 2000-07-13 2003-09-10 高通股份有限公司 用于与说话者无关的话音识别***的构造话音模板的方法和设备
US20060085186A1 (en) * 2004-10-19 2006-04-20 Ma Changxue C Tailored speaker-independent voice recognition system
CN105869641A (zh) * 2015-01-22 2016-08-17 佳能株式会社 语音识别装置及语音识别方法
CN106531157A (zh) * 2016-10-28 2017-03-22 中国科学院自动化研究所 语音识别中的正则化口音自适应方法
CN107316638A (zh) * 2017-06-28 2017-11-03 北京粉笔未来科技有限公司 一种诗词背诵评测方法及***、一种终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241092A (ja) * 1995-03-03 1996-09-17 Nippon Telegr & Teleph Corp <Ntt> 音響モデルの話者適応化方法とその装置
CN1441947A (zh) * 2000-07-13 2003-09-10 高通股份有限公司 用于与说话者无关的话音识别***的构造话音模板的方法和设备
US20060085186A1 (en) * 2004-10-19 2006-04-20 Ma Changxue C Tailored speaker-independent voice recognition system
CN105869641A (zh) * 2015-01-22 2016-08-17 佳能株式会社 语音识别装置及语音识别方法
CN106531157A (zh) * 2016-10-28 2017-03-22 中国科学院自动化研究所 语音识别中的正则化口音自适应方法
CN107316638A (zh) * 2017-06-28 2017-11-03 北京粉笔未来科技有限公司 一种诗词背诵评测方法及***、一种终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王志荣等: "《人工神经网络语音识别》", 《全国第十一次微计算机学术交流会》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354345A (zh) * 2020-03-11 2020-06-30 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN111540367A (zh) * 2020-04-17 2020-08-14 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
CN111540367B (zh) * 2020-04-17 2023-03-31 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
WO2021212985A1 (zh) * 2020-04-21 2021-10-28 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
CN111599351A (zh) * 2020-04-30 2020-08-28 厦门快商通科技股份有限公司 一种语音识别方法和装置以及设备

Similar Documents

Publication Publication Date Title
CN110287283B (zh) 意图模型训练方法、意图识别方法、装置、设备及介质
CN108305643B (zh) 情感信息的确定方法和装置
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN109273007B (zh) 语音唤醒方法及装置
CN108766415B (zh) 一种语音测评方法
CN110706710A (zh) 一种语音识别方法、装置、电子设备及存储介质
CN111081279A (zh) 语音情绪波动分析方法及装置
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
CN112397056B (zh) 语音评测方法及计算机存储介质
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN112017694B (zh) 语音数据的评测方法和装置、存储介质和电子装置
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN111445898A (zh) 语种识别方法、装置、电子设备和存储介质
CN114708854A (zh) 语音识别方法、装置、电子设备和存储介质
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN113486970B (zh) 阅读能力评测方法及装置
CN112151019A (zh) 文本处理方法、装置及计算设备
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
CN111400489A (zh) 对话文本摘要生成方法、装置、电子设备和存储介质
CN112863518B (zh) 一种语音数据主题识别的方法及装置
CN113053409B (zh) 音频测评方法及装置
CN113539247B (zh) 语音数据处理方法、装置、设备及计算机可读存储介质
US8600750B2 (en) Speaker-cluster dependent speaker recognition (speaker-type automated speech recognition)
CN115238068A (zh) 语音转录文本聚类方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200117

WD01 Invention patent application deemed withdrawn after publication