CN114360502A - 语音识别模型的处理方法、语音识别方法及装置 - Google Patents
语音识别模型的处理方法、语音识别方法及装置 Download PDFInfo
- Publication number
- CN114360502A CN114360502A CN202111292319.2A CN202111292319A CN114360502A CN 114360502 A CN114360502 A CN 114360502A CN 202111292319 A CN202111292319 A CN 202111292319A CN 114360502 A CN114360502 A CN 114360502A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- character sequence
- semantic
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及一种语音识别模型的处理方法、语音识别方法及装置。上述方法涉及人工智能领域的语音识别技术,包括:通过语音识别模型得到样本信号对应的语音特征,以及基于语音特征输出的第一预测字符序列;将标注字符序列对应的前向字符序列输入解码器,前向字符序列是基于标注字符序列中各字符的前一字符生成的;在解码器中,根据前向字符序列对应的语义特征对语音特征进行解码获得语音语义联合特征,基于语音语义联合特征获得第二预测字符序列;基于根据标注字符序列与第一预测字符序列计算的语音识别损失,以及根据标注字符序列与第二预测字符序列计算的语义识别损失,联合训练语音识别模型与解码器。采用本方法能够提升语音识别准确率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音识别模型的处理方法、语音识别方法及装置。
背景技术
随着计算机技术与人工智能技术的发展,在很多场景中需要进行语音识别,例如虚拟机器人交互场景、智能设备控制场景、机器翻译场景、语音消息的文本转换场景等。例如,终端通过终端上安装的虚拟机器人程序接收用户输入的语音信号,对语音信号进行语音识别获得语音识别结果,基于语音识别结果执行相应的操作。再例如,智能设备上安装有语音控制客户端,智能设备通过语音控制客户端接收用户输入的语音信号,对语音信号进行语音识别获得语音识别结果,基于语音识别结果获得控制指令,进而执行相应的操作。
目前,非自回归语音识别模型由于语音识别速度快等优势,获得了广泛的应用。但是,非自回归语音识别模型,仅利用了语音信号在语音层次上的信息,存在识别准确率低的缺点。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升语音识别准确率的语音识别模型的处理方法、语音识别方法及装置。
一种语音识别模型的处理方法,所述方法包括:
获取样本信号及对应的标注字符序列;
将所述样本信号输入语音识别模型,得到所述样本信号对应的语音特征,以及基于所述语音特征输出的第一预测字符序列;
将所述标注字符序列对应的前向字符序列输入解码器,所述前向字符序列是基于所述标注字符序列中各字符的前一字符生成的;
在所述解码器中,根据所述前向字符序列对应的语义特征对所述语音特征进行解码,获得所述样本信号对应的语音语义联合特征,并基于所述语音语义联合特征进行预测,得到所述样本信号对应的第二预测字符序列;
基于根据所述标注字符序列与所述第一预测字符序列计算的语音识别损失,以及根据所述标注字符序列与所述第二预测字符序列计算的语义识别损失,联合训练所述语音识别模型与所述解码器。
一种语音识别模型的处理装置,所述装置包括:
获取模块,用于获取样本信号及对应的标注字符序列;
编码模块,用于将所述样本信号输入语音识别模型,得到所述样本信号对应的语音特征,以及基于所述语音特征输出的第一预测字符序列;
输入模块,用于将所述标注字符序列对应的前向字符序列输入解码器,所述前向字符序列是基于所述标注字符序列中各字符的前一字符生成的;
解码模块,用于在所述解码器中,根据所述前向字符序列对应的语义特征对所述语音特征进行解码,获得所述样本信号对应的语音语义联合特征,并基于所述语音语义联合特征进行预测,得到所述样本信号对应的第二预测字符序列;
训练模块,用于基于根据所述标注字符序列与所述第一预测字符序列计算的语音识别损失,以及根据所述标注字符序列与所述第二预测字符序列计算的语义识别损失,联合训练所述语音识别模型与所述解码器。
在一个实施例中,所述编码模块还用于:将所述样本信号输入所述语音识别模型;通过所述语音识别模型的编码器输出所述样本信号对应的语音特征;通过所述语音识别模型中与所述编码器连接的分类器,基于所述语音特征输出所述第一预测字符序列。
在一个实施例中,所述编码器包括特征提取网络与基于自注意力的语音上下文网络;所述编码模块还用于:将所述样本信号输入所述编码器,得到由所述编码器中的特征提取网络输出的与所述样本信号对应的语音向量序列;对所述语音向量序列中的语音向量进行随机遮掩处理;将遮掩处理后的语音向量序列输入所述语音上下文网络,得到由所述语音上下文网络输出的上下文语音特征,作为所述样本信号对应的语音特征。
在一个实施例中,所述解码器包括向量化层、基于自注意力的语义上下文网络与基于交叉注意力的语音语义上下文网络;所述解码模块还用于:通过所述解码器的向量化层,将所述前向字符序列转化为对应的前向字符向量序列,将所述前向字符向量序列输入所述语义上下文网络;通过所述语义上下文网络,基于所述前向字符向量序列,计算所述前向字符序列对应的上下文语义特征,作为所述前向字符序列对应的语义特征;通过所述语音语义上下文网络,基于所述前向字符序列对应的语义特征与所述语音特征,计算得到所述样本信号对应的语音语义联合特征。
在一个实施例中,所述解码模块还用于:将所述语音语义联合特征输入所述解码器的分类器;通过所述分类器基于所述语音语义联合特征,输出所述样本信号对应的第二预测字符序列。
在一个实施例中,所述语音识别模型包括编码器和与所述编码器相连接的分类器;所述编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;所述训练模块还用于:根据所述语音识别损失和所述语义识别损失,对所述解码器和所述语音识别模型的分类器进行监督训练;当满足监督训练停止条件时,根据所述语音识别损失和所述语义识别损失,对所述解码器和所述语音识别模型进行监督训练。
在一个实施例中,所述编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;所述语音识别模型还包括预训练模块,所述预训练模块用于:获取所述无标注样本信号;将所述无标注样本信号输入初始编码器,得到由所述初始编码器中的特征提取网络输出的与所述无标注样本信号对应的语音向量序列;对所述语音向量序列执行量化操作,得到语音量化向量序列;对所述语音向量序列中的语音向量进行随机遮掩处理后,确定遮掩语音向量;将遮掩处理后的语音向量序列,输入所述初始编码器的语音上下文网络,得到由所述语音上下文网络输出的与所述遮掩语音向量对应的预测语音向量;基于所述语音量化向量序列中与所述遮掩语音向量对应的语音量化向量,与所述预测语音向量之间的差异,构建自监督训练损失;根据所述自监督训练损失更新所述初始编码器的网络参数后,返回所述获取所述无标注样本信号的步骤继续训练,直至训练结束时,获得所述预训练的编码器。
在一个实施例中,所述训练模块还用于:基于所述标注字符序列与所述第一预测字符序列之间的差异构建所述语音识别损失;基于所述标注字符序列与所述第二预测字符序列之间的差异构建语义识别损失;根据预设的损失加权系数对所述语音识别损失与所述语义识别损失加权求和,获得目标损失;根据所述目标损失联合训练所述语音识别模型与所述解码器。
在一个实施例中,所述语音识别模型的处理装置还包括语音识别模块,所述语音识别模块用于:获取待识别信号;将所述待识别信号输入训练好的语音识别模型,得到由所述语音识别模型中的编码器输出的语音特征,以及由所述语音识别模型中的分类器基于所述语音特征输出的语音识别结果。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述语音识别模型的处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述语音识别模型的处理方法的步骤。
一种计算机程序,计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行上述语音识别模型的处理方法的步骤。
上述语音识别模型的处理方法、装置、计算机设备和存储介质,将样本信号输入语音识别模型,得到样本信号对应的语音特征,以及基于语音特征输出的第一预测字符序列,将标注字符序列对应的前向字符序列输入解码器,在解码器中,根据前向字符序列对应的语义特征对语音特征进行解码,获得样本信号对应的语音语义联合特征,由于前向字符序列是基于标注字符序列中各字符的前一字符生成的,因此根据前向字符序列对应的语义特征对编码器输出的语音特征进行解码-编码所获得的语音语义联合特征携带有语义层次的上下文信息,基于语音语义联合特征进行预测得到样本信号对应的第二预测字符序列,根据第二预测字符序列与标注字符序列所构建的语义识别损失辅助语音识别模型进行训练,能够将语义层次的上下文信息蒸馏进语音识别模型,从而提升语音识别模型的识别准确率。
一种语音识别方法,所述方法包括:
获取待识别信号;
将所述待识别信号输入训练好的语音识别模型,得到由所述语音识别模型中的编码器输出的语音特征,以及由所述语音识别模型中的分类器基于所述语音特征输出的语音识别结果;
其中,所述语音识别模型与解码器基于语音识别损失与语义识别损失联合训练得到,所述语音识别损失根据第一预测字符序列与所述样本信号对应的标注字符序列计算得到,所述语义识别损失根据第二预测字符序列与所述标注字符序列计算得到,所述第一预测字符序列基于所述编码器输出的语音特征进行分类后得到的,所述第二预测字符序列是通过所述解码器使用所述标注字符序列对应的前向字符序列所对应的语义特征,对所述语音特征进行解码所获得的语音语义联合特征进行预测得到的,所述前向字符序列是基于所述标注字符序列中各字符的前一字符生成的。
一种语音识别装置,所述装置包括:
获取模块,用于获取待识别信号;
语音识别模块,用于将所述待识别信号输入训练好的语音识别模型,得到由所述语音识别模型中的编码器输出的语音特征,以及由所述语音识别模型中的分类器基于所述语音特征输出的语音识别结果;
其中,所述语音识别模型与解码器基于语音识别损失与语义识别损失联合训练得到,所述语音识别损失根据第一预测字符序列与所述样本信号对应的标注字符序列计算得到,所述语义识别损失根据第二预测字符序列与所述标注字符序列计算得到,所述第一预测字符序列基于所述编码器输出的语音特征进行分类后得到的,所述第二预测字符序列是通过所述解码器使用所述标注字符序列对应的前向字符序列所对应的语义特征,对所述语音特征进行解码所获得的语音语义联合特征进行预测得到的,所述前向字符序列是基于所述标注字符序列中各字符的前一字符生成的。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述语音识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述语音识别方法的步骤。
一种计算机程序,计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行上述语音识别方法的步骤。
上述语音识别方法、装置、计算机设备和存储介质,将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果,由于训练好的语音识别模型能够利用语义层次的上下文信息进行语音识别,因此能够提升语音识别准确率。
附图说明
图1为一个实施例中语音识别模型的处理方法的应用环境图;
图2为一个实施例中语音识别场景的示意图;
图3为一个实施例中语音识别模型的处理方法的流程框图;
图4为一个实施例中通过解码器辅助训练语音识别模型的示意图;
图5为一个实施例中通过编码器获取样本信号对应的语音特征的示意图;
图6为一个实施例中对初始编码器进行自监督预训练的示意图;
图7为另一个实施例中通过解码器辅助训练语音识别模型的示意图;
图8为一个实施例中语音识别模型的处理方法的流程框图;
图9为又一个实施例中通过解码器辅助训练语音识别模型的示意图;
图10为一个实施例中测试结果的示意图;
图11为一个实施例中语音识别方法的流程框图;
图12为一个实施例中语音识别模型的处理装置的结构框图;
图13为一个实施例中语音识别装置的结构框图;
图14为一个实施例中计算机设备的内部结构图;
图15为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的语音识别模型的处理方法和语音识别方法,涉及人工智能(Artificial Intelligence,AI)技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的语音识别模型的处理方法,主要涉及人工智能的机器学习技术(Machine Learning,ML)。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
例如,在本申请实施例中,基于语音识别损失与语义识别损失联合训练语音识别模型与解码器,最终获得用于识别语音信号的语音识别模型。
本申请实施例提供的语音识别方法,主要涉及人工智能的语音技术(SpeechTechnology)。语音技术的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
例如,在本申请实施例中,通过训练好的语音识别模型中的编码器输出待识别信号对应的语音特征,通过训练好的语音识别模型中的分类器基于语音特征输出语音识别结果。
本申请实施例提供的语音识别模型的处理方法和语音识别方法,还可涉及区块链技术。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
例如,在本申请实施例中,服务器可以是区块链网络中的区块链节点,训练好的语音识别模型可以存储在区块链上,将待识别信号上传至区块链的数据区块,以对待识别信号进行语音识别。
本申请提供的语音识别模型的处理方法与语音识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种智能手机、平板电脑、笔记本电脑、台式计算机、便携式可穿戴设备、智能音箱、车载设备等。服务器104可以是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式***,或者提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个实施例中,终端102获取样本信号及对应的标注字符序列,将样本信号及对应的标注字符序列发送给服务器104,服务器104将样本信号输入语音识别模型,得到样本信号对应的语音特征,以及基于语音特征输出的第一预测字符序列;将标注字符序列对应的前向字符序列输入解码器,前向字符序列是基于标注字符序列中各字符的前一字符生成的;在解码器中,根据前向字符序列对应的语义特征对语音特征进行解码,获得样本信号对应的语音语义联合特征,并基于语音语义联合特征进行预测,得到样本信号对应的第二预测字符序列;基于根据标注字符序列与第一预测字符序列计算的语音识别损失,以及根据标注字符序列与第二预测字符序列计算的语义识别损失,联合训练语音识别模型与解码器。
本申请实施例提供的语音识别模型的处理方法,其执行主体可以是本申请实施例提供的语音识别模型的处理装置,或集成了该语音识别模型的处理装置的计算机设备,其中该语音识别模型的处理装置可以采用硬件或软件的方式实现。计算机设备可以是图1中所示的终端102或服务器104。
在一个实施例中,终端102获取待识别信号,将待识别信号发送给服务器104,服务器104将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果;其中,语音识别模型与解码器基于语音识别损失与语义识别损失联合训练得到,语音识别损失根据第一预测字符序列与样本信号对应的标注字符序列计算得到,语义识别损失根据第二预测字符序列与标注字符序列计算得到,第一预测字符序列基于编码器输出的语音特征进行分类后得到的,第二预测字符序列是通过解码器使用标注字符序列对应的前向字符序列所对应的语义特征,对语音特征进行解码所获得的语音语义联合特征进行预测得到的,前向字符序列是基于标注字符序列中各字符的前一字符生成的。
本申请实施例提供的语音识别方法,其执行主体可以是本申请实施例提供的语音识别装置,或集成了该语音识别装置的计算机设备,其中该语音识别装置可以采用硬件或软件的方式实现。计算机设备可以是图1中所示的终端102或者服务器104。
本申请实施例提供的语音识别方法,可应用于语音交互场景,例如虚拟机器人交互场景、智能设备控制场景、机器翻译场景、语音消息的文本转换场景等。语音交互场景中通常涉及语音识别技术和语义识别技术,语音识别技术可将语音信号转化为文字,语义识别技术可识别由语音信号转化得到的文字的意图。本申请训练得到的语音识别模型,具体应用于语音识别技术。
例如,终端上安装有虚拟机器人程序,该虚拟机器人程序的后台服务器存储有本申请训练得到的语音识别模型。终端通过虚拟机器人程序接收用户输入的语音信号,后台服务器存储的语音识别模型识别语音信号对应的文本,终端可基于该文本或该文本的语义识别结果,执行相应的操作。
以车载机器人为例,车载机器人是应用于车载智能座舱场景的一种社交机器人,属于服务机器人的一种。车载机器人可响应于车内用户的输入语音,提供相应的服务,例如播放音乐/电台/新闻/电子书、导航、查询天气/周边美食、拨打电话、互动聊天等。
参照图2,车载机器人的语音识别***可包括声学前端模块、云端语音识别模块、离线语音识别模块、离线/云端语义识别模块等。其中,声学前端模块用于提供语音降噪、声源定位、回声消除等功能。离线语音识别模块用于提供固定唤醒词唤醒、定制唤醒词唤醒和离线语音识别等功能。云端语音识别模块可包括语音识别模型,语音识别模型用于将语音信号识别为文字,可选地,语音识别模型可拆分为声学模型、语言模型和词典、解码器,声学模型用于将语音信号识别为音素,语言模型和词典用于将音素转化为文字,解码器用于结合声学模型、语言模型和词典,进行语音信号到文字的整个搜索过程。离线/云端语义识别模块用于识别由语音信号转化得到的文字的意图。本申请训练得到的语音识别模型,可应用于车载机器人的云端语音识别模块,来提高车载机器人语音识别的准确性。
再例如,智能设备上安装有语音控制客户端,语音控制客户端的后台服务器存储有本申请训练得到的语音识别模型。智能设备通过语音控制客户端接收用户输入的语音信号,后台服务器存储的语音识别模型识别语音信号对应的文本,智能设备可基于该文本或该文本的语义识别结果获得控制指令,进而执行相应的操作。智能设备包括但不限于智能家居设备等。
还例如,终端上安装有翻译客户端,翻译客户端的后台服务器存储有本申请训练得到的语音识别模型。终端通过翻译客户端接收用户输入的语音信号,后台服务器存储的语音识别模型识别语音信号对应的文本,对该文本或该文本的语义识别结果进行翻译,获得翻译结果,终端输出该语音信号对应的翻译结果。
再例如,终端上安装有会话客户端,会话客户端的后台服务器存储有本申请训练得到的语音识别模型。终端通过会话客户端接收用户输入的语音消息,响应于语音消息转换指令,后台服务器存储的语音识别模型识别语音消息对应的文本,终端可基于该文本或该文本的语义识别结果,展示语音消息对应的文本消息。
在一个实施例中,如图3所示,提供了一种语音识别模型的处理方法,本实施例主要以该方法应用于上述图1中的计算机设备(终端102或者服务器104)来举例说明,包括以下步骤:
步骤S302,获取样本信号及对应的标注字符序列。
其中,样本信号是用于训练语音识别模型的语音信号,其具有时序特性。样本信号可以是原始的模拟声音信号,也可以是对原始的模拟声音信号处理后得到的数字信号。语音识别模型是经过训练后具有语音识别能力的声学模型,具体可以是以样本信号作为训练数据,训练得到的用于对语音信号进行音素或文字识别的模型。每个样本信号具有对应的标注字符序列,该标注字符序列可以是音素序列或文字序列。例如样本信号“今日天气好”,标签数据可以是音素序列“bei3jing1 tian1 qi4 hao3”,也可以是文字序列“今日天气好”。
在一个实施例中,语音识别模型可以是基于CTC(Connectionist temporalclassification,时序类分类)的非自回归模型。CTC算法用于解决时序类数据的标注问题。在传统的声学模型训练中,对于每一帧的样本信号,需要知道相应的标注字符才能有效训练,因此在训练之前需要做样本信号的对齐处理,这是一项耗时的工作。而采用CTC损失函数进行训练,无需做样本信号的对齐处理,只需提供样本信号与样本信号对应的标注字符序列即可训练。自回归(Autoregressive Translation,ART)模型在语音识别时需要用已生成的词预测下一个词,虽然具备识别准确率高的特点,但是识别速度慢,而非自回归语音识别模型在语音识别时可以在特定的迭代次数内同时生成预测词,识别速度快,但是识别准确率不如自回归语音识别模型。本申请中,在对语音识别模型训练时引入解码器,通过对语音识别模型与解码器进行联合训练来帮助语音识别模型“学会”语义层次的上下文信息,而在语音识别时,解码器不参与语音识别模型的语音识别过程,从而在提升语音识别模型的识别准确率的同时,不影响语音识别模型的识别速度。
在一个实施例中,计算机设备获取样本信号及对应的标注字符序列,利用样本信号及对应的标注字符序列训练语音识别模型。
步骤S304,将样本信号输入语音识别模型,得到样本信号对应的语音特征,以及基于语音特征输出的第一预测字符序列。
其中,语音特征是描述样本信号在语音层面特性的数据。语音特征可以是向量的形式。比如,将语音信号转换为“[1 0.2 4 0.3 0.10 0.8 0.7 0 0.7 2.1 5.2 0...]”。第一预测字符序列是语音识别模型基于该语音特征,对样本信号进行语音识别得到的预测结果,其可以是音素序列或文字序列。
在一个实施例中,计算机设备将样本信号输入语音识别模型;通过语音识别模型的编码器输出样本信号对应的语音特征;通过语音识别模型中与编码器连接的分类器,基于语音特征输出第一预测字符序列。
在一个实施例中,语音识别模型可包括编码器和分类器,编码器用于对样本信号进行编码,获得样本信号对应的语音特征,分类器用于基于语音特征识别样本信号中每个时段信号对应的字符,输出样本信号对应的第一预测字符序列。
举例说明,参照图4,图4为一个实施例中通过解码器辅助训练语音识别模型的示意图。计算机设备将样本信号输入语音识别模型,通过语音识别模型的编码器输出样本信号对应的语音特征[c1 c2 c3 c4 c5],通过语音识别模型的分类器,基于语音特征[c1 c2c3 c4 c5]输出第一预测字符序列“w1w2w3w4w5”。
在一个实施例中,编码器可采用通用的编码器结构,例如CNN(ConvolutionalNeural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等。分类器也可采用通用的分类器结构,例如线性分类器等。
步骤S306,将标注字符序列对应的前向字符序列输入解码器,前向字符序列是基于标注字符序列中各字符的前一字符生成的。
其中,前向字符序列是基于标注字符序列中各字符的前一字符生成的。例如,标注字符序列L为“今日天气好”,则根据L中每个字符的前一字符,可以得到L对应的前向字符序列为“/今日天气”。具体地,由于L中的首个字符“今”不存在相应的前一字符,故而可以用“/”表示“今”的前一字符,也就得到了L对应的前向字符序列中的首个字符。类似地,L中第二个字符为“日”,其前一字符为“今”,故而得到L对应的前向字符序列中的第二个字符为“今”。以此类推,得到L对应的前向字符序列为“/今日天气”。
步骤S308,在解码器中,根据前向字符序列对应的语义特征对语音特征进行解码,获得样本信号对应的语音语义联合特征,并基于语音语义联合特征进行预测,得到样本信号对应的第二预测字符序列。
其中,第二预测字符序列是解码器基于语音语义联合特征进行语音识别得到的预测结果,其可以是音素序列或文字序列。语音语义联合特征是解码器使用前向字符序列所体现的标注字符序列的上文语义信息,对语音特征进行解码与再次编码后获得的特征。顾名思义,语音语义联合特征既考虑了语音信号在语音层次上的特征,又考虑了语音信息对应的标注字符序列在语义层次上的信息。
在一个实施例中,解码器根据前向字符序列对应的语义特征对编码器输出的语音特征进行解码与再次编码,获得语音语义联合特征,由此语音语义联合特征中携带有语义层次的上下文信息,基于语音语义联合特征预测得到样本信号对应的第二预测字符序列,根据第二预测字符序列与标注字符序列所构建的语义识别损失辅助语音识别模型进行训练,能够将语义层次的上下文信息蒸馏进语音识别模型,帮助语音识别模型缓解独立性假设以及无法利用语义层次的上下文信息的不足,从而提升语音识别模型的识别准确率。
在一个实施例中,计算机设备将标注字符序列对应的前向字符序列输入解码器,在解码器中,获取前向字符序列对应的语义特征,根据前向字符序列对应的语义特征对语音特征进行解码-再次编码,获得语音语义联合特征,基于语音语义联合特征进行预测,得到样本信号对应的第二预测字符序列。
在一个实施例中,解码器可包括向量化层与基于交叉注意力的语音语义上下文网络。向量化层用于获取前向字符序列对应的语义特征。前向字符序列对应的语义特征的特征维度与语音特征的特征维度保持一致。基于交叉注意力的语音语义上下文网络用于对语音特征进行解码,并利用前向字符序列对应的语义特征进行编码,使得获得的语音语义联合特征中携带语义层次的上下文信息。
举例说明,继续参照图4,计算机设备将标注字符序列对应的前向字符序列“/x2x3x4x5”输入解码器402,通过解码器402的向量化层获取前向字符序列对应的语义特征[e1 e2 e3 e4 e5],将语义特征[e1 e2 e3 e4 e5]与编码器提取的语音特征[c1 c2 c3 c4c5]输入解码器402的语音语义上下文网络,通过语音语义上下文网络获得语音语义联合特征[r1 r2 r3 r4 r5],基于语音语义联合特征[r1 r2 r3 r4 r5]进行预测,得到样本信号对应的第二预测字符序列“y1y2y3y4y5”。
步骤S310,基于根据标注字符序列与第一预测字符序列计算的语音识别损失,以及根据标注字符序列与第二预测字符序列计算的语义识别损失,联合训练语音识别模型与解码器。
可以理解,通用的损失函数即满足本申请实施例对语音识别损失与语义识别损失的需求,因此计算机设备可采用通用的损失函数构建语音识别损失与语义识别损失。通用的损失函数例如交叉熵损失函数、余弦相似度损失函数等。
举例说明,继续参照图4,计算机设备通过解码器402获得样本信号对应的第二预测字符序列“y1y2y3y4y5”,语音识别模型的分类器基于语音特征[c1 c2 c3 c4 c5]输出样本信号对应的第一预测字符序列“w1w2w3w4w5”。由此,计算机设备可基于标注字符序列“x1x2x3x4x5”与第一预测字符序列“w1w2w3w4w5”计算语音识别损失,以及根据标注字符序列“x1x2x3x4x5”与第二预测字符序列“y1y2y3y4y5”计算语义识别损失,根据语音识别损失与语义识别损失联合训练语音识别模型与解码器。
在一个实施例中,计算机设备根据预设的损失加权系数对语音识别损失与语义识别损失加权求和,获得目标损失;根据目标损失联合训练语音识别模型与解码器。
在一个实施例中,目标损失是由语音识别损失与语义识别损失组合而成的综合损失函数。目标损失可通过以下公式进行表示:
Lt=λ1Lv+λ2Ls
其中,Lt表示目标损失;Lv表示语音识别损失,λ1表示语音识别损失对应的损失加权系数,例如,λ1可取0.3;Ls表示语义识别损失,λ2表示语义识别损失对应的损失加权系数,例如,λ2可取0.7。
在一个实施例中,计算机设备按照最小化目标损失的方向,基于梯度下降算法获得本次训练对应的梯度,按照梯度更新语音识别模型与解码器的网络参数。梯度下降算法可以是随机梯度下降算法,或者基于随机梯度下降算法优化的算法,比如带动量项的随机梯度下降算法等。
上述语音识别模型的处理方法中,将样本信号输入语音识别模型,得到样本信号对应的语音特征,以及基于语音特征输出的第一预测字符序列,将标注字符序列对应的前向字符序列输入解码器,在解码器中,根据前向字符序列对应的语义特征对语音特征进行解码,获得样本信号对应的语音语义联合特征,由于前向字符序列是基于标注字符序列中各字符的前一字符生成的,因此根据前向字符序列对应的语义特征对编码器输出的语音特征进行解码-编码所获得的语音语义联合特征携带有语义层次的上下文信息,基于语音语义联合特征进行预测得到样本信号对应的第二预测字符序列,根据第二预测字符序列与标注字符序列所构建的语义识别损失辅助语音识别模型进行训练,能够将语义层次的上下文信息蒸馏进语音识别模型,从而提升语音识别模型的识别准确率。
在一个实施例中,编码器包括特征提取网络与基于自注意力的语音上下文网络;通过语音识别模型的编码器输出样本信号对应的语音特征,包括:将样本信号输入编码器,得到由编码器中的特征提取网络输出的与样本信号对应的语音向量序列;对语音向量序列中的语音向量进行随机遮掩处理;将遮掩处理后的语音向量序列输入语音上下文网络,得到由语音上下文网络输出的上下文语音特征,作为样本信号对应的语音特征。
其中,语音向量序列是由语音向量构成的序列,语音向量是指将语音信号映射至高维向量空间得到的结果。
在一个实施例中,计算机设备将样本信号输入编码器,得到由编码器中的特征提取网络输出的与样本信号对应的语音向量序列,语音向量序列中的每个语音向量,是样本信号中各时段的语音信号所对应的语音向量。例如,计算机设备将样本信号划分为t1时段~t5时段的语音信号,将样本信号输入编码器,得到由编码器中的特征提取网络输出的语音向量序列[z1 z2 z3 z4 z5],其中语音向量z1是t1时段的语音信号所对应的语音向量。可以理解,各时段的时长可根据实际应用进行设定,本申请不做具体限定。
在一个实施例中,编码器可包括特征提取网络与基于自注意力的语音上下文网络,特征提取网络用于对样本信号进行特征提取,获得样本信号对应的语音向量序列,基于自注意力的语音上下文网络用于对语音向量序列进行编码,获得样本信号对应的上下文语音特征,基于自注意力的语音上下文网络能够利用上下文信息对语音向量序列进行编码,同时自注意力机制保证了高效的并行效率以及对于长距离信息的直接连接,从而提升语音特征的表征能力。
在一个实施例中,特征提取网络可采用通用的特征提取网络,例如CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等。基于自注意力的语音上下文网络可采用通用的自注意力(self-attention)模型,例如Transformer模型、Conformer模型等。
在一个实施例中,计算机设备对语音向量序列中的语音向量进行随机遮掩处理。可以理解,通用的遮掩处理方式即满足本申请实施例对遮掩处理的需求,因此可采用通用的遮掩处理方式对语音向量序列中的语音向量进行遮掩处理。可选地,计算机设备可通过GELU(Gaussian Error Linerar Units)对语音向量序列中的语音向量进行遮掩处理。
在一个实施例中,计算机设备将遮掩处理后的语音向量序列输入语音上下文网络,通过语音上下文网络分别计算遮掩处理后的语音向量序列中各语音向量对应的自注意力,自注意力能够反映各语音向量在遮掩处理后的语音向量序列中的重要程度;通过前馈神经网络基于各语音向量及其对应的自注意力输出上下文语音特征。
在一个实施例中,计算机设备通过语音上下文网络中的自注意力网络,分别计算遮掩处理后的语音向量序列中各语音向量与遮掩处理后的语音向量序列之间的相似度,对各相似度进行归一化处理,获得遮掩处理后的语音向量序列中各语音向量对应的自注意力。可选地,计算机设备计算遮掩处理后的语音向量序列中各语音向量对应的相似度之和,分别计算遮掩处理后的语音向量序列中各语音向量对应的相似度与相似度之和的比值,作为遮掩处理后的语音向量序列中各语音向量对应的自注意力。
举例说明,参照图5,图5为一个实施例中通过编码器获取样本信号对应的语音特征的示意图。计算机设备将样本信号划分为t1时段~t5时段的语音信号,将样本信号输入编码器502,获得由编码器502中的特征提取网络输出的语音向量序列[z1 z2 z3 z4 z5]。计算机设备对语音向量序列[z1 z2 z3 z4 z5]中的语音向量进行随机遮掩处理,获得遮掩处理后的语音向量序列[*z2*z4*]。计算机设备将遮掩处理后的语音向量序列[*z2*z4*]输入基于自注意力的语音上下文网络504,通过基于自注意力的语音上下文网络504中的自注意力网络,分别计算遮掩处理后的语音向量序列[*z2*z4*]中各语音向量与遮掩处理后的语音向量序列[*z2*z4*]之间的相似度s1、s2、s3、s4、s5,对相似度s1、s2、s3、s4、s5进行归一化处理,获得自注意力p1、p2、p3、p4、p5。计算机设备将自注意力p1、p2、p3、p4、p5及遮掩处理后的语音向量序列[*z2*z4*]中的各语音向量,输入基于自注意力的语音上下文网络504中的前馈神经网络进行编码,获得前馈神经网络输出的上下文语音特征[c1 c2 c3 c4c5]。
本实施例中,编码器包括基于自注意力的语音上下文网络,基于自注意力的语音上下文网络能够利用上下文信息对特征提取网络输出的语音向量序列进行编码,同时自注意力机制保证了高效的并行效率以及对于长距离信息的直接连接,从而提升语音特征的表征能力。
在一个实施例中,编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;该方法还包括:获取无标注样本信号;将无标注样本信号输入初始编码器,得到由初始编码器中的特征提取网络输出的与无标注样本信号对应的语音向量序列;对语音向量序列执行量化操作,得到语音量化向量序列;对语音向量序列中的语音向量进行随机遮掩处理后,确定遮掩语音向量;将遮掩处理后的语音向量序列,输入初始编码器的语音上下文网络,得到由语音上下文网络输出的与遮掩语音向量对应的预测语音向量;基于语音量化向量序列中与遮掩语音向量对应的语音量化向量,与预测语音向量之间的差异,构建自监督训练损失;根据自监督训练损失更新初始编码器的网络参数后,返回获取无标注样本信号的步骤继续训练,直至训练结束时,获得预训练的编码器。
其中,无标注样本信号是用于对编码器进行自监督预训练的语音信号。无标注样本信号没有对应的标注数据。初始编码器是待进行自监督预训练的编码器。
在一个实施例中,计算机设备对语音向量序列执行量化操作,得到语音量化向量序列。量化操作可以是离散化处理,例如乘积量化处理,即迪卡尔积(Cartesian product)。通过量化操作将无限的特征空间坍缩为有限的离散空间,增强了特征的鲁棒性,提高了特征的表征能力。
在一个实施例中,语音量化向量序列中的每个语音向量中,包括样本信号中各时段的语音信号所对应的第一语音向量,而无标注样本信号对应的语音特征中,也包括样本信号中各时段的语音信号所对应的第二语音向量。计算机设备基于相同时段的语音信号所对应的第一语音向量与第二语音向量之间的差异,构建该时段的语音信号对应的语音向量预测损失,融合各时段的语音信号对应的语音向量预测损失得到自监督训练损失。
在一个实施例中,对于t时段的语音信号对应的语音向量预测损失可通过以下公式进行表示:
其中,Lm表示t时段的语音信号对应的语音向量预测损失;qt表示t时段的语音信号对应的第一语音向量;ct表示t时段的语音信号对应的第二语音向量;Qt表示候选语音向量集合,包括qt与k个错误语音向量;表示Qt中的任一错误语音向量;sim(ct,qt)表示ct与qt之间的相关性;表示ct与之间的相关性。
在一个实施例中,计算机设备获取预设的损失加权系数,根据预设的损失加权系数对各时段的语音信号对应的语音向量预测损失加权求和,获得自监督训练损失。
在一个实施例中,当训练次数达到预设次数,或者自监督训练损失计算的损失值小于预设值时,训练结束。
举例说明,参照图6,图6为一个实施例中对初始编码器进行自监督预训练的示意图。计算机设备将无标注样本信号划分为t1时段~t5时段的语音信号,将无标注样本信号输入初始编码器,获得由初始编码器中的特征提取网络输出的语音向量序列[z1 z2 z3 z4z5]。计算机设备对语音向量序列[z1 z2 z3 z4 z5]执行量化操作,得到语音量化向量序列[q1 q2 q3 q4 q5]。计算机设备对语音向量序列[z1 z2 z3 z4 z5]中的语音向量进行随机遮掩处理后,确定遮掩语音向量z1、z3、z5。计算机设备将遮掩处理后的语音向量序列[*z2*z4*]输入基于自注意力的语音上下文网络,通过基于自注意力的语音上下文网络中的自注意力网络,分别计算遮掩处理后的语音向量序列[*z2*z4*]中各语音向量与遮掩处理后的语音向量序列[*z2*z4*]之间的相似度s1、s2、s3、s4、s5,对相似度s1、s2、s3、s4、s5进行归一化处理,获得自注意力p1、p2、p3、p4、p5。计算机设备通过基于自注意力的语音上下文网络中的前馈神经网络,基于自注意力p1、p3、p5预测遮掩语音向量z1、z3、z5对应的预测语音向量c1、c3、c5。计算机设备基于c1与q1之间的差异构建的语音向量预测损失、c3与q3之间的差异构建的语音向量预测损失、c5与q5之间的差异构建的语音向量预测损失训练初始编码器。
本实施例中,对编码器进行自监督预训练,能够提升编码器输出的语音特征的表征能力,进而提升后续的训练效率和训练效果。
在一个实施例中,语音识别模型包括编码器和与编码器相连接的分类器;编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;基于根据标注字符序列与第一预测字符序列计算的语音识别损失,以及根据标注字符序列与第二预测字符序列计算的语义识别损失,联合训练语音识别模型与解码器,包括:根据语音识别损失和语义识别损失,对解码器和语音识别模型的分类器进行监督训练;当满足监督训练停止条件时,根据语音识别损失和语义识别损失,对解码器和语音识别模型进行监督训练。
在一个实施例中,计算机设备预先对编码器进行自监督预训练,在获得预训练的编码器后,先固定编码器的网络参数,根据语音识别损失与语义识别损失对解码器和语音识别模型的分类器的网络参数进行更新,在满足训练停止条件时,根据语音识别损失与语义识别损失对解码器和语音识别模型的网络参数进行更新。
在一个实施例中,解码器包括向量化层、基于自注意力的语义上下文网络与基于交叉注意力的语音语义上下文网络;根据前向字符序列对应的语义特征对语音特征进行解码,获得样本信号对应的语音语义联合特征,包括:通过解码器的向量化层,将前向字符序列转化为对应的前向字符向量序列,将前向字符向量序列输入语义上下文网络;通过语义上下文网络,基于前向字符向量序列,计算前向字符序列对应的上下文语义特征,作为前向字符序列对应的语义特征;通过语音语义上下文网络,基于前向字符序列对应的语义特征与语音特征,计算得到样本信号对应的语音语义联合特征。
在一个实施例中,解码器可包括向量化层、基于自注意力的语义上下文网络与基于交叉注意力的语音语义上下文网络。向量化层用于将前向字符序列转化为向量形式,即前向字符向量序列。基于自注意力的语义上下文网络用于确定前向字符向量序列中各前向字符向量自身的注意力,即各前向字符向量在前向字符向量序列中的重要程度。基于交叉注意力的语音语义上下文网络用于确定前一个字符对于预测下一个字符的注意力贡献,即对于预测下一个字符,前一个字符需要付出多少注意力。
在一个实施例中,计算机设备将前向字符向量序列输入解码器的基于自注意力的语义上下文网络,通过语义上下文网络,分别计算各前向字符向量与前向字符向量序列之间的相似度,对各相似度进行归一化处理,获得各前向字符向量在前向字符向量序列中的自注意力,作为前向字符向量序列的上下文语义特征。可选地,计算机设备计算各相似度之和,分别计算各相似度与相似度之和的比值,作为各前向字符向量在前向字符向量序列中的自注意力。
在一个实施例中,计算机设备将自注意力与编码器提取的语音特征输入解码器的基于交叉注意力的语音语义上下文网络,通过语音语义上下文网络分别计算各前向字符向量对应的自注意力与语音特征之间的相似度,对各相似度进行归一化处理,获得各前向字符向量对应的自注意力在语音特征中的交叉注意力,基于各交叉注意力获得语音语义联合特征。在一个实施例中,计算机设备将自注意力与编码器提取的语音特征输入解码器的基于交叉注意力的语音语义上下文网络,通过语音语义上下文网络中的交叉注意力网络,分别计算各前向字符向量对应的自注意力与语音特征之间的相似度,对各相似度进行归一化处理,获得各前向字符向量对应的自注意力在语音特征中的交叉注意力。可选地,计算机设备计算各相似度之和,分别计算各相似度与相似度之和的比值,作为各前向字符向量对应的自注意力在语音特征中的交叉注意力。
在一个实施例中,计算机设备将各前向字符向量对应的交叉注意力输入语音语义上下文网络中的前馈神经网络进行编码,获得前馈神经网络输出的语音语义联合特征。举例说明,参照图7,图7为一个实施例中通过解码器辅助训练语音识别模型的示意图。计算机设备将前向字符序列“/x2x3x4x5”输入解码器702,通过解码器702的向量化层,将前向字符序列“/x2x3x4x5”转化为对应的前向字符向量序列[e1 e2 e3 e4 e5]。计算机设备将前向字符向量序列[e1 e2 e3 e4 e5]输入解码器702的基于自注意力的语义上下文网络,通过语义上下文网络,分别计算各前向字符向量e1、e2、e3、e4、e5与前向字符向量序列[e1 e2e3 e4 e5]之间的相似度s1、s2、s3、s4、s5,对相似度s1、s2、s3、s4、s5进行归一化处理,获得各前向字符向量在前向字符向量序列中的自注意力o1、o2、o3、o4、o5,作为前向字符向量序列[e1 e2 e3 e4 e5]的上下文语义特征。计算机设备将自注意力o1、o2、o3、o4、o5与编码器提取的语音特征[c1 c2 c3 c4 c5]输入解码器702的基于交叉注意力的语音语义上下文网络704,通过语音语义上下文网络704中的交叉注意力网络,分别计算各自注意力与语音特征之间的相似度s1、s2、s3、s4、s5,对相似度s1、s2、s3、s4、s5进行归一化处理,获得各自注意力o1、o2、o3、o4、o5在语音特征[c1 c2 c3 c4 c5]中的交叉注意力u1、u2、u3、u4、u5。计算机设备将交叉注意力u1、u2、u3、u4、u5输入语音语义上下文网络704中的前馈神经网络进行编码,获得前馈神经网络输出的语音语义联合特征[r1 r2 r3 r4 r5]。
其中,交叉注意力u1、u2、u3、u4、u5用于表示各前向字符向量对于预测该前向字符向量对应的下一个字符的贡献。例如,标注字符序列为“今日天气好”,前向字符序列为“/今日天气”,那么前向字符“今”的前向字符向量所对应的交叉注意力u2,用于表示前向字符“今”对于预测“日”的重要程度。
在一个实施例中,基于语音语义联合特征进行预测,得到样本信号对应的第二预测字符序列,包括:将语音语义联合特征输入解码器的分类器;通过分类器基于语音语义联合特征,输出样本信号对应的第二预测字符序列。
在一个实施例中,解码器可包括向量化层、基于自注意力的语义上下文网络、基于交叉注意力的语音语义上下文网络与分类器,分类器用于基于语音语义联合特征识别样本信号中每个时段信号对应的字符,输出样本信号对应的第二预测字符序列。举例说明,继续参照图7,计算机设备将语音语义联合特征[r1 r2 r3 r4 r5]输入解码器702的分类器,通过分类器基于语音语义联合特征,输出样本信号对应的第二预测字符序列“y1y2y3y4y5”。而语音识别模型的分类器基于语音特征[c1 c2 c3 c4 c5]输出样本信号对应的第一预测字符序列“w1w2w3w4w5”。由此,计算机设备可基于标注字符序列“x1x2x3x4x5”与第一预测字符序列“w1w2w3w4w5”计算的语音识别损失,以及根据标注字符序列“x1x2x3x4x5”与第二预测字符序列“y1y2y3y4y5”计算的语义识别损失,联合训练语音识别模型与解码器702。
本实施例中,解码器包括基于交叉注意力的语音语义上下文网络,基于交叉注意力的语音语义上下文网络能够利用编码器输出的携带语音层次的语音特征,与输入解码器的前向字符向量序列对应的上下文信息,辅助语音识别模型进行训练,从而将语义层次的上下文信息蒸馏进语音识别模型,帮助语音识别模型缓解独立性假设以及无法利用语义层次的上下文信息的不足,进而提升语音识别准确率。
在一个实施例中,该方法还包括:获取待识别信号;将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果。
其中,待识别信号是待通过本申请实施例提供的方法进行语音识别的语音信号。该待识别信号可以是语音交互场景下接收到的语音信号,例如虚拟机器人交互场景、智能设备控制场景、机器翻译场景、语音消息的文本转换场景等。
在一个实施例中,计算机设备获取待识别信号,将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果,该语音识别结果可以是待识别信号对应的音素或文字。
本实施例中,由于训练好的语音识别模型能够利用语义层次的上下文信息进行语音识别,因此能够提升语音识别准确率。
在一个实施例中,参照图8,提供了一种语音识别模型的处理方法,包括以下步骤:
步骤S802,获取无标注样本信号;将无标注样本信号输入初始编码器,得到由初始编码器中的特征提取网络输出的与无标注样本信号对应的语音向量序列;对语音向量序列执行量化操作,得到语音量化向量序列;从语音向量序列的首个语音向量开始,依次对语音向量序列中的语音向量进行遮掩处理;将遮掩处理后的语音向量序列,依次输入初始编码器的语音上下文网络,得到由语音上下文网络输出的上下文语音特征,作为无标注样本信号对应的语音特征;基于语音量化向量序列与无标注样本信号对应的语音特征之间的差异,构建自监督训练损失;根据自监督训练损失更新初始编码器的网络参数后,返回获取无标注样本信号的步骤继续训练,直至训练结束时,获得预训练的编码器。
步骤804,获取样本信号及对应的标注字符序列;将样本信号输入语音识别模型中的预训练的编码器,得到由编码器中的特征提取网络输出的与样本信号对应的语音向量序列;对语音向量序列中的语音向量进行随机遮掩处理;将遮掩处理后的语音向量序列输入语音上下文网络,得到由语音上下文网络输出的上下文语音特征,作为样本信号对应的语音特征;通过语音识别模型中与编码器连接的分类器,基于语音特征输出第一预测字符序列。
步骤806,将标注字符序列对应的前向字符序列输入解码器,前向字符序列是基于标注字符序列中各字符的前一字符生成的;在解码器中,通过解码器的向量化层,将前向字符序列转化为对应的前向字符向量序列,将前向字符向量序列输入语义上下文网络;通过语义上下文网络,基于前向字符向量序列,计算前向字符序列对应的上下文语义特征,作为前向字符序列对应的语义特征;通过语音语义上下文网络,基于前向字符序列对应的语义特征与语音特征,计算得到样本信号对应的语音语义联合特征;将语音语义联合特征输入解码器的分类器;通过分类器基于语音语义联合特征,输出样本信号对应的第二预测字符序列。
步骤808,基于标注字符序列与第一预测字符序列之间的差异构建语音识别损失;基于标注字符序列与第二预测字符序列之间的差异构建语义识别损失;根据预设的损失加权系数对语音识别损失与语义识别损失加权求和,获得目标损失;根据目标损失对解码器和语音识别模型的分类器进行监督训练;当满足监督训练停止条件时,根据目标损失对解码器和语音识别模型进行监督训练。
举例说明,参照图9,图9为一个实施例中通过解码器辅助训练语音识别模型的示意图。计算机设备将样本信号划分为t1时段~t5时段的语音信号,将样本信号输入编码器,获得由编码器中的特征提取网络输出的语音向量序列[z1 z2 z3 z4 z5]。计算机设备对语音向量序列[z1 z2 z3 z4 z5]中的语音向量进行随机遮掩处理,获得遮掩处理后的语音向量序列[*z2*z4*]。计算机设备将遮掩处理后的语音向量序列[*z2*z4*]输入基于自注意力的语音上下文网络,通过基于自注意力的语音上下文网络中的自注意力网络,分别计算遮掩处理后的语音向量序列[*z2*z4*]中各语音向量与遮掩处理后的语音向量序列[*z2*z4*]之间的相似度s1、s2、s3、s4、s5,对相似度s1、s2、s3、s4、s5进行归一化处理,获得自注意力p1、p2、p3、p4、p5。计算机设备将自注意力p1、p2、p3、p4、p5及遮掩处理后的语音向量序列[*z2*z4*]中的各语音向量,输入基于自注意力的语音上下文网络中的前馈神经网络进行编码,获得前馈神经网络输出的上下文语音特征[c1 c2 c3 c4 c5]。计算机设备将前向字符序列“/x2x3x4x5”输入解码器,通过解码器的向量化层,将前向字符序列“/x2x3x4x5”转化为对应的前向字符向量序列[e1 e2 e3 e4 e5]。计算机设备将前向字符向量序列[e1e2 e3 e4 e5]输入解码器的基于自注意力的语义上下文网络,通过语义上下文网络,分别计算各前向字符向量e1、e2、e3、e4、e5与前向字符向量序列[e1 e2 e3 e4 e5]之间的相似度s1、s2、s3、s4、s5,对相似度s1、s2、s3、s4、s5进行归一化处理,获得各前向字符向量在前向字符向量序列中的自注意力o1、o2、o3、o4、o5,作为前向字符向量序列[e1 e2 e3 e4 e5]的上下文语义特征。计算机设备将自注意力o1、o2、o3、o4、o5与编码器提取的语音特征[c1c2 c3 c4 c5]输入解码器的基于交叉注意力的语音语义上下文网络,通过语音语义上下文网络中的交叉注意力网络,分别计算各自注意力与语音特征之间的相似度s1、s2、s3、s4、s5,对相似度s1、s2、s3、s4、s5进行归一化处理,获得各自注意力o1、o2、o3、o4、o5在语音特征[c1 c2 c3 c4 c5]中的交叉注意力u1、u2、u3、u4、u5。计算机设备将交叉注意力u1、u2、u3、u4、u5输入语音语义上下文网络中的前馈神经网络进行编码,获得前馈神经网络输出的语音语义联合特征[r1 r2 r3 r4 r5]。
计算机设备将语音语义联合特征[r1 r2 r3 r4 r5]输入解码器的分类器,通过分类器基于语音语义联合特征,输出样本信号对应的第二预测字符序列“y1y2y3y4y5”。而语音识别模型的分类器基于语音特征[c1 c2 c3 c4 c5]输出样本信号对应的第一预测字符序列“w1w2w3w4w5”。由此,计算机设备可基于标注字符序列“x1x2x3x4x5”与第一预测字符序列“w1w2w3w4w5”计算的语音识别损失,以及根据标注字符序列“x1x2x3x4x5”与第二预测字符序列“y1y2y3y4y5”计算的语义识别损失,联合训练语音识别模型与解码器。
在一个实施例中,基于自注意力的语音上下文网络可以有M层,每一层的结构依次包括:Multi-head Self Attention(多头自注意力)、Add(求和操作)、Norm(归一化操作)、Feed Forward(前馈神经网络)、Add(求和操作)、Norm(归一化操作)。M可取值为12。
在一个实施例中,解码器具体可以依次包括Embedding Layer(向量化层)、与该向量化层连接的N层的中间编码层,其中N层的中间编码层可以依次包括基于自注意力的语义上下文网络、基于交叉注意力的语音语义上下文网络。解码器可以还包括与N层的中间编码层连接的分类器。其中,基于自注意力的语义上下文网络的具体结构依次包括Multi-headSelf_Attention(多头自注意力)、Add(求和操作)、Norm(归一化操作)。基于交叉注意力的语音语义上下文网络的具体结构依次包括Multi-head Cross_Attention(多头交叉注意力)、Add(求和操作)、Norm(归一化操作)、Feed Forward(前馈神经网络)、Add(求和操作)、Norm(归一化操作)。N可取值为6。
上述语音识别模型的处理方法,将样本信号输入语音识别模型,得到样本信号对应的语音特征,以及基于语音特征输出的第一预测字符序列,将标注字符序列对应的前向字符序列输入解码器,在解码器中,根据前向字符序列对应的语义特征对语音特征进行解码,获得样本信号对应的语音语义联合特征,由于前向字符序列是基于标注字符序列中各字符的前一字符生成的,因此根据前向字符序列对应的语义特征对编码器输出的语音特征进行解码-编码所获得的语音语义联合特征携带有语义层次的上下文信息,基于语音语义联合特征进行预测得到样本信号对应的第二预测字符序列,根据第二预测字符序列与标注字符序列所构建的语义识别损失辅助语音识别模型进行训练,能够将语义层次的上下文信息蒸馏进语音识别模型,从而提升语音识别模型的识别准确率。
为了验证本申请实施例提供的方案所产生的效果,通过对比实验进行了测试。本次测试对语音识别模型采用了两种训练方式,一种是联合训练语音识别模型与解码器(以下简称为联合训练方式),另一种是单独训练语音识别模型(以下简称为单独训练方式)。现对两种训练方式的具体实现方式进行介绍。
对于联合训练方式,计算机设备先对语音识别模型的编码器进行自监督预训练,编码器的预训练步骤参照上述步骤S802,在此不再赘述。在获得预训练的编码器后,计算机设备获取样本信号及对应的标注字符序列,将样本信号输入语音识别模型中的预训练的编码器,得到由编码器中的特征提取网络输出的与样本信号对应的语音向量序列;对语音向量序列中的语音向量进行随机遮掩处理,将遮掩处理后的语音向量序列输入语音上下文网络,得到由语音上下文网络输出的上下文语音特征,作为样本信号对应的语音特征;通过语音识别模型中与编码器连接的分类器,基于语音特征输出第一预测字符序列。计算机设备将标注字符序列对应的前向字符序列输入解码器,前向字符序列是基于标注字符序列中各字符的前一字符生成的;在解码器中,通过解码器的向量化层,将前向字符序列转化为对应的前向字符向量序列,将前向字符向量序列输入语义上下文网络,通过语义上下文网络,基于前向字符向量序列,计算前向字符序列对应的上下文语义特征,作为前向字符序列对应的语义特征;通过语音语义上下文网络,基于前向字符序列对应的语义特征与语音特征,计算得到样本信号对应的语音语义联合特征;将语音语义联合特征输入解码器的分类器;通过分类器基于语音语义联合特征,输出样本信号对应的第二预测字符序列;计算机设备基于标注字符序列与第一预测字符序列之间的差异构建语音识别损失,基于标注字符序列与第二预测字符序列之间的差异构建语义识别损失,根据预设的损失加权系数对语音识别损失与语义识别损失加权求和,获得目标损失;根据目标损失对解码器和语音识别模型的分类器进行监督训练,当满足监督训练停止条件时,根据目标损失对解码器和语音识别模型进行监督训练。
对于单独训练方式,计算机设备先对语音识别模型的编码器进行自监督预训练,编码器的预训练步骤参照上述步骤S802,在此不再赘述。在获得预训练的编码器后,计算机设备获取样本信号及对应的标注字符序列,将样本信号输入语音识别模型中的预训练的编码器,得到由编码器中的特征提取网络输出的与样本信号对应的语音向量序列;对语音向量序列中的语音向量进行随机遮掩处理,将遮掩处理后的语音向量序列输入语音上下文网络,得到由语音上下文网络输出的上下文语音特征,作为样本信号对应的语音特征;通过语音识别模型中与编码器连接的分类器,基于语音特征输出第一预测字符序列;基于标注字符序列与第一预测字符序列之间的差异构建语音识别损失;根据语音识别损失对语音识别模型的分类器进行监督训练,当满足监督训练停止条件时,根据语音识别损失对语音识别模型的编码器和分类器进行监督训练。
两种训练方式所采用的自监督训练数据为960小时的librispeech数据,所采用的监督训练数据为开源的中文语音识别数据集Aishell-1,Aishell-1数据集包含训练集、验证集和测试集,Aishell-1训练集的测试条数为120098,Aishell-1验证集的测试条数为14326,Aishell-1测试集的测试条数为7176。解码器和编码器的特征维度均为768。对于联合训练方式,语音识别损失的损失加权系数为0.3,语义识别损失的损失加权系数为0.7。基于自注意力的语音上下文网络的M层取值为12,解码器的N层取值为6。
对联合训练方式与单独训练方式分别训练得到的语音识别模型进行测试,所得到的测试结果如图10所示。可以看到,相比于采用单独训练方式训练得到的语音识别模型,采用联合训练方式训练得到的语音识别模型,字错误率有了显著下降,也就是说,联合训练方式能够明显提升模型性能。
在一个实施例中,如图11所示,提供了一种语音识别方法,本实施例主要以该方法应用于上述图1中的计算机设备(终端102或者服务器104)来举例说明,包括以下步骤:
步骤S1102,获取待识别信号。
其中,待识别信号是待通过本申请实施例提供的方法进行语音识别的语音信号。该待识别信号可以是语音交互场景下接收到的语音信号,例如虚拟机器人交互场景、智能设备控制场景、机器翻译场景、语音消息的文本转换场景等。
步骤S1104,将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果;其中,语音识别模型与解码器基于语音识别损失与语义识别损失联合训练得到,语音识别损失根据第一预测字符序列与样本信号对应的标注字符序列计算得到,语义识别损失根据第二预测字符序列与标注字符序列计算得到,第一预测字符序列基于编码器输出的语音特征进行分类后得到的,第二预测字符序列是通过解码器使用标注字符序列对应的前向字符序列所对应的语义特征,对语音特征进行解码所获得的语音语义联合特征进行预测得到的,前向字符序列是基于标注字符序列中各字符的前一字符生成的。
在一个实施例中,计算机设备获取待识别信号,将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果,该语音识别结果可以是待识别信号对应的音素或文字。
关于语音识别模型的训练方式可参考上述实施例,在此不再赘述。
上述语音识别方法中,将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果,由于训练好的语音识别模型能够利用语义层次的上下文信息进行语音识别,因此能够提升语音识别准确率。
应该理解的是,虽然图3、8、11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3、8、11中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图12所示,提供了一种语音识别模型的处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1202、编码模块1204、输入模块1206、解码模块1208和训练模块1210,其中:
获取模块1202,用于获取样本信号及对应的标注字符序列;
编码模块1204,用于将样本信号输入语音识别模型,得到样本信号对应的语音特征,以及基于语音特征输出的第一预测字符序列;
输入模块1206,用于将标注字符序列对应的前向字符序列输入解码器,前向字符序列是基于标注字符序列中各字符的前一字符生成的;
解码模块1208,用于在解码器中,根据前向字符序列对应的语义特征对语音特征进行解码,获得样本信号对应的语音语义联合特征,并基于语音语义联合特征进行预测,得到样本信号对应的第二预测字符序列;
训练模块1210,用于基于根据标注字符序列与第一预测字符序列计算的语音识别损失,以及根据标注字符序列与第二预测字符序列计算的语义识别损失,联合训练语音识别模型与解码器。
在一个实施例中,编码模块1204还用于:将样本信号输入语音识别模型;通过语音识别模型的编码器输出样本信号对应的语音特征;通过语音识别模型中与编码器连接的分类器,基于语音特征输出第一预测字符序列。
在一个实施例中,编码器包括特征提取网络与基于自注意力的语音上下文网络;编码模块1204还用于:将样本信号输入编码器,得到由编码器中的特征提取网络输出的与样本信号对应的语音向量序列;对语音向量序列中的语音向量进行随机遮掩处理;将遮掩处理后的语音向量序列输入语音上下文网络,得到由语音上下文网络输出的上下文语音特征,作为样本信号对应的语音特征。
在一个实施例中,解码器包括向量化层、基于自注意力的语义上下文网络与基于交叉注意力的语音语义上下文网络;解码模块1208还用于:通过解码器的向量化层,将前向字符序列转化为对应的前向字符向量序列,将前向字符向量序列输入语义上下文网络;通过语义上下文网络,基于前向字符向量序列,计算前向字符序列对应的上下文语义特征,作为前向字符序列对应的语义特征;通过语音语义上下文网络,基于前向字符序列对应的语义特征与语音特征,计算得到样本信号对应的语音语义联合特征。
在一个实施例中,解码模块1208还用于:将语音语义联合特征输入解码器的分类器;通过分类器基于语音语义联合特征,输出样本信号对应的第二预测字符序列。
在一个实施例中,语音识别模型包括编码器和与编码器相连接的分类器;编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;训练模块1210还用于:根据语音识别损失和语义识别损失,对解码器和语音识别模型的分类器进行监督训练;当满足监督训练停止条件时,根据语音识别损失和语义识别损失,对解码器和语音识别模型进行监督训练。
在一个实施例中,编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;语音识别模型还包括预训练模块1210,预训练模块1210用于:获取无标注样本信号;将无标注样本信号输入初始编码器,得到由初始编码器中的特征提取网络输出的与无标注样本信号对应的语音向量序列;对语音向量序列执行量化操作,得到语音量化向量序列;对语音向量序列中的语音向量进行随机遮掩处理后,确定遮掩语音向量;将遮掩处理后的语音向量序列,输入初始编码器的语音上下文网络,得到由语音上下文网络输出的与遮掩语音向量对应的预测语音向量;基于语音量化向量序列中与遮掩语音向量对应的语音量化向量,与预测语音向量之间的差异,构建自监督训练损失;根据自监督训练损失更新初始编码器的网络参数后,返回获取无标注样本信号的步骤继续训练,直至训练结束时,获得预训练的编码器。
在一个实施例中,训练模块1210还用于:基于标注字符序列与第一预测字符序列之间的差异构建语音识别损失;基于标注字符序列与第二预测字符序列之间的差异构建语义识别损失;根据预设的损失加权系数对语音识别损失与语义识别损失加权求和,获得目标损失;根据目标损失联合训练语音识别模型与解码器。
在一个实施例中,语音识别模型的处理装置还包括语音识别模块,语音识别模块用于:获取待识别信号;将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果。
关于语音识别模型的处理装置的具体限定可以参见上文中对于语音识别模型的处理方法的限定,在此不再赘述。上述语音识别模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述语音识别模型的处理装置中,将样本信号输入语音识别模型,得到样本信号对应的语音特征,以及基于语音特征输出的第一预测字符序列,将标注字符序列对应的前向字符序列输入解码器,在解码器中,根据前向字符序列对应的语义特征对语音特征进行解码,获得样本信号对应的语音语义联合特征,由于前向字符序列是基于标注字符序列中各字符的前一字符生成的,因此根据前向字符序列对应的语义特征对编码器输出的语音特征进行解码-编码所获得的语音语义联合特征携带有语义层次的上下文信息,基于语音语义联合特征进行预测得到样本信号对应的第二预测字符序列,根据第二预测字符序列与标注字符序列所构建的语义识别损失辅助语音识别模型进行训练,能够将语义层次的上下文信息蒸馏进语音识别模型,从而提升语音识别模型的识别准确率。
在一个实施例中,如图13所示,提供了一种语音识别装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1302和语音识别模块1304,其中:
获取模块1302,用于获取待识别信号;
语音识别模块1304,用于将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果;
其中,语音识别模型与解码器基于语音识别损失与语义识别损失联合训练得到,语音识别损失根据第一预测字符序列与样本信号对应的标注字符序列计算得到,语义识别损失根据第二预测字符序列与标注字符序列计算得到,第一预测字符序列基于编码器输出的语音特征进行分类后得到的,第二预测字符序列是通过解码器使用标注字符序列对应的前向字符序列所对应的语义特征,对语音特征进行解码所获得的语音语义联合特征进行预测得到的,前向字符序列是基于标注字符序列中各字符的前一字符生成的。
关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定,在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述语音识别装置中,将待识别信号输入训练好的语音识别模型,得到由语音识别模型中的编码器输出的语音特征,以及由语音识别模型中的分类器基于语音特征输出的语音识别结果,由于训练好的语音识别模型能够利用语义层次的上下文信息进行语音识别,因此能够提升语音识别准确率。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音识别模型的处理数据和/或图像生成数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型的处理方法和/或语音识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,也可以是人脸采集设备,其内部结构图可以如图15所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口和语音采集装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音识别模型的处理方法和/或语音识别方法。
本领域技术人员可以理解,图14和图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种语音识别模型的处理方法,其特征在于,所述方法包括:
获取样本信号及对应的标注字符序列;
将所述样本信号输入语音识别模型,得到所述样本信号对应的语音特征,以及基于所述语音特征输出的第一预测字符序列;
将所述标注字符序列对应的前向字符序列输入解码器,所述前向字符序列是基于所述标注字符序列中各字符的前一字符生成的;
在所述解码器中,根据所述前向字符序列对应的语义特征对所述语音特征进行解码,获得所述样本信号对应的语音语义联合特征,并基于所述语音语义联合特征进行预测,得到所述样本信号对应的第二预测字符序列;
基于根据所述标注字符序列与所述第一预测字符序列计算的语音识别损失,以及根据所述标注字符序列与所述第二预测字符序列计算的语义识别损失,联合训练所述语音识别模型与所述解码器。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本信号输入语音识别模型,得到所述样本信号对应的语音特征,以及基于所述语音特征输出的第一预测字符序列,包括:
将所述样本信号输入所述语音识别模型;
通过所述语音识别模型的编码器输出所述样本信号对应的语音特征;
通过所述语音识别模型中与所述编码器连接的分类器,基于所述语音特征输出所述第一预测字符序列。
3.根据权利要求2所述的方法,其特征在于,所述编码器包括特征提取网络与基于自注意力的语音上下文网络;
所述通过所述语音识别模型的编码器输出所述样本信号对应的语音特征,包括:
将所述样本信号输入所述编码器,得到由所述编码器中的特征提取网络输出的与所述样本信号对应的语音向量序列;
对所述语音向量序列中的语音向量进行随机遮掩处理;
将遮掩处理后的语音向量序列输入所述语音上下文网络,得到由所述语音上下文网络输出的上下文语音特征,作为所述样本信号对应的语音特征。
4.根据权利要求1所述的方法,其特征在于,所述解码器包括向量化层、基于自注意力的语义上下文网络与基于交叉注意力的语音语义上下文网络;
所述根据所述前向字符序列对应的语义特征对所述语音特征进行解码,获得所述样本信号对应的语音语义联合特征,包括:
通过所述解码器的向量化层,将所述前向字符序列转化为对应的前向字符向量序列,将所述前向字符向量序列输入所述语义上下文网络;
通过所述语义上下文网络,基于所述前向字符向量序列,计算所述前向字符序列对应的上下文语义特征,作为所述前向字符序列对应的语义特征;
通过所述语音语义上下文网络,基于所述前向字符序列对应的语义特征与所述语音特征,计算得到所述样本信号对应的语音语义联合特征。
5.根据权利要求4所述的方法,其特征在于,所述基于所述语音语义联合特征进行预测,得到所述样本信号对应的第二预测字符序列,包括:
将所述语音语义联合特征输入所述解码器的分类器;
通过所述分类器基于所述语音语义联合特征,输出所述样本信号对应的第二预测字符序列。
6.根据权利要求1所述的方法,其特征在于,所述语音识别模型包括编码器和与所述编码器相连接的分类器;所述编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;
所述基于根据所述标注字符序列与所述第一预测字符序列计算的语音识别损失,以及根据所述标注字符序列与所述第二预测字符序列计算的语义识别损失,联合训练所述语音识别模型与所述解码器,包括:
根据所述语音识别损失和所述语义识别损失,对所述解码器和所述语音识别模型的分类器进行监督训练;
当满足监督训练停止条件时,根据所述语音识别损失和所述语义识别损失,对所述解码器和所述语音识别模型进行监督训练。
7.根据权利要求1所述的方法,其特征在于,所述编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;
所述方法还包括:
获取所述无标注样本信号;
将所述无标注样本信号输入初始编码器,得到由所述初始编码器中的特征提取网络输出的与所述无标注样本信号对应的语音向量序列;
对所述语音向量序列执行量化操作,得到语音量化向量序列;
对所述语音向量序列中的语音向量进行随机遮掩处理后,确定遮掩语音向量;
将遮掩处理后的语音向量序列,输入所述初始编码器的语音上下文网络,得到由所述语音上下文网络输出的与所述遮掩语音向量对应的预测语音向量;
基于所述语音量化向量序列中与所述遮掩语音向量对应的语音量化向量,与所述预测语音向量之间的差异,构建自监督训练损失;
根据所述自监督训练损失更新所述初始编码器的网络参数后,返回所述获取所述无标注样本信号的步骤继续训练,直至训练结束时,获得所述预训练的编码器。
8.根据权利要求1所述的方法,其特征在于,所述基于根据所述标注字符序列与所述第一预测字符序列计算的语音识别损失,以及根据所述标注字符序列与所述第二预测字符序列计算的语义识别损失,联合训练所述语音识别模型与所述解码器,包括:
基于所述标注字符序列与所述第一预测字符序列之间的差异构建所述语音识别损失;
基于所述标注字符序列与所述第二预测字符序列之间的差异构建语义识别损失;
根据预设的损失加权系数对所述语音识别损失与所述语义识别损失加权求和,获得目标损失;
根据所述目标损失联合训练所述语音识别模型与所述解码器。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待识别信号;
将所述待识别信号输入训练好的语音识别模型,得到由所述语音识别模型中的编码器输出的语音特征,以及由所述语音识别模型中的分类器基于所述语音特征输出的语音识别结果。
10.一种语音识别方法,其特征在于,所述方法包括:
获取待识别信号;
将所述待识别信号输入训练好的语音识别模型,得到由所述语音识别模型中的编码器输出的语音特征,以及由所述语音识别模型中的分类器基于所述语音特征输出的语音识别结果;
其中,所述语音识别模型与解码器基于语音识别损失与语义识别损失联合训练得到,所述语音识别损失根据第一预测字符序列与所述样本信号对应的标注字符序列计算得到,所述语义识别损失根据第二预测字符序列与所述标注字符序列计算得到,所述第一预测字符序列基于所述编码器输出的语音特征进行分类后得到的,所述第二预测字符序列是通过所述解码器使用所述标注字符序列对应的前向字符序列所对应的语义特征,对所述语音特征进行解码所获得的语音语义联合特征进行预测得到的,所述前向字符序列是基于所述标注字符序列中各字符的前一字符生成的。
11.一种语音识别模型的处理装置,其特征在于,所述装置包括:
获取模块,用于获取样本信号及对应的标注字符序列;
编码模块,用于将所述样本信号输入语音识别模型,得到所述样本信号对应的语音特征,以及基于所述语音特征输出的第一预测字符序列;
输入模块,用于将所述标注字符序列对应的前向字符序列输入解码器,所述前向字符序列是基于所述标注字符序列中各字符的前一字符生成的;
解码模块,用于在所述解码器中,根据所述前向字符序列对应的语义特征对所述语音特征进行解码,获得所述样本信号对应的语音语义联合特征,并基于所述语音语义联合特征进行预测,得到所述样本信号对应的第二预测字符序列;
训练模块,用于基于根据所述标注字符序列与所述第一预测字符序列计算的语音识别损失,以及根据所述标注字符序列与所述第二预测字符序列计算的语义识别损失,联合训练所述语音识别模型与所述解码器。
12.一种语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别信号;
语音识别模块,用于将所述待识别信号输入训练好的语音识别模型,得到由所述语音识别模型中的编码器输出的语音特征,以及由所述语音识别模型中的分类器基于所述语音特征输出的语音识别结果;
其中,所述语音识别模型与解码器基于语音识别损失与语义识别损失联合训练得到,所述语音识别损失根据第一预测字符序列与所述样本信号对应的标注字符序列计算得到,所述语义识别损失根据第二预测字符序列与所述标注字符序列计算得到,所述第一预测字符序列基于所述编码器输出的语音特征进行分类后得到的,所述第二预测字符序列是通过所述解码器使用所述标注字符序列对应的前向字符序列所对应的语义特征,对所述语音特征进行解码所获得的语音语义联合特征进行预测得到的,所述前向字符序列是基于所述标注字符序列中各字符的前一字符生成的。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
14.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111292319.2A CN114360502A (zh) | 2021-11-03 | 2021-11-03 | 语音识别模型的处理方法、语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111292319.2A CN114360502A (zh) | 2021-11-03 | 2021-11-03 | 语音识别模型的处理方法、语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114360502A true CN114360502A (zh) | 2022-04-15 |
Family
ID=81096284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111292319.2A Pending CN114360502A (zh) | 2021-11-03 | 2021-11-03 | 语音识别模型的处理方法、语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114360502A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115691476A (zh) * | 2022-06-06 | 2023-02-03 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
CN116524521A (zh) * | 2023-06-30 | 2023-08-01 | 武汉纺织大学 | 一种基于深度学习的英文字符识别方法和*** |
CN116705058A (zh) * | 2023-08-04 | 2023-09-05 | 贝壳找房(北京)科技有限公司 | 多模语音任务的处理方法、电子设备及可读存储介质 |
-
2021
- 2021-11-03 CN CN202111292319.2A patent/CN114360502A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115691476A (zh) * | 2022-06-06 | 2023-02-03 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
CN115691476B (zh) * | 2022-06-06 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
CN116524521A (zh) * | 2023-06-30 | 2023-08-01 | 武汉纺织大学 | 一种基于深度学习的英文字符识别方法和*** |
CN116524521B (zh) * | 2023-06-30 | 2023-09-15 | 武汉纺织大学 | 一种基于深度学习的英文字符识别方法和*** |
CN116705058A (zh) * | 2023-08-04 | 2023-09-05 | 贝壳找房(北京)科技有限公司 | 多模语音任务的处理方法、电子设备及可读存储介质 |
CN116705058B (zh) * | 2023-08-04 | 2023-10-27 | 贝壳找房(北京)科技有限公司 | 多模语音任务的处理方法、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ariav et al. | An end-to-end multimodal voice activity detection using wavenet encoder and residual networks | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN112071330B (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN112712813B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN104541324A (zh) | 一种使用动态贝叶斯网络模型的语音识别***和方法 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
Chi et al. | Speaker role contextual modeling for language understanding and dialogue policy learning | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
CN111859954A (zh) | 目标对象识别方法、装置、设备及计算机可读存储介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN115376495A (zh) | 语音识别模型训练方法、语音识别方法及装置 | |
CN109933773A (zh) | 一种多重语义语句解析***及方法 | |
CN113822017A (zh) | 基于人工智能的音频生成方法、装置、设备及存储介质 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN111557010A (zh) | 学习装置和方法以及程序 | |
CN113178200B (zh) | 语音转换方法、装置、服务器及存储介质 | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN117592564A (zh) | 问答交互方法、装置、设备及介质 | |
CN116564270A (zh) | 基于去噪扩散概率模型的歌唱合成方法、设备及介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN115712739A (zh) | 舞蹈动作生成方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |