CN114078468B

CN114078468B - 语音的多语种识别方法、装置、终端和存储介质

Info

Publication number: CN114078468B
Application number: CN202210058785.2A
Authority: CN
Inventors: 张辽
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-05-13
Anticipated expiration: 2042-01-19
Also published as: CN114078468A; WO2023138286A1

Abstract

本申请提供了语音的多语种识别方法、装置、终端和存储介质，所述方法包括：获取待识别的语音数据和多语种声学模型；所述多语种声学模型基于多个混合双语模型的共享隐含层融合得到；根据所述待识别的语音数据和所述多语种声学模型，得到针对各语种的置信度；基于所述针对各语种的置信度确定所述待识别的语音数据对应的语种。通过基于多个混合双语模型的共享隐含层融合得到的多语种声学模型对语音的多语种进行识别，基于模型中的共享隐含层，降低传统多语种识别模型中的计算量，提高对语种识别的效率，进而提升用户体验。

Description

语音的多语种识别方法、装置、终端和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音的多语种识别方法、相应的一种语音的多语种识别装置、相应的一种车载终端和计算机可读存储介质。

背景技术

随着人工智能相关技术的日益成熟，越来越多的智能设备进入用户的生活中，人与机器的交互日渐平常。语音输入作为人机交互中自然又便捷的交互方式，实现解放双手的目的，目前的智能设备大多具有语音识别功能，语音识别功能提高用户的便捷性。目前，待识别的语音数据可能并不只是单一语种的语音，还可能为双语种的混合语音或多语种的混合语音，针对多种混合多语种识别模型的构建，主要可以是通过分别对各组混合双语种，例如英德、英法等的声学模型进行建模，基于多组声学模型输出得分的语种识别方式实现，这种语种识别方式所要求的计算量巨大，所进行的语种识别效率低。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音的多语种识别方法、相应的一种语音的多语种识别装置、相应的一种车载终端和计算机可读存储介质。

本申请公开了一种语音的多语种识别方法，所述方法包括：

获取待识别的语音数据和多语种声学模型；所述多语种声学模型基于多个混合双语模型的共享隐含层融合得到；

根据所述待识别的语音数据和所述多语种声学模型，得到针对各语种的置信度；

基于所述针对各语种的置信度确定所述待识别的语音数据对应的语种。

在语音的多语种识别方法中，还包括：

解码所述待识别的语音数据，对解码后的语音数据进行实时显示。

在语音的多语种识别方法中，所述多个混合双语模型的隐含层包括按照预设比例区分为底层隐含层和高层隐含层，所述底层隐含层用于合并生成共享隐含层；

所述根据所述待识别的语音数据和所述多语种声学模型，得到针对各语种的置信度，包括：

将待识别的语音数据输入多个混合双语模型的共享隐含层，得到第一输出结果；

将所述第一输出结果分别输入所述多个混合双语模型的高层隐含层，得到多个第二输出结果；

将所述多个第二输出结果合并作为预设语种分类模型的输入项，得到针对各语种的多个置信度。

在语音的多语种识别方法中，所述将所述多个第二输出结果合并作为预设语种分类模型的输入项，得到针对各语种的多个置信度，包括：

将用于表征第二输出结果的多维特征向量按照相应维度拼接，并将拼接后的特征向量作为所述预设语种分类模型的输入项，得到针对不同语种的多个置信度。

在语音的多语种识别方法中，所述基于所述针对各语种的置信度确定所述待识别的语音数据对应的语种，包括：

若有且仅有一个所述置信度大于预设值，则确定该置信度对应的语种为所述待识别的语音数据对应的语种；

或，若存在两个或两个以上置信度大于预设值，则确定所述置信度值最大的对应的语种为待识别的语音数据对应的语种；

或，若所述多个置信度均未达到预设值，则将所述置信度值最大的对应的语种为所述待识别的语音数据的语种。

在语音的多语种识别方法中，所述对解码后的语音数据进行实时显示，包括：

在确定所述待识别的语音数据对应的语种之前，解码所述待识别的语音数据并对解码后的语音数据进行预设语种的显示；

在确定所述待识别的语音数据对应的语种之后，采用与所确定语种对应的混合双语模型对所述待识别的语音数据进行解码，并继续对解码后的语音数据进行所确定语种的替换显示。

在语音的多语种识别方法中，所述多语种声学模型包括预设语种模型，所述在确定所述待识别的语音数据对应的语种之前，解析所述待识别的语音数据并对解析后的语音数据进行预设语种的显示，包括：

将所述第一输出结果输入预设语种模型的隐含层，得到第三输出结果；其中所述预设语种模型位于所述共享隐含层的输出层；

在确定所述待识别的语音数据对应的语种之前，解码所述第三输出结果以得到识别的语音信息，并以预设语种进行显示。

在语音的多语种识别方法中，所述多个混合双语模型的高层隐含层分别独立构成混合输出层，所述在确定所述待识别的语音数据对应的语种之后，采用与所确定语种对应的混合双语模型对所述待识别的语音数据进行解析，并继续对解析后的语音数据进行所确定语种的显示，包括：

在确定所述待识别的语音数据对应的语种后，采用所述待识别的语音数据的语种相应的混合双语模型，对所显示的语音信息以所确定的语种进行替换显示。

在语音的多语种识别方法中，所述多语种声学模型基于神经网络建立，还包括：

将多个混合双语模型的隐含层按照预设比例区分为底层隐含层和高层隐含层，合并所述底层隐含层以生成共享隐含层，其中所述多个混合双语模型为包括多层隐含层的神经网络，所述多个混合双语模型的高层隐含层具有与各个混合双语模型相应的语种特征；

在所述共享隐含层的输出层增加预设语种模型的隐含层；

将所述具有与各个混合双语模型相应的语种特征的高层隐含层的多个输出层，合并作为预设语种分类模型的输入层构建预设语种分类模型，以及将所述多个混合双语模型的高层隐含层分别独立构成混合输出层；

采用所述共享隐含层、所述预设语种模型的隐含层、所述高层隐含层、所述预设语种分类模型以及所述混合输出层，生成多语种声学模型。

本申请还公开了一种语音的多语种识别装置，所述装置包括：

多语种声学模型获取模块，用于获取待识别的语音数据和多语种声学模型；所述多语种声学模型基于多个混合双语模型的共享隐含层融合得到；

置信度生成模块，用于根据所述待识别的语音数据和所述多语种声学模型，得到针对各语种的置信度；

语种识别模块，用于基于所述针对各语种的置信度确定所述待识别的语音数据对应的语种。

在语音的多语种识别装置中，所述装置还包括：上屏显示模块，用于解码所述待识别的语音数据，对解码后的语音数据进行实时显示。其中，所述上屏显示模块具体用于在确定所述待识别的语音数据对应的语种之前，解码所述待识别的语音数据并对解码后的语音数据进行预设语种的显示；以及在确定所述待识别的语音数据对应的语种之后，采用与所确定语种对应的混合双语模型对所述待识别的语音数据进行解码，并继续对解码后的语音数据进行所确定语种的替换显示。

在语音的多语种识别装置中，所述多个混合双语模型的隐含层包括按照预设比例区分为底层隐含层和高层隐含层，所述底层隐含层用于合并生成共享隐含层；所述置信度生成模块具体用于将待识别的语音数据输入多个混合双语模型的共享隐含层，得到第一输出结果；将所述第一输出结果分别输入所述多个混合双语模型的高层隐含层，得到多个第二输出结果；以及将所述多个第二输出结果合并作为预设语种分类模型的输入项，得到针对各语种的多个置信度。

其中，置信度生成模块具体可用于将用于表征第二输出结果的多维特征向量按照相应维度拼接，并将拼接后的特征向量作为所述预设语种分类模型的输入项，得到针对不同语种的多个置信度。具体的，在有且仅有一个所述置信度大于预设值时，确定该置信度对应的语种为所述待识别的语音数据对应的语种；或，在存在两个或两个以上置信度大于预设值时，确定所述置信度值最大的对应的语种为待识别的语音数据对应的语种；或，在所述多个置信度均未达到预设值时，将所述置信度值最大的对应的语种为所述待识别的语音数据的语种。

在语音的多语种识别装置中，所述多语种声学模型基于神经网络建立，所述装置还包括：多语种声学模型生成模块，用于基于多个混合双语模型的共享隐含层融合生成多语种声学模型。

其中，所述多语种声学模型生成模块具体用于将多个混合双语模型的隐含层按照预设比例区分为底层隐含层和高层隐含层，合并所述底层隐含层以生成共享隐含层，其中所述多个混合双语模型为包括多层隐含层的神经网络，所述多个混合双语模型的高层隐含层具有与各个混合双语模型相应的语种特征；在所述共享隐含层的输出层增加预设语种模型的隐含层；将所述具有与各个混合双语模型相应的语种特征的高层隐含层的多个输出层，合并作为预设语种分类模型的输入层构建预设语种分类模型，以及将所述多个混合双语模型的高层隐含层分别独立构成混合输出层，以采用所述共享隐含层、所述预设语种模型的隐含层、所述高层隐含层、所述预设语种分类模型以及所述混合输出层，生成多语种声学模型。

本申请还公开了一种车载终端，包括：所述语音的多语种识别装置、处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现任一项所述语音的多语种识别的步骤。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现任一项所述基于多语种声学模型的语种识别方法的步骤或任一项所述语音的多语种识别的步骤。

本申请包括以下优点：

在本申请中，通过采用基于多个混合双语模型的共享隐含层融合生成的多语种声学模型，对待识别的语音数据进行识别得到针对各个语种的置信度，以基于所得到的置信度确定待识别的语音数据对应的语种，完成对该语音的多语种识别。通过基于多个混合双语模型的共享隐含层融合得到的多语种声学模型对语音的多语种进行识别，基于模型中的共享隐含层降低传统多语种识别模型中的计算量，提高对语种识别的效率，进而提升用户体验。

附图说明

图1是相关技术中多语种声学模型的模型示意图；

图2是本申请提供的语音的多语种识别方法的步骤流程图；

图3是本申请提供的多语种声学模型的模型示意图；

图4是本申请提供的多语种声学模型的应用示意图；

图5是本申请提供的语音的多语种识别方法装置的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

待识别的语音数据可能并不只是单一语种的语音，还可能为双语种的混合语音或多语种的混合语音，例如全球、亚洲地区、欧洲地区等地域较广的范围内推广产品的场景下，由于某个地区的语种分类较多，例如某个地区存在20种以上不同语种的语言，且不同语种之间的语系差异较大，难以达成统一关于语种识别的建模，且由于某个地区国家的占地面积小国家之间的交流较为频繁，即对于此地区用户而言除了支持本国语言之外，还需要满足对其他主要国家和地区的POI（Point of Interest，兴趣点）和命令词识别，以及站在建模成本与用户体验的角度考虑，所建立的多种混合语种识别***需要满足占用资源少以及识别速度快的特点。

目前，针对多种混合多语种识别模型的构建，参照图1，示出了相关技术中多语种声学模型的模型示意图，对于某个地区的用户语音语种识别，由于无法对不同种类语言同时进行声学建模，假设此地区广泛应用的预设语种为英文，通常可基于英文是应用广泛的语言的考虑，采用例如英-德（其神经网络层例如N层LSTM（Long short-term memory，长短期记忆网络）隐含层可用于对英文因素特征向量和德语因素特征向量进行输出，以通过其混合输出层进行softmax得分计算）、英-法（其神经网络层，例如M层LSTM隐含层可用于对英文因素特征向量和法语因素特征向量进行输出，以通过其混合输出层进行softmax得分计算）等20多套混合双语模型进行建模，主要是将此地区各国地名、人名、机构专名等采用对应语系进行混合双语的建模，此时还可基于较为广泛应用的语种，例如英语对通用命令词进行建模，以保证在其他语种的语言识别不准确的情况下采用英文语种完成指令，提供兜底效果。在对如图1所示的多语种声学模型进行使用的过程中，在获取分别对各组混合双语种，例如英-德、英-法等声学模型进行建模，得到多个混合双语模型后，可基于待识别的语音数据分别在多个混合双语模型的语种得分，确定对待识别的语音数据对应的语种。

然而，这种基于多组声学模型输出得分的语种识别方式，涉及到对英-德、英-法等20多套混合双语模型的建模，其所耗费的内存较大，且对于建模所部署的机器存在很高的要求；且在对英-德、英-法等20多套混合双语模型进行建模，以及采用多组混合双语声学模型计算用户语音请求的语种得分的情况下，在对此多语种声学模型的使用过程中计算量大，此时需要在减少声学模型尺寸的同时需要使用性能更强的CPU（Central ProcessingUnit，中央处理器），对于声学模型尺寸的减少表现为降低特征向量维度以及神经网络层数的减少，而减少声学模型中各层神经网络对特征的筛选将会导致模型的识别效果变差，以及对多组语种得分所进行的得分PK，对于用户体验方面来说，上屏结果变动频繁且得分PK模型的耗时将会导致上屏的延时增加，并不能满足占用资源少以及识别速度快的要求，影响用户的上屏体验。

参照图2，示出了本申请提供的语音的多语种识别方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取待识别的语音数据和多语种声学模型，其中多语种声学模型基于多个混合双语模型的共享隐含层融合得到；

在本申请中，可通过基于多个混合双语模型的共享隐含层融合得到的多语种声学模型对语音的多语种进行识别，基于模型中的共享隐含层降低传统多语种识别模型中的计算量，提高对语种识别的效率。

其中，并不采用多组混合双语模型参与模型的计算与识别过程，在获取基于多个混合双语模型的共享隐含层融合得到的多语种声学模型之前，可以对本申请所采用的多语种声学模型进行构建。

具体的，本申请所构建的多语种声学模型，其核心思想之一在于将多组混合双语模型的底层隐含层合并生成共享隐含层，基于所合并的共享隐含层多降低所构建的多语种声学模型对内存的消耗；且在采用混合双语模型对待识别的语音数据进行识别的过程中，基于预设语种分类模型增加语言分类的过程，并基于在对语种识别确定之前缓存各个高层缓存层输出结果，以便后续在对语音数据相应语种进行上屏显示时能够基于与所确定语种的混合双语模型进行显示，减小多语种声学模型的计算量。

在实际应用中，可采用共享隐含层、预设语种模型的隐含层、高层隐含层、预设语种分类模型以及所构建的混合输出层，生成多语种声学模型。

对于共享隐含层的构建，对于现有多语种声学模型中分别对各组混合双语种，例如英-德、英-法等声学模型所进行的单独建模，其各个混合双语模型中分别具有多层隐含层的神经网络，而在混合双语模型的多层隐含层中，例如N层可以包含与其他混合双语种模型具有参数共性的隐含层，在这些具有参数共性的隐含层中，每层的神经网络可用于提取语种模型中的各个共性特征向量维度，例如针对不同语种间均普遍存在的停顿、音节长短等特，混合双语种模型的多层隐含层中还可以包含具有其本身语种特征的隐含层，其中可将具有参数共性的隐含层称之为底层隐含层，将具有明显语种特征的隐含层称之为高层隐含层。需要说明的是，各组混合双语种可基于在此地区应用较为广泛的预设语种与其他语种进行分别混合构建，并不限定于英-德、英-法等声学模型。

参照图3，示出了本申请提供的多语种声学模型的模型示意图，为了降低所建立的多语种声学模型对内存的消耗，以及减少多语种声学模型的计算量，此时可将多个混合双语模型，例如英-德、英-法等多套混合双语种模型中所包含的隐含层基于是否具有明显语种特征进行划分，通常可按照预设比例，例如各个混合双语模型中具有80%的底层隐含层与20%的高层隐含层进行划分，对底层隐含层进行合并为共享隐含层，以及对明显带有特定语系语种特征的高层隐含层进行保留，基于对底层隐含层的引入提高所构建的多语种声学模型在设备上的硬件适配度。

在所构建的多语种声学模型中，针对所合并的共享隐含层的输出结果，可作为各个所保留的高层隐含层的输入项，以便后续在高层隐含层输出时基于与所确定语种的混合输出层对语音数据按照相应语种显示，在降低内存消耗和减少计算量的同时，基于对高层隐含层的保留提高针对多语种声学模型的建模精度。

在所构建的多语种声学模型中，在将所合并的共享隐含层的输出结果作为高层隐含层输入项的同时，还可以在共享隐含层的输出层增加预设语种模型的隐含层，使得将共享隐含层的输出结果作为预设语种模型的输入项，以便在语种确定之前能够将语音数据按照预设语种进行上屏显示，减少上屏显示的时延，以及对上屏显示结果的频繁语种变动，提升用户的上屏体验。其中，预设语种可以指的是对于某个地区而言较为广泛应用的语种，例如对于欧洲地区国家的用户语音语种的识别而言，英文为欧洲地区广泛应用的语种，此时可在共享隐含层的输出层增加预设英文模型的隐含层，为所构建的多语种声学模型提供以英文语种上屏显示的同时，提供兜底效果。

确定语音语种的方式可引入预设语种分类模型实现，多个混合双语模型的高层隐含层具有与各个混合双语模型相应的语种特征，具体可以将具有与各个混合双语模型相应的语种特征的高层隐含层的多个输出层，合并作为预设语种分类模型的输入层以构建预设语种分类模型，在确定语音数据的语种时，可通过预设语种分类模型对各个语种分类的置信度确定相应语种。

其中，用于训练语种分类模型的语种特征主要是具有高层次抽象特征，如图3所示，此高层次抽象特征是基于多个混合双语模型的底层隐含层以及高层隐含层的输出，由于其模型中的神经网络可直接使用已具有高层次抽象特征的语种特征，不需要再前置很大的特征提取隐含层，在基于高层次抽象特征构建语种分类模型的情况下，能够在减少模型中神经网络层数的同时，还能够保证为模型提供所需的特征维度，以基于较少的神经网络层数保证语种分类模型的低延时和低计算量的情况下，同时基于计算缓存的高层次抽象特征的拼接保证模型的高识别效果。

对于多语种声学模型中混合输出层的构成，其所分别独立构成的混合输出层，可用于对待识别的语音数据中的语种进行解码以及进行相应语种的上屏显示，在具体情况下，为了在保证语种识别准确定的同时，减少多语种声学模型的计算量，首先可对多个混合双语模型的高层隐含层的输出结果进行缓存，待在基于预设语种分类模型确定语音数据的语种后，再将高层隐含层的输出结果输入至相应混合双语模型的混合输出层进行处理，即可设置多个混合双语模型的高层隐含层分别独立构成的混合输出层在基于预设语种分类模型确定相应语种后进行softmax。

对多个混合双语模型的高层隐含层的输出结果进行缓存，保证在确定语种前不对高层隐含层的输出结果进行softmax计算，所进行的softmax计算是在机器学习中的工具，其可以用于计算一组数值中每个值的占比，以基于所计算得到的占比对语音数据中各个词的相似程度进行确定，并筛选得到用于上屏显示的词语。

如图3所示，可以缓存各个混合双语模型中最后一层softmax（即所构造的混合输出层）之前的隐含层输出（即高层隐含层的输出结果），若此时不缓存则每个混合双语模型的混合输出层均需进行softmax计算，为了保证将计算量的降低，此时可暂停各个混合双语模型的混合输出层计算，即在确定语种之前不再进行任何softmax计算，使得在确定语种后再次启动混合输出层的softmax计算，但此时仅需通过与所确定语种相对应的混合双语模型的混合输出层对待识别的语音数据进行softmax计算即可。

需要说明的是，多个混合双语模型为包括多层隐含层的神经网络，其所采用的是LSTM结构，那么基于各个混合双语模型中共享隐含层与高层隐含层进行构建的多语种声学模型采用的也是LSTM结构，在LSTM结构中，待识别的语音数据的每一帧数据的隐含层维度均不会随着时间的推移而增加，即隐含层维度是固定的，当待识别的语音数据的帧数为20帧，所构建的多语种声学模型中隐含层的维度为512时，其在语种识别与语音数据上屏显示过程中所占用的内存可以为20*20*512*4byte=0.78MB，所构建的多语种声学模型适用于云端存储。

步骤202，根据待识别的语音数据和多语种声学模型，得到针对各语种的置信度；

在获取基于多个混合双语模型中所包含的多层隐含层的神经网络实现，具体为基于多个混合双语模型的共享隐含层融合得到的多语种声学模型后，可采用多语种声学模型对待识别的语音数据进行识别，得到针对各个语种的置信度，以便后续能够基于所得到的置信度确定待识别的语音数据对应的语种。

具体的，多个混合双语模型的隐含层包括按照预设比例区分为底层隐含层和高层隐含层，且底层隐含层用于合并生成用于构建多语种声学模型的共享隐含层，此时可将待识别的语音数据经由多个混合双语模型的共享隐含层得到不具有明显语种特征的第一输出结果，再将第一输出结果分别输出至多个混合双语模型的多个高层隐含层，分别得到具有明显语种特征的第二输出结果，然后可采用所得到的多个第二输出结果，将其作为预设语种分类模型的输入项得到针对各语种的多个置信度。

将待识别的语音数据输入多个混合双语模型的共享隐含层，得到第一输出结果，其中共享隐含层可以指的是在各个不同混合双语种模型中具有参数共性的隐含层，例如针对不同语种间均普遍存在的停顿、音节长短等特征的隐含层，此时所得到的第一输出结果不具有明显的语种特征，暂时不能用于语种识别的判定。

高层隐含层可以指的是在多个混合双语模型中具有明显语种特征的隐含层，此时基于高层隐含层所输出的多个第二输出结果，可以分别携带有针对各个特定语系的语种特征，这种输出结果可用于进行语种识别的判定。此时可暂时对多个混合双语模型的高层隐含层的输出结果，即多个第二输出结果进行缓存，保证在确定语种前不对高层隐含层的输出结果进行softmax计算，即此时可暂停各个混合双语模型的混合输出层计算，在确定语种之前不再进行任何softmax计算，使得后续能够在确定语种后再次启动混合输出层的softmax计算时，保证仅需通过与所确定语种相对应的混合双语模型的混合输出层对待识别的语音数据进行softmax计算即可，以达到降低模型计算量的目的。

其中，所缓存的多个第二输出结果需在确定识别语种的情况下进行softmax计算，此时可基于所引入的预设语种模型，例如英文模型的隐含层，可保证在不做softmax所导致不能实时上屏期间的上屏显示，具体在确定语种结果之前，可通过预设英文模型的softmax计算，并采用softmax计算的结果对待识别的语音数据进行上屏显示，能够降低用户在确定语种结果期间对上屏的等待时间，以及避免由于在确定语种分类结果前不做softmax而不能进行实时上屏影响体验。

为了实现对待识别的语音数据的语种进行确定，可引入预设语种分类模型实现，高层隐含层的输出结果携带有针对特地语系的明显语种特征，具体可将多个混合双语模型的高层隐含层的多个输出层，作为用于训练预设语种分类模型的输入层构造预设语种分类模型，以便后续在确定语音数据的语种时可通过预设语种分类模型对各个语种分类的置信度确定相应语种。

具体的，各个混合双语模型的高层隐含层分别具有与各个混合双语模型相应的语种特征，那么高层隐含层的输出结果是具有明显语种的语言色彩的，此时可将用于表征第二输出结果的多维特征向量按照相应维度拼接，如图3所示将各个语种特征向量，例如德语hidden隐含特征、法语隐含hidden特征进行拼接，并将拼接后的语种特征作为预设语种分类模型的输入层，所构建的预设语种分类模型可以具有M层卷积层conformer，此卷积层用于进行语种softmax得分计算得到针对各个语种的置信度。所拼接的语种特征为高层次抽象特征，此时可基于所拼接语种特征之间的语种差异化能够在不需要识别完整的语音请求音频的情况下，在很短的时间内输出得到针对不同语种的多个置信度，所输出的置信度可用于对实时语种进行判定，能够保证语音识别***在进行混合模型决策时的实时性及语种分类的准确度。

需要说明的是，用于训练语种分类模型的语种特征主要是具有高层次抽象特征，如图3所示，此高层次抽象特征是基于多个混合双语模型的底层隐含层以及高层隐含层的输出，属于计算缓存，由于其模型中的神经网络可直接使用已具有高层次抽象特征的语种特征，不需要再前置很大的特征提取隐含层，此时在构建语种分类模型的情况下，能够在减少模型中神经网络层数的同时，还能够保证为模型提供所需的特征维度，以基于较少的神经网络层数保证语种分类模型的低延时和低计算量的情况下，同时基于高层次抽象特征的拼接保证模型的高识别效果。

步骤203，基于针对各语种的置信度确定待识别的语音数据对应的语种。

在实际应用中，可对待识别的语音数据进行实时解码，并将实时解码得到的连续预设长度帧的词输入至语种分类模型确定实时语音片段的语种结果。具体的，基于用户体验至上的语种分类决策设计，可以将实时解码得到的连续预设长度帧的词输入至语种分类模型，通过语种分类模型的语种softmax计算得到所连续预设长度帧的词针对各个语种的置信度，基于置信度确定待识别的语音数据对应的语种。

其中，针对各语种的置信度可以用于表示待识别的语音数据与各语种的识别可能性，那么在确定语音数据的语种时，可通过预设语种分类模型基于各个语种的多个置信度确定待识别的语音数据对应的语种。具体的，可基于置信度与预设值的判断结果，确定针对所输入词的实时语种结果。

对于所输入的连续预设长度帧中的各个词而言，无论待识别的语音数据进行解码出字时是否已经超时（即超过字数），在一种情况下，若有且仅有一个置信度大于预设值，即存在超过某一语种的置信度阈值的某个置信度，则可确定该置信度对应的语种为所述待识别的语音数据对应的语种；在另一种情况下，若存在两个或两个以上置信度大于预设值，则可确定置信度值最大的对应的语种为待识别的语音数据对应的语种；在又一种情况下，若多个置信度均未达到预设值，则可以将置信度值最大的对应的语种为所述待识别的语音数据的语种。其中，预设值可以是针对各个语种的置信度阈值，对此，本发明实施例不加以限制。

示例性地，假设对于待识别的语音数据中第2帧~第5帧的语种识别能够达到语种识别快速和准确的密度低，那么在对语音数据进行解码出字时并未超时，即并未超过5个字，此时只要连续预设长度帧，例如连续5帧中的各个词针对某个语种的语种分类置信度（即第21维的softmax最大得分）均超过置信度阈值0.8，则表示对待识别的语音数据的语种识别结束，否则需要继续对待识别的语音数据中最近的连续5帧语音数据的语种进行判断；若对待识别的语音数据进行解码出字时已超时，即已超过5个字，假设连续预设长度帧，例如连续五帧中的各个词针对各个语种的置信度均未达到各个语种的置信度阈值，即并未达到置信度标准，此时可以从最近5帧的语音数据中确定置信度最高分的语种结果作为最后的语种分类结果。

在本申请中，还可以对待识别的语音数据进行解码，并对解码后的语音数据进行实时显示。

具体的，可表现为在确定待识别的语音数据对应的语种之前，解述待识别的语音数据并对解码后的语音数据进行预设语种的显示，以及在确定待识别的语音数据对应的语种之后，采用与所确定语种对应的混合双语模型对待识别的语音数据进行解码，并继续对解码后的语音数据进行所确定语种的替换显示。

在具体实现中，对于确定语种前的上屏显示，在将步骤202中的第一输出结果输入至多个混合双语模型的高层隐含层后，可对其输出结果，即多个第二输出结果进行缓存，保证在确定语种前不对高层隐含层的输出结果进行softmax计算，即此时可暂停各个混合双语模型的混合输出层计算，在确定语种之前不再进行任何softmax计算，那么在得到第一输出结果后，在所构建的多语种声学模型中，共享隐含层的输出层可以增加预设语种模型的隐含层，即在将所合并的共享隐含层的输出结果，即第一输出结果分别输入多个混合双语模型的高层隐含层的同时，还可以将第一输出结果输入预设语种模型的隐含层，得到第三输出结果，以便在确定待识别的语音数据对应的语种之前，能够采用第三输出结果对待识别的语音数据进行预设语种的显示。

示例性地，如图3所示，预设语种可以指的是对于某个地区而言较为广泛应用的语种，例如对于欧洲地区国家的用户语音语种的识别而言，英文为欧洲地区广泛应用的语种，此时可在共享隐含层的输出层增加预设英文模型的隐含层，为所构建的多语种声学模型提供以英文语种上屏显示的同时，提供兜底效果。

以及，为了避免造成上屏结果频繁变动的问题，可以在确定语种后对上屏结果进行语种替换操作。具体的，如图3所示，多个混合双语模型的高层隐含层分别独立构成混合输出层，此时在确定待识别的语音数据对应的语种后，可以采用待识别的语音数据的语种相应的混合双语模型，对所显示的语音信息以待识别的语音数据对应的语种进行替换显示，具体可基于所识别的语种将所缓存的与该语种相应的混合双语模型的高层隐含层的输出结果，基于此混合双语模型的混合输出层进行softmax计算进行语音信息的输出，对之前以英文显示的上屏信息进行相应替换，实现上屏显示的低耗时以及低时延，提高用户体验。

在实际应用中，可按照与实时语种分类结果匹配的混合双语模型的softmax计算，对上屏显示结果进行相应语种的替换。其中，待识别的语音数据可能是混合语种音频，例如英文+当地语种地点的音频（假设英文+法文），此时可以在确定识别语种后，激活对应的双语混合声学模型，并采用此模型对之前所缓存的缓存输出层的softmax进行计算，实现对每个单词的识别，并将所识别为法文的单词对上屏结果中的单词进行替换。

参照图4，示出了本申请提供的多语种声学模型的应用示意图，所构建的多语种声学模型可应用在对用户的个性化语音进行识别的场景，其所对应的声学语言工作机制，可以分为解码和上屏显示两个阶段。

具体的，在采用所构建的多语种声学模型确定语种之前，能够基于此地区广泛应用的语种相关模型，例如英文声学模型和英文语言模型的工作，解码出流式上屏结果，保证用户体验，且同时可基于多语种声学模型缓存下隐层输出以用于语种判定；在确定语种之后，如图3所示的英文分支不再进行计算，此时可根据语种结果采用相应的混合双语模型进行softmax计算，即通过基于此混合双语模型中基于高层缓存层构成的混合输出层进行softmax计算，以将softmax计算的结果用于上屏结果替换，并同时调用对应语种的语言模型进行正常解码。

用户的语音识别可以表现为在对待识别的语音数据进行解码的过程中，可基于用户IP（Internet Protocol，通信协议）地址以调用对应IP地址所在城市的资源信息与基于多语种声学模型确定的语种信息，提高对待识别的语音数据的识别率。其中，如图4所示，资源可以指的是使用地名训练的额外Ngram模型（一种基于统计语言模型的算法），通用的神经网络NNLM（Nerual Network Language Model）可以基于与所识别的语种对应的整个国家的POI（Point of Interest，兴趣点）地名相关的文本训练得到，而个性化城市级模型，与通用的神经网络NNLM相比，其主要是基于对应城市的地名文本训练的POI数据（少量）得到，且出于计算量和存储的考虑，个性化城市级模型的体积较小，完成对个性化语言模型的构建。

在本应用场景中，可借助所构建的多语种声学模型，基于对用户待识别的语音数据的语种确定，以及用户的资源信息对语言模型进行构建，以便综合采用用户资源信息实现对用户语言的识别，提高语言识别的准确性。

需要说明的是，对于方法，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的均属于优选，所涉及的动作并不一定是本申请所必需的。

参照图5，示出了本申请提供的语音的多语种识别装置的结构框图，具体可以包括如下模块：

多语种声学模型获取模块501，用于获取待识别的语音数据和多语种声学模型；所述多语种声学模型基于多个混合双语模型的共享隐含层融合得到；

置信度生成模块502，用于根据所述待识别的语音数据和所述多语种声学模型，得到针对各语种的置信度；

语种识别模块503，用于基于所述针对各语种的置信度确定所述待识别的语音数据对应的语种。

在语音的多语种识别装置中，所述装置还可以包括如下模块：上屏显示模块，用于解码所述待识别的语音数据，对解码后的语音数据进行实时显示。其中，所述上屏显示模块具体用于在确定所述待识别的语音数据对应的语种之前，解码所述待识别的语音数据并对解码后的语音数据进行预设语种的显示；以及在确定所述待识别的语音数据对应的语种之后，采用与所确定语种对应的混合双语模型对所述待识别的语音数据进行解码，并继续对解码后的语音数据进行所确定语种的替换显示。

在语音的多语种识别装置中，所述多个混合双语模型的隐含层包括按照预设比例区分为底层隐含层和高层隐含层，所述底层隐含层用于合并生成共享隐含层；置信度生成模块502具体用于将待识别的语音数据输入多个混合双语模型的共享隐含层，得到第一输出结果；将所述第一输出结果分别输入所述多个混合双语模型的高层隐含层，得到多个第二输出结果；以及将所述多个第二输出结果合并作为预设语种分类模型的输入项，得到针对各语种的多个置信度。

其中，置信度生成模块502具体可用于将用于表征第二输出结果的多维特征向量按照相应维度拼接，并将拼接后的特征向量作为所述预设语种分类模型的输入项，得到针对不同语种的多个置信度。具体的，在有且仅有一个所述置信度大于预设值时，确定该置信度对应的语种为所述待识别的语音数据对应的语种；或，在存在两个或两个以上置信度大于预设值时，确定所述置信度值最大的对应的语种为待识别的语音数据对应的语种；或，在所述多个置信度均未达到预设值时，将所述置信度值最大的对应的语种为所述待识别的语音数据的语种。

在语音的多语种识别装置中，所述多语种声学模型基于神经网络建立，所述装置还可以包括如下模块：多语种声学模型生成模块，用于基于多个混合双语模型的共享隐含层融合生成多语种声学模型。

其中，多语种声学模型生成模块具体用于将多个混合双语模型的隐含层按照预设比例区分为底层隐含层和高层隐含层，合并所述底层隐含层以生成共享隐含层，其中所述多个混合双语模型为包括多层隐含层的神经网络，所述多个混合双语模型的高层隐含层具有与各个混合双语模型相应的语种特征；在所述共享隐含层的输出层增加预设语种模型的隐含层；将所述具有与各个混合双语模型相应的语种特征的高层隐含层的多个输出层，合并作为预设语种分类模型的输入层构建预设语种分类模型，以及将所述多个混合双语模型的高层隐含层分别独立构成混合输出层，以采用所述共享隐含层、所述预设语种模型的隐含层、所述高层隐含层、所述预设语种分类模型以及所述混合输出层，生成多语种声学模型。

对于装置而言，由于其与方法基本相似，所以描述的比较简单，相关之处参见方法的部分说明即可。

本申请还提供了一种车载终端，包括：

包括上述语音的多语种识别装置、处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述基于语音的多语种识别方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述语音的多语种识别方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个示例均采用递进的方式描述，每个示例重点说明的都是与其他示例的不同之处，各个示例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请示例的可提供为方法、装置、或计算机程序产品。因此，本申请示例可采用完全硬件、完全软件、或结合软件和硬件方面的形式。而且，本申请示例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请示例是参照根据本申请示例的方法、终端设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选示例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些示例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选示例以及落入本申请示例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的语音的多语种识别方法、装置、终端和存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音的多语种识别方法，其特征在于，所述方法包括：

获取待识别的语音数据和多语种声学模型；所述多语种声学模型基于多个混合双语模型的共享隐含层融合得到；其中，所述共享隐含层基于所述多个混合双语模型的底层隐含层合并生成；

根据所述待识别的语音数据和所述多语种声学模型，得到针对各语种的置信度；所述置信度基于所述多个混合双语模型的高层隐含层的输出结果合并输入至预设语种分类模型得到，所述多个混合双语模型的高层隐含层的输出结果基于所述多个混合双语模型的共享隐含层的输出结果输入至所述高层隐含层得到；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述多个混合双语模型的隐含层包括按照预设比例区分为用于合并生成共享隐含层的底层隐含层和高层隐含层；所述根据所述待识别的语音数据和所述多语种声学模型，得到针对各语种的置信度，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述多个第二输出结果合并作为预设语种分类模型的输入项，得到针对各语种的多个置信度，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述针对各语种的置信度确定所述待识别的语音数据对应的语种，包括：

或，若存在两个或两个以上置信度大于预设值，则确定置信度值最大的对应的语种为待识别的语音数据对应的语种；

或，若多个置信度均未达到预设值，则将置信度值最大的对应的语种为所述待识别的语音数据的语种。

6.根据权利要求3所述的方法，其特征在于，所述对解码后的语音数据进行实时显示，包括：

7.根据权利要求6所述的方法，其特征在于，所述多语种声学模型包括预设语种模型，所述在确定所述待识别的语音数据对应的语种之前，解析所述待识别的语音数据并对解析后的语音数据进行预设语种的显示，包括：

8.根据权利要求6所述的方法，其特征在于，所述多个混合双语模型的高层隐含层分别独立构成混合输出层，所述在确定所述待识别的语音数据对应的语种之后，采用与所确定语种对应的混合双语模型对所述待识别的语音数据进行解析，并继续对解析后的语音数据进行所确定语种的显示，包括：

9.根据权利要求1所述的方法，其特征在于，所述多语种声学模型基于神经网络建立，还包括：

在所述共享隐含层的输出层增加预设语种模型的隐含层；

10.一种语音的多语种识别装置，其特征在于，所述装置包括：

多语种声学模型获取模块，用于获取待识别的语音数据和多语种声学模型；所述多语种声学模型基于多个混合双语模型的共享隐含层融合得到；其中，所述共享隐含层基于所述多个混合双语模型的底层隐含层合并生成；

置信度生成模块，用于根据所述待识别的语音数据和所述多语种声学模型，得到针对各语种的置信度；所述置信度基于所述多个混合双语模型的高层隐含层的输出结果合并输入至预设语种分类模型得到，所述多个混合双语模型的高层隐含层的输出结果基于所述多个混合双语模型的共享隐含层的输出结果输入至所述高层隐含层得到；

11.一种车载终端，其特征在于，包括：如权利要求10所述语音的多语种识别装置、处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-9中任一项所述语音的多语种识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述语音的多语种识别方法的步骤。